CN112733768A

CN112733768A - 基于双向特征语言模型的自然场景文本识别方法及装置

Info

Publication number: CN112733768A
Application number: CN202110059600.5A
Authority: CN
Inventors: 张勇东; 方山城; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-04-30
Anticipated expiration: 2041-01-15
Also published as: CN112733768B

Abstract

一种基于双向特征语言模型的自然场景文本识别方法及装置，方法包括将文本图像输入至视觉模型中，得到视觉特征及视觉预测结果；将视觉预测结果输入至语言模型中，进行双向特征提取，得到语言特征；迭代地执行以下操作：将语言特征和视觉特征输入至融合模型中，得到融合预测结果；确定迭代次数是否满足迭代预设阈值；在迭代次数未满足迭代预设阈值的条件下，将融合预测结果输入至语言模型中，进行双向特征提取，得到语言特征；以及在迭代次数满足迭代预设阈值的条件下，将融合预测结果作为最终结果。本发明提出的文本识别方法识别精度高且效率高。

Description

基于双向特征语言模型的自然场景文本识别方法及装置

技术领域

本发明涉及文本识别技术领域，更具体地，涉及一种基于双向特征语言模型的自然场景文本识别方法及装置。

背景技术

拥有从自然场景图像中阅读文本的能力对实现人工智能来说至关重要。为此，早期的方法将文本识别中的字符当作没有意义的符号，并通过计算机视觉模型进行分类。然而，这样的方法在复杂的场景，如包含模糊、噪声、遮挡等的环境中效果较差。因而，不少方法尝试引入语言先验知识进行识别，并取得了较好的效果。

当前基于语言模型的文本识别方法：1)其语言模型从结构上来看均为单向语言模型。尽管有些方法使用一个前向及一个反向语言模型进行集成得到双向的语言模型，但该模型从特征提取角度来说依然是单向的特征表达。然而，单向语言模型的特征表达能力较差，并且计算量较大。2)当前的文本识别方法在语言模型的建模方面均以隐性语言建模为主，导致语言模型的建模能力及可解释性较差。而传统的n-gram语言模型虽然为显性建模，但却做不到端到端训练。3)当前的语言模型难以实现迭代修正的方法。

发明内容

有鉴于此，本发明的主要目的是提供一种基于双向特征语言模型的自然场景文本识别方法及装置，以期至少部分地解决上述提及的技术问题中的至少之一。

为实现上述目的，本发明所采用的技术方案包括：

作为本发明的一个方面，提供一种基于双向特征语言模型的自然场景文本识别方法，包括：

将文本图像输入至文本识别网络的视觉模型中，得到视觉特征及视觉预测结果；其中，所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果；

将所述视觉预测结果输入至所述文本识别网络的语言模型中，进行双向特征提取，得到语言特征；

迭代地执行以下操作：

将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中，得到融合预测结果；

确定迭代次数是否满足迭代预设阈值；

在所述迭代次数未满足所述迭代预设阈值的条件下，将所述融合预测结果输入至所述语言模型中，进行双向特征提取，得到所述语言特征；以及

在所述迭代次数满足所述迭代预设阈值的条件下，将所述融合预测结果作为最终结果。

作为本发明的另一个方面，还提供一种基于双向特征语言模型的自然场景文本识别装置，包括：

视觉处理模块，用于将文本图像输入至文本识别网络的视觉模型中，得到视觉特征及视觉预测结果；其中，所述视觉预测结果表征所述文本图像中的每个字符对应的预测结果；

语言处理模块，用于将所述视觉预测结果输入至所述文本识别网络的语言模型中，进行双向特征提取，得到语言特征；

融合处理模块，用于迭代地执行以下操作：

确定迭代次数是否满足迭代预设阈值；

确定模块，在所述迭代次数满足所述迭代预设阈值的条件下，将所述融合预测结果作为最终结果。

基于上述技术方案，本发明的基于双向特征语言模型的自然场景文本识别方法及装置具有以下积极效果：

1、通过注意力掩码实现双向的特征提取，从而达到增强特征表达能力、减少计算量的技术效果；

2、通过将概率向量作为语言模型及融合模型的输入，以及在训练过程中阻塞视觉模型与语言模型之间的梯度传播，实现显性的建模方式，增强文本识别网络的语言建模能力及可解释性；

3、通过语言模型的迭代修正方法，提高文本识别网络的识别精度；

4、通过使用半监督的算法，能够将未标注的图像文本用于训练文本识别网络。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了本发明的基于双向特征语言模型的自然场景文本识别方法流程图；

图2示意性示出了本发明的基于双向特征语言模型的自然场景文本识别装置示意图；

图3示意性示出了本发明的文本识别网络结构示意图；

图4示意性示出了本发明的视觉模型结构示意图；

图5示意性示出了本发明的语言模型结构示意图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

作为本发明的一个方面，提供一种基于双向特征语言模型的自然场景文本识别方法，参照图1，包括操作S101～操作S104。

S101、将文本图像输入至文本识别网络的视觉模型中，得到视觉特征及视觉预测结果；其中，视觉预测结果表征文本图像中的文本信息对应的预测结果；

S102、将视觉预测结果输入至文本识别网络的语言模型中，进行双向特征提取，得到语言特征；

迭代地执行以下操作：

S103、将语言特征和视觉特征输入至文本识别网络的融合模型中，得到融合预测结果；

S104、确定迭代次数是否满足迭代预设阈值；

S105、在迭代次数未满足迭代预设阈值的条件下，将融合预测结果输入至语言模型中，进行双向特征提取，得到语言特征；

S106、在迭代次数满足迭代预设阈值的条件下，将融合预测结果作为最终结果。

根据本发明的实施例，通过将融合预测结果输入至语言模型中进行多次迭代，提高了文本识别网络的识别精度。

根据本发明的可选实施例，迭代次数可以为多次，例如3次、4次或者更多。

根据本发明的实施例，通常迭代次数越多，文本识别的精度越高，但是，迭代次数越多，耗费时间也相对而言更长，并且，迭代超过一定次数后，识别精度提升将不再明显提升。

根据本发明的实施例，视觉预测结果、语言预测结果及融合预测结果可以为概率向量。

根据本发明的实施例，视觉特征、语言特征及融合特征可以为512维的特征向量。

根据本发明的实施例，可以采用贪心解码的方式，根据融合预测结果得出最终结果。作为示例，融合模型输出的概率向量可以如下：{X∶P|0∶0.02；1∶0.03；2∶0.01；3∶0.01；4∶0.01；5∶0.02；6∶0.03；7∶0.5；8∶0.1；9∶0.27；}。根据本发明的实施例，X与P可以表示融合模型预测的数字及数字对应的概率值，通过贪心解码，即选择最大概率值对应的结果作为输出值，根据融合模型输出的概率向量，可以得到最终结果为7。需要说明的是，上述示例仅用于帮助理解本发明，而不对本发明做任何限定。

根据本发明的实施例，语言模型包括多头注意力模块，多头注意力模块包括注意力掩码矩阵；其中，多头注意力模块利用注意力掩码矩阵控制视觉预测结果或者融合预测结果的双向特征访问。

根据本发明的实施例，注意力掩码矩阵通过mask的方法避免看到当前字符，且同时访问该字符左边及右边的信息，并综合左边及右边的信息同时做出预测。

根据本发明的实施例，语言模型和视觉模型之间通过梯度阻塞的方式实现视觉模型和语言模型的分离；视觉模型输出的视觉预测结果为概率向量；语言模型输出的语言预测结果为概率向量；融合模型输出的融合预测结果为概率向量。

根据本发明的实施例，视觉模型的输出概率向量到语言模型的输入概率向量，通过梯度阻塞的方式使得视觉模型与语言模型进行分离，进而实现视觉模型与语言模型作为独立的个体进行训练，即实现显性的语言建模。

根据本发明的实施例，将视觉预测结果或者融合预测结果输入至文本识别网络的语言模型中，进行双向特征提取，得到语言特征包括操作S201～S204。

S201、利用概率映射将视觉预测结果或者融合预测结果进行处理，得到字符特征向量；

S202、获取文本图像的字符位置特征向量；

S203、利用注意力掩码矩阵对视觉预测结果或者融合预测结果进行掩码处理，得到双向表达特征向量；

S204、将字符特征向量、字符位置特征向量和双向表达特征向量输入至语言特征模型的多层堆叠的多头注意力模块中，得到语言预测结果。

根据本发明的实施例，多层堆叠的多头注意力模块的层数可以为4层。

根据本发明的实施例，通过使用注意力掩码矩阵通过完形填空的方式建模语言模型，由此可仅使用单一模型而非集成模型获取文本数据的双向特征表达，实现减少语言模型的计算量以及增强特征表达能力的技术效果。

根据本发明的实施例，文本识别网络通过以下操作S301～S303训练。

S301、获取训练样本数据集；其中，训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集；

S302、搭建初始文本识别网络和损失函数；其中，视觉模型与语言模型梯度阻塞；

S303、利用训练样本数据集和损失函数训练初始文本识别网络，得到文本识别网络。

根据本发明的实施例，通过在训练过程中，构建的视觉模型的输出为概率向量，语言模型的输入为概率向量，并在视觉模型的输出及语言模型的输入部分阻塞梯度的传播，进而实现有效地可端到端训练的显性语言模型，增强文本识别网络的语言建模能力及可解释性的技术效果。

根据本发明的实施例，利用训练样本数据集和损失函数训练初始文本识别网络，得到文本识别网络包括操作S401～S404。

S401、利用有标注文本图像数据集中的训练样本和损失函数训练初始文本识别网络，得到预训练文本识别网络；

S402、将无标注文本图像数据集中的无标注文本图像输入至预训练文本识别网络中，得到无标注文本图像的伪标签；

S403、对无标注文本图像的伪标签进行筛选处理，确定满足预设筛选条件的伪标签，并将满足预设筛选条件的伪标签的无标注文本图像和伪标签作为优化训练样本；

S404、利用优化训练样本训练预训练文本识别网络，得到文本识别网络。

根据本发明的实施例，通过使用半监督的算法，能够将未标注的图像文本用于训练文本识别网络。

根据本发明的实施例，预设筛选条件包括：

无标注文本图像的伪标签最小置信度C大于等于置信度阈值；

其中，伪标签最小置信度C的表达式如下：

其中，P_m(y_t)为第k个字符在迭代修正语言模型中第m轮的概率分布。

根据本发明的实施例，损失函数包括：

其中，

为分别为视觉模型，语言模型及融合模型的交叉熵损失；其中

分别为第i轮的损失，λ_v及λ_l为视觉模型和语言模型的平衡因子。

根据本发明的实施例，语言融合模型包括融合函数，其中，融合函数表达式如下：

G＝σ([F_v，F_l]W_f)； (4)

F_f＝G⊙F_v+(1-G)⊙F_l； (5)

其中，F_v为视觉模型输出的视觉特征；F_l为语言模型输出的语言特征；F_f为语言融合模型输出的融合特征；W_f∈R^2C×C、G∈R^T×C以及σ(·)为sigmoid函数。

如图2所示，作为本发明的另一个方面，还提供一种基于双向特征语言模型的自然场景文本识别装置200，包括视觉处理模块210、语言处理模块220、融合处理模块230及确定模块240。

视觉处理模块210，用于将文本图像输入至文本识别网络的视觉模型中，得到视觉特征及视觉预测结果；其中，视觉预测结果表征文本图像中的每个字符对应的预测结果；

语言处理模块220，用于将视觉预测结果输入至文本识别网络的语言模型中，进行双向特征提取，得到语言特征；

融合处理模块230，用于迭代地执行以下操作：

将语言特征和视觉特征输入至文本识别网络的融合模型中，得到融合预测结果；

确定迭代次数是否满足迭代预设阈值；

在迭代次数未满足迭代预设阈值的条件下，将融合预测结果输入至语言模型中，进行双向特征提取，得到语言特征；以及

确定模块240，在迭代次数满足迭代预设阈值的条件下，将融合预测结果作为最终结果。

需要说明的是，本发明的实施例中基于双向特征语言模型的自然场景文本识别装置部分与本发明的实施例中基于双向特征语言模型的自然场景文本识别方法部分是相对应的，基于双向特征语言模型的自然场景文本识别装置部分的描述具体参考基于双向特征语言模型的自然场景文本识别方法部分，在此不再赘述。

下面结合具体实施例对本发明的技术方案作进一步说明，但需要注意的是，下述的实施例仅用于说明本发明的技术方案，但本发明并不限于此。

本发明的主要目的为解决自然场景文本识别在图像质量较低时效果不够好的问题。

本发明提出一种基于双向特征语言模型的自然场景文本识别方法，通过将语言模型设计为利用独立且显性的方式建模、双向的特征提取方法以及迭代的修正方法，实现相比于其他语言建模方法效果更佳的方法。此外，本方法的文本识别网络结构具有并行计算的特点，因而相比传统RNN(Recurrent Neural Network，循环神经网络)的方法，其速度上更具有优势。

图3示意性示出了本发明的文本识别网络结构示意图。如图3所示，对于给定的一张文本图像，首先视觉模型从文本图像中提取视觉特征，并根据视觉特征进行预测，得到视觉预测结果。其次，将视觉预测结果输入至语言模型，语言模型提取语言特征并进行预测，得到语言预测结果。此处视觉模型到语言模型之间，在训练阶段进行梯度阻塞，因而语言模型的训练梯度不会影响视觉模型的训练。最后，融合模型中，将从视觉模型中提取的视觉特征及从语言模型中提取的语言特征进行融合，并得到融合预测结果。最后，融合模型的融合预测结果进一步输入至语言模型，得到下一轮的融合预测结果。将反复多轮之后的融合预测结果作为最终的输出结果。

1.视觉模型

图4示意性示出了本发明的视觉模型的结构示意图。如图4所示，视觉模型由主干网络Backbone与注意力模块Position Attention组成。其中，主干网络Backbone为

与

的组合，负责图像特征的提取。因此，对于输入文本图像x，有如下表达：

其中，H，W为图像x的高和宽，C′为视觉模型中的特征维度，默认设置为512。ResNet的下采样倍数为4倍。

注意力模块以并行的方式提取每个字符的特征，通过基于查询的方式实现：

其中，Q′∈R^T×C为查询向量，是字符位置序号的编码；T为字符序列的长度；

为键向量，其中

由一个4层小型U-Net网络实现，其通道数为64；

为值向量，其中

为恒等映射。

视觉模型中，ResNet网络的层数为45层(3*3的卷积层数)，包含5个残差块。每个残差块可以分别包含3，4，6，6，3个残差层。其中，在第1个和第3个残差块后边执行下采样。视觉模型中的U-Net网络为编码器、解码器，其中，编码器、解码器可以分别为4层的小型网络，该网络通道数可以为64，使用元素级相加进行融合，使用插值的方法进行上采样。视觉模型中Transformer的层数可以为3层。

2.语言模型

图5示意性示出了本发明的语言模型的结构示意图。总体上，语言模型是一个L层的Transformer decoder的变种。该语言模型的每一层由一系列的多头注意力模块(Multi-Head Attention)及feed-forward网络构成，并配有残差连接及层归一化layernormalization方法。该语言模型不同于传统的Transformer网络，具体区别说明如下。

(1)该语言模型以字符位置序号编码作为输入，为非字符特征向量。而字符特征向量直接传入多头注意力模块。该语言模型通过多头注意力模块中的注意力掩码矩阵控制字符信息的访问。

(2)对于第t个时间步的字符来说，注意力掩码矩阵通过mask的方法避免看到当前字符，且实现同时访问该字符左边及右边的信息，并综合左边及右边的信息同时做出预测。

(3)为了避免信息泄露，传统Transformer中的自注意模块self-attention并没有在该网络中使用，这样避免了跨时间步上的信息访问。

综上，以上计算过程可由下公式形式化描述：

K_i＝V_i＝P(y_i)W_l； (9)

其中，Q∈R^T×C在第一层为字符位置序号编码向量，在其他层为上一层的输出向量；K，V∈R^T×C由字符概率P(y_i)∈R^c及线性映射矩阵W_l∈R^c×C计算而得；M∈R^T×T为注意力掩码矩阵，其控制字符信息的访问。

以上网络层通过深层叠加之后得到语言模型，该语言模型可获取输入文本序列的双向特征表达。该双向特征表达的核心为，使用注意力掩码矩阵模拟完型填空的方式建模语言模型，由此可仅使用单一模型而非集成模型获取文本数据的双向特征表达。此外，该语言模型的每个时间步的计算均为独立且并行的，因此具有高效的特点。

语言模型中网络层数可以为4层，且多头注意力模块中注意力头的个数可以为8个。

如图3所示，视觉模型与语言模型的交互方式为视觉模型的预测概率分布直接作为语言模型的输入。语言模型的输入为概率向量，使用线性函数实现概率映射ProbabilityMapping。其中，一个核心的点为视觉模型的输出概率向量到语言模型的输入概率向量，通过梯度阻塞的方式使得视觉模型跟语言模型进行分离，进而实现两个模型作为独立的功能个体进行学习，即实现显性地语言建模型。

语言模型采用迭代修正的方式执行，其直观描述如图1所示。算法具体描述如表1所示：

表1迭代语言模型方法

3.融合模型

视觉模型提取的视觉特征F_v，以及语言模型提取的语言特征F_l通过如下公式进行融合，最后得到融合特征F_f，并基于此得到融合预测结果。

G＝σ([F_v，F_l]W_f)； (4)

F_f＝G⊙F_v+(1-G)⊙F； (5)

其中，W_f∈R^2C×C，G∈R^T×C以及σ(·)为sigmoid函数。

4.训练损失函数

文本识别网络中的视觉模型、语言模型及融合模型通过端到端的方式进行训练。在获取视觉特征F_v、语言特征F_l及融合特征F_f后，如图3所示分别使用线性层Linear及Softmax函数获得对应部分的预测概率。最终，训练目标损失函数如下：

其中，

分别为来自视觉模型、语言模型及融合模型的交叉熵损失；其中

为第i轮训练的损失，λ_v及λ_l为损失函数间平衡因子，平衡因子λ_v及λ_l均设置为1。

5.半监督训练方法

根据迭代的预测结果，本方法额外使用如表2描述的半监督学习方法。该方法基于自学习思想，即首先通过有监督数据训练好模型，再通过训练好的模型在无标注数据上产生该数据的伪标签，最后通过一定方法过滤伪标签得到无标注数据的标签，用于模型的训练。详细算法描述如表1所示。标签过滤方法如下公式所示：

其中，c为一文本实例的最小置信度，其考虑一个文本串内最小置信的的字符作为整个字符串的代表；P_m(y_t)为第k个字符在迭代修正语言模型中第m轮的概率分布；其中阈值Q的取值为0.9。B_l，B_u的batch size大小分别为256及128；N_max为最大的训练迭代数，N_upl为产生伪标签的更新轮数。

表2示意性示出了半监督集成自学习方法的执行步骤：

表2半监督集成自学习方法

本方法在常用数据集上的精度如表3所示，其中SVT为Street View Text数据集，IIIT5K为IIIT 5K-word数据集，IC13为ICDAR 2013数据集，IC15为ICDAR 2015数据集，SVTP为Street View Text-Perspective数据集，CUTE为CUTE80数据集。以上有监督训练的结果为在MJSynth90k及SynthText数据集上的结果，半监督训练额外使用不含标注的Uber-Text数据集。

表3常用数据集上的精度

通过使用有标注的文本图像预训练文本识别网络，再使用半监督算法，从而可以使用不含标注的文本图像用于训练与训练好的文本识别网络，大大节省了人工对图像进行标注的成本。

在文本识别网络的训练过程中，输入图像直接缩放至32×128的大小，并使用几何形变(旋转、仿射变换、射影变换)、图像质量退化及颜色转换等方法进行数据增广。训练的batch size大小为384。文本识别网络使用ADAM优化算法进行优化，其初始学习率为1e^-3，并在训练的第6个epoch之后缩减至1e^-4直至收敛。

综上所述，本发明的关键点有：

1.提出了一种基于双向特征建模的语言模型结构。该结构给定一串文本字符串，可以预测该文本字符串矫正的概率，并结合视觉模型进行端到端文本识别。

2.提出了一种解耦视觉模型及语言模型的方法。该方法通过设计视觉模型的输出为概率向量，语言模型的输入为概率向量，并在视觉模型的输出及语言模型的输入部分阻塞梯度的传播，进行实现有效的可端到端训练的显性语言模型。

3.提出了一种可迭代修正融合模型预测结果的方法。该方法通过将融合模型的输出结果，多次输入至语言模型进行矫正，得到最后的识别结果。

4.提出了一种基于ResNet、Transformer以及Position Attention的双向特征语言模型的自然场景文本识别网络。

5.通过显性建模语言规则及迭代修正，实现高精度且高效的自然场景文本识别方法。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种基于双向特征语言模型的自然场景文本识别方法，其特征在于，包括：

迭代地执行以下操作：

确定迭代次数是否满足迭代预设阈值；

2.根据权利要求1所述的方法，其特征在于，

所述语言模型包括多头注意力模块，所述多头注意力模块包括注意力掩码矩阵；

其中，所述多头注意力模块利用注意力掩码矩阵控制所述视觉预测结果或者融合预测结果的双向特征访问。

3.根据权利要求1或2所述的方法，其特征在于，

所述语言模型和所述视觉模型之间通过梯度阻塞的方式实现所述视觉模型和所述语言模型的分离；

所述视觉模型输出的所述视觉预测结果为概率向量；

所述语言模型输出的所述语言预测结果为概率向量；

所述融合模型输出的所述融合预测结果为概率向量。

4.根据权利要求2所述的方法，其特征在于，

将所述视觉预测结果或者所述融合预测结果输入至所述文本识别网络的语言模型中，进行双向特征提取，得到语言特征包括：

利用概率映射将所述视觉预测结果或者所述融合预测结果进行处理，得到字符特征向量；

获取所述文本图像的字符位置特征向量；

利用所述注意力掩码矩阵对所述视觉预测结果或者融合预测结果进行掩码处理，得到双向表达特征向量；

将所述字符特征向量、字符位置特征向量和所述双向表达特征向量输入至所述语言特征模型的多层堆叠的多头注意力模块中，得到语言预测结果。

5.根据权利要求1所述的方法，其特征在于，

所述文本识别网络通过以下操作训练：

获取训练样本数据集；其中，所述训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集；

搭建初始文本识别网络和损失函数；其中，所述视觉模型与所述语言模型梯度阻塞；以及

利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络，得到所述文本识别网络。

6.根据权利要求5所述的方法，所述利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络，得到所述文本识别网络包括：

利用所述有标注文本图像数据集中的训练样本和所述损失函数训练所述初始文本识别网络，得到预训练文本识别网络；

将所述无标注文本图像数据集中的无标注文本图像输入至所述预训练文本识别网络中，得到所述无标注文本图像的伪标签；

对所述无标注文本图像的伪标签进行筛选处理，确定满足预设筛选条件的伪标签，并将所述满足预设筛选条件的伪标签的无标注文本图像和所述伪标签作为优化训练样本；

利用所述优化训练样本训练所述预训练文本识别网络，得到文本识别网络。

7.根据权利要求6所述的方法，其中，所述预设筛选条件包括：

所述无标注文本图像的伪标签最小置信度C大于等于置信度阈值；

其中，所述伪标签最小置信度C的表达式如下：

8.根据权利要求4所述的方法，其中，所述损失函数包括：

其中，

9.根据权利要求1所述的方法，其特征在于，

所述语言融合模型包括融合函数，其中，所述融合函数表达式如下：

G＝σ([F_v，F_l]W_f)；

F_f＝G⊙F_v+(1-G)⊙F_l；

10.一种基于双向特征语言模型的自然场景文本识别装置，其特征在于，包括：

融合处理模块，用于迭代地执行以下操作：

确定迭代次数是否满足迭代预设阈值；