CN114092939A

CN114092939A - 文本识别以及文本识别模型的训练方法和存储介质、设备

Info

Publication number: CN114092939A
Application number: CN202111435721.1A
Authority: CN
Inventors: 杨必韬
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-25

Abstract

本公开实施例公开了一种文本识别以及文本识别模型的训练方法和存储介质、设备，其中，方法包括：对待识别图像进行特征提取，得到第一特征；基于所述第一特征，确定所述待识别图像对应的全局语义特征；对所述第一特征进行处理，得到第二特征；基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果；本实施例通过全局语义特征和第二特征确定文本识别结果，提升了对印章等弯曲文本的识别准确率。

Description

文本识别以及文本识别模型的训练方法和存储介质、设备

技术领域

本公开涉及文本识别技术领域，尤其是一种文本识别以及文本识别模型的训练方法和存储介质、设备。

背景技术

OCR是一项将图片上的文字信息转换成可存储的结构化信息的技术。在实际应用场景中，例如，房产交易过程中，会有大量的文件需要进行审核以及录入，除了常规的水平文本之外，现在对印章的文字识别需求也逐渐增多。现有技术中的经典文字识别算法中，大多数算法都是针对水平文本行进行处理的，对印章这类弯曲文本识别效果并不好。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种文本识别以及文本识别模型的训练方法和存储介质、设备。

根据本公开实施例的一个方面，提供了一种文本识别方法，包括：

对待识别图像进行特征提取，得到第一特征；

基于所述第一特征，确定所述待识别图像对应的全局语义特征；

对所述第一特征进行处理，得到第二特征；

基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果。

可选地，所述基于所述第一特征，确定所述待识别图像对应的全局语义特征，包括：

对所述第一特征执行最大池化操作，得到在一个维度上被压缩的第三特征；

利用神经网络编码器对所述第三特征进行编码处理，变更所述第三特征中的通道数，得到所述全局语义特征。

可选地，所述利用神经网络编码器对所述第三特征进行编码处理，变更所述第三特征中的通道数，得到所述全局语义特征，包括：

将所述第三特征分解为多个子特征；

将所述多个子特征分别输入所述神经网络编码器包括的多个时间步中，基于所述多个时间步中的预设时间步输出所述全局语义特征。

可选地，所述对所述第一特征处理，得到第二特征，包括：

利用二维注意力模型对所述第一特征进行处理，得到所述第二特征。

可选地，所述基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果，包括：

基于所述全局语义特征作为神经网络解码器初始隐藏层的输入；

将所述第二特征作为所述神经网络解码器的数据输入，确定至少一个子识别结果；其中，每个所述子识别结果对应一个预测文字；

基于多个所述子识别结果，得到所述文本识别结果。

可选地，所述将所述第二特征作为所述神经网络解码器的数据输入，确定至少一个子识别结果，包括：

将所述第二特征分解为至少一个一维的输入向量，将所述至少一个输入向量中的每个输入向量依次输入所述神经网络解码器中的至少一个时间步；

基于所述至少一个时间步输出所述至少一个子识别结果；其中，每个所述时间步对应一个子识别结果。

可选地，所述基于所述至少一个时间步输出所述至少一个子识别结果，包括：

针对所述至少一个时间步中的每个时间步，将所述时间步输出的特征向量与所述时间步对应的隐藏状态向量拼接，得到拼接向量；

基于全连接层对所述拼接向量进行处理，得到所述子识别结果。

可选地，所述基于所述全局语义特征作为神经网络解码器初始隐藏层的输入，包括：

确定所述全局语义特征的维度与所述第二特征的维度是否一致；

响应于所述全局语义特征的维度与所述第二特征的维度一致，基于所述全局语义特征作为神经网络解码器初始隐藏层的输入；

响应于所述全局语义特征的维度与所述第二特征的维度不一致，通过全连接层将所述全局语义特征的维度变更为与所述第二特征的维度一致，并将维度变更后的全局语义特征作为神经网络解码器初始隐藏层的输入。

根据本公开实施例的另一方面，提供了一种文本识别模型的训练方法，包括：

将样本图像集中的样本图像输入文本识别模型中的特征提取子模型进行特征提取，得到第一预测特征；其中，所述样本图像集中包括多个样本图像，每个所述样本图像对应已知文本识别结果；

基于所述文本识别模型中的神经网络编码器对所述第一预测特征进行处理，得到预测全局语义特征；

基于所述文本识别模型中的二维自注意力子模型对所述第一预测特征进行处理，得到第二预测特征；

利用所述文本识别模型中的神经网络解码器，基于所述预测全局语义特征和所述第二预测特征，确定预测文本识别结果；

基于所述预测文本识别结果和已知文本识别结果，确定网络损失；

基于所述网络损失对所述文本识别模型进行训练。

根据本公开实施例的又一方面，提供了一种文本识别装置，包括：

特征提取模块，用于对待识别图像进行特征提取，得到第一特征；

全局语义模块，用于基于所述第一特征，确定所述待识别图像对应的全局语义特征；

第二特征模块，用于对所述第一特征进行处理，得到第二特征；

文本识别模块，用于基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果。

可选地，所述全局语义模块，具体用于对所述第一特征执行最大池化操作，得到在一个维度上被压缩的第三特征；利用神经网络编码器对所述第三特征进行编码处理，变更所述第三特征中的通道数，得到所述全局语义特征。

可选地，所述全局语义模块在利用神经网络编码器对所述第三特征进行编码处理，变更所述第三特征中的通道数，得到所述全局语义特征时，用于将所述第三特征分解为多个子特征；将所述多个子特征分别输入所述神经网络编码器包括的多个时间步中，基于所述多个时间步中的预设时间步输出所述全局语义特征。

可选地，所述第二特征模块，具体用于利用二维注意力模型对所述第一特征进行处理，得到所述第二特征。

可选地，所述文本识别模块，包括：

隐藏层输入单元，用于基于所述全局语义特征作为神经网络解码器初始隐藏层的输入；

子识别单元，用于将所述第二特征作为所述神经网络解码器的数据输入，确定至少一个子识别结果；其中，每个所述子识别结果对应一个预测文字；

结果确定单元，用于基于多个所述子识别结果，得到所述文本识别结果。

可选地，所述子识别单元，具体用于将所述第二特征分解为至少一个一维的输入向量，将所述至少一个输入向量中的每个输入向量依次输入所述神经网络解码器中的至少一个时间步；基于所述至少一个时间步输出所述至少一个子识别结果；其中，每个所述时间步对应一个子识别结果。

可选地，所述子识别单元在基于所述至少一个时间步输出所述至少一个子识别结果时，用于针对所述至少一个时间步中的每个时间步，将所述时间步输出的特征向量与所述时间步对应的隐藏状态向量拼接，得到拼接向量；基于全连接层对所述拼接向量进行处理，得到所述子识别结果。

可选地，所述隐藏层输入单元，具体用于确定所述全局语义特征的维度与所述第二特征的维度是否一致；响应于所述全局语义特征的维度与所述第二特征的维度一致，基于所述全局语义特征作为神经网络解码器初始隐藏层的输入；响应于所述全局语义特征的维度与所述第二特征的维度不一致，通过全连接层将所述全局语义特征的维度变更为与所述第二特征的维度一致，并将维度变更后的全局语义特征作为神经网络解码器初始隐藏层的输入。

根据本公开实施例的还一方面，提供了一种文本识别模型的训练装置，包括：

第一预测模块，用于将样本图像集中的样本图像输入文本识别模型中的特征提取子模型进行特征提取，得到第一预测特征；其中，所述样本图像集中包括多个样本图像，每个所述样本图像对应已知文本识别结果；

编码器模块，用于基于所述文本识别模型中的神经网络编码器对所述第一预测特征进行处理，得到预测全局语义特征；

自注意力模块，用于基于所述文本识别模型中的二维自注意力子模型对所述第一预测特征进行处理，得到第二预测特征；

解码器模块，用于利用所述文本识别模型中的神经网络解码器，基于所述预测全局语义特征和所述第二预测特征，确定预测文本识别结果；

损失确定模块，用于基于所述预测文本识别结果和已知文本识别结果，确定网络损失；

网络训练模块，用于基于所述网络损失对所述文本识别模型进行训练。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的方法。

基于本公开上述实施例提供的一种文本识别以及文本识别模型的训练方法和存储介质、设备，对待识别图像进行特征提取，得到第一特征；基于所述第一特征，确定所述待识别图像对应的全局语义特征；对所述第一特征进行处理，得到第二特征；基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果；本实施例通过全局语义特征和第二特征确定文本识别结果，提升了对印章等弯曲文本的识别准确率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的文本识别方法的流程示意图。

图2是本公开图1所示的实施例中步骤104的一个流程示意图。

图3是本公开图1所示的实施例中步骤108的一个流程示意图。

图4是本公开一示例性实施例提供的文本识别模型的训练方法的流程示意图。

图5是本公开一示例性实施例提供的文本识别装置的结构示意图。

图6是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。本公开中所指数据可以包括文本、图像、视频等非结构化数据，也可以是结构化数据。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一示例性实施例提供的文本识别方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，对待识别图像进行特征提取，得到第一特征。

本实施例中，待识别图像中包括至少一个文字，为了实现对待识别图像中的文字进行识别，可选地，可通过任意现有特征提取网络(例如，残差卷积神经网络ResNet)对待识别图像进行特征提取，以得到表现待识别图像的视觉特征的第一特征，可选地，第一特征可以为特征图，例如，表示成(B,C,H,W)的特征图；其中，B代表处理的特征图的个数，C代表特征图的通道数，H代表特征图的高度，W代表特征图的宽度。

步骤104，基于第一特征，确定待识别图像对应的全局语义特征。

在一实施例中，可通过神经网络编码器对第一特征进行处理，得到体现待识别图像中抽象的全局语义信息的全局语义特征。

步骤106，对第一特征进行处理，得到第二特征。

可选地，第二特征可以为二维特征，本实施例中的第二特征相对于现有的文本识别中涉及的一维特征，还包括另一维度的信息，例如，从一维特征改进为二维特征图，除了宽度信息还包括高度信息，克服了通常文本识别方法中只能基于一个方向的信息确定水平行文本内容的问题，通过加入另一维度的信息提高了对弯曲文本的识别准确性。

步骤108，基于全局语义特征和第二特征，确定待识别图像中包括的至少一个文字的文本识别结果。

本实施例中结合全局语义特征和表征了两个维度特征的第二特征，确定文本识别结果，解决了现有技术无法实现弯曲文本识别的问题，并提升了对印章等弯曲文本的识别准确率，本实施例中的弯曲文本除了包括印章，还可以包括朝向不规则的切斜文本等。

本公开上述实施例提供的一种文本识别方法，对待识别图像进行特征提取，得到第一特征；基于所述第一特征，确定所述待识别图像对应的全局语义特征；对所述第一特征进行处理，得到第二特征；基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果；本实施例通过全局语义特征和第二特征确定文本识别结果，提升了对印章等弯曲文本的识别准确率。

如图2所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，对第一特征执行最大池化操作，得到在一个维度上被压缩的第三特征。

本实施例可通过最大池化层实现对第一特征在一个维度进行压缩，例如，将第一特征图在高度方向上压缩为1，相当于对第一特征在一个维度上执行归一化，可选地，当第一特征表示为(B,C,H,W)的特征图，此时第三特征可表示为(B,C,1,W)，通过压缩高度方向的数值，提升了识别效率。

步骤1042，利用神经网络编码器对第三特征进行编码处理，变更第三特征中的通道数，得到全局语义特征。

可选地，本实施例中的神经网络编码器可以为LSTM Encoder(长短期记忆网络编码器)，本实施例通过LSTM进行自回归，通过LSTM编码器的最后一个时间步的输入作为全局语义特征；可选地，在LSTM输出层会改变通道的个数，例如，将表示为(B,C,1,W)的第三特征变成(B,D,1,W)表示的全局语义特征。

可选地，上述实施例中的步骤1042还可以包括：

将第三特征分解为多个子特征；

其中，对于第三特征的分解可以通过在高度上压缩后的第三特征从宽度上分解为多个宽度为1的子特征，例如，对第三特征(B,C,1,W)进行分解，得到W个子特征(B,C,1,1)。

将多个子特征分别输入神经网络编码器包括的多个时间步中，基于多个时间步中的预设时间步输出全局语义特征。

例如，将多个子特征按序输入到多个时间步中，每个子特征对应一个时间步；预设时间步可以为神经网络编码器中的最后一个时间步。

本实施例中，由LSTM包括多个时间步的结构特性决定了需要多个输入，因此，本实施例将第三特征分解为多个子特征，并将每个子特征输入到LSTM编码器中的一个时间步中，因此，需要第三特征的宽度与LSTM编码器的时间步数量相对应，可选地，经过训练的LSTM编码器的时间步的数量可以固定，此时可通过在第三特征输入到LSTM编码器之前对第一特征或待识别图像执行缩放，以使第三特征的宽度值与LSTM编码器的时间步相对应，实现每个子特征对应一个时间步的技术效果，并且以最后一个时间步输入全局语义特征。

可选地，步骤106可以包括：

利用二维注意力模型对第一特征进行处理，得到第二特征。

本实施例中，通过二维注意力模型对第一特征进行处理，相对于现有技术中的注意力机制增加了高度信息；通过采用二维注意力机制(2D attention)文字识别算法，一方面简化算法的模型结构，另一方面提升对印章等弯曲文本的识别准确率。

如图3所示，在上述图1所示实施例的基础上，步骤108可包括如下步骤：

步骤1081，基于全局语义特征作为神经网络解码器初始隐藏层的输入。

步骤1082，将第二特征作为神经网络解码器的数据输入，确定至少一个子识别结果。

其中，每个子识别结果对应一个预测文字。

步骤1083，基于多个子识别结果，得到文本识别结果。

本实施例中，神经网络解码器可采用LSTM Decoder(长短期记忆网络解码器)，由LSTM的网络结构可知，本实施例中的输入包括上一时间步的隐藏层输出作为隐藏层输入、数据输入和上一时间步的输出作为输入，现有技术中通常初始隐藏层的输入为空，本实施例将全局语义特征作为神经网络解码器的初始隐藏层输入，通过加入全局语义特征提升了神经网络解码器每个时间步输出的子识别结果的准确性；其中，本实施例中应用的神经网络解码器中的时间步数量与待识别图像中包括的文字数量对应，因此当在下一个时间步识别到终止符(在第二特征中最后包括终止符)时停止下一个时间步的处理，通过每个时间步输出一个子识别结果，连接每个子识别结果，得到文本识别结果。

可选地，上述实施例的基础上，步骤1082还可以包括：

将第二特征分解为至少一个一维的输入向量，将至少一个输入向量中的每个输入向量依次输入神经网络解码器中的至少一个时间步；

基于至少一个时间步输出至少一个子识别结果。

其中，每个时间步对应一个子识别结果。

本实施例中，第二特征为一个二维特征，例如，二维特征图，在输入到神经网络解码器的时间步之前，将二维特征分解为一维的输入向量，本实施例实现每个时间步对输入向量和隐藏层的输入执行线性加权；具体每个时间步的输出可基于以下公式表达：

g_t＝∑_i，jα_ijv_ij 公式(3)

其中，i的取值为[1,H]，j的取值为[1,W]，H代表特征图的高度，W代表特征图的宽度，对应本实施例中第二特征的特征图为(B,H,W)，该特征图为多通道特征，B表示处理的特征图的数量，每个第二特征为(H,W)；v_ij表示第二特征(特征图)中(i,j)位置抽取出的一个一维的输入向量(长度为B)；e_ij表示每个输入向量对应的权重；W_v、W_h和

分别代表卷积核；h′_t表示第t个时间步的隐藏层输入；v_pq表示第二特征中(p,q)位置抽取出的一个一维的输入向量，p，q∈N_ij表示，p、q的取值范围在第二特征中的一个小区域N_ij内，例如，N_ij表示一个3x3的区域；α_ij表示第二特征中(i,j)位置的输入向量对应的权重值；

表示全连接层处理；t表示时间步；g_t表示将每个位置的输入向量加权结果，即第t个时间步输出的特征向量。

可选地，基于至少一个时间步输出至少一个子识别结果的过程可包括：

对至少一个时间步中的每个时间步，将时间步输出的特征向量与时间步对应的隐藏状态向量拼接，得到拼接向量；

基于全连接层对拼接向量进行处理，得到子识别结果。

本实施例中，将特征向量和隐藏状态向量(hidden states)维度拼接，得到维度数增加的拼接向量，经过全连接层的处理得到一个多元一维向量，以该向量中最大元素对应的位置与预设字符集进行对应，基于该最大元素对应的字符集中的字符作为子识别结果输出；其中，全连接层的处理可基于以下公式(4)实现：

其中，y_t表示输出第t个时间步对应的全连接层输出的向量；h′_t表示第t个时间步的隐藏层输入；g_t表示第t个时间步输出的特征向量；[h′_t；g_t]表示第t个时间步的拼接向量，W₀表示卷积核。

可选地，在上述实施例的基础上，步骤1081还可以包括：

确定全局语义特征的维度与第二特征的维度是否一致；

响应于全局语义特征的维度与第二特征的维度一致，基于全局语义特征作为神经网络解码器初始隐藏层的输入；

响应于全局语义特征的维度与第二特征的维度不一致，通过全连接层将全局语义特征的维度变更为与第二特征的维度一致，并将维度变更后的全局语义特征作为神经网络解码器初始隐藏层的输入。

本实施例中，在将全局语义特征输入到神经网络解码器之前，需要将输入隐藏层特征调整为与输入的第二特征维度一致，当维度不一致时，通过全连接层对全局语义特征进行维度调整，以满足输入条件。

图4是本公开一示例性实施例提供的文本识别模型的训练方法的流程示意图。如图4所示，包括如下步骤：

步骤401，将样本图像集中的样本图像输入文本识别模型中的特征提取子模型进行特征提取，得到第一预测特征。

其中，样本图像集中包括多个样本图像，每个样本图像对应已知文本识别结果。

步骤402，基于文本识别模型中的神经网络编码器对第一预测特征进行处理，得到预测全局语义特征。

步骤403，基于文本识别模型中的二维自注意力子模型对第一预测特征进行处理，得到第二预测特征。

步骤404，利用文本识别模型中的神经网络解码器，基于预测全局语义特征和第二预测特征，确定预测文本识别结果。

步骤405，基于预测文本识别结果和已知文本识别结果，确定网络损失。

步骤406，基于网络损失对文本识别模型进行训练。

本实施例中，基于文本识别模型进行文本识别结果预测的过程与上述实施例相同，可参照进行理解，区别仅在于本实施例中输入文本识别模型中的图像为样本图像，基于预测文本识别结果与样本图像对应的已知文本识别结果可确定网络损失，基于该网络损失可实现对文本识别模型中的网络参数调整，例如，可通过反向梯度传播等现有网络训练方式实现对文本识别模型的训练，其中，文本识别模型至少包括特征提取子模型、神经网络编码器、二维自注意力子模型和神经网络解码器，本实施例对文本识别模型中的每部分联合训练，提升了训练后得到的文本识别模型的文字识别准确率。

本公开实施例提供的任一种文本识别以及文本识别模型的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种文本识别以及文本识别模型的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本识别以及文本识别模型的训练方法。下文不再赘述。

示例性装置

图5是本公开一示例性实施例提供的文本识别装置的结构示意图。如图5所示，本实施例提供的装置包括：

特征提取模块51，用于对待识别图像进行特征提取，得到第一特征。

全局语义模块52，用于基于第一特征，确定待识别图像对应的全局语义特征。

第二特征模块53，用于对第一特征进行处理，得到第二特征。

文本识别模块54，用于基于全局语义特征和第二特征，确定待识别图像中包括的至少一个文字的文本识别结果。

本公开上述实施例提供的一种文本识别装置，对待识别图像进行特征提取，得到第一特征；基于所述第一特征，确定所述待识别图像对应的全局语义特征；对所述第一特征进行处理，得到第二特征；基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果；本实施例通过全局语义特征和第二特征确定文本识别结果，提升了对印章等弯曲文本的识别准确率。

在一些可选的实施例中，全局语义模块52，具体用于对第一特征执行最大池化操作，得到在一个维度上被压缩的第三特征；利用神经网络编码器对第三特征进行编码处理，变更第三特征中的通道数，得到全局语义特征。

可选地，全局语义模块52在利用神经网络编码器对第三特征进行编码处理，变更第三特征中的通道数，得到全局语义特征时，用于将第三特征分解为多个子特征；将多个子特征分别输入神经网络编码器包括的多个时间步中，基于多个时间步中的预设时间步输出全局语义特征。

在一些可选的实施例中，第二特征模块53，具体用于利用二维注意力模型对第一特征进行处理，得到第二特征。

在一些可选的实施例中，文本识别模块54，包括：

隐藏层输入单元，用于基于全局语义特征作为神经网络解码器初始隐藏层的输入；

子识别单元，用于将第二特征作为神经网络解码器的数据输入，确定至少一个子识别结果；其中，每个子识别结果对应一个预测文字；

结果确定单元，用于基于多个子识别结果，得到文本识别结果。

可选地，子识别单元，具体用于将第二特征分解为至少一个一维的输入向量，将至少一个输入向量中的每个输入向量依次输入神经网络解码器中的至少一个时间步；基于至少一个时间步输出至少一个子识别结果；其中，每个时间步对应一个子识别结果。

可选地，子识别单元在基于至少一个时间步输出至少一个子识别结果时，用于针对至少一个时间步中的每个时间步，将时间步输出的特征向量与时间步对应的隐藏状态向量拼接，得到拼接向量；基于全连接层对拼接向量进行处理，得到子识别结果。

可选地，隐藏层输入单元，具体用于确定全局语义特征的维度与第二特征的维度是否一致；响应于全局语义特征的维度与第二特征的维度一致，基于全局语义特征作为神经网络解码器初始隐藏层的输入；响应于全局语义特征的维度与第二特征的维度不一致，通过全连接层将全局语义特征的维度变更为与第二特征的维度一致，并将维度变更后的全局语义特征作为神经网络解码器初始隐藏层的输入。

第一预测模块，用于将样本图像集中的样本图像输入文本识别模型中的特征提取子模型进行特征提取，得到第一预测特征；其中，样本图像集中包括多个样本图像，每个样本图像对应已知文本识别结果；

编码器模块，用于基于文本识别模型中的神经网络编码器对第一预测特征进行处理，得到预测全局语义特征；

自注意力模块，用于基于文本识别模型中的二维自注意力子模型对第一预测特征进行处理，得到第二预测特征；

解码器模块，用于利用文本识别模型中的神经网络解码器，基于预测全局语义特征和第二预测特征，确定预测文本识别结果；

损失确定模块，用于基于预测文本识别结果和已知文本识别结果，确定网络损失；

网络训练模块，用于基于网络损失对文本识别模型进行训练。

示例性电子设备

下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图6图示了根据本公开实施例的电子设备的框图。

如图6所示，电子设备60包括一个或多个处理器61和存储器62。

处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备60中的其他组件以执行期望的功能。

存储器62可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器61可以运行所述程序指令，以实现上文所述的本公开的各个实施例的文本识别以及文本识别模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备60还可以包括：输入装置63和输出装置64，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置63可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置63可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入装置63还可以包括例如键盘、鼠标等等。

该输出装置64可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备60中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备60还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本识别以及文本识别模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本识别以及文本识别模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种文本识别方法，其特征在于，包括：

对待识别图像进行特征提取，得到第一特征；

对所述第一特征进行处理，得到第二特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征，确定所述待识别图像对应的全局语义特征，包括：

优选地，所述利用神经网络编码器对所述第三特征进行编码处理，变更所述第三特征中的通道数，得到所述全局语义特征，包括：

将所述第三特征分解为多个子特征；

3.根据权利要求1或2所述的方法，其特征在于，所述对所述第一特征处理，得到第二特征，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述全局语义特征和所述第二特征，确定所述待识别图像中包括的至少一个文字的文本识别结果，包括：

基于多个所述子识别结果，得到所述文本识别结果。

5.根据权利要求4所述的方法，其特征在于，所述将所述第二特征作为所述神经网络解码器的数据输入，确定至少一个子识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少一个时间步输出所述至少一个子识别结果，包括：

7.根据权利要求4-6任一所述的方法，其特征在于，所述基于所述全局语义特征作为神经网络解码器初始隐藏层的输入，包括：

8.一种文本识别模型的训练方法，其特征在于，包括：

基于所述网络损失对所述文本识别模型进行训练。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的方法。