CN112183513A

CN112183513A - 一种图像中文字的识别方法、装置、电子设备及存储介质

Info

Publication number: CN112183513A
Application number: CN201910595795.8A
Authority: CN
Inventors: 徐杨柳
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2021-01-05
Anticipated expiration: 2039-07-03
Also published as: CN112183513B

Abstract

本发明实施例提供了一种图像中文字的识别方法、装置、电子设备及存储介质，方法包括：获取待识别图像；将待识别图像输入预先训练完成的深度学习模型，获得待识别文字的语义信息及结构信息，深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系；基于语义信息及结构信息，确定待识别文字的识别结果。由于不需要对文字进行分割，而是根据预先训练的深度学习模型获得待识别文字的准确的语义信息及结构信息，进而根据这两方面的信息的关联确定待识别文字的识别结果，可以准确对蕴含大量结构信息的文字进行识别。

Description

一种图像中文字的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像中文字的识别方法、装置、电子设备及存储介质。

背景技术

在众多图像处理场合均需要对图像中的文字进行识别，以获得图像中的文字信息。一般的文字识别技术大都针对英文进行识别，由于英文类别少，形态简单，所以采用常见的文字识别方式在进行英文识别时可以满足需求。但是对于花体英文或中日韩文字这类蕴含了大量结构信息的文字来说则很容易出现错误。

识别蕴含了大量结构信息的文字，出现了基于结构拆分的文字识别方式，其过程为：首先将文字分割为文字部件，然后采取最优路径搜索等方式，进行各部件的融合，进而得到文字识别结果，其过程一般为，将图像中的文本行分割为文字部件得到子结构，通过字符识别进行子结构识别，然后采取最优路径搜索方式进行各子结构的融合，即分割片段组合，将子结构组合得到文字识别结果。

虽然该方式可以处理结构信息较多的文字序列，但其主要依赖文字分割算法，需要将文字的每个部件清晰独立地识别出来，一旦某一部件发生残缺污损，或者字体粘连，会导致文字难以拆分，采用该方式就无法进行准确识别。

发明内容

本发明实施例的目的在于提供一种图像中文字的识别方法、装置、电子设备及存储介质，以对图像中蕴含大量结构信息的文字进行准确识别。具体技术方案如下：

第一方面，本发明实施例提供了一种图像中文字的识别方法，所述方法包括：

获取待识别图像，其中，所述待识别图像中包括待识别文字；

将所述待识别图像输入预先训练完成的深度学习模型，获得所述待识别文字的语义信息及结构信息，其中，所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系；

基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果。

可选的，所述深度学习模型包括特征提取模型及特征识别模型；

所述将所述待识别图像输入预先训练完成的深度学习模型，根据所述待识别图像的图像特征，获得所述的待识别文字的语义信息及结构信息的步骤，包括：

将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理，获得所述待识别图像的图像特征；

将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息。

可选的，所述特征识别模型包括第一注意力机制模型和第二注意力机制模型；

所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行处理，获得所述待识别文字的语义信息及结构信息的步骤，包括：

将所述待识别图像的图像特征输入所述第一注意力机制模型，确定每个图像特征对应的第一权重，其中，所述第一权重表示对应的图像特征属于所述待识别文字的概率；

基于所述图像特征及其对应的第一权重，对所述图像特征进行加权求和，得到所述待识别文字的语义特征向量，作为所述待识别文字的目标语义向量；

根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息；

根据所述待识别文字的目标语义特征向量的长度，将所述待识别文字的目标语义特征向量展开为多个子特征向量；

将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重，其中，所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率；

基于所述子特征向量及其对应的第二权重，对所述子特征向量进行加权求和，得到所述待识别文字的当前结构特征向量；

根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息；

将根据所述子结构信息，确定所述待识别文字的结构信息。

可选的，所述根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息的步骤，包括：

获取在所述待识别文字之前识别得到的其他文字的语义信息；

根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的预估语义信息；

基于所述预估语义信息以及所述其他文字的语义信息，确定所述待识别文字的目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息。

可选的，所述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息的步骤，包括：

获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息；

根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的预估结构信息；

基于所述预估结构信息以及所述其他结构部分的子结构信息，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息。

可选的，所述深度学习模型还包括特征编码模型；

在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息的步骤之前，所述方法还包括：

将所述待识别图像的图像特征输入所述特征编码模型，对所述待识别图像的图像特征进行编码，得到多个特征图；

根据每个特征图的长宽高分别将每个特征图变形为特征向量；

将变形得到的多个特征向量确定为所述待识别图像的图像特征。

可选的，所述基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果的步骤，包括：

当所述语义信息表示明确语义时，根据所述结构信息对所述语义信息进行校正，确定所述待识别文字的最终的识别结果；

当所述语义信息表示不明确语义时，根据所述结构信息确定所述待识别文字的识别结果。

第二方面，本发明实施例提供了一种图像中文字的识别装置，所述装置包括：

待识别图像获取模块，用于获取待识别图像，其中，所述待识别图像中包括待识别文字；

语义结构信息确定模块，用于将所述待识别图像输入预先训练完成的深度学习模型，获得所述待识别文字的语义信息及结构信息，其中，所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系；

文字识别结果确定模块，用于基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果。

所述语义结构信息确定模块包括：

图像特征提取子模块，用于将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理，获得所述待识别图像的图像特征；

图像特征识别子模块，用于将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息。

所述图像特征识别子模块包括：

第一权重确定单元，用于将所述待识别图像的图像特征输入所述第一注意力机制模型，确定每个图像特征对应的第一权重，其中，所述第一权重表示对应的图像特征属于所述待识别文字的概率；

语义特征向量确定单元，用于基于所述图像特征及其对应的第一权重，对所述图像特征进行加权求和，得到所述待识别文字的语义特征向量，作为所述待识别文字的目标语义向量；

语义信息确定单元，用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息；

特征向量展开单元，用于根据所述待识别文字的目标语义特征向量的长度，将所述待识别文字的目标语义特征向量展开为多个子特征向量；

第二权重确定单元，用于将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重，其中，所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率；

当前结构特征向量确定单元，用于基于所述子特征向量及其对应的第二权重，对所述子特征向量进行加权求和，得到所述待识别文字的当前结构特征向量；

子结构信息确定单元，用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息；

结构信息确定单元，用于根据所述子结构信息，确定所述待识别文字的结构信息。

可选的，所述语义信息确定单元包括：

语义信息获取子单元，用于获取在所述待识别文字之前识别得到的其他文字的语义信息；

预估语义信息确定子单元，用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的预估语义信息；

目标语义信息确定子单元，用于基于所述预估语义信息以及所述其他文字的语义信息，确定所述待识别文字的目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息。

可选的，所述子结构信息确定单元包括：

子结构信息获取子单元，用于获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息；

预估结构信息确定子单元，用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的预估结构信息；

子结构信息确定子单元，用于基于所述预估结构信息以及所述其他结构部分的子结构信息，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息。

可选的，所述深度学习模型还包括特征编码模型；

所述装置还包括：

图像特征编码模块，用于在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息之前，将所述待识别图像的图像特征输入所述特征编码模型，对所述待识别图像的图像特征进行编码，得到多个特征图；

特征图变形模块，用于根据每个特征图的长宽高分别将每个特征图变形为特征向量；

图像特征确定模块，用于将变形得到的多个特征向量确定为所述待识别图像的图像特征。

可选的，所述文字识别结果确定模块包括：

第一识别结果确定子模块，用于当所述语义信息表示明确语义时，根据所述结构信息对所述语义信息进行校正，确定所述待识别文字的最终的识别结果；

第二识别结果确定子模块，用于当所述语义信息表示不明确语义时，根据所述结构信息确定所述待识别文字的识别结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的图像中文字的识别方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的图像中文字的识别方法步骤。

本发明实施例所提供的方案中，电子设备可以获取待识别图像，其中，待识别图像中包括待识别文字，然后将待识别图像输入预先训练完成的深度学习模型，获得待识别文字的语义信息及结构信息，进而，基于语义信息及结构信息，确定待识别文字的识别结果。其中，深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系。由于不需要对文字进行分割，而是根据预先训练的深度学习模型获得待识别文字的准确的语义信息及结构信息，进而根据这两方面的信息的关联确定待识别文字的识别结果，可以准确对蕴含大量结构信息的文字进行识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种图像中文字的识别方法的流程图；

图2为图1所示实施例中步骤S102的一种具体流程图；

图3为基于图1所示实施例的图像编码方式的一种流程图；

图4(a)为本发明实施例所提供的图像中文字的识别方法的一种流程示意图；

图4(b)为图4(a)所示实施例中第二注意力机制模型对语义特征向量进行处理的流程示意图；

图5为本发明实施例所提供的一种图像中文字的识别装置的结构示意图；

图6为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了对图像中蕴含大量结构信息的文字进行准确识别，本发明实施例提供了一种图像中文字的识别方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种图像中文字识别方法进行介绍。

本发明实施例所提供的一种图像中文字识别方法可以应用于任意需要进行文字识别得到识别结果的电子设备，例如，电脑、手机、处理器等，在此不做具体限定。为了描述方便，后续简称电子设备。

如图1所示，一种图像中文字的识别方法，所述方法包括：

S101，获取待识别图像；

其中，所述待识别图像中包括待识别文字。

S102，将所述待识别图像输入预先训练完成的深度学习模型，获得所述待识别文字的语义信息及结构信息；

其中，所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系。

S103，基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果。

可见，本发明实施例所提供的方案中，电子设备可以获取待识别图像，其中，待识别图像中包括待识别文字，然后将待识别图像输入预先训练完成的深度学习模型，获得待识别文字的语义信息及结构信息，进而，基于语义信息及结构信息，确定待识别文字的识别结果。其中，深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系。由于不需要对文字进行分割，而是根据预先训练的深度学习模型获得待识别文字的准确的语义信息及结构信息，进而根据这两方面的信息的关联确定待识别文字的识别结果，可以准确对蕴含大量结构信息的文字进行识别。

在上述步骤S101中，电子设备可以获取待识别图像，该待识别图像即为需要进行图像中文字识别的图像，其中包括待识别文字，待识别文字可以为汉字、韩语、日语等，在此不做具体限定。

在一种实施方式中，待识别图像可以是图像采集设备采集并发送至电子设备的，例如，用户可以使用图像采集设备对书籍、报纸等中的文字进行拍摄，得到待识别图像并发送至电子设备，以对待识别图像中的待识别文字进行识别。在另一种实施方式中，电子设备可以获取本地存储的图像，作为待识别图像，也可以获取其他电子设备存储的图像，作为待识别图像，这都是合理的。

获取待识别图像后，为了确定待识别图像中待识别文字的相关信息，以确定待识别文字的识别结果，电子设备可以将待识别图像输入预先训练完成的深度学习模型，得到待识别文字的语义信息及结构信息，也就是执行上述步骤S102。

其中，深度学习模型可以为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的。图像样本中包括文字，在对深度学习模型进行训练时，可以预先标定每个图像样本中的文字的语义信息及结构信息，作为图像样本的标签。进而将图像样本输入当前的深度学习模型进行训练，当前的深度学习模型会根据图像样本的图像特征，输出每个图像样本对应的预测标签，基于每个图像样本的预测标签与标定的标签之间的差异，不断调整当前的深度学习模型的参数。在此过程中，深度学习模型可以不断学习图像特征与文字的语义信息及结构信息的对应关系。可以采用梯度下降算法等方式对当前的深度学习模型的参数进行调整，在此不做具体限定及说明。

直到图像样本的迭代次数到达预设次数，或者，当前的深度学习模型输出的预测标签的准确度达到预设值时，说明当前的深度学习模型已经可以对图像中的文字进行准确识别，得到语义信息及结构信息，所以，此时便可以停止训练，得到上述包含图像特征与文字的语义信息及结构信息的对应关系的深度学习模型。

文字的语义信息即为文字所蕴含的意义，例如，“早晨”一词具备明确的语义信息，而“早辰”通常没有这样的含义，即为语义信息不明确的文字。文字的结构信息即为反应文字字形的信息，例如，“晨”字的结构信息是上方一个“曰”，下方一个“辰”。

得到待识别文字的语义信息及结构信息后，电子设备便可以基于该语义信息及结构信息，确定待识别文字的识别结果。电子设备可以将待识别文字的语义信息及结构信息相关融合或者校正，进而，确定待识别文字的准确识别结果。

例如，得到的语义信息为“钢”，结构信息为“

钅

冂

”，其中，

表示待识别文字为左右结构，“钅”表示待识别文字的左侧为“钅”，

表示待识别文字的右侧为

型结构，“冂

”表示待识别文字的

型结构由“冂

”构成。可见，该结构信息表示的文字即为“钢”，那么说明语义信息为正确的，所以电子设备便可以确定待识别文字的识别结果为“钢”。可见，采用本发明实施例所提供的图像中文字的识别方法无需对待识别文字进行分割，通过深度学习模型可以得到待识别文字的语义信息及结构信息，进而可以将待识别文字的语义信息及结构信息相关融合或者校正，确定待识别文字的准确识别结果。

作为本发明实施例的一种实施方式，上述深度学习模型可以包括特征提取模型及特征识别模型。

相应的，上述将所述待识别图像输入预先训练完成的深度学习模型，根据所述待识别图像的图像特征，获得所述的待识别文字的语义信息及结构信息的步骤，可以包括：

将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理，获得所述待识别图像的图像特征；将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息。

由于深度学习模型是基于图像特征对带识别图像进行处理进而得到所需的信息的。所以上述深度学习模型可以包括特征提取模型及特征识别模型两个网络模型。其中，特征提取模型用于对待识别图像进行图像特征的提取，特征识别模型则用于对图像特征进行识别，确定其所包含的信息。

电子设备便可以将待识别图像输入特征提取模型，特征提取模型可以对待识别图像进行特征提取，输出待识别图像的图像特征。进而，电子设备便可以将得到的待识别图像的图像特征输入特征识别模型，特征识别模型便可以对图像特征进行识别，输出待识别文字的语义信息及结构信息。

对于上述情况，在对深度学习模型进行训练时，可以分别训练特征提取模型及特征识别模型，也可以将两个模型作为一个深度学习模型进行训练，这都是合理的，具体训练与上述对深度学习模型进行训练的方式相同，在此不再赘述。

可见，在本实施例中，上述深度学习模型可以包括特征提取模型及特征识别模型，针对这种情况，电子设备可以将待识别图像输入特征提取模型对待识别图像进行处理，获得待识别图像的图像特征，进而，将待识别图像的图像特征输入特征识别模型对图像特征进行识别，准确地获得待识别文字的语义信息及结构信息。

作为本发明实施例的一种实施方式，上述特征提取模型可以为卷积神经网络。

卷积神经网络是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的图像特征。所以可以采用该网络作为上述特征提取模型。

相应的，上述将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理，获得所述待识别图像的图像特征的步骤，可以包括：

将所述待识别图像输入所述卷积神经网络，对所述待识别图像进行卷积处理，得到所述待识别图像的图像特征。

卷积神经网络是深层次的神经网络，卷积层每加深一层，提取的信息抽象程度就更高。这种抽象可以将人眼能够识别的图像转化为便于电子设备处理的图像特征。例如，对于一个具有7层卷积层的卷积神经网络来说，在6-7层的输出结果是已经被高度抽象的图像特征。

图像特征是待识别图像经过卷积神经网络处理后高度抽象的结果，例如，一张尺寸为32×256的待识别图像经过卷积神经网络处理后，可能抽象成65个图像特征，每个图像特征由512个数字构成。

本发明实施例对卷积神经网络的具体结构不做限定，只要可以提取待识别图像的图像特征即可。在一种实施方式中，可以采用具有七层卷积层的结构，可以如下表所示：

其中，Convolution表示卷积，#map为输出通道数，k为卷积核尺寸，s为步长，p为补零的值，MaxPooling为最大值池化，BatchNormalization为批标准化，Window表示卷积核，gray scale image表示灰度图，W表示输入图像的宽度，32表示输入图像的高度。

可见，在本实施例中，上述特征提取模型可以为卷积神经网络，在这种情况下，电子设备可以将待识别图像输入卷积神经网络，对待识别图像进行卷积处理，得到待识别图像的图像特征。由于卷积神经网络能够有效提取图像的图像特征，因此可以得到丰富准确的图像特征。

作为本发明实施例的一种实施方式，上述特征识别模型可以包括第一注意力机制模型和第二注意力机制模型。

注意力机制(Attention Mechanism)是一种序列学习任务中的结构，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。以文字识别为例，采用基于注意力机制的深度学习模型，可以在输出不同文字识别结果时，关注不同的图像特征。上述第一注意力机制模型和第二注意力机制模型均为基于注意力机制的深度学习模型。

相应的，如图2所示，上述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行处理，获得所述待识别文字的语义信息及结构信息的步骤，可以包括：

S201，将所述待识别图像的图像特征输入所述第一注意力机制模型，确定每个图像特征对应的第一权重；

电子设备可以将待识别图像的图像特征输入第一注意力机制模型，第一注意力机制模型可以对图像特征进行处理。由于第一注意力机制模型可以在输出不同文字识别结果时，关注不同的图像特征，所以第一注意力机制模型可以确定每个图像特征属于待识别文字的概率，也就是第一权重。

例如，待识别图像中包括的待识别文字为“防爆钢化膜”，当前已经输出了“防爆”两个字，正在对“钢”字进行识别。那么上述图像特征为待识别图像的所有图像特征，也就是包括“防爆钢化膜”五个字的图像特征。将图像特征输入第一注意力机制模型后，第一注意力机制模型便可以计算出所有图像特征对应的第一权重，也是每个图像特征属于“钢”字的概率。

S202，基于所述图像特征及其对应的第一权重，对所述图像特征进行加权求和，得到所述待识别文字的语义特征向量，作为所述待识别文字的目标语义向量；

得到上述每个图像特征对应的第一权重后，由于当前只需要关注当前正在识别的待识别文字的图像特征，所以可以基于图像特征及其对应的第一权重，对所有图像特征进行加权求和，得到当前识别的待识别文字的语义特征向量，将其作为待识别文字的目标语义向量。

S203，根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息；

由于第一注意力机制模型在训练过程中已经学习到语义特征向量与语义信息的对应关系，所以当得到上述目标语义特征向量后，第一注意力机制模型便可以确定其对应的语义信息，该语义信息即为待识别文字的语义信息，为了描述方便，后续将其称为目标语义信息。

在一种实施方式中，第一注意力机制模型可以包括GRU(Gated Recurrent Unit，门控循环单元)，GRU为循环神经网络(Recurrent Neural Network，RNN)的一种，循环神经网络是一种用于处理序列数据的人工神经网络，可以把握文字的深层次语义信息。

所以得到目标语义特征向量后，可以将其输入GRU，GRU便可以根据语义特征向量与语义信息的对应关系，确定目标语义特征向量所对应的目标语义信息，进而将该目标语义信息输出。

S204，根据所述待识别文字的目标语义特征向量的长度，将所述待识别文字的目标语义特征向量展开为多个子特征向量；

由于除了语义信息，还需要确定待识别文字的结构信息，所以需要将待识别文字的目标语义特征向量变为更加细化的特征向量，以从中确定待识别文字的结构信息。

可以根据待识别文字的目标语义特征向量的长度，将待识别文字的目标语义特征向量展开为多个子特征向量。例如，待识别文字的目标语义特征向量的长度为9，那么可以将其展开为9个长度为1的子特征向量。

S205，将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重；

第二注意力机制模型的处理原理与第一注意力机制模型的处理原理相同，也可以在输出不同文字识别结果时，关注不同的图像特征，所以将多个子特征向量输入第二注意力机制模型后，第二注意力机制模型可以确定每个子特征向量属于当前识别的待识别文字的结构部分的概率，也就是第二权重。

其中，待识别文字的结构部分即为组成待识别文字的各个部分，例如，对于文字“放”来说，其由左侧的“方”和右侧的“攵”两个部分组成，那么“方”和“攵”即为文字“放”的结构部分。

当然，也根据不同的需要设定待识别文字的结构部分，例如，可以将待识别文字的整体结构也作为一个结构部分，将能够继续划分为不同结构部分的结构部分的整体结构也作为一个结构部分，这都是合理的，在此不做具体限定。

S206，基于所述子特征向量及其对应的第二权重，对所述子特征向量进行加权求和，得到所述待识别文字的当前结构特征向量；

确定了上述子特征向量及其对应的第二权重后，由于当前只需要关注当前正在识别的待识别文字的结构部分的图像特征，所以可以基于子特征向量及其对应的第二权重，对所有子特征向量进行加权求和，得到待识别文字的当前结构特征向量。

S207，根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息；

由于第二注意力机制模型在训练过程中已经学习到结构特征向量与结构信息的对应关系，所以当得到上述当前结构特征向量后，第二注意力机制模型便可以确定其对应的结构信息，将其作为当前结构特征向量所对应的子结构信息。

在一种实施方式中，第二注意力机制模型也可以包括GRU，得到当前识别的待识别文字的当前结构特征向量后，可以将其输入GRU，GRU便可以根据结构特征向量与结构信息的对应关系，确定当前结构特征向量所对应的结构信息，进而将该结构信息输出。

S208，根据所述子结构信息，确定所述待识别文字的结构信息。

确定待识别文字的对应的所有子结构信息后，便可以将所有子结构信息确定为待识别文字的结构信息。例如，待识别文字的对应的所有子结构信息为

“钅”、

“冂”及

那么便可以确定待识别文字的结构信息为“

钅

冂

”。

可见，在本实施例中，上述特征识别模型可以包括第一注意力机制模型和第二注意力机制模型，在这种情况下，电子设备可以通过第一注意力机制模型和第二注意力机制模型确定待识别文字的目标语义信息及结构信息，由于基于注意力机制的第一注意力机制模型和第二注意力机制模型可以学习深层次图像特征与语义信息、结构信息的关系，所以无需对待识别文字进行分割，并且在待识别文字存在污损等问题时，也可以准确确定待识别文字的语义信息及结构信息。

作为本发明实施例的一种实施方式，在上述根据所述子结构信息，确定所述待识别文字的结构信息的步骤之前，上述方法还可以包括：

返回所述将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重的步骤，直到确定所述待识别文字的所有结构部分的子结构信息，继续执行上述根据所述子结构信息，确定所述待识别文字的结构信息的步骤。

由于对一个待识别文字来说，一般包括多个结构部分，需要将所有结构部分均识别出来才能得到待识别文字的结构信息，所以可以返回上述将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重的步骤，也就是上述步骤S205，以继续确定待识别文字的其他结构部分的结构信息，直到确定待识别文字的所有结构部分的子结构信息后，继续执行上述根据所述子结构信息，确定所述待识别文字的结构信息的步骤，也就是上述步骤S208。

每返回步骤S205时，待识别文字的结构部分是变化的，所以第二注意力机制模型确定的每个子特征向量对应的第二权重是变化的，所以可以得到不同的当前结构特征向量，进而确定各个结构部分的结构信息。

可见，在本实施例中，当待识别文字具有多个结构部分时，也可以准确确定待识别文字的结构信息，保证识别结果的准确性。

作为本发明实施例的一种实施方式，上述根据所述第一注意力机制模型包括的语义结构特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息的步骤，可以包括：

获取在所述待识别文字之前识别得到的其他文字的语义信息；根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的预估语义信息；基于所述预估语义信息以及所述其他文字的语义信息，确定所述待识别文字的目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息。

由于一般待识别文字与在其之前识别得到的其他文字的语义信息之间存在联系，所以第一注意力机制模型可以获取在待识别文字之前识别得到的其他文字的语义信息。第一注意力机制模型根据包括的语义特征向量与语义信息的对应关系，以及上述目标语义特征向量确定目标语义特征向量所对应的语义信息，将其作为目标语义特征向量所对应的预估语义信息。

进而，第一注意力机制模型可以根据该预估语义信息以及其他文字的语义信息，确定待识别文字的目标语义特征向量所对应的语义信息，并将其作为目标语义特征向量所对应的目标语义信息。

例如，以语义信息由第一注意力机制模型包括的GRU处理得到为例，那么第一注意力机制模型可以包括多个GRU，每个GRU的输入为其前一个GRU输出的语义信息及待识别文字的目标语义特征向量，这样，每个GRU便可以根据待识别文字与在其之前识别得到的其他文字的语义信息之间存在的联系，以及语义特征向量与语义信息的对应关系确定目标语义特征向量所对应的语义信息，即目标语义信息。

可见，在本实施例中，第一注意力机制模型可以获取在待识别文字之前识别得到的其他文字的语义信息，进而根据包括的语义特征向量与语义信息的对应关系以及目标语义特征向量确定目标语义特征向量所对应的语义信息，作为预估语义信息，进而基于预估语义信息以及其他文字的语义信息，确定目标语义特征向量所对应的语义信息。这样，可以根据待识别文字与在其之前识别得到的其他文字的语义信息之间存在的联系，更加准确的确定待识别文字的语义信息。

作为本发明实施例的一种实施方式，上述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息的步骤，可以包括：

获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息；根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的预估结构信息；基于所述预估结构信息以及所述其他结构部分的子结构信息，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息。

由于一般待识别文字的结构部分与在其之前识别得到的其他结构部分的结构信息之间存在联系，所以第二注意力机制模型可以获取在结构特征向量所对应的子结构信息之前确定的待识别文字的其他结构部分的子结构信息。第二注意力机制模型根据包括的结构特征向量与结构信息的对应关系，确定当前结构特征向量所对应的结构信息，作为当前结构特征向量所对应的预估结构信息。

进而，第二注意力机制模型可以基于该预估结构信息以及其他结构部分的子结构信息，确定当前结构特征向量所对应的结构信息，作为当前结构特征向量所对应的子结构信息。

例如，以结构信息由第二注意力机制模型包括的GRU处理得到为例，那么第二注意力机制模型可以包括多个GRU，每个GRU的输入为其前一个GRU输出的子结构信息及当前结构特征向量，这样，每个GRU便可以根据待识别文字的结构部分与在其之前识别得到的其他结构部分的结构信息之间存在的联系，以及结构特征向量与结构信息的对应关系确定当前结构特征向量所对应的结构信息，将其作为当前结构特征向量所对应的子结构信息。

可见，在本实施例中，第二注意力机制模型可以获取在当前结构特征向量所对应的子结构信息之前确定的待识别文字的其他结构部分的子结构信息，进而根据第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定当前结构特征向量所对应的结构信息，作为当前结构特征向量所对应的预估结构信息，进而，基于预估结构信息以及其他结构部分的子结构信息，确定当前结构特征向量所对应的结构信息，作为当前结构特征向量所对应的子结构信息。这样，可以根据待识别文字的结构部分与在其之前识别得到的其他结构部分的结构信息之间存在的联系，更加准确的确定当前结构特征向量所对应的子结构信息。

作为本发明实施例的一种实施方式，上述深度学习模型还可以包括特征编码模型。

由于通过特征提取模型处理得到的图像特征之间存在一定的隐含的时序关系，这种时序关系表征了文字之间的深层次的语义关系。并且识别结果的输出一般是逐一输出的，具有先后顺序，所以为了强化图像特征之间时序上的联系，上述深度学习模型还可以包括特征编码模型。特征编码模型用于根据图像特征之间存在的时序关系，对图像特征进行编码，强化时序关系。

特征编码模型可以是ConvLSTM(Convolutional Long-Short Term Memory，卷积长短记忆网络)BLSTM(Bidirectional Long-Short Term Memory，双相长短记忆网络)、self-attention Mechanism模型(自注意力机制模型)等深度学习模型，也可以是其中多个深度学习模型的组合，在此不做具体限定。

相应的，如图3所示，在上述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息的步骤之前，上述方法还可以包括：

S301，将所述待识别图像的图像特征输入所述特征编码模型，对所述待识别图像的图像特征进行编码，得到多个特征图；

为了强化图像特征之间时序上的联系，可以将待识别图像的图像特征输入上述特征编码模型，特征编码模型便可以基于待识别图像的图像特征之间的时序关系，对待识别图像的图像特征进行编码，得到多个特征图。

S302，根据每个特征图的长宽高分别将每个特征图变形为特征向量；

S303，将变形得到的多个特征向量确定为所述待识别图像的图像特征。

由于上述特征识别模型的输入一般为特征向量，所以为了便于特征识别模型处理，可以将每个特征图变形为特征向量。具体来说，可以根据每个特征图的长宽高将其变形为特征向量，例如，一个长宽高为C×H×W的特征图，可以将其拉平，变形为长宽高为(C×H×W)×1×1的特征向量。

变形得到的多个特征向量既可以作为待识别图像的图像特征，可以将其输入上述特征识别模型进行处理，已得到待识别文字的结构信息及语义信息。

可见，在本实施例中，上述深度学习模型还可以包括特征编码模型，在这种情况下，在上述将待识别图像的图像特征输入特征识别模型对图像特征进行识别之前，可以将待识别图像的图像特征输入特征编码模型，对待识别图像的图像特征进行编码，得到多个特征图，根据每个特征图的长宽高分别将每个特征图变形为特征向量，进而将变形得到的多个特征向量确定为待识别图像的图像特征。这样，可以加强图像特征之间时序上的联系，使得最终确定的语义信息及结构信息更加准确。

作为本发明实施例的一种实施方式，上述基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果的步骤，可以包括：

当所述语义信息表示明确语义时，根据所述结构信息对所述语义信息进行校正，确定所述待识别文字的最终的识别结果；当所述语义信息表示不明确语义时，根据所述结构信息确定所述待识别文字的识别结果。

当待识别文字的语义信息表示明确语义时，说明该语义信息很可能是正确的，但是也有可能是错误的，所以此时为了进一步验证语义信息的准确度，电子设备可以根据结构信息对语义信息进行校正，确定待识别文字的最终的识别结果。

例如，语义信息为“后”，结构信息为“

氵

一口”，那么由于“洉”字比较生僻，语义信息可能出现错误，所以此时便可以根据结构信息“

氵

一口”对语义信息进行校正，确定待识别文字的最终的识别结果为“洉”。

当待识别文字的语义信息表示不明确语义时，说明该语义信息很可能是错误的，所以此时为了确定识别结果，可以根据结构信息确定待识别文字的识别结果。其中，不明确语义包括无法识别的情况，也就是说，语义信息的输出结果为输出错误。

例如，语义信息为“无法识别”，结构信息为“

钅

冂

”，那么电子设备便可以根据结构信息“

钅

冂

”确定待识别文字的最终的识别结果为“钢”。

如果待识别文字的语义信息表示不明确语义时，结构信息频繁输出同一个结果，例如频繁输出结构信息“

钅

冂

”，那么此时便可以建立结构信息“

钅

冂

”与“钢”之间的对应关系，将结构信息“

钅

冂

”映射到语义信息“钢”，这样，后续深度学习模型便可以在结构信息为“

钅

冂

”时，输出语义信息“钢”。

可见，在本实施例中，当语义信息表示明确语义时，电子设备可以根据结构信息对语义信息进行校正，确定待识别文字的最终的识别结果，当语义信息表示不明确语义时，可以根据结构信息确定待识别文字的识别结果。无论语义信息是否正确，电子设备均可以确定准确地识别结果，甚至在对于无法识别语义的生僻字来说，也可以根据结构信息确定识别结果。

下面基于图4(a)及图4(b)对本发明实施例所提供的图像中文字的识别方法的一种实施例进行介绍。4(a)所示为本发明实施例所提供的图像中文字的识别方法的一种流程示意图，在该实施例中，特征提取模型为CNN卷积神经网络402，特征编码模型为ConvLSTM卷积长短记忆网络403，第一注意力机制模型及第二注意力机制模型的输出部分为门控循环单元GRU。

待识别图像401包括的待识别文字为“防爆钢化膜”，当前识别的待识别文字为“钢”。首先，将待识别图像401输入卷积神经网络CNN进行图像特征的提取，CNN输出图像特征。将图像特征输入卷积长短记忆网络ConvLSTM进行编码处理，ConvLSTM输出多张特征图404。然后将每张特征图404拉平变形为特征向量405，进而第一注意力机制模型可以确定这些特征向量405对应第一权重，进而对这些特征向量进行加权求和，得到当前识别的待识别文字的语义特征向量406。将语义特征向量406输入第一注意力机制模型的门控循环单元GRU，当前门控循环单元GRU的输入还包括前一个GRU的输出结果“防”及“爆”，当前门控循环单元GRU对语义特征向量406进行处理，得到语义特征向量所对应的语义信息“钢”。

图4(a)中虚线部分表示第二注意力机制模型对语义特征向量406进行处理得到结构信息的过程，其具体流程如图4(b)所示的流程示意图。首先可以根据语义特征向量406的长度将其展开为多个子特征向量407，然后将多个子特征向量407输入第二注意力机制模型，确定每个子特征向量407对应的第二权重，进而对这些子特征向量进行加权求和，得到当前识别的待识别文字的当前结构特征向量408。将当前结构特征向量408输入第二注意力机制模型的门控循环单元GRU，当前门控循环单元GRU的输入还包括前一个GRU的输出结果

及“钅”，当前门控循环单元GRU对当前结构特征向量408进行处理，得到当前结构特征向量408对应的结构信息

相应于上述图像中文字的识别方法，本发明实施例还提供了一种图像中文字的识别装置。下面对本发明实施例所提供的一种图像中文字的识别装置进行介绍。

如图5所示，一种图像中文字的识别装置，所述装置包括：

待识别图像获取模块510，用于获取待识别图像；

其中，所述待识别图像中包括待识别文字。

语义结构信息确定模块520，用于将所述待识别图像输入预先训练完成的深度学习模型，获得所述待识别文字的语义信息及结构信息；

文字识别结果确定模块530，用于基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果。

作为本发明实施例的一种实施方式，上述深度学习模型可以包括特征提取模型及特征识别模型；

上述语义结构信息确定模块520可以包括：

图像特征提取子模块(图5中未示出)，用于将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理，获得所述待识别图像的图像特征；

图像特征识别子模块(图5中未示出)，用于将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息。

作为本发明实施例的一种实施方式，上述特征识别模型可以包括第一注意力机制模型和第二注意力机制模型；

上述图像特征识别子模块可以包括：

第一权重确定单元(图5中未示出)，用于将所述待识别图像的图像特征输入所述第一注意力机制模型，确定每个图像特征对应的第一权重；

其中，所述第一权重表示对应的图像特征属于所述待识别文字的概率。

语义特征向量确定单元(图5中未示出)，用于基于所述图像特征及其对应的第一权重，对所述图像特征进行加权求和，得到所述待识别文字的语义特征向量，作为所述待识别文字的目标语义向量；

语义信息确定单元(图5中未示出)，用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息；

特征向量展开单元(图5中未示出)，用于根据所述待识别文字的目标语义特征向量的长度，将所述待识别文字的目标语义特征向量展开为多个子特征向量；

第二权重确定单元(图5中未示出)，用于将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重；

其中，所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率。

当前结构特征向量确定单元(图5中未示出)，用于基于所述子特征向量及其对应的第二权重，对所述子特征向量进行加权求和，得到所述待识别文字的当前结构特征向量；

子结构信息确定单元(图5中未示出)，用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息；

结构信息确定单元(图5中未示出)，用于根据所述子结构信息，确定所述待识别文字的结构信息。

作为本发明实施例的一种实施方式，上述语义信息确定单元可以包括：

语义信息获取子单元(图5中未示出)，用于获取在所述待识别文字之前识别得到的其他文字的语义信息；

预估语义信息确定子单元(图5中未示出)，用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的预估语义信息；

目标语义信息确定子单元(图5中未示出)，用于基于所述预估语义信息以及所述其他文字的语义信息，确定所述待识别文字的目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息。

作为本发明实施例的一种实施方式，上述子结构信息确定单元可以包括：

子结构信息获取子单元(图5中未示出)，用于获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息；

预估结构信息确定子单元(图5中未示出)，用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的预估结构信息；

子结构信息确定子单元(图5中未示出)，用于基于所述预估结构信息以及所述其他结构部分的子结构信息，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息。

作为本发明实施例的一种实施方式，上述深度学习模型还可以包括特征编码模型；

上述装置还可以包括：

图像特征编码模块(图5中未示出)，用于在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息之前，将所述待识别图像的图像特征输入所述特征编码模型，对所述待识别图像的图像特征进行编码，得到多个特征图；

特征图变形模块(图5中未示出)，用于根据每个特征图的长宽高分别将每个特征图变形为特征向量；

图像特征确定模块(图5中未示出)，用于将变形得到的多个特征向量确定为所述待识别图像的图像特征。

作为本发明实施例的一种实施方式，上述文字识别结果确定模块530可以包括：

第一识别结果确定子模块(图5中未示出)，用于当所述语义信息表示明确语义时，根据所述结构信息对所述语义信息进行校正，确定所述待识别文字的最终的识别结果；

第二识别结果确定子模块(图5中未示出)，用于当所述语义信息表示不明确语义时，根据所述结构信息确定所述待识别文字的识别结果。

本发明实施例还提供了一种电子设备，如图6所示，电子设备可以包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取待识别图像；

其中，所述待识别图像中包括待识别文字。

将所述待识别图像输入预先训练完成的深度学习模型，获得所述待识别文字的语义信息及结构信息；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述深度学习模型可以包括特征提取模型及特征识别模型；

上述将所述待识别图像输入预先训练完成的深度学习模型，根据所述待识别图像的图像特征，获得所述的待识别文字的语义信息及结构信息的步骤，可以包括：

其中，上述特征识别模型可以包括第一注意力机制模型和第二注意力机制模型；

上述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行处理，获得所述待识别文字的语义信息及结构信息的步骤，可以包括：

将所述待识别图像的图像特征输入所述第一注意力机制模型，确定每个图像特征对应的第一权重；

将所述多个子特征向量输入所述第二注意力机制模型，确定每个子特征向量对应的第二权重；

根据所述结构信息，确定所述待识别文字的结构信息。

其中，上述根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息的步骤，可以包括：

其中，上述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息的步骤，可以包括：

获取在所述当前结构特征向量所对应的子结构信息之前确定的待识别文字的其他结构部分的子结构信息；

其中，上述深度学习模型还可以包括特征编码模型；

在上述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别，获得所述待识别文字的语义信息及结构信息的步骤之前，上述方法还可以包括：

其中，上述基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果的步骤，可以包括：

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的图像中文字的识别方法。

可见，本发明实施例所提供的方案中，计算机程序被处理器执行时，可以获取待识别图像，其中，待识别图像中包括待识别文字，然后将待识别图像输入预先训练完成的深度学习模型，获得待识别文字的语义信息及结构信息，进而，基于语义信息及结构信息，确定待识别文字的识别结果。其中，深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的，深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系。由于不需要对文字进行分割，而是根据预先训练的深度学习模型获得待识别文字的准确的语义信息及结构信息，进而根据这两方面的信息的关联确定待识别文字的识别结果，可以准确对蕴含大量结构信息的文字进行识别。

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部件说明即可。

进一步需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部件互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像中文字的识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述深度学习模型包括特征提取模型及特征识别模型；

3.如权利要求2所述的方法，其特征在于，所述特征识别模型包括第一注意力机制模型和第二注意力机制模型；

根据所述子结构信息，确定所述待识别文字的结构信息。

4.如权利要求3所述的方法，其特征在于，所述根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系，确定所述目标语义特征向量所对应的语义信息，作为所述目标语义特征向量所对应的目标语义信息的步骤，包括：

5.如权利要求3所述的方法，其特征在于，所述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系，确定所述当前结构特征向量所对应的结构信息，作为所述当前结构特征向量所对应的子结构信息的步骤，包括：

6.如权利要求2所述的方法，其特征在于，所述深度学习模型还包括特征编码模型；

7.如权利要求1-6任一项所述的方法，其特征在于，所述基于所述语义信息及所述结构信息，确定所述待识别文字的识别结果的步骤，包括：

8.一种图像中文字的识别装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述深度学习模型包括特征提取模型及特征识别模型；

所述语义结构信息确定模块包括：

10.如权利要求9所述的装置，其特征在于，所述特征识别模型包括第一注意力机制模型和第二注意力机制模型；

所述图像特征识别子模块包括：

11.如权利要求10所述的装置，其特征在于，所述语义信息确定单元包括：

12.如权利要求10所述的装置，其特征在于，所述子结构信息确定单元包括：

13.如权利要求9所述的装置，其特征在于，所述深度学习模型还包括特征编码模型；

所述装置还包括：

14.如权利要求8-13任一项所述的装置，其特征在于，所述文字识别结果确定模块包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。