CN111753600B

CN111753600B - 文本识别方法、装置及存储介质

Info

Publication number: CN111753600B
Application number: CN201910251955.7A
Authority: CN
Inventors: 刘学博
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2024-05-17
Anticipated expiration: 2039-03-29
Also published as: CN111753600A

Abstract

本申请实施例公开了一种文本识别方法、装置以及存储介质，有利于提高文本识别准确度。该方法包括获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符；获取所述待识别图像中的至少一个已识别字符的第二语义向量；根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

Description

文本识别方法、装置及存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种文本识别方法、装置及存储介质。

背景技术

目前，图像中的文本识别应用到各个技术领域，例如，智慧金融、自动翻译、盲人导航等等。由于图像中背景因素的影响，例如不同的光照条件、不同的尺寸，不同的倾斜方向等，都使得文本识别变得较为困难，文本识别精度有待进一步提高。

发明内容

本申请实施例提供了一种文本识别方法、装置及存储介质，通过先验注意力机制进行文本识别，提高文本识别的准确率。

第一方面，本申请实施例提供一种文本识别方法，所述方法包括：

获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符；

获取所述待识别图像中的至少一个已识别字符的第二语义向量；

根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；

根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

在一些实施例中，所述获取待识别图像的多个第一语义向量，包括：

对待识别图像进行特征提取处理，得到所述待识别图像的特征信息；

对所述特征信息进行转换处理，得到多个特征向量；

编码所述多个特征向量，得到所述待识别图像的多个第一语义向量。

在一些实施例中，所述获取所述待识别图像中的至少一个已识别字符的第二语义向量，包括：

对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量；

编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量。

在一些实施例中，所述编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量，包括：

将所述已识别字符对应的词向量编码为维度与所述第一语义向量维度相同的第二语义向量。

在一些实施例中，所述根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重，包括：

根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重。

根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的原始注意力权重；

根据所述至少一个已识别字符的第二语义向量，得到权重限制参数，其中，所述权重限制参数用于限制所述多个第一语义向量的注意力权重服从单峰分布；

根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重。

在一些实施例中，所述根据所述至少一个已识别字符的第二语义向量确定所述多个第一语义向量的注意力权重，包括：

根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；

基于所述单峰分布参数，得到所述多个第一语义向量的注意力权重。

在一些实施例中，所述根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果，包括：

根据所述多个第一语义向量的注意力权重和所述多个第一语义向量，得到至少一个目标特征向量；

根据所述至少一个目标特征向量，确定当前跳的识别结果；

根据所述当前跳的识别结果，确定所述待识别图像的识别结果。

在一些实施例中，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符；

所述根据所述至少一个目标特征向量，确定当前跳的识别结果，包括：

确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果；

将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

在一些实施例中，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；

所述根据所述至少一个目标特征向量确定当前跳的识别结果，包括：

确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果；

将所述目标特征向量对应的识别结果作为当前跳的识别结果。

第二方面，本申请实施例提供一种电子装置，所述电子装置包括：

第一获取单元，用于获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符；

第二获取单元，用于获取所述待识别图像中的至少一个已识别字符的第二语义向量；

确定单元，用于根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；

识别单元，用于根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

在一些实施例中，在获取待识别图像的多个第一语义向量时，所述第一获取单元，具体用于：

对所述特征信息进行转换处理，得到多个特征向量；

在一些实施例中，在获取所述待识别图像中的至少一个已识别字符的第二语义向量时，所述第二获取单元，具体用于：

在一些实施例中，在编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量时，所述第二获取单元，具体用于：

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，所述确定单元，具体用于：

在一些实施例中，在根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果时，所述识别单元，具体用于：

根据所述至少一个目标特征向量，确定当前跳的识别结果；

在一些实施例中，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符；在根据所述至少一个目标特征向量，确定当前跳的识别结果时，所述识别单元，具体用于：

在一些实施例中，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；在根据所述至少一个目标特征向量确定当前跳的识别结果时，所述识别单元，具体用于：

第三方面，本申请实施例提供一种电子装置，包括处理器、存储器，其中，所述存储器用于存储计算机可读指令，所述处理器用于调用所述存储器中存储的指令，以执行如第一方面所述的方法中的步骤的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，其用于存储计算机程序，其中，当所述计算机程序被处理器执行时，所述处理器实现如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

可以看出，本申请实施例提供的文本识别技术中，基于已识别字符确定当前待识别字符的注意力权重，并依据注意力权重确定当前待识别字符的识别结果，提高了文本识别的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本识别方法的流程示意图；

图2为本申请实施例提供的一种文本识别模型的网络结构图；

图3为本申请实施例提供的一种电子装置的结构示意图；

图4是本申请实施例提供的一种电子装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的电子装置可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile InternetDevices，简称：MID)或穿戴式设备等，上述电子装置仅是举例，而非穷举，例如还可以包括：智能车载终端、计算机设备等等。

参阅图1，图1为本申请实施例提供的一种文本识别方法的流程示意图，该方法应用于电子装置。

步骤S101、获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符。

其中，该待识别图像中包括多个字符。本公开实施例的技术方案通过多步进行文本中多个字符的识别，每步识别该多个字符中的至少一个字符。

可选的，获取待识别图像的多个第一语义向量的实现过程可以为：对待识别图像进行特征提取处理，得到所述待识别图像的特征信息；对所述特征信息进行转换处理，得到多个特征向量；编码所述多个特征向量，得到所述待识别图像的多个第一语义向量。

在一些实施例中，特征信息可以为待识别图像的特征图，对特征信息进行转换处理可以为：对特征图进行切割，得到多个特征向量，例如，对该特征图按列切割，得到多个列向量，将该多个列向量作为该多个特征向量。

举例来说，如特征图的维度为M×P，对特征图按列切分，得到P个列向量，每个列向量维度为M×1，将P个列向量作为该多个特征向量。

可选的，对P个列向量进行编号，如按特征图的切割顺序编号，得到该P个列向量的序列号为1～P，且对该P个列向量进行后续处理时，序列号保持不变。

可选的，编码所述多个特征向量，得到所述待识别图像的多个第一语义向量的实现过程可以为：将该多个特征向量输入到如图2所示预先训练好的到编码网络，经若干次编码后，得到该多个特征向量对应的多个第一语义向量，其中，语义向量与特征向量一一对应。

步骤S102、获取所述待识别图像中的至少一个已识别字符的第二语义向量。

可选的，获取所述待识别图像中的至少一个已识别字符的第二语义向量的实现过程可以为：对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量；编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量。

可选的，对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量的实现过程可以为：将该至少一个已识别字符组合为第一字符序列；在该第一字符序列的首端添加开始符，得到第二字符序列，该开始符为填充的字符，且作为待识别图像中第一个待识别字符对应的已识别字符；对第二字符序列进行词嵌处理，即根据预设的映射关系将第二字符序列中的每个字符转化为对应的词向量，具体的，将填充的开始符转换为维度与上述多个第一语义向量维度相同的零向量，将第二字符序列中的已识别字符转换为维度与上述多个第一语义向量维度相同的词向量，以使对词向量编码后得到第二语义向量与和上述多个第一语义向量的维度相同，以便后续计算注意力权重。当然，本公开以将开始符转换为零向量为例说明，本公开对与起始符对应的词向量的元素不做限制。例如，可以是元素全为1的词向量，或者元素为预设值的词向量。

可选的，对待识别图像中第一个字符进行识别时，待识别图像中不存在已识别字符，将填充的开始符作为先验知识，利用开始符识别第一个字符。举例来说，如待识别图像中存在字符A、B、C和D时，在第一步，将开始符S作为已识别字符，利用开始符S识别出字符A，得到待识别图像的第一步的识别结果为A；在识别出A后，在第二步，利用已识别字符A或者利用A和S识别字符B，得到第二步的识别结果B，或者得到识别结果A和B，以此类推，直至识别出字符A、B、C和D，得到待识别图像的识别结果。

其中，编码该至少一个已识别字符对应的词向量与上述编码多个特征向量的过程一致，不再赘述。

步骤S103、根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重。

下面提供三种确定注意力权重的方法。

方法一：

可选的，根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重的实现过程可以为：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重。

具体来讲，将该至少一个已识别字符中每个已识别字符对应的第二语义向量和上述的多个第一语义向量执行点乘操作，得到每个已识别字符对该多个第一语义向量的注意力权重，即得到所述多个第一语义向量的注意力权重。

在一些实施例中，通过公式(1)确定注意力权重：

其中，

为第二字符序列中第i个已识别字符对应的第二语义向量，/>为多个第一语义向量中的第j个语义向量，/>为第i个已识别字符对第j个语义向量的注意力权重，1≤i≤n，n为第二字符序列中的字符总数量，当i＝1时，该第i个已识别字符为填充的开始符1≤j≤P，P为多个第一语义向量的总数量。

在方法一中，仅通过对第二语义向量和上述的多个第一语义向量执行点乘操作，即可得到注意力权重，故可快速得到识别结果，提高了文本识别速度。

方法二：

可选的，根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重的实现过程可以为：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的原始注意力权重；根据所述至少一个已识别字符的第二语义向量，得到权重限制参数，其中，所述权重限制参数用于限制所述多个第一语义向量的注意力权重服从单峰分布；根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重。

在一些实施例中，已知每个已识别字符对应的注意力权重服从单峰分布的特点，基于方法一得到注意力权重的方法，方法二实质为在方法一得到每个已识别字符对应的注意力权重基础上，对注意力权重执行限制操作，以使每个已识别字符对应的注意力权重满足服从单峰分布的特点。

具体来讲，将每个已识别字符的第二语义向量和上述的多个第一语义向量执行点乘操作，得到该多个第一语义向量的初始注意力权重；根据每个已识别字符的第二语义向量，预测一个高斯分布的均值，该均值用于表示该已识别字符的注意力集中位置；基于该高斯分布的均值，得到对该已识别字符的原始注意力权重的限制参数(即服从单峰分布的序列)，将该限制参数与该原始注意力权重进行叉乘，得到该已识别字符对应的注意力权重，从而使该注意力权重服从单峰分布。

本申请以高斯分布为例做具体说明，但不做唯一限定。例如，还可以采用服从单峰分布的t-分布、伽马分布等，对注意力权重执行限制权重，使注意权重服从单峰分布。

在一些实施例中，通过公式(2)预测高斯分布的均值：

其中，

高斯分布的均值，/>为第二字符序列中的第i个已识别字符对应的第二语义向量，W_c为预先训练得到的权重，V_c为预先训练得到的列向量，V_c ^T为V_c的转置，tanh和sigmoid均为激活函数，P为该多个第一语义向量的总数量，其中，当i＝1时，第i个已识别字符为填充的开始符。

举例来说，如特征图的维度为100×1024，可得到100个第一语义向量，每个第一语义向量维度为1024×1，如权重W_c的维度为1024×1024，所以W_c×h_i ^l得到维度为1024×1的列向量，经tanh函数后，将列向量中各个元素映射到[-1,1]，然后与进行点乘得到一数值，将该数值经激活函数sigmoid，映射到[0,1]，再乘以P得到高斯分布的均值，将注意力拉回到该100个第一语义向量的某个第一向量，即得到第i个已识别字符对100个第一语义向量的注意力集中位置。

在一些实施例中，通过公式(3)确定权重限制参数：

j为该多个第一语义向量的序列号，1≤j≤P，σ＝P/2，r_ij为权重限制参数。

可选的，遍历j的取值，得到一个以j为变量的高斯分布序列，将该序列组成为维度为1×P的向量X_i＝[α₁,…,α_s]，X_i则为第i个已识别字符对应的权重限制参数。

在一些实施例中，通过公式(4)得到注意力权重：

其中，为第二字符序列中第i个已识别字符对应的注意力权重，/>为第二字符序列中第i个已识别字符对应的第二语义向量，/>为该多个第一语义向量中第j个语义向量，其中，当i＝1时，第i个已识别字符为填充的开始符。

可以看出，在方法二中，根据先验知识，限制注意权重，保证得到的注意权重服从单峰分布，使本方法中得到的注意力分布更加集中，提高文本识别的精度。

方法三：

可选的，根据所述至少一个已识别字符的第二语义向量确定所述多个第一语义向量的注意力权重的实现过程可以为：根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；基于所述单峰分布参数，得到所述多个第一语义向量的注意力权重。

具体来讲，根据每个已识别字符的第二语义向量，预测一个高斯分布的均值；基于该高斯分布的均值和标准差，得到单峰分布参数，即服从高斯分布的序列，将该序列作为每个已识别字符对应的注意力权重。

在一些实施例中，通过公式(5)和(6)预测高斯分布的均值和标准差：

其中，和/>分别高斯分布的均值和标准差，W_c和W_σ为预先训练得到的权重，V_c和V_σ均为预先训练得到的列向量，V_c ^T和V_σ ^T分别为V_c和V_σ的转置。

在一些实施例中，通过公式(7)确定注意力权重：

其中，为第i个已识别字符对应的注意力权重，1≤j≤P，当i＝1时，第i个已识别字符为填充的开始符。

可以看出，在方法三中，通过预测高斯分布的均值以及方差，得到服从单峰分布的注意力权重，由于注意力权重服从单峰分布，使得在文本识别过程中的注意力更加集中，提高了文本识别的精确度，而且，仅通过高斯分布即可确定出服从单峰分布的注意力权重，减少了计算注意力权重的复杂度，提高了文本识别速度。

当然，如图2所示，上述得到的注意权重为本步的权重，根据本步得到的每个已识别字符对应的注意力权重，对该多个第一语义向量进行加权求和，得到本次循环对应的至少一个目标特征向量，将该至少一个目标特征向量输入到下一个循环，并将该至少一个目标特征向量与该至少一个已识别字符对应的第二语义向量进行特征融合，得到至少一个目标语义向量，根据该至少一个目标语义向量计算下一个循环中该至少一个目标语义向量对应的注意力权重，以此类推，直至N次循环后，得到该至少一个已识别字符对应的至少一个最终注意力权重，其中，N为大于1的整数。

步骤S104、根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

本公开实施例的技术方案通过多跳识别机制依次识别该待识别图像中的多个字符，每步识别该多个字符中的至少一个字符，故得到每步识别的至少一个目标特征向量；基于该目标特征向量得到当前跳的识别结果，该当前跳的识别结果可用于识别下一个字符的处理过程，直到待识别图像中的多个字符全部识别完成，在全部识别完成后，可在如图2所示的模型结构中输入结束向量，所述结束向量的元素可以是预设的，或者，所述结束向量的元素全为1等，本公开对结束向量不做限制。在输入结束向量时，待识别图像中的文本识别工作完成，并获得字符识别结果。

在一些实施例中，前一跳对应的识别结果的语义信息可被包含在与前一跳的目标特征向量中，该目标特征向量中的元素可具有待识别图像中的背景、拍摄角度、尺寸、光照条件和字体等信息，可用于在识别待识别图像的后续字符时提供依据，因此，该目标特征向量包含的语义信息也可作为识别其后续字符的依据，通过这种方式，在用如图2所示的模型结构识别文本时，可根据前一字符的识别结果，对当前跳的目标特征向量对应的字符进行预测，避免了不可控的长依赖问题，提高了识别的准确率。

可选的，根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果的实现过程可以为：根据所述多个第一语义向量的注意力权重和所述多个第一语义向量，得到至少一个目标特征向量；根据所述至少一个目标特征向量，确定当前跳的识别结果；根据所述当前跳的识别结果，确定所述待识别图像的识别结果。

具体来讲，根据上述确定出的每个已识别字符对所述多个第一语义向量的注意力权重(即上述的最终注意力权重)，对所述多个第一语义向量进行加权求和，得到与该已识别字符对应的目标特征向量。

举例来说，如在当前跳之前识别出的至少一个已识别字符分别为A、B和C，由于填充开始符S，得到第二字符序列为SABC，如多个第一语义向量分别为X₁，X₂，…，X₁₀₀，基于方法一、方法二或方法三确定注意力权重的方法，得到与SABC对应的注意力权重分别为α₁,α₂,α₃,…,α₁₀₀；β₁,β₂,β₃,…,β₁₀₀；λ₁,λ₂,λ₃,…,λ₁₀₀；μ₁,μ₂,μ₃,…,μ₁₀₀，则可以确定出与开始符S对应的目标特征向量X_S＝α₁×X₁+α₂×X₂+…+α₁₀₀×X₁₀₀；与已识别字符A对应的目标特征向量X_A＝β₁×X₁+β₂×X₂+…+β₁₀₀×X₁₀₀；与已识别字符B对应的目标特征向量X_B＝λ₁×X₁+λ₂×X₂+…+λ₁₀₀×X₁₀₀；与已识别字符C对应的目标特征向量X_C＝μ₁×X₁+μ₂×X₂+…+μ₁₀₀×X₁₀₀。

在一些实施例中，该至少一个已识别字符包括在当前跳之前已经识别的所有字符，根据所述至少一个目标特征向量，确定当前跳的识别结果的实现过程可以为：确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果；将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

可以看出，在本示例中，在识别当前跳对应的待识别字符时，利用当前跳之前所有已识别字符来识别该待识别字符，通过融合所有已识别字符的先验信息，提高了文本识别精度。

举例来说，如该待识别图像中的字符为A、B、C和D，在进行第一跳识别时，根据填充的开始符S，得到与开始符S对应的目标特征向量X_S，基于目标特征向量X_S得到第一跳的识别结果为A，在进行第二跳识别时，根据填充的开始符S和已识别字符A，得到与开始符S对应的目标特征向量X_S以及得到与已识别字符A对应的目标特征向量X_A，基于目标特征向量X_S和目标特征向量X_A得到第二跳的识别结果为A、B，其中，目标特征向量X_S用于识别A，目标特征向量X_A用于识别B，依次类推，得到第四跳的识别结果为A、B、C和D，基于第四跳的识别结果，得到该待识别图像的识别结果为A、B、C和D。

在一些实施例中，该至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；根据所述至少一个目标特征向量确定当前跳的识别结果的实现过程可以为：确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果；将所述目标特征向量对应的识别结果作为当前跳的识别结果。

可以看出，在本示例中，仅利用上一跳识别出的字符识即可别当前跳对应的待识别字符，无需之前其他跳的已识别字符参与本跳的识别过程，提高了文本识别速度。

举例来说，如该待识别图像中的字符为A、B、C和D，在进行第一跳识别时，根据填充的开始符S，得到与开始符S对应的目标特征向量X_S，基于目标特征向量X_S得到第一跳的识别结果为A，在进行第二跳识别时，根据已识别字符A，得到与已识别字符A对应的目标特征向量X_A，基于目标特征向量X_A得到第二跳的识别结果为B，依次类推，得到第四跳的识别结果为D，基于第一跳到第四跳的识别结果，得到该待识别图像的识别结果为A、B、C和D。

其中，确定目标特征向量对应的识别结果可以为：对目标特征向量进行匹配，得到每个目标特征向量对应的匹配结果；根据匹配结果确定该目标特征向量落入预设字典中每个字符的概率，将概率最大对应的字符作为该目标特征向量对应的识别结果。

其中，该预设字典中的字符可以为0～1、A～Z、a～z或者其他值。

可以看出，在本申请实施例中，在对文本识别时，基于已识别字符确定当前待识别字符的注意力权重，并依据注意力权重确定当前待识别字符的识别结果，提高了文本识别的精度；并且在计算时考虑注意力权重的单峰分布特点，使注意力分布集中，解决了由于注意力分布丰富导致模型训练缓慢需要大量的训练数据的问题；由于得到注意力分布集中，进一步提高了文本识别精确。

在一些实施例中，本公开实施例提供的文本识别方法应用于如图2所示的文本识别模型，该文本识别模型为基于编码-解码(Encoder-Decoder)结构的网络模型，其中，Encoder包括：特征提取与转换网络、第一编码网络，Decoder包括：词嵌入网络、第二编码网络、注意力权重确定模块以及分类器softmax。

在一些实施例中，第一编码网络和第二编码网络均为残差网络，并且具有相同或不同的网络结构，采用残差网络使得图2所示的文本识别模型更加容易训练，在加深网络结构的同时，提高文本识别的精度。在一些例子中，第一编码网络和第二编码网络的网络结构相同，均包括N个相同的网络块，每个网络块包括一维卷积层与门控线性单元GLU(GatedLinear Units，简称：GLU)。

在一些实施例中，所述特征提取与转换网络，用于对待识别图像进行特征提取处理，得到所述待识别图像的特征信息，对所述特征信息进行转换处理，得到多个特征向量。

在一些实施例中，所述第一编码网络，用于编码所述特征提取与转换网络得到的多个特征向量，得到所述待识别图像的多个第一语义向量，其中，码该多个特征向量具体包括：将该多个特征向量输入到第一编码网络的第一网络块，经过一维卷积，得到卷积结果；将该卷积结果输入GLU进行非线性激活，得到非线性运算结果，将该非线性运算结果与该多个特征向量进行特征融合，得到融合向量，将该融合向量输入到第一编码网络的第二网络块进行编码，以此类推，经过第一编码网络的N个网络块的编码运算后，得到与所述多个特征向量对应的多个第一语义向量。

在一些实施例中，所述词嵌入网络，用于对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量。

在一些实施例中，所述第二编码网络，用于编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量，具体的，将填充的开始符转化为维度与上述多个第一语义向量维度相同的零向量，该至少一个已识别字符转换为维度与上述多个第一语义向量维度相同的词向量，以使对词向量编码后得到第二语义向量与和上述多个第一语义向量的维度相同，以便后续计算注意力权重，其中，第二编码网络对词向量的具体编码过程与第一编码网络的编码类似，不再赘述。

在一些实施例中，所述注意力确定模块，用于根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重。

在一些实施例中，所述注意力确定模块，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，具体用于：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重，即通过上述方法一确定注意力权重。

在一些实施例中，所述注意力确定模块，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，具体用于：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的原始注意力权重；根据所述至少一个已识别字符的第二语义向量，得到权重限制参数，其中，所述权重限制参数用于限制所述多个第一语义向量的注意力权重服从单峰分布；根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重，即通过上述方法二确定注意力权重。

在一些实施例中，所述注意力确定模块，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，具体用于：根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；基于所述单峰分布参数，得到所述多个第一语义向量的注意力权重，即通过上述方法三确定注意力权重。

在一些实施例中，所述注意力确定模块，还用于：根据所述多个第一语义向量的注意力权重和所述多个第一语义向量，得到至少一个目标特征向量，将所述至少一个目标特征向量发送给所述softmax分类器。

所述softmax分类器，用于根据所述至少一个目标特征向量，确定当前跳的识别结果，根据所述当前跳的识别结果，确定所述待识别图像的识别结果。

在一些实施例中，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符，所述softmax分类器，在根据所述至少一个目标特征向量，确定当前跳的识别结果时，具体用于：确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果；将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

在一些实施例中，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量，所述softmax分类器，在根据所述至少一个目标特征向量，确定当前跳的识别结果时，具体用于：所述根据所述至少一个目标特征向量确定当前跳的识别结果，包括：确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果；将所述目标特征向量对应的识别结果作为当前跳的识别结果。

参阅图3，图3为本申请实施例提供的一种电子装置300的结构示意图，如图3所示，电子装置300包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序不同于上述一个或多个应用程序，且上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符；获取所述待识别图像中的至少一个已识别字符的第二语义向量；根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

在一些实施例中，在获取待识别图像的多个第一语义向量方面，上述程序具体用于执行以下步骤的指令：

对待识别图像进行特征提取处理，得到所述待识别图像的特征信息；对所述特征信息进行转换处理，得到多个特征向量；编码所述多个特征向量，得到所述待识别图像的多个第一语义向量。

在一些实施例中，在获取所述待识别图像中的至少一个已识别字符的第二语义向量方面，上述程序具体用于执行以下步骤的指令：对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量；编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量。

在一些实施例中，在编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量方面，上述程序具体用于执行以下步骤的指令：

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重方面，上述程序具体用于执行以下步骤的指令：

根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的原始注意力权重；根据所述至少一个已识别字符的第二语义向量，得到权重限制参数，其中，所述权重限制参数用于限制所述多个第一语义向量的注意力权重服从单峰分布；根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重。

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量确定所述多个第一语义向量的注意力权重方面，上述程序具体用于执行以下步骤的指令：

根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；基于所述单峰分布参数，得到所述多个第一语义向量的注意力权重。

在一些实施例中，在根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果方面，上述程序具体用于执行以下步骤的指令：

根据所述多个第一语义向量的注意力权重和所述多个第一语义向量，得到至少一个目标特征向量；根据所述至少一个目标特征向量，确定当前跳的识别结果；根据所述当前跳的识别结果，确定所述待识别图像的识别结果。

在一些实施例中，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符，在根据所述至少一个目标特征向量，确定当前跳的识别结果方面，上述程序具体用于执行以下步骤的指令：

确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果；将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

在一些实施例中，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量，在根据所述至少一个目标特征向量，确定当前跳的识别结果方面，上述程序具体用于执行以下步骤的指令：

确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果；将所述目标特征向量对应的识别结果作为当前跳的识别结果。

参阅图4，图4示出了上述实施例中所涉及的电子装置400的一种可能的功能单元组成框图，文本识别装置400包括：第一获取单元410、第二获取单元420、确定单元430，识别单元440；

第一获取单元410，用于获取待识别图像的多个第一语义向量，所述待识别图像包含多个字符；

第二获取单元420，用于获取所述待识别图像中的至少一个已识别字符的第二语义向量；

确定单元430，用于根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；

识别单元440，用于根据所述多个第一语义向量的注意力权重，确定所述待识别图像的识别结果。

在一些实施例中，在获取待识别图像的多个第一语义向量时，第一获取单元410，具体用于：对待识别图像进行特征提取处理，得到所述待识别图像的特征信息；对所述特征信息进行转换处理，得到多个特征向量；编码所述多个特征向量，得到所述待识别图像的多个第一语义向量。

在一些实施例中，在获取所述待识别图像中的至少一个已识别字符的第二语义向量时，第二获取单元420，具体用于：对所述至少一个已识别字符进行词嵌入处理，得到所述至少一个已识别字符对应的词向量；编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量。

在一些实施例中，在编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量时，第二获取单元420，具体用于：将所述已识别字符对应的词向量编码为维度与所述第一语义向量维度相同的第二语义向量。

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，确定单元430，具体用于：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重。

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，确定单元430，具体用于：根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的原始注意力权重；根据所述至少一个已识别字符的第二语义向量，得到权重限制参数，其中，所述权重限制参数用于限制所述多个第一语义向量的注意力权重服从单峰分布；根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重。

在一些实施例中，在根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重时，确定单元430，具体用于：根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；基于所述单峰分布参数，得到所述多个第一语义向量的注意力权重。

在一些实施例中，在根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果时，识别单元440，具体用于：根据所述多个第一语义向量的注意力权重和所述多个第一语义向量，得到至少一个目标特征向量；根据所述至少一个目标特征向量，确定当前跳的识别结果；根据所述当前跳的识别结果，确定所述待识别图像的识别结果。

在一些实施例中，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符；在根据所述至少一个目标特征向量，确定当前跳的识别结果时，识别单元440，具体用于：确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果；将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

在一些实施例中，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；在根据所述至少一个目标特征向量确定当前跳的识别结果时，识别单元440，具体用于：确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果；将所述目标特征向量对应的识别结果作为当前跳的识别结果。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种文本识别方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文本识别方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；包括：

根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重；包括：根据每个已识别字符的第二语义向量，预测高斯分布的均值；根据高斯分布的均值，得到与每个已识别字符对应的权重限制参数，其中，该权重限制参数为服从单峰分布的序列；

根据所述权重限制参数和所述多个第一语义向量的原始注意力权重，得到所述多个第一语义向量的注意力权重；

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像的多个第一语义向量，包括：

对所述特征信息进行转换处理，得到多个特征向量；

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述待识别图像中的至少一个已识别字符的第二语义向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重，包括：

根据所述至少一个已识别字符的第二语义向量，得到单峰分布参数；包括：

根据每个已识别字符的第二语义向量，预测高斯分布的均值和标准差；基于高斯分布的均值和标准差，得到单峰分布参数，其中，该单峰分布参数为服从高斯分布的序列；

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果，包括：

根据所述至少一个目标特征向量，确定当前跳的识别结果；

7.根据权利要求6所述的方法，其特征在于，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符；

8.根据权利要求6所述的方法，其特征在于，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；

9.一种电子装置，其特征在于，所述电子装置包括：

确定单元，用于根据所述至少一个已识别字符的第二语义向量，确定所述多个第一语义向量的注意力权重；包括：

10.根据权利要求9所述的装置，其特征在于，

在获取待识别图像的多个第一语义向量时，所述第一获取单元，具体用于：

对所述特征信息进行转换处理，得到多个特征向量；

11.根据权利要求9或10所述的装置，其特征在于，

在获取所述待识别图像中的至少一个已识别字符的第二语义向量时，所述第二获取单元，具体用于：

12.根据权利要求11所述的装置，其特征在于，

在编码所述至少一个已识别字符对应的词向量，得到所述至少一个已识别字符对应的第二语义向量时，所述第二获取单元，具体用于：

13.根据权利要求9所述的装置，其特征在于，

在根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量，得到所述多个第一语义向量的注意力权重时，所述确定单元，具体用于：

14.根据权利要求9所述的装置，其特征在于，

在根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果时，所述识别单元，具体用于：

根据所述至少一个目标特征向量，确定当前跳的识别结果；

15.根据权利要求14所述的装置，其特征在于，所述至少一个已识别字符包括在当前跳之前已经识别的所有字符；

在根据所述至少一个目标特征向量，确定当前跳的识别结果时，所述识别单元，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符，所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量；

在根据所述至少一个目标特征向量确定当前跳的识别结果时，所述识别单元，具体用于：

17.一种电子装置，其特征在于，包括处理器、存储器，其中，所述存储器用于存储计算机可读指令，所述处理器用于调用所述存储器中存储的指令，以执行权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，其用于存储计算机程序，其中，当所述计算机程序被处理器执行时，所述处理器实现如权利要求1-8任一项所述的方法。