CN111626293A

CN111626293A - 图像文本识别方法、装置、电子设备及存储介质

Info

Publication number: CN111626293A
Application number: CN202010437058.8A
Authority: CN
Inventors: 曹中强
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-04

Abstract

本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质，该方法包括：根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；根据所述融合特征获得待识别图像中的文本信息。本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质，通过对待识别图像进行2D位置编码，使对待识别图像分析得到的图形特征具有方向位置上的信息，从而有效的应对物品上文字分布多样性的情况，提高识别准确率。

Description

图像文本识别方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种图像文本识别方法、装置、电子设备及存储介质。

背景技术

当前的场景文字识别成为计算机视觉行业研究的热点领域之一，有着广泛的应用前景。比如广告牌识别、车牌识别、银行卡信息录入等场景。但在实际应用中，受限于图像模糊、文字排列角度不规则、背景复杂等因素，高质量的场景文字识别也是一项艰巨的任务。

针对场景文字排列规则的情况，目前存在很多方案可以完成较好的文本识别效果，但针对场景文字排列不规则的情况，其文本识别效果较差。

发明内容

针对现有技术存在的问题，本发明实施例提供一种图像文本识别方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供一种图像文本识别方法，包括：

根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；

根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；

对所述融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

进一步地，对待识别图像获取图形位置特征，包括：

对待识别图像进行位置编码确定图像在高度方向和宽度方向上的位置编码；

根据图形特征采用平均池化处理和激活函数运算确定图像的高尺度因子和宽尺度因子；

根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征。

进一步地，所述根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征，包括：

采用2D坐标信息编码公式获得图形位置特征；

其中，所述2D坐标信息编码公式包括：

为位置编码，E为图形特征，α(E)为图像的高尺度因子，β(E)为图像的宽尺度因子，根据E确定，具体如下；

其中，g(.)表示平均池化,

表示权重，sigmoid为激活函数；

为高度方向上的位置编码，

为宽度方向上的位置编码，由如下公式获得：

其中，p为位置坐标，D为位置特征向量的长度，i为位置特征向量的长度的计算维度。

进一步地，所述对所述融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息，包括：

将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码，得到编码特征；

将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码，得到待识别图像中的文本信息，所述文本嵌入向量为已识别出的文本字符的字符编码经一维位置编码形成的特征向量，所述文本字符为文本信息中的字符。

进一步地，所述将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征，包括：

将所述融合特征依次输入到编码器中的至少两个结构相同的层堆砌中，所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码，然后由所述层堆砌中的前馈网络输出，得到编码后的融合特征；

其中，所述全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块，至少一个全局注意力功能模块依次经过层级连接后，与瓶颈模块连接。

进一步地，所述层堆砌中的全局语义注意力模块对融合特征进行全局语义编码，包括：

将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中，使全局注意力功能模块和瓶颈模块进行全局语义编码获得全局语义特征。

进一步地，还包括：

采用浅层卷积神经网络对待识别图像进行特征提取获取图形特征。

第二方面，本发明实施例提供一种图像文本识别装置，包括：

获取模块，用于根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；

处理模块，用于根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；

识别模块，用于对所述融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述图像文本识别方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述图像文本识别方法的步骤。

本发明实施例提供的图像文本识别方法、装置、电子设备及存储介质，通过对待识别图像进行2D位置编码，使对待识别图像分析得到的图形特征具有方向位置上的信息，从而有效的应对物品上文字分布多样性的情况，提高识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像文本识别方法流程图；

图2为本发明实施例提供的图像文本识别方法的处理过程框图；

图3为本发明实施例提供的全局注意力功能模块的结构示意图；

图4为本发明实施例提供的图像文本识别装置结构图；

图5为本发明实施例提供的电子设备结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种图像文本识别方法的流程示意图，参见图1，该方法包括：

S11、根据待识别图像获取图形特征和图形位置特征，图形特征为具有像素信息的特征，图形位置特征为具有2D坐标信息的特征；

S12、根据图形特征和图形位置特征获得融合特征，融合特征为图形特征和图形位置特征融合后的特征；

S13、对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

针对步骤S11，需要说明的是，在本发明实施例中，该方法用于对图像上文本信息的识别。该图像是拍摄于广告牌、车牌、身份证、银行卡等有文字物品的图片。

在本发明实施例中，待识别图像为等待识别文字的目标物品所被拍摄的图片。对待识别图像进行处理获得图形特征，该图形特征为具有像素信息的特征。也就是说，该图形特征是对待识别图像上的像素点进行数字特征转换得到的特征，即数字矩阵。

由于目前的物品上所带有的文字的排列不规则，也就是文字排列不属于一般情况下的横向排列或竖向排列。为此，根据待识别图像进行位置编码时，需要进行2D坐标信息编码，由此，可使得待识别图像上不规则的文字在编码时具有方向性。

为此，对待识别图像进行位置编码获得图形位置特征。该图形位置特征为具有2D坐标信息的特征，属于数字矩阵。

针对步骤S12和步骤S13，需要说明的是，在本发明实施例中，获取图形特征和图形位置特征，需要将图形特征和图形位置特征进行融合得到融合特征。该融合特征能够将图形特征具有位置性，便于后续在处理过程中，能够从位置上分析出物品上文字之间的顺序。

在本发明实施例中，对融合特征进行后续的识别处理，可以获得待识别图像中的文本信息。

本发明实施例提供的一种图像文本识别方法，通过对待识别图像进行2D位置编码，使对待识别图像分析得到的图形特征具有方向位置上的信息，从而有效的应对物品上文字分布多样性的情况，提高识别准确率。

在上述实施例方法的更进一步实施例中，主要是针对根据待识别图像获取图形特征的过程进行解释说明，具体如下：

采用了浅层卷积神经网络(CNN网络)对待识别图像进行特征提取，获取图形特征。该图形特征能够表明图像的模式、纹理等基本信息。该CNN网络包含两个卷积核为3*3为卷积层，每个卷积层后接一个2*2，步幅为2的最大池化层。

在这里，图形特征往往包含复杂的背景信息，而对文本识别这些复杂信息往往为干扰信息。所以这里采用了最大池化进行过滤，以减轻后续特征编码的计算量。

在上述实施例方法的更进一步实施例中，主要是针对根据待识别图像获取图形位置特征的过程进行解释说明，具体如下：

对待识别图像采用2D坐标信息编码公式进行位置编码获得图形位置特征。

其中，该2D坐标信息编码公式包括：

其中，g(.)表示平均池化,

表示权重，sigmoid为激活函数。

上述α(E)和β(E)的计算公式实际上是特征E输入到一层平局池化、两层感知机的简单神经网络学习过程。通过该学习过程能够得到权重

通过权重和上述计算公式可以得到尺度因子。

为高度方向上的位置编码，

为宽度方向上的位置编码，由如下公式获得：

例如D取10，i取值为0、1、2、3、4。

在本实施例中，位置信息在文本识别中有着重要的作用，位置信息可以捕获到文本的位置以及文本之间的距离等重要特征。当前位置信息编码并不能覆盖文本方向分布的多样性，因为不同方向的文本往往元素的大小长度不同，比如10个像素宽度，水平分布的文本个数要比斜对角分布的文本个数少。

为此，该2D坐标信息编码公式可以自适应地决定高宽比率进行位置编码，在公式中，以α(E)和β(E)这两个高宽尺度因子实现自适应地决定高宽比率进行位置编码，从而使得待识别图像上不规则的文字在编码时具有方向性。

在上述实施例方法的更进一步的实施例中，主要是针对根据所述融合特征获得待识别图像中的文本信息的过程进行解释说明，具体如下：

对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

在本发明实施例中，采用Transformer识别模型对融合特征进行编解码处理，该Transformer识别模型是一个经典的基于编码-解码框架的模型，能够对图形进行文本识别。其包含基于注意力机制的编码器和解码器，该基于注意力机制的编码器包含多头注意力模块和前馈网络模块，该基于注意力机制的解码器包含掩码多头注意力模块、多头注意力模块和前馈网络模块。由于该Transformer识别模型属于经典的处理模型，在此不对其编解码过程进行详细阐述。

为此，在对图形特征进行方向位置上的信息融合后，可直接采用现有的经典Transformer识别模型对特征进行编解码，得到所需的文本信息。

在上述实施例方法的更进一步的实施例中，主要是针对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息的过程进行详细说，具体如下：

在本实施例中，为了提高识别的准确率，对融合特征进行编码的过程进行改进，在Transformer识别模型的基础上，将融合特征输入到编码器中进行基于注意力机制的全局语义编码，得到编码特征。然后将编码特征和文本嵌入向量输入到解码器中进行基于注意力机制的解码，得到待识别图像中的文本信息，该文本嵌入向量为已识别出的文本字符的字符编码进行一维位置编码融合形成的特征向量，该文本字符为文本信息中的字符。

如图2所示为，基于Transformer识别模型改进的图像文本识别方法的处理过程框图。由于该图2是基于Transformer识别模型所改进，其处理过程与Transformer识别模型的处理过程相似，仅在于编码部分多头注意力模块改为全局语义注意力模块。

在本发明实施例中，将融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征，具体为：

将融合特征依次输入到编码器中的至少两个结构相同的层堆砌中，使层堆砌中的全局语义注意力模块进行全局语义编码后经层堆砌中的前馈网络输出，得到编码后的融合特征。

其中，该全局语义注意力模块包括至少一个全局注意力功能模块和一个瓶颈模块，至少一个全局注意力功能模块依次经过层级连接后与瓶颈模块连接。如图3所示为全局信息模块的结构示意图。该模块包含多个全局注意力功能模块，每个全局注意力功能模块的输出经过级联输入到一个瓶颈模块来学习信道之间的相关性，最后与输入的特征矩阵进行融合。

将所述融合特征依次输入到全局语义注意力模块中的至少一个全局注意力功能模块和瓶颈模块中，使全局注意力功能模块和瓶颈模块进行全局语义编码获得编码后的全局语义特征。

由于上述所涉及到的编码过程包含的全局语义编码过程属于现有技术手段，且在附图3中存在详细的信息流向，为此，在此不对其进行详细阐述。

上述实施例提供的一种图像文本识别方法，通过对待识别图像进行2D位置编码，使对待识别图像分析得到的图形特征具有方向位置上的信息，从而有效的应对物品上文字分布多样性的情况，提高识别准确率，另外，增加编码过程中对特征的全局语义编码处理，可进一步提高准确率。

图4示出了本发明一实施例提供的图像文本识别装置的结构示意图，参见图4，该装置包括获取模块41、处理模块42和识别模块43，其中：

获取模块41，用于根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；

处理模块42，用于根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；

识别模块43，用于对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

在上述装置的进一步实施例中，该获取模块在根据待识别图像获取图形位置特征的过程中，具体用于：

在上述装置的进一步实施例中，该获取模块在根据图像在高度方向和宽度方向上的位置编码、高尺度因子和宽尺度因子确定图形位置特征的过程中，具体用于：

采用2D坐标信息编码公式获得图形位置特征；

其中，所述2D坐标信息编码公式包括：

为位置编码，E为图形特征，αα(E)为图像的高尺度因子，β(E)为图像的宽尺度因子，根据E确定，具体如下；

其中，g(.)表示平均池化,

表示权重，sigmoid为激活函数；

为高度方向上的位置编码，

为宽度方向上的位置编码，由如下公式获得：

在上述装置的进一步实施例中，所述识别模块在对所述融合特征进行基于注意力机制的编码和解码获得待识别图像中的文本信息的过程中，具体用于：

将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码特征；

在上述装置的进一步实施例中，所述识别模块在将所述融合特征输入到编码器中进行基于注意力机制的全局语义编码得到编码后的融合特征的过程中，具体用于：

其中，所述全局语义注意力模块包括至少一个全局注意力功能模块和瓶颈模块，每个全局注意力功能模块经过层级连接，并与瓶颈模块连接。

在上述装置的进一步实施例中，所述识别模块具体用于：

在上述装置的进一步实施例中，所述获取模块还具体用于：

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

上述实施例提供的一种图像文本识别装置，通过对待识别图像进行2D位置编码，使对待识别图像分析得到的图形特征具有方向位置上的信息，从而有效的应对物品上文字分布多样性的情况，提高识别准确率，另外，增加编码过程中对特征的全局语义编码处理，可进一步提高准确率。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信。处理器51可以调用存储器53中的逻辑指令，以执行如下方法：根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图5所示的处理器51、通信接口52、存储器53和通信总线54，其中处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信，且处理器51可以调用存储器53中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器53中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据待识别图像获取图形特征和图形位置特征，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征；根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：根据待识别图像获取图形特征和图形位置，所述图形特征为具有像素信息的特征，所述图形位置特征为具有2D坐标信息的特征矩阵；根据所述图形特征和图形位置特征获得融合特征，所述融合特征为图形特征和图形位置特征融合后的特征；对融合特征进行基于注意力机制的编码和解码，获得待识别图像中的文本信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。