CN113591546A

CN113591546A - 语义增强型场景文本识别方法及装置

Info

Publication number: CN113591546A
Application number: CN202110653956.1A
Authority: CN
Inventors: 崔萌萌; 王威; 王亮
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-11-02
Anticipated expiration: 2041-06-11
Also published as: CN113591546B

Abstract

本发明提供一种语义增强型场景文本识别方法及装置，通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列，并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达，获取场景文本图像全局的视觉信息和语义信息，解码器采用特殊设计的循环神经网络单元进行解码，该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测，增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息，使得场景文本识别结果准确率较高。

Description

语义增强型场景文本识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语义增强型场景文本识别方法及装置。

背景技术

与高质量文档图像的传统光学字符识别(OCR)相比，自然场景文本识别能在更宽泛的领域中应用，例如照片分析、车牌识别，图片广告过滤，场景理解，商品识别，街景定位，票据识别等。由于场景文本的文字形式及背景较复杂，从而导致识别难度较高，主要难点包括：图片背景极为丰富，经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题；文本的布局可能存在扭曲、褶皱、换向等问题；其中的文字也可能字体多样、字号字重颜色不一的问题。

传统的场景文本识别主要利用卷积神经网络提取的视觉信息或循环神经网络提取的上下文信息进行文本识别，然而该方法中的编码器提取的是单一化特征，会造成信息损失。对于文本形态多样、背景复杂的字符图像数据，常规算法解码器所采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐，限制了准确率的提升，而为了提升准确率而采用的多层解码器则会极大增加模型参数量以及计算复杂度。

发明内容

本发明提供一种语义增强型场景文本识别方法及装置，用以解决现有技术中场景文本识别精度较低且复杂度较高的缺陷。

本发明提供一种语义增强型场景文本识别方法，包括：

确定待识别的场景文本图像；

将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；

其中，所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；所述场景文本识别模型包括编码器和解码器；所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列，并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为所述解码器的循环神经网络的初始时刻输入，将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到所述场景文本对应字符的识别结果。同时，将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到所述场景文本的识别结果。

根据本发明提供的一种语义增强型场景文本识别方法，所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量，所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。

根据本发明提供的一种语义增强型场景文本识别方法，所述将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果，包括：

将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达；

将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器输出的所述场景文本识别结果。

根据本发明提供的一种语义增强型场景文本识别方法，所述将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达，包括：

将所述场景文本图像输入至所述编码器的视觉特征提取层，得到所述视觉特征提取层输出的所述场景文本图的视觉特征图；

将所述视觉特征图输入至所述编码器的上下文提取层，得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列；

将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层，由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达；

其中，所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络，所述上下文特征序列是基于如下过程确定的：对所述长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率进行特征丢弃，将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接，得到所述上下文特征序列。

根据本发明提供的一种语义增强型场景文本识别方法，所述对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达，包括：

对所述上下文特征序列沿垂直维度扩展，直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同；

将维度扩展后的上下文特征序列与所述视觉特征图相加，并添加所述视觉特征图中各像素的位置编码，得到所述叠加层输出的所述增强型特征表达。

根据本发明提供的一种语义增强型场景文本识别方法，所述将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器输出的所述场景文本识别结果，包括：

将所述全局上下文特征向量和所述增强型特征表达输入至所述解码器的注意力层，由所述注意力层对所述全局上下文特征向量和所述增强型特征表达进行多头注意力运算，得到所述注意力层输出的全局表观特征向量；

将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层，得到所述隐含状态提取层输出的初始时刻隐含状态向量；

将所述增强型特征表达和所述隐含状态向量输入至所述注意力层，得到所述注意力层输出的局部表观特征向量；

将所述隐含状态向量和所述局部表观特征向量输入至所述解码器的全连接层，得到所述全连接层输出的初始时刻场景文本识别结果；

所述解码器的解码过程为参数共享的多时间步循环迭代结构，在初始时刻之后的循环过程中，将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器，得到每一时间步的识别结果，直至输出终止符，识别过程结束，得到所述场景文本的识别结果。

根据本发明提供的一种语义增强型场景文本识别方法，所述隐含状态提取层由长-短记忆神经单元组成，所述隐含状态向量是基于如下过程获取的：对所述长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率做特征丢弃。

根据本发明提供的一种语义增强型场景文本识别方法，所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接，并经由线性变换操作与归一化操作，得到该时刻各个类别的概率分布，并取概率最大的类别为当前场景文本的识别结果。

根据本发明提供的一种语义增强型场景文本识别方法，所述确定待识别的场景文本图像，包括：

确定待识别的原始场景文本图像，并对所述原始场景文本图像进行图像预处理；所述预处理包括归一化处理和标准化处理；

对预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正，得到所述场景文本图像；所述场景文本图像的格式与预设格式相同。

本发明还提供一种场景文本识别装置，包括：

文本确定单元，用于确定待识别的场景文本图像；

文本识别单元，用于将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语义增强型场景文本识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语义增强型场景文本识别方法的步骤。

本发明提供的语义增强型场景文本识别方法及装置，通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列，并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达，从而能够获取场景文本图像全局的视觉信息和语义信息，编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码，该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测，增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息，进而使得得到的场景文本识别结果准确率较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语义增强型场景文本识别方法的流程示意图之一；

图2是本发明提供的语义增强型场景文本识别方法的流程示意图之二；

图3是本发明提供的编码器结构示意图；

图4是本发明提供的解码器结构示意图；

图5是本发明提供的语义增强型场景文本识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明提供一种语义增强型场景文本识别方法。图1是本发明提供的场景文本识别的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定待识别的场景文本图像；

步骤120、将场景文本图像输入至场景文本识别模型，得到场景文本识别模型输出的场景文本识别结果；

其中，场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；场景文本识别模型包括编码器和解码器；编码器用于提取场景文本图像的视觉特征图以及上下文特征序列，并基于视觉特征图以及上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为解码器的循环神经网络的初始时刻输入，将循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到场景文本对应字符的识别结果。同时，将局部表观特征向量、隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到场景文本的识别结果。

具体地，待识别的场景文本图像可以采用手机、专用硬件等摄像设备进行采集，由于不同拍摄设备所采集的场景文本图像可能尺寸不同，因此在获取场景文本图像之后，可以对场景文本图像进行尺寸调整，将场景文本图像调整到统一尺寸，便于场景文本识别模型并行化处理。

在确定场景文本图像之后，将场景文本图像输入至场景文本识别模型，从而可以得到场景文本识别模型输出的场景文本识别结果；其中，场景文本识别模型用于提取场景文本图像的视觉特征图以及上下文特征序列，并基于视觉特征图以及上下文特征序列确定增强型特征表达，从而能够获取场景文本图像全局的视觉信息和语义信息，即全面获取场景文本图像中的信息。

在获取全局上下文特征向量和增强型特征表达后，基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，并对隐含状态向量和展开后的增强型特征表达进行多头注意力运算，能够捕捉特征的显著性信息和辅助信息，减少信息解码过程中的信息损失，进而使得得到的场景文本识别结果准确率较高。相较于传统方法中，采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐，本发明实施例准确率较高，而且本发明实施例不需要像传统方法中采用多层解码器进行运算，能够更加简便快捷获取场景文本识别结果。

基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为解码器的循环神经网络的初始时刻输入，将循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到场景文本对应字符的识别结果。同时，将局部表观特征向量、隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到场景文本的识别结果。

由此可见，编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码，该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测，增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息，进而使得得到的场景文本识别结果准确率较高。

在将场景文本图像输入至场景文本识别模型之前，还可以预先训练得到场景文本识别模型，具体可以通过执行如下步骤实现：首先，收集大量样本场景文本图像，通过人工标注确定其对应的样本场景文本识别结果。随即，基于样本场景文本图像以及样本场景文本识别结果对初始模型进行训练，从而得到场景文本识别模型。

本发明实施例提供的语义增强型场景文本识别方法，通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列，并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达，从而能够获取场景文本图像全局的视觉信息和语义信息，编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码，该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测，增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息，进而使得得到的场景文本识别结果准确率较高。

基于上述实施例，全局上下文特征向量指最后一个时刻上下文特征序列对应的向量，全局表观特征向量是对全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。

具体地，将视觉特征图以垂直方向为轴做平均池化，得到与视觉特征图水平分布相对应的特征序列，并将特征序列输入至单隐含层双向递归神经网络进行特征提取，得到上下文特征序列，并将最后一个时刻输出的上下文特征序列对应的向量作为全局上下文特征向量。

将增强型特征表达进行水平和垂直维度的展开，以全局上下文特征向量做查询向量，进行多头注意力计算，得到全局表观特征向量。

基于上述任一实施例，将场景文本图像输入至场景文本识别模型，得到场景文本识别模型输出的场景文本识别结果，包括：

将场景文本图像输入至场景文本识别模型的编码器，得到编码器输出的全局上下文特征向量和增强型特征表达；

将全局上下文特征向量和增强型特征表达输入至场景文本识别模型的解码器，得到解码器输出的场景文本识别结果。

具体地，编码器用于提取场景文本图像的全局上下文特征向量以及增强型特征表达，从而能够获取场景文本图像全局的视觉信息和语义信息，即全面获取场景文本图像中的信息。

在获取全局上下文特征向量和增强型特征表达后，解码器基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，并对隐含状态向量和展开后的增强型特征表达进行多头注意力运算，能够捕捉特征的显著性信息和辅助信息，减少信息解码过程中的信息损失，进而使得得到的场景文本识别结果准确率较高。

基于上述任一实施例，将场景文本图像输入至场景文本识别模型的编码器，得到编码器输出的全局上下文特征向量和增强型特征表达，包括：

将场景文本图像输入至编码器的视觉特征提取层，得到视觉特征提取层输出的场景文本图的视觉特征图；

将视觉特征图输入至编码器的上下文提取层，得到上下文提取层输出的视觉特征图对应的上下文特征序列；

将上下文特征序列和视觉特征图输入至编码器的叠加层，由叠加层对上下文特征序列和视觉特征图进行相加处理，得到叠加层输出的增强型特征表达；

其中，上下文提取层为长-短记忆单元构成的双向单层循环神经网络，上下文特征序列是基于如下过程确定的：对长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率进行特征丢弃，将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接，得到上下文特征序列。

具体地，如图2所示，在确定场景文本图像之后，将场景文本图像输入至编码器(Encoder)的视觉特征提取层，得到视觉特征提取层输出的场景文本图的视觉特征图。如图3所示，该视觉特征提取层可以是改进后的轻量级残差连接的卷积神经网络(CNN)，该网络由卷积层，池化层，残差连接模块构成。池化层的最后一层可以采用2×1的步长，以提升垂直维度感受野、保持水平方向精细化的视觉特征图，从而提取后的视觉特征图垂直方向尺寸为3，对应图像中上、中、下文字位置分布。

在获取视觉特征图后，将其输入上下文提取层，先以垂直方向为轴对视觉特征图做平均池化，得到与视觉特征图水平分布相对应的上下文特征序列，然后对上下文特征序列进行特征提取，得到上下文特征序列，并将最后时刻的上下文特征序列对应的向量作为全局上下文特征向量h_f。其中，如图2所示，上下文提取层可以是由单隐含层双向递归神经网络(LD-LSTM长-短记忆神经单元)构成，采用Layernorm层归一化方法平滑网络单元的输入，并在每个时间步单元输出的隐含状态向量h_t和细胞状态向量c_t，按概率p做Dropout特征丢弃，以均衡上下文特征之间的独立性和相关性。

其中，层归一化方法具体计算流程为：

其中，α和β为增益参数和偏置参数，μ_t和σ_t对应单元输入向量X_t的均值和方差。因此，加入Layernorm和Dropout函数的长短记忆单元(LD-LSTM)可以表示为：

c_t＝Dropout(sidm(f_t)c_t-1+sigm(i_t)tanh(g_t)，p)；

h_t＝Dropout(sigm(o_t)tanh(c_t),p)；

其中，W_x和W_h为参数矩阵，p为丢弃概率。

在获取上下文特征序列后，将上下文特征序列和视觉特征图输入至编码器的叠加层，由叠加层对上下文特征序列和视觉特征图进行相加处理，得到叠加层输出的增强型特征表达。如图2所示，将上下文特征序列沿垂直维度扩展至与视觉特征图相同尺寸并进行相加操作，并加入每个像素的位置编码，得到增强型特征表达v。

基于上述任一实施例，对上下文特征序列和视觉特征图进行相加处理，得到叠加层输出的增强型特征表达，包括：

对上下文特征序列沿垂直维度扩展，直至上下文特征序列的尺寸与视觉特征图的尺寸相同。

将维度扩展后的上下文特征序列与视觉特征图相加，并添加视觉特征图中各像素的位置编码，得到叠加层输出的增强型特征表达。

具体地，将上下文特征序列沿垂直维度扩展至与视觉特征图相同尺寸并进行相加操作，并加入每个像素的位置编码，从而可以得到增强型特征表达。其中，位置编码是基于如下过程确定的：

展开后的视觉特征图尺寸为：[H×W，C]，H和W分别表示视觉特征图垂直和水平方向的尺寸，C表示视觉特征图的维度，则位置编码的计算过程为：

其中，i代表展开后的视觉特征图行信息，j代表展开后的视觉特征图列信息(维度信息)。在偶数位置上采用正弦编码，在奇数位置采用余弦编码，以此方法为视觉特征图加入绝对位置信息以及相对位置信息。

基于上述任一实施例，将全局上下文特征向量和增强型特征表达输入至场景文本识别模型的解码器，得到解码器输出的场景文本识别结果，包括：

将全局上下文特征向量和增强型特征表达输入至解码器的注意力层，由注意力层对全局上下文特征向量和增强型特征表达进行多头注意力运算，得到注意力层输出的全局表观特征向量；

将全局表观特征向量、全局上下文特征向量和初始值设置为全零的词嵌入向量输入至解码器的隐含状态提取层，得到隐含状态提取层输出的初始时刻隐含状态向量；

将增强型特征表达和隐含状态向量输入至注意力层，得到注意力层输出的局部表观特征向量；

将隐含状态向量和局部表观特征向量输入至解码器的全连接层，得到全连接层输出的初始时刻场景文本识别结果；

解码器的解码过程为参数共享的多时间步循环迭代结构，在初始时刻之后的循环过程中，将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器，得到每一时间步的识别结果，直至输出终止符，识别过程结束，得到场景文本的识别结果。

具体地，如图2和图4所示，在得到全局上下文特征向量h_f和增强型特征表达v后，可以先对增强型特征表达v进行水平和垂直维度的展开，以全局上下文特征向量h_f做查询向量，由解码器(Decoder)的注意力层进行多头注意力运算，得到全局表观特征向量g_f。

建立词嵌入参数矩阵，根据上一时刻预测结果选择对应的词嵌入向量e_t-1，若在初始时刻，则词嵌入向量为全零向量。将词嵌入向量e₀与全局上下文特征向量h_f、全局表观特征向量g_f，一并输入隐含状态提取层，得到当前时刻的隐含状态向量h_t和细胞状态向量c_t；其中，隐含状态提取层单隐含层长短记忆网络(LD-LSTM)构成。

然后，将增强型特征表达v进行水平和垂直维度的展开，与隐含状态向量h_t做查询向量进行多头注意力运算，得到当前时刻的局部表观特征向量g_t。

将隐含状态向量h_t与局部表观特征向量g_t沿特征维度做拼接，并经过全连接层，并将其输出累加后经一个Softmax层进行归一化，得到当前时刻输出的类属概率，并根据Softmax层输出的类属概率最大值来判定当前时刻输出所属类别。

接着，将上述得到的隐含状态向量h_t、局部表观特征g_t、以及预测结果对应的词嵌入向量e_t，输入到下个时间的单隐含层长短记忆单元，进行下一步的循环迭代，循环执行上述隐含状态提取层、注意力层以及全连接层中的步骤，直至输出终止符如“EOS”，得到最终的场景文本识别结果。其中，终止符可以设置在场景文本图像中最后一个字符之后，则输出终止符表明该场景文本图像识别流程结束，即已识别图像中的所有字符。可以理解的是，对于场景文本图像，可以对其中的每个数据设置相应的字符，字符类别可以包括52个英文字符(包括大小写)，10个阿拉伯数字符号以及1个EOS终止符。

其中，所述单隐含层长短记忆单元的迭代过程为：

其中，单隐含层长短记忆单元(LD-LSTM)的计算过程为：

c_t＝Dropout(sidm(f_t)c_t-1+sigm(i_t)tanh(g_t),p)；

h_t＝Dropout(sigm(o_t)tanh(c_t),p)；

其中，g_t-1为上一时刻的局部表观特征向量，h_t-1和c_t-1为上一时刻单元的输出，e_t-1为上一时刻预测结果对应的词嵌入向量。

此外，上述多头注意力运算是基于多头注意力机制(Multi-Head GeneralAttention，MHGAT)进行运算的，其具体运算过程为：

将展开后长度为N的增强型特征表达v沿通道方向均分为m个子向量v′＝[v’₁,v’₂,…,v’_N]，H为注意力头的个数，对于给定的查询向量(隐含状态向量h_t)，v′的注意力概率分布为：

a_t＝softmax(score(h′_t,v′))∈N；

其中，W_a′为参数矩阵，v′为的维度，则v′的注意力运算可以表示为：

因此，局部表观特征向量g_t可以表示为多头注意力沿通道维度的拼接：

g_t＝MultiHead(h_t,v)＝Concat(head₁,…,head_m)；

head_j＝GeneralAttention(h_tW_h,j,v_j)，v_j∈Split(v，m)；

由此可见，该算法采用General attention的方法减少了计算注意力分布概率过程的参数量，多头注意力机制的采用，使得在不增加参数量以及计算复杂度的同时，有效提高了注意力的适应能力，主注意力头和辅助注意力头可以关注到目标字符的显著区域和相关区域，弥补编码信息与视觉信息不对齐造成的信息丢失，提高对不同形态、不同位置字符的识别能力。

最后，当前时刻输出的类属概率，其具体运算过程为：

u_t＝W_o[h_t；g_t]；

其中，W_o为输出类别相关的参数矩阵，然后经过Softmax计算得到类属概率。

其中，C为字符的类别，包括所要识别的字符以及EOS终止符。

需要说明的是，场景文本识别模型的优化目标是输出第一个EOS终止符以及终止符之前的字符对应的交叉熵损失函数的均值与l2正则化损失函数之和，具体计算流程为：

其中，s为标记字符序列y＝[y₁,y₂,..y_s]的长度，w为模型的参数，λ为l2正则化损失函数系数，模型训练采用反向传输算法BPTT(Back-Propagation Through Time)来进行。

基于上述任一实施例，隐含状态提取层由长-短记忆神经单元组成，隐含状态向量是基于如下过程获取的：对长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率做特征丢弃。

具体地，隐含状态提取层可以由单隐含层双向递归神经网络(LD-LSTM长-短记忆神经单元)构成，采用Layernorm层归一化方法平滑网络单元的输入，并在每个时间步单元输出的隐含状态向量h_t和细胞状态向量c_t，按概率p做Dropout特征丢弃，以均衡上下文特征之间的独立性和相关性。

基于上述任一实施例，全连接层用于将隐含状态向量和局部表观特征向量沿特征维度进行拼接，并经由线性变换操作与归一化操作，得到该时刻各个类别的概率分布，并取概率最大的类别为当前场景文本的识别结果。

具体地，以编码器输出的全局上下文特征向量以及对应的全局表观特征向量对解码器进行编码信息指导型初始化，并采用加入与上一时刻预测类别相关的词嵌入向量做LD-LSTM运算，得到当前时刻的隐层输出隐含状态向量，并结合多头注意力机制得到当前时刻的局部表观特征向量，两者进行维度拼接后经由全连接层将隐含状态向量和局部表观特征向量沿特征维度进行拼接，并经由线性变换操作与归一化操作，得到该时刻各个类别的概率分布，并取概率最大的类别为当前场景文本的识别结果。

基于上述任一实施例，确定待识别的场景文本图像，包括：

确定待识别的原始场景文本图像，并对原始场景文本图像进行图像预处理；所述预处理包括归一化处理和标准化处理；

对图像预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正，得到场景文本图像；场景文本图像的格式与预设格式相同。

具体地，为了能够使的场景文本识别模型能够更好的与场景文本图像进行并行化处理，本发明实施例在获取原始场景文本图像后，对原始场景文本图像进行预处理，以使得原始场景文本图像转换为固定尺寸大小。对原始场景文本图像进行归一化处理，可以减少图像变换对识别结果的影响；对归一化后的图像做尺寸标准化处理，通过补零、尺度变换等方式将输入图片变换成固定大小，从而可以使得场景文本识别模型能够更好地进行并行化处理，准确获取场景文本识别结果。

在对原始场景文本图像进行预处理后，可以将得到的图像输入矫正网络，以对预处理后的原始场景文本图像进行矫正，得到场景文本图像。其中，矫正网络可以是由6个卷积层和最大池化层堆叠而成轻量级的卷积神经网络，通过提取到上下对应的30个原图控制点，与预先定义的标准控制点相对应，通过薄板样条变换方法(Thin-Plat Spline)对图像进行不规则文本形态矫正，并自适应调整字符大小和间距，最终使得得到的场景文本图像的格式与预设格式相同。

此外，为了验证本发明实施例的有效性，本发明实施例基于多个标准公开数据集进行测试，数据集包括：

(1)IIIT5K数据集：由谷歌搜索的自然场景文本图片组成，包括2000张训练图片以及3000张测试图片。

(2)SVT数据集：由谷歌街景图裁剪的257张训练集图片和647张测试集图片组成，主要特点是数据模糊和噪声较多。

(3)ICDAR2013数据集：包括848张训练集图片和1095张测试集图片，属于规则自然场景数据集；

(4)ICDAR2015数据集：由谷歌眼镜从任意角度采集而成，大部分图像为不规则文本并且具有不同的视角。包括4468张训练集图片和2077张测试集图片，为不规则文本对应的最主要测试数据集。

(5)SVT-Perspective数据集：由谷歌街景图像裁剪而成，包括645张测试集图像，与SVT相比，具有更多的不规则文本图像数据。

(6)CUTE80数据集：包括288张不规则测试集图像，主要特征是扭曲字符占比较高。

模型的训练主要基于两个公开的合成数据集，包括：

(1)Synth90k(MJ)数据集：数据集包括900万张英文单词的合成图像数据，对应着单词级别的标注，本实验从中采用480万张合成图像用于训练。

(2)SynthText(ST)数据集：为另一个被广泛采用的合成数据集，经剪裁共有700万张单词图像块。本实验从中采用480万张合成图像用于训练。

本发明实施例提供的语义增强型场景文本识别方法，在编码阶段，将CNN提取得到的视觉特征图与双向单隐层长-短记忆网络提取的上下文特征序列进行以时间顺序为轴进行按列叠加，并加入位置编码信息，最终得到与文字在图像块中位置分布相对应的小尺寸视觉-语义信息增强型表达特征图。

在解码阶段，采用编码器产生的全局上下文特征向量和全局表观特征向量，对解码器的长-短记忆神经单元进行初始化，使用视觉信息指导语义信息的解码；同时，局部表观特征向量同时参与当前时间步的字符预测，以及下一时间步的循环神经网络的迭代，增强了经编码的视觉信息和解码的语义信息的相关性。

此外，本发明实施例设计了Multi-Head General Attention机制，有效对目标字符的显著性信息和辅助信息进行捕捉和利用，同时简化了参数量和计算量。长-短记忆神经单元(LD-LSTM)的设计，保证了相邻字符之间的独立性和相关性的均衡。

表1为测试结果列表，如表1所示，本发明实施例(Ours)在规则数据集SVT和最具挑战性的不规则数据集ICDAR2015达到了最高精度，在规则数据集ICDAR2013与不规则数据集CUTE上达到了第二高的精度。本发明实施例编码特征图较小(为比对算法SAR以及RobustScanner的1/4，并且具有较低的参数量与计算量)。

表1

由此可见，本发明实施例提供的语义增强型场景文本识别方法，对字符图像进行归一化及尺寸标准化之后，输入由30个控制点构成的矫正网络进行不规则文本形态矫正，并自适应调整字符大小和间距。编码器由卷积神经网络，循环神经网络以及位置编码模块组成：矫正后的图像输入改进后的轻量级残差连接的卷积神经网络提取视觉特征图，视觉特征图垂直方向取平均池化操作后，输入到以特殊设计的长-短记忆单元组成的单隐层双向循环神经网络得到上下文特征序列，将最后一个时刻的输出的向量作为全局上下文特征向量。将视觉特征图和上下文语义特征按列相加后，加入位置编码，得到增强型特征表达。

解码器由加入多头注意力机制(Multi-Head General Attention，MHGAT)的LD-LSTM的单向循环网络组成。以编码器输出的全局上下文特征向量以及对应的全局表观特征向量对解码器进行编码信息指导型初始化，并采用加入与上一时刻预测类别相关的词嵌入向量做LD-LSTM运算，得到当前时刻的隐层输出隐含状态向量，并结合多头注意力机制得到当前时刻的局部表观特征向量，两者进行维度拼接后经由全连接层线性变换得到当前时刻的类属概率。

通过在编码阶段的特征融合以及解码阶段的迭代与预测过程中对表观特征向量的使用，增强了视觉-语义特征的相关性和表征能力。特殊设计的LD-LSTM单元均衡了上下文信息的独立性和相关性。多头注意力机制(MHGAT)则能够捕捉特征表达的显著性信息和辅助信息。在提升场景文本识别，尤其是不规则场景文本识别准确率方面有着重要应用价值。

下面对本发明提供的语义增强型场景文本识别装置进行描述，下文描述的语义增强型场景文本识别装置与上文描述的语义增强型场景文本识别方法可相互对应参照。

基于上述任一实施例，本发明提供一种语义增强型场景文本识别装置，如图5所示，该装置包括：

文本确定单元510，用于确定待识别的场景文本图像；

文本识别单元520，用于将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；

基于上述任一实施例，所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量，所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。

基于上述任一实施例，所述文本识别单元520，包括：

编码单元，用于将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达；

解码单元，用于将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器输出的所述场景文本识别结果。

基于上述任一实施例，所述编码单元，包括：

视觉特征提取单元，用于将所述场景文本图像输入至所述编码器的视觉特征提取层，得到所述视觉特征提取层输出的所述场景文本图的视觉特征图；

上下文提取单元，用于将所述视觉特征图输入至所述编码器的上下文提取层，得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列；

相加单元，用于将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层，由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达；

基于上述任一实施例，所述相加单元，用于：

对所述上下文特征序列沿垂直维度扩展，直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同。

基于上述任一实施例，所述解码单元，包括：

第一注意力单元，用于将所述全局上下文特征向量和所述增强型特征表达输入至所述解码器的注意力层，由所述注意力层对所述全局上下文特征向量和所述增强型特征表达进行多头注意力运算，得到所述注意力层输出的全局表观特征向量；

隐含状态提取单元，用于将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层，得到所述隐含状态提取层输出的初始时刻隐含状态向量；

第二注意力单元，用于将所述增强型特征表达和所述隐含状态向量输入至所述注意力层，得到所述注意力层输出的局部表观特征向量；

全连接单元，用于将所述隐含状态向量和所述局部表观特征向量输入至所述解码器的全连接层，得到所述全连接层输出的初始时刻场景文本识别结果；

基于上述任一实施例，所述隐含状态提取层由长-短记忆神经单元组成，所述隐含状态向量是基于如下过程获取的：对所述长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率做特征丢弃。

基于上述任一实施例，所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接，并经由线性变换操作与归一化操作，得到该时刻各个类别的概率分布，并取概率最大的类别为当前场景文本的识别结果。

基于上述任一实施例，所述文本确定单元510，包括：

预处理单元，用于确定待识别的原始场景文本图像，并对所述原始场景文本图像进行图像预处理；所述预处理包括归一化处理和标准化处理；

矫正单元，用于对预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正；所述场景文本图像的格式与预设格式相同。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行语义增强型场景文本识别方法，该方法包括：确定待识别的场景文本图像；将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；其中，所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；所述场景文本识别模型包括编码器和解码器；所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列，并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为所述解码器的循环神经网络的初始时刻输入，将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到所述场景文本对应字符的识别结果。同时，将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到所述场景文本的识别结果。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语义增强型场景文本识别方法，该方法包括：确定待识别的场景文本图像；将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；其中，所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；所述场景文本识别模型包括编码器和解码器；所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列，并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为所述解码器的循环神经网络的初始时刻输入，将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到所述场景文本对应字符的识别结果。同时，将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到所述场景文本的识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语义增强型场景文本识别方法，该方法包括：确定待识别的场景文本图像；将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果；其中，所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的；所述场景文本识别模型包括编码器和解码器；所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列，并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达，以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量，以作为所述解码器的循环神经网络的初始时刻输入，将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算，得到局部表观特征向量，将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接，并经过线性变换得到所述场景文本对应字符的识别结果。同时，将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入，以循环迭代的方式进行解码，直至输出终止字符，得到所述场景文本的识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义增强型场景文本识别方法，其特征在于，包括：

确定待识别的场景文本图像；

2.根据权利要求1所述的语义增强型场景文本识别方法，其特征在于，所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量，所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。

3.根据权利要求1所述的语义增强型场景文本识别方法，其特征在于，所述将所述场景文本图像输入至场景文本识别模型，得到所述场景文本识别模型输出的场景文本识别结果，包括：

将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器出的所述场景文本识别结果。

4.根据权利要求3所述的语义增强型场景文本识别方法，其特征在于，所述将所述场景文本图像输入至所述场景文本识别模型的编码器，得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达，包括：

5.根据权利要求4所述的语义增强型场景文本识别方法，其特征在于，所述对所述上下文特征序列和所述视觉特征图进行相加处理，得到所述叠加层输出的所述增强型特征表达，包括：

6.根据权利要求3所述的语义增强型场景文本识别方法，其特征在于，所述将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器，得到所述解码器输出的所述场景文本识别结果，包括：

将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层，得到初始时刻隐含状态提取层输出的隐含状态向量；

7.根据权利要求6所述的语义增强型场景文本识别方法，其特征在于，所述隐含状态提取层由长-短记忆神经单元组成，所述隐含状态向量是基于如下过程获取的：对所述长-短记忆神经单元的输入进行层归一化操作，并对输出的隐含状态向量以预设概率做特征丢弃。

8.根据权利要求6中所述的语义增强型场景文本识别方法，其特征在于，所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接，并经由线性变换操作与归一化操作，得到该时刻各个类别的概率分布，并取概率最大的类别为当前场景文本的识别结果。

9.根据权利要求1至8任一项所述的语义增强型场景文本识别方法，其特征在于，所述确定待识别的场景文本图像，包括：

10.一种语义增强型场景文本识别装置，其特征在于，包括：

文本确定单元，用于确定待识别的场景文本图像；