CN114581905A

CN114581905A - 一种基于语义增强机制的场景文本识别方法及系统

Info

Publication number: CN114581905A
Application number: CN202210375908.5A
Authority: CN
Inventors: 廖倩颖; 梁凌宇; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-03

Abstract

本发明公开一种基于语义增强机制的场景文本识别方法及系统，包括获取场景文本图像，对场景文本图像进行校正，对校正后的场景文本图像进行特征提取，获取视觉特征，基于视觉特征提取全局语义信息，基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。通过上述技术方案，本发明使场景文本图像的识别能够更加准确。

Description

一种基于语义增强机制的场景文本识别方法及系统

技术领域

本发明涉及文本图像识别技术领域，特别涉及一种基于语义增强机制的场景文本识别方法及系统。

背景技术

文字是沟通的重要工具，在我们的生活中扮演着重要的角色。文字作为传递信息的媒介，存在于诸多场景中。目前，文本识别技术是大部分计算机视觉应用的基础，例如机器人技术、工业自动化、图像搜索、实时翻译、自动驾驶和体育视频分析等。

一般而言，根据文本类型，文本识别领域可分为两大类：扫描文档的文本和场景文本。扫描文档的文本往往具有背景简单、字符整齐、图像清晰的特点，目前的光学字符识别(Optical Character Recognition，OCR)技术已经能够对扫描文档取得卓越的识别性能。

相比之下，场景文本的识别更具难度。由于场景文本一般存在于各类生活场景中，例如店铺招牌、道路标记等，所以场景文本的识别存在诸多挑战。一是场景文本的字符存在多样性。场景文本的字符大多为艺术字，其具有各式各样的字号、字形和字体颜色，甚至字符的排列也是不规则的，可能存在扭曲的情况。二是场景文本的场景存在多样性。有可能文本处于复杂的背景中，甚至是类似文本的背景纹理；有可能文本会有异物遮挡，使得部分字符存在缺漏。三是场景文本的拍摄条件存在多样性。由于拍摄的运动或者拍摄的角度导致文本有不同程度的模糊或者变形；由于天气、光线的变化导致文本处于极端明暗的条件下等。

以上这三点都给场景文本的识别带来了不同程度的识别难度，这也吸引了越来越多研究者的兴趣，其是对于图像模糊、文本有遮挡或者存在复杂背景的低质量文本图像。

发明内容

为解决上述现有技术中所存在的问题，本发明提供一种基于语义增强机制的场景文本识别方法及系统，使场景文本图像的识别能够更加准确。

为了实现上述技术目的，本发明提供了如下技术方案：

一种基于语义增强机制的场景文本识别方法，包括：

获取场景文本图像，对场景文本图像进行校正，对校正后的场景文本图像进行特征提取，获取视觉特征，基于视觉特征提取全局语义信息，基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。

可选的，对所述场景文本图像进行校正的过程包括：

对所述场景文本图像进行预测，获取场景文本图像对应的仿射变换矩阵；

基于所述仿射变换矩阵，对场景文本图像进行空间变换，得到采样网格，基于采样网格，对场景文本图像进行采样，得到校正后的场景文本图像，其中空间变换包括旋转、缩放和平移。

可选的，对校正后的场景文本图像进行特征提取的过程包括：

将所述校正后的场景文本图像进行二维视觉特征提取，并对二维视觉特征提取结果进行上下文建模，获取视觉特征。

可选的，所述全局语义信息的提取过程包括：

将所述视觉特征从视觉空间映射到语言空间，对语音空间中的视觉特征进行预测，得到全局语义信息。

可选的，对视觉特征进行解码转录的过程包括：

将所述全局语义信息作为初始向量，基于初始向量，对所述视觉特征进行逐步解码获取字符向量，将所述字符向量进行转录，得到场景文本识别字符串结果。

为了更好的实现上述技术目的，本发明还提供了一种基于语义增强机制的场景文本识别系统，包括：文本校正器、特征编码器、语义增强器、序列解码器；

所述文本矫正器用于获取场景文本图像，对场景文本图像进行校正，

所述特征编码器用于对校正后的场景文本图像进行特征提取，获取视觉特征，

所述语义增强器基于视觉特征提取全局语义信息，

所述序列解码器基于全局语义信息，对视觉特征进行解码转录，得到场景文本识别字符串结果。

可选的，所述文本矫正器包括定位网络、网格生成器及采样器；

所述定位网络用于对所述场景文本图像进行预测，获取场景文本图像对应的仿射变换矩阵；

所述网格生成器基于所述仿射变换矩阵，对场景文本图像进行空间变换，生成采样网格；

所述采样器基于采样网络，对场景文本图像进行采样，得到校正后的场景文本图像。

可选的，特征编码器采用卷积神经网络结构及基于自注意力的网络结构；

所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视觉特征提取；

基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模，获取视觉特征。

可选的，所述语义增强器采用卷积和循环神经网络结构；

所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间映射到语言空间，对语音空间中的视觉特征进行预测，得到全局语义信息。

可选的，所述序列解码器采用Transformer结构的解码器；

采用Transformer结构的解码器用于将所述全局语义信息作为初始向量，基于初始向量，对所述视觉特征进行逐步解码获取字符向量，将所述字符向量进行转录，得到场景文本识别字符串结果。

本发明具有如下技术效果：

本发明解决了包含低质量图像的场景文本识别问题，采用了一种语义增强机制来加强解码器的性能，以增强识别器对低质量场景文本图像的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程示意图；

图2为本发明实施例提供的系统结构示意图；

图3为本发明实施例提供的系统网络模型流程示意图；

图4为本发明实施例提供的识别结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述，本发明提供了一种基于语义增强机制的场景文本识别方法，包括：

可选的，对所述场景文本图像进行校正的过程包括：

可选的，所述全局语义信息的提取过程包括：

可选的，对视觉特征进行解码转录的过程包括：

如图2-3所示，本发明提供一种基于语义增强机制的场景文本识别系统，具体内容如下：

采用文本矫正器对输入的场景文本图像进行矫正。利用卷积神经网络结构搭建文本矫正器，这能消除文本的变形，将不规则的场景文本矫正为规则的场景文本，以便后续识别。具体来说，文本矫正器对输入的文本图像预测一个仿射变换矩阵，基于这个仿射变换矩阵，对输入图像进行空间变换。这里的空间变换矩阵包含6个参数，能够对输入图像进行旋转、放缩和平移，从而消除文本的变形。文本矫正器包括定位网络、网格生成器和采样器。其中定位网络是由由六个卷积层和两个全连接层组成，其定位网络结构如表1所示，表1为文本矫正器的定位网络结构表。其中，k表示卷积核大小；maps表示通道数；s表示步长；ci表示输入神经元的个数；co表示输出神经元的个数。所有卷积层后面是一个BN层和一个ReLU层。通过该网络结构可以预测得到一个2×3的仿射变换矩阵。基于该仿射变换矩阵，网格生成器对原图进行空间变换，生成采样网格。采样网格是一个两通道的特征图，分别表示原图的x、y坐标。基于采样网格，采样器从原图进行采样，从而得到最终变换之后的图片，也就是经过矫正之后的结果。该矫正器的输入是原图，高度、宽度分别统一为64、200。为了降低计算量，将原图下采样，使其高度、宽度分别为16、50。最终矫正之后的图像高度、宽度分别为32、100。

表1

采用特征编码器对矫正之后的场景文本图像提取视觉特征并对其进行上下文关系建模。先后采用卷积神经网络和基于自注意力的网络结构来构建特征编码器。其中，采用卷积神经网络对矫正之后的场景文本图像提取视觉特征，这主要是对图像的局部特征关系进行建模；采用基于自注意力的网络结构并行地构建视觉特征的上下文依赖关系，这主要是对视觉特征的全局特征关系进行建模。首先，采用卷积神经网络从图像中提取二维视觉特征。由于场景文本的字符大小不一，所以为了获得多尺度的特征，卷积神经网络采用结合了特征金字塔结构的ResNet-50。ResNet-50包括一个卷积层和四个卷积块，所有卷积层后面是一个BN层和一个ReLU层，其中具体结构如表2所示，表2为特征编码器的ResNet-50网络结构表。ResNet-50自下而上从图像中提取五层特征。其中，越低层的特征具有越小的感受野，越适合识别小尺度的字符，越高层的特征具有越大的感受野，越适合识别大尺度的字符。为了融合多尺度的特征，采用特征金字塔对最后三层的特征进行自顶向下的融合，也就是将高层的特征进行上采样与低层特征相加，得到高度、宽度、通道数分别为8、25、512的二维视觉特征。然后，采用两个基于自注意力的编码单元对二维视觉特征进行上下文建模，捕获二维视觉特征的全局依赖关系，增强特征的表达能力。每个编码单元包括多头自注意力网络层和前馈网络层。多头自注意力网络层的头数为8，每个头的查询矩阵、键矩阵和值矩阵的维度为64，输出的特征维度为512。而前馈神经网络层采用两层一维卷积，卷积核的大小为1×1，步长为1×1，第一层卷积的输出通道数为1024，第二层卷积的输出通道数为512。

表2

采用语义增强器从整体的视觉特征中提取全局语义信息。利用卷积和循环神经网络结构搭建语义增强器来从整个图像的视觉特征中获取全局语义信息，这是从视觉信息到语言信息的跨模态变换。输入是特征编码器提取的二维视觉特征。语义增强器包括两层双向长短时记忆(Bidirectional Long ShortTerm Memory，BiLSTM)网络层、一层一维卷积和一层全连接层。语义增强器是将特征编码器中得到的二维视觉特征从视觉空间映射到语言空间，对二维视觉特征图预测一个全局语义信息，即一个向量，用于指导后续解码器的解码。语义增强器的网络结构如表3所示，表3为特征矫正器的注意力网络结构表。

表3

采用语义信息初始化之后的序列解码器进行解码。利用Transformer结构的解码器来进行解码，输出识别结果。特别地，采用全局语义信息来初始化Transformer解码器，这是给解码器提供显式的语义信息来指导其能够解码出更准确的字符串结果。由于序列解码器是依据之前的识别结果逐个解码当前时刻的字符，而在解码第一个字符时的没有上个时刻的结果。采用全局语义信息来给第一个保活后面时刻的解码结果提供解码方向。该解码器的结构采用三层Transformer解码单元。其中每个解码单元包括了两个多头注意力层和一个前馈网络层。多头自注意力网络层的头数为8，每个头的查询矩阵、键矩阵和值矩阵的维度为64，输出的特征维度为512。而前馈神经网络层采用两层一维卷积，卷积核的大小为1×1，步长为1×1，第一层卷积的输出通道数为1024，第二层卷积的输出通道数为512。

最后通过输入场景文本图片，经过语义增强器得到全局语义信息，并用该语义信息初始化解码器，得到的最后的结果如图4所示。最终该方法在多个公开数据集上获得了前沿的效果，对低质量的场景文本尤其鲁棒。而且，通过对比实验发现，在识别器中增加该语义增强器能够大幅提升识别器的性能。

本发明通过分析传统方法以及深度学习方法的不足之处,提出了一些针对低质量场景文本识别的新思路，主要包括利用BiLSTM和卷积神经网络搭建语义增强器来初始化解码器，从而提升识别的效果。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于语义增强机制的场景文本识别方法，其特征在于，包括：

2.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：

对所述场景文本图像进行校正的过程包括：

3.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：

对校正后的场景文本图像进行特征提取的过程包括：

4.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：

所述全局语义信息的提取过程包括：

5.根据权利要求1所述基于语义增强机制的场景文本识别方法，其特征在于：

对视觉特征进行解码转录的过程包括：

6.根据权利要求1-5任一项所述基于语义增强机制的场景文本识别方法的识别系统，其特征在于，包括：文本校正器、特征编码器、语义增强器、序列解码器；

所述语义增强器基于视觉特征提取全局语义信息，

7.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：

所述文本矫正器包括定位网络、网格生成器及采样器；

8.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：

所述特征编码器采用卷积神经网络结构及基于自注意力的网络结构；

9.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：

所述语义增强器采用卷积和循环神经网络结构；

10.根据权利要求6所述基于语义增强机制的场景文本识别系统，其特征在于：

所述序列解码器采用Transformer结构的解码器；