CN112801095A

CN112801095A - 一种基于注意力机制的图神经网络集装箱文本识别方法

Info

Publication number: CN112801095A
Application number: CN202110163054.XA
Authority: CN
Inventors: 陈雪莹; 孙宇平
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14

Abstract

本发明提供一种基于注意力机制的图神经网络集装箱文本识别方法，包括以下步骤：S1：获取包括原始集装箱场景的图像；S2：对所述原始集装箱场景的图像进行预处理，获取图像中的文本部分图像；S3：对图像中的文本部分图像进行特征提取；S4：将提取的特征送入预训练好的GTC识别网络，识别出文本信息；S5：输出文本信息。本发明通过将处理后的图像输入设计的迭代矫正网络，通过同一个矫正网络迭代地矫正图像，再通过GTC识别网络获取识别结果，达到世界先进的识别效果，且相对基于Attention的方法有很大的速度提升。

Description

一种基于注意力机制的图神经网络集装箱文本识别方法

技术领域

本发明涉及深度学习领域，更具体地，涉及一种基于注意力机制的图神经网络集装箱文本识别方法。

背景技术

集装箱自动识别系统在海关物流监控、港口集装箱管理、运输行业集装箱管理等方面有着广泛的应用，一个识别准确率高的集装箱识别系统是十分有必要的。

传统的字符识别(OCR光学字符识别)技术历经多年的发展已经相对成熟，但它只是针对背景单一、分辨率及对比度较高的扫描型文档进行识别，在对集装箱场景中的文字进行识别时因为摄像头所捕捉的集装箱场景文本图像中存在不均匀的光照、模糊等复杂问题时总是不能取得令人满意的效果，而且人工录入数据也是一份十分庞大耗时耗力的工作。近些年来，随着深度学习的不断发展，研究人员可以转向自动特征提取的深度学习模型，并从更深入的研究开始。最重要的是，深度学习使研究人员摆脱了设计和测试手工制作功能的繁琐工作，并且深度学习方法对集装箱场景下的文本有着较高的识别率。

公开日为2019年03月29日，公开号为CN109543667A的中国专利公开了一种基于注意力机制的文本识别方法，基于空间注意力的网络SAN是一个端到端的文本识别模型，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构，所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征，从而实现识别图像中的文本。该专利在处理集装箱场景文本图像中准确率不足。

CTC(Connectionist Temporal Classification)和Attention是序列识别模型中主要使用的两种技术。基于CTC的方法由于采用了并行的解码方式，速度较快，但是CTC损失函数的机制不利于特征对齐和特征表示。基于Attention的方法则可以得到更好的对齐和特征表示，但是由于其非并行的解码方式，这类方法速度较慢。对于以上问题，本方法采用通过Attention指导CTC模型的训练，并通过GCN建模特征序列的局部联系的结合。此外，针对集装箱场景的不规则文本，本方法利用矫正网络以及识别网络进行端到端的训练，通过识别网络的识别精度反向传播梯度指导矫正网络将非规则矫正成规则文本然后送入识别网络正确识别，从而解决非规则文本的识别问题。

发明内容

本发明提供一种基于注意力机制的图神经网络集装箱文本识别方法，能够以较高的正确率对原始图像中的文本进行识别。

为解决上述技术问题，本发明的技术方案如下：

一种基于注意力机制的图神经网络集装箱文本识别方法，包括以下步骤：

S1：获取包括原始集装箱场景的图像；

S2：对所述原始集装箱场景的图像进行预处理，获取图像中的文本部分图像；

S3：对图像中的文本部分图像进行特征提取；

S4：将提取的特征送入预训练好的GTC识别网络，识别出文本信息；

S5：输出文本信息。

优选地，步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。

优选地，所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正，具体为：

通过定位网络学习一个K阶多项式来表示待矫正图像的文本中心线；

将所述文本中心线分为L段，学习每一段的切线方程的两个参数以及r_l，所述r_l表示场景中文本行的中线两侧的线段长度，得到L个线段；

对得到的L个线段重复进行多项式拟合以及TPS变换，将文本按照变换后的L个线段排列，将不规则的文本转变为规则的文本。

优选地，所述K阶多项式具体为：

以图像中心设置为原点并标准化文本部分图像中每个像素的x-y坐标，使用K阶多项式来建模场景中文本线的中线，如下所示：

y＝a_K*x^K+a_K-1*x^K-1+L+a₁*x+a₀

其中，a_K、a_K-1、…、a₁均为系数。

优选地，所述L个线段通过以下方式建模：

y＝b_1,l*x+b_0,l|r_l，l＝1,2,L,L

其中，b_1,l、b_0,l均为系数。

优选地，所述重复进行多项式拟合以及TPS变换，具体为：

将图像输入至定位网络中进行多项式拟合，定位网络的输出与该图像加在一起进行TPS变换，TPS变换的输出再输入至定位网络中进行多项式拟合，重复以上步骤。

优选地，步骤S3对图像中的文本部分图像进行特征提取，具体为：

采用ResNet50作为主干网络，图像中的文本部分图像输入至主干网络后得到特征。

优选地，所述采用ResNet50作为主干网络，将ResNet50中原始的残差块中步长为2的卷积改为步长为1，并添加了两个最大池化层做下采样。

优选地，步骤S4中的GTC识别网络，具体为：

采用了Attention解码器，通过循环神经网络，由主干网络ResNet的输出得到长度为T的目标序列；

在BiLSTM前加入了一个GCN层形成GCN+CTC解码器，并在GCN层中，结合相似度邻接矩阵和距离矩阵来描述空间上下文的关联。

优选地，在GCN+CTC解码器中，h₁～h_T为主干网络ResNet提取的特征，邻接矩阵A_S计算两两特征之间的相似度如下，其中c_i为h_i的线性变换：

A_S(i,j)＝f(c_i,c_j)

距离矩阵A_D为GCN关注相邻特征的相似度，距离矩阵A_D的定义如下：

其中，d_ij＝|i-j|，β是比例因子；

整个GCN+CTC的过程可由如下数学公式描述：

X＝(A_S*A_D)HW_g

其中H是向下的采样率，W_g是可选的权重矩阵，然后将X传递给BiLSTM进行序列建模：

logits＝Seq(X)W_c。

其中，W_c是用于分类的权重矩阵，Seq是BiLSTM，隐藏大小为512。

其中，Wc是用于分类的权重矩阵，Seq是BiLSTM，隐藏大小为512。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过将处理后的图像输入设计的迭代矫正网络，通过同一个矫正网络迭代地矫正图像，再通过GTC识别网络获取识别结果，达到世界先进的识别效果，且相对基于Attention的方法有很大的速度提升。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的迭代矫正网络内部流程图。

图3为迭代矫正网络中基于多项式拟合中心线获取ControlPoints的主要过程。

图4为识别网络所使用的GTC方法的整体结构。

图5为实施例中针对处理的集装箱场景图像。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于注意力机制的图神经网络集装箱文本识别方法，如图1，包括以下步骤：

S1：获取包括原始集装箱场景的图像，如图5；

S3：对图像中的文本部分图像进行特征提取；

S5：输出文本信息。

步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。

所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正，具体为：

所述K阶多项式具体为：

y＝a_K*x^K+a_K-1*x^K-1+L+a₁*x+a₀

其中，a_K、a_K-1、…、a₁均为系数。

所述L个线段通过以下方式建模：

y＝b_1,l*x+b_0,l|r_l，l＝1,2,L,L

其中，b_1,l、b_0,l均为系数。

所述重复进行多项式拟合以及TPS变换，如图2和图3，具体为：

将图像输入至定位网络中进行多项式拟合，定位网络的输出与该图像加在一起进行TPS变换，TPS变换的输出再输入至定位网络中进行多项式拟合，重复以上步骤。图2中T表示薄板样条曲线变换(TPS)，P1，P2，...表示由定位网络预测的变换参数，Iter表示整流迭代次数，N是预定迭代次数。所提出的整流网络通过采用定位网络和图像卷积来迭代回归估计拟合线参数，表1给出了定位网络(Localizationnetwork)的详细结构，定位网络的训练不需要任何额外的拟合线注释，而是完全由从识别网络反向传播的梯度驱动。基本原理是，当更好地估计和纠正场景文本失真时，通常可以实现更高的识别性能。一旦估计了拟合线参数，就可以确定L个线段{tj|j＝1，...，2L}的两个端点的坐标。在对图片变形时，ASTER学习到TPS变换后仅做一次变换，本算法循环TPS变换N次。表1中“卷积”是指卷积层，包括其内核大小，输出通道，步幅和填充。所有“剩余块”的步幅都设置为1。“最大池”和“平均池”的配置表示其内核大小，步幅和填充。总的向下采样率W：1/4，H：1/16。

表1：

Layers	Out Size	Configurations
			Block1	16×50	3×3conv，32，2×2pool
Block2	8×25	3×3conv，64，2×2pool
			Block3	4×13	3×3conv，128，2×2pool
FC1	512	-
			FC2	3L+K+1	-

步骤S3对图像中的文本部分图像进行特征提取，具体为：

所述采用ResNet50作为主干网络，将ResNet50中原始的残差块中步长为2的卷积改为步长为1，并添加了两个最大池化层做下采样。ResNet50主干网络的结构如表2所示：

表2

步骤S4中的GTC识别网络，如图4，具体为：

在GCN+CTC解码器中，h₁～h_T为主干网络ResNet提取的特征，邻接矩阵A_S计算两两特征之间的相似度如下，其中c_i为h_i的线性变换：

A_S(i,j)＝f(c_i,c_j)

其中，d_ij＝|i-j|，β是比例因子；

整个GCN+CTC的过程可由如下数学公式描述：

X＝(A_S*A_D)HW_g

logits＝Seq(X)W_c。

图4中CTC Loss仅用于更新GCN+CTC解码器部分，CE loss用于更新特征提取和Attentional Guidance部分。识别网络GTC通过attention指导CTC模型的训练，并通过GCN建模特征序列的局部联系，网络由特征提取、AttentionalGuidance和GCN+CTC解码器组成。首先，特征提取采用ResNet50作为主干网络提取输入图像的特征；AttentionalGuidance机制可以利用Attention解码器，通过循环神经网络，由主干网络RestNet的输出得到长度为T的目标序列；最后通过GCN层，经由LSTM解码出最后的识别结果并输出；迭代矫正检测网络能有效的促进识别网络的识别效率。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，包括以下步骤：

S1：获取包括原始集装箱场景的图像；

S3：对图像中的文本部分图像进行特征提取；

S5：输出文本信息。

2.根据权利要求1所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，步骤S2后还对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正。

3.根据权利要求2所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，所述对图像中的文本部分图像输入至迭代矫正网络中进行图像矫正，具体为：

4.根据权利要求3所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，所述K阶多项式具体为：

y＝a_K*x^K+a_K-1*x^K-1+L+a₁*x+a₀

其中，a_K、a_K-1、…、a₁均为系数。

5.根据权利要求4所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，所述L个线段通过以下方式建模：

y＝b_1,l*x+b_0,l|r_l，l＝1,2,L,L

其中，b_1,l、b_0,l均为系数。

6.根据权利要求5所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，所述重复进行多项式拟合以及TPS变换，具体为：

7.根据权利要求6所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，步骤S3对图像中的文本部分图像进行特征提取，具体为：

8.根据权利要求7所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，所述采用ResNet50作为主干网络，将ResNet50中原始的残差块中步长为2的卷积改为步长为1，并添加了两个最大池化层做下采样。

9.根据权利要求8所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，步骤S4中的GTC识别网络，具体为：

10.根据权利要求9所述的基于注意力机制的图神经网络集装箱文本识别方法，其特征在于，在GCN+CTC解码器中，h₁～h_T为主干网络ResNet提取的特征，邻接矩阵A_S计算两两特征之间的相似度如下，其中c_i为h_i的线性变换：

A_S(i,j)＝f(c_i,c_j)

其中，d_ij＝|i-j|，β是比例因子；

整个GCN+CTC的过程可由如下数学公式描述：

X＝(A_S*A_D)HW_g

logits＝Seq(X)W_c。