CN113688822A

CN113688822A - 一种时序注意力机制场景图像识别方法

Info

Publication number: CN113688822A
Application number: CN202111045854.8A
Authority: CN
Inventors: 李卫东; 王帅; 汪驰升; 白林燕; 徐小蕊; 韩恒刚; 刘甲; 梁鑫婕
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-23

Abstract

本发明涉及一种时序注意力机制场景图像识别方法，属于图像处理技术领域。本发明在现有Transformer模型的基础上进行改进，在解码器部分使用两步注意力解码机制，通过第一注意力机制得到注意力特征图，第二注意力机制关注特征序列内部的时序关系，经过多个时间步解码出图像中的字符串。通过两步注意力机制能够对过度曝光、伪影、模糊、字符显示不全等图片中字符串进行准确的识别，拥有较好的鲁棒性和泛化能力。此外，本发明还引入了CTC算法辅助训练，以避免由于字符失真等因素，使得对输入图像特征分区域识别时，相邻的区域可能被识别为同一个字符的问题，进一步提高识别的准确性。

Description

一种时序注意力机制场景图像识别方法

技术领域

本发明涉及一种时序注意力机制场景图像识别方法，属于图像处理技术领域。

背景技术

工业机械仪表被广泛应用于国防、交通和工业等领域，如燃气行业，工业燃气已经成为国内目前使用占比最高的能源。机械燃气表安装起来方便快捷，而且使用周期长，但是需要工人手动抄表，抄表过程相当麻烦，而且成本高，周期长，误差大等，使得工厂无法快速、准确地掌握工业生产中的实时数据，影响工业智能化的发展和进步。

为此，有人提出了通过采用表盘图像，通过图像识别的方式自动实现查表。因为自然场景中的工业仪表可能受到天气，光照，角度等难以预见的因素影响，导致工业仪表成像质量差，传统的工业仪表识别算法不能很好地识别极端情况下的工业仪表图像，导致从中识别出的字符串的准确降低，进行影响后续数据的处理的精度。

发明内容

本发明的目的是提供一种时序注意力机制场景图像识别方法，以解决目前识别方法无法准确识别出成像质量差的图像中的字符信息。

本发明为解决上述问题提供了一种时序注意力机制场景图像识别方法，该识别方法包括以下步骤：

1)获取包含有字符串的待识别图像数据，并对其进行预处理，得到设定大小的灰度图像；

2)将预处理后得到的设定大小的灰度图像输入到已训练的识别模型中，由已训练的识别模型进行处理，识别出待识别图像中的字符串；

所述的识别模型为时序上下文注意力模型，该模型包括有特征提取模块、编码器和解码器，所述特征提取模块采用卷积神经网络用于对输入的灰度图像进行特征提取；所述编码器为Transformer模型编码器，用于对图像特征进行编码；所述的解码器采用两步注意力机制，其中第一注意力机制用于得到注意力特征图，第二注意力机制用于根据特征序列内部的时序关系，经过多个时间步解码出图像中的字符串。

本发明在现有Transformer模型的基础上进行改进，在解码器部分使用两步注意力解码机制，通过第一注意力机制得到注意力特征图，第二注意力机制关注特征序列内部的时序关系，经过多个时间步解码出图像中的字符串。通过两步注意力机制能够对过度曝光、伪影、模糊、字符显示不全等图片中字符串进行准确的识别，拥有较好的鲁棒性和泛化能力。

进一步地，为避免由于字符失真等因素，使得对输入图像特征分区域识别时，相邻的区域可能被识别为同一个字符的问题，所述编码器还包括CTC模块，用于对输入特征进行对齐数据标签的操作。

进一步地，所述的第一注意力机制通过全连接层计算出输入特征的注意力图，然后将输入特征乘以注意力图产生注意力特征D′。

进一步地，所述的第二注意力机制用于对第一注意力机制生成的注意力特征D′进行解码，每个时间步t都会解码出一个字符y_t，时间步的数量等于数据集最长字符串的长度加一。

进一步地，所述的第二注意力机制包括若干个LSTM单元。

进一步地，在对时序上下文注意力模型进行训练时，采用Encoder端的CTC损失和Decoder端的交叉熵损失之和，损失函数为：

L_total＝λL_CTC+(1-λ)L_CE

其中L_CTC为Encoder端的CTC损失，L_CE为Decoder端的交叉熵损失，λ为比例系数，L_total为总的损失函数。

进一步地，所述的比例系数λ为0.2。

进一步地，所述的特征提取模块包括Resnet残差网络，Resnet残差网络对输入的图像进行特征提取，得到相应的特征图。

进一步地，所述的特征提取模块还包括重塑和维度转换单元和全连接层、重塑和维度转换单元用于对Resnet残差网络的特征图进行维度转换，全连接层用于转换后的特征图做一个全连接完成对特征图的嵌入。

进一步地，所述的编码器包括有位置编码模块、多头注意力机制、残差操作模块和前馈神经网络；所述的位置编码模块用于Transformer模型提供位置信息，使其能够识别出预测结果的时序关系；多头注意力机制用于将特征向量平均分成多份，每个头都代表其中一份特征；残差操作模块用于将前一层的输入和输出相加，以克服网络退化；前馈神经网络用于增强模型的分类能力。

附图说明

图1是现有Transformer模型的结构示意图；

图2是本发明所采用的时序上下文注意力模型结构示意图；

图3是本发明实施例中对燃气表数据采用K均值的结果示意图；

图4是本发明实施例中多个维度波的频率和偏移量曲线图；

图5是本发明实施例中编码器所采用的多头注意力机制结构图；

图6是本发明实施例中编码器所采用的前馈神经网络的relu激活函数图；

图7是本发明实施例中CTC解码过程图；

图8是本发明实施例中解码器所采用的两步注意力机制结构图；

图9是本发明实施例中解码器输出的数字类别概率热力图；

图10-a是实验例中本发明时序上下文注意力模型与Transformer模型的训练损失比较图；

图10-b是实验例中本发明时序上下文注意力模型与Transformer模型的准确率比较图；

图11-a是实验例中本发明时序上下文注意力模型结合CTC算法与Transformer模型的训练损失比较图；

图11-b是实验例中本发明时序上下文注意力模型结合CTC算法与Transformer模型的准确率比较图；

图12是实验例中本发明对极端图片的预测能力示意图。

具体实施方式

下面结合附图对发明的具体实施方式作进一步地说明。

针对自然场景中的工业仪表图像存在天气变化、角度倾斜、字符残缺等不确定的成像因素，可能导致低对比度，模糊，失真，低分辨率等其他现象和伪影，本发明提出了一种时序注意力机制场景图像识别方法，该方法在现有Transformer模型的基础上进行改进，在解码器部分不再使用Transformer的解码器，而是使用两步注意力解码机制，通过第一注意力机制得到注意力特征图，第二注意力机制关注特征序列内部的时序关系，经过多个时间步解码出图像中的字符串。

在对本发明的所采用的模型进行介绍前，先对Transformer模型进行简单介绍，Transformer是纯Attention搭建的模型，模型的结构由Encode和Decoder组成。其结构图如图1所示，其中图1的左半部分为编码器(Encode)，右半部分为解码器(Decoder)。Transformer的编码器主要完成对图像特征编码等任务。

本发明在Transformer模型的基础上进行了改进，将Transformer模型中的解码器替换成两步注意力解码机制，称为时序上下文注意力模型，即TCASTR(Time ContextAttention Scence Text Recognizer)。该模型的结构如图2所示，包括有特征提取部分，编码部分和解码部分，其中特征提取部分使用Resnet50网络进行特征图像的提取；编码部分采用Transformer模型中的编码器；解码部分采用双重注意力机制。模型的输入是400*64*3大小的图片，经过用Resnet50的残差网络提取特征得到1024*4*25大小的特征图，再对特征图进行重塑和维度转换得到100*1024大小的特征图，然后对特征图做一个全连接完成对特征图的嵌入；嵌入向量加上位置编码后送到Transformer的编码器，经过3个Encoder得到编码后的输出；解码器包括两步注意力机制，同时对视觉和上下文特征进行解码，并且关注于特征序列的内部关系。

下面以燃气表数据的识别为例进行详细说明。

1.获取燃气表数据集，并对其进行预处理，得到设定大小的灰度图像。

本发明对燃气表数据进行聚类，得到聚类结果，如图3所示，据聚类结果，选择400*64作为图像的固定尺寸，对图像预处理时，统一将图像resize成400*64，并将三通道的RGB图像转换成单通道的灰度图。其中的聚类可采用现有的聚类方法，本实施例采用的是K均值聚类法。

2.对预处理后的燃气表数据进行特征提取。

在特征提取中，卷积神经网络(CNN)可以从输入图像中提取视觉特征。本发明综合精度和速度的考量，选用Resnet 50为骨干网络提取图像特征。特征提取器的输出是N列256通道的特征向量，可以表示为F＝[f1,f2,...,fN]。在特征提取之后，采用全连接层产生注意力图，将特征向量乘以注意力特征得到视觉特征，可以表示为V＝[v1,v2,...,vN]，其中每一列都可以代表视觉特征的一帧。

3.对提取出的特征进行编码。

本发明中的编码器采用的Transformer模型的Encoder模块，包括以下五个部分。

(1)Input Embedding

在输入Encoder之前，需要对特征进行嵌入，特征嵌入的作用是将特征降维成需要的大小，可以减少计算量。特征嵌入可以通过全连接层实现，本实验中就是将1024大小的特征向量，通过全连接层映射为256大小的特征向量，降低了特征的维度，加快了模型训练和推理的速度。

(2)Positional Encoding

由于Transformer模型不能对输入特征进行时间序列建模，导致其无法掌握特征的前后顺序关系，所以需要使用一种特殊的方式给Transformer模型提供位置信息，使其能够识别出预测结果的时序关系。注意，位置编码的维度和特征向量的维度相同，因为需要将位置编码和特征向量相加。构造位置编码的方式有两种，一种是可学习的位置编码，顾名思义就是通过训练过程将其学习出来，而Transformer模型是使用不同频率的正弦函数sin和余弦函数cos构造位置编码PE，公式如下，其中pos代表字符在字符串中的位置，i代表特征向量维度的索引，d_model代表位置编码的维度：

使用这个公式的好处是：

Step1:每个位置都有唯一的位置编码。

Step2:可以提高模型的容错能力和健壮性，如果目前数据集里最大长度的特征是10，而现在有一个长度为12的特征需要处理，那么就可以使用该公式直接计算出最后两位的位置编码。

Step3:训练和推理过程中能够很方便的计算特征的相对位置关系，对于任意位置pos的信息，都可以用PE_pos+k的三角函数表示，三角函数公式如下：

特征的每一个位置都需要加入正弦波形式的位置编码，而且对于特征的每一个维度，正弦波的周期和相位都是有差别的，如图4所示。

特征向量的位置和特征向量的维度分别用pos和i表示。通过不同频率的正弦函数和余弦函数构造和特征向量X_embedding维度相同的位置编码X_pos，然后将位置编码叠加到特征向量输入encoder，公式如下：

X_embedding＝X_embedding+X_pos (3)

(3)Multi-Head Attention

多头注意力机制的输入是Query，Key，Value三个矩阵，三个矩阵首先输入全连接层，再经过Scaled Dot-Product Attention运算。该过程需要计算h次，就是h头注意力机制，多头注意力结构如图5所示。

Transformer模型的注意力是通过输入的特征向量的权重决定的，所以被称为自我注意力机制，可以获取到特征向量之间的相关性，从而有选择性地重点关注感兴趣的特征。注意力的获取主要通过Query，Key，Value三个矩阵(简称为Q，K，V)，分别代表查询、键、值，它们的维度和特征向量的维度是相同的。特征向量X_embedding分别乘以三个权重矩阵W_Q，W_K,W_V就得到Query，Key，Value，计算公式如下：

多头注意力机制就是将特征向量X_embedding平均分成多份，每个头都代表其中一份特征，其中注意头数要整除特征向量维度。假设头数为h，特征向量维度为d_model。Q，K，V分别是切分成多头后的单头矩阵，此时它们最后一个维度d_k就等于：

d_k＝d_model/h (5)

Q与K做完矩阵乘法后得到QK^T，会经过缩放点积注意力机制，即除以

目的是避免相乘后的值太大，起到规范化的作用。softmax激活函数将该结果全部映射到(0，1)区间，使得每个特征和其它特征之间的相关性相加为1，然后再乘以V矩阵就得到注意力矩阵。计算运算公式如下：

(4)Add&Norm

Add就是一个残差操作，具体操作就是将前一层的输入x和输出SubLayer(x)相加，得到x+SubLayer(x)。增加残差操作的目的是通过学习残差克服网络退化的缺点。注意力模块的中残差计算公式如下：

X_embedding+Attention(Q,K,V) (7)

编码器使用的是LayerNormalization(层归一化)，目的是缓解斜变量转移现象，减少计算量，提高数据之间的差异性。LayerNormalization就是对特征向量的每一个维度进行归一化操作，归一化后的期望值μ为0，标准差σ为1，使特征向量符合标准正准分布。

(5)Feedforward

前馈神经网络的作用是增强模型的分类能力，网络就是经过两层简单的线性映射矩阵W₁，再输入relu激活函数，公式如下：

X_hidden+Relu(X_hidden*W₁*W₁) (8)

其中，relu激活函数的函数图像如图6所示，函数公式如下：

F(x)＝max(0,x) (9)

4.解码过程。

本发明所采用的解码器如图8所示，包括两步注意力机制，第一个注意力机制是通过全连接层计算出特征的注意力图，然后将特征乘以注意力图产生注意力特征D′；第二个注意力解码器用来解码注意力特征D′，每个时间步t都会解码出一个字符y_t，时间步的数量等于数据集最长字符串的长度加一，公式如下，其中α_t∈R^N，α_t代表解码器在时间t的注意力，R^N代表所有时间步的注意力。

其中b、w、W、V是可训练的参数，s_t是解码器内的LSTM单元在时间t的隐藏状态，d′是D′的一列。解码器线性地结合了D′的列变成了一个向量G。

然后，解码器的一个LSTM单元的输入如下，其中(g_t,f(y_t-1))表示g_t之间的连接和y_t-1的One Hot编码。

(x_t,s_t)＝LSTMCell(s_t-1,(g_t,f(y_t-1))) (13)

最后，对于每一个计算时间步t，字符的概率p(y_t)如下。

p(y_t)＝softmax(W_ox_t+b_o) (14)

经过以上步骤解码后，就可以得到字符的概率分布，如图9为两步注意力解码器输出概率的热力图。概率热力图将预测的字符概率分布可视化，颜色越深表示字符的概率最大。

对输入图像特征分区域识别时，为了避免字符失真等因素导致相邻的区域被识别为同一个字符，本发明采用CTC算法帮助输入特征对齐数据标签，经过CTC算法对齐的特征作为解码器的输入，CTC算法过程如图7所示。解码出预测结果后，将分隔字符和连续出现的重复字符从结果中删除，分割字符为”-”，无法识别的字符也被标记为”-”。

由于是将TCASTR与CTC算法进行结合，相当于用了两个损失函数，分别是在Encoder端的CTC损失和Decoder端的交叉熵损失，CTC损失占据总损失的λ倍，交叉熵损失占据总损失的1-λ倍，其训练时的损失函数如下：

L_total＝λL_CTC+(1-λ)L_CE (15)

为进一步验证本发明的效果，下面通过具体的实验对本发明的效果进行验证。

实验环境：

本实验选用Ubuntu 20.04操作系统，

酷睿^TM i9-9900K处理器，32GB内存，GPU为RTX 2080Ti*2，深度学习框架使用Pytorch1.8和通用并行计算架构CUDA11.1。

数据集：

本实验使用数据集来自真实工业燃气表场景拍摄，包含了各种场景，如白天，夜晚，晴天，光照，不同角度等，共计7万张。采用人工标注，标注完成后存放在xml格式的标签文件，每个xml对应数据集中的一张图片。为了提高模型的泛化能力和鲁棒性，以便模型提供更加准确的可靠的预测，本发明主要采用椒盐噪声、高斯噪声、伽马校正、运动模糊、对焦模糊、随机擦除等数据增强技术。数据增强后的数据集共计28万张。随机选取99％作为训练集，0.5％作为作为验证集，0.5％作为测试集。

实验过程：

为了方便与Transformer算法进行对比时，将训练和推理过程的图像统一处理为400*64的单通道灰度图像。在训练过程中设置模型相关参数，使用Adam优化器训练模型时，设置初始学习率为1.0，指数衰减率β1为0.9，当控制动量与当前梯度的权重分配时，设置指数衰减率β2为0.98，以控制先前梯度平方的影响；BatchSize设置为64，对28万张数据集进行训练，经过15000次迭代后训练停止，得出训练结果。

在训练推理过程中，模型输出字符条件概率分布，使用贪婪搜索解码字符，在每一个时间步选择概率最大的字符，以截取开始字符和终止字符之间的字符串作为模型识别结果。

实验结果分析：

1)TCASTR与Transformer模型的比较

本发明所采用的时序上下文注意力模型(TCASTR)与现有的Transformer模型的实验结果如表1所示。

表1

模型名称	最高准确率	推理时间	参数数量
				Transformer	83.4％	0.058s/张	33916725
TCASTR	86.6％	0.006s/张	31494720

从中可以看出Transformer模型达到了83.4％的准确率，本发明基于Transformer改进的模型不仅有更快的收敛速度还达到了86.6％的准确率。训练损失和准确率如图10-a和图10-b所示。

2)TCASTR+CTC与Transformer模型的比较

本发明还将TCASTR与CTC算法进行结合，相当于用了两个损失函数，分别是在Encoder端的CTC损失和Decoder端的交叉熵损失，CTC损失占据总损失的λ倍，交叉熵损失占据总损失的1-λ倍，λ为0.2的情况，TCASTR与CTC算法与现有的Transformer模型的实验结果如表2所示。

表2

算法名称	最高准确率	推理时间	参数数量
				Transformer	83.4％	0.058s/张	33916725
TCASTER+CTC	88.6％	0.006s/张	31494720

从中可以看出TCASTR与CTC算法结合后的模型在测试集上的准确率达到了88.6％。训练损失和准确率如图11-a和图11-b所示。

本发明的TCASTER模型在准确率和推理速度两个关键指标上拥有最好的表现，下面讨论一下TCASTER模型在图像过度曝光，伪影，模糊，字符显示不全，遮挡等情况下的表现情况，如图12所示。

从中可以看出，本发明的TCASTR模型不仅在识别精度和速度上优于原有transformer模型，而且对于一些极端情况，如图片过度曝光，伪影，模糊，字符显示不全，遮挡等，TCASTR模型也能较好识别出数字内容，拥有较好的鲁棒性和泛化能力。

本发明提出的时序注意力机制场景图像识别方法，其中的解码器采用了两步注意力机制，经过第一个注意力机制得到注意力特征图，第二个注意力机制关注特征序列内部的时序关系，经过多个时间步解码出图像中的字符串。除此之外，在模型的编码器端还引入了CTC算法辅助训练，相比于引入之前得到了2％的提升。经过实验证明，模型在图像过度曝光，伪影，模糊，字符显示不全，遮挡等情况下也能取得不错的效果，在燃气表数据集上达到了88.6％的准确率，具有较好的应用场景。

Claims

1.一种时序注意力机制场景图像识别方法，其特征在于，该识别方法包括以下步骤：

2.根据权利要求1所述的时序注意力机制场景图像识别方法，其特征在于，所述编码器还包括CTC模块，用于对输入特征进行对齐数据标签的操作。

3.根据权利要求1或2所述的时序注意力机制场景图像识别方法，其特征在于，所述的第一注意力机制通过全连接层计算出输入特征的注意力图，然后将输入特征乘以注意力图产生注意力特征D′。

4.根据权利要求1或2所述的时序注意力机制场景图像识别方法，其特征在于，所述的第二注意力机制用于对第一注意力机制生成的注意力特征D′进行解码，每个时间步t都会解码出一个字符y_t，时间步的数量等于数据集最长字符串的长度加一。

5.根据权利要求4所述的时序注意力机制场景图像识别方法，其特征在于，所述的第二注意力机制包括若干个LSTM单元。

6.根据权利要求2所述的时序注意力机制场景图像识别方法，其特征在于，在对时序上下文注意力模型进行训练时，采用Encoder端的CTC损失和Decoder端的交叉熵损失之和，损失函数为：

L_total＝λL_CTC+(1-λ)L_CE

7.根据权利要求6所述的时序注意力机制场景图像识别方法，其特征在于，所述的比例系数λ为0.2。

8.根据权利要求1或2所述的时序注意力机制场景图像识别方法，其特征在于，所述的特征提取模块包括Resnet残差网络，Resnet残差网络对输入的图像进行特征提取，得到相应的特征图。

9.根据权利要求8所述的时序注意力机制场景图像识别方法，其特征在于，所述的特征提取模块还包括重塑和维度转换单元和全连接层、重塑和维度转换单元用于对Resnet残差网络的特征图进行维度转换，全连接层用于转换后的特征图做一个全连接完成对特征图的嵌入。

10.根据权利要求1或2所述的时序注意力机制场景图像识别方法，其特征在于，所述的编码器包括有位置编码模块、多头注意力机制、残差操作模块和前馈神经网络；所述的位置编码模块用于Transformer模型提供位置信息，使其能够识别出预测结果的时序关系；多头注意力机制用于将特征向量平均分成多份，每个头都代表其中一份特征；残差操作模块用于将前一层的输入和输出相加，以克服网络退化；前馈神经网络用于增强模型的分类能力。