CN113688822A - 一种时序注意力机制场景图像识别方法 - Google Patents

一种时序注意力机制场景图像识别方法 Download PDF

Info

Publication number
CN113688822A
CN113688822A CN202111045854.8A CN202111045854A CN113688822A CN 113688822 A CN113688822 A CN 113688822A CN 202111045854 A CN202111045854 A CN 202111045854A CN 113688822 A CN113688822 A CN 113688822A
Authority
CN
China
Prior art keywords
attention mechanism
attention
image
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111045854.8A
Other languages
English (en)
Inventor
李卫东
王帅
汪驰升
白林燕
徐小蕊
韩恒刚
刘甲
梁鑫婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202111045854.8A priority Critical patent/CN113688822A/zh
Publication of CN113688822A publication Critical patent/CN113688822A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种时序注意力机制场景图像识别方法,属于图像处理技术领域。本发明在现有Transformer模型的基础上进行改进,在解码器部分使用两步注意力解码机制,通过第一注意力机制得到注意力特征图,第二注意力机制关注特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。通过两步注意力机制能够对过度曝光、伪影、模糊、字符显示不全等图片中字符串进行准确的识别,拥有较好的鲁棒性和泛化能力。此外,本发明还引入了CTC算法辅助训练,以避免由于字符失真等因素,使得对输入图像特征分区域识别时,相邻的区域可能被识别为同一个字符的问题,进一步提高识别的准确性。

Description

一种时序注意力机制场景图像识别方法
技术领域
本发明涉及一种时序注意力机制场景图像识别方法,属于图像处理技术领域。
背景技术
工业机械仪表被广泛应用于国防、交通和工业等领域,如燃气行业,工业燃气已经成为国内目前使用占比最高的能源。机械燃气表安装起来方便快捷,而且使用周期长,但是需要工人手动抄表,抄表过程相当麻烦,而且成本高,周期长,误差大等,使得工厂无法快速、准确地掌握工业生产中的实时数据,影响工业智能化的发展和进步。
为此,有人提出了通过采用表盘图像,通过图像识别的方式自动实现查表。因为自然场景中的工业仪表可能受到天气,光照,角度等难以预见的因素影响,导致工业仪表成像质量差,传统的工业仪表识别算法不能很好地识别极端情况下的工业仪表图像,导致从中识别出的字符串的准确降低,进行影响后续数据的处理的精度。
发明内容
本发明的目的是提供一种时序注意力机制场景图像识别方法,以解决目前识别方法无法准确识别出成像质量差的图像中的字符信息。
本发明为解决上述问题提供了一种时序注意力机制场景图像识别方法,该识别方法包括以下步骤:
1)获取包含有字符串的待识别图像数据,并对其进行预处理,得到设定大小的灰度图像;
2)将预处理后得到的设定大小的灰度图像输入到已训练的识别模型中,由已训练的识别模型进行处理,识别出待识别图像中的字符串;
所述的识别模型为时序上下文注意力模型,该模型包括有特征提取模块、编码器和解码器,所述特征提取模块采用卷积神经网络用于对输入的灰度图像进行特征提取;所述编码器为Transformer模型编码器,用于对图像特征进行编码;所述的解码器采用两步注意力机制,其中第一注意力机制用于得到注意力特征图,第二注意力机制用于根据特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。
本发明在现有Transformer模型的基础上进行改进,在解码器部分使用两步注意力解码机制,通过第一注意力机制得到注意力特征图,第二注意力机制关注特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。通过两步注意力机制能够对过度曝光、伪影、模糊、字符显示不全等图片中字符串进行准确的识别,拥有较好的鲁棒性和泛化能力。
进一步地,为避免由于字符失真等因素,使得对输入图像特征分区域识别时,相邻的区域可能被识别为同一个字符的问题,所述编码器还包括CTC模块,用于对输入特征进行对齐数据标签的操作。
进一步地,所述的第一注意力机制通过全连接层计算出输入特征的注意力图,然后将输入特征乘以注意力图产生注意力特征D′。
进一步地,所述的第二注意力机制用于对第一注意力机制生成的注意力特征D′进行解码,每个时间步t都会解码出一个字符yt,时间步的数量等于数据集最长字符串的长度加一。
进一步地,所述的第二注意力机制包括若干个LSTM单元。
进一步地,在对时序上下文注意力模型进行训练时,采用Encoder端的CTC损失和Decoder端的交叉熵损失之和,损失函数为:
Ltotal=λLCTC+(1-λ)LCE
其中LCTC为Encoder端的CTC损失,LCE为Decoder端的交叉熵损失,λ为比例系数,Ltotal为总的损失函数。
进一步地,所述的比例系数λ为0.2。
进一步地,所述的特征提取模块包括Resnet残差网络,Resnet残差网络对输入的图像进行特征提取,得到相应的特征图。
进一步地,所述的特征提取模块还包括重塑和维度转换单元和全连接层、重塑和维度转换单元用于对Resnet残差网络的特征图进行维度转换,全连接层用于转换后的特征图做一个全连接完成对特征图的嵌入。
进一步地,所述的编码器包括有位置编码模块、多头注意力机制、残差操作模块和前馈神经网络;所述的位置编码模块用于Transformer模型提供位置信息,使其能够识别出预测结果的时序关系;多头注意力机制用于将特征向量平均分成多份,每个头都代表其中一份特征;残差操作模块用于将前一层的输入和输出相加,以克服网络退化;前馈神经网络用于增强模型的分类能力。
附图说明
图1是现有Transformer模型的结构示意图;
图2是本发明所采用的时序上下文注意力模型结构示意图;
图3是本发明实施例中对燃气表数据采用K均值的结果示意图;
图4是本发明实施例中多个维度波的频率和偏移量曲线图;
图5是本发明实施例中编码器所采用的多头注意力机制结构图;
图6是本发明实施例中编码器所采用的前馈神经网络的relu激活函数图;
图7是本发明实施例中CTC解码过程图;
图8是本发明实施例中解码器所采用的两步注意力机制结构图;
图9是本发明实施例中解码器输出的数字类别概率热力图;
图10-a是实验例中本发明时序上下文注意力模型与Transformer模型的训练损失比较图;
图10-b是实验例中本发明时序上下文注意力模型与Transformer模型的准确率比较图;
图11-a是实验例中本发明时序上下文注意力模型结合CTC算法与Transformer模型的训练损失比较图;
图11-b是实验例中本发明时序上下文注意力模型结合CTC算法与Transformer模型的准确率比较图;
图12是实验例中本发明对极端图片的预测能力示意图。
具体实施方式
下面结合附图对发明的具体实施方式作进一步地说明。
针对自然场景中的工业仪表图像存在天气变化、角度倾斜、字符残缺等不确定的成像因素,可能导致低对比度,模糊,失真,低分辨率等其他现象和伪影,本发明提出了一种时序注意力机制场景图像识别方法,该方法在现有Transformer模型的基础上进行改进,在解码器部分不再使用Transformer的解码器,而是使用两步注意力解码机制,通过第一注意力机制得到注意力特征图,第二注意力机制关注特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。
在对本发明的所采用的模型进行介绍前,先对Transformer模型进行简单介绍,Transformer是纯Attention搭建的模型,模型的结构由Encode和Decoder组成。其结构图如图1所示,其中图1的左半部分为编码器(Encode),右半部分为解码器(Decoder)。Transformer的编码器主要完成对图像特征编码等任务。
本发明在Transformer模型的基础上进行了改进,将Transformer模型中的解码器替换成两步注意力解码机制,称为时序上下文注意力模型,即TCASTR(Time ContextAttention Scence Text Recognizer)。该模型的结构如图2所示,包括有特征提取部分,编码部分和解码部分,其中特征提取部分使用Resnet50网络进行特征图像的提取;编码部分采用Transformer模型中的编码器;解码部分采用双重注意力机制。模型的输入是400*64*3大小的图片,经过用Resnet50的残差网络提取特征得到1024*4*25大小的特征图,再对特征图进行重塑和维度转换得到100*1024大小的特征图,然后对特征图做一个全连接完成对特征图的嵌入;嵌入向量加上位置编码后送到Transformer的编码器,经过3个Encoder得到编码后的输出;解码器包括两步注意力机制,同时对视觉和上下文特征进行解码,并且关注于特征序列的内部关系。
下面以燃气表数据的识别为例进行详细说明。
1.获取燃气表数据集,并对其进行预处理,得到设定大小的灰度图像。
本发明对燃气表数据进行聚类,得到聚类结果,如图3所示,据聚类结果,选择400*64作为图像的固定尺寸,对图像预处理时,统一将图像resize成400*64,并将三通道的RGB图像转换成单通道的灰度图。其中的聚类可采用现有的聚类方法,本实施例采用的是K均值聚类法。
2.对预处理后的燃气表数据进行特征提取。
在特征提取中,卷积神经网络(CNN)可以从输入图像中提取视觉特征。本发明综合精度和速度的考量,选用Resnet 50为骨干网络提取图像特征。特征提取器的输出是N列256通道的特征向量,可以表示为F=[f1,f2,...,fN]。在特征提取之后,采用全连接层产生注意力图,将特征向量乘以注意力特征得到视觉特征,可以表示为V=[v1,v2,...,vN],其中每一列都可以代表视觉特征的一帧。
3.对提取出的特征进行编码。
本发明中的编码器采用的Transformer模型的Encoder模块,包括以下五个部分。
(1)Input Embedding
在输入Encoder之前,需要对特征进行嵌入,特征嵌入的作用是将特征降维成需要的大小,可以减少计算量。特征嵌入可以通过全连接层实现,本实验中就是将1024大小的特征向量,通过全连接层映射为256大小的特征向量,降低了特征的维度,加快了模型训练和推理的速度。
(2)Positional Encoding
由于Transformer模型不能对输入特征进行时间序列建模,导致其无法掌握特征的前后顺序关系,所以需要使用一种特殊的方式给Transformer模型提供位置信息,使其能够识别出预测结果的时序关系。注意,位置编码的维度和特征向量的维度相同,因为需要将位置编码和特征向量相加。构造位置编码的方式有两种,一种是可学习的位置编码,顾名思义就是通过训练过程将其学习出来,而Transformer模型是使用不同频率的正弦函数sin和余弦函数cos构造位置编码PE,公式如下,其中pos代表字符在字符串中的位置,i代表特征向量维度的索引,dmodel代表位置编码的维度:
Figure BDA0003251164090000061
使用这个公式的好处是:
Step1:每个位置都有唯一的位置编码。
Step2:可以提高模型的容错能力和健壮性,如果目前数据集里最大长度的特征是10,而现在有一个长度为12的特征需要处理,那么就可以使用该公式直接计算出最后两位的位置编码。
Step3:训练和推理过程中能够很方便的计算特征的相对位置关系,对于任意位置pos的信息,都可以用PEpos+k的三角函数表示,三角函数公式如下:
Figure BDA0003251164090000062
特征的每一个位置都需要加入正弦波形式的位置编码,而且对于特征的每一个维度,正弦波的周期和相位都是有差别的,如图4所示。
特征向量的位置和特征向量的维度分别用pos和i表示。通过不同频率的正弦函数和余弦函数构造和特征向量Xembedding维度相同的位置编码Xpos,然后将位置编码叠加到特征向量输入encoder,公式如下:
Xembedding=Xembedding+Xpos (3)
(3)Multi-Head Attention
多头注意力机制的输入是Query,Key,Value三个矩阵,三个矩阵首先输入全连接层,再经过Scaled Dot-Product Attention运算。该过程需要计算h次,就是h头注意力机制,多头注意力结构如图5所示。
Transformer模型的注意力是通过输入的特征向量的权重决定的,所以被称为自我注意力机制,可以获取到特征向量之间的相关性,从而有选择性地重点关注感兴趣的特征。注意力的获取主要通过Query,Key,Value三个矩阵(简称为Q,K,V),分别代表查询、键、值,它们的维度和特征向量的维度是相同的。特征向量Xembedding分别乘以三个权重矩阵WQ,WK,WV就得到Query,Key,Value,计算公式如下:
Figure BDA0003251164090000071
多头注意力机制就是将特征向量Xembedding平均分成多份,每个头都代表其中一份特征,其中注意头数要整除特征向量维度。假设头数为h,特征向量维度为dmodel。Q,K,V分别是切分成多头后的单头矩阵,此时它们最后一个维度dk就等于:
dk=dmodel/h (5)
Q与K做完矩阵乘法后得到QKT,会经过缩放点积注意力机制,即除以
Figure BDA0003251164090000081
目的是避免相乘后的值太大,起到规范化的作用。softmax激活函数将该结果全部映射到(0,1)区间,使得每个特征和其它特征之间的相关性相加为1,然后再乘以V矩阵就得到注意力矩阵。计算运算公式如下:
Figure BDA0003251164090000082
(4)Add&Norm
Add就是一个残差操作,具体操作就是将前一层的输入x和输出SubLayer(x)相加,得到x+SubLayer(x)。增加残差操作的目的是通过学习残差克服网络退化的缺点。注意力模块的中残差计算公式如下:
Xembedding+Attention(Q,K,V) (7)
编码器使用的是LayerNormalization(层归一化),目的是缓解斜变量转移现象,减少计算量,提高数据之间的差异性。LayerNormalization就是对特征向量的每一个维度进行归一化操作,归一化后的期望值μ为0,标准差σ为1,使特征向量符合标准正准分布。
(5)Feedforward
前馈神经网络的作用是增强模型的分类能力,网络就是经过两层简单的线性映射矩阵W1,再输入relu激活函数,公式如下:
Xhidden+Relu(Xhidden*W1*W1) (8)
其中,relu激活函数的函数图像如图6所示,函数公式如下:
F(x)=max(0,x) (9)
4.解码过程。
本发明所采用的解码器如图8所示,包括两步注意力机制,第一个注意力机制是通过全连接层计算出特征的注意力图,然后将特征乘以注意力图产生注意力特征D′;第二个注意力解码器用来解码注意力特征D′,每个时间步t都会解码出一个字符yt,时间步的数量等于数据集最长字符串的长度加一,公式如下,其中αt∈RN,αt代表解码器在时间t的注意力,RN代表所有时间步的注意力。
Figure BDA0003251164090000091
Figure BDA0003251164090000092
其中b、w、W、V是可训练的参数,st是解码器内的LSTM单元在时间t的隐藏状态,d′是D′的一列。解码器线性地结合了D′的列变成了一个向量G。
Figure BDA0003251164090000093
然后,解码器的一个LSTM单元的输入如下,其中(gt,f(yt-1))表示gt之间的连接和yt-1的One Hot编码。
(xt,st)=LSTMCell(st-1,(gt,f(yt-1))) (13)
最后,对于每一个计算时间步t,字符的概率p(yt)如下。
p(yt)=softmax(Woxt+bo) (14)
经过以上步骤解码后,就可以得到字符的概率分布,如图9为两步注意力解码器输出概率的热力图。概率热力图将预测的字符概率分布可视化,颜色越深表示字符的概率最大。
对输入图像特征分区域识别时,为了避免字符失真等因素导致相邻的区域被识别为同一个字符,本发明采用CTC算法帮助输入特征对齐数据标签,经过CTC算法对齐的特征作为解码器的输入,CTC算法过程如图7所示。解码出预测结果后,将分隔字符和连续出现的重复字符从结果中删除,分割字符为”-”,无法识别的字符也被标记为”-”。
由于是将TCASTR与CTC算法进行结合,相当于用了两个损失函数,分别是在Encoder端的CTC损失和Decoder端的交叉熵损失,CTC损失占据总损失的λ倍,交叉熵损失占据总损失的1-λ倍,其训练时的损失函数如下:
Ltotal=λLCTC+(1-λ)LCE (15)
为进一步验证本发明的效果,下面通过具体的实验对本发明的效果进行验证。
实验环境:
本实验选用Ubuntu 20.04操作系统,
Figure BDA0003251164090000101
酷睿TM i9-9900K处理器,32GB内存,GPU为RTX 2080Ti*2,深度学习框架使用Pytorch1.8和通用并行计算架构CUDA11.1。
数据集:
本实验使用数据集来自真实工业燃气表场景拍摄,包含了各种场景,如白天,夜晚,晴天,光照,不同角度等,共计7万张。采用人工标注,标注完成后存放在xml格式的标签文件,每个xml对应数据集中的一张图片。为了提高模型的泛化能力和鲁棒性,以便模型提供更加准确的可靠的预测,本发明主要采用椒盐噪声、高斯噪声、伽马校正、运动模糊、对焦模糊、随机擦除等数据增强技术。数据增强后的数据集共计28万张。随机选取99%作为训练集,0.5%作为作为验证集,0.5%作为测试集。
实验过程:
为了方便与Transformer算法进行对比时,将训练和推理过程的图像统一处理为400*64的单通道灰度图像。在训练过程中设置模型相关参数,使用Adam优化器训练模型时,设置初始学习率为1.0,指数衰减率β1为0.9,当控制动量与当前梯度的权重分配时,设置指数衰减率β2为0.98,以控制先前梯度平方的影响;BatchSize设置为64,对28万张数据集进行训练,经过15000次迭代后训练停止,得出训练结果。
在训练推理过程中,模型输出字符条件概率分布,使用贪婪搜索解码字符,在每一个时间步选择概率最大的字符,以截取开始字符和终止字符之间的字符串作为模型识别结果。
实验结果分析:
1)TCASTR与Transformer模型的比较
本发明所采用的时序上下文注意力模型(TCASTR)与现有的Transformer模型的实验结果如表1所示。
表1
模型名称 最高准确率 推理时间 参数数量
Transformer 83.4% 0.058s/张 33916725
TCASTR 86.6% 0.006s/张 31494720
从中可以看出Transformer模型达到了83.4%的准确率,本发明基于Transformer改进的模型不仅有更快的收敛速度还达到了86.6%的准确率。训练损失和准确率如图10-a和图10-b所示。
2)TCASTR+CTC与Transformer模型的比较
本发明还将TCASTR与CTC算法进行结合,相当于用了两个损失函数,分别是在Encoder端的CTC损失和Decoder端的交叉熵损失,CTC损失占据总损失的λ倍,交叉熵损失占据总损失的1-λ倍,λ为0.2的情况,TCASTR与CTC算法与现有的Transformer模型的实验结果如表2所示。
表2
算法名称 最高准确率 推理时间 参数数量
Transformer 83.4% 0.058s/张 33916725
TCASTER+CTC 88.6% 0.006s/张 31494720
从中可以看出TCASTR与CTC算法结合后的模型在测试集上的准确率达到了88.6%。训练损失和准确率如图11-a和图11-b所示。
本发明的TCASTER模型在准确率和推理速度两个关键指标上拥有最好的表现,下面讨论一下TCASTER模型在图像过度曝光,伪影,模糊,字符显示不全,遮挡等情况下的表现情况,如图12所示。
从中可以看出,本发明的TCASTR模型不仅在识别精度和速度上优于原有transformer模型,而且对于一些极端情况,如图片过度曝光,伪影,模糊,字符显示不全,遮挡等,TCASTR模型也能较好识别出数字内容,拥有较好的鲁棒性和泛化能力。
本发明提出的时序注意力机制场景图像识别方法,其中的解码器采用了两步注意力机制,经过第一个注意力机制得到注意力特征图,第二个注意力机制关注特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。除此之外,在模型的编码器端还引入了CTC算法辅助训练,相比于引入之前得到了2%的提升。经过实验证明,模型在图像过度曝光,伪影,模糊,字符显示不全,遮挡等情况下也能取得不错的效果,在燃气表数据集上达到了88.6%的准确率,具有较好的应用场景。

Claims (10)

1.一种时序注意力机制场景图像识别方法,其特征在于,该识别方法包括以下步骤:
1)获取包含有字符串的待识别图像数据,并对其进行预处理,得到设定大小的灰度图像;
2)将预处理后得到的设定大小的灰度图像输入到已训练的识别模型中,由已训练的识别模型进行处理,识别出待识别图像中的字符串;
所述的识别模型为时序上下文注意力模型,该模型包括有特征提取模块、编码器和解码器,所述特征提取模块采用卷积神经网络用于对输入的灰度图像进行特征提取;所述编码器为Transformer模型编码器,用于对图像特征进行编码;所述的解码器采用两步注意力机制,其中第一注意力机制用于得到注意力特征图,第二注意力机制用于根据特征序列内部的时序关系,经过多个时间步解码出图像中的字符串。
2.根据权利要求1所述的时序注意力机制场景图像识别方法,其特征在于,所述编码器还包括CTC模块,用于对输入特征进行对齐数据标签的操作。
3.根据权利要求1或2所述的时序注意力机制场景图像识别方法,其特征在于,所述的第一注意力机制通过全连接层计算出输入特征的注意力图,然后将输入特征乘以注意力图产生注意力特征D′。
4.根据权利要求1或2所述的时序注意力机制场景图像识别方法,其特征在于,所述的第二注意力机制用于对第一注意力机制生成的注意力特征D′进行解码,每个时间步t都会解码出一个字符yt,时间步的数量等于数据集最长字符串的长度加一。
5.根据权利要求4所述的时序注意力机制场景图像识别方法,其特征在于,所述的第二注意力机制包括若干个LSTM单元。
6.根据权利要求2所述的时序注意力机制场景图像识别方法,其特征在于,在对时序上下文注意力模型进行训练时,采用Encoder端的CTC损失和Decoder端的交叉熵损失之和,损失函数为:
Ltotal=λLCTC+(1-λ)LCE
其中LCTC为Encoder端的CTC损失,LCE为Decoder端的交叉熵损失,λ为比例系数,Ltotal为总的损失函数。
7.根据权利要求6所述的时序注意力机制场景图像识别方法,其特征在于,所述的比例系数λ为0.2。
8.根据权利要求1或2所述的时序注意力机制场景图像识别方法,其特征在于,所述的特征提取模块包括Resnet残差网络,Resnet残差网络对输入的图像进行特征提取,得到相应的特征图。
9.根据权利要求8所述的时序注意力机制场景图像识别方法,其特征在于,所述的特征提取模块还包括重塑和维度转换单元和全连接层、重塑和维度转换单元用于对Resnet残差网络的特征图进行维度转换,全连接层用于转换后的特征图做一个全连接完成对特征图的嵌入。
10.根据权利要求1或2所述的时序注意力机制场景图像识别方法,其特征在于,所述的编码器包括有位置编码模块、多头注意力机制、残差操作模块和前馈神经网络;所述的位置编码模块用于Transformer模型提供位置信息,使其能够识别出预测结果的时序关系;多头注意力机制用于将特征向量平均分成多份,每个头都代表其中一份特征;残差操作模块用于将前一层的输入和输出相加,以克服网络退化;前馈神经网络用于增强模型的分类能力。
CN202111045854.8A 2021-09-07 2021-09-07 一种时序注意力机制场景图像识别方法 Pending CN113688822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111045854.8A CN113688822A (zh) 2021-09-07 2021-09-07 一种时序注意力机制场景图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111045854.8A CN113688822A (zh) 2021-09-07 2021-09-07 一种时序注意力机制场景图像识别方法

Publications (1)

Publication Number Publication Date
CN113688822A true CN113688822A (zh) 2021-11-23

Family

ID=78585599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111045854.8A Pending CN113688822A (zh) 2021-09-07 2021-09-07 一种时序注意力机制场景图像识别方法

Country Status (1)

Country Link
CN (1) CN113688822A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114207673A (zh) * 2021-12-20 2022-03-18 商汤国际私人有限公司 序列识别方法及装置、电子设备和存储介质
CN114462580A (zh) * 2022-02-10 2022-05-10 腾讯科技(深圳)有限公司 文本识别模型的训练方法、文本识别方法、装置和设备
CN114973136A (zh) * 2022-05-31 2022-08-30 河南工业大学 一种极端条件下场景图像识别方法
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
WO2023118936A1 (en) * 2021-12-20 2023-06-29 Sensetime International Pte. Ltd. Sequence recognition method and apparatus, electronic device, and storage medium
CN116595421A (zh) * 2023-06-10 2023-08-15 北京航空航天大学 基于时频谱图和变换器算法的飞行器电信号预测方法
CN117196972A (zh) * 2023-08-25 2023-12-08 山东浪潮科学研究院有限公司 一种基于改进的Transformer的文档伪影去除方法

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN108256629A (zh) * 2018-01-17 2018-07-06 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
CN108446645A (zh) * 2018-03-26 2018-08-24 天津大学 基于深度学习的车载人脸识别方法
CN109214592A (zh) * 2018-10-17 2019-01-15 北京工商大学 一种多模型融合的深度学习的空气质量预测方法
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN109685077A (zh) * 2018-12-13 2019-04-26 深圳先进技术研究院 一种乳腺肿块图像识别方法及装置
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110119754A (zh) * 2019-02-27 2019-08-13 北京邮电大学 图像生成描述方法、装置及模型
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110399879A (zh) * 2019-06-14 2019-11-01 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111291189A (zh) * 2020-03-10 2020-06-16 北京芯盾时代科技有限公司 一种文本处理方法、设备及计算机可读存储介质
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111626764A (zh) * 2020-04-09 2020-09-04 中南大学 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
CN111680454A (zh) * 2020-06-16 2020-09-18 北京工业大学 基于双重注意力机制的风机叶片结冰故障预测方法
CN111695587A (zh) * 2020-04-01 2020-09-22 新华三技术有限公司 一种车辆品牌型号识别方法及装置
CN111814697A (zh) * 2020-07-13 2020-10-23 伊沃人工智能技术(江苏)有限公司 一种实时人脸识别方法、系统及电子设备
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112417890A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于多样化语义注意力模型的细粒度实体分类方法
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
CN112597780A (zh) * 2020-12-28 2021-04-02 焦点科技股份有限公司 一种多语种混合的异构神经网络机器学习翻译方法
CN112836485A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于神经机器翻译的相似病历预测方法
CN113221874A (zh) * 2021-06-09 2021-08-06 上海交通大学 基于Gabor卷积和线性稀疏注意力的文字识别系统

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
CN107368831A (zh) * 2017-07-19 2017-11-21 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN108256629A (zh) * 2018-01-17 2018-07-06 厦门大学 基于卷积网络和自编码的eeg信号无监督特征学习方法
CN108446645A (zh) * 2018-03-26 2018-08-24 天津大学 基于深度学习的车载人脸识别方法
CN109214592A (zh) * 2018-10-17 2019-01-15 北京工商大学 一种多模型融合的深度学习的空气质量预测方法
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN109685077A (zh) * 2018-12-13 2019-04-26 深圳先进技术研究院 一种乳腺肿块图像识别方法及装置
CN110119754A (zh) * 2019-02-27 2019-08-13 北京邮电大学 图像生成描述方法、装置及模型
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110399879A (zh) * 2019-06-14 2019-11-01 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111291189A (zh) * 2020-03-10 2020-06-16 北京芯盾时代科技有限公司 一种文本处理方法、设备及计算机可读存储介质
CN111695587A (zh) * 2020-04-01 2020-09-22 新华三技术有限公司 一种车辆品牌型号识别方法及装置
CN111626764A (zh) * 2020-04-09 2020-09-04 中南大学 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
CN111680454A (zh) * 2020-06-16 2020-09-18 北京工业大学 基于双重注意力机制的风机叶片结冰故障预测方法
CN111814697A (zh) * 2020-07-13 2020-10-23 伊沃人工智能技术(江苏)有限公司 一种实时人脸识别方法、系统及电子设备
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
CN112417890A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于多样化语义注意力模型的细粒度实体分类方法
CN112597780A (zh) * 2020-12-28 2021-04-02 焦点科技股份有限公司 一种多语种混合的异构神经网络机器学习翻译方法
CN112836485A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于神经机器翻译的相似病历预测方法
CN113221874A (zh) * 2021-06-09 2021-08-06 上海交通大学 基于Gabor卷积和线性稀疏注意力的文字识别系统

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
DEHUA CHEN ET AL: "Thyroid Nodule Classification Using Two Levels Attention-Based Bi-Directional LSTM with Ultrasound Reports", 《2018 9TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION (ITME)》 *
佘玉梅等: "《人工智能原理及应用》", 31 December 2018 *
吴越: "基于编解码器结构从图像生成文本的研究进展", 《图形图像》 *
周圣杰: "基于学习方法的习习习习与深入研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
李泫才: "端到端语音翻译研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
梁敏等: "AI设计下的智能驾驶场景文本识别技术", 《包装工程》 *
焦潇雅: "基于识别的手语翻译语音算法研究与实现", 《中国优秀硕士论文全文数据库信息科技辑》 *
艾鑫等: "面向精确定位的列车车号文本定位与识别", 《计算机辅助设计与图形学学报》 *
贺强: "深度神经网络在视频行为识别中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114207673A (zh) * 2021-12-20 2022-03-18 商汤国际私人有限公司 序列识别方法及装置、电子设备和存储介质
WO2023118936A1 (en) * 2021-12-20 2023-06-29 Sensetime International Pte. Ltd. Sequence recognition method and apparatus, electronic device, and storage medium
CN114462580A (zh) * 2022-02-10 2022-05-10 腾讯科技(深圳)有限公司 文本识别模型的训练方法、文本识别方法、装置和设备
CN114973136A (zh) * 2022-05-31 2022-08-30 河南工业大学 一种极端条件下场景图像识别方法
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN116311106B (zh) * 2023-05-24 2023-08-22 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN116595421A (zh) * 2023-06-10 2023-08-15 北京航空航天大学 基于时频谱图和变换器算法的飞行器电信号预测方法
CN116595421B (zh) * 2023-06-10 2024-04-09 北京航空航天大学 基于时频谱图和变换器算法的飞行器电信号预测方法
CN117196972A (zh) * 2023-08-25 2023-12-08 山东浪潮科学研究院有限公司 一种基于改进的Transformer的文档伪影去除方法

Similar Documents

Publication Publication Date Title
CN113688822A (zh) 一种时序注意力机制场景图像识别方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN113591546B (zh) 语义增强型场景文本识别方法及装置
US20190180154A1 (en) Text recognition using artificial intelligence
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN113221874A (zh) 基于Gabor卷积和线性稀疏注意力的文字识别系统
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN113435451A (zh) 模型、模型的训练方法和装置、字符序列的识别和装置
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN114445420B (zh) 编解码结构结合注意力机制的图像分割模型及其训练方法
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN116939320B (zh) 一种生成式多模态互利增强视频语义通信方法
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN114154016B (zh) 基于目标空间语义对齐的视频描述方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN114973136A (zh) 一种极端条件下场景图像识别方法
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN111967358B (zh) 一种基于注意力机制的神经网络步态识别方法
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN116168394A (zh) 图像文本识别方法和装置
CN114332479A (zh) 一种目标检测模型的训练方法及相关装置
CN117058437B (zh) 一种基于知识蒸馏的花卉分类方法、系统、设备及介质
CN116682180A (zh) 基于人体骨骼序列时空信息的动作识别方法
CN116630660A (zh) 一种多尺度增强学习的跨模态图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination