CN112784831B - 融合多层特征增强注意力机制的文字识别方法 - Google Patents

融合多层特征增强注意力机制的文字识别方法 Download PDF

Info

Publication number
CN112784831B
CN112784831B CN202110144038.6A CN202110144038A CN112784831B CN 112784831 B CN112784831 B CN 112784831B CN 202110144038 A CN202110144038 A CN 202110144038A CN 112784831 B CN112784831 B CN 112784831B
Authority
CN
China
Prior art keywords
features
level
picture
feature
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110144038.6A
Other languages
English (en)
Other versions
CN112784831A (zh
Inventor
徐行
赖逸
沈复民
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110144038.6A priority Critical patent/CN112784831B/zh
Publication of CN112784831A publication Critical patent/CN112784831A/zh
Application granted granted Critical
Publication of CN112784831B publication Critical patent/CN112784831B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉中的光学字符识别技术领域,提供一种融合多层特征增强注意力机制的文字识别方法,该方法包括:选取训练图片;提取图片特征;构建特征融合矩阵并融合多层特征;利用关联特征进行特征融合,增强特征表现能力;对融合后的特征进行序列建模;对序列建模后的特征进行概率预测;在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。本发明通过将神经网络的各个层级提取到的特征进行相互映射,以此来提升特征的表达能力,从而提高了文字识别的准确率。

Description

融合多层特征增强注意力机制的文字识别方法
技术领域
本发明涉及计算机视觉中的光学字符识别技术领域,具体涉及一种融合多层特征增强注意力机制的文字识别方法。
背景技术
在移动互联网是时代,每天都能够收发大量的图片数据,其中许多图片不乏包含文字信息,而能够对图片中的文字信息进行准确地提取就变得尤为重要了。人们可能需要将手机拍摄的稿件转换为电子版,也可能需要将平时看到的图片中的文字保存下来,等等。随着图片的增多,图片中的文字也随之增加,能够对图片中的文字进行准确地识别逐渐成为新的趋势。文字识别主要是对图片中有文字区域的部分进行处理,将图片中的色彩信息转换为字符信息并存储在计算机中。
现有的文字识别方法主要分为两种:
(1)以传统的方法对图片进行处理,并采用分类的方法对文字进行识别。主要的步骤为对图像进行灰度变换,二值化等处理获取图片中的文字所在区域;再根据文字区域将对应部分进行裁剪;最后送入到分类器进行分类得到识别结果。这种方法的优点在于处理速度快,同时操作简单;但由于依赖于文字区域的裁剪效果,导致识别准确率不高。
(2)以深度学习为基础的识别方法。主要步骤为首先构建一个神经网络,将输入的图片进行处理提取图片的特征,再对提取到的特征进行预测得到识别结果。这种方法的优点在于识别准确率高;但由于其复杂的网络结构导致识别速度较慢。
虽然随着深度学习的发展,文字识别在神经网络的作用下准确率越来越高,但是由于识别的效果与网络的结构有着十分紧密的联系,不同的网络结构对同一张图片提取到的特征大不相同,因此得到的结果也不同。尤其是在网络结构特别复杂、网络层数较深的情况下,由于提取到的特征过于抽象,导致最后的预测结果准确率反而比其他方法更低。
发明内容
本发明的目的是提供一种融合多层特征增强注意力机制的文字识别方法,通过将神经网络的各个层级提取到的特征进行相互映射,以此来提升特征的表达能力,从而提高文字识别的准确率。
本发明解决其技术问题,采用的技术方案是:
本发明提出一种融合多层特征增强注意力机制的文字识别方法,包括如下步骤:
步骤1.选取训练图片;
步骤2.提取图片特征;
步骤3.构建特征融合矩阵并融合多层特征;
步骤4.利用关联特征进行特征融合,增强特征表现能力;
步骤5.对融合后的特征进行序列建模;
步骤6.对序列建模后的特征进行概率预测;
步骤7.在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;
步骤8.在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。
进一步的是,步骤1具体包括:
步骤101.从现有的训练数据集中选择一张带有文字的图片,将图片作为网络的输入,原始图片记为X;
步骤102.将输入图片尺寸缩放到长宽分别为32*100,记缩放后的图片为X'。
进一步的是,步骤2具体包括:
步骤201.使用经过修改的残差网络,残差块为BasicBlock,共有4个残差块,每个残差块的层数分别为1、2、5、3;
步骤202.将缩放后的图片X′输入到网络模型中,模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征,分别记为LC1×H×W、MC1×H×W、HC2×H×W,分别表示低层级,中层级及高层级的特征,其中C、H、W分别表示各个特征的通道数、高度和宽度;
步骤203.分别将三个层级的特征进行reshape操作,记新的特征为LN×C1、MN×C1、HN ×C2,其中N为H×W。
进一步的是,步骤3具体包括:
步骤301.分别将三个层级的特征分别进行一次自注意力操作,即分别输入到一个1x1的卷积层中生成只有一个通道的掩码,记三个层级的特征掩码分别为ML、MM、MH,再将掩码与原特征进行逐元素相乘;
L1 N×C1=ML×LN×C1
M1 N×C1=MM×MN×C1
H1 N×C2=MH×HN×C2
步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L1 N×C1、M1 N×C1)与(M1 N ×C1、H1 N×C2),因此需要有两组关联特征;
步骤303.对于第一组关联特征,首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数,记映射矩阵为U1 C1×C3、V1 C1×C3,映射完成后通过一个双线性池化向量P1 1 ×C3来生成关联特征,记第一组关联特征为Clm N×N,计算公式为:
Clm N×N=((IN×1·P1 1×C3)×σ(L1 N×C1·U1 C1×C3))·σ((V1 C1×C3)T·(M1 N×C1)T)
其中IN×1表示元素全为1的矩阵,σ(·)表示激活函数,·表示矩阵乘法,×表示逐元素相乘,(·)T表示矩阵转置;
步骤304.对于第二组关联特征,也需要两个映射矩阵U2 C1×C3、V2 C2×C3,及一个双线性池化向量P2 1×C3,记生成的关联特征为Cmh N×N,计算公式为:
Cmh N×N=((IN×1·P2 1×C3)×σ(M1 N×C1·U2 C1×C3))·σ((V2 C2×C3)T·(H1 N×C2)T)。
进一步的是,步骤4具体包括:
步骤401.对第一组层级特征,将得到的关联特征Clm N×N用于提升低层级L1 N×C1与中层级M1 N×C1的表现能力,首先需要定义两个通道映射矩阵,U3 C1×C4、V3 C1×C4将低层级与中层级的进行统一,之后定义两个特征映射矩阵Q1 C4×C5和Q2 C4×C5分别将统一了通道的层级特征增强;记增强后的低层级特征和中层级特征为La N×C5、Ma1 N×C5,计算公式为:
Figure GDA0003621178270000041
Figure GDA0003621178270000042
步骤402.对第二组层级特征进行,使用的关联特征为Cmh N×N,定义四个矩阵U4 C1×C4与V4 C2×C4、Q3 C4×C5与Q4 C4×C5,记增强后的中层级特征和高层级特征为Ma2 N×C5、Ha1 N×C5,计算公式为:
Ma2 N×C5=((σ(M1 N×C1·U4 C1×C4)T)×(σ(H1 N×C2·V4 C2×C4)T·(Cmh N×N)T))T·Q3 C4×C5
Ha1 N×C5=((σ(M1 N×C1·U4 C1×C4)T·Cmh N×N)×(σ(H1 N×C2·V4 C2×C4)T))T·Q4 C4×C5
步骤403.由于中层级特征在两组操作中都进行了增强,因此将两个增强后的中层级特征相加作为完整的中层级特征,记为Ma3 N×C5
Ma3 N×C5=Ma1 N×C5+Ma2 N×C5
步骤404.为了将增强后的三个层级的特征进行特征表现,首先将La N×C5进行reshape操作,将维度恢复为C6×H×W,记为La C6×H×W再作为输入重新输入到网络模型的第三个残差块;
步骤405.将Ma3 N×C5进行reshape操作,将维度恢复为C5×H×W,并与步骤404的输出结果相加,将相加的结果作为最终的中层级特征,记为Ma C5×H×W,再作为输入重新输入到网络模型的第四个残差块;
步骤406.将Ha1N×C5进行reshape操作,将维度恢复为C5×H×W,并与步骤405的输出结果相加,将相加的结果作为最终的高层级的特征,记为Ha C5×H×W
进一步的是,步骤5具体包括:
步骤501.以对低层级的最终特征La C6×H×W进行序列建模为例,首先将La C6×H×W的第二个维度H进行平均池化将维度降为1,后进行reshape操作将维度转换为C6×W,再输入到LSTM中,记输出为LC×W
步骤502.对中层级和高层级的特征也先进行平均池化,再进行reshape操作,最后将结果输入到LSTM中,分别记输出为MC×W、HC×W
进一步的是,步骤6中,在网络模型训练阶段,分别对三个层级的序列特征进行概率预测,在测试阶段仅需要对高层级的序列特征进行概率预测即可;
在训练阶段,分别将三个层级的序列特征经过全连接层,其中全连接层的输出维度为T,即所有的字符数,记输出为LW×T、MW×T、HW×T
进一步的是,步骤7具体包括:
步骤701.根据步骤6的输出利用CTCLoss来构建损失函数;
对于低层级特征损失函数Loss1
Loss1=CTCLoss(LW×T,gt)
其中,gt表示图片中的文字对应的编码;
对于中层级和高层级特征构建损失函数Loss2、Loss3
Loss2=CTCLoss(MW×T,gt)
Loss3=CTCLoss(HW×T,gt);
步骤702.总的损失函数Loss=αLoss1+βLoss2+γLoss3,其中α、β、γ为平衡因子,可根据不同的数据进行修改;
步骤703.用总损失函数Loss进行梯度求解,再采用反向传播算法对网络模型中的参数权重进行更新,然后选取下一张图片,以更新后的参数权重继续训练网络模型,当模型预测准确率不再提升时完成训练,从而得标准网络模型。
进一步的是,步骤8具体包括:
步骤801.在测试阶段,只使用高层级的特征进行预测,首先将待识别的图片输入到训练好的网络模型中,模型提取得到图片的高层级特征,并经过全连接层输出大小为W×T的矩阵,其中,T表示总的字符数,记为HW×T
步骤802.对HW×T在第二个维度进行softmax操作得到每个字符的置信度;
步骤803.对步骤802的输出的第二个维度求取最大置信度所在的序号,记结果为HW×1
HW×1=argmax(softmax(HW×T,dim=1),dim=1)
则HW×1为长度为W的向量,向量的值表示预测得到的字符编号;
步骤804.将HW×1中的字符编号转换为对应的字符,作为网络模型对该图片中的文字的识别结果。
本发明的有益效果是,通过上述融合多层特征增强注意力机制的文字识别方法,通过对图片提取不同层级的特征,利用相邻两个层级的特征来映射生成关联特征;同时,以关联特征为基础,分别将两个相邻的层级特征进行融合,即将利用关联特征,将较高层级的特征融合到较低层级的特征中,同时将较低层级的特征融合到较高层级的特征中,从而达到提升识别准确率的目的。
具体的,本发明融合多层特征增强注意力机制的文字识别方法具有以下有益效果:
(1)、利用特征提取网络对原始图像提取不同层级的特征,利用映射矩阵将相邻两个层级的特征进行映射生成关联特征。融合关联特征能有效地学习到相邻两个层级特征之间的关系;关联特征能有效的将不同层级之间的特征进行相互映射,实现特征之间的相互融合;
(2)、基于关联特征,可以将相邻两个层级的特征进行相互映射与融合,即将较低层级的特征融合到较高层级的特征中,这样做能有效的增加较高层级特征与较低层级特征之间的关联性,防止随着网络的加深提取的特征过于抽象,从而较小过拟合的风险;同时,利用关联特征,也可以将较高层级的特征融合到较低层级的特征中,这样做能增加较低层级特征的表现能力,使得网络提取的特征能更加注重图中的文字区域;
(3)、在网络模型的训练步骤中,对每个层级的特征都进行预测并采用有监督学习来优化模型权重,从而对中间层级的构建增加额外的约束条件;同时,在网络模型训练完成后进行测试阶段,仅需要对最终的高层特征进行预测而不需要对所有测中间层级进行预测,因此不会影响最终的运行速度。
附图说明
图1是本发明实施例中融合多层特征增强注意力机制的文字识别方法的流程图;
图2是本发明实施例中融合多层特征增强注意力机制的文字识别方法框架图;
图3是本发明实施例中对层级特征进行自注意力操作的结构图;
图4是本发明实施例中利用相邻层级特征生成关联特征的结构图;
图5是本发明实施例中对相邻层级特征进行相互融合的结构图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例
为了方便描述,先对本实施例中出现的相关专业术语进行说明:
reshape:将矩阵的形状重新转换为新的形状;
LSTM(Long short-term memory):长短期记忆,一种特殊的循环神经网络
CTCLoss(Connectionist Temporal Classification loss):一种文字识别中将输出进行对齐的损失函数;
argmax:一种对函数求参数(集合)的函数;
softmax:映射函数,将多个多个神经元的输出映射到(0-1)之间;
synthtext:一种用于文字识别的合成数据集;
mjsynth:一种用于文字识别的合成数据集;
ICDAR2013:一种公开的真实场景文字识别数据集;
ICDAR2015:一种公开的真实场景文字识别数据集;
IIIT:一种公开的真实场景文字识别数据集;
SVT:一种公开的真实场景文字识别数据集。
参见图1-2,本实施例提出的融合多层特征增强注意力机制的文字识别方法,包括如下步骤:
S1、选取训练图片;
S1.1、从现有的训练数据集中选择一张带有文字的图片,将图片作为网络的输入;
S1.2、为了保证训练能批次训练,首先需要将输入图片尺寸缩放到长宽分别为32*100。
S2、提取图片特征;
S2.1、如图2所示,网络提取了图片三个层级的特征,分别为低层级、中层级和高层级特征,分别记为LC1×H×W、MC1×H×W、HC2×H×W
S2.2、分别将三个层级的特征进行reshape操作,记新的特征为LN×C1、MN×C1、HN×C2,其中N为H×W。
S3、构建特征融合矩阵并融合多层特征;
在本实施例中,需要生成两个关联特征,每个关联特征的生成如图4所示;
S3.1、首先需要分别将三个层级的特征分别进行一次自注意力操作,如图3所示,即分别输入到一个1x1的卷积层中生成只有一个通道的掩码,记三个层级的特征掩码分别为ML、MM、MH;再将掩码与原特征进行逐元素相乘;
L1 N×C1=ML×LN×C1
M1 N×C1=MM×MN×C1
H1 N×C2=MH×HN×C2
S3.2、关联特征矩阵的生成由于有两组相邻层级的特征(L1 N×C1、M1 N×C1)与(M1 N×C1、H1 N×C2),因此需要有两组关联特征;以第一组为例,首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数,记映射矩阵为U1 C1×C3、V1 C1×C3;映射完成后通过一个双线性池化向量P2 1×C3来生成关联特征;记第一组关联特征为Cmh N×N,计算公式为:
Cmh N×N=((IN×1·P2 1×C3)×σ(M1 N×C1·U2 C1×C3))·σ((V2 C2×C3)T·(H1 N×C2)T)
其中IN×1表示元素全为1的矩阵,σ(·)表示激活函数,·表示矩阵乘法,×表示逐元素相乘,(·)T表示矩阵转置;
S3.3、同理,第二组关联特征也可以按照图4所示方式生成,需要两个映射矩阵U2 C1 ×C3、V2 C2×C3,及一个双线性池化向量P2 1×C3,记生成的关联特征为Cmh N×N,计算公式为:
Cmh N×N=((IN×1·P2 1×C3)×σ(M1 N×C1·U2 C1×C3))·σ((V2 C2×C3)T·(H1 N×C2)T)。
S4、利用关联特征进行特征融合,增强特征表现能力;
在本实施例中,有两个相邻层级的特征需要进行融合,具体的融合流程如图5所示;
S4.1、以低层级和中层级特征融合为例,将关联特征Clm N×N用于提升低层级L1 N×C1与中层级M1 N×C1的表现能力,首先需要定义两个通道映射矩阵,U3 C1×C4、V3 C1×C4将低层级与中层级的进行统一;之后需要定义两个特征映射矩阵Q1 C4×C5和Q2 C4×C5分别将统一了通道的层级特征增强,提升表现能力;记增强后的低层级特征和中层级特征为La N×C5、Ma1 N×C5,计算公式为:
Figure GDA0003621178270000101
Figure GDA0003621178270000102
S4.2、同理,继续按照图5所示流程,将中层级特征和高层级特征进行融合,使用的关联特征为Cmh N×N,定义四个矩阵U4 C1×C4与V4 C2×C4、Q3 C4×C5与Q4 C4×C5;记增强后的中层级特征和高层级特征为Ma2 N×C5、Ha1 N×C5,计算公式为:
Ma2 N×C5=((σ(M1 N×C1·U4 C1×C4)T)×(σ(H1 N×C2·V4 C2×C4)T·(Cmh N×N)T))T·Q3 C4×C5
Ha1 N×C5=((σ(M1 N×C1·U4 C1×C4)T·Cmh N×N)×(σ(H1 N×C2·V4 C2×C4)T))T·Q4 C4×C5
S4.3、由于中层级特征在两组操作中都进行了增强,因此需要将两个增强后的中层级特征相加作为完整的中层级特征,记为Ma3 N×C5
Ma3 N×C5=Ma1 N×C5+Ma2 N×C5
S4.4、为了将增强后的三个层级的特征进行特征表现,首先将La N×C6进行reshape操作,将维度恢复为C6×H×W,记为La C6×H×W再作为输入重新输入到网络模型的第三个残差块;
S4.5、将Ma3 N×C5进行reshape操作,将维度恢复为C5×H×W,并与S4.4的输出结果相加,将相加的结果作为最终的中层级特征,记为Ma C5×H×W,再作为输入重新输入到网络模型的第四个残差块;
S4.6、将Ha1 N×C5进行reshape操作,将维度恢复为C5×H×W,并与S4.5的输出结果相加,将相加的结果作为最终的高层级的特征,记为Ha C5×H×W
S5、对融合后的特征进行序列建模;
由于文字识别是从左往右或从右往左的序列识别,因此可以使用LSTM来对提取到的特征进行序列建模,以增强特征前后之间的连续性,在本实施例中使用的建模模型为两层的双向LSTM;
S5.1、以对低层级的最终特征La C6×H×W进行序列建模为例,首先将La C6×H×W的第二个维度H进行平均池化将维度降为1,后进行reshape操作将维度转换为C6×W,再输入到两层的双向LSTM中,记输出为LC×W
S5.2、同理,对中层级和高层级的特征也先进行平均池化,再进行reshape操作,最后将结果输入到两层的双向LSTM中,分别记输出为MC×W、HC×W
S6、对序列建模后的特征进行概率预测;
在网络模型训练阶段,分别对三个层级的序列特征进行概率预测;而在测试阶段仅需要对高层级的序列特征进行概率预测即可;
S6.1、以训练阶段为例,分别将三个层级的序列特征经过全连接层,其中全连接层的输出维度为T,即所有的字符数;记输出为LW×T、MW×T、HW×T
S7、在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;
S7.1、根据S6.1的输出利用CTCLoss来构建损失函数,如图2所示,在本实施例中使用的是三个层级的损失的权值之和;以低层级特征损失函数Loss1为例:
Loss1=CTCLoss(LW×T,gt)
其中gt表示图片中的文字对应的编码;
S7.2、同理,对中层级和高层级特征构建损失函数Loss2、Loss3
Loss2=CTCLoss(MW×T,gt)
Loss3=CTCLoss(HW×T,gt)
S7.3、总的损失函数Loss=αLoss1+βLoss2+γLoss3,其中α、β、γ为平衡因子,可根据不同的数据进行修改;
S7.4、首先用总损失函数Loss进行梯度求解,再采用反向传播算法对网络模型中的参数权重进行更新,然后选取下一张图片,以更新后的参数权重继续训练网络模型,当模型预测准确率不再提升时完成训练,从而得标准网络模型。
S8、在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字;
S8.1、在测试阶段,只使用高层级的特征进行预测,首先将待识别的图片输入到训练好的网络模型中,模型提取得到图片的高层级特征,并经过全连接层输出大小为W×T的矩阵,其中,T表示总的字符数,记为HW×T
S8.2、对HW×T在第二个维度进行softmax操作得到每个字符的置信度
S8.3、对S8.2的输出的第二个维度求取最大置信度所在的序号,记结果为H1;
HW×1=argmax(softmax(HW×T,dim=1),dim=1)则HW×1为长度为W的向量,向量的值表示预测得到的字符编号;
S8.4、将HW×1中的字符编号转换为对应的字符,作为网络模型对该图片中的文字的识别结果;
在本实施例中,采用识别准确率来评估网络模型,准确率的计算方式为:识别正确的图片数量÷总的图片数量×100%。
在本实施例中,模型训练时使用的数据集为两个大型的合成数据集synthtext、mjsynth;在训练阶段每个批次的数据一半选自synthtext,另一半选自mjsynth;而在验证时使用的是公开数据集的训练集部分,包含的公开数据集包括ICDAR2013、ICDAR2015、IIIT、SVT。
具体的,我们在相同的训练数据,相同的训练次数的条件下,将试验分为三个部分,分别为:不使用特征融合机制、仅融合中层和高层特征、融合低层中层和高层特征;模型在测试数据上的准确率如下表1所示:
表1不同融合方式结果准确率
Figure GDA0003621178270000131
Figure GDA0003621178270000141
从表1中可以看出,在使用了两个层级的特征进行融合后,网络模型的识别准确率在不使用融合方式的条件下有0.658%的提升;同时,在使用了三个层级的特征进行融合后,网络模型的准确率在不使用融合方式的条件下有2.316%。可以看出,在加入了特征融合机制后,能够显著提升网络模型的识别准确率,同时,随着参与融合的特征层数测增加,准确率也有显著的提升。说明了本发明对于提升网络模型识别准确率有很好的效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.融合多层特征增强注意力机制的文字识别方法,其特征在于,包括如下步骤:
步骤1.选取训练图片;
步骤2.提取图片特征;
步骤3.构建特征融合矩阵并融合多层特征;
步骤4.利用关联特征进行特征融合,增强特征表现能力;
步骤5.对融合后的特征进行序列建模;
步骤6.对序列建模后的特征进行概率预测;
步骤7.在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;
步骤8.在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字;
步骤2具体包括:
步骤201.使用经过修改的残差网络,残差块为BasicBlock,共有4个残差块,每个残差块的层数分别为1、2、5、3;
步骤202.将缩放后的图片X′输入到网络模型中,模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征,分别记为LC1×H×W、MC1×H×W、HC2 ×H×W,分别表示低层级,中层级及高层级的特征,其中C、H、W分别表示各个特征的通道数、高度和宽度;
步骤203.分别将三个层级的特征进行reshape操作,记新的特征为LN×C1、MN×C1、HN×C2,其中N为H×W;
步骤3具体包括:
步骤301.分别将三个层级的特征分别进行一次自注意力操作,即分别输入到一个1×1的卷积层中生成只有一个通道的掩码,记三个层级的特征掩码分别为ML、MM、MH,再将掩码与原特征进行逐元素相乘;
L1 N×C1=ML×LN×C1
M1 N×C1=MM×MN×C1
H1 N×C2=MH×HN×C2
步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L1 N×C1、M1 N×C1)与(M1 N×C1、H1 N ×C2),因此需要有两组关联特征;
步骤303.对于第一组关联特征,首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数,记映射矩阵为U1 C1×C3、V1 C1×C3,映射完成后通过一个双线性池化向量P1 1×C3来生成关联特征,记第一组关联特征为Clm N×N,计算公式为:
Clm N×N=((IN×1·P1 1×C3)×σ(L1 N×C1·U1 C1×C3))·σ((V1 C1×C3)T·(M1 N×C1)T)
其中IN×1表示元素全为1的矩阵,σ(·)表示激活函数,·表示矩阵乘法,×表示逐元素相乘,(·)T表示矩阵转置;
步骤304.对于第二组关联特征,也需要两个映射矩阵U2 C1×C3、V2 C2×C3,及一个双线性池化向量P2 1×C3,记生成的关联特征为Cmh N×N,计算公式为:
Cmh N×N=((IN×1·P2 1×C3)×σ(M1 N×C1·U2 C1×C3))·σ((V2 C2×C3)T·(H1 N×C2)T);
步骤4具体包括:
步骤401.对第一组层级特征,将得到的关联特征Clm N×N用于提升低层级L1 N×C1与中层级M1 N×C1的表现能力,首先需要定义两个通道映射矩阵,U3 C1×C4、V3 C1×C4将低层级与中层级的进行统一,之后定义两个特征映射矩阵Q1 C4×C5和Q2 C4×C5分别将统一了通道的层级特征增强;记增强后的低层级特征和中层级特征为La N×C5、Ma1 N×C5,计算公式为:
Figure FDA0003621178260000031
Figure FDA0003621178260000032
步骤402.对第二组层级特征进行,使用的关联特征为Cmh N×N,定义四个矩阵U4 C1×C4与V4 C2 ×C4、Q3 C4×C5与Q4 C4×C5,记增强后的中层级特征和高层级特征为Ma2 N×C5、Ha1 N×C5,计算公式为:
Ma2 N×C5=((σ(M1 N×C1·U4 C1×C4)T)×(σ(H1 N×C2·V4 C2×C4)T·(Cmh N×N)T))T·Q3 C4×C5
Ha1 N×C5=((σ(M1 N×C1·U4 C1×C4)T·Cmh N×N)×(σ(H1 N×C2·V4 C2×C4)T))T·Q4 C4×C5
步骤403.由于中层级特征在两组操作中都进行了增强,因此将两个增强后的中层级特征相加作为完整的中层级特征,记为Ma3 N×C5
Ma3 N×C5=Ma1 N×C5+Ma2 N×C5
步骤404.为了将增强后的三个层级的特征进行特征表现,首先将La N×C5进行reshape操作,将维度恢复为C6×H×W,记为La C6×H×W再作为输入重新输入到网络模型的第三个残差块;
步骤405.将Ma3 N×C5进行reshape操作,将维度恢复为C5×H×W,并与步骤404的输出结果相加,将相加的结果作为最终的中层级特征,记为Ma C5×H×W,再作为输入重新输入到网络模型的第四个残差块;
步骤406.将Ha1 N×C5进行reshape操作,将维度恢复为C5×H×W,并与步骤405的输出结果相加,将 相加的结果作为最终的高层级的特征,记为Ha C5×H×W
步骤5具体包括:
步骤501.以对低层级的最终特征La C6×H×W进行序列建模为例,首先将La C6×H×W的第二个维度H进行平均池化将维度降为1,后进行reshape操作将维度转换为C6×W,再输入到LSTM中,记输出为LC×W
步骤502.对中层级和高层级的特征也先进行平均池化,再进行reshape操作,最后将结果输入到LSTM中,分别记输出为MC×W、HC×W
步骤6中,在网络模型训练阶段,分别对三个层级的序列特征进行概率预测,在测试阶段仅需要对高层级的序列特征进行概率预测即可;
在训练阶段,分别将三个层级的序列特征经过全连接层,其中全连接层的输出维度为T,即所有的字符数,记输出为LW×T、MW×T、HW×T
步骤7具体包括:
步骤701.根据步骤6的输出利用CTCLoss来构建损失函数;
对于低层级特征损失函数Loss1
Loss1=CTCLoss(LW×T,gt)
其中,gt表示图片中的文字对应的编码;
对于中层级和高层级特征构建损失函数Loss2、Loss3
Loss2=CTCLoss(MW×T,gt)
Loss3=CTCLoss(HW×T,gt);
步骤702.总的损失函数Loss=αLoss1+βLoss2+γLoss3,其中α、β、γ为平衡因子,可根据不同的数据进行修改;
步骤703.用总损失函数Loss进行梯度求解,再采用反向传播算法对网络模型中的参数权重进行更新,然后选取下一张图片,以更新后的参数权重继续训练网络模型,当模型预测准确率不再提升时完成训练,从而得标准网络模型;
步骤8具体包括:
步骤801.在测试阶段,只使用高层级的特征进行预测,首先将待识别的图片输入到训练好的网络模型中,模型提取得到图片的高层级特征,并经过全连接层输出大小为W×T的矩阵,其中,T表示总的字符数,记为HW×T
步骤802.对HW×T在第二个维度进行softmax操作得到每个字符的置信度;
步骤803.对步骤802的输出的第二个维度求取最大置信度所在的序号,记结果为HW×1
HW×1=argmax(softmax(HW×T,dim=1),dim=1)
则HW×1为长度为W的向量,向量的值表示预测得到的字符编号;
步骤804.将HW×1中的字符编号转换为对应的字符,作为网络模型对该图片中的文字的识别结果。
2.根据权利要求1所述的融合多层特征增强注意力机制的文字识别方法,其特征在于,步骤1具体包括:
步骤101.从现有的训练数据集中选择一张带有文字的图片,将图片作为网络的输入,原始图片记为X;
步骤102.将输入图片尺寸缩放到长宽分别为32*100,记缩放后的图片为X′。
CN202110144038.6A 2021-02-02 2021-02-02 融合多层特征增强注意力机制的文字识别方法 Expired - Fee Related CN112784831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144038.6A CN112784831B (zh) 2021-02-02 2021-02-02 融合多层特征增强注意力机制的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144038.6A CN112784831B (zh) 2021-02-02 2021-02-02 融合多层特征增强注意力机制的文字识别方法

Publications (2)

Publication Number Publication Date
CN112784831A CN112784831A (zh) 2021-05-11
CN112784831B true CN112784831B (zh) 2022-06-28

Family

ID=75760549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144038.6A Expired - Fee Related CN112784831B (zh) 2021-02-02 2021-02-02 融合多层特征增强注意力机制的文字识别方法

Country Status (1)

Country Link
CN (1) CN112784831B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792741B (zh) * 2021-09-17 2023-08-11 平安普惠企业管理有限公司 文字识别方法、装置、设备及存储介质
CN114429633B (zh) * 2022-01-28 2023-10-27 北京百度网讯科技有限公司 文本识别方法、模型的训练方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010002997A (ko) * 1999-06-19 2001-01-15 윤덕용 신경회로망을 이용한 선택적 주의집중 방법
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111695053A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 序列标注方法、数据处理设备、可读存储介质
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010002997A (ko) * 1999-06-19 2001-01-15 윤덕용 신경회로망을 이용한 선택적 주의집중 방법
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111695053A (zh) * 2020-06-12 2020-09-22 上海智臻智能网络科技股份有限公司 序列标注方法、数据处理设备、可读存储介质
CN111832546A (zh) * 2020-06-23 2020-10-27 南京航空航天大学 一种轻量级自然场景文本识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
3D Self-Attention for Unsupervised Video Quantization;J Song等;《SIGIR "20: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information》;20200725;1061-1070 *
Double Supervised Network with Attention Mechanism for Scene Text Recognition;Yuting Gao等;《https://doi.org/10.48550/arXiv.1808.00677》;20191022;1-5 *
Memory-Augmented Attention Model for Scene Text Recognition;Cong Wang等;《2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR)》;20181210;1-3 *
基于注意力增强网络的场景文字识别;徐富勇;《现代计算机》;20200325(第09期);73-77 *
基于深度学习的医疗单据图文识别关键技术研究与实现;邵文良;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190915;I138-1153 *

Also Published As

Publication number Publication date
CN112784831A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
WO2022227913A1 (zh) 一种基于物联网感知的双特征融合的语义分割系统及方法
CN108647736B (zh) 一种基于感知损失和匹配注意力机制的图像分类方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112819833B (zh) 一种大场景点云语义分割方法
CN112784831B (zh) 融合多层特征增强注意力机制的文字识别方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN114511576B (zh) 尺度自适应特征增强深度神经网络的图像分割方法与系统
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN113284100A (zh) 基于恢复图像对混合域注意力机制的图像质量评价方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115222998B (zh) 一种图像分类方法
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN114780768A (zh) 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN111738226A (zh) 一种基于cnn和rcnn模型的文本识别方法及装置
CN116363663A (zh) 图像处理方法、图像识别方法及装置
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN115982652A (zh) 一种基于注意力网络的跨模态情感分析方法
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
CN115861664A (zh) 基于局部特征融合与自注意力机制的特征匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220628

CF01 Termination of patent right due to non-payment of annual fee