CN112149619A - 一种基于Transformer模型自然场景文字识别方法 - Google Patents

一种基于Transformer模型自然场景文字识别方法 Download PDF

Info

Publication number
CN112149619A
CN112149619A CN202011098711.9A CN202011098711A CN112149619A CN 112149619 A CN112149619 A CN 112149619A CN 202011098711 A CN202011098711 A CN 202011098711A CN 112149619 A CN112149619 A CN 112149619A
Authority
CN
China
Prior art keywords
natural scene
attention
transformer model
character
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011098711.9A
Other languages
English (en)
Other versions
CN112149619B (zh
Inventor
徐亦飞
张美姿
王爱臣
王正洋
王超勇
余乐
尉萍萍
肖志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Huiyichen Technology Co ltd
Original Assignee
Nanchang Huiyichen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Huiyichen Technology Co ltd filed Critical Nanchang Huiyichen Technology Co ltd
Priority to CN202011098711.9A priority Critical patent/CN112149619B/zh
Publication of CN112149619A publication Critical patent/CN112149619A/zh
Application granted granted Critical
Publication of CN112149619B publication Critical patent/CN112149619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于Transformer模型自然场景文字识别方法,在特征提取网络中内加入残差注意力模块,使得特征提取网络可以对特征进行有选择的关注,从而增强文本区域信息,抑制干扰信息,从而缓解自然场景中的图像中的阴影、背景纹理以及噪声等干扰因素对识别结果的影响。本发明采用完全由注意力机制组成的Transformer模型替代传统的具有循环结构的RNN网络,本发明Transformer模型的具有更好的并行计算的能力,解决了原方法中训练耗时以及难以训练的问题。另外,本发明将高斯偏置加入到Transformer模型的自注意力机制中,解决Transformer模型中的自注意力机制弱于捕获序列中的局部依赖的问题,使得Transformer模型更适用于文字识别任务。

Description

一种基于Transformer模型自然场景文字识别方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于Transformer模型自然场景文字识别方法。
背景技术
文字检测是计算机视觉领域研究的热点,其旨在将自然场景图像中的文字的位置检测出来,以供下一步进行识别,从而将图像转换为可供计算机处理的真实的文字信息。自然场景图像中的文字通常在字体、组合方式和文字大小等方面存在着较大的差异,且自然场景图像还在光照强度、分辨率、图像噪声以及拍摄角度等方面存在很大的不确定性,这些复杂的因素大大增加了自然场景下的文字检测的难度。
由Shi B,Bai X,Yao C.An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition提出的CRNN算法是目前常用的一种文字识别算法,该算法凭借其优异的性能和识别准确率,得到了广泛的应用。CRNN算法使用一个CNN网络来提取图片中的特征,然后将特征切片成特征序列,输入到一个双向LSTM网络中进行识别,最后采用CTC算法对识别结果进行对齐,得到最终的识别结果。
然而,由于CRNN算法采用了RNN网络作为序列的学习模型,而RNN网络固有的顺序属性阻碍了训练样本间的并行化,对于长序列,内存限制将阻碍对训练样本的批量处理。同时,RNN网络在训练时耗时太长,并且容易产生梯度爆炸或梯度消失,难以训练。
发明内容
本发明提供了一种基于Transformer模型自然场景文字识别方法,以解决现有的基于RNN网络的自然场景文字识别算法训练时间过长以及难以训练的问题。
本发明提供了一种基于Transformer模型自然场景文字识别方法,包括:
步骤S100,对输入的自然场景文字图片进行预处理;
步骤S200,将经预处理的自然场景文字图片传入特征提取网络,得到包含图片文字信息的特征图,其中,特征提取网络包括VGG网络与残差注意力模块;
步骤S300,将得到的特征图进行切片,得到特征序列;
步骤S400,将特征序列传入Transformer模型,经过Transformer模型的编码和解码处理,得到输出序列,其中,Transformer模型的自注意力机制中加入高斯偏置GaussianBias;
步骤S500,将输出序列中的向量转换为对应的字符,输出自然场景文字图片中的文本内容。
可选地,步骤S100,对输入的自然场景文字图片进行预处理,包括,
步骤S110,将自然场景文字图片进行等比例缩放,使自然场景文字图片的高度固定为预设像素;
步骤S120,对经缩放的自然场景文字图片进行末尾位置补齐,使自然场景文字图片图像的宽度为4的整数倍。
可选地,步骤S200、步骤S300包括,
步骤S210,将经预处理的自然场景文字图片传入特征提取网络,特征提取网络中,残差注意力模块位于VGG网络的第二层VGG Block2和第四层VGG Block4后面;
步骤S220,将VGG网络最后两个池化层窗口的大小由2×2改为1×2,使自然场景文字图片的高度减半四次,宽度减半两次;将最后的卷积层改为卷积核大小为2×2、元素内边距padding为0的卷积,使得特征图放缩为原来的1/2,即整个特征提取网络将图像的高度缩小为原来的1/32,宽度缩小为原来的1/4;
步骤S230,残差注意力模块包含特征分支和注意力分支,特征分支包含前馈神经网络,将S220中输出的特征图输入特征分支,输出特征分支中的特征图;
注意力分支采用一个自底向上down-sampling unit和自顶向下Up-samplingunit的结构组合,自底向上结构down-sampling unit包括两个下采样单元,自顶向下结构Up-sampling unit包括两个上采样单元;
上步骤得到的特征图依次经过上采样单元、两个1×1卷积层以及一个Sigmoidfunction的处理,得到注意力权重图;
将注意力权重图和特征分支中的特征图进行点积运算,生成经过注意力机制的特征图。
将经过注意力机制的特征图和原特征图相加,得到包含图片文字信息的特征图;
步骤S300,将上步骤得到的最终的特征图进行切片,得到W/4个向量,每个向量的维度为512×1。
可选地,步骤S400包括,
步骤S410,特征序列经过Transformer模块的编码器,编码器包括多头注意力Multi-Head Attention模块和前馈神经网络,其中,头注意力Multi-Head Attention模块中加入高斯偏置,得到输出序列,输出序列包含着每个序列对其他序列的注意力信息;
步骤S420,将上步骤得到的输出序列作为Transformer模块的解码器部分输入,解码器的另一部分输入为当前字符经过词嵌入得到的向量,所有的输入经过解码器生成一个向量;
可选地,加入了高斯偏置后的自注意力机制公式如下:
Figure BDA0002724615840000021
在Transformer的自注意力机制公式中加入了高斯偏置G,G为一个大小为I×I的矩阵,I表示输入序列的长度,G中个元素的值可有如下公式表示:
Figure BDA0002724615840000022
公式中的σi表示向量xi对应高斯函数的标准偏差,其中σi=Di/2,Di是高斯函数的窗口大小;
高斯偏置的函数为一个分段函数,当向量j位于窗口范围内时,函数值为0,在窗口范围以外时再按高斯函数递减;
高斯函数的窗口大小Di由如下求出,其中I为序列的长度,Ud和Wd都是通过训练得到的矩阵。对于每一个多头注意力分支,都使用同样的窗口大小,所以公式中的
Figure BDA0002724615840000031
就是所有多头注意力分支中Qi的平均值。
Di=I·sigmoid(zi)
Figure BDA0002724615840000032
可选地,步骤S500包括,
将输出序列中的向量经过一个全连接网络以及Softmax层,得到概率分布;
通过概率分布,得到当前的预测字符;
该字符经过词嵌入生成的向量会作为下一轮的输入向量输入到解码器,直到最后输出预测出终止字符为止。
本发明提供了一种基于Transformer模型自然场景文字识别方法,在特征提取网络中内加入残差注意力模块,使得特征提取网络可以对特征进行有选择的关注,从而增强文本区域信息,抑制干扰信息,从而缓解自然场景中的图像中的阴影、背景纹理以及噪声等干扰因素对识别结果的影响。,本发明采用完全由注意力机制组成的Transformer模型替代传统的具有循环结构的RNN网络,本发明Transformer模型的具有更好的并行计算的能力,解决了原方法中训练耗时以及难以训练的问题。另外,本发明将高斯偏置加入到Transformer模型的自注意力机制中,解决Transformer模型中的自注意力机制弱于捕获序列中的局部依赖的问题,使得Transformer模型更适用于文字识别任务。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于Transformer模型自然场景文字识别方法的流程图;
图2为本发明特征提取网络的结构图结构图。
具体实施方式
本发明提供一种基于Transformer模型自然场景文字识别方法,用于自然场景图像中的文字识别。
图1为本发明基于Transformer模型自然场景文字识别方法的流程图,如图1所示,本发明的基于Transformer模型自然场景文字识别方法包括,
步骤S100,对输入的自然场景文字图片进行预处理。
本发明中,步骤S100,对输入的自然场景文字图片进行预处理,包括,
步骤S110,将自然场景文字图片进行等比例缩放,使自然场景文字图片的高度固定为预设像素,应当说明,本领域技术人员可根据实际需要调整预设像素大小,例如32、36或40,其均属于本发明的保护范围;
步骤S120,对经缩放的自然场景文字图片进行末尾位置补齐,使自然场景文字图片图像的宽度为4的整数倍。
步骤S200,将经预处理的自然场景文字图片传入特征提取网络,得到包含图片文字信息的特征图,其中,特征提取网络包括VGG网络与残差注意力模块。
本发明中,步骤S200具体包括:
步骤S210,将经预处理的自然场景文字图片传入特征提取网络,特征提取网络中,残差注意力模块位于VGG网络的第二层VGG Block2和第四层VGG Block4后面,如图2所示;
步骤S220,将VGG网络最后两个池化层窗口(VGG Block4与VGG Block5)的大小由2×2改为1×2,使自然场景文字图片的高度减半四次,宽度减半两次;将最后的卷积层改为卷积核大小为2×2、元素内边距padding为0的卷积,使得特征图放缩为原来的1/2,即整个特征提取网络将图像的高度缩小为原来的1/32,宽度缩小为原来的1/4;
步骤S230,残差注意力模块包含特征分支和注意力分支,特征分支包含前馈神经网络,将S220中输出的特征图输入特征分支,输出特征分支中的特征图;
注意力分支采用一个自底向上down-sampling unit和自顶向下Up-samplingunit的结构组合,自底向上结构down-sampling unit包括两个下采样单元,每个下采样单元包含一个最大值池层和卷积层,下采样单元用于增加感受野并获取全局信息;自顶向下结构Up-sampling unit包括两个上采样单元,每个上采样单元包含双线性插值层和卷积层,上采样单元用于恢复分辨率,在下采样单元和上采样单元之间添加了残差连接,以融合不同尺寸的信息;
上步骤得到的特征图依次经过上采样单元、两个1×1卷积层convolution以及一个Sigmoid function的处理,得到注意力权重图;
将注意力权重图和特征分支中的特征图进行点积运算,生成经过注意力机制的特征图;
由于多次的点积运算会使得特征值逐渐变小,造成某些信息的丢失,在此,将经过注意力机制的特征图和原特征图相加,得到包含图片文字信息的特征图。
步骤S300,将得到的特征图进行切片,得到特征序列。
本发明中,步骤S300具体包括,将上步骤得到的最终的特征图进行切片,得到W/4个向量,每个向量的维度为512×1。应当说明,由于特征图的尺寸为512×1×W/4,因此,进行切片后将得到W/4个向量,每个向量的维度为512×1。
步骤S400,将特征序列传入Transformer模型,经过Transformer模型的编码和解码处理,得到输出序列,其中,Transformer模型的自注意力机制中加入高斯偏置GaussianBias。
本发明中,步骤S400具体包括,步骤S410,特征序列经过Transformer模块的编码器,编码器包括多头注意力Multi-Head Attention模块和前馈神经网络,其中,多头注意力Multi-Head Attention模块中加入高斯偏置,得到输出序列,输出序列包含着每个序列对其他序列的注意力信息,应当说明,多头注意力Multi-Head Attention由多个自注意力机制组成;
步骤S420,将上步骤得到的输出序列作为Transformer模块的解码器部分输入,解码器的另一部分输入为当前字符经过词嵌入得到的向量,所有的输入经过解码器生成一个向量。
应当说明,本发明中,加入了高斯偏置后的自注意力机制公式如下:
Figure BDA0002724615840000041
在Transformer的自注意力机制公式中加入了高斯偏置G,G为一个大小为I×I的矩阵,I表示输入序列的长度,G中个元素的值可有如下公式表示:
Figure BDA0002724615840000051
公式中的σi表示向量xi对应高斯函数的标准偏差,其中σi=Di/2,Di是高斯函数的窗口大小。
对于文字识别任务,每个向量只需重点关注其邻近位置的其他向量,所以可以直接以其自身的位置作为中心位置。同时,由于高斯函数的值从其曲线的顶点位置向两边衰减的过快,也就是向量对其自身关注的最多,距离向量越远关注的越少,对于本文任务来说,应当让向量对其邻近位置的其他向量有同样的关注度。因此,高斯偏置的函数为一个分段函数,当向量j位于窗口范围内时,函数值为0,在窗口范围以外时再按高斯函数递减;
高斯函数的窗口大小Di由如下求出,其中I为序列的长度,Ud和Wd都是通过训练得到的矩阵。对于每一个多头注意力分支,都使用同样的窗口大小,所以公式中的
Figure BDA0002724615840000052
就是所有多头注意力分支中Qi的平均值。
Di=I·sigmoid(zi)
Figure BDA0002724615840000053
步骤S500,将输出序列中的向量转换为对应的字符,输出自然场景文字图片中的文本内容。
本发明中,步骤S500具体包括,将输出序列中的向量经过一个全连接网络以及Softmax层,得到概率分布;
通过概率分布,得到当前的预测字符;
该字符经过词嵌入生成的向量会作为下一轮的输入向量输入到解码器,直到最后输出预测出终止字符为止。
本发明提供了一种基于Transformer模型自然场景文字识别方法,在特征提取网络中内加入残差注意力模块,使得特征提取网络可以对特征进行有选择的关注,从而增强文本区域信息,抑制干扰信息,从而缓解自然场景中的图像中的阴影、背景纹理以及噪声等干扰因素对识别结果的影响。,本发明采用完全由注意力机制组成的Transformer模型替代传统的具有循环结构的RNN网络,本发明Transformer模型的具有更好的并行计算的能力,解决了原方法中训练耗时以及难以训练的问题。另外,本发明将高斯偏置加入到Transformer模型的自注意力机制中,解决Transformer模型中的自注意力机制弱于捕获序列中的局部依赖的问题,使得Transformer模型更适用于文字识别任务。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种基于Transformer模型自然场景文字识别方法,其特征在于,包括:
步骤S100,对输入的自然场景文字图片进行预处理;
步骤S200,将经预处理的自然场景文字图片传入特征提取网络,得到包含图片文字信息的特征图,其中,特征提取网络包括VGG网络与残差注意力模块;
步骤S300,将得到的特征图进行切片,得到特征序列;
步骤S400,将特征序列传入Transformer模型,经过Transformer模型的编码和解码处理,得到输出序列,其中,Transformer模型的自注意力机制中加入高斯偏置GaussianBias;
步骤S500,将输出序列中的向量转换为对应的字符,输出自然场景文字图片中的文本内容。
2.根据权利要求1所述的基于Transformer模型自然场景文字识别方法,其特征在于,步骤S100,对输入的自然场景文字图片进行预处理,包括,
步骤S110,将自然场景文字图片进行等比例缩放,使自然场景文字图片的高度固定为预设像素;
步骤S120,对经缩放的自然场景文字图片进行末尾位置补齐,使自然场景文字图片图像的宽度为4的整数倍。
3.根据权利要求1所述的基于Transformer模型自然场景文字识别方法,其特征在于,步骤S200、步骤S300包括,
步骤S210,将经预处理的自然场景文字图片传入特征提取网络,特征提取网络中,残差注意力模块位于VGG网络的第二层VGG Block2和第四层VGG Block4后面;
步骤S220,将VGG网络最后两个池化层窗口的大小由2×2改为1×2,使自然场景文字图片的高度减半四次,宽度减半两次;将最后的卷积层改为卷积核大小为2×2、元素内边距padding为0的卷积,使得特征图放缩为原来的1/2,即整个特征提取网络将图像的高度缩小为原来的1/32,宽度缩小为原来的1/4;
步骤S230,残差注意力模块包含特征分支和注意力分支,特征分支包含前馈神经网络;
注意力分支采用一个自底向上down-sampling unit和自顶向下Up-sampling unit的结构组合,自底向上结构down-sampling unit包括两个下采样单元,自顶向下结构Up-sampling unit包括两个上采样单元;
上步骤得到的特征图依次经过上采样单元、两个1×1卷积层以及一个Sigmoidfunction的处理,得到注意力权重图;
将注意力权重图和特征分支中的特征图进行点积运算,生成经过注意力机制的特征图。
将经过注意力机制的特征图和原特征图相加,得到包含图片文字信息的特征图;
步骤S300,将上步骤得到的最终的特征图进行切片,得到W/4个向量,每个向量的维度为512×1。
4.根据权利要求1所述的基于Transformer模型自然场景文字识别方法,其特征在于,步骤S400包括,
步骤S410,特征序列经过Transformer模块的编码器,编码器包括多头注意力Multi-Head Attention模块和前馈神经网络,其中,头注意力Multi-Head Attention模块中加入高斯偏置,得到输出序列,输出序列包含着每个序列对其他序列的注意力信息;
步骤S420,将上步骤得到的输出序列作为Transformer模块的解码器部分输入,解码器的另一部分输入为当前字符经过词嵌入得到的向量,所有的输入经过解码器生成一个向量。
5.根据权利要求4所述的基于Transformer模型自然场景文字识别方法,其特征在于,加入了高斯偏置后的自注意力机制公式如下:
Figure FDA0002724615830000021
在Transformer的自注意力机制公式中加入了高斯偏置G,G为一个大小为I×I的矩阵,I表示输入序列的长度,G中个元素的值可有如下公式表示:
Figure FDA0002724615830000022
公式中的σi表示向量xi对应高斯函数的标准偏差,其中σi=Di/2,Di是高斯函数的窗口大小;
高斯偏置的函数为一个分段函数,当向量j位于窗口范围内时,函数值为0,在窗口范围以外时再按高斯函数递减;
高斯函数的窗口大小Di由如下求出,其中I为序列的长度,Ud和Wd都是通过训练得到的矩阵。对于每一个多头注意力分支,都使用同样的窗口大小,所以公式中的
Figure FDA0002724615830000023
就是所有多头注意力分支中Qi的平均值。
Di=I·sigmoid(zi)
Figure FDA0002724615830000024
6.根据权利要求4所述的基于Transformer模型自然场景文字识别方法,其特征在于,步骤S500包括,
将输出序列中的向量经过一个全连接网络以及Softmax层,得到概率分布;
通过概率分布,得到当前的预测字符;
该字符经过词嵌入生成的向量会作为下一轮的输入向量输入到解码器,直到最后输出预测出终止字符为止。
CN202011098711.9A 2020-10-14 2020-10-14 一种基于Transformer模型自然场景文字识别方法 Active CN112149619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011098711.9A CN112149619B (zh) 2020-10-14 2020-10-14 一种基于Transformer模型自然场景文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011098711.9A CN112149619B (zh) 2020-10-14 2020-10-14 一种基于Transformer模型自然场景文字识别方法

Publications (2)

Publication Number Publication Date
CN112149619A true CN112149619A (zh) 2020-12-29
CN112149619B CN112149619B (zh) 2024-03-15

Family

ID=73951832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011098711.9A Active CN112149619B (zh) 2020-10-14 2020-10-14 一种基于Transformer模型自然场景文字识别方法

Country Status (1)

Country Link
CN (1) CN112149619B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801103A (zh) * 2021-01-19 2021-05-14 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN112883964A (zh) * 2021-02-07 2021-06-01 河海大学 一种自然场景文字检测的方法
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN113139470A (zh) * 2021-04-25 2021-07-20 安徽工业大学 一种基于Transformer的玻璃识别方法
CN113221874A (zh) * 2021-06-09 2021-08-06 上海交通大学 基于Gabor卷积和线性稀疏注意力的文字识别系统
CN113673594A (zh) * 2021-08-18 2021-11-19 浙江工商大学 一种基于深度学习网络的瑕疵点识别方法
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法
US11615523B2 (en) 2021-08-18 2023-03-28 Zhejiang Gongshang University Methods for recognizing small targets based on deep learning networks
WO2023018785A3 (en) * 2021-08-11 2023-04-06 Histowiz, Inc. Systems and methods for automated tagging of digital histology slides
CN115936979A (zh) * 2023-01-09 2023-04-07 珠海金智维信息科技有限公司 一种端到端的文本图像合成和识别的方法及系统
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN110634101A (zh) * 2019-09-06 2019-12-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111507210A (zh) * 2020-03-31 2020-08-07 华为技术有限公司 交通信号灯的识别方法、系统、计算设备和智能车

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN108399419A (zh) * 2018-01-25 2018-08-14 华南理工大学 基于二维递归网络的自然场景图像中中文文本识别方法
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN110634101A (zh) * 2019-09-06 2019-12-31 温州大学 一种基于随机重构的无监督图像到图像的转换方法
CN110765966A (zh) * 2019-10-30 2020-02-07 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111507210A (zh) * 2020-03-31 2020-08-07 华为技术有限公司 交通信号灯的识别方法、系统、计算设备和智能车

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AICHEN WANG 等: "Semantic segmentation of crop and weed using an encoder-decoder network and image enhancement method under uncontrolled outdoor illumination", 《IEEE》, pages 81724 - 81734 *
BAOSONG YANG 等: "Modeling Localness for Self-Attention Networks", 《ARXIV:1810.10182V1》, pages 1 - 10 *
LAYGIN: "基于transformer的文本识别方法", pages 2, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/142886134》> *
MAOSHENG GUO 等: "Gaussian Transformer: A Lightweight Approach for Natural Language Inference", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 6489 - 6496 *
段建勇 等: "基于Transformer局部信息及语法增强架构的中文拼写纠错方法", 《北京大学学报(自然科学版)》, pages 1 - 10 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801103A (zh) * 2021-01-19 2021-05-14 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN112801103B (zh) * 2021-01-19 2024-02-27 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN112883964A (zh) * 2021-02-07 2021-06-01 河海大学 一种自然场景文字检测的方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN113066028B (zh) * 2021-03-31 2022-07-22 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法
CN113139470A (zh) * 2021-04-25 2021-07-20 安徽工业大学 一种基于Transformer的玻璃识别方法
CN113221874A (zh) * 2021-06-09 2021-08-06 上海交通大学 基于Gabor卷积和线性稀疏注意力的文字识别系统
US11900703B2 (en) 2021-08-11 2024-02-13 Histowiz, Inc. Systems and methods for automated tagging of digital histology slides
WO2023018785A3 (en) * 2021-08-11 2023-04-06 Histowiz, Inc. Systems and methods for automated tagging of digital histology slides
CN113673594A (zh) * 2021-08-18 2021-11-19 浙江工商大学 一种基于深度学习网络的瑕疵点识别方法
US11615523B2 (en) 2021-08-18 2023-03-28 Zhejiang Gongshang University Methods for recognizing small targets based on deep learning networks
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法
WO2023221422A1 (zh) * 2022-05-18 2023-11-23 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法
CN115936979A (zh) * 2023-01-09 2023-04-07 珠海金智维信息科技有限公司 一种端到端的文本图像合成和识别的方法及系统
CN116503880B (zh) * 2023-06-29 2023-10-31 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统

Also Published As

Publication number Publication date
CN112149619B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112149619B (zh) 一种基于Transformer模型自然场景文字识别方法
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
CN108960143B (zh) 一种高分辨率可见光遥感图像中的舰船检测深度学习方法
US11069047B2 (en) Image processing method, image processing apparatus, computing device and computer-readable storage medium
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112446383B (zh) 车牌识别方法及装置、存储介质、终端
CN112183545B (zh) 一种任意形状的自然场景文本识别方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN113343707A (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN113221874A (zh) 基于Gabor卷积和线性稀疏注意力的文字识别系统
CN112633220B (zh) 一种基于双向序列化建模的人体姿态估计方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN111160348A (zh) 自然场景的文本识别方法、存储装置和计算机设备
CN113298716B (zh) 基于卷积神经网络的图像超分辨率重建方法
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN115496928A (zh) 基于多重特征匹配的多模态图像特征匹配方法
CN113688822A (zh) 一种时序注意力机制场景图像识别方法
CN113435436A (zh) 一种基于线性约束矫正网络的场景文字识别方法
CN114255456A (zh) 基于注意力机制特征融合与增强的自然场景文本检测方法和系统
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN116168394A (zh) 图像文本识别方法和装置
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant