CN111428727A - 基于序列变换纠正及注意力机制的自然场景文本识别方法 - Google Patents

基于序列变换纠正及注意力机制的自然场景文本识别方法 Download PDF

Info

Publication number
CN111428727A
CN111428727A CN202010227200.6A CN202010227200A CN111428727A CN 111428727 A CN111428727 A CN 111428727A CN 202010227200 A CN202010227200 A CN 202010227200A CN 111428727 A CN111428727 A CN 111428727A
Authority
CN
China
Prior art keywords
network
recognition
attention mechanism
attention
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010227200.6A
Other languages
English (en)
Other versions
CN111428727B (zh
Inventor
林庆祥
金连文
罗灿杰
赖松轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010227200.6A priority Critical patent/CN111428727B/zh
Publication of CN111428727A publication Critical patent/CN111428727A/zh
Application granted granted Critical
Publication of CN111428727B publication Critical patent/CN111428727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括数据获取、数据处理、标签制作、训练网络、测试网络;所述训练网络包括:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器。本发明极大降低了识别模型的识别难度,识别准确率高、鲁棒性强,针对形状不规则的文本具有很好的识别性能。

Description

基于序列变换纠正及注意力机制的自然场景文本识别方法
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种基于序列变换纠正及注意力机制的自然场景文本识别方法。
背景技术
文字作为信息的载体,从古至今一直有着广泛的应用。通过文字的呈现,让人类能更加准确地理解和处理通过视觉所获得的信息,促进人与人之间的信息交流。随着计算机技术的飞速发展,人工智能技术正在逐渐改变人们的生活,人们希望能够通过计算机来高效地理解和处理图像,而文字信息对于图像理解至关重要。因此,自然场景文本识别一直是一个有意义且备受关注的研究方向。
相比于文档图像识别任务来说,在自然场景中文字经常会呈现各种各样的形变,例如旋转、透射变形,弯曲等形变,且自然场景文本形变复杂多样,没有规律,很难用一个数学变换来模拟,这给自然场景文本识别系统造成很大的挑战。
因此,目前亟需一种针对不规则自然场景文本数据集,能够有效提升识别准确率的文本识别方法。
发明内容
本发明的目的是提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法,以解决上述现有技术存在的问题,能够有效提高自然场景文本的识别精度。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括如下步骤:
数据获取:获取训练集和测试集样本;
数据处理:对训练集和测试集图片进行缩放处理;
标签制作:对训练集图片进行加标签处理;
训练网络:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;
所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器;
测试网络:输入测试数据到已训练完成的识别网络中,得到图片中文本行的识别结果。
优选地,所述序列变换纠正器还包括缩放层、网格映射模块,所述序列变换纠正器进行图片纠正的方法包括:
通过缩放层、卷积层、非线性层和池化层得到待纠正图片的特征图;
通过分解层将特征图在水平方向分解成互不相交的N个图像块,并将每个图像块的特征输入到定位网络,通过定位网络预测每个图像块的变换参数;
将每个图像块的变换参数均输入到网格映射模块,得到一个平滑的采样网格;
使用采样网格在原始待纠正图片上通过双线性插值采样得到纠正后的图片。
优选地,所述卷积层还能进行补边,所述补边的具体方法包括:在原始图片或特征图的上下左右均贴上一圈像素点,所述像素点的像素值为0。
优选地,所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元,用于将图片数据转换成具有上下文关联信息的时间序列特征。
优选地,所述基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别图片中的每个字符,具体识别方法包括:
基于注意力机制的解码器根据特征编码网络输出的时间序列特征以及长短时记忆网络上一个时间点的隐藏状态,计算注意力权重矩阵;
对注意力权重矩阵做归一化处理,得到注意力权重矩阵的概率分布;
根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理,得到当前时刻的关注特征;
根据当前时刻的关注特征,并结合上一时刻的字符预测概率分布更新长短时记忆网络的隐藏状态;
通过全连接层进行解码,并将解码结果送入softmax层进行概率归一化,得到预测字符的概率分布;
选取概率分布中置信度最大的值所对应的字符作为当前解码输出字符,完成图片中字符的识别。
优选地,识别网络训练包括:
将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵,使用自适应梯度下降法最小化交叉熵损失。
优选地,所述识别网络中的权值参数通过随机高斯分布初始方法进行初始化。
本发明公开了以下技术效果:
(1)由于采用深度网络结构的自动学习算法,能够很好的从数据中学习到有效的表达,提高识别的准确率。
(2)本发明采用端到端的网络设计,通过弱监督的训练方式,利用识别模型回传的具有物理意义的梯度信息,对纠正网络进行有效的指导,在实际应用中大大降低了识别模型的识别难度,提高了识别准确率。
(3)本发明方法在纠正器设计中引入分解的思想,通过将不规则文本图片进行分解,使得分解后的每个图像块具有较小的形变,大大降低了不规则文本的纠正难度,并在纠正网络中设计了一个网格映射模块来保证整个纠正过程是平滑的,使得整个纠正变换过程灵活高效、能够对不规则文本起到很好的纠正作用,识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文本识别方法流程图;
图2为本发明文本识别方法整体结构示意图;
图3为本发明序列变换纠正器网络结构图;
图4为本发明实施例中验证结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1-3所示,本实施例提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括如下步骤:
S1、数据获取:获取训练集和测试集样本;
使用开源代码以及从互联网上获取的文本语料合成自然场景文本行图片,作为训练集;使用公开的自然场景文本识别数据集作为测试集;将每张图片保存在对应的文件夹中。
S2、数据处理:
首先,对训练集和测试集图片进行缩放处理,处理后图片大小为64*192;
其次,将训练集和测试集所有图片均制作成LMDB(闪电内存映射数据库,Lightning Memory-Mapped Database)格式的文件,以提高图片读取速度。
S3、标签的制作:
本发明采用有监督的方法来训练识别网络,因此,对训练集图片进行加标签处理,标签形式为每张文本行图片对应的文本内容。
S4、训练网络:构建识别网络,所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;具体包括:
S4.1、搭建序列变换纠正器;本实施例序列变换纠正器的网络结构和参数设置如表1所示;
表1
Figure BDA0002428112100000061
Figure BDA0002428112100000071
其中,表1中卷积层补边的具体方法包括:在原始图片或特征图片上下左右均贴上一圈像素点,其像素点的像素值为0;非线性层采用ReLU激活函数;池化层采用最大值池化方式。
序列变换纠正器的缩放层通过对图片进行缩小操作,有效地提升了网络感受野,减少了计算量,避免了大量噪音的输入,提高了模块的鲁棒性。
序列变换纠正器进行图片纠正的方法包括如下步骤:
首先,将图片输入序列变换纠正器,通过表1中的缩放层、卷积层、非线性层和池化层后得到大小为4*12的特征图。
其次,通过分解层将特征图在水平方向分解成互不相交的N个图像块,并将每个图像块的特征输入到由两个全连接层组成的定位网络中,通过定位网络预测每个图像块的变换参数,如式(1)所示:
Figure BDA0002428112100000081
其中,θ表示神经网络的参数,patchi表示第i个图像块,i∈[1,N],T(patchi|θ)表示将第i个图像块的特征输入到定位网络中得到变换参数。
再次,将每个图像块的变换参数均输入到网格映射模块,得到一个平滑的采样网格,具体过程如下:
假设序列变换纠正器输入图像块的高度和宽度分别为Hi,Wi,经序列变换纠正器纠正后,输出图像块的高度和宽度分别为Ho,Wo
计算采样网格上的坐标位置(xo,yo)属于第几个图像块,如式(2)所示:
Figure BDA0002428112100000082
将采样网格上的坐标位置(xo,yo)映射到隐藏网格中,得到坐标(xh,yh),映射计算过程如式(3)所示:
Figure BDA0002428112100000091
其中,n、m分别表示隐藏网格中每个分块网格的宽度和高度;
通过双线性插值方式平滑地将隐藏网格中的坐标(xh,yh)映射到输入图像块网格中的坐标位置(xi,yi),映射计算过程如式(4)所示:
Figure BDA0002428112100000092
综上,整个网格映射过程表示为:(xi,yi)=P(xo,yo)
其中,P表示网格映射函数,综合式(3)、式(4),网格映射函数P如式(5)所示:
Figure BDA0002428112100000093
最后,使用采样网格在原始输入图片上通过双线性插值采样得到纠正后的图片,采样计算过程如式(6)所示:
Figure BDA0002428112100000094
其中,
Figure BDA0002428112100000095
表示输出图片中位置(xo,yo)处的像素值,I(u,v)表示输入图片中位置(u,v)处的像素值。
以上变换过程都是可导的,这就保证了序列变换纠正器可以通过梯度下降算法来更新优化参数。
S4.2、搭建基于注意力机制的文本识别器
首先,构建以卷积神经网络和长短时记忆网络作为基本单元的特征编码网络,用来将图片数据转换成具有上下文关联信息的时间序列特征。
卷积神经网络的结构为:输入(32*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2,其中,pCq中,p代表的是卷积的输出通道数,q为卷积核大小,C代表为卷积层,例如64C3表示卷积核大小为3,输出通道数为64的卷积层;MPef中,e,f分别代表最大池化层的宽高、步长,MP代表最大池化层,例如MP22表示宽高、步长均为2的最大池化层。
输入图片经过卷积神经网络之后得到高度为1的特征,将该特征输入到由两层双向长短时记忆层(Bidirectional Long-short Term Memory Layer,BLSTM)组成的BLSTM网络中,提取具有上下文关联的时间序列特征。
其次,将特征编码网络编码得到的时间序列特征H=[h1,h2,…,hL]输入基于注意力机制的解码器得到字符预测结果,其中,L表示时间序列特征的长度。基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别每个字符,具体流程如下:
在时间点t,基于注意力机制的解码器根据特征编码网络编码得到的时间序列特征H以及长短时记忆网络上一个时间点的隐藏状态st-1计算注意力权重矩阵et,如式(7)所示:
et,j=wTTanh(Wsst-1+Whhj+b)…………………(7)
其中,w,Ws,Wh和b均表示可训练参数,Tanh表示激活函数,j表示时间序列的序号,j∈[1,L];
对注意力权重矩阵et做归一化处理,得到注意力权重矩阵的概率分布at,如式(8)所示:
Figure BDA0002428112100000111
根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理,得到当前时刻的关注特征gt,计算如下:
Figure BDA0002428112100000112
根据当前时刻的关注特征,并结合上一时刻的字符预测概率分布yt-1更新长短时记忆网络的隐藏状态,如式(10)所示:
st=LSTM(yt-1,gt,st-1)………………………(10);
通过一个全连接层进行解码,并将解码结果送入softmax归一化层进行概率归一化,得到预测字符的概率分布yt,如式(11)所示:
yt=Softmax(Ust+d)………………………(11)
其中,U、d均表示可训练参数;
选取yt中置信度最大的值所对应的字符作为当前解码输出字符。
S4.3、训练参数设定:
将训练数据送入网络训练,让网络遍历训练数据集10次,其中读入批次大小设置为64,基于注意力机制的文本识别器的初始学习率设置为1,序列变换纠正器的初始学习率设置为0.1,之后在遍历数据集6次和8次时将整个网络的学习率下降10倍。
优化算法采用自适应的梯度下降法,损失函数L如式(12)所示:
Figure BDA0002428112100000121
其中,B表示本批次优化所用到的数据量,
Figure BDA0002428112100000122
表示在第a时刻由第b个样本图片输出字符
Figure BDA0002428112100000123
的概率;Tb表示第b个样本字符串标签的长度。
S4.4、识别网络权值初始化:所有网络中的权值参数在训练初始时通过随机高斯分布初始方法进行初始化。
S4.5、识别网络训练:将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵,使用自适应梯度下降法最小化交叉熵损失,即损失函数最小。通过基于注意力机制的文本识别器指导序列变换纠正器的训练,实现了识别网络训练过程的弱监督,有效提高了不规则自然场景文本数据识别的准确性。
S5、测试网络:输入测试数据到已训练完成的网络中,最后得到图片中文本行的识别结果;具体包括如下步骤:
S5.1、输入测试集样本,使用贪心算法选择置信度最高的字符作为预测字符,并将这些字符串起来得到最终预测的文本行;
S5.2、识别完成后,根据识别出的文本行结果与标注好的标签进行对比,计算行识别准确率和编辑距离。
为了进一步验证本发明文本识别方法的有效性和鲁棒性,本实施例选取一张64*192大小的图片,纠正结果及识别结果如图4所示;通过图4可得,输入图片经过纠正器处理后文本呈规则排布,使得识别器能够准确识别出图片中的文本,本发明文本识别方法具有极高的鲁棒性和有效性。
本发明基于序列变换纠正及注意力机制的自然场景文本识别方法,通过对不规则文本进行纠正来降低后续识别器的识别难度;在训练中采用弱监督的方式,通过识别模型来指导纠正网络的训练,在训练过程中没有使用任何的位置坐标标签。
同时,本发明在设计纠正网络时引入了分解的思想,通过将不规则文本图片进行分解,使得分解后的每个图像块具有较小的形变,大大降低不规则文本的纠正难度;本发明还在纠正网络中设计了一个网格映射模块来保证整个纠正过程是平滑的;本发明在识别网络设计中使用了基于注意力机制的识别算法,能够有效提升自然场景文本识别的准确率,特别是在不规则自然场景文本数据集提升效果显著。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,包括如下步骤:
数据获取:获取训练集和测试集样本;
数据处理:对训练集和测试集图片进行缩放处理;
标签制作:对训练集图片进行加标签处理;
训练网络:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;
所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器;
测试网络:输入测试数据到已训练完成的识别网络中,得到图片中文本行的识别结果。
2.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述序列变换纠正器还包括缩放层、网格映射模块,所述序列变换纠正器进行图片纠正的方法包括:
通过缩放层、卷积层、非线性层和池化层得到待纠正图片的特征图;
通过分解层将特征图在水平方向分解成互不相交的N个图像块,并将每个图像块的特征输入到定位网络,通过定位网络预测每个图像块的变换参数;
将每个图像块的变换参数均输入到网格映射模块,得到一个平滑的采样网格;
使用采样网格在原始待纠正图片上通过双线性插值采样得到纠正后的图片。
3.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述卷积层还能进行补边,所述补边的具体方法包括:在原始图片或特征图的上下左右均贴上一圈像素点,所述像素点的像素值为0。
4.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元,用于将图片数据转换成具有上下文关联信息的时间序列特征。
5.根据权利要求4所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别图片中的每个字符,具体识别方法包括:
基于注意力机制的解码器根据特征编码网络输出的时间序列特征以及长短时记忆网络上一个时间点的隐藏状态,计算注意力权重矩阵;
对注意力权重矩阵做归一化处理,得到注意力权重矩阵的概率分布;
根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理,得到当前时刻的关注特征;
根据当前时刻的关注特征,并结合上一时刻的字符预测概率分布更新长短时记忆网络的隐藏状态;
通过全连接层进行解码,并将解码结果送入softmax层进行概率归一化,得到预测字符的概率分布;
选取概率分布中置信度最大的值所对应的字符作为当前解码输出字符,完成图片中字符的识别。
6.根据权利要求5所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,识别网络训练包括:
将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵,使用自适应梯度下降法最小化交叉熵损失。
7.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述识别网络中的权值参数通过随机高斯分布初始方法进行初始化。
CN202010227200.6A 2020-03-27 2020-03-27 基于序列变换纠正及注意力机制的自然场景文本识别方法 Active CN111428727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010227200.6A CN111428727B (zh) 2020-03-27 2020-03-27 基于序列变换纠正及注意力机制的自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010227200.6A CN111428727B (zh) 2020-03-27 2020-03-27 基于序列变换纠正及注意力机制的自然场景文本识别方法

Publications (2)

Publication Number Publication Date
CN111428727A true CN111428727A (zh) 2020-07-17
CN111428727B CN111428727B (zh) 2023-04-07

Family

ID=71548940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010227200.6A Active CN111428727B (zh) 2020-03-27 2020-03-27 基于序列变换纠正及注意力机制的自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN111428727B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070114A (zh) * 2020-08-03 2020-12-11 中国科学院信息工程研究所 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112784841A (zh) * 2021-02-26 2021-05-11 北京市商汤科技开发有限公司 文本识别方法及装置
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN113705713A (zh) * 2021-09-03 2021-11-26 华南理工大学 一种基于全局和局部注意力机制的文本识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070114A (zh) * 2020-08-03 2020-12-11 中国科学院信息工程研究所 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN112070114B (zh) * 2020-08-03 2023-05-16 中国科学院信息工程研究所 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112784841A (zh) * 2021-02-26 2021-05-11 北京市商汤科技开发有限公司 文本识别方法及装置
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN113705713A (zh) * 2021-09-03 2021-11-26 华南理工大学 一种基于全局和局部注意力机制的文本识别方法
CN113705713B (zh) * 2021-09-03 2023-08-22 华南理工大学 一种基于全局和局部注意力机制的文本识别方法

Also Published As

Publication number Publication date
CN111428727B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN110378334B (zh) 一种基于二维特征注意力机制的自然场景文本识别方法
CN110414498B (zh) 一种基于交叉注意力机制的自然场景文本识别方法
CN107644006B (zh) 一种基于深度神经网络的手写体中文字库自动生成方法
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN109726657B (zh) 一种深度学习场景文本序列识别方法
CN110427938A (zh) 一种基于深度学习的不规则文字识别装置和方法
CN111967470A (zh) 一种基于解耦注意力机制的文本识别方法及系统
CN113343707A (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN111967471A (zh) 一种基于多尺度特征的场景文本识别方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN111553350B (zh) 一种基于深度学习的注意力机制文本识别方法
CN113807340B (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN113435436A (zh) 一种基于线性约束矫正网络的场景文字识别方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN115132201A (zh) 唇语识别方法、计算机设备及存储介质
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN110659641B (zh) 一种文字识别的方法、装置及电子设备
AU2021100480A4 (en) Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism
CN116110059A (zh) 一种基于深度学习的离线手写数学公式识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant