CN113705713A - 一种基于全局和局部注意力机制的文本识别方法 - Google Patents
一种基于全局和局部注意力机制的文本识别方法 Download PDFInfo
- Publication number
- CN113705713A CN113705713A CN202111029998.4A CN202111029998A CN113705713A CN 113705713 A CN113705713 A CN 113705713A CN 202111029998 A CN202111029998 A CN 202111029998A CN 113705713 A CN113705713 A CN 113705713A
- Authority
- CN
- China
- Prior art keywords
- text
- global
- training
- network
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于全局和局部注意力机制的文本识别方法,具体包括如下步骤:使用合成数据以及公开的真实文本行作为训练数据,使用真实场景下采集的文本行作为测试数据;对所有训练和测试样本进行数据预处理;采用有监督的方法训练识别模型,每个文本行都有对应的文本信息;采用卷积层和自注意力层等结构设计识别网络;将训练数据和标签输入到识别网络中进行训练;输入测试数据到训练完成的网络中,得到识别结果。本发明利用全局和局部注意力网络实现文本行识别,能够识别各种场景下复杂多样的联机和脱机文本,并在各个公开的数据集上达到了较高的准确率,具有极高的实用性和应用价值。
Description
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种基于全局和局部注意力机制的文本识别方法。
背景技术
随着计算机技术的迅猛发展,人工智能技术也成为生产和生活中不可缺少的驱动力。近年来,深度学习技术的进步和相关硬件的发展,使得深度神经网络的实际应用成为可能。
文本在日常生活中随处可见,是信息传递的载体。人类从视觉中获得的信息,大部分来自于文本。同时,文本也是人类文明和知识传承的载体。因而,如何自动地从文本图片或者联机笔迹中识别出文本信息成为一项具有极大价值和意义的研究。但是,文本识别中存在很多难点。首先,复杂多样的背景使得识别模型受到极大的干扰。其次,多种多样的书写风格和印刷体风格对识别模型的鲁棒性提出了极大的挑战。最后,字符种类较多(例如中文)和不同种类间的样本数量不平衡问题增加了模型训练的难度。设计一种高效准确的文本识别方法势在必行。
随着深度学习的兴起,学者们已经提出了一些行之有效的文本识别方法。对于脱机文本行图片,通常采用卷积神经网络提取特征。在提取的特征的基础上,采用循环神经网络结合注意力机制或CTC解码得到识别结果。对于联机笔迹,通常采用转为脱机特征或直接使用循环神经网络处理。但是这些方法在建模全局关系和模型前向速度上存在弱点。
因此,亟需一种基于全局和局部注意力机制的文本识别方法来保证模型前向时的并行性成为现今需要解决的问题。
发明内容
本发明的目的是提供一种基于全局和局部注意力机制的文本识别方法,通过有效地、交替地建模全局和局部注意力来提取特征,同时保证了模型前向时的并行性,极大地提高了效率。
为实现上述目的,本发明提供一种基于全局和局部注意力机制的文本识别方法,包括以下步骤:
S1、将合成文本行和公开文本行作为训练样本;将真实场景下采集的文本行作为测试样本;
S2、对所述训练样本和所述测试样本进行预处理;
S3、基于预处理后的训练样本,确定训练标签;
S4、采用卷积层和自注意力层结构构建识别网络;
S5、将预处理后的训练样本输入到所述识别网络中进行训练,结合所述训练标签,并采用CTC损失进行网络优化,得到训练好的识别网络;
S6、将预处理后的测试样本输入到所述训练好的识别网络中,输出文本识别结果。
优选地,所述S2包括:
S2.1、在保持宽高比固定的情况下,将所述训练样本和所述测试样本中的脱机文本图片高度归一化为128个像素,得到预处理后的图片;
S2.2、将所述训练样本和所述测试样本中的联机文本的联机笔迹旋转为水平状态,再对水平状态的联机笔迹进行特征提取,得到预处理后的笔迹特征。
优选地,所述S2.2包括:
S2.21、将所述联机笔迹中的所有点通过线性回归得到一条直线;
S2.22、计算直线的斜率,并通过所述斜率得到所述联机笔迹的倾斜角度θ;
S2.23、将所述联机笔迹顺指针旋转θ角到水平位置,得到旋转后的联机笔迹;
S2.24、基于所述旋转后的联机笔迹,得到多维的笔迹特征。
优选地,所述S3包括:
S3.1、对于预处理后的训练样本中的公开文本行,直接记录文本标签;
S3.2、对于预处理后的训练样本中的合成文本行,记录合成数据时返回的文本标签。
优选地,所述S4包括:
S4.1、构建全局和局部注意力模块;
S4.2、基于所述S4.1,通过分类器构建识别网络。
优选地,所述S4.1包括:
S4.11、基于训练样本的输入特征,通过卷积层提取局部特征;
S4.12、基于所述局部特征,通过多头自注意力机制建模全局特征;
S4.13、所述多头自注意力机制建模全局特征通过FNN两层全连接层网络和LayerNorm层归一化操作,得到中间特征;所述中间特征再通过卷积二次提取局部特征,得到全局和局部注意力模块。
优选地,所述S4.2包括:
通过若干个串联的所述S4.1中的全局和局部注意力模块进行特征提取,得到一维特征;基于所述一维特征,通过分类器输出分类概率,从而构建出识别网络。
优选地,所述S5包括:
S5.1、对所述识别网络进行参数设置,并将预处理后的训练样本输入到所述识别网络中进行训练;
S5.2、基于所述分类概率和所述训练标签,通过CTC方法计算识别网络损失,通过自适应的梯度下降法优化网络参数,得到训练好的识别网络。
优选地,所述识别网络采用有监督方法来训练识别网络。
优选地,所述S6包括:
将预处理后的测试样本输入到所述训练好的识别网络中,输出分类概率;基于所述分类概率,得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
与现有技术相比,本发明具有以下技术效果:
(1)本发明采用基于全局和局部注意力机制的特征提取方法,可以有效地建模输入数据的全局和局部关联,提升特征的表征能力。
(2)本发明采用可以并行计算的模块,摒弃了循环神经网络等结构,大大提升了模型的前向速度。
(3)本发明识别准确率高、鲁棒性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的数据处理流程图;
图3为本发明实施例的文本识别流程图;
图4为本发明实施例的通道数为nc的全局和局部注意力模块的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
参照图1所示,本发明提出一种基于全局和局部注意力机制的文本识别方法,具体包括以下步骤:
S1、数据获取:将合成文本行和公开的真实文本行作为训练样本数据,将真实场景下采集的文本行作为测试样本数据。
其中,合成数据为边训练边合成。
S2、数据处理:对训练样本和测试样本进行数据预处理操作,参照图2所示。
其中,训练样本和测试样本中均包括脱机文本和联机文本;对于脱机文本,在保持宽高比的同时,将脱机文本图片高度归一化为128个像素,记为图片I;
对于联机文本,将联机笔迹旋转为水平,再进行特征提取操作,具体为:
联机笔迹S为多个点的坐标组成的序列,针对所有点的(x,y)坐标,通过线性回归得到一条直线;接着通过该直线的斜率得到文本的倾斜角度θ;然后再将联机笔迹S顺时针旋转θ角到水平位置,得到旋转后的联机笔迹S1,其表达式为:
S1={(xi,yi,si)|1≤i≤N}
其中,si为当前点所属笔画的序号,(xi,yi)为当前点的坐标,N为点的总数量。
基于联机笔迹S1,得到6维的笔迹特征序列F,如下:
F={(xi,yi,xi+1-xi,yi+1-yi,si+1=si,si+1≠si)|1≤i≤N-1}
S3、标签制作:由于本发明采用有监督方法来训练识别模型,所以每个训练文本行都有对应的文本信息。对于公开文本行数据集,直接读取其记录的文本标签;对于合成的文本行,合成数据的同时会返回对应的文本行标签。
其中,使用公开的文本语料和单字数据,合成联机和脱机文本行,在合成的同时返回标签信息;对于公开文本行数据集,读取其记录的文本行标签。
S4、网络设计:采用卷积层和自注意力层等结构构建识别网络,以交替地提取输入文本行的全局和局部特征,参照图4所示,具体为:
S4.1、构建全局和局部注意力模块。
首先,对于输入特征f1,通过卷积层提取局部特征f2:
f2=Conv(f1)
其中,Conv表示卷积操作。
接着,对于局部特征f2,通过多头自注意力机制建模全局特征f3,其表达式为:
f3=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo
然后,对于特征f3,进行如下操作:
f4=LayerNorm(f3+f2)
f5=LayerNorm(FFN(f4)+f4)
其中,LayerNorm为层归一化操作(Layer Normalization),FFN为两层全连接层组成的网络。
最后,对于特征f5,再次通过卷积提取局部特征:
f6=Conv(f5)
上述操作共同组成一个全局和局部注意力模块。
S4.2、构建识别网络。识别网络由多个全局和局部注意力模块和分类器组成。
pcls=Softmax(fclsWcls+bcls
最后,通过分类概率pcls得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
S5、训练网络:把准备好的训练数据及标签输入到识别网络中训练。采用Connectionist Temporal Classification(CTC)损失进行网络优化。
S5.1、训练参数设定:对所述识别网络进行参数设置,将训练样本数据送入识别网络训练,学习率为0.0001,每次迭代送入32条数据,其中50%为真实数据,50%为合成数据。
S5.2、训练卷积神经网络:结合分类概率pcls和文本标签,通过CTC方法计算网络损失,通过自适应的梯度下降法(AdamW)优化网络参数。
S6、输入测试数据到训练完成的网络中,得到识别结果,参照图3所示,把测试集中的图片以及标签输入到已训练好的识别网络中,进行识别测试。识别完成后,程序计算准确率。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.一种基于全局和局部注意力机制的文本识别方法,其特征在于,包括以下步骤:
S1、将合成文本行和公开文本行作为训练样本;将真实场景下采集的文本行作为测试样本;
S2、对所述训练样本和所述测试样本进行预处理;
S3、基于预处理后的训练样本,确定训练标签;
S4、采用卷积层和自注意力层结构构建识别网络;
S5、将预处理后的训练样本输入到所述识别网络中进行训练,结合所述训练标签,并采用CTC损失进行网络优化,得到训练好的识别网络;
S6、将预处理后的测试样本输入到所述训练好的识别网络中,输出文本识别结果。
2.根据权利要求1所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S2包括:
S2.1、在保持宽高比固定的情况下,将所述训练样本和所述测试样本中的脱机文本图片高度归一化为128个像素,得到预处理后的图片;
S2.2、将所述训练样本和所述测试样本中的联机文本的联机笔迹旋转为水平状态,再对水平状态的联机笔迹进行特征提取,得到预处理后的笔迹特征。
3.根据权利要求2所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S2.2包括:
S2.21、将所述联机笔迹中的所有点通过线性回归得到一条直线;
S2.22、计算直线的斜率,并通过所述斜率得到所述联机笔迹的倾斜角度θ;
S2.23、将所述联机笔迹顺指针旋转θ角到水平位置,得到旋转后的联机笔迹;
S2.24、基于所述旋转后的联机笔迹,得到多维的笔迹特征。
4.根据权利要求2所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S3包括:
S3.1、对于预处理后的训练样本中的公开文本行,直接记录文本标签;
S3.2、对于预处理后的训练样本中的合成文本行,记录合成数据时返回的文本标签。
5.根据权利要求1所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4包括:
S4.1、构建全局和局部注意力模块;
S4.2、基于所述S4.1,通过分类器构建识别网络。
6.根据权利要求5所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4.1包括:
S4.11、基于训练样本的输入特征,通过卷积层提取局部特征;
S4.12、基于所述局部特征,通过多头自注意力机制建模全局特征;
S4.13、所述多头自注意力机制建模全局特征通过FNN两层全连接层网络和LayerNorm层归一化操作,得到中间特征;所述中间特征再通过卷积二次提取局部特征,得到全局和局部注意力模块。
7.根据权利要求6所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4.2包括:
通过若干个串联的所述S4.1中的全局和局部注意力模块进行特征提取,得到一维特征;基于所述一维特征,通过分类器输出分类概率,从而构建出识别网络。
8.根据权利要求7所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S5包括:
S5.1、对所述识别网络进行参数设置,并将预处理后的训练样本输入到所述识别网络中进行训练;
S5.2、基于所述分类概率和所述训练标签,通过CTC方法计算识别网络损失,通过自适应的梯度下降法优化网络参数,得到训练好的识别网络。
9.根据权利要求8所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述识别网络采用有监督方法来训练识别网络。
10.根据权利要求8所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S6包括:
将预处理后的测试样本输入到所述训练好的识别网络中,输出分类概率;基于所述分类概率,得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111029998.4A CN113705713B (zh) | 2021-09-03 | 2021-09-03 | 一种基于全局和局部注意力机制的文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111029998.4A CN113705713B (zh) | 2021-09-03 | 2021-09-03 | 一种基于全局和局部注意力机制的文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705713A true CN113705713A (zh) | 2021-11-26 |
CN113705713B CN113705713B (zh) | 2023-08-22 |
Family
ID=78659001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111029998.4A Active CN113705713B (zh) | 2021-09-03 | 2021-09-03 | 一种基于全局和局部注意力机制的文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705713B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743196A (zh) * | 2022-05-18 | 2022-07-12 | 北京百度网讯科技有限公司 | 用于文本识别的神经网络及其训练方法、文本识别的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN110378334A (zh) * | 2019-06-14 | 2019-10-25 | 华南理工大学 | 一种基于二维特征注意力机制的自然场景文本识别方法 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN111428727A (zh) * | 2020-03-27 | 2020-07-17 | 华南理工大学 | 基于序列变换纠正及注意力机制的自然场景文本识别方法 |
-
2021
- 2021-09-03 CN CN202111029998.4A patent/CN113705713B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN109214003A (zh) * | 2018-08-29 | 2019-01-15 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN110378334A (zh) * | 2019-06-14 | 2019-10-25 | 华南理工大学 | 一种基于二维特征注意力机制的自然场景文本识别方法 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN111428727A (zh) * | 2020-03-27 | 2020-07-17 | 华南理工大学 | 基于序列变换纠正及注意力机制的自然场景文本识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743196A (zh) * | 2022-05-18 | 2022-07-12 | 北京百度网讯科技有限公司 | 用于文本识别的神经网络及其训练方法、文本识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113705713B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Deep label distribution learning with label ambiguity | |
He et al. | Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach | |
Tao et al. | Principal component 2-D long short-term memory for font recognition on single Chinese characters | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
Lei et al. | Ultralightweight spatial–spectral feature cooperation network for change detection in remote sensing images | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
CN109241995B (zh) | 一种基于改进型ArcFace损失函数的图像识别方法 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
Xu et al. | Robust self-ensembling network for hyperspectral image classification | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
Sharma et al. | Character recognition using machine learning and deep learning-a survey | |
Lin et al. | Building damage assessment from post-hurricane imageries using unsupervised domain adaptation with enhanced feature discrimination | |
Ye et al. | A joint-training two-stage method for remote sensing image captioning | |
Rao et al. | Exploring deep learning techniques for kannada handwritten character recognition: A boon for digitization | |
Soomro et al. | Performance evaluation of advanced deep learning architectures for offline handwritten character recognition | |
CN111553350A (zh) | 一种基于深度学习的注意力机制文本识别方法 | |
Wang et al. | S 3 D: Scalable pedestrian detection via score scale surface discrimination | |
CN112329536A (zh) | 一种基于交替对抗迁移学习的单样本人脸识别方法 | |
US20240161531A1 (en) | Transformer-based multi-scale pedestrian re-identification method | |
Ning et al. | BDARS_CapsNet: Bi-directional attention routing sausage capsule network | |
CN103617609A (zh) | 基于图论的k-means非线性流形聚类与代表点选取方法 | |
CN105956604B (zh) | 一种基于两层时空邻域特征的动作识别方法 | |
Wang et al. | Deep metric learning on the SPD manifold for image set classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |