CN113705713A - 一种基于全局和局部注意力机制的文本识别方法 - Google Patents

一种基于全局和局部注意力机制的文本识别方法 Download PDF

Info

Publication number
CN113705713A
CN113705713A CN202111029998.4A CN202111029998A CN113705713A CN 113705713 A CN113705713 A CN 113705713A CN 202111029998 A CN202111029998 A CN 202111029998A CN 113705713 A CN113705713 A CN 113705713A
Authority
CN
China
Prior art keywords
text
global
training
network
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111029998.4A
Other languages
English (en)
Other versions
CN113705713B (zh
Inventor
彭德智
金连文
谢灿宇
李鸿亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202111029998.4A priority Critical patent/CN113705713B/zh
Publication of CN113705713A publication Critical patent/CN113705713A/zh
Application granted granted Critical
Publication of CN113705713B publication Critical patent/CN113705713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于全局和局部注意力机制的文本识别方法,具体包括如下步骤:使用合成数据以及公开的真实文本行作为训练数据,使用真实场景下采集的文本行作为测试数据;对所有训练和测试样本进行数据预处理;采用有监督的方法训练识别模型,每个文本行都有对应的文本信息;采用卷积层和自注意力层等结构设计识别网络;将训练数据和标签输入到识别网络中进行训练;输入测试数据到训练完成的网络中,得到识别结果。本发明利用全局和局部注意力网络实现文本行识别,能够识别各种场景下复杂多样的联机和脱机文本,并在各个公开的数据集上达到了较高的准确率,具有极高的实用性和应用价值。

Description

一种基于全局和局部注意力机制的文本识别方法
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种基于全局和局部注意力机制的文本识别方法。
背景技术
随着计算机技术的迅猛发展,人工智能技术也成为生产和生活中不可缺少的驱动力。近年来,深度学习技术的进步和相关硬件的发展,使得深度神经网络的实际应用成为可能。
文本在日常生活中随处可见,是信息传递的载体。人类从视觉中获得的信息,大部分来自于文本。同时,文本也是人类文明和知识传承的载体。因而,如何自动地从文本图片或者联机笔迹中识别出文本信息成为一项具有极大价值和意义的研究。但是,文本识别中存在很多难点。首先,复杂多样的背景使得识别模型受到极大的干扰。其次,多种多样的书写风格和印刷体风格对识别模型的鲁棒性提出了极大的挑战。最后,字符种类较多(例如中文)和不同种类间的样本数量不平衡问题增加了模型训练的难度。设计一种高效准确的文本识别方法势在必行。
随着深度学习的兴起,学者们已经提出了一些行之有效的文本识别方法。对于脱机文本行图片,通常采用卷积神经网络提取特征。在提取的特征的基础上,采用循环神经网络结合注意力机制或CTC解码得到识别结果。对于联机笔迹,通常采用转为脱机特征或直接使用循环神经网络处理。但是这些方法在建模全局关系和模型前向速度上存在弱点。
因此,亟需一种基于全局和局部注意力机制的文本识别方法来保证模型前向时的并行性成为现今需要解决的问题。
发明内容
本发明的目的是提供一种基于全局和局部注意力机制的文本识别方法,通过有效地、交替地建模全局和局部注意力来提取特征,同时保证了模型前向时的并行性,极大地提高了效率。
为实现上述目的,本发明提供一种基于全局和局部注意力机制的文本识别方法,包括以下步骤:
S1、将合成文本行和公开文本行作为训练样本;将真实场景下采集的文本行作为测试样本;
S2、对所述训练样本和所述测试样本进行预处理;
S3、基于预处理后的训练样本,确定训练标签;
S4、采用卷积层和自注意力层结构构建识别网络;
S5、将预处理后的训练样本输入到所述识别网络中进行训练,结合所述训练标签,并采用CTC损失进行网络优化,得到训练好的识别网络;
S6、将预处理后的测试样本输入到所述训练好的识别网络中,输出文本识别结果。
优选地,所述S2包括:
S2.1、在保持宽高比固定的情况下,将所述训练样本和所述测试样本中的脱机文本图片高度归一化为128个像素,得到预处理后的图片;
S2.2、将所述训练样本和所述测试样本中的联机文本的联机笔迹旋转为水平状态,再对水平状态的联机笔迹进行特征提取,得到预处理后的笔迹特征。
优选地,所述S2.2包括:
S2.21、将所述联机笔迹中的所有点通过线性回归得到一条直线;
S2.22、计算直线的斜率,并通过所述斜率得到所述联机笔迹的倾斜角度θ;
S2.23、将所述联机笔迹顺指针旋转θ角到水平位置,得到旋转后的联机笔迹;
S2.24、基于所述旋转后的联机笔迹,得到多维的笔迹特征。
优选地,所述S3包括:
S3.1、对于预处理后的训练样本中的公开文本行,直接记录文本标签;
S3.2、对于预处理后的训练样本中的合成文本行,记录合成数据时返回的文本标签。
优选地,所述S4包括:
S4.1、构建全局和局部注意力模块;
S4.2、基于所述S4.1,通过分类器构建识别网络。
优选地,所述S4.1包括:
S4.11、基于训练样本的输入特征,通过卷积层提取局部特征;
S4.12、基于所述局部特征,通过多头自注意力机制建模全局特征;
S4.13、所述多头自注意力机制建模全局特征通过FNN两层全连接层网络和LayerNorm层归一化操作,得到中间特征;所述中间特征再通过卷积二次提取局部特征,得到全局和局部注意力模块。
优选地,所述S4.2包括:
通过若干个串联的所述S4.1中的全局和局部注意力模块进行特征提取,得到一维特征;基于所述一维特征,通过分类器输出分类概率,从而构建出识别网络。
优选地,所述S5包括:
S5.1、对所述识别网络进行参数设置,并将预处理后的训练样本输入到所述识别网络中进行训练;
S5.2、基于所述分类概率和所述训练标签,通过CTC方法计算识别网络损失,通过自适应的梯度下降法优化网络参数,得到训练好的识别网络。
优选地,所述识别网络采用有监督方法来训练识别网络。
优选地,所述S6包括:
将预处理后的测试样本输入到所述训练好的识别网络中,输出分类概率;基于所述分类概率,得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
与现有技术相比,本发明具有以下技术效果:
(1)本发明采用基于全局和局部注意力机制的特征提取方法,可以有效地建模输入数据的全局和局部关联,提升特征的表征能力。
(2)本发明采用可以并行计算的模块,摒弃了循环神经网络等结构,大大提升了模型的前向速度。
(3)本发明识别准确率高、鲁棒性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的数据处理流程图;
图3为本发明实施例的文本识别流程图;
图4为本发明实施例的通道数为nc的全局和局部注意力模块的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
参照图1所示,本发明提出一种基于全局和局部注意力机制的文本识别方法,具体包括以下步骤:
S1、数据获取:将合成文本行和公开的真实文本行作为训练样本数据,将真实场景下采集的文本行作为测试样本数据。
其中,合成数据为边训练边合成。
S2、数据处理:对训练样本和测试样本进行数据预处理操作,参照图2所示。
其中,训练样本和测试样本中均包括脱机文本和联机文本;对于脱机文本,在保持宽高比的同时,将脱机文本图片高度归一化为128个像素,记为图片I;
对于联机文本,将联机笔迹旋转为水平,再进行特征提取操作,具体为:
联机笔迹S为多个点的坐标组成的序列,针对所有点的(x,y)坐标,通过线性回归得到一条直线;接着通过该直线的斜率得到文本的倾斜角度θ;然后再将联机笔迹S顺时针旋转θ角到水平位置,得到旋转后的联机笔迹S1,其表达式为:
S1={(xi,yi,si)|1≤i≤N}
其中,si为当前点所属笔画的序号,(xi,yi)为当前点的坐标,N为点的总数量。
基于联机笔迹S1,得到6维的笔迹特征序列F,如下:
F={(xi,yi,xi+1-xi,yi+1-yi,si+1=si,si+1≠si)|1≤i≤N-1}
S3、标签制作:由于本发明采用有监督方法来训练识别模型,所以每个训练文本行都有对应的文本信息。对于公开文本行数据集,直接读取其记录的文本标签;对于合成的文本行,合成数据的同时会返回对应的文本行标签。
其中,使用公开的文本语料和单字数据,合成联机和脱机文本行,在合成的同时返回标签信息;对于公开文本行数据集,读取其记录的文本行标签。
S4、网络设计:采用卷积层和自注意力层等结构构建识别网络,以交替地提取输入文本行的全局和局部特征,参照图4所示,具体为:
S4.1、构建全局和局部注意力模块。
首先,对于输入特征f1,通过卷积层提取局部特征f2
f2=Conv(f1)
其中,Conv表示卷积操作。
接着,对于局部特征f2,通过多头自注意力机制建模全局特征f3,其表达式为:
f3=MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo
Figure BDA0003244712890000081
Figure BDA0003244712890000082
式中,Q,K,V均等于f2
Figure BDA0003244712890000083
Figure BDA0003244712890000084
Figure BDA0003244712890000085
其中dmodel为f2的维度且dk=dv=dmodel/h。
然后,对于特征f3,进行如下操作:
f4=LayerNorm(f3+f2)
f5=LayerNorm(FFN(f4)+f4)
其中,LayerNorm为层归一化操作(Layer Normalization),FFN为两层全连接层组成的网络。
最后,对于特征f5,再次通过卷积提取局部特征:
f6=Conv(f5)
上述操作共同组成一个全局和局部注意力模块。
S4.2、构建识别网络。识别网络由多个全局和局部注意力模块和分类器组成。
首先,对于输入图片I或从联机笔记中提取的特征F,经由多个串联的全局和局部注意力模块提取出一维特征
Figure BDA0003244712890000086
其中,l为特征的长度,dcls为特征的维度。
接着,分类器基于特征fcls,输出分类概率
Figure BDA0003244712890000087
其中ncls为字符类别数,多出的一类为空类别:
pcls=Softmax(fclsWcls+bcls
其中,
Figure BDA0003244712890000091
最后,通过分类概率pcls得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
S5、训练网络:把准备好的训练数据及标签输入到识别网络中训练。采用Connectionist Temporal Classification(CTC)损失进行网络优化。
S5.1、训练参数设定:对所述识别网络进行参数设置,将训练样本数据送入识别网络训练,学习率为0.0001,每次迭代送入32条数据,其中50%为真实数据,50%为合成数据。
S5.2、训练卷积神经网络:结合分类概率pcls和文本标签,通过CTC方法计算网络损失,通过自适应的梯度下降法(AdamW)优化网络参数。
S6、输入测试数据到训练完成的网络中,得到识别结果,参照图3所示,把测试集中的图片以及标签输入到已训练好的识别网络中,进行识别测试。识别完成后,程序计算准确率。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (10)

1.一种基于全局和局部注意力机制的文本识别方法,其特征在于,包括以下步骤:
S1、将合成文本行和公开文本行作为训练样本;将真实场景下采集的文本行作为测试样本;
S2、对所述训练样本和所述测试样本进行预处理;
S3、基于预处理后的训练样本,确定训练标签;
S4、采用卷积层和自注意力层结构构建识别网络;
S5、将预处理后的训练样本输入到所述识别网络中进行训练,结合所述训练标签,并采用CTC损失进行网络优化,得到训练好的识别网络;
S6、将预处理后的测试样本输入到所述训练好的识别网络中,输出文本识别结果。
2.根据权利要求1所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S2包括:
S2.1、在保持宽高比固定的情况下,将所述训练样本和所述测试样本中的脱机文本图片高度归一化为128个像素,得到预处理后的图片;
S2.2、将所述训练样本和所述测试样本中的联机文本的联机笔迹旋转为水平状态,再对水平状态的联机笔迹进行特征提取,得到预处理后的笔迹特征。
3.根据权利要求2所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S2.2包括:
S2.21、将所述联机笔迹中的所有点通过线性回归得到一条直线;
S2.22、计算直线的斜率,并通过所述斜率得到所述联机笔迹的倾斜角度θ;
S2.23、将所述联机笔迹顺指针旋转θ角到水平位置,得到旋转后的联机笔迹;
S2.24、基于所述旋转后的联机笔迹,得到多维的笔迹特征。
4.根据权利要求2所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S3包括:
S3.1、对于预处理后的训练样本中的公开文本行,直接记录文本标签;
S3.2、对于预处理后的训练样本中的合成文本行,记录合成数据时返回的文本标签。
5.根据权利要求1所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4包括:
S4.1、构建全局和局部注意力模块;
S4.2、基于所述S4.1,通过分类器构建识别网络。
6.根据权利要求5所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4.1包括:
S4.11、基于训练样本的输入特征,通过卷积层提取局部特征;
S4.12、基于所述局部特征,通过多头自注意力机制建模全局特征;
S4.13、所述多头自注意力机制建模全局特征通过FNN两层全连接层网络和LayerNorm层归一化操作,得到中间特征;所述中间特征再通过卷积二次提取局部特征,得到全局和局部注意力模块。
7.根据权利要求6所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S4.2包括:
通过若干个串联的所述S4.1中的全局和局部注意力模块进行特征提取,得到一维特征;基于所述一维特征,通过分类器输出分类概率,从而构建出识别网络。
8.根据权利要求7所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S5包括:
S5.1、对所述识别网络进行参数设置,并将预处理后的训练样本输入到所述识别网络中进行训练;
S5.2、基于所述分类概率和所述训练标签,通过CTC方法计算识别网络损失,通过自适应的梯度下降法优化网络参数,得到训练好的识别网络。
9.根据权利要求8所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述识别网络采用有监督方法来训练识别网络。
10.根据权利要求8所述的基于全局和局部注意力机制的文本识别方法,其特征在于,所述S6包括:
将预处理后的测试样本输入到所述训练好的识别网络中,输出分类概率;基于所述分类概率,得到长度为l的字符序列,去除连续重复字符和空类别字符后,得到最终的识别结果。
CN202111029998.4A 2021-09-03 2021-09-03 一种基于全局和局部注意力机制的文本识别方法 Active CN113705713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111029998.4A CN113705713B (zh) 2021-09-03 2021-09-03 一种基于全局和局部注意力机制的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111029998.4A CN113705713B (zh) 2021-09-03 2021-09-03 一种基于全局和局部注意力机制的文本识别方法

Publications (2)

Publication Number Publication Date
CN113705713A true CN113705713A (zh) 2021-11-26
CN113705713B CN113705713B (zh) 2023-08-22

Family

ID=78659001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111029998.4A Active CN113705713B (zh) 2021-09-03 2021-09-03 一种基于全局和局部注意力机制的文本识别方法

Country Status (1)

Country Link
CN (1) CN113705713B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN109214003A (zh) * 2018-08-29 2019-01-15 陕西师范大学 基于多层注意力机制的循环神经网络生成标题的方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110390326A (zh) * 2019-06-14 2019-10-29 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN110414498A (zh) * 2019-06-14 2019-11-05 华南理工大学 一种基于交叉注意力机制的自然场景文本识别方法
CN111428727A (zh) * 2020-03-27 2020-07-17 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN109214003A (zh) * 2018-08-29 2019-01-15 陕西师范大学 基于多层注意力机制的循环神经网络生成标题的方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法
CN110390326A (zh) * 2019-06-14 2019-10-29 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN110414498A (zh) * 2019-06-14 2019-11-05 华南理工大学 一种基于交叉注意力机制的自然场景文本识别方法
CN111428727A (zh) * 2020-03-27 2020-07-17 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法

Also Published As

Publication number Publication date
CN113705713B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Gao et al. Deep label distribution learning with label ambiguity
He et al. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach
Tao et al. Principal component 2-D long short-term memory for font recognition on single Chinese characters
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
Lei et al. Ultralightweight spatial–spectral feature cooperation network for change detection in remote sensing images
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN109241995B (zh) 一种基于改进型ArcFace损失函数的图像识别方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
Xu et al. Robust self-ensembling network for hyperspectral image classification
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Sharma et al. Character recognition using machine learning and deep learning-a survey
Lin et al. Building damage assessment from post-hurricane imageries using unsupervised domain adaptation with enhanced feature discrimination
Ye et al. A joint-training two-stage method for remote sensing image captioning
Rao et al. Exploring deep learning techniques for kannada handwritten character recognition: A boon for digitization
Soomro et al. Performance evaluation of advanced deep learning architectures for offline handwritten character recognition
CN111553350A (zh) 一种基于深度学习的注意力机制文本识别方法
Wang et al. S 3 D: Scalable pedestrian detection via score scale surface discrimination
CN112329536A (zh) 一种基于交替对抗迁移学习的单样本人脸识别方法
US20240161531A1 (en) Transformer-based multi-scale pedestrian re-identification method
Ning et al. BDARS_CapsNet: Bi-directional attention routing sausage capsule network
CN103617609A (zh) 基于图论的k-means非线性流形聚类与代表点选取方法
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Wang et al. Deep metric learning on the SPD manifold for image set classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant