CN113704477B - 一种文本识别中识别网络与语言模型的联合优化方法 - Google Patents

一种文本识别中识别网络与语言模型的联合优化方法 Download PDF

Info

Publication number
CN113704477B
CN113704477B CN202111030020.XA CN202111030020A CN113704477B CN 113704477 B CN113704477 B CN 113704477B CN 202111030020 A CN202111030020 A CN 202111030020A CN 113704477 B CN113704477 B CN 113704477B
Authority
CN
China
Prior art keywords
network
text
recognition
ctc
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111030020.XA
Other languages
English (en)
Other versions
CN113704477A (zh
Inventor
彭德智
金连文
李鸿亮
谢灿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202111030020.XA priority Critical patent/CN113704477B/zh
Publication of CN113704477A publication Critical patent/CN113704477A/zh
Application granted granted Critical
Publication of CN113704477B publication Critical patent/CN113704477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种文本识别中识别网络与语言模型的联合优化方法,包括:采集文本数据,将文本数据划分为训练集和测试集,并设置文本行标签;构建识别网络,将文本数据输入识别网络,获得第一概率分布;构建语言模型,将概率分布输入语言模型,通过建模语义,获得第二概率分布;将训练集和文本行标签输入由识别网络和语言模型串联组成的网络进行训练,获得目标网络;将测试集和文本行标签输入目标网络,获得识别结果。本发明利用识别网络和语言模型的联合优化,大大提升了识别的精度,并且适用于不同机制的识别网络。该方案在各个公开的数据集上达到了较高的准确率,具有极高的实用性和应用价值。

Description

一种文本识别中识别网络与语言模型的联合优化方法
技术领域
本发明属于模式识别与人工智能技术领域,特别涉及一种文本识别中识别网络与语言模型的联合优化方法。
背景技术
随着深度学习技术的发展和相关硬件的逐渐完善,越来越多用于文本识别的人工智能神经网络被应用于实际生产和生活中。但是,复杂的背景、多种多样的书写风格和字体格式、庞大的字符种类数量使得识别效果仍然较差。人类在识别文本时,通常会结合语义信息进行快速而准确的识别。因而,如何设计一种能够高效利用识别网络的输出信息并结合语义进行推理的语言模型成为一项重要的研究课题。现有的方法通常将语言模型作为识别网络的后处理,对于识别网络的输出,通过传统的统计语言模型或者基于循环神经网络的语言模型进行处理,没有考虑到识别网络和语言模型是相互促进、相辅相成的。
发明内容
本发明为了实现文本行识别,提供一种文本识别中识别网络与语言模型的联合优化方法,该方案联合优化识别网络和语言模型,可以极大地提升识别准确率,具有很高的使用价值。
本发明采用如下技术方案来实现,一种文本识别中识别网络与语言模型的联合优化方法,包括:
采集文本数据,将所述文本数据划分为训练集和测试集,并设置文本行标签;构建识别网络,将所述文本数据输入所述识别网络,获得第一概率分布;构建语言模型,将所述概率分布输入所述语言模型,通过建模语义,获得第二概率分布;将所述训练集和所述文本行标签输入识别网络和语言模型串联组成的网络进行训练,获得目标网络;将所述测试集和所述文本行标签输入所述目标网络,获得识别结果。
优选地,采集所述文本数据包括采集文本语料合成数据、现有文本行数据、待测文本行数据;
将所述文本数据划分为训练集和测试集包括,将所述文本语料合成数据以及所述现有文本行数据作为训练集,所述待测文本行数据作为测试集。
优选地,设置所述文本行标签包括基于所述文本语料合成数据的文本语料和单字数据,合成联机和脱机文本行的同时返回标签信息;
基于所述现有文本行数据,读取记录的文本行标签。
优选地,所述文本识别网络采用CTC识别网络或Attention识别网络;
采用所述CTC识别网络,对于需要识别的输入X,输出为概率分布pctc
所述概率分布pctc表示为:
Figure BDA0003244739180000021
其中Netctc表示基于CTC的识别神经网络,T为时间点数量,ncls为字符类别数;
采用所述Attention识别网络,对于需要识别的输入,输出为概率分布pattn
Figure BDA0003244739180000031
其中,Netattn表示基于Attention的识别神经网络,T为时间点数量,ncls为字符类别数。
优选地,获得所述第二概率分布还包括,针对不同的文本类别,初始化不同的可学习嵌入;基于所述可学习嵌入构建可微分的预测嵌入;构建Transformer编码层;基于所述Transformer编码层构建基于Transformer编码器的语言模型,将所述可微分的预测嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布。
优选地,所述可学习嵌入为针对CTC识别网络的第一可学习嵌入或针对Attention识别网络的第二可学习嵌入;
所述第一可学习嵌入表示为:
Figure BDA0003244739180000032
所述第二可学习嵌入表示为:
Figure BDA0003244739180000033
其中,demb为嵌入的维度。
优选地,所述可微分的预测嵌入为针对CTC识别网络的第一可微分预测嵌入或针对Attention识别网络的第二可微分预测嵌入;
所述第一可微分预测嵌入表示为:
Figure BDA0003244739180000041
所述第二可微分预测嵌入表示为:
Figure BDA0003244739180000042
优选地,构建所述Transformer编码层包括,基于输入特征f1,经过多头注意力层获得特征f2,对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4
所述特征f2表示为:
f2=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
其中headi为:
Figure BDA0003244739180000043
其中Attention为:
Figure BDA0003244739180000044
Q,K,V均等于f1
Figure BDA0003244739180000045
且dk=dv=demb/h;
对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4表示为:
f3=LayerNorm(f2+f1)
f4=LayerNorm(FFN(f3)+f3)
其中,LayerNorm为层归一化操作,FFN为两层全连接层组成的网络。
优选地,基于所述Transformer编码层构建基于Transformer编码器的语言模型,针对不同的识别网络,将所述第一可学习嵌入或所述第二可学习嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布;基于所述第二概率分布,获得每个时间点的预测结果,将所述预测结果去除连续重复的预测和空类别,获得识别结果。
优选地,获得所述目标识别网络还包括基于自适应的梯度下降法,将所述训练集和所述文本行标签输入所述文本识别网络进行训练;
对于采用所述CTC识别网络的情况,根据标签计算
Figure BDA0003244739180000051
的CTC损失
Figure BDA0003244739180000052
pctc的CTC损失
Figure BDA0003244739180000053
相加获得第一总损失lctc
或者对于采用所述Attention识别网络的情况,根据标签计算
Figure BDA0003244739180000054
的交叉熵损失
Figure BDA0003244739180000055
pattn的交叉熵损失
Figure BDA0003244739180000056
相加获得第二总损失lattn
本发明公开了以下技术效果:
(1)本发明提出了一种文本识别中识别网络与语言模型的联合优化方法,不再将两者当作独立的两部分,而是通过联合优化使得两者更好地融合,其中语言模型的回传梯度可以指导识别网络的训练,识别网络可以进一步为语言模型提供更好的初始结果。
(2)本发明采用了Transformer编码器构建语言模型,可以极大地提升全局建模能力和计算的并行性。
(3)本发明识别准确率高、鲁棒性强,适用于各种识别网络。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的文本识别流程图;
图3为本发明实施例的语言模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供了一种文本识别中识别网络与语言模型的联合优化方法,包括以下步骤:
采集文本数据,将所述文本数据划分为训练集和测试集,并设置文本行标签;构建识别网络,将所述文本数据输入所述识别网络,获得第一概率分布;构建语言模型,将所述概率分布输入所述语言模型,通过建模语义,获得第二概率分布;将所述训练集和所述文本行标签输入识别网络和语言模型串联组成的网络进行训练,获得目标网络;将所述测试集和所述文本行标签输入所述目标网络,获得识别结果。
采集所述文本数据包括采集文本语料合成数据、现有文本行数据、待测文本行数据;
将所述文本数据划分为训练集和测试集包括,将所述文本语料合成数据以及所述现有文本行数据作为训练集,所述待测文本行数据作为测试集。
设置所述文本行标签包括基于所述文本语料合成数据的文本语料和单字数据,合成联机和脱机文本行的同时返回标签信息;
基于所述现有文本行数据,读取记录的文本行标签。
所述文本识别网络采用CTC识别网络或Attention识别网络;
采用所述CTC识别网络,对于需要识别的输入X,输出为概率分布pctc
所述概率分布pctc表示为:
Figure BDA0003244739180000071
其中Netctc表示基于CTC的识别神经网络,T为时间点数量,ncls为字符类别数;
采用所述Attention识别网络,对于需要识别的输入,输出为概率分布pattn
Figure BDA0003244739180000081
其中,Netattn表示基于Attention的识别神经网络,T为时间点数量,ncls为字符类别数。
获得所述第二概率分布还包括,针对不同的文本类别,初始化不同的可学习嵌入;基于所述可学习嵌入构建可微分的预测嵌入;构建Transformer编码层;基于所述Transformer编码层构建基于Transformer编码器的语言模型,将所述可微分的预测嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布。
所述可学习嵌入为针对CTC识别网络的第一可学习嵌入或针对Attention识别网络的第二可学习嵌入;
所述第一可学习嵌入表示为:
Figure BDA0003244739180000082
所述第二可学习嵌入表示为:
Figure BDA0003244739180000083
其中,demb为嵌入的维度。
所述可微分的预测嵌入为针对CTC识别网络的第一可微分预测嵌入或针对Attention识别网络的第二可微分预测嵌入;
所述第一可微分预测嵌入表示为:
Figure BDA0003244739180000084
所述第二可微分预测嵌入表示为:
Figure BDA0003244739180000091
构建所述Transformer编码层包括,基于输入特征f1,经过多头注意力层获得特征f2,对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4
所述特征f2表示为:
f2=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
其中headi为:
Figure BDA0003244739180000092
其中Attention为:
Figure BDA0003244739180000093
Q,K,V均等于f1
Figure BDA0003244739180000094
目dk=dv=demb/h;
对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4表示为:
f3=LayerNorm(f2+f1)
f4=LayerNorm(FFN(f3)+f3)
其中,LayerNorm为层归一化操作,FFN为两层全连接层组成的网络。
基于所述Transformer编码层构建基于Transformer编码器的语言模型,针对不同的识别网络,将所述第一可学习嵌入或所述第二可学习嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布;基于所述第二概率分布,获得每个时间点的预测结果,将所述预测结果去除连续重复的预测和空类别,获得识别结果。
获得所述目标识别网络还包括基于自适应的梯度下降法,将所述训练集和所述文本行标签输入所述文本识别网络进行训练;
对于采用所述CTC识别网络的情况,根据标签计算
Figure BDA0003244739180000101
的CTC损失
Figure BDA0003244739180000102
pctc的CTC损失
Figure BDA0003244739180000103
相加获得第一总损失lctc
或者对于采用所述Attention识别网络的情况,根据标签计算
Figure BDA0003244739180000104
的交叉熵损失
Figure BDA0003244739180000105
pattn的交叉熵损失
Figure BDA0003244739180000106
相加获得第二总损失lattn
进一步地,本发明的文本识别中识别网络与语言模型的联合优化方案包括:
(1)数据获取:使用根据真实语料合成的数据以及公开的真实文本行数据作为训练数据,使用真实场景采集的文本行作为测试数据。
(2)标签制作:采用有监督的方法训练识别网络,每个文本行都有对应的文本信息。
(3)识别网络:采用现有的已经训练完成的基于CTC或者Attention的网络。
(4)语言模型:语言模型以识别网络输出的概率分布为输入,通过Transformer编码器建模语义,提升识别效果。
(5)训练网络:将训练数据和标签输入到网络中进行训练,网络损失为识别网络和语言模型损失的相加之和。
(6)测试网络:输入测试数据到训练完成的网络中,得到识别结果。
所述步骤(1)使用根据真实语料合成的数据以及公开的真实文本行数据作为训练数据,使用真实场景采集的文本行作为测试数据,其中合成数据为边训练边合成。
所述步骤(2)包括以下步骤:
(2-1)使用公开的文本语料和单字数据,合成联机和脱机文本行,在合成的同时返回标签信息。
(2-2)对于公开文本行数据集,读取其记录的文本行标签。
所述步骤(3)包括以下步骤:
(3-1)使用已经训练完成的基于CTC的识别网络,该网络对于需要识别的输入X,输出为概率分布pctc
Figure BDA0003244739180000111
其中Netctc表示基于CTC的识别神经网络,T为时间点数量,ncls为字符类别数(多出的一个类别为空类别)。
(3-2)或者使用已经训练完成的基于Attention的识别网络,该网络对于需要识别的输入X,输出为概率分布pattn
Figure BDA0003244739180000121
其中,Netattn表示基于Attention的识别神经网络,T为时间点数量,ncls为字符类别数(多出的两类分别为开始类和结束类)。文本识别流程图如图2所示。
所述步骤(4)包括以下步骤:
(4-1)首先,对于每一个类别,初始化一个可学习的嵌入。特别地,对于基于CTC的方法,可学习的嵌入Ectc表示为:
Figure BDA0003244739180000122
其中,demb为嵌入的维度。
对于基于Attention的方法,可学习的嵌入Eattn表示为:
Figure BDA0003244739180000123
(4-2)接着,构建可微分的预测嵌入。特别地,对于基于CTC的识别网络的输出pctc,可微分的预测嵌入
Figure BDA0003244739180000124
为:
Figure BDA0003244739180000125
对于基于Attention的识别网络的输出pattn,可微分的预测嵌入
Figure BDA0003244739180000126
为:
Figure BDA0003244739180000127
由于矩阵操作可微,语言模型的梯度可以回传至识别网络。
(4-3)构建Transformer编码层,功能如下。
对于Transformer编码层的输入特征f1,首先经过多头注意力层得到特征f2:
f2=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
其中headi为:
Figure BDA0003244739180000131
其中Attention为:
Figure BDA0003244739180000132
在上述公式中,Q,K,V均等于f1
Figure BDA0003244739180000133
Figure BDA0003244739180000134
且dk=dv=demb/h。
然后,对于特征f2,进行如下操作:
f3=LayerNorm(f2+f1)
f4=LayerNorm(FFN(fa)+f3)
其中,LayerNorm为层归一化操作(Layer Normalization),FFN为两层全连接层组成的网络。f4即为该层的输出。
(4-4)构建基于Transformer编码器的语言模型,语言模型结构图如图3所示,由数个Transformer编码层组成。该语言模型的输入为可微分的预测嵌入
Figure BDA0003244739180000135
Figure BDA0003244739180000136
输出为
Figure BDA0003244739180000137
(4-5)基于fcls,通过分类器得到语言模型输出的概率分布。特别得,对于基于CTC的方法,输出的概率分布为:
Figure BDA0003244739180000138
其中
Figure BDA0003244739180000139
通过该输出概率,得到每个时间点的预测结果,再去除连续重复的预测和空类别,得到最终的识别结果。
对于基于Attention的识别方法,输出的概率分布为:
Figure BDA0003244739180000141
其中
Figure BDA0003244739180000142
通过该输出概率,得到每个时间点的预测结果,从开始类到结束类中间的序列即为最终的识别结果。
所述步骤(5)包括以下步骤:
(5-1)训练参数设定:将训练数据送入网络训练,使用的优化算法是一种自适应的梯度下降法(AdamW),学习率为0.0001,每次迭代送入32条数据,其中50%为真实数据,50%为合成数据。
(5-2)训练卷积神经网络:对于基于CTC的识别网络,分别根据标签计算
Figure BDA0003244739180000143
的CTC损失
Figure BDA0003244739180000144
pctc的CTC损失
Figure BDA0003244739180000145
总损失lctc即为两者的加和:
Figure BDA0003244739180000146
对于基于Attention的识别网络,分别根据标签计算
Figure BDA0003244739180000147
的交叉熵损失
Figure BDA0003244739180000148
pattn的交叉熵损失
Figure BDA0003244739180000149
总损失lattn即为两者的加和:
Figure BDA00032447391800001410
Figure BDA00032447391800001411
Figure BDA00032447391800001412
其中ci为第i个时间点对应的标签类别。
所述步骤(6)包括以下步骤:
(6-1)把测试集中的图片以及标签输入到已训练好的网络中,进行测试。
(6-2)识别完成后,程序计算准确率。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (4)

1.一种文本识别中识别网络与语言模型的联合优化方法,其特征在于,包括:
采集文本数据,将所述文本数据划分为训练集和测试集,并设置文本行标签;构建识别网络,将所述文本数据输入所述识别网络,获得第一概率分布;构建语言模型,将所述概率分布输入所述语言模型,通过建模语义,获得第二概率分布;将所述训练集和所述文本行标签输入识别网络和语言模型串联组成的网络进行训练,获得目标网络;将所述测试集和所述文本行标签输入所述目标网络,获得识别结果;
所述文本识别网络采用CTC识别网络或Attention识别网络;
采用所述CTC识别网络,对于需要识别的输入X,输出为概率分布pctc
所述概率分布pctc表示为:
Figure FDA0003705601560000011
其中Netctc表示基于CTC的识别神经网络,T为时间点数量,ncls为字符类别数;
采用所述Attention识别网络,对于需要识别的输入,输出为概率分布pattn
Figure FDA0003705601560000012
其中,Netattn表示基于Attention的识别神经网络,T为时间点数量,ncls为字符类别数;
获得所述第二概率分布还包括,针对不同的文本类别,初始化不同的可学习嵌入;基于所述可学习嵌入构建可微分的预测嵌入;构建Transformer编码层;基于所述Transformer编码层构建基于Transformer编码器的语言模型,将所述可微分的预测嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布;
所述可学习嵌入为针对CTC识别网络的第一可学习嵌入或针对Attention识别网络的第二可学习嵌入;
所述第一可学习嵌入表示为:
Figure FDA0003705601560000021
所述第二可学习嵌入表示为:
Figure FDA0003705601560000022
其中,demb为嵌入的维度;
所述可微分的预测嵌入为针对CTC识别网络的第一可微分预测嵌入或针对Attention识别网络的第二可微分预测嵌入;
所述第一可微分预测嵌入表示为:
Figure FDA0003705601560000023
所述第二可微分预测嵌入表示为:
Figure FDA0003705601560000024
构建所述Transformer编码层包括,基于输入特征f1,经过多头注意力层获得特征f2,对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4
所述特征f2表示为:
f2=MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo其中headi为:
Figure FDA0003705601560000031
其中Attention为:
Figure FDA0003705601560000032
Q,K,V均等于f1
Figure FDA0003705601560000033
且dk=dv=demb/h;
对所述特征f2进行归一化操作并通过两层全连接层组成的网络,获得目标输出f4表示为:
f3=LayerNorm(f2+f1)
f4=LayerNorm(FFN(f3)+f3)
其中,LayerNorm为层归一化操作,FFN为两层全连接层组成的网络;
基于所述Transformer编码层构建基于Transformer编码器的语言模型,针对不同的识别网络,将所述第一可学习嵌入或所述第二可学习嵌入作为所述语言模型的输入,获得建模语义后的特征;基于所述建模语义后的特征,通过分类器获得所述第二概率分布;基于所述第二概率分布,获得每个时间点的预测结果,将所述预测结果去除连续重复的预测和空类别,获得识别结果。
2.根据权利要求1所述的文本识别中识别网络与语言模型的联合优化方法,其特征在于,
采集所述文本数据包括采集文本语料合成数据、现有文本行数据、待测文本行数据;
将所述文本数据划分为训练集和测试集包括,将所述文本语料合成数据以及所述现有文本行数据作为训练集,所述待测文本行数据作为测试集。
3.根据权利要求2所述的文本识别中识别网络与语言模型的联合优化方法,其特征在于,
设置所述文本行标签包括基于所述文本语料合成数据的文本语料和单字数据,合成联机和脱机文本行的同时返回标签信息;
基于所述现有文本行数据,读取记录的文本行标签。
4.根据权利要求1所述的文本识别中识别网络与语言模型的联合优化方法,其特征在于,
获得所述目标识别网络还包括基于自适应的梯度下降法,将所述训练集和所述文本行标签输入所述文本识别网络进行训练;
对于采用所述CTC识别网络的情况,根据标签计算
Figure FDA0003705601560000041
的CTC损失
Figure FDA0003705601560000042
pctc的CTC损失
Figure FDA0003705601560000043
相加获得第一总损失lctc
或者对于采用所述Attention识别网络的情况,根据标签计算
Figure FDA0003705601560000044
的交叉熵损失
Figure FDA0003705601560000045
pattn的交叉熵损失
Figure FDA0003705601560000046
相加获得第二总损失lattn
CN202111030020.XA 2021-09-03 2021-09-03 一种文本识别中识别网络与语言模型的联合优化方法 Active CN113704477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111030020.XA CN113704477B (zh) 2021-09-03 2021-09-03 一种文本识别中识别网络与语言模型的联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111030020.XA CN113704477B (zh) 2021-09-03 2021-09-03 一种文本识别中识别网络与语言模型的联合优化方法

Publications (2)

Publication Number Publication Date
CN113704477A CN113704477A (zh) 2021-11-26
CN113704477B true CN113704477B (zh) 2022-10-18

Family

ID=78659004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111030020.XA Active CN113704477B (zh) 2021-09-03 2021-09-03 一种文本识别中识别网络与语言模型的联合优化方法

Country Status (1)

Country Link
CN (1) CN113704477B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
CN107358948B (zh) * 2017-06-27 2020-06-09 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN111444721B (zh) * 2020-05-27 2022-09-23 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN113327594B (zh) * 2021-06-11 2022-08-16 北京世纪好未来教育科技有限公司 语音识别模型训练方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备

Also Published As

Publication number Publication date
CN113704477A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Yu et al. Hierarchical deep click feature prediction for fine-grained image recognition
CN111694924B (zh) 一种事件抽取方法和系统
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN107871014A (zh) 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN110399800B (zh) 基于深度学习vgg16框架的车牌检测方法及系统、存储介质
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110909125B (zh) 推文级社会媒体谣言检测方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Zhang et al. Quantifying the knowledge in a DNN to explain knowledge distillation for classification
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN110837736A (zh) 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法
CN117236677A (zh) 一种基于事件抽取的rpa流程挖掘方法及装置
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Li et al. Combining local and global features into a Siamese network for sentence similarity
CN116245107A (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN114241231A (zh) 基于层级标签注意力的识别方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
CN113392191A (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN112035689A (zh) 一种基于视觉转语义网络的零样本图像哈希检索方法
CN113704477B (zh) 一种文本识别中识别网络与语言模型的联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant