CN113705568A - 文字识别网络训练方法、装置、计算机设备及存储介质 - Google Patents

文字识别网络训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113705568A
CN113705568A CN202110997813.2A CN202110997813A CN113705568A CN 113705568 A CN113705568 A CN 113705568A CN 202110997813 A CN202110997813 A CN 202110997813A CN 113705568 A CN113705568 A CN 113705568A
Authority
CN
China
Prior art keywords
loss value
sample image
text
recognition network
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110997813.2A
Other languages
English (en)
Inventor
张正夫
梁鼎
吴一超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN202110997813.2A priority Critical patent/CN113705568A/zh
Publication of CN113705568A publication Critical patent/CN113705568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种文字识别网络训练方法、装置、计算机设备及存储介质,包括:获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。

Description

文字识别网络训练方法、装置、计算机设备及存储介质
技术领域
本公开涉及神经网络技术领域,具体而言,涉及一种文字识别网络训练方法、装置、计算机设备及存储介质。
背景技术
相关技术中,在训练第一文字识别网络时,一般是为带有文字的样本图像添加标注信息,该标注信息用于表示样本图像中带有的文字内容,然后将样本图像输入至第一文字识别网络中,再基于第一文字识别网络的输出和标注信息,对第一文字识别网络进行训练。
然而由于部分文字之间相似性太高,例如字母“O”和数字“0”,因此基于这种方法训练出的第一文字识别网络对于这些易混淆的文字的识别精度较低。
发明内容
本公开实施例至少提供一种文字识别网络训练方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种文字识别网络训练方法,包括:
获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
通过上述方法,分别将第一样本图像的正确文本标注信息和易混淆文本标注信息作为监督数据,计算训练过程中的第一损失值和第二损失值,然后基于第一损失值和第二损失值,训练第一文字识别网络,这样由于第一文字识别网络在训练过程中使用的第一样本图像添加了易混淆文本标注信息,因此第一文字识别网络能够提升对于易混淆文本的识别能力,也即这种训练方法提升了第一文字识别网络的网络精度。
一种可能的实施方式中,所述方法还包括根据以下方法确定所述样本图像集中的第一样本图像以及所述第一样本图像对应的易混淆文本标注信息:
将所述样本图像集中的目标样本图像输入至预先训练的第二文字识别网络中,确定所述目标样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于所述样本图像集中的样本图像和所述样本图像对应的正确文本标注信息训练得到的;
在基于所述目标样本图像的所述正确文本标注信息检测到,所述目标样本图像对应的预测文本内容中存在错误文本内容的情况下,将所述目标样本图像作为所述第一样本图像,将所述目标样本图像的预测文本内容作为所述第一样本图像的易混淆文本标注信息。
这样通过第二文字识别网络确定第一样本图像和易混淆文本标注信息,可以提升第一样本图像标注的效率和精度,避免人工再去对第一样本图像进行标注。
一种可能的实施方式中,所述待训练的第一文字识别网络为预先训练的第二文字识别网络,所述第二文字识别网络用于生成所述第一样本图像的易混淆文本标注信息。
直接在已经训练好的第二文字识别网络的基础上,再基于第一样本图像对第二文字识别网络进行训练,可以提升网络的训练速度。
一种可能的实施方式中,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,所述样本图像集中还包括,对应有正确文本标注的第二样本图像。
样本图像集中第一样本图像的数据量较小,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下基于第一样本图像和第二样本图相关训练所述第一文字识别网络,可以提升训练出的第一文字识别网络的网络精度。
一种可能的实施方式中,所述基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络,包括:
基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;
基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;
基于所述目标损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,所述基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值,包括:
基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值;所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;
基于所述第一样本图像的第一损失值和所述对比损失值,确定所述第一目标损失值。
一种可能的实施方式中,所述基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值,包括:
将所述第一样本图像的第一损失值和所述第二损失值之差,作为所述对比损失值。
第二方面,本公开实施例还提供一种文字识别网络训练装置,包括:
获取模块,用于获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
第一确定模块,用于基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
第二确定模块,用于基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
训练模块,用于基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,所述获取模块还用于根据以下方法确定所述样本图像集中的第一样本图像以及所述第一样本图像对应的易混淆文本标注信息:
将所述样本图像集中的目标样本图像输入至预先训练的第二文字识别网络中,确定所述目标样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于所述样本图像集中的样本图像和所述样本图像对应的正确文本标注信息训练得到的;
在基于所述目标样本图像的所述正确文本标注信息检测到,所述目标样本图像对应的预测文本内容中存在错误文本内容的情况下,将所述目标样本图像作为所述第一样本图像,将所述目标样本图像的预测文本内容作为所述第一样本图像的易混淆文本标注信息。
一种可能的实施方式中,所述待训练的第一文字识别网络为所述第二文字识别网络。
一种可能的实施方式中,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,所述样本图像集中还包括,仅对应有正确文本标注的第二样本图像。
一种可能的实施方式中,所述训练模块,在基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络时,用于:
基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;
基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;
基于所述目标损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,所述训练模块,在基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值时,用于:
基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值;所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;
基于所述第一样本图像的第一损失值和所述对比损失值,确定所述第一目标损失值。
一种可能的实施方式中,所述训练模块,在基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值时,用于:
将所述第一样本图像的第一损失值和所述第二损失值之差,作为所述对比损失值。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述文字识别网络训练装置、计算机设备、及计算机可读存储介质的效果描述参见上述文字识别网络训练方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种文字识别网络训练方法的流程图;
图2示出了本公开实施例所提供的文字识别网络训练方法中,第一样本图像和第一样本图像的易混淆文本标注信息的确定方法的流程图;
图3示出了本公开实施例所提供的一种文字识别网络训练装置的架构示意图;
图4示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,传统实现方案中,由于没有单独对神经网络对于易混淆文本的识别能力的训练,因此训练出的神经网络的对于易混淆文本的识别能力较弱,识别精度较低。
基于此,本公开提供了一种文字识别网络训练方法、装置、计算机设备及存储介质,分别将第一样本图像的正确文本标注信息和易混淆文本标注信息作为监督数据,计算训练过程中的第一损失值和第二损失值,然后基于第一损失值和第二损失值,训练第一文字识别网络,这样由于第一文字识别网络在训练过程中使用的第一样本图像添加了易混淆文本标注信息,因此第一文字识别网络能够提升对于易混淆文本的识别能力,也即这种训练方法提升了第一文字识别网络的网络精度。
针对以上传统方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文字识别网络训练方法进行详细介绍,本公开实施例所提供的文字识别网络训练方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。
参见图1所示,为本公开实施例提供的文字识别网络训练方法的流程图,所述方法包括步骤101~步骤104,其中:
步骤101、获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像。
步骤102、基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容。
步骤103、基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值。
步骤104、基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
以下是对上述步骤的详细介绍。
针对步骤101、
这里,所述正确文本标注信息用于表示所述第一样本图像中所带有的正确的文字,所述易混淆文本标注信息用于表示所述第一样本图像中所带有的至少部分正确的文字对应的易混淆文字。
示例性的,若第一样本图像中带有的文字为“hello”,第一样本图像对应的正确文本标注信息可以为“hello”,而字母“o”对应易混淆文本为数字“0”,则第一样本图像对应的易混淆文本标注信息可以为“hell0”,可见,易混淆文本标注信息中包括了部分正确的文字,以及另一部分正确的文字对应的易混淆文字。
在一种可能的实施方式中,第一样本图像对应的正确文本标注信息和易混淆文本标注信息可以是预先标注的,比如,在获取样本图像集之后,可以基于第一样本图像的正确文本标注信息,确定第一样本图像对应的易混淆文本标注信息。
具体的,在确定样本图像集中的第一样本图像以及第一样本图像对应的易混淆文本标注信息时,可以参照如图2所示的方法,包括以下几个步骤:
步骤201、将所述样本图像集中的目标样本图像输入至预先训练的第二文字识别网络中,确定所述目标样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于所述样本图像集中的样本图像和所述样本图像对应的正确文本标注信息训练得到的。
这里,所述第二文字识别网络可以是预先训练好的网络,具体的,可以将目标样本图像输入至待训练的第二文字识别网络中,得到第二文字识别网络对应的预测文本内容,然后基于预测文本内容和正确文本标注信息确定本次训练过程中的损失值,并基于所述损失值训练所述第二文字识别网络。其中,训练所述第二文字识别网络的过程中使用的样本图像可以是样本图像集中的图像。
步骤202、在基于所述目标样本图像的所述正确文本标注信息检测到,所述目标样本图像对应的预测文本内容中存在错误文本内容的情况下,将所述目标样本图像作为所述第一样本图像,将所述目标样本图像的预测文本内容作为所述第一样本图像的易混淆文本标注信息。
所述第二文字识别网络虽然是训练好的,但是其识别的准确率并不能达到百分之百,因此,可能会出现漏识别或错误识别的情况。所述预测文本内容中存在错误文本内容可以理解为,将样本图像中的部分字符错误的识别为其他字符,例如将字母“o”识别成数字“0”,将字母“l”识别成数字“1”。
在一种可能的实施方式中,在将同一张目标样本图像输入至所述第二文字识别网络中,可能得到多个不同的结果,例如字母“l”可能给被识别成数字“1”,也可能会被识别成字母“I”。因此,样本图像对应的易混淆文本标注信息可以有多个,可以将同一样本图像分别添加不同的易混淆文本标注信息,并作为不同的第一样本图像参与神经网络的训练。
示例性的,样本图像1对应的易混淆文本可以包括a、b、c三个,则可以为样本图像1添加正确文本标注信息和易混淆文本标注信息a,作为一个第一样本图像,为样本图像1添加正确文本标注信息和易混淆文本标注信息b,作为一个第一样本图像,为样本图像1添加正确文本标注信息和易混淆文本标注信息c,作为一个第一样本图像,从而基于样本图像1得到三个第一样本图像。
针对步骤102、
这里,所述待训练的第一文字识别网络可以是指步骤101中所述的预先训练的第二文字识别网络,由于第二文字识别网络已经经过了初步训练,因此在对所述待训练的第一文字识别网络(即上述预先训练的第二文字识别网络)进行训练时,为了提高网络训练效率,可以仅采用步骤101中所述的第一样本图像对第一文字识别网络进行训练。或者,所述待训练的第一文字识别网络可以是指未经训练的初始网络。
在一种可能的实施方式中,样本图像集中还包括对应有正确文本标注信息的第二样本图像,其中,所述第二样本图像可能还携带有其他的标注信息,为了保证训练后的第一文字识别网络的网络精度,可以同时采用第一样本图像和第二样本图像对第一文字识别网络进行训练。
在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,由于第一样本图像的样本数据量较小,仅仅只靠第一样本图像训练初始网络,网络精度可能不够,因此可以同时基于第一样本图像和第二样本图像训练所述初始网络。
或者说,若只靠第一样本图像训练所述初始网络,由于第一样本图像中仅包含易混淆文本,训练出的第一文字识别网络对于易混淆文本的识别能力较强,对于非易混淆文本的识别能力较弱,因此为了提高对非易混淆文本的识别能力,可以同时基于第一样本图像和第二样本图像训练所述初始网络。
在同时基于所述第一样本图像和第二样本图像训练所述待训练的第一文字识别网络时,可以将多个第一样本图像和/或第二样本图像作为一组样本图像(一个batch),并将一组样本图像中的样本图像依次输入待训练的第一文字识别网络,确定对应的预测文本内容。
针对步骤103、
在一种可能的实施方式中,所述第一损失值和所述第二损失值可以是同一类型的损失,例如可以都为交叉熵损失或者链结式时间分类(Connectionist TemporalClassification,CTC)损失,具体的第一损失值和第二损失值的计算方法在此将不再展开介绍。
这里,若以正确文本标注信息为监督信息,则所述第一损失值可以用于表征所述第一文字识别网络将样本图像中的文字识别为正确文本标注信息对应的文本内容的概率,所述第一损失值越大,所述概率越低;若以易混淆文本标注信息为监督信息,则所述第二损失值可以用于表征所述第一文字识别网络将样本图像中的文字识别为所述易混淆文本标注信息对应的文本内容的概率,所述第二损失值越大,所述概率越低。
针对步骤104、
若训练所述待训练的第一文字识别网络时,仅通过所述第一样本图像,则在基于所述第一损失值和所述第二损失值,训练所述第一文字识别网络时,可以先基于所述第一损失值和所述第二损失值计算对比损失值,所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;然后基于所述第一损失值和所述对比损失值,确定本次训练过程中的目标损失值,并基于所述目标损失值对所述第一文字识别网络进行训练。
具体的,针对每个第一样本图像,可以基于该第一样本图像的第一损失值和对比损失值确定该第一样本图像对应的目标损失值,然后基于本次训练过程中的各个第一样本图像对应的目标损失值,计算平均损失值,并将所述平均损失值作为本次训练过程中的目标损失值。
示例性的,可以通过以下公式计算所述第一样本图像对应的目标损失值:
Ltotal=Lgt+λLconmpare
其中,Ltotal表示所述目标损失值,Lgt表示所述第一损失值,Lconmpare表示对比损失值,λ为预先设置的权重超参数。
这里,λ可以理解为平衡系数,即为了平衡第一损失值和对比损失值对于目标损失值的影响,所设置的系数。
最终训练神经网络的目的在于减少所述目标损失值,进一步可以理解为减小所述第一损失值和所述对比损失值。所述对比损失值可以是指所述第一损失值和所述第二损失值之差,减小所述对比损失的含义可以理解为最小化所述第一损失值的同时最大化所述第二损失值,所述最小化第一损失值可以理解为使得第一文字识别网络的预测结果与正确文本标注信息对应的文本内容一致的可能性更大,所述最大化第二损失值,可以理解为使得第一文字识别网络的预测结果与易混淆文本标注信息对应的文本内容一致的可能性更小。
若训练所述待训练的第一文字识别网络时,通过所述第一样本图像和所述第二样本图像,则在基于所述第一损失值和所述第二损失值,训练所述第一文字识别网络时,可以先基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;再基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;然后基于所述目标损失值,训练所述第一文字识别网络。
这里,所述第一目标损失值可以是指上述公式中所述的目标损失值,即通过计算对比损失值,然后将第一损失值和对比损失值带入上述公式,计算得到第一目标损失值。
所述第二样本图像由于没有易混淆文本标注信息,因此可以认为所述第二样本图像的对比损失值为0。
在基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值时,可以将本次训练过程中使用的各个样本图像对应的目标损失值的平均值作为本次训练过程中的目标损失值。
本公开实施例提供的文字识别网络训练方法中,分别将第一样本图像的正确文本标注信息和易混淆文本标注信息作为监督数据,计算训练过程中的第一损失值和第二损失值,然后基于第一损失值和第二损失值,训练第一文字识别网络,这样由于第一文字识别网络在训练过程中使用的第一样本图像添加了易混淆文本标注信息,因此第一文字识别网络能够提升对于易混淆文本的识别能力,也即这种训练方法提升了第一文字识别网络的网络精度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文字识别网络训练方法对应的文字识别网络训练装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文字识别网络训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本公开实施例提供的一种文字识别网络训练装置的架构示意图,所述装置包括:获取模块301、第一确定模块302、第二确定模块303、以及训练模块304;其中,
获取模块301,用于获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
第一确定模块302,用于基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
第二确定模块303,用于基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
训练模块304,用于基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,所述获取模块301还用于根据以下方法确定所述样本图像集中的第一样本图像以及所述第一样本图像对应的易混淆文本标注信息:
将所述样本图像集中的目标样本图像输入至预先训练的第二文字识别网络中,确定所述目标样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于所述样本图像集中的样本图像和所述样本图像对应的正确文本标注信息训练得到的;
在基于所述目标样本图像的所述正确文本标注信息检测到,所述目标样本图像对应的预测文本内容中存在错误文本内容的情况下,将所述目标样本图像作为所述第一样本图像,将所述目标样本图像的预测文本内容作为所述第一样本图像的易混淆文本标注信息。
一种可能的实施方式中,所述待训练的第一文字识别网络为预先训练的第二文字识别网络,所述第二文字识别网络用于生成所述第一样本图像的易混淆文本标注信息。
一种可能的实施方式中,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,所述样本图像集中还包括,对应有正确文本标注的第二样本图像。
一种可能的实施方式中,所述训练模块304,在基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络时,用于:
基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;
基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;
基于所述目标损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,所述训练模块304,在基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值时,用于:
基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值;所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;
基于所述第一样本图像的第一损失值和所述对比损失值,确定所述第一目标损失值。
一种可能的实施方式中,所述训练模块304,在基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值时,用于:
将所述第一样本图像的第一损失值和所述第二损失值之差,作为所述对比损失值。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图4所示,为本公开实施例提供的计算机设备400的结构示意图,包括处理器401、存储器402、和总线403。其中,存储器402用于存储执行指令,包括内存4021和外部存储器4022;这里的内存4021也称内存储器,用于暂时存放处理器401中的运算数据,以及与硬盘等外部存储器4022交换的数据,处理器401通过内存4021与外部存储器4022进行数据交换,当计算机设备400运行时,处理器401与存储器402之间通过总线403通信,使得处理器401在执行以下指令:
获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,处理器401执行的指令中,所述方法还包括根据以下方法确定所述样本图像集中的第一样本图像以及所述第一样本图像对应的易混淆文本标注信息:
将所述样本图像集中的样本图像输入至预先训练的第二文字识别网络中,确定所述样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于样本图像和样本图像对应的正确文本标注信息训练得到的;
在基于任一样本图像的所述正确文本标注信息检测到,该样本图像对应的预测文本内容中存在错误文本内容的情况下,将该样本图像作为所述第一样本图像,将该样本图像的预测文本内容作为该样本图像的易混淆文本标注信息。
一种可能的实施方式中,处理器401执行的指令中,所述待训练的第一文字识别网络为预先训练的第二文字识别网络,所述第二文字识别网络用于生成所述第一样本图像的易混淆文本标注信息。
一种可能的实施方式中,处理器401执行的指令中,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,所述样本图像集中还包括,对应有正确文本标注的第二样本图像。
一种可能的实施方式中,处理器401执行的指令中,所述基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络,包括:
基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;
基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;
基于所述目标损失值,训练所述待训练的第一文字识别网络。
一种可能的实施方式中,处理器401执行的指令中,所述基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值,包括:
基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值;所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;
基于所述第一样本图像的第一损失值和所述对比损失值,确定所述第一目标损失值。
一种可能的实施方式中,处理器401执行的指令中,所述基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值,包括:
将所述第一样本图像的第一损失值和所述第二损失值之差,作为所述对比损失值。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文字识别网络训练方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文字识别网络训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文字识别网络训练方法,其特征在于,包括:
获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下方法确定所述样本图像集中的第一样本图像以及所述第一样本图像对应的易混淆文本标注信息:
将所述样本图像集中的目标样本图像输入至预先训练的第二文字识别网络中,确定所述目标样本图像对应的预测文本内容;其中,所述第二文字识别网络是基于所述样本图像集中的样本图像和所述样本图像对应的正确文本标注信息训练得到的;
在基于所述目标样本图像的所述正确文本标注信息检测到,所述目标样本图像对应的预测文本内容中存在错误文本内容的情况下,将所述目标样本图像作为所述第一样本图像,将所述目标样本图像的预测文本内容作为所述第一样本图像的易混淆文本标注信息。
3.根据权利要求1或2所述的方法,其特征在于,所述待训练的第一文字识别网络为所述预先训练的第二文字识别网络,所述第二文字识别网络用于生成所述第一样本图像的易混淆文本标注信息。
4.根据权利要求1至3任一所述的方法,其特征在于,在所述待训练的第一文字识别网络为未经训练的初始网络的情况下,所述样本图像集中还包括,对应有正确文本标注的第二样本图像。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络,包括:
基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值;以及,将所述第二样本图像对应的第一损失值作为所述第二样本图像的第二目标损失值;
基于所述第一目标损失值和所述第二目标损失值,确定本次训练过程中的目标损失值;
基于所述目标损失值,训练所述待训练的第一文字识别网络。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一样本图像的第一损失值和第二损失值,确定所述第一样本图像的第一目标损失值,包括:
基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值;所述对比损失值用于表示所述第一文字识别网络识别易混淆文本的能力;
基于所述第一样本图像的第一损失值和所述对比损失值,确定所述第一目标损失值。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一样本图像的第一损失值和所述第二损失值,确定对比损失值,包括:
将所述第一样本图像的第一损失值和所述第二损失值之差,作为所述对比损失值。
8.一种文字识别网络训练装置,其特征在于,包括:
获取模块,用于获取带有文字的样本图像集,其中,所述样本图像集中包括对应有正确文本标注信息和易混淆文本标注信息的第一样本图像;
第一确定模块,用于基于待训练的第一文字识别网络,确定所述第一样本图像对应的预测文本内容;
第二确定模块,用于基于所述正确文本标注信息和所述预测文本内容,确定以所述正确文本标注信息为监督信息时的第一损失值;以及基于所述易混淆文本标注信息和所述预测文本内容,确定以所述易混淆文本标注信息为监督信息时的第二损失值;
训练模块,用于基于所述第一损失值和所述第二损失值,训练所述待训练的第一文字识别网络。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的文字识别网络训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的文字识别网络训练方法的步骤。
CN202110997813.2A 2021-08-27 2021-08-27 文字识别网络训练方法、装置、计算机设备及存储介质 Pending CN113705568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110997813.2A CN113705568A (zh) 2021-08-27 2021-08-27 文字识别网络训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110997813.2A CN113705568A (zh) 2021-08-27 2021-08-27 文字识别网络训练方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113705568A true CN113705568A (zh) 2021-11-26

Family

ID=78656226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110997813.2A Pending CN113705568A (zh) 2021-08-27 2021-08-27 文字识别网络训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113705568A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469111A (zh) * 2023-06-08 2023-07-21 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116469111B (zh) * 2023-06-08 2023-09-15 江西师范大学 一种文字生成模型训练方法及目标文字生成方法

Similar Documents

Publication Publication Date Title
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN110837869A (zh) 图像分类模型训练方法、图像处理方法及装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN111858843A (zh) 一种文本分类方法及装置
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN111611386A (zh) 文本分类方法和装置
CN112149680A (zh) 错字检测识别方法、装置、电子设备及存储介质
CN112101346A (zh) 一种基于目标检测的验证码识别方法及装置
CN111737439A (zh) 一种问题生成方法及装置
CN115222061A (zh) 基于持续学习的联邦学习方法以及相关设备
CN113705568A (zh) 文字识别网络训练方法、装置、计算机设备及存储介质
CN111104800A (zh) 一种实体识别方法、装置、设备、存储介质和程序产品
CN114691525A (zh) 测试用例的选择方法及装置
CN113609865A (zh) 文本情感的识别方法、装置、电子设备及可读存储介质
Mathur et al. Analysis of Tweets for Cyberbullying Detection
CN111737982A (zh) 一种基于深度学习的汉语文本错别字检测方法
CN109885180B (zh) 纠错方法和装置、计算机可读介质
CN112052663A (zh) 客服语句质检方法及相关设备
CN114970490A (zh) 一种文本标注数据的质检方法、装置、电子设备以及存储介质
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN110909546B (zh) 一种文本数据的处理方法、装置、设备及介质
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination