CN113592045B - 从印刷体到手写体的模型自适应文本识别方法和系统 - Google Patents

从印刷体到手写体的模型自适应文本识别方法和系统 Download PDF

Info

Publication number
CN113592045B
CN113592045B CN202111158668.5A CN202111158668A CN113592045B CN 113592045 B CN113592045 B CN 113592045B CN 202111158668 A CN202111158668 A CN 202111158668A CN 113592045 B CN113592045 B CN 113592045B
Authority
CN
China
Prior art keywords
text
handwritten
training
module
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111158668.5A
Other languages
English (en)
Other versions
CN113592045A (zh
Inventor
张鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN202111158668.5A priority Critical patent/CN113592045B/zh
Publication of CN113592045A publication Critical patent/CN113592045A/zh
Application granted granted Critical
Publication of CN113592045B publication Critical patent/CN113592045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种从印刷体到手写体的模型自适应文本识别方法和系统,属于文本识别领域,主要包括以下两个阶段:在第一个阶段,使用印刷体文本数据集预训练出一个文本识别模型。在第二个阶段,基于正学习和负学习使用无标注的手写体图片对预训练得到的文本识别模型进行自适应训练。本发明在预训练模型的基础上基于无标注的手写体数据进行自适应训练,不需要标注额外的手写体数据,并且实现了超越普通印刷体到手写体的域自适应文本识别方法的效果。

Description

从印刷体到手写体的模型自适应文本识别方法和系统
技术领域
本发明涉及文本识别领域,具体涉及一种从印刷体到手写体的模型自适应文本识别方法和系统。
背景技术
手写文本,由于不同人的不同书写方式,具有很大的随机性风格。因此手写文本识别是文本识别领域中更为挑战性的任务。印刷体文本图片很容易通过合成模型进行合成,而手写文本图片的标注需要大量的人力物力,目前存在的有标注的手写体文本数据集的规模也比较小。因此,大规模印刷体文本数据集较之于手写体文本数据集更容易获取。
使用大规模印刷体文本数据集训练文本识别模型,然后通过模型自适应基于无标注的手写体文本数据集对模型进行进一步优化是非常省时省力的方式。
目前已有的从印刷体到手写体文本识别域自适应的方法较少,而且都是需要将印刷体数据与手写体数据一同对模型进行训练,并且目前已有的方法效果并不理想。而只从印刷体文本识别模型到手写体文本识别的模型自适应的方法并没有前人进行过研究。
综上所述,之前不存在从印刷体到手写体文本识别模型自适应的方法,目前的技术主要是将印刷体和手写体一同训练的方式,而且效果并不好。
发明内容
本发明的目的在于克服上述技术问题,提供一种从印刷体到手写体的模型自适应文本识别方法和系统,采用的具体技术方案如下:
第一个技术方案,一种从印刷体到手写体的模型自适应文本识别方法,包括如下步骤:
步骤1,获取大规模有标注的印刷体文本图片并统一尺寸,构成印刷体文本数据集;利用印刷体文本数据集对文本识别模型进行预训练,所述的文本识别模型包括正则化转换模块、视觉特征提取模块、序列建模模块和预测模块;
所述的正则化转换模块用于对输入图片进行正则化处理,视觉特征提取模块用于提取输入图片的视觉特征,序列建模模块和预测模块分别用于对输入图片的视觉特征进行编码和解码,生成输入图片中的每一个字符的置信度向量,采用束搜索策略生成每一个字符的最终预测置信度;
步骤2,获取无标注的手写体文本图片并统一尺寸,构成手写体文本数据集;筛选手写体文本数据集中的伪标签手写体图片并构建所有手写体图片的负标签,对步骤1预训练得到的文本识别模型进行二次训练,在所述的二次训练过程中,利用伪标签手写体图片进行正学习,利用负标签手写体图片进行负学习;
步骤3,将一定尺寸的待识别的手写体图片作为步骤2训练好的文本识别模型的输入,得到手写体图片中每一个字符的最终预测置信度并生成文本识别结果。
第二个技术方案,一种从印刷体到手写体的模型自适应文本识别系统,用于实现上述的从印刷体到手写体的模型自适应文本识别方法,所述的模型自适应文本识别系统包括:
文本识别模型模块,其包括正则化转换模块、视觉特征提取模块、序列建模模块和预测模块,所述的正则化转换模块用于对输入图片进行正则化处理,视觉特征提取模块用于提取输入图片的视觉特征,序列建模模块和预测模块分别用于对输入图片的视觉特征进行编码和解码,生成输入图片中每一个字符的置信度;
印刷体文本数据库模块,其用于获取大规模有标注的印刷体文本图片并统一尺寸;
手写体文本数据库模块,其用于获取无标注的手写体文本图片并统一尺寸,筛选手写体文本数据集中的伪标签手写体图片并构建所有手写体图片的负标签;
预训练模块,其用于利用印刷体文本数据库模块中的印刷体文本图片对文本识别模型进行预训练,得到预训练文本识别模型;
二次训练模块,其用于利用手写体文本数据库模块中的伪标签手写体图片对预训练文本识别模型进行正学习训练,以及利用手写体文本数据库模块中的所有手写体图片的负标签对预训练文本识别模型进行负学习训练,所述的正学习训练和负学习训练同时进行,得到二次训练文本识别模型;
手写文本识别模块,其用于获取二次训练文本识别模型,将一定尺寸的待识别的手写体图片作为输入,得到手写体图片中每一个字符的最终预测置信度并生成文本识别结果。
与现有技术相比,本发明的优势在于:
1.本发明通过使用大规模印刷体文本数据集训练文本识别模型,然后通过模型自适应方法,基于无标注的手写体文本数据集对模型进行优化;由于印刷体文本数据集中的印刷体文本图片很容易通过合成模型进行合成,数据集更加全面,保证了初步训练得到的印刷体文本识别模型的准确性,在二次训练过程中仅需对正则化模块和特征提取模块进行参数优化,且无需大量的人力物力去标注手写文本图片。
2.本发明基于序列预测模型的特点,基于预训练的文本识别模型筛选伪标签手写体图片,并构建所有手写体图片的负标签,使用正学习和负学习来实现从印刷体到手写体的模型自适应,能够将预训练好的印刷体文本识别模型转化为手写文本识别模型,与现有的域自适应模型相比,本发明明显降低了错词率和错字符率,提高了手写文本的识别准确性。
附图说明
图1是本发明实施例中示出的一种从印刷体到手写体的模型自适应文本识别方法的具体流程示意图。
图2是本发明本发明实施例中示出印刷体域到手写体域的示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步说明,使得本发明更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
现有技术的一种方案中,针对手写字体的识别,由于手写文本图片的标注需要大量的人力物力,目前存在的有标注的手写体文本数据集的规模也比较小,因此有人研究将印刷体文本数据集和手写体文本数据集一同训练文本识别模型,使得该文本识别模型具备同时识别印刷体和手写体文本的能力。但是,由于印刷体和手写体的风格迥然不同,在模型训练时同时关注印刷体文本特点和手写体文本特点是十分困难的,且该方式并无法解决手写体图片标注费时费力的问题,训练所得到的模型效果也不理想。
鉴于上述问题,如图2所示,本发明考虑先使用大规模印刷体文本数据集训练文本识别模型,然后通过模型自适应方法,基于无标注的手写体文本数据集对模型进行进一步优化,则是非常省时省力的方式。
如图1所示,本发明给出了一种从印刷体到手写体的模型自适应文本识别方法,主要包括如下步骤:
步骤一:借鉴前人的工作,构建一个文本识别模型,并使用大规模有标注的印刷体文本数据集对文本识别模型进行预训练。
在一种实施方式中,可以采用由正则化转换模块、视觉特征提取模块、序列建模模块和预测模块构成的文本识别模型。
步骤二:获取无标注手写体文本数据集的样本伪标签和负标签,对步骤一预训练得到的文本识别模型进行二次训练,其中利用伪标签手写体图片进行正学习,利用负标签手写体图片进行负学习。
步骤三:利用二次训练好的文本识别模型用作手写体文本识别。
下面分别对上述三个步骤的具体实施进行介绍。
(一)以上述中由正则化转换模块、视觉特征提取模块、序列建模模块和预测模块构成的文本识别模型为例。
正则化转换模块,由于输入的图片中的文本分布可能是不规则的,正则化转换模块用于对文本正则化,如采用空间转换网络(Spatial Transformer Network,STN)进行处理。
视觉特征提取模块,其用于提取正则化后的文本图片的视觉特征,得到的特征映射中的每一列都沿着输入图像的水平线有一个相应的可识别的接受域,这些特征被用来估计每个接受域上的字符。如采用残差卷积神经网络(ResNet)进行处理,在传统的ResNet网络结构中去掉分类器部分。
序列建模模块,其用于建模(编码)视觉特征序列。由于提取出的视觉特征是沿图片自左向右水平分布的特征,是具有时序语义关系的,在对其进行序列级别的建模时,可采用双向长短期记忆模型(BiLSTM)进行处理。
预测模块,其用于对建模(编码)后的视觉特征序列进行维度转换,并分类得到对应的标签,预测图片对应的字符序列。如采用基于注意力机制的序列预测方法进行预测,工作过程为:
引入注意力机制是用来学习文本图像的哪一部分与解码字符最相关。注意力机制是一个T步的处理过程。在时间步k时,注意力机制对于字符yk生成一个上下文向量ck
Figure 335812DEST_PATH_IMAGE001
其中,sk,i表示对应图片的第k个字符涉及到第i个建模后特征的概率,
Figure 721794DEST_PATH_IMAGE002
是sk,i 的归一化结果,fi是建模后的第i个特征,hk-1是时间步k-1的隐藏状态;
Figure 970372DEST_PATH_IMAGE003
、Wh、Wf是可学习的 参数,T表示转置,L表示建模后特征长度。
本发明的一种实施中,利用循环神经网络(RNN)进行解码,RNN为门控神经网络(GRU),在解码的时间步k时,GRU利用上下文向量ck、上一个时间步k-1隐藏状态hk-1和上一个时间步k-1预测的字符yk-1来产生一个新的隐藏状态hk
hk=GRU(hk-1, yk-1, ck)
然后当前预测字符yk的概率(置信度向量)计算如下:
Figure 568844DEST_PATH_IMAGE004
其中,g是softmax函数,E是一个嵌入矩阵,
Figure 320899DEST_PATH_IMAGE005
是字符yk-1的one-hot向量,Wo、Wd、 Wc是可学习的映射矩阵,tanh(.)是激活函数。
注意力机制用于获取当前预测字符的上下文向量,解码时结合当前预测字符的上下文向量和上一时刻的预测字符,得到当前预测字符的置信度向量。在文本识别任务中,预测标签包括26个字母、10个数字(0-9)、起始符和终止符,共计38个字符,置信度向量则是由38个字符的置信度组成的。因为每一个字符都是基于上一个字符来预测的,所以起始符用于第一个字符的预测。同时,对每一张图片而言,其包含的字符数目是不同的,所以需要一个终止符,当预测为终止符的时候代表序列预测结束。
得到置信度向量之后,在分类任务中,通常选择置信度向量中对应的置信最高的类作为分类结果,但是由于序列解码文本后面的字符是基于前面字符来计算得到的,有时候根据后面的字符可以更好的确定前面的字符,因此在预测模块中采用beam search策略,就是在解码时保持b(beam size,本实施例中使用的为3)个类别标签,然后分别去预测后面的内容,然后在得到的b*b个新的标签中选择b个从起始到当前综合置信度最大的标签,依次反复,直到预测结束。所以相较于直接选用置信度最大的类别的方法(贪心策略)而言,beam search策略可以纠正部分标签,但是被纠正的这些部分标签中被改变的字符的置信度会比较小,所以在选择伪标签时我们把被改变的字符的置信度去掉再计算整个序列的置信度。
针对由上述模块构成的文本识别模型,使用两个大型带标注的合成印刷体文本数据集(Synth90k和SynthText)进行模型训练。Synth90k数据集是一个包含九百万张英文合成印刷体图片的数据集,其包含的单词数量为大约九万个。SynthText数据集是一个包含大约五百五十万张英文合成印刷体图片的数据集。使用Synth90k和SynthText数据集按照1:1随机选择样例构造mini-batch进而对模型进行训练。
mini-batch是模型进行训练时采用的一种批处理方式,将印刷体文本数据集(Synth90k和SynthText)中的所有样本图片看做一个整体,每次分别从Synth90k和SynthText数据集中取出相同数量的样本图片作为一次训练的输入,这样可以将整体的样本图片分成若干份进行多次训练,每一次训练的样本图片数量设置为2的若干次方,如64、128、256、1024等等。此外,还可以在训练之前将文本图片的顺序打乱,为文本识别模型网络增加随机的因素等。
(二)采用印刷体文本数据集完成对文本识别模型的预训练之后,从手写体文本数据集中筛选伪标签和负标签的手写体图片,基于序列预测模型的特点,使用正学习和负学习来实现从印刷体到手写体的模型自适应,将训练好的印刷体文本识别模型转化为手写文本识别模型。
在筛选伪标签和负标签的手写体图片时,首先定义序列预测的置信度,基于上述预训练得到的文本识别模型,将手写体文本数据集(IAM)中的手写体样本图片作为输入,模型在预测出手写体样本图片中的每一个字母时都会有对应的置信度。本实施例中,在筛选过程中使用的是步骤一训练好的文本识别模型,模型参数不做改变。
在本发明的一种实施方式中,伪标签的选择方式如下:
假设手写体样本图片中第i个字符置信度为ci,预测到的序列长度为n,即该手写体样本图片中包含n个字符,对应终止符的置信度为cn+1,则预测得到的序列置信度c表示为:
Figure 579580DEST_PATH_IMAGE006
根据每一个手写体样本图片的置信度,设置伪标签的置信度阈值c>0.99,也就是说,将满足该条件的手写体样本图片标记为伪标签,用于后续的正学习过程。
另外,需要说明的是,由于上述中的beam search策略,基于序列解码本身的特性,beam search策略在解码过程中改变了部分标签,而使用beam search策略的预测准确率明显有所提高,但是被改变的标签置信度是将较小的标签置信度作为输出结果,而并非最大的置信度,因此我们把被改变的字符的置信度去掉再计算整个序列的置信度。具体为,调整被beam search策略改变的标签的置信度,排除被改变的字母标签所对应的置信度,进而对其他位置置信度取平均得到最终序列置信度。同时设置阈值c'>0.99,使用满足阈值条件的标签作为伪标签。
综上,结合使用直接伪标签和来自beam search策略的伪标签作为最终的伪标签。
对于准确的标签预测是具有难度的,但是对于某些标签一定不是对应标签的预测却更为容易。因此,本发明设计负标签用于优化模型,在本发明的一种实施方式中,伪标签的选择方式如下:
对于每一个手写体样本图片,对照其所有字符的真实标签分布和置信度分布,将置信度从大到小排序,并将处于第二、第三、第四位置处的字符预测标签作为字符的负标签。同时考虑到beam search策略将部分字符标签修改为非置信度最大位置处的字符标签,因此,需要从上述负标签中过滤掉被修改过的标签,将过滤后的负标签用于后续的负学习过程。
例如,针对手写体样本图片中的一个真实字符“a”,文本识别模型输出的字符预测置信度对应标签排序为:a、q、o、0…,对应置信度为0.6、0.2、0.15、0.04…,且不存在beamsearch策略修改的字符标签,那么我们就认为q、o、0为对应的负标签。若字符预测置信度对应标签中的第三个“o”是由beam search策略修改过的标签,则需要将其剔除,最终认为q、0为对应的负标签。所述的负标签为不正确但是具有一些置信度的标签,我们的训练目标是要将其置信度降为0。
将上述过程筛选得到的伪标签手写体样本图片和负标签手写体样本图片作为训练样本,对步骤一预训练得到的文本识别模型进行二次训练,在二次训练过程中,将预训练得到的正则化转换模块、视觉特征提取模块参数作为初始化参数,且作为二次训练的训练目标。将预训练得到的序列建模模块、预测模块参数固定,在二次训练过程中不做更新。这是由于序列建模模块、预测模块是用于对文本图片特征进行编码、解码的过程,编解码过程不受文本风格(印刷体风格和手写体风格)的影响,而不同风格的文本主要在于特征不同,因此需要对正则化转换模块、视觉特征提取模块的参数进行基于手写体风格的调整。
在二次训练过程中,将标记为伪标签和负标签的手写体样本图片作为输入,同时进行正学习和负学习,其中在正学习中,根据伪标签,使用交叉熵损失函数(Cross EntropyLoss)对模型进行优化训练;在负学习中,期望带有负标签的字符位置的置信度优化为0,因此使用所有负标签、以及1与负标签对应的置信度的差通过最大似然损失函数(NLLloss)来对模型进行优化训练。
所述的交叉熵损失函数为:
Figure 315455DEST_PATH_IMAGE007
其中,yi是伪标签中的第i个字符预测标签,pi是第i个字符预测标签的置信度,L1为交叉熵损失,训练目标是最大化伪标签对应的最终预测置信度。
所述的最大似然损失函数为:
Figure 983197DEST_PATH_IMAGE008
其中,
Figure 120917DEST_PATH_IMAGE009
是第i个负标签,
Figure 583122DEST_PATH_IMAGE010
是第i个负标签对应的置信度,L2为最大似然损失,训 练目标是最小化所有负标签对应的置信度。
将交叉熵损失和最大似然损失的加权和作为总损失:
L=L1+aL2
其中,a为权重,结合总损失对模型进行二次训练,优化正则化转换模块、视觉特征提取模块的参数,使用最终的优化后的模型作为手写文本的识别模型。
与前述的一种从印刷体到手写体的模型自适应文本识别方法的实施例相对应,本申请还提供了一种从印刷体到手写体的模型自适应文本识别系统的实施例,其包括:
文本识别模型模块,其包括正则化转换模块、视觉特征提取模块、序列建模模块和预测模块,所述的正则化转换模块用于对输入图片进行正则化处理,视觉特征提取模块用于提取输入图片的视觉特征,序列建模模块和预测模块分别用于对输入图片的视觉特征进行编码和解码,生成输入图片中每一个字符的置信度;
印刷体文本数据库模块,其用于获取大规模有标注的印刷体文本图片并统一尺寸;
手写体文本数据库模块,其用于获取无标注的手写体文本图片并统一尺寸,筛选手写体文本数据集中的伪标签手写体图片并构建所有手写体图片的负标签;
预训练模块,其用于利用印刷体文本数据库模块中的印刷体文本图片对文本识别模型进行预训练,得到预训练文本识别模型;
二次训练模块,其用于利用手写体文本数据库模块中的伪标签手写体图片对预训练文本识别模型进行正学习训练,以及利用手写体文本数据库模块中的所有手写体图片的负标签对预训练文本识别模型进行负学习训练,所述的正学习训练和负学习训练同时进行,得到二次训练文本识别模型;
手写文本识别模块,其用于获取二次训练文本识别模型,将一定尺寸的待识别的手写体图片作为输入,得到手写体图片中每一个字符的最终预测置信度并生成文本识别结果。
在本发明的一种实施方式中,手写体文本数据库模块需要筛选伪标签手写体图片,并构建所有手写体图片的负标签。
所述的伪标签手写体图片的筛选方法为:
利用步骤1中的预训练模型对手写体文本数据集中的所有手写体文本图片进行处理,生成每一个手写体文本图片的所有字符的最终预测置信度,计算所有字符的最终预测置信度的均值,将均值大于阈值的手写体文本图片标记为伪标签;
由于文本识别模型中的预测模块在基于束搜索策略的解码过程中改变了部分字符的最终预测标签,排除被改变标签的字符对应的最终预测置信度,计算其余字符最终预测置信度的均值,将均值大于阈值的手写体文本图片标记为伪标签;
利用正学习方法,结合所有标记为伪标签的手写体文本图片对文本识别模型进行训练。
所述的所有手写体图片的负标签构建方法为:
利用步骤1中的预训练模型对手写体文本数据集中的所有手写体文本图片进行处理,生成所有手写体文本图片中的每一个字符的置信度向量和最终预测置信度,将置信度向量中的值从大到小排序,并将处于第二、第三、第四位置处的置信度作为字符的初始负标签;
判断初始负标签中是否包括最终预测置信度,若包括,则说明文本识别模型中的预测模块在基于束搜索策略的解码过程中改变了该字符的最终预测标签,需要剔除被改变标签的字符对应的负标签,得到筛选后的每一个字符的最终负标签;
利用负学习方法,结合所有手写体文本图片对应的负标签,对文本识别模型进行训练。
在本发明的一种实施方式中,二次训练模块在执行训练任务时,将预训练得到的正则化转换模块、视觉特征提取模块参数作为初始化参数,且将初始化参数作为二次训练的待优化参数;将预训练得到的序列建模模块、预测模块参数固定,在二次训练过程中不做更新。
且,利用伪标签手写体图片进行正学习的过程中,采用交叉熵损失函数进行训练,训练目标是最大化伪标签对应的最终预测置信度;利用负标签手写体图片进行负学习的过程中,采用最大似然损失函数进行训练,训练目标是最小化所有负标签对应的置信度,并将两种损失函数的加权损失值作为最终损失。
在本发明的一种实施方式中,正则化转换模块、视觉特征提取模块、序列建模模块和预测模块可分别通过上述方法部分阐述的STN网络、ResNet网络、BiLSTM网络、RNN网络实现,所以相关之处参见方法实施例的部分说明即可,此处仅对RNN网络解码过程采用的束搜索策略进行说明。
束搜索策略具体为:先采用基于注意力机制的RNN网络得到当前预测字符的置信度向量,相关之处参见方法实施例的部分说明。之后,从当前预测字符的置信度向量中保留置信度最大的b个预测字符,基于b个当前预测字符生成下一时刻的b*b个预测字符,并从b*b个预测字符中筛选b个综合置信度最大的预测字符,循环直至预测结束;从每一个字符对应的b个预测字符中生成一个最终预测字符,将最终预测字符对应的置信度作为最终预测置信度。
对于系统实施例而言,由于其基本对应于方法实施例,所以未进行详细说明的部分参见方法实施例的说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为文本识别模型模块,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
本发明使用Synth90k和SynthText数据集作为源数据,使用IAM数据集作为目标数据进行了实验。
Synth90k数据集是一个包含九百万张英文合成印刷体图片的数据集,其包含的单词数量为大约九万个。SynthText数据集是一个包含大约五百五十万张英文合成印刷体图片的数据集。而IAM数据集是一个英文手写体文本数据集,由657个不同的写者完成,有20306个准确分割出的单词图片用做测试。
针对文本识别,本发明使用错词率WER和错字符率CER作为评价指标,在该指标中,WER和CER越小越好。本发明在IAM集上进行实验,并且与基线(什么都不做)以及现有技术SSDAN(域自适应方法)和ASSDA(域自适应方法)进行对比。
其中SSDAN方法源自Zhang Y, Nie S, Liu W, et al. equence-to-sequencedomain adaptation network for robust text image recognition[C]//Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:740-2749.
ASSDA方法源自Zhang Y, Nie S, Liang S, et al. Robust Text ImageRecognition via Adversarial Sequence-to-Sequence Domain Adaptation[J]. IEEETransactions on Image Processing, 2021, 30: 3922-3933.
这两种是目前应用较多且最为先进的自适应的方法,他们将有标签的印刷体图片数据和没有标签的手写体图片数据放在一起来训练模型。
模型效果的对比结果如表1所示。
表1 本发明与对照组在IAM测试集上的测试结果
Figure 806293DEST_PATH_IMAGE011
可见,本发明的方法与基线相比,错词率降低了12.63%,错字符率降低了9.97%,现有的SSDAN方法在基线的基础上提升有限,最先进的ASSDA方法在基线的基础上有了明显的效果提升,但依旧弱于本发明,说明了本发明的方法取得了有益的技术效果。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (8)

1.一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,包括如下步骤:
步骤1,获取大规模有标注的印刷体文本图片并统一尺寸,构成印刷体文本数据集;利用印刷体文本数据集对文本识别模型进行预训练,所述的文本识别模型包括正则化转换模块、视觉特征提取模块、序列建模模块和预测模块;
所述的正则化转换模块用于对输入图片进行正则化处理,视觉特征提取模块用于提取输入图片的视觉特征,序列建模模块和预测模块分别用于对输入图片的视觉特征进行编码和解码,生成输入图片中的每一个字符的置信度向量,采用束搜索策略生成每一个字符的最终预测置信度;
步骤2,获取无标注的手写体文本图片并统一尺寸,构成手写体文本数据集;筛选手写体文本数据集中的伪标签手写体图片并构建所有手写体图片的负标签,对步骤1预训练得到的文本识别模型进行二次训练,在所述的二次训练过程中,利用伪标签手写体图片进行正学习,利用负标签手写体图片进行负学习;
所述的伪标签手写体图片的筛选方法为:
利用步骤1中的预训练模型对手写体文本数据集中的所有手写体文本图片进行处理,生成每一个手写体文本图片的所有字符的最终预测置信度,计算所有字符的最终预测置信度的均值,将均值大于阈值的手写体文本图片标记为伪标签;
由于文本识别模型中的预测模块在基于束搜索策略的解码过程中改变了部分字符的最终预测标签,排除被改变标签的字符对应的最终预测置信度,计算其余字符最终预测置信度的均值,将均值大于阈值的手写体文本图片标记为伪标签;
利用正学习方法,结合所有标记为伪标签的手写体文本图片对文本识别模型进行训练;
所述的所有手写体图片的负标签构建方法为:
利用步骤1中的预训练模型对手写体文本数据集中的所有手写体文本图片进行处理,生成所有手写体文本图片中的每一个字符的置信度向量和最终预测置信度,将置信度向量中的值从大到小排序,并将处于第二、第三、第四位置处的置信度作为字符的初始负标签;
判断初始负标签中是否包括最终预测置信度,若包括,则说明文本识别模型中的预测模块在基于束搜索策略的解码过程中改变了该字符的最终预测标签,需要剔除被改变标签的字符对应的负标签,得到筛选后的每一个字符的最终负标签;
利用负学习方法,结合所有手写体文本图片对应的负标签,对文本识别模型进行训练;
步骤3,将一定尺寸的待识别的手写体图片作为步骤2训练好的文本识别模型的输入,得到手写体图片中每一个字符的最终预测置信度并生成文本识别结果。
2.根据权利要求1或所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,在步骤2所述的二次训练过程中,将预训练得到的正则化转换模块、视觉特征提取模块参数作为初始化参数,且将初始化参数作为二次训练的待优化参数;将预训练得到的序列建模模块、预测模块参数固定,在二次训练过程中不做更新。
3.根据权利要求1或所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,在步骤2所述的利用伪标签手写体图片进行正学习的过程中,采用交叉熵损失函数进行训练,训练目标是最大化伪标签对应的最终预测置信度;利用负标签手写体图片进行负学习的过程中,采用最大似然损失函数进行训练,训练目标是最小化所有负标签对应的置信度,并将两种损失函数的加权损失值作为最终损失。
4.根据权利要求1所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,所述的序列建模模块采用双向长短期记忆模型进行编码。
5.根据权利要求1所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,所述的预测模块采用基于注意力机制的序列预测方法进行解码,所述的注意力机制用于获取当前预测字符的上下文向量,解码时结合当前预测字符的上下文向量和上一时刻的预测字符,得到当前预测字符的置信度向量。
6.根据权利要求1或5所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,所述的束搜索策略具体为:从当前预测字符的置信度向量中保留置信度最大的b个预测字符,基于b个当前预测字符生成下一时刻的b*b个预测字符,并从b*b个预测字符中筛选b个综合置信度最大的预测字符,循环直至预测结束;从每一个字符对应的b个预测字符中生成一个最终预测字符,将最终预测字符对应的置信度作为最终预测置信度。
7.根据权利要求1所述的一种从印刷体到手写体的模型自适应文本识别方法,其特征在于,所述的正则化转换模块采用STN网络对输入图片进行空间变换。
8.一种从印刷体到手写体的模型自适应文本识别系统,其特征在于,用于实现权利要求1所述的从印刷体到手写体的模型自适应文本识别方法,所述的模型自适应文本识别系统包括:
文本识别模型模块,其包括正则化转换模块、视觉特征提取模块、序列建模模块和预测模块,所述的正则化转换模块用于对输入图片进行正则化处理,视觉特征提取模块用于提取输入图片的视觉特征,序列建模模块和预测模块分别用于对输入图片的视觉特征进行编码和解码,生成输入图片中每一个字符的置信度;
印刷体文本数据库模块,其用于获取大规模有标注的印刷体文本图片并统一尺寸;
手写体文本数据库模块,其用于获取无标注的手写体文本图片并统一尺寸,筛选手写体文本数据集中的伪标签手写体图片并构建所有手写体图片的负标签;
预训练模块,其用于利用印刷体文本数据库模块中的印刷体文本图片对文本识别模型进行预训练,得到预训练文本识别模型;
二次训练模块,其用于利用手写体文本数据库模块中的伪标签手写体图片对预训练文本识别模型进行正学习训练,以及利用手写体文本数据库模块中的所有手写体图片的负标签对预训练文本识别模型进行负学习训练,所述的正学习训练和负学习训练同时进行,得到二次训练文本识别模型;
手写文本识别模块,其用于获取二次训练文本识别模型,将一定尺寸的待识别的手写体图片作为输入,得到手写体图片中每一个字符的最终预测置信度并生成文本识别结果。
CN202111158668.5A 2021-09-30 2021-09-30 从印刷体到手写体的模型自适应文本识别方法和系统 Active CN113592045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111158668.5A CN113592045B (zh) 2021-09-30 2021-09-30 从印刷体到手写体的模型自适应文本识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111158668.5A CN113592045B (zh) 2021-09-30 2021-09-30 从印刷体到手写体的模型自适应文本识别方法和系统

Publications (2)

Publication Number Publication Date
CN113592045A CN113592045A (zh) 2021-11-02
CN113592045B true CN113592045B (zh) 2022-02-08

Family

ID=78242695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111158668.5A Active CN113592045B (zh) 2021-09-30 2021-09-30 从印刷体到手写体的模型自适应文本识别方法和系统

Country Status (1)

Country Link
CN (1) CN113592045B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797952B (zh) * 2023-02-09 2023-05-05 山东山大鸥玛软件股份有限公司 基于深度学习的手写英文行识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555317A (en) * 1992-08-18 1996-09-10 Eastman Kodak Company Supervised training augmented polynomial method and apparatus for character recognition
CN111027364A (zh) * 2019-04-29 2020-04-17 广东小天才科技有限公司 一种带印刷体干扰的听写内容识别方法及电子设备
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN113326826A (zh) * 2021-08-03 2021-08-31 新石器慧通(北京)科技有限公司 网络模型的训练方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335381B2 (en) * 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
CN106570518A (zh) * 2016-10-14 2017-04-19 上海新同惠自动化系统有限公司 一种中日文手写文本的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555317A (en) * 1992-08-18 1996-09-10 Eastman Kodak Company Supervised training augmented polynomial method and apparatus for character recognition
CN111027364A (zh) * 2019-04-29 2020-04-17 广东小天才科技有限公司 一种带印刷体干扰的听写内容识别方法及电子设备
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN113326826A (zh) * 2021-08-03 2021-08-31 新石器慧通(北京)科技有限公司 网络模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CNN based Transfer Learning for Historical Chinese Character Recognition;Yejun Tang等;《2016 12th IAPR Workshop on Document Analysis Systems》;20160613;第25-29页 *
基于迁移学习的发票号码识别研究;黄为新等;《软件导刊》;20210630;第20卷(第6期);第45-48页 *

Also Published As

Publication number Publication date
CN113592045A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN111552807A (zh) 一种短文本多标签分类方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN110705490B (zh) 视觉情感识别方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
Sarraf French word recognition through a quick survey on recurrent neural networks using long-short term memory RNN-LSTM
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
CN114048314A (zh) 一种自然语言隐写分析方法
Awal et al. Improving online handwritten mathematical expressions recognition with contextual modeling
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN112750128A (zh) 图像语义分割方法、装置、终端及可读存储介质
Hu et al. Scalable frame resolution for efficient continuous sign language recognition
Liu et al. Multi-digit recognition with convolutional neural network and long short-term memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant