CN112200312A

CN112200312A - 文字识别模型的训练方法、装置及存储介质

Info

Publication number: CN112200312A
Application number: CN202010948394.9A
Authority: CN
Inventors: 汤野骏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-01-08

Abstract

本公开是关于文字识别模型的训练方法、装置及存储介质，涉及文字识别技术领域，用以提高文字识别模型的识别性能。本公开方法包括：获取用于对文字识别模型进行训练的第一样本集，所述第一样本集中的样本包括真实文本行图像；根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集；使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练。

Description

文字识别模型的训练方法、装置及存储介质

技术领域

本公开涉及文字识别技术领域，尤其涉及文字识别模型的训练方法、装置及存储介质。

背景技术

随着深度学习技术的普及，基于深度学习的文字识别方法因其优秀的识别性能被越来越多地采用。其中一种主流的文字识别算法的框架是CRNN+CTC,该框架将文本行图像归一化为特定尺寸作为文字识别模型的输入，如固定高度为32个高度单位(比如32磅)，通过卷积神经网络提取图像的特征，将特征输入到编码器进行编码，得到时序特征序列，再输入CTC解码器进行解码，最终得到该文本行图像的识别结果。其中，编码器可采用基于LSTM(Long Short-Term Memory，长短期记忆)的编码器。

通常来说，训练文字识别模型需要收集大量训练样本，训练样本的分布需要尽可能拟合真实测试样本的分布。当真实样本和训练样本分布一致时，文字识别模型在真实样本测试集上的性能表现优秀。但当真实样本和训练样本分布存在差异时，文字识别模型在真实样本测试集上会有明显的性能下降。

发明内容

本公开提供了文字识别模型的训练方法、装置及存储介质，以提高文字识别模型的识别性能。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文字识别模型的训练方法，包括：

获取用于对文字识别模型进行训练的第一样本集，所述第一样本集中的样本包括真实文本行图像；

根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集；

使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练。

在一些实现方式中，所述使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练，包括：

使用所述第一样本集对所述文字识别模型进行训练；

使用所述第二样本集，对使用所述第一样本集训练后的所述文字识别模型进行训练。

在一些实现方式中，使用所述第一样本集对所述文字识别模型进行训练时所采用的学习率，高于使用所述第二样本集对所述文字识别模型进行训练时所采用的学习率。

在一些实现方式中，所述生成包含有所述语料文本的文本行图像，包括：

生成所述语料文本的至少两个副本，其中至少两个副本的文本字体不同；

分别将各副本渲染到指定的背景上，得到各副本对应的文本行图像；其中，在对所述各副本进行渲染时，执行以下随机化处理中的至少一项：随机添加噪声、随机进行旋转、随机进行文本行扭曲。

在一些实现方式中，所述根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，包括：

获取所述第一样本集中出现频次低于第一阈值的字符；

根据所述出现频次低于所述第一阈值的字符，通过查询语料库和/或使用用于获取网络信息的工具进行网络信息获取，得到包含有所述出现频次低于所述第一阈值的字符的语料文本。

在一些实现方式中，还包括：若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像；所述第二样本集中还包括所述繁体字文本行图像。

在一些实现方式中，所述根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，包括：

从所述第一样本集中随机获得部分简体字文本行图像；

分别将所述部分简体字文本行图像中的简体字文本，转换为对应的繁体字文本；

根据所述繁体字文本，生成包含所述繁体字文本的繁体字文本行图像。

根据本公开实施例的第二方面，提供一种文字识别模型的训练装置，包括：

第一样本集获取单元，被配置为获取用于对文字识别模型进行训练的第一样本集，所述第一样本集中的样本包括真实文本行图像；

第二样本集生成单元，被配置为根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集；

模型训练单元，被配置为使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练。

在一些实现方式中，所述模型训练单元，被具体配置为：

使用所述第一样本集对所述文字识别模型进行训练；

在一些实现方式中，所述模型训练单元使用所述第一样本集对所述文字识别模型进行训练时所采用的学习率，高于使用所述第二样本集对所述文字识别模型进行训练时所采用的学习率。

在一些实现方式中，所述第二样本集生成单元，被具体配置为：

获取所述第一样本集中出现频次低于第一阈值的字符；

在一些实现方式中，所述第二样本集生成单元被进一步配置为：

若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像；

所述第二样本集中还包括所述繁体字文本行图像。

从所述第一样本集中随机获得部分简体字文本行图像；

根据本公开实施例的第三方面，提供一种文字识别模型的训练装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的文字识别模型的训练方法。

根据本公开实施例的第四方面，提供一种非易失性可读存储介质，当所述非易失性可读存储介质中的指令由文字识别模型的训练装置的处理器执行时，使得所述装置能够执行如上述第一方面中任一项所述的文字识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的上述实施例中，如果包含有真实文本行图像的第一样本集中存在出现频次低于第一阈值的字符，则生成包含有所述出现频次低于所述第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集，在进行模型训练时，使用所述第一样本集以及所述第二样本集，对文字识别模型进行训练。这样，通过使用第一样本集进行模型训练，可以实现对高频字的识别效果，在此基础上，还使用包含低频字(即出现频次低于第一阈值的字符)文本的第二样本集在进行模型训练，因此还可以提高对低频字的识别效果，从而可以提高文字识别模型的识别性能。

根据本公开实施例的第五方面，提供一种文字识别模型的训练方法，包括：

若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，得到第二样本集；

从所述第一样本集中随机获得部分简体字文本行图像；

使用所述第一样本集对所述文字识别模型进行训练；

根据本公开实施例的第六方面，提供一种文字识别模型的训练装置，包括：

第二样本集生成单元，被配置为若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，得到第二样本集；

从所述第一样本集中随机获得部分简体字文本行图像；

在一些实现方式中，所述模型训练单元，被具体配置为：

使用所述第一样本集对所述文字识别模型进行训练；

根据本公开实施例的第七方面，提供一种文字识别模型的训练装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第五方面中任一项所述的文字识别模型的训练方法。

根据本公开实施例的第八方面，提供一种非易失性可读存储介质，当所述非易失性可读存储介质中的指令由文字识别模型的训练装置的处理器执行时，使得所述装置能够执行如上述第五方面中任一项所述的文字识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的上述实施例中，如果包含有真实文本行图像的第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，得到第二样本集，在进行模型训练时，使用所述第一样本集以及所述第二样本集，对文字识别模型进行训练。这样，通过使用第一样本集进行模型训练，可以实现对简体字的识别效果，在此基础上，还使用包含繁体字文本的第二样本集在进行模型训练，因此还可以提高对繁体字的识别效果，从而可以提高文字识别模型的识别性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种文字识别模型训练方法的流程框图；

图2a、图2b是根据一示例性实施例示出的对文本行进行扭曲的示意图；

图3是根据一示例性实施例示出的一种文字识别模型训练方法的流程框图；

图4是根据一示例性实施例示出的一种文字识别模型训练方法的流程框图；

图5是根据一示例性实施例示出的文字识别模型训练装置的结构示意图；

图6是根据一示例性实施例示出的文字识别模型训练装置的结构示意图；

图7是根据一示例性实施例示出的文字识别模型训练装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本公开实施例中术语“多个”，指两个或两个以上。

为了便于本领域技术人员更好地理解本公开的技术方案，下面对本公开涉及的技术名词进行说明。

训练文字识别模型需要收集大量训练样本，如果真实样本和训练样本分布存在差异，则文字识别模型在真实样本测试集上会有明显的性能下降。

比如，如果按照业界主流的方法训练文字识别模型，由于训练样本的局限性，训练后的文字识别模型可能无法很好的识别训练集中出现频次较低的生僻词组。再比如，如果训练样本大部分是简体字，则训练后的文字识别模型无法很好的识别繁体字。

而在现实场景下，收集面面俱到的训练集是十分困难的，由于文本存在使用偏好等问题，无法避免的会出现使用频次较低的文本，使得用于训练文字识别模型的训练样本具有一定局限性，无法包含足够数量的包含有低频字和/或繁体字的训练样本，这就导致文字识别模型对低频字和/或繁体字的识别效果较差。

鉴于此，为了提高文字识别模型的鲁棒性，提高文字识别模型的性能，本公开的实施例提出基于样本增强的文字识别模型的训练方法、装置以及存储介质。

本公开的实施例中，可根据包含真实文本行样本的第一样本集，生成第二样本集，在对文字识别模型进行训练时，使用第一样本集以及第二样本集对文字识别模型进行训练。由于第二样本集中包含低频字和/或繁体字的文本行样本，因此可以使得训练后的文本识别模型对低频字和/或繁体字的识别性能得以提高。

其中，本公开实施例中的文字识别模型，可以是基于CRNN+CTC框架的文字识别模型，主要由三部分构成：CNN特征提取器、LSTM特征编码器、CTC特征解码器。

为了更清楚地理解本公开的实施例，下面首先对文字识别相关的名词术语进行说明：

词频：在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的次数。

语料：语料即语言材料。语料是语言学研究的内容，是构成语料库的基本单元。

语料库：语料库中存放了在语言的实际使用中真实出现过的语言材料。语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工(分析和处理)，才能成为有用的资源。

下面结合附图对本公开的实施例进行详细说明。

参见图1，根据一示例性实施例示出的一种文字识别模型训练方法的流程。该流程可由用于训练文字识别模型的装置来执行，该装置可由软件方式实现，也可由硬件方式实现，或者由软硬件结合的方式实现。

如图所示，该流程可包括如下步骤：

S101：获取用于对文字识别模型进行训练的第一样本集。

其中，所述第一样本集中的样本为真实文本行图像，可表示为训练集D_train。一般地，第一样本集中的样本大多是简体字文本行图像。所述第一样本集可以是预先建立的，也可以是在需要对文本识别模型进行训练时建立的，可采用常规方法建立第一样本集，本公开的实施例对第一样本集的建立方法不做限制。

第一样本集可由大量真实文本行图像(也称文本行样本)组成。对中文文字识别模型而言，如果期望训练后的文字识别模型具有较高的性能，大概需要约100万左右以上的真实文本行图像作为训练样本对该模型进行训练。

第一样本集中，每个文本行样本是一个横排文本行图像，包含文本行图像和对应的标签。其中，文本行图像可被归一化为高度固定、长度可变的文本行图像，比如可被归一为32*X大小。其中，高度为32磅(通过文字识别模型中的CRNN特征提取模块能将文本行样本高度压缩为1磅)，宽度X表示其可以不固定，即宽度为变长，比如宽度可以是10个字符宽度(X＝10)，也可以是20个字符宽度(X＝20)。一个文本行图像的标签标注了该文本行图像中的文本行所包含的中文字符。

S102：根据第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集。

该步骤中，可通过字频分析工具自动对第一样本集进行分析，获取第一样本集中每个字出现的频次，将出现频次低于第一阈值的字符标记为低频字。

其中，所述第一阈值可预先设定，具体可根据文字识别模型的性能要求来设置，比如，若要求文字识别模型对生僻字的识别性能较高，则可以将该第一阈值设置的较大，这样可以使得用于对该文字识别模型进行训练的第二样本集D_virtual(第二样本集的生成方法请参见后续描述)的规模更大，其样本分布更广泛，从而使得训练后的文字识别模型对生僻字具有较好的识别效果。比如，第一阈值可设定为tha＝100。

在一些实施例中，在获取到第一样本集中的低频字后，可根据低频字查询语料库，得到包含有该低频字的语料文本(比如词组或句子)。其中，语料库中可包含大量的真实语料，通过字符作为查询关键字可以搜索到包含相关字符的语料。由于语料库中的语料文本是实际使用中真实出现过的语言材料，因此采用该方法获得的包含有该低频字的语料文本具有一定语义，并且由于语料库中的语料的丰富性，可以根据一个低频字查询到多个包含有该低频字的语料文本，从而使得第二样本集中的文本行样本更为丰富。

在另一些实施例中，在获取到第一样本集中的低频字后，可根据低频字，使用用于获取网络信息的工具，比如网络信息获取工具，对网络信息进行获取得到包含有该低频字的语料文本。其中，网络信息获取工具是一种按照一定的规则，自动地获取万维网信息的程序或者脚本。基于万维网上信息是真实世界中的信息，且其信息的丰富性，可以根据一个低频字得到多个包含有该低频字的语料文本，从而使得第二样本集中的文本行样本更为丰富。

以上仅示例性地示出了两种获得语料文本的方法，本公开的实施例还可以采用其他方法获得包含有低频字的语料文本。当然，本公开的实施例中，也可以使用多种方法相结合的方式来获取包含有低频字的语料文本，比如既可以采用查语料库的方法也可以采用网络信息获取的方法，获得包含有低频字的语料文本。

本公开的实施例中，在S102中，生成包含有低频字的语料文本的文本行图像的过程，可包括：首先，生成包含有低频字的语料文本的至少一个副本，其中，至少两个副本的文本字体不同，比如，第一个副本中文本的字体为黑体，第二个副本中文本的字体为楷体。然后，分别将各副本渲染到指定的背景上，得到各副本对应的文本行图像。比如，可将副本通过多种TTF(TrueTypeFont)字体文件，渲染到不同的背景上以形成文本行图像。

进一步地，在将各副本渲染到指定的背景上，为了使得不同文本行图像存在一定差异，可以将不同的副本渲染到不同的背景上。

进一步地，在对各副本进行渲染时，可执行随机化处理，以使得生成的文本行图像之间存在一定差异，使得包含有低频字的文本行样本具有一定多样性，基于这样的样本进行模型训练，可以提高文字识别模型的识别准确性。其中，所述随机化处理，可包括以下三种随机化处理方法中的至少一种：

随机化处理方法1：随机添加噪声。

具体地，在对各副本进行渲染时，可随机添加诸如高斯噪声、椒盐噪声等噪声。其中，噪声种类和/或噪声强度，均可具有一定随机性，以使得各副本对应的文本行图像存在一定差异。

随机化处理方法2：随机进行旋转。

具体地，在对各副本进行渲染时，可对各副本进行随机旋转，使得各副本对应的文本行图像中的文本行的旋转角度存在一定差异。其中，各副本对应的旋转角度具有一定随机性，可设置旋转角度的上限和下限，使得各副本对应的文本行图像中的文本行的旋转角度在该上限和下限规定的范围内。

随机化处理方法3：随机进行文本行扭曲。

具体地，在对各副本进行渲染时，可对各副本的文本行进行随机扭曲。其中，一种文本行扭曲方法为：将文本行中各字符的位置在上下方向上有一定程度的错位，使得该文本行中各字符(图中的每个方框对应一个字符)的中心点不在一条直线上，如图2a所示。另一种文本扭曲方法为：将文本行中各字符的位置在上下方向上有一定程度的错位的同时，将文本行中的字符进行一定角度的旋转，如图2b所示。

生成包含有低频字的文本行图像(样本)后，可设置其标签，使得一个包含有低频字的文本行图像(样本)的标签标注该文本行图像中的文本行所包含的中文字符。

采用上述方法将包含有低频字的语料文本处理为对应的文本行图像后，即可得到第二样本集，即，该第二样本集中的样本是由上述包含有低频字的语料文本生成的。

本公开的实施例中，在生成第二样本集时，可通过对渲染过程的控制，比如控制TTF字体、渲染时所添加的噪声种类或噪声强度，渲染时所使用的背景等，使得生成的第二样本中，各样本的字体、背景样式尽可能拟合第一样本集中的样本分布。

本公开的实施例中，在生成第二样本集时，可通过控制网络信息获取工具所获取的包含有低频字的语料的数量，或者控制查询语料库时所获取的包含有低频字的语料的数量，或者控制一个包含有低频字的语料文本所对应的副本的数量，使得对于第二样本集中的每个低频字，其在第一样本集和第二样本集中出现的频次相加能够达到设定的数量，比如，在将出现频次低于100的字符确定为低频字的情况下，通过上述控制，可以使得该低频字在第一样本集和第二样本集中的出现频次之和大于或等于1000。通过上述方法获得的包含有低频字的语料具有多样性，从而可以使得训练得到的文字识别模型具有较高的识别准确性。

本公开的实施例中，通过设置合理的第一阈值，可以使得生成的第二样本集中的样本的数量在尽可能不破坏第一样本集数据平衡的基础上，尽可能增加低频字的数量，如将在第一样本集中出现的频次低于100的字符确定为低频字，以使得第二样本集中有足够的样本用于提高文本识别模型对生僻字的识别性能。

S103：使用第一样本集以及第二样本集，对文字识别模型进行训练。

本公开的实施例中，可以采用迁移学习的方法，使用第一样本集和第二样本集对文字识别模型进行训练，以保证文字识别模型能更好的学习到低频字中的信息。迁移学习是一种机器学习的方法，指的是一个预训练的模型被重新用在另一个任务中。

具体地，本公开的实施例中，采用迁移学习的方法，对文字识别模型进行训练的过程可包括：使用第一样本集对文字识别模型进行训练；使用第二样本集，对使用第一样本集训练后的文字识别模型进行训练。进一步地，还可使用第一样本集以及第二样本集，对使用第二样本集训练后的文字识别模型进行训练。

本公开的实施例中，可以通过控制训练文字识别模型时才有的学习率(learningrate)来控制模型的学习进度。其中，学习率越高，则模型的学习速度越快，学习率越低，则模型的学习速度越慢。

由于第一样本集中的样本数量较多，可以将使用第一样本集进行模型训练时所采用的学习率设置得高一些，以提高训练速度。由于文字识别模型已经在第一样本集上收敛，因此可以使用较小的学习率在第二样本集上进行微调。

具体地，使用第一样本集对文字识别模型进行训练时所采用的学习率为第一学习率，使用第二样本集对文字识别模型进行训练时所采用的学习率为第二学习率，使用第一样本集以及第二样本集对文字识别模型进行训练时所采用的学习率为第三学习率；其中，所述第一学习率分别大于所述第二学习率和所述第三学习率。

基于上述方法，作为一个例子，在对文字识别模型进行训练时，可首先使用第一样本集D_train，以较大的第一学习率(如基础学习率0.01)训练源域模型；再使用第二样本集D_virtual以较小的第二学习率(如基础学习率0.001)将源域模型迁移学习到低频字的目标域。该步骤能够保证在第二样本集D_virtual中的样本数量远低于第一样本集D_train的情况下，文字识别模型还能充分地学习到第二样本集的样本中的信息。最终使用第一样本集D_train和第二样本集D_virtual以较小的第三学习率(如基础学习率0.001)联合对该文字识别模型进行细调，该步骤能够保证文字识别模型在学习到目标域样本集(第二样本集)中信息的同时，也不破坏在第一样本集中学习到的信息。

通过上述文本识别模型的训练过程，能够获得具有高鲁棒性的文字识别模型。使用基于上述方法训练的文字识别模型进行文字识别，相比于按照常规方法仅使用第一样本集进行训练的文字识别模型相比，采用本公开的实施例训练的文字识别模型，在低频字的识别上明显具有更好的性能，其在鲁棒、泛化性方面优于按照传统方式训练得到的文字识别模型。

在采用本公开的实施例进行实验时发现，第一样本集D_train中大约包含1000万条目的真实样本，其中有约2500类字符为低频字符，按照传统方式直接使用第一样本集训练得到的文字识别模型M’，采用文字识别模型M’对在低频字符评估集上的正确率为10.31％，在高频字符评估集上的正确率为83.41％。按照本公开实施例提供的方法，生成约250万条目的第二样本集，在使用第一样本集和第二样本集进行迁移学习后，得到训练后的文字识别模型M，该文字识别模型M在低频字符评估集上的正确率为84.49％(+74.49％)，在高频字符评估集上的正确率为85.84％(+2.43％)。

可以看出，根据本公开的实施例，可以提高文字识别模型的泛化性，避免文字识别模型过拟合到原训练集(第一样本集)上，进一步地，还可对原训练集(第一样本集)中的高频字的识别性能有一定的性能提升。

参见图3，根据一示例性实施例示出的一种文字识别模型训练方法的流程。该流程可由用于训练文字识别模型的装置来执行，该装置可由软件方式实现，也可由硬件方式实现，或者由软硬件结合的方式实现。

如图所示，该流程可包括如下步骤：

S301：获取用于对文字识别模型进行训练的第一样本集。

其中，所述第一样本集中的样本为真实文本行图像，可表示为训练集D_train。一般地，第一样本集中的样本大多是简体字文本行图像，其中也有可能包含一定数量的繁体字文本行图像。所述第一样本集可以是预先建立的，也可以是在需要对文本识别模型进行训练时建立的。可采用常规方法建立第一样本集，本公开的实施例对第一样本集的建立方法不做限制。

第一样本集可由大量真实文本行图像(也称文本行样本)组成。对中文文字识别模型而言，如果使得训练后的文字识别模型具有较高的性能，大概需要约100万左右以上的真实文本行图像作为训练样本对该模型进行训练。

S302：若第一样本集中繁体字的出现频次低于第二阈值，则根据第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，得到第二样本集。

该步骤中，可对第一样本集中简体字和繁体字的出现频次分别进行统计。如果统计出繁体字出现的频次低于第二阈值，则说明第一样本集中的繁体字文本行的样本数量较少，使用第一样本集对文本识别模型进行训练，可能使得文本识别模型对繁体字的识别效果较差，因此需要生成包含有繁体字文本样本的第二样本集。

其中，第二阈值可以预先设定。第二阈值的取值，具体可根据文字识别模型的性能要求来设置，比如，若要求文字识别模型对繁体字的识别性能较高，则可以将该第二阈值设置的较大。

在一些实施例中，可根据第一样本集中的部分简体字文本行图像(样本)生成对应的繁体字文本图像(样本)。具体地，可首先从第一样本集中随机获得部分简体字文本行图像；再分别将该部分简体字文本行图像中的简体字文本，通过简繁转换工具转换为对应的繁体字文本；然后根据上述繁体字文本，生成包含这些繁体字文本的繁体字文本行图像，从而得到包含这些繁体字文本行图像的第二样本集。

上述过程中，在根据上述繁体字文本，生成包含这些繁体字文本的繁体字文本行图像的过程中，可以将繁体字文本渲染到指定的背景上，为了使得不同文本行图像存在一定差异，可以将不同的简体字文本渲染到不同的背景上。进一步地，在对繁体字文本进行渲染时，可执行随机化处理，以使得生成的文本行图像之间存在一定差异。其中，所述随机化处理的实现方式，可参见前述实施例中S102中的相关描述，此处不再重复。

生成繁体字文本行图像(样本)后，可设置其标签，使得一个繁体字文本行图像(样本)的标签标注该繁体字文本行图像中的文本行所包含的中文简体和/或繁体字字符。

通过上述方法生成的第二样本集中包含繁体字文本图像(样本)，并且由于这些繁体字文本图像(样本)是根据第一样本集中所包含的真实文本行图像中的文本行经过简体到繁体的转换得到的，因此第二样本集中的繁体字文本行语料具有一定语义。

本公开的实施例中，在生成第二样本集时，可通过对渲染过程的控制，比如控制渲染时所添加的噪声种类或噪声强度，渲染时所使用的背景等，使得生成的第二样本中，各样本的字体、背景样式尽可能拟合第一样本集中的样本分布。

本公开的实施例中，在生成第二样本集时，可控制从第一样本集中选取的简体字文本行图像的数量，使得对于第二样本集中的繁体字，其在第一样本集和第二样本集中出现的频次相加能够达到设定的数量。

本公开的实施例中，通过设置合理的第二阈值，可以使得生成的第二样本集中的样本的数量在尽可能不破坏第一样本集数据平衡的基础上，尽可能增加繁体字样本的数量，以使得第二样本集中有足够的样本用于提高文本识别模型对繁体字的识别性能。

S303：使用第一样本集以及第二样本集，对文字识别模型进行训练。

该步骤中，可以采用迁移学习的方法，使用第一样本集和第二样本集对文字识别模型进行训练，以保证文字识别模型能更好的学习到低频字中的信息。其中，根据第一样本集和第二样本集，采用迁移学习的方法对文字识别模型进行训练的具体实现过程，与前述实施例中S103中的相关内容基本相同，此处不再重复。

通过上述文本识别模型的训练过程，能够获得具有高鲁棒性的文字识别模型。使用基于上述方法训练的文字识别模型进行文字识别，相比于按照常规方法仅使用第一样本集进行训练的文字识别模型相比，采用本公开的实施例训练的文字识别模型，在繁体字的识别上明显具有更好的性能，其在鲁棒、泛化性方面优于按照传统方式训练得到的文字识别模型。

在本公开的另一些实施例中，可以将上述图1所示的流程和图3所示的流程相结合使用，以使得训练后的文字识别模型对生僻字和繁体字的识别性能均能有所提高。

其实现流程可参见图4。如图所示，该流程可包括如下步骤：

S401：获取用于对文字识别模型进行训练的第一样本集。其中，所述第一样本集中的样本为真实文本行图像。

S402：第一样本集中是否包含出现频次低于第一阈值的字符，以及第一样本集中繁体字的出现频次是否低于第二阈值。

其中，若第一样本集中包含出现频次低于第一阈值的字符，则转入S403；若第一样本集中繁体字的出现频次低于第二阈值，则转入S405；若第一样本集中包含出现频次低于第一阈值的字符，且第一样本集中繁体字的出现频次低于第二阈值，则转入S406；若第一样本集中未包含出现频次低于第一阈值的字符，且第一样本集中繁体字的出现频次不低于第二阈值，则转入S408。

S403：根据第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像。

S404：根据第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像。

S405：根据第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像；以及，根据第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像。

S406：生成第二样本集。

S407：使用第一样本集以及第二样本集，对文字识别模型进行训练。

S408：使用第一样本集对文字识别模型进行训练。

上述流程中各步骤的说明以及具体实现过程，可参见前述实施例的相关内容，此处不再重复。

基于相同的发明构思，本公开实施例还提供一种文字识别模型的训练装置，该装置可实现对文字识别模型的训练。

如图5所示，该装置可包括：第一样本集获取单元51、第二样本集生成单元52、模型训练单元53。

第一样本集获取单元51，被配置为获取用于对文字识别模型进行训练的第一样本集，所述第一样本集中的样本包括真实文本行图像；

第二样本集生成单元52，被配置为根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，并生成包含有所述语料文本的文本行图像，得到第二样本集；

模型训练单元53，被配置为使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练。

其中，模型训练单元53可将第一样本集以及第二样本集作为输入参数，输入到文字识别模型，以对该模型进行训练。进一步的，模型训练单元53还可配置模型训练相关的参数(比如学习率)，以使得该模型按照所配置的参数进行训练。

在一些实施例中，模型训练单元53，被具体配置为：使用所述第一样本集对所述文字识别模型进行训练；使用所述第二样本集，对使用所述第一样本集训练后的所述文字识别模型进行训练。

在一些实施例中，模型训练单元53使用所述第一样本集对所述文字识别模型进行训练时所采用的学习率，高于使用所述第二样本集对所述文字识别模型进行训练时所采用的学习率。

在一些实施例中，第二样本集生成单元52，被具体配置为：生成所述语料文本的至少两个副本，其中至少两个副本的文本字体不同；分别将各副本渲染到指定的背景上，得到各副本对应的文本行图像；其中，在对所述各副本进行渲染时，执行以下随机化处理中的至少一项：随机添加噪声、随机进行旋转、随机进行文本行扭曲。

在一些实施例中，第二样本集生成单元52，被具体配置为：获取所述第一样本集中出现频次低于第一阈值的字符；根据所述出现频次低于所述第一阈值的字符，通过查询语料库和/或使用用于获取网络信息的工具进行网络信息获取，得到包含有所述出现频次低于所述第一阈值的字符的语料文本。

在一些实施例中，第二样本集生成单元52，被进一步配置为：若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像；所述第二样本集中还包括所述繁体字文本行图像。

在一些实施例中，第二样本集生成单元52，被具体配置为：从所述第一样本集中随机获得部分简体字文本行图像；分别将所述部分简体字文本行图像中的简体字文本，转换为对应的繁体字文本；根据所述繁体字文本，生成包含所述繁体字文本的繁体字文本行图像。

关于上述图5所示的装置，其中各个组成部分所执行的操作以及所实现的功能的具体内容，可参见以下实施例提供的文字识别模型的训练流程中的相关描述，此处将不做详细阐述说明。

如图6所示，该装置可包括：第一样本集获取单元61、第二样本集生成单元62、模型训练单元63。

第一样本集获取单元61，被配置为获取用于对文字识别模型进行训练的第一样本集，所述第一样本集中的样本包括真实文本行图像；

第二样本集生成单元62，被配置为若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，得到第二样本集；

模型训练单元63，被配置为使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练。

其中，模型训练单元63可将第一样本集以及第二样本集作为输入参数，输入到文字识别模型，以对该模型进行训练。进一步的，模型训练单元63还可配置模型训练相关的参数(比如学习率)，以使得该模型按照所配置的参数进行训练。

在一些实施例中，第二样本集生成单元62，被具体配置为：从所述第一样本集中随机获得部分简体字文本行图像；分别将所述部分简体字文本行图像中的简体字文本，转换为对应的繁体字文本；根据所述繁体字文本，生成包含所述繁体字文本的繁体字文本行图像。

在一些实施例中，模型训练单元63，被具体配置为：使用所述第一样本集对所述文字识别模型进行训练；使用所述第二样本集，对使用所述第一样本集训练后的所述文字识别模型进行训练。

在一些实施例中，模型训练单元63使用所述第一样本集对所述文字识别模型进行训练时所采用的学习率，高于使用所述第二样本集对所述文字识别模型进行训练时所采用的学习率。

关于上述图6所示的装置，其中各个组成部分所执行的操作以及所实现的功能的具体内容，可参见以下实施例提供的文字识别模型的训练流程中的相关描述，此处将不做详细阐述说明。

基于相同的技术构思，本公开的实施例还提供了一种文字识别模型的训练装置。

图7是根据一示例性实施例示出的一种该装置700的框图，该装置包括：处理器701、用于存储处理器701可执行指令的存储器702。其中，处理器701被配置为执行指令，以实现本公开实施例中任意一种文字识别模型的训练方法。

在示例性实施例中，还提供了一种包括指令的非易失性可读存储介质，上述指令可由装置700的处理器701执行以完成上述方法。可选地，非易失性可读存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，当计算机程序产品在文字识别模型的训练装置上运行时，使得该装置执行实现本公开实施例上述任意一项的文字识别模型的训练方法或其可能涉及的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述使用所述第一样本集以及所述第二样本集，对所述文字识别模型进行训练，包括：

使用所述第一样本集对所述文字识别模型进行训练；

3.如权利要求2所述的方法，其特征在于，使用所述第一样本集对所述文字识别模型进行训练时所采用的学习率，高于使用所述第二样本集对所述文字识别模型进行训练时所采用的学习率。

4.如权利要求1所述的方法，其特征在于，所述生成包含有所述语料文本的文本行图像，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述第一样本集中出现频次低于第一阈值的字符，生成包含有所述出现频次低于所述第一阈值的字符的语料文本，包括：

获取所述第一样本集中出现频次低于第一阈值的字符；

6.如权利要求1-5中任一项所述的方法，其特征在于：

还包括：若所述第一样本集中繁体字的出现频次低于第二阈值，则根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像；

所述第二样本集中还包括所述繁体字文本行图像。

7.如权利要求6所述的方法，其特征在于，所述根据所述第一样本集中的部分简体字文本行图像生成对应的繁体字文本行图像，包括：

从所述第一样本集中随机获得部分简体字文本行图像；

8.一种文字识别模型的训练装置，其特征在于，包括：

9.一种文字识别模型的训练装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的文字识别模型的训练方法。

10.一种非易失性可读存储介质，其特征在于，当所述非易失性可读存储介质中的指令由文字识别模型的训练装置的处理器执行时，使得所述装置能够执行如权利要求1-7中任一项所述的文字识别模型的训练方法。