CN113239967A

CN113239967A - 文字识别模型训练方法、识别方法、相关设备及存储介质

Info

Publication number: CN113239967A
Application number: CN202110401769.4A
Authority: CN
Inventors: 汤野骏
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-10

Abstract

本公开关于一种文字识别模型训练方法、识别方法、相关设备及存储介质，该方法包括获取初始文字特征提取模型和第一样本数据集，所述第一样本数据集包括属于不同语种的无标注的文本行图像样本；利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型；基于所述目标文字特征提取模型构建初始文字识别模型；获取第二样本数据集，所述第二样本数据集包括属于目标语种的标注的文本行图像样本；利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型。利用本公开实施例可以快速迁移学习得到目标文字识别模型，且能提高目标文字识别模型的文字识别精度。

Description

文字识别模型训练方法、识别方法、相关设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及文字识别模型训练方法、识别方法、相关设备及存储介质。

背景技术

随着深度学习技术的普及，基于深度学习的OCR(Optimal CharacterRecognition,光学字符识别)方法因为其优秀的识别性能被越来越多人采用。其中一种主流的框架是CRNN(Convolutional Recurrent Neural Network，递归神经网络)+CTC(Connectionist Temporal Classification，联结主义时间分类),该框架将文本行图像归一化为特定尺寸输入，如固定高度为32，并通过卷积神经网络提取图像的特征，将特征输入到编码器进行编码，如基于LSTM(Long Short-Term Memory，长短期记忆网络)的编码器，得到时序特征序列，再输入CTC解码器进行解码，最终得到该文本行图像的识别结果。

由于不同的语种拥有不同的字符集，比如英文有52个大小写字母，中文有3755个简体一级常用汉字，5401个繁体一级常用汉字等，当存在多种语种时，字符集会变得非常庞大，导致模型无法收敛，无法训练一个通识所有语种的OCR模型。因此需要针对每个语种，分别训练出相应语种的OCR模型，每个模型只针对该语种包含的字符进行分类。

而当训练多种语种的OCR模型时，需要对每一种语种分别收集标注样本，分别训练模型。这样做不仅成本较高，而且每种语种的识别精度也和收集的标注数据量直接相关，对于一些无法收集大量数据的小语种，训练出的模型效果会比较差。

发明内容

本公开提供一种文字识别模型的训练方法、装置、电子设备及存储介质，以至少解决相关技术中收集标注样本成本高，小语种的OCR模型效果差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种文字识别模型的训练方法，所述方法包括：

获取初始文字特征提取模型和第一样本数据集，所述第一样本数据集包括属于不同语种的无标注的文本行图像样本；

利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型；

构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定；

获取第二样本数据集，所述第二样本数据集包括属于目标语种的标注的文本行图像样本；

利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型。

可选的，所述构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定包括：

确定所述目标语种所在的目标语系；

获取第三样本数据集，所述第三样本数据集包括所述目标语系下不同语种的无标注的文本行图像样本；

利用所述第三样本数据集对所述目标文字特征提取模型进行无监督训练，得到更新后的目标文字特征提取模型；

根据更新后的目标文字特征提取模型，构建所述初始文字识别模型的文字特征提取层。

可选的，所述利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型包括：

在所述第二样本数据集中的文本行图像样本满足预设样本条件时，获取与所述目标语种对应的语料文本；

根据所述语料文本，生成包含有所述语料文本的文本行图像样本，得到所述第二样本数据集的补充样本数据集；

利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练。

可选的，所述获取与所述目标语种对应的语料文本包括：

获取所述第二样本数据集中出现频次小于等于预设频次的文字；

获取与所述目标语种对应的语料文本，其中，所述语料文本中包括出现频次小于等于所述预设频次的文字。

可选的，所述利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练包括：

利用所述第二样本数据集，以第一学习率对所述初始文字识别模型进行训练；

利用所述补充样本数据集，以第二学习率对使用所述第二样本数据集训练后的所述初始文字识别模型进行训练，所述第一学习率大于所述第二学习率。

可选的，所述利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型包括：

对所述第一样本数据集中的待处理文本行图像样本进行数据增强处理，得到第一文本行增强图像样本和第二文本行增强图像样本；

利用所述第一文本行增强图像样本和所述第二文本行增强图像样本，采用基于对比损失的无监督算法，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型。

可选的，所述初始文字识别模型还包括文字特征编码器和文字特征解码器，第二样本数据集中的文本行图像样本包括文字内容描述标签；

所述利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型包括：

利用所述文字特征提取层对所述第二样本数据集中的文本行图像样本进行文字特征提取，得到对应的文字特征；

利用所述特征编码器和所述特征解码器对所述文字特征进行处理，得到对应的文字识别结果；

基于所述文字识别结果和所述文字内容描述标签，确定所述初始文字识别模型的目标损失函数；

基于所述目标损失函数，调整所述初始文字识别模型的模型参数，得到用于识别所述目标语种的目标文字识别模型。

根据本公开实施例的第二方面，提供一种文字识别方法，所述方法包括：

获取待识别图像；

确定所述待识别图像所属的目标语种，获取与所述目标语种对应的目标文字识别模型；

对所述待识别图像进行归一化处理，得到与所述待识别图像对应的文本行图像；

利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型是采用本公开实施例的第一方面中任一所述方法训练得到。

根据本公开实施例的第三方面，提供一种文字识别模型的训练装置，所述装置包括：

第一训练数据获取模块，被配置为执行获取初始文字特征提取模型和第一样本数据集，所述第一样本数据集包括属于不同语种的无标注的文本行图像样本；

目标文字特征提取模型获取模块，被配置为执行利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型；

初始文字识别模型构建模块，被配置为执行构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定；

第二训练数据获取模块，被配置为执行获取第二样本数据集，所述第二样本数据集包括属于目标语种的标注的文本行图像样本；

目标文字识别模型获取模块，被配置为执行利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型。

可选的，所述初始文字识别模型构建模块包括：

目标语系确定单元，被配置为执行确定所述目标语种所在的目标语系；

第三样本数据集获取单元，被配置为执行获取第三样本数据集，所述第三样本数据集包括所述目标语系下不同语种的无标注的文本行图像样本；

目标文字特征提取模型更新单元，被配置为执行利用所述第三样本数据集对所述目标文字特征提取模型进行无监督训练，得到更新后的目标文字特征提取模型；

文字特征提取层构建单元，被配置为执行根据更新后的目标文字特征提取模型，构建所述初始文字识别模型的文字特征提取层。

可选的，所述目标文字识别模型获取模块包括：

语料文本获取单元，被配置为执行在所述第二样本数据集中的文本行图像样本满足预设样本条件时，获取与所述目标语种对应的语料文本；

补充样本数据集获取单元，被配置为执行根据所述语料文本，生成包含有所述语料文本的文本行图像样本，得到所述第二样本数据集的补充样本数据集；

初始文字识别模型训练单元，被配置为执行利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练。

可选的，所述语料文本获取单元包括：

文字获取子单元，被配置为执行获取所述第二样本数据集中出现频次小于等于预设频次的文字；

语料文本获取子单元，被配置为执行获取与所述目标语种对应的语料文本，其中，所述语料文本中包括出现频次小于等于所述预设频次的文字。

可选的，所述初始文字识别模型训练单元包括：

第一初始文字识别模型训练子单元，被配置为执行利用所述第二样本数据集，以第一学习率对所述初始文字识别模型进行训练；

第二初始文字识别模型训练子单元，被配置为执行利用所述补充样本数据集，以第二学习率对使用所述第二样本数据集训练后的所述初始文字识别模型进行训练，所述第一学习率大于所述第二学习率。

可选的，所述目标文字特征提取模型获取模块包括：

图像样本处理单元，被配置为执行对所述第一样本数据集中的待处理文本行图像样本进行数据增强处理，得到第一文本行增强图像样本和第二文本行增强图像样本；

无监督训练单元，被配置为执行利用所述第一文本行增强图像样本和所述第二文本行增强图像样本，采用基于对比损失的无监督算法，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型。

所述目标文字识别模型获取模块包括：

文字特征获取单元，被配置为执行利用所述文字特征提取层对所述第二样本数据集中的文本行图像样本进行文字特征提取，得到对应的文字特征；

文字识别结果获取单元，被配置为执行利用所述特征编码器和所述特征解码器对所述文字特征进行处理，得到对应的文字识别结果；

目标损失函数确定单元，被配置为执行基于所述文字识别结果和所述文字内容描述标签，确定所述初始文字识别模型的目标损失函数；

模型参数调整单元，被配置为执行基于所述目标损失函数，调整所述初始文字识别模型的模型参数，得到用于识别所述目标语种的目标文字识别模型。

根据本公开实施例的第四方面，提供一种文字识别装置，所述装置包括：

待识别图像获取模块，被配置为执行获取待识别图像；

目标文字识别模型获取模块，被配置为执行确定所述待识别图像所属的目标语种，获取与所述目标语种对应的目标文字识别模型；

待识别图像处理模块，被配置为执行对所述待识别图像进行归一化处理，得到与所述待识别图像对应的文本行图像；

图像检测模块，被配置为执行利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型是采用本公开实施例的第一方面中任一所述的文字识别模型的训练方法训练得到。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第七方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

利用各种不同语种的无标注的文本行图像样本数据对初始文字特征提取模型进行无监督训练，可以学习到不同语种的共通特征，再利用训练得到的目标文字特征提取模型构建目标语种的初始文字识别模型的特征提取层，以及利用目标语种的标注的文本行图像样本对初始文字识别模型进行监督训练，从而能够在小语种标注样本不多的情况下，利用特征提取层中从其他语种学习到的特征表达能力，快速迁移学习得到识别目标语种文字的目标文字识别模型，并且，能够通过自监督的方式让每个语种的目标文字识别模型都学习到其他语种样本中包含的信息，从而提高目标文字识别模型识别相应目标语种文字的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种文字识别模型的训练方法的流程示意图；

图2是根据一示例性实施例示出的一种利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型的流程示意图；

图3是根据一示例性实施例示出的初始文字识别模型的结构示意图；

图4是根据一示例性实施例示出的一种构建初始文字识别模型的流程示意图；

图5是根据一示例性实施例示出的一种文字识别模型的训练方法的流程示意图；

图6是根据一示例性实施例示出的一种利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型的流程示意图；

图7是根据一示例性实施例示出的一种获取与所述目标语种对应的语料文本的流程示意图；

图8是根据一示例性实施例示出的一种利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练的流程示意图；

图9是根据一示例性实施例示出的一种文字识别方法的流程示意图；

图10是根据一示例性实施例示出的一种文字识别模型的训练装置框图；

图11是根据一示例性实施例示出的一种文字识别装置框图；

图12是根据一示例性实施例示出的一种用于文字识别模型的训练的或用于文字识别的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

在一些应用场景下，需要对多种语种的文字进行识别，如中文、英语、葡语、西班牙语、阿拉伯语、泰语、印尼语、乌尔都语等。

如果按照现在的主流方法，识别多种语种的文字需要训练多个OCR模型，即针对每一种语种，需要收集等量的标注样本(如20万标注样本)，再分别对每一种语种建立字符集，训练各自的OCR模型。

而在现实场景下，有一部分语种拥有大量的标注数据，并且后续收集数据、标注数据也较简单，如中文、英文；而另一部分语种则很难获取标注数据，如阿拉伯语、乌尔都语等。导致训练中文、英文的OCR模型难度较低，而训练小语种的OCR模型的难度很高。不同语种的标注数据也无法交叉使用，如英文的标注数据对阿拉伯语的训练没有帮助。

鉴于此，本实施例提出一种文字识别模型的训练方法、文字识别方法、装置、电子设备以及存储介质。

图1是根据一示例性实施例示出的一种文字识别模型的训练方法的流程图，如图1所示，该训练方法包括以下步骤：

步骤S101：获取初始文字特征提取模型和第一样本数据集，所述第一样本数据集包括属于不同语种的无标注的文本行图像样本；

在本实施例中，所述初始文字特征提取模型可以通过所述第一样本数据集学习跨语种的共性视觉特征，如文字的笔画特征、字符特征以及书写顺序特征等，所述初始文字特征提取模型可以为卷积神经网络模型。

所述第一样本数据集是一个无监督样本训练集，所述第一样本数据集中可以包括数千万数量的来自不同语种的真实文本行图像样本，例如，可以包括中文、英语、葡语、西班牙语、阿拉伯语、泰语、印尼语、乌尔都语等所有能获取的语种的真实文本行图像样本。

所述第一样本数据集中的文本行图像样本可以直接使用通用文字检测模块输出的文字区域结果，不需要人工进行转写标注。每个图像样本是一个横排文本行图像样本，每一个横排文本行图像样本可被归一化为高度固定、长度可变的文本行图像样本，例如，每个文本行图像样本可以被归一化到32*X大小，其中，高度固定为32磅，宽度X可以不固定，即宽度可以变长。

步骤S103：利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型；

在本实施例中，如图2所示，所述利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型可以包括：

步骤S201：对所述第一样本数据集中的待处理文本行图像样本进行数据增强处理，得到第一文本行增强图像样本和第二文本行增强图像样本；

在本实施例中，可以对所述第一样本数据集中的待处理文本行图像样本进行数据增强处理，得到第一文本行增强图像样本和第二文本行增强图像样本，所述数据增强处理包括颜色数据增强、裁剪、反转、平移变换、旋转变换、添加高斯噪声等。

所述数据增强处理的次数可以根据需求决定，如对某一待处理文本行图像样本，可以对其进行两次随机数据增强处理，得到第一文本行增强图像样本，再对该待处理文本行图像样本进行两次随机数据增强处理，得到第二文本行增强图像样本。

需要说明的是，所述第二文本行增强样本不同于所述第一文本行增强样本。

步骤S203：利用所述第一文本行增强图像样本和所述第二文本行增强图像样本，采用基于对比损失的无监督算法，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型。

在本实施例中，所述初始文字特征提取模型可以包括编码层、动量编码层、队列层及损失函数层，其中，编码层和动量编码层可以通过动量的方式保持同步，所述队列层中包括各历史文本行增强样本向量。

在获得所述第一文本行增强图像样本和所述第二文本行增强图像样本之后，将所述第一文本行增强图像样本输入所述编码层，得到第一文本行增强图像样本向量，将所述第二文本行增强图像样本输入所述动量编码层，得到第二文本行增强图像样本向量。

然后，将所述第一文本行增强图像样本向量和所述第二文本行增强图像样本向量构成正样本对，将所述第二文本行增强图像样本向量和队列层中的各历史增强样本向量构成负样本对，输入所述损失函数层，所述损失函数层的损失函数将基于输入的正样本对和负样本对进行损失计算，并根据损失计算结果确定所述损失函数层是否收敛。

当所述损失函数层未收敛时，将进行损失反传，从而更新所述编码层的参数，并根据动量公式，更新所述动量编码层的参数。

当损失函数层未收敛，说明更新后的所述初始文字特征提取模型还需继续训练，此时，将选取所述第一样本数据集中的下一文本行图像样本，并对下一文本行图像样本进行随机增强处理，得到下一第一文本行增强图像样本和下一第二文本行增强图像样本，并利用所述下一第一文本行增强图像样本和所述下一第二文本行增强图像样本继续对更新后的所述初始文字特征提取模型进行训练，直至所述初始文字特征提取模型的损失函数层收敛，得到训练完毕的目标文字特征提取模型。

在训练时，所述第二文本行增强图像样本向量可以进入所述队列层，队头的历史增强样本向量出队，以维持队列层的长度K。

如此，可以将字典队列化，即将字典变成长度为K的队列，从而字典的大小不需要受每个批次图片集尺寸大小的约束，可以设置成任意大小，即保证了字典的大小与每个批次图片集尺寸大小的解耦。同时，采用了动量更新的方式，保证了在大数据集的训练下，模型仍然能够收敛。

在本实施例中，对所述第一样本数据集中的待处理文本行图像样本进行数据增强处理，并利用增强处理后的图像样本对初始文字特征提取模型进行无监督训练，不仅可以充分利用较低成本的无标注图像样本进行模型训练，而且基于对比损失的无监督算法可以有效拉近属于同一图像样本的增强图像样本，从而使得训练得到的目标文字特征提取模型能够更为准确地对图像中的文字进行特征提取。

步骤S105：构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定；

在一些实施例中，如图3所示，可以将所述目标文字特征提取模型中的编码层的结构和参数进行保留，并在该结构和参数的基础上，搭建特征编码器(如BiLSTM encoder)和特征解码器(如CTC decoder)，得到所述初始文字识别模型。

在另一些实施例中，如图4和图5所示，所述构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定还可以包括：

步骤S401：确定所述目标语种所在的目标语系；

在本实施例中，可以首先确定训练后的目标文字识别模型需要识别的目标语种，再根据不同语种在各个语系中的分类确定目标语种所在的目标语系。例如，确定训练后的目标文字识别模型用于识别葡语，由于葡语属于拉丁语系，那么确定目标语系为拉丁语系。

步骤S403：获取第三样本数据集，所述第三样本数据集包括所述目标语系下不同语种的无标注的文本行图像样本；

例如，当所述目标语种为葡语时，所述目标语系为拉丁语系，则所述第三样本数据集包括拉丁语系下不同语种的无标注的文本行图像样本，由于葡语、英语和西班牙语都属于拉丁语系，因此，所述第三样本数据集可以包括葡语、英语和西班牙等语种的无标注的文本行图像样本。

步骤S405：利用所述第三样本数据集对所述目标文字特征提取模型进行无监督训练，得到更新后的目标文字特征提取模型；

具体的，可以对所述第三样本数据集中的待处理文本行图像样本进行数据增强处理，得到第三文本行增强图像样本和第四文本行增强图像样本；接着，利用所述第三文本行增强图像样本和所述第四文本行增强图像样本，采用基于对比损失的无监督算法，对所述目标文字特征提取模型进行无监督训练，得到更新后的所述目标文字特征提取模型。

在本实施例中，可以通过控制更新所述目标文字特征提取模型时的学习率来控制模型的学习速度。由于第一样本数据集中包括了能获得的所有语种的文本行图片样本，因此，在模型训练时可以设置相对较高的学习率，以提高训练速度。由于所述目标文字特征提取模型已经在所述第一样本数据集上收敛，因此，可以使用相对较小的学习率在所述第三样本数据集上进行微调。

步骤S407：根据更新后的目标文字特征提取模型，构建所述初始文字识别模型的文字特征提取层。

在本实施例中，可以将更新后的所述目标文字特征提取模型中的编码层的结构和参数进行保留，并在该结构和参数的基础上，搭建特征编码器(如BiLSTM encoder)和特征解码器(如CTC decoder)，得到所述初始文字识别模型。

由于同一目标语系下不同语种之间具有相似的视觉特征，因此，采用本实施例构建的初始文字识别模型，可以从同一目标语系下的其他语种习得与所述目标语种共通的视觉特征，并且，本实施例通过使用相对较小的学习率在所述第三样本数据集上进行微调，从而可以充分的从同一目标语系下的其他语种习得与所述目标语种共通的视觉特征。基于此，本实施例中训练得到的目标文字识别模型相比直接采用目标文字特征提取模型构建并训练的目标文字识别模型，能够更加精确的对目标语种的文字进行识别。

步骤S107：获取第二样本数据集，所述第二样本数据集包括属于目标语种的标注的文本行图像样本；

在本实施例中，所述第二样本数据集中的每一个文本行图像样本都是横排文本行图像样本，所述第二样本数据集中的每一个文本行图像样本都包括图像和对应的文字内容描述标签。

具体的，每个文本行图像样本可以被归一化为高度固定、长度可变的文本行图像样本，例如，每个文本行图像样本可以被归一化到32*X大小，其中，高度固定为32磅，宽度X可以不固定，即宽度可以变长。

所述文字内容描述标签可以为一段字符串，该字符串用于描述图像中所包含的文字内容。

所述第二样本数据集中的文本行图像样本的数量与所述目标语种的类型有关，对于容易收集标注样本的语种如中文、英文语种而言，所述第二样本数据集中可以包括大量相应语种的标注的文本行图像样本。

对于不容易收集标注样本的语种如葡语等小语种而言，所述第二样本数据集中可以包括少量相应语种的标注的文本行图像样本。

另外，在训练不同语种的目标文字识别模型时，对于每一种语种，均需要建立一个字符集，该字符集包含了预期需要识别的该语种的所有文字类别，该字符集的长度也决定了目标文字识别模型最后的分类数量。例如，英语语种的字符集需包含52个文字类别(26个大写字母和26个小写字母)，最后用于识别英语语种的目标文字识别模型的分类类别也为52。再例如，中文有3501个简体汉字，那么，用于识别中英文的目标文字识别模型的分类类别就是3501个中文字符+52个英文字符+x个符号。

步骤S109：利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型。

在本实施例中，所述初始文字识别模型除所述特征提取层外，还可以包括特征编码器和特征解码器，第二样本数据集中的文本行图像样本包括文字内容描述标签；所述利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型可以包括：

步骤一：利用所述文字特征提取层对所述第二样本数据集中的文本行图像样本进行文字特征提取，得到对应的文字特征；

步骤二：利用所述特征编码器和所述特征解码器对所述文字特征进行处理，得到对应的文字识别结果；

步骤三：基于所述文字识别结果和所述文字内容描述标签，确定所述初始文字识别模型的目标损失函数；

步骤四：基于所述目标损失函数，调整所述初始文字识别模型的模型参数，得到用于识别属于所述目标语种的文字的目标文字识别模型。

其中，所述目标损失函数表征的是所述文字识别结果与所述文字内容描述标签之间的距离。

在训练过程中，当所述目标损失函数收敛时，停止对所述初始文字识别模型的模型参数的调整，并将训练至收敛的初始文字识别模型作为所述目标文字识别模型。

在本实施例中，通过利用属于目标语种的有标注的文本行图像样本对所述初始文字识别模型进行有监督模型训练，可以使得所述目标文字识别模型具有合适的模型参数，进而后续可以利用所述目标文字识别模型更为准确的识别出属于目标语种的文字。

在实际应用中，利用各种不同语种的无标注的文本行图像样本数据对初始文字特征提取模型进行无监督训练，可以学习到不同语种的共通特征，再利用训练得到的目标文字特征提取模型构建目标语种的初始文字识别模型的特征提取层，以及利用目标语种的标注的文本行图像样本对初始文字识别模型进行监督训练，从而能够在小语种标注样本不多的情况下，利用特征提取层中从其他语种学习到的特征表达能力，快速迁移学习得到识别目标语种文字的目标文字识别模型，并且，能够通过自监督的方式让每个语种的目标文字识别模型都学习到其他语种样本中包含的信息，从而提高目标文字识别模型识别相应目标语种文字的精度。

在一些实施例中，如图5和图6所示，所述利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型还可以包括：

步骤S601：在所述第二样本数据集中的文本行图像样本满足预设样本条件时，获取与所述目标语种对应的语料文本；

步骤S603：根据所述语料文本，生成包含有所述语料文本的文本行图像样本，得到所述第二样本数据集的补充样本数据集；

步骤S605：利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练。

在本实施例中，所述预设样本条件可以设置为所述第二样本数据集中的文本行图像样本为预设小语种(如阿拉伯语或乌尔多语等)的图像样本，或者，可以设置为所述第二样本数据集中的文本行图像样本的数量需小于等于预设样本数量。也即，在所述第二样本数据集中的文本行图像样本为预设小语种的图像样本时或所述第二样本数据集中的文本行图像样本的数量小于等于预设样本数量时，获取与所述目标语种对应的语料文本。

其中，所述语料文本可以是指在语言的实际使用中真实出现过的语言材料。

具体的，在步骤S601中，可以根据目标语种查询语料库，得到与所述目标语种对应的语料文本，还可以根据目标语种，使用网络信息获取工具对网络信息进行获取，得到与所述目标语种对应的语料文本。

当然，在本实施例中，还可以使用其他方法来获得与所述目标语种对应的文字的语料文本，如结合上述两种语料文本获取方式来获取语料文本。

在步骤S603中，生成包含有所述语料文本的文本行图像样本可以包括：生成所述语料文本的至少两个副本，至少两个副本的文本字体不同，例如，第一个副本中文本的字体为黑体，第二个副本中文本的字体为楷体；然后，将各个副本渲染到指定的背景上，得到与各个副本对应的文本行图像。例如，可将副本通过多种TTF(TrueTypeFont)字体文件，渲染到不同的背景上以形成文本行图像。

进一步的，在对各副本进行渲染时，可执行随机化处理，以使得生成的文本行图像之间存在一定差异，基于这样的样本进行模型训练，可以提高目标文字识别模型的识别精度。其中，所述随机化处理至少包括如下之一：随机添加噪声如高斯噪声、椒盐噪声等噪声、随机进行旋转如小角度旋转、随机进行文本行扭曲。

进一步的，在生成所述补充样本数据集时，可通过对渲染过程的控制，比如控制TTF字体、渲染时所使用的背景等，使得生成的补充样本数据集中，各补充样本的字体、背景样式尽可能拟合所述第二样本数据集中的样本分布。

在实际应用中，对于难以收集标注样本的小语种，用于训练的样本数据集通常非常小，因此，难以训练出精度合格的目标文字识别模型。通过结合该语种的语料文本生成虚拟的补充样本集进行训练，可以在小语种标注样本很少的情况下，快速迭代出精度合格的目标文字识别模型。

在一些实施例中，如图7所示，所述获取与所述目标语种对应的语料文本(即步骤S601)可以包括：

步骤S701：获取所述第二样本数据集中出现频次小于等于预设频次的文字；

步骤S703：获取与所述目标语种对应的语料文本，其中，所述语料文本中包括出现频次小于等于所述预设频次的文字。

在本实施例中，出现频次小于等于预设频次的文字可以是生僻字或繁体字。

在步骤S701中，可以通过字频分析工具对所述第二样本数据集进行分析，获取所述第二样本数据集中每个字出现的频率。所述预设频次可以根据所述目标文字识别模型的性能需求来设置，所述预设频次设置的越大，将可以获取包括更多生僻字或繁体字的语料文本。

在实际应用中，通过获取包括出现频次小于等于预设频次的文字，可以使得训练后的目标文字识别模型对生僻字或繁体字具有更好的识别效果。

在一些实施例中，如图8所示，所述利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练(即步骤S605)可以包括：

步骤S801：利用所述第二样本数据集，以第一学习率对所述初始文字识别模型进行训练；

步骤S803：利用所述补充样本数据集，以第二学习率对使用所述第二样本数据集训练后的所述初始文字识别模型进行训练，所述第一学习率大于所述第二学习率。

在本实施例中，可以首先采用所述第二样本数据集以较大的第一学习率训练所述初始文字识别模型，再采用所述补充样本数据集，以较小的第二学习率训练利用所述第二样本数据集训练后的所述初始文字识别模型。

在一个具体的实施例中，在对所述初始文字识别模型进行训练时，可以首先使用所述第二样本数据集以较大的第一学习率(如基础学习率0.01)训练源域模型，再使用所述补充样本数据集以较小的第二学习率(如基础学习率0.001)将源域模型迁移学习到补充样本数据集的目标域。如此，可以保证在所述补充样本数据集的数量远小于所述第二样本数据集的情况下，训练后的所述目标文字识别模型还能充分学习到所述补充样本数据集中的信息。

进一步的，在步骤S803之后，还可以利用所述第二样本数据集和所述补充样本数据集，共同对利用所述补充样本数据集训练得到的模型进行训练。具体的，可以同时利用所述第二样本数据集和所述补充样本数据集，以较小的第三学习率(如基础学习率0.001)对利用所述补充样本数据集训练得到的模型进行训练。如此，可以保证训练得到的模型在学习到补充样本数据集中信息的同时，也不破坏在所述第二样本数据集中学习到的信息。

通过本实施例，可以获得具有更高鲁棒性的目标文字识别模型，相比于按照常规方法仅使用第二样本数据集进行训练的目标文字识别模型，采用本公开的实施例训练的目标文字识别模型，明显具有更好的性能，其在鲁棒、泛化性方面优于按照传统方式训练得到的文字识别模型。

图9是根据一示例性实施例示出的一种文字识别方法的流程图，如图9所示，该方法包括以下步骤：

步骤S901：获取待识别图像；

步骤S903：确定所述待识别图像所属的目标语种，获取与所述目标语种对应的目标文字识别模型；

步骤S905：对所述待识别图像进行归一化处理，得到与所述待识别图像对应的文本行图像；

步骤S907：利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型采用上述实施例中任一所述的文字识别模型的训练方法训练得到。

在步骤S903中，可以调用语种识别模型对所述待识别图像上的文字进行语种识别，得到所述待识别图像上的文字所属的目标语种。

所述语种识别模型可以利用第四样本数据集对初始语种识别模型进行有监督训练获得，所述第四样本数据集中可以包括属于不同语种的且有语种标注信息的图像样本，所述初始语种识别模型可以为CNN模型，如此，训练得到的语种识别模型能够以用于对所述待识别图像上的文字进行目标语种识别，并获取与目标语种对应的目标文字识别模型。

例如，当所述待识别图像上的文字属于葡语时，通过所述语种识别模型，可以识别出所述待识别图像上文字所属的目标语种为葡语，并获取用于识别葡语文字的目标文字识别模型。

在步骤S905中，所述待识别图像可以被归一化为高度固定、长度可变的文本行图像样本，例如，所述待识别图像可以被归一化到32*X大小，其中，高度固定为32磅，宽度X可以不固定。

在步骤S907中，所述文字识别结果可以为一段字符串，该字符串用于描述所述待识别图像中所包含的文字内容。

在针对本实施例的一个实验中，所述待识别图像上文字对应的语种为葡语，所述目标文字识别模型为用于识别葡语文字的模型。

其中，用于识别葡语文字的目标文字识别模型的训练过程为，利用第一样本数据集对所述初始文字特征提取模型进行无监督训练，得到所述目标文字特征提取模型，其中，所述第一样本数据集包括属于英语和葡语的无标注的文本行图像样本，由于英语和葡语均属于拉丁语系，因此，并未再次利用属于同一拉丁语系的英语和葡语的文本行图像样本对所述目标文字特征提取模型进行更新；而后，利用所述目标文字特征提取模型构建所述初始文字识别模型，并利用第二样本数据集对初始文字识别模型进行有监督的训练，其中，所述第二样本数据集包括属于葡语的标注的文本行图像样本。

通过本实施例的实验发现，仅使用属于葡语的标注的文本行图像样本直接进行有监督训练得到的文字识别模型在葡语测试集上的正确率为79.2％，而使用本实施例的无监督训练加上有监督训练得到的目标文字识别模型在葡语测试集上的正确率为87.0％(+7.8％)。由此可见，本实施例提供的文字识别方法，可以提高对待识别图像中文字的识别精度。

图10是根据一示例性实施例示出的一种文字识别模型的训练装置框图。参照图10，该装置包括：

第一训练数据获取模块1010，被配置为执行获取初始文字特征提取模型和第一样本数据集，所述第一样本数据集包括属于不同语种的无标注的文本行图像样本；

目标文字特征提取模型获取模块1020，被配置为执行利用所述第一样本数据集，对所述初始文字特征提取模型进行无监督训练，得到目标文字特征提取模型；

初始文字识别模型构建模块1030，被配置为执行构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定；

第二训练数据获取模块1040，被配置为执行获取第二样本数据集，所述第二样本数据集包括属于目标语种的标注的文本行图像样本；

目标文字识别模型获取模块1050，被配置为执行利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型。

可选的，所述初始文字识别模型构建模块包括：

可选的，所述目标文字识别模型获取模块包括：

可选的，所述语料文本获取单元包括：

可选的，所述初始文字识别模型训练单元包括：

可选的，所述目标文字特征提取模型获取模块包括：

所述目标文字识别模型获取模块包括：

图11是根据一示例性实施例示出的一种文字识别装置框图。参照图11，该装置包括：

待识别图像获取模块1110，被配置为执行获取待识别图像；

目标文字识别模型获取模块1120，被配置为执行确定所述待识别图像所属的目标语种，获取与所述目标语种对应的目标文字识别模型；

待识别图像处理模块1130，被配置为执行对所述待识别图像进行归一化处理，得到与所述待识别图像对应的文本行图像；

图像检测模块1140，被配置为执行利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型是采用上述任一所述的文字识别模型的训练方法训练得到。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于模型训练或用于文字识别的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器、模型接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的模型接口用于与外部的终端通过模型连接通信。该计算机程序被处理器执行时以实现一种文字识别模型的训练方法或文字识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的训练方法或文字识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的训练方法或文字识别方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的训练方法或文字识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述构建初始文字识别模型，所述初始文字识别模型包括文字特征提取层，所述文字特征提取层根据所述目标文字特征提取模型确定包括：

确定所述目标语种所在的目标语系；

3.根据权利要求1所述的训练方法，其特征在于，所述利用所述第二样本数据集对所述初始文字识别模型进行训练，得到用于识别属于所述目标语种的文字的目标文字识别模型包括：

4.根据权利要求3所述的训练方法，其特征在于，所述获取与所述目标语种对应的语料文本包括：

5.根据权利要求3所述的训练方法，其特征在于，所述利用所述第二样本数据集和所述补充样本数据集对所述初始文字识别模型进行训练包括：

6.一种文字识别方法，其特征在于，所述方法包括：

获取待识别图像；

利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型是采用权利要求1-5任一所述的文字识别模型的训练方法训练得到。

7.一种文字识别模型的训练装置，其特征在于，所述装置包括：

8.一种文字识别装置，其特征在于，所述装置包括：

待识别图像获取模块，被配置为执行获取待识别图像；

图像检测模块，被配置为执行利用所述目标文字识别模型对所述待识别图像对应的文本行图像进行检测，得到与所述待识别图像对应的文字识别结果，其中，所述目标文字识别模型是采用权利要求1-5任一所述的文字识别模型的训练方法训练得到。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的训练方法或如权利要求6中所述的文字识别方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的训练方法或如权利要求6中所述的文字识别方法。