CN113254654A

CN113254654A - 模型训练、文本识别方法、装置、设备和介质

Info

Publication number: CN113254654A
Application number: CN202110754723.0A
Authority: CN
Inventors: 王翔; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-08-13
Anticipated expiration: 2041-07-05
Also published as: CN113254654B

Abstract

本公开涉及一种模型训练、文本识别方法、装置、设备和介质；其中，该方法包括：获取训练样本，训练样本包括文本图像；构建初始分类模型，并根据初始分类模型的输出结果确定出训练样本中每个字符对应的多维二值向量；其中，多维二值向量为包括至少两个概率值的二值向量，概率值用于指示训练样本中字符的类别概率；利用初始识别模型，根据训练样本中每个字符的多维二值向量，获得预测文本；基于预设损失函数，根据预测文本对初始分类模型和初始识别模型进行训练，获得训练后的文本识别模型。本公开实施例能够有效提高文本识别的准确性。

Description

模型训练、文本识别方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种模型训练、文本识别方法、装置、设备和介质。

背景技术

自然场景文字识别是从带文字的图片中识别出字符序列的过程（对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母）；识别过程中，除了图片背景复杂以及光照变化等因素外，识别输出空间的复杂性也是一大困难，由于文字由数量是由不固定的字母组成，因此，自然场景文字识别需要从图片中识别长度不固定的序列。

目前文字识别的主要方法是通过整体分析策略实现，即先将待识别文本图像编码，再进行序列解码直接得出整个字符串；但在具体应用过程中，其会出现识别结果多识别或漏识别字符的问题，导致文本识别准确度较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练、文本识别方法、装置、设备和介质。

第一方面，本公开提供了一种文本识别模型训练方法，包括：

获取训练样本，所述训练样本包括文本图像；

构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；

利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；

基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。

第二方面，本公开提供了一种文本识别方法，包括：

获取待识别的文本图像；

将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；

其中，所述文本识别模型基于如第一方面所述的文本识别模型训练方法训练得到。

第三方面，本公开提供了一种文本识别模型训练装置，包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括文本图像；

向量确定模块，用于构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；

预测文本确定模块，用于利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；

模型训练模块，用于基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。

第四方面，本公开提供了一种文本识别装置，包括：

图像获取模块，用于获取待识别的文本图像；

信息确定模块，用于将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；

第五方面，本公开还提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其特征在于，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器实现本实施例中的任一种所述的文本识别模型训练方法，或者实现本实施例中的任一种所述的文本识别方法。

第六方面，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行时实现本实施例中的任一种所述的文本识别模型训练方法，或者实现本实施例中的任一种所述的文本识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：能够根据确定出的图像中单字符的多维二值向量训练得出文本识别模型，从而使得文本识别模型针对输入的待识别图像会输出每个字符的识别结果，从而避免整体识别导致漏识或多识的问题，有效提高了文本识别准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图；

图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图；

图3是本公开实施例提供的一种文本识别方法的流程示意图；

图4是本公开实施例提供的一种文本识别模型训练装置的结构示意图；

图5是本公开实施例提供的一种文本识别装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

增量推理是为卷积神经网络中常用的一种加速方式，它主要是用于对变换很小的连续图像做推理，图像数量多，但每张图像之间的变换很小；增量推理就是每次只对变化的部分做前向计算，这样既可以极大减少计算量，也能降低前向推断时间。因此，本实施例中采用卷积循环神经网络（Convolutional Recurrent Neural Networks，CRNN）模型为基础，基于概率矩阵来表征文本字符，训练得到文本识别模型，从而解决CRNN模型文本识别过程中漏识或者多识的问题。

其中，CRNN从下至上，由卷积神经网络、循环神经网络和翻译层三部分组成；卷积神经网络负责从带文字的图片中提取特征，循环神经网络负责用卷积神经网络提取的特征进行序列预测，翻译层将循环神经网络得到的序列翻译为字母序列，目标函数选择“联结时序分类”（CTC）损失函数；CRNN可以针对不同类型的网络结构，将其进行端到端的训练。

以下参照附图描述本公开的方案。

图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图。本实施例可适用于训练文本识别模型的情况。本实施例方法可由文本识别模型训练装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。可实现本申请任意实施例所述的文本识别模型训练方法。如图1所示，该方法具体包括如下：

S110、获取训练样本，训练样本包括文本图像。

在本实施例中，文本图像为自然场景中拍摄或者采集得到的图像；由于拍摄设备或者采集装置的硬件条件受限，因此，获得的文本图像可能会存在图像受损或者变形等情况，文本图像可包括具有弯曲和扭曲的图像；例如，医学图像，或者视频中连续的图像帧等。

在本实施例中，可选的，训练样本包括文本图像的转录内容，本实施例方法还包括：

响应转录内容的字符串长度小于预设的第一长度值，将预设的占位符号添加至转录内容的末尾位置，得到标准长度的转录内容。

本实施例中，转录内容为对文本图像进行转录后得到文本图像中包含的每个单字符，其可通过转录人员对该文本图像中包含的每一字符串进行人工识别标注，以得出该文本图像的转录内容。具体的，也可通过文字识别软件（例如ocr识别软件）扫描文本图像，并对文字识别软件的输出的文字信息进行语义检验，得出文本图像的转录内容。

其中，预设的第一长度值为所有文本图像的转录内容中包含的最长字符串的长度值，一张文本图像对应于一个字符串长度值。占位符号为字符串中一个特殊符号，其不表示任何字符，仅是为了使得所有转录内容中的字符串长度一致，占位符号可设定为“￥”，该字符一般为不常用字符，以避免其与字符内容产生歧义而设置。

需要说明的是，本实施例中标准长度的转录内容包括文本图像的转录内容，或者，文本图像的转录内容加一定数量的占位符号。

本实施例通过占位符号统一各文本图像的转录内容的字符串长度值，以使得各文本图像的转录内容的字符段长度值相等，实现转录内容的字符长度统一。

S120、构建初始分类模型，并根据初始分类模型的输出结果确定出训练样本中每个字符对应的多维二值向量；其中，多维二值向量为包括至少两个概率值的二值向量，概率值用于指示训练样本中字符的类别概率。

在本实施例中，初始分类模型能够根据输入的文本图像输出该文本图像中每个字符对应的类别概率。

其中，初始分类模型可根据多个block块串联构成，且每一block块输出的特征映射的大小均不同。初始分类模型的分类数量可根据文本图像中每个字符对应的字符图像确定出。

示例性的，初始分类模型的主干网络可使用Resnet18，Resnet18网络由4个block块串联构建，每个block块包括若干层卷积操作；第一个block块输出的特征映射大小为原图的1/4，第二个block块输出的特征映射大小为原图1/8，第三个block块输出的特征映射大小为原图1/16，第四个block块输出的特征映射大小为原图1/32，每个block块输出的特征映射数量（即特征信息的数量）都为128，最后接两个全连接层。

其中，每个字符对应的多维二值向量是根据该字符对应的多个类别概率进行二值化处理后得到的向量。

S130、利用初始识别模型，根据训练样本中每个字符的多维二值向量，获得预测文本。

在本实施例中，初始识别模型为对文本图像进行文本信息识别的模型，能够根据输入的文本图像输出该文本图像中包含的每个单字符的信息。

其中，预测文本为用于模型训练的文本图像，且该文本图像中的每个字符均对应一个多维二值向量。

S140、基于预设损失函数，根据预测文本对初始分类模型和初始识别模型进行训练，获得训练后的文本识别模型。

在本实施例中，预设损失函数为模型是否训练合格的衡量标准，从而，有效保证训练得到的文本识别模型具有较高精度的识别结果。

其中，可将预测文本分训练集和验证集，利用训练集对初始分类模型和初始识别模型进行训练，得到文本识别模型，再用验证集对得到的文本识别模型进行验证，若验证合格，则得到训练后的文本识别模型。

本实施例通过设置初始分类模型和初始识别模型输出的向量形式为二值向量，一方面，简化了单字符对应的样本概率的向量形式，另一方面，二值向量之间的匹配识别速率远高于特征向量直接识别速率，进一步提高了字符的匹配效率。

本实施例能够根据确定出的图像中单字符的多维二值向量训练得出文本识别模型，从而使得文本识别模型针对输入的待识别图像会输出每个字符的识别结果，从而避免整体识别导致漏识或多识的问题，有效提高了文本识别准确性。

在本实施例中，可选的，基于预设损失函数，根据预测文本对初始分类模型和初始识别模型进行训练，包括：

基于预设损失函数，根据预测文本和训练样本的字符标签，确定损失值；

根据损失值调整模型参数直至模型收敛。

本实施例中，预设损失函数可使用多分类交叉熵损失函数；通过预设损失函数计算预测样本的文本信息与训练样本的字符标签的相似性，来验证文本识别模型的识别精度，以训练出稳定度高的文本识别模型。

其中，损失值为预测样本的文本信息与训练样本的字符标签的误差值，其可有效反映出文本识别模型的训练精度。

图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图。本实施例是在上述实施例的基础上，其中，步骤S120的一种可能实现的方式如下：

S1201、针对训练样本中的每个目标字符对应的字符图像，获取包含目标字符的部分图像信息的第一图像，利用初始分类模型根据第一图像确定目标字符对应的类别概率。

在本实施例中，第一图像可为对目标字符对应的字符图像进行多次遮掩截取得到的图像，能够有效表达出目标字符对应的字符图像的单独的部分图像信息。

S1202、重复执行利用滑动窗方式调整第一图像中的图像信息，并利用初始分类模型根据第一图像确定目标字符对应的类别概率的步骤，得到目标字符对应的至少两个类别概率。

在本实施例中，滑动窗为尺寸小于目标字符对应的字符图像的尺寸的一个窗口，滑动窗方式为利用滑动窗滑动遮掩目标字符对应的字符图像，得到多个隶属于目标字符对应的字符图像的第一图像。

本实施例对第一图像的数量不做限定。第一图像的数量可根据滑动窗口的滑动次数确定得出。

在本实施例中，可选的，利用滑动窗方式调整第一图像中的图像信息，包括：

基于预设方向，采用滑动窗口遮掩目标字符对应的字符图像中的局部图像信息，得到第一图像。

其中，预设方向为滑动窗口在目标字符对应的字符图像上进行滑动的方向，具体的，预设方向可设置为在目标字符对应的字符图像上从左至右，或者，可设置在目标字符对应的字符图像上从右至坐，或者，可设置在目标字符对应的字符图像上从上至下，或者，可设置在目标字符对应的字符图像上从下至上。

滑动窗口每滑动一次距离，即会得到一张目标字符对应的字符图像中的局部图像信息，将该图像信息作为第一图像。本实施例中，第一图像的数量可为一个或多个，本实施例对此不做限定。

从而，采用滑动窗口的方式对目标字符的字符图像进行局部选取，能够得到多张表达目标字符的字符图像的第一图像。

在本实施例中，可选的，利用初始分类模型根据第一图像确定目标字符对应的类别概率，包括：

将第一图像分别输入初始分类模型的至少两个串联的卷积层中，并将至少两个串联的卷积层的输出结果进行叠加，得到训练样本中目标字符的特征映射；

对训练样本中目标字符的特征映射进行卷积操作，得到训练样本中目标字符对应的类别概率。

其中，初始分类模型可包括：至少两个串联的卷积层部分和全连接层部分；其中，至少两个串联的卷积层部分输出的特征映射大小不同，且每个卷积层部分都包含多个block块。可根据卷积层部分输出的特征映射不同大小确保每一图像的特征信息的完整性。

初始分类模型中的多个block块可输出训练样本不同尺寸下对应的特征信息，将不同尺寸下对应的特征信息进行叠加，可完整反映出训练样本的特征信息，从而避免在识别过程中出现遗漏样本的特征信息的问题。

S1203、根据预设概率阈值对目标字符对应的至少两个类别概率进行二值化处理，得到目标字符对应的多维二值向量。

在本实施例中，对于一个目标字符对应的字符图像，在进行完一次模型分类后，可通过调整模型滑动窗口，改变该字符图像的输入尺寸，再得到一个该字符图像对应的二值向量；为了增加字符图像的区分度，可重复上述操作，得到多维二值向量。

示例性的，初始分类模型为1000分类的模型；随机挑选一个字符的字符图像作为目标字符的字符图像，然后以模型滑动窗口（模型滑动窗口的大小可调）掩盖这个字符图像的一部分，以改变其输入的图像尺寸，确定出每一模型滑动窗口下对应类别输出的概率值；假定输入次数为32，则可以得到32个概率值，对该32个概率值进行二值化处理，得到该字符对应的32维二值向量。从而，能够有效得出目标字符对应的多维二值向量。

图3是本公开实施例提供的一种文本识别方法的流程示意图。本实施例可适用于利用训练出的文本识别模型对文本图像进行识别的情况。本实施例方法可由文本识别装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。可实现本申请任意实施例所述的文本识别方法。如图3所示，该方法具体包括如下：

S310、获取待识别的文本图像。

在本实施例中，待识别的文本图像为需要进行文本信息识别的文本图像。获取待识别的文本图像可包括：响应于文本图像检测请求中携带的图像，得到待识别的文本图像；或者，从待识别的文本图像库中依据识别时间或者图像优先级选择一张或者多张图像作为待识别的文本图像。

S320、将待识别的文本图像输入文本识别模型中，并根据文本识别模型的输出结果确定待识别的文本图像的文本信息。

其中，文本识别模型基于如图1实施例或图2实施例的方法训练得到。

在本实施例中，文本识别模型是根据训练样本中包含字符的二值向量训练得到的；训练样本根据文本图像确定；训练样本中包含字符的二值向量根据初始分类模型确定得到。

其中，文本识别模型能够根据输入的文本图像输出该文本图像中包含的所有单字符，将多个单字符依据依存关系进行组合，即可得出对该文本图像中文本信息的识别结果。

初始分类模型可作为文本识别模型训练过程中识别结果的比对库，其可根据多维二值向量匹配出每一二值向量对应的单个字符；其中，多维二值向量的维数与待识别的文本图像中的字符个数有关，即多维二值向量的维数的数量可由文本图像中的字符个数与占位符数量之和得出，且占位符依次排列在文本图像的最后一个字符位置之后。

本实施例中，能够根据预先训练得到的文本识别模型对待识别的文本图像进行识别，从而，准确有效的识别出待识别的文本图像中包含的全部单字符。

图4是本公开实施例提供的一种文本识别模型训练装置的结构示意图；该装置配置于电子设备中，可实现本申请任意实施例所述的文本识别模型训练方法。该装置具体包括如下：

训练样本获取模块410，用于获取训练样本，所述训练样本包括文本图像；

向量确定模块420，用于构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；

预测文本确定模块430，用于利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；

模型训练模块440，用于基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。

在本实施例中，可选的，向量确定模块420，包括：概率确定单元和向量确定单元。

概率确定单元，用于针对训练样本中的每个目标字符对应的字符图像，获取包含目标字符的部分图像信息的第一图像，利用所述初始分类模型根据所述第一图像确定所述目标字符对应的类别概率；

概率确定单元，还用于重复执行利用滑动窗方式调整所述第一图像中的图像信息，并利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率的步骤，得到所述目标字符对应的至少两个类别概率；

向量确定单元，用于根据预设概率阈值对所述目标字符对应的至少两个类别概率进行二值化处理，得到所述目标字符对应的多维二值向量。

在本实施例中，可选的，概率确定单元，具体用于：

基于预设方向，采用滑动窗口遮掩所述目标字符对应的字符图像中的局部图像信息，得到所述第一图像。

在本实施例中，可选的，概率确定单元，具体用于：

将所述第一图像分别输入所述初始分类模型的至少两个串联的卷积层中，并将所述至少两个串联的卷积层的输出结果进行叠加，得到所述训练样本中目标字符的特征映射；

对所述训练样本中目标字符的特征映射进行卷积操作，得到所述训练样本中目标字符对应的类别概率。

在本实施例中，可选的，本实施例装置还包括：内容转录模块；

内容转录模块，用于响应所述转录内容的字符串长度小于预设的第一长度值，将预设的占位符号添加至所述转录内容的末尾位置，得到标准长度的转录内容。

在本实施例中，可选的，模型训练模块440，具体用于：

基于预设损失函数，根据所述预测文本和所述训练样本的字符标签，确定损失值；

根据所述损失值调整模型参数直至模型收敛。

通过本发明实施例的文本识别模型训练装置，能够根据图像中单字符向量训练得出文本识别模型，从而使得文本识别模型针对输入的待识别图像会输出每个字符的识别结果，从而避免整体识别导致漏识或多识的问题，有效提高了文本识别准确性。

本发明实施例所提供的文本识别模型训练装置可执行本发明任意实施例所提供的文本识别模型训练方法，具备执行方法相应的功能模块和有益效果。

图5是本公开实施例提供的一种文本识别装置的结构示意图；该装置配置于电子设备中，可实现本申请任意实施例所述的文本识别方法。该装置具体包括如下：

图像获取模块510，用于获取待识别的文本图像；

信息确定模块520，用于将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；

其中，所述文本识别模型基于如图1实施例或图2实施例的方法训练得到。

通过本发明实施例的文本识别装置，能够根据预先训练得到的文本识别模型对待识别的文本图像进行识别，从而，准确有效的识别出待识别的文本图像中包含的全部单字符。

本发明实施例所提供的文本识别装置可执行本发明任意实施例所提供的文本识别方法，具备执行方法相应的功能模块和有益效果。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图6，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别模型训练方法或者文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法文本识别模型训练方法或者文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本识别模型训练方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括文本图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量，包括：

针对训练样本中的每个目标字符对应的字符图像，获取包含目标字符的部分图像信息的第一图像，利用所述初始分类模型根据所述第一图像确定所述目标字符对应的类别概率；

重复执行利用滑动窗方式调整所述第一图像中的图像信息，并利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率的步骤，得到所述目标字符对应的至少两个类别概率；

根据预设概率阈值对所述目标字符对应的至少两个类别概率进行二值化处理，得到所述目标字符对应的多维二值向量。

3.根据权利要求2所述的方法，其特征在于，所述利用滑动窗方式调整所述第一图像中的图像信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述训练样本包括所述文本图像的转录内容，所述方法还包括：

响应所述转录内容的字符串长度小于预设的第一长度值，将预设的占位符号添加至所述转录内容的末尾位置，得到标准长度的转录内容。

6.根据权利要求1所述的方法，其特征在于，所述基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，包括：

根据所述损失值调整模型参数直至模型收敛。

7.一种文本识别方法，其特征在于，所述方法包括：

获取待识别的文本图像；

其中，所述文本识别模型基于如权利要求1至6任一项所述的方法训练得到。

8.一种文本识别模型训练装置，其特征在于，所述装置包括：

9.一种文本识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别的文本图像；

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其特征在于，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的文本识别模型训练方法，或者执行根据权利要求7中所述的文本识别方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的文本识别模型训练方法，或者执行根据权利要求7中所述的文本识别方法。