CN114022882A

CN114022882A - 文本识别模型训练、文本识别方法、装置、设备及介质

Info

Publication number: CN114022882A
Application number: CN202210000584.7A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-02-08
Anticipated expiration: 2042-01-04
Also published as: CN114022882B

Abstract

本公开提供一种文本识别模型训练方法、文本识别方法、装置、设备、介质及程序产品，该方法包括：获取训练样本，训练样本包括文本图像；建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果；每个候选字符串为对文本图像识别得到的一个候选识别结果；基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。通过生成与文本图像自适应的候选词典，即预设数量的候选字符串，从候选词典中再确定文本识别结果，可以降低文本图像识别的分类难度，提升文本识别的效率。

Description

文本识别模型训练、文本识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本识别模型训练方法、文本识别方法、装置、设备、介质及程序产品。

背景技术

自然场景文字识别是从带文字的图片中识别出字符序列的过程（对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母），识别过程中，除了图片背景复杂以及光照变化等因素外，识别输出空间的复杂性也是一大困难，由于不同图片中的待识别字符序列的字符数量不固定，因此，自然场景文字识别需要从图片中识别长度不固定的字符序列。

目前文字识别的主要方法是通过整体分析策略实现，即先将待识别文本图像编码，再进行序列解码直接得出整个字符串；但在具体应用过程中，对文本图像编码再解码得到识别结果的效率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别模型训练方法、文本识别方法、装置、设备、介质及程序产品。

根据本公开的第一方面，提供了一种文本识别模型训练方法，包括：

获取训练样本，训练样本包括文本图像；

建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果；每个候选字符串为对文本图像识别得到的一个候选识别结果；

基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

根据本公开的第二方面，提供了一种文本识别方法，包括：

获取待识别的文本图像；

通过文本识别模型对待识别的文本图像进行识别，得到待识别文本图像的文本识别结果；

其中，文本识别模型是根据所述第一方面所述的文本识别模型训练方法得到的。

根据本公开的第三方面，提供了一种文本识别模型训练装置，包括：获取模块、建立模块和训练模块；

获取模块，用于获取训练样本，训练样本包括文本图像；

建立模块，用于建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果；每个候选字符串为与文本图像对应的一个候选识别结果；

训练模块，用于基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

根据本公开的第四方面，提供了一种文本识别装置，包括：获取模块和识别模块；

获取模块，用于获取待识别的文本图像；

识别模块，用于通过文本识别模型对待识别的文本图像进行识别，得到待识别文本图像的文本识别结果；

根据本公开的第五方面，提供一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行第一方面所述的文本识别模型训练方法，或第二方面所述的文本识别方法。

根据本公开的第六方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的文本识别模型训练方法，或第二方面所述的文本识别方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现第一方面所述的文本识别模型训练方法，或第二方面所述的文本识别方法。

本公开实施例中提供的一个或多个技术方案与现有技术相比具有如下优点：本公开实施例中，通过基于文本图像生成预设数量的候选字符串（每个候选字符串为与所述文本图像对应的一个候选识别结果），并从预设数量的候选字符串中确定文本识别结果；即生成了与文本图像适应的候选词典（预设数量的候选字符串），从候选词典中再确定文本识别结果，可以降低文本图像识别的分类难度，提升文本识别的效率。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的文本识别模型训练方法的流程图之一；

图2示出了根据本公开示例性实施例的文本识别模型训练方法的流程图之二；

图3示出了根据本公开示例性实施例的文本识别模型训练方法的流程图之三；

图4示出了根据本公开示例性实施例的文本识别模型训练方法的流程图之四；

图5示出了根据本公开示例性实施例的初始网络模型的结构示意图；

图6示出了根据本公开示例性实施例的初始识别模型的结构示意图；

图7示出了根据本公开示例性实施例的文本识别方法的流程图；

图8示出了根据本公开示例性实施例的文本识别模型训练装置的示意性框图；

图9示出了根据本公开示例性实施例的文本识别装置的示意性框图；

图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

一般的文本图像，可以根据其书写反向及走势大致分为三种，正常的文本（直文本），带角度的倾斜文本，弯曲文本；所谓正常文本是指从左往右书写，所有的字大致在一条直线上且这条直线和水平方向几乎重合，带角度的倾斜文本是指，从左往右书写，所有的字大致在一条直线上且这条直线和水平方向有一定的夹角，弯曲文本是指，从左往右书写，但是字几乎都不在同一直线上，字的中心点连起来之后大致呈一条曲线。

自然场景文字识别需要从图片中识别长度不固定的序列。目前有两种解决思路，一种是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决；另一种是基于整体分析的策略，即序列到序列的方法，先将图像编码，然后进行序列解码直接得出整个字符串。上述第一种方法虽然有效但是却需要字符级别的标注，即每个字符在输入图像上的位置、以及信息都需要标注，这需要耗费大量的人工；第二种方法虽然标注简单，只需转录字符串即可，但是其可能存在识别结果多识别字符或漏识别字符的情况。

第一种方法的代表为图文识别模型（Convolutional Recurrent NeuralNetwork，CRNN）。CRNN从下至上，由卷积神经网络、循环神经网络和翻译层三部分组成，卷积神经网络负责从带文字的图片中提取特征，循环神经网络负责用卷积神经网络提取的特征进行序列预测，翻译层将循环神经网络得到的序列翻译为字母序列，目标函数选择联结时序分类（connectionist temporal classification，CTC）损失函数；CRNN的一大优点是尽管包含不同类型的网络结构，但是仍然能够被端到端的训练，目前在各种数据集上，CRNN性能优越，超过其他模型，自从提出至今，虽然已历经数年，但仍然经久不衰。

第二种方法的代表为经典网络结构（Transformer），它由编码器和解码器两个部分组成，其中解码器包括多个基础模块一堆叠，其中基础模块主要是由多头自注意力层、跳跃连接、层归一化和前馈神经网络组成，而解码器也是包括多个基础模块二，基础模块二与基础模块一不同的是其包括两层多头自注意力层，Transformer的设计不仅极大的加快网络训练和推理的时间，更是能有效提升各类任务的精度，其本是用于自然语言理解相关的任务中，但是由于其良好的性能，目前在计算机视觉相关的任务中也被广泛应用，同时在多个任务中取得了相当好的效果。

文本识别技术常用解码技术方案有两种，一种是基于已有字典构建词典的方式，即先得到识别结果，然后将识别结果与词典中的词进行比较然后找出相应的词或最相似的词，另一种是基于已有字典直接得到识别结果；基于词典的方式一般能获得更好的结果，但是却不常用，主要是如果词典过大，则比较搜索的过程中将会浪费大量时间，即使使用二叉树和二分搜索的等方式进行优化，也依然需要耗费大量时间和计算资源。

综上所述，文本识别有非常广泛的应用，其常见的两种方法都存在不同的问题，基于字符的方法标注成本高，基于序列的方法可能会有漏识别或多识别的问题，不同的文本图像上所表示的文本有直文本、倾斜文本和弯曲文本；CRNN模型是一种基于序列到序列进行文本识别的方法，它在精度和速度上取得了很好的平衡，但是它仍然有参数量过大，训练周期过长的问题存在，Transformer作为一种非常有效的编解码网络结构，已经在自然语言处理和计算机视觉等任务中取得了非常好的效果，基于字典的解码技术对于文本识别有更好的效果，但往往效率不佳，使用较少。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的一种文本识别模型训练方法的流程示意图，可以适用于对文本图像进行文本识别的模型的训练的场景。该文本识别模型训练方法可以由文本识别模型训练装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上。

如图1所示，本公开实施例提供的文本识别模型训练方法可以包括：

S101、获取训练样本，训练样本包括文本图像。

在本公开实施例中，文本图像为自然场景中拍摄或者采集得到的图像；由于拍摄设备或者采集装置的硬件条件受限，因此，获得的文本图像可能会存在图像受损或者变形等情况，文本图像为单行文本图像，可包括直文本、倾斜文本和弯曲文本图像，也包括常规的模糊、影印的文本图像，以及其他一些文本图像，本公开实施例不做限定。

示例性地，文本图像可以为医学图像，或者视频中连续的图像帧等。

在本公开实施例中，在训练模型之前，需要收集大量训练样本，该大量的训练样本中，可以包括不同类型的文本图像。

S102、建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果。

其中，每个候选字符串为与文本图像对应的一个候选识别结果。

其中，预设数量可以根据实际使用需求确定，例如可以根据文本图像中字符的数量去自适应调整，也可以是固定不变的，本公开实施例不做限定。例如，预设数量可以设置为几百。

示例性地，假设文本图像中字符数量为40，可以设置预设数量为200。

在本公开实施例中，基于文本图像生成的预设数量的候选字符，每个候选字符串为与文本图像对应的一个候选识别结果，也就是说，根据对文本图像进行识别的最终识别结果为该预设数量的候选字符串中的一个。即可以理解为基于文本图像生成与文本图像自适应的候选词典，从该候选词典中选择文本图像的识别结果，且候选词典中候选字符串的数量是有限的（远远小于字符种类的数量），且可以根据实际需要设置的，如此大大降低了图像文本识别过程中的分类难度。

S103、基于第一损失函数，根据所述训练样本对初始识别模型进行训练，得到文本识别模型。

其中，第一损失函数可以为联结时序分类（connectionist temporalclassification，CTC）损失函数、多分类交叉熵损失函数、均方损失函数等，具体可以根据实际使用需求确定，本公开实施例不做限定。

示例性地，第一损失函数为多分类交叉熵损失函数。

在本公开实施例中，第一损失函数为文本识别模型是否训练合格的衡量标准，从而，有效保证训练得到的文本识别模型具有较高精度的识别结果。可通过第一损失函数计算文本识别结果与文本图像对应的文本字符串的相似性，来验证文本识别模型的识别精度，以训练出稳定度高的文本识别模型。

在本公开实施例中，可以将上述S101中收集的大量训练样本分为训练集和验证集，利用训练集对初始识别模型进行训练，得到文本识别模型，再用验证集对得到的文本识别模型进行验证，若验证合格，则得到训练后的文本识别模型。

可以理解，由于中文字典是由汉字组成，大约有65000多个，即便是常用字也有几千个字，而中文的词是很难划分的，除了常用的词语之外，很多相连的字表达一个意思，但却不是一个词。因此如果假设一个待识别文本图像最大字符长度为40，字典数量为3000，则广义的全量词典中包括3000+3000²+3000³+……+3000³⁹+3000⁴⁰多个词，这导致在基于全量词典对待识别文本图像进行识别时，搜索空间过大，识别难度过大，识别效率较低，而且识别精度也会较差。

本公开实施例中，基于初始识别模型，先根据文本图像生成预设数量的候选字符串，再从预设数量的候选字符串中识别出文本识别结果（即最终识别结果），因为初始识别模型的参数是可以根据梯度反向传播进行更新调整的（即通过对初始识别模型的训练，对初始识别模型的参数进行调整，得到文本识别模型），因此，本方案可以通过模型学习的方法，提高文本识别的灵活性和准确性。

因此，本公开实施例中，先基于初始识别模型为文本图像生成一个自适应的候选词典（包含预设数量的候选字符串，每个候选字符串为对文本图像对应的一个候选识别结果），这个自适应的候选词典中候选识别结果数量有限，搜索范围变小，而且是针对文本图像的候选词典，因此再从自适应的候选词典中确定文本识别结果较容易，从而降低了搜索难度，可以提高识别效率和识别精度。

可选地，训练样本还包括文本图像对应的文本字符串；初始识别模型具体用于基于文本图像生成预设数量的候选字符串，并确定预设数量的候选字符串对应的匹配概率向量，以及基于匹配概率向量确定文本识别结果；其中，匹配概率向量中的每个元素对应一个候选字符串与文本字符串的匹配概率值，匹配概率值最大的候选字符串为文本识别结果。

可以理解，训练样本包括文本图像和文本图像对应的文本字符串。因此，在获取大量训练样本时，除了按照上述S101中收集大量文本图像之外，还需要对每个文本图像进行人工标注（即标注其上的文本字符信息），即标注文本图像中的整个字符序列，得到与文本图像对应的文本字符串。同时，可以根据标注信息建立基础字典，基础字典中只包括独立的字，通过标注序列进行单字符的集合与操作即可得到。

可以理解，在基于初始训练模型，生成预设数量的候选字符串之后，可以确定每个候选字符串与文本字符串的匹配概率值，从而得到预设数量的候选字符串对应的匹配概率向量，然后将匹配概率向量中匹配概率值最大的元素对应的候选字符串确定为最终的文本识别结果。

本申请实施例中，在文本识别模型训练的过程中，根据每个候选字符串与文本字符串的匹配概率值，将匹配概率值最大的候选字符串确定为文本识别结果，比较易于实现，可以提高识别效率。

可选地，初始识别模型包括第一模型和第二模型；第一模型用于基于文本图像生成概率矩阵，概率矩阵包括文本图像中每个字符对应的概率向量，一个字符对应的概率向量中的每个元素为一个候选字符与该一个字符的匹配概率值；第二模型用于基于概率矩阵生成预设数量的候选字符串，并确定预设数量的候选字符串对应的匹配概率向量。

可以理解，概率矩阵为一个M*N的矩阵，由M个1*N的向量组成，概率矩阵中，每个字符对应的概率向量的排列顺序与该每个字符在文本图像中的排列顺序一致，以保证识别结果的准确率。

其中，M为文本图像中字符的数量，也即文本字符串的长度（M为正整数），N为文本图像中每个字符对应的候选字符的数量（N为大于1的整数），1* N的向量中的每个元素为文本图像中对应的一个字符与每个候选字符的匹配概率值。也就是说，先根据文本图像中每个字符的特征为该每个字符匹配了N个候选字符，该每个字符即为该N个候选字符中的一个。

本公开实施例中，基于文本图像生成概率矩阵，基于概率矩阵生成预设数量的候选字符串，可以保证预设数量的候选字符串中包括文本图像的准确识别结果。

可选地，每个字符对应的概率向量的维度可以是预设的，也可以与上述自适应候选词典的的大小相同，即为每个字符对应的概率向量的维度为预设数量，具体可以根据实际情况确定，本公开实施例不做限定。

可选地，第二模型包括自适应候选词典生成单元，第一词嵌入层、第一循环神经网络和第一全连接层；自适应候选词典生成单元用于基于概率矩阵生成预设数量的候选字符串，第一词嵌入层和第一循环神经网络用于获取预设数量的拼接字符串对应的数值特征向量，第一全连接层用于根据数值特征向量确定匹配概率向量；其中，每个拼接字符串根据一个候选字符串与文本字符串拼接得到。

可以理解，自适应候选词典生成单元的输入为概率矩阵，输出为预设数量的候选字符串；第一词嵌入层和第一循环神经网络的输入为预设数量的拼接字符串，输出为拼接字符串对应的数值特征向量；第一全连接层的输入为数值特征向量，输出为概率向量。

其中，词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了词向量。第一词嵌入层可以为基于One-hot编码、信息检索(IR)技术、分布式表示等词嵌入方法生成的，此处不做限定。示例性地，第一词嵌入层由一个词嵌入层组成。

其中，第一循环神经网络可以为基于循环神经网络（Recurrent NeuralNetwork）、长短期记忆网络（Long Short-Term Memory，LSTM）、门控循环单元（GatedRecurrent Unit，GRU）等生成的。

示例性地，第一循环神经网络由可以由至少一层双向LSTM组成，例如第一循环神经网络由两层双向LSTM组成。

其中，全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。第一全连接层可以由至少一个全连接层组成，示例性地，第一全连接层为两个全连接层。

其中，一个拼接字符串即为一个候选字符串与文本字符串拼接在一起，本公开实施例中，通过第一词嵌入层，即可以将一个候选字符串和文本字符串这两个字符串转成数字向量表示之后连在一起，得到一个拼接字符串的分布式数字向量表示。

示例性地，通过第一词嵌入层，将一个候选字符串转换成数字向量，例如为[1,2,3]，将文本字符串换成数字向量，例如为[3,4,5]，并将一个候选字符串对应的数字向量与文本字符串对应的数字向量拼接在一起，得到该一个候选字符串对应的拼接字符串的数字向量[1,2,3,3,4,5]。

本公开实施例中，需要从预设数量的候选字符串中确定最终的文本识别结果，因此在文本识别模型的训练过程中，可以将预设数量的候选字符串中的每个候选字符串分别与文本字符串拼接，得到预设数量的新的数字向量（即预设数量的拼接字符串对应的数字向量），然后作为第一全连接层（挑选网络）的输入，也就是说，第一全连接层的本质是为了学习到预设数量的候选字符串中哪个候选字符串与文本字符串（真实的标注的文本图像对应的字符串）最相近，最相近的即为最终的文本识别结果。

因此，本公开实施例中，通过将每个候选字符串与文本字符串进行拼接，可以使得在对初始识别模型训练的过程中，更好地学习到如何从预设数量的候选字符串中快速准确地识别出文本识别结果，以得到训练后的文本识别模型，并提高文本识别模型的对文本图像的识别效率和识别精度。

需要说明的是，在文本识别模型的训练过程中，拼接字符串为一个候选字符串与文本字符串拼接得到，在根据训练好的文本识别模型识别文本图像的过程中，拼接字符串为一个候选字符串与空白字符串拼接得到的。

本公开实施例中，通过自适应候选词典生成单元生成预设数量的候选字符串，通过第一词嵌入层和第一循环神经网络根据预设数量的拼接字符串获取对应的数值特征向量，通过第一全连接层，根据数值特征向量确定匹配概率向量；从而确定每个候选字符串与文本字符串的匹配概率值，进而从预设数量的候选字符串中确定文本识别结果，模型结构简单，识别效率高。

可选地，候选词典生成单元具体用于基于概率矩阵和字符选择策略确定每个字符对应的至少一个目标候选字符，并根据每个字符对应的至少一个目标候选字符生成预设数量的候选字符串。

可以理解，针对文本图像中的每个字符的概率向量和字符选择策略，从概率向量指示的多个候选字符中确定目标候选字符，将文本图像中的每个字符对应的目标候选字符，按照文本图像中的字符排列顺序，组合生成预设数量的候选字符串。

其中，字符选择策略包括：在一个字符对应的概率向量中的匹配概率值最大的元素在目标概率范围内的情况下，确定与该一个字符对应的S个目标候选字符；不同的目标概率范围对应的S取值不同，且随着目标概率范围的减小，S的取值变大，S为正整数；在一个字符对应的概率向量中，每个目标候选字符与一个字符的匹配概率值，大于非目标候选字符与一个字符的匹配概率值。

可以理解，根据每个字符对应的概率向量中的匹配概率值最大的元素所在的概率范围，确定从相应字符对应的概率向量指示的多个候选字符中选择几个作为目标候选字符，且目标候选字符对应的匹配概率值大于非目标候选字符对应的匹配概率值。

本公开实施例中不限定目标概率范围的划分，具体可以根据实际需求，划分不同的概率范围，不同概率范围选择不同数量的目标候选字符。

示例性地，字符选择策略包括：在一个字符对应的概率向量中的匹配概率值最大的元素在[0.8，1]范围内（目标概率范围内）的情况下，确定与该一个字符对应的1个目标候选字符（即将匹配概率值最大的元素对应的字符确定为目标候选字符）；在一个字符对应的概率向量中的匹配概率值最大的元素在[0.6，0.8）范围内（目标概率范围内）的情况下，确定与该一个字符对应的5个目标候选字符（即将匹配概率值最大的5个元素（从大到小排列，排在前5的）对应的字符确定为5个目标候选字符）；在一个字符对应的概率向量中的匹配概率值最大的元素在[0.4，0.6）范围内（目标概率范围内）的情况下，确定与该一个字符对应的20个目标候选字符（即将匹配概率值最大的20个元素（从大到小排列，排在前20的）对应的字符确定为20个目标候选字符）。

本公开实施例中，基于概率矩阵和字符选择策略确定每个字符对应的至少一个目标候选字符，并根据每个字符对应的至少一个目标候选字符生成预设数量的候选字符串。可以快速生成预设数量的候选字串，而且根据概率值范围确定至少一个目标候选字符，不同概率值范围确定的目标候选字符串数量不同，可以准确生成预设数量的候选字符串，可以保证预设数量的候选字符串中存在文本图像中的准确识别结果。

可选地，可选地，第一模型包括第一卷积网络，第二循环神经网络和第二全连接层，第一卷积网络用于基于文本图像，获取文本图像中每个字符的第一特征映射；第二循环神经网络用于对第一特征映射进行特征变换，得到文本图像中每个字符的第二特征映射，第二全连接层用于基于第二特征映射，得到概率矩阵。

可以理解，第一卷积网络的输入为文本图像，输出为第一特征映射；第二循环神经网络的输入为第一特征映射，输出为第二特征映射；第二全连接层的输入为第二特征映射，输出为概率矩阵。

其中，卷积网络又称卷积神经网络（Convolutional Neural Network，CNN）。第一卷积网络可以由LeNet，VGGNet，AlexNet，ResNet，Inception Net等中的一种组成。

其中，Resnet是一类非常知名的自然场景图像分类网络，它有效的解决了当网络模型层数加深以后出现模型性能退化的问题，从而使得网络可以增加层数（加深）进行更加复杂的特征模式提取；它的主要核心是被称为残差块结构，残差块结构主要的特点是跨层跳跃连接，即一个残差块包括多个卷积层，其输入经过残差块之后的输出会与输入进行一次逐通道逐点相加操作，相当于输入有两个分支，一个经过残差块，一个直接快速绕过残差块，最后两个分支合并；ResNet根据卷积层数量有18、34、50、101和152等多个知名结构，除此之外，还有ResNext等多种变体结构，都能在自然场景图像分类上取得良好效果。

示例性地，第一卷积网络为ResNet18。ResNet18由4个block块组成，每个block块又由若干卷积操作组成，每一个block的输出是后一个block块的输入，在本发明中，每经过一个ResNet18的block块，其高宽均减半，通道数量增加一倍，第一个block块输出的通道数量为64，最后得到一组H/16,W/16,512的特征映射。

其中，对第二循环神经网络的描述可以参考上述对第一循环神经网络的描述，本公开实施例不做限定。对第二全连接层的描述可以参考上述对第一全连接层的描述，本公开实施例不做限定。第二全连接层实际上是一个转录层。

示例性地，第二循环神经网络由两层双向LSTM网络组成，第一全连接层由一个全连接层组成。

本公开实施例中，通过第一卷积网络根据文本图像生成第一特征映射，通过第二循环神经网络对第一特征映射进行特征变换，得到第二特征映射，然后通过第二全连接层根据第二特征映射生成概率矩阵，可以得到准确的概率矩阵，从而可以准确确定预设数量的候选字符串，模型结构简单，识别效率高。

图2为本公开实施例提供的另一种文本识别模型训练方法的流程示意图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，本公开实施例提供的文本识别模型训练方法可以包括：

S201、获取训练样本，训练样本包括文本图像。

S202、建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果。

S203、基于第二损失函数，通过根据训练样本对第一模型进行训练，调整第一卷积网络的参数，和/或，调整第二循环神经网络的参数。

S204、基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

其中，对上述S201、S202和S204的描述可以参考上述对S101至S103的相关描述，此处不再赘述。

其中，对第二损失函数的描述可以参考上述对第一损失函数的描述，此处不再赘述。

示例性地，第二损失函数可以为均方损失函数。

可选地，针对上述步骤S203可以基于第二损失函数，根据训练样本对第一模型整体进行训练，并根据对第一模型整体训练的结果，调整第一卷积网络的参数。

可选地，针对上述步骤S203可以基于第二损失函数，根据训练样本对第一模型整体进行训练，并根据对第一模型整体训练的结果，调整第二循环神经网络的参数。

可选地，针对上述步骤S203可以基于第二损失函数，根据训练样本对第一模型整体进行训练，并根据对第一模型整体训练的结果，调整第一卷积网络的参数，并调整第二循环神经网络的参数。

可选地，针对上述步骤S203可以基于第二损失函数，根据训练样本对第二循环神经网络进行训练，并根据对第二循环神经网络训练的结果，调整第一卷积网络的参数。

本公开实施例中，上述S203可以基于第二损失函数，根据训练样本对第一模型进行训练，进而调整第一卷积网络的参数，和/或，调整第二循环神经网络的参数，如此可以使第一卷积网络的参数更合理，和/或，使第二循环神经网络的参数更合理，从而可以根据文本图像确定更合适的第一特征映射。

图3为本公开实施例提供的另一种文本识别模型训练方法的流程示意图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图3所示，本公开实施例提供的文本识别模型训练方法可以包括：

S301、获取训练样本，训练样本包括文本图像，以及文本图像对应的文本字符串。

S302、建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果。

S303、建立辅助模型，辅助模型包括第二词嵌入层和第三循环神经网络，第二词嵌入层和第三循环神经网络用于基于文本字符串生成文本字符串对应的第三特征映射。

其中，对第二词嵌入层的描述可以参考上述对第一词嵌入层的相关描述，此处不再赘述，对第三循环神经网络的描述可以参考上述对第一循环神经网络的相关描述，此处不再赘述。

示例性地，第二词嵌入层可以由一个词嵌入层组成，第二循环神经网络可以由两层双向LSTM网络组成。

S304、基于第三损失函数，通过根据文本字符串对辅助模型进行训练，调整第一卷积网络的参数。

S305、基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

其中，对上述S301、S302和S305的描述可以参考上述对S101至S103的相关描述，此处不再赘述。

其中，对第三损失函数的描述可以参考上述对第一损失函数的描述，此处不再赘述。

示例性地，第三损失函数可以为均方损失函数。

本公开实施例中，上述S303至S304，可以基于第三损失函数，根据文本字符串对辅助模型进行训练，进而调整第一卷积网络的参数，如此可以使第一卷积网络的参数更合理，从而可以根据文本图像确定更合适的第一特征映射。

需要说明的是，本公开实施例中，上述S203和S204，与上述S303至S305，可以同时存在，二者可以并行，如此可以更好地调整第一卷积网络的参数，可以得到更好地效果。

图4为本公开实施例提供的另一种文本识别模型训练方法的流程示意图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图4所示，本公开实施例提供的文本识别模型训练方法可以包括：

S401、获取训练样本，训练样本包括文本图像，以及文本图像对应的文本字符串。

S402、建立初始网络模型，初始网络模型包括第一卷积网络，第二循环神经网络和第二全连接层。

其中，第一卷积网络用于基于文本图像，获取文本图像中每个字符的第一特征映射；第二循环神经网络用于对第一特征映射进行特征变换，得到文本图像中每个字符的第二特征映射，第二全连接层用于基于第二特征映射，得到文本图像中每个字符的概率矩阵。

其中，对初始网络模型的描述可以参考上述对第一模型的相关描述，此处不再赘述。

S403、基于第四损失函数，根据训练样本对初始网络模型进行训练，得到网络识别模型。

S404、将网络识别模型作为初始识别模型的第一模型，并在第一模型的基础上建立第二模型，得到初始识别模型。

S405、基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

其中，对上述S401、S404和S405的描述可以参考上述对S101至S103的相关描述，此处不再赘述。

其中，对第四损失函数的描述可以参考上述对第一损失函数的描述，此处不再赘述。

示例性地，第四损失函数可以为CTC损失函数。

本公开实施例中，上述S402至S404，可以先建立与第一模型等效的初始网络模型，然后，基于第四损失函数，对初始网络模型进行训练得到网络识别模型，然后将网络识别模型作为第一模型建立初始识别模型，如此可以预先对与第一模型等效的初始网络模型进行训练，得到网络识别模型后，基于网络识别模型穿件第一模型，可以使初始识别模型中第一模型的参数得到一定程度的优化，如此可在后续训练初始识别模型时，简化训练过程，提高训练效率，可以保证快速训练得到文本识别模型。

示例性地，如图5所示，初始网络识别模型包括3个部分，标记“501”指示的第一个部分为一个Resnet18网络，Resnet18由4个Block块组成，每个block块又由若干卷积操作组成，每一个block的输出是后一个block块的输入，在本发明中，每经过一个resnet18的block块，其高宽均减半，通道数量增加一倍，第一个block块输出的通道数量为64，最后得到一组H/16,W/16,512的特征映射；标记“502”指示的第二个部分采用两层双向LSTM网络，将第一部分得到的特征映射按照位置依次输入，进行一次特征变换，得到一组（HW/256,512）特征映射；标记“503”指示的第三部为转录层，主要包括1个全连接层，将特征向量映射到字典大小；然后基于CTC损失函数，根据上述收集到的训练样本对初始网络识别模型进行训练，训练结束后得到一个网络识别模型。

承接上述示例，如图6所示，在上述网络识别模型的基础上构建初始识别模型，以及构建辅助模型，初始识别模型主要包括6个部分，辅助模型包括一个部分，其中，标记“603”指示的第三部分为辅助模型，其余6个部分为初始识别模型）。具体地，标记“601”指示的第一部分和标记“602”指示的第二部分，与上述网络识别模型的第一部分和第二部分相同（即直接取训练后的网络识别模型的第一部分和第二部分来搭建这个初始识别模型的第一部分和第二部分）；标记“603”指示的第三部分与标记“602”指示的第二部分并行，它是由一个词嵌入层和两层双向LSTM组成（这个部分只是训练的时候用，它用于计算出一个损失值，用于更新标记“601”指示的第一部分的参数），它的输入为一个文本字符串（即对文本图像标注得到字符串），输出为表征这个字符串的一个特征映射矩阵，它的维度与第二部分的输出相同，在训练过程中，它的输出与第二部分的输出分别使用均方损失函数进行训练；标记“604”指示的第四部分与上述初始网络模型的第三部分基本相同，包含一个全连接层，即根据标记“602”指示的第二部分得到的特征映射确定待识别文本图像的字符概率矩阵，标记“605”指示的第五部分候选词典生成单元，主要是根据第四部分得到概率矩阵，生成候选词典（预设数量,的候选字符串，假设为200个字符串）；标记“606”指示的第六部分与标记“603”指示的第三部分一样，由一个词嵌入层和两层双向LSTM组成，它的输入为词典中的200个字符串分别与文本字符串拼接在一起的字符串，输出只保留最后一个时间步的输出，即一个512维的向量，作为标记“607”指示的第七部分的输入，第七部分由两个全连接层构成，第一个全连接层节点数量为256，第二个全连接层节点数量为200（词典大小），哪个节点的概率值最大，则说明对应哪个字符串（预测时，相当于正确字符串就在这200个候选之中，相当于一个分类问题），使用多分类交叉熵损失函数进行训练，训练结束后，丢弃第三部分，正常使用的模型包括除第三部分的其它所有部分。

图7为本公开实施例提供的一种文本识别方法的流程示意图，可以适用于对文本图像进行文本识别的场景。该文本识别方法可以由文本识别装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上。

如图7所示，本公开实施例提供的文本识别方法可以包括：

S701、获取待识别的文本图像。

S702、通过文本识别模型对待识别的文本图像进行识别，得到待识别文本图像的文本识别结果。

其中，文本识别模型是根据本公开上述实施例所述的文本识别模型训练方法得到的。

在正常使用时，输入待识别文本图像，直接得到最终的识别结果，不需要使用树搜索或者贪心算法进行解码。本发明相较于现有技术，使用自适应候选词典的方式，将词典从全量词典缩小为与待识别文本图像自适应的候选词典，从而有效缩小了词典的大小即搜索空间大小，同时使用分类的方式，直接从自适应候选词典中选取最可能字符串，提高了精度。

图8为本公开实施例提供的一种文本识别模型训练装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上。

如图8所示，本公开实施例提供的文本识别模型训练装置800可以包括获取模块801、建立模块802和训练模块803；其中：

获取模块801，用于获取训练样本，训练样本包括文本图像；

建立模块802，用于建立初始识别模型，初始识别模型用于基于文本图像生成预设数量的候选字符串，并从预设数量的候选字符串中确定文本识别结果；每个候选字符串为与文本图像对应的一个候选识别结果；

训练模块803，用于基于第一损失函数，根据训练样本对初始识别模型进行训练，得到文本识别模型。

可选地，训练样本还包括文本图像对应的文本字符串；

初始识别模型具体用于基于文本图像生成预设数量的候选字符串，并确定预设数量的候选字符串对应的匹配概率向量，以及基于匹配概率向量确定文本识别结果；

其中，匹配概率向量中的每个元素对应一个候选字符串与文本字符串的匹配概率值，匹配概率值最大的候选字符串为文本识别结果。

可选地，初始识别模型包括第一模型和第二模型；

第一模型用于基于文本图像生成概率矩阵，概率矩阵包括文本图像中每个字符对应的概率向量，一个字符对应的概率向量中的每个元素为一个候选字符与一个字符的匹配概率值；

第二模型用于基于概率矩阵生成预设数量的候选字符串，并确定预设数量的候选字符串对应的匹配概率向量。

可选地，第二模型包括自适应候选词典生成单元，第一词嵌入层、第一循环神经网络和第一全连接层；自适应候选词典生成单元用于基于概率矩阵生成预设数量的候选字符串，第一词嵌入层和第一循环神经网络用于获取预设数量的拼接字符串对应的数值特征向量，第一全连接层用于根据数值特征向量确定匹配概率向量；

其中，每个拼接字符串根据一个候选字符串与文本字符串拼接得到。

可选地，候选词典生成单元具体用于基于概率矩阵和字符选择策略确定每个字符对应的至少一个目标候选字符，并根据每个字符对应的至少一个目标候选字符生成预设数量的候选字符串；

其中，字符选择策略包括：

在一个字符对应的概率向量中的匹配概率值最大的元素在目标概率范围内的情况下，确定与一个字符对应的S个目标候选字符；

不同的目标概率范围对应的S取值不同，且随着目标概率范围的减小，S的取值变大，S为正整数；

其中，在一个字符对应的概率向量中，每个目标候选字符与一个字符的匹配概率值，大于非目标候选字符与一个字符的匹配概率值。

可选地，第一模型包括第一卷积网络，第二循环神经网络和第二全连接层，第一卷积网络用于基于文本图像，获取文本图像中每个字符的第一特征映射；第二循环神经网络用于对第一特征映射进行特征变换，得到文本图像中每个字符的第二特征映射，第二全连接层用于基于第二特征映射，得到概率矩阵。

可选地，文本识别模型训练装置800还包括：调整模块；其中，

调整模块，用于基于第二损失函数，通过根据训练样本对第一模型进行训练，调整第一卷积网络的参数，和/或，调整第二循环神经网络的参数。

可选地，建立模块802，还用于建立辅助模型，辅助模型包括第二词嵌入层和第三循环神经网络，第二词嵌入层和第三循环神经网络用于基于文本字符串生成文本字符串对应的第三特征映射；

调整模块，还用于基于第三损失函数，通过根据文本字符串对辅助模型进行训练，调整第一卷积网络的参数。

可选地，建立模块802，还用于在建立初始识别模型之前，建立初始网络模型，初始网络模型包括第一卷积网络，第二循环神经网络和第二全连接层，第一卷积网络用于基于文本图像，获取文本图像中每个字符的第一特征映射；第二循环神经网络用于对第一特征映射进行特征变换，得到文本图像中每个字符的第二特征映射，第二全连接层用于基于第二特征映射，得到文本图像中每个字符的概率矩阵；

训练模块803，还用于基于第四损失函数，根据训练样本对初始网络模型进行训练，得到网络识别模型；

建立模块802，具体用于将网络识别模型作为初始识别模型的第一模型。

本公开实施例所提供的文本识别模型训练装置可执行本公开实施例所提供的任意文本识别模型训练方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

图9为本公开实施例提供的一种文本识别装置的结构示意图，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上。

如图9所示，本公开实施例提供的文本识别装置900可以包括获取模块901和识别模块902；其中：

获取模块901，用于获取待识别的文本图像；

识别模块902，用于通过文本识别模型对待识别的文本图像进行识别，得到待识别文本图像的文本识别结果；

其中，文本识别模型是根据上述方法实施例中所述的文本识别模型训练方法得到的。

本公开实施例所提供的文本识别装置可执行本公开实施例所提供的任意文本识别方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图10，现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向电子设备1000输入信息的任何类型的设备，输入单元1006可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1007可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1004可以包括但不限于磁盘、光盘。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别模型训练方法或文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。在一些实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别模型训练方法或文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本识别模型训练方法，包括：

获取训练样本，所述训练样本包括文本图像；

建立初始识别模型，所述初始识别模型用于基于所述文本图像生成预设数量的候选字符串，并从所述预设数量的候选字符串中确定文本识别结果；每个候选字符串为与所述文本图像对应的一个候选识别结果；

基于第一损失函数，根据所述训练样本对所述初始识别模型进行训练，得到文本识别模型。

2.如权利要求1所述的文本识别模型训练方法，其中，所述训练样本还包括所述文本图像对应的文本字符串；

所述初始识别模型具体用于基于所述文本图像生成预设数量的候选字符串，并确定所述预设数量的候选字符串对应的匹配概率向量，以及基于所述匹配概率向量确定所述文本识别结果；

其中，所述匹配概率向量中的每个元素对应一个候选字符串与所述文本字符串的匹配概率值，匹配概率值最大的候选字符串为所述文本识别结果。

3.如权利要求2所述的文本识别模型训练方法，其中，所述初始识别模型包括第一模型和第二模型；

所述第一模型用于基于所述文本图像生成概率矩阵，所述概率矩阵包括所述文本图像中每个字符对应的概率向量，一个字符对应的概率向量中的每个元素为一个候选字符与所述一个字符的匹配概率值；

所述第二模型用于基于所述概率矩阵生成所述预设数量的候选字符串，并确定所述预设数量的候选字符串对应的所述匹配概率向量。

4.如权利要求3所述的文本识别模型训练方法，其中，所述第二模型包括自适应候选词典生成单元，第一词嵌入层、第一循环神经网络和第一全连接层；所述自适应候选词典生成单元用于基于所述概率矩阵生成所述预设数量的候选字符串，所述第一词嵌入层和第一循环神经网络用于获取预设数量的拼接字符串对应的数值特征向量，所述第一全连接层用于根据所述数值特征向量确定所述匹配概率向量；

其中，每个拼接字符串根据一个候选字符串与所述文本字符串拼接得到。

5.如权利要求4所述的文本识别模型训练方法，其中，所述候选词典生成单元具体用于基于所述概率矩阵和字符选择策略确定每个字符对应的至少一个目标候选字符，并根据每个字符对应的至少一个目标候选字符生成所述预设数量的候选字符串；

其中，所述字符选择策略包括：

在一个字符对应的概率向量中的匹配概率值最大的元素在目标概率范围内的情况下，确定与所述一个字符对应的S个目标候选字符；

其中，在所述一个字符对应的概率向量中，每个目标候选字符与所述一个字符的匹配概率值，大于非目标候选字符与所述一个字符的匹配概率值。

6.如权利要求3至5中任一项所述的文本识别模型训练方法，其中，所述第一模型包括第一卷积网络，第二循环神经网络和第二全连接层，所述第一卷积网络用于基于所述文本图像，获取所述文本图像中每个字符的第一特征映射；所述第二循环神经网络用于对所述第一特征映射进行特征变换，得到所述文本图像中每个字符的第二特征映射，所述第二全连接层用于基于所述第二特征映射，得到所述概率矩阵。

7.如权利要求6所述的文本识别模型训练方法，所述方法还包括：

基于第二损失函数，通过根据所述训练样本对所述第一模型进行训练，调整所述第一卷积网络的参数，和/或，调整所述第二循环神经网络的参数。

8.如权利要求6所述的文本识别模型训练方法，所述方法还包括：

建立辅助模型，所述辅助模型包括第二词嵌入层和第三循环神经网络，所述第二词嵌入层和所述第三循环神经网络用于基于所述文本字符串生成所述文本字符串对应的第三特征映射；

基于第三损失函数，通过根据所述文本字符串对所述辅助模型进行训练，调整所述第一卷积网络的参数。

9.如权利要求3至5中任一项所述的文本识别模型训练方法，所述方法还包括：

建立初始网络模型，所述初始网络模型包括第一卷积网络，第二循环神经网络和第二全连接层，所述第一卷积网络用于基于所述文本图像，获取所述文本图像中每个字符的第一特征映射；所述第二循环神经网络用于对所述第一特征映射进行特征变换，得到所述文本图像中每个字符的第二特征映射，所述第二全连接层用于基于所述第二特征映射，得到所述文本图像中每个字符的概率矩阵；

基于第四损失函数，根据所述训练样本对所述初始网络模型进行训练，得到网络识别模型，并将所述网络识别模型作为所述初始识别模型的第一模型。

10.一种文本识别方法，所述方法包括：

获取待识别的文本图像；

通过文本识别模型对所述待识别的文本图像进行识别，得到所述待识别文本图像的文本识别结果；

其中，所述文本识别模型是根据所述权利要求1至9中任一项所述的文本识别模型训练方法得到的。

11.一种文本识别模型训练装置，包括：获取模块、建立模块和训练模块；

所述获取模块，用于获取训练样本，所述训练样本包括文本图像；

所述建立模块，用于建立初始识别模型，所述初始识别模型用于基于所述文本图像生成预设数量的候选字符串，并从所述预设数量的候选字符串中确定文本识别结果；每个候选字符串为与所述文本图像对应的一个候选识别结果；

所述训练模块，用于基于第一损失函数，根据所述训练样本对所述初始识别模型进行训练，得到文本识别模型。

12.一种文本识别装置，包括：获取模块和识别模块；

所述获取模块，用于获取待识别的文本图像；

所述识别模块，用于通过文本识别模型对所述待识别的文本图像进行识别，得到所述待识别文本图像的文本识别结果；

13.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的文本识别模型训练方法，或权利要求10所述的文本识别方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的文本识别模型训练方法，或权利要求10所述的文本识别方法。