CN113688955A

CN113688955A - 文本识别方法、装置、设备及介质

Info

Publication number: CN113688955A
Application number: CN202111241401.2A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2021-11-23
Anticipated expiration: 2041-10-25
Also published as: CN113688955B

Abstract

本公开提供一种文本识别方法、装置、设备及介质，其中该方法包括：将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，文本识别模型包括第一主网络、第二主网络和第三主网络；通过第一主网络对目标文本图像进行浅层特征提取，得到浅层特征；通过第二主网络基于浅层特征进行语义特征提取，得到语义特征；通过第三主网络基于注意力机制、浅层特征以及语义特征进行文本识别，得到文本识别结果。本公开可以有效提升文本识别精度。

Description

文本识别方法、装置、设备及介质

技术领域

本公开涉及图像处理领域，尤其涉及文本识别方法、装置、设备及介质。

背景技术

文本识别技术作为人工智能领域的重要分支，已广泛应用于各领域。通常而言，文本识别技术主要是指从带有文本字符的图像（文本图像）中识别出字符序列的技术，发明人经研究发现，现有的文本识别技术的识别精度仍有待提高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别方法、装置、设备及介质。

根据本公开的一方面，提供了一种文本识别方法，包括：将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，所述文本识别模型包括第一主网络、第二主网络和第三主网络；通过所述第一主网络对所述目标文本图像进行浅层特征提取，得到浅层特征；通过所述第二主网络基于所述浅层特征进行语义特征提取，得到语义特征；通过所述第三主网络基于注意力机制、所述浅层特征以及所述语义特征进行文本识别，得到文本识别结果。

根据本公开的另一方面，提供了一种文本识别装置，包括：模型输入模块，用于将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，所述文本识别模型包括第一主网络、第二主网络和第三主网络；浅层特征提取模块，用于通过所述第一主网络对所述目标文本图像进行浅层特征提取，得到浅层特征；语义特征提取模块，用于通过所述第二主网络基于所述浅层特征进行语义特征提取，得到语义特征；文本识别模块，用于通过所述第三主网络基于注意力机制、所述浅层特征以及所述语义特征进行文本识别，得到文本识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述任一项文本识别方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一项文本识别方法。

本公开实施例中提供的上述技术方案，将待处理的目标文本图像输入至预先训练得到的文本识别模型（包括第一主网络、第二主网络和第三主网络）；通过第一主网络对目标文本图像进行浅层特征提取，得到浅层特征；通过第二主网络基于浅层特征进行语义特征提取，得到语义特征；通过第三主网络基于注意力机制、浅层特征以及语义特征进行文本识别，得到文本识别结果。上述方式可独立提取语义特征，并进一步基于注意力机制、浅层特征以及独立提取的语义特征进行文本识别，不仅可以改善一些文本识别技术中仅针对单一的图像特征进行文本识别，而在文本识别过程中难以有效捕捉到图像中文本内容的语义关系，致使文本识别精度不高的问题，也可有效改善一些文本识别技术中将语义特征和图像特征通过同一个网络糅合在一起进行提取，导致特征提取效果不佳，文本识别精度不高的问题。综上，本公开实施例能够有效提升文本识别精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种文本识别方法的流程示意图；

图2为本公开实施例提供的一种文本识别模型的结构示意图；

图3为本公开实施例提供的一种文本识别模型的结构示意图；

图4为本公开实施例提供的一种文本识别模型的结构示意图；

图5为本公开实施例提供的一种文本识别装置的结构示意图；

图6为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本公开使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

现有的文本识别技术的识别精度不高，发明人经研究发现，主要原因包括：一些文本识别技术中仅针对单一的图像特征进行文本识别，而在文本识别过程中难以有效捕捉到图像中文本内容的语义关系，致使文本识别精度不高。诸如，以基于序列到序列进行文本识别的网络模型——CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络）模型为例，其主要包括CNN（卷积神经网络）、RNN（循环神经网络）和CTC（连结一致性损失），一般而言，CNN用于提取输入文本图像的特征，而RNN用于建模文本行中不同字符之间的时序关系以及其相互关系，在此结构中RNN部分也具有一定语言模型的能力，而CTC则主要是为了处理对齐问题引入的。但是事实上，RNN部分仅用图像特征作为输入，很难捕捉到文字内容之间的语义关系，CRNN模型在无法做到独立提取语义特征的情况下，文本识别精度受到一定限制。而另一些文本识别技术，虽然能够特意提取语义特征，但是通常是将语义特征和图像特征通过同一个网络糅合在一起进行提取，两种特征信息彼此干扰，导致特征提取效果不佳，文本识别精度不高。为了改善以上问题至少之一或者至少部分改善以上问题，本公开实施例提供了一种文本识别方法、装置、设备及介质，以下进行详细介绍说明。

应当注意的是，发明人针对相关技术中的所存在的上述缺陷均是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本公开实施例针对上述缺陷所提出的解决方案，都应该被认定为申请人对本公开做出的贡献。

图1为本公开实施例提供的一种文本识别方法的流程示意图，该方法可以由文本识别装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102~步骤S108：

步骤S102，将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，文本识别模型包括第一主网络、第二主网络和第三主网络。为便于理解，可参见图2所示的一种文本识别模型的结构示意图。示意出第一主网络、第二主网络和第三主网络依次连接，同时第一主网络与第三主网络也有连接关系，第三主网络的输入与第一主网络的输出和第二主网络的输出均有关联。

文本图像即为包含有文本字符内容的图像，诸如拍摄试卷所得到的试卷图像等，本公开实施例对文本图像中的内容不进行限制，且上述第一主网络、第二主网络和第三主网络均为神经网络模型，在本公开实施例中可不限制第一主网络、第二主网络和第三主网络的具体结构，只需其能够分别实现步骤S104~步骤S108的功能即可。

步骤S104，通过第一主网络对目标文本图像进行浅层特征提取，得到浅层特征。示例性地，该第一主网络包括特征提取器，可以初步提取目标文本图像的特征。

步骤S106，通过第二主网络基于浅层特征进行语义特征提取，得到语义特征。该语义特征即为第二主网络对浅层特征进行更为深入的特征学习，从而提取到的文本图像中所包含的文本内容的语义信息。

步骤S108，通过第三主网络基于注意力机制、浅层特征以及语义特征进行文本识别，得到文本识别结果。在一些实施方式中，第三主网络可以基于注意力机制和浅层特征提取图像特征，图像特征可被赋予注意力分值，然后基于图像特征和语义特征进行文本识别。该步骤通过引入注意力机制可以合理分配计算资源，从中确定在文本识别过程中需要重点关注的图像特征，有助于获取更多有用的高价值信息，抑制无用信息，得到更为准确有效的文本识别结果。

上述方式可独立提取语义特征，并进一步基于注意力机制、浅层特征以及独立提取的语义特征进行文本识别，不仅可以改善一些文本识别技术中仅针对单一的图像特征进行文本识别，而在文本识别过程中难以有效捕捉到图像中文本内容的语义关系，致使文本识别精度不高的问题，也可有效改善一些文本识别技术中将语义特征和图像特征通过同一个网络糅合在一起进行提取，容易因信息干扰而导致特征提取效果不佳，文本识别精度不高的问题。综上，本公开实施例能够有效提升文本识别精度。

本公开实施例提供了如图3所示的一种文本识别模型的结构示意图，在图2的基础上，还示意出第一主网络包括特征提取器，第二主网络包括第一子单元和第二子单元。在一些实施方式中，通过第二主网络基于浅层特征进行语义特征提取，得到语义特征的步骤，包括：通过第一子单元基于浅层特征进行深层特征提取，得到深层特征；其中，深层特征通过词向量表示，且深层特征的维度与预先设置的词向量维度一致。通过所示第二子单元对词向量进行语义分析，得到语义特征。第二子单元可以词向量进一步高度抽象，得到携带有语义信息的特征向量，即为语义特征。

在本公开实施例中，对特征提取器的实现方式不进行限制，可以采用已训练好的特征提取器，诸如采用相关技术中已训练好的特征提取器，甚至可采用相关技术中已训练好的文本识别模型中所包含的特征提取器，以便于更加快速有效地实现文本图像的特征提取。

为了得到更准确的文本识别结果，本公开实施例给出了上述步骤S108的具体实施方式，也即，第三主网络可以通过执行如下步骤a~步骤b得到文本识别结果：

步骤a，基于注意力机制以及浅层特征确定携带有注意力信息的图像特征。诸如，通过注意力机制基于浅层特征进行注意力分配，得到携带有注意力信息的图像特征，示例性地，该注意力信息可以为注意力得分，诸如，注意力得分越高的图像特征，越需要网络模型对其进行深入处理，从中获取更多有用的高价值信息。

步骤b，根据图像特征以及语义特征进行文本识别，得到文本识别结果。在本公开实施例中，不仅仅是针对图像特征进行文本识别，而是可以结合图像特征以及语义特征综合进行文本识别，进一步地，该语义特征是通过独立网络提取所得，且该图像特征还携带有注意力信息，均有助于网络模型对语义特征和图像特征进行充分有效地分析处理，从而得到精度更高的文本识别结果。在具体实施时，可以首先根据图像特征以及语义特征进行文本识别，得到对应于字典的概率矩阵，然后通过贪心解码或者beamsearch解码的方式得到最后的文本识别结果。其中，上述字典可以预先构建，诸如，获取多个字符串，采用分词算法对字符串进行分词，得到多个字词，每个字词包含一个或多个字，然后将得到的所有字词进行去重处理，得到不包含重复字词的字典（也可称之为词典）。字典可以指示出特征向量（字词向量）与字词之间的映射关系，第三主网络在根据图像特征以及语义特征进行文本识别后实质上得到的也是特征向量，可以基于该映射关系确定对应于字典的概率矩阵，进而通过解码方式找到原字词，从而将字词组合得到文本识别结果。

在图3的基础上，本公开实施例提供了如图4所示的一种文本识别模型的结构示意图，进一步示意出第一主网络包括CNN网络，第一子单元包括卷积层和全连接层；示例性地，第一子单元包括1*1卷积层以及3个全连接层；第二子单元包括Transformer编码器，第三主网络包括GRU（Gate Recurrent Unit，门控循环单元）网络和全连接层，示例性地，第三主网络包括一层单向GRU层以及一个全链接层。应当注意的是，以上仅为示例，不应当视为限制，在实际应用中可以灵活设置诸如卷积层、全连接层、GRU层的数量等。

另外，如图4所示，可以直接采用预先训练好的CRNN模型中的CNN网络作为第一主网络，而预先训练好的CRNN模型可用于文本图像识别。也即，可以预先采用CRNN模型构建一个文本识别模型，主要包括CNN网络、RNN网络以及CTC损失函数，可以通过预先标注有文本字符信息的文本图像训练样本对CRNN模型进行训练，直至符合训练结束条件时（诸如，CTC损失函数收敛）结束训练，结束训练后的CRNN模型具有符合预期的文本图像识别能力，也即，其能够针对文本图像得到较为准确的文本识别结果。在得到训练好的CRNN模型之后，可直接采用其CNN网络作为第一主网络的初始结构。示例性地，CNN网络可以使用Resnet18网络实现，Resnet18包含4个block块，每个block块包括若干卷积层，每个block的输出分别是原图的1/4、1/8、1/16和1/32，最后将每个block的输出先通过插值的方式缩放到同样大小，即为原图大小的1/32，然后再串联叠加，而每个block块的输出通道数量为128，则此处得到的通道数为512，然后将其作为RNN网络（示例性地，可采用两层双向LSTM实现）的输入，之后通过RNN网络进行建模文本行中不同字符之间的时序关系以及其相互关系，最终实现文本识别。应当注意的是，本公开实施例仅需采用已训练好的CRNN模型中的CNN网络（诸如上述示例中的Resnet18网络）作为第一主网络的初始结构，第一主网络的初始模型参数也即为上述已训练好的CRNN模型中的CNN网络的参数。示例性地，将基于上述方式所得的CNN网络作为第一主网络，则第一主网络提取得到的浅层特征可以是原图大小的1/32，且通道数为512的特征映射。本公开实施例通过采用训练好的CRNN模型中的CNN网络作为第一主网络，可充分利用已训练好的CRNN模型中的CNN网络的特征提取能力，便于保障浅层特征的提取效果，并且由于CNN网络已在可进行文本图像识别的CRNN模型中预先训练好，因此将其再结合后续的第二主网络和第三主网络同时训练时，无需再耗费较多时间精力大幅度调整CNN网络参数，微调CNN网络参数即可，有助于进一步节约文本识别模型的训练成本。

如图4所示，第二子单元包括Transformer编码器，可以理解的是，Transformer模型通常包括编码器和解码器，而本公开实施例主要采用Transformer编码器作为第二子单元，在一些实施方式中，Transformer编码器包括多个基础模块一（示例性的，包括六个基础模块一），每个基础模块一主要包括多头自注意力层、跳跃连接、层归一化和前馈神经网络等网络层，再次不再赘述。Transformer编码器的输入包括第一子单元的输出词向量以及位置编码，位置编码的实现方式可参照相关技术实现，在此不再赘述。通过第一子单元（示例性地，可采用卷积层和全连接层实现）基于浅层特征进行深层特征提取，得到以词向量表示的深层特征，然后通过以上述Transformer编码器构成的第二子单元对词向量进行语义分析，得到语义特征，该语义特征具体为Transformer编码器在对第一子单元输出的词向量进行特征提取时所生成的三个向量，分别称之为第一语义向量、第二语义向量和第三语义向量，这三个语义向量均是经过特征提取所得的高维有效特征表示，在一些实施方式中，可以按照向量在Transformer编码器中的生成顺序和/或在Transformer编码器中的生成位置设置谁是第一语义向量、第二语义向量、第三语义向量；诸如，设置首先生成的向量为第一语义向量，最后生成的向量为第三语义向量；在另一些实施方式中，可以根据需求而设定三个向量中谁是第一语义向量、第二语义向量、第三语义向量；此外，还可以随意指定谁是第一语义向量、第二语义向量、第三语义向量，具体可根据实际情况设置，在此不进行限制。

在此基础上，基于注意力机制和浅层特征确定携带有注意力信息的图像特征的步骤，包括:基于第一语义向量、第二语义向量以及softmax算法确定注意力信息；基于注意力信息以及浅层特征，得到携带有注意力信息的图像特征。在一种具体的实施示例中，可以令第一语义向量和第二语义向量逐点相乘，之后采用softmax算法对相乘结果进行处理，即可得到浅层特征的注意力得分，进而将注意力得分作用于浅层特征，即得到携带有注意力信息的图像特征；示例性地，上述注意力得分的作用方式可以为逐点相乘。在此基础上，根据图像特征以及语义特征进行文本识别，得到文本识别结果的步骤，包括：根据第三语义向量与携带有注意力信息的图像特征进行文本识别，得到文本识别结果。在一种具体的实施示例中，第三语义向量与携带有注意力信息的图像特征进行拼接，得到拼接向量，该拼接向量可以作为第三主网络中GRU网络的神经元输入，另外，还可设置GRU神经元的初始隐状态（或者称为隐状态初始值）为第二主网络中的第一子单元输出的词向量，通过第三主网络中的GRU网络和全连接层对上述向量进行处理，最终可得到文本识别结果。

通过上述方式，有效综合了通过独立网络提取得到的语义特征以及携带有注意力信息的图像特征，有助于网络模型对语义特征和图像特征进行充分有效地分析处理，从而得到精度更高的文本识别结果。

在前述基础上，本公开实施例提供了文本识别模型的训练方法，具体而言，文本识别模型按照如下步骤1~步骤3训练得到：

步骤1，获取文本图像样本；其中，文本图像样本标注有文本字符信息。在实际应用中，可以预先收集大量文本图像样本，该文本图像样本可缩放到同样尺寸，然后分别通过人工标注等方式为每个文本图像样本标注文本字符信息。

步骤2，采用预置的词向量获取模型得到文本字符信息对应的词向量。在实际应用中，可以获取相关技术中已训练好的词向量获取模型，诸如，通过网络获取第三方已公开的训练好的词向量获取模型，然后将上述步骤1中人工标注好的文本字符依次经过词向量获取模型，得到每个文本字符对应的词向量。步骤2也即将文本图像样本中的文本字符转换为词向量的过程。

步骤3，采用文本图像样本以及文本字符信息对应的词向量对预设的初始模型进行训练，直至达到预设的训练结束条件时得到文本识别模型。该训练结束条件可以为训练模型时预设的损失函数收敛，此时训练得到的文本识别模型具有符合预期的文本识别能力。在一些实施示例中，上述步骤3可以参照如下步骤3.1~步骤3.4实现:

步骤3.1，将文本图像样本输入给预设的初始模型，获取初始模型输出的文本识别结果以及初始模型在文本识别过程中产生的词向量。预设的初始模型和训练好的文本识别模型的网络结构一致，只是模型参数不同，可以理解的是，将初始模型训练成为文本识别模型的过程，实质上就是调整模型参数的过程。初始模型在文本识别过程中产生的词向量即为初始模型中的第二主网络产生的词向量，具体可以为第二主网络中的第一子单元在基于第一主网络输出的浅层特征进行深层特征提取所得到的词向量。

步骤3.2，根据文本图像样本标注的文本字符信息、文本识别结果以及预设的第一损失函数，计算第一损失值。示例性地，第一损失函数可以为交叉熵损失函数，第一损失值可以用于衡量模型的文本识别结果与真实文本（也即，文本图像样本标注的文本字符信息）之间的差异性。

步骤3.3，根据文本字符信息对应的词向量、初始模型在文本识别过程中产生的词向量以及预设的第二损失函数，计算第二损失值。示例性地，第二损失函数可以为L1损失函数，第二损失值可以用于衡量模型的词向量与真实词向量（也即，文本字符信息对应的词向量）之间的差异性。另外，在训练过程中，第三主网络中的GRU层的隐状态初始值可以设为文本字符信息对应的词向量。

步骤3.4，根据第一损失值和第二损失值对初始模型进行训练。示例性地，可以将第一损失值和第二损失值进行加权，得到加权平均值，将加权平均值作为总损失值对初始模型进行训练，直至总损失值收敛时训练结束，将训练结束时的初始模型作为文本识别模型。

通过上述方式，可以得到文本识别精度较高的文本识别模型，该文本识别模型可以通过第一主网络对目标文本图像进行浅层特征提取，得到浅层特征；通过第二主网络基于浅层特征进行语义特征提取，得到语义特征；通过第三主网络基于注意力机制、浅层特征以及语义特征进行文本识别，得到文本识别结果。上述方式可独立提取语义特征，并进一步基于注意力机制、浅层特征以及独立提取的语义特征进行文本识别，不仅可以改善一些文本识别技术中仅针对单一的图像特征进行文本识别，而在文本识别过程中难以有效捕捉到图像中文本内容的语义关系，致使文本识别精度不高的问题，也可有效改善一些文本识别技术中将语义特征和图像特征通过同一个网络糅合在一起进行提取，导致信息互相干扰，特征提取效果不佳，文本识别精度不高的问题。综上，本公开实施例能够有效提升文本识别精度。

对应于前述文本识别方法，本公开实施例还提供了一种文本识别装置，图5为本公开实施例提供的一种文本识别装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图5所示，文本识别装置500包括：

模型输入模块502，用于将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，文本识别模型包括第一主网络、第二主网络和第三主网络；

浅层特征提取模块504，用于通过第一主网络对目标文本图像进行浅层特征提取，得到浅层特征；

语义特征提取模块506，用于通过第二主网络基于浅层特征进行语义特征提取，得到语义特征；

文本识别模块508，用于通过第三主网络基于注意力机制、浅层特征以及语义特征进行文本识别，得到文本识别结果。

上述装置可独立提取语义特征，并进一步基于注意力机制、浅层特征以及独立提取的语义特征进行文本识别，不仅可以改善一些文本识别技术中仅针对单一的图像特征进行文本识别，而在文本识别过程中难以有效捕捉到图像中文本内容的语义关系，致使文本识别精度不高的问题，也可有效改善一些文本识别技术中将语义特征和图像特征通过同一个网络糅合在一起进行提取，导致特征提取效果不佳，文本识别精度不高的问题。综上，本公开实施例能够有效提升文本识别精度。

在一些实施方式中，所述第二主网络包括第一子单元和第二子单元；语义特征提取模块506具体用于：通过所述第一子单元基于所述浅层特征进行深层特征提取，得到深层特征；其中，所述深层特征通过词向量表示；通过所示第二子单元对所述词向量进行语义分析，得到语义特征。

在一些实施方式中，所述第一子单元包括卷积层和全连接层；所述第二子单元包括Transformer编码器。

在一些实施方式中，文本识别模块508具体用于:基于注意力机制以及所述浅层特征确定携带有注意力信息的图像特征；根据所述图像特征以及所述语义特征进行文本识别，得到文本识别结果。

在一些实施方式中，所述语义特征包括第一语义向量、第二语义向量和第三语义向量；

文本识别模块508具体用于:基于所述第一语义向量、第二语义向量以及softmax算法确定注意力信息；基于所述注意力信息以及所述浅层特征，得到携带有注意力信息的图像特征；

文本识别模块508具体用于:包括：根据所述第三语义向量与所述携带有注意力信息的图像特征进行文本识别，得到文本识别结果。

在一些实施方式中，所述第一主网络包括预先训练好的CRNN模型中的CNN网络；其中，所述预先训练好的CRNN模型用于文本图像识别。

在一些实施方式中，所述第三主网络包括GRU网络和全连接层。

在一些实施方式中，上述装置还包括训练模块，用于按照如下步骤训练得到所述文本识别模型：

获取文本图像样本；其中，所述文本图像样本标注有文本字符信息；

采用预置的词向量获取模型得到所述文本字符信息对应的词向量；

采用所述文本图像样本以及所述文本字符信息对应的词向量对预设的初始模型进行训练，直至达到预设的训练结束条件时得到文本识别模型。

在一些实施方式中，训练模块具体用于:将所述文本图像样本输入给预设的初始模型，获取所述初始模型输出的文本识别结果以及所述初始模型在文本识别过程中产生的词向量；根据所述文本图像样本标注的文本字符信息、所述文本识别结果以及预设的第一损失函数，计算第一损失值；根据所述文本字符信息对应的词向量、所述初始模型在文本识别过程中产生的词向量以及预设的第二损失函数，计算第二损失值；根据所述第一损失值和所述第二损失值对所述初始模型进行训练。

本公开实施例所提供的文本识别装置可执行本公开任意实施例所提供的文本识别方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的具体工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的文本识别方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开示例性实施例还提供一种电子设备，包括：处理器；以及存储程序的存储器，其中，程序包括指令，指令在由处理器执行时使处理器执行根据上述任一项的文本识别方法。参考图6，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元606以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，包括：

将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，所述文本识别模型包括第一主网络、第二主网络和第三主网络；

通过所述第一主网络对所述目标文本图像进行浅层特征提取，得到浅层特征；

通过所述第二主网络基于所述浅层特征进行语义特征提取，得到语义特征；

通过所述第三主网络基于注意力机制、所述浅层特征以及所述语义特征进行文本识别，得到文本识别结果。

2.如权利要求1所述的文本识别方法，其中，所述第二主网络包括第一子单元和第二子单元；所述通过所述第二主网络基于所述浅层特征进行语义特征提取，得到语义特征的步骤，包括：

通过所述第一子单元基于所述浅层特征进行深层特征提取，得到深层特征；其中，所述深层特征通过词向量表示；

通过所述第二子单元对所述词向量进行语义分析，得到语义特征。

3.如权利要求2所述的文本识别方法，其中，所述第一子单元包括卷积层和全连接层；所述第二子单元包括Transformer编码器。

4.如权利要求1所述的文本识别方法，其中，所述基于注意力机制、所述浅层特征以及所述语义特征进行文本识别，得到文本识别结果的步骤，包括：

基于注意力机制以及所述浅层特征确定携带有注意力信息的图像特征；

根据所述图像特征以及所述语义特征进行文本识别，得到文本识别结果。

5.如权利要求4所述的文本识别方法，其中，所述语义特征包括第一语义向量、第二语义向量和第三语义向量；

所述基于注意力机制和所述浅层特征确定携带有注意力信息的图像特征的步骤，包括：基于所述第一语义向量、第二语义向量以及softmax算法确定注意力信息；基于所述注意力信息以及所述浅层特征，得到携带有注意力信息的图像特征；

所述根据所述图像特征以及所述语义特征进行文本识别，得到文本识别结果的步骤，包括：根据所述第三语义向量与所述携带有注意力信息的图像特征进行文本识别，得到文本识别结果。

6.如权利要求1所述的文本识别方法，其中，所述第一主网络包括预先训练好的CRNN模型中的CNN网络；其中，所述预先训练好的CRNN模型用于文本图像识别。

7.如权利要求1所述的文本识别方法，其中，所述第三主网络包括GRU网络和全连接层。

8.如权利要求1至7任一项所述的文本识别方法，其中，所述文本识别模型按照如下步骤训练得到：

9.如权利要求8所述的文本识别方法，其中，所述采用所述文本图像样本以及所述文本字符信息对应的词向量对预设的初始模型进行训练的步骤，包括：

将所述文本图像样本输入给预设的初始模型，获取所述初始模型输出的文本识别结果以及所述初始模型在文本识别过程中产生的词向量；

根据所述文本图像样本标注的文本字符信息、所述文本识别结果以及预设的第一损失函数，计算第一损失值；

根据所述文本字符信息对应的词向量、所述初始模型在文本识别过程中产生的词向量以及预设的第二损失函数，计算第二损失值；

根据所述第一损失值和所述第二损失值对所述初始模型进行训练。

10.一种文本识别装置，包括：

模型输入模块，用于将待处理的目标文本图像输入至预先训练得到的文本识别模型；其中，所述文本识别模型包括第一主网络、第二主网络和第三主网络；

浅层特征提取模块，用于通过所述第一主网络对所述目标文本图像进行浅层特征提取，得到浅层特征；

语义特征提取模块，用于通过所述第二主网络基于所述浅层特征进行语义特征提取，得到语义特征；

文本识别模块，用于通过所述第三主网络基于注意力机制、所述浅层特征以及所述语义特征进行文本识别，得到文本识别结果。

11.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的文本识别方法。

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9中任一项所述的文本识别方法。