CN111832657A

CN111832657A - 文本识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111832657A
Application number: CN202010697383.8A
Authority: CN
Inventors: 王秋思
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-27

Abstract

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别的文本图像；通过文本识别模型对文本图像进行特征提取，得到与文本图像对应的特征图；通过文本识别模型中的分类通道对特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果；当语种偏向分类结果为偏向第一语种类别时，通过文本识别模型中的第一文本识别通道对特征图进行文本识别，得到对应的文本识别结果；当语种偏向分类结果为偏向第二语种类别时，通过文本识别模型中的第二文本识别通道对特征图进行文本识别，得到对应的文本识别结果；第二文本识别通道与第一文本识别通道具有不同的网络参数。采用本方法能够提高识别文本图像的准确性。

Description

文本识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本识别技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)是OCR(Optical Character Recognition，光学字符识别)文本识别中常用的一种网络结构，多由CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short Term Memory，长短期记忆网络)以及CTC(Connectionist temporal classification，时序类分类)组成。如今，CRNN网络结构在文本识别领域中被广泛使用，现有的基于CRNN网络结构进行文本识别的方式，通常是使用同一通道对图像中的多种语种的文本进行识别。

然而，当采用现有的基于CRNN网络结构对多个语种文本的图像进行文本识别时，由于现有的CRNN网络结构通常只能准确识别图像中的某个语种文本，而对其他语种文本的识别却并不准确，因此，存在文本识别准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够均衡包含不同语种字符的图像的识别效果的文本识别模型方法、装置、计算机设备和存储介质。

一种文本识别方法，所述方法包括：

获取待识别的文本图像；所述文本图像中包括至少一个语种的文本；

通过文本识别模型对所述文本图像进行特征提取，得到与所述文本图像对应的特征图；

通过所述文本识别模型中的分类通道对所述特征图进行语种分类处理，得到与所述文本图像对应的语种偏向分类结果；

当所述语种偏向分类结果为偏向第一语种类别时，通过所述文本识别模型中的第一文本识别通道对所述特征图进行文本识别，得到对应的文本识别结果；

当所述语种偏向分类结果为偏向第二语种类别时，通过所述文本识别模型中的第二文本识别通道对所述特征图进行文本识别，得到对应的文本识别结果；所述第二文本识别通道与所述第一文本识别通道具有不同的网络参数。

一种文本识别装置，所述装置包括：

获取模块，用于获取待识别的文本图像；所述文本图像中包括至少一个语种的文本；

特征提取模块，用于通过文本识别模型对所述文本图像进行特征提取，得到与所述文本图像对应的特征图；

语种分类模块，用于通过所述文本识别模型中的分类通道对所述特征图进行语种分类处理，得到与所述文本图像对应的语种偏向分类结果；

文本识别模块，用于当所述语种偏向分类结果为偏向第一语种类别时，通过所述文本识别模型中的第一文本识别通道对所述特征图进行文本识别，得到对应的文本识别结果；

所述文本识别模块还用于当所述语种偏向分类结果为偏向第二语种类别时，通过所述文本识别模型中的第二文本识别通道对所述特征图进行文本识别，得到对应的文本识别结果；所述第二文本识别通道与所述第一文本识别通道具有不同的网络参数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待识别的文本图像；所述文本图像中包括至少一个语种的文本；

上述文本识别方法、装置、计算机设备和存储介质，获取包括至少一个语种文本的文本图像，并通过文本识别模型提取该文本图像中的特征图。通过文本识别模型中的分类通道对文本图像的特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。再通过文本识别模型中与语种偏向分类结果对应的文本识别通道对文本图像的特征图进行文本识别处理，得到对应的文本识别结果。通过这样的方式，可使用不同文本识别通道分别对不同语种偏向分类结果的文本图像进行文本识别处理，也就是说，每个文本识别通道处理偏向同一个语种类别的文本图像，而无需处理多个语种类别的文本图像。因此，可提高各文本识别通道的识别准确性。并且，各文本识别通道中的文本识别过程互不干扰，也就是可以同时实现各文本识别通道中的文本识别过程，因此，不仅提高了各文本识别通道的识别效率，还大大提高了识别准确性。

附图说明

图1为一个实施例中文本识别方法的应用环境图；

图2为一个实施例中文本识别方法的流程示意图；

图3(a)为一个实施例中白色背景填充后的中间图像的示意图；

图3(b)为一个实施例中缩放处理后的待识别的文本图像的示意图；

图4为一个实施例中训练文本识别模型的示意图；

图5为一个实施例中文本识别装置的结构框图；

图6为另一个实施例中文本识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本识别方法，可以应用于如图1所示的应用环境中。其中，计算机设备110通过网络采集车辆120上包含文本的图像，得到待识别的文本图像。当然，在其他的应用场景中，该车辆120还可以是其他的待识别的目标对象，比如建筑楼或者停车位等对象。可以理解，图1所示的应用环境仅仅是用于一种示意性的说明，并不用于限定本方法所应用的具体的一个应用场景。其中，计算机设备具体可以是终端或者服务器，其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可以理解，计算机设备110通过网络采集车辆120上包含文本的图像，得到待识别的文本图像，文本图像中包括至少一个语种的文本。计算机设备110获取文本识别模型，并通过该文本识别模型对文本图像进行特征提取，得到与文本图像对应的特征图。计算机设备110再通过文本识别模型中的分类通道对特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。当语种偏向分类结果为偏向第一语种类别时，计算机设备110通过文本识别模型中的第一文本识别通道对特征图进行文本识别，得到对应的文本识别结果；当语种偏向分类结果为偏向第二语种类别时，计算机设备110通过文本识别模型中的第二文本识别通道对特征图进行文本识别，得到对应的文本识别结果。

在一个实施例中，如图2所示，提供了一种文本识别方法，以该方法应用于计算机设备110为例进行说明，该文本识别方法包括以下步骤：

S202，获取待识别的文本图像；文本图像中包括至少一个语种的文本。

其中，文本图像是包括文本的图像，文本具体可以是字符。语种是语言的种类，比如中文、英文以及韩文等语言种类。文本图像中包括至少一个语种的文本，也就是说，文本图像中可以包含一个语种的文本，也可以包含多个语种的文本。比如文本图像包含中文文本、包含英文文本或者同时包含中文文本和英文文本，本申请实施例对此不作限定。

具体地，计算机设备可从本地或其他计算机设备处获取待识别的文本图像。

在一个实施例中，计算机设备可通过本地的图像采集设备，比如摄像头，对出现文本的目标环境或目标场景进行图像采集，以得到采集的文本图像。或者，计算机设备通过网络接收其他计算机设备采集并发送的文本图像，本申请实施例对此不作限定。

在一个实施例中，步骤S202，也就是获取待识别的文本图像的步骤，具体包括：获取待处理的原始图像；通过预设内容对原始图像进行填充得到具有预设长宽比的中间图像；对中间图像进行缩放处理，得到预设尺寸的待识别的文本图像。

其中，原始图像是还未进行任何填充处理、以及缩放处理的图像。预设内容是预设的用于对原始图像进行填充的内容，比如背景色。预设长宽比和预设尺寸均是预设的数值，本申请实施例对此不作限定。缩放处理包括放大处理和缩小处理。

具体地，计算机设备从本地或其他计算机设备处获取原始图像，并获取该原始图像的原始长宽比。计算机设备通过对原始图像进行背景填充，将原始长宽比的原始图像调整为具有预设长宽比的中间图像。并且，计算机设备通过对中间图像进行缩放处理，将具有预设长宽比的中间图像调整为预设尺寸的待识别的文本图像。

在一个实施例中，计算机设备通过本地的图像采集设备采集得到原始图像，并且，计算机设备确定该原始图像的原始长宽比，原始长宽比比如3:1。或者，计算机设备获取原始图像后，截取该原始图像中包括待识别的文本的区域，计算机设备清除截取前的原始图像，并将截取后的包括待识别的文本的区域作为原始图像，从而确定该原始图像的原始长宽比。

在一个实施例中，计算机设备通过对原始图像进行背景填充，比如通过白色背景对原始图像进行背景填充，当然也可以是其他颜色，本申请实施例对此不作限定。因此，参考图3(a)，图3(a)为一个实施例中白色背景填充后的中间图像的示意图。经过填充处理后，计算机设备可将原始长宽比的原始图像调整为具有预设长宽比的中间图像，预设长宽比比如6:1。

在一个实施例中，当原始图像经过填充处理调整为中间图像后，还需进行缩放处理。预设尺寸比如是360*60，当然也可以是其他尺寸，本申请实施例对此不作限定。参考图3(b)，图3(b)为一个实施例中缩放处理后的待识别的文本图像的示意图。计算机设备获取中间图像的尺寸，当中间图像的尺寸大于预设尺寸时，对中间图像进行放大处理，得到预设尺寸的待识别的文本图像；当中间图像的尺寸小于预设尺寸时，对中间图像进行缩小处理，得到预设尺寸的待识别的文本图像。

上述实施例中，计算机设备通过预设内容对原始图像进行填充得到具有预设长宽比的中间图像，再通过对中间图像进行缩放处理，得到预设尺寸的待识别的文本图像。通过这样的方式，可以规范化待识别的文本图像的比例和尺寸，并且，可以突出显示文本图像中待识别的文本区域，相当于为后续的文本识别处理进行了预处理，从而便于特征提取。并且，可防止由于样本文本图像尺度归一化而导致图像失真，从而保证了训练文本识别模型的准确性。

S204，通过文本识别模型对文本图像进行特征提取，得到与文本图像对应的特征图。

其中，文本识别模型是用于对包含文本的图像进行分类和识别的神经网络模型。

具体地，计算机设备获取服务器训练好的文本识别模型，并通过该文本识别模型对文本图像进行特征提取，得到与文本图像对应的特征图。

在一个实施例中，计算机设备可选取VGG(Visual Geometry Group Network，视觉几何群网络)或者Resnet(Residual Network，残差网络)等神经网络作为特征提取的网络，本申请实施例对此不做限定。比如，计算机设备采用Resnet神经网络的两个残差模块作为卷积层进行底层的特征提取，从而在文本图像中提取到特征图。

在一个实施例中，当计算机设备在文本图像中提取到特征图后，可通过文本识别模型中对应的通道对该特征图进行语种分类处理和文本识别处理。比如，计算机设备通过文本识别模型中的分类通道对该特征图进行语种分类处理；计算机设备通过文本识别模型中的文本识别通道对该特征图进行文本识别处理。

在一个实施例中，该文本识别方法中的文本识别模型通过以下步骤训练得到：获取训练数据；训练数据包括样本文本图像、以及与样本文本图像对应的样本语种偏向标签和样本文本识别标签；样本文本图像包括第一样本文本图像和第二样本文本图像；第一样本文本图像的样本语种偏向标签为偏向第一语种标签；第二样本文本图像的样本语种偏向标签为偏向第二语种标签；通过待训练的文本识别模型对样本文本图像进行特征提取，得到与样本文本图像对应的样本特征图；通过待训练的文本识别模型中的分类通道对样本特征图进行语种分类处理，得到与样本文本图像对应的预测语种偏向分类结果；通过待训练的文本识别模型中的第一文本识别通道，对第一样本文本图像的样本特征图进行文本识别，得到与第一样本文本图像对应的样本文本识别结果；通过待训练的文本识别模型中的第二文本识别通道，对第二样本文本图像的样本特征图进行文本识别，得到与第二样本文本图像对应的样本文本识别结果；基于预测语种偏向分类结果与样本语种偏向标签的差异、以及各样本文本图像分别对应的样本文本识别标签和样本文本识别结果的差异，调整待训练的文本识别模型的网络参数并继续训练，直至满足停止条件时停止训练。

其中，训练数据是用于训练文本识别模型的数据。训练数据包括样本文本图像、以及与样本文本图像对应的样本语种偏向标签和样本文本识别标签。其中，样本文本图像是用于训练文本识别模型的、且包含文本的图像。样本文本图像包括第一样本文本图像和第二样本文本图像，其中，第一样本文本图像的样本语种偏向标签为偏向第一语种标签；第二样本文本图像的样本语种偏向标签为偏向第二语种标签。

样本语种偏向标签是样本文本图像实际所属的类别。其中，样本语种偏向标签包括偏向第一语种标签和偏向第二语种标签。预测语种偏向分类结果是通过待训练的文本识别模型得到的预测类别。样本文本识别标签是样本文本图像中实际包含的文本内容。样本文本识别结果是通过待训练的文本识别模型得到的预测的文本内容。

可以理解，当样本文本图像对应的样本语种偏向标签为偏向第一语种标签时，表示样本文本图像中第一语种文本的预设特征占比最大。也就是说，此时的样本文本图像中可能只包含第一语种的文本，也可能包含在包含第一语种的文本的前提下，还包含其他的语种文本。当样本文本图像中包含多个语种的文本时，第一语种文本的预设特征占比最大。同理，偏向第二语种标签表示样本文本图像中第二语种文本的预设特征占比最大。其中，预设特征比如是文本的数据量，或者是文本的字体大小等，本申请实施例对此不作限定。

第一语种第二语种分别是不同的语言种类，比如第一语种是中文时，第二语种是除中文以外的其他语种，第二语种可以是英文、韩文或者意大利文等其他语种，本申请实施例对此不作限定。

在一个实施例中，该文本识别模型可预先通过训练数据训练得到。此处的训练数据包括样本文本图像、以及与样本文本图像对应的样本语种偏向标签和样本文本识别标签。计算机设备根据与样本文本图像对应的样本语种偏向标签，也就是样本文本图像实际所属的类别，将样本文本图像划分为与偏向第一语种标签对应的第一样本文本图像、以及与偏向第二语种标签对应的第二样本文本图像。计算机设备可将样本文本图像输入至待训练的文本识别模型中，并通过该文本识别模型对该样本文本图像进行特征提取，得到与样本文本图像对应的样本特征图。然后，计算机设备通过待训练的文本识别模型中的分类通道对样本特征图进行语种分类处理，得到与样本文本图像对应的预测语种偏向分类结果。这里，对应的分类训练主要是使用softmax回归学习图像字符主要类别信息，进而进行图像中英文主要字符判定。

进一步地，通过待训练的文本识别模型中的第一文本识别通道对第一样本文本图像的样本特征图进行文本识别，得到与第一样本文本图像对应的样本文本识别结果；通过待训练的文本识别模型中的第二文本识别通道对第二样本文本图像的样本特征图进行文本识别，得到与第二样本文本图像对应的样本文本识别结果。

进而，计算机设备按照预测语种偏向分类结果与样本语种偏向标签的差异、以及各样本文本图像分别对应的样本文本识别标签和样本文本识别结果的差异，也就是说，计算机设备将样本文本图像的预测类别和实际所属的类别进行比对、以及将预测的文本内容和实际包含的文本内容进行比对。根据以上比对的各个差异，构建对应的损失函数。通过该损失函数来调整文本识别模型的网络参数，直到达到停止条件时停止训练其中，训练停止条件是停止模型训练的条件，具体可以是达到预设迭代次数或训练后的文本识别模型达到预设性能指标。

在一个实施例中，第一文本识别通道主要用于识别第一语种的预设特征占比最大的图像；第二文本识别通道主要用于识别第二语种的预设特征占比最大的图像。其中，该图像可以是样本文本图像或文本图像。因此，当偏向第一语种标签下的样本文本图像输入第一文本识别通道进行文本识别，通过第一文本识别通道所输出的样本文本识别结果与对应的样本文本识别标签进行比对，并根据比对的差异去调整模型的参数时，可有效地提高第一文本识别通道识别第一语种的样本文本图像的准确性。同理，根据第二文本识别通道输出的样本文本识别结果与对应的样本文本识别标签的差异，来调整模型的参数时，可有效地提高第二文本识别通道识别第二语种的样本文本图像的准确性。

在一个实施例中，当样本文本图像中有两种以上的语种文本时，也就是当样本语种偏向标签为偏向第三语种标签时，通过待训练的文本识别模型中的第三文本识别通道对样本特征图进行文本识别，得到对应的样本文本识别结果。其中，第三语种表示除第一语种和第二语种以外的语种。也就是说，具体的文本识别通道的数量可根据样本文本图像中出现的语种的数量来决定。每一个文本识别通道对应识别偏向一个语种的样本文本图像，即可有针对性地训练各个文本识别通道，从而提高整个文本识别模型的识别准确性。

上述实施例中，计算机设备通过训练数据对待训练的文本识别模型进行训练，通过不同的通道分别对训练数据中的样本文本图像进行语种分类和文本识别处理，并且，每个文本识别通道对应处理偏向一个语种标签的图像。通过这样的方式，可有针对性地训练各文本识别通道，从而提高各文本识别通道的识别准确性。因此，计算机设备可得到训练好的、且提高准确性的文本识别模型。

S206，通过文本识别模型中的分类通道对特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。

其中，分类通道是文本识别通道中用于语种分类的通道，通道也可以理解为网络结构、或者通道分支等。语种分类处理是通过确定图像中的各语种文本的预设特征，对各图像进行类别划分的过程。语种偏向分类结果通过训练好的文本识别模型得到的偏向类别。可以理解，由于各图像中存在至少一个语种的文本，因此，对应的分类结果是一种偏向的分类结果，表示当前图像中哪一个语种的文本的预设特征占比更多。

具体地，计算机设备将特征图输入至文本识别模型中的分类通道，并通过该分类通道对特征图进行语种分类处理，将该分类通道的输出结果作为与文本图像对应的语种偏向分类结果。

在一个实施例中，计算机设备通过文本识别模型中的分类通道对特征图进行语种分类处理，确定与特征图对应的文本图像中的文本所属的语种种类、以及统计每个语种文本的数量。计算机设备通过比较文本图像中每个语种文本的数量，确定文本图像对应的语种偏向分类结果。

在一个实施例中，步骤S206，也就是通过文本识别模型中的分类通道对特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果的步骤，具体包括：通过文本识别模型中的分类通道对特征图进行语种分类处理，确定文本图像中出现的各字符所属的语种类别；语种类别包括第一语种和第二语种；分别统计文本图像属于第一语种的字符的第一数量、以及属于第二语种的字符的第二数量；当第一数量大于或等于第二数量时，确定与文本图像对应的语种偏向分类结果为偏向第一语种类别；当第一数量小于第二数量时，确定与文本图像对应的语种偏向分类结果为偏向第二语种类别。

其中，语种类别就是语种的种类，比如语种类别分为中文、英文、或者韩文等语种类别。第一数量表示文本图像属于第一语种的字符的数量。第二数量表示文本图像属于第二语种的字符的数量。

语种偏向分类结果包括偏向第一语种类别和偏向第二语种类别。可以理解，当文本图像对应的语种偏向分类结果为第一语种类别时，表示文本图像中第一语种文本的预设特征占比最大。也就是说，此时的文本图像中可能只包含第一语种的文本，也可能包含在包含第一语种的文本的前提下，还包含其他的语种文本。当文本图像中包含多个语种的文本时，第一语种文本的预设特征占比最大。同理，偏向第二语种类别表示文本图像中第二语种文本的预设特征占比最大。

具体地，计算机设备通过文本识别模型中的分类通道对特征图进行语种分类处理。计算机设备确定与特征图对应的文本图像中出现的各个字符，以及各个字符所属的语种种类。计算机设备统计每个语种各自对应的字符总数量，将文本图像中属于第一语种的字符的数量作为第一数量，并将文本图像中属于第二语种的字符的数量作为第二数量。

进一步地，当计算机设备统计得到的文本图像中第一数量大于或等于第二数量时，确定当前的文本图像所对应的语种偏向分类结果为偏向第一语种类别；反之，当计算机设备通过统计得到的文本图像中第一数量小于第二数量时，确定当前的文本图像对应的语种偏向分类结果为偏向第二语种类别。

上述实施例中，计算机设备通过文本识别模型中的分类通道对特征图进行语种分类处理，确定与特征图对应的文本图像中的文本所属的语种种类、以及统计每个语种文本的数量，并基于每个语种文本的数量，确定文本图像对应的语种偏向分类结果。通过这样的方式，计算机设备可对文本图像进行预分类，从而得到各个文本图像所对应的语种偏向分类结果。该语种偏向分类结果用于将文本图像输入至不同的文本识别通道中进行文本识别。因此，通过语种分类处理后，每个文本识别通道处理偏向同一个语种类别的文本图像，而无需处理多个语种类别的文本图像，可提高各文本识别通道的识别准确性。

S208，当语种偏向分类结果为偏向第一语种类别时，通过文本识别模型中的第一文本识别通道对特征图进行文本识别，得到对应的文本识别结果。

其中，文本识别结果是通过训练好的文本识别模型识别得到的文本内容。文本识别通道是用于识别图像中的文本的通道。文本识别通道至少分为第一文本识别通道和第二文本识别通道。比如，第一文本识别通道主要用于识别第一语种的字符数量占比最大的图像；第二文本识别通道主要用于识别第二语种的字符数量占比最大的图像。并且，当有多种语种的文本时，可对应增加对应的文本识别通道。

具体地，当语种偏向分类结果为偏向第一语种类别时，计算机设备将与第一语种类别对应的特征图输入至第一文本识别通道中进行文本识别，并得到对应的文本识别结果。

在一个实施例中，第一文本识别通道采用LSTM和CTC的网络结构，通过这两个网络结构的结合，可以在文本图像的字符区域不固定的情况下实现文字识别。

S210，当语种偏向分类结果为偏向第二语种类别时，通过文本识别模型中的第二文本识别通道对特征图进行文本识别，得到对应的文本识别结果；第二文本识别通道与第一文本识别通道具有不同的网络参数。

具体地，当语种偏向分类结果为偏向第二语种类别时，计算机设备将与第二语种类别对应的特征图输入至第二文本识别通道中进行文本识别，并得到对应的文本识别结果。

在一个实施例中，第二文本识别通道和第一文本识别通道的主要结构相同，也采用LSTM和CTC的网络结构，通过这两个网络结构的结合，可以在文本图像的字符区域不固定的情况下实现文字识别。

在一个实施例中，由于第二文本识别通道主要用于识别偏向第二语种类别的文本图像，第一文本识别通道主要用于识别偏向第二语种类别的文本图像，也就是说，第二文本识别通道与第一文本识别通道分别具有各自的网络参数，从而实现对不同语种的文本的识别。

上述文本识别方法，获取包括至少一个语种文本的文本图像，并通过文本识别模型提取该文本图像中的特征图。通过文本识别模型中的分类通道对文本图像的特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。再通过文本识别模型中与语种偏向分类结果对应的文本识别通道对文本图像的特征图进行文本识别处理，得到对应的文本识别结果。通过这样的方式，可使用不同文本识别通道分别对不同语种偏向分类结果的文本图像进行文本识别处理，也就是说，每个文本识别通道处理偏向同一个语种类别的文本图像，而无需处理多个语种类别的文本图像。因此，可提高各文本识别通道的识别准确性。并且，各文本识别通道中的文本识别过程互不干扰，也就是可以同时实现各文本识别通道中的文本识别过程，因此，不仅提高了各文本识别通道的识别效率，还大大提高了识别准确性。

在一个实施例中，通过待训练的文本识别模型对样本文本图像进行特征提取，得到与样本文本图像对应的样本特征图的步骤之前，该文本识别方法还包括交替输入样本文本图像的步骤，该交替输入样本文本图像的步骤具体包括：分别从第一样本文本图像和第二样本文本图像中，依次交替选取对应的样本文本图像输入至待训练的文本识别模型中。

具体地，在训练文本识别模型时，计算机设备分别从第一样本文本图像和第二样本文本图像中，依次交替选取对应的样本文本图像输入至待训练的文本识别模型中。

在一个实施例中，根据样本文本图像中的语种类别的数量时，计算机设备预设与语种类别的数量对应的文本识别通道，并将样本文本图像划分为与语种类别的数量对应数量的样本文本图像。比如，样本文本图像中包括两种语种文本时，计算机设备将样本文本图像划分为第一样本文本图像和第二样本文本图像。

在一个实施例中，当样本文本图像中包括两种语种文本时，计算机设备分别从第一样本文本图像和第二样本文本图像中，依次交替选取对应的、且满足预设条件的样本文本图像输入至待训练的文本识别模型中。其中，预设条件比如是预设数量的样本文本图像，比如每1张样本文本图像作为一个批次，或者每3张样本文本图像作为一个批次，本申请实施例对此不作限定。比如，计算机设备第一次从第一样本文本图像中选取预设数量的样本文本图像，也就是选取预设数量的偏向第一语种标签下的样本文本图像，并传入待训练的文本识别模型中，以用于训练分类通道和第一文本识别通道。计算机设备第二次再从第二样本文本图像中选取预设数量的样本文本图像，也就是选取预设数量的偏向第二语种标签下的样本文本图像，并传入待训练的文本识别模型中，以用于训练分类通道和第二文本识别通道。

上述实施例中，计算机设备分别依次交替从第一样本文本图像和第二样本文本图像中选取对应的样本文本图像，这样使得各文本识别通道可以有针对性的学习对应的文本特征，可避免各语种的样本文本图像不均衡的问题，还有利于提高整个文本识别模型的识别准确性。

在一个实施例中，该文本识别方法中的样本语种偏向标签通过以下步骤确定：确定样本文本图像中出现的各字符所属的样本语种类别；样本语种类别包括第一样本语种和第二样本语种；分别统计样本文本图像属于第一样本语种的字符的第一样本数量、以及属于第二样本语种的字符的样本第二样本数量；当第一样本数量大于或等于第二样本数量时，确定与样本文本图像对应的样本语种偏向标签为偏向第一语种标签；当第一样本数量小于第二样本数量时，确定与样本文本图像对应的样本语种偏向标签为偏向第二语种标签。

具体地，计算机设备确定样本文本图像中的各个字符所对应的语种种类，并统计每个语种各自对应的字符总数量。计算机设备将样本文本图像中属于第一语种的字符的数量作为第一样本数量，并将样本文本图像中属于第二语种的字符的数量作为第二样本数量。

进一步地，当计算机设备统计得到的样本文本图像中第一样本数量大于或等于第二样本数量时，确定当前的样本文本图像所对应的样本语种偏向标签为偏向第一语种标签；反之，当计算机设备通过统计得到的样本文本图像中第一样本数量小于第二样本数量时，确定当前的文本图像对应的样本语种偏向标签为偏向第二语种标签。

在另一个实施例中，与样本文本图像对应的样本语种偏向标签也可以通过标注人员来人工确定，比如标注人员根据样本文本图像中各语种的字符的数量对该样本文本图像进行手动标注。因而，计算机设备可获取带有样本语种偏向标签的样本文本图像。

上述实施例中，计算机设备可通过确定各个样本文本图像对应的语种种类、以及统计每个语种文本的数量，并基于每个语种文本的数量，确定样本文本图像对应的预测语种偏向分类结果。通过这样的方式，计算机设备可对样本文本图像进行预分类，从而得到各个样本文本图像所对应的样本语种偏向标签。该样本语种偏向标签用于将样本文本图像输入至不同的文本识别通道中进行文本识别。因此，通过语种分类处理后，每个文本识别通道处理偏向同一个语种类别的样本文本图像，而无需处理多个语种类别的样本文本图像，因而可提高各文本识别通道的识别准确性。

在一个实施例中，该文本识别方法中的文本图像包括车辆文本图像；车辆文本图像包括车辆的车架号、车牌、车辆铭牌、车身文字、以及车辆的年检信息中的至少一种，该文本识别方法还包括获取车检信息的步骤，该获取车检信息的步骤包括：根据与车辆文本图像对应的文本识别结果，确定对应的车辆信息，以查找与车辆信息对应的车检信息。

其中，车辆的车架号是车辆识别号码(Vehicle Identification Number，简称VIN)，一般由十七个字母或数字组成，是车辆上的一组独一无二的号码，VIN可用于识别车辆的生产商、引擎、底盘序号及其他性能等信息。车牌也称作牌照、或车辆号牌，一般由五个字母或数字组成，车牌上记录车辆的登记号码、登记地区或其他的相关信息。车辆铭牌是表示车辆基本特征的标牌，基本特征包括厂牌、型号、发动机功率、总质量、最大承载质量、载客人数、出厂编号、出厂日期以及厂名等。车身文字一般是喷涂在车身上的文字，车辆的年检信息具体可以是包含年检信息的表格，其中，车辆年检信息可包括车辆的基本信息、每一次年检的时间、以及各年检项目的检查情况等。

具体地，当文本图像是车辆的车架号、车牌、车辆铭牌、车身文字、以及车辆的年检信息等车辆文本图像时，计算机设备通过文本识别模型对车辆文本图像进行语种分类和文本识别处理，并根据与车辆文本图像对应的文本识别结果，确定对应的车辆，从而查找到与该车辆对应的车检信息。

上述实施例中，计算机设备可根据与车辆文本图像对应的文本识别结果，确定对应的车辆信息，以查找与车辆信息对应的车检信息。通过这样的方式，可快速及准确地查找到与车辆对应的车检信息，从而大大获取车检信息的便利性。

在一个具体的实施例中，参考图4，该文本识别方法中训练文本识别模型具体包括以下步骤：①计算机设备获取原始样本图像，对原始样本图像进行图像尺寸变换，比如，基于原始样本图像的长宽比，使用白色背景填充原始样本图像，将原始样本图像的长宽比调整为6:1，并将原始样本图像的尺寸大小调整为360*60，因而得到训练文本识别模型的样本文本图像(如图4中的401)。这样的尺寸变换可便于对原始样本图像特征提取，防止在训练文本识别模型之前，因样本文本图像尺度归一化而使图像失真。

②计算机设备获取训练数据，其中，训练数据包括样本文本图像、以及与样本文本图像对应的样本语种偏向标签和样本文本识别标签。计算机设备可按照英文字符居多(偏向第一语种标签)、以及中文字符居多(偏向第二语种标签)的分类标签对训练数据进行分类，并将不同类别标签下的样本文本图像轮流传入。例如，第一次传入batch_size(预设数量)张中文字符居多的数据，用于训练图4中的LSTM_chinese分支(第一文本识别通道)和classify分支(分类通道)；第二次传入batch_size张英文字符居多的数据，用于训练图4中的LSTM_english分支(第二文本识别通道)和classify分支(分类通道)，此后依次交替传入对应的样本文本图像。

③对传入的样本文本图像进行特征提取(如图4中的402)，特征提取的卷积层可以选取VGG、或者Resnet等特征提取网络，最终获取特征图(如图4中的403)。

④将获取的特征图(如图4中的403)传入classify分支(如图4中的404)进行分类训练。分类训练使用softmax回归学习图像字符主要类别信息，进而进行图像中英文主要字符判定。同时，根据特征图类别信息的不同，选择LSTM_english分支(如图4中的405)进行英文字符网络训练或LSTM_chinese分支(如图4中的406)进行中文字符网络训练。其中，这两分支主要结构相同，均为LSTM+CTC网络结构，该结构能在图像字符区域不固定的情况下实现图像文字识别。

⑤在文本识别模型训练完成后，对待检测图像进行测试时，先获取classify分支(如图4中的404)的语种偏向分类结果，再根据该语种偏向分类结果确定最终结果选取LSTM_english分支(如图4中的405)的文本识别结果或LSTM_chinese分支(如图4中的406)的文本识别结果。

⑥当满足训练停止条件时结束训练，计算机设备获取训练好的文本识别模型。

在一个实施例中，该文本识别模型采用resnet两个残差模块作为卷积层进行底层的特征提取。在计算机设备获取特征图后，在原本CRNN单条LSTM循环神经网络作为分类通道的基础上，添加了两条分支。分classify分支(如图4中的404)采用使用全连接层加上softmax回归进行图像中英文分类，LSTM_english分支(如图4中的405)与LSTM_chinese分支(如图4中的406)结构相同，但传入的样本文本图像不同，LSTM_chinese分支(如图4中的406)更偏向于中文字符训练，LSTM_english分支(如图4中的405)偏向于英文字符训练。

上述实施例中，立足于实际检测过程中出现的数据量少、以及检测困难的难点，通过分类通道和文本识别通道的设计，有针对性地解决各语种的样本文本图像不均衡、以及文本识别的准确性低的问题。

应该理解的是，虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种文本识别装置500，包括：获取模块501、特征提取模块502、语种分类模块503以及文本识别模块504，其中：

获取模块501，用于获取待识别的文本图像；文本图像中包括至少一个语种的文本.

特征提取模块502，用于通过文本识别模型对文本图像进行特征提取，得到与文本图像对应的特征图。

语种分类模块503，用于通过文本识别模型中的分类通道对特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。

文本识别模块504，用于当语种偏向分类结果为偏向第一语种类别时，通过文本识别模型中的第一文本识别通道对特征图进行文本识别，得到对应的文本识别结果。

文本识别模块504还用于当语种偏向分类结果为偏向第二语种类别时，通过文本识别模型中的第二文本识别通道对特征图进行文本识别，得到对应的文本识别结果；第二文本识别通道与第一文本识别通道具有不同的网络参数。

在一个实施例中，获取模块501还用于获取待处理的原始图像；通过预设内容对原始图像进行填充得到具有预设长宽比的中间图像；对中间图像进行缩放处理，得到预设尺寸的待识别的文本图像。

在一个实施例中，语种分类模块503还用于通过文本识别模型中的分类通道对特征图进行语种分类处理，确定文本图像中出现的各字符所属的语种类别；语种类别包括第一语种和第二语种；分别统计文本图像属于第一语种的字符的第一数量、以及属于第二语种的字符的第二数量；当第一数量大于或等于第二数量时，确定与文本图像对应的语种偏向分类结果为偏向第一语种类别；当第一数量小于第二数量时，确定与文本图像对应的语种偏向分类结果为偏向第二语种类别。

在一个实施例中，参考图6，该文本识别装置500还包括训练模块505，用于获取训练数据；训练数据包括样本文本图像、以及与样本文本图像对应的样本语种偏向标签和样本文本识别标签；样本文本图像包括第一样本文本图像和第二样本文本图像；第一样本文本图像的样本语种偏向标签为偏向第一语种标签；第二样本文本图像的样本语种偏向标签为偏向第二语种标签；通过待训练的文本识别模型对样本文本图像进行特征提取，得到与样本文本图像对应的样本特征图；通过待训练的文本识别模型中的分类通道对样本特征图进行语种分类处理，得到与样本文本图像对应的预测语种偏向分类结果；通过待训练的文本识别模型中的第一文本识别通道，对第一样本文本图像的样本特征图进行文本识别，得到与第一样本文本图像对应的样本文本识别结果；通过待训练的文本识别模型中的第二文本识别通道，对第二样本文本图像的样本特征图进行文本识别，得到与第二样本文本图像对应的样本文本识别结果；基于预测语种偏向分类结果与样本语种偏向标签的差异、以及各样本文本图像分别对应的样本文本识别标签和样本文本识别结果的差异，调整待训练的文本识别模型的网络参数并继续训练，直至满足停止条件时停止训练。

在一个实施例中，训练模块505还用于分别从第一样本文本图像和第二样本文本图像中，依次交替选取对应的样本文本图像输入至待训练的文本识别模型中。

在一个实施例中，训练模块505还用于确定样本文本图像中出现的各字符所属的样本语种类别；样本语种类别包括第一样本语种和第二样本语种；分别统计样本文本图像属于第一样本语种的字符的第一样本数量、以及属于第二样本语种的字符的样本第二样本数量；当第一样本数量大于或等于第二样本数量时，确定与样本文本图像对应的样本语种偏向标签为偏向第一语种标签；当第一样本数量小于第二样本数量时，确定与样本文本图像对应的样本语种偏向标签为偏向第二语种标签。

在一个实施例中，该文本识别装置500中的文本图像包括车辆文本图像；车辆文本图像包括车辆的车架号、喷漆车牌、铭牌、车身喷涂的文字、以及车辆的年检表格类数据中的至少一种，方法还包括：根据与车辆文本图像对应的文本识别结果，确定对应的车辆信息，以查找与车辆信息对应的车检信息。

上述文本识别装置，获取包括至少一个语种文本的文本图像，并通过文本识别模型提取该文本图像中的特征图。通过文本识别模型中的分类通道对文本图像的特征图进行语种分类处理，得到与文本图像对应的语种偏向分类结果。再通过文本识别模型中与语种偏向分类结果对应的文本识别通道对文本图像的特征图进行文本识别处理，得到对应的文本识别结果。通过这样的方式，可使用不同文本识别通道分别对不同语种偏向分类结果的文本图像进行文本识别处理，也就是说，每个文本识别通道处理偏向同一个语种类别的文本图像，而无需处理多个语种类别的文本图像。因此，可提高各文本识别通道的识别准确性。并且，各文本识别通道中的文本识别过程互不干扰，也就是可以同时实现各文本识别通道中的文本识别过程，因此，不仅提高了各文本识别通道的识别效率，还大大提高了识别准确性。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备具体可以是终端或服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI(Wireless Fidelity，无线局域网)、运营商网络、NFC(Near Field Communication，近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本识别方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本识别方法的步骤。此处文本识别方法的步骤可以是上述各个实施例的文本识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本识别方法的步骤。此处文本识别方法的步骤可以是上述各个实施例的文本识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的文本图像，包括：

获取待处理的原始图像；

通过预设内容对所述原始图像进行填充得到具有预设长宽比的中间图像；

对所述中间图像进行缩放处理，得到预设尺寸的待识别的文本图像。

3.根据权利要求1所述的方法，其特征在于，所述通过所述文本识别模型中的分类通道对所述特征图进行语种分类处理，得到与所述文本图像对应的语种偏向分类结果，包括：

通过所述文本识别模型中的分类通道对所述特征图进行语种分类处理，确定所述文本图像中出现的各字符所属的语种类别；所述语种类别包括第一语种和第二语种；

分别统计所述文本图像属于第一语种的字符的第一数量、以及属于第二语种的字符的第二数量；

当所述第一数量大于或等于第二数量时，确定与所述文本图像对应的语种偏向分类结果为偏向第一语种类别；

当所述第一数量小于第二数量时，确定与所述文本图像对应的语种偏向分类结果为偏向第二语种类别。

4.根据权利要求1所述的方法，其特征在于，所述文本识别模型通过以下步骤训练得到：

获取训练数据；所述训练数据包括样本文本图像、以及与所述样本文本图像对应的样本语种偏向标签和样本文本识别标签；所述样本文本图像包括第一样本文本图像和第二样本文本图像；所述第一样本文本图像的样本语种偏向标签为偏向第一语种标签；所述第二样本文本图像的样本语种偏向标签为偏向第二语种标签；

通过待训练的文本识别模型对所述样本文本图像进行特征提取，得到与所述样本文本图像对应的样本特征图；

通过所述待训练的文本识别模型中的分类通道对所述样本特征图进行语种分类处理，得到与所述样本文本图像对应的预测语种偏向分类结果；

通过所述待训练的文本识别模型中的第一文本识别通道，对所述第一样本文本图像的样本特征图进行文本识别，得到与所述第一样本文本图像对应的样本文本识别结果；

通过所述待训练的文本识别模型中的第二文本识别通道，对所述第二样本文本图像的样本特征图进行文本识别，得到与所述第二样本文本图像对应的样本文本识别结果；

基于所述预测语种偏向分类结果与所述样本语种偏向标签的差异、以及各样本文本图像分别对应的样本文本识别标签和样本文本识别结果的差异，调整待训练的文本识别模型的网络参数并继续训练，直至满足停止条件时停止训练。

5.根据权利要求4所述的方法，其特征在于，所述通过待训练的文本识别模型对所述样本文本图像进行特征提取，得到与所述样本文本图像对应的样本特征图之前，所述步骤还包括：

分别从所述第一样本文本图像和所述第二样本文本图像中，依次交替选取对应的样本文本图像输入至待训练的文本识别模型中。

6.根据权利要求4所述的方法，其特征在于，所述样本语种偏向标签通过以下步骤确定：

确定所述样本文本图像中出现的各字符所属的样本语种类别；所述样本语种类别包括第一样本语种和第二样本语种；

分别统计所述样本文本图像属于所述第一样本语种的字符的第一样本数量、以及属于所述第二样本语种的字符的样本第二样本数量；

当所述第一样本数量大于或等于第二样本数量时，确定与所述样本文本图像对应的样本语种偏向标签为偏向第一语种标签；

当所述第一样本数量小于第二样本数量时，确定与所述样本文本图像对应的样本语种偏向标签为偏向第二语种标签。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述文本图像包括车辆文本图像；所述车辆文本图像包括车辆的车架号、车牌、车辆铭牌、车身文字、以及车辆的年检信息中的至少一种，所述方法还包括：

根据与所述车辆文本图像对应的文本识别结果，确定对应的车辆信息，以查找与所述车辆信息对应的车检信息。

8.一种文本识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。