CN111401375B

CN111401375B - 文本识别模型训练方法、文本识别方法、装置及设备

Info

Publication number: CN111401375B
Application number: CN202010156069.9A
Authority: CN
Inventors: 金宏运; 杨现; 陈浩
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-12-30
Anticipated expiration: 2040-03-09
Also published as: CN111401375A

Abstract

本发明公开一种文本识别模型训练方法、文本识别方法、装置及设备，属于图像识别技术领域，文本识别模型训练方法包括：获取图像样本集，其中，图像样本集中的图像样本包括文本图像及文本图像关联的文字标签；对图像样本集进行样本扩充，并将样本扩充后的图像样本集划分为训练集、验证集和测试集；根据训练集和验证集对文本识别模型进行迭代训练，其中，文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE‑ResNet网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的；根据测试集对迭代训练后的文本识别模型进行性能测试。本发明实施例能够提高文本识别模型的特征提取能力，提升特征向量解码效果，从而提高文本识别的准确度。

Description

文本识别模型训练方法、文本识别方法、装置及设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种文本识别模型训练方法、文本识别方法、装置及设备。

背景技术

文本识别任务要求通过一定的图像处理来识别图像中的文本内容。文本识别可应用于许多领域，如信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理，以及文档检索，各类证件识别和财务票据处理的办公自动化等。方便用户快速录入信息，提高各行各业的工作效率。

目前关于文本识别方法分两大类，一类是基于传统图像处理，对字符进行分割，然后单独分类识别，其中一般需要对图像进行灰度化、二值化、阈值分割、归一化、支持向量机(Support Vector Machine,SVM)分类来完成识别；另一类就是使用深度学习方式，进行不分割地端到端处理，目前效果较好且比较常用的算法模型是CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)，该模型首先使用卷积神经网络(Convolutional Neural Networks,CNN) 从输入图像中提取出特征序列，然后使用循环神经网络(Recurrent Neural Networks,RNN)预测从卷积层获取的特征序列的标签分布，最后引入联结主义时序分类(Connectionist temporal classification,CTC)把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。

发明人在实施本发明的过程中发现，现有技术存在如下缺点：

基于传统图像处理方法往往需要人工针对性的设计一些特征，中间还要穿插一些规则对算法处理不当的地方进行修正，并且对于图像背景复杂、干扰多，字符粘结严重的情况，传统方法处理的效果不是很好。而基于CRNN的方法虽然利用深度学习的方式减少了人工干预，提升了文本识别的准确率和算法的稳定性，但由于原CRNN模型使用传统的VGG网络进行卷积提取特征序列和使用双向LSTM结合CTC来处理不定长序列转文字问题，所以对于更复杂多变的文字识别任务，会产生模型特征提取能力不强、有效编码不足和长短期依赖问题，从而影响识别结果。

发明内容

为了解决上述背景技术中提到的至少一个问题，本发明提供了一种文本识别模型训练方法、文本识别方法、装置及设备。

本发明实施例提供的具体技术方案如下：

第一方面，提供了一种文本识别模型训练方法，所述方法包括：

获取图像样本集，其中，所述图像样本集中的图像样本包括文本图像及所述文本图像关联的文字标签；

对所述图像样本集进行样本扩充，并将样本扩充后的图像样本集划分为训练集、验证集和测试集；

根据所述训练集和所述验证集对文本识别模型进行迭代训练，其中，所述文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE-ResNet 网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的；

根据所述测试集对迭代训练后的文本识别模型进行性能测试。

进一步地，所述对所述图像样本集进行样本扩充，包括：

对所述图像样本集中的图像样本所包括的文本图像进行数据增广，并获取对应的文本标签，得到所述图像样本对应的扩充图像样本；

其中，所述数据增广包括如下方式中的至少一个：

对所述文本图像进行翻转、平移、缩放操作、调整图像RGB各通道权重以及图像旋转中的至少一种；

运用OpenCV库和PIL图像处理库，模拟生成带文本标签的合成文本图像。

进一步地，所述文本识别模型是采用如下方法构建得到：

构造SE网络模块，并将所述SE网络模块设置到ResNet网络中，形成 SE-ResNet网络层，其中，所述SE网络模块是通过Squeeze操作、Excitation操作以及Reweight操作完成图像特征重定向的；

对所述SE-ResNet网络层、BiLSTM网络层和注意力机制层依次级联，构成所述文本识别模型。

进一步地，所述根据所述训练集和所述验证集对文本识别模型进行迭代训练，包括：

将所述训练集输入到所述文本识别模型中进行训练；

根据所述验证集，对训练后的所述文本识别模型进行验证，若验证结果不符合迭代停止条件时，则继续对所述文本识别模型进行迭代训练和验证，直至验证结果符合迭代停止条件，输出迭代训练好的文本识别模型。

进一步地，所述将所述训练集输入到所述文本识别模型中进行训练，包括：

以所述训练集中的文本图像作为输入，采用所述SE-ResNet网络层对所述文本图像进行多层卷积运算，得到所述文本图像对应的预设维度的特征向量；

将所述特征向量分解为预设长度的特征向量序列；

采用所述BiLSTM网络层对所述文本图像对应的特征向量序列进行基于上下文的特征提取，得到所述文本图像对应的编码特征向量；

以所述文本图像对应的编码特征向量作为所述注意力机制层在t时刻的输入，以所述文本图像关联的文字标签作为所述注意力机制层在t时刻的输出，并结合所述注意力机制层在t-1时刻的预测输出，对所述注意力机制层进行训练。

第二方面，提供了文本识别方法，所述方法包括：

对输入的待识别文本图像进行预处理；

将预处理后的所述待识别文本图像输入到预先训练好的文本识别模型进行文本识别，并输出所述待识别文本图像的文本识别结果；

其中，所述预先训练好的文本识别模型基于如权利要求1至5任意一项所述的方法训练。

第三方面，提供了一种文本识别模型训练装置，所述装置包括：

样本获取模块，用于获取图像样本集，所述图像样本集中的图像样本包括文本图像及所述文本图像关联的文字标签；

样本扩充模块，用于对所述图像样本集进行样本扩充；

样本划分模块，用于将样本扩充后的图像样本集划分为训练集、验证集和测试集；

迭代训练模块，用于根据所述训练集和所述验证集对文本识别模型进行迭代训练，其中，所述文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE-ResNet网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的；

模型测试模块，用于根据所述测试集对迭代训练后的文本识别模型进行性能测试。

进一步地，所述样本扩充模块具体用于：

其中，所述数据增广包括如下方式中的至少一个：

进一步地，所述装置还包括模型构建模块，所述模型构建模块用于：

构造SE网络模块，并将所述SE网络模块设置到ResNet网络中，形成所述 SE-ResNet网络层，其中，所述SE网络模块是通过Squeeze操作、Excitation操作以及Reweight操作完成图像特征重定向的；

进一步地，所述迭代训练模块包括：

训练子模块，用于将所述训练集输入到所述文本识别模型中进行训练；

验证子模块，用于根据所述验证集，对训练后的所述文本识别模型进行验证；

迭代子模块，用于若验证结果不符合迭代停止条件时，则继续对所述文本识别模型进行迭代训练和验证，直至验证结果符合迭代停止条件，输出迭代训练好的文本识别模型。

进一步地，所述训练子模块具体用于：

将所述特征向量分解为预设长度的特征向量序列；

第四方面，提供了一种文本识别装置，所述装置包括：

预处理模块，用于对输入的待识别文本图像进行预处理；

文本识别模块，用于将预处理后的所述待识别文本图像输入到预先训练好的文本识别模型进行文本识别，并输出所述待识别文本图像的文本识别结果；

其中，所述预先训练好的文本识别模型基于如第一方面所述的方法训练。

第五方面，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的文本识别模型训练方法，或者所述处理器执行所述计算机程序时实现如第二方面所述的文本识别方法。

第六方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的文本识别模型训练方法，或者，所述计算机程序被处理器执行时实现如第二方面所述的文本识别方法。

本发明实施例提供的技术方案，具有如下有益效果：

(1)通过使用SE-ResNet网络，即特征重定向模块结合ResNet来替换原 CRNN网络模型中的VGG网络，能够提高模型的特征提取能力；

(2)通过引入注意力机制来提升特征向量解码效果，能够帮助解决有效编码和长短期依赖问题，从而提高文本识别的准确度。

(3)本发明无需单独采集大量训练数据集，通过对原始数据集进行数据增广，生成多种数据样本，能够提高识别泛化能力和鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提供的一种文本识别模型训练方法的流程图；

图2示出了本发明实施例提供的文本识别模型的结构示意图；

图3示出了本发明实施例提供的SE网络模块的结构示意图；

图4示出了本发明实施例提供的SE-ResNet网络层的结构示意图；

图5示出了本发明实施例提供的BiLSTM网络层的结构示意图；

图6示出了本发明实施例提供的注意力机制层的结构示意图；

图7示出了本发明实施例提供的一种文本识别方法的流程图；

图8示出了本发明实施例提供的一种文本识别模型训练装置的结构图；

图9示出了本发明实施例提供的一种文本识别装置的结构图；

图10为本发明实施例提供的计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例一

本发明实施例提供一种文本识别模型训练方法，其执行主体可以是服务器，服务器可以采用独立的服务器或服务器集群，如图1所示，该方法可以包括：

步骤101，获取图像样本集，其中，图像样本集中的图像样本包括文本图像及文本图像关联的文字标签。

本实施例中，在准备图像样本时，文本图像中的文本区域面积占整个文本图像面积的比例需超过预设比例，例如预设比例设定为80％，同时准备与文本图像同一名称不同后缀的标注文件，该标注文件中存储文本图像中待识别字段的内容，即文本图像关联的文字标签。

步骤102，对图像样本集进行样本扩充，并将样本扩充后的图像样本集划分为训练集、验证集和测试集。

具体地，对各文本图像样本中的文本图像进行数据扩增，并获取对应的文本标签，得到各文本图像样本对应的扩充文本图像样本。

其中，数据增广的方式包括但不限于对图像进行翻转、平移、缩放操作、调整图像RGB各通道权重以及对图像进行旋转等。

可选的，调整图像的色彩(Color)丰富度、改变其光照(Brightness)强度、调节图像对比度(Contrast)以及对图像进行锐化(Sharpnes)等。

可选的，重新剪裁不带文本的背景图，将原图像通过加权处理融入背景中。

具体的，数据扩充的方式还包括通过运用OpenCV库和PIL图像处理库，模拟生成大量类似的带标注值的合成文本图像。在合成过程中，选取加入多种类似的字体，对字符之间的距离设置一定范围的随机值，整个文本序列字符之间的前后顺序带有一定的随机性，同时要控制各字符出现的机率均衡，最后，对合成的图像选择一定概率的随机扰动和局部高斯模糊处理。

具体地，对图像样本集中的各文本图像进行预处理和数据增广，同时，对标注文件也做出对应变换，实现样本扩充。并按预设数据占比对样本扩充后的图像样本集划分为训练集、验证集和测试集，例如数据占比为6：2：2，可选的，多分一些样本数据用于模型训练，可以调整数据集划分比例为7：2：1。

本发明实施例通过对图像样本集进行样本扩充，这样无需单独采集大量训练数据集，生成多种数据样本，能够提高识别泛化能力和鲁棒性。

可选地，在步骤102执行之前，本发明实施例提供的方法还可以包括：

对图像样本集中的文本图像进行预处理，图像预处理包括但不限于调整图像的色彩(Color)丰富度、改变其光照(Brightness)强度、调节图像对比度 (Contrast)以及对图像进行锐化(Sharpnes)等，此外还可以图像预处理包括重新剪裁不带文本的背景图，将原图像通过加权处理融入背景中，等等。

此外，上述图像预处理还可以包括：对于文本区域面积占比过大的，先进行补边(Padding)处理，再进行尺寸缩放处理；对于面积占比过小的，进行剪裁和尺寸放大处理。

本实施例中，通过对文本图像进行预处理，能够将图像变得更为自然，目标特征更为明显，从而更加便于模型训练。

步骤103，根据训练集和验证集对文本识别模型进行迭代训练，其中，文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE-ResNet网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的。

如图2所示，图2示出了一个文本识别模型的结构示意图。其中，在CRNN 网络模型中，将原有的VGG网络替换为通过SE网络模块设置到ResNet网络中形成的SE-ResNet，并对SE-ResNet网络级联BiLSTM网络层，SE-ResNet网络和BiLSTM网络层用于实现图像特征编码(Encoder)，以及对BiLSTM网络层级联注意力机制层，从而构成文本识别模型，其中，注意力机制层用于实现图像特征解码(Decoder)。

具体地，在步骤103中，使用训练集对文本识别模型进行训练，使用验证集，对训练后的文本识别模型进行验证，并根据验证结果判断是否停止迭代训练。在使用训练集对文本识别模型进行训练时，以训练集中的文本图像作为输入，以文本图像关联的文字标签作为输出对文本识别模型进行训练。

步骤104，根据测试集对迭代训练后的文本识别模型进行性能测试。

具体地，使用测试集测试迭代训练后的文本识别模型的准确率，当迭代训练后的文本识别模型的准确率大于预设准确率阈值时，输出迭代训练后的文本识别模型并存储，以用于后续对待识别文本图像进行文本识别。

本发明实施例提供了一种文本识别模型训练方法，通过对图像样本集进行样本扩充，这样无需单独采集大量训练数据集，就能够生成多种数据样本，提高了识别泛化能力和鲁棒性；通过使用SE-ResNet网络，即特征重定向模块结合ResNet来替换原CRNN网络模型中的VGG网络，提高了模型的特征提取能力；通过引入注意力机制来提升特征向量解码效果，能够帮助解决有效编码和长短期依赖问题，从而提高文本识别的准确度。

在一个具体实施方式中，上述的对图像样本集进行样本扩充，可以包括：

对图像样本集中的图像样本所包括的文本图像进行数据增广，并获取对应的文本标签，得到图像样本对应的扩充图像样本；

其中，数据增广包括如下方式中的至少一个：

对文本图像进行翻转、平移、缩放操作、调整图像RGB各通道权重以及图像旋转中的至少一种；

本实施例中，在运用OpenCV库和PIL图像处理库，模拟带文本标签的合成文本图像的过程中，选取加入多种类似的字体，并对字符之间的距离设置一定范围的随机值，整个文本序列字符之间的前后顺序带有一定的随机性，同时要控制各字符出现的机率均衡，最后，对合成的图像选择一定概率的随机扰动和局部高斯模糊处理。在实际应用中，在完成对图像样本集进行样本扩充后，可以实现合成高相似文本图像数量高达200k。

在一个具体实施方式中，上述的文本识别模型是采用如下方法构建得到：

构造SE网络模块，并将SE网络模块设置到ResNet网络中，形成SE-ResNet 网络层，其中，SE网络模块是通过Squeeze操作、Excitation操作以及Reweight 操作完成图像特征重定向的；

对SE-ResNet网络层、BiLSTM网络层和注意力机制层依次级联，构成文本识别模型。

本实施例中，通过以CRNN模型为核心，使用SE网络模块 (Squeeze-and-Excitation，特征重定向)结合ResNet来替换原CRNN模型中VGG 网络，引入注意力(Attention)机制，从而实现搭建端到端的文本识别模型。

具体来说，构建文本识别模型的具体过程可以包括步骤a至步骤c：

步骤a，构造SE网络模块，图3示出了本发明实施例提供的SE网络模块的结构示意图。如图3所示，输入一个图像X，它的特征通道数为C′，高为H′，宽为W′，F_tr指一系列的图像转换处理，这里具体指经过卷积过程，得到通道数为C，高和宽分别为H，W的图像U。接下来的重点是对U进行F_sq(.)处理，即压缩(Squeze)空间维度处理，得到对应通道的特征值，然后再对这些特征值进行F_ex(.,w)处理，即对通道特征值进行激活(Excitation)处理，得到各通道对应权重。最后再通过F_scale(.,.)处理，具体是把前面得到的权重再重定向(Reweight)到对应的特征图上。总体操作可以归结为以下三个部分：

Squeeze操作：具体是以全局平均池化的方式对空间维度进行压缩处理，在将带有高宽的二维特征变成一个实数，并且这个实数在一定意义上是带有全局感受野的，图像数据也由原先H×W×C的空间结构变成1×1×C形式。

Excitation操作：利用神经网络中门的机制来对不同通道的权重值进行激活处理，帮助网络找到特征通道间对应的依赖关系。

Reweight操作：将经过Excitation处理输出的各特征通道所对应的权重激活值进行加权计算再赋予到前面的特征图中，从而实现对图像特征的重定向。

步骤b：将步骤a构造的SE网络模块应用到ResNet网络中，形成SE-ResNet 网络，并把原CRNN模型中原有的VGG网络替换成SE-ResNet网络。

如图4所示，图4示出了本发明实施例提供的SE-ResNet网络层的结构示意图。通过对比可以发现，原先的残差模块在这里换成了SE网络模块，但短连接依然保留。在SE网络模块中，图像X经过一个残差模块(residual)后，出现两条分支，一条是沿着原先方向，另一条可以看作是特征重定向调整。可以观察到原图维度由H×W×C，经过全局平均池化变成1×1×C，然后经过FC后变为

(一般r＝16)，即将特征维度降为原来的

这也是上述的Squeeze过程操作。再接着通过Relu激活处理，得到对应通道的权重激活值，然后再通过 FC将通道恢复，以及一个Sigmod作为门控函数增加通道间的非线性，同时也相当于对权重做了一次0～1之间的归一化。最后两个分支都汇总，即通过 Reweight操作将Sigmod输出的权重加到原图对应通道上。

步骤c：对SE-ResNet网络层、BiLSTM网络层和注意力机制层依次级联，构成文本识别模型。

其中，BiLSTM网络层采用两个反向的LSTM，能够用于对SE-ResNet网络层输出的特征向量序列进行基于上下文的特征提取，并输出编码特征向量，如图5所示，图5示出了本发明实施例提供的BiLSTM网络层的结构示意图。

其中，注意力机制层可以通过分配不同的注意力权重给编码特征，尽量接收和输出有关的特征向量。注意力机制分为软注意(Soft Attention)机制和硬注意 (HardAttention)机制，在本发明实施例中，采用软注意机制对当前神经网络中的关注点进行建模，参照图6所示，图6示出了本发明实施例提供的注意力机制层的结构示意图。

在一个具体实施方式中，上述的根据训练集和验证集对文本识别模型进行迭代训练，该过程可以包括：

将训练集输入到文本识别模型中进行训练；

根据验证集，对训练后的文本识别模型进行验证，若验证结果不符合迭代停止条件时，则继续对文本识别模型进行迭代训练和验证，直至验证结果符合迭代停止条件，输出迭代训练好的文本识别模型。

本实施例中，算法训练过程分为两个训练阶段：第一阶段在通过上述对图像集进行样本扩充处理生成的200k数据集进行预训练，这一阶段的初始学习率大小设置为10^-2，然后逐渐衰减为10^-3。第二阶段在原始真实数据集上(即样本扩充前的图像集)进行微调，网络学习率大小保持为10^-3，动量大小为0.9，且训练方式采用批梯度下降，批大小设置为64，迭代次数不设上限，具体以验证集损失不在发生明显变化为止。本发明实验涉及到的算法实施是基于PyTorch 深度学习框架进行开发，并在ubuntu 16.04系统环境下编码实现，网络训练过程使用GTX 1080Ti GPU进行加速。

在一个具体实施方式中，上述的将训练集输入到文本识别模型中进行训练，该过程可以包括基于SE-ResNet和BiLSTM的图像编码阶段以及基于注意力机制的图像解码(Decoder)阶段。

其中，基于SE-ResNet和BiLSTM的图像编码阶段可以包括步骤S1～S3，基于注意力机制的图像解码(Decoder)阶段可以包括步骤S4。

步骤S1，以训练集中的文本图像作为输入，采用SE-ResNet网络层对文本图像进行多层卷积运算，得到文本图像对应的预设维度的特征向量。

具体的，输入图像尺寸为64*256，利用SE-ResNet网络进行多层卷积运算，提取图像中的文本特征，最后输出1×32×512的特征向量。

其中，SE-ResNet网络结构及相关配置参数如表1。

表1：SE-ResNet网络结构及相关配置参数

Layers	Out Size	Configurations
			Block 0	64×256	3×3 conv,s 1×1
Block 1	32×128	{1×1,3×3 conv,32}×3,s 2×2
			Block 2	16×64	{1×1,3×3 conv,64}×4,s 2×2
Block 3	8×32	{1×1,3×3 conv,128}×6,s 2×2
			Block 4	4×16	{1×1,3×3 conv,256,[16,256]fc}×6,s 2×2
Block 5	4×8	{1×1,3×3 conv,512,[32,512]fc}×3,s 1×2

本发明实施例中，使用了一个45层(即1+3*2+4*2+6*2+6*2+3*2＝45)的ResNet网络作为基础网络，网络中6个Block也都是对应的残差模块，在第一个Block中，卷积核大小为3*3，步长为1，输出为64*256，尺寸和原图大小一样。Block1中是先进行1*1卷积输出通道数为32，接着再进行3*3卷积输出通道仍为32，像这样的组合有三对，最后接一个最大池化，步长为2，输出为32*128， Block2和Block3的构成与Block1类似，不同的仅是对应的一些参数。Block4 是在Block3的基础上加入SE block，这里的通道Squeeze参数r＝16，全连接处理后输出的通道数同残差结构短连接处相同，都是256。Block5模块处理方式与 Block4相似，这里r＝32，最终输出通道数512，值得注意的是，这里高度方向卷积步长为1，所以输出图像高度不变。最后网络的输出尺寸是4*8，再经过一次reshape转换长度变为32，即最后特征向量的个数为32，每个特征向量的维数为512。

步骤S2，将特征向量分解为预设长度的特征向量序列。

具体地，将步骤S1输出的特征向量分解为长度为32的特征向量序列，每个特征向量的维度是512，对应图像中的特定感受野，相邻特征向量对应的感受野互相重叠。

步骤S3，采用BiLSTM网络层对文本图像对应的特征向量序列进行基于上下文的特征提取，得到文本图像对应的编码特征向量。

具体地，采用BiLSTM网络层对步骤S2产生的32个特征向量序列进行基于上下文的特征提取，输出2*512维的编码特征向量。

步骤S4，以文本图像对应的编码特征向量作为注意力机制层在t时刻的输入，以文本图像关联的文字标签作为注意力机制层在t时刻的输出，并结合注意力机制层在t-1时刻的预测输出，对注意力机制层进行训练。

假设t′时刻，图像的上下文向量是c_t′，LSTM在t′时刻的输出见公式(1)。其中y_t′-1为解码器在上一时刻产生的预测值，s_t′-1为LSTM网络在t′-1时刻的输出， g是激活函数。

s_t′＝g(y_t′-1,c_t′,s_t′-1) (1)

由公式(2)可以看出，解码器在t′时刻的上下文向量是对编码器在不同时刻的输出的加权平均，本发明中的注意力权重由公式(3)得到。

公式(3)中，e_t′t与LSTM网络在t′-1时刻的输出s_t′-1以及编码器在t时刻的输出h_t相关，表达式如下：

e_t′t＝v^Ttanh(W_ss_t′-1+W_hh_t) (4)

公式(4)中，v、W(s)、W(h)都是需要学习的参数。

解码器模块进行文字序列生成的过程，实际上是一个序列分类过程。假设训练数据中的输出序列是y₁，y₂,...,y_T，每个t时刻的输出取决于解码器之前的输出和当前的输入上下文向量，则预测的输出序列的联合概率由如下的公式(5) 表示。

最后，文本识别模型的训练损失函数如公式(6)。

L＝-logP(y₁,...,y_T) (6)

本发明实施例中，通过引入注意力机制来提升特征向量解码效果，能够帮助解决有效编码和长短期依赖问题，从而提高文本识别的准确度。

实施例二

基于上述实施例一训练得到的文本识别模型，本发明实施例还提供了一种文本识别方法，如图7所示，该方法可以包括：

步骤701，对输入的待识别文本图像进行预处理。

步骤702，将预处理后的待识别文本图像输入到预先训练好的文本识别模型进行文本识别，并输出待识别文本图像的文本识别结果；

其中，预先训练好的文本识别模型基于如实施例一的方法训练。

具体地，对测试集中的文本图像进行预处理，其中这里的预处理不需对文本图像进行增强处理，仅将图像尺寸设置成64*256大小，并对图像进行归一化处理，将像素值放缩到(-1，1)之间。将预处理后的文本图像输入到迭代训练后的文本识别模型中，包括初始化网络参数，设置字典文件和最优模型文件路径，然后加载模型文件进行文本识别，最后输出待识别文本图像的文本识别结果。

本发明实施例提供的文本识别方法，通过采用预先训练好的文本识别模型进行文本识别，可以实现快速、准确地从文本图像中，准确、可靠识别到文本。

下面结合具体应用实例来进一步地说明本发明实施例提供的方法。

在3834张真实场景文本数据集上，采用本发明提供的方法与传统图像处理方法以及CRNN模型分别进行文本识别，具体识别结果如下表2所示：

表2：不同识别方法在3834张真实场景文本集上的识别结果

识别方法	正确个数	准确率	平均编辑距离
				传统图像处理方法	3014	78.61％	0.57
CRNN模型	3381	88.18％	0.31
				本专利方法	3549	92.56％	0.26

从表2中看，本发明提出的方法，即带有SE-ResNet网络和注意力机制(Attention)的文本识别模型具有较高的识别准确率，具体为92.56％，同时也有着最小的平均编辑距离，具体值为0.26。相对于原CRNN模型，提高了4％的准确率，相对于传统处理方法，提高14％的识别准确率。

实施例三

基于上述实施例一，本发明实施例提供了一种文本识别模型训练装置，如图8所示，装置包括：

样本获取模块81，用于获取图像样本集，图像样本集中的图像样本包括文本图像及文本图像关联的文字标签；

样本扩充模块82，用于对图像样本集进行样本扩充；

样本划分模块83，用于将样本扩充后的图像样本集划分为训练集、验证集和测试集；

迭代训练模块84，用于根据训练集和验证集对文本识别模型进行迭代训练，其中，文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为 SE-ResNet网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的；

模型测试模块85，用于根据测试集对迭代训练后的文本识别模型进行性能测试。

进一步地，样本扩充模块82具体用于：

其中，数据增广包括如下方式中的至少一个：

进一步地，装置还包括模型构建模块80，模型构建模块80用于：

进一步地，迭代训练模块84包括：

训练子模块，用于将训练集输入到文本识别模型中进行训练；

验证子模块，用于根据验证集，对训练后的文本识别模型进行验证；

迭代子模块，用于若验证结果不符合迭代停止条件时，则继续对文本识别模型进行迭代训练和验证，直至验证结果符合迭代停止条件，输出迭代训练好的文本识别模型。

进一步地，训练子模块具体用于：

以训练集中的文本图像作为输入，采用SE-ResNet网络层对文本图像进行多层卷积运算，得到文本图像对应的预设维度的特征向量；

将特征向量分解为预设长度的特征向量序列；

采用BiLSTM网络层对文本图像对应的特征向量序列进行基于上下文的特征提取，得到文本图像对应的编码特征向量；

以文本图像对应的编码特征向量作为注意力机制层在t时刻的输入，以文本图像关联的文字标签作为注意力机制层在t时刻的输出，并结合注意力机制层在 t-1时刻的预测输出，对注意力机制层进行训练。

需要说明的是：本实施例提供的文本识别模型训练装置中，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例的文本识别模型训练装置与上述实施例中的文本识别模型训练方法实施例属于同一构思，其具体实现过程和有益效果详见文本识别模型训练方法实施例，这里不再赘述。

实施例四

基于上述实施例二，本发明实施例提供了一种文本识别装置，如图9所示，装置包括：

预处理模块91，用于对输入的待识别文本图像进行预处理；

文本识别模块92，用于将将预处理后的待识别文本图像输入到预先训练好的文本识别模型进行文本识别，并输出待识别文本图像的文本识别结果；

需要说明的是：本实施例提供的文本识别装置中，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例的文本识别装置与上述实施例中的文本识别方法实施例属于同一构思，其具体实现过程和有益效果详见文本识别方法实施例，这里不再赘述。

图10为本发明实施例提供的计算机设备的内部结构图。该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别模型训练方法，或者，该计算机程序被处理器执行时以实现一种文本识别方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取图像样本集，其中，图像样本集中的图像样本包括文本图像及文本图像关联的文字标签；

对图像样本集进行样本扩充，并将样本扩充后的图像样本集划分为训练集、验证集和测试集；

根据训练集和验证集对文本识别模型进行迭代训练，其中，文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE-ResNet网络，并与 BiLSTM网络层以及注意力机制层依次级联而构建得到的；

根据测试集对迭代训练后的文本识别模型进行性能测试。

对输入的待识别文本图像进行预处理；

将预处理后的待识别文本图像输入到采用如实施例一的文本识别模型训练方法训练得到的文本识别模型进行文本识别，并输出待识别文本图像的文本识别结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据测试集对迭代训练后的文本识别模型进行性能测试。

对输入的待识别文本图像进行预处理；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别模型训练方法，其特征在于，所述方法包括：

根据所述训练集和所述验证集对文本识别模型进行迭代训练，其中，所述文本识别模型是通过将CRNN网络模型中原有的VGG网络替换为SE-ResNet网络，并与BiLSTM网络层以及注意力机制层依次级联而构建得到的；

2.根据权利要求1所述的方法，其特征在于，所述对所述图像样本集进行样本扩充，包括：

其中，所述数据增广包括如下方式中的至少一个：

3.根据权利要求1所述的方法，其特征在于，所述文本识别模型是采用如下方法构建得到：

构造SE网络模块，并将所述SE网络模块设置到ResNet网络中，形成SE-ResNet网络层，其中，所述SE网络模块是通过Squeeze 操作、Excitation 操作以及Reweight 操作完成图像特征重定向的；

4.根据权利要求3所述的方法，其特征在于，所述根据所述训练集和所述验证集对文本识别模型进行迭代训练，包括：

将所述训练集输入到所述文本识别模型中进行训练；

5.根据权利要求4所述的方法，其特征在于，所述将所述训练集输入到所述文本识别模型中进行训练，包括：

将所述特征向量分解为预设长度的特征向量序列；

6.一种文本识别方法，其特征在于，所述方法包括：

对输入的待识别文本图像进行预处理；

7.一种文本识别模型训练装置，其特征在于，所述装置包括：

样本扩充模块，用于对所述图像样本集进行样本扩充；

8.一种文本识别装置，其特征在于，所述装置包括：

预处理模块，用于对输入的待识别文本图像进行预处理；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的文本识别模型训练方法，或者所述处理器执行所述计算机程序时实现如权利要求6所述的文本识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的文本识别模型训练方法，或者，所述计算机程序被处理器执行时实现如权利要求6所述的文本识别方法。