CN112183525A

CN112183525A - 一种文本识别模型的构建及文本识别方法和装置

Info

Publication number: CN112183525A
Application number: CN202010966835.8A
Authority: CN
Inventors: 高远
Original assignee: China Auto Service Technology Service Co ltd
Current assignee: China Auto Service Technology Service Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-05
Anticipated expiration: 2040-09-15
Also published as: CN112183525B

Abstract

本发明实施例公开了一种文本识别模型的构建及文本识别方法和装置，其中该构建方法包括：获取待识别的目标文本行图像，所述目标文本行图像上只保留文本数据；将所述目标文本行图像对初始神经网络进行训练，并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标；若是，则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值，将其作为所述文本识别模型对应的网络结构与模型参数数值。本发明解决了现有技术的以下问题：传统文本识别模型只有一个解码器，由该解码器来统一识别这两类以上的文本行时，差别较大的文本行将使得解码器难以拟合，并且会抛弃有助于解码器进行解码的文本行类别信息。

Description

一种文本识别模型的构建及文本识别方法和装置

技术领域

本发明涉及文本识别技术领域，尤其涉及一种文本识别模型的构建及文本识别方法和装置。

背景技术

目前，在使用OCR(Optical Character Recognition，光学字符识别)技术做文本识别时，流程大致如下：首先使用文本检测模型检测出文本行所在的位置，然后根据文本行位置扣出文本行图像，最后使用文本识别模型对文本行图像中的文字信息进行识别。在识别具有固定排版格式的证件时，例如需要识别身份证上的身份证号码与住址信息，此时这两种文本行可看作两种类别的文本行，它们具有各自的特色信息。身份证号码文本行由固定长度的数字信息构成，而住址信息文本行通常为一个常文本且基本由汉字构成。基于Endoder-Decoder(编解码器)的传统文本识别模型只有一个解码器，由该解码器来统一识别这两类文本行，这样会带来两个问题：首先，多种差别较大的文本行将使得解码器难以拟合；另外，用同一个解码器识别多种文本行，抛弃了文本行类别信息，而文本行类别信息是有助于解码器去解码对应文本行的文字信息的。综上所述，传统文本识别模型只有一个解码器所带来的问题，亟待解决。

发明内容

基于此，有必要针对上述问题，提出一种文本识别模型的构建及文本识别方法和装置，以解决现有技术的以下问题：传统文本识别模型只有一个解码器，由该解码器来统一识别这两类以上的文本行时，差别较大的文本行将使得解码器难以拟合，并且会抛弃有助于解码器进行解码的文本行类别信息。

本发明实施例的第一技术方案为：

一种文本识别模型的构建方法，其包括：获取待识别的目标文本行图像，所述目标文本行图像上只保留文本数据；将所述目标文本行图像对初始神经网络进行训练，并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标；若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标，则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值，将其作为所述文本识别模型对应的网络结构与模型参数数值。

本发明实施例的第二技术方案为：

一种文本识别方法，其基于权利要求上述任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现，其包括以下步骤：接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号，并对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图；读取预先保存的所述文本识别模型的网络结构与模型参数数值，以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络；将得到所述目标文本行特征图输入所述目标输出网络进行处理，得到所述目标文本预测结果。

本发明实施例的第三技术方案为：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待识别的目标文本行图像，所述目标文本行图像上只保留文本数据；将所述目标文本行图像对初始神经网络进行训练，并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标；若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标，则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值，将其作为所述文本识别模型对应的网络结构与模型参数数值；

或使得所述处理器执行以下步骤：

接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号，并对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图；读取预先保存的所述文本识别模型的网络结构与模型参数数值，以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络；将所述目标文本行特征图输入所述目标输出网络进行处理，得到所述目标文本预测结果。

本发明实施例的第四技术方案为：

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

或使得所述处理器执行以下步骤：

采用本发明实施例，具有如下有益效果：

本发明通过获取待识别的目标文本行图像，将目标文本行图像对初始神经网络进行训练得到文本识别模型，并使用文本识别模型将目标文本行特征图进行处理得到所述目标文本预测结果，解决了现有技术的以下问题：传统文本识别模型只有一个解码器，由该解码器来统一识别这两类以上的文本行时，差别较大的文本行将使得解码器难以拟合，并且会抛弃有助于解码器进行解码的文本行类别信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中文本识别模型的构建方法一实施方式的实施流程图；

图2为一个实施例中文本识别方法一实施方式的实施流程图；

图3为一个实施例中计算机设备一实施方式的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为一个实施例中检测电子设备电路过电流保护的方法的实施流程图，参照图1，本实施例的一种检测电子设备电路过电流保护的方法，其包括以下步骤：

步骤S101：获取待识别的目标文本行图像，所述目标文本行图像上只保留文本数据。其中，所述目标文本行图像是经过人工或者机器处理过的图像，已经将图像上的其它数据取出掉，只保留文本数据。

步骤S102：将所述目标文本行图像对初始神经网络进行训练，并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标。其中，对初始神经网络进行训练是按照预设规则进行的，达到预定目标是指输入所述初始神经网络的图像和输出所述初始神经网络的图像之间的差异值控制在预设范围内。

步骤S103：若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标，则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值，将其作为所述文本识别模型对应的网络结构与模型参数数值。其中，达到预定目标后，所述初始神经网络的网络结构与模型参数数值也已经改变，此时的所述初始神经网络对应的网络结构与模型参数数值，即为文本识别模型对应的网络结构与模型参数数值。

在本实施例中，可选地，所述将所述目标文本行图像对初始神经网络进行训练，包括：

第一，将所述目标文本行图像进行预处理，得到目标文本行特征图。其中，目标文本行特征图是对目标文本行图像进行进一步的特征提取后得到的图像，这是为将目标文本行图像进行编码处理做好准备。

第二，将所述目标文本行特征图输入所述初始神经网络进行编码处理，得到目标编码特征图和目标中间特征向量。其中，目标编码特征图相对于目标文本行特征图而言，是更进一步的提取目标文本行图像的特征。另外，目标中间特征向量则是由对目标编码特征图的处理而得到。

第三，将所述目标编码特征图和所述目标中间特征向量进行解码处理，得到目标文本预测结果。

在本实施例中，可选地，所述判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标，包括：

第一，获取经过解码处理后得到的所述目标文本预测结果。

第二，将所述目标文本预测结果与所述目标文本行图像进行比较，判断两者对应的文本数据差异性是否小于预设差异性阈值。

第三，若两者对应的文本数据差异性小于预设差异性阈值，则判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。

其中，如输入的目标文本行图像上的文字为“我是中国人，我爱中国”，则当输出的目标文本预测结果也为“我是中国人，我爱中国”，就判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。如果输出的目标文本预测结果为“我为中国人，我爱中国”，由于两者对应的文本数据差异性较小，也可以判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。

在本实施例中，可选地，所述将所述目标文本行特征图输入所述初始神经网络进行编码处理，得到目标编码特征图和目标中间特征向量，包括：

第一，将所述目标文本行特征图输入所述初始神经网络的编码模块进行卷积和池化处理，得到所述目标编码特征图。所述目标编码特征图的尺寸可选为64*1*512，即所述目标文本行特征图经过卷积和池化处理后变为64*1*512的特征图。

第二，将所述目标编码特征图输入GRU循环神经网络进行处理，得到所述目标中间特征向量。其中，可选地，将64*1*512目标文本行特征图分解为64个512维的特征向量，再使用GRU循环神经网络编码得到512维的所述目标中间特征向量。

在本实施例中，可选地，所述将所述目标编码特征图和所述目标中间特征向量进行解码处理，得到目标文本预测结果，包括：

第一，将所述目标编码特征图和所述目标中间特征向量输入多个目标解码器进行解码。

第二，获取与所述目标编码特征图和所述目标中间特征向量最匹配的一个所述目标解码器，记为目标匹配解码器。其中，每个目标解码器最擅长的解码领域，所述目标编码特征图和所述目标中间特征向量对应的文本或长或短，格式也是各种各样的，需要找到与其最匹配的目标解码器来解码。

其中，本模型在主干网络中设置了解码器优选分类分支，解码器优选分类分支用于决定使用哪一个目标解码器解码得到文本预测结果，并给出置信度。例如设置为三个目标解码器，则解码器优选分类分支会为给出这三个目标解码器对应的解码分数score，用于决定使用哪个目标解码器进行解码。将三个解码分数score从大到小排序得到了[score1，score2，score3]，对应的Encoder顺序为为E1＝[encoder1，encoder2，encoder3]。三个目标解码器的预测结果与图像的真实信息分别计算差异性loss，并排序得到[loss1，loss2，loss3]，对应Encoder顺序为E2＝[encoder1，encoder2，encoder3]。计算E1与E2之间的偏差，该loss用于矫正解码器优选分类分支，使解码器优选分类分支具备选择最优目标解码器的能力。在模型预测阶段，解码器优选分类分支会选择它认为最优的目标解码器来进行解码，因为每个目标解码器都有各自擅长解码的领域。

第三，将所述目标编码特征图和所述目标中间特征向量输入所述目标匹配解码器进行解码处理，得到所述目标文本预测结果。

在本实施例中，可选地，所述将所述目标文本行图像进行预处理，得到目标文本行特征图，包括：

第一，将所述目标文本行图像的尺寸调整为指定尺寸，指定尺寸可选为64*16*512。本步骤可选为：先将目标文本行图像的尺寸调整为256*64*3的大小，然后通过Resnet50将256*64*3进一步调整为64*16*512。

第二，通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征，得到所述目标文本行特征图。其中，主干网络可选为Resnet50，Resnet50是一种卷积神经网络的网络结构。

其中，在机器学习中，卷积神经网络已成功地应用于图像识别。卷积神经网络是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。

如图2所示，在另一个实施例中，提供了一种文本识别方法，其基于权利要求上述任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现，参照图2可得到，该文本识别方法包括：

步骤S201：接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号，并对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图。

步骤S202：读取预先保存的所述文本识别模型的网络结构与模型参数数值，以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络。

步骤S203：将所述目标文本行特征图输入所述目标输出网络进行处理，得到所述目标文本预测结果。

在本实施例中，可选地，所述对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图，包括：

图3示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述的文本识别模型的构建方法和文本识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述的文本识别模型的构建方法和文本识别方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在另一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

或使得所述处理器执行以下步骤：

在另一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

或使得所述处理器执行以下步骤：

本发明通过获取待识别的目标文本行图像，将目标文本行图像对初始神经网络进行训练得到文本识别模型，并使用文本识别模型将目标文本行特征图进行处理得到所述目标文本预测结果，解决了现有技术的以下问题：传统文本识别模型只有一个解码器，由该解码器来统一识别这两类以上的文本行时，差别较大的文本行将使得解码器难以拟合，并且会抛弃有助于解码器进行解码的文本行类别信息。本发明在编解码架构基础上，用一种无监督的方式使多个解码器自适应的在各自擅长的领域完成解码，例如当需要识别长文本时会使用解码器A会为其解码，而需要识别短文本时会自动切换至解码器B为其解码，利用这种方式有效的提高了文本识别模型的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别模型的构建方法，其特征在于，包括：

获取待识别的目标文本行图像，所述目标文本行图像上只保留文本数据；

将所述目标文本行图像对初始神经网络进行训练，并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标；

若是，则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值，将其作为所述文本识别模型对应的网络结构与模型参数数值。

2.根据权利要求1所述的文本识别模型的构建方法，其特征在于，所述将所述目标文本行图像对初始神经网络进行训练，包括：

将所述目标文本行图像进行预处理，得到目标文本行特征图；

将所述目标文本行特征图输入所述初始神经网络进行编码处理，得到目标编码特征图和目标中间特征向量；

将所述目标编码特征图和所述目标中间特征向量进行解码处理，得到目标文本预测结果。

3.根据权利要求2所述的文本识别模型的构建方法，其特征在于，所述判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标，包括：

获取经过解码处理后得到的所述目标文本预测结果；

将所述目标文本预测结果与所述目标文本行图像进行比较，判断两者对应的文本数据差异性是否小于预设差异性阈值；

若是，则判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。

4.根据权利要求2所述的文本识别模型的构建方法，其特征在于，所述将所述目标文本行特征图输入所述初始神经网络进行编码处理，得到目标编码特征图和目标中间特征向量，包括：

将所述目标文本行特征图输入所述初始神经网络的编码模块进行卷积和池化处理，得到所述目标编码特征图；

将所述目标编码特征图输入GRU循环神经网络进行处理，得到所述目标中间特征向量。

5.根据权利要求2所述的文本识别模型的构建方法，其特征在于，所述将所述目标编码特征图和所述目标中间特征向量进行解码处理，得到目标文本预测结果，包括：

将所述目标编码特征图和所述目标中间特征向量输入多个目标解码器进行解码；

获取与所述目标编码特征图和所述目标中间特征向量最匹配的一个所述目标解码器，记为目标匹配解码器；

将所述目标编码特征图和所述目标中间特征向量输入所述目标匹配解码器进行解码处理，得到所述目标文本预测结果。

6.根据权利要求2所述的文本识别模型的构建方法，其特征在于，所述将所述目标文本行图像进行预处理，得到目标文本行特征图，包括：

将所述目标文本行图像的尺寸调整为指定尺寸；

通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征，得到所述目标文本行特征图。

7.一种文本识别方法，其特征在于，其基于权利要求1～6任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现，其包括以下步骤：

接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号，并对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图；

读取预先保存的所述文本识别模型的网络结构与模型参数数值，以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络；

将所述目标文本行特征图输入所述目标输出网络进行处理，得到所述目标文本预测结果。

8.根据权利要求7所述的文本识别方法，其特征在于，所述对所述待识别的所述目标文本行图像进行预处理，得到所述目标文本行特征图，包括：

将所述目标文本行图像的尺寸调整为指定尺寸；

9.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～6所述的文本识别模型的构建方法，或实现如权利要求7～8所述的文本识别方法的步骤。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～6所述的文本识别模型的构建方法，或实现如权利要求7～8所述的文本识别方法的步骤。