CN109948604A

CN109948604A - 不规则排列文本的识别方法、装置、电子设备及存储介质

Info

Publication number: CN109948604A
Application number: CN201910105349.4A
Authority: CN
Inventors: 高大帅; 李健; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-28

Abstract

本发明涉及一种不规则排列文本的识别方法、装置、电子设备及存储介质。所述方法包括：仿真生成多个包含不规则排列文本的图像，所述多个包含不规则排列文本的图像用于训练神经网络模型；将crnn神经网络模型作为所述神经网络模型的编码端，以及，将rnn神经网络模型作为所述神经网络模型的解码端，并在所述神经网络模型的解码端加入attention机制，得到包含编码端和加入attention机制的解码端的神经网络模型；通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型；将待识别的包含不规则文本的图像输入所述文本识别模型，得到文本识别结果。本发明实现了对不规则排列文本的准确稳定识别。

Description

不规则排列文本的识别方法、装置、电子设备及存储介质

技术领域

本发明涉及文本识别领域，具体地涉及一种不规则排列文本的识别方法、装置、电子设备及存储介质。

背景技术

以圆形或椭圆形等形状排列的不规则文本常常出现在印章或艺术logo中，其字符所占面积在其最小外接包围矩形中所占面积比例太小，且分布不规律，不易识别。在文本识别领域，现有的识别不规则排列文本的方法有两种，一种是先进行字符分割，然后对单个字符进行特征提取，再将特征送入分类器进行识别，最后将识别结果按照某种先验规则串联起来最终形成输出。另一种是先进行字符分割，然后根据提取的字符的分布情况将不规则分布进行几何变换到规则分布，然后再进行识别并输出结果。这两种方法因为步骤多且需要人工干预，从而导致其鲁棒性不强，识别率降低。

发明内容

本发明提供一种不规则排列文本的识别方法、装置、电子设备及存储介质，以完成对不规则排列文本的准确识别工作。

本发明实施例第一方面提供了一种不规则排列文本的识别方法，所述方法包括：

仿真生成多个包含不规则排列文本的图像，所述多个包含不规则排列文本的图像用于训练神经网络模型；

将crnn神经网络模型作为所述神经网络模型的编码端，以及，将rnn神经网络模型作为所述神经网络模型的解码端，并在所述神经网络模型的解码端加入attention机制，得到包含编码端和加入attention机制的解码端的神经网络模型；

通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型；

将待识别的包含不规则文本的图像输入所述文本识别模型，得到文本识别结果。

可选的，仿真生成多个包含不规则排列文本的图像，包括：

将文字输入文本仿真工具中，仿真生成所述多个包含不规则排列文本的图像；

其中，所述不规则排列文本的排列方式为除在最小选旋转矩形框里紧致排列的文本以外的文本排列方式。

可选的，在将文字输入文本仿真工具中，仿真生成所述多个包含不规则排列文本的图像之后，所述方法还包括：

将所述多个包含不规则排列文本的图像进行高度归一化处理；

将所述多个包含不规则排列文本的图像分为两部分，一部分为训练集，一部分为测试集；

将生成所述多个包含不规则排列文本的图像的文字进行记录，并加入训练集中。

可选的，通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型，包括：

将所述训练集和测试集导入所述神经网络模型中；

通过所述神经网络模型对所述训练集中的包含不规则排列的文本图像进行识别，得到预测的文本识别结果；

将所述预测的文本识别结果与所述训练集中的文字进行对比，并计算所述预测的文本识别结果与所述训练集中的文字间的损失函数值；

通过所述神经网络模型根据所述损失函数值对自身的参数进行修正，得到所述文本识别模型。

可选的，所述方法还包括：

通过所述测试集对所述文本识别模型进行性能评价。

可选的，通过所述神经网络模型对所述训练集中的包含不规则排列的文本图像进行识别，得到预测的文本识别结果，包括：

通过所述神经网络模型中的编码端对所述训练集中的不规则排列的文本图像进行特征提取及上下文关联预测，得到所述训练集中的包含不规则排列文本的图像的特征编码；

通过所述神经网络模型中加入attention机制的解码端对所述特征编码进行解码输出，得到所述预测的文本识别结果。

可选的，在通过所述神经网络模型中加入attention机制的解码端对所述特征编码进行解码输出，得到所述预测的文本识别结果的同时，所述方法还包括：

通过所述神经网络模型中加入attention机制的解码端在所述attention机制的作用下记录接收到的特征编码信息；

通过所述神经网络模型中加入attention机制的解码端在所述attention机制的作用下结合所述特征编码信息对所述特征编码进行解码输出。

本发明实施例第二方面提供了一种不规则排列文本的识别装置，所述装置包括：

图像生成模块，用于仿真生成多个包含不规则排列文本的图像，所述多个包含不规则排列文本的图像用于训练神经网络模型；

模型建立模块，用于将crnn神经网络模型作为所述神经网络模型的编码端，以及，将rnn神经网络模型作为所述神经网络模型的解码端，并在所述神经网络模型的解码端加入attention机制，得到包含编码端和加入attention机制的解码端的神经网络模型；

模型训练模块，用于通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型；

文本识别模块，用于将待识别的包含不规则文本的图像输入所述文本识别模型，得到文本识别结果。

可选的，所述图像生成模块包括：

图像生成子模块，用于将文字输入文本仿真工具中，仿真生成所述多个包含不规则排列文本的图像；

可选的，所述装置还包括：

图像处理模块，用于将所述多个包含不规则排列文本的图像进行高度归一化处理；

图像划分模块，用于将所述多个包含不规则排列文本的图像分为两部分，一部分为训练集，一部分为测试集；

文字记录模块，用于将生成所述多个包含不规则排列文本的图像的文字进行记录，并加入训练集中。

可选的，所述模型训练模块包括：

数据导入子模块，用于将所述训练集和测试集导入所述神经网络模型中；

结果识别子模块，用于通过所述神经网络模型对所述训练集中的包含不规则排列的文本图像进行识别，得到预测的文本识别结果；

结果对比子模块，用于将所述预测的文本识别结果与所述训练集中的文字进行对比，并计算所述预测的文本识别结果与所述训练集中的文字间的损失函数值；

模型修正子模块，用于通过所述神经网络模型根据所述损失函数值对自身的参数进行修正，得到所述文本识别模型。

可选的，所述装置还包括：

性能评价模块，用于通过所述测试集对所述文本识别模型进行性能评价。

可选的，所述结果识别子模块包括：

特征编码模块，用于通过所述神经网络模型中的编码端对所述训练集中的不规则排列的文本图像进行特征提取及上下文关联预测，得到所述训练集中的包含不规则排列文本的图像的特征编码；

解码输出模块，用于通过所述神经网络模型中加入attention机制的解码端对所述特征编码进行解码输出，得到所述预测的文本识别结果。

可选的，所述解码输出模块还包括：

编码信息记录子模块，用于通过所述神经网络模型中加入attention机制的解码端在所述attention机制的作用下记录接收到的特征编码信息；

解码输出子模块，用于通过所述神经网络模型中加入attention机制的解码端在所述attention机制的作用下结合所述特征编码信息对所述特征编码进行解码输出。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本发明对比现有技术具有以下有益效果：

本发明提出了一种端到端的不规则排列文本识别方法，先使用crnn网络对不规则文本进行特征提取及上下文关联预测，再使用加入attent i on机制的rnn网络进行解码输出。不需要进行字符分割，手工特征选择，识别结果后处理等，可以省去中间的步骤，准确地完成不规则排列文本的识别工作。

附图说明

为了更清楚地说明本申请各个实施例的技术方案，下面将对本申请各个实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提出的一种不规则排列文本的识别方法的流程图；

图2是本发明实施例提出的一种不规则排列文本的识别装置的示意图。

具体实施方式

下文描述了本发明的具体实施方式，该实施方式为示意性的，旨在揭示本发明的具体工作过程，不能理解为对权利要求的保护范围的进一步限定。

参考图1，图1是本发明实施例提出的一种不规则排列文本的识别方法的流程图。如图1所示，该方法包括以下步骤：

S11：仿真生成多个包含不规则排列文本的图像，所述多个包含不规则排列文本的图像用于训练神经网络模型。

收集大量的文字，将这些文字输入文本仿真工具中即可得到包含不规则排列文本的图像。仿真工具可以从网络上得到，如应印章仿真工具，商标仿真工具等。不规则文本排列的常见方式有圆形、椭圆形、正弦曲线等，仿真所用的文字多选用公司名，商店名以及公式字符等。

在最小旋转矩形框里紧致排列的文本包括横向排列，竖向排列。

将所述多个包含不规则排列文本的图像进行高度归一化处理。

归一化处理是指通过运算将多个图像转换为相应的唯一标准形式，以便于后续的处理，例如将所述多个包含不规则排列文本的图像高度归一化处理为64个像素。

将所述多个包含不规则排列文本的图像分为两部分，一部分为训练集，一部分为测试集。

一般在训练神经网络模型时要将训练材料分为训练集和测试集，训练集用于训练神经网络，测试集用于评价神经网络性能。

例如仿真生成了100万张包含不规则文本的图像，其中99万张被划分为训练集，其余1万张被划分为测试集。

将生成多个不规则排列文本图像的文字加入训练集中作为目标结果。训练过程中，神经网络模型对多个包含不规则排列文本的图像进行识别，得出预测的结果，需要将预测结果与目标结果进行对比来修正模型参数。

S12：将crnn神经网络模型作为所述神经网络模型的编码端，以及，将rnn神经网络模型作为所述神经网络模型的解码端，并在所述神经网络模型的解码端加入attention机制，得到包含编码端和加入attention机制的解码端的神经网络模型。

本发明实施例中为了进行不规则排列文本的识别工作，先建立了一个神经网络模型，利用仿真得到的包含不规则排列文本的图像对神经网络模型进行训练，可得到文本识别模型。此神经网络模型使用编码、解码框架，使用crnn神经网络作为该神经网络的编码端，crnn神经网络模型是在cnn卷积神经网络的卷积层之上加入了循环神经网络rnn形成的一种复合型神经网络。使用加入attention机制的rnn神经网络作为该神经网络的解码端。attention机制即注意力机制，加入attention机制对模型进行训练，可以让模型在解码时能够根据当前时刻的输出对输入特征进行自适应加权，进而优化当前时刻的输出。在编码端的crnn神经网络中cnn神经网络可以采用resnet50v1，resnet50v1是cnn网络中的一种。rnn神经网络可以采用双向GRU，双向GRU为rnn神经网络中的一种。解码端的rnn神经网络可以采用双向GRU，引入Long attention。

S13：通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型。

步骤S13在本实施例中包含以下步骤：

S13a：将所述训练集和测试集导入所述神经网络模型中；

S13b：通过所述神经网络模型对所述训练集中的包含不规则排列的文本图像进行识别，得到预测的文本识别结果。

其中，步骤S13b包括以下步骤：

在包含不规则排列文本的图像进入神经网络的编码端时，crnn先通过cnn卷积神经网络对图像进行特征提取，输入图像与卷积核进行卷积生成特征图像，实际上是一种映射矩阵。将特征图送入rnn循环神经网络中进行处理，rnn通过上下文的关联进行概率预测，得到一个概率矩阵，以编码的形式作为输出，这个过程就是对输入图像进行特征编码的过程。将特征编码送入解码端的rnn神经网络之中，rnn神经网络对特征编码进行解码，解码输出预测的文本识别结果。

例如输入椭圆形排列的印章文本图像：“XX市旅游局”。

通过神经网络的编码端对该图像进行特征提取，得到特征图像，特征图像中包含“XX市旅游局”的编码，特征图像进入rnn网络后，rnn网络从特征图像中得到“XX市旅游局”的特征序列，对此特征序列进行概率预测，将预测的结果以特征编码的形式送入神经网络解码端的rnn网络之中。神经网络解码端中的rnn网络对特征编码进行解码，得到最终结果，输出结果为规则排列的“XX市旅游局”文本。

S13c：将所述预测的文本识别结果与所述训练集中的文字进行对比，并计算所述预测的文本识别结果与所述训练集中的文字间的损失函数值；

在神经网络模型的训练过程中，预测的结果与目标结果会有一定的误差，在神经网络模型中的数据都以向量的形式来表示。

例如字符集合中只含有0-9的数字，目标结果数据为“01”，则目标结果数据在神经网络模型中的编码为[1 0 0 0 0 0 0 0 0 0][0 1 0 0 0 0 0 0 0 0]，预测的结果可能为[0.8 0 0 0 0 0.1 0 0.1 0 0][0 0.9 0 0 0.05 0 0 0.05 0 0]，上述目标结果向量与预测结果向量间的差值便为损失函数值。

S13d：通过所述神经网络模型根据所述损失函数值对自身的参数进行修正，得到所述文本识别模型。

神经网络会通过损失函数，即softmax函数，根据损失函数值对神经网络模型进行权值更新，通过在训练时不断更新权值以进行神经网络模型参数的修正，参数修正完毕后，得到文本识别模型。

通过所述测试集对所述文本识别模型进行性能评价。

在通过训练集对神经网络训练完毕之后，得到文本识别模型，此时文本识别模型的参数已经调整至最优，使用该文本识别模型对测试集中的图像进行识别，对比识别的结果与目标结果的误差，可以大致得到该文本识别模型的识别准确率，识别速度，识别泛化性等信息。

例如测试集中有1万张包含不规则排列文本的图像，当1万张仿真图像中每张图像只含有一行文本时，识别结果中有9652张与目标结果一致，则该文本识别模型的行识别准确率为96.52％。当1万张仿真图像中一共含有10万字，99000字识别正确，则该文本识别模型的字符识别准确率为99％。

本发明实施例中在S13b进行的同时，还包括：

attention机制指的是在rnn神经网络解码时全盘考虑编码端的crnn神经网络的所有时间序列。

例如：编码端的crnn神经网络过将输入的不规则文本图像编码成{h1,h2,h3,h4,h5}序列，解码端的rnn神经网络在接收到特征编码{h1,h2,h3,h4,h5}后，之后每次进行解码时都会结合{h1,h2,h3,h4,h5}对接收到的特征编码进行解码输出。

S14：将待识别的包含不规则文本的图像输入所述文本识别模型，得到文本识别结果。

在神经网络模型训练完成后，得到文本识别模型，将想要识别的图像送入该文本识别模型即可，识别过程与上述步骤相同。

基于同一发明构思，本发明实施例提供了一种不规则排列文本的识别装置。参考图2，图2是本发明一实施例提供的一种层次的中文命名实体识别装置的示意图。如图2所示，该装置包括：

图像生成模块201，用于仿真生成多个包含不规则排列文本的图像，所述多个包含不规则排列文本的图像用于训练神经网络模型；

模型建立模块202，用于将crnn神经网络模型作为所述神经网络模型的编码端，以及，将rnn神经网络模型作为所述神经网络模型的解码端，并在所述神经网络模型的解码端加入attention机制，得到包含编码端和加入attention机制的解码端的神经网络模型；

模型训练模块203，用于通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型；

文本识别模块204，用于将待识别的包含不规则文本的图像输入所述文本识别模型，得到文本识别结果。

可选的，所述图像生成模块包括：

可选的，所述装置还包括：

可选的，所述模型训练模块包括：

可选的，所述装置还包括：

可选的，所述结果识别子模块包括：

可选的，所述解码输出模块还包括：

基于统一发明构思，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

基于同一发明构思，本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种不规则排列文本的识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，仿真生成多个包含不规则排列文本的图像，包括：

3.如权利要求2所述的方法，其特征在于，在将文字输入文本仿真工具中，仿真生成所述多个包含不规则排列文本的图像之后，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，通过所述多个包含不规则排列文本的图像，对所述包含编码端和加入attention机制的解码端的神经网络模型进行整体训练，得到文本识别模型，包括：

将所述训练集和测试集导入所述神经网络模型中；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

通过所述测试集对所述文本识别模型进行性能评价。

6.如权利要求4所述的方法，其特征在于，通过所述神经网络模型对所述训练集中的包含不规则排列的文本图像进行识别，得到预测的文本识别结果，包括：

7.如权利要求6所述的方法，其特征在于，在通过所述神经网络模型中加入attention机制的解码端对所述特征编码进行解码输出，得到所述预测的文本识别结果的同时，所述方法还包括：

8.一种不规则排列文本的识别装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-7任一所述的方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。