CN110569832B

CN110569832B - 基于深度学习注意力机制的文本实时定位识别方法

Info

Publication number: CN110569832B
Application number: CN201910785745.6A
Authority: CN
Inventors: 汪从玲
Original assignee: Anhui Key Information Technology Co ltd
Current assignee: Anhui Key Information Technology Co ltd
Priority date: 2018-11-14
Filing date: 2019-08-23
Publication date: 2022-05-31
Anticipated expiration: 2039-08-23
Also published as: CN110569832A; CN109753954A

Abstract

本发明公开了一种基于深度学习注意力机制的文本实时定位识别方法，包括以下步骤：搭建文本图像采集系统，收集训练样本并进行人工标注，建立OCR数据集，根据OCR数据集的特点，先对图像进行预处理，然后提出深度显著性注意力网络来定位文本区域，将文本与复杂背景区分开。最后利用深度卷积循环注意力来识别文本，实现对文本图像的实时检测识别。本发明无需对字符进行切分，能够有效地提高OCR系统检测识别的精度，并有具有良好的实时性和迁移性，具有广阔的应用前景。

Description

基于深度学习注意力机制的文本实时定位识别方法

技术领域

本发明涉及文字识别技术领域，特别是涉及一种基于深度学习注意力机制的文本实时定位识别方法。

背景技术

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。

现有技术一般包含四个步骤：图像预处理，文字区域检测，字符切割，字符识别。

下面分别具体描述：

(1)图像的预处理：图像预处理部分主要包括二值化、图像降噪、倾斜矫正等等。图像预处理是识别过程的先行步骤，是为了提升后续处理单元的处理效率和准确率。图像预处理的步骤并不是严格按照流程固定不变的，不同的识别需求需要根据实验效果做出步骤的调整。一般来说，对于识别扫描的PDF、WORD文件所需的预处理步骤则要简单的多，而类似于车牌识别这类环境复杂的图像，则需要很繁琐的步骤；

(2)字符区域检测：图像预处理操作进行之后，一般情况下就要开始检测图像中的文字区域。传统的文字区域检测方法一般是通过找轮廓或者投影的方式找到文本行，但是此种方法需设定繁琐的规则且鲁棒性不好；

(3)字符切割：传统方法一般先对文本行进行字符切割，然后对切割后的字体进行识别。而字符切割算法比较常见的是垂直投影法，但字符切割算法受到字符间隙的影响，如果两个字符存在粘连情况，字符切割的有效性将大大降低；

(4)字符识别：字符识别是OCR整个流程中的最后一步，也是举足轻重的一步，这一部分模块的识别正确率决定了整个OCR系统可用与否。现有技术一般将字符识别问题转换为分类问题，通过SVM或者卷积神经网络来解决。

因而现有技术中OCR识别具有在复杂背景下定位文本区域困难、字符切分鲁棒性差、识别准确率低的问题，因此亟需提供一种新型的文本识别方法来解决上述问题。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习注意力机制的文本实时定位识别方法，无需切分字符，能够有效地提高OCR系统检测识别的精度。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于深度学习注意力机制的文本实时定位识别方法，包括以下步骤：

S1：搭建文本图像采集系统，收集训练样本并进行人工标注，建立OCR数据集；

S2：基于深度学习的方法，根据OCR数据集的特点，建立深度显著性注意力网络与深度卷积循环注意力模型；

S3：对所述OCR数据集进行预处理，利用预处理后的数据集训练所述深度显著性注意力网络，得到能够精确定位文本区域的深度显著性注意力网络；

S4：利用所述深度显著性注意力网络获取图片文本区域的热力图，将热力图与原图相乘，得到显著图；

S5：利用所述显著图训练所述深度卷积循环注意力模型，得到能够精确识别文本的深度卷积循环注意力模型，并对文本图像进行预测，从而实现对文本图像的实时定位识别。

在本发明一个较佳实施例中，在步骤S1中，建立OCR数据集的具体步骤包括：

对于收集到的训练样本，删除无效图像，并进行人工标注，随机选取7—9万张图像作为测试集，剩余图像作为训练集，分别以端点坐标加文本内容的形式命名。

在本发明一个较佳实施例中，步骤S4的具体过程如下：

S4.1：所述深度显著性注意力网络包括四个卷积单元、四个反卷积层，每个卷积单元包括一个卷积层与一个最大池化层，卷积层用于提取图像特征，最大池化层用于压缩无用信息；预处理后的图像经过四个卷积单元后被压缩到了原图的1/16大小，得到了包含丰富语义特征的特征图；

S4.2：通过四个反卷积层将特征图上采样16倍，再通过sigmoid激活函数来激活，将输入的值压缩到0—1区间，即有文字区域值为1，背景区域值为0，通过sigmoid激活函数得到了热力图；

S4.3：将热力图与原图相乘，得到显著图。

进一步的，所述深度显著性注意力网络包括四个卷积单元、四个反卷积层，每个卷积单元包括一个卷积层与一个最大池化层，卷积层用于提取图像特征，最大池化层用于压缩无用信息；四个卷积单元的卷积核数目依次为32、64、128、256，最大池化层的步长为2，反卷积核数目依次为256、128、64、1。

在本发明一个较佳实施例中，所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM，每个卷积单元包括一个卷积层和一个最大池化层；五个卷积单元的卷积核数目依次为32、64、128、256、512，最大池化层的步长为2。

进一步的，所述长短期记忆网络LSTM用于融合上下文信息，在每一时刻通过局部注意力机制聚焦不同区域得到分类结果；所述局部注意力机制为：

S_tf(S_t-1，y_t-1，c_t) (1)

e_tj＝g(S_t-1，h_j) (4)

其中α_t是t时刻的注意力向量，s_t-1是LSTM(t-1)时刻的状态向量，h是卷积层提取的高层语义特征，下标j表示j位置的局部特征，y_t-1是LSTM上一时刻的输出结果。

在本发明一个较佳实施例中，在步骤S3和步骤S5中，训练方法采用随机梯度下降加动量的优化器，其参数更新规则为：

θ←θ+V

其中，v为相比于普通的随机梯度下降增加的速度向量，α为动量参数，ε为学习速率，

为针对权重θ的微分，m为当前批次输入的样本图像数量，L(f(x⁽ⁱ⁾；θ),y⁽ⁱ⁾)为损失函数，x⁽ⁱ⁾为针对权样本中的某个样例，y⁽ⁱ⁾为对应的标签。

本发明的有益效果是：

(1)本发明基于深度学习的方法建立深度显著性注意力网络与深度卷积循环注意力模型，通过训练所述深度显著性注意力网络，能够准确定位文本所在区域，再通过训练所述深度卷积循环注意力模型，能够精确识别出文本内容；另外通过在训练过程中设置优化器，能够极大地加快训练速度，并在一定程度上抑制噪声带来的影响；

(2)相比于现有方法，本发明成本低，检测速度快，并且不需要分割文本，受外界干扰小，具有良好的实时性和迁移性，并且能够有效提高识别的精度，具有十分广阔的应用前景；

(3)本发明无需分割出单个字符就能识别整张图片的内容，有效避免在复杂背景下字符区域检测不准，以及字符粘连时字符切割算法的有效性明显降低的问题。

附图说明

图1是本发明基于深度学习注意力机制的文本实时定位识别方法的流程图；

图2是所述深度显著性注意力网络的模型示意图；

图3是所述深度卷积循环注意力模型的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1，本发明实施例包括：

一种基于深度学习注意力机制的文本实时定位识别方法，包括以下步骤：

对于收集到的训练样本，删除无效图像，并进行人工标注，随机选取8万张图像作为测试集，剩余图像约2万张作为训练集，用文本文件存放每张图片的标注信息，分别以端点坐标加文本内容的形式命名。例如1.jpg这张图片在(100，20)—(200，60)的坐标范围内存在文本，且文本内容为‘20180901’，则对应的文本文件名为1.txt，里面存放的信息为文本区域的左上与右下角坐标和文本内容，即‘(100，20)，(200，60)，20180901’。

如图2所示，所述深度显著性注意力网络包括四个卷积单元、四个反卷积层，每个卷积单元包括一个卷积层与一个最大池化层，卷积层用于提取图像特征，最大池化层用于压缩无用信息。四个卷积单元的卷积核数目依次为32、64、128、256，最大池化层的步长为2，反卷积核数目依次为256、128、64、1。

如图3所示，所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM，每个卷积单元包括一个卷积层和一个最大池化层。五个卷积单元的卷积核数目依次为32、64、128、256、512，最大池化层的步长为2。

在实际应用中的图像可能有多种格式，比如：jpg、jpeg、png等，为了能使用于各种情况，先对图像进行处理，统一转化为矩阵形式。首先将所有图片读进内存并以矩阵形式保存，再将图片的像素值减128除以128，归一化到-1到1之间。然后随机划分训练集与测试集，80％样本作为训练集，20％样本作为测试集。

S4：利用所述深度显著性注意力网络获取图片文本区域的热力图，将热力图与原图相乘，得到显著图；具体过程如下：

S4.2：为了得到与原图同样大小的热力图，通过四个反卷积层将特征图上采样16倍，再通过sigmoid激活函数来激活，将输入的值压缩到0—1区间，即有文字区域值为1，背景区域值为0，通过sigmoid激活函数得到了热力图；

其中，Sigmoid函数的数学表达式为

热力图中每一个点表示此位置是否存在文本，如果存在文本，则值为1，反之，则值为0。即热力图是一个与原图像大小相等的由0、1组成的矩阵。

S4.3：将热力图与原图相乘，得到显著图，由于非文本区域的热力矩阵值为0，则相乘之后背景部分的值为0，即忽略了背景，突出了文本。

深度卷积循环注意力模型的输入是显著图，通过5个卷积单元来提取高层语义特征，其中每个卷积单元包含一个卷积层和一个最大池化层。然后通过一个长短期记忆网络LSTM来融合上下文信息，在每一时刻通过注意力机制聚焦不同区域得到分类结果。

所述长短期记忆网络LSTM有一个对应的局部注意力机制。所述局部注意力机制为：

S_t＝f(S_t-1，y_t-1，c_t) (1)

e_tj＝g(S_t-1，h_j) (4)

局部注意力机制能顺序地定位出每一个文字的大致区域，然后对这个区域进行识别并得到识别结果。以包含“20180901”内容的图片为例，显著性注意力网络首先自动定位到“2”所在的区域，然后识别出“2”这个文字，接着依次定位识别出“0180901”。

通过局部注意力机制，在每一个时刻，深度卷积循环注意力模型都能自动对齐文本位置，也就是深度卷积循环注意力模型可以自动在每一个时刻定位到文字位置，即可以不用分割单个字符就能识别出所有文字。所述深度卷积循环注意力模型无需对字符进行切分，而传统方法需要将图片中的每一个文字切分出来再识别，本发明无需切分字符就能识别，能显著减少标注成本。

优选的，在步骤S3和步骤S5中，训练方法采用随机梯度下降加动量的优化器，相比普通的随机梯度下降算法，这种优化器能极大地加快收敛速度，尤其是在噪声较大或者梯度值较小时更为有效。其参数更新规则为：

θ←θ+V

为针对权重θ的微分，m为minibatch大小，即当前批次输入的样本图像数量，L(f(x⁽ⁱ⁾；θ),y⁽ⁱ⁾)为损失函数，x⁽ⁱ⁾为针对权样本中的某个样例，y⁽ⁱ⁾为对应的标签。优选的，动量α设为0.9，学习速率ε设为0.001，每训练1000步权重衰减一次，权重衰减θ为0.005。

准备好训练数据以及网络模型之后可以开始训练，训练过程中观察训练误差以及准确率，在误差不再下降、准确率不再上升的时候就可以终止训练了。训练完成之后可以利用深度卷积循环注意力模型来进行测试，输入一张图片就会得到一个结果。

本发明基于深度学习的方法建立深度显著性注意力网络与深度卷积循环注意力模型，通过训练所述深度显著性注意力网络，能够准确定位文本所在区域，再通过训练所述深度卷积循环注意力模型，能够精确识别出文本内容；另外通过在训练过程中设置优化器，能够极大地加快训练速度，并在一定程度上抑制噪声带来的影响；本发明无需分割出单个字符就能识别整张图片的内容，有效避免在复杂背景下字符区域检测不准，以及字符粘连时字符切割算法的有效性明显降低的问题。

经过对比和分析，相比于目前已有的其他方法，用深度显著性注意力网络与深度卷积循环注意力模型进行检测识别精度更高，且成本低，检测速度快，并且不需要分割文本，受外界干扰小，具有良好的实时性和迁移性，应用前景十分广阔。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习注意力机制的文本实时定位识别方法，包括以下步骤：

其中，所述深度显著性注意力网络包括四个卷积单元、四个反卷积层，每个卷积单元包括一个卷积层与一个最大池化层，卷积层用于提取图像特征，最大池化层用于压缩无用信息；

2.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，在步骤S1中，建立OCR数据集的具体步骤包括：

对于收集到的训练样本，删除无效图像，并进行人工标注，随机选取7-9万张图像作为测试集，剩余图像作为训练集，分别以端点坐标加文本内容的形式命名。

3.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，步骤S4的具体过程如下：

S4.2：通过四个反卷积层将特征图上采样16倍，再通过sigmoid激活函数来激活，将输入的值压缩到0-1区间，即有文字区域值为1，背景区域值为0，通过sigmoid激活函数得到了热力图；

S4.3：将热力图与原图相乘，得到显著图。

4.根据权利要求1或3所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，所述深度显著性注意力网络中，四个卷积单元的卷积核数目依次为32、64、128、256，最大池化层的步长为2，反卷积核数目依次为256、128、64、1。

5.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，所述深度卷积循环注意力模型包括五个卷积单元、一个长短期记忆网络LSTM，每个卷积单元包括一个卷积层和一个最大池化层；五个卷积单元的卷积核数目依次为32、64、128、256、512，最大池化层的步长为2。

6.根据权利要求5所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，所述长短期记忆网络LSTM用于融合上下文信息，在每一时刻通过局部注意力机制聚焦不同区域得到分类结果；所述局部注意力机制为：

S_t＝f(S_t-1，y_t-1，c_t) (1)

e_tj＝g(S_t-1，h_j) (4)

7.根据权利要求1所述的基于深度学习注意力机制的文本实时定位识别方法，其特征在于，在步骤S3和步骤S5中，训练方法采用随机梯度下降加动量的优化器，其参数更新规则为：

为针对权重θ的微分，m为当前批次输入的样本图像数量，L(f(x⁽ⁱ⁾；θ)，y⁽ⁱ⁾)为损失函数，x⁽ⁱ⁾为针对权样本中的某个样例，y⁽ⁱ⁾为对应的标签。