CN109543681A

CN109543681A - 一种基于注意力机制的自然场景下文字识别方法

Info

Publication number: CN109543681A
Application number: CN201811385056.8A
Authority: CN
Inventors: 张卫山; 朱立倩; 仵海云
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-03-29

Abstract

本发明提出了一种基于注意力机制的自然场景下文字识别方法，包括如下步骤：制作数据集；使用由卷积神经网络，注意力机制，循环神经网络构建的网络对图片进行端到端的训练；采用反向传播和梯度下降算法对模型进行优化；利用得到的模型实现对图片文字进行端到端的识别。由于文本的字符之间一般是有联系的，这种上下文的联系可以帮助更好的识别文本。注意力机制就是一种可以很好地构建文本上下文之间联系的方法，利用注意力机制可以提高识别的准确性。基于注意力机制的自然场景下文字识别方法，将文字识别和注意力机制方法相结合，并通过特征工程提高准确率的同时加快算法速度。

Description

一种基于注意力机制的自然场景下文字识别方法

技术领域

本发明涉及卷积神经网络、循环神经网络、注意力机制，具体涉及到一种基于注意力机制的自然场景下文字识别方法。

背景技术

自然场景下文字识别是指通过机器自动检测出在自然场景下获得的图片中哪些区域里有文字，并识别出文字是什么。自然场景指的是生活中的任意场景，比如街道，超市等。随着深度学习的迅猛发展，其在图像分类和目标检测中不但减少人工干预同时能快速和准确获得结果；且该深度学习方法，在自然语言处理等领域大量应用和取得较好的精确度；近年来最接近本发明的技术有：

(1)、谷歌街景图片识别:此方法是由谷歌提出的，首次将注意力机制引入到文字识别中，在场景简单的图片中可以实现较好的识别效果，同时不需要检测定位，使用注意力机制定位图片中的应该关注的区域。但在复杂场景下，比如图片中文字众多大小不一且背景复杂，由于注意力机制的定位效果不佳导致识别效果差。

近年来，各个领域都在朝着智能化的方向发展，自动驾驶汽车系统、室内导航系统等需要文字识别的辅助，这需要高效可靠的文字识别算法进行支撑。本方法采用基于卷积神经网络和循环神经网络以及注意力机制的方法准确的识别自然场景下的文字。该方法通过准确的预测自然场景下的文字，为需要进行文字识别的大型系统提供技术支持。

发明内容

为解决现有技术中的缺点和不足，本发明提出了一种基于注意力机制的自然场景下文字识别方法，通过采用卷积神经网络和循环神经网络以及注意力机制方法，提取图像文本特征并构建特征工程；通过我们自己构建的由卷积神经网络，循环神经网络和注意力机制构成的网络训练，学习自然场景下文本的特征并准确的识别文本。

本发明的技术方案为：

步骤(1)、制作数据集，包括训练集和测试集，保证格式的规范性；

步骤(2)、对检测部分进行预训练；

步骤(3)、将检测与识别部分一起训练。调整网络参数，将图片输入基于注意力机制的网络中，卷积神经网络提取图片特征，注意力机制以及循环神经网络获得不同区域对于当前区域的重要性程度并输出最终的识别结果；

步骤(4)、根据制订的训练计划(包括几组不同的训练参数)，调整训练参数，重复步骤(2)和步骤(3)；

步骤(5)、对训练得到的多个模型的识别精度进行比较，选择精度最高的模型作为最终的识别模型。

本发明的有益效果：

(1)构建该特征工程的识别方法在实际中能准确的识别自然场景下的文本，为需要文本识别的系统提供技术支持；

(2)本方法使用注意力机制更好的利用文本的上下文信息从而提高识别的精确性；

(3)由于CTC方法计算耗时，使用加入注意力机制的循环神经网络代替CTC方法，提高了算法的速度；

(4)实现检测与识别的端到端的训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于注意力机制的自然场景下文字识别方法的流程图；

图2为本发明基于注意力机制的自然场景下文字识别方法的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于注意力机制的自然场景下文字识别方法的流程图包含三个模块：数据集制作模块、文本检测模块、文本识别模块。

下面结合图1与图2，对基于注意力机制的自然场景下文字识别方法的具体流程进行详细说明：

步骤(1)、制作包含图片中文本区域的坐标以及文本内容的数据集；

步骤(2)、对由卷积神经网络构成的文本检测部分进行预训练，损失函数由二分类损失和定位损失构成，使用批量梯度下降算法进行优化；

步骤(3)、对检测和识别模块进行统一训练，检测得到的文本区域传入加入注意力机制的循环神经网络得到输出字符序列，并用测试集测试训练的效果；

步骤(5)、对得到的所有模型的效果进行比较。

本发明的基于注意力机制的自然场景下文字识别方法，将注意力机制加入到文本识别中，可以使得网络有效利用文本的上下文信息进行文本识别，以前的方法都没有有效利用文本的上下文信息，该方法提高了识别的准确性。同时摒弃CTC方法进行文本序列的转化，直接由使用注意力机制的循环神经网络得到最终的识别序列，加快了算法速度。利用制订的多种训练参数进行多次训练，可以得到效果最好的网络模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的自然场景下文字识别方法，其特征在于，数据集制作模块、文本检测模块、文本识别模块，包括以下步骤：

步骤(2)、对检测部分进行预训练；