CN107203606A

CN107203606A - 基于卷积神经网络的自然场景下文本检测与识别方法

Info

Publication number: CN107203606A
Application number: CN201710345645.2A
Authority: CN
Inventors: 王�琦; 李学龙; 李红丽
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2017-09-26

Abstract

本发明提供了一种基于卷积神经网络的自然场景下文本检测与识别方法。该方法通过对快速区域卷积神经网络的训练得到适用于自然场景下文本检测的网络，以进行自然场景下文本的检测；通过进行词汇的收集，得到词典；通过学习文本词汇的特征，训练卷积神经网络分类器，通过对输入区域的分类实现文本的识别。利用本发明的方法，能够在不同复杂程度的背景和不同文本字体、颜色下均得到较好的文本检测与识别效果。

Description

基于卷积神经网络的自然场景下文本检测与识别方法

技术领域

本发明属计算机视觉、物体检测与识别技术领域，具体涉及一种基于快速区域卷积神经网络与卷积神经网络的自然场景下文本检测与识别方法。

背景技术

相较于传统低层次特征的视觉线索，富含清晰高层次语义特征的文本在很多视觉任务中提供了有用的信息，因此检测与识别出自然场景下的文本是计算机视觉中的一项重要技术。通常情况下由于复杂的自然场景，多变的文本分布、字体、颜色，不均匀的光照影响，以及相机的分辨率，使得自然场景下文本的检测与识别变得比较困难。目前，对于文本的检测与识别方法有两大类：

第一种是文本检测与识别区分明确的方法。该方法通常包含四个主要步骤：文本区域的定位、非文本区域的去除、区域中字符的分割、文本的识别。这类方法有明显的文本检测阶段与识别阶段的区分，优点为：整体是从粗到细的过程，许多背景区域在检测及非文本区域的去除阶段就被过滤掉了，很大程度上降低了计算代价；不足之处是当各阶段都使用不相关的方法时，这类方法整体的复杂度很高且各阶段参数的优化难度也会加大，容易导致误差传播。在这种方法类别中也存在很多只是完成文本检测或在已知文本区域的基础上只是完成文本识别的方法。如M.Jaderberg等人在文献“M.Jaderberg,K.Simonyan,A.Vedaldi,andA.Zisserman,Reading Text in the Wild with Convolutional NeuralNetworks,International Journal of Computer Vision.vol.116,no.1,pp.1-20,2016”中提出了一种在proposal(可能的候选区域)的基础上进行文本检测与识别的方法，该方法先进行proposal的提取，将这些proposal作为文本区域的候选区域，然后通过训练的随机森林分类器在这些候选区域的基础上进行非文本区域的去除，将分类留下的区域作为检测得到的文本区域，用卷积神经网络对文本区域的边框进行回归，以得到更为精确的检测框，最后在这些检测框的基础上通过卷积神经网络的分类过程实现文本的识别。

第二种是端对端的文本检测与识别方法。这类方法中没有明显的文本检测阶段与识别阶段的区分，将字符分类的结果作为文本检测与识别的公用线索。其优点在于可以避免进行难度较大的字符分割，不足之处是计算代价较大。如B.Shi等人在文献“B.Shi,X.Bai,and C.Yao,An End-to-End Trainable Neural Network for Image-BasedSequence Recognition and Its Application to Scene Text Recognition.IEEETrans.Pattern Analysis and Machine Intelligence,Dec.2016”中提出先通过卷积神经网络对定高的输入图片进行特征提取，再将得到的特征映射图以列为单位进行划分，按照各列的顺序得到特征序列，输入到由双向深度LSTM(Long-Short Term Memory)组成的循环神经网络中，完成从特征序列到字符序列的映射，再将这个字符序列作为翻译层的输入，得到最终的识别结果。

发明内容

为了应对复杂自然场景下的文本检测与识别问题，本发明提出一种基于卷积神经网络的自然场景下文本检测与识别方法。该方法的主要思想是：通过对快速区域卷积神经网络的训练得到适用于自然场景下文本检测的网络，以进行自然场景下文本的检测；进行词汇的收集，得到词典；通过学习文本词汇的特征，训练卷积神经网络分类器，通过对输入区域的分类实现文本的识别。利用本发明的方法，能够在不同复杂程度的背景和不同文本字体、颜色下均得到较好的检测与识别效果。

一种基于卷积神经网络的自然场景下文本检测与识别方法，其特征在于包括以下步骤：

步骤1：将事先带有文本标注的不同场景的图片集分为训练样本集和测试样本集，一般训练样本集中的图片数量占图片总量的80％以上；所述的文本标注是指含有文本的文本边框和文本内容；

步骤2：收集图片集所有标注数据中的词汇构成一个词典，以对分类结果进行匹配；

步骤3：以ImageNet数据集上训练的网络模型参数作为快速区域卷积神经网络参数的初始值，将训练样本集输入快速区域卷积神经网络，采用随机梯度下降算法进行训练，得到可以进行自然场景下文本检测的快速区域卷积神经网络；

步骤4：截取训练样本集所有图片中的文本标注区域构成新的训练集，将其输入卷积神经网络，以ImageNet数据集上训练的网络模型参数作为卷积神经网络参数的初始值，以softmax作为卷积神经网络的输出层，并令输出层神经元的个数与词典中词汇的个数相等，采用随机梯度下降算法对卷积神经网络进行训练，得到可以进行自然场景下文本识别的卷积神经网络；

步骤5：利用步骤3训练好的快速区域卷积神经网络对输入图像进行处理，得到检测结果，再利用步骤4训练好的卷积神经网络对检测结果进行处理，输出的类别向量中条件概率值最大的一项对应的词典中的词汇即为最终的识别结果。

本发明的有益效果是：通过使用快速区域卷积神经网络，可以有效地进行proposal的提取，在提取proposal的基础上再进行文本的检测，可以减少计算量同时提高检测准确度；利用卷积神经网络以词为单位进行文本识别，避免了难度较大的字符分割过程，同时也避免了因词汇中个别字符的识别错误导致的整个词汇的识别错误；卷积神经网络提取的特征，相较于手工设计的特征或者传统特征，能更本质的反应文本的特点，保证了较高的识别准确度。通过学习得到的检测和识别模型能够更好地扩展到不同的场景，同时能够更好地应对不同的背景变化等其它因素的影响。

附图说明

图1是本发明的一种基于卷积神经网络的自然场景下文本检测与识别方法的流程图

图2是利用本发明方法进行复杂自然场景下的文本检测结果图

图3是利用本发明方法进行复杂自然场景下的文本识别结果图

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明的一种基于卷积神经网络的自然场景下文本检测与识别方法步骤如下：

1、准备数据集

将事先带有文本标注的不同场景的图片集分为训练样本集和测试样本集，一般训练样本集中的图片数量占图片总量的80％以上。所谓的带有文本标注，主要指图片中含有文本并且带有相应的文本边框和文本内容标注。为了能更有效地对自然场景下的文本进行检测和识别，训练样本集的图片中的文本字体、颜色和布局越多样性越好。

2、生成词典

处理标注数据，将其中的词汇收集到一个数组中并保存，构成一个词典，以在识别过程进行匹配，实现从分类器的分类结果到识别结果的映射。

3、训练快速区域卷积神经网络

本发明方法利用在ImageNet数据集上训练的网络模型参数作为快速区域卷积神经网络参数的初始化值，采用随机梯度下降算法最小化目标函数进行网络参数的调整。

本实施例中，采用的目标函数L为：

其中，p_i表示候选区域i是文本区域的概率；为ground truth标注，当候选区域i是文本区域时，为1，反之为0；t_i是检测的文本区域矩形框左上角和右下角的坐标向量；表示候选区域i对应的ground truth矩形框左上角和右下角的坐标向量；N_cls和N_reg分别是目标函数中两项的规范化值，其中N_cls在本实施例中取值为256(min-batch size)，N_reg的值为候选区域的位置数；本实施例中λ取值为10。L_cls为快速区域卷积神经网络预测的候选区域的分类损失，即对预测的每个候选区域进行是或不是文本区域分类的损失，其定义为：

L_reg为网络预测的候选区域的回归损失(回归是指网络预测的候选矩形区域的四个点向该位置处实际的文本标注矩形框对应的四个点靠近的过程)，定义为：

其中，R为函数，形式为：

4、训练卷积神经网络

截取训练样本集所有图片中的文本标注区域构成新的训练集，将其输入卷积神经网络，以ImageNet数据集上训练的网络模型参数作为卷积神经网络参数的初始值，以softmax作为卷积神经网络的输出层，并令输出层神经元的个数与词典中词汇的个数相等，采用随机梯度下降算法最小化目标函数进行网络参数的调整。

本实施例中，训练过程中需要最小化的代价函数为：

w^*＝argmax_w∈WP(w|r)P(w|L) (5)

其中，W表示词典，w表示词典中的一个词汇，r表示输入待识别的文本区域，L表示语言类型，w^*表示识别结果。概率P(w|x)由softmax层的输出得到，基于语言的先验P(w|L)通过词典的分析得到，当词汇w在词典中出现时，取值为1，反之为0。

5、文本的检测与识别

对于待测试的自然场景下的输入图片，先将其通过步骤3训练好的快速区域卷积神经网络进行文本检测，将检测结果送入步骤4训练好的卷积神经网络进行词汇的识别，输出的类别向量中条件概率值最大的一项对应的词典中的词汇即为最终的识别结果。

本实施例在中央处理器为i5-3470 3.2GHz GPU、内存16G、Centos操作系统上，运用MATLAB软件进行仿真实验。使用的数据是从公开的数据集ICDAR2013，ICDAR2015，SVT，COCO上下载得到。

首先从1402个预先标注好的文本图片中随机选出1300张作为训练数据集用来训练模型，然后按照具体实施方式中给出的步骤，对剩余的102张图片进行测试实验。以精确率和召回率作为衡量检测效果的指标，结果如表1和表2所示。表1是文本检测阶段精确率和召回率的结果，平均精确率约为88.64％，平均召回率约为72.61％。表明本方法整体检测性能较好。表2是文本识别阶段精确率和召回率的结果，平均精确率约为80.72％，平均召回率约为60.57％。表明本方法整体识别性能较好。

表1

测试图片数	准确率	召回率
			102	0.8864	0.7261

表2

测试图片数	准确率	召回率
			102	0.8072	0.6057

图2和图3分别为检测、识别结果示意图。图2中用白色矩形框框出来的区域是检测得到的文本区域，图3中左下角白色区域内为识别结果。可以看出，在复杂的自然场景下本发明方法均能准确检测文本并识别出内容，能够在一定程度上应对复杂背景、字体及其颜色变化的影响。

Claims

1.一种基于卷积神经网络的自然场景下文本检测与识别方法，其特征在于包括以下步骤：