CN110059539A

CN110059539A - 一种基于图像分割的自然场景文本位置检测方法

Info

Publication number: CN110059539A
Application number: CN201910147441.7A
Authority: CN
Inventors: 侯春萍; 杨阳; 徐金辰; 夏晗
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-07-26

Abstract

本发明涉及一种基于图像分割的自然场景文本位置检测方法，包括下列步骤：选取数据集；挑选含有文字的图像并标注，制作训练集和测试集；数据增强：第一，随机旋转：以0.25的概率对图片进行随机旋转；第二：随机剪裁；第三，随机颜色扰动；构建训练神经网络：VGG16作为基础网络，将网络的全连接层都改为卷积层，即将Pooling5的输出保持不变，将Fc6变成7*7*512的卷积层，Fc7和Fc8则使用1*1的卷积核变为卷积层，依照分割的思想对文本进行逐像素预测，最后得到每个像素点的预测结果；设计损失函数；对训练结果进行后处理。

Description

一种基于图像分割的自然场景文本位置检测方法

技术领域

本发明属于目标检测技术领域，涉及一种基于深度学习技术的检测自然场景图像中文本位置的方法。

背景技术

文本检测算法是光学字符识别(Optical Character Recognition，OCR)领域的一个分支。最初的OCR技术是扫描本文，其特点是分辨率高且文字排列整齐有规律，背景简洁，文本区域占图像总体比重较大。扫描文本识别率达到97.38％^[1]。随着数码相机的大面积普及，扫描文本算法逐渐不能满足社会需求。被检测的自然图像质量下降，背景复杂，文本方向不确定且占图像整体比重较小，例如识别拍摄街景的照片中包含的路标或者街道铭牌包含的字符。将扫描文本算法应用在这类图像上所取得的效果十分糟糕。

为了跟好的识别自然场景图像中的文本，我们通常将这个任务拆分成多个独立的子任务。第一个子任务一般是文本检测^[2]，也可以叫做文本定位(Text localization)。这个任务主要是找到图像中文本的位置，其输出是单个字符或者字符串的边界框，也可以称为文本框。第二个子任务是文本识别。将剪裁好的文本框作为输入，得到文本内容作为结果。第三个子任务是端到端识别，这个任务是将前两个任务结合在一起，达到更高的自动化效果。本发明主要涉及一种文本检测的算法。

文本检测与目标检测在方法上有很大的相似之处，但文本和一般物体相比有更大纵横比，因此对文本检测需要作一定的处理来完成识别。本发明主要考虑对文本的定位问题。

[1]Smith R.An Overview of the Tesseract OCR Engine[C]//InternationalConference on Document Analysis&Recognition.2007.

[2]Kai W,Belongie S.Word Spotting in the Wild[M]//Computer Vision–ECCV 2010.2010.

发明内容

本发明的目的是提供一种基于深度学习的方法对自然场景图像中的文本进行定位，将图像中的文本内容与其他背景分开。技术方案如下：

一种基于图像分割的自然场景文本位置检测方法，包括下列步骤：

(1)选取数据集；挑选含有文字的图像并标注，制作训练集和测试集；

(2)数据增强：第一，随机旋转：以0.25的概率对图片进行随机旋转，旋转角度的数值分别是0、90、180、270四个数值；第二：随机剪裁，对旋转后的图像进行随机剪裁，剪裁区域与原图面积比在0.1到1之间，纵横比在0.5到2之间，保证每次剪裁出的区域至少包含一个文本框的10％以上；第三，随机颜色扰动：用随机数值对图像的亮度、饱和度于色彩值进行扰动；

(3)构建训练神经网络：VGG16作为基础网络，将网络的全连接层都改为卷积层，即将Pooling5的输出保持不变，将Fc6变成7*7*512的卷积层，Fc7和Fc8则使用1*1的卷积核变为卷积层，依照分割的思想对文本进行逐像素预测，最后得到每个像素点的预测结果；

(4)设计损失函数；

(5)对训练结果进行后处理：预测结果首先连接成文本区域，然后通过调用opencv库中的minAreaRect函数直接提取文本框，接着根据先验知识，利用文本框的几何特征滤除冗余文本框。

附图说明

附图1 txt文档格式

附图2 检测效果图

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明具体实施方式做进一步地描述。

步骤一：本发明将图片ICDAR2015中第四个挑战第一个任务(challenge4 Task1)的数据集作为训练集和测试集，共包含1500张图片。1000张用于训练，500张用于测试。图片以谷歌眼镜(Google Class)作为图像的采集设备。采取随机拍摄的方式，图像大小统一为1280*760。拍摄时的镜头没有聚焦于文本内容，拍摄完成后，从随机拍摄得到的图像中挑出含有文字的图片并标注，因此ICDAR2015的数据集文本位置较为随机，内容比较模糊，文本方向不确定。文本标注也是以单词为基本单位。所有的单词和文本区域都会被标注出来，但只有可辨识且长度大于3的英文单词或数字才会用于衡量算法性能。每个图片对应一个txt文档，每一行代表一个文本框，包含4个坐标，其格式如图2所示。

步骤二：为了增加训练数据的数量和多样性，本发明采取以下几个方法来实现数据增强。第一，随机旋转：以0.25的概率对图片进行随机旋转，旋转角度的数值分别是0、90、180、270四个数值。第二：随机剪裁，对旋转后的图像进行随机剪裁，剪裁区域与原图面积比在0.1到1之间，纵横比在0.5到2之间，保证每次剪裁出的区域至少包含一个文本框的10％以上。第三，随机颜色扰动：用随机数值对图像的亮度、饱和度于色彩值进行扰动。经过上述操作，原图的文本框只会保留一部分，剩余面积不足20％的文本框会被忽略。

步骤三：本发明的网络以VGG16作为基础，VGG16的网络结构如表1所示。为了能将VGG16网络用于分割任务，本发明将网络的全连接层都改为卷积层，具体做法是将Pooling5的输出保持不变，将Fc6变成7*7*512的卷积层，Fc7和Fc8则使用1*1的卷积核变为卷积层。转化成全卷积网络的VGG16可以更好地处理分割任务。

表1.VGG16网络结构

改变后的网络需要对完成对每个像素点的预测任务，即判断每个像素点是否为文本或非文本。同时网络选用Softmax作为激活函数。本发明通过SGD(Stochastic gradientdescent，随机梯度下降法)优化训练模型，权值衰减系数设置1×10^-4，动量设置为0.5，学习速度为10^-3，本发明使用Python2.7和TensorFlow1.1.0来实现，训练使用的batch_size为4，总共进行4万次迭代。

步骤四，设计损失函数：图像中不同的文本框的大小相差很大，因此每个文本像素分配一样权重会影响模型性能。本发明采用实例间的平衡交叉熵损失函数。具体而言，一张图像上含有N个文本框。S_i代表第i个文本框的面积，S表示所有文本框的面积之和，则第i个文本框损失权重为：

这样设计的损失函数可以让图像上每个文本框包含的损失函数相同。

步骤五，在通过网络训练之后，还需对训练结果进行后处理。一般的训练得到的深度神经网络模型所输出的位置和置信度回归结果需要通过非极大值抑制(NMS)的方法。但本发明采用得是分割的方法来实现位置回归。因此不能采用非极大值抑制的方法来滤除冗余的文本框。本发明首先将预测为正的像素点组成一个连同集合分量来作为文本框的分割结果，每个连通分量代表一个文本框。其次通过调用opencv中的minAreaRect函数来提取每个预测文本的连同集合。MinAreaRect函数的作用是可以求得包含点集的最小外接矩形，这个矩形可以有偏转角度，不需要和图像边界平行，这样可以实现任意方向的文本框预测，而不再是单一的水平方向文本，这样可以更好地自然场景图像中文本框的检测任务。最后根据拍摄图像中的文本框的几何特征，对多余的文本框进行滤除，提高检测准确率。根据先验知识，预测文框的短边长度和面积的阈值分别设置为10和300。图2显示了我们在电网数据集上的检测效果。

概括而言，本发明的步骤如下：

1.选取数据集。本发明采用ICDAR2015中第四个挑战第一个任务(challenge4Task1)的数据集作为训练集和测试集。

2.数据增强。数据增强是训练深度学习模型常用的方法，这种方法可以有效的缓解过拟合问题。本发明采用三种基本的数据增强方式来增加训练数据的数量和多样性，分别是随机剪裁、随机旋转和颜色随机扰动。

3.构建训练神经网络。本发明将VGG16作为基础网络，为了更好地完成文本检测过程，本发明依照分割的思想对文本进行逐像素预测。最后得到每个像素点的预测结果。

4.预测结果首先需要连接成文本区域，然后通过调用opencv库中的minAreaRect函数直接提取文本框，接着根据先验知识，利用文本框的几何特征滤除冗余文本框。最后对实验数据进行分析与处理，评价本系统的识别准确度。

测试集共有500张图片，Recall值达到82.0，Precision值达到85.5，F-Score值达到83.7％。可以有效地帮助计算机理解采集到的图像信息，为后续工作打下基础。

Claims

1.一种基于图像分割的自然场景文本位置检测方法，包括下列步骤：

(4)设计损失函数；

(6)根据权利要求1所述的方法，其特征在于，步骤(4)如下：设图像上含有N个文本框；S_i代表第i个文本框的面积，S表示所有文本框的面积之和，则第i个文本框损失权重w_i的计算公式可以为：