CN111753828B

CN111753828B - 一种基于深度卷积神经网络的自然场景水平文字检测方法

Info

Publication number: CN111753828B
Application number: CN202010426676.2A
Authority: CN
Inventors: 宋清洋; 孙巍; 郭志林
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2022-12-27
Anticipated expiration: 2040-05-19
Also published as: CN111753828A

Abstract

本发明请求保护一种基于深度卷积神经网络的自然场景水平文字检测方法。该方法在TextBoxes网络模型的基础上进行深度优化，通过增加新的文本预测卷积组，扩展网络深度，使网络对于小数据集的特征学习更加充分，并且在一定的模型复杂度下，充分利用多个卷积层的特征信息进行融合学习。通过对具有不同感受野的卷积层对原始图片数据进行特征学习后，利用文本预测层回归文本框的位置并预测文本类别。该检测方法有效地解决了自然场景的背景复杂性以及小数据集特征不足等因素对文字检测造成的影响。通过在Caffe平台下进行实验验证，结果表明该模型能有效提高小数据集下的自然场景水平文字检测的召回率和综合评价指标。

Description

一种基于深度卷积神经网络的自然场景水平文字检测方法

技术领域

本发明属于图像处理技术领域，特别是用于自然场景文本检测的深度卷积神经网络新型应用技术。

背景技术

智能手机的大规模普及和互联网的快速发展带来了众多的新型产品和智能化服务，这引发了对实用视觉技术的巨大需求。文本是自然场景中最普遍的视觉对象之一，对于现实世界中的各种应用来说非常有价值，因此，自然场景文本检测和识别已经成为计算机视觉领域的研究热点之一。近年来，自然场景文字检测已经成为图像处理、计算机视觉以及自然语言处理等领域中的重要研究方向。

现有的基于边缘的文字检测方法首先利用边缘特性来计算文本候选区的能量。之后根据能量值的高低排除非文本信息。最后利用相邻文本候选区之间的空间关系、颜色信息、像素强度以及尺寸信息等将相似度较高的候选区连接在一起形成文本。该检测方法原理通俗易懂，计算速度也比较快并且易于实现，但是当背景复杂时，文字的边缘特征相对而言就会变得模糊，该种方法就不能得到广泛应用。因此传统的基于边缘的文字检测方法并不适用于自然场景文字检测。

现有的基于连通域的文字检测方法对图片的颜色特性或者区域极值等属性进行聚类，得到连通域，进而提取出文本候选区；然后再利用分类器去除非文本区域。该方法所得到的文本候选框数量比较少，因此在计算速度上较其他算法较快一些，并且对文字大小没有固定要求。但是在背景相对复杂的自然场景中，文本和非文本信息很难根据颜色等信息进行区分，因而很难得到较好的连通域。因此，基于连通域的文字检测方法也不适用于自然场景下的文字检测。

现有的基于纹理的文字检测方法一般将文字看作是一种特殊的纹理，利用纹理本身的特殊性进行文本检测。在文本纹理和背景纹理区分过程中，常用的纹理特征包括小波变换、滤波器响应、文本较强边界以及与非文本的较大对比度等。在该算法中，利用经典的边缘检测算子进行边缘检测；其次，计算图像中的不同行空间矩阵的方差，将方差值较大的视为文本候选区，方差值较小的视为背景区域；最后通过颜色强度、连通域内像素的相似性等信息对文本候选区进行筛选，进而去除背景区域。该方法虽然能很好地适应不同字体以及不同规格大小的文本检测，但是其耗时较长，而且计算复杂度也较高，不能满足实际需求。

由此可见，现有技术存在计算复杂度高、检测精度低、不适应与自然场景下背景复杂性的文字检查等技术问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种解决小数据集下的自然场景水平文字检测问题，克服自然场景下的背景复杂性以及其它外界因素对文字检测的不利影响的基于深度卷积神经网络的自然场景水平文字检测方法。本发明的技术方案如下：

一种基于深度卷积神经网络的自然场景水平文字检测方法，其包括以下步骤：

步骤1：获取数据集：首先获取符合小数据集特性的训练图片，并人为地添加不同程度的椒盐噪声，椒盐噪声是一种典型的数字图像噪声，之后对获得的数据集进行预处理，将获取的图片进行批量重命名和标注，并按PASCAL VOC数据格式制作数据集；

步骤2：数据预处理：在网络读取图片数据之前，对训练数据进行包括图片批量重命名、图片标注、数据集制作、数据集划分、数据转换等预处理；

步骤3：建立网络模型：以VGG-16网络模型为基础网络，将全连接层全改为卷积组，组成全卷积层的神经网络；

步骤4：训练网络：把制作好的数据集输入到步骤3的网络中进行训练；

步骤5：文本框预测：对经过步骤4网络训练后输入图片的特征进行边框回归和分类，根据类别得分情况判断预测到的边界框内容是否为文本；

步骤6：文本框筛选：通过文本框预测，得到若干文本区域候选框，采用非极大值抑制算法消除多个候选框中的冗余候选框，找到最佳文本框；

步骤7：网络微调：利用反向传播不断地更新网络训练的参数，结合随机梯度下降算法来微调训练过程，反复进行直到达到最大迭代次数；

步骤8：生成检测结果：将图像输入到训练好的模型中进行检测，在文本检测层中输出检测结果。

进一步的，步骤1获取适应于小数据集自然场景的数据集，具体包括：所用的数据集共800张，其中229张是来源于ICDAR2013数据库，该库中的图片数据大部分是街景图片和路牌标识，图片明暗不一且字体多种多样，271张图片是从互联网上爬取的，包括建筑物标识图片和商店文本Logo，在200张图片中加入了不同程度的椒盐噪声，剩余100张图片是由原图做水平翻转得到。

进一步的，所述步骤2数据预处理步骤中，将图片尺寸resize到300×300，具体包括：

1.图片批量重命名：对所有图片样本通过编写脚本程序进行批量命名，命名规则为使用3位数字；

2.图片标注：采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定；

3.根据PASCAL VOC数据格式制作数据集；

4.数据集划分：将800张图片划分成3个数据集，分别为训练集、验证集和测试集，划分比例为训练集60％、证集20％、测试集20％；

5.数据格式转换：通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。

进一步的，所述步骤3建立网络模型具体包括：该网络由23个卷积层、23个激励层和5个池化层组成，是一个全卷积神经网络，本模型沿用VGG-16的前五个卷积组，并将最后的两个全连接层fc6、fc7均改为卷积组，并在其后新增添四个卷积组，在新增加的conv6到conv9中，每个卷积组都包含两个卷积层，并且在每个卷积层后都设置了一个激励层，基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3，填充值为1，池化层的池化窗口大小均为2×2，步长为2，经过池化层的下采样后，输出的长和宽均变为输入的一半，模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测，上述的预测层中采用1×5的卷积核，填充值Pad为2，步长为1。

进一步的，所述步骤4把制作好的数据集输入到步骤3的网络中进行训练，具体包括：

将归一化为300*300的图像输入网络模型中，网络输出为文本定位结果及文本分类的打分，训练基础网络模型。具体采用迭代次数为120000次，每次迭代网络读取的图片数目为32，网络每进行500次迭代便进行一次测试，每次测试读取一张测试图片。测试集中共160张图片，网络训练中每隔10次迭代就输出一次当前训练结果。

进一步的，所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类，根据类别得分情况判断预测到的边界框内容是否为文本，具体包括：

1.采用SSD算法中的Default box机制，设定不同规格的默认框来代替传统的批量滑动窗口，在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框，分别为1、2、3、5、7、10；

2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习，进而得到72维的特征矩阵，其中48维用于回归文本边界框，24维对检测目标进行分类，根据类别得分情况判断预测到的边界框内容是否为文本。

进一步的，所述进行边框回归和分类的过程为：假设原始输入图片的尺寸大小为(w_img,h_img)，w_img、h_img分别表示原始图片的宽和高。输入文本预测层的特征图的尺寸大小为(w_map,h_map)，w_map、h_map分别表示特征图的宽和高。在特征图上坐标为(i,j)的位置上，设置默认文本框坐标db₀＝(x₀,y₀,w₀,h₀)，其中(i,j)表示像素点的位置坐标，(i,j)表示特征图中每个神经元的位置坐标，(x₀,y₀)代表每个神经元上默认文本框的中心位置坐标，文本预测层预测默认框相对于真实文本框的偏移量，假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c)，其中c为预测置信度，用于目标分类，预测到的文本框坐标为db＝(x,y,w,h)，其计算公式如下。

x＝x₀+w₀Δx,y＝y₀+h₀Δy,w＝w₀exp(Δw),h＝h₀exp(Δh)

采用公式(1)计算损失函数。

其中x表示和默认框相匹配的矩阵，对于第i个默认文本框和第j个真实文本框，当x_ij＝1时表示两者匹配，反之则不匹配，c为预测置信度，l为网络模型预测的位置坐标，g为文本的真实位置坐标，S为默认文本框和真实文本框匹配的数目，β系数在目标检测问题中一般设置为1，检测目标分类L_conf(x,c)采用的是损失函数为Softmax，边界框回归L_loc(x,l,g)采用的是Smooth_L1损失函数，网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。

进一步的，所述步骤6采用非极大值抑制算法消除多个候选框中的冗余候选框的具体实现步骤如下：

1.求得所有文本预测框的面积；

2.对所有文本预测框的分类得分进行排序，将得分最高的边框作为检测目标当前的文本检测框；

3.遍历剩余检测框，并计算其余文本预测框与得分最高边框的交并比(IoU)值，具体计算公式如下：

其中，D代表预测的目标框，G代表真实目标框。D∩G代表预测的目标框和真实目标框的重叠部分，D∪G则代表两者的并集。

根据计算所得的交并比，删除IoU大于某阈值的检测框；

4.在未处理的文本框中继续选择一个得分最高的检测框，重复步骤(2)～(4)。

本发明的优点及有益效果如下：

本发明巧妙地利用卷积神经网络对输入图片进行特征提取，解决了面向小数据集的自然场景水平文字检测。首先，针对小数据集中数据量匮乏、特征不足以及自然场景的背景复杂性等因素进行深入研究分析，明确了一定的网络深度对小数据集文本特征学习的必要性；其次，通过多次修改网络结构，增加不同的卷积层和卷积组，重新设置不同的文本预测层进行网络学习，并对多次实验结果进行对比分析；最后，综合分析网络模型对底层特征以及全局特征的学习充分性，找到最优的面向小数据集的自然场景水平文字检测方案。该方案有效地解决了小数据集下典型的特征欠缺对文字检测所造成的困扰，大大提高了小数据集中自然场景文字检测的召回率和综合评价指标，为以后的科学研究提供了一定地理论价值。

附图说明

图1是本发明提供优选实施例应用于小数据集中的水平文字模型结构。

图2是检测模型训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提供了一种基于深度卷积神经网络的小数据集自然场景水平文字检测方法，该方法包括以下步骤：

步骤1：准备数据集；

首先获取适应于小数据集自然场景的数据集。所用的数据集共800张，其中229张是来源于ICDAR2013数据库，该库中的图片数据大部分是街景图片和路牌标识，图片明暗不一且字体多种多样。271张图片是从互联网上爬取的，包括建筑物标识图片和商店文本Logo等。为了模拟实际环境中噪声较大的特点，本发明特意在另外200张图片中加入了不同程度的椒盐噪声。剩余100张图片是由原图做水平翻转得到。

步骤2：数据预处理；

在网络读取图片数据之前，对训练数据进行预处理。本发明将图片尺寸resize到300×300，并对其进行数据预处理，具体的数据处理步骤如下：

1.批量重命名。对所有图片样本通过编写脚本程序进行批量命名，命名规则为使用3位数字，如001.jpg。

2.图片标注。本发明采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定。

3.根据PASCAL VOC数据格式制作数据集。

4.数据集划分。将800张图片划分成3个数据集，分别为训练集、验证集和测试集。本发明数据集的划分比例为训练集60％、证集20％、测试集20％。

5.数据格式转换。本发明通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。

步骤3：建立网络模型；

本发明所采用的网络模型结构如图1所示。该网络由23个卷积层、23个激励层和5个池化层组成，是一个全卷积神经网络。本模型沿用VGG-16的前五个卷积组，并将最后的两个全连接层fc6、fc7均改为卷积组，并在其后新增添四个卷积组。在新增加的conv6到conv9中，每个卷积组都包含两个卷积层，并且在每个卷积层后都设置了一个激励层。在本发明所用的网络模型中，基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3，填充值为1。池化层的池化窗口大小均为2×2，步长为2。经过池化层的下采样后，输出的长和宽均变为输入的一半。该模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测，上述的预测层中采用1×5的卷积核，填充值Pad为2，步长为1。水平文字检测网络的具体参数设置如表1所示。

表1

本发明的网络模型中，用来做预测的conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层共同构成了文本预测层。

步骤4：训练网络；

把制作好的数据集输入到网络中进行训练，将归一化为300*300的图像输入网络模型中，网络输出为文本定位结果及文本分类的打分，训练基础网络模型。具体采用迭代次数为120000次，每次迭代网络读取的图片数目为32，网络每进行500次迭代便进行一次测试，每次测试读取一张测试图片。测试集中共160张图片，网络训练中每隔10次迭代就输出一次当前训练结果。

步骤5：文本框预测；

本发明利用不同阶段学习到的特征进行边框回归和文本分类。

1.采用SSD算法中的Default box机制，人为设定不同规格的默认框来代替传统的批量滑动窗口。在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框，分别为1、2、3、5、7、10。

假设原始输入图片的尺寸大小为(w_img,h_img)，w_img、h_img分别表示原始图片的宽度和高度。输入文本预测层的特征图的尺寸大小为(w_map,h_map)，w_map、h_map分别表示特征图的宽度和高度。在特征图上坐标为(i,j)的位置上，设置默认文本框坐标db₀＝(x₀,y₀,w₀,h₀)，其中，(i,j)表示特征图中每个神经元的位置坐标，(x₀,y₀)代表每个神经元上默认文本框的中心位置坐标，(w₀,h₀)表示该默认框的宽和高的尺寸信息。文本预测层预测默认框相对于真实文本框的偏移量，假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c)，其中c为预测置信度，用于目标分类。预测到的文本框坐标为db＝(x,y,w,h)，其计算公式如下。

x＝x₀+w₀Δx,y＝y₀+h₀Δy,w＝w₀exp(Δw),h＝h₀exp(Δh)

采用公式(1)计算损失函数。

其中x表示和默认框相匹配的矩阵，对于第i个默认文本框和第j个真实文本框，当x_ij＝1时表示两者匹配，反之则不匹配。c为置信度，l为网络模型预测的位置坐标，g为文本的真实位置坐标。S为默认文本框和真实文本框匹配的数目，β系数在目标检测问题中一般设置为1。检测目标分类L_conf(x,c)采用的是损失函数为Softmax，边界框回归L_loc(x,l,g)采用的是

损失函数，网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。

步骤6：文本框筛选；

本设计方案采用NMS算法来抑制多余的文本框，在多个候选框中找到最佳文本框。NMS算法的具体实现步骤如下：

1.求得所有文本预测框的面积；

根据计算所得的交并比，删除IoU大于某阈值的检测框；

步骤7：网络微调，具体包括以下几个步骤：

1.使用基础网络模型中训练效果比较好的预训练模型，用制作好的数据集训练学习新增网络部分的参数。

2.调整新增网络部分参数。设置学习率为0.001，步长设为40000，扰动设为0.1。反向传播不断地更新网络训练的参数，结合随机梯度下降算法来微调训练过程，权重衰减系数为0.0005，动量值为0.9，求解器模式设为GPU。快照值设为500，表示每隔500次迭代对内存状态和模型参数进行一次存储，并写入到model文件夹。反复进行直到达到最大迭代次数，得到最终的深度神经网络模型。

具体训练流程如图2所示。

步骤8：生成检测结果；

该步骤中，在搭建Caffe实验平台进行四种不同网络下的性能测试，网络输出为文本的定位结果及文本分类的打分；

实验一：只应用TextBoxes网络进行实验；实验二：以单个卷积层的形式扩充卷积组的深度，增加卷积层conv6_3、conv7_3和conv8_3；实验三：在实验二的基础上增加卷积层conv6_4、conv7_4和conv8_4；实验四：以卷积组的形式在原网络结构中增加文本预测卷积组即conv9(conv9_1和conv9_2)，并且将conv9_2作为文本预测层，即在该层进行边框回归和文本分类。

对比不同实验的精确率、召回率和综合评价指标，得到如下表所示的结果：

	精确率	召回率	综合评价指标
				实验一	0.8000	0.2857	0.4211
实验二	0.8200	0.3445	0.4852
				实验三	0.8095	0.2857	0.4224
实验四	0.7923	0.6092	0.6888

对比结果表明，本发明的卷积神经网络模型在面向小数据集的自然场景文字检测问题上有较高的文本召回率和较强的模型鲁棒性。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，包括以下步骤：

步骤2：数据预处理：在网络读取图片数据之前，对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理；

步骤8：生成检测结果：将图像输入到训练好的模型中进行检测，在文本检测层中输出检测结果；

所述步骤3建立网络模型具体包括：该网络由23个卷积层、23个激励层和5个池化层组成，是一个全卷积神经网络，本模型沿用VGG-16的前五个卷积组，并将最后的两个全连接层fc6、fc7均改为卷积组，并在其后新增添四个卷积组，在新增加的conv6到conv9中，每个卷积组都包含两个卷积层，并且在每个卷积层后都设置了一个激励层，基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3，填充值为1，池化层的池化窗口大小均为2×2，步长为2，经过池化层的下采样后，输出的长和宽均变为输入的一半，模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测，上述的预测层中采用1×5的卷积核，填充值Pad为2，步长为1；

所述步骤4把制作好的数据集输入到步骤3的网络中进行训练，具体包括：

将归一化为300*300的图像输入网络模型中，网络输出为文本定位结果及文本分类的打分，训练基础网络模型。具体采用迭代次数为120000次，每次迭代网络读取的图片数目为32，网络每进行500次迭代便进行一次测试，每次测试读取一张测试图片。测试集中共160张图片，网络训练中每隔10次迭代就输出一次当前训练结果；

所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类，根据类别得分情况判断预测到的边界框内容是否为文本，具体包括：

2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习，进而得到72维的特征矩阵，其中48维用于回归文本边界框，24维对检测目标进行分类，根据类别得分情况判断预测到的边界框内容是否为文本；

所述进行边框回归和分类的过程为：假设原始输入图片的尺寸大小为(w_img,h_img)，w_img、h_img分别表示原始图片的宽和高。输入文本预测层的特征图的尺寸大小为(w_map,h_map)，w_map、h_map分别表示特征图的宽和高，在特征图上坐标为(i,j)的位置上，设置默认文本框坐标db₀＝(x₀,y₀,w₀,h₀)，其中，(i,j)表示特征图中每神经元的位置坐标，(x₀,y₀)代表特征图中每神经元上默认框的中心位置坐标，(w₀,h₀)表示该默认框的宽和高的尺寸信息，文本预测层预测默认框相对于真实文本框的偏移量，假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c)，其中c为预测置信度，用于目标分类，预测到的文本框坐标为db＝(x,y,w,h)，其计算公式如下。

x＝x₀+w₀Δx,y＝y₀+h₀Δy,w＝w₀exp(Δw),h＝h₀exp(Δh)

采用公式(1)计算损失函数。

其中x表示和默认框相匹配的矩阵，对于第i个默认文本框和第j个真实文本框，当x_ij＝1时表示两者匹配，反之则不匹配，c为预测置信度，l为网络模型预测的位置坐标，g为文本的真实位置坐标，S为默认文本框和真实文本框匹配的数目，β系数在目标检测问题中一般设置为1，检测目标分类L_conf(x,c)采用的是损失函数为Softmax，边界框回归L_loc(x,l,g)采用的是

2.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，步骤1获取适应于小数据集自然场景的数据集，具体包括：所用的数据集共800张，其中229张是来源于ICDAR2013数据库，该库中的图片数据大部分是街景图片和路牌标识，图片明暗不一且字体多种多样，271张图片是从互联网上爬取的，包括建筑物标识图片和商店文本Logo，在200张图片中加入了不同程度的椒盐噪声，剩余100张图片是由原图做水平翻转得到。

3.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，所述步骤2数据预处理步骤中，将图片尺寸resize到300×300，具体包括：

1.批量重命名：对所有图片样本通过编写脚本程序进行批量命名，命名规则为使用3位数字；

3.根据PASCAL VOC数据格式制作数据集；

4.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，所述步骤6采用非极大值抑制算法消除多个候选框中的冗余候选框的具体实现步骤如下：

1.求得所有文本预测框的面积；

其中，D代表预测的目标框，G代表真实目标框，D∩G代表预测的目标框和真实目标框的重叠部分，D∪G则代表两者的并集；

根据计算所得的交并比，删除IoU大于某阈值的检测框；