CN110322495A

CN110322495A - 一种基于弱监督深度学习的场景文本分割方法

Info

Publication number: CN110322495A
Application number: CN201910570489.9A
Authority: CN
Inventors: 杨路; 曹阳; 李佑华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11
Anticipated expiration: 2039-06-27
Also published as: CN110322495B

Abstract

本发明提供了一种基于弱监督深度学习的场景文本分割方法，包括以下步骤：将场景图片与任意文本叠加生成场景文本图片，生成训练样本，标签为场景图片本身；利用卷积神经网络进行特征提取，逐步得到高层语义；通过反卷积进行上采样，使高层语义特征图逐步恢复到输入图像尺寸；将卷积层与反卷积层输出的特征图进行多尺度融合；将融合后的特征图经过激活得到场景与文本的二分类黑白图；设定损失函数进行训练；将训练后得到的场景文本分割图经过腐蚀与膨胀，生成文本区域边界框。本发明方法不需要任何强监督的像素级标注样本，简单高效地解决了场景文本检测中的文本分割问题，大大降低了算法成本，提高了场景文本分割效率。

Description

一种基于弱监督深度学习的场景文本分割方法

技术领域

本发明属于图像处理领域，具体涉及一种基于弱监督深度学习的场景文本分割方法。

背景技术

近年来，从现实场景图像中提取文本信息变得日益流行。场景文本检测(一种自然场景图像文本的定位技术)在各种文本阅读系统中发挥着不可或缺的作用。自然场景图像中的文本检测，相较于一般物体检测更为复杂，其中一个主要原因是因为自然场景文本图像的背景极其复杂多样，如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等。因为干扰十分严重，算法在定位边界框时会难以判定文本实例。

传统方法中，需要对原始图片进行预处理去除背景干扰，得到比较干净的黑白文本与非文本图，以便后续的特征提取和学习。这个过程通常包含：灰度化、二值化、降噪等子步骤，每一个步骤都涉及了不同的算法，操作起来十分复杂。随着摄像头技术的发展，采集到的图片越来越丰富，背景干扰越来越严重，去除背景干扰的工作难度越来越大，传统的算法已经无法满足人们的需要。

随着深度学习在图像处理领域的快速发展，许多传统的场景文本检测领域的图像处理方法逐渐被取代。起源于图像分类、检测、语义分割等视觉处理任务的各种卷积神经网络，纷纷被用来提升场景文本检测的效率。深度学习在场景文本检测领域近期成果显著，演化出两类主流的检测网络。第一类基于普通的物体检测网络，如SSD、YOLO等，可以直接预测候选文本区域边界框；第二类基于全卷积语义分割网络，可以生成场景文本分割图，通过后处理给出最终的文本区域边界框。相比较而言，全卷积语义分割网络的优点在于可以接受任意大小的输入图像，而且避免了由于使用像素块而带来的重复存储和计算卷积的问题，因此更加高效。采用全卷积方式，可根据高分辨率的特征图直接检测文字与非文字区域，最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别，简单高效地解决了场景文本背景干扰问题，受到了研究者的广泛青睐。

但是，全卷积语义分割网络也具有很大的问题，原因在于其属于监督式的深度学习，需要大量训练样本来构建预测模型，其中每个训练样本都有一个标签注明其真值输出。尽管当前的技术已经取得了巨大的成功，但值得注意的是，由于数据标注过程的高成本，在场景文本检测这样一个复杂任务下，研究者们很难获得拥有全部真值标签，即强监督的像素级标注样本进行训练，因此全卷积语义分割网络在场景文本检测与识别中的应用受到了很大限制。

发明内容

本发明所要解决的技术问题是提供一种基于弱监督深度学习的场景文本分割方法，基于全卷积语义分割网络，不需要任何强监督的像素级标注样本，简单高效地解决场景文本检测中的文本分割问题，大大降低算法成本，提高场景文本检测效率。

为解决上述技术问题，本发明采用的技术方案是：

一种基于弱监督深度学习的场景文本分割方法，包括以下步骤：

步骤1：将场景图片与任意文本叠加生成场景文本图片作为训练样本，标签为场景图片本身；

步骤2：选取ResNet50残差卷积神经网络，使用组归一化与空洞卷积配合对训练样本进行特征提取，逐步得到高层语义特征图；

步骤3：通过反卷积进行上采样，使高层语义特征图逐步恢复到输入训练样本大小；

步骤4：对应不同深度的特征图，将反卷积层的输出特征图与对应深度的特征提取网络的输出特征图相加融合；

步骤5：将融合后的特征图经过sigmoid函数激活，输出黑白场景文本分割图；

步骤6：输入训练样本，设定损失函数loss对深度学习模型进行训练与优化；

步骤7：将经过深度学习模型训练与优化后的场景文本分割图经过腐蚀与膨胀，生成文本区域边界框。

进一步的，在步骤4中，将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层，将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上，弥补反卷积造成的细节损失。

进一步的，在步骤6对损失函数loss的设定中，使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练，如下式：

loss＝λ₁loss_m+λ₂loss_kl

其中，loss代表模型的训练损失函数，loss_m代表场景文本与输出黑白图的视图差，loss_kl代表网络模型的隐藏层稀疏性KL散度惩罚因子，λ₁、λ₂代表权重；i,j代表像素点，M_i,j代表网络输出的黑白图的像素；代表叠加后的场景文本图片像素，代表原始场景图片像素，ρ代表稀疏性系数。

进一步的，所述步骤6中，采用端到端的训练方式，网络以224*224的场景文本图片作为输入，输出文本和背景的黑白图；训练一共50个阶段，每批次64张图像，初始学习率为0.001，每迭代1000次学习率乘以0.1，采用0.9的动量和0.0005的权重衰减。

与现有技术相比，本发明的有益效果是：

1)采用弱监督的思想，将场景文本分割所需要的像素级标注训练样本替换为简单可得的场景图片与随机文本叠加合成图，利用合成图与场景图的视图差异进行文本区域的检测训练，大大降低了算法成本，提高了全卷积语义分割网络在场景文本检测中的效率；

2)通过全卷积语义分割网络，隐式获取了文本区域信息，只需整体标签即可获取具体文本区域信息，这为目标检测提供了一种新的思路，即可以用整体的标签来对部分进行估计，拓宽了该方法的应用范围。

附图说明

图1为本发明方法的流程图；

图2为训练数据生成示意图；

图3为组归一化示意图；

图4为空洞卷积示意图；

图5为特征提取、特征融合、尺度恢复与后处理的整体流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明一种基于弱监督深度学习的场景文本分割方法，其基于全卷积语义分割网络，包括以下步骤：

步骤1：生成训练数据

将场景图片与任意文本叠加生成场景文本图片训练数据，标签为场景图片本身。

本实例从网上任意搜索选取了多组生活场景图片，随机剪裁出224*224的背景区域，经过工具操作，将任意角度的中文和英文文字样本添加到背景区域上，得到训练场景文本图片。对所需的生活场景图片和文字样本没有特殊要求，数据来源极广，数据门槛较低，具有较强的泛化性，如图2所示。

步骤2：提取图片特征

选取ResNet50残差卷积神经网络，使用组归一化与空洞卷积配合进行特征提取，逐步得到图片的高层语义。

所述特征提取网络以ResNet50为基本骨架，该网络由5个部分组成，分别为第一卷积单元(conv1)、第二残差单元(conv2_x)、第三残差单元(conv3_x)、第四残差单元(conv4_x)和第五残差单元(conv5_x)，用于逐级提取图像的高层语义特征，每个部分包含数量不等的卷积层和一个池化层。对于输入的图像，经过ResNet50的每个单元处理后，其输出特征图的分辨率缩小2倍。

在选用的ResNet50卷积神经网络中使用组归一化层(group Normalization,GN)，避开训练样本的Batch Size(批大小)对模型的影响。组归一化的公式如下：

其中，S_k表示的是特征图的像素总个数；x_i表示第i个像素，u表示特征图的像素平均值，ξ为接近0的正值；γ、β分别表示缩放参数和平移参数。

假如输入的特征图形状为N*H*W*C，其中N表示Batch Size，H、W表示特征图的尺寸大小，C表示特征图的通道数。对GN而言：首先将N*H*W*C分成G组N*H*W*C/G，S_k就是H*W*C/G内的所有点，GN对H*W*C/G个像素一起归一化，再将G组归一化的结果合并得到H*W*C；对每个通道作缩放和平移变换，都有一组γ，β，因此参数总数为C*2，如图3所示。

在特征提取网络中，将传统卷积核中插入不同尺度的零得到空洞卷积核，扩大特征提取的范围。相比传统卷积操作，空洞卷积能在不增加参数的情况下得到较大的感受野，并得到和输入大小相同的特征图。本实施例只需将每个3×3的普通卷积替换为3×3空洞卷积就可以将空洞卷积合并到残差单元中，如图4所示。

步骤3：恢复图片尺度

通过反卷积进行上采样，使特征图逐步恢复到输入图像大小。在图片尺度恢复过程中，将特征提取网络得到的高层语义输入第一反卷积层，每一个反卷积层的放大倍数与ResNet50的各模块对应，为固定的2倍放大。通过反卷积的加深，逐渐增大输出特征图的尺寸，最后一个反卷积的输出特征图维度为1，尺度大小初始输入图片一致。

步骤4：特征融合

对应不同深度的特征图，将卷积层与反卷积层输出的特征图进行多尺度融合，实现对图像的细节补充。

在特征融合中，将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层，将特征提取网络前4个部分(第一卷积单元、第二残差单元、第三残差单元、第四残差单元)的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上，弥补反卷积造成的细节损失，如图4所示。

步骤5：特征图激活

将融合后的特征图经过sigmoid层，输出特征图的文本与背景概率分布，然后设定阈值进行二值化，得到文本和背景的黑白图。sigmoid层如下式：

其中，mask()代表黑白场景文本分割图，x代表融合后的特征图。

步骤6：训练模型

输入训练场景文本图片样本，设定损失函数loss对深度学习模型进行训练，逐步更新网络参数，网络输出为与初始输入图片大小一致，每个像素分为文本和背景的黑白图。

在损失函数loss设定中，使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练，如下式：

loss＝λ₁loss_m+λ₂loss_kl

其中，loss代表模型的训练损失函数，loss_m代表场景图片，场景文本图片和输出黑白图的视图差异，loss_kl代表网络模型的隐藏层稀疏性KL散度惩罚因子，λ₁、λ₂代表权重；i,j代表像素点，M_i,j代表网络输出的黑白图的像素；代表叠加后的场景文本图片像素，代表原始场景图片像素，ρ代表稀疏性系数。

利用场景文本和输出黑白图的视图差作为损失函数是本发明弱监督方法的核心所在。场景文本图片可以由场景图片和场景文本组成，因此视图差包含了文本检测所需要的丰富隐层信息，通过这种隐性的约束使得网络不断加强对文本区域的学习，最后得到能够准确对文本区域进行分割的特征图。

将隐含层稀疏化以降低隐藏神经元的数量过多引起的模型训练困难，得到输入的压缩表示。具体来说，给隐藏神经元加入稀疏性限制，那么神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中富有实际意义的结构。为了实现这一限制，需要引入稀疏性参数与对应惩罚因子，如果存在稀疏性参数异常的情况，惩罚因子将进行惩罚，使得隐藏神经元的平均活跃度保持在较小范围内，保证训练稳步进行。

采用端到端的训练方式，网络以224*224的场景文本图片作为输入，输出文本和背景的黑白图；训练一共50个阶段，每批次64张图像，初始学习率为0.001，每迭代1000次学习率乘以0.1，采用0.9的动量和0.0005的权重衰减。

步骤7：后处理

将得到的场景文本分割图经过膨胀与腐蚀，生成文本区域边界框。

将测试样本输入训练好的深度学习网络模型，得到只有文本与背景的黑白图；通过腐蚀消除白色的噪声斑点，再通过膨胀适当扩张白色区域，以避免图像样本的损失；找到轮廓并沿着轮廓搜索，考虑文本旋转，以最小面积绘制边界矩形，得到文本区域边界框。

膨胀或者腐蚀操作实际上是将图像与卷积核进行卷积，该卷积核可以是任何的形状和大小，拥有一个单独定义出来的参考点，称其为锚点。多数情况下，核是一个小的中间带有参考点和实心正方形或者圆盘，可视为模板。膨胀就是求局部最大值的操作，卷积核与图形卷积，即计算卷积核覆盖的区域的像素点的最大值，并把这个最大值赋值给参考点指定的像素，这样就会使图像中的高亮区域逐渐增长；腐蚀与膨胀是相反的操作，腐蚀是求局部最小值，经过腐蚀操作，高亮部分被腐蚀减小。

Claims

1.一种基于弱监督深度学习的场景文本分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法，其特征在于，在步骤4中，将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层，将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上，弥补反卷积造成的细节损失。

3.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法，其特征在于，在步骤6对损失函数loss的设定中，使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练，如下式：

loss＝λ₁loss_m+λ₂loss_kl

其中，loss代表模型的训练损失函数，loss_m代表场景文本和输出黑白图的视图差，loss_kl代表网络模型的隐藏层稀疏性KL散度惩罚因子，λ₁、λ₂代表权重；i,j代表像素点，M_i,j代表网络输出的黑白图的像素；代表叠加后的场景文本图片像素，代表原始场景图片像素，ρ代表稀疏性系数。

4.如权利要求3所述的一种基于弱监督深度学习的场景文本分割方法，其特征在于，所述步骤6中，采用端到端的训练方式，网络以224*224的场景文本图片作为输入，输出文本和背景的黑白图；训练一共50个阶段，每批次64张图像，初始学习率为0.001，每迭代1000次学习率乘以0.1，采用0.9的动量和0.0005的权重衰减。