CN110008950A

CN110008950A - 一种对形状鲁棒的自然场景中文本检测的方法

Info

Publication number: CN110008950A
Application number: CN201910189627.9A
Authority: CN
Inventors: 路通; 侯文博; 王文海
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-12

Abstract

本发明公开了一种对形状鲁棒的自然场景中文本检测的方法，包括如下步骤：步骤1，对文本数据集中的训练图片进行预处理；步骤2，搭建PSENet进步式尺度生长网络，利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测，得到多个预测尺度的分割结果；步骤3，对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型；步骤4，对待检测图片进行检测；步骤5，使用尺度生长算法得到最终检测结果。

Description

一种对形状鲁棒的自然场景中文本检测的方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种对形状鲁棒的自然场景中文本检测的方法。

背景技术

近几年来，自然场景中的文本检测在场景理解，产品识别，自动驾驶和目标地理定位等许多领域都开始了广泛的应用。然而，由于前景的文本块和文本行与背景物体之间的尺度差异较大，并且文本在形状、颜色、字体、大小及方向的不同，自然场景的文本检测依然面临巨大挑战。

目前，卷积神经网络的迅速发展使得场景文本检测取得巨大进展。现有的文本检测方法大致可以分为两种类型：基于边界框回归的方法和基于物体分割的方法。基于边界框回归的方法可以以矩形或四边形的形式定位出方向固定的目标文本，但是这类方法不能准确定位形状不规则的文本实例，而自然场景中这种不规则文本实例非常常见。另外一类基于语义分割的方法在解决任意形状的文本检测问题时被提出来，因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而当两个文本实例相距非常近时这类方法无法将实例成功分离，因为连接区域会将两个实例合并成同一个文本实例。上述两个问题是场景文本检测领域内仍然存在的两个困难，为了提升场景文本检测的准确率和召回率，解决以上两个问题是非常有必要的。

发明内容

本发明针对现有方法和技术的不足，提出一种基于实例分割的新型场景文本检测方法，给定一张场景图片，本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来，给出文本检测的结果。

本发明方法包括如下步骤：

步骤1，对文本图片数据集中的训练图片进行预处理；

步骤2，搭建PSENet(Progressive Scale Expansion Network)进步式尺度生长网络，利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测，得到多个预测尺度的分割结果；

步骤3，对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型；

步骤4，对待检测图片进行检测；

步骤5，使用尺度生长算法得到最终检测结果。

本发明中，步骤1中所述文本数据集为已有的公共的文本图片数据集，例如：ICDAR2015、ICDAR 2017MLT、Total-Text或CTW1500等，或者临时采集场景中的文本图片数据集，所述文本图片数据集中通常包含有N张(一般为一千张以上)的训练图片，每张训练图片中有至少一个文本区域，并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，所述标注文件称为标签。

本发明中，步骤1包括：对文本数据集中的训练图片进行如下数据增强：首先将训练图片按照比例{0.5，1.0，2.0，3.0}随机放缩，然后将训练图片随机水平翻转且在[-10°，10°]范围内进行随机旋转，最后从训练图片上随机裁剪出大小为640×640的样例，作为最终的训练图片。

本发明中，步骤2中，所述PSENet进步式尺度生长网络包括一个FPN(FeaturePyramid Networks，特征金字塔网络)特征金字塔网络模块，一个特征融合模块和一个n支路预测模块，所述n支路预测模块包含n个预测支路模块。

本发明中，步骤2包括以下步骤：

步骤2-1，建立一个FPN特征金字塔网络模块，并使用该FPN特征金字塔网络模块按照论文“T.-Y.Lin，P.Dollár，R.Girshick，K.He，B.Hariharan，andS.Belongie.Featurepyramid networks for object detection.In CVPR，2017.”中的方法对步骤1得到的训练图片进行特征提取与特征图的上采样和融合，得到特征图(P₂，P₃，P₄，P₅)，P₂，P₃，P₄，P₅(此处换成任何字母abcd都可以表示，属于参考文献T.-Y.Lin，P.Dollár，R.Girshick，K.He，B.Hariharan，andS.Belongie.Feature pyramid networks for object detection.InCVPR，2017.中的特征提取和融合后即得到的特征图)分别代表FPN模块中不同卷积层产生的融合后的卷积特征图；

步骤2-2，特征融合模块包括两个子模块：特征融合函数和降维模块，使用特征融合模块中的特征融合函数C(·)对特征图(P₂，P₃，P₄，P₅)进行特征融合得到特征图F，融合函数C(·)定义如下：

F＝C(P₂，P₃，P₄，P₅)＝P₂||Up_×2(P₃)||Up_×4(P₄)||Up_×8(P₅)

其中符号||表示连接，Up_×2(·)、Up_×4(·)和Up_×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample：特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维，降维模块为Conv(3，3)-BN-ReLU层，其中Conv(3，3)表示卷积核为3×3的卷积层，BN表示批量归一化层，ReLU为线性整流函数。

步骤2-3，特征图F进入n支路预测模块，经过n个Conv(1，1)-Up-Sigmoid层生成n个分割结果S₁，S₂，...，S_n，n取值为自然数，其中Conv(1，1)表示卷积核为1×1的卷积层，Up表示上采样层，Sigmoid为激活函数，S_n表示第n个分割结果，每个S_i中包含对同一张图片中不同文本区域的分割结果，i取值为1～n。所述分割结果中的文本区域即为文本实例，记为kernels，每个kernels与原始尺寸的文本实例(即S_n中的kernels)拥有相同的中心点和形状，区别只是规格尺度不同。

本发明中，步骤3包括以下步骤：

步骤3-1，将训练图片中的文本实例对应的标签进行收缩处理成n个预测支路模块对应的n个训练图片的标签：利用Vatti clipping算法对原始文本实例所对应标签的多边形p_n收缩d_i个像素点得到收缩后的多边形p_i，每个收缩后的多边形p_i被转换为一个训练图片的二进制掩码，把这些训练图片的掩码图分别定义为G₁，G₂，...，G_n，G_n表示第n个训练图片的掩码图，用r_i表示放缩率，通过以下公式计算p_n与p_i之间的距离d_i：

其中Area(·)为计算多边形面积的函数，Perimeter(·)为计算多边形周长的函数；

步骤3-2，设置PSENet进步式尺度生长网络的训练损失函数L为：

L＝λL_c+(1-λ)L_s，

其中L_c和L_s分别表示完整的文本实例损失和收缩后的kernels的损失，参数λ用来平衡L_c和L_s，参数λ的范围在(0，1)区间内，采用dice系数来计算损失函数L；

步骤3-3：利用步骤1中预处理过后的文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设置的损失函数L，使用随机梯度下降法对PSENet进步式尺度生长网络进行监督训练。

本发明中，步骤3-1中，训练图片不同掩码图G_i的放缩率r_i按如下公式计算：

其中m为最小的放缩率，其值在(0，1]区间内。从上述公式可知放缩率是由n和m两个超参数决定的，它们在m到1之间线性增长，PSENet进步式尺度生长网络的训练过程中可调整n和m的大小来寻找最适合该文本数据集的值，一般情况下建议n取值在[6，8]区间内，m取值在[0.4，0.6]区间内。

本发明中，步骤3-2中，按照下面的公式计算dice系数D(S_i，G_i)：

其中S_i，x，y和G_i，x，y分别指第i个分割结果S_i中像素点(x，y)的的像素值和第i个训练样本图G_i中像素点(x，y)的的像素值；

L_c针对文字和非文字区域，按照下面的公式计算参数L_c：

L_c＝1-D(S_n，G_n)，

L_s为收缩后的文本实例的损失，它是围绕完整文本实例的原始区域的，忽略分割结果S_n中的非文字区域的像素点来避免冗余。通过以下公式计算L_s：

其中，W是第n个分割结果S_n上屏蔽非文字区域像素点的掩码，S_n，x，y为第n个分割结果S_n中像素点(x，y)的像素值，W_x，y为W中像素点(x，y)的像素值。

本发明中，步骤4包括：用步骤3中训练好的检测器模型进行分割结果的预测，每张待检测图片能够得到一组n个分割结果掩码S₁，S₂，...，S_n，S_n表示第n个分割结果掩码，每个S_i是所有文本实例在一个确定尺度下的分割掩码，i取值为1～n。

本发明中，步骤5包括以下步骤：

步骤5-1，从步骤4中得到的分割掩码S_i中的kernels以不同的连通组件的形式存在，遍历每一个kernels，对每一个kernel进行以下操作：遍历其邻居像素点，若其邻居像素点属于分割掩码S_i+1中的同一位置的kernel范围，则将其合并入该kernel；对于同一分割掩码S_i中的不同kernels，在生长时，相邻kernels之间的邻居节点中发生冲突的地方，本发明按照“先来先服务”的规则将发生冲突的像素点融合进首先生长到该冲突位置的kernel。这样即完成了从分割掩码S_i生长到S_i+1的过程；

步骤5-2，从尺度最小S₁开始重复步骤5-1直到尺度最大的S_n为止；

步骤5-3，输出步骤5-2生长过程最后的掩码即为最终检测结果。

与现有技术相比，本发明具有以下优点：

(1)本发明的文本检测方法是像素级别的，可以精确定位任意形状的文本实例；

(2)由于本发明提出的后处理算法是进步式的，可以将相距非常近的甚至是相连的文本实例成功分开；

(3)本发明的方法在精度和速度方面都有非常大的优势。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明整体架构；

图2为本发明的区域生长过程示意图；

图3为PSENet算法中标签生成示意图；

图4为本发明的检测效果图；

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明为一种场景文本检测的方法，包括以下步骤：

步骤1，对已有公共文本图片数据集，例如：ICDAR 2015、ICDAR 2017 MLT、Total-Text或CTW1500等，或自己采集场景图片数据集进行预处理，对训练图片进行数据增强：(1)图片按照比例{0.5，1.0，2.0，3.0}随机放缩；(2)图片随机水平翻转且在[-10°，10°]范围内进行随机旋转；(3)从图片上随机裁剪640×640的样例；(4)图片使用通道均值和标准差归一化。

步骤2，搭建PSENet(Progressive Scale Expansion Network，进步式尺度生长网络)，PSENet网络结构如图1所示(图1中Progressive Scale Expansion表示步骤5中的尺度生长算法)，包括一个FPN(Feature Pyramid Networks，特征金字塔网络)模块，一个特征融合模块和一个n支路预测模块，完成对图片的特征提取、特征融合以及分割预测得到多个预测尺度的分割结果。具体包括以下步骤：

步骤2-1，建立一个FPN网络模块，对步骤1得到的图片数据进行特征提取与图的上采样和融合，得到特征图(P₂，P₃，P₄，P₅)，P₂，P₃，P₄，P₅分别代表FPN模块中不同卷积层产生的融合后的卷积特征图；

步骤2-2，特征融合模块包括两个子模块：特征融合函数和降维模块，使用特征融合模块的融合函数C(·)对特征图(P₂，P₃，P₄，P₅)进行特征融合得到特征图F，融合函数C(·)定义如下：

其中“||”表示连接，Up_×2(·)，Up_×4(·)，Up_×8(·)分别代表2倍4倍和8倍的上采样(upsample)；特征图经融合函数融合为特征图F后需进入降维子模块降维到256维，降维子模块为Conv(3，3)-BN-ReLU层，其中Conv(3，3)表示卷积核为3×3的卷积层，BN表示批量归一化层，ReLU为线性整流函数。

步骤2-3，F进入n支路预测模块，经过n个生成n个分割结果S₁，S₂，...，S_n，其中Conv(1，1)表示卷积核为1×1的卷积层，Up表示上采样层，Sigmoid为激活函数，每个S_i中包含对同一张图片中不同文本实例的分割结果，该文本实例本发明称之为kernels，每个kernels与原始文本实例拥有相同的中心点和形状，区别只是规格尺度不同。

步骤3，模型的训练：首先将数据集的标签进行收缩处理以及损失函数L的设计，利用步骤1中预处理过后的公开文本数据集以及收缩过后的标签和损失函数L，对步骤2搭建的PSENet网络进行监督训练；包括以下步骤：

步骤3-1，标签处理，由于PSENet生成不同尺度的分割结果(S₁，S₂，...，S_n)，因此在训练阶段需要相对应的不同尺度的训练图片标签(groundtruths)，将场景图片中的文本实例对应的标签进行收缩处理成n个支路对应的n个训练图片标签，这些训练图片的标签可以通过对原始标签中kernels的简单收缩变换得到。利用Vatti clipping算法对原始多边形p_n收缩d_i个像素点得到收缩后的多边形p_i。然后每个收缩后的多边形p_i被转换为一个样本实例分割标签的0/1二进制掩码。把这些样本实例及生成的掩码图分别定义为G₁，G₂，...，G_n。将放缩率用r_i表示，p_n与p_i之间的距离d_i可以通过以下公式计算：

其中Area(·)为计算多边形面积的函数，Perimeter(·)为计算多边形周长的函数。训练样本不同掩码图G_i的放缩率r_i按如下公式计算：

其中m为最小的放缩率，其值在(0，1]区间内。从上述公式可知放缩率是由n和m两个超参数决定的，它们在m到1之间线性增长，模型的训练过程中可调整n和m的大小来寻找最适合该数据集的值，一般情况下建议n取值在[6，8]区间内，m取值在[0.4，0.6]区间内。如图3所示，图3中，(a)中P_n为标签中原始的多边形，P_i为标签中收缩后的的多边形，d为向内收缩的像素个数，(b)是原始的文本实例，(c)是收缩后(即shrink和fill操作，表示收缩和填充)不同kernels的分割掩码；

步骤3-2，设置PSENet的训练损失函数L如下：

L＝λL_c+(1-λ)L_s

其中L_c和L_s分别表示完整的文本实例损失和收缩后的kernels的损失，参数λ用来平衡L_c和L_s。本发明采用dice系数来计算损失函数。Dice系数D(S_i，G_i)按照下面的公式计算：

其中S_i，x，y和G_i，x，y分别指分割结果S_i和训练样本图G_i中的像素值(x，y)。L_c针对文字和非文字区域，L_c按照下面的公式计算：

L_c＝1-D(S_n，G_n)

L_s为收缩后的文本实例的损失，它是围绕完整文本实例的原始区域的，忽略分割结果S_n中的非文字区域的像素点来避免冗余。因此L_s可以通过以下公式计算：

这里W是S_n上屏蔽非文字区域像素点的掩码，S_i，x，y为S_n中像素点(x，y)的像素值，W_x，y为W中像素点(x，y)的像素值。

步骤3-3：利用步骤1中预处理过后的公开文本数据集以及步骤3-1中收缩过后的标签和步骤3-2中设计的损失函数L，使用随机梯度下降法对PSENet网络进行监督训练。典型的训练参数设置如下表1：

表1

步骤4，对待检测图片进行检测，用步骤3中训练好的模型进行分割结果的预测，每张场景图片可以得到一组n个分割结果掩码S₁，S₂，...，S_n，每个S_i是所有文本实例在某个确定尺度下的分割掩码；

步骤5，对分割结果S₁，S₂，...，S_n实施尺度生长算法，包括以下步骤：

步骤5-1，基于宽度优先搜索算法，将步骤4中得到的S_i中的不同kernels中的像素点开始不断迭代合并与之相邻的属于文字区域的像素点。对于生长过程中不同实例kernels之间发生冲突的地方，如图2所示，S₁，S₂，S₃分别代表最小的三个不同尺度的分割结果，CC表示在训练图片中根据最小尺度分割结果找到联通组件，EX表示区域生长过程；如图2中的(g)所示，网格里第三行第二列的像素点，本发明方法的原则是按照“先来先服务”的规则将发生冲突的像素点融合进其中某一个kernel；

步骤5-3，输出步骤5-2生长过程最后的掩码即为最终检测结果。由图4a～图4c可以看出，对于图4a中的倾斜文本，图4b中的多语言倾斜文本和相距非常近的文本行，以及图4c中的弯曲形状文本都非常准确的给出检测定位，可知本发明的场景文本检测算法效果是非常好的。

本发明提供了一种对形状鲁棒的自然场景中文本检测的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种对形状鲁棒的自然场景中文本检测的方法，其特征在于，包括如下步骤：

步骤1，对文本图片数据集中的训练图片进行预处理；

步骤2，搭建PSENet进步式尺度生长网络，利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测，得到多个预测尺度的分割结果；

步骤4，对待检测图片进行检测；

步骤5，使用尺度生长算法得到最终检测结果。

2.根据权利要求1所述的方法，其特征在于，步骤1中所述文本图片数据集为已有的公共的文本图片数据集，或者临时采集场景中的文本图片数据集，所述文本图片数据集中包含有N张训练图片，每张训练图片中有至少一个文本区域，并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，所述标注文件称为标签。

3.根据权利要求2所述的方法，其特征在于，步骤1包括：对文本数据集中的训练图片进行如下数据增强：首先将训练图片按照比例{0.5，1.0，2.0，3.0}随机放缩，然后将训练图片随机水平翻转且在[-10°，10°]范围内进行随机旋转，最后从训练图片上随机裁剪出大小为640×640的样例，作为最终的训练图片。

4.根据权利要求3所述的方法，其特征在于，步骤2中，所述PSENet进步式尺度生长网络包括一个FPN特征金字塔网络模块，一个特征融合模块和一个n支路预测模块，所述n支路预测模块包含n个预测支路模块。

5.根据权利要求4所述的方法，其特征在于，步骤2包括以下步骤：

步骤2-1，建立一个FPN特征金字塔网络模块，对步骤1得到的训练图片进行特征提取与特征图的上采样和融合，得到特征图(P₂，P₃，P₄，P₅)，P₂，P₃，P₄，P₅分别代表FPN模块中不同卷积层产生的融合后的卷积特征图；

其中符号||表示连接，Up_×2(·)、Up_×4(·)和Up_×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample：特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维，降维模块为Conv(3，3)-BN-ReLU层，其中Conv(3，3)表示卷积核为3×3的卷积层，BN表示批量归一化层，ReLU为线性整流函数；

步骤2-3，特征图F进入n支路预测模块，经过n个Conv(1，1)-Up-Sigmoid层生成n个分割结果S₁，S₂，...，S_n，其中Conv(1，1)表示卷积核为1×1的卷积层，Up表示上采样层，Sigmoid为激活函数，S_n表示第n个分割结果，每个S_i中包含对同一张图片中不同文本区域的分割结果，i取值为1～n，所述分割结果中的文本区域即为文本实例，记为kernels。

6.根据权利要求5所述的方法，其特征在于，步骤3包括以下步骤：

步骤3-2，设置PSENet进步式尺度生长网络的训练损失函数L为：

L＝λL_c+(1-λ)L_s，

7.根据权利要求6所述的方法，其特征在于，步骤3-1中，训练图片不同掩码图G_i的放缩率r_i按如下公式计算：

其中m为最小的放缩率，其值在(0，1]区间内。

8.根据权利要求7所述的方法，其特征在于，步骤3-2中，按照下面的公式计算dice系数D(S_i，G_i)：

按照下面的公式计算参数L_c：

L_c＝1-D(S_n，G_n)，

L_s为收缩后的标签对应的文本实例的损失，通过以下公式计算L_s：

9.根据权利要求8所述的方法，其特征在于，步骤4包括：用步骤3中训练好的检测器模型进行分割结果的预测，每张待检测图片能够得到一组n个分割结果掩码S₁，S₂，...，S_n，S_n表示第n个分割结果掩码，每个S_i是所有文本实例在一个确定尺度下的分割掩码，i取值为1～n。

10.根据权利要求9所述的方法，其特征在于，步骤5包括：

步骤5-1，从步骤4中得到的分割掩码S_i中的kernels以不同的连通组件的形式存在，遍历每一个kernels，对每一个kernel进行以下操作：遍历其邻居像素点，若其邻居像素点属于分割掩码S_i+1中的同一位置的kernel范围，则将其合并入该kernel；对于同一分割掩码S_i中的不同kernels，在生长时，相邻kernels之间的邻居节点中发生冲突的地方，按照先来先服务的规则将发生冲突的像素点融合进首先生长到该冲突位置的kernel，这样即完成了从分割掩码S_i生长到S_i+1的过程；