CN111444919A

CN111444919A - 一种自然场景中的任意形状文本检测方法

Info

Publication number: CN111444919A
Application number: CN202010305563.7A
Authority: CN
Inventors: 杨育彬; 钱锡俊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-07-24
Anticipated expiration: 2040-04-17
Also published as: CN111444919B

Abstract

本发明提供了一种自然场景中的任意形状文本检测方法，包括如下步骤：步骤1，对文本图片数据集中的训练图片进行预处理；步骤2，搭建分割网络，利用所述网络完成对训练图片的特征提取、分割预测，得到文本区域和文本中心区域的预测；步骤3，利用一种随着训练过程渐进衰减的权重来控制损失函数的计算，对网络进行监督训练得到检测器模型；步骤4，对待检测图片进行检测；步骤5，通过后处理算法得到文本中心核的预测图，过滤部分错误预测区域，然后直接扩张预测文本中心核得到最终检测结果。

Description

一种自然场景中的任意形状文本检测方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种自然场景中的任意形状文本检测方法。

背景技术

近几年来，自然场景中的文本检测在视频理解，物流识别，自动驾驶等许多领域应用广泛。然而，由于前景的文本块与文本行在形状、颜色、字体、尺度和方向上的不同，且自然场景中背景复杂多变，自然场景下的文本检测依然有很大挑战。

目前，在针对任意形状文本，例如弯曲文本的检测任务中，有一类主流的处理方式是基于语义分割的方法，因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而，以往基于语义分割的方法往往对阈值选择十分敏感，即针对同一个数据集，人工设定的阈值变化会导致检测精度产生较大变化。在实际应用中，人们无法获取待检测数据的标签数据，采用对阈值敏感的检测方法，只能采取一个经验阈值，往往会导致检测效果与模型可达到的最佳性能有较大差距。因此，降低场景文本检测模型对阈值选择的敏感程度是非常有必要的。换言之，需要提高检测算法分离前景与背景的准确程度。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种自然场景中的任意形状文本检测方法，给定一张场景图片，本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来，给出文本检测的结果。特别的，本发明对前景和背景的分类更精确，具体表现为对阈值选择不敏感且误检率低。该方法被简记为TIKD(Threshold Insensitive Kernel Detector)。

本发明方法包括如下步骤：

步骤1，对文本图片数据集中的训练图片进行预处理；

步骤2，搭建一个语义分割网络，利用语义分割网络完成对训练图片的特征提取、分割预测，得到文本区域和类似文本物体的中心区域的预测；

步骤3，利用一种随着训练过程渐进衰减的权重来控制损失函数的计算，对语义分割网络进行监督训练得到检测器模型；

步骤4，通过检测器模型对待检测图片进行检测；

步骤5，计算得到文本中心核的预测图，过滤部分错误预测区域，然后直接扩张预测文本中心区域得到最终检测结果。

本发明中，步骤1所述文本图片数据集为已有的公开的文本图片数据集，例如：ICDAR2019-MLT,ICDAR2015,MSRA-TD500,Total-Text,CTW1500等，或者为自行采集的场景文本图片数据集，所述文本图片数据集中通常包含有N张(一般为1000张以上)训练图片，每张训练图片中至少包含一个文本区域，并且有一个以四边形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，标注文件中的信息被称为标注。

本发明中，步骤1包括：对自然场景文本图片数据集中的训练图片进行如下数据增强：首先将训练图片按照某个比例放缩(一般比例取0.5)，然后将训练图片概率随机水平翻转且在一定角度范围内(一般取正负10度)进行随机旋转，最后从训练图片上随机裁剪出固定大小(一般取640像素×640像素)的样例，作为最终的训练图片，训练图片中的文本区域被称为文本实例，每个文本实例的人工标注框被称为其对应的标注，约定模糊不清的文本被标注为‘###’。

本发明中，步骤2中，所述语义分割网络包括一个特征金字塔网络模块，一个特征融合模块和两个预测模块。

本发明中，步骤2包括以下步骤：

步骤2-1，所述特征金字塔网络模块的结构为：以50层的深度残差网络(参考文献：Identity mappings in deep residual networks.)作为特征提取器，最后三层卷积中的卷积替换为可变形卷积核(参考文献：Deformable convnets v2:More deformable,betterresults.)，后接一个特征金字塔结构(参考文献：Feature pyramid networks for objectdetection.)构成。对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合，得到特征图(P₂,P₃,P₄,P₅),P₂,P₃,P₄,P₅分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图；

步骤2-2，利用特征融合模块将P₂,P₃,P₄,P₅进行融合，融合后的特种图F定义如下：

F＝C(P₂,P₃,P₄,P₅)＝Neck(P₂)||Up_×2(Neck(P₃))||Up_×4(Neck(P₄))||Up_×8(Neck(P₅))

其中，符号||表示连接；Neck( )表示将特征图用降维模块降到128维，降维模块为Conv(1,1)-BN-ReLU层，其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层，BN表示批量归一化层，ReLU为线性整流函数；Up_×n( )表示对特征图进行n倍的上采样,采样方式为最近邻采样(nearest)。

步骤2-3，特征图F进入两个预测模块Pred。两个Pred模块的结构相同但参数不共享。预测模块的结构为：BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid。其中，BRConv(3,1)表示卷积核为3×3，步长为1的卷积层，BN批量归一化层和ReLU线性整流层；BRTransposeConv(3,2)×2表示两个连续的转置卷积组，其中每个转置卷积组由一个卷积核为3×3，步长为2的转置卷积，BN批量归一化层和ReLU线性整流函数组成。每个Pred模块输出一个与输入图大小相同的特征图，第一个预测模块的输出记为T_pred，表示文本区域的预测，第二个预测模块的输出记为K_pred，表示类似文本物体的中心区域的预测。

本发明中，步骤3包括如下步骤：

步骤3-1，根据训练图片中的文本实例对应的标签，对每张图片生成两个预测模块所需的两张标签，对每张图片生成监督标签的步骤如下：

步骤3-1-1，每个文本实例所对应标注的每个多边形p_i被转换为一个二进制掩码，得到的与待训练图片大小相同的掩码图记为T；

步骤3-1-2，将每个p_i利用Vatti clipping算法(参考文献：Ageneric solutionto polygon clipping.)收缩d_i个像素点得到收缩后的多边形q_i。每个收缩后的多边形q_i被转换为一个二进制掩码，得到的与待训练图片大小相同的掩码图记为K，d_i的计算公式为：

其中Area()为计算多边形面积的函数，Peri()为计算多边形周长的函数，r表示收缩的比例；

步骤3-1-3，生成与T对应的边缘权重系数图ET：对T中每个文本实例的二进制掩码pt_i，利用Vatti clipping算法先收缩dt_i个像素点，得到的多边形记为pts_i，然后再扩张dt_i个像素点，得到的多边形记为ptd_i，pts_i和ptd_i之间的区域被记为gapt_i，gapt_i被视为pt_i的边缘区域；将边缘权重系数图ET初始化为一个与T同样大小的矩阵，全部填充为0，然后将gapt_i对应的区域填充为-1；dt_i的计算公式为：

其中r表示收缩的比例，maxt为设置的最大文本区域边界宽度；

步骤3-1-4，生成与K对应的边缘权重系数图EK：对K中每个文本实例中心区域的二进制掩码pk_i，利用Vatti clipping算法先收缩dk_i个像素点，得到的多边形记为pks_i，然后再扩张dk_i个像素点，得到的多边形记为pkd_i，pks_i和pkd_i之间的区域被记为gapk_i，gapk_i被视为pk_i的边缘区域；将边缘权重系数图EK初始化为一个与K同样大小的矩阵，全部填充为0，将gapk_i对应的区域填充为-1；dk_i的计算公式为：

其中r表示收缩的比例，maxk为设置的最大文本中心区域边界宽度；

步骤3-1-5，生成与T对应的训练掩膜(training mask)TM：将TM初始化为一个与T同样大小的矩阵，全部填充为1；将被标注为‘###’的文本实例在TM中对应的区域填充为0，对应文本实例标记为ignore，赋值为True；由于在训练中随机放缩图像，对短边低于阈值(一般取8个像素点)的文本实例，将其在训练掩膜TM中对应的区域填充为0，对应文本实例标记为ignore，赋值为True；其余文本实例标记为ignore，赋值为False；

步骤3-1-6，生成与K对应的训练掩膜(training mask)KM：将KM初始化为一个与K同样大小的矩阵，全部填充为0；将标记ignore等于False的文本实例在ET中对应的ptd_i的区域填充为1；

步骤3-1-7，生成与文本实例大小相关的权重系数SM：初始化SM为一个和T相同大小的矩阵，全部填充为0；对每个文本实例在T中对应的区域pt_i，计算其关于面积大小的一个系数Wsize_i，并将SM中对应pt_i的区域填充为Wsize_i，Wsize_i的计算公式为：

其中，Min和Max分别为人为设定的文本实例宽度的最小值和最大值，Min一般设置为20像素，Max一般设置为100像素，Minedge为近似计算的该文本实例宽度，计算公式为：

其中，L为所述文本实例的周长，A为所述文本实例的面积；

步骤3-2，设置语义分割网络的训练损失函数L为：

L＝L_T+λL_K，

其中，L_T和L_K分别表示完整的文本实例的损失和收缩后的文本中心区域的损失，参数λ用来平衡L_T和L_K，参数λ的取值范围为[0,1]，采用交叉熵与dice系数的组合方式来计算损失函数L，并且引入随着训练过程逐渐衰减的权重系数，简记为衰减损失权重DLW(decayloss weight)，损失函数具体计算如下：

步骤3-2-1，根据步骤3-1中得到的权重系数矩阵SM,ET,TM,EK,KM，计算出文本区域衰减损失权重TDLW和文本中心区域衰减损失权重KDLW，计算公式如下：

其中，λ是张量幂运算的底数，

表示逐元素间一一相乘，计算后得到两个与T同样大小的权重矩阵，ep为一个随着训练轮数增加不断变化的参数，计算公式如下：

其中current_epoch表示当前训练的轮数(每完整训练整个数据集为1轮)，MAX_epoch表示训练时预先设定的最大训练轮数；

步骤3-2-2，L_T计算公式为：L_T＝BCE_T+Dice_T，文本区域的二值交叉熵损失BCE_T计算公式为：

其中，x_i表示第i个像素点的预测值，y_i表示第i个像素点的标签值，像素点取自集合S_l。

表示逐元素间一一相乘，S_l为一个集合，其中元素按照正负样本比1:3的方式选择，正样本为T中所有文本实例包含的像素，数目记为positive，负样本为背景区域中损失最大的前neg个像素，neg计算公式为：

neg＝min(negative,positive×3),

其中，negative表示背景像素的数目；文本区域的戴斯损失(Dice loss)Dice_T计算公式为：

其中，“∩”表示两个张量相乘的运算；

步骤3-2-3，L_K计算公式为：

L_K＝BCE_K+Dice_K，

文本中心区域的二值交叉熵损失BCE_K计算公式为：

其中，

表示逐元素间一一相乘，km为一个集合，集合km中的元素为KM中所有值为1的像素点对应的元素；

文本中心区域的戴斯损失(Dice loss)Dice_K计算公式为：

其中，“∩”表示两个张量相乘的运算；

步骤3-3：利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L，使用随机梯度下降法对语义分割网络进行监督训练，得到训练好的检测器模型。

本发明中，步骤4包括：用步骤3中训练好的检测器模型进行分割结果的预测，每张待检测图片能够得到两个分割结果掩码K_pred和T_pred，它们分别代表对物体中心区域的预测结果和文本区域的预测结果；

本发明中，步骤5包括：

步骤5-1，根据如下公式计算得到文本中心区域预测结果FK_pred：

其中，Pthresh表示对每个像素点的阈值，一般取值在0.3到0.5之间；

步骤5-2，计算FK_pred中的所有连通分量，对每个连通分量C_i采用Vatti clipping算法分别扩张两次，第一次扩张d_i1个像素得到不含边缘区域的预测包围框1，记为Box1，第二次扩张d_i2个像素得到文本区域预测包围框2，记为Box2，d_ik计算公式为：

其中，r′表示扩张的比例，该比例根据收缩的比例相应得到，如收缩比例为0.5，扩张比例经验值近似取1.8，收缩比例为0.4，扩张比例经验值近似取2.0；

步骤5-3，计算Box1对应在T_pred中区域的平均分数作为预测文本实例的包围框分数，采用一个包围框阈值(需要比像素点阈值高，一般取值在0.7到0.9之间)滤除部分包围框分数低的预测区域；

步骤5-4，满足步骤5-3的C_i对应的Box2的集合即为最终检测结果。

有益效果：相比以往的文本检测方法，本发明的优势在于，在检测弯曲文本及长文本时，检测精度有明显提高，在实践使用中，本发明对阈值选择不敏感，使用默认阈值即可获得接近模型最佳精度的检测效果。另外地，本发明采用的模型简单，检测速度超过大多数以往方法，且本发明的关键技术由于只改变了损失函数的权重构成，可以方便地集成到其他基于语义分割方法的场景文本检测方法中。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明整体架构；

图2是本发明生成标签示意图；

图3为采用本发明方法的第一个例子的检测效果图；

图4为采用本发明方法的第二个例子的检测效果图；

图5为采用本发明方法的第三个例子的检测效果图；

图6为采用本发明方法的第四个例子的检测效果图；

图7为采用本发明方法的第五个例子的检测效果图；

具体实施方式

本发明为一种场景文本检测的方法，包括如下步骤：

步骤1，对已有的公开的文本图片数据集，例如：ICDAR2019-MLT,ICDAR2015,MSRA-TD500,Total-Text,CTW1500等，或者自行采集的场景文本图片数据集进行预处理，对训练图片进行数据增强：(1)将训练图片按照比例0.5到3.0之间随机放缩；(2)将训练图片以0.5的概率随机水平翻转且在[-10°,10°]范围内进行随机旋转(3))从训练图片上随机裁剪出大小为640×640的样例；(4)图片使用通道均值和标准差归一化。

步骤2，搭建TIKD(Threshold Insensitive Kernel Detector,阈值不敏感核检测器)的网络，TIKD网络结构如图1所示，包括一个特征金字塔网络模块，一个特征融合模块和两个预测模块，完成对图片的特征提取，特征融合以及分割预测得到文本区域分割预测图和物体中心区域分割预测图。具体包括如下步骤：

步骤2-1，建立一个特征金字塔网络模块，对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合，得到特征图(P₂,P₃,P₄,P₅),P₂,P₃,P₄,P₅分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图；

步骤2-2，特征融合模块将特征金字塔模块得到的四个特征图进行融合，融合函数F定义如下：

F＝C(P₂,P₃,P₄,P₅)＝Neck(P₂)||Up_×2(Neck(P₃)||Up_×4(Neck(P₄)||Up_×8(Neck(P₅)

步骤2-3，特征图F进入两个预测分支模块Pred。两个Pred模块的结构相同但参数不共享。Pred模块的结构为，BRConv(3,1)-BRTransposeConv(3,2)×2-Sigmoid。其中，BRConv(3,1)表示卷积核为3×3，步长为1的卷积层，BN批量归一化层和ReLU线性整流层；BRTransposeConv(3,2)×2表示两个连续的转置卷积组，其中每个转置卷积组由一个卷积核为3×3，步长为2的转置卷积，BN批量归一化层和ReLU线性整流函数组成。每个Pred模块输出一个与输入图大小相同的特征图，第一个Pred模块的输出记为T_pred，第二个Pred模块的输出记为K_pred。

步骤3，模型的训练，这一步骤是TIKD性能提升的关键，步骤3包括如下步骤：

步骤3-1，根据训练图片中的文本实例对应的标签，对每张图片生成两个预测分支模块所需的两张标签，如图2所示(图2中的白色线条用来对比位置，没有实际意义)，对每张图片需要生成七个矩阵，生成监督标签的步骤分别如下：

a.原始文本实例所对应标签的每个多边形p_i被转换为一个二进制掩码，得到的与原图大小相同的掩码图记为T；

b.将每个p_i利用Vatti clipping算法收缩d_i个像素点得到收缩后的多边形q_i。每个收缩后的多边形q_i被转换为一个二进制掩码，得到的与原图大小相同的掩码图记为K，d_i的计算公式为：

其中Area()为计算多边形面积的函数，Peri()为计算多边形周长的函数，r表示收缩的比例，在本实施例中取0.5；

c.生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pt_i，利用Vatti clipping算法先收缩dt_i个像素点得到的多边形记为pts_i，然后再扩张dt_i个像素点得到的多边形记为ptd_i，pts_i和ptd_i之间的区域被记为gapt_i，gapt_i被视为pt_i的边缘区域。首先将ET初始化为一个与T同样大小的矩阵，全部填充为0。然后将gapt_i对应的区域填充为-1。dt_i的计算公式为：

其中Area()为计算多边形面积的函数，Peri()为计算多边形周长的函数，r表示收缩的比例，在本实施例中取0.9，maxt为文本区域边缘宽度的上界，在本实施例中取10个像素；

d.生成与K对应的边缘权重系数图EK:对K中每个文本实例中心区域的二进制掩码pk_i，利用Vatti clipping算法先收缩dk_i个像素点得到的多边形记为pks_i，然后再扩张dk_i个像素点得到的多边形记为pkd_i，pks_i和pkd_i之间的区域被记为gapk_i，gapk_i被视为pk_i的边缘区域。首先将EK初始化为一个与K同样大小的矩阵，全部填充为0。然后将gapk_i对应的区域填充为-1。dk_i的计算公式为：

其中，r表示收缩的比例，在本实施例中取0.9，maxk为边缘宽度的上界，在本实施例中取5个像素；

e.生成与T对应的训练掩膜(training mask)TM:首先将TM初始化为一个与T同样大小的矩阵，全部填充为1。然后将被标注为‘###’的文本实例在TM中对应的区域填充为0,对应文本实例标记为ignore赋值为True。另外，由于在训练中随机放缩图像，对短边小于8个像素点的文本实例，将其TM中对应的区域填充为0，对应文本实例标记为ignore赋值为True。其余文本实例标记ignore赋值为False；

f.生成与K对应的训练掩膜(training mask)KM:首先将KM初始化为一个与K同样大小的矩阵，全部填充为0。然后将标记ignore等于False的文本实例在ET中对应的ptd_i的区域填充为1；

g.生成与文本实例大小相关的权重系数SM：首先初始化SM为一个和T相同大小的矩阵，全部填充为0。然后对每个文本实例在T中对应的区域pt_i，计算其关于面积大小的一个系数Wsize_i，并将SM中对应pt_i的区域填充为Wsize_i，Wsize_i的计算公式为：

其中，在本实施例中，Min和Max分别被设置为20个像素和100个像素，Minedge为近似计算的文本实例宽度，计算公式为：

其中，L为该文本实例的周长，A为该文本实例的面积；

步骤3-2，将步骤3-1中生成的权重系数加入到传统的交叉熵损失函数和戴斯损失函数中，损失函数具体计算如下，总损失为：

L＝L_T+λL_K,

其中，L_T和L_K分别表示完整的文本实例的损失和收缩后的文本中心区域的损失，参数λ用来平衡L_T和L_K，参数λ的取值范围为[0,1]，在本实施例中取1。采用交叉熵与dice系数的组合方式来计算损失函数L，并且引入随着训练过程逐渐衰减的权重系数，简记为DLW(decay loss weight)；

步骤3-2中，设置TIKD的训练损失函数L如下：

首先根据步骤3-1中得到的权重系数矩阵SM,ET,TM,EK,KM，计算出TDLW和KDLW，计算公式如下：

其中，λ是张量幂运算的底数,在本实施例中设置为4,

其中current_epoch表示当前训练的轮数，MAX_epoch表示训练时预先设定的最大训练轮数，在本实施例中设置为1200；

L_T计算公式为：L_T＝BCE_T+Dice_T，BCE_T计算公式为：

其中，x_i表示第i个像素点的预测值，y_i表示第i个像素点的标签值。

neg＝min(negative,positive×3),

其中，negative表示背景像素的数目；Dice_T计算公式为：

其中，“∩”表示两个张量相乘的运算；

L_K计算公式为：L_K＝BCE_K+Dice_K，BCE_K计算公式为：

其中，“x_i”表示某个像素点的预测值，“y_i”表示某个像素点的标签值。

表示逐元素间一一相乘，km为一个集合，其元素为KM中所有值为1的像素点对应的元素；Dice_T计算公式为：

其中，“∩”表示两个张量相乘的运算；

步骤3-3：利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L，使用随机梯度下降法对TIKD网络进行监督训练，典型的训练参数配置如下图表1所示：

表1

步骤4包括：用步骤3中训练好的检测器模型进行分割结果的预测，每张待检测图片能够得到两个分割结果掩码K_pred和T_pred，它们分别代表对物体中心区域的预测结果和文本区域的预测结果；

步骤5包括：

步骤5-1，从步骤4中得到K_pred和T_pred，首先计算得到文本中心区域预测结果FK_pred，计算公式如下：

其中，Pthresh表示对每个像素点的阈值，在本实施例中，将其依次设置为0.25,0.5,0.75来展示TIKD对阈值选择不敏感的特性；

步骤5-2，计算FK_pred中的所有连通分量，对每个连通分量C_i采用Vatti clipping算法分别扩张两次，第一次扩张d_i1个像素得到Box1，第二次扩张d_i2个像素Box2，d_ik计算公式为：

其中Area()为计算多边形面积的函数，Peri()为计算多边形周长的函数，r′表示扩张的比例，在本实施例中，对应步骤3中中心区域的收缩比例0.5，在k＝1时，r′取1.4，在k＝2时，r′取1.8；

步骤5-3，计算Box1对应在T_pred中区域的平均分数作为该预测文本实例的包围框分数，采用包围框阈值滤除部分包围框分数低的预测区域，在本实施例中，包围框阈值被依次设置为0.5,0.6,0.7,0.8来展示TIKD对阈值选择不敏感的特性，；

本实施例在标准弯曲文本图片数据集Total-Text(包含水平文本，倾斜文本和弯曲文本)上的检测效果如表2所示，本发明方法与主流方法TextSnake(人工智能顶级会议ECCV2018提出的方法)和PSENet(人工智能顶级会议CVPR2019提出的方法)作比较：

表2

方法	准确率	召回率	调和平均值	FPS(张/秒)
					TextSnake	82.7％	74.5％	78.4％	1.1
PSENet	84.0％	78.0％	80.9％	3.9
					本发明	88.9％	84.1％	86.4％	16.3

可以看到，本发明在准确率，召回率，调和均值以及检测速度方面都有很大的优势，有效地证明了本发明检测精度高的特性，且能检测任意形状文本。

本实施例在标准多语言场景文字数据集MSRA-TD500(包含长直文本，取自街景图片)上的检测效果如表3所示，本发明方法与主流方法TextSnake(人工智能顶级会议ECCV2018提出的方法)和CRAFT(人工智能顶级会议CVPR2019提出的方法)作比较：

表3

可以看到，本发明在准确率，召回率，调和均值以及检测速度方面都有很大的优势，有效地证明了本发明对待中英文场景文字检测精度高的特性，且能很好地检测长文本。

另外，本实施例给出本实施例在Total-Text数据集上取不同阈值的检测结果，见表4：

表4

像素阈值	包围框阈值	准确率	召回率	调和平均值
					0.25	0.8	88.8％	81.7％	85.1％
0.5	0.8	88.9％	84.1％	86.4％
					0.75	0.8	86.6％	84.2％	85.4％
0.5	0.6	86.3％	85.0％	85.6％
					0.5	0.7	87.6％	84.7％	86.2％
0.25	0.5	86.1％	83.8％	84.9％

需要说明的是，像素阈值需要小于包围框阈值(否则后者将失去意义)，可以看到，本发明在各种极端的阈值选择之下，综合性能(调和平均值)表现波动非常小，有效地证明了本发明对阈值选择不敏感的特性。

图3到图7给出了一些检测结果图例，可以看到，本发明对弯曲文本，面积大的文本以及密集的文本，中文与英文均有很好的检测效果。

本发明提供了一种自然场景中的任意形状文本检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种自然场景中的任意形状文本检测方法，其特征在于，包括如下步骤：

步骤1，对文本图片数据集中的训练图片进行预处理；

步骤2，搭建一个语义分割网络，利用所述语义分割网络完成对训练图片的特征提取、分割预测，得到文本区域和类似文本物体的中心区域的预测；

步骤3，对语义分割网络进行监督训练得到检测器模型；

步骤4，通过检测器模型对待检测图片进行检测；

步骤5，计算得到文本中心核的预测图，过滤错误预测区域，得到最终检测结果。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：对文本图片数据集中的训练图片进行如下数据增强：首先将训练图片按照比例放缩，然后将训练图片概率随机水平翻转且在一定角度范围内进行随机旋转，最后从训练图片上随机裁剪出固定大小的样例，作为最终的训练图片，训练图片中的文本区域被称为文本实例，每个文本实例的人工标注框被称为其对应的标注，约定模糊不清的文本被标注为###。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：

步骤2-1，搭建一个语义分割网络，所述语义分割网络包括一个特征金字塔网络模块，一个特征融合模块和两个预测模块；

所述特征金字塔网络模块的结构为：以50层的深度残差网络作为特征提取器，最后三层卷积中的卷积核替换为可变形卷积核，后接一个特征金字塔结构；利用特征金字塔网络模块对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合，得到特征图(P₂,P₃,P₄,P₅),P₂,P₃,P₄,P₅分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图；

其中，符号||表示连接；Neck()表示将特征图用降维模块降到128维，降维模块为Conv(1,1)-BN-ReLU层，其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层，BN表示批量归一化层，ReLU为线性整流函数；Up_×n()表示对特征图进行n倍的上采样，采样方式为最近邻采样；

步骤2-3，特种图F进入两个预测模块，两个预测模块的结构相同但参数不共享，预测模块的结构为BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid,其中，BRConv(3,1)表示卷积核为3×3，步长为1的卷积层，BN批量归一化层和ReLU线性整流层；BRTransposeConv(3,2)×2表示两个连续的转置卷积组，其中每个转置卷积组由一个卷积核为3×3，步长为2的转置卷积，BN批量归一化层和ReLU线性整流函数组成；每个预测模块输出一个与输入图大小相同的特征图，第一个预测模块的输出记为T_pred，表示文本区域的预测，第二个预测模块的输出记为K_pred，表示类似文本物体的中心区域的预测。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

步骤3-1，根据训练图片中的文本实例对应的标签，对每张图片生成两个预测模块所需的两张标签；

步骤3-2，设置语义分割网络的训练损失函数L为：

L＝L_T+λL_K，

其中，L_T和L_K分别表示完整的文本实例的损失和收缩后的文本中心区域的损失，参数λ用来平衡L_T和L_K，参数λ的取值范围为[0,1]，采用交叉熵与dice系数的组合方式来计算损失函数L，并且引入随着训练过程逐渐衰减的权重系数，权重系数记为DLW；

5.根据权利要求4所述的方法，其特征在于，步骤3-1包括如下步骤：

步骤3-1-2，将每个多边形p_i利用Vatti clipping算法收缩d_i个像素点得到收缩后的多边形q_i，每个收缩后的多边形q_i被转换为一个二进制掩码，得到的与待训练图片大小相同的掩码图记为K，d_i的计算公式为：

其中，maxt为设置的最大文本区域边界宽度；

其中，maxk为设置的最大文本中心区域边界宽度；

步骤3-1-5，生成与T对应的训练掩膜TM：将TM初始化为一个与T同样大小的矩阵，全部填充为1；将被标注为###的文本实例在TM中对应的区域填充为0，对应文本实例标记为ignore，赋值为True；由于在训练中随机放缩图像，对短边低于阈值的文本实例，将其在训练掩膜TM中对应的区域填充为0，对应文本实例标记为ignore，赋值为True；其余文本实例标记为ignore，赋值为False；

步骤3-1-6，生成与K对应的训练掩膜KM：将KM初始化为一个与K同样大小的矩阵，全部填充为0；将标记ignore等于False的文本实例在ET中对应的ptd_i的区域填充为1；