CN111931763A

CN111931763A - 一种基于随机形态边缘几何建模的深度场景文本检测方法

Info

Publication number: CN111931763A
Application number: CN202010518387.5A
Authority: CN
Inventors: 李玺; 王芳芳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-11-13
Anticipated expiration: 2040-06-09
Also published as: CN111931763B

Abstract

本发明公开了一种基于随机形态边缘几何建模的深度场景文本检测方法，其步骤为：S1、获取用于训练场景文本检测的图像数据集；S2、在极坐标系下对文本边缘进行采样和归一化，利用切比雪夫多项式拟合获得几何编码信息真值；S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合；S4、对候选文本的特征向量进行分类，预测实例级别的几何编码，在全监督下联合优化模型；S5、建立端到端联合学习框架预测几何编码信息，并利用预测出的编码信息解码出文本边缘的精确位置和形状；S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。本发明能对场景文本进行实例级别的边缘参数化表达和有效的参数学习，从而使模型更具准确性和鲁棒性。

Description

一种基于随机形态边缘几何建模的深度场景文本检测方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于随机形态边缘几何建模的深度场景文本检测方法。

背景技术

场景文本检测被定义为如下问题：在自然场景图像中发现多方向、多尺度、多语种、弯曲或不规则形态的文本区域位置。近年来，在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点：第一是如何用标准化的表征很好地建模多方向、多尺度、弯曲形状或不规则形状的文本目标边缘从而能够在统一的CNN框架中进行学习；第二是如何在网络中有效地学习这个标准化的表征从而能够准确输出检测结果。针对第一点，本发明认为随机形态场景文本的边缘建模关键在于准确地建模其空间几何特性，利用极坐标系下的边缘采样及切比雪夫多项式拟合来编码其空间结构，以产生准确、完整的边缘表达；针对第二点，本发明认为利用特征金字塔网络结构和全局融合特征图在不同尺度上进行多尺度预测，并且通过中心化训练策略提升训练效果，针对抽象化的编码信息，设计视觉内容相关的可导损失函数来进行有效学习。

由于统计建模的有效性，目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架，输入一幅图像，输出检测的文本区域。

发明内容

为解决上述问题，本发明的目的在于提供一种基于随机形态边缘几何建模的深度场景文本检测方法。在场景文本检测中，文本的方向、尺度、形状等几何特性多变，因此本发明基于卷积神经网络在边缘参数化表达层面上对文本目标进行几何特性的建模，并通过有效的训练策略来进行网络优化。另外，由于文本样本具有较大的长宽比和剧烈的尺度变化，我们对每个特征图进行全局融合行程全局特征来弥补感受野的不足。结合上述方面，本发明设计了一个统一的端到端深度学习框架对场景文本进行实例级别的边缘参数化表达和有效的参数学习，从而使模型更具准确性和鲁棒性。

为实现上述目的，本发明的技术方案为：

一种基于随机形态边缘几何建模的深度场景文本检测方法，包括以下步骤：

S1、获取用于训练场景文本检测的多组图像数据集，并定义算法目标；

S2、在极坐标系下对文本边缘进行采样和归一化，并利用切比雪夫多项式拟合获得几何编码信息真值；

S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合；

S4、对候选文本的特征向量进行分类，同时预测实例级别的几何编码，在全监督下联合优化模型；

S5、使用由S1～S4建立的端到端联合学习框架预测几何编码信息，并利用预测出的编码信息解码出文本边缘的精确位置和形状；

S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。

基于上述方案，各步骤可以通过如下方式实现：

步骤S1中，对于所述的用于场景文本检测的多个图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域

其中d_i为第i个文本区域多边形，K为I中的文本样本数量。

进一步的，步骤S2中，在极坐标系下对文本边缘进行采样和归一化，并利用切比雪夫多项式拟合获得几何编码信息真值，具体包括：

S21、在每个文本样本的中心点(x,y)处建立极坐标系，从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线，取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r＝[r₁,r₂,…,r_N]与角度向量θ＝[θ₁,θ₂,…,θ_N]，其中r_i和θ_i分别为第i条射线与文本边缘的交点的半径和角度；

S22、将r和θ分别用最大相交半径s和π归一化后，利用切比雪夫多项式进行函数曲线拟合，拟合多项式表达式为：

其中：θ为角度自变量，T_k是第一类切比雪夫多项式，K度拟合参数 c＝[c₀,c₁,…,c_K]定义为文本目标的形状向量；通过最小二乘法求解形状向量：

其中：c′＝[c′₀,c′₁,…,c′_K]表示使

最小的K度拟合参数；

S23、以K度拟合参数c、半径归一化参数s及中心点坐标(x,y)构成文本目标的几何编码信息ge＝[c,s,x,y]。

进一步的，步骤S3中，利用全卷积特征提取网络对图像进行特征学习与全局特征融合具体包括：

S31、利用特征金字塔网络提取每张图像在不同尺度上的深度特征；

S32、在每个尺度的深度特征图上利用全局融合模块从上到下、从下到上、从左到右、从右到左四个方向上进行特征传播，再经过一层卷积得到融合的全局特征图。

进一步的，步骤S4中，对候选文本的特征向量进行分类，同时预测实例级别的几何编码，在全监督下联合优化模型，具体包括：

S41、使用一层卷积操作，对每个尺度特征图上每个像素点针对其对应的文本实例预测一个几何编码ge＝[c,s,x,y]和一个分类分数o；

S42、对K度拟合参数c利用视觉内容相关的可导损失函数ContentLoss进行回归：

其中c^*为K度拟合参数c对应的真值，

smooth_L1(·)表示smoothL1损失函数；

S43、对s,x,y利用smooth L1损失函数进行回归；

S44、对o的预测时，利用softmax分类当前特征，判别属于文本类或非文本；

S45、训练过程中，根据每个样本点距离文本中心点的距离为每个样本点确定一个中心化权重，其中第i个样本点(x_i,y_i)的中心化权重为

并根据w_i给每个样本点赋予被采样到一个mini-batch中的概率

其中M为一张训练图像当中所有正样本点的个数；然后每个样本点的训练权重将被重新分布，分布后第i个样本点的训练权重为

M′为一个mini-batch中的正样本点个数；训练的总损失函数为：

其中L_cls为softmax函数，L_reg为smoothL1函数，N_reg为正样本数量，N_cls为正负样本点数量总和，向量t_j＝[s_j,x_j,y_j]，

为第i个样本点的分类分数o_i对应的真值，

为第j个样本点的K度拟合参数c_j对应的真值，

为第j个样本点的向量t_j对应的真值。

进一步的，步骤S5中，使用由S1～S4建立的端到端联合学习框架预测几何编码信息，并利用预测出的编码信息解码出文本边缘的精确位置和形状，具体包括：

基于由S1～S4建立的端到端联合学习框架，输入待预测图像，通过最小化损失函数学习得到特征图上每个样本点处的区域是否为文本区域，对于判定为文本区域的样本点通过回归得到几何编码信息ge＝[c,s,x,y]，再通过ge重建文本边缘：

r′_i＝s*f_K(θ_i,c)

x′_i＝x+r′_i*cosθ_i

y′_i＝y+r′_i*sinθ_i

其中：r′_i为当前样本点处重建后得到的边缘上第i个点的半径，(x′_i,y′_i)为预测得到的边缘上第i个点的坐标；文本边缘的精确位置和形状用点集

表示。

进一步的，步骤S6中，对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果具体包括：

对S5输出的多边形候选框集合进行非极大值抑制，得到文本检测的候选框以及每个候选框的分类分数，然后利用阈值法进行过滤，删除分类分数低于阈值的多边形，以去除冗余的重复检测，得到最终的检测结果。

本发明的基于随机形态边缘几何建模的深度场景文本检测方法，相比于现有的场景文本检测方法，具有以下有益效果：

首先，本发明的场景文本检测方法通过对文本目标的空间几何特性的边缘建模将复杂的随机形态文本边缘发现问题转化为了简单的利用卷积神经网络进行参数学习的问题，并通过在参数空间和形状空间之间的双向可导映射使得参数的可学习性更强。

其次，本发明提出了一个一阶段的基于回归的无锚点检测框架TextRay，并提出一种能够有效解决长文本带来的假阳性检测的中心权重训练策略，有效地提升了网络优化和场景文本检测的效果。

最后，本发明的场景文本检测方法作为一个轻量级一阶段的网络，能够将图像一次通过网络即输出检测结果，仅需要一个非极大值抑制的后处理步骤，其效果超过了很多基于分割的多阶段的方法。

本发明的基于端到端全卷积神经网络的场景文本检测方法，在场景理解、图像分割等场景中，具有良好的应用价值。例如，在场景分析任务中，场景中的文本包含大量帮助理解场景的信息，准确检测文本所在位置是利用场景文本信息的基础，本发明的场景文本检测方法能够快速准确地定位图像中的文本区域，为后续利用分析文本信息提供基础。

附图说明

图1为本发明的流程示意图；

图2为实施例中的原始图像；

图3为网络框架图；

图4为实施例中的联合学习框架对于自然场景图像中的随机形态文本检测效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于随机形态边缘几何建模的深度场景文本检测方法，包括以下步骤：

S1、获取用于训练场景文本检测的多组图像数据集，并定义算法目标。

在本实施例中，对于用于场景文本检测的多个图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域

其中d_i为第i个文本区域多边形，K为I中的文本样本数量。

S2、在极坐标系下对文本边缘进行采样和归一化，并利用切比雪夫多项式拟合获得几何编码信息真值。

在本实施例中，该步骤具体实现方法包括：

S22、将r和θ分别用最大相交半径s和π归一化后，利用切比雪夫多项式进行函数曲线拟合，最大相交半径s即所有射线与文本边缘的交点的半径最大值。此处，拟合多项式表达式为：

其中：c′＝[c′₀,c′₁,…,c′_K]表示使

最小的K度拟合参数；

S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合。

在本实施例中，该步骤具体实现方法包括：

其中c^*为K度拟合参数c对应的真值，

smooth_L1(·)表示smoothL1损失函数；

S43、对s,x,y利用smooth L1损失函数进行回归；

并根据w_i给每个样本点赋予被采样到一个mini-batch中的概率

M′为一个mini-batch中的正样本点个数；该权重适用于所有损失函数。因此，训练的总损失函数为：

为第i个样本点的分类分数o_i对应的真值，

为第j个样本点的K度拟合参数c_j对应的真值，

为第j个样本点的向量t_j对应的真值。

在本实施例中，该步骤具体实现方法包括：

r′_i＝s*f_K(θ_i,c)

x′_i＝x+r′_i*cosθ_i

y′_i＝y+r′_i*sinθ_i

表示。

在本实施例中，该步骤具体实现方法包括：

对S5中框架网络输出的多边形候选框集合进行非极大值抑制，得到文本检测的候选框以及每个候选框的分类分数，然后利用阈值法进行过滤，删除分类分数低于阈值的多边形，以去除冗余的重复检测，得到最终的检测结果。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施，分别为：

SCUT-CTW1500数据集：该数据集包含1000张训练图像，500张测试图像。

TotalText数据集：该数据集包含1255张训练图像，300张测试图像。

ICDAR-ArT数据集：该数据集包含5603张训练图像，4563张测试图像。

本实施例在每个数据集上分别进行实验，数据集中图像举例如图2所示。

文本检测的主要流程如下：

1)通过特征金字塔结构网络提取图像的多尺度特征图；

2)利用全局融合模块对每个尺度特征图进行传播，得到全局特征图；

3)在每个尺度特征图上使用一层卷积操作，预测特征图上每个样本点的几何编码信息和分类分数；

4)联合优化文本分类和几何编码回归；

5)使用所述学习框架预测文本几何编码信息恢复文本的精确位置形状；

6)对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。整体网络框架如图3所示。

本实施例中，对模型输出进行非极大值抑制时，针对两种数据集设置的删除分类分数所用的最低阈值不同，SCUT-CTW1500所用的阈值为0.95，TotalText 所用的阈值为0.995。

为综合比较本方法的有效性，我们比较了其他较先进方法、本方法利用不同阶数的切比雪夫多项式、以及相同框架和实验条件下对文本边缘进行其他形式的几何建模的方法。

本实施例检测结果的准确率(precision)、召回率(recall)及F-measure见表1 表2所示。图中数据显示了本发明在precision，recall以及F-measure三个指标上的表现，与其他方法和相同框架下对文本进行其他形式的几何建模的方法相比，当选择合适阶数的切比雪夫多项式时，本方法在整体上有了进一步的提升。其中 F-measure表示准确度与回归之间的目标检索平衡度：

表1本实施例在SCUT-CTW1500数据集上各评价指标

Method	Precision	Recall	F-measure
				TextSnake[1]	67.90	85.30	75.60
LOMO[2]	89.20	69.60	78.40
				CSE[3]	81.10	76.00	78.40
PSENet-4s[4]	82.09	77.84	79.90
				Wang et al.[5]	80.10	80.20	80.10
SAST[6]	85.31	77.05	80.97
				TextField[7]	83.00	79.80	81.40
TextRay	82.80	80.35	81.56

表2本实施例在TotalText数据集上各评价指标

Method	Precision	Recall	F-measure
				TextSnake[1]	82.70	74.50	78.40
Wang et al.[5]	80.90	76.20	78.50
				PSENet-4s[4]	85.54	75.23	79.61
SAST[6]	83.77	76.86	80.17
				CSE[3]	81.40	79.10	80.20
TextDragon[8]	85.60	75.70	80.30
				TextField[7]	81.20	79.90	80.60
TextRay	83.49	77.88	80.59

表3本实施例在ICDAR-ArT/SCUT-CTW1500/TotalText数据集上各评价指标

其中表1、表2中TextRay为本发明方法，表3中为未经过预训练的对比实验，其中TextRay_cheby开头的实验为本方法利用不同阶数的切比雪夫多项式对比，TextRay_Cartesian为相同框架下直接使用数据集原始标注的笛卡尔坐标系下的顶点对文本进行边缘建模，TextRay_360r为相同框架下使用极坐标系下采样的 360个半径对文本进行边缘建模的方法。其余方法对应的参考文献如下：

[1]Shangbang Long,Jiaqiang Ruan,Wenjie Zhang,Xin He,Wenhao Wu,andCong Yao.2018.TextSnake:A Flexible Representation for Detecting Text ofArbitrary Shapes.In Computer Vision-ECCV 2018-15th European Conference.

[2]Chengquan Zhang,Borong Liang,Zuming Huang,Mengyi En,Junyu Han,Errui Ding,and Xinghao Ding.2019.Look More Than Once:An Accurate Detector forText of Arbitrary Shapes.In IEEE Conference on Computer Vision and PatternRecognition,CVPR.

[3]Zichuan Liu,Guosheng Lin,Sheng Yang,Fayao Liu,Weisi Lin,and WangLing Goh.2019.Towards Robust Curve Text Detection With Conditional SpatialExpansion.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR.

[4]Wenhai Wang,Enze Xie,Xiang Li,Wenbo Hou,Tong Lu,Gang Yu,andShuaiShao.2019.Shape Robust Text Detection With Progressive Scale ExpansionNetwork.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR.

[5]Xiaobing Wang,Yingying Jiang,Zhenbo Luo,Cheng-Lin Liu,HyunsooChoi, and Sungjin Kim.2019.Arbitrary Shape Scene Text Detection With AdaptiveText Region Representation.In IEEE Conference on Computer Vision and PatternRecognition,CVPR.

[6]Pengfei Wang,Chengquan Zhang,Fei Qi,Zuming Huang,Mengyi En,JunyuHan,Jingtuo Liu,Errui Ding,and Guangming Shi.2019.A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning.InProceedings of the 27th ACM International Conference on Multimedia,MM. ACM,1277–1285.

[7]Yongchao Xu,Yukang Wang,Wei Zhou,Yongpan Wang,Zhibo Yang,and XiangBai.2019.TextField:Learning a Deep Direction Field for Irregular Scene TextDetection.IEEE Trans.Image Processing 28,11(2019),5566–5579.

[8]Wei Feng,Wenhao He,Fei Yin,Xu-Yao Zhang,and Cheng-Lin Liu.2019.TextDragon:An End-to-End Framework for Arbitrary Shaped Text Spotting.In IEEEInternational Conference on Computer Vision,ICCV.

通过以上技术方案，本发明实施基于深度学习技术提供了一种基于随机形态边缘几何建模的深度场景文本检测方法。本发明可以在各种真实图像数据上建模场景文本的空间几何特性，预测几何编码，从而得到准确的检测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机形态边缘几何建模的深度场景文本检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于随机形态边缘几何建模的深度场景文本检测方法，其特征在于，步骤S1中，对于所述的用于场景文本检测的多个图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域

其中d_i为第i个文本区域多边形，K为I中的文本样本数量。

3.如权利要求2所述的基于随机形态边缘几何建模的深度场景文本检测方法，其特征在于，步骤S2中，在极坐标系下对文本边缘进行采样和归一化，并利用切比雪夫多项式拟合获得几何编码信息真值，具体包括：

S21、在每个文本样本的中心点(x,y)处建立极坐标系，从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线，取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r＝[r₁,r₂,…,r_N]与角度向量θ＝[θ_θ,θ₂,…,θ_N]，其中r_i和θ_i分别为第i条射线与文本边缘的交点的半径和角度；