CN108960115B

CN108960115B - 基于角点的多方向文本检测方法

Info

Publication number: CN108960115B
Application number: CN201810681879.9A
Authority: CN
Inventors: 马争; 卢欣辰; 解梅; 陶帅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-11-09
Anticipated expiration: 2038-06-27
Also published as: CN108960115A

Abstract

本发明公开了一种基于角点的多方向文本检测方法，其包括两个处理部分：首先通过检测角点来产生区域建议区域，这些区域用来估计文本区域可能出现的位置，由于不像其他算法那样产生的建议区域是水平矩形，本发明利用角点可以产生各个角度的建议区域，所以本发明的检测方法能够检测倾斜等各角度的文本，最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归，最终准确定位到文本区域。本发明用于自然场景下的文本检测，在检测性能和检测速度上都比现有的处理方式明显提升。

Description

基于角点的多方向文本检测方法

技术领域

本发明属于图像处理和模式识别领域，具体涉及用于自然场景下的文本检测技术。

背景技术

随着各种配备摄像机的手持设备的流行，自然场景下的文本检测有了新的发展。越来越多的人能够随时随地使用各种电子设备拍摄所看到的事物和场景，记录其中的信息，如道路指示牌、广告牌、商店的商标等。以往很多文本提取的方式均是针对某些特定环境进行并且给出一定的先验知识，如视频图像中的字幕提取，这些字幕文字往往有固定的排列方向，成行排列或者成列排列，文字尺寸是固定的或者变化范围非常小，出现的位置也通常为视频图像的底部或者两侧，而且同一字幕区域的文字颜色也往往都是一致的；又如车牌检测处理中，车牌的底色和字符颜色一般较为固定，车牌上字符的个数确定，这些先验知识都对文字的检测起到很好的帮助。

但是对于自然场景中的文字，由于没有一定的先验条件和给定的环境约束，使得文字定位任务难度远高于文档类图像。传统的自然场景下的文本检测大多是利用滑窗去定位文本，这会导致定位准确率相当不高，因此有必要提出一种不需要任何先验知识来定位自然场景下的文本信息的文本检测技术。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种自然场景下的基于角点的多方向文本检测方法，使得在没有用到任何先验知识的条件下也能完成对自然场景下的文本信息的定位。

本发明的基于角点的多方向文本检测方法，包括下列步骤：

其中候选角点的选取方式为：采用四个不同的卷积滤波器去计算任意像素点(x,y)属于第i个角点方位的概率

并将概率大于预设概率阈值的像素点作为候选角点，得到的候选角点包括角点方位信息；

其中，角点方位包括4个角点方位，分别对应四边形文本框的四个顶点，其中第一、第三角点方位的梯度方向相反；第二、四角点方位的梯度方向相反的；

四个卷积滤波器对应4个角点方位，每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置，其中K表示对角线上的预设离散点数；L表示背景和非第i个角点方位的角点；

基于候选角点集确定对角线，并为每条对角线查找一个候选建议框：

基于候选角点集中的第一和第三角点方位的候选角点之间的线段，以及第二和第四角点方位的候选角点之间的线段得到对角线；

对任意最终的对角线

基于其中心点旋转，得到旋转后的对角线

并从候选角点集中查找与对角线

共线的候选角点c，其中点c≠a,b，点a、b为对角线

的两个对角点；

基于候选角点c到对角线

的距离，在对角线

上得到与点c梯度方向相反的点d，即点d到对角线

的距离等于点c到对角线

的距离；

基于点a、b、c和d得到对角线

的候选建议框；

对候选建议框进行提出处理，获取待检测文本的建议框：

通过公式

计算每个候选建议框包含文本的概率，再基于包含文本的概率进行冗余去除处理，得到待检测文本的建议框。

进一步的，在为每条对角线查找候选建议框时，仅对满足角度条件

的对角线查找候选建议框；其中

表示对角线

的两个候选角点p和q的连接方向，

θ(p,q)表示对角线

相对于水平方向的角度，函数ceil(·)表示返回大于或者等于指定表达式的最小整数；D_p表示根据候选角点p的预测方向，即基于卷积滤波器输出的K+1个离散点和候选角点p的拟合直线的相对于水平方向的角度。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

不同于惯用的文本检测方案给出的建议区域为水平矩形，本发明利用角点可以产生各个角度的建议区域，所以本发明的检测方法能够检测倾斜等各角度的文本，最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归，最终准确定位到文本区域。本发明用于自然场景下的文本检测，在检测性能和检测速度上都比现有的处理方式明显提升。

附图说明

图1是本发明具体实施方式中，基于计算出来的角点p和q的实际连接方向示意图，其中图1的左栏为符合规则的连接方向，图1的右栏是付符合规则的连接方向；

图2是实施例的检测处理流程示意图，其中左一是输入图片，左二是四个类型的候选角点，箭头代表该类型角点所指向连接方向，右一是生成的一系列候选建议框，右二是最终检测出的文本区域效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明公开了一种基于角点的多方向文本检测方法，其包括两个处理部分：首先通过检测角点来产生区域建议区域，这些区域用来估计文本区域可能出现的位置，由于不像其他算法那样产生的建议区域是水平矩形，本发明利用角点可以产生各个角度的建议区域，所以本发明的检测方法能够检测倾斜等各角度的文本，最后利用本发明提出的子网络来进一步对这些建议区域训练来分类和回归，最终准确定位到文本区域。

本发明的基于角点的多方向文本检测方法具体包括下列两部分：

一、查找角点。

寻找角点即预测待检测图像上的任意一个像素点(x,y)是否为预先定义好的文本框的角点。由于不能像水平四边形或者矩形一样去定义角点的相对位置(左上，左下，右上，右下)，本申请定义4个不同的角点方位标识符去描述4个不同方位的角点，该四个角点方位对应四边形的四个顶点，例如定义i为角点方位标识符，其中i＝1，2，3，4，角点方位1与角点方位3是梯度方向相反的一对角点；角点方位2与角点方位4是梯度方向相反的一对角点。

然后采用one-versus-rest(一对多)的策略，基于4个不同的卷积滤波器去计算待检测图像上的任意像素点是否为4个不同角点方位之一的概率。其中每个卷积滤波器对应一个角点方位，每个卷积滤波器用于输出以当前像素点(x,y)为该卷积滤波器对应的角点方向的起点的对角线上的K+1个离散点的位置，K表示对角线上的预设离散点数。例如当找到一个像素点p为其中一个角点(i＝1)时，则要根据p的梯度方向寻找与其梯度方向相反的另一个角点q(i＝3)。

为了实现上述对角点对的查找处理，本发明定义一个变量

来表示已知一个角点时寻找另一个梯度方向相反的角点，即连接方向；定义θ(p,q)表示向量

相对于水平方向的角度，p和q是通过计算得到的两个可以连接成一条对角线的候选角点，将θ(p,q)离散化为K个值，则可以得到

的计算表达式：

其中函数ceil(·)表示返回大于或者等于指定表达式的最小整数。

从而就可以将一个二分类问题转化成了一个多分类问题，即所分类别是两点的连接方向。所以，本发明通过角点检测器(四个并行的卷积滤波器所构成的神经网络模型)输出的K+1个预测矩阵(该预测矩阵用来判断当前像素点是否为所求角点)，则每个像素点属于角点方位i的概率P_i(x,y)可以表示为：

其中，L表示背景和非第i个角点方位的角点。

本发明中的角点检测器为惯用的神经网络模型框架，其包括四个并行的卷积层，每个卷积层用于输出K+1个预测矩阵，再基于预设阈值得到当前像素点所述的角点方位。该角点检测器的训练采用常规的神经网络模型训练方式即可，训练样本为文本框图片，训练目标为：判断当前像素点是否为所求角点。

此外，为了抑制那些不符合的对角线，本发明通过制定如下规则进行抑制：

其中，D_p表示根据角点p预测的方向，

表示根据

计算出来的角点p和角点q的实际连接方向。如图1所示，其中虚线框的左上角点和右下角点代表候选点,长度较短箭头所指方向是根据左上角点预测的方向，即D_p；长度较长箭头即左上角点和右下角点连线是实际的连接方向，即

二、基于角点的查找结果，生成建议区域。

利用已提取得到的候选角点形成候选区域B，即候选建议框，再利用一个贝叶斯分类器去计算每个候选区域包含文本的概率P(B)，其计算表达式为

其中(x_i,y_i)表示建议区域B中的第i个角点。

故本发明的基于角点的多方向文本检测方法具体包括下列步骤：

步骤S1：对像素点进行候选角点选取，得到候选角点集，其后，候选角点的选取方式为：

通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点，其中得到的候选角点包括角点方位信息；

步骤S2：将候选角点集中的第一和第三角点方位的候选角点连接成相应的对角线，并基于抑制规则

去除那些不符合规则的对角线，即去除

的对角线；

步骤S3：为步骤S2得到的每条对角线查找一个候选建议框：

对任意对角线

其中，点a、b表示对角线

的两个对角点；

基于对角线

的中心点旋转，得到旋转后的对角线

并从候选角点集中查找与对角线

共线的候选角点c，其中点c≠a,b；

基于候选角点c到对角线

的距离，在对角线

上得到与点c梯度方向相反的点d，即点d到对角线

的距离等于点c到对角线

的距离；

基于点a、b、c和d得到对角线

的候选建议框。

步骤S4：将候选角点集中的第二和第四角点方位的候选角点连接成相应的对角线，并去除

的对角线后，再为每条每条对角线查找一个候选建议框，其中候选建议框的查找方式同步骤S3。

步骤S5：通过公式

计算每个候选建议框包含文本的概率，即建议框的非空概率；再基于候选建议框的非空概率，采用NMS(Non MaximumSuppression，非极大值抑制)法去除冗余的候选建议框，得到待检测文本的建议框。

实施例

参见图2，首先输入待检测图像，如图2中的左一所示；

然后通过概率矩阵选取概率大于预设阈值T的像素点作为候选角点，并确定符合规则的候选角点的对角线，如图2中的左二所示；

接着，基于步骤S3、S4生成一系列的候选建议框，如图2中的右一所示；

最后，基于候选建议框的非空概率，采用NMS法去除冗余的候选建议框，得到最终检测出的文本区域，如图2中的右二所示。

将本发明提出的基于角点的多方向文本检测方法进行端到端的训练，训练出的检测模型可以检测自然场景下的多方向的文本，并且在3个公开数据集(ICDAR-2013,ICDAT-2015,COCO-Text)下进行测试，F-measure(检测准确率和召回率的加权调和平均)分别达到了0.876，0.845，0.591，并且本申请的文本检测方法相比于传统检测方法在速度上也有较大提升。故，本申请的文本检测方法的在检测性能和检测效率上都有所提升，更适用于自然场景下的文本检测需求。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。