CN112446356B

CN112446356B - 基于多重极坐标的自然场景下任意形状文本的检测方法

Info

Publication number: CN112446356B
Application number: CN202011478345.XA
Authority: CN
Inventors: 王�琦; 杨创; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-05-24
Anticipated expiration: 2040-12-15
Also published as: CN112446356A

Abstract

本发明提供了一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先,通过多重数据增强模块对训练样本和标签进行数据增强，并将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像；然后，将语义特征图像输入到文本中心线掩膜生成模块，得到文本中心线掩膜图像，再通过文本中心点提取模块从文本中心线掩膜图像中提取出文本中心点；接着，利用文本中心点与文本轮廓间距预测模块计算得到其在不同方向上之间的距离；最后，利用文本轮廓生成模块对文本中心点进行位置移动、连接移动后所有像素点，得到最终的文本轮廓。本发明能够在较低的硬件需求环境下，以较快的速度实现对自然场景下任意形状文本的高精度检测。

Description

基于多重极坐标的自然场景下任意形状文本的检测方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于多重极坐标的自然场景下任意形状文本的检测方法。

背景技术

目前的文本检测方法主要分为两大类型：基于检测框架的方法和基于分割框架的方法。前者多集中在解决平行四边形文本的检测问题，其优点是检测速度相较于后者会比较快，硬件需求低，然而，实际生活中往往会碰到许多不规则形状的文本，此时基于检测框架的方法对这些不规则形状的文本实施检测时，则会产生较大的误差，无法真正的满足人类日常需求。后者的优势则在于可以对任意形状的文本进行检测，但这种方法在对任意形状文本进行检测时，通常将其视为像素级别的分类问题，在照片像素极高的今天，这类方法进行检测时所需的硬件内存较大，导致无法在一些轻量级的硬件设备上安装，而且执行速度慢，导致难以适用于实时性要求较高的应用场景。除此之外，这类方法在检测两个或多个距离比较近的文本时，容易将它们视为同一个文本，极容易导致文本粘连问题的产生。

发明内容

为了克服现有技术的不足，本发明提供一种基于多重极坐标的自然场景下任意形状文本的检测方法。首先，通过多重数据增强模块对训练样本和标签进行数据增强；接着，将增强后的图像输入至多尺度图像特征提取网络得到对应的语义特征图像，再将语义特征图像输入文本中心线掩膜生成模块，得到图像中所有的文本中心线掩膜；通过文本中心点提取模块从各个文本中心线掩膜中提取出对应的K个文本中心点，并根据文本中心点坐标位置从语义特征图像中提取出对应的像素位置特征值，输入到文本中心点与文本轮廓间距预测模块，得到文本中心点与文本轮廓分别在上、下、左、右、左上、右上、左下、右下8个方向上的距离；最后，将文本中心点坐标以及文本中心点与文本轮廓分别在上、下、左、右、左上、右上、左下、右下8个方向上的距离同时输入到文本轮廓生成模块中，得到最后的文本轮廓。本发明结合了基于检测框架和基于分割框架两种文本检测方法的优势，将自然场景下任意形状文本的检测问题建模为多目标回归问题，基于多重极坐标对文本轮廓点进行预测，完成自然场景下任意形状的文本检测。

一种基于多重极坐标的自然场景下任意形状文本的检测方法，其特征在于步骤如下：

步骤1：利用多重数据增强模块对输入图像、文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离分别进行数据增强处理，其中，以增强后的输入图像作为训练神经网络的样本，以增强后的文本中心点坐标、文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离作为样本的标签；

步骤2：将增强后的图像输入到多尺度图像特征提取网络，得到语义特征图像；其中所述的多尺度特征提取网络由ResNet网络后接FPN构成；

步骤3：将语义特征图像输入到文本中心线掩膜分割模块，输出得到图像中所有文本中心线掩膜，其中，文本中心线掩膜分割模块包括文本中心线掩膜分割网络和后处理模块两部分，将语义特征图像输入到文本中心线掩膜分割网络中，输出为预测的文本中心线掩膜图像，文本中心线掩膜图像输入到后处理模块，得到文本中心线掩膜；

所述的文本中心线掩膜分割网络由三个子层网络组成，第一子层网络由卷积层、BN层和ReLU层组成，第二子层网络为一个输出通道为1的卷积层，第三子层为激活函数Sigmoid层，第一子层网络对输入的语义特征图像进行平滑处理，接着通过第二子层网络得到文本中心线掩膜图像中每个像素是否属于文本像素的得分，最后通过第三子层将得分归一化至0～1区间内，得到所有像素是否属于文本像素的概率值；

所述的后处理模块的具体处理过程为：选择文本中心线掩膜图像中像素值大于0.5的像素构成文本中心线掩膜像素集合，提取集合中像素组成的各个连通区域，即得到图像中各个文本的中心线掩膜；

步骤4：利用文本中心点提取模块对各个文本中心线掩膜进行处理，得到各个文本的中心点，具体包括：

对于每个文本中心线掩膜，首先计算出所有像素之中横坐标的最大值与横坐标的最小值之间的差值，记为Lx，以及所有像素之中纵坐标的最大值与纵坐标的最小值之间的差值，记为Ly，如果Lx＞Ly，按照计算得到该文本中心线掩膜的第k个中心点横坐标x_k，在文本中心线掩膜上找到该横坐标对应像素的纵坐标y_k，否则，按照计算得到该文本中心线掩膜的第k个中心点纵坐标y_k，在文本中心线掩膜上找到该纵坐标对应像素的横坐标x_k，(x_k,y_k)即为该文本中心线掩膜的第k个文本中心点坐标，其中，x_min表示文本中心线掩膜所有像素横坐标的最小值，y_min表示每个文本中心线掩膜所有像素纵坐标的最小值，k＝1,2,…,K，K为设定的中心点个数，取值范围为[1,num_pts]，num_pts为组成文本中心线掩膜所有像素点的个数；

步骤5：提取步骤2得到的语义特征图像中每个文本中心线掩膜中的K个文本中心点坐标位置处的像素点特征值，并将像素值输入到文本中心点与文本轮廓间距预测模块，得到每个文本中心点分别在上、下、左、右、左上、右上、左下、右下8个方向上与文本轮廓之间的比例距离，记为d₁,d₂,…,d₈，并按照计算得到每个文本中心点与文本轮廓之间在8个方向上的真实距离，其中，k＝1,2,…,8，h表示输入图像的高，w表示输入图像的宽；

所述的文本中心点与文本轮廓间距预测模块由三个子层网络构成，第一层子网络由主由卷积层、BN层和ReLU层组成，第二层子网络为一个输出通道为8的卷积层，第三层子网络为激活函数Sigmoid层；第一子层网络对从语义特征图像中提取出文本中心点对应坐标位置的像素点特征值进行平滑处理，接着通过第二子层网络得到每个文本中心点与文本轮廓之间分别在8个方向上的比例距离得分，最后通过第三子层将比例距离得分归一化至0～1区间内，从而得到每个文本中心点与文本轮廓之间分别在8个方向上的比例距离；

步骤6：利用文本轮廓生成模块对文本中心点与文本轮廓分别在上、下、左、右、左上、右上、左下、右下8个方向上的真实距离进行处理，得到各个文本的轮廓，具体包括：

将每个文本中心线掩膜中的K个文本中心点分别由其坐标位置沿上、下、左、右、左上、右上、左下、右下8个方向移动步骤5所得到的相应的真实距离，每个文本中心点移动后得到8个新的像素点坐标，所有文本中心点均按此操作后得到的所有新的像素点坐标对应的像素即构成了文本的轮廓点集合，将这些轮廓点分别按照顺时针方向进行连接，得到文本轮廓。

本发明的有益效果：由于利用多重数据增强模块对样本及标签实现了针对性的数据增强，扩大了数据集规模，极大程度地提高了神经网络的泛化性能；由于采用了文本中心线掩膜分割网络和文本中心点提取模块相结合的处理方式，可以得到各个文本的K个中心点坐标，通过这些中心点坐标不但可以快速对任意形状文本进行一个大致定位，同时解决了文本粘连问题，即将相互紧挨着的文本有效的通过所属不同文本的文本中心点区分开；由于通过文本中心点与文本轮廓间距预测模块以及文本轮廓生成模块实现了对任意形状文本的快速精确定位，从而将任意形状文本的检测问题建模为多目标回归问题，大大提高了任意形状文本检测的准确度和速度；本发明可以在较低的硬件需求环境下，以较快的速度实现对自然场景下任意形状文本的高精度检测，特别在一些存在文本曲率较大以及文本粘连情况严重的情况下，相较于现有技术具有更好的性能表现。

附图说明

图1是本发明的基于多重极坐标的自然场景下任意形状文本的检测方法流程框图；

图2是根据文本中心线掩膜生成文本中心点的过程示意图；

图3是根据文本中心点生成文本轮廓点的过程示意图；

图4是从文本中心线掩膜到最终生成文本轮廓的过程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于多重极坐标的自然场景下任意形状文本的检测方法，其实现过程如下：

1、进行多重数据增强

对于给定输入图像极其标签(文本中心点坐标以及文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离)首先通过多重数据增强模块进行数据增强处理，主要包括对图像和标签同步进行：随机翻转、随机旋转、随机缩放、随机添加噪声、随机模糊、随机擦除部分像素块、随机将部分像素块填充为黑色、随机更改颜色通道、随机调整亮度以及对比度、固定小尺寸随机裁剪等操作。

将增强后的图像作为训练神经网络的样本，增强后的文本中心点坐标以及文本中心点与文本轮廓之间在上、下、左、右、左上、右上、左下、右下8个方向上的距离作为样本的标签。通过一系列数据增强操作后，整个数据集的样本及标签在不发生重复的情况下，数量极大的增加了。相较于数据增强之前的原数据集来说，神经网络在更大的且多样性更强的数据集上进行训练，可以极大地增强网络的泛化能力。同时通过将训练样本以及标签的尺寸大小裁剪到较小的尺寸后再送入网络进行训练，使得网络在每一轮训练时，所需的显卡内存相较于裁剪之前样本和标签更小，从而在一定程度上解决网络训练时的硬件环境限制。

2、提取多尺度图像特征

对于增强后的图像首先需要进行多尺度图像特征提取，这主要通过本发明中的多尺度图像特征提取网络实现，该模块主要由ResNet结合FPN(Feature Pyramid Networks)构成，其中，ResNet记录在文献“K.He,X.Zhang,S.Ren,and J.Sun,Deep ResidualLearning for Image Recognition,Proc.IEEE Conf.CVPR,pp.770-778,2016”中。FPN记录在文献“Y.Lin,P.Dollár,R.Girshick,K.He,B.Hariharan,and S.Belongie,FeaturePyramid Networks for Object Detection,Proc.IEEE Conf.CVPR,pp.2117-2125,2017”中。

通过ResNet和FPN可以扩大模型的感受视野，从而对不同大小的文本都有一个良好的检测效果。通常文本中心线掩膜通常比较细长，检测难度较大，因此本发明结合了ResNet和FPN来实现多尺度图像特征的提取，增强文本中心线掩膜的提取效果。具体来说，就是首先通过ResNet提取出输入图像对应的多个不同尺度的语义特征图像，其中小尺度的语义特征图像比较关注图像的全局信息，而大尺度的语义特征图像更加关注图像的局部细节信息。为了能得到能同时拥有全局信息以及局部细节信息的语义特征图像，还需将这些不同尺度的语义特征图像输入到FPN中进行融合，具体来说就是将小尺度的语义特征图像通过双线性插值方法放大至大尺度的语义特征图像尺寸大小，接着将其与原大尺度语义特征图像进行对应位置像素相加操作，最终将相加后得到的大尺度语义特征图像进行卷积操作即可得到增强后的多尺度图像语义特征。

3、生成文本中心线掩膜

文本中心线掩膜的生成首先通过文本中心线掩膜分割网络分割出文本中心线掩膜像素，接着通过相应的后处理模块得到各个文本中心线掩膜。具体来说，文本中心线掩膜分割网络由三层子网络组成，第一子层网络由卷积层、BN层和ReLU层组成，第二子层网络为一个输出通道为1的卷积层，第三子层为激活函数Sigmoid层。通过步骤2中的多尺度图像特征提取网络提取出输入图像的多尺度语义特征图后，中心线掩膜分割网络首先通过第一层网络对所提取的多尺度语义特征图进行平滑处理，接着通过第二层网络逐像素对图像的所有像素是否属于文本像素进行打分，最后通过激活函数层将所有像素的得分归一化至0～1区间内，从而将所有像素是否属于文本像素的得分换为概率值。后处理模块的处理过程为：当概率值大于阈值h时即可认为该像素属于文本像素，反之则不属于文本像素，此处的阈值h取值为0.5，所有概率大于阈值的像素共同组成图像中所有文本的中心线掩膜像素集合。有了文本中心线掩膜像素集合后，依次提取出由文本中心线掩膜像素组成的各个连通区域，即可得到图像中的各个文本中心线掩膜，其中一个文本对应一个文本中心线掩膜。

4、提取文本中心点

经过步骤3得到文本的中心线掩膜后，通过文本中心点提取模块即可分别得到图像中每个文本的K个中心点，K为设定的中心点个数，取值范围为[1,num_pts]，num_pts为组成中心线掩膜所有像素点的个数。

文本中心点提取模块实质是一种基于中心线掩膜获取中心点坐标的方法，过程示意图如图2所示。具体来说，该模块首先遍历所有像素得到中心线掩膜的所有像素坐标，统计得到这些像素坐标中分别沿x和y轴上的最大、最小值即x_min、x_max、y_min、y_max,同时取L_x＝x_max-x_min,L_y＝y_max-y_min，当L_y≤L_x时，通过得到所有中心线坐标沿y轴方向的等间距d_y，反之则通过/>得到所有中心线坐标沿x轴方向的等间距d_x。如图2所示，此时L_x>L_y，并且K取值为3，那么就可以通过x_k＝x_min+(k-1)*d_x计算出这3个文本中心点的横坐标(x₁,x₂,x₃)。最后，通过这些横坐标从文本中心线掩膜的所有像素坐标中找到对应的纵坐标(y₁,y₂,y₃)，即可得到这个文本三中心点的完整坐标(x₁,y₁,x₂,y₂,x₃,y₃)。

对于步骤3得到的每一个文本中心线掩膜，均采用上述方法提取出对应文本中心点坐标。

5、预测文本中心点与文本轮廓之间间距

通过步骤4得到图像中所有文本的所有中心点后，即可通过文本中心点与文本轮廓间距预测模块即可得到每个文本中心点分别在上、下、左、右、左上、右上、左下、右下8个方向上与文本轮廓之间的比例距离。文本中心点与文本轮廓间距预测模块由三层子网络构成，其中第一层网络由卷积层、BN层以及ReLU层组成，用于对输入的图像特征进行平滑操作、第二层网络是一个单独的输出通道为8的卷积层用于输出比例距离得分，第三层网络则是由激活函数Sigmoid构成用于得到最终大小范围在0～1内的比例距离。与文本中心线掩膜分割网络的相同之处在于最后的输出也是0～1范围间的值，但不同的是，首先文本中心点与文本轮廓间距预测模块中的三层子网络的输入是步骤2中输出的语义特征图中文本中心点位置对应的特征值，且最后的输出通道为8个通道，每个通道得到一个0～1范围间的值，代表的是每个文本中心点所处坐标位置分别沿上、下、左、右、左上、右上、左下、右下8个方向与文本轮廓之间的比例距离。将这8个方向的比例距离分别记为d₁,d₂,…,d₈，其中，下标1对应方向上，2对应方向下，3对应方向左，4对应方向右，5对应方向左上，6对应方向右上，7对应方向左下，8对应方向右下。通过三层子网络得到比例距离后，还需要通过后处理算法得到对应的真实距离，具体来说就是通过计算得到真实距离D₁,D₂,…,D₈，其中，h为图像高度，w为图像宽度。

6、生成文本轮廓

对于每个文本中心线掩膜，将其按步骤4得到的K个文本中心点以及步骤5得到的各个文本中心点在上、下、左、右、左上、右上、左下、右下8个方向与文本轮廓之间的真实距离输入到文本轮廓生成模块即可得到所有文本中心线掩膜对应的文本轮廓。具体来说，就是将各个文本中心线掩膜所包含的K个文本中心点都分别沿上、下、左、右、左上、右上、左下、右下8个方向移动相应的真实距离，因此每个文本中心线掩膜都将得到8*K个文本轮廓点，如图3所示，对于某一个文本中心点(x,y)来说，其分别沿上、下、左、右、左上、右上、左下、右下8个方向移动相应的真实距离后得到的8*K个像素点坐标通过如下方式计算：假设D₁,D₂,…,D₈分别为文本中心点(x,y)在上、下、左、右、左上、右上、左下、右下8个方向上与文本轮廓之间的真实距离，那么从文本中心点(x,y)分别沿8个方向移动相应的真实距离得到的8个坐标分别可以通过如下公式计算得到：

x₁＝x，y₁＝y+D₁ (1)

x₂＝x，y₂＝y-D₂ (2)

x₃＝x-D₃，y₃＝y (3)

x₄＝x+D₃，y₄＝y (4)

其中，(x₁,y₁),(x₂,y₂),…,(x₈,y₈)分别代表文本中心点坐标(x,y)在沿上、下、左、右、左上、右上、左下、右下8个方向移动相应的真实距离后得到的文本轮廓点，其中D_i(i＝1,2,…,8)为步骤5中所求得的真实距离。

通过上述方法计算得到图像中各个文本的8*K个轮廓点后，再分别将每个文本的8*K个轮廓点分别按照顺时针方向进行连接即可得到对应文本的轮廓，由文本中心线掩膜生成文本轮廓的整体过程示意图如图4所示。

Claims

1.一种基于多重极坐标的自然场景下任意形状文本的检测方法，其特征在于步骤如下：

步骤2：将增强后的图像输入到多尺度图像特征提取网络，得到语义特征图像；其中所述的多尺度图像特征提取网络由ResNet网络后接FPN构成；