CN110598708B

CN110598708B - 一种街景文本目标识别检测方法

Info

Publication number: CN110598708B
Application number: CN201910729858.4A
Authority: CN
Inventors: 黄和锟; 杨帆; 黄国恒
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-09-23
Anticipated expiration: 2039-08-08
Also published as: CN110598708A

Abstract

本发明涉及数字图像识别技术领域，提出一种街景文本目标识别检测方法，包括以下步骤：输入待检测的街景图片，通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割，得到待检测的目标区域；读取待检测的目标区域的所有像素，然后将所有像素的点坐标拟合得到曲线F；根据曲线F对待检测的目标区域进行分割，得到n段曲线F_i和目标区域块S_i；在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务，得到其圆心、半径、夹角参数；对目标区域块S_i的上界曲线和下界曲线进行拟合，计算目标区域块S_i的上界曲线半径和下界曲线半径；将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。

Description

一种街景文本目标识别检测方法

技术领域

本发明涉及数字图像识别处理技术领域，更具体地，涉及一种街景文本目标识别检测方法。

背景技术

随着互联网的快速发展，尤其是图形处理器(Graphics Processing Unit，GPU)技术取得长足进步，深度学习所取得的进展越来越大，因此图像识别技术越来越火热，近年来出现了各类目标检测算法，比如Faster R-CNN，CTPN等技术，给图像识别带来了极大的推动作用。

然而，目前应用于街景文本目标识别检测的算法均具有一定的局限性：(1)基于轴对齐方式矩形框的文本目标识别方法，这种方法比较简单，但是只适用于检测水平和竖直的街景文本或普通的文本，而街景图像中的文本为了美观，其形状设计大部分为弯曲或无规则的，在实际使用过程中，基于矩形框的文本目标识别会框入大量无关的背景区域；(2)基于旋转矩形框的文本目标识别方法，是在轴对齐方式矩形框的基础上引入一个角度变量，但是这种方法对于弯曲的街景图像文本目标识别效果依然不能满足需求，同样会框入无关的背景区域，使文本目标识别结果含有较多的噪声。

发明内容

本发明为克服上述现有技术所述的街景图像文本目标识别结果中框有大量无关背景区域，使文本目标识别结果含有噪声的缺陷，提供一种街景文本目标识别检测方法。

为解决上述技术问题，本发明的技术方案如下：

一种街景文本目标识别检测方法，包括以下步骤：

S1：输入待检测的街景图片，通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割，得到待检测的目标区域；

S2：读取待检测的目标区域的所有像素，然后将所有像素的点坐标拟合得到曲线F的表达式y＝f(x)；

S3：根据曲线F对待检测的目标区域进行分割，得到n段曲线F_i和目标区域块S_i，其中i＝1,2,...,n，且n为正整数；

S4：在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务，得到曲线F_i的圆心、半径、夹角参数；

S5：对目标区域块S_i的上界曲线和下界曲线进行拟合，计算目标区域块S_i的上界曲线半径和下界曲线半径；

S6：将所得到的圆心、半径、夹角参数、上界曲线半径、下界曲线半径组成有序集合T作为检测结果进行输出。

本技术方案中，通过全卷积网络(FCN)和特征金字塔(FPN)将待检测的街景图像进行图像分割，获得预测的街景文本轮廓区域，即待检测的目标区域，然后再对已经分割好的待检测的目标区域进行映射，其中，由于全卷积网络对输入的图像的每一个像素在输出时分别进行相应的判断，判断该像素可能属于哪一个分类，因此可以对输入的街景图像进行标注和判断，然后通过特征金字塔对整个图像进行分割，将经过全卷积网络输出的缩小为1/32的图像进行scale缩放，直到图像缩小为一个像素，从而形成金字塔形状，考虑到底层的特征语义信息比较少，而高层的特征语义相当丰富，但是识别目标的位置比较模糊，在本技术方案中，位于高层的特征通过不断的上采样并结合底层的特征，实现每层的像素级独立预测，得到精准的待检测目标区域。在对待检测目标区域进行映射过程中，通过读取待检测目标区域的像素得到拟合的曲线F，其中曲线F表示待检测目标区域的大致形状，根据曲线F对待检测目标区域进行分割，得到若干目标区域块，再进一步分别识别，获取所有目标区域块的圆心、半径、夹角参数、上界曲线半径、下界曲线半径，将上述参数组成有序集合作为检测结果进行输出。在具体实际应用时，图像识别器可根据所输出的检测结果对弯曲的文本图像进行分段处理并框出。

优选地，S1步骤中的全卷积网络中，包括依次连接的5个卷积层、池化层组合。

优选地，S3步骤中，根据曲线F对待检测的目标区域进行分割的具体步骤如下：

S3.1：对曲线F进行微积分二次求导，其求导公式为：y″＝d²y/dx²，令y″＝0，得到n-1个拐点A；其中x，y为曲线F上的像素在图像中的横坐标和纵坐标；

S3.2：以所述拐点A作为分界线，获得n段曲线F_i以及n个待检测的目标区域块S_i，其中待检测的目标区域块S_i为扇形环状片段。

优选地，S4步骤中，在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务的具体步骤如下：依次将曲线F_i与圆的表达式(x-x_i)²+(y-y_i)²＝r_i ²做回归任务，得到圆心(x_i,y_i)的最小损失函数，从而得到曲线F_i的圆心(x_i,y_i)、半径r_i和夹角θ_i。

优选地，S5步骤中，计算目标区域块S_i的上界曲线半径和下界曲线半径的具体步骤如下：

S5.1：读取目标区域块S_i的上界曲线像素和下界曲线像素，拟合得到上界曲线的表达式y＝U(x)和下界曲线的表达式y＝D(x)；

S5.2：将上界曲线与下界曲线分别进行回归任务，根据曲线F_i的圆心(x_i,y_i)，计算上界曲线半径R_i1和下界曲线半径R_i2，其计算公式如下：

(x-x_i)²+(y-y_i)²＝(R_i1-R_i2)²。

优选地，S6步骤中，有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径，其具体表达式为：T＝{S₁,S₂,...,S_i,...,S_n}，其中S_i＝{(x_i,y_i),θ_i,R_i1,R_i2}。

与现有技术相比，本发明技术方案的有益效果是：通过全卷积网络和特征金字塔，能够得到精准的待检测目标区域；通过将待检测的目标区域分割为若干扇形或环形区域块，然后分别对其进行文本位置参数的计算，能够得到精准的文本位置信息并输出，实现对弯曲、倾斜或不规则的街景图像文本的识别检测，有效减少文本识别结果的噪声，使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。

附图说明

图1为本实施例的街景文本目标识别检测方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的街景文本目标识别检测方法的流程图。

本实施例提出一种街景文本目标识别检测方法，包括以下步骤：

S1：输入待检测的街景图片，通过结合全卷积网络和特征金字塔对待检测的街景图片进行图像分割，得到待检测的目标区域。

本实施例中，所使用的全卷积网络包括依次连接的5个卷积层、池化层组合。

S2：读取待检测的目标区域的所有像素，然后将所有像素的点坐标拟合得到曲线F的表达式y＝f(x)。

S3：根据曲线F对待检测的目标区域进行分割，得到n段曲线F_i和目标区域块S_i，其中i＝1,2,...,n，且n为正整数；其具体步骤如下：

S4：在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务，得到曲线F_i的圆心、半径、夹角参数。

本步骤中，在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务的具体步骤如下：依次将曲线F_i与圆的表达式(x-x_i)²+(y-y_i)²＝r_i ²做回归任务，得到圆心(x_i,y_i)的最小损失函数，从而得到曲线F_i的圆心(x_i,y_i)、半径r_i和夹角θ_i。

S5：对目标区域块S_i的上界曲线和下界曲线进行拟合，计算目标区域块S_i的上界曲线半径和下界曲线半径；其具体步骤如下：

(x-x_i)²+(y-y_i)²＝(R_i1-R_i2)²。

本步骤中，输出的有序集合T的具体表达式如下：

T＝{S₁,S₂,...,S_i,...,S_n}，其中S_i＝{(x_i,y_i),θ_i,R_i1,R_i2}。

本实施例中所提出的街景文本目标识别检测方法，主要通过将待检测的街景文本分解为若干个扇形或环形片段，并分别计算所述扇形或环形片段的圆心、半径、夹角半径、上界曲线半径、下界曲线半径，然后根据所获取的参数对该扇形或环形片段进行精确框出，从而能够实现对弯曲、倾斜或不规则的街景图像文本目标进行精确的识别检测，能够有效减少文本目标识别结果的噪声干扰，使文本目标识别结果能够更好地应用于后续的文本识别及信息提取。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种街景文本目标识别检测方法，其特征在于，包括以下步骤：

S4：在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务，得到目标区域块S_i的圆心、半径、夹角参数；

S5：对目标区域块S_i的上界曲线和下界曲线进行拟合，计算曲线F_i的的上界曲线半径和下界曲线半径；

2.根据权利要求1所述的街景文本目标识别检测方法，其特征在于：所述S1步骤中的全卷积网络中，包括依次连接的5个卷积层、池化层组合。

3.根据权利要求1所述的街景文本目标识别检测方法，其特征在于：所述S3步骤中，根据曲线F对待检测的目标区域进行分割的具体步骤如下：

4.根据权利要求1所述的街景文本目标识别检测方法，其特征在于：所述S4步骤中，在每一段曲线F_i及其对应的目标区域块S_i中进行回归任务的具体步骤如下：依次将曲线F_i与圆的表达式(x-x_i)²+(y-y_i)²＝r_i ²做回归任务，得到圆心(x_i,y_i)的最小损失函数，从而得到曲线F_i的圆心(x_i,y_i)、半径r_i和夹角θ_i。

5.根据权利要求4所述的街景文本目标识别检测方法，其特征在于：所述S5步骤中，计算目标区域块S_i的上界曲线半径和下界曲线半径的具体步骤如下：

(x-x_i)²+(y-y_i)²＝(R_i1-R_i2)²。

6.根据权利要求1所述的街景文本目标识别检测方法，其特征在于：所述S6步骤中，所述有序集合T包括所有待检测的目标区域块Si的圆心、半径、夹角参数、上界曲线半径、下界曲线半径，其具体表达式为：T＝{S₁,S₂,...,S_i,...,S_n}，其中S_i＝{(x_i,y_i),θ_i,R_i1,R_i2}。