CN113159020A

CN113159020A - 基于核尺度扩张的文本检测方法

Info

Publication number: CN113159020A
Application number: CN202110262362.8A
Authority: CN
Inventors: 刘义江; 陈蕾; 侯栋梁; 池建昆; 范辉; 阎鹏飞; 魏明磊; 李云超; 姜琳琳; 辛锐; 陈曦; 杨青; 沈静文; 吴彦巧; 姜敬; 檀小亚; 师孜晗
Original assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Current assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-07-23
Anticipated expiration: 2041-03-10
Also published as: CN113159020B

Abstract

本发明公开了一种基于核尺度扩张的文本检测方法，涉及文本检测技术领域，尤其是一种文本检测方法，包括如下步骤：通过ResNet18网络对图片提取特征；通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征；对所述融合特征提取不同尺度的文本中心核以及提取全局特征；利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合得到最终的检测结果。本发明主要针对自然场景下中的复杂文本内容进行检测。通过基于分割的思想对文本预测多种核来避免常见的粘连问题，同时全局特征的使用进一步修正来生成的区域。该方法能够有效的解决复杂环境下的文本检测问题。

Description

基于核尺度扩张的文本检测方法

技术领域

本发明涉及文本检测技术领域，尤其是一种基于核尺度扩张的文本检测方法。

背景技术

文本检测作为计算机视觉的一个子任务，在自动驾驶、古籍恢复、图片检索等领域均有着广泛的应用场景，近年来也吸引了大量研究人员的兴趣。随着深度学习的发展，文本检测领域已经取得了极大的进展，在传统的印刷/扫描字体上达到了较好的效果。然而发展至今，文本检测面临的更多的是自然场景下的文本检测问题。其检测环境更加复杂，如低光照、反射光、背景多变，检测的内容也多变，如透视字体、艺术字体、弯曲文本等。

现有的文本检测方法主要分为传统方法以及基于深度学习等方法。传统方法主要是借助笔画信息、直方图等方法提取特征，或利用手工设计的特征输入到系统中进行检测，传统的方法处理过程复杂且精度不高。基于深度学习的方法直接将图片输入到神经网络得到最终检测结果。基于深度学习的方法可以进一步分为基于回归的方法和基于分割的方法。基于回归的方法处理速度较快，通过边界点可以快速得到检测结果，但是对于弯曲文本等较为复杂的文本效果较差，无法很好的回归边界。基于分割的方法能够检测任意形状的文本，但是无法很好的分离边界很接近的文本，且后处理操作通常比较花费时间。本专利主要用于解决自然场景下的文本检测问题。

发明内容：

本发明提供了一种基于核尺度扩张的文本检测方法，用于解决现有技术中自然场景下文本检测变形字体效果差或后处理操作比较花费时间的问题。

本发明采用如下技术方案：

本发明的技术方案主要模块包括如下：该系统包括三个部分，第一部分是基于resnet18的图片特征提取模块；第二部分采用FPN进行不同尺度的信息融合；第三部分包含两个分支，基于融合的特征产生分别产生三种文本中心核并提取全局特征，最后利用本文提出区域权重算法优化边界，得到最终检测结果。在第一部分中，基于对速度的考量，我们使用了ResNet18作为骨干网络进行特征提取，并去掉了最后的池化层和全连接层。第二部分中，我们借助于特征金字塔模块的思想构建了类似FPN的结构来进行语义信息增强，对第一部分中ResNet18得到的多种不同尺度特征进行融合。在第三部分中，利用两个分支产生不同的输出：第一个分支利用卷积网络生成待预测文本内容的三种尺度的中心核，用以生成检测内容；第二个分支提取文本全局特征，用来修正文本边界，最后利用区域权重算法将由多种中心核得到的检测区域合成最终的检测结果。

一种基于核尺度扩张的文本检测方法，包括如下步骤：

S100：通过ResNet18网络对图片提取特征；

S200：通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息，并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征；

S300：对所述融合特征提取不同尺度的文本中心核以及提取全局特征；

S400：利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合，得到最终的检测结果。

进一步地，所述ResNet18网络为去掉最后的池化层和全连接层的神经网络。

进一步地，还包括如下步骤：S210：对于所述融合特征，利用1x1的卷积核对所述融合特征进行降维处理。

进一步地，所述不同尺度的文本中心核部分包括三种尺寸的核。

进一步地，利用Vatti算法对所述融合特征计算出文本区域缩小后的中心区域作为最大尺寸的文本中心核，所述最大尺寸的文本中心核主要用来定位文本。

进一步地，利用Vatti算法对所述最大尺寸的文本中心核进一步缩小文本区域，获得中等尺寸的文本核，所述中等尺寸的文本核主要用于剔除待检测文本内容中冗余背景信息。

进一步地，最小尺寸的文本核计算方式为：先找到文本区域标注的左上、右上、右下以及左下四个点；之后分别对上边界和下边界做七等分采样得到六个采样点；再利用上下边界的八对边界点分别计算出对应的中心点坐标；最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标，该十六个坐标的表示的区域即为所述最小尺寸的中心核区域，所述最小尺寸的文本核为文本的中心像素点所构成的区域，用于避免粘连问题以及区分开文本内部的文本。

进一步地，区域权重算法如下：首先生成一张与原图大小相同的像素值全0的空白图F；其次利用Vatti算法对所述最大尺寸的文本中心核进行外扩，在图F的对应位置标记为1；之后对所述中等尺寸的文本中心核外扩，若存在像素值为0的像素点则设置为第一权重值；再对所述最小尺寸中心核区域向周围遍历像素点，若进入另外一个所述最小尺寸中心核区域内，则证明出现了粘连问题，计算两个中心核的中心区域设置为0以区分不同文本；之后利用提取的全局特征遍历整张图，若在所述全局特征区域外存在像素值不为0的像素点则标记第二权重值；最后对该图做二值化，并利用opencv获取最终检测区域。

进一步地，所述第一权重值为0.7。

进一步地，所述第二权重值为0.3。

该文本检测方法包含以下主要步骤：

(1)输入图片后先经过ResNet18提取特征。其中，ResNet18最后的池化层和全连接层被去掉，只使用前五个block。

(2)由于ResNet18只能提取到图片的空间特征，而仅使用空间特征来进行检测是不够的，因此需要将ResNet18提取的特征进一步输入到FPN网络中，FPN网络可以用来提取深层语义信息，将FPN提取的语义信息与ResNet18提取的空间特征信息融合后得到不同图片不同尺度下的特征，能够使得在预测不同尺度的文字时更加的更具有鲁棒性。对于融合后的特征，利用1x1的卷积核进行卷积操作，对特征进行降维处理来减少运算时的参数。

(3)经过FPN得到的融合特征被用来产生不同尺度的文本中心核以及提取全局特征。文本中心核部分包含了三种尺寸的核。最大的文本中心核是依据Vatti算法，根据文本区域的面积核周长缩小后的核，主要用来定位文本；中等尺寸的文本核，是在最大文本核的基础上缩小为二分之一，主要用来剔除待检测文本内容中冗余背景信息；最小尺寸的文本核为文本的中心像素点所构成的区域，用来避免粘连问题以及区分开文本内部的文本。生成的文本核最终外扩形成检测区域，然而在实践过程中发现，直接外扩形成的边界区域是存在缺陷的，因此本方法中还利用全局特征来修正边缘区域。

(4)得到全局特征以及三种尺度的文本中心核后，利用本文提出的区域权重算法进行区域融合，得到最终的检测结果。区域权重算法如下：首先生成一张与原图大小相同的像素值全0的空白图F；其次利用Vatti算法对最大的文本中心核进行外扩，在图F的对应位置标记为1；之后对中等尺寸的文本中心核外扩，若存在像素值为0的像素点则设置为0.7；再对最小中心核区域向周围遍历像素点，若进入另外一个最小中心核区域内，则证明出现了粘连问题，计算两个中心核的中心区域设置为0以区分不同文本；之后利用提取的全局特征遍历整张图，若在全局特征区域外存在像素值不为0的像素点则标记0.3；最后对该图做二值化，并利用opencv获取最终检测区域。

本发明的积极效果如下：

一种基于核尺度扩张的文本检测方法，包括如下步骤：

S100：通过ResNet18网络对图片提取特征；

本发明主要针对自然场景下中的复杂文本内容进行检测。通过基于分割的思想对文本预测多种核来避免常见的粘连问题，同时全局特征的使用进一步修正来生成的区域。该方法能够有效的解决复杂环境下的文本检测问题。

附图说明

图1为本发明实施方式神经网络模型结构图；

图2为本发明实施方式中心核预测分支及全局特征提取分支图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

如图1-2所示，本发明提供了一种基于核尺度扩张的文本检测方法，用于解决现有技术中自然场景下文本检测变形字体效果差或后处理操作比较花费时间的问题。

本发明采用如下技术方案：

一种基于核尺度扩张的文本检测方法，包括如下步骤：

S100：通过ResNet18网络对图片提取特征；

进一步地，所述第一权重值为0.7。

进一步地，所述第二权重值为0.3。

该文本检测方法包含以下主要步骤：

下面是本发明的一个具体实施案例：

本发明提供了一个基于文本核尺度扩张的全局特征修正边缘的文本检测方法，具体过程如下：

(1)标签制作

文本中心核标签制作：

现有图片的标注只提供了文本边界的坐标点，一般为四个顶点(水平或垂直文本)或者十四个点(弯曲文本)，因此需要先进行转换生成对应的标签。首先利用Vatti算法生成最大尺寸的文本中心核对应的标签，Vatti算法的公式如下：

其中A'表示所标注的文本区域的面积，L'为该文本区域的周长，r'是根据需求所设定的值，在本方法中设置为0.4。利用该公式可计算出文本区域缩小后的中心区域，可以作为最大尺寸的文本中心核的对应标签来定位文本。在此基础上继续利用Vatti算法缩小文本区域，本次r'设置为0.5，得到中等尺寸文本中心核对应的标签。最小尺寸的文本中心核的标签对应文本区域中心宽度为3的像素集合，其计算方式为：先找到文本区域标注的左上、右上、右下以及左下四个点；之后分别对上边界和下边界做七等分采样得到六个采样点；再利用上下边界的八对边界点分别计算出对应的中心点坐标；最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标，该十六个坐标的表示的区域即为最小尺寸的中心核区域。

全局特征标签制作：

全局特征用来描述整个文本的信息。先使用Vatti算法对标注区域进行缩放，r'设置为0.4，之后再利用Vatti算法对该区域扩大，r'设置为2，能够得到较为平整的文本区域信息。

(2)基于文本核尺度扩张的全局特征修正边缘的文本区域预测

图片被送入ResNet18后先进行特征提取，依次得到原图大小1/4,1/8,1/16和1/32大小的特征图，之后对每个特征图进行上采样，得到大小为1/16、1/8、1/4的包含语义信息的特征图，并与ResNet18的结果进行逐元素相加，之后，对不同层级的特征图做上采样操作到原图的1/4并进行拼接融合，最后利用1x1的卷积操作对不同通道上的特征的融合和降维。

融合后的特征先送入文本中心核分支预测三种尺寸的文本中心核，同时送入全局特征提取分支过去全局特征信息。该分支均由三层卷积层、池化层构成。其详细设置如图2所示。

得到文本中心核并提取到全局特征后即可按照本方法中提出的区域权重算法修正边缘得到最终的检测结果。

(3)模型训练

文本图片输入后先经过预处理，本方法采用的预处理操作有：随机旋转角度，将原图按比例缩小(扩大)至原图的0.5～2倍，统一随机裁剪为360×360大小，调整饱和度、对比度核色相。

预处理的图片随后送入网络经过特征提取、特征融合后在预测出对应的检测区域优化的目标函数为：

L＝L_max+L_mid+L_min+λ×L_g (2)

L表示loss总和，其中Lmax表示最大尺寸文本中心核上的loss，Lmid表示中等尺寸文本中心核上的loss，Lmin表示最小尺寸文本中心核上的loss，Lg表示全局特征的损失。其中Lmax、Lmid和Lmin采用BCE损失函数，公式如下：

其中，Sl表示文本区域，本方法使用了OHEM来避免负样本过多。此外，yi表示真实值，xi表示预测值。

Lg采用来L1损失函数，公式如下：

本方法的优化器选用SGD来计算梯度并进行反向传播。训练的batch size设置为12，总共训练600个epoch。

(4)模型应用

在完成600个epoch的训练后选取其中损失函数值最小用于实际应用。在应用过程中不再需要对图片进行数据增强。将图片输入到模型后，最终可得到对应文本区域的边界预测坐标点。

以上实施方式仅为本发明的优选实施例，而并非本发明可行实施的穷举。对于本领域一般技术人员而言，在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动，都应当被认为包含在本发明的权利要求保护范围之内。

Claims

1.一种基于核尺度扩张的文本检测方法，其特征在于，包括如下步骤：

S100：通过ResNet18网络对图片提取特征；

2.根据权利要求1所述的基于核尺度扩张的文本检测方法，其特征在于，所述ResNet18网络为去掉最后的池化层和全连接层的神经网络。

3.根据权利要求2所述的基于核尺度扩张的文本检测方法，其特征在于，还包括如下步骤：S210：对于所述融合特征，利用1x1的卷积核对所述融合特征进行降维处理。

4.根据权利要求3所述的基于核尺度扩张的文本检测方法，其特征在于，所述不同尺度的文本中心核部分包括三种尺寸的核。

5.根据权利要求4所述的基于核尺度扩张的文本检测方法，其特征在于，利用Vatti算法对所述融合特征计算出文本区域缩小后的中心区域作为最大尺寸的文本中心核，所述最大尺寸的文本中心核用来定位文本。

6.根据权利要求5所述的基于核尺度扩张的文本检测方法，其特征在于，利用Vatti算法对所述最大尺寸的文本中心核进一步缩小文本区域，获得中等尺寸的文本核，所述中等尺寸的文本核用于剔除待检测文本内容中冗余背景信息。

7.根据权利要求6所述的基于核尺度扩张的文本检测方法，其特征在于，最小尺寸的文本核计算方式为：先找到文本区域标注的左上、右上、右下以及左下四个点；之后分别对上边界和下边界做七等分采样得到六个采样点；再利用上下边界的八对边界点分别计算出对应的中心点坐标；最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标，该十六个坐标的表示的区域即为所述最小尺寸的中心核区域，所述最小尺寸的文本核为文本的中心像素点所构成的区域，用于避免粘连问题以及区分开文本内部的文本。

8.根据权利要求7所述的基于核尺度扩张的文本检测方法，其特征在于，区域权重算法如下：首先生成一张与原图大小相同的像素值全0的空白图F；其次利用Vatti算法对所述最大尺寸的文本中心核进行外扩，在图F的对应位置标记为1；之后对所述中等尺寸的文本中心核外扩，若存在像素值为0的像素点则设置为第一权重值；再对所述最小尺寸中心核区域向周围遍历像素点，若进入另外一个所述最小尺寸中心核区域内，则证明出现了粘连问题，计算两个中心核的中心区域设置为0以区分不同文本；之后利用提取的全局特征遍历整张图，若在所述全局特征区域外存在像素值不为0的像素点则标记第二权重值；最后对该图做二值化，并利用opencv获取最终检测区域。

9.根据权利要求8所述的基于核尺度扩张的文本检测方法，其特征在于，所述第一权重值为0.7。

10.根据权利要求9所述的基于核尺度扩张的文本检测方法，其特征在于，所述第二权重值为0.3。