CN115578721A

CN115578721A - 一种基于注意力特征融合的街景文本实时检测方法

Info

Publication number: CN115578721A
Application number: CN202211158425.6A
Authority: CN
Inventors: 高楠; 张雷; 李宇凯; 陈朋
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-06

Abstract

本发明提出了一种基于注意力特征融合的街景文本实时检测方法，包含以下步骤：获取含有文字的待检测图像；通过特征提取网络对待检测图像进行特征提取得到多尺度特征图，且在顶层特征图上使用空洞金字塔注意力特征增强模块进行信息增强；采用全局注意力上采样方式进行多尺度特征融合；输出网络预测结果，使用后处理方法进行文本重建，得到最终的文本实例。本方法相比于现有的街景实时文本检测方法，在实时性与精确上有一定的提升。

Description

一种基于注意力特征融合的街景文本实时检测方法

技术领域：

本发明涉及一种基于注意力特征融合的街景文本实时检测方法，属于计算机视觉处理技术领域。

技术背景：

街景文本检测，旨在对图像中的文本区域进行定位，通常使用矩形框或多边形框标示出图像中文本所在区域。基于自然场景下的文本检测，需要克服背景干扰、文字宽高比多变、文字方向多变和小文本对文本检测带来的检测复杂性，目前是计算机视觉领域最具挑战的课题之一。

目前，基于深度学习的街景文本检测方法包括二种：基于边框回归的方法、基于图像分割的方法。

(1)基于边框回归的方法。是将文本作为对象直接预测候选边界框，结构简单，可以成功定位具有一定方向的矩形或四边形的文本目标。通常是受目标检测的启发，如Faster R-CNN、SSD、yolo等。但是大多数需要复杂的候选框设计和多阶段的复杂处理，并且大多数方法只能检测水平方向的文本，检测精度也有待提升。

(2)基于分割的文本检测方法。将街景文本的检测定位问题，转化为街景文本与背景的语义分割问题，通常是将像素级预测和后处理算法相结合来得到边界框。该类方法通常基于全卷积网络FCN，首先利用语义分割算法分割街景图片的前景(文本区域)和背景，然后通过精细分割算法或者神经网络对文本区域进一步分割以区分不同文本实例，最终输出文本实例位置和相关属性。但是该方法在文本和非文本内容距离较近时，仅仅使用文本和非文本的二分类语义分割难以区分，复杂的后处理过程是不可避免，因此该类方法较为耗时。

发明内容：

本发明要克服现有的网络存在运行速度慢、模型庞大、文本漏检、错检等问题，提出一种基于注意力特征融合的街景文本实时检测方法，可以更好的检测出文本信息，同时在速度上有一定提升。

一种基于注意力特征融合的街景文本实时检测方法，包括以下步骤：

步骤1：对数据集图片进行预处理，得到输入图像；

步骤2：对输入图像使用主干网络进行特征提取，得到多尺度特征图；具体地，可采用Resnet18、MobileNet等轻量级网络作为骨架网络，提取图像不同深度的特征图，多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图即为所述顶层特征图。

步骤3：对所述顶层的特征图通过DK-AF(空洞金字塔注意力特征增强模块)，生成全新的顶层特征图，所述全新的顶层特征图作为深层特征图参与后续的特征融合；

所述空洞金字塔注意力特征增强模块，它由两个分支组成：空洞卷积金字塔网络分支、通道注意力分支。所述空洞卷积金字塔分支包括四个3×3的空洞卷积层和一个全局池化层，所述空洞卷积层从左至右的空洞卷积率分别为1、3、5、7；所述通道注意力分支包括全局池化层、1×1卷积层、sigmoid层；

具体地，可以包括以下步骤：

首先，将所述顶层特征图C4送入到所述空洞卷积金字塔分支，特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作，将其得到的特征图进行相加得到最终的特征图F_c；

之后，将所述顶层特征图F4送入到所述通道注意力分支，通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征F_h；

最后，将F_c和F_h相乘，得到与所述特征层比例不变的上下文增强特征图，在与所述顶层特征图C4进行求和，得到所述全新的顶层特征图C4。

步骤4：将不同尺度的特征，使用GAU(全局注意力上采样)方式自下而上进行特征融合；具体地，将特征C4、C3、C2、C1，采用全局注意力上采样方式自下而上进行融合；

P1＝conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (1)

P2＝conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (2)

P3＝conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (3)

P4＝C4 (4)

其中，conv_3(·)表示3＊3卷积运算，conv_1(·)表示1＊1卷积运算降低通道维度，avg(·)表示全局平均池化，deconv(·)表示反卷积上采样。

步骤5：融合不同尺度的特征图，将其输入到PANet检测头中进行预测；具体地，对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并，得到特征F，其计算公式为：

F＝conv(cat(P1,up2(P2),up4(P3),up8(P4))) (5)

其中，conv(·)表示卷积运算，cat(·)表示特征图合并，up2(·)表示两倍上采样操作，up4(·)表示四倍上采样操作。up8(·)表示八倍上采样操作。

PANet输出网络为6个通道：一个通道是预测该像素是否为text_region；一个通道是预测该像素是否为kernel，其余四通道预测该像素与其周围的4个像素的similarityvectors(相似度向量)；

步骤6：根据PANet预测输出结果，利用像素聚合算法(PA，Pixel Aggregation)，对每一个kernel进行处理，得到完整的文本实例。

本发明方法对比现有技术，具有如下优点：

1、提出了DK-AF对高层特征进行增强，弥补了因为轻量级网络感受野小特征不足的问题，丰富了骨干网络的特征表达。

2、采用GAU对多尺度特征进行融合，通过全局信息建模，建立上下文联系。

3、本方法相比于现有的一些文本检测方法，在实时性与精度之间实现了更好的平衡，可以更好的提取自然场景图像中的文本位置。

附图说明

图1为本发明的总体流程图。

图2为本发明的网络模型的整体结构。

图3为本发明提出的DK-AF(空洞金字塔注意力特征增强)模块的结构图。

图4为本发明使用的GAU(全局注意力上采样)模块的结构图。

图5为本发明的效果图。

具体实施方式

下面结合附图和实施例，对本发明方法做进一步详细说明。

实施例

如图1所示，一种基于注意力特征融合的街景文本实时检测方法，包括以下步骤：

步骤1：输入图片，对图片进行预处理，得到特征提取网络输入大小640＊640；

步骤2：对输入图片使用主干网络特征提取，得到多尺度特征图；具体地，可采用Resnet18、MobileNet等轻量级网络作为骨架网络，提取图像不同深度的特征图，多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图即为所述顶层特征图。

步骤3：对所述顶层的特征图通过DK-AF(空洞金字塔注意力特征增强模块)，生成全新的顶层特征图，所述全新的顶层特征图作为深层特征图参与后续的特征融合；具体地，可以包括以下步骤：

步骤4：将不同尺度的特征，使用全局注意力上采样方式自下而上进行特征融合；

具体地，将特征C4、C3、C2、C1，采用GAU(全局注意力上采样)方式自下而上进行融合；

P1＝conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (6)

P2＝conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (7)

P3＝conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (8)

P4＝C4 (9)

步骤5：融合不同尺度的特征图，将其输入到PANet检测头中进行预测；

具体地，对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并，得到特征F，其计算公式为：

F＝conv(cat(P1,up2(P2),up4(P3),up8(P4))) (10)

验证例，使用ICDAR2015、CTW1500、Total-Text等场景文本检测数据集。

本实例首先将图片进行水平翻转，然后在(-10°,10°)之间随机挑选一个角度对图像进行旋转，接着在(0.5,3)内随机选取一个比例对图像进行缩放，最后在缩放后的图片上使用640＊640的大小的窗口进行随机裁剪。测试时，为了使测试时的数据分布与训练时的数据分布尽可能地接近，在数据集保证图像比例不变的前提下将短边缩放到640个像素点。

在实现上，所有的实验均使用Pytorch深度学习框架完成，训练周期设置为300，每次迭代的批量大小设置为8，在2块1080ti上采用分布式训练完成。IoU阈值设置为0.6，在训练方式上，采用Adam(Adaptive Moment Estimation)优化器对参数进行学习，其中初始学习率设置为0.001，betas分别设置为0.9与0.999，eps设置为1e-8，weight_decay设置为0。学习率按照

进行衰减，pow设置为0.9，其中cur表示当前迭代的次数，max表示迭代总次数。

Claims

1.一种基于注意力特征融合的街景文本实时检测方法，其特征在于，包括以下步骤；

步骤1：对数据集图片进行预处理，得到输入图像；

步骤2：对输入图像使用主干网络进行特征提取，得到多尺度特征图；其中，多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图作为所述顶层特征图。

步骤3：对所述顶层特征图通过DK-AF模块(空洞金字塔注意力特征增强模块)生成全新的顶层特征图，所述全新的顶层特征图作为深层特征图参与后续的特征融合；

步骤4：将不同尺度的特征，使用GAU(全局注意力上采样)方式自下而上进行特征融合；

步骤5：融合不同尺度的特征图后，将其输入到PANet检测头中进行预测；

PAN输出网络为6个通道：一个通道是预测该像素是否为text_region；一个通道是预测该像素是否为kernel，其余四通道预测该像素与其周围的4个像素的similarity vectors(相似度向量)；

步骤6：根据PANet预测输出结果，利用像素聚合算法(PA，Pixel Aggregation)，对每一个kernel进行处理，重建完整的文本实例。

2.根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法，其特征在于，所述步骤3中，所述空洞金字塔注意力特征增强模块，它由两个分支组成：空洞卷积金字塔网络分支、通道注意力分支。所述空洞卷积金字塔分支包括四个3×3的空洞卷积层和一个全局池化层，所述空洞卷积层从左至右的空洞卷积率分别为1、3、5、7；所述通道注意力分支包括全局池化层、1×1卷积层、sigmoid层；具体包括：

3.根据权利要求2所述的一种基于注意力特征融合的街景文本实时检测方法，其特征在于，所述步骤3包括以下子步骤：

步骤3.1：将所述顶层特征图C4送入到所述空洞卷积金字塔分支，特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作，将其得到的特征图进行相加得到最终的特征图F_c；

步骤3.2：将所述顶层特征图F4送入到所述通道注意力分支，通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征F_h；

步骤3.3：根据步骤3.1和3.2，将F_c和F_h相乘，得到与所述特征层比例不变的上下文增强特征图，在与所述顶层特征图C4进行求和，得到所述全新的顶层特征图C4。

4.对于根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法，其特征在于，所述步骤4实现方式如下：

将特征C4、C3、C2、C1，采用全局注意力上采样方式自下而上进行融合；

P1＝conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (1)

P2＝conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (2)

P3＝conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (3)

P4＝C4 (4)

5.对于根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法，其特征在于，所述步骤5融合不同尺度的特征图，实现方式如下：对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并，得到特征F，其计算公式为：

F＝conv(cat(P1,up2(P2),up4(P3),up8(P4))) (5)