CN113486890A

CN113486890A - 基于注意力特征融合和空洞残差特征增强的文本检测方法

Info

Publication number: CN113486890A
Application number: CN202110664914.8A
Authority: CN
Inventors: 李利荣; 张开; 张云良; 陈鹏; 熊炜
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-10-08

Abstract

本发明属于计算机视觉技术领域，公开了基于注意力特征融合和空洞残差特征增强的文本检测方法，包括对包含文本的自然场景图片进行特征提取，得到多尺度特征图；对多尺度特征图中的顶层特征图进行降维处理，顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图，全新的顶层特征图作为深层特征图参与后续的特征融合；采用双向特征金字塔与注意力特征融合模块相结合的方式，进行多层的特征融合；对融合后的特征图进行后处理，实现任意形状文本的检测。本发明可以保证信息的双向流动的同时最大化融合重要的特征，提高文本区域的局部关注度，提升不同特征通道之间的联系，扩大感受野的同时解决顶层特征图降维导致语义信息丢失的问题。

Description

基于注意力特征融合和空洞残差特征增强的文本检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于注意力特征融合和空洞残差特征增强的文本检测方法。

背景技术

从近年来自然场景的文本检测研究在深度学习领域快速发展，特别是在无人驾驶、图像内容监管、视频内容分析等场景发挥极其重要的作用。但是由于场景文本的不同形状、大小、方向及复杂的背景，给文本检测不断带来新的挑战，因此如何准确又快速的检测出场景图片中的任意形状文本成为当前重要性的研究任务。

目前基于卷积神经网络(Convolutional Neural Networks,CNN)的文本检测方法主要包括两种：第一种是基于候选框的文本检测方法，以Faster-RCNN、SSD、YOLO等架构为基础，这些方法首先对场景文本图像提取候选框，然后对每个候选框行分类和回归，但是由于候选框都是矩形，这类方法难以处理密集文本和曲线文本。第二种是基于语义分割的文本检测方法，以PixelLink、TextField、PSE等为主，这些方法首先将图像进行像素级别的语义分割，将文本区域和背景分为两类，然后通过一系列后处理获得精确的任意形状的文本区域，但是此类检测方法存在以下问题：现有的该类文本检测算法通常使用特征金字塔(Feature Pyramid Network，FPN)提取多尺度特征信息，不同深度的文本特征之间存在语义差异，直接融合后无法很好的表达出特征信息；其次，顶层特征图的语义信息虽然丰富，但是在与下一级的特征融合前需要进行降维操作，而这个过程中特征图的通道数会减少，出现语义信息丢失的情况，导致最后的结果不准确。

发明内容

本发明通过提供基于注意力特征融合和空洞残差特征增强的文本检测方法，解决现有技术中文本检测方法存在的不同深度文本特征直接融合后无法很好地表达出特征信息、顶层特征图降维出现语义信息丢失，导致检测结果不准确的问题。

本发明提供基于注意力特征融合和空洞残差特征增强的文本检测方法，包括以下步骤：

步骤1：对包含文本的自然场景图片进行特征提取，得到多尺度特征图；

步骤2：对所述多尺度特征图中的顶层特征图进行降维处理，所述顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图，所述全新的顶层特征图作为深层特征图参与后续的特征融合；

步骤3：采用双向特征金字塔与注意力特征融合模块相结合的方式，进行多层的特征融合；

步骤4：对融合后的特征图进行后处理，实现任意形状文本的检测。

优选的，所述步骤1中，将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征，所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。

优选的，所述多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图作为所述顶层特征图。

优选的，所述步骤2中，结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块；所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层，四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8；所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。

优选的，所述步骤2包括以下子步骤：

步骤2.1：将所述顶层特征图通过自适应池化进行降采样得到三个输出特征图，对应的尺寸分别为α₁×h×w、α₁×h×w、α₃×h×w；其中，w、h分别为所述顶层特征图的宽和高，α₁、α₂、α₃的取值分别为0.1，0.2，0.3；

步骤2.2：将步骤2.1得到的三个输出特征图通过1×1的卷积进行降采样，再通过双线性插值将它们上采样到相同尺度进行合并，得到比例不变的上下文特征，将所述比例不变的上下文特征通过自适应空间融合操作处理后得到空间权重特征，其中，所述自适应空间融合操作包括1×1卷积、3×3卷积和Sigmoid激活函数，将所述空间权重特征与所述比例不变的上下文特征进行融合得到融合特征图；

步骤2.3：将所述融合特征图送入到所述空洞卷积模块中，将所述空洞卷积模块生成的特征图与所述顶层特征图进行求和，得到所述全新的顶层特征图。

优选的，所述步骤3中，结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。

优选的，所述步骤3包括以下子步骤：

步骤3.1：将相邻尺度的特征图分别输入至所述通道注意力模块中，所述通道注意力模块将通道权重分配给特征图中各个尺度的特征上，得到通道注意力加权的特征图；将两个支路分别输出的所述通道注意力加权的特征图经行拼接操作，拼接之后的特征图输入至所述空间注意力增强模块中，得到空间特征权重图；将所述空间特征权重图与所述拼接之后的特征图进行相乘，得到第一融合特征图；

步骤3.2：采用双向特征金字塔的方法，对所述多尺度特征图C1、C2、C3、C4进行从上至下、从下至上的进行步骤3.1的操作，得到融合双向特征金字塔两个方向的特征的第一融合特征图。

优选的，所述通道注意力模块包括依次连接的全局池化层、第一全连接层、ReLu激励函数、第二全连接层和Sigmoid函数；

所述通道注意力模块利用所述全局池化层对大小为W×H×C的特征图进行全局池化操作，得到1×1×C大小的特征图，其中，W为特征图的宽度，H为特征图的高度，C为特征图的通道数；通过所述第一全连接层进行全连接操作，得到通道间的全局特征；利用所述ReLu激励函数进行激励操作，得到各个通道对应的权重；通过所述第二全连接层再进行一次全连接操作，通过所述Sigmoid函数拟合通道间的关联性，得到通道权重图；将所述通道权重图与输入至所述通道注意力模块的原始特征图相乘得到所述通道注意力加权的特征图。

优选的，所述空间注意力增强模块包括第一1×1卷积层、第一卷积层、池化层、第二卷积层、上采样层、第二1×1卷积层和Sigmoid函数；所述第一卷积层的大小为5×5、步长为2，所述第二卷积层的大小为7×7、步长为3；

所述空间注意力增强模块通过所述第一1×1卷积层对特征图进行降维；依次通过所述第一卷积层、所述池化层、所述第二卷积层进行操作，以扩大感受野并降低特征空间尺寸；通过所述上采样层将特征图变回原图大小；上采样后的特征图经过所述第二1×1卷积和所述Sigmoid函数后得到空间增强权重图，将所述空间增强权重图与输入至所述空间注意力增强模块的原始特征图相乘，得到所述空间注意力增强模块输出的特征。

优选的，所述步骤3中，所述第一融合特征图包括文本区域、文本内核和相似向量；所述步骤4中，使用像素聚合算法对所述第一融合特征图进行后处理，重建完整的文字区域，实现任意形状文本的检测。

本发明中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在发明中，提供的基于注意力特征融合和空洞残差特征增强的文本检测方法首先对包含文本的自然场景图片进行特征提取，得到多尺度特征图；然后对多尺度特征图中的顶层特征图进行降维处理，顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图，全新的顶层特征图作为深层特征图参与后续的特征融合；之后采用双向特征金字塔与注意力特征融合模块相结合的方式，进行多层的特征融合；最后对融合后的特征图进行后处理，实现任意形状文本的检测。本发明可以保证信息的双向流动的同时最大化融合重要的特征；本发明中的空洞残差特征增强模块将空洞卷积模块与残差特征增强模块结合起来，在扩大感受野的同时解决了顶层特征图降维导致语义信息丢失的问题；本发明中的注意力特征融合模块将通道注意力模块和空间注意力增强模块结合起来，在加强通道特征之间的联系的同时更好的关注空间信息的分布。

附图说明

图1为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法对应的网络模型结构图；

图2为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空洞残差特征增强模块的结构图；

图3为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空洞卷积模块的结构图；

图4为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的通道注意力模块的结构图；

图5为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的空间注意力增强模块的结构图；

图6为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的注意力特征融合模块的结构图；

图7为本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法中采用的像素聚合模块的示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例提供一种基于注意力特征融合和空洞残差特征增强的文本检测方法，包括以下步骤：

步骤1：对包含文本的自然场景图片进行特征提取，得到多尺度特征图。

具体的，将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征，所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。

所述多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图作为所述顶层特征图。

步骤2：对所述多尺度特征图中的顶层特征图进行降维处理，所述顶层特征图通过空洞残差特征增强模块生成全新的顶层特征图，所述全新的顶层特征图作为深层特征图参与后续的特征融合。

其中，结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块；所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层，四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8；所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。

步骤3：采用双向特征金字塔与注意力特征融合模块相结合的方式，进行多层的特征融合。

其中，结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。

下面对本发明做进一步的说明。

本发明提供的基于注意力特征融合和空洞残差特征增强的文本检测方法，包括以下步骤：

步骤1：基于自然场景文本多样性的特点，采用深度学习的方法提取自然场景图片中各尺度的特征图，并将这些特征图作为模型的基本特征。

具体的，将包含文本的自然场景图片作为输入图片送到主干神经网络中提取特征，网络中使用具有分散注意力机制ResNeSt50作为前端特征提取网络。将ResNeSt50卷积2-5层(Conv2-5)生成的特征图作为模型的基本特征，特征图C1，C2，C3，C4的大小分别为160×160×64，80×80×128，40×40×256，20×20×512。

步骤2：在深层特征图降维阶段，为了扩大感受野的同时解决顶层特征图降维导致语义信息丢失的问题，本发明设计了一个空洞残差特征增强(D-RFA)模块，将深层特征图通过该模块生成全新的特征图，并参与到后续的特征融合阶段。

具体的，所述步骤2包括以下子步骤：

步骤2.1：将顶层特征图C₄通过自适应池化降采样得到3个不同的特征图(尺寸分别为α₁×h×w、α₁×h×w、α₃×h×w)；自适应池化不同于常规的池化，它是通过输入的参数来控制输出特征图的尺寸，其中w、h分别为顶层特征图C₄的宽和高，α₁、α₂、α₃的取值分别为0.1，0.2，0.3。

步骤2.2：将自适应池化得到的3个特征图通过1×1的卷积进行降采样，再通过双线性插值将它们上采样到相同尺度进行合并，得到比例不变的上下文特征。将此合并后数据(即比例不变的上下文特征)通过自适应空间融合操作处理后得到空间权重特征；其中，所述自适应空间融合操作包括1×1卷积，3×3卷积及Sigmoid激活函数，将所述空间权重特征与所述比例不变的上下文特征进行融合得到融合特征图。

步骤2.3：将所述融合特征图送入到空洞卷积模块(DCM)中，所述空洞卷积模块使用了4个3×3的空洞卷积加全局池化，从左至右空洞卷积率为1、2、4、8，将所述空洞卷积模块生成的特征图与原输入顶层特征图C₄进行求和操作，得到最终的特征图C₅(即全新的顶层特征图)。

步骤3：在模型的特征融合阶段，为增加了两个相邻层之间信息的关联性，更好地融合语义信息和尺度大小不一致的特征，本发明设计了一种新的注意力特征融合(AFF)模块，采用双向特征金字塔与注意力特征融合模块相结合的方式，进行多层的特征融合。

具体的，所述步骤3包括以下子步骤：

步骤3.1：将相邻尺度的特征图分别输入通道注意力(Channel Attention)模块中，将通道权重分配给特征图中各个尺度的特征上，得到了通道注意力加权的特征图，然后将两个支路输出的通道注意力加权的特征图经行拼接操作，拼接之后的特征图送入到后续的空间注意力增强(Enhanced Spatial Attention)模块中，得到空间特征权重图，将更好地对通道注意力进行补充，同时得到重要的空间信息，最后将得到的空间特征权重图与其输入的特征图(即拼接之后的特征图)进行相乘，输出融合后的特征图。

步骤3.2：采用双向特征金字塔的方法，对多尺度特征图C1、C2、C3、C4从上至下、从下至上的进行多尺度的特征融合(即进行步骤3.1的操作)，得到融合双向特征金字塔的融合后的特征图，能够解决传统特征金字塔信息流动过程中信息单向传递局限性和容易丢失的问题，在同样的运行时间内提升了信息传递的准确度，更好地保留了各层特征融合前的信息。

步骤4：通过融合了双向特征金字塔两个方向的特征，得到了完整的文字区域、文本内核以及相似向量组成的特征图，最后使用像素聚合算法(PA，Pixel Aggregation)进行后处理来重建完整的文字区域，实现任意形状文本的检测。

具体的，通过前面融合得到的特征获得了文本区域、文本内核以及相似向量，虽然文本区域可以显示很完整的文字形状，但是容易出现文本区域相互重叠，为了重建完整的文本区域，本发明通过相似向量来引导文本区域中的像素，并将其融合到文本内核中，用最小距离聚类方法从文本内核中重建完整的文本区域。

下面结合附图对本发明进行说明。

图1是本发明网络模型结构图，主要包括特征提取、特征融合、后处理模块。

本发明采用ResNest50作为主干网络提取特征，将640×640×3的场景图片作为输入，提取到的特征图C₁,C₂,C₃,C₄大小分别为160×160×64，80×80×128，40×40×256，20×20×512。

对于传统的特征金字塔来说，底层特征图尺度大，包含的空间信息较多但是语义信息少；高层的特征图尺度小，包含的语义信息丰富但是空间信息比较少，金字塔模型通过顶层往底层做特征融合时，将顶层特征图通过卷积过程降维，然后将底层特征图与高层特征图的相关信息进行特征融合。顶层特征图语义信息丰富但是在经过下采样处理之后，通道数会减小，会出现相关的语义信息损失，为了增大特征图的感受野和减少前面一系列步骤造成相关文本信息的损失，增加文本区域之间的关联度，本发明将空洞卷积模块引入到残差特征增强模块中，提出了空洞残差特征增强模块(D-RFA)，如图2所示。

深层特征降维方法包括以下步骤：

步骤1：第一步将顶层特征图C₄通过自适应池化降采样得到3个不同的特征图(见图2中α₁×h×w、α₁×h×w、α₃×h×w)。

步骤2：将得到的3个特征图通过1×1的卷积进行降采样，再通过双线性插值将它们上采样到相同尺度进行合并。将此合并后数据通过1×1卷积、3×3卷积及Sigmoid激活函数处理后再次与合并后的数据进行融合，融合后的特征图送入到空洞卷积模块(DCM)中，由此生成的特征图与原输入特征图C₄进行求和操作，得到最终的特征图C₅。

本发明使用的空洞卷积模块(DCM)如图3所示，使用了4个3×3的空洞卷积加全局池化，从左至右空洞卷积率为1、2、4、8。感受野的计算公式如公式(1)所示，其中公式中k表示卷积核的大小，默认为3，n表示空洞卷积率。

感受野的计算公式如下：

S＝k+(k-1)(n-1) (1)

使用空洞残差特征增强模块生成的特征图C₅取代原本的C₄参与到后续的特征融合过程。不同深度的文本特征之间存在语义差异，直接融合后无法很好的表达出特征信息，为增加了两个相邻层之间信息的关联性，更好地融合语义信息和尺度大小不一致的特征，本发明提出了注意力特征融合(AFF)模块。具体操作如下：

第一步：首先将相邻尺度的特征图分别输入通道注意力(Channel Attention)模块中，如图4所示，通道注意力模块首先将卷积过后得到的特征图W×H×C进行全局池化操作，得到1×1×C大小的特征图，然后进行全连接操作(见图4中FC单元)，得到的通道间的全局特征，再经过学习通道间的关系进行激励操作，得到各个通道对应的权重，接下来再进行一次全连接操作和Sigmoid函数来拟合通道间的关联性，最后与原始特征图相乘得到大小为W×H×C的特征。通道注意力机制是在通道维度上做一系列操作，它可以让深度学习模型关注包含重要信息的通道特征，将通道权重分配给特征图中各个尺度的特征上，得到了通道注意力加权的特征图。

第二步：将两个支路输出的特征图经行拼接操作，拼接之后的特征图送入到后续的空间注意力增强(Enhanced Spatial Attention)模块，如图5所示，空间注意力增强模块比普通的空间注意力模块更轻量，并且具有更好获取空间信息的性能，空间注意力增强模块首先使用1×1的卷积进行降维来减少特征数，然后为了扩大感受野和降低特征空间尺寸，分别使用了大小为5×5，步长为2的卷积、最大池化操作，以及大小为7×7，步长为3的卷积操作，扩大感受野的使注意力能够更好的关注到图像的中整体的文本信息。最后上采样变回原图大小的特征图，经过1×1的卷积和sigmoid函数后与原图相乘，得到ESA模块输出的特征，将更好的对通道注意力进行补充，同时得到重要的空间信息。

第三步：将得到的空间特征权重图与其输入的特征图进行相乘，输出融合后的特征图，整个注意力特征融合(AFF)模块结构如图6所示。

经过上面三步的处理，并结合双向特征金字塔进行从上至下、从下至上的特征融合，解决传统特征金字塔信息流动过程中信息单向传递局限性和容易丢失的问题，在同样的运行时间内提升了信息传递的准确度。融合了双向金字塔两个方向的特征，得到了完整的文字区域、文本内核以及相似向量组成的特征图，最后通过像素聚合算法进行后处理，如图7所示，重建完整的文字区域，实现对任意形状场景文本的检测。

本发明实施例提供的基于注意力特征融合和空洞残差特征增强的文本检测方法至少包括如下技术效果：

(1)本方法可以保证信息的双向流动的同时最大化融合重要的特征；

(2)本方法可以更大程度地提高文本区域的局部关注度，更好地提升不同特征通道之间的联系；

(3)本方法可以扩大感受野的同时解决了顶层特征图降维导致语义信息丢失的问题。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤1中，将包含文本的自然场景图片作为输入图片送到主干神经网络中进行提取特征，所述主干神经网络使用具有分散注意力机制的ResNeSt50作为前端特征提取网络。

3.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述多尺度特征图包括：大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4，所述第四特征图作为所述顶层特征图。

4.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤2中，结合空洞卷积模块与残差特征增强模块得到所述空洞残差特征增强模块；所述空洞卷积模块包括四个3×3的空洞卷积层和一个全局池化层，四个所述空洞卷积层从左至右的空洞卷积率分别为1、2、4、8；所述残差特征增强模块包括自适应池化、1×1卷积的降采样操作、双线性插值上采样操作、自适应空间融合操作。

5.根据权利要求4所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤2包括以下子步骤：

6.根据权利要求1所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤3中，结合通道注意力模块和空间注意力增强模块得到所述注意力特征融合模块。

7.根据权利要求6所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤3包括以下子步骤：

8.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述通道注意力模块包括依次连接的全局池化层、第一全连接层、ReLu激励函数、第二全连接层和Sigmoid函数；

9.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述空间注意力增强模块包括第一1×1卷积层、第一卷积层、池化层、第二卷积层、上采样层、第二1×1卷积层和Sigmoid函数；所述第一卷积层的大小为5×5、步长为2，所述第二卷积层的大小为7×7、步长为3；

10.根据权利要求7所述的基于注意力特征融合和空洞残差特征增强的文本检测方法，其特征在于，所述步骤3中，所述第一融合特征图包括文本区域、文本内核和相似向量；所述步骤4中，使用像素聚合算法对所述第一融合特征图进行后处理，重建完整的文字区域，实现任意形状文本的检测。