CN113743291A

CN113743291A - 一种融合注意力机制的多尺度检测文本的方法及装置

Info

Publication number: CN113743291A
Application number: CN202111025070.9A
Authority: CN
Inventors: 贾颖; 程艳云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-03
Anticipated expiration: 2041-09-02
Also published as: CN113743291B

Abstract

本发明提出了一种融合注意力机制的多尺度检测文本的方法及装置，所述方法以Resnet为主干网络，通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行增强特征提取融合；提取融合的特征放入改进的可微二值化模块进行后处理，最后生成精确的文本包围盒。本发明提供的融合注意力机制的多尺度检测文本的方法能够实现自然场景文本的检测，且在多方向和弯曲文本的检测上有着优异的表现。

Description

一种融合注意力机制的多尺度检测文本的方法及装置

技术领域

本发明属于图像识别技术领域，提出一种融合注意力机制的多尺度检测文本的方法及装置。

背景技术

文本在日常生活中无处不在，其携带着丰富且精确的信息。自然场景文本检测技术可以广泛地应用到自动驾驶、网络安全、地理定位、智能交通等领域。中文是承载文化的重要工具，因此，研究自然场景中文文本检测有着重要意义。但自然场景图像背景复杂，且文本具有不同尺度和形状，包括水平、多方向和弯曲的文本，因此检测文本实例区域具有一定的挑战性。传统文本检测方法主要基于滑窗和强连通分支，其步骤繁多且鲁棒性和可靠性差。目前基于深度学习的场景文本检测方法大致分为基于回归，基于组件和基于分割三类。

大多数基于回归的算法是四边形边界框，这对于检测任意形状的文本并不准确。基于组件的方法首先定位单个部分或字符，再后处理将其组合成一个字符或单词。基于分割的方法是在像素级找到文本区域并推断分割图像中的候选文本框。大多数基于分割的算法后处理步骤复杂且无法解决彼此相邻的文本的覆盖问题。为了在文本检测领域，尤其是对复杂场景不规则文本的检测想取得更好的效果，仍需要在技术方面做更细致的改进和优化，因此本文提出一种融合注意力机制的多尺度检测自然场景文本的方法。

发明内容

本发明提出一种融合注意力机制的多尺度检测文本的方法，通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行进行特征提取融合；其中，FPN分支融合高分辨率的底层特征和高语义信息的高层特征达到预测效果；IASPP分支在提取特征时具有较大感受野并降低特征图分辨率损失；加入平衡注意力机制(BAM)提取有效文本特征，抑制低效特征通道；再者将提取融合的特征放入可微二值化模块简单后处理，最后生成精确的文本包围盒。

鉴于上述问题，本发明提供一种融合注意力机制的多尺度检测文本的方法及装置。

第一方面，本发明提供一种融合注意力机制的多尺度检测文本的方法，所述方法包括以下步骤：

步骤一：选取包含文本的自然场景图像数据集作为样本，所述文本包含多方向文本和弯曲文本；

步骤二：采用Resnet网络作为主干网络，同时将平衡注意力机制嵌入特征金字塔分支形成改进的特征金字塔网络；采用Resnet网络作为主干网络，优选采用Resnet18网络，将平衡注意力机制BAM引入Resnet网络中提升检测方法鲁棒性，采用改进的FPN特征金字塔增强有效文本特征的提取，融合高分辨率的底层特征和高语义信息的高层特征达到预测效果；

同时改进空洞空间金字塔池化分支形成改进的空洞空间金字塔池化网络；通过改进空洞空间金字塔池化降低特征图的分辨率损失并扩大感受野更好地提取特征；

将样本中的图片输入改进的特征金字塔网络，并按照1/2、1/4、1/8、1/16、1/32的比例分别提取不同尺度的特征图，输出特征D*，同时将样本中的图片输入改改进的空洞空间金字塔池化网络，输出特征F*；

步骤三：将所述特征金字塔提取的特征D*与空洞空间金字塔池化提取的特征F*通过concat的方式融合，输出融合的特征FD*；

步骤四：利用所述融合的特征FD*预测出文本的概率图和阈值图，将概率图和阈值图结合得到近似二值图，自适应地预测输入图像中每个位置的阈值，区分前景和背景中的像素，二值图采用对数化的AC Loss损失函数，精确文本边缘定位，最后对二值图简单后处理得到文本区域包围盒。

进一步的，步骤一中，所述BAM注意力机制由ACAM平均池化通道注意力模块和MSAM最大池化空间注意力模块组成；嵌入轻量级BAM注意力机制，既考虑不同通道像素的重要性，又考虑同一通道不同位置像素的重要性。调整各个通道的权值，提取有用特征并抑制低效特征通道；两个模块采用并行结构避免误差累积和通道注意力与空间注意力之间的串扰，从而最大化注意机制的效用。

进一步优选的，所述的通道注意力模块是为输入特征图中更重要的通道分配更大的权重；H×W维的通道很可能包含一些异常极值。最大值池化会选择这些点并得到错误的注意力权值；因此，只使用平均池化去提取通道信息，然后使其通过两点式卷积层组成的多层感知机(MLP)；所述的空间注意力会为输入特征图的水平部分生成权重，其目标是找到对最终高分辨率重建贡献最大的侧面区域并赋予它们更大权重。

进一步的，如图3所示，步骤二中所述IASPP由上方模块与下方模块组成；上方模块ASPP对主干网络输出的特征F分别以1、6、12和18不同采样率的空洞卷积并行采样，其中C表示级联；上方模块ASPP在下采样得到高语义信息的同时，由于分辨率的降低会丢失输入图像的细节特征信息。为了精确地从自然场景图像中分割出中文文本，需要低层特征图提供重要的边缘特征信息，所以，设计将上方模块ASPP的输出特征通过一个1×1大小的卷积层来降低通道数至需要的数值，然后进行4倍双线性插值上采样得到特征图F2；下方模块从主干网络中输出一张与特征图F分辨率一致的特征图F1，F1经过1×1大小的卷积层扩大通道数得到特征图F3，最后将F2与F3融合得到F*；上方模块使用ASPP结构提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。

进一步的，所述AC Loss损失函数公式如下：

在上面的公式中，length表示边界曲线C的长度，Area表示包围文本曲线C内部面积，固定参数λ设置为1，Ω表示曲线内的图像区域，其中c₁和c₂分别代表前景和背景的像素平均值，v和u分别表示预测结果的掩码和groundtruth。

上述公式离散化为：

其中length表示边界曲线C的长度，固定参数λ设置为1,Area表示包围文本曲线C内部面积，Ω表示曲线内的图像区域，c₁和c₂分别代表前景和背景的像素平均值，ε趋于0。v和u分别表示预测结果的掩码和groundtruth。

第二方面，本发明提供一种融合注意力机制的多尺度检测中文文本的装置，具体包括：

第一单元：用于提取融合高分辨率的底层特征和高语义信息的高层特征；

第二单元：用于扩大感受野并降低特征图分辨率损失；

第三单元：用于融合FPN和IASPP并行提取的特征；

第四单元：用于将融合的特征送入进改进的可微分二值化模块，预测文本概率图和阈值图后再将两者结合得到近似的二值图,自适应地预测图像中每个位置的阈值，区分前景和背景中的像素。最后对二值图简单后处理得到文本区域；

第三方面，本发明还另提供一种级计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时，实现上述方法的步骤。

本发明的有益效果是：

本发明所述方法基于的主干网络采用Resnet网络，利用嵌入(BAM)注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)并行提取融合特征。然后将融合的特征送入改进的可微分二值化模块推断出最终文本包围盒；

本专利针对特征金字塔(FPN)提取的特征分布不确定性的问题，嵌入平衡注意力机制(BAM)提取有效文本特征并抑制低效特征通道，进而提升检测方法的鲁棒性；

针对空洞空间金字塔池化网络(ASPP)下采样时图像局部信息和细节信息丢失的问题，改进ASPP以降低特征图分辨率的损失；

针对FPN提取特征不足以及感受野小的问题，将嵌入注意力机制的FPN和改进的ASPP并行增强特征提取融合；

针对正负样本的不平衡性的问题，基于可微二值化模块在二值图损失中引入对数化的AC Loss，从而增强检测模型的泛化能力。

附图说明

图1为本发明具体实施方式中自然场景中文文本检测流程图；

图2为本发明具体实施方式中检测网络结构中的BAM注意力机制；

图3为本发明具体实施方式中检测网络结构中IASPP模块；

图4为本发明具体实施方式中MSRA-TD500消融实验图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例一

本发明一种融合注意力机制的多尺度检测文本的方法，采用的技术方案如图1所示，具体包括以下步骤：

S1：选取包含文本的自然场景图像数据集作为样本，所述文本包含多方向文本和弯曲文本；

S2：特征提取，包括FPN特征提取和IASPP特征提取；

FPN特征提取：输入图像被送入嵌入平衡注意力机制的特征金字塔主干分别提取1/2,1/4,1/8,1/16,1/12不同尺度特征图；平衡注意力如图2所示，其对特征进行有效处理，突出显示重要文本特征信息，弱化不相关信息；其次，金字塔特征被上采样到相同的尺度并级联以产生特征D*。具体的，BAM注意力机制由ACAM平均池化通道注意力模块和MSAM最大池化空间注意力模块组成；嵌入轻量级BAM注意力机制，既考虑不同通道像素的重要性，又考虑同一通道不同位置像素的重要性。调整各个通道的权值，提取有用特征并抑制低效特征通道；两个模块采用并行结构避免误差累积和通道注意力与空间注意力之间的串扰，从而最大化注意机制的效用；所述的通道注意力模块是为输入特征图中更重要的通道分配更大的权重；H×W维的通道很可能包含一些异常极值。最大值池化会选择这些点并得到错误的注意力权值；因此，只使用平均池化去提取通道信息，然后使其通过两点式卷积层组成的多层感知机(MLP)；所述的空间注意力会为输入特征图的水平部分生成权重，其目标是找到对最终高分辨率重建贡献最大的侧面区域并赋予它们更大权重。

IASPP特征提取：IASPP模块如图3所示，ASPP模块对主干网络输出的F分别以1、6、12和18不同采样率的空洞卷积并行采样。改进Concat，使用1个1×1卷积，三个3×3空洞卷积和一个最大池化层，再将这5个子模块输出融合。为了精确地从自然场景图像中分割出中文文本，需要低层特征图提供重要的边缘特征信息。所以设计将上方模块ASPP的输出特征通过一个1×1大小的卷积层来降低通道数至需要的数值，然后进行4倍双线性插值上采样得到特征图F₂。下方模块从主干网络中输出一张与特征图F分辨率一致的特征图F₁，F₁经过1×1大小的卷积层扩大通道数得到特征图F₃，最后将F₂与F₃融合得到F^*。上方模块使用ASPP结构提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。

S3：特征融合：将FPN分支提取的特征与IASPP分支提取的特征通过concat方式融合在一起。

S4：文本预测：利用步骤三融合的特征预测文本概率图和阈值图。然后近似二值图由概率图和阈值图计算得到，其中二值图采用AC loss,其基于曲线演化，改善正负样本之间的不平衡性，能够精确文本边缘的定位。

上述公式离散化为：

其中length表示边界曲线C的长度，固定参数λ设置为1,Area表示包围文本曲线C内部面积，Ω表示曲线内的图像区域，c₁和c₂分别代表前景和背景的像素平均值，ε趋于0。v和u分别表示预测结果的掩码和groundtruth。因为掩模被用作标签，因此c₁＝1,c₂＝0。可以发现使用AC loss并没有改变原始DB模块的输出。

为了验证本发明提出方法的预测效果，随机选择三种自然场景图进行文本检测，检测效果图如图4所示，每张图的中文文本的准确率100％。

下面结合具体实验对本发明的实施例效果做详细说明。

本发明实验的数据集为MSRA-TD500，MSRA-TD500是多方向和弯曲文本数据集，包含办公室、商场和街道等场景图片，总共900张，其中训练集700张，测试集200张。

本实验在配置了Intel(R)Core(TM)i9-10900X CPU@3.70FHz和两张NVIDARTX2080Ti显卡的服务器上运行，操作系统为Linux Ubuntu 18.04。深度学习框架是Pytorch 1.4.0,主要需要的库是python3.7.9、pyclipper1.2.0、matplotlib3.3.2、opencv4.1.2。

具体实现算法为首先使用SynthText数据集对所有数据集进行100k次迭代预训练，再使用预训练模型微调其他数据集1000次，每批样本量设为8；采用动态调整学习率的Poly策略即指数变换的策略，设置迭代的学习率Lr＝Ir×(1-iter/maxiter)P其中设置初始学习速率Ir为0.001以及p为0.009，权重衰减为0.0004，动量为0.9，maxiter表示最大迭代次数；将图像进行几何变换增强数据，例如随机旋转、翻转和裁剪，其中旋转范围为(-10°-10°)。

MSRA-TD500消融实验：对MSRA-TD500数据集进行消融实验来验证本发明所述方法的有效性；消融实验对比显著，其结果如图4中a～f所示，以下样本都是没有标注的测试集；其中a是FPN加DB方法的实验结果；b和c是只增加IASPP分支的实验结果；d和e是增加IASPP分支和嵌入BAM注意力机制的实验结果；f是在增加IASPP分支和嵌入注意力机制的基础上改进DB模块的实验结果。

MSRA-TD500对比实验：在MSRA-TD500实验时，使用的MSRA-TD500数据集中训练图片输入大小为640×640，MSRA-TD500数据集中测试图分辨率大小不同；评价标准采用的是公开评价方式精确率、召回率、F值以及FPS值；表1分别是本发明模型和PixelLink、TextSnake在ICDAR2015数据集上的精确率、召回率、F值和FPS。MSRA-TD500实验结果如表1所示：

表1 MSRA-TD500数据集文本检测实验结果

实施例二：

基于与前述实施例一中的一种融合注意力机制的多尺度检测文本的方法同样的发明构思，第二方面，本发明一种融合注意力机制的多尺度检测文本的装置，具体包括：

第二单元：用于扩大感受野并降低特征图分辨率损失；

第三单元：用于融合FPN和IASPP并行提取的特征；

第四单元：用于将融合的特征送入进改进的可微分二值化模块，预测文本概率图和阈值图后再将两者结合得到近似的二值图,自适应地预测图像中每个位置的阈值，区分前景和背景中的像素。最后对二值图简单后处理得到文本区域。

前述实施例一中的一种融合注意力机制的多尺度检测中文文本的方法的各种变化方式和具体实例同样适用于本实施例的一种融合注意力机制的多尺度检测中文文本的装置，通过前述对一种融合注意力机制的多尺度检测中文文本的方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种融合注意力机制的多尺度检测文本的装置的实施系统，所以为了说明书的简洁，在此不再详述。

实施例三：

基于与前述实施例一中一种融合注意力机制的多尺度检测文本的方法同样的发明构思，本发明还另提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述方法的步骤。

本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

本领域内的技术人员应明白，本发明的实施例可提供为系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种融合注意力机制的多尺度检测文本的方法，其特征在于，包括如下步骤：

步骤二：采用Resnet网络作为主干网络，同时将平衡注意力机制嵌入特征金字塔分支形成改进的特征金字塔网络；采用Resnet网络作为主干网络，同时改进空洞空间金字塔池化分支形成改进的空洞空间金字塔池化网络；将样本中的图片输入改进的特征金字塔网络，并按照1/2、1/4、1/8、1/16、1/32的比例分别提取不同尺度的特征图，输出特征D*，同时将样本中的图片输入改进的空洞空间金字塔池化网络，输出特征F*；

2.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述平衡注意力机制由平均池化通道注意力模块和最大池化空间注意力模块组成。

3.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述改进的空洞空间金字塔池化由上方模块与下方模块组成；上方模块用于提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。

4.如权利要求3所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述上方模块对主干网络初步输出的特征F分别以1、6、12和18不同采样率的空洞卷积并行采样，上方模块在下采样得到高语义信息的同时，将上方模块ASPP的输出特征通过一个1×1大小的卷积层来降低通道数至需要的数值，然后进行4倍双线性插值上采样得到特征图F2；下方模块从主干网络中输出一张与特征图F分辨率一致的特征图F1，F1经过1×1大小的卷积层扩大通道数得到特征图F3，最后将F2与F3融合得到F*。

5.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述AC Loss损失函数公式如下：

在上面的公式中，length表示边界曲线C的长度，Area表示包围文本曲线C内部面积，固定参数λ设置为1，Ω表示曲线内的图像区域，其中c₁和c₂分别代表前景和背景的像素平均值，v和u分别表示预测结果的掩码和groundtruth；

上述公式离散化为：

其中length表示边界曲线C的长度，固定参数λ设置为1,Area表示包围文本曲线C内部面积，Ω表示曲线内的图像区域，c1和c2分别代表前景和背景的像素平均值，ε趋于0；v和u分别表示预测结果的掩码和groundtruth。

6.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，Resnet网络为Resnet18网络。

7.一种融合注意力机制的多尺度检测文本的装置，其特征在于，包括：

第一模块：用于提取融合高分辨率的底层特征和高语义信息的高层特征；

第二模块：用于扩大感受野并降低特征图分辨率损失；

第三模块：用于融合FPN和IASPP并行提取的特征；

第四模块：用于将融合的特征送入进改进的可微分二值化模块，预测文本概率图和阈值图后再将两者结合得到近似的二值图,自适应地预测图像中每个位置的阈值，区分前景和背景中的像素；最后对二值图简单后处理得到文本区域。

8.一种级计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时，实现权利要求1-6任一项所述方法的步骤。