CN113903022B

CN113903022B - 基于特征金字塔与注意力融合的文本检测方法及系统

Info

Publication number: CN113903022B
Application number: CN202111118163.6A
Authority: CN
Inventors: 万洪林; 王嘉鑫; 赵莹莹; 王晓敏
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Filing date: 2021-09-23
Publication date: 2024-07-09
Anticipated expiration: 2041-09-23

Abstract

本发明属于文本检测技术领域，提供了基于特征金字塔与注意力融合的文本检测方法及系统，首先获取待检测图像；然后将待检测图像输入文本检测模型，得到图像中的文本位置；其中，文本检测模型包括特征提取网络和特征融合网络；所述特征提取网络的骨干网为多层依次连接的不同结构的卷积网络，且第二层卷积网络的输出上引入了位置注意力网络；所述特征融合网络用于融合卷积网络和位置注意力网络的输出特征，得到最终特征；增强了局部特征的表示能力，以此来提高检测弯曲文本的精确度。

Description

基于特征金字塔与注意力融合的文本检测方法及系统

技术领域

本发明属于文本检测技术领域，尤其涉及基于特征金字塔与注意力融合的文本检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，场景文本检测越来越受到人们的关注，由于其广泛的应用，如图像和视频检索、自动驾驶和场景文本翻译等，越来越受到计算机视觉研究者的关注。

场景文本检测作为场景文本阅读的关键组成部分，其旨在复杂背景中检测文本区域并用边界框进行标注。尽管在物体检测方面取得了显著的成就，但准确检测场景文本仍然具有挑战性，因为场景文本通常具有各种比例和形状，包括水平的、多方向的和弯曲的文本。

基于分割的场景文本检测近年来受到了广泛的关注，因为它可以描述各种形状的文本，并受益于像素级的预测结果。基于分割的文本检测，其基本思路是通过分割网络结构进行像素级别的语义分割，再基于分割的结果构建文本行。例如，Lyu P等人2018年发表的论文《Mask TextSpotter:An End-to-End Trainable Neural Network for SpottingText with Arbitrary Shapes》沿用了Mask R-CNN的设计，同时引入了实例分割和字符分割，以支持任意形状的文本。Dan D等人2018年发表的论文《PixelLink:Detecting SceneText via Instance Segmentation》基于实例分割方法分割文本行区域，以及预测对应的文本行检测框，对于给定像素及其邻居像素，如果二者位于同一实例中，则它们之间的Link标记为正，否则为负；所有标记为正Link的像素连接在一起组成一个连通组件来表示检测的文本。然而，大多数基于分割的方法需要复杂的后处理来将像素级预测结果分组到检测到的文本实例中，导致推理过程中需要相当大的时间成本。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于特征金字塔与注意力融合的文本检测方法及系统，在骨干网中加入位置注意力网络，将范围更广的上下文信息编码为局部特征，从而增强局部特征的表示能力，以此来提高检测弯曲文本的精确度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于特征金字塔与注意力融合的文本检测方法，其包括：

获取待检测图像；

将待检测图像输入文本检测模型，得到图像中的文本位置；

其中，文本检测模型包括特征提取网络和特征融合网络；所述特征提取网络的骨干网为多层依次连接的不同结构的卷积网络，且第二层卷积网络的输出上引入了位置注意力网络；所述特征融合网络用于融合卷积网络和位置注意力网络的输出特征，得到最终特征。

进一步的，所述特征融合网络首先是多分辨率特征金字塔的自上而下的的上采样融合输出，同时所述第二层卷积网络的输出与位置注意力网络的输出逐点相乘融合，最后将融合后的特征图与多分辨率特征金字塔其他支路输出的特征融合映射。

进一步的，所述位置注意力网络具体为：

将所述第二层卷积网络输出的特征图分别经过三个卷积层得到三个三维特征图，并将三个三维特征图分别变形为二维特征图，记为第一二维特征图、第二二维特征图和第三二维特征图；

对第一二维特征图进行转置之后与第二二维特征图做矩阵乘法，并将结果经过激活函数得到空间注意力图；

将第三二维特征图与空间注意力图做矩阵相乘，将所得特征图变形为三维特征图，将该三维特征图乘尺度参数后与第二层卷积网络输出的特征图做对应元素特征相加操作，得到输出特征。

进一步的，所述骨干网包括依次连接的第一层卷积网络、第二层卷积网络、第三层卷积网络、第四层卷积网络和第五层卷积网络；

所述第一层卷积网络对图像进行卷积处理后输入第二层卷积网络，得到第一输出特征；所述第二层卷积网络对第一输出特征进行池化后，依次输入双卷积通道和两个单卷积通道，得到第二输出特征；所述第三层卷积网络将第二输出特征依次输入双卷积通道和三个单卷积通道，得到第三输出特征；所述第四层卷积网络将第三输出特征依次输入双卷积通道和五个单卷积通道，得到第四输出特征；所述第五层卷积网络将第四输出特征依次输入双卷积通道和两个单卷积通道，并进行全局平均池化后，得到第五输出特征。

进一步的，所述单卷积通道将输入图像依次经过1*1卷积层、3*3卷积层和1*1卷积层处理后，与输入图像进行融合，融合后的特征进入激活函数。

进一步的，所述双卷积通道包括第一卷积分支、第二卷积分支和激活函数；

所述第一卷积分支包括为一个1*1卷积层；

所述第二卷积分支包括依次连接的1*1卷积层、3*3卷积层和1*1卷积层；

所述第一卷积分支和第二卷积分支的输出结果进行融合后进入激活函数。

进一步的，所述特征融合网络具体为：

所述第五输出特征依次经过卷积层、BN层和Relu层后，得到第五中间特征；所述第四输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第五中间特征进行相加，得到第四中间特征；所述第三输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第四中间特征进行相加，得到第三中间特征；所述第五中间特征、第四中间特征和第三中间特征分别经过卷积层、BN层、Relu层和上采样层后，得到第五特征、第四特征和第三特征；

所述第二输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第三中间特征进行相加得到第二中间特征，第二中间特征依次经过卷积层、BN层和Relu层后得到第二特征，第二特征与所述位置注意力网络的输出特征逐点相乘融合，得到第一特征；

所述第五特征、第四特征、第三特征和第一特征相加后，得到最终特征。

本发明的第二个方面提供基于特征金字塔与注意力融合的文本检测系统，其包括：

图像获取模块，其被配置为：获取待检测图像；

文本检测模块，其被配置为：将待检测图像输入文本检测模型，得到图像中的文本位置；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了基于特征金字塔与注意力融合的文本检测方法，其用ResNet50作为骨干网，在骨干网中加入位置注意力网络，将范围更广的上下文信息编码为局部特征，从而增强局部特征的表示能力，以此来提高检测弯曲文本的精确度，使自然场景下的文本检测得到更加多样化处理，提高场景文本检测的精度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的基于特征金字塔与注意力融合的文本检测方法整体流程图；

图2是本发明实施例一的文本检测模型整体框架图；

图3是本发明实施例一的第二层卷积网络conv2_x的结构图；

图4是本发明实施例一的第三层卷积网络conv3_x的结构图；

图5是本发明实施例一的第四层卷积网络conv4_x的结构图；

图6是本发明实施例一的第五层卷积网络conv5_x的结构图；

图7是本发明实施例一的位置注意力网络的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了基于特征金字塔与注意力融合的文本检测方法，以ResNet50作为骨干网，引入位置注意力网络，其中，位置注意力网络引入自注意力制来捕获特征图的任意两个位置之间的空间依赖性，以此来提高弯曲文本的精确度，具体步骤如下：

步骤1：获取待检测图像。

步骤2：将待检测图像输入文本检测模型，得到图像中的文本位置。

步骤2中，文本检测模型需要通过训练集进行训练。

作为一种实施方式，获取文本位置标定好的数据集，将数据集分为训练集和测试集。

作为一种实施方式，采用的Total-Text数据集，该数据集是基于单词级别的英语曲线文本数据集，涵盖水平、多方向和弯曲文本各文本的图片，共1555张图像，其中1255作为训练集，300作为测试集。

作为一种实施方式，数据集标注的格式为：一张图片对应一个标注文件，标注文件的每行，是一个单词及其位置信息和标签。位置信息由8个数字，即4个点组成，表示矩形文本框的四个顶点，最后一列是单词的字符内容。

文本检测模型包括特征提取网络、特征融合网络和检测器detection。

(1)特征提取网络

特征提取网络由骨干网和位置注意力网络组成。

将数据集的训练部分输入到特征提取网络，使用在ImageNet数据集上预训练的ResNet50+FPN作为特征提取的网络结构，骨干网为ResNet50，并且在ResNet50的第二层输出上融合了空间注意力机制，用于提高弯曲文本检测的准确度。

(a)骨干网为多层依次连接的不同结构的卷积网络；

作为一种实施方式，骨干网包括五层卷积网络。骨干网ResNet50自下而上分别为第一层卷积网络conv1、第二层卷积网络conv2_x、第三层卷积网络conv3_x、第四层卷积网络conv4_x、第五层卷积网络conv5_x。第一卷积层conv1的大小为7*7*64，第二层卷积网络conv2_x到第五层卷积网络conv5_x的大小分别为288*512*256、144*256*512、72*128*1024、36*64*2048。

第一层卷积网络对图像进行卷积处理后输入第二层卷积网络，得到第一输出特征；第二层卷积网络对第一输出特征进行池化后，依次输入一个双卷积通道和两个单卷积通道，得到第二输出特征；第三层卷积网络将第二输出特征依次输入一个双卷积通道和三个单卷积通道，得到第三输出特征；第四层卷积网络将第三输出特征依次输入一个双卷积通道和五个单卷积通道，得到第四输出特征；第五层卷积网络将第四输出特征依次输入一个双卷积通道和两个单卷积通道，并进行全局平均池化后，得到第五输出特征。

单卷积通道将输入图像依次经过1*1卷积层、3*3卷积层和1*1卷积层处理后，与输入图像进行融合，融合后的特征进入激活函数。双卷积通道包括第一卷积分支、第二卷积分支和激活函数；第一卷积分支包括为一个1*1卷积层；第二卷积分支包括依次连接的1*1卷积层、3*3卷积层和1*1卷积层；第一卷积分支和第二卷积分支的输出结果进行融合后进入激活函数。

第一层卷积网络为一个7*7卷积层，通道数为64。

如图3所示，第二层卷积网络的双卷积通道中第一卷积分支的1*1卷积层，通道数为256，第二卷积分支和单卷积通道的1*1卷积层、3*3卷积层和1*1卷积层的通道数分别为64、64和256。

如图4所示，第三层卷积网络的双卷积通道中第一卷积分支的1*1卷积层，通道数为512，第二卷积分支和单卷积通道的1*1卷积层、3*3卷积层和1*1卷积层的通道数分别为128、128和512。

如图5所示，第四层卷积网络的双卷积通道中第一卷积分支的1*1卷积层，通道数为1024，第二卷积分支和单卷积通道的1*1卷积层、3*3卷积层和1*1卷积层的通道数分别为256、256和1024。

如图6所示，第五层卷积网络的双卷积通道中第一卷积分支的1*1卷积层，通道数为2048，第二卷积分支和单卷积通道的1*1卷积层、3*3卷积层和1*1卷积层的通道数分别为512、512和2048。

(b)对于场景文本检测,判别图像特征是必不可少的，可以通过捕获上下文信息来获得。为了在局部特征上，获取丰富的上下文关系，引入了一个位置注意力网络。位置注意力网络将更广泛的上下文信息编码到局部特征中，从而增强其表示能力。首先，上面的两个分支用于生成注意力图。

如图7所示，位置注意力网络具体为：将所述第二层卷积网络conv2_x输出的特征图A(CxHxW)分别经过三个卷积层得到三个三维特征图B(CxHxW)、C(CxHxW)和D(CxHxW)；将三个三维特征图分别变形为二维特征图，记为第一二维特征图B(CxN)、第二二维特征图C(CxN)和第三二维特征图D(CxN)；对第一二维特征图B(CxN)进行转置之后，得到B(NxC)，与第二二维特征图C(CxN)做矩阵乘法，并将结果经过激活函数得到空间注意力图；将第三二维特征图D(CxN)与空间注意力图做矩阵相乘，将所得特征图变形为与特征图A(CxHxW)尺寸相同的三维特征图；将该三维特征图乘尺度参数后与第二层卷积网络输出的特征图做对应元素特征相加操作，得到位置注意力网络输出的特征。换句话说，位置注意力网络将第二层卷积网络conv2_x输出的特征图A(CxHxW)分别经过两个带BN和ReLU的卷积层得到特征图B(CxHxW)和C(CxHxW)；并将B和C的特征图形状改变为CxN，其中N＝HxW，将转置后的B(NxC)与C(CxN)做矩阵乘法，并将结果经过softmax激活函数得到空间注意力图S(NxN)；第三个分支同样将A经过一个卷积层得到特征图D(CxHxW)，并特征图D的形状改变为成CxN，将特征图D与空间注意力图S做矩阵相乘，将所得特征图形状改变为CxHxW；将其乘一个尺度参数α并与原特征图A做一个对应元素特征相加操作element-wise(张量操作)得到最终输出。

通过自注意力机制来捕获特征图中任意两个位置的空间依赖关系，对于任意一个位置，它通过加权求和的所有位置的聚合特征进行更新，权重取决于两个位置的相似度，也就是说，不管距离有多远，任意两个具有相似特征的位置都可以相互促进。

位置注意力被定义为

其中，s_ji度量第i个位置对第j个位置的影响；位置注意力网络的输出特征为

其中，α表示尺度参数，初始化为0，并逐渐地学习分配到更大的权重。每个通道的结果特征为E，是所有位置特征和原始特征的加权和。

(2)特征融合网络

将提取完特征的特征图输入到特征融合网络。特征融合网络首先是多分辨率特征金字塔的自上而下的的上采样融合输出，同时ResNet网络的第二层网络的输出P2与位置注意力网络的输出逐点相乘融合，最后将融合后的特征图与多分辨率特征金字塔其他支路输出的特征融合映射。

特征融合网络具体为：第五输出特征依次经过卷积层、BN层和Relu层后，得到第五中间特征；第四输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第五中间特征进行相加，得到第四中间特征；第三输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第四中间特征进行相加，得到第三中间特征；第五中间特征、第四中间特征和第三中间特征分别经过卷积层、BN层、Relu层和上采样层后，得到第五特征、第四特征和第三特征。第二输出特征依次经过卷积层、BN层和Relu层后，与上采样后的第三中间特征进行相加得到第二中间特征，第二中间特征依次经过卷积层、BN层和Relu层后得到第二特征F2，第二特征与位置注意力网络的输出特征逐点相乘融合，得到第一特征；第五特征F5、第四特征F4、第三特征F3和第一特征S1相加后，得到最终特征。具体如下：

(a)FPN中自下而上过程采用上采样，以第一个节点为例，36*64*2048的conv5_x经过1*1*256的卷积、BN、Relu得到36*64*256的P5'；72*128*1024的conv4_x经过1*1*256的卷积、BN、Relu得到72*128*256的conv4_x'；P5'经过上采样后与conv4_x'进行相加得到72*128*256的中间结果；然后经过3*3*64的卷积、BN、Relu和上采样得到288*512*64的F4。为了使各个支路最后更容易融合，F2-F5在最后经过3*3*64的卷积、BN、Relu后，会经过不同大小的上采样，所以最终F2-F5的大小均为288*512*64。

(b)conv2_x层网络的输出F2与位置注意力网络的输出逐点相乘融合，提高对弯曲文本的检测精度，输出结果为S1，最后将S1，F3，F4，F5四个支路相加，得到最终特征。

(3)将最终特征输入检测器detection，检测得到图形中的文本位置。

用测试集验证模型的有效性：将数据集的测试部分输入到训练好的模型中，通过标准的自然场景文本检测评估指标:准确率(precision)、召回率(recall)和调和平均值(F-measure)来验证模型的有效性，公式如下：

其中，TP、E和T分别表示检测正确的文本框数量、模型检测出的文本框数量和基准标注(ground truth)中真实的文本框数量。

本发明采用ResNet50作为骨干网，并在骨干网的第二层网络的输出上加入位置注意力网络，以进一步检测弯曲文本，使自然场景下的文本检测得到更加多样化处理，提高了场景文本检测的精度。

实施例二

如图2所示，本实施例提供了基于特征金字塔与注意力融合的文本检测系统，其具体包括如下模块：

图像获取模块，其被配置为：获取待检测图像；

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于特征金字塔与注意力融合的文本检测方法，其特征在于，包括：

获取待检测图像；

将待检测图像输入文本检测模型，得到图像中的文本位置；

其中，文本检测模型包括特征提取网络和特征融合网络；所述特征提取网络的骨干网为多层依次连接的不同结构的卷积网络，且第二层卷积网络的输出上引入了位置注意力网络；所述特征融合网络用于融合卷积网络和位置注意力网络的输出特征，得到最终特征；

所述特征融合网络首先是多分辨率特征金字塔的自上而下的上采样融合输出，同时所述第二层卷积网络的输出与位置注意力网络的输出逐点相乘融合，最后将融合后的特征图与多分辨率特征金字塔其他支路输出的特征融合映射；

所述位置注意力网络具体为：将所述第二层卷积网络输出的特征图分别经过三个卷积层得到三个三维特征图，并将三个三维特征图分别变形为二维特征图，记为第一二维特征图、第二二维特征图和第三二维特征图；对第一二维特征图进行转置之后与第二二维特征图做矩阵乘法，并将结果经过激活函数得到空间注意力图；将第三二维特征图与空间注意力图做矩阵相乘，将所得特征图变形为三维特征图，将该三维特征图乘尺度参数后与第二层卷积网络输出的特征图做对应元素特征相加操作，得到输出特征；

所述骨干网包括依次连接的第一层卷积网络、第二层卷积网络、第三层卷积网络、第四层卷积网络和第五层卷积网络；

2.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法，其特征在于，所述单卷积通道将输入图像依次经过1*1卷积层、3*3卷积层和1*1卷积层处理后，与输入图像进行融合，融合后的特征进入激活函数。

3.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法，其特征在于，所述双卷积通道包括第一卷积分支、第二卷积分支和激活函数；

所述第一卷积分支包括为一个1*1卷积层；

4.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法，其特征在于，所述特征融合网络具体为：

5.基于特征金字塔与注意力融合的文本检测系统，其特征在于，包括：

图像获取模块，其被配置为：获取待检测图像；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。