CN113177579A

CN113177579A - 一种基于注意力机制的特征融合方法

Info

Publication number: CN113177579A
Application number: CN202110377181.XA
Authority: CN
Inventors: 杨裕亮; 党衍斌; 陈月云; 杜利平
Original assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Current assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-27

Abstract

本发明提供一种基于注意力机制的特征融合方法，属于人工智能技术领域。所述方法包括：在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征，其中，选出的特征图具有不同的位置信息和语义信息；为所述输出特征构建基于注意力机制的多尺度特征融合网络，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征；根据融合后的特征，对图像/视频中的目标进行分类、检测。采用本发明，能够提高检测精度。

Description

一种基于注意力机制的特征融合方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于注意力机制的特征融合方法。

背景技术

近年来，随着计算机硬件的迅速发展，越来越多基于卷积神经网络的目标检测算法被提出，如今，目标检测已经广泛的应用在军事、安防、医疗、社会服务等领域。

特征融合网络，如特征金字塔网络(FPN)、路径聚合网络(PANet)等，是主流目标检测器的重要组成部分，其作用是融合来自主干特征提取网络的多尺度特征，进而扩大感受野，以达到良好的检测效果。具体来讲，主干特征提取网络提取的高层特征图包含目标更多的语义信息，低层特征图则包含更多目标的细粒度特征(位置信息)，将高层特征与低层特征进行融合，可以有效提高目标的检测精度。

但FPN、PANnet以及基于自动架构搜索的特征金字塔网络(NAS-FPN)等主流的特征融合网络，主要通过改善网络结构为高层特征和低层特征之间增加流通路径，却没有考虑检测不同尺度的目标，所需要融合高低层特征的比例是不同的，直接将来自不同深度的特征层加在一起，对神经网络的前向传播和反向传播都是不利的。而其他一些自适应的特征融合算法虽然考虑了特征融合时的比例关系，却大都仅仅利用了相邻尺度的特征图，且倾向于只为检测小目标的特征图分配更多的位置信息，而没有充分考虑适宜的语义信息对大目标同样重要，导致检测精度低。

发明内容

本发明实施例提供了基于注意力机制的特征融合方法，能够提高检测精度。所述技术方案如下：

一方面，提供了一种基于注意力机制的特征融合方法，该方法应用于电子设备，该方法包括：

在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征，其中，选出的特征图具有不同的位置信息和语义信息；

为所述输出特征构建基于注意力机制的多尺度特征融合网络，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征；

根据融合后的特征，对图像/视频中的目标进行分类、检测。

进一步地，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征之前，所述方法还包括：

针对图像/视频的目标检测，根据输入输出的张量大小构建卷积神经网络作为主干特征提取网络；

通过主干特征提取网络提取图像中检测目标的多层次特征。

进一步地，所述在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征包括：

在主干特征提取网络提取的多层次特征中，选取主干特征提取网络最后q个卷积块的特征图作为输出特征。

进一步地，所述选取主干特征提取网络最后q个卷积块的特征图，用公式描述为：

F_i＝B_z～i(input)

F_i-1＝B₂(F_i)

...

F₁＝B₁(F₂)

其中，B_i表示主干特征提取网络的倒数第i个卷积块，z为主干特征提取网络所包含卷积块的个数，input为主干特征提取网络的图像，F_i为主干特征提取网络的倒数第i层特征图。

进一步地，所述为所述输出特征构建基于注意力机制的多尺度特征融合网络，其中，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征包括：

A1.确定检测尺度的个数，对于融合第j个尺度，统一不同尺度的特征图，其具体过程用公式描述为：

F_i→j＝resize_i→j(F_i)

其中，resize_i→j表示将特征图F_i调整为特征图F_j的大小，F_i→j表示为调整后的特征图，当i＝j时不做大小调整；

A2.对调整后的特征图，通过注意力机制学习特征融合时不同层次特征的比例系数；

A3.对不同层次的特征图按照学习到的比例系数进行特征融合。

进一步地，通过注意力机制学习特征融合时不同层次特征的比例系数，其具体过程用公式描述为：

G_i→j＝R(F_i→j)

其中，R()表示用来捕捉特征图F_i→j上各个位置的依赖关系，其通过卷积操作来实现；G_i→j表示为对F_i→j采用注意力机制得到的关系参数；α^j、β^j、...、γ^j均表示为特征融合的比例系数，其中，α^j+β^j+…+γ^j＝1，k为多尺度特征融合网络输入的特征图的个数。

进一步地，比例系数的个数等于多尺度特征融合网络输入的特征图个数。

进一步地，对不同层次的特征图按照学习到的比例系数进行特征融合，其具体过程用公式描述为：

其中，level j表示特征融合后用于预测的特征图，其大小与F_j一致，且j的取值为1到步骤A1中检测尺度的个数；

表示对F_i→j中的i取定值i_m时的特征图，

到

为F_j的相邻特征图。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于注意力机制的特征融合方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于注意力机制的特征融合方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征；为选出的具有不同的位置信息和语义信息的输出特征构建基于注意力机制的多尺度特征融合网络，多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征；根据融合后的特征，对图像/视频中的目标进行分类、检测。这样，充分考虑了不同层次的特征对于不同尺度目标检测的重要程度，使特征融合的比例关系由特征本身学习而来，从而提高了特征融合的有效性，进而可以在预测阶段，为不同尺度的检测目标自适应地提供不同比例的位置和语义信息，以提高检测精度；并在训练阶段，抑制由于无差别的特征堆叠造成反向传播时的梯度冲突，以加快收敛速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于注意力机制的特征融合方法的流程示意图；

图2为本发明实施例提供的基于注意力机制的特征融合方法的结构示意图；

图3为本发明实施例提供的注意力机制的工作原理示意图；

图4为本发明实施例提供的多尺度特征融合过程示意图；

图5为本发明实施例提供的YOLO V4模型的检测效果示意图；

图6为本发明实施例提供的基于注意力机制的特征融合方法的检测效果示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于注意力机制的特征融合方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器，该方法包括：

S101，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征，其中，选出的特征图具有不同的位置信息和语义信息；

S102，为所述输出特征构建基于注意力机制的多尺度特征融合网络，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征；

S103，根据融合后的特征，对图像/视频中的目标进行分类、检测。

本发明实施例提供的基于注意力机制的特征融合方法，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征；为选出的具有不同的位置信息和语义信息的输出特征构建基于注意力机制的多尺度特征融合网络，多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征；根据融合后的特征，对图像/视频中的目标进行分类、检测。这样，充分考虑了不同层次的特征对于不同尺度目标检测的重要程度，使特征融合的比例关系由特征本身学习而来，从而提高了特征融合的有效性，进而可以在预测阶段，为不同尺度的检测目标自适应地提供不同比例的位置和语义信息，以提高检测精度；并在训练阶段，抑制由于无差别的特征堆叠造成反向传播时的梯度冲突，以加快收敛速度。

在前述基于注意力机制的特征融合方法的具体实施方式中，进一步地，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征之前，所述方法还包括：

通过主干特征提取网络提取图像中检测目标的多层次特征。

本实施例中，所述主干特征提取网络是一个多层的主干特征提取网络，可以根据输入输出的张量大小构建卷积神经网络作为目标检测的主干特征提取网络，也可以选择如：Darknet53、CSPDarknet53、CSPDarknet53-Tiny、Resnet、DenseNet等主流的神经网络结构作为主干特征提取网络。

在前述基于注意力机制的特征融合方法的具体实施方式中，进一步地，所述在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征包括：

在主干特征提取网络提取的多层次特征中，由于不同深度的特征图具有不同比例的语义信息和位置信息，选取主干特征提取网络最后q个卷积块的特征图作为输出特征，其具体过程用公式描述为：

F_i＝B_z～i(input)

F_i-1＝B₂(F_i)

...

F₁＝B₁(F₂)

其中，B_i表示主干特征提取网络的倒数第i个卷积块，z为主干特征提取网络所包含卷积块的个数，input为主干特征提取网络的图像，F_i为主干特征提取网络的倒数第i层特征图，如图2所示，本实施例选取了F₁、F₂、F₃作为主干特征提取网络提取的特征图。

本实施例中，在实际应用中，一般选取主干特征提取网络最后2～3个卷积块的特征图(也可以称为：输出特征图)作为输出特征，即：多尺度特征融合网络的输入。

在前述基于注意力机制的特征融合方法的具体实施方式中，进一步地，所述为所述输出特征构建基于注意力机制的多尺度特征融合网络，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征包括：

A1.如图2所示，确定检测尺度的个数n，对于融合第j个尺度(level j)，统一不同尺度的特征图，其具体过程用公式描述为：

F_i→j＝resize_i→j(F_i)

本实施例中，检测尺度的个数一般选取为2～3个。

A2.调整后的特征图仍保留着原始特征图的信息，检测不同尺度的目标需要高层特征和低层特征以不同的比例融合，因此，如图3所示，需要对调整后的特征图，通过注意力机制(Attention module)学习特征融合时不同层次特征的比例系数，其具体过程用公式描述为：

G_i→j＝R(F_i→j)

本实施例中，比例关系由比例系数体现，比例系数的个数等于多尺度特征融合网络输入的特征图个数。

另需要说明的是：

图3中的Retain表示特征图大小不做调整，例如，若融合后的特征与F₁特征大小一致时，只需将F₂-F_k的特征做大小调整，F₁则不需要，将F₁、调整后的F₂-F_k融合在一起就得到了某个尺度(即：F₁大小)的融合特征图。

A3.对不同层次的特征图按照学习到的比例系数进行特征融合，使融合后的特征包含有利于该尺度目标检测的信息比例，其具体过程用公式描述为：

表示对F_i→j中的i取定值i_m时的特征图，

到

为F_j的相邻特征图。

本实施例中，如图4所示，以取F₁、F₂、F₃作为输入特征图来融合预测特征图level 2为例，其中level 2与F₂的特征图大小相同，具体过程用公式描述为：

level 2＝α²·F_1→2+β²·F_2→2+γ²·F_3→2

其中，F_1→2、F_2→2、F_3→2表示为调整到特征图F₂大小的特征图，α²、β²、γ²表示为融合特征图level 2所学习到的比例系数。

本实施例中，可以在目标数据集或主流公开数据集上训练上述主干特征提取网络和多尺度特征融合网络，通过多尺度特征融合网络中的注意力机制根据选取的多层次特征信息学习不同层次特征的相关性和重要性，得到特征融合时不同特征层的比例关系，进而通过学习到的比例关系融合不同层次特征，为图像/视频中的目标分类、检测提供了不同感受野的特征信息。

为了验证本发明实施例提供的基于注意力机制的特征融合方法的有效性，采用CSPDarknet53作为主干特征提取网络，并使用VOC 2007数据集作为训练样本集(8070张图片)和验证样本集(996张图片)，没有使用任何预训练权重作为初始权重；使用Darknet深度学习框架，训练环境为：ubuntu16.04，cuda10.0，cudnn7.6.5，GPU(TIAN Xp)，12GB显存，python2.7.8，Opencv3.2.0。训练参数设置如表1所示：

表1训练参数设置

参数	设置值
		batch	64
subdivisions	32
		width	608
height	608
		channels	3
momentum	0.949
		decay	0.0005
learning_rate	0.001
		Burn_in	1000
max_batches	20000
		steps	14000，18000
scales	0.1，0.1
		mosaic	1

实验结果

本实施例中，使用平均精度均值(mean Average Precision，mAP)作为评价指标，在上述的验证样本集上进行测试，如表2所示，本实施例在各类别上的目标检测精确度都优于YOLO V4目标检测模型；如图5、6所示，相比与YOLO V4目标检测模型，本实施例可以检测出更多的小目标，且分类的置信度更高、检测框的位置更贴合于检测目标。

表2检测结果

图7是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述基于注意力机制的特征融合方法。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于注意力机制的特征融合方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的特征融合方法，其特征在于，包括：

根据融合后的特征，对图像/视频中的目标进行分类、检测。

2.根据权利要求1所述的基于注意力机制的特征融合方法，其特征在于，在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征之前，所述方法还包括：

通过主干特征提取网络提取图像中检测目标的多层次特征。

3.根据权利要求1所述的基于注意力机制的特征融合方法，其特征在于，所述在主干特征提取网络提取的多层次特征中，选取若干个不同大小、不同深度的特征图作为输出特征包括：

4.根据权利要求3所述的基于注意力机制的特征融合方法，其特征在于，所述选取主干特征提取网络最后q个卷积块的特征图，用公式描述为：

F_i＝B_z～i(input)

F_i-1＝B₂(F_i)

…

F₁＝B₁(F₂)

5.根据权利要求1所述的基于注意力机制的特征融合方法，其特征在于，所述为所述输出特征构建基于注意力机制的多尺度特征融合网络，其中，所述多尺度特征融合网络通过注意力机制学习特征融合时不同层次特征的比例关系，根据学习到的比例关系融合不同层次特征包括：

F_i→j＝resize_i→j(F_i)

6.根据权利要求5所述的基于注意力机制的特征融合方法，其特征在于，通过注意力机制学习特征融合时不同层次特征的比例系数，其具体过程用公式描述为：

G_i→j＝R(F_i→j)

7.根据权利要求6所述的基于注意力机制的特征融合方法，其特征在于，比例系数的个数等于多尺度特征融合网络输入的特征图个数。

8.根据权利要求6所述的基于注意力机制的特征融合方法，其特征在于，对不同层次的特征图按照学习到的比例系数进行特征融合，其具体过程用公式描述为：

表示对F_i→j中的i取定值i_m时的特征图，

到

为F_j的相邻特征图。