CN113052187B

CN113052187B - 一种基于多尺度特征融合的全局特征对齐目标检测方法

Info

Publication number: CN113052187B
Application number: CN202110307905.3A
Authority: CN
Inventors: 贾海涛; 莫超杰; 刘博文; 许文波; 任利; 周焕来; 贾宇明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-08-30
Anticipated expiration: 2041-03-23
Also published as: CN113052187A

Abstract

本发明公开了一种基于多尺度特征融合的全局特征对齐特征对齐目标检测技术。该发明可以进一步增强以Faster R‑CNN为代表的目标检测算法在不同应用场景下的泛化性能。以往基于全局特征对齐的目标检测技术通常存在两个问题：一是特征对齐尺度单一，且未减小由目标尺寸大小不同带来的域间差异；二是以往全局特征对齐在前景目标特征的同时，强制对齐了背景特征，影响特征对齐效果。本发明提出的基于多尺度特征融合的全局特征对齐特征对齐目标检测方法，将不同尺度的特征图进行融合，使得不同尺寸大小的目标特征一同对齐，并进行背景抑制，减少背景噪声影响，将网络注意力更多放在前景目标特征对齐上。

Description

一种基于多尺度特征融合的全局特征对齐目标检测方法

技术领域

本发明涉及深度学习中的迁移学习领域，针对特征迁移这一迁移学习的子类技术在目标检测任务中的应用。

背景技术

受人类在学习知识的过程中举一反三能力的启发，迁移学习将从源域数据集中学习到“知识”迁移到目标域中，使得在源域数据集上训练好的目标检测网络在应用到与源域特征空间不同的目标域时，只需要付出较小的代价便可以提升目标检测算法的泛化性能。迁移学习迁移的“知识”是源域和目标域中共同拥有的。在目前的迁移学习算法中，特征对齐方法(域适应)的效果是最好的，其核心思想在于将域间差异减小，使得目标检测网络的特征提取器提取出的特征具有域不变性，即特征提取器能够忽略源域和目标域在背景等方面的差异而提取两域中共同的特征部分。现有的基于特征对齐的目标检测算法都采用Faster R-CNN网络作为目标检测框架，且大都从全局特征对齐和局部特征对齐两个方向减少域间差异。其中全局特征对齐是对主干网络提取出的特征图进行特征对齐，大都存在两点不足，一是全局特征对齐尺度过于单一，仅对主干网络最后输出的特征图进行特征对齐，即对大尺寸目标进行特征对齐，而忽略了小尺寸目标，且未消除由两域样本中由目标大小不同造成的域间差异；二是全局特征对齐过程中，在对齐前景目标特征的同时，强制对齐背景特征，由于背景噪声的影响，限制了全局特征对齐的效率。

发明内容

为了克服上述全局特征对齐算法存在的不足，本发明提出了一种基于多尺度特征融合的全局特征对齐目标检测(MGFA)方法。该方法以Faster R-CNN为目标检测框架，对多尺度特征进行特征对齐，并通过融合不同尺度特征将不同大小目标特征同步对齐，最后消除背景噪声对特征对齐造成的负面影响，从而解决域间差异带来的目标检测网络泛化性能低的问题。

本发明采用的技术方案是：

基于多尺度特征融合的全局特征对齐目标检测算法总共包含3个模块：

(1)特征融合模块：将Faster R-CNN的主干网络VGG16第二至第四卷积层输出的特征图进行特征融合，并输出新的特征图；在新的特征图中，融合了不同尺寸大小的目标特征；

(2)背景抑制模块：对于新的特征图，取每一个维度的特征平均值作为背景抑制基准值，该维度的特征图中每一个特征点的特征值若低于基准值，则将特征值置为0；

(3)全局特征对齐模块：对于背景抑制后的特征图，首先利用1×1卷积操作，将特征图维度降为1，然后将降为后的特征图中每一个特征点对应的特征值输入域分类器，判断每一个特征点在原图上对应的区域来自源域还是目标域，最终形成损失函数；最后利用翻转梯度层(GRL)形成生成对抗式的特征对齐方式，减少域间差异。

与现有技术相比，本发明的有益效果是：

(1)在全局特征对齐过程中，通过将不同尺度的特征融合进新的特征图中，将不同尺度大小的目标特征共同进行特征对齐，相比于单独对相同尺度大小的目标特征进行特征对齐，进一步减少了由目标尺寸大小不同带来的域间差异；

(2)在全局特征对齐过程中，使用背景抑制方法尽可能滤除背景噪声，减少背景噪声对特征对齐造成的负面影响，将网络注意力集中在对前景目标特征对齐上，进一步提高特征对齐的效率。

附图说明：

附图1：基于多尺度特征融合的全局特征对齐算法框架图。

附图2：VGG16-D网络结构图。

附图3：域分类器D₁网络结构图。

附图4：Faster R-CNN检测效果示意图。

附图5：MGFA算法检测效果示意图。

附图6：MGFA算法与其他算法mAP指标对比图。

具体实施方式：

下面结合附图对本发明做进一步说明。

步骤1：如附图1所示，本发明以Faster R-CNN作为目标检测框架，其特征提取主干网络为VGG16-D，其网络结构如附图2所示，包括第一卷积层，第一下采样层，第二卷积层，第二下采样层，第二下采样层输出特征图记为F₂，第三卷积层，第三下采样层，第三下采样层输出特征图记为F₃，第四卷积层，第四下采样层，第四下采样层输出特征图记为F₄，第五卷积层，第五卷积层输出特征图记为F₅；

步骤2：特征图F₄的特征维数为512，F₂的特征维数为128，将特征图F₄通过1×1卷积层，将特征维道数下调至与F₂一致为128，特征图F₂的大小为F₄的4倍，特征图F₄通过上采样方法将大小扩大4倍，与F₂一致，随后与F₂按特征维数逐特征点相加，得到新的特征图F_2,4，并对F_2,4进行3×3卷积操作，padding＝1，即不改变特征图大小，进一步融合各特征点周围信息，得到融合原F₂和F₄中前景目标特征信息后新的特征图G_2,4；

步骤3：先求取特征图G_2,4中每一个维度的所有特征值的均值α_i，i表示G_2,4的第i维度，第i维度特征图中的每一个特征点的特征值若小于均值α_i，则置为0，得到背景抑制后的特征图H_2,4；

步骤4：特征图F₅的特征维数为512，F₃的特征维数为256，将特征图F₅通过卷积层，将特征维道数下调至与F₃一致为256，特征图F₃的大小是F₅的2倍，F₅通过上采样方法将大小扩大2倍，与F₃一致，并与F₃按特征维数逐特征点相加，得到新的特征图F_3,5，并对F_3,5进行3×3卷积操作，padding＝1，即不改变特征图大小，进一步融合各特征点周围信息，得到融合原F₃和F₅中前景目标特征信息后新的特征图G_3,5；并按步骤3的方式进行背景抑制得到背景抑制后的特征图H_3,5；

步骤5：将特征图G_2,4输入域分类器D₁；假设G_2,4的大小为M×N×128，如附图3所示，域分类器D₁包括GRL层，1×1卷积层Conv1和1×1卷积层Conv2，sigmoid层，GRL层在网络正向传播时为恒等变化，不起任何作用，在网络反向传播梯度时，将梯度取负；Conv1输出的维度为128，Conv2输出的维度为1，经过两层卷积层后，特征图大小为M×N×1，并利用sigmoid层后对每一个特征点进行域分类，得到概率值p^(u,v)，并得到损失函数如式(1)所示，其中D_i为域标签，D_i＝0表示源域，D_i＝1表示目标域，

表示第i张图像样本生成特征图上坐标为(u，v)的特征点对应的域分类结果；

步骤6：将特征图G_3,5输入域分类器D₂网络结构与D₁一致，除了Conv1输出的维度与D₁不同，在D₂中Conv1的输出为256，得到的损失函数的方式也与式(1)一致；

步骤7：最终与原有Faster R-CNN检测网络产生的损失函数相结合，得到整体损失函数，如式(2)所示，其中λ为0.1；

L_all＝L_det+λL_gol (2)

步骤8：将本专利提出的MGFA方法与原始的Faster R-CNN算法在源域数据集为CityScape、目标域数据集为Foggy CityScape下进行对比实验。Faster R-CNN算法效果图如附图4所示，MGFA方法效果图如附图5所示，与其他特征迁移算法在mAP指标上的对比图如附图6所示。

Claims

1.一种基于多尺度特征融合的全局特征对齐目标检测方法，其特征在于，包括以下步骤：

步骤1：以FasterR-CNN作为目标检测框架，并以VGG16作为主干网络，VGG16包括第一卷积层，第一下采样层，第二卷积层，第二下采样层，第二下采样层输出特征图记为F₂，第三卷积层，第三下采样层，第三下采样层输出特征图记为F₃，第四卷积层，第四下采样层，第四下采样层输出特征图记为F₄，第五卷积层，第五卷积层输出特征图记为F₅；

步骤2：特征图F₄的特征维数为512，F₂的特征维数为128，将特征图F₄通过1×1卷积层，将特征维数下调至与F₂一致为128，特征图F₂的大小为F₄的4倍，特征图F₄通过上采样方法将大小扩大4倍，与F₂一致，随后与F₂按特征维数逐特征点相加，得到新的特征图F_2，4，并对F_2，4进行3×3卷积操作，padding＝1，即不改变特征图大小，进一步融合各特征点周围信息，得到融合原F₂和F₄中前景目标特征信息后新的特征图G_2，4；

步骤3：先求取特征图G_2，4中每一个维度的所有特征值的均值α_i，i表示G_2，4的第i维度，第i维度特征图中的每一个特征点的特征值若小于均值α_i，则置为0，得到背景抑制后的特征图H_2，4；

步骤4：特征图F₅的特征维数为512，F₃的特征维数为256，将特征图F₅通过卷积层，将特征维数下调至与F₃一致为256，特征图F₃的大小是F₅的2倍，F₅通过上采样方法将大小扩大2倍，与F₃一致，并与F₃按特征维数逐特征点相加，得到新的特征图F_3，5，并对F_3，5进行3×3卷积操作，padding＝1，即不改变特征图大小，进一步融合各特征点周围信息，得到融合原F₃和F₅中前景目标特征信息后新的特征图G_3，5；并按步骤3的方式进行背景抑制得到背景抑制后的特征图H_3，5；

步骤5：将特征图G_2，4输入域分类器D₁；假设G_2，4的大小为M×N×128，域分类器D₁包括GRL层，1×1卷积层Conv1和1×1卷积层Conv2，sigmoid层，GRL层在网络正向传播时为恒等变化，不起任何作用，在网络反向传播梯度时，将梯度取负，Conv1输出的维度为128，Conv2输出的维度为1，经过两层卷积层后，特征图大小为M×N×1，并利用sigmoid层后对每一个特征点进行域分类，得到概率值p^(u，v)，并得到损失函数：

其中D_i为域标签，D_i＝0表示源域，D_i＝1表示目标域，

步骤6：将特征图G_3，5输入域分类器D₂网络结构与D₁一致，除了Conv1输出的维度与D₁不同，在D₂中Conv1的输出为256，得到的损失函数L_det的方式与L_gol一致；

步骤7：根据步骤5和步骤6，我们可以得出总的损失函数是L_all＝L_det+λL_gol。

2.如权利要求1所述方法，其特征在于，步骤2与步骤4中的上采样方法均使用双线性内插方法。

3.如权利要求1所述方法，其特征在于，步骤2与步骤4中按特征图F₂与F₄以及F₃与F₅跨接方式融合不同尺寸大小的目标特征。

4.如权利要求1所述方法，其特征在于，步骤7中所示损失函数中λ值为0.1。