CN113052187B - 一种基于多尺度特征融合的全局特征对齐目标检测方法 - Google Patents

一种基于多尺度特征融合的全局特征对齐目标检测方法 Download PDF

Info

Publication number
CN113052187B
CN113052187B CN202110307905.3A CN202110307905A CN113052187B CN 113052187 B CN113052187 B CN 113052187B CN 202110307905 A CN202110307905 A CN 202110307905A CN 113052187 B CN113052187 B CN 113052187B
Authority
CN
China
Prior art keywords
feature
layer
dimension
feature map
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110307905.3A
Other languages
English (en)
Other versions
CN113052187A (zh
Inventor
贾海涛
莫超杰
刘博文
许文波
任利
周焕来
贾宇明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110307905.3A priority Critical patent/CN113052187B/zh
Publication of CN113052187A publication Critical patent/CN113052187A/zh
Application granted granted Critical
Publication of CN113052187B publication Critical patent/CN113052187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度特征融合的全局特征对齐特征对齐目标检测技术。该发明可以进一步增强以Faster R‑CNN为代表的目标检测算法在不同应用场景下的泛化性能。以往基于全局特征对齐的目标检测技术通常存在两个问题:一是特征对齐尺度单一,且未减小由目标尺寸大小不同带来的域间差异;二是以往全局特征对齐在前景目标特征的同时,强制对齐了背景特征,影响特征对齐效果。本发明提出的基于多尺度特征融合的全局特征对齐特征对齐目标检测方法,将不同尺度的特征图进行融合,使得不同尺寸大小的目标特征一同对齐,并进行背景抑制,减少背景噪声影响,将网络注意力更多放在前景目标特征对齐上。

Description

一种基于多尺度特征融合的全局特征对齐目标检测方法
技术领域
本发明涉及深度学习中的迁移学习领域,针对特征迁移这一迁移学习的子类技术在目标检测任务中的应用。
背景技术
受人类在学习知识的过程中举一反三能力的启发,迁移学习将从源域数据集中学习到“知识”迁移到目标域中,使得在源域数据集上训练好的目标检测网络在应用到与源域特征空间不同的目标域时,只需要付出较小的代价便可以提升目标检测算法的泛化性能。迁移学习迁移的“知识”是源域和目标域中共同拥有的。在目前的迁移学习算法中,特征对齐方法(域适应)的效果是最好的,其核心思想在于将域间差异减小,使得目标检测网络的特征提取器提取出的特征具有域不变性,即特征提取器能够忽略源域和目标域在背景等方面的差异而提取两域中共同的特征部分。现有的基于特征对齐的目标检测算法都采用Faster R-CNN网络作为目标检测框架,且大都从全局特征对齐和局部特征对齐两个方向减少域间差异。其中全局特征对齐是对主干网络提取出的特征图进行特征对齐,大都存在两点不足,一是全局特征对齐尺度过于单一,仅对主干网络最后输出的特征图进行特征对齐,即对大尺寸目标进行特征对齐,而忽略了小尺寸目标,且未消除由两域样本中由目标大小不同造成的域间差异;二是全局特征对齐过程中,在对齐前景目标特征的同时,强制对齐背景特征,由于背景噪声的影响,限制了全局特征对齐的效率。
发明内容
为了克服上述全局特征对齐算法存在的不足,本发明提出了一种基于多尺度特征融合的全局特征对齐目标检测(MGFA)方法。该方法以Faster R-CNN为目标检测框架,对多尺度特征进行特征对齐,并通过融合不同尺度特征将不同大小目标特征同步对齐,最后消除背景噪声对特征对齐造成的负面影响,从而解决域间差异带来的目标检测网络泛化性能低的问题。
本发明采用的技术方案是:
基于多尺度特征融合的全局特征对齐目标检测算法总共包含3个模块:
(1)特征融合模块:将Faster R-CNN的主干网络VGG16第二至第四卷积层输出的特征图进行特征融合,并输出新的特征图;在新的特征图中,融合了不同尺寸大小的目标特征;
(2)背景抑制模块:对于新的特征图,取每一个维度的特征平均值作为背景抑制基准值,该维度的特征图中每一个特征点的特征值若低于基准值,则将特征值置为0;
(3)全局特征对齐模块:对于背景抑制后的特征图,首先利用1×1卷积操作,将特征图维度降为1,然后将降为后的特征图中每一个特征点对应的特征值输入域分类器,判断每一个特征点在原图上对应的区域来自源域还是目标域,最终形成损失函数;最后利用翻转梯度层(GRL)形成生成对抗式的特征对齐方式,减少域间差异。
与现有技术相比,本发明的有益效果是:
(1)在全局特征对齐过程中,通过将不同尺度的特征融合进新的特征图中,将不同尺度大小的目标特征共同进行特征对齐,相比于单独对相同尺度大小的目标特征进行特征对齐,进一步减少了由目标尺寸大小不同带来的域间差异;
(2)在全局特征对齐过程中,使用背景抑制方法尽可能滤除背景噪声,减少背景噪声对特征对齐造成的负面影响,将网络注意力集中在对前景目标特征对齐上,进一步提高特征对齐的效率。
附图说明:
附图1:基于多尺度特征融合的全局特征对齐算法框架图。
附图2:VGG16-D网络结构图。
附图3:域分类器D1网络结构图。
附图4:Faster R-CNN检测效果示意图。
附图5:MGFA算法检测效果示意图。
附图6:MGFA算法与其他算法mAP指标对比图。
具体实施方式:
下面结合附图对本发明做进一步说明。
步骤1:如附图1所示,本发明以Faster R-CNN作为目标检测框架,其特征提取主干网络为VGG16-D,其网络结构如附图2所示,包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第二下采样层输出特征图记为F2,第三卷积层,第三下采样层,第三下采样层输出特征图记为F3,第四卷积层,第四下采样层,第四下采样层输出特征图记为F4,第五卷积层,第五卷积层输出特征图记为F5
步骤2:特征图F4的特征维数为512,F2的特征维数为128,将特征图F4通过1×1卷积层,将特征维道数下调至与F2一致为128,特征图F2的大小为F4的4倍,特征图F4通过上采样方法将大小扩大4倍,与F2一致,随后与F2按特征维数逐特征点相加,得到新的特征图F2,4,并对F2,4进行3×3卷积操作,padding=1,即不改变特征图大小,进一步融合各特征点周围信息,得到融合原F2和F4中前景目标特征信息后新的特征图G2,4
步骤3:先求取特征图G2,4中每一个维度的所有特征值的均值αi,i表示G2,4的第i维度,第i维度特征图中的每一个特征点的特征值若小于均值αi,则置为0,得到背景抑制后的特征图H2,4
步骤4:特征图F5的特征维数为512,F3的特征维数为256,将特征图F5通过卷积层,将特征维道数下调至与F3一致为256,特征图F3的大小是F5的2倍,F5通过上采样方法将大小扩大2倍,与F3一致,并与F3按特征维数逐特征点相加,得到新的特征图F3,5,并对F3,5进行3×3卷积操作,padding=1,即不改变特征图大小,进一步融合各特征点周围信息,得到融合原F3和F5中前景目标特征信息后新的特征图G3,5;并按步骤3的方式进行背景抑制得到背景抑制后的特征图H3,5
步骤5:将特征图G2,4输入域分类器D1;假设G2,4的大小为M×N×128,如附图3所示,域分类器D1包括GRL层,1×1卷积层Conv1和1×1卷积层Conv2,sigmoid层,GRL层在网络正向传播时为恒等变化,不起任何作用,在网络反向传播梯度时,将梯度取负;Conv1输出的维度为128,Conv2输出的维度为1,经过两层卷积层后,特征图大小为M×N×1,并利用sigmoid层后对每一个特征点进行域分类,得到概率值p(u,v),并得到损失函数如式(1)所示,其中Di为域标签,Di=0表示源域,Di=1表示目标域,
Figure BDA0002988319120000031
表示第i张图像样本生成特征图上坐标为(u,v)的特征点对应的域分类结果;
Figure BDA0002988319120000041
步骤6:将特征图G3,5输入域分类器D2网络结构与D1一致,除了Conv1输出的维度与D1不同,在D2中Conv1的输出为256,得到的损失函数的方式也与式(1)一致;
步骤7:最终与原有Faster R-CNN检测网络产生的损失函数相结合,得到整体损失函数,如式(2)所示,其中λ为0.1;
Lall=Ldet+λLgol (2)
步骤8:将本专利提出的MGFA方法与原始的Faster R-CNN算法在源域数据集为CityScape、目标域数据集为Foggy CityScape下进行对比实验。Faster R-CNN算法效果图如附图4所示,MGFA方法效果图如附图5所示,与其他特征迁移算法在mAP指标上的对比图如附图6所示。

Claims (4)

1.一种基于多尺度特征融合的全局特征对齐目标检测方法,其特征在于,包括以下步骤:
步骤1:以FasterR-CNN作为目标检测框架,并以VGG16作为主干网络,VGG16包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第二下采样层输出特征图记为F2,第三卷积层,第三下采样层,第三下采样层输出特征图记为F3,第四卷积层,第四下采样层,第四下采样层输出特征图记为F4,第五卷积层,第五卷积层输出特征图记为F5
步骤2:特征图F4的特征维数为512,F2的特征维数为128,将特征图F4通过1×1卷积层,将特征维数下调至与F2一致为128,特征图F2的大小为F4的4倍,特征图F4通过上采样方法将大小扩大4倍,与F2一致,随后与F2按特征维数逐特征点相加,得到新的特征图F2,4,并对F2,4进行3×3卷积操作,padding=1,即不改变特征图大小,进一步融合各特征点周围信息,得到融合原F2和F4中前景目标特征信息后新的特征图G2,4
步骤3:先求取特征图G2,4中每一个维度的所有特征值的均值αi,i表示G2,4的第i维度,第i维度特征图中的每一个特征点的特征值若小于均值αi,则置为0,得到背景抑制后的特征图H2,4
步骤4:特征图F5的特征维数为512,F3的特征维数为256,将特征图F5通过卷积层,将特征维数下调至与F3一致为256,特征图F3的大小是F5的2倍,F5通过上采样方法将大小扩大2倍,与F3一致,并与F3按特征维数逐特征点相加,得到新的特征图F3,5,并对F3,5进行3×3卷积操作,padding=1,即不改变特征图大小,进一步融合各特征点周围信息,得到融合原F3和F5中前景目标特征信息后新的特征图G3,5;并按步骤3的方式进行背景抑制得到背景抑制后的特征图H3,5
步骤5:将特征图G2,4输入域分类器D1;假设G2,4的大小为M×N×128,域分类器D1包括GRL层,1×1卷积层Conv1和1×1卷积层Conv2,sigmoid层,GRL层在网络正向传播时为恒等变化,不起任何作用,在网络反向传播梯度时,将梯度取负,Conv1输出的维度为128,Conv2输出的维度为1,经过两层卷积层后,特征图大小为M×N×1,并利用sigmoid层后对每一个特征点进行域分类,得到概率值p(u,v),并得到损失函数:
Figure FDA0003738798830000021
其中Di为域标签,Di=0表示源域,Di=1表示目标域,
Figure FDA0003738798830000022
表示第i张图像样本生成特征图上坐标为(u,v)的特征点对应的域分类结果;
步骤6:将特征图G3,5输入域分类器D2网络结构与D1一致,除了Conv1输出的维度与D1不同,在D2中Conv1的输出为256,得到的损失函数Ldet的方式与Lgol一致;
步骤7:根据步骤5和步骤6,我们可以得出总的损失函数是Lall=Ldet+λLgol
2.如权利要求1所述方法,其特征在于,步骤2与步骤4中的上采样方法均使用双线性内插方法。
3.如权利要求1所述方法,其特征在于,步骤2与步骤4中按特征图F2与F4以及F3与F5跨接方式融合不同尺寸大小的目标特征。
4.如权利要求1所述方法,其特征在于,步骤7中所示损失函数中λ值为0.1。
CN202110307905.3A 2021-03-23 2021-03-23 一种基于多尺度特征融合的全局特征对齐目标检测方法 Active CN113052187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307905.3A CN113052187B (zh) 2021-03-23 2021-03-23 一种基于多尺度特征融合的全局特征对齐目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307905.3A CN113052187B (zh) 2021-03-23 2021-03-23 一种基于多尺度特征融合的全局特征对齐目标检测方法

Publications (2)

Publication Number Publication Date
CN113052187A CN113052187A (zh) 2021-06-29
CN113052187B true CN113052187B (zh) 2022-08-30

Family

ID=76514531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307905.3A Active CN113052187B (zh) 2021-03-23 2021-03-23 一种基于多尺度特征融合的全局特征对齐目标检测方法

Country Status (1)

Country Link
CN (1) CN113052187B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343989B (zh) * 2021-07-09 2022-09-27 中山大学 一种基于前景选择域自适应的目标检测方法及系统
CN114399697A (zh) * 2021-11-25 2022-04-26 北京航空航天大学杭州创新研究院 一种基于运动前景的场景自适应目标检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555446A (zh) * 2019-08-19 2019-12-10 北京工业大学 基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494937B2 (en) * 2018-11-16 2022-11-08 Uatc, Llc Multi-task multi-sensor fusion for three-dimensional object detection
CN111460980B (zh) * 2020-03-30 2023-04-07 西安工程大学 基于多语义特征融合的小目标行人的多尺度检测方法
CN111598861B (zh) * 2020-05-13 2022-05-03 河北工业大学 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法
CN111768365B (zh) * 2020-05-20 2023-05-30 太原科技大学 基于卷积神经网络多特征融合的太阳能电池缺陷检测方法
CN112215207A (zh) * 2020-11-10 2021-01-12 中国人民解放军战略支援部队信息工程大学 联合多尺度和注意力机制的遥感影像飞机目标检测方法
CN112465752A (zh) * 2020-11-16 2021-03-09 电子科技大学 一种基于改进的Faster R-CNN小目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555446A (zh) * 2019-08-19 2019-12-10 北京工业大学 基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制和特征融合改进的小目标检测算法;麻森权等;《计算机应用与软件》;20200512(第05期);第200-205页 *

Also Published As

Publication number Publication date
CN113052187A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
Xu et al. Learning deep structured multi-scale features using attention-gated crfs for contour prediction
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113505792B (zh) 面向非均衡遥感图像的多尺度语义分割方法及模型
CN113052187B (zh) 一种基于多尺度特征融合的全局特征对齐目标检测方法
CN109784183B (zh) 基于级联卷积网络和光流的视频显著性目标检测方法
CN113392960A (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN111666948A (zh) 一种基于多路聚合的实时高性能语义分割方法和装置
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
Soh et al. Lightweight single image super-resolution with multi-scale spatial attention networks
Chen et al. Multi‐feature fusion attention network for single image super‐resolution
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN111881914A (zh) 一种基于自学习阈值的车牌字符分割方法及系统
Wang et al. Face super-resolution via hierarchical multi-scale residual fusion network
Li et al. Stereo superpixel segmentation via decoupled dynamic spatial-embedding fusion network
Tang et al. Context module based multi-patch hierarchical network for motion deblurring
CN115511820A (zh) 一种柔体线路板缺陷检测模型训练方法及缺陷检测方法
CN115115577A (zh) 一种基于混合感知的多阶段器官分割方法及装置
CN110516669B (zh) 一种复杂环境下多层级多尺度融合的文字检测方法
CN113313108A (zh) 一种基于超大感受野特征优化的显著性目标检测方法
Yu et al. Dual-branch feature learning network for single image super-resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant