CN114821152B - 基于前景-类别感知对齐的域自适应目标检测方法及系统 - Google Patents

基于前景-类别感知对齐的域自适应目标检测方法及系统 Download PDF

Info

Publication number
CN114821152B
CN114821152B CN202210290769.6A CN202210290769A CN114821152B CN 114821152 B CN114821152 B CN 114821152B CN 202210290769 A CN202210290769 A CN 202210290769A CN 114821152 B CN114821152 B CN 114821152B
Authority
CN
China
Prior art keywords
domain
class
foreground
target
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210290769.6A
Other languages
English (en)
Other versions
CN114821152A (zh
Inventor
王晓伟
蒋沛文
王惠
谢国涛
秦兆博
秦晓辉
边有钢
胡满江
秦洪懋
徐彪
丁荣军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210290769.6A priority Critical patent/CN114821152B/zh
Publication of CN114821152A publication Critical patent/CN114821152A/zh
Application granted granted Critical
Publication of CN114821152B publication Critical patent/CN114821152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于前景‑类别感知对齐的域自适应目标检测方法及系统,该方法包括:使用通过下面步骤获得的域自适应目标检测模型在目标域数据集对应的场景进行目标检测;步骤1,设置图像级域分类器和实例级域分类器,构建基准模型;步骤2,设置前景感知模块和类别感知模块,构建基于前景‑类别感知对齐的域自适应目标检测模型;步骤3,训练并获得域自适应目标检测模型。本发明能够跨域目标检测流程的关注点从整体特征对齐,到前景特征对齐,再到类别特征对齐的转变,在跨天气、跨摄像头、跨复杂场景检测下都取得了在目标域上的性能提升。

Description

基于前景-类别感知对齐的域自适应目标检测方法及系统
技术领域
本发明涉及基于深度迁移学习的目标检测技术领域,特别是关于一种基于前景-类别感知对齐的域自适应目标检测方法及系统。
背景技术
无监督域自适应目标检测在源域具有带标签数据、目标域没有带标签数据的情况下,通过将源域的知识迁移到目标域,来提高目标检测器在目标域上的检测性能。近年来,无监督域自适应目标检测凭借着通过对抗训练方式学习到的域不变特征,在多种复杂跨域检测场景下大放异彩。这些方法使用梯度反转层来桥接目标检测器和域分类器,在整个目标检测流程中通过最小化目标检测损失、最大化域分类损失来完成对抗训练,当源域和目标域特征在特征空间中得到混淆时,源域和目标域就顺利地完成迁移过程。
当前无监督域自适应目标检测方法大多只是通过上述策略来实现源域和目标域整体特征的迁移,这种迁移过程并未区分前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),而是以“前景未知”的方式进行域对齐。然而,背景区域对于跨域检测而言并不应该成为迁移过程的关注点,倘若将前景和背景区域置于同等地位进行两域特征对齐,那么跨域目标检测流程难以关注到真正需要参与迁移过程的前景区域,从而限制跨域目标检测模型性能的提升。
尽管现有少数的无监督域自适应目标检测方法试图通过解耦出前景和背景区域来对齐前景区域特征,但是这些方法也尚未能深入考虑前景区域中类别层面上特征的对齐情况。如果只是以“类别未知”的方式来对齐源域和目标域的前景区域特征,那么极有可能造成前景区域中不同类别特征的错误对齐。由于前景区域的类别结构没有得到充分挖掘,因此极有可能造成前景区域中类别特征的负迁移,跨域目标检测模型的性能最终也只能达到次优状态。
发明内容
本发明的目的在于提供一种基于前景-类别感知对齐的域自适应目标检测方法及系统来克服或至少减轻现有技术的上述缺陷中的至少一个。
为实现上述目的,本发明提供一种基于前景-类别感知对齐的域自适应目标检测方法,其包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型,所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐。
进一步地,所述步骤2中设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取区域分类分数,并对原始特征图进行加权;
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的分类分数,并将所述多类别分类分数转化得到的概率分数
Figure GDA0004051869250000021
步骤2.1.3,根据所述概率分数
Figure GDA0004051869250000022
和源域图像标签转化得到的多类别标签dk,建立所述前景感知模块的损失函数。
进一步地,使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督,当源域图像存在一个属于类别k的目标,则多类别标签中第k个类别标签dk置为1,否则dk置为0。
进一步地,所述步骤2.1.1具体包括:
步骤a1,将主干网络后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图,分别输入到区域分类器中,获得表示第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图
Figure GDA0004051869250000023
在(h,w)位置上的区域分类分数
Figure GDA0004051869250000031
和对第j张目标域数据集中目标域图像对应的第l个特征图
Figure GDA0004051869250000032
在(h,w)位置上的区域分类分数
Figure GDA0004051869250000033
其中,
Figure GDA0004051869250000034
表示第i张源域图像对应的第l个特征图
Figure GDA0004051869250000035
在(h,w)位置上的特征值,
Figure GDA0004051869250000036
表示第j张目标域图像对应的第l个特征图
Figure GDA0004051869250000037
在(h,w)位置上的特征值;
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图
Figure GDA0004051869250000038
在(h,w)位置上的区域分类分数
Figure GDA0004051869250000039
转化为在(h,w)位置上属于前景的概率分数
Figure GDA00040518692500000310
以及按照式(6-2),将第j张目标域数据集中目标域图像对应的第l个特征图
Figure GDA00040518692500000311
在(h,w)位置上的区域分类分数
Figure GDA00040518692500000312
转化为在(h,w)位置上属于前景的概率分数
Figure GDA00040518692500000313
Figure GDA00040518692500000314
Figure GDA00040518692500000315
式中,S(·)表示sigmoid激活函数;
步骤a3,按照式(7-1)对源域原始特征值
Figure GDA00040518692500000316
进行重加权得到特征值
Figure GDA00040518692500000317
以及按照式(7-2)对目标域原始特征值
Figure GDA00040518692500000318
进行重加权得到特征值
Figure GDA00040518692500000319
最后输入到各自的图像级域分类器;
Figure GDA00040518692500000320
Figure GDA00040518692500000321
式中,
Figure GDA00040518692500000322
表示两个张量对应位置处的元素相乘。
进一步地,所述多类别分类分数包括式(9)描述的多分类分数图v的第k个通道的平均分类分数
Figure GDA00040518692500000323
和式(11)描述的原始分类分数
Figure GDA00040518692500000324
加权后第k个通道的加权分类分数
Figure GDA00040518692500000325
Figure GDA00040518692500000326
Figure GDA00040518692500000327
式中,
Figure GDA00040518692500000328
被描述为式(10),
Figure GDA00040518692500000329
Figure GDA00040518692500000330
所述步骤2.1.2具体包括:
步骤b1,将主干网络最后1个卷积块输出且经过重加权的特征图,输入到类别引导注意单元中的多类别分类器C(·),由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,其中
Figure GDA0004051869250000041
Figure GDA0004051869250000042
表示由所述多分类分类器输出的所述多类别分类分数;
Figure GDA0004051869250000043
式中,
Figure GDA0004051869250000044
表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,
Figure GDA0004051869250000045
表示vh,w的通道数为K,
Figure GDA0004051869250000046
表示第i张源域图像对应的第3个重加权特征图
Figure GDA0004051869250000047
在(h,w)位置上的特征值
Figure GDA0004051869250000048
步骤b2,根据所述多类别分类分数和源域图像的标签获取
Figure GDA0004051869250000049
利用式(12),获得第k个通道的概率分数
Figure GDA00040518692500000410
Figure GDA00040518692500000411
式中,S(·)表示sigmoid激活函数。
进一步地,所述步骤2中设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数。
进一步地,所述步骤2.2.1中的所述相似分数矩阵
Figure GDA00040518692500000412
中的元素设置为源域和目标域特征向量之间的相似分数
Figure GDA00040518692500000413
Figure GDA00040518692500000414
的维度为ns×nt
Figure GDA00040518692500000415
式中,
Figure GDA00040518692500000416
表示第i个源域特征向量
Figure GDA00040518692500000417
和第j个目标域特征向量
Figure GDA00040518692500000418
之间的相似分数,||·||2表示欧氏距离;
所述步骤2.2.2中的所述类别关系矩阵
Figure GDA00040518692500000419
中的元素设置为源域和目标域特征向量之间的类别关系,
Figure GDA00040518692500000420
的维度为ns×nt,如果第i个源域特征向量
Figure GDA00040518692500000421
对应的预测类别与第j个目标域特征向量
Figure GDA0004051869250000051
对应的预测类别相同,则Bij=1;如果第i个源域特征向量
Figure GDA0004051869250000052
对应的预测类别与第j个目标域特征向量
Figure GDA0004051869250000053
对应的预测类别不同,则Bij=0。
本发明还提供一种基于前景-类别感知对齐的域自适应目标检测系统,其包括:
基准模型,其为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块,其用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块,其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。
进一步地,所述前景感知模块具体包括前景注意单元、类别引导注意单元,其中:
前景注意单元,其用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程;
类别引导注意单元,其用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
本发明由于采取以上技术方案,其具有以下优点:
1.本发明提供的前景感知模块能够准确地判别出前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐,实现跨域目标检测流程的关注点从整体特征对齐到前景特征对齐的转变,有助于将跨域目标检测模型的性能提升到一个新的层次。
2.本发明提供的类别感知模块能够可靠地使两域不同的类别特征分离,两域相同的类别特征聚合,减小不同类别特征错误对齐的风险,通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声,实现跨域目标检测流程的关注点从前景特征对齐转到类别特征对齐的转变,在一定程度上提高了跨域目标检测模型的性能。
附图说明
图1为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测系统的架构图。
图2为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法的流程图。
图3为本发明实施例提供的前景感知模块中前景注意单元的原理图。
图4为本发明实施例提供的前景感知模块中类别引导注意单元的原理图。
图5为本发明实施例提供的类别感知模块的原理图。
图6为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨天气下的检测效果。
图7为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨摄像头下的检测效果。
图8为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨复杂场景下的检测效果。
具体实施方式
在附图中,使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。
如图1和图2所示,本发明实施例提供基于前景-类别感知对齐的域自适应目标检测方法包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过获取所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型(下文中的实验部分的符号记为“Ours”),所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐。
本发明实施例通过设置前景感知模块,能够准确地判别出前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐,有助于将跨域目标检测模型的性能提升到一个新的层次。通过设置类别感知模块,能够将域自适应目标检测的对齐关注点,进一步地从前景特征对齐,转移到了类别特征对齐,能够可靠地使两域不同的类别特征分离,两域相同的类别特征聚合,减小不同类别特征错误对齐的风险,通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声,在一定程度上提高了跨域目标检测模型的性能。
在一个实施例中,所述步骤1具体包括:
步骤1.1,选取目标检测器。
Faster R-CNN是深度学习时代里一种优秀的两阶段目标检测器,在域自适应目标检测研究中占据主导地位,本发明实施例选取Faster R-CNN作为目标检测器以做更进一步说明。
所述Faster R-CNN以VGG16为主干网络(Backbone),首先通过主干网络中系列卷积层对输入图像进行特征提取,再使用区域生成网络(Region Proposal Network,RPN)生成可能包含目标的候选区域,最后通过感兴趣区域头部网络(Region of Interest Head,RoI Head)预测最终的分类结果和边界框回归结果。
公式(1)为目标检测器Faster R-CNN的损失函数
Figure GDA0004051869250000071
包括区域生成网络的损失函数
Figure GDA0004051869250000072
和感兴趣区域头部网络的损失函数
Figure GDA0004051869250000073
Figure GDA0004051869250000074
在步骤1.1中,所选取的目标检测器并不局限于Faster R-CNN,可以是其他具备与Faster R-CNN具有相似网络架构的两阶段目标检测器。此外,所采用的主干网络并不局限于VGG16,可以是其他具备特征提取功能的卷积神经网络。
步骤1.2,在目标检测器上设置图像级域分类器。
将主干网络(如:VGG16)后3个卷积块输出的特征图,分别通过梯度反转层输入到图像级域分类器中。所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反,实现图像级域分类器与目标检测器的对抗训练。所述图像级域分类器由系列卷积层组成,最终输出高度和宽度与输入相同、通道数为1的域分类分数图。
公式(2)为图像级域分类器的总损失函数
Figure GDA0004051869250000075
其中,l表示图像级域分类器的索引(取1、2、3),
Figure GDA0004051869250000081
表示第l个图像级域分类器的损失函数。
公式(3)为第l个图像级域分类器的损失函数
Figure GDA0004051869250000082
其中,s表示源域,t表示目标域,Dl(·)表示第l个图像级域分类器,g表示输入图像级域分类器的特征图,Ns和Nt分别表示源域和目标域图像的总数,Hs和Ws分别表示输入图像级域分类器源域特征图的高度和宽度,Ht和Wt分别表示输入图像级域分类器目标域特征图的高度和宽度,i表示源域图像的索引(取1至Ns),j表示目标域图像的索引(取1至Nt),表示特征图高度方向的索引(对于源域,取1至Hs;对于目标域,取1至Ht),W表示特征图宽度方向的索引(对于源域,取1至Ht;对于目标域,取1至Wt),
Figure GDA0004051869250000083
表示第l个图像级域分类器对第i张源域图像对应的第l个特征图
Figure GDA0004051869250000084
在(h,w)位置上的域分类分数,
Figure GDA0004051869250000085
表示第l个图像级域分类器对第j张目标域图像对应的第l个特征图
Figure GDA0004051869250000086
在(h,w)位置上的域分类分数。
Figure GDA0004051869250000087
Figure GDA0004051869250000088
在上述步骤1.2中,第l个图像级域分类器的损失函数的计算形式并不一定如公式(3)所示的最小二乘方损失函数,可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。
步骤1.3,在目标检测器上设置实例级域分类器。
将经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量,分别通过梯度反转层输入到实例级域分类器中。
所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反,实现实例级域分类器与目标检测器的对抗训练。所述实例级域分类器由系列全连接层组成,最终输出维度为1的域分类分数。
公式(4)为实例级域分类器的损失函数
Figure GDA0004051869250000089
其中,s表示源域,t表示目标域,Dins(·)表示实例级域分类器,r表示经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到特征向量,ns和nt分别表示源域和目标域特征向量的总数,i表示源域特征向量的索引(取1至ns),j表示目标域特征向量的索引(取1至nt),
Figure GDA00040518692500000810
表示第i个源域特征向量,
Figure GDA00040518692500000811
表示第j个目标域特征向量,
Figure GDA00040518692500000812
表示实例级域分类器对第i个源域特征向量
Figure GDA00040518692500000813
的域分类分数,
Figure GDA00040518692500000814
表示实例级域分类器对第j个目标域特征向量
Figure GDA0004051869250000091
的域分类分数。
Figure GDA0004051869250000092
在上述步骤1.3中,实例级域分类器的损失函数的计算形式并不一定如公式(4)所示的最小二乘方损失函数,可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。
步骤1.4,获取基准模型的损失函数。
通过在目标检测器Faster R-CNN上构建图像级域分类器和实例级域分类器,形成基准模型。
公式(5)为基准模型的损失函数
Figure GDA0004051869250000093
包括目标检测器的损失函数
Figure GDA0004051869250000094
图像级域分类器的损失函数
Figure GDA0004051869250000095
和实例级域分类器的损失函数
Figure GDA0004051869250000096
组成,其中,λ1和λ2表示平衡系数。
Figure GDA0004051869250000097
在一个实施例中,所述步骤2具体包括:
步骤2.1,在基准模型上设置前景感知模块。
在对式(5)优化的过程中,目标检测器和图像级域分类器实现对抗训练。当训练到一定程度时,由目标检测器主干网络(如:VGG16)提取出来的源域和目标域特征图足够相似,以至于图像级域分类器区分不出特征图到底是来自于源域还是目标域,那么源域和目标域的整体特征得到了较好的对齐。然而,这种对齐方式属于“前景未知”,并没有对前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等)加以区分,也就是说将前景和背景区域按照同等力度进行两域特征对齐。实际上,背景区域不应该和前景区域具有相同的迁移重要度,这是因为跨域目标检测流程真正应该关注的是具有不同外观、不同风格、不同尺度的前景区域。否则,存在跨域变化的前景区域特征没有得到足够关注而对齐不充分,无关紧要的背景区域却得到过分的对齐,这样极有可能损害跨域目标检测模型的性能。
为了将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐,步骤2.1可以通过如下子步骤实现:
步骤2.1.1,通过前景注意单元中的区域分类器获取区域分类分数,并对原始特征图进行加权。
在一个实施例中,为了确保输入图像级域分类器的特征图已经激活出前景区域并抑制了背景区域,使得图像级域分类器着眼于前景区域特征的迁移过程。3个图像级域分类器与各自位置之前的区域分类器配合发挥作用,沿着目标检测器的主干网络,将对齐焦点从整体层面逐渐转向前景区域。如图3所示,前景注意单元中的区域分类器由一个1×1卷积层构成,在保证与输入特征图高度和宽度一致的情况下,输出通道数为1的区域分类分数图,再将区域分类分数图转化为概率分数图,此概率分数图记录着特征图在每个像素位置上属于前景的概率分数。也就是说,所述步骤2.1.1具体包括:
步骤a1,先将主干网络(如:VGG16)后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图,分别输入到区域分类器中,获得表示第l个前景注意单元中的区域分类器对第i张源域图像对应的第l个特征图
Figure GDA0004051869250000101
在(h,w)位置上的区域分类分数
Figure GDA0004051869250000102
和第l个前景注意单元中的区域分类器对第j张目标域图像对应的第l个特征图
Figure GDA0004051869250000103
在(h,w)位置上的区域分类分数
Figure GDA00040518692500001017
其中,Rl(·)表示第l个前景注意单元中的区域分类器,
Figure GDA0004051869250000104
表示第i张源域图像对应的第l个特征图
Figure GDA0004051869250000105
在(h,w)位置上的特征值,
Figure GDA0004051869250000106
表示第j张目标域图像对应的第l个特征图
Figure GDA00040518692500001018
在(h,w)位置上的特征值;
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图
Figure GDA0004051869250000107
在(h,w)位置上的区域分类分数
Figure GDA0004051869250000108
转化为在(h,w)位置上属于前景的概率分数
Figure GDA0004051869250000109
以及按照式(6-2),将第j张目标域图像对应的第l个特征图
Figure GDA00040518692500001010
在(h,w)位置上的区域分类分数
Figure GDA00040518692500001011
转化为在(h,w)位置上属于前景的概率分数
Figure GDA00040518692500001012
Figure GDA00040518692500001013
Figure GDA00040518692500001014
式中,S(·)表示sigmoid激活函数,例如,当输入为z时,其经过sigmoid激活函数后对应的输出为S(z)=1/(1+exp(-z))。
步骤a3,如果某像素位置属于前景的概率分数越高,即
Figure GDA00040518692500001015
越大,那么该像素位置越有可能属于前景区域,对应位置处的特征值就被施加更大的权重,前景特征由此得到激活;反之,如果某像素位置属于前景的概率分数越低,即
Figure GDA00040518692500001016
越小,那么该像素位置越有可能属于背景区域,对应位置处的特征值就被施加更小的权重,背景特征由此得到抑制。那么,按照式(7-1)对源域原始特征值
Figure GDA0004051869250000111
重加权得到特征值
Figure GDA0004051869250000112
以及按照式(7-2)对目标域原始特征值
Figure GDA0004051869250000113
重加权得到特征值
Figure GDA0004051869250000114
最后输入到各自的图像级域分类器;
Figure GDA0004051869250000115
Figure GDA0004051869250000116
式中,
Figure GDA0004051869250000117
表示两个张量对应位置处的元素相乘,在
Figure GDA0004051869250000118
运算过程中,权重
Figure GDA0004051869250000119
采用了广播机制,其通道数由1自动扩展为
Figure GDA00040518692500001110
的通道数。
对于公式(7),需要说明的是,除了这种加权方式外,也可以采用现有的其他对原始特征进行加权的方法。
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的分类分数,并将所述多类别分类分数转化得到的概率分数
Figure GDA00040518692500001111
其中,所述多类别分类分数包括多分类分数图v的第k个通道的平均分类分数
Figure GDA00040518692500001112
和将原始分类分数
Figure GDA00040518692500001113
加权后第k个通道的加权分类分数
Figure GDA00040518692500001114
为确保前景注意单元中的区域分类器能够准确地预测特征图在每个像素位置上属于前景的概率分数,将VGG16最后1个卷积块输出且经过重加权的特征图,输入到多类别分类器以获取多类别分类分数,再根据多类别分类分数和源域图像的标签,计算前景感知模块的损失函数。
相较于前景注意单元中只能用于区分前景和背景的区域分类器而言,类别引导注意单元中的多类别分类器可以进一步区分前景区域中的特定类别,如果目标检测流程上游的区域分类器对前景区域的辨别存在困难,那么目标检测流程下游的多类别分类器对前景区域中特定类别的判断也会存在偏差,这样前景感知模块的损失函数将会增大。
通过优化下游前景感知模块的损失函数,来及时纠正上游区域分类器在像素位置上对前景区域的预测偏差,从而将区域分类器的关注点从整体层面引导至前景区域。
如图4所示,类别引导注意单元中的多类别分类器由一个1×1卷积层构成,在保证与输入特征图高度和宽度一致的情况下,输出通道数为K的多分类分数图,此多分类分数图的第k个通道记录着特征图在每个像素位置上属于类别k的分类分数,其中K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K。
由于只有源域图像具有标签,因此使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督。只要源域图像存在一个属于类别k的目标,那么多类别标签中第k个类别标签dk则置为1,如果源域图像不存在k类目标,那么多类别标签中第k个类别标签dk则置为0。简单起见,省略表示源域的角标s、表示源域图像索引的角标i,即使用
Figure GDA0004051869250000121
代替第i张源域图像对应的第3个重加权特征图
Figure GDA0004051869250000122
在(h,w)位置上的特征值
Figure GDA0004051869250000123
使用H代替重加权特征图
Figure GDA0004051869250000124
的高度Hs,使用W代替重加权特征图
Figure GDA0004051869250000125
的宽度Ws
在一个实施例中,所述步骤2.1.2具体包括:
步骤b1,将主干网络(如:VGG16)最后1个卷积块输出且经过重加权的特征图,输入到多类别分类器,由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,其中
Figure GDA0004051869250000126
表示由所述多类别分类器输出的所述多类别分类分数;
Figure GDA0004051869250000127
式中,C(·)表示类别引导注意单元中的多类别分类器,
Figure GDA0004051869250000128
表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,
Figure GDA0004051869250000129
表示vh,w的通道数为K,
Figure GDA00040518692500001210
表示第i张源域图像对应的第3个重加权特征图
Figure GDA00040518692500001211
在(h,w)位置上的特征值
Figure GDA00040518692500001212
步骤b2,根据所述多类别分类分数和源域图像的标签获取
Figure GDA00040518692500001213
利用式(12),将第k个通道的平均分类分数
Figure GDA00040518692500001214
和第k个通道的加权分类分数
Figure GDA00040518692500001215
相加,再经过sigmoid激活函数S(·)后,得到第k个通道的概率分数
Figure GDA00040518692500001216
Figure GDA00040518692500001217
式中,
Figure GDA00040518692500001218
表示多分类分数图v的第k个通道沿高度和宽度方向求和再取平均,计算第k个通道的平均分类分数,被描述为下式(9)。这种方式默认每个通道上所有像素位置分类分数的贡献度相当,从均衡的角度保留了全局的特征,但是这种特征只是借助平均分类分数来反映,难以把每个通道所代表特定类别的关键信息突显出来。
Figure GDA0004051869250000131
Figure GDA0004051869250000132
表示将多分类分数图v的第k个通道在(h,w)位置上属于类别k的概率分数
Figure GDA0004051869250000133
作为权重、对原始分类分数
Figure GDA0004051869250000134
加权后,再沿高度和宽度方向求和,得到的第k个通道的加权分类分数,被描述为式(11)。这种方式对每个通道上贡献度较大的特征加以突出强化,在沿高度和宽度方向求和后,保留了每个通道不同空间位置上的特征,这种特征可以突显对应通道所代表特定类别的关键信息,使得每个通道能够以所代表的特定类别去关注原始图像上前景区域中不同目标类别的位置。
Figure GDA0004051869250000135
其中的
Figure GDA0004051869250000136
被描述为式(10),对多分类分数图v的第k个通道所有像素位置上的分类分数进行softmax处理,其中,
Figure GDA0004051869250000137
Figure GDA0004051869250000138
对于公式(11),需要说明的是,除了这种加权方式外,也可以采用现有的其他对原始特征进行加权的方法。
在公式(12)中,将第k个通道的平均分类分数
Figure GDA0004051869250000139
和第k个通道的加权分类分数
Figure GDA00040518692500001310
相加,这相当于在每个通道所代表特定类别的平均信息的基础上附加上每个通道所代表特定类别的关键信息的特征,再经过sigmoid激活函数S(·)后,得到第k个通道的概率分数
Figure GDA00040518692500001311
即原始图像上存在属于类别k的待检测目标的可能性。
步骤2.1.3,根据
Figure GDA00040518692500001312
和源域图像标签转化得到的多类别标签dk,建立由式(13)描述的所述前景感知模块的损失函数:
Figure GDA00040518692500001313
公式(13)为前景感知模块的损失函数,实际上是对每个通道上二分类交叉熵损失函数求和。如果源域图像不存在类别k的待检测目标,即dk=0,而前景感知模块中的多类别分类器却为之预测较高的分类分数,那么第k个通道的概率分数
Figure GDA00040518692500001314
较大,最终计算得到的前景感知模块的损失函数将会变大。
通过对前景感知模块的损失函数进行优化,前景感知模块中的类别引导注意单元能够尽力去关注原始图像上待检测目标类别及其空间位置信息,并适时地引导前景感知模块中的区域分类器对前景区域的判断。
步骤2.2,在基准模型上构建类别感知模块。
在对式(5)优化的过程中,目标检测器和实例级域分类器实现对抗训练。当训练到一定程度时,经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量足够相似,以至于实例级域分类器区分不出特征向量到底是来自于源域还是目标域,那么源域和目标域的候选区域特征得到了较好的对齐。然而,由于候选区域不一定都包含有待检测目标,而且即使候选区域包含有待检测目标,其所对应的类别也不一定都相同,因此这种对齐方式属于“类别未知”,只能笼统地将两域的背景特征、不同待检测目标类别特征混淆在一起,这样极其容易造成不同类别特征的错误对齐。在跨域场景下往往需要对多种类别的目标进行检测,如果不同类别特征没有得到充分的分离,相同类别特征没有得到充分的聚合,那么候选区域特征的可判别性就无法充分显现,进而造成目标检测器的最终分类在决策边界附近存在预测噪声,跨域目标检测模型的性能也难以达到最优状态。
如图5所示,为了将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐,步骤2.2可以通过如下子步骤实现:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性,这样可以减小两域同类特征向量的差异、增大两域异类特征向量的差异提供依据。
使用式(14)计算第i个源域特征向量
Figure GDA0004051869250000141
和第j个目标域特征向量
Figure GDA0004051869250000142
之间的相似分数
Figure GDA0004051869250000143
其中,||·||2表示欧氏距离。构造相似分数矩阵
Figure GDA0004051869250000144
其维度为ns×nt,其中元素由源域和目标域特征向量之间的相似分数来填充。例如,相似分数矩阵
Figure GDA0004051869250000145
的第i行、第j列的元素为第i个源域特征向量
Figure GDA0004051869250000146
和第j个目标域特征向量
Figure GDA0004051869250000147
之间的相似分数,即
Figure GDA0004051869250000148
Figure GDA0004051869250000149
步骤2.2.1中,除了可以使用公式(14)计算两域特征向量之间的相似性分数外,还可以采用其他能够获取两特征向量之间相似性的度量方式,如余弦相似性等。
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系,以便于后续筛选出与源域特征向量为相同类别的目标域特征向量,并计算类别感知模块的损失函数。
使用c表示目标检测器为特征向量预测的类别,c∈{0,1,2,…,K},其中,0表示背景类别,1至K表示待检测目标类别的索引,那么第i个源域特征向量
Figure GDA0004051869250000151
对应的预测类别表示为
Figure GDA0004051869250000152
第j个目标域特征向量
Figure GDA0004051869250000153
对应的预测类别表示为
Figure GDA0004051869250000154
构造类别关系矩阵
Figure GDA0004051869250000155
其维度为ns×nt,其中元素由源域和目标域特征向量之间的类别关系来填充。例如,如果第i个源域特征向量
Figure GDA0004051869250000156
对应的预测类别与第j个目标域特征向量
Figure GDA0004051869250000157
对应的预测类别相同,即
Figure GDA0004051869250000158
那么类别关系矩阵
Figure GDA0004051869250000159
的第i行、第j列的元素置为1,即Bij=1;如果第i个源域特征向量
Figure GDA00040518692500001510
对应的预测类别与第j个目标域特征向量
Figure GDA00040518692500001511
对应的预测类别不同,即
Figure GDA00040518692500001512
那么类别关系矩阵
Figure GDA00040518692500001513
的第i行、第j列的元素置为0,即Rij=0。
步骤2.2.3,每个源域特征向量类别感知的损失函数
Figure GDA00040518692500001514
建立被描述为式(16)的类别感知模块的损失函数
Figure GDA00040518692500001515
对于第i个源域特征向量
Figure GDA00040518692500001516
存在若干个与其为相同类别的目标域特征向量,同时也存在若干个与其为不同类别的目标域特征向量。将与第i个源域特征向量
Figure GDA00040518692500001517
为相同类别的目标域特征向量的总数表示为
Figure GDA00040518692500001518
将与第i个源域特征向量
Figure GDA00040518692500001519
为不同类别的目标域特征向量的总数表示为
Figure GDA00040518692500001520
Figure GDA00040518692500001521
为了保证不同类别特征的充分分离、相同类别特征的充分聚合,使用公式(15)来减小第i个源域特征向量
Figure GDA00040518692500001522
和与之为相同类别的目标域特征向量之间的差异,增大第i个源域特征向量
Figure GDA00040518692500001523
和与之为不同类别的目标域特征向量之间的差异,其中,
Figure GDA00040518692500001524
表示第i个源域特征向量
Figure GDA00040518692500001525
类别感知的损失函数。
在对
Figure GDA00040518692500001526
的优化过程中,通过提高第i个源域特征向量
Figure GDA00040518692500001527
和与之为相同类别的目标域特征向量之间的相似分数来聚合两域相同类别的特征向量,通过降低第i个源域特征向量
Figure GDA00040518692500001528
和与之为不同类别的目标域特征向量之间的相似分数来分离两域不同类别的特征向量,从而保证源域和目标域候选区域特征在类别层面得到较好的对齐。
Figure GDA00040518692500001529
由于相似分数矩阵
Figure GDA00040518692500001530
的维度为ns×nt,而公式(15)只对第i个源域特征向量
Figure GDA0004051869250000161
计算类别感知地损失函数,因此公式(16)通过对每个源域特征向量类别感知的损失函数求和再取平均,得到类别感知模块的损失函数
Figure GDA0004051869250000162
Figure GDA0004051869250000163
第i个源域特征向量
Figure GDA0004051869250000164
类别感知的损失函数的计算形式除了如公式(15)之外,还可以是其他能够提高相同类别样本的相似性、降低不同类别样本的相似性的损失函数,如信息熵等。
在一个实施例中,所述步骤3具体包括:
步骤3.1,获取基于前景-类别感知对齐的域自适应目标检测模型的损失函数。
通过在基准模型上构建前景感知模块、类别感知模块,形成基于前景-类别感知对齐的域自适应目标检测模型。基于前景-类别感知对齐的域自适应目标检测模型的损失函数
Figure GDA0004051869250000165
由基准模型的损失函数
Figure GDA0004051869250000166
前景感知模块的损失函数
Figure GDA0004051869250000167
和类别感知模块的损失函数
Figure GDA0004051869250000168
组成。
公式(17)为基于前景-类别感知对齐的域自适应目标检测模型的损失函数
Figure GDA0004051869250000169
其中,λ1、λ2、λ3和λ4为平衡系数。
Figure GDA00040518692500001610
公式(17)中λ1、λ2、λ3和λ4的取值,优化过程中的初始学习率以及学习率衰减策略,应根据实际需要进行调整。此外,公式(17)的优化算法不一定采用小批量随机梯度下降算法,可以是Adam优化算法等。
步骤3.2,训练基于前景-类别感知对齐的域自适应目标检测模型。实验环境如表1所示。在Ubuntu16.04操作环境下,使用Python编程语言、PyTorch深度学习框架来构建基于前景-类别感知对齐的域自适应目标检测模型。此外,还使用2个Tesla V100 SXM2 16GB的GPU来加速模型训练。
Figure GDA00040518692500001611
Figure GDA0004051869250000171
采用小批量随机梯度下降(mini-batch SGD)优化算法对基于前景-类别感知对齐的域自适应目标检测模型进行训练,训练的epoch总数为10,批量大小为2(包括1张源域图像和1张目标域图像),初始学习率为1e-3,动量参数为0.9,权重衰减参数为5e-4。训练6个epoch后,学习率衰减为原来的0.1倍。为确保训练稳定,在训练4个epoch后再引入类别感知模块的损失函数。公式(17)中所有平衡系数λ1、λ2、λ3和λ4都设置为1,使用IoU阈值为0.5的平均查准率(Average Precision,AP)和平均查准率均值(mean Average Precision,mAP)来评估模型在目标域上的检测性能。
如无特别说明,“Source-only”表示直接在源域上训练的Faster R-CNN模型,即未经过任何域自适应的模型;“Baseline”表示本实施例步骤1提供的基准模型;“Ours”表示在基准模型上同时构建前景感知模块和类别感知模块的模型,即基于前景-类别感知对齐的域自适应目标检测模型;“Oracle”表示直接在目标域上训练的Faster R-CNN模型。
(1)跨天气自适应
使用Cityscapes和Foggy Cityscapes数据集来考察基于前景-类别感知对齐的域自适应目标检测模型从晴天条件到雾天条件的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将Foggy Cityscapes数据集作为没有标签数据的目标域。表1示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。
表1
Figure GDA0004051869250000172
Figure GDA0004051869250000181
表1上半部分为近年来计算机视觉顶会(CVPR、ICCV、ECCV)相关文章所提方法的AP和mAP数据。表1下半部分为本发明提供的一种基于前景-类别感知对齐的域自适应目标检测方法的消融实验数据。由表1可知,相较于Baseline,Ours的mAP取得进一步提升,接近于Oracle的mAP,并与近年来计算机视觉顶会相关文章所提方法的性能相当。图6示出Source-only和Ours在跨天气下的检测效果,可以看出Ours在雾天条件下能够纠正Source-only中误检为目标问题,并且能够更加鲁棒地检测出远处为浓雾所遮挡的小目标。
(2)跨摄像头自适应
使用Cityscapes和KITTI数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对不同摄像头配置(如角度、质量、类型等)的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将KITTI数据集作为没有标签数据的目标域。为保证两数据集的待检测目标类别种类相同且命名统一,对KITTI数据集的类别标签进行处理,将Car类和Van类合并成Car类,将Pedestrian类和Person sitting类合并成Person类,将Tram类更名为Train类,将Cyclist类更名为Rider类,表2示出Person、Rider、Car、Truck、Train的AP值以及对所有类别求得的mAP值。
表2
Figure GDA0004051869250000182
由表2可知,Ours的mAP优于Baseline,甚至超过了近年来计算机视觉顶会相关文章所提方法,这证明了前景感知模块和类别感知模块单独作用和联合作用的有效性。图7示出Source-only和Ours在跨摄像头下的检测效果,可以看出Ours对一些存在较大尺度变化的目标保持有较高的定位能力。
(3)跨复杂场景自适应
使用Cityscapes和BDD100k的“daytime”子数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对存在复杂场景(如天气变化、光照变化等)的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将BDD100k的“daytime”子数据集作为没有标签数据的目标域。表3示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。由于近年来计算机视觉顶会相关文章未对Train类进行对比,因此本发明同样遵循不对比Train类的准则。
表3
Figure GDA0004051869250000191
由表3可知,Ours的mAP相对于Baseline取得了提升,还优于近年来计算机视觉顶会相关文章所提方法。图8示出Source-only和Ours在跨复杂场景下的检测效果,可以看出Ours在更加复杂的跨域场景下不仅降低了检测过程中假阳性的数量,而且提高了检测过程中真阳性的数量。
如图1和图2所示,本发明实施例还提供一种基于前景-类别感知对齐的域自适应目标检测系统,其包括基准模型、前景感知模块和类别感知模块,其中:
基准模型为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。
在一个实施例中,所述基准模型具体包括目标检测器、图像级域分类器和实例级域分类器,其中:
目标检测器包括主干网络、区域生成网络、感兴趣区域头部网络,用于预测输入图像上目标的位置、类别、概率。
图像级域分类器通过梯度反转层与目标检测器形成对抗训练的关系,用于对齐源域和目标域的整体特征。
实例级域分类器通过梯度反转层与目标检测器形成对抗训练的关系,用于对齐源域和目标域的候选区域特征。
在一个实施例中,所述前景感知模块具体包括前景注意单元和类别引导注意单元,其中:
前景注意单元用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程。
类别引导注意单元用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
本发明通过在基准模型上构建前景感知模块和类别感知模块,沿着跨域目标检测流程,将域对齐的关注点从整体特征转向前景特征,进而转向类别特征,能够挖掘出真正需要参与迁移过程的前景区域甚至是其中的类别结构,在天气条件、摄像头配置、复杂场景变化的情况下具备一定的跨域检测鲁棒性。
最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型,所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐;
其中,所述步骤2中设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数
Figure FDA0004051869240000011
和对第j张目标域数据集中目标域图像对应的第l个特征图
Figure FDA0004051869240000012
在(h,w)位置上的区域分类分数
Figure FDA0004051869240000013
并对原始特征图进行加权;其中,
Figure FDA0004051869240000014
表示第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的特征值,
Figure FDA0004051869240000015
表示第j张目标域图像对应的第l个特征图
Figure FDA00040518692400000110
在(h,w)位置上的特征值,
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,并将所述多类别分类分数转化得到概率分数
Figure FDA0004051869240000016
由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数
Figure FDA0004051869240000017
Figure FDA0004051869240000018
式中,
Figure FDA0004051869240000019
表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,
Figure FDA0004051869240000021
表示vh,w的通道数为K,
Figure FDA0004051869240000022
表示第i张源域图像对应的第3个重加权特征图
Figure FDA0004051869240000023
在(h,w)位置上的特征值
Figure FDA0004051869240000024
步骤2.1.3,根据所述概率分数
Figure FDA0004051869240000025
和源域图像标签转化得到的多类别标签dk,建立所述前景感知模块的损失函数;
所述步骤2中设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数;
所述步骤2.2.1中的所述相似分数矩阵
Figure FDA0004051869240000026
中的元素设置为源域和目标域特征向量之间的相似分数
Figure FDA0004051869240000027
Figure FDA0004051869240000028
的维度为ns×nt
Figure FDA0004051869240000029
式中,
Figure FDA00040518692400000210
表示第i个源域特征向量
Figure FDA00040518692400000211
和第j个目标域特征向量
Figure FDA00040518692400000212
之间的相似分数,||·||2表示欧氏距离;
所述步骤2.2.2中的所述类别关系矩阵
Figure FDA00040518692400000213
中的元素设置为源域和目标域特征向量之间的类别关系,
Figure FDA00040518692400000214
的维度为ns×nt,如果第i个源域特征向量
Figure FDA00040518692400000215
对应的预测类别与第j个目标域特征向量
Figure FDA00040518692400000216
对应的预测类别相同,则Bij=1;如果第i个源域特征向量
Figure FDA00040518692400000217
对应的预测类别与第j个目标域特征向量
Figure FDA00040518692400000218
对应的预测类别不同,则Bij=0。
2.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督,当源域图像存在一个属于类别k的目标,则多类别标签中第k个类别标签dk置为1,否则dk置为0。
3.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,所述步骤2.1.1具体包括:
步骤a1,将主干网络后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图,分别输入到区域分类器中,获得区域分类分数
Figure FDA0004051869240000031
和区域分类分数
Figure FDA0004051869240000032
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数
Figure FDA0004051869240000033
转化为在(h,w)位置上属于前景的概率分数
Figure FDA0004051869240000034
以及按照式(6-2),将第j张目标域数据集中目标域图像对应的第l个特征图
Figure FDA0004051869240000035
在(h,w)位置上的区域分类分数
Figure FDA0004051869240000036
转化为在(h,w)位置上属于前景的概率分数
Figure FDA0004051869240000037
Figure FDA0004051869240000038
Figure FDA0004051869240000039
式中,S(·)表示sigmoid激活函数;
步骤a3,按照式(7-1)对源域原始特征值
Figure FDA00040518692400000310
进行重加权得到特征值
Figure FDA00040518692400000311
以及按照式(7-2)对目标域原始特征值
Figure FDA00040518692400000312
进行重加权得到特征值
Figure FDA00040518692400000313
最后输入到各自的图像级域分类器;
Figure FDA00040518692400000314
Figure FDA00040518692400000315
式中,
Figure FDA00040518692400000316
表示两个张量对应位置处的元素相乘。
4.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,所述多类别分类分数包括式(9)描述的多分类分数图v的第k个通道的平均分类分数
Figure FDA00040518692400000317
和式(11)描述的原始分类分数
Figure FDA00040518692400000318
加权后第k个通道的加权分类分数
Figure FDA00040518692400000319
Figure FDA00040518692400000320
Figure FDA00040518692400000321
式中,
Figure FDA00040518692400000322
被描述为式(10),
Figure FDA00040518692400000323
Figure FDA00040518692400000324
所述步骤2.1.2具体包括:
步骤b1,将主干网络最后1个卷积块输出且经过重加权的特征图,输入到类别引导注意单元中的多类别分类器C(·),由所述多类别分类器输出的所述多类别分类分数;
步骤b2,根据所述多类别分类分数和源域图像的标签获取
Figure FDA0004051869240000041
利用式(12),获得第k个通道的概率分数
Figure FDA0004051869240000042
Figure FDA0004051869240000043
式中,S(·)表示sigmoid激活函数。
5.一种基于前景-类别感知对齐的域自适应目标检测系统,其特征在于,包括:
基准模型,其为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块,其用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块,其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐;
设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数
Figure FDA0004051869240000044
和对第j张目标域数据集中目标域图像对应的第l个特征图
Figure FDA0004051869240000045
在(h,w)位置上的区域分类分数
Figure FDA0004051869240000046
并对原始特征图进行加权;其中,
Figure FDA0004051869240000047
表示第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的特征值,
Figure FDA0004051869240000048
表示第j张目标域图像对应的第l个特征图
Figure FDA0004051869240000049
在(h,w)位置上的特征值,
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,并将所述多类别分类分数转化得到概率分数
Figure FDA00040518692400000410
由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数
Figure FDA00040518692400000411
Figure FDA00040518692400000412
式中,
Figure FDA00040518692400000413
表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,
Figure FDA00040518692400000414
表示vh,w的通道数为K,
Figure FDA00040518692400000415
表示第i张源域图像对应的第3个重加权特征图
Figure FDA0004051869240000051
在(h,w)位置上的特征值
Figure FDA0004051869240000052
步骤2.1.3,根据所述概率分数
Figure FDA0004051869240000053
和源域图像标签转化得到的多类别标签dk,建立所述前景感知模块的损失函数;
设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数;
所述步骤2.2.1中的所述相似分数矩阵
Figure FDA0004051869240000054
中的元素设置为源域和目标域特征向量之间的相似分数
Figure FDA0004051869240000055
Figure FDA0004051869240000056
的维度为ns×nt
Figure FDA0004051869240000057
式中,
Figure FDA0004051869240000058
表示第i个源域特征向量
Figure FDA0004051869240000059
和第j个目标域特征向量
Figure FDA00040518692400000510
之间的相似分数,||·||2表示欧氏距离;
所述步骤2.2.2中的所述类别关系矩阵
Figure FDA00040518692400000511
中的元素设置为源域和目标域特征向量之间的类别关系,
Figure FDA00040518692400000512
的维度为ns×nt,如果第i个源域特征向量
Figure FDA00040518692400000513
对应的预测类别与第j个目标域特征向量
Figure FDA00040518692400000514
对应的预测类别相同,则Bij=1;如果第i个源域特征向量
Figure FDA00040518692400000515
对应的预测类别与第j个目标域特征向量
Figure FDA00040518692400000516
对应的预测类别不同,则Bij=0。
6.如权利要求5所述的基于前景-类别感知对齐的域自适应目标检测系统,其特征在于,所述前景感知模块具体包括前景注意单元、类别引导注意单元,其中:
前景注意单元,其用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程;
类别引导注意单元,其用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
CN202210290769.6A 2022-03-23 2022-03-23 基于前景-类别感知对齐的域自适应目标检测方法及系统 Active CN114821152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210290769.6A CN114821152B (zh) 2022-03-23 2022-03-23 基于前景-类别感知对齐的域自适应目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210290769.6A CN114821152B (zh) 2022-03-23 2022-03-23 基于前景-类别感知对齐的域自适应目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN114821152A CN114821152A (zh) 2022-07-29
CN114821152B true CN114821152B (zh) 2023-05-02

Family

ID=82531013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210290769.6A Active CN114821152B (zh) 2022-03-23 2022-03-23 基于前景-类别感知对齐的域自适应目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN114821152B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973168A (zh) * 2022-08-01 2022-08-30 北京科技大学 一种跨场景交通目标检测方法和系统
CN116778277B (zh) * 2023-07-20 2024-03-01 湖南大学无锡智能控制研究院 基于渐进式信息解耦的跨域模型训练方法
CN117274723B (zh) * 2023-11-22 2024-03-26 国网智能科技股份有限公司 一种用于输电巡检的目标识别方法、系统、介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488229A (zh) * 2020-12-10 2021-03-12 西安交通大学 一种基于特征分离和对齐的域自适应无监督目标检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544503B2 (en) * 2020-04-06 2023-01-03 Adobe Inc. Domain alignment for object detection domain adaptation tasks
CN112016594B (zh) * 2020-08-05 2023-06-09 中山大学 一种基于领域自适应的协同训练方法
CN113052184B (zh) * 2021-03-12 2022-11-18 电子科技大学 一种基于两阶段局部特征对齐的目标检测方法
CN113392933B (zh) * 2021-07-06 2022-04-15 湖南大学 一种基于不确定性引导的自适应跨域目标检测方法
CN113343989B (zh) * 2021-07-09 2022-09-27 中山大学 一种基于前景选择域自适应的目标检测方法及系统
CN113807420B (zh) * 2021-09-06 2024-03-19 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN114139616A (zh) * 2021-11-19 2022-03-04 杭州电子科技大学 一种基于不确定性感知的无监督域适应目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488229A (zh) * 2020-12-10 2021-03-12 西安交通大学 一种基于特征分离和对齐的域自适应无监督目标检测方法

Also Published As

Publication number Publication date
CN114821152A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114821152B (zh) 基于前景-类别感知对齐的域自适应目标检测方法及系统
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
US9965719B2 (en) Subcategory-aware convolutional neural networks for object detection
Hasegawa et al. Robust Japanese road sign detection and recognition in complex scenes using convolutional neural networks
CN111553397B (zh) 基于区域全卷积网络和自适应的跨域目标检测方法
Opelt et al. Incremental learning of object detectors using a visual shape alphabet
CN113807420B (zh) 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN100561505C (zh) 一种图像检测方法及装置
CN111488879A (zh) 利用双嵌入构成的用于提高分割性能的方法及装置
Li et al. Spatially self-paced convolutional networks for change detection in heterogeneous images
Qiao et al. Marine vessel re-identification: A large-scale dataset and global-and-local fusion-based discriminative feature learning
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN116452818A (zh) 一种基于特征增强的小样本遥感图像目标检测方法
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN115273154A (zh) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN114549909A (zh) 一种基于自适应阈值的伪标签遥感图像场景分类方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN116311387B (zh) 一种基于特征交集的跨模态行人重识别方法
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN112668532A (zh) 基于多阶段混合注意网络的人群计数方法
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
Grcić et al. Dense Out-of-Distribution Detection by Robust Learning on Synthetic Negative Data
CN115546668A (zh) 海洋生物的检测方法、装置及无人机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant