CN114821152B - 基于前景-类别感知对齐的域自适应目标检测方法及系统 - Google Patents
基于前景-类别感知对齐的域自适应目标检测方法及系统 Download PDFInfo
- Publication number
- CN114821152B CN114821152B CN202210290769.6A CN202210290769A CN114821152B CN 114821152 B CN114821152 B CN 114821152B CN 202210290769 A CN202210290769 A CN 202210290769A CN 114821152 B CN114821152 B CN 114821152B
- Authority
- CN
- China
- Prior art keywords
- domain
- class
- foreground
- target
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于前景‑类别感知对齐的域自适应目标检测方法及系统,该方法包括:使用通过下面步骤获得的域自适应目标检测模型在目标域数据集对应的场景进行目标检测;步骤1,设置图像级域分类器和实例级域分类器,构建基准模型;步骤2,设置前景感知模块和类别感知模块,构建基于前景‑类别感知对齐的域自适应目标检测模型;步骤3,训练并获得域自适应目标检测模型。本发明能够跨域目标检测流程的关注点从整体特征对齐,到前景特征对齐,再到类别特征对齐的转变,在跨天气、跨摄像头、跨复杂场景检测下都取得了在目标域上的性能提升。
Description
技术领域
本发明涉及基于深度迁移学习的目标检测技术领域,特别是关于一种基于前景-类别感知对齐的域自适应目标检测方法及系统。
背景技术
无监督域自适应目标检测在源域具有带标签数据、目标域没有带标签数据的情况下,通过将源域的知识迁移到目标域,来提高目标检测器在目标域上的检测性能。近年来,无监督域自适应目标检测凭借着通过对抗训练方式学习到的域不变特征,在多种复杂跨域检测场景下大放异彩。这些方法使用梯度反转层来桥接目标检测器和域分类器,在整个目标检测流程中通过最小化目标检测损失、最大化域分类损失来完成对抗训练,当源域和目标域特征在特征空间中得到混淆时,源域和目标域就顺利地完成迁移过程。
当前无监督域自适应目标检测方法大多只是通过上述策略来实现源域和目标域整体特征的迁移,这种迁移过程并未区分前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),而是以“前景未知”的方式进行域对齐。然而,背景区域对于跨域检测而言并不应该成为迁移过程的关注点,倘若将前景和背景区域置于同等地位进行两域特征对齐,那么跨域目标检测流程难以关注到真正需要参与迁移过程的前景区域,从而限制跨域目标检测模型性能的提升。
尽管现有少数的无监督域自适应目标检测方法试图通过解耦出前景和背景区域来对齐前景区域特征,但是这些方法也尚未能深入考虑前景区域中类别层面上特征的对齐情况。如果只是以“类别未知”的方式来对齐源域和目标域的前景区域特征,那么极有可能造成前景区域中不同类别特征的错误对齐。由于前景区域的类别结构没有得到充分挖掘,因此极有可能造成前景区域中类别特征的负迁移,跨域目标检测模型的性能最终也只能达到次优状态。
发明内容
本发明的目的在于提供一种基于前景-类别感知对齐的域自适应目标检测方法及系统来克服或至少减轻现有技术的上述缺陷中的至少一个。
为实现上述目的,本发明提供一种基于前景-类别感知对齐的域自适应目标检测方法,其包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型,所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐。
进一步地,所述步骤2中设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取区域分类分数,并对原始特征图进行加权;
进一步地,使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督,当源域图像存在一个属于类别k的目标,则多类别标签中第k个类别标签dk置为1,否则dk置为0。
进一步地,所述步骤2.1.1具体包括:
步骤a1,将主干网络后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图,分别输入到区域分类器中,获得表示第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图在(h,w)位置上的区域分类分数和对第j张目标域数据集中目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数其中,表示第i张源域图像对应的第l个特征图在(h,w)位置上的特征值,表示第j张目标域图像对应的第l个特征图在(h,w)位置上的特征值;
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数以及按照式(6-2),将第j张目标域数据集中目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数
式中,S(·)表示sigmoid激活函数;
所述步骤2.1.2具体包括:
步骤b1,将主干网络最后1个卷积块输出且经过重加权的特征图,输入到类别引导注意单元中的多类别分类器C(·),由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,其中 表示由所述多分类分类器输出的所述多类别分类分数;
式中,表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,表示vh,w的通道数为K,表示第i张源域图像对应的第3个重加权特征图在(h,w)位置上的特征值
式中,S(·)表示sigmoid激活函数。
进一步地,所述步骤2中设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数。
所述步骤2.2.2中的所述类别关系矩阵中的元素设置为源域和目标域特征向量之间的类别关系,的维度为ns×nt,如果第i个源域特征向量对应的预测类别与第j个目标域特征向量对应的预测类别相同,则Bij=1;如果第i个源域特征向量对应的预测类别与第j个目标域特征向量对应的预测类别不同,则Bij=0。
本发明还提供一种基于前景-类别感知对齐的域自适应目标检测系统,其包括:
基准模型,其为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块,其用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块,其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。
进一步地,所述前景感知模块具体包括前景注意单元、类别引导注意单元,其中:
前景注意单元,其用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程;
类别引导注意单元,其用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
本发明由于采取以上技术方案,其具有以下优点:
1.本发明提供的前景感知模块能够准确地判别出前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐,实现跨域目标检测流程的关注点从整体特征对齐到前景特征对齐的转变,有助于将跨域目标检测模型的性能提升到一个新的层次。
2.本发明提供的类别感知模块能够可靠地使两域不同的类别特征分离,两域相同的类别特征聚合,减小不同类别特征错误对齐的风险,通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声,实现跨域目标检测流程的关注点从前景特征对齐转到类别特征对齐的转变,在一定程度上提高了跨域目标检测模型的性能。
附图说明
图1为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测系统的架构图。
图2为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法的流程图。
图3为本发明实施例提供的前景感知模块中前景注意单元的原理图。
图4为本发明实施例提供的前景感知模块中类别引导注意单元的原理图。
图5为本发明实施例提供的类别感知模块的原理图。
图6为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨天气下的检测效果。
图7为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨摄像头下的检测效果。
图8为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨复杂场景下的检测效果。
具体实施方式
在附图中,使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。
如图1和图2所示,本发明实施例提供基于前景-类别感知对齐的域自适应目标检测方法包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过获取所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型(下文中的实验部分的符号记为“Ours”),所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐。
本发明实施例通过设置前景感知模块,能够准确地判别出前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等),促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐,有助于将跨域目标检测模型的性能提升到一个新的层次。通过设置类别感知模块,能够将域自适应目标检测的对齐关注点,进一步地从前景特征对齐,转移到了类别特征对齐,能够可靠地使两域不同的类别特征分离,两域相同的类别特征聚合,减小不同类别特征错误对齐的风险,通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声,在一定程度上提高了跨域目标检测模型的性能。
在一个实施例中,所述步骤1具体包括:
步骤1.1,选取目标检测器。
Faster R-CNN是深度学习时代里一种优秀的两阶段目标检测器,在域自适应目标检测研究中占据主导地位,本发明实施例选取Faster R-CNN作为目标检测器以做更进一步说明。
所述Faster R-CNN以VGG16为主干网络(Backbone),首先通过主干网络中系列卷积层对输入图像进行特征提取,再使用区域生成网络(Region Proposal Network,RPN)生成可能包含目标的候选区域,最后通过感兴趣区域头部网络(Region of Interest Head,RoI Head)预测最终的分类结果和边界框回归结果。
在步骤1.1中,所选取的目标检测器并不局限于Faster R-CNN,可以是其他具备与Faster R-CNN具有相似网络架构的两阶段目标检测器。此外,所采用的主干网络并不局限于VGG16,可以是其他具备特征提取功能的卷积神经网络。
步骤1.2,在目标检测器上设置图像级域分类器。
将主干网络(如:VGG16)后3个卷积块输出的特征图,分别通过梯度反转层输入到图像级域分类器中。所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反,实现图像级域分类器与目标检测器的对抗训练。所述图像级域分类器由系列卷积层组成,最终输出高度和宽度与输入相同、通道数为1的域分类分数图。
公式(3)为第l个图像级域分类器的损失函数其中,s表示源域,t表示目标域,Dl(·)表示第l个图像级域分类器,g表示输入图像级域分类器的特征图,Ns和Nt分别表示源域和目标域图像的总数,Hs和Ws分别表示输入图像级域分类器源域特征图的高度和宽度,Ht和Wt分别表示输入图像级域分类器目标域特征图的高度和宽度,i表示源域图像的索引(取1至Ns),j表示目标域图像的索引(取1至Nt),表示特征图高度方向的索引(对于源域,取1至Hs;对于目标域,取1至Ht),W表示特征图宽度方向的索引(对于源域,取1至Ht;对于目标域,取1至Wt),表示第l个图像级域分类器对第i张源域图像对应的第l个特征图在(h,w)位置上的域分类分数,表示第l个图像级域分类器对第j张目标域图像对应的第l个特征图在(h,w)位置上的域分类分数。
在上述步骤1.2中,第l个图像级域分类器的损失函数的计算形式并不一定如公式(3)所示的最小二乘方损失函数,可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。
步骤1.3,在目标检测器上设置实例级域分类器。
将经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量,分别通过梯度反转层输入到实例级域分类器中。
所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反,实现实例级域分类器与目标检测器的对抗训练。所述实例级域分类器由系列全连接层组成,最终输出维度为1的域分类分数。
公式(4)为实例级域分类器的损失函数其中,s表示源域,t表示目标域,Dins(·)表示实例级域分类器,r表示经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到特征向量,ns和nt分别表示源域和目标域特征向量的总数,i表示源域特征向量的索引(取1至ns),j表示目标域特征向量的索引(取1至nt),表示第i个源域特征向量,表示第j个目标域特征向量,表示实例级域分类器对第i个源域特征向量的域分类分数,表示实例级域分类器对第j个目标域特征向量的域分类分数。
在上述步骤1.3中,实例级域分类器的损失函数的计算形式并不一定如公式(4)所示的最小二乘方损失函数,可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。
步骤1.4,获取基准模型的损失函数。
通过在目标检测器Faster R-CNN上构建图像级域分类器和实例级域分类器,形成基准模型。
在一个实施例中,所述步骤2具体包括:
步骤2.1,在基准模型上设置前景感知模块。
在对式(5)优化的过程中,目标检测器和图像级域分类器实现对抗训练。当训练到一定程度时,由目标检测器主干网络(如:VGG16)提取出来的源域和目标域特征图足够相似,以至于图像级域分类器区分不出特征图到底是来自于源域还是目标域,那么源域和目标域的整体特征得到了较好的对齐。然而,这种对齐方式属于“前景未知”,并没有对前景区域(即待检测目标,如汽车、行人等)和背景区域(如天空、建筑物等)加以区分,也就是说将前景和背景区域按照同等力度进行两域特征对齐。实际上,背景区域不应该和前景区域具有相同的迁移重要度,这是因为跨域目标检测流程真正应该关注的是具有不同外观、不同风格、不同尺度的前景区域。否则,存在跨域变化的前景区域特征没有得到足够关注而对齐不充分,无关紧要的背景区域却得到过分的对齐,这样极有可能损害跨域目标检测模型的性能。
为了将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐,步骤2.1可以通过如下子步骤实现:
步骤2.1.1,通过前景注意单元中的区域分类器获取区域分类分数,并对原始特征图进行加权。
在一个实施例中,为了确保输入图像级域分类器的特征图已经激活出前景区域并抑制了背景区域,使得图像级域分类器着眼于前景区域特征的迁移过程。3个图像级域分类器与各自位置之前的区域分类器配合发挥作用,沿着目标检测器的主干网络,将对齐焦点从整体层面逐渐转向前景区域。如图3所示,前景注意单元中的区域分类器由一个1×1卷积层构成,在保证与输入特征图高度和宽度一致的情况下,输出通道数为1的区域分类分数图,再将区域分类分数图转化为概率分数图,此概率分数图记录着特征图在每个像素位置上属于前景的概率分数。也就是说,所述步骤2.1.1具体包括:
步骤a1,先将主干网络(如:VGG16)后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图,分别输入到区域分类器中,获得表示第l个前景注意单元中的区域分类器对第i张源域图像对应的第l个特征图在(h,w)位置上的区域分类分数和第l个前景注意单元中的区域分类器对第j张目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数其中,Rl(·)表示第l个前景注意单元中的区域分类器,表示第i张源域图像对应的第l个特征图在(h,w)位置上的特征值,表示第j张目标域图像对应的第l个特征图在(h,w)位置上的特征值;
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数以及按照式(6-2),将第j张目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数
式中,S(·)表示sigmoid激活函数,例如,当输入为z时,其经过sigmoid激活函数后对应的输出为S(z)=1/(1+exp(-z))。
步骤a3,如果某像素位置属于前景的概率分数越高,即越大,那么该像素位置越有可能属于前景区域,对应位置处的特征值就被施加更大的权重,前景特征由此得到激活;反之,如果某像素位置属于前景的概率分数越低,即越小,那么该像素位置越有可能属于背景区域,对应位置处的特征值就被施加更小的权重,背景特征由此得到抑制。那么,按照式(7-1)对源域原始特征值重加权得到特征值以及按照式(7-2)对目标域原始特征值重加权得到特征值最后输入到各自的图像级域分类器;
对于公式(7),需要说明的是,除了这种加权方式外,也可以采用现有的其他对原始特征进行加权的方法。
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的分类分数,并将所述多类别分类分数转化得到的概率分数其中,所述多类别分类分数包括多分类分数图v的第k个通道的平均分类分数和将原始分类分数加权后第k个通道的加权分类分数
为确保前景注意单元中的区域分类器能够准确地预测特征图在每个像素位置上属于前景的概率分数,将VGG16最后1个卷积块输出且经过重加权的特征图,输入到多类别分类器以获取多类别分类分数,再根据多类别分类分数和源域图像的标签,计算前景感知模块的损失函数。
相较于前景注意单元中只能用于区分前景和背景的区域分类器而言,类别引导注意单元中的多类别分类器可以进一步区分前景区域中的特定类别,如果目标检测流程上游的区域分类器对前景区域的辨别存在困难,那么目标检测流程下游的多类别分类器对前景区域中特定类别的判断也会存在偏差,这样前景感知模块的损失函数将会增大。
通过优化下游前景感知模块的损失函数,来及时纠正上游区域分类器在像素位置上对前景区域的预测偏差,从而将区域分类器的关注点从整体层面引导至前景区域。
如图4所示,类别引导注意单元中的多类别分类器由一个1×1卷积层构成,在保证与输入特征图高度和宽度一致的情况下,输出通道数为K的多分类分数图,此多分类分数图的第k个通道记录着特征图在每个像素位置上属于类别k的分类分数,其中K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K。
由于只有源域图像具有标签,因此使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督。只要源域图像存在一个属于类别k的目标,那么多类别标签中第k个类别标签dk则置为1,如果源域图像不存在k类目标,那么多类别标签中第k个类别标签dk则置为0。简单起见,省略表示源域的角标s、表示源域图像索引的角标i,即使用代替第i张源域图像对应的第3个重加权特征图在(h,w)位置上的特征值使用H代替重加权特征图的高度Hs,使用W代替重加权特征图的宽度Ws。
在一个实施例中,所述步骤2.1.2具体包括:
步骤b1,将主干网络(如:VGG16)最后1个卷积块输出且经过重加权的特征图,输入到多类别分类器,由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,其中表示由所述多类别分类器输出的所述多类别分类分数;
式中,C(·)表示类别引导注意单元中的多类别分类器,表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,表示vh,w的通道数为K,表示第i张源域图像对应的第3个重加权特征图在(h,w)位置上的特征值
式中,表示多分类分数图v的第k个通道沿高度和宽度方向求和再取平均,计算第k个通道的平均分类分数,被描述为下式(9)。这种方式默认每个通道上所有像素位置分类分数的贡献度相当,从均衡的角度保留了全局的特征,但是这种特征只是借助平均分类分数来反映,难以把每个通道所代表特定类别的关键信息突显出来。
表示将多分类分数图v的第k个通道在(h,w)位置上属于类别k的概率分数作为权重、对原始分类分数加权后,再沿高度和宽度方向求和,得到的第k个通道的加权分类分数,被描述为式(11)。这种方式对每个通道上贡献度较大的特征加以突出强化,在沿高度和宽度方向求和后,保留了每个通道不同空间位置上的特征,这种特征可以突显对应通道所代表特定类别的关键信息,使得每个通道能够以所代表的特定类别去关注原始图像上前景区域中不同目标类别的位置。
对于公式(11),需要说明的是,除了这种加权方式外,也可以采用现有的其他对原始特征进行加权的方法。
在公式(12)中,将第k个通道的平均分类分数和第k个通道的加权分类分数相加,这相当于在每个通道所代表特定类别的平均信息的基础上附加上每个通道所代表特定类别的关键信息的特征,再经过sigmoid激活函数S(·)后,得到第k个通道的概率分数即原始图像上存在属于类别k的待检测目标的可能性。
公式(13)为前景感知模块的损失函数,实际上是对每个通道上二分类交叉熵损失函数求和。如果源域图像不存在类别k的待检测目标,即dk=0,而前景感知模块中的多类别分类器却为之预测较高的分类分数,那么第k个通道的概率分数较大,最终计算得到的前景感知模块的损失函数将会变大。
通过对前景感知模块的损失函数进行优化,前景感知模块中的类别引导注意单元能够尽力去关注原始图像上待检测目标类别及其空间位置信息,并适时地引导前景感知模块中的区域分类器对前景区域的判断。
步骤2.2,在基准模型上构建类别感知模块。
在对式(5)优化的过程中,目标检测器和实例级域分类器实现对抗训练。当训练到一定程度时,经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量足够相似,以至于实例级域分类器区分不出特征向量到底是来自于源域还是目标域,那么源域和目标域的候选区域特征得到了较好的对齐。然而,由于候选区域不一定都包含有待检测目标,而且即使候选区域包含有待检测目标,其所对应的类别也不一定都相同,因此这种对齐方式属于“类别未知”,只能笼统地将两域的背景特征、不同待检测目标类别特征混淆在一起,这样极其容易造成不同类别特征的错误对齐。在跨域场景下往往需要对多种类别的目标进行检测,如果不同类别特征没有得到充分的分离,相同类别特征没有得到充分的聚合,那么候选区域特征的可判别性就无法充分显现,进而造成目标检测器的最终分类在决策边界附近存在预测噪声,跨域目标检测模型的性能也难以达到最优状态。
如图5所示,为了将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐,步骤2.2可以通过如下子步骤实现:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性,这样可以减小两域同类特征向量的差异、增大两域异类特征向量的差异提供依据。
使用式(14)计算第i个源域特征向量和第j个目标域特征向量之间的相似分数其中,||·||2表示欧氏距离。构造相似分数矩阵其维度为ns×nt,其中元素由源域和目标域特征向量之间的相似分数来填充。例如,相似分数矩阵的第i行、第j列的元素为第i个源域特征向量和第j个目标域特征向量之间的相似分数,即
步骤2.2.1中,除了可以使用公式(14)计算两域特征向量之间的相似性分数外,还可以采用其他能够获取两特征向量之间相似性的度量方式,如余弦相似性等。
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系,以便于后续筛选出与源域特征向量为相同类别的目标域特征向量,并计算类别感知模块的损失函数。
使用c表示目标检测器为特征向量预测的类别,c∈{0,1,2,…,K},其中,0表示背景类别,1至K表示待检测目标类别的索引,那么第i个源域特征向量对应的预测类别表示为第j个目标域特征向量对应的预测类别表示为
构造类别关系矩阵其维度为ns×nt,其中元素由源域和目标域特征向量之间的类别关系来填充。例如,如果第i个源域特征向量对应的预测类别与第j个目标域特征向量对应的预测类别相同,即那么类别关系矩阵的第i行、第j列的元素置为1,即Bij=1;如果第i个源域特征向量对应的预测类别与第j个目标域特征向量对应的预测类别不同,即那么类别关系矩阵的第i行、第j列的元素置为0,即Rij=0。
对于第i个源域特征向量存在若干个与其为相同类别的目标域特征向量,同时也存在若干个与其为不同类别的目标域特征向量。将与第i个源域特征向量为相同类别的目标域特征向量的总数表示为将与第i个源域特征向量为不同类别的目标域特征向量的总数表示为有
为了保证不同类别特征的充分分离、相同类别特征的充分聚合,使用公式(15)来减小第i个源域特征向量和与之为相同类别的目标域特征向量之间的差异,增大第i个源域特征向量和与之为不同类别的目标域特征向量之间的差异,其中,表示第i个源域特征向量类别感知的损失函数。
在对的优化过程中,通过提高第i个源域特征向量和与之为相同类别的目标域特征向量之间的相似分数来聚合两域相同类别的特征向量,通过降低第i个源域特征向量和与之为不同类别的目标域特征向量之间的相似分数来分离两域不同类别的特征向量,从而保证源域和目标域候选区域特征在类别层面得到较好的对齐。
在一个实施例中,所述步骤3具体包括:
步骤3.1,获取基于前景-类别感知对齐的域自适应目标检测模型的损失函数。
通过在基准模型上构建前景感知模块、类别感知模块,形成基于前景-类别感知对齐的域自适应目标检测模型。基于前景-类别感知对齐的域自适应目标检测模型的损失函数由基准模型的损失函数前景感知模块的损失函数和类别感知模块的损失函数组成。
公式(17)中λ1、λ2、λ3和λ4的取值,优化过程中的初始学习率以及学习率衰减策略,应根据实际需要进行调整。此外,公式(17)的优化算法不一定采用小批量随机梯度下降算法,可以是Adam优化算法等。
步骤3.2,训练基于前景-类别感知对齐的域自适应目标检测模型。实验环境如表1所示。在Ubuntu16.04操作环境下,使用Python编程语言、PyTorch深度学习框架来构建基于前景-类别感知对齐的域自适应目标检测模型。此外,还使用2个Tesla V100 SXM2 16GB的GPU来加速模型训练。
采用小批量随机梯度下降(mini-batch SGD)优化算法对基于前景-类别感知对齐的域自适应目标检测模型进行训练,训练的epoch总数为10,批量大小为2(包括1张源域图像和1张目标域图像),初始学习率为1e-3,动量参数为0.9,权重衰减参数为5e-4。训练6个epoch后,学习率衰减为原来的0.1倍。为确保训练稳定,在训练4个epoch后再引入类别感知模块的损失函数。公式(17)中所有平衡系数λ1、λ2、λ3和λ4都设置为1,使用IoU阈值为0.5的平均查准率(Average Precision,AP)和平均查准率均值(mean Average Precision,mAP)来评估模型在目标域上的检测性能。
如无特别说明,“Source-only”表示直接在源域上训练的Faster R-CNN模型,即未经过任何域自适应的模型;“Baseline”表示本实施例步骤1提供的基准模型;“Ours”表示在基准模型上同时构建前景感知模块和类别感知模块的模型,即基于前景-类别感知对齐的域自适应目标检测模型;“Oracle”表示直接在目标域上训练的Faster R-CNN模型。
(1)跨天气自适应
使用Cityscapes和Foggy Cityscapes数据集来考察基于前景-类别感知对齐的域自适应目标检测模型从晴天条件到雾天条件的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将Foggy Cityscapes数据集作为没有标签数据的目标域。表1示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。
表1
表1上半部分为近年来计算机视觉顶会(CVPR、ICCV、ECCV)相关文章所提方法的AP和mAP数据。表1下半部分为本发明提供的一种基于前景-类别感知对齐的域自适应目标检测方法的消融实验数据。由表1可知,相较于Baseline,Ours的mAP取得进一步提升,接近于Oracle的mAP,并与近年来计算机视觉顶会相关文章所提方法的性能相当。图6示出Source-only和Ours在跨天气下的检测效果,可以看出Ours在雾天条件下能够纠正Source-only中误检为目标问题,并且能够更加鲁棒地检测出远处为浓雾所遮挡的小目标。
(2)跨摄像头自适应
使用Cityscapes和KITTI数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对不同摄像头配置(如角度、质量、类型等)的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将KITTI数据集作为没有标签数据的目标域。为保证两数据集的待检测目标类别种类相同且命名统一,对KITTI数据集的类别标签进行处理,将Car类和Van类合并成Car类,将Pedestrian类和Person sitting类合并成Person类,将Tram类更名为Train类,将Cyclist类更名为Rider类,表2示出Person、Rider、Car、Truck、Train的AP值以及对所有类别求得的mAP值。
表2
由表2可知,Ours的mAP优于Baseline,甚至超过了近年来计算机视觉顶会相关文章所提方法,这证明了前景感知模块和类别感知模块单独作用和联合作用的有效性。图7示出Source-only和Ours在跨摄像头下的检测效果,可以看出Ours对一些存在较大尺度变化的目标保持有较高的定位能力。
(3)跨复杂场景自适应
使用Cityscapes和BDD100k的“daytime”子数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对存在复杂场景(如天气变化、光照变化等)的性能变化情况。其中,将Cityscapes数据集作为具有标签数据的源域,将BDD100k的“daytime”子数据集作为没有标签数据的目标域。表3示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。由于近年来计算机视觉顶会相关文章未对Train类进行对比,因此本发明同样遵循不对比Train类的准则。
表3
由表3可知,Ours的mAP相对于Baseline取得了提升,还优于近年来计算机视觉顶会相关文章所提方法。图8示出Source-only和Ours在跨复杂场景下的检测效果,可以看出Ours在更加复杂的跨域场景下不仅降低了检测过程中假阳性的数量,而且提高了检测过程中真阳性的数量。
如图1和图2所示,本发明实施例还提供一种基于前景-类别感知对齐的域自适应目标检测系统,其包括基准模型、前景感知模块和类别感知模块,其中:
基准模型为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。
在一个实施例中,所述基准模型具体包括目标检测器、图像级域分类器和实例级域分类器,其中:
目标检测器包括主干网络、区域生成网络、感兴趣区域头部网络,用于预测输入图像上目标的位置、类别、概率。
图像级域分类器通过梯度反转层与目标检测器形成对抗训练的关系,用于对齐源域和目标域的整体特征。
实例级域分类器通过梯度反转层与目标检测器形成对抗训练的关系,用于对齐源域和目标域的候选区域特征。
在一个实施例中,所述前景感知模块具体包括前景注意单元和类别引导注意单元,其中:
前景注意单元用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程。
类别引导注意单元用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
本发明通过在基准模型上构建前景感知模块和类别感知模块,沿着跨域目标检测流程,将域对齐的关注点从整体特征转向前景特征,进而转向类别特征,能够挖掘出真正需要参与迁移过程的前景区域甚至是其中的类别结构,在天气条件、摄像头配置、复杂场景变化的情况下具备一定的跨域检测鲁棒性。
最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,包括:
根据自适应目标检测场景需求,选取源域数据集和目标域数据集,其中,所述源域数据集中的源域图像均具有标签,目标域数据集中的目标域图像均无标签;
使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测;
步骤1,选取目标检测器,并设置图像级域分类器和实例级域分类器,构建基准模型;
步骤2,根据所述基准模型,设置前景感知模块和类别感知模块,构建基于前景-类别感知对齐的域自适应目标检测模型;
步骤3,通过所述域自适应目标检测模型的损失函数,训练并获得所述域自适应目标检测模型,所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐,转向前景特征对齐,继而转向类别特征对齐;
其中,所述步骤2中设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数和对第j张目标域数据集中目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数并对原始特征图进行加权;其中,表示第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的特征值,表示第j张目标域图像对应的第l个特征图在(h,w)位置上的特征值,
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,并将所述多类别分类分数转化得到概率分数由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数
式中,表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,表示vh,w的通道数为K,表示第i张源域图像对应的第3个重加权特征图在(h,w)位置上的特征值
所述步骤2中设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数;
2.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督,当源域图像存在一个属于类别k的目标,则多类别标签中第k个类别标签dk置为1,否则dk置为0。
3.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法,其特征在于,所述步骤2.1.1具体包括:
步骤a2,按照式(6-1),将第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数以及按照式(6-2),将第j张目标域数据集中目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数转化为在(h,w)位置上属于前景的概率分数
式中,S(·)表示sigmoid激活函数;
5.一种基于前景-类别感知对齐的域自适应目标检测系统,其特征在于,包括:
基准模型,其为前景感知模块和类别感知模块构建的载体,用于对齐源域和目标域的整体特征和候选区域特征;
前景感知模块,其用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐;
类别感知模块,其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐;
设置前景感知模块的方法具体包括:
步骤2.1.1,通过前景注意单元中的区域分类器获取第l个前景注意单元中的区域分类器Rl(·)分别对第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的区域分类分数和对第j张目标域数据集中目标域图像对应的第l个特征图在(h,w)位置上的区域分类分数并对原始特征图进行加权;其中,表示第i张源域图像对应的第l个特征图fi s,l在(h,w)位置上的特征值,表示第j张目标域图像对应的第l个特征图在(h,w)位置上的特征值,
步骤2.1.2,通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数,并将所述多类别分类分数转化得到概率分数由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数
式中,表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数,K表示待检测目标类别的总数,k表示待检测目标类别的索引,取1至K,表示vh,w的通道数为K,表示第i张源域图像对应的第3个重加权特征图在(h,w)位置上的特征值
设置类别感知模块的方法具体包括:
步骤2.2.1,通过相似分数矩阵,确定源域特征向量和目标域特征向量两两之间的相似性;
步骤2.2.2,通过类别关系矩阵,确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系;
步骤2.2.3,根据每个源域特征向量类别感知的损失函数,建立类别感知模块的损失函数;
6.如权利要求5所述的基于前景-类别感知对齐的域自适应目标检测系统,其特征在于,所述前景感知模块具体包括前景注意单元、类别引导注意单元,其中:
前景注意单元,其用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域,保证图像级域分类器着眼于前景区域特征的迁移过程;
类别引导注意单元,其用于纠正前景注意单元对前景区域的预测偏差,将前景注意单元的关注点从整体层面引导至前景区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210290769.6A CN114821152B (zh) | 2022-03-23 | 2022-03-23 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210290769.6A CN114821152B (zh) | 2022-03-23 | 2022-03-23 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821152A CN114821152A (zh) | 2022-07-29 |
CN114821152B true CN114821152B (zh) | 2023-05-02 |
Family
ID=82531013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210290769.6A Active CN114821152B (zh) | 2022-03-23 | 2022-03-23 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821152B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973168A (zh) * | 2022-08-01 | 2022-08-30 | 北京科技大学 | 一种跨场景交通目标检测方法和系统 |
CN116778277B (zh) * | 2023-07-20 | 2024-03-01 | 湖南大学无锡智能控制研究院 | 基于渐进式信息解耦的跨域模型训练方法 |
CN117274723B (zh) * | 2023-11-22 | 2024-03-26 | 国网智能科技股份有限公司 | 一种用于输电巡检的目标识别方法、系统、介质及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488229A (zh) * | 2020-12-10 | 2021-03-12 | 西安交通大学 | 一种基于特征分离和对齐的域自适应无监督目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544503B2 (en) * | 2020-04-06 | 2023-01-03 | Adobe Inc. | Domain alignment for object detection domain adaptation tasks |
CN112016594B (zh) * | 2020-08-05 | 2023-06-09 | 中山大学 | 一种基于领域自适应的协同训练方法 |
CN113052184B (zh) * | 2021-03-12 | 2022-11-18 | 电子科技大学 | 一种基于两阶段局部特征对齐的目标检测方法 |
CN113392933B (zh) * | 2021-07-06 | 2022-04-15 | 湖南大学 | 一种基于不确定性引导的自适应跨域目标检测方法 |
CN113343989B (zh) * | 2021-07-09 | 2022-09-27 | 中山大学 | 一种基于前景选择域自适应的目标检测方法及系统 |
CN113807420B (zh) * | 2021-09-06 | 2024-03-19 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN114139616A (zh) * | 2021-11-19 | 2022-03-04 | 杭州电子科技大学 | 一种基于不确定性感知的无监督域适应目标检测方法 |
-
2022
- 2022-03-23 CN CN202210290769.6A patent/CN114821152B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488229A (zh) * | 2020-12-10 | 2021-03-12 | 西安交通大学 | 一种基于特征分离和对齐的域自适应无监督目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114821152A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821152B (zh) | 基于前景-类别感知对齐的域自适应目标检测方法及系统 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
US9965719B2 (en) | Subcategory-aware convolutional neural networks for object detection | |
Hasegawa et al. | Robust Japanese road sign detection and recognition in complex scenes using convolutional neural networks | |
CN111553397B (zh) | 基于区域全卷积网络和自适应的跨域目标检测方法 | |
Opelt et al. | Incremental learning of object detectors using a visual shape alphabet | |
CN113807420B (zh) | 一种考虑类别语义匹配的域自适应目标检测方法及系统 | |
CN100561505C (zh) | 一种图像检测方法及装置 | |
CN111488879A (zh) | 利用双嵌入构成的用于提高分割性能的方法及装置 | |
Li et al. | Spatially self-paced convolutional networks for change detection in heterogeneous images | |
Qiao et al. | Marine vessel re-identification: A large-scale dataset and global-and-local fusion-based discriminative feature learning | |
CN112488229A (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN116452818A (zh) | 一种基于特征增强的小样本遥感图像目标检测方法 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN115273154A (zh) | 基于边缘重构的热红外行人检测方法、系统及存储介质 | |
CN114549909A (zh) | 一种基于自适应阈值的伪标签遥感图像场景分类方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
CN112668532A (zh) | 基于多阶段混合注意网络的人群计数方法 | |
CN111476226A (zh) | 一种文本定位方法、装置及模型训练方法 | |
Grcić et al. | Dense Out-of-Distribution Detection by Robust Learning on Synthetic Negative Data | |
CN115546668A (zh) | 海洋生物的检测方法、装置及无人机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |