CN116309466A

CN116309466A - 一种基于对比学习的跨域目标检测方法

Info

Publication number: CN116309466A
Application number: CN202310281957.7A
Authority: CN
Inventors: 周圆; 闫志宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-23

Abstract

本发明公开了一种基于对比学习的跨域目标检测方法，涉及计算机视觉中的跨域目标检测领域；该方法包括以下步骤：S1、输入图像获取图像特征及实例特征；S2、输入图像的目标检测训练；S3、图像级别的特征对齐；S4、实例级别的特征对比；S5、类别级别的特征对齐。现有技术中全局特征对齐方法以类不可知的方式进行域对齐，导致实例特征被分入不正确的类中；本发明中方法明确地将类别信息考虑在域对齐的过程中，设计了图像特征的对齐方法进行全局特征对齐，设计了实例特征的对比方法，利用实例特征的相似性来改进适应过程，设计了类别特征的对齐方法，实现域间类别的语义一致性；采用本发明所述的方法，极大地提高了跨域目标检测任务上的准确率。

Description

一种基于对比学习的跨域目标检测方法

技术领域

本发明属于计算机视觉中的跨域目标检测领域，尤其涉及一种基于对比学习的跨域目标检测方法。

背景技术

目标检测是计算机视觉中一个基本但具有挑战性的问题，它旨在识别和定位图像中特定类的所有对象实例。在过去的几年里，有监督信息的目标检测算法得到了广泛的发展。然而，这些研究大多基于训练数据集和应用场景分布相同的假设，这在实践中显然无法满足。另一方面，为每个新场景收集足够的注释在实际应用场景中是不切实际的，因为标注过程既耗时又昂贵。

无监督域适应(UDA)为解决上述问题提供了一个途径，它将知识从现成的标记域(称为源域)转移到相关的但未标记的域(目标域)。在无监督域适应问题中，有一个带标签的源域数据集D_S＝{I_S,B_S,C_S}，其中I_S表示源域图像，C_S，B_S分别表示对象类别C_S和边界框坐标B_S，还有一个未标记的目标域数据集D_T。无监督域适应尝试通过在源图像和目标图像之间执行特征对齐来学习域不变特征。目前，跨域目标检测主流方法为通过对抗性训练实现特征对齐。它们主要研究以类不可知的方式执行域对齐，即它们在不考虑类别信息的情况下匹配两个域的边缘分布。

“Domain adaptive faster r-cnn for object detection in the wild”中的方法使用Faster R-CNN模型作为检测框架，并在图像级和实例级两个层面上应用对抗学习策略，以解决在图像层面由于样式和光照的域偏移以及在实例层面由于外观和大小的影响而产生的域偏移。“Strong-weak distribution alignment for adaptive objectdetection”中认为在特征提取网络的多个层次上直接应用对抗学习策略不一定是最优的。因此，他们在全局层面(即特征提取网络卷积层的最后一层)使用焦点损失替换了对抗网络使用的二进制交叉熵损失，并将这种对齐策略称为全局弱对齐。与此同时，在特征提取网络的浅层部分进行局部强对齐，以减小源域和目标域数据之间的域偏移，从而提高了检测模型对目标域的检测性能。“Multi-level domain adaptive learning for cross-domaindetection”接着“Strong-weak distribution alignment for adaptive objectdetection”的思路，将多个域分类器嵌入到特征提取网络中，以消除尽可能多的域偏移。

然而，这些方法有天然的缺点，仅对其边缘分布会导致特征对齐不完全，并且由于缺乏类别信息作为指导，导致学习到的特征在进行目标检测时，错误地将目标归到不正确的类，影响跨域目标检测的性能。

参考文献：

Chen Y,Li W,Sakaridis C,et al.Domain adaptive faster r-cnn for objectdetection in the wild[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2018:3339-3348.

Saito K,Ushiku Y,Harada T,et al.Strong-weak distribution alignmentfor adaptive object detection[C]//Proceedings ofthe IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:6956-6965.

Xie R,Yu F,Wang J,et al.Multi-level domain adaptive learning forcross-domain detection[C]//Proceedings of the IEEE/CVF internationalconference on computer vision workshops.2019:0-0.

发明内容

本发明的目的在于提供一种基于对比学习的跨域目标检测方法，以解决上述背景技术中提出的现有技术中仅对齐边缘分布会导致特征对齐不完全，并且由于缺乏类别信息作为指导，导致学习到的特征在进行目标检测时，错误地将目标归到不正确的类，影响跨域目标检测的性能等问题。

针对现有技术中存在的缺陷，本发明可以减少跨域分布的差异，并进一步很好地推广到目标域，利用D_S中的知识提高D_T检测的性能。

为实现上述目的，本发明采用以下技术方案实现：

一种基于对比学习的跨域目标检测方法，包括以下步骤：

S1、输入图像获取图像特征及实例特征；

输入一张有标签的源域的图像和一张无标签的目标域图像，通过Faster-RCNN网络产生源域图像和目标域图像的图像特征，并通过区域建议网络获取实例特征。

S2、输入图像的目标检测训练；

将步骤S1中有标签源域产生的实例特征送入分类器和定位器，以进行目标检测网络分类和定位的训练。

S3、图像级别的特征对齐；

将步骤S1中得到的源域和目标域的图像特征利用对抗损失函数进行全局特征对齐。

S4、实例级别的特征对比；

将步骤S1中获得的实例特征利用实例级别的对比学习进行特征学习，以提升类别内的紧凑性和类别间的可分离性。

S5、类别级别的特征对齐

将步骤S1中获得的实例特征计算出类别原型，通过约束类别原型的距离，以进一步提升跨域的语义一致性。

优选地，利用分类损失和定位损失实现目标检测的基本功能；

将步骤S2得到的实例特征分别输入到分类器和定位器中，计算分类分类器和定位器各自的损失，称为检测损失；

L_DET＝L_cls+L_reg (1)

其中L_DET是检测损失，检测损失是分类损失L_cls和回归损失L_reg之和。

优选地，所述步骤S3中利用对抗训练实现全局特征对齐；

特征通过梯度反转层传送到鉴别器D_k以区分域标签，域适应损失作为一个最小最大博弈，训练过程包含两个相反的优化目标和损失函数：

其中K∈{Img,Ins}表示图像级和实例级，G和D分别表示特征提取器和领域鉴别器，θ_G，θ_D分别表示G和D的参数；当使上述域适应损失最小化时，从鉴别器回传到生成器的梯度符号通过梯度反转层反转，引导生成器G产生域不变的特征，以混淆鉴别器并使域鉴别损失最大化。

优选地，所述步骤S4中对实例级别特征施加类别信息约束，提高类别的鉴别行并提升特征对齐效果；

对于源域中的实例直接使用类别真值标签，对于目标域为目标域的实例特征创建类伪标签；

将目标域的ROI特征输入到与源域共享参数的类分类器中，当某一个实例的类别得分高于预定义阈值的就被分配为该实例的伪类别标签，即一个实例特征的类别伪标签是其对应的高置信度分类结果；

将正样本构造为同一类的不同实例，将不同类别的实例构造为负样本，然后将不同类的实例特征分开，并将同一类的实例特征拉到一起；考虑来自源域和目标域的所有负样本；无论特征F来自哪个域，实例级别对比学习表述如下：

其中f_k是训练中小批次中的第k个实例特征，

和/>

分别是第i个具有真实类别的源域特征和第j个具有伪标签的目标域特征，z⁺表示f_k的正样本，N_S、N_T分别表示源域和目标域中的实例数，τ表示温度系数。

优选地，所述步骤S5中通过类别级特征对齐模块对类别原型进行约束，类别级特征对齐模块能够最小化源域和目标域中相同类别的原型之间的距离；

在训练批次中，源域和目标域的原型表示为：

其中

和/>

分别表示源域和目标域中第k个类别的原型，Fea表示ROI模块中提取的前景区域的特征，使用真值GT_k来提取源域中的前景区域，由于没有目标注释，使用ROI模块中提供的ROI_k作为目标域中的伪前景区域，|·|表示区域的数量；

当源域和目标域中的同类别原型的距离更近时，代表源域和目标域的类别级别特征对齐的更好，因此类别级别的特征对齐目标为：

提出框架的总体优化目标表示为：

其中L_DET是检测损失，包括分类损失和回归损失，L_DA是对抗性损失，

是实例级对比损失，L_CLA是类别级别的原型对齐损失。

与现有技术相比，本发明的有益效果是：

(1)、本发明设计的算法由检测网络，图像级别特征对齐、实例级别特征对比、类别级别特征对齐组成。首先，图像级别特征对齐通过对抗训练实现全局特征对齐，其次，实例级别对比将类别信息考虑在特征对齐的过程中，通过实例级别对比学习来提高类别的类内紧凑型和类别间可分离性。最后，类别级别特征对齐模块通过约束不同域间类别原型的距离，进一步提升了特征的语义一致性。在测试阶段，将目标域图像输入到训练得到的目标检测网络，可得到其分类结果和定位结果。与现有技术相比，本发明的效果在于极大地提高了在目标域中目标检测的准确率。

(2)、在执行与类别无关的全局特征对齐的基础上，本发明利用实例级别的相似性这样的更细粒度的知识来改进适应过程，并且利用跨域类别原型的对齐，进一步提高跨域的语义一致性。

附图说明

图1是本发明的训练阶段流程图；

图2是本发明的网络框架图；

图3是本发明在Cityscapes和Foggy Cityscapes数据集中的检测可视化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

基于对比学习的跨域目标检测方法按以下步骤具体实现：

步骤一，输入图像获取图像特征及实例特征

输入一张有标签的源域图像和一张无标签的目标域图像，通过Faster-RCNN的特征提取网络，如图2所示的ResNet-50的主干网络，获得源域和目标域图像特征，接着通过目标检测网络的区域建议网络与ROI Align一起获得一系列实例特征，如图2所示的上下两条支路，这些实例特征表征图像中的不同目标。

步骤二，输入图像的目标检测训练

将步骤一中有标签源域产生的实例特征送入分类器和定位器，以进行目标检测网络分类和定位的训练。如图2所示的分类器和回归器，将步骤一得到的实例特征分别输入到分类网络和回归网络中，计算它们各自的损失，本发明统称为检测损失。

L_DET＝L_cls+L_reg (1)

其中L_DET是检测损失，它是分类损失L_cls和回归损失L_reg之和。

步骤三，图像级别的特征对齐

在特征提取网络的主干中上层和ROI层都使用在源域和目标域上对齐特征的主流做法，这些特征对齐都是通过对抗训练来实现的。

具体来说，特征通过梯度反转层(GRL)传送到鉴别器D_k以区分它们的域标签。如图2所示的GRL和D，其中D表示鉴别器，这里的域适应损失作为一个最小最大博弈，训练过程包含两个相反的优化目标和损失函数：

其中K∈{Img,Ins}表示图像级和实例级，G和D分别表示特征提取器(目标检测网络)和领域鉴别器，θ_G，θ_D分别表示G和D的参数。当使上述域适应损失最小化时，从鉴别器回传到生成器的梯度符号通过GRL反转，引导生成器G产生域不变的特征，以混淆鉴别器并使域鉴别损失最大化。换句话说，GRL通过梯度反转使对抗训练在一次训练中得以实现，不需要对生成器和领域鉴别器进行单独训练。

步骤四，实例级别的特征对比

如图2所示，通过RPN(Region Proposal Network)获得一系列描述Faster-Rcnn网络中前景和背景的建议。图像中的前景建议代表了不同类的个体实例的特征，这些实例代表了丰富的类内和类间变化。基于这些提议获得一系列ROI(感兴趣区域)特征

代表每个实例。对于源域中的实例，可以直接使用它们的类别真值标签，而对于目标域，为目标域的实例特征创建类伪标签。

具体做法为：将目标域的ROI特征输入到与源域共享参数的类分类器中，当某一个实例的类别得分高于预定义阈值的就被分配为该实例的伪类别标签，即一个实例特征的类别伪标签是其对应的高置信度分类结果。

接着，将正样本构造为同一类的不同实例，将不同类别的实例构造为负样本，然后将不同类的实例特征分开，并将同一类的实例特征拉到一起。考虑来自源域和目标域的所有负样本。无论特征F来自哪个域，实例级别对比学习可以表述如下：

其中f_k是训练中小批次中的第k个实例特征。

和/>

分别是第i个具有真实类别的源域特征和第j个具有伪标签的目标域特征，z⁺表示f_k的正样本。N_S、N_T分别表示源域和目标域中的实例数，τ表示温度系数。

步骤五，类别级别的特征对齐

受基于原型的小样本学习和跨域图像分类方法的启发，提出了类别级特征对齐模块。它可以最小化源域和目标域中相同类别的原型之间的距离，在训练批次中，源域和目标域的原型可以表示为：

其中

和/>

分别表示源域和目标域中第k个类别的原型。Fea表示ROI模块中提取的前景区域的特征。使用真值GT_k来提取源域中的前景区域。由于没有目标注释，使用ROI模块中提供的ROI_k作为目标域中的伪前景区域。|·|表示区域的数量。

提出框架的总体优化目标表示为：

是实例级对比损失，L_CLA是类别级别的原型对齐损失。

现有技术中，全局特征对齐方法以类不可知的方式进行域对齐，导致实例特征被分入不正确的类中。本发明的方法明确地将类别信息考虑在域对齐的过程中，设计了图像特征的对齐方法进行全局特征对齐，设计了实例特征的对比方法，利用实例特征的相似性来改进适应过程，设计了类别特征的对齐方法，实现域间类别的语义一致性。

实施例2：

准备数据集按照实施例1中过程进行训练，在跨域目标检测任务中，本实施例选取Cityscapes和Foggy Cityscapes数据集分别作为源域数据集和目标域数据集。Cityscapes是包含2,975张训练图像和500张带有像素级注释的验证图像。由于它不是为检测任务而设计的，因此遵循常用的做法，使用实例分割掩码的最紧凑矩形作为真值边界框。FoggyCityscapes源自Cityscapes，通过在原始图像中添加合成雾而形成的数据集。因此，train/Val拆分和注释与Cityscapes中的相同。

再进一步，训练网络并进行测试，本实施例采用Faster R-CNN作为目标检测网络。主干使用ResNet-50在ImageNet上的预训练模型进行初始化，Faster R-CNN的检测模块(即RPN)和领域分类器以零均值标准差为0.01的高斯分布随机初始化。在训练期间，使用反向传播和动量为0.9且权重衰减为5e-4的随机梯度下降(SGD)来优化所有网络。初始学习率设置为0.002进行50k次迭代，然后降低到0.0005进行另外20k次迭代。在每次迭代中使用一张源图像和一张目标图像。

本发明将训练得到的模型和现有先进模型的结果进行了对比。从实验结果中可以看到，本实施例在两个域适应场景上极大地提高了跨域目标检测任务上的准确率。如表1所示为Cityscapes和Foggy Cityscapes数据集中与现有先进网络的性能比较，本发明的方法取得了最好的结果，如图3所示为在Cityscapes和Foggy Cityscapes数据集中的检测可视化图。

表1

表1为本发明在Cityscapes和Foggy Cityscapes数据集中与现有先进网络的性能比较(粗体最优)，其中表格内多个性能比较中，本发明在Cityscapes和Foggy Cityscapes数据集中的多项性能最佳，或最接近最佳性能指数，可看出该表1中本发明中目标检测方法的综合性能最佳。

实施例3：

与实施例2不同之处在于，本实施例探索了不同相机设置下真实世界数据集之间的适应。本实施例使用Cityscapes为源域数据集，BDD100k作为目标数据集，它由100k图像组成，分为70k训练图像和10k带有边界框注释的验证图像。本实施例利用BDD100k的白天子集，得到36,728个训练图像和5,258个验证图像，用于模型训练和验证。

如表2所示为本发明在Cityscapes和BDD100k数据集中与现有先进网络的性能比较，可以看出本发明的方法获得了好的结果。

表2

表2为本发明在Cityscapes和BDD100k数据集中与现有先进网络的性能(粗体最优)，其中表格内多个性能比较中，本发明在Cityscapes和BDD100k数据集中的多项性能同样最佳，或最接近最佳性能指数，可看出该表2中本发明中目标检测方法的综合性能最佳。

以上所述，仅用于帮助理解本发明的方法及其核心要义，但本发明的保护范围并不局限于此，对于本技术领域的一般技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。综上所述，本说明书内容不应理解为对本发明的限制。