CN111950608B

CN111950608B - 一种基于对比损失的域自适应物体检测方法

Info

Publication number: CN111950608B
Application number: CN202010740512.7A
Authority: CN
Inventors: 叶齐祥; 刘峰; 张小松; 万方; 季向阳
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-06-12
Filing date: 2020-07-28
Publication date: 2021-05-04
Anticipated expiration: 2040-07-28
Also published as: CN111950608A

Abstract

本发明公开了一种基于对比损失的域自适应物体检测方法，该方法包括以下步骤：步骤1，训练检测器；步骤2，对检测器进行初步微调；步骤3，对初步微调后的检测器进行再次微调；步骤4，利用微调后的检测器进行物体检测。本发明所公开的方法采用域对比法来解决跨域情境下的物体检测问题，通过最小化域对比损失，在增强特征的迁移性的同时，保留特征的判别性，取得了优越的性能，适用于跨域、多场景下的物体检测。

Description

一种基于对比损失的域自适应物体检测方法

技术领域

本发明涉及计算机视觉和人工智能技术领域，具体涉及跨域物体检测方法，尤其涉及基于对比损失的域自适应物体检测方法。

背景技术

物体检测作为计算机视觉领域的核心问题，是很多应用系统的基础。物体检测模型在训练时非常依赖图像的标注信息，如目标的坐标位置和类别。若要获得良好的检测性能，就需要在大量的带有标注信息的图像上进行训练，图像的数量级一般可以达到千万级。在工程应用中往往不会提供图像的标注信息，因为对图像进行标注的时间成本和经济成本非常高。

解决上述问题的一个方案是用公开的、可获取的、带标注信息的图像数据集对进行训练，但由于此类图像与真正在工程应用中的图像分布不一样，即训练模型的图像与真正在工程应用中的图像分布不一样，会导致检测性能大幅下降。在缺乏图像标注信息的情境下，检测器想要准确检测物体并对其进行精确定位的难度极大。因此，域自适应物体检测方法的研究对于将物体检测器进行工程化应用具有重要意义。

现有技术中，解决跨域导致的检测性能下降问题的方法主要有三种，分别是基于对抗的域自适应物体检测方法、基于重建的域自适应物体检测方法和基于伪标签的域自适应物体检测方法。

基于对抗的域自适应物体检测方法是最主要的研究方向，其训练过程涉及一个生成器和判别器，生成器是一个深度卷积神经网络，负责提取图像特征，输出图像的特征，判别器则需判断出特征是来自源域的图像还是来自目标域的图像。通过生成器和判别器的对抗，生成器可以实现对源域图像和目标域图像的特征的对齐(即特征的可迁移性)。但该方法仅关注于将源域和目标域图像的特征对齐，而忽略了迁移后特征的判别性。

基于重建的方法会对源域或目标域的图像进行风格迁移，将源域的图像迁移到目标域的风格或将目标域的图像迁移到源域的风格，然后，用迁移前和迁移后的图像对模型进行训练。Inoue等人首先用源域带标注的图像对模型进行训练，然后采用CycleGAN将源域的图像迁移到目标域的风格，迁移前的图像和迁移后的图像共享标注信息，并用迁移后的图像对网络进行微调。Taekyung Kim等人指出，只用源域的图像训练的模型是有偏的，而用CycleGAN进行风格迁移得到的图像可能是不完美的，也不是唯一的，于是在风格迁移时引入约束，包括颜色保留约束、重构约束以及两者的结合，每一张源域图像经过迁移后会得到三张不同的目标域风格的图像。然后，采用带标注信息的源域的图像训练模型的同时，对源域图像、目标域图像、源域迁移至目标域风格的图像进行对抗训练，不再采用微调策略。

由于目标域的图像没有标注信息，无法直接用于模型的训练。基于伪标签的方法用训练过的模型对目标域图像打上伪标签，然后用伪标签和目标域图像对模型进行训练。鉴于点标注信息易于获取，Inoue等人采用弱监督学习的方法，在打伪标签时会应用标注信息中的类别信息，但不使用坐标信息。该方法只进行一次打伪标签，然后用其对之前训练过的模型微调。Seunghyeon Kim等人打的伪标签是不断迭代的，每一次输入目标域图像都会重新打上伪标签用于训练，此外，由于伪标签的准确性比较低，其并不用于计算坐标回归的损失，而只是用来计算分类错误的损失。

上述方法均只关注将源域和目标域图像的特征对齐(即特征的可迁移性)，而忽略了迁移后特征的判别性，跨域检测性能不佳。因此，有必要提供一种跨域情境下的物体检测方法，其能够在增强模型输出图像特征的可迁移性的同时，增强特征的判别性，显著提升跨域物体检测性能。

发明内容

为了克服上述问题，本发明人进行了锐意研究，提供了一种基于对比损失的域自适应物体检测方法，该方法首先对原图进行风格迁移，然后把风格迁移前后的图像对批量输入模型得到各自的特征，在训练时最大化风格迁移前后的域对比度，包括：增加正例图像对的特征表达相似度，保证物体特征可迁移性；同时，最小化反例图像对的特征相似度，以保留特征判别性。优化域对比损失通过更新物体分类器和物体回归器网络权值进行更新，并用学习得到的网络模型在目标域检测伪样本，进一步优化检测网络权值。该方法在增强特征的迁移性的同时，保留特征的判别性，取得了优越的性能，适宜跨域、多场景下的物体检测，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供一种基于对比损失的域自适应物体检测方法，所述方法包括以下步骤：

步骤1，训练检测器；

步骤2，对检测器进行初步微调；

步骤3，对初步微调后的检测器进行再次微调；

步骤4，利用微调后的检测器进行物体检测。

第二方面，提供一种基于对比损失的域自适应物体检测装置，所述装置包括源域检测器训练单元、初步微调单元、再次微调单元、目标域检测器训练单元和物体检测单元；

所述源域检测器训练单元采用图像数据集中源域带标注信息的图像对基础检测器进行全监督训练，以获得源域检测器；

所述初步微调单元通过对数据集中的图像进行风格迁移，获得图像风格迁移前后的对比损失，以对检测器进行初步微调；

所述再次微调单元通过对没有标注信息的目标域数据打上伪标签，以用带伪标签的目标域图像对检测器的网络参数进行再次微调；

所述目标域训练单元利用没有标注信息的目标域图像和生成的伪标签对源域物体检测器进行微调，对网络进行梯度返传，并更新网络参数，直至网络收敛，获得收敛后的目标域检测器；

所述物体检测单元用于采用收敛后的目标域检测器对待测物体进行检测。

第三方面，提供一种计算机可读存储介质，存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行所述基于对比损失的域自适应物体检测方法的步骤。

第四方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行所述基于对比损失的域自适应物体检测方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的基于对比损失的域自适应物体检测方法，通过对比学习，可以在增强模型输出的图像的特征的可迁移性的同时，增强特征的判别性，减小检测性能的下降；

(2)本发明提供的基于对比损失的域自适应物体检测方法，用学习得到的网络模型在目标域检测伪样本，优化了检测网络的权值；

(3)本发明提供的基于对比损失的域自适应物体检测方法，适用于跨域、多场景下的物体检测，检测准确率高。

附图说明

图1示出根据本发明一种优选实施方式的域自适应物体检测方法的框架示意图；

图2示出根据本发明一种优选实施方式的风格迁移前后图像示例图；

图3示出根据本发明一种优选实施方式的伪标签与真实标签的示例图；

图4示出本发明实验例1所述的各方法在Clipart数据集的检测结果示例图；

图5示出本发明实验例2所述的各方法在Comic数据集的检测结果示例图；

图6示出本发明实验例3中关于退火参数τ的对比实验结果图；

图7示出本发明实验例3中关于图像数量(batch size)N的对比实验结果图；

图8示出本发明实验例3中特征的可视化分析结果图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本发明为了解决跨域后检测性能下降的问题，提供了一种基于对比损失的域自适应物体检测方法，所述方法包括以下步骤：

步骤1，训练检测器；

步骤2，对检测器进行初步微调；

步骤3，对初步微调后的检测器进行再次微调；

步骤4，利用微调后的检测器进行物体检测。

以下进一步描述所述基于对比损失的域自适应物体检测方法：

步骤1，训练检测器。

域自适应理论中，设定S和T分别表示源域和目标域，一个域由在输入

的分布

和分类函数f:x→[0,1]组成，源域由

表示，相应地，目标域由

表示。假设(hypothesis)是一个函数h:x→{0,1}，假设h在分布

上的误差由下式获得：

对于假设h在源域上的误差，用ε_s(h,f_S)表示，简写为ε_s(h)；相应地，目标域上为ε_T(h,f_T)和ε_T(h)。对于两个不同的分布

和

它们的概率密度函数分别为φ(x)和φ′(x)，则可用总变差距离(total variation distance)来获得它们的散度，如下式所示：

其中，

为

和

中可测子集的集合，Pr表示概率。

基于上述定义，可以定义在源域数据上训练好的模型在目标域数据上的误差上限。对任意假设h，有下式成立：

其中，ε_s(h)为源域的误差，可以通过对带有标注信息的源域数据进行训练来减小；

是源域和目标域分类函数的差异，是一个常数；对于任意的分布，

无法通过有限的样本来进行估计，而数据集里的样本数是有限的。

为解决总变差距离中存在的问题，通过

-divergence来对两个分布的散度进行度量。对于域

上的分布

和

是域

上的假设空间，

-divergence的定义如下式所示：

其中，

对于有限VC维的假设类

-divergence可以通过有限的样本来估计，

是域

上的假设类，其VC维为d，

和

分别是分布

和

的样本集，两个样本集的元素个数都为m，则

则至少有1-δ的概率式成立，如下所示：

其中

为样本集

和

的

-divergence，一致收敛于分布

和

的

-divergence。

若对假设空间

的任意一个假设h，1-h也属于假设空间

则称

为对称假设空间。对于对称的假设空间

元素个数为m的样本集

和

下式成立：

其中，

-divergence给出了一种用有限样本来估计两种分布之间的散度的方法，但无法直接应用于目标域误差上限的计算，需要一套工具使其能够应用于计算目标域误差的上限。

在源域和目标域的联合最优假设记为h^*，如下式所示：

最优假设h^*的组合误差如下式所示：

λ＝ε_S(h^*)+ε_T(h^*)

当联合最优假设h^*性能差时，无法通过最小化源域误差来获得一个性能良好的目标域分类器。当联合最优假设h^*性能良好时，可以通过分布

和

的边缘分布的

-divergence来度量在源域数据上训练的模型的可迁移性。

对于假设空间

其对称差异假设空间(symmetric difference hypothesisspace)

如下式所示：

其中，

表示异或。对于有限VC维的假设空间

其对称差异假设空间

的VC维至多为假设空间

的VC维的两倍。

对假设空间

中的假设h和h′，有下式成立：

使用上述定义，可以对目标域的误差定出一个上限。

是域

上的假设类，其VC维为d，

和

分别是分布

和

的样本集，集合的元素个数都为m，则

则至少有1-δ的概率式成立：

因此，在本发明中，为了减小源域模型在目标域的误差上限，首先需要对ε_s(h)进行最小化。

根据本发明一种优选的实施方式，优选选择Faster R-CNN作为基础检测器，采用源域带标注信息的图像对基础检测器进行全监督训练，获得源域检测器。

其中，通过使用源域带有标注信息的图像训练模型(即基础检测器)，实现ε_s(h)的最小化。

在进一步优选的实施方式，在训练过程中，包括在特征网络提取图像级的特征和区域级的特征，以用于计算域对比损失。

优选地，如图1所示，G1和G2为特征特区网络的两个部分，分别提取图像级和区域级的特征，这两个级别的特征将被用于计算域对比损失，图像级的特征还将被送入G2生成下一级的特征，区域级的特征还将被送入分类器和回归器网络，得到目标所在的坐标位置和其所属的类别，RPN(Region Proposal Network)为候选区域生成网络，作用为确定可能包含目标的候选区域的坐标。

步骤2，对检测器进行初步微调。

在本发明中，优选采用域对比法对源域和目标域的分歧

进行最小化，

优选地，步骤2包括以下子步骤：

步骤2-1，对图像进行风格迁移。

根据本发明一种优选的实施方式，所述风格迁移包括将源域图像迁移至目标域图像的风格和将目标域的图像迁移至源域图像的风格。

优选地，所述风格迁移通过对抗生成网络CycleGAN(循环生成对抗网络)来实现，风格迁移前后的图像如图2所示。

其中，在风格迁移的过程中，为防止生成器G_A和G_B生成毫无意义的无法区分的图像，优选地，A域的图像用生成器G_A迁移至目标域风格后，再用生成器G_B迁移回A域图像的风格；

B域的图像用生成器G_B迁移至目标域风格后，再用生成器G_A迁移回B域图像的风格。

其中，A域为源域，B域为目标域。

更优选地，将原图和经过两次迁移后的图像的像素值计算出逐像素的差值作为损失来进行优化。

步骤2-2，获得图像风格迁移前后的对比损失，对检测器进行初步微调。

其中，步骤2-2包括以下子步骤：

步骤2-2-1，由风格迁移前的图像数据集中取出N张图像，获得图像特征。

步骤2-2-2，由风格迁移后的图像数据集中取出N张对应的图像，获得图像特征。

步骤2-2-3，由2N个特征获得图像的对比损失，对检测器进行初步微调。

其中，如图1所示，在获取图像特征时，有两级的特征用于计算对比损失，本发明中对源域图像和源域迁移至目标域图像的风格，同时对图像级和区域级的特征计算对比损失。优选地，在取区域级的特征时，本发明用标注信息中的坐标位置对区域进行截取，只对含有目标的区域计算对比损失。

对目标域图像和目标域风格迁移至源域的图像，本发明只对图像级的特征计算对比损失，因为目标域图像的标注信息是无法获取的，所以不另外截取出含有目标的区域。

域自适应理论指出，虽然

-divergence可以通过有限的样本进行估计，但在实际计算中是个难解的问题，因此，

根据本发明一种优选的实施方式，步骤2-2-3中，采用特征相似度来估计图像的对比损失。

所述估计图像的对比损失包括估计源域图像和源域风格迁移至目标域的图像的对比损失，以及估计目标域图像和目标域风格迁移至源域的图像的对比损失。

在进一步优选的实施方式中，源域图像的特征为x_S，源域风格迁移至目标域的同一图像的特征为x_S→T，二者的相似度通过下式(一)获得：

在本发明中，通过最大化源域和源域风格迁移后的图像的特征相似度，或最小化其负值，可使得源域和源域风格迁移后的图像的特征的夹角变小，即将源域和目标域的特征进行对齐，增强特征的可迁移性，

优选地，目标函数如下式(二)所示：

其中，

分别为源域和源域风格迁移后的第i张图像的特征。

本发明人考虑到：让不同域中的特征在特征空间中位于相近的位置，只关注于将源域和目标域的特征分布进行对齐，而忽略了特征的判别性问题，即忽略了分类器能否将这些迁移后的特征进行正确分类。

为保留特征的判别性，优选地，本发明通过最小化不同图像的特征的相似度来实现，优选采用下式(三)所述的目标函数：

其中，

为源域中第i张和第j张图像的特征，

为风格迁移后第j张图像的特征。

在本发明中，将上式(二)与(三)整合到log-softmax函数中，并取平均值可以得到式：

其中，N为一次迭代中使用的源域图像数量。

引入退火参数τ，则上式可以改写为下述所示：

由于x_S→T与x_S具有同等重要性，所以也需要最小化风格迁移后的图像特征和反例图像(包含其他类目标的图像)特征的相似度。

在更进一步优选的实施方式中，源域图像和源域风格迁移至目标域的图像的域对比损失(Domain Contrast Loss)采用下式(四)获得：

其中，τ为退火参数。

进一步地，通过随机梯度下降算法最小化L(x_S,x_S→T)对检测器的网络参数进行微调。

根据本发明一种优选的实施方式，目标域图像和目标域风格迁移至源域的图像的域对比损失采用下式(五)获得：

在进一步优选的实施方式中，通过随机梯度下降算法最小化L(x_T,x_T→S)对检测器的网络参数进行微调。

在本发明中，先用源域图像和源域风格迁移至目标域的图像的对比损失对检测器的网络参数进行微调，再用目标域图像和目标域风格迁移至源域的图像的对比损失对检测器的网络参数进行微调，可以实现在增强特征的可迁移性的同时，保留特征的判别性，最终提升检测器在跨域场性能。

步骤3，对初步微调后的检测器进行再次微调。

上述步骤中采用的域对比损失只对检测器模型提取特征的网络参数进行优化，而分类器和回归器的参数都未进行优化，因此，根据本发明一种优选的实施方式，采用训练好的模型(步骤2微调后的模型)对没有标注信息的目标域数据打上伪标签，用带伪标签的目标域图像对检测器的网络参数进行再次微调。

其中，伪标签和真实标签的对比如图3所示，图中的第一行为伪标签，第二行为真实标签。

在进一步优选的实施方式中，对目标域经风格迁移至源域的图像打伪标签，以获得更为准确的伪标签，

然后用目标域图像和生成的伪标签对模型进行再次微调。

其中，所述再次微调包括对提取特征的网络、分类器和回归器进行微调。

在更进一步优选的实施方式中，只选取概率(检测器输出得分)大于阈值0.95的目标作为伪标签，丢弃其余概率小于阈值的目标，

然后用概率高于阈值的伪标签和目标域图像对网络进行训练。

优选地，选择0.95作为阈值，选取概率大于0.95的目标域目标作为伪标签，丢弃其余概率小于0.95的目标。

根据本发明一种优选的实施方式，在对源域物体检测器进行再次微调后，对网络进行梯度返传，并更新网络参数，直至网络收敛，获得目标域检测器。

在本发明中，先用对比损失对基本检测器进行微调，即：先用源域图像和源域风格迁移至目标域的图像的对比损失对检测器进行微调的网络参数，然后用目标域图像和目标域风格迁移至源域的图像的对比损失微调检测器的网络参数；之后用微调后的检测器对没有标注信息的目标域图像打上伪标签，然后用带有伪标签的目标域图像再一次微调检测器的网络参数。通过上述两次微调，训练好的模型在增强模型输出的图像的特征的可迁移性的同时，增强了特征的判别性，达到了较好的跨域物体检测性能。

步骤4，利用微调后的检测器进行物体检测。

其中，步骤4包括以下子步骤：

步骤4-1，获得待测物体的图像。

步骤4-2，利用步骤3中得到的收敛后的目标检测器，获得图像的物体检测框和置信度，即为检测结果。

具体地，采用物体检测测试流程为；“图片输入-网络前传-得到各框结果及得分-进行mAP评测”。

本发明还提供了一种基于对比损失的域自适应物体检测装置，所述装置包括源域检测器训练单元、初步微调单元、再次微调单元、目标域检测器训练单元和物体检测单元。

其中，所述源域检测器训练单元采用图像数据集中源域带标注信息的图像对基础检测器进行全监督训练，以获得源域检测器；

所述目标域训练单元利用没有标注信息的目标域图像和生成的伪标签对源域物体检测器进行微调，对网络进行梯度返传，并更新网络参数，直至网络收敛，获得收敛后的目标域检测器。

本发明还提供了一种计算机可读存储介质，存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行所述基于对比损失的域自适应物体检测方法的步骤。

本发明中所述的基于对比损失的域自适应物体检测方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行所述基于对比损失的域自适应物体检测方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据库

本实施例采用下述数据库进行评测：

从现实场景到艺术场景的数据集，包括现实场景数据PASCAL VOC 2007、PASCALVOC 2012，艺术风格场景数据集Clipart与卡通画风格数据集Comic，Watercolor。

2、性能评测准则

本实施例中的主要评价指标为mAP(mean Average Precision)，即各个类别的目标的平均准确率的均值。

对于一个包含N类目标的数据集，其mAP值的计算公式如下式所示：

其中，AP_i为第i类目标的平均准确率。

对于AP值的计算涉及准确率(Precision)和召回率(Recall)的计算，计算公式如下式所示：

其中，TP表示物体检测框与真值物体框的交并比(IoU)大于0.5的目标总数，FP表示预测为背景的框中与真实目标的交并比大于0.5的框的总数，FN为被漏检的真实目标数，TP和FN的和即为真实物体总数。

框A和B交并比计算如下式所示：

其中，Intersection(A,B)表示框A和B的交集的面积，Union(A,B)表示框A和B的并集的面积。

由上述可知，AP的计算公式如下式所示，即对11个大于相应召回率阈值(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0)的最大准确率的均值：

其中，r为召回率变量，r_i′为第i个召回率阈值。

对比例

对比例1

使用目前已有的域自适应物体检测方法Faster R-CNN、WST-BSR、SWDA、ICR-CCR、HTCN等方法进行测试。采用PASCAL VOC数据集迁移到Clipart数据集任务测试，评估物体检测mAP值。

其中，Faster R-CNN具体如文献“Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]Advancesin neural information processing systems.2015:91-99.”中所述；

WST-BSR具体如文献“Kim,Taekyung,Minki Jeong,Seunghyeon Kim,SeokeonChoi,and Changick Kim."Diversify and match:A domain adaptive representationlearning paradigm for object detection."[C]In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pp.12456-12465.2019.”中所述；

SWDA具体如文献“Saito,Kuniaki,Yoshitaka Ushiku,Tatsuya Harada,and KateSaenko."Strong-weak distribution alignment for adaptive object detection."[C]In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.6956-6965.2019.”中所述。

ICR-CCR具体如文献“Xu,Chang-Dong,Xing-Ran Zhao,Xin Jin,and Xiu-ShenWei."Exploring Categorical Regularization for Domain Adaptive ObjectDetection."arXiv preprint arXiv:2003.09152(2020).”中所述；

HTCN具体如文献“Chen,Chaoqi,Zebiao Zheng,Xinghao Ding,Yue Huang,and QiDou."Harmonizing Transferability and Discriminability for Adapting ObjectDetectors."arXiv preprint arXiv:2003.06297(2020).”中所述。

对比例2

使用目前已有的域自适应物体检测方法Faster R-CNN、WST-BSR、DT、DM等方法进行测试。采用PASCAL VOC数据集迁移到Comic数据集任务测试，评估物体检测mAP值。

其中，DT具体如文献“Inoue,Naoto,Ryosuke Furuta,Toshihiko Yamasaki,andKiyoharu Aizawa."Cross-domain weakly-supervised object detection throughprogressive domain adaptation."[C]In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pp.5001-5009.2018.”中所述；

DM具体如文献“Kim,Taekyung,Minki Jeong,Seunghyeon Kim,Seokeon Choi,andChangick Kim."Diversify and match:A domain adaptive representation learningparadigm for object detection."[C]In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pp.12456-12465.2019.”中所述。

实验例

实验例1

本发明实施例1所述方法与对比例1所述方法，在PASCAL VOC数据集迁移到Clipart数据集的对比实验结果如表1和图4所示：

表1

表1中，WST-BSR的基础检测器为SSD，其余方法的基础检测器皆为Faster R-CNN。由表1可以看出，本发明实施例1所述的域对比法的性能超过基础检测器性能17.7％，并超过了两篇最新的国际顶级会议论文中提出的方法(ICR-CCR和HTCN)的性能3％～5％。

由图4可知，第一行为源域图像，其余为目标域图像。只用源域图像训练的模型会出现漏检，如在第一列图像中只检测到了车，而没有检测到人，而本发明实施例1的方法既检测到了车，又检测到了人；在最后一列图像只用源域图像训练的模型只检测到一张椅子，而本发明实施例1的方法检测出了两张椅子和三个人；

此外，只用源域图像训练的模型还出现分类错误的情况，在第二列和第四列图像，将人检测为椅子，在第三列图像，将人检测为小汽车，在第五列图像，将人检测为飞机和瓶子，而本发明实施例1的方法都将它们准确检测出。

实验例2

本发明实施例1所述方法与对比例2所述方法，在PASCAL VOC数据集迁移到Comic数据集的对比实验结果如表2和图5所示：

表2

其中，WST-BSR和DT采用SSD作为基础检测器，其余方法采用Faster R-CNN作为基础检测器。为了保证比较结果，本发明实施例1采用VGG16作为骨干网进行试验。

由表2可以看出，本发明实施例1所述方法的性能在基础检测器的基础上提升了18.1％，且超过已发表文献中最优方法(DM)的性能2.4％。此外，本发明还用ResNet101作为骨干网进行了实验，实验结果表明，性能还可以再提高约2％。

由图5可知，第一行为源域图像，其余为目标域图像。只使用源域图像训练的模型会出现分类错误的情况，如第一列和第二列图像，均把人分类成小汽车，而本发明提出的方法均实现了正确分类；只使用源域图像训练的模型还会出现无中生有的情况，如第二列、第三列和第四列图像，多检测出了一辆自行车，第三列图像，本发明提出的方法未出现此情况；

此外，只使用源域图像训练的模型还会出现漏检的情况，如第六列只检测出两个人中的一个，最后一列图像只检测出一个人，漏检了一个人和一辆车。而本发明提出的方法有明显的性能提升。

实验例3

在PASCAL数据集迁移至Clipart数据集任务上，对实施例1各模块及参数进行模块分析实验。

(1)模型有效性验证：

各模块的有效性验证结果如表3所示，其中，“S→T,image level”和“S→T,regionlevel”表示源域图像迁移前后的域对比，分别只取图像级的特征计算对比损失和只取区域级的特征计算对比损失，“T→S””表示目标域图像迁移前后的域对比，“PL”为伪标签监督。

表3

如表3所示，“S→T,image level”，“S→T,region level”和“T→S”在相对于基础检测器的mAP值分别提升了13.2％、10％和8.8％，将“S→T,image level”和“S→T,regionlevel”结合后，性能提升14.4％，而将三者结合后，性能提升15.5％，在此基础上，进行伪标签监督训练，性能总共提升17.7％。实验验证了本文所提出方法的有效性，并量化了各模块对性能提升的贡献。这些模块结合在一起后，性能得到了更大的提升，验证里模块的互补性。

(2)参数敏感性分析：

在对比损失函数中，有多个超参数，如退火参数τ、每一次迭代使用的图像数量(batchsize)N以及学习率lr，为探究这些参数对实验结果的影响，在PASCAL数据集迁移至Clipart数据集任务上对各参数做了对比实验。

对退火参数τ的对比实验的结果见图6，为保证网络参数更新的稳定性，令退火参数τ和学习率lr的比值恒定。τ的取值从0.05到10.0，最大值为最小值的200倍，覆盖了足够广的范围。可以看出，模型对退火参数τ比较敏感，不同的τ值的最大性能差异约2％，所以选择一个合适的退火参数τ非常重要。mAP值随着退火参数τ的增大先上升后下降，在τ＝0.5时模型性能最佳，故其余所有实验皆在τ＝0.5的基础上进行。

图像数量(batchsize)N的对比实验结果见图7，由于GPU存储的限制，只对N＝2,4,6,8,10,12的情况进行了实验。可以看出，模型对N的大小非常敏感，不同N值的最大性能差异超过10％，所以选择合适的N值尤为重要。随着N的增大，mAP值逐渐上升并趋于稳定，在N＝8时开始趋于稳定，且性能略优于N＝10和N＝12的情况，所以在其余实验中，均选择N＝8。

(3)可视化分析：

通过t-SNE进行可视化，可视化结果如图8所示，图的左半部分为只用源域图像训练的模型输出的特征，右半部分为用本发明所提出的方法训练的模型输出的特征，为保证可视化的效果，这里选取5个类的目标的特征，分别为飞机，自行车，鸟，船。

在左侧图中，大量目标域图像的特征聚集在中间，所以只用源域训练出来模型提取出的源域图像的特征的可迁移性和判别性都比较弱，而在右侧的图中，原本聚集在中间的目标域图像的特征分散到各自所属类别的区域中，即源域和目标域图像的特征对齐了，增强了特征的可迁移性。同时，各个类别的特征也没有出现明显的混肴，即保留了特征判别性。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种基于对比损失的域自适应物体检测方法，其特征在于，所述方法包括以下步骤：

步骤1，训练检测器；

步骤2，对检测器进行初步微调；

步骤2包括以下子步骤：

步骤2-1，对图像进行风格迁移；

所述风格迁移包括将源域图像迁移至目标域图像的风格和将目标域的图像迁移至源域图像的风格；

步骤2-2，获得图像风格迁移前后的对比损失，对检测器进行初步微调；

步骤2-2包括以下子步骤：

步骤2-2-1，由风格迁移前的图像数据集中取出N张图像，获得图像特征；

步骤2-2-2，由风格迁移后的图像数据集中取出N张对应的图像，获得图像特征；

步骤2-2-3，由2N个特征获得图像的对比损失，对检测器进行初步微调；

步骤2-2-3中，采用特征相似度来估计图像的对比损失，所述估计图像的对比损失包括估计源域图像和源域风格迁移至目标域的图像的对比损失，以及估计目标域图像和目标域风格迁移至源域的图像的对比损失；源域图像的特征为x_S，源域风格迁移至目标域的同一图像的特征为x_S→T，二者的相似度通过下式获得：

最大化源域和源域风格迁移后的图像的特征相似度，或最小化其负值，以将源域和目标域的特征进行对齐，目标函数如下式所示：

其中，

分别为源域和源域风格迁移后的第i张图像的特征；

最小化不同图像的特征的相似度，以保留特征的判别性，目标函数如下式所示：

为源域中第i张和第j张图像的特征，

为风格迁移后第j张图像的特征；

步骤3，对初步微调后的检测器进行再次微调；

步骤4，利用微调后的检测器进行物体检测。

2.根据权利要求1所述的检测方法，其特征在于，步骤1中，选择Faster R-CNN作为基础检测器，采用图像数据集中源域带标注信息的图像对基础检测器进行全监督训练。

3.根据权利要求1所述的检测方法，其特征在于，步骤1中，在训练过程中，包括在特征网络提取图像级的特征和区域级的特征。

4.根据权利要求1所述的检测方法，其特征在于，步骤3中，采用步骤2微调后的模型对没有标注信息的目标域数据打上伪标签，用带伪标签的目标域图像对检测器的网络参数进行再次微调。

5.一种基于对比损失的域自适应物体检测装置，用于实施权利要求1至4之一所述的检测方法，其特征在于，所述装置包括源域检测器训练单元、初步微调单元、再次微调单元、目标域检测器训练单元和物体检测单元；

所述目标域检测器训练单元利用没有标注信息的目标域图像和生成的伪标签对源域物体检测器进行微调，对网络进行梯度返传，并更新网络参数，直至网络收敛，获得收敛后的目标域检测器；

6.一种计算机可读存储介质，其特征在于，存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至4之一所述基于对比损失的域自适应物体检测方法的步骤。

7.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有基于对比损失的域自适应物体检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至4之一所述基于对比损失的域自适应物体检测方法的步骤。