CN114972964A

CN114972964A - 一种基于对比学习的域适应物体检测方法及装置

Info

Publication number: CN114972964A
Application number: CN202210397702.2A
Authority: CN
Inventors: 王蕊; 钟安雨; 邹聪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-30

Abstract

本发明公开一种基于对比学习的域适应物体检测方法及装置，属于计算机视觉技术领域，采用深度神经网络中的ResNet网络，配合对比学习以及特征解耦模块，能够在数据集中只有源域图像数据有标注而目标域图像数据没有标注的情况下匹配源域和目标域中的特征并从中解耦出域不变特征，并以域不变特征为基础进行物体检测。在训练过程中利用对比学习实现了源域和目标域特征的对齐，提高了解耦后特征的一致性，获得了更好的域不变特征，提升了在目标域上的物体检测效果，结果具有高精度高召回率，表明网络域适应能力很强。

Description

一种基于对比学习的域适应物体检测方法及装置

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够实现域适应的物体检测方法及装置。

背景技术

机器学习已经在例如图像识别、物体检测等多个领域中得到了广泛应用。对于常见的机器学习任务，例如物体检测而言，要实现某一特定环境下的物体检测，如果只使用公开的通用数据集会面对训练集(源域)和测试集(目标域)中的样本分布不一致的问题，导致训练得到的模型不能得到良好的预测结果；但是如果为特定任务去收集并标注一个足够大的数据集的成本又极为高昂。为了解决这样的矛盾，学界提出了域适应的概念，其核心在于找到源域和目标域的相似性，并利用这种相似性将源域中学习的知识用于目标域，在不对目标域数据集进行标注的情况下完成模型的训练。在应用了域适应方法之后，针对特定任务的训练就可以使用公开的通用数据集配合无标注的目标域数据集进行训练，极大地降低成本。例如，要训练一个能用于某一城市的街景识别模型，可以使用来自其它城市已有的街景数据集，配合本城市的无标注街景图像进行训练，能够省下对本城市的街景图像进行标注的成本。

域适应物体检测方法的主要难点在于正确地找到源域和目标域之间相似之处并加以保留，与此同时消除源域和目标域之间的分布差异，由于在训练过程中只有来自源域的数据是有标注的，如果不能解决上述的两个难点就会导致检测结果偏向源域，在目标域上会出现错检、漏检等问题。现有的域适应物体检测方法可以分为三类：一是基于领域分布差异的方法，这类方法通常从数据分布着手，通过某种统计规则来度量域之间的差异，例如最大均值差异、协方差矩阵差异、中心距差异、“搬土”距离等规则，并约束模型将两个域间的差异尽量缩小；二是基于对抗学习的方法，这种方法的思路来源于生成对抗网络，核心是训练一对特征提取器和领域判别器，前者试图从来自不同域中的样本中提取出不变的特征，后者试图判断前者提取到的特征来源于哪个域。在训练完成后，特征提取器就可以提取出同时具有类别区分性和领域不变性的特征，实现域适应的目标；三则是基于重构的方法，使用一对配合的编解码器，编码器负责提取出域不变特征，解码器则负责将这部分特征重构成原本的形态，在训练完成后，编码器提取到的特征就可以用于物体检测。

近年来，针对特定场景的物体检测任务越来越多，如针对不同城市的街景识别、针对不同天气的路况检测、针对不同成像设备的物体检测等等，这类任务的提出给了域适应物体检测方法很大的发挥空间。现有域适应物体检测方法通常基于前述三种方法以及它们的组合，但仍存在错检漏检等问题，这反映了已有方法对源域和目标域中域不变特征的提取还不够完善，进一步改进这些方法是很有必要的。

发明内容

本发明针对物体检测任务中只有源域标注而缺少目标域标注的情况，提出了一种基于对比学习的域适应物体检测方法及装置。

本发明采用的技术方案如下：

一种基于对比学习的域适应物体检测方法，包括以下步骤：

构造由特征解耦提取模块、物体检测模块和对比学习模块组成的域适应物体检测网络；该特征解耦提取模块以ResNet-101作为基础卷积神经网络结构，包括浅层特征提取模块、浅层特征解耦模块、深层特征提取模块和深层特征解耦模块；

对于输入的图像数据，该特征解耦提取模块通过浅层特征提取模块提取图像的浅层特征图，再通过浅层特征解耦模块处理浅层特征图得到域相关特征和域无关特征；再将域无关特征加入到浅层特征图中，通过深层特征提取模块提取深层特征图，最后通过深层特征解耦模块处理深层特征图得到深层域相关特征和深层域无关特征；物体检测模块根据深层域无关特征对物体进行定位和分类；

利用有标注的源域图像数据集和无标注的目标域图像数据集对域适应物体检测网络进行训练；特征解耦提取模块根据有标注的源域图像数据集计算域相关特征和域无关特征，并计算浅层域相关特征和浅层域无关特征互信息损失函数、深层域相关特征和深层域无关特征的互信息损失函数以及深层特征图的重建损失函数，采用上述两种互信息损失函数、重建损失函数和一致性损失函数训练特征解耦提取模块中的浅层特征解耦模块和深层特征解耦模块；采用分类损失函数和回归损失函数训练物体检测模块；对比学习模块保存所述源域图像数据集经特征解耦提取模和物体检测模块处理所得到的特征以及对应的标签，以及所述目标域图像数据集经特征解耦提取模和物体检测模块处理所得到的特征以及对应的伪标签，对这两种特征进行对比学习，采用对比损失函数优化特征解耦提取模块所包含的所有模块；

将待检测的目标域图片输入到训练完成的域适应物体检测网络，对目标域图像中的物体进行定位和分类。

进一步地，ResNet-101包含五个层，前三个层组成浅层特征提取模块，后两个层组成深层特征提取模块；浅层特征解耦模块由两个分支构成，每个分支都包含三个连续的带有激活层的1*1卷积层。

进一步地，物体检测模块包含RPN网络、由两个全连接层构成的回归模块和由两个全连接层构成的分类模块，该RPN网络负责从特征中筛选出潜在的物体备选区域并得到用于分类和定位的特征，该回归模块负责利用前述特征计算出物体的具体位置，该分类模块负责利用前述特征对物体进行分类。

进一步地，训练过程中使用深层特征图和深层域无关特征计算一致性损失，该一致性损失的式子如下：

其中，L_rc是一致性损失，A_b和A_di分别是深层特征图和深层域无关特征图中物体特征的自相关矩阵，该物体特征是RPN网络使用备选区域从对应特征图中截取得到的。

进一步地，训练过程中，将物体检测模块的RPN网络输出的特征配合对应的标签输入到对比模块中，更新内存库并计算对比损失函数。

进一步地，训练过程中，对于无标注的目标域图像数据集，锁定物体检测模块的梯度，将特征解耦提取模块得到的深层域无关特征输入物体检测模块中得到预测结果，选择置信度高于一预设值的预测结果所对应的特征，并将预测的标签作为伪标签。

进一步地，对比学习模块包含一个由两个全连接层构成的特征映射分支和一个内存库，该特征映射分支用于对准备存入内存库的特征和标签、伪标签先进行降维；该内存库是一个用于存储一定数量的特征-标签对的子模块；该内存库当达到其设定的容量上限时，丢弃掉最早入库的特征并保存新入库的特征。

进一步地，在训练过程中每次特征解耦提取模块中各个模块的参数更新时，对比模块则计算一个对比损失，该对比损失函数的式子如下：

其中，L_cont是对比损失，

是针对一个特征i的对比损失，N是内存库的容量，z_i,z_j,z_k是内存库中编号为i,j,k的特征，y_i,y_j是i,j的特征的标签，

指的是选择标签与y_i相同的特征y_j，τ是对比损失函数的温度参数，log的底数为自然对数底数e。

进一步地，训练完成的域适应物体检测网络对目标域图片中的物体进行定位和分类，包括以下步骤：

将待检测的目标域图片输入到域适应物体检测网络，得到分类结果和回归结果；

使用局部极大值抑制算法筛选上一步所得回归结果，去除对同一物体的多个检测框，得到最终结果。

一种基于对比学习的域适应物体检测装置，包含一域适应物体检测网络，该域适应物体检测网络由特征解耦提取模块、物体检测模块和对比学习模块构成。该特征解耦提取模块以ResNet-101作为基础卷积神经网络结构，包括浅层特征提取模块、浅层特征解耦模块、深层特征提取模块和深层特征解耦模块；其中，

浅层特征提取模块负责从输入图像中提取浅层信息，得到浅层特征图；

浅层特征解耦模块负责对浅层特征图进行解耦，得到浅层的域相关特征和域无关特征；

深层特征提取模块负责结合浅层特征图和域无关特征并从中提取出深层特征图；

深层特征解耦模块负责从深层特征图中解耦出深层域相关特征和用于物体检测的深层域无关特征；

物体检测模块负责利用深层域无关特征进行物体检测，输出分类结果和回归结果；

对比学习模块负责在训练阶段辅助有标注的源域图像数据和无标注的目标域图像数据的特征的对齐，优化特征解耦提取模块所包含的所有模块。

本发明采用了深度神经网络中的ResNet网络，配合对比学习以及特征解耦模块，能够在数据集中只有源域图像数据有标注而目标域图像数据没有标注的情况下匹配源域和目标域中的特征并从中解耦出域不变特征，并以域不变特征为基础进行物体检测。特别地，在训练过程中利用对比学习实现了源域和目标域特征的对齐，提高了解耦后特征的一致性，获得了更好的域不变特征，提升了在目标域上的物体检测效果，结果具有高精度高召回率，表明网络域适应能力很强。测试表明，本发明在学界常用的评价域适应物体检测的数据集对，即以cityscape数据集为源域，去除标注的foggy-cityscape数据集为目标域进行了测试，取得了良好的结果。

附图说明

下面通过具体实施例和附图，对本发明做进一步详细说明。

图1是本发明实施例的一种域适应物体检测网络架构图；

图2是本发明实施例的特征解耦提取模块的数据流图；

图3是本发明实施例的域适应物体检测结果实例图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明的基于对比学习的域适应物体检测方法，主要分为训练阶段和测试阶段，具体说明如下。

一、训练阶段的步骤如下：

1)使用ResNet-101作为基础特征提取器，构造特征提取解耦模块，再级联物体检测模块和对比学习模块，构造域适应物体检测网络。

域适应物体检测网络结构如图1所示。其中特征提取解耦模块作为一个整体，它的构造如下：使用ResNet-101作为基础特征提取器，图2中conv1，conv2，conv3，conv4，conv5是ResNet-101的五个层，由多个残差块构建而成。将这些层从中间分开，由conv1，conv2，conv3负责提取图像的浅层信息，构成浅层特征提取模块；conv4和conv5则构成深层特征提取模块。对于浅层特征提取模块得到的浅层特征图，将其送入浅层特征解耦模块进行处理。具体地，浅层特征解耦模块由两个分支构成，每个分支都包含三个连续的带有激活层的1*1卷积层。这两个分支的一个用于输出域相关特征，另一个输出域无关特征。将浅层特征解耦模块得到的域无关特征加入浅层特征图中，就可以得到强化域无关特征的浅层特征。将上述浅层特征输入深层特征提取模块，就可以得到深层特征图。将深层特征输入到深层特征解耦模块，解耦得到输出域相关特征和深层域无关特征。深层特征解耦模块的结构与浅层特征解耦模块相同，但参数不同。

将上述深层域无关特征输入物体检测模块，即可得到物体定位和分类结果。具体地，物体检测模块包含三个子模块，一是RPN网络，负责从特征中筛选出潜在的物体备选选项并得到可用于分类和定位的特征，二是由两个全连接层构成的回归模块，负责利用前述特征计算出物体的具体位置，三是由两个全连接层构成的分类模块，负责利用前述特征对物体进行分类。

对比学习模块只在训练阶段参与工作，它的构造如图1所示。具体地，对比学习模块包含一个由两层全连接网络和正则化构成的映射分支，以及一个可以存储“特征-标签”对的内存队列。

2)将训练数据输入网络，按顺序计算损失函数，调整网络参数。

本步骤通过训练对多个模块的网络参见进行调整。具体地，首先，当作为训练数据的有标注的源域图像数据依次经过了浅层特征提取模块和浅层特征解耦模块后，使用输出的域相关特征和域无关特征计算互信息损失函数，以此对浅层特征解耦模块进行参数优化。接着，将域无关特征加上已有的浅层特征依次送入深层特征提取模块和深层特征解耦模块，使用输出的深层域相关特征和深层域无关特征再次计算互信息损失函数，再结合深层特征图计算重建损失函数，以此对深层特征解耦模块进行参数优化。接着，将深层域无关特征信息送入物体检测模块，对于有标注的源域图像数据，根据标注对物体检测模块进行训练，计算回归损失和分类损失并优化对应模块参数，对于无标注的目标域图像数据，则固定参数按照测试流程得到网络输出的定位及分类结果，并保留置信度足够高的那些。

在训练流程中，将上一步使用的RPN网络输出的特征配合对应的标签送入对比模块的内存库中，更新内存库并根据这些特征和标签计算对比损失函数，以此优化除物体检测模块外所有模块的参数。对比学习模块是根据在其它领域中使用的对比学习方法改进而来，如图1所示。该模块只在训练阶段工作，计算对比损失函数并负责优化所有的特征解耦模块和特征提取模块。

训练过程中会使用深层特征图和深层域无关特征计算一致性损失，该一致性损失的式子如下：

其中L_rc是一致性损失，A_b和A_di分别是深层特征图和深层域无关特征图中物体特征的自相关矩阵。前述物体特征是RPN网络使用在前述步骤中获得的备选区域从对应特征图中截取得到的。

对比学习模块的输入是RPN网络输出的特征和标签。对于有标注的源域图像数据集，就应用已有标注的标签并存入内存库中；对于无标注的目标域图像数据集，则将物体检测模块置为测试模式(即锁定物体检测模块的梯度，保持参数不变)，将深层域无关特征输入物体检测模块中得到网络预测的结果，并选择置信度较高的结果作为标签并存入内存库中。接下来将上述特征依次输入对比模块内的两个全连接层并进行一次正则化，得到降维后的特征。在本实例中，RPN网络输出的特征维度是2048维，降维后的特征则是128维。接下来降维后得到的特征与上述流程得到的对应标签存入内存库中。对比学习模块内存库中保存的特征进行对比学习，以此实现将来自源域和目标域的特征对齐，提高上述特征间的一致性。

内存库是一个能够存储一定数量的“特征-标签”对的子模块，当内存库达到其设定的容量上限时，内存库会丢弃掉最早入库的特征并保存新入库的特征。在本域适应物体检测方法实例中，内存库的大小设定为4000组特征对。

在训练过程中每次参数更新的时候，对比模块会计算一个对比损失，该对比损失函数定义如下：

其中，N是内存库的容量，z_i是内存库中编号为i的特征，y_i是该特征的标签，

指的是选择标签与y_i相同的特征，τ指的是对比损失函数的温度参数，在这里选取的是0.2,log的底数为自然对数底数e。

二、测试阶段的步骤如下：

1)将目标域测试图片输入训练完毕的域适应物体检测网络，网络的检测结果为多个可能有重复的带有置信度的物体定位框及其标签。

2)对上述结果挑选置信度足够高的结果，并在此基础上使用局部非极大值抑制算法去除对同一物体的重复结果。该步骤2)使用的置信度取0.5。图3是域适应物体检测结果实例图。

实验测试如下：

(1)测试环境：

系统环境：ubuntu18.04；

硬件环境：内存：64GB，GPU：Nvidia TITAN XP，硬盘：2TB；

(2)实验数据：

训练数据：

ImageNet预训练ResNet-101基础网络。

Cityscapes数据集作为源域(包括有标注的训练集2975张和验证集500张，无标注的测试集1575张)；Foggy-cityscapes数据集作为目标域(以cityscapes数据集为基础人工合成的雾天版本，图像数量和前者一样)。

使用上述数据集中的训练集部分进行训练，直到模型稳定。特别地，虽然源域和目标域的图像是一一对应的，但是训练过程并没有利用这种对应关系。

训练优化方法：SGD

测试数据：Foggy-cityscapes验证集(500张)

评估方法：VOC物体检测标准

(3)实验结果：

为说明本发明的效果，使用相同的数据集对是否使用对比学习模块的本发明域适应物体检测网络进行训练，到模型稳定效果不再提升时停止训练，使用Foggy-cityscapes验证集进行测试，并与现有主流的域适应物体检测方法效果进行对比。

本发明和现有的主流预测方法SCDA(参见Zhu,Xinge and Pang,Jiangmiao andYang,Ceyuan and Shi,Jianping and Lin,Dahua,“Adapting object detectors viaselective cross-domain alignment”in CVPR 2019,pp.687-696.)、ATF(参见He,Zhenweiand Zhang,Lei,“Domain adaptive object detection via asymmetric tri-wayfaster-rcnn”in ECCV 2020,pp.309-324.)的测试对比结果如以下表1所示，其中mAP指平均准确率。

表1.本发明和现有预测方法的测试结果对比

序号	方法	mAP(％)
			1	SCDA	33.8
2	ATF	38.7
			3	本发明(不使用对比学习模块)	38.6
4	本发明(使用对比学习模块)	39.8

从表1中可以清楚看到，本发明域适应物体检测网络比现有的文字检测方法SCDA和ATF的准确率有很大提升，并且加入了对比学习模块进行训练的方法得到的网络模型在准确率上得到了进一步提升。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于对比学习的域适应物体检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，ResNet-101包含五个层，前三个层组成浅层特征提取模块，后两个层组成深层特征提取模块；浅层特征解耦模块由两个分支构成，每个分支都包含三个连续的带有激活层的1*1卷积层。

3.如权利要求1所述的方法，其特征在于，物体检测模块包含RPN网络、由两个全连接层构成的回归模块和由两个全连接层构成的分类模块，该RPN网络负责从特征中筛选出潜在的物体备选区域并得到用于分类和定位的特征，该回归模块负责利用前述特征计算出物体的具体位置，该分类模块负责利用前述特征对物体进行分类。

4.如权利要求3所述的方法，其特征在于，训练过程中使用深层特征图和深层域无关特征计算一致性损失，该一致性损失的式子如下：

5.如权利要求3所述的方法，其特征在于，训练过程中，将物体检测模块的RPN网络输出的特征配合对应的标签输入到对比模块中，更新内存库并计算对比损失函数。

6.如权利要求1所述的方法，其特征在于，训练过程中，对于无标注的目标域图像数据集，锁定物体检测模块的梯度，将特征解耦提取模块得到的深层域无关特征输入物体检测模块中得到预测结果，选择置信度高于一预设值的预测结果所对应的特征，并将预测的标签作为伪标签。

7.如权利要求1所述的方法，其特征在于，对比学习模块包含一个由两个全连接层构成的特征映射分支和一个内存库，该特征映射分支用于对准备存入内存库的特征和标签、伪标签先进行降维；该内存库是一个用于存储一定数量的特征-标签对的子模块；该内存库当达到其设定的容量上限时，丢弃掉最早入库的特征并保存新入库的特征。

8.如权利要求1所述的方法，其特征在于，在训练过程中每次特征解耦提取模块中各个模块的参数更新时，对比模块则计算一个对比损失，该对比损失函数的式子如下：

其中，L_cont是对比损失，

9.如权利要求1所述的方法，其特征在于，训练完成的域适应物体检测网络对目标域图片中的物体进行定位和分类，包括以下步骤：

10.一种基于对比学习的域适应物体检测装置，其特征在于，包含一域适应物体检测网络，该域适应物体检测网络由特征解耦提取模块、物体检测模块和对比学习模块构成；该特征解耦提取模块以ResNet-101作为基础卷积神经网络结构，包括浅层特征提取模块、浅层特征解耦模块、深层特征提取模块和深层特征解耦模块；其中，