CN114821152B

CN114821152B - 基于前景-类别感知对齐的域自适应目标检测方法及系统

Info

Publication number: CN114821152B
Application number: CN202210290769.6A
Authority: CN
Inventors: 王晓伟; 蒋沛文; 王惠; 谢国涛; 秦兆博; 秦晓辉; 边有钢; 胡满江; 秦洪懋; 徐彪; 丁荣军
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-05-02
Anticipated expiration: 2042-03-23
Also published as: CN114821152A

Abstract

本发明公开了一种基于前景‑类别感知对齐的域自适应目标检测方法及系统，该方法包括：使用通过下面步骤获得的域自适应目标检测模型在目标域数据集对应的场景进行目标检测；步骤1，设置图像级域分类器和实例级域分类器，构建基准模型；步骤2，设置前景感知模块和类别感知模块，构建基于前景‑类别感知对齐的域自适应目标检测模型；步骤3，训练并获得域自适应目标检测模型。本发明能够跨域目标检测流程的关注点从整体特征对齐，到前景特征对齐，再到类别特征对齐的转变，在跨天气、跨摄像头、跨复杂场景检测下都取得了在目标域上的性能提升。

Description

基于前景-类别感知对齐的域自适应目标检测方法及系统

技术领域

本发明涉及基于深度迁移学习的目标检测技术领域，特别是关于一种基于前景-类别感知对齐的域自适应目标检测方法及系统。

背景技术

无监督域自适应目标检测在源域具有带标签数据、目标域没有带标签数据的情况下，通过将源域的知识迁移到目标域，来提高目标检测器在目标域上的检测性能。近年来，无监督域自适应目标检测凭借着通过对抗训练方式学习到的域不变特征，在多种复杂跨域检测场景下大放异彩。这些方法使用梯度反转层来桥接目标检测器和域分类器，在整个目标检测流程中通过最小化目标检测损失、最大化域分类损失来完成对抗训练，当源域和目标域特征在特征空间中得到混淆时，源域和目标域就顺利地完成迁移过程。

当前无监督域自适应目标检测方法大多只是通过上述策略来实现源域和目标域整体特征的迁移，这种迁移过程并未区分前景区域(即待检测目标，如汽车、行人等)和背景区域(如天空、建筑物等)，而是以“前景未知”的方式进行域对齐。然而，背景区域对于跨域检测而言并不应该成为迁移过程的关注点，倘若将前景和背景区域置于同等地位进行两域特征对齐，那么跨域目标检测流程难以关注到真正需要参与迁移过程的前景区域，从而限制跨域目标检测模型性能的提升。

尽管现有少数的无监督域自适应目标检测方法试图通过解耦出前景和背景区域来对齐前景区域特征，但是这些方法也尚未能深入考虑前景区域中类别层面上特征的对齐情况。如果只是以“类别未知”的方式来对齐源域和目标域的前景区域特征，那么极有可能造成前景区域中不同类别特征的错误对齐。由于前景区域的类别结构没有得到充分挖掘，因此极有可能造成前景区域中类别特征的负迁移，跨域目标检测模型的性能最终也只能达到次优状态。

发明内容

本发明的目的在于提供一种基于前景-类别感知对齐的域自适应目标检测方法及系统来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种基于前景-类别感知对齐的域自适应目标检测方法，其包括：

根据自适应目标检测场景需求，选取源域数据集和目标域数据集，其中，所述源域数据集中的源域图像均具有标签，目标域数据集中的目标域图像均无标签；

使用通过下面步骤获得的域自适应目标检测模型在所述目标域数据集对应的场景进行目标检测；

步骤1，选取目标检测器，并设置图像级域分类器和实例级域分类器，构建基准模型；

步骤2，根据所述基准模型，设置前景感知模块和类别感知模块，构建基于前景-类别感知对齐的域自适应目标检测模型；

步骤3，通过所述域自适应目标检测模型的损失函数，训练并获得所述域自适应目标检测模型，所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐，转向前景特征对齐，继而转向类别特征对齐。

进一步地，所述步骤2中设置前景感知模块的方法具体包括：

步骤2.1.1，通过前景注意单元中的区域分类器获取区域分类分数，并对原始特征图进行加权；

步骤2.1.2，通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的分类分数，并将所述多类别分类分数转化得到的概率分数

步骤2.1.3，根据所述概率分数

和源域图像标签转化得到的多类别标签d^k，建立所述前景感知模块的损失函数。

进一步地，使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督，当源域图像存在一个属于类别k的目标，则多类别标签中第k个类别标签d^k置为1，否则d^k置为0。

进一步地，所述步骤2.1.1具体包括：

步骤a1，将主干网络后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图，分别输入到区域分类器中，获得表示第l个前景注意单元中的区域分类器R_l(·)分别对第i张源域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

和对第j张目标域数据集中目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

其中，

表示第i张源域图像对应的第l个特征图

在(h,w)位置上的特征值，

表示第j张目标域图像对应的第l个特征图

在(h,w)位置上的特征值；

步骤a2，按照式(6-1)，将第i张源域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

以及按照式(6-2)，将第j张目标域数据集中目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

式中，S(·)表示sigmoid激活函数；

步骤a3，按照式(7-1)对源域原始特征值

进行重加权得到特征值

以及按照式(7-2)对目标域原始特征值

进行重加权得到特征值

最后输入到各自的图像级域分类器；

式中，

表示两个张量对应位置处的元素相乘。

进一步地，所述多类别分类分数包括式(9)描述的多分类分数图v的第k个通道的平均分类分数

和式(11)描述的原始分类分数

加权后第k个通道的加权分类分数

式中，

被描述为式(10)，

所述步骤2.1.2具体包括：

步骤b1，将主干网络最后1个卷积块输出且经过重加权的特征图，输入到类别引导注意单元中的多类别分类器C(·)，由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数，其中

表示由所述多分类分类器输出的所述多类别分类分数；

式中，

表示多分类分数图v的第k个通道在(h,w)位置上属于类别k的分类分数，K表示待检测目标类别的总数，k表示待检测目标类别的索引，取1至K，

表示v_h,w的通道数为K，

表示第i张源域图像对应的第3个重加权特征图

在(h,w)位置上的特征值

步骤b2，根据所述多类别分类分数和源域图像的标签获取

利用式(12)，获得第k个通道的概率分数

式中，S(·)表示sigmoid激活函数。

进一步地，所述步骤2中设置类别感知模块的方法具体包括：

步骤2.2.1，通过相似分数矩阵，确定源域特征向量和目标域特征向量两两之间的相似性；

步骤2.2.2，通过类别关系矩阵，确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系；

步骤2.2.3，根据每个源域特征向量类别感知的损失函数，建立类别感知模块的损失函数。

进一步地，所述步骤2.2.1中的所述相似分数矩阵

中的元素设置为源域和目标域特征向量之间的相似分数

的维度为n^s×n^t：

式中，

表示第i个源域特征向量

和第j个目标域特征向量

之间的相似分数，||·||₂表示欧氏距离；

所述步骤2.2.2中的所述类别关系矩阵

中的元素设置为源域和目标域特征向量之间的类别关系，

的维度为n^s×n^t，如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别相同，则B_ij＝1；如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别不同，则B_ij＝0。

本发明还提供一种基于前景-类别感知对齐的域自适应目标检测系统，其包括：

基准模型，其为前景感知模块和类别感知模块构建的载体，用于对齐源域和目标域的整体特征和候选区域特征；

前景感知模块，其用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐；

类别感知模块，其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。

进一步地，所述前景感知模块具体包括前景注意单元、类别引导注意单元，其中：

前景注意单元，其用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域，保证图像级域分类器着眼于前景区域特征的迁移过程；

类别引导注意单元，其用于纠正前景注意单元对前景区域的预测偏差，将前景注意单元的关注点从整体层面引导至前景区域。

本发明由于采取以上技术方案，其具有以下优点：

1.本发明提供的前景感知模块能够准确地判别出前景区域(即待检测目标，如汽车、行人等)和背景区域(如天空、建筑物等)，促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐，实现跨域目标检测流程的关注点从整体特征对齐到前景特征对齐的转变，有助于将跨域目标检测模型的性能提升到一个新的层次。

2.本发明提供的类别感知模块能够可靠地使两域不同的类别特征分离，两域相同的类别特征聚合，减小不同类别特征错误对齐的风险，通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声，实现跨域目标检测流程的关注点从前景特征对齐转到类别特征对齐的转变，在一定程度上提高了跨域目标检测模型的性能。

附图说明

图1为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测系统的架构图。

图2为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法的流程图。

图3为本发明实施例提供的前景感知模块中前景注意单元的原理图。

图4为本发明实施例提供的前景感知模块中类别引导注意单元的原理图。

图5为本发明实施例提供的类别感知模块的原理图。

图6为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨天气下的检测效果。

图7为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨摄像头下的检测效果。

图8为本发明实施例提供的基于前景-类别感知对齐的域自适应目标检测方法在跨复杂场景下的检测效果。

具体实施方式

在附图中，使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

如图1和图2所示，本发明实施例提供基于前景-类别感知对齐的域自适应目标检测方法包括：

步骤3，通过获取所述域自适应目标检测模型的损失函数，训练并获得所述域自适应目标检测模型(下文中的实验部分的符号记为“Ours”)，所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐，转向前景特征对齐，继而转向类别特征对齐。

本发明实施例通过设置前景感知模块，能够准确地判别出前景区域(即待检测目标，如汽车、行人等)和背景区域(如天空、建筑物等)，促使具有不同外观、不同风格、不同尺度的前景区域得到充分对齐，有助于将跨域目标检测模型的性能提升到一个新的层次。通过设置类别感知模块，能够将域自适应目标检测的对齐关注点，进一步地从前景特征对齐，转移到了类别特征对齐，能够可靠地使两域不同的类别特征分离，两域相同的类别特征聚合，减小不同类别特征错误对齐的风险，通过提高候选区域特征的可判别性来降低目标检测器在分类边界附近的预测噪声，在一定程度上提高了跨域目标检测模型的性能。

在一个实施例中，所述步骤1具体包括：

步骤1.1，选取目标检测器。

Faster R-CNN是深度学习时代里一种优秀的两阶段目标检测器，在域自适应目标检测研究中占据主导地位，本发明实施例选取Faster R-CNN作为目标检测器以做更进一步说明。

所述Faster R-CNN以VGG16为主干网络(Backbone)，首先通过主干网络中系列卷积层对输入图像进行特征提取，再使用区域生成网络(Region Proposal Network,RPN)生成可能包含目标的候选区域，最后通过感兴趣区域头部网络(Region of Interest Head,RoI Head)预测最终的分类结果和边界框回归结果。

公式(1)为目标检测器Faster R-CNN的损失函数

包括区域生成网络的损失函数

和感兴趣区域头部网络的损失函数

在步骤1.1中，所选取的目标检测器并不局限于Faster R-CNN，可以是其他具备与Faster R-CNN具有相似网络架构的两阶段目标检测器。此外，所采用的主干网络并不局限于VGG16，可以是其他具备特征提取功能的卷积神经网络。

步骤1.2，在目标检测器上设置图像级域分类器。

将主干网络(如：VGG16)后3个卷积块输出的特征图，分别通过梯度反转层输入到图像级域分类器中。所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反，实现图像级域分类器与目标检测器的对抗训练。所述图像级域分类器由系列卷积层组成，最终输出高度和宽度与输入相同、通道数为1的域分类分数图。

公式(2)为图像级域分类器的总损失函数

其中，l表示图像级域分类器的索引(取1、2、3)，

表示第l个图像级域分类器的损失函数。

公式(3)为第l个图像级域分类器的损失函数

其中，s表示源域，t表示目标域，D_l(·)表示第l个图像级域分类器，g表示输入图像级域分类器的特征图，N^s和N^t分别表示源域和目标域图像的总数，H^s和W^s分别表示输入图像级域分类器源域特征图的高度和宽度，H^t和W^t分别表示输入图像级域分类器目标域特征图的高度和宽度，i表示源域图像的索引(取1至N^s)，j表示目标域图像的索引(取1至N^t)，表示特征图高度方向的索引(对于源域，取1至H^s；对于目标域，取1至H^t)，W表示特征图宽度方向的索引(对于源域，取1至H^t；对于目标域，取1至W^t)，

表示第l个图像级域分类器对第i张源域图像对应的第l个特征图

在(h,w)位置上的域分类分数，

表示第l个图像级域分类器对第j张目标域图像对应的第l个特征图

在(h,w)位置上的域分类分数。

在上述步骤1.2中，第l个图像级域分类器的损失函数的计算形式并不一定如公式(3)所示的最小二乘方损失函数，可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。

步骤1.3，在目标检测器上设置实例级域分类器。

将经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量，分别通过梯度反转层输入到实例级域分类器中。

所述梯度反转层可以在神经网络反向传播过程中对梯度的符号取反，实现实例级域分类器与目标检测器的对抗训练。所述实例级域分类器由系列全连接层组成，最终输出维度为1的域分类分数。

公式(4)为实例级域分类器的损失函数

其中，s表示源域，t表示目标域，D_ins(·)表示实例级域分类器，r表示经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到特征向量，n^s和n^t分别表示源域和目标域特征向量的总数，i表示源域特征向量的索引(取1至n^s)，j表示目标域特征向量的索引(取1至n^t)，

表示第i个源域特征向量，

表示第j个目标域特征向量，

表示实例级域分类器对第i个源域特征向量

的域分类分数，

表示实例级域分类器对第j个目标域特征向量

的域分类分数。

在上述步骤1.3中，实例级域分类器的损失函数的计算形式并不一定如公式(4)所示的最小二乘方损失函数，可以是交叉熵损失函数、焦点损失(Focal Loss)函数等。

步骤1.4，获取基准模型的损失函数。

通过在目标检测器Faster R-CNN上构建图像级域分类器和实例级域分类器，形成基准模型。

公式(5)为基准模型的损失函数

包括目标检测器的损失函数

图像级域分类器的损失函数

和实例级域分类器的损失函数

组成，其中，λ₁和λ₂表示平衡系数。

在一个实施例中，所述步骤2具体包括：

步骤2.1，在基准模型上设置前景感知模块。

在对式(5)优化的过程中，目标检测器和图像级域分类器实现对抗训练。当训练到一定程度时，由目标检测器主干网络(如：VGG16)提取出来的源域和目标域特征图足够相似，以至于图像级域分类器区分不出特征图到底是来自于源域还是目标域，那么源域和目标域的整体特征得到了较好的对齐。然而，这种对齐方式属于“前景未知”，并没有对前景区域(即待检测目标，如汽车、行人等)和背景区域(如天空、建筑物等)加以区分，也就是说将前景和背景区域按照同等力度进行两域特征对齐。实际上，背景区域不应该和前景区域具有相同的迁移重要度，这是因为跨域目标检测流程真正应该关注的是具有不同外观、不同风格、不同尺度的前景区域。否则，存在跨域变化的前景区域特征没有得到足够关注而对齐不充分，无关紧要的背景区域却得到过分的对齐，这样极有可能损害跨域目标检测模型的性能。

为了将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐，步骤2.1可以通过如下子步骤实现：

步骤2.1.1，通过前景注意单元中的区域分类器获取区域分类分数，并对原始特征图进行加权。

在一个实施例中，为了确保输入图像级域分类器的特征图已经激活出前景区域并抑制了背景区域，使得图像级域分类器着眼于前景区域特征的迁移过程。3个图像级域分类器与各自位置之前的区域分类器配合发挥作用，沿着目标检测器的主干网络，将对齐焦点从整体层面逐渐转向前景区域。如图3所示，前景注意单元中的区域分类器由一个1×1卷积层构成，在保证与输入特征图高度和宽度一致的情况下，输出通道数为1的区域分类分数图，再将区域分类分数图转化为概率分数图，此概率分数图记录着特征图在每个像素位置上属于前景的概率分数。也就是说，所述步骤2.1.1具体包括：

步骤a1，先将主干网络(如：VGG16)后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图，分别输入到区域分类器中，获得表示第l个前景注意单元中的区域分类器对第i张源域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

和第l个前景注意单元中的区域分类器对第j张目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

其中，R_l(·)表示第l个前景注意单元中的区域分类器，

表示第i张源域图像对应的第l个特征图

在(h,w)位置上的特征值，

表示第j张目标域图像对应的第l个特征图

在(h,w)位置上的特征值；

步骤a2，按照式(6-1)，将第i张源域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

以及按照式(6-2)，将第j张目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

式中，S(·)表示sigmoid激活函数，例如，当输入为z时，其经过sigmoid激活函数后对应的输出为S(z)＝1/(1+exp(-z))。

步骤a3，如果某像素位置属于前景的概率分数越高，即

越大，那么该像素位置越有可能属于前景区域，对应位置处的特征值就被施加更大的权重，前景特征由此得到激活；反之，如果某像素位置属于前景的概率分数越低，即

越小，那么该像素位置越有可能属于背景区域，对应位置处的特征值就被施加更小的权重，背景特征由此得到抑制。那么，按照式(7-1)对源域原始特征值

重加权得到特征值

以及按照式(7-2)对目标域原始特征值

重加权得到特征值

最后输入到各自的图像级域分类器；

式中，

表示两个张量对应位置处的元素相乘，在

运算过程中，权重

采用了广播机制，其通道数由1自动扩展为

的通道数。

对于公式(7)，需要说明的是，除了这种加权方式外，也可以采用现有的其他对原始特征进行加权的方法。

其中，所述多类别分类分数包括多分类分数图v的第k个通道的平均分类分数

和将原始分类分数

加权后第k个通道的加权分类分数

为确保前景注意单元中的区域分类器能够准确地预测特征图在每个像素位置上属于前景的概率分数，将VGG16最后1个卷积块输出且经过重加权的特征图，输入到多类别分类器以获取多类别分类分数，再根据多类别分类分数和源域图像的标签，计算前景感知模块的损失函数。

相较于前景注意单元中只能用于区分前景和背景的区域分类器而言，类别引导注意单元中的多类别分类器可以进一步区分前景区域中的特定类别，如果目标检测流程上游的区域分类器对前景区域的辨别存在困难，那么目标检测流程下游的多类别分类器对前景区域中特定类别的判断也会存在偏差，这样前景感知模块的损失函数将会增大。

通过优化下游前景感知模块的损失函数，来及时纠正上游区域分类器在像素位置上对前景区域的预测偏差，从而将区域分类器的关注点从整体层面引导至前景区域。

如图4所示，类别引导注意单元中的多类别分类器由一个1×1卷积层构成，在保证与输入特征图高度和宽度一致的情况下，输出通道数为K的多分类分数图，此多分类分数图的第k个通道记录着特征图在每个像素位置上属于类别k的分类分数，其中K表示待检测目标类别的总数，k表示待检测目标类别的索引，取1至K。

由于只有源域图像具有标签，因此使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督。只要源域图像存在一个属于类别k的目标，那么多类别标签中第k个类别标签d^k则置为1，如果源域图像不存在k类目标，那么多类别标签中第k个类别标签d^k则置为0。简单起见，省略表示源域的角标s、表示源域图像索引的角标i，即使用

代替第i张源域图像对应的第3个重加权特征图

在(h,w)位置上的特征值

使用H代替重加权特征图

的高度H^s，使用W代替重加权特征图

的宽度W^s。

在一个实施例中，所述步骤2.1.2具体包括：

步骤b1，将主干网络(如：VGG16)最后1个卷积块输出且经过重加权的特征图，输入到多类别分类器，由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数，其中

表示由所述多类别分类器输出的所述多类别分类分数；

式中，C(·)表示类别引导注意单元中的多类别分类器，

表示v_h,w的通道数为K，

表示第i张源域图像对应的第3个重加权特征图

在(h,w)位置上的特征值

步骤b2，根据所述多类别分类分数和源域图像的标签获取

利用式(12)，将第k个通道的平均分类分数

和第k个通道的加权分类分数

相加，再经过sigmoid激活函数S(·)后，得到第k个通道的概率分数

式中，

表示多分类分数图v的第k个通道沿高度和宽度方向求和再取平均，计算第k个通道的平均分类分数，被描述为下式(9)。这种方式默认每个通道上所有像素位置分类分数的贡献度相当，从均衡的角度保留了全局的特征，但是这种特征只是借助平均分类分数来反映，难以把每个通道所代表特定类别的关键信息突显出来。

表示将多分类分数图v的第k个通道在(h,w)位置上属于类别k的概率分数

作为权重、对原始分类分数

加权后，再沿高度和宽度方向求和，得到的第k个通道的加权分类分数，被描述为式(11)。这种方式对每个通道上贡献度较大的特征加以突出强化，在沿高度和宽度方向求和后，保留了每个通道不同空间位置上的特征，这种特征可以突显对应通道所代表特定类别的关键信息，使得每个通道能够以所代表的特定类别去关注原始图像上前景区域中不同目标类别的位置。

其中的

被描述为式(10)，对多分类分数图v的第k个通道所有像素位置上的分类分数进行softmax处理，其中，

对于公式(11)，需要说明的是，除了这种加权方式外，也可以采用现有的其他对原始特征进行加权的方法。

在公式(12)中，将第k个通道的平均分类分数

和第k个通道的加权分类分数

相加，这相当于在每个通道所代表特定类别的平均信息的基础上附加上每个通道所代表特定类别的关键信息的特征，再经过sigmoid激活函数S(·)后，得到第k个通道的概率分数

即原始图像上存在属于类别k的待检测目标的可能性。

步骤2.1.3，根据

和源域图像标签转化得到的多类别标签d^k，建立由式(13)描述的所述前景感知模块的损失函数：

公式(13)为前景感知模块的损失函数，实际上是对每个通道上二分类交叉熵损失函数求和。如果源域图像不存在类别k的待检测目标，即d^k＝0，而前景感知模块中的多类别分类器却为之预测较高的分类分数，那么第k个通道的概率分数

较大，最终计算得到的前景感知模块的损失函数将会变大。

通过对前景感知模块的损失函数进行优化，前景感知模块中的类别引导注意单元能够尽力去关注原始图像上待检测目标类别及其空间位置信息，并适时地引导前景感知模块中的区域分类器对前景区域的判断。

步骤2.2，在基准模型上构建类别感知模块。

在对式(5)优化的过程中，目标检测器和实例级域分类器实现对抗训练。当训练到一定程度时，经过Faster R-CNN感兴趣区域对齐(RoI Align)层、两个全连接层得到的源域和目标域特征向量足够相似，以至于实例级域分类器区分不出特征向量到底是来自于源域还是目标域，那么源域和目标域的候选区域特征得到了较好的对齐。然而，由于候选区域不一定都包含有待检测目标，而且即使候选区域包含有待检测目标，其所对应的类别也不一定都相同，因此这种对齐方式属于“类别未知”，只能笼统地将两域的背景特征、不同待检测目标类别特征混淆在一起，这样极其容易造成不同类别特征的错误对齐。在跨域场景下往往需要对多种类别的目标进行检测，如果不同类别特征没有得到充分的分离，相同类别特征没有得到充分的聚合，那么候选区域特征的可判别性就无法充分显现，进而造成目标检测器的最终分类在决策边界附近存在预测噪声，跨域目标检测模型的性能也难以达到最优状态。

如图5所示，为了将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐，步骤2.2可以通过如下子步骤实现：

步骤2.2.1，通过相似分数矩阵，确定源域特征向量和目标域特征向量两两之间的相似性，这样可以减小两域同类特征向量的差异、增大两域异类特征向量的差异提供依据。

使用式(14)计算第i个源域特征向量

和第j个目标域特征向量

之间的相似分数

其中，||·||₂表示欧氏距离。构造相似分数矩阵

其维度为n^s×n^t，其中元素由源域和目标域特征向量之间的相似分数来填充。例如，相似分数矩阵

的第i行、第j列的元素为第i个源域特征向量

和第j个目标域特征向量

之间的相似分数，即

步骤2.2.1中，除了可以使用公式(14)计算两域特征向量之间的相似性分数外，还可以采用其他能够获取两特征向量之间相似性的度量方式，如余弦相似性等。

步骤2.2.2，通过类别关系矩阵，确定源域特征向量和目标域特征向量两两之间为相同类别或者不同类别的关系，以便于后续筛选出与源域特征向量为相同类别的目标域特征向量，并计算类别感知模块的损失函数。

使用c表示目标检测器为特征向量预测的类别，c∈{0,1,2,…,K}，其中，0表示背景类别，1至K表示待检测目标类别的索引，那么第i个源域特征向量

对应的预测类别表示为

第j个目标域特征向量

对应的预测类别表示为

构造类别关系矩阵

其维度为n^s×n^t，其中元素由源域和目标域特征向量之间的类别关系来填充。例如，如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别相同，即

那么类别关系矩阵

的第i行、第j列的元素置为1，即B_ij＝1；如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别不同，即

那么类别关系矩阵

的第i行、第j列的元素置为0，即R_ij＝0。

步骤2.2.3，每个源域特征向量类别感知的损失函数

建立被描述为式(16)的类别感知模块的损失函数

对于第i个源域特征向量

存在若干个与其为相同类别的目标域特征向量，同时也存在若干个与其为不同类别的目标域特征向量。将与第i个源域特征向量

为相同类别的目标域特征向量的总数表示为

将与第i个源域特征向量

为不同类别的目标域特征向量的总数表示为

有

为了保证不同类别特征的充分分离、相同类别特征的充分聚合，使用公式(15)来减小第i个源域特征向量

和与之为相同类别的目标域特征向量之间的差异，增大第i个源域特征向量

和与之为不同类别的目标域特征向量之间的差异，其中，

表示第i个源域特征向量

类别感知的损失函数。

在对

的优化过程中，通过提高第i个源域特征向量

和与之为相同类别的目标域特征向量之间的相似分数来聚合两域相同类别的特征向量，通过降低第i个源域特征向量

和与之为不同类别的目标域特征向量之间的相似分数来分离两域不同类别的特征向量，从而保证源域和目标域候选区域特征在类别层面得到较好的对齐。

由于相似分数矩阵

的维度为n^s×n^t，而公式(15)只对第i个源域特征向量

计算类别感知地损失函数，因此公式(16)通过对每个源域特征向量类别感知的损失函数求和再取平均，得到类别感知模块的损失函数

第i个源域特征向量

类别感知的损失函数的计算形式除了如公式(15)之外，还可以是其他能够提高相同类别样本的相似性、降低不同类别样本的相似性的损失函数，如信息熵等。

在一个实施例中，所述步骤3具体包括：

步骤3.1，获取基于前景-类别感知对齐的域自适应目标检测模型的损失函数。

通过在基准模型上构建前景感知模块、类别感知模块，形成基于前景-类别感知对齐的域自适应目标检测模型。基于前景-类别感知对齐的域自适应目标检测模型的损失函数

由基准模型的损失函数

前景感知模块的损失函数

和类别感知模块的损失函数

组成。

公式(17)为基于前景-类别感知对齐的域自适应目标检测模型的损失函数

其中，λ₁、λ₂、λ₃和λ₄为平衡系数。

公式(17)中λ₁、λ₂、λ₃和λ₄的取值，优化过程中的初始学习率以及学习率衰减策略，应根据实际需要进行调整。此外，公式(17)的优化算法不一定采用小批量随机梯度下降算法，可以是Adam优化算法等。

步骤3.2，训练基于前景-类别感知对齐的域自适应目标检测模型。实验环境如表1所示。在Ubuntu16.04操作环境下，使用Python编程语言、PyTorch深度学习框架来构建基于前景-类别感知对齐的域自适应目标检测模型。此外，还使用2个Tesla V100 SXM2 16GB的GPU来加速模型训练。

采用小批量随机梯度下降(mini-batch SGD)优化算法对基于前景-类别感知对齐的域自适应目标检测模型进行训练，训练的epoch总数为10，批量大小为2(包括1张源域图像和1张目标域图像)，初始学习率为1e-3，动量参数为0.9，权重衰减参数为5e-4。训练6个epoch后，学习率衰减为原来的0.1倍。为确保训练稳定，在训练4个epoch后再引入类别感知模块的损失函数。公式(17)中所有平衡系数λ₁、λ₂、λ₃和λ₄都设置为1，使用IoU阈值为0.5的平均查准率(Average Precision,AP)和平均查准率均值(mean Average Precision,mAP)来评估模型在目标域上的检测性能。

如无特别说明，“Source-only”表示直接在源域上训练的Faster R-CNN模型，即未经过任何域自适应的模型；“Baseline”表示本实施例步骤1提供的基准模型；“Ours”表示在基准模型上同时构建前景感知模块和类别感知模块的模型，即基于前景-类别感知对齐的域自适应目标检测模型；“Oracle”表示直接在目标域上训练的Faster R-CNN模型。

(1)跨天气自适应

使用Cityscapes和Foggy Cityscapes数据集来考察基于前景-类别感知对齐的域自适应目标检测模型从晴天条件到雾天条件的性能变化情况。其中，将Cityscapes数据集作为具有标签数据的源域，将Foggy Cityscapes数据集作为没有标签数据的目标域。表1示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。

表1

表1上半部分为近年来计算机视觉顶会(CVPR、ICCV、ECCV)相关文章所提方法的AP和mAP数据。表1下半部分为本发明提供的一种基于前景-类别感知对齐的域自适应目标检测方法的消融实验数据。由表1可知，相较于Baseline，Ours的mAP取得进一步提升，接近于Oracle的mAP，并与近年来计算机视觉顶会相关文章所提方法的性能相当。图6示出Source-only和Ours在跨天气下的检测效果，可以看出Ours在雾天条件下能够纠正Source-only中误检为目标问题，并且能够更加鲁棒地检测出远处为浓雾所遮挡的小目标。

(2)跨摄像头自适应

使用Cityscapes和KITTI数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对不同摄像头配置(如角度、质量、类型等)的性能变化情况。其中，将Cityscapes数据集作为具有标签数据的源域，将KITTI数据集作为没有标签数据的目标域。为保证两数据集的待检测目标类别种类相同且命名统一，对KITTI数据集的类别标签进行处理，将Car类和Van类合并成Car类，将Pedestrian类和Person sitting类合并成Person类，将Tram类更名为Train类，将Cyclist类更名为Rider类，表2示出Person、Rider、Car、Truck、Train的AP值以及对所有类别求得的mAP值。

表2

由表2可知，Ours的mAP优于Baseline，甚至超过了近年来计算机视觉顶会相关文章所提方法，这证明了前景感知模块和类别感知模块单独作用和联合作用的有效性。图7示出Source-only和Ours在跨摄像头下的检测效果，可以看出Ours对一些存在较大尺度变化的目标保持有较高的定位能力。

(3)跨复杂场景自适应

使用Cityscapes和BDD100k的“daytime”子数据集来考察基于前景-类别感知对齐的域自适应目标检测模型面对存在复杂场景(如天气变化、光照变化等)的性能变化情况。其中，将Cityscapes数据集作为具有标签数据的源域，将BDD100k的“daytime”子数据集作为没有标签数据的目标域。表3示出两数据集共有的8种类别Person、Rider、Car、Truck、Bus、Train、Motorcycle、Bicycle的AP值以及对所有类别求得的mAP值。由于近年来计算机视觉顶会相关文章未对Train类进行对比，因此本发明同样遵循不对比Train类的准则。

表3

由表3可知，Ours的mAP相对于Baseline取得了提升，还优于近年来计算机视觉顶会相关文章所提方法。图8示出Source-only和Ours在跨复杂场景下的检测效果，可以看出Ours在更加复杂的跨域场景下不仅降低了检测过程中假阳性的数量，而且提高了检测过程中真阳性的数量。

如图1和图2所示，本发明实施例还提供一种基于前景-类别感知对齐的域自适应目标检测系统，其包括基准模型、前景感知模块和类别感知模块，其中：

基准模型为前景感知模块和类别感知模块构建的载体，用于对齐源域和目标域的整体特征和候选区域特征；

前景感知模块用于将跨域目标检测流程的关注点从整体特征对齐转向前景特征对齐；

类别感知模块用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐。

在一个实施例中，所述基准模型具体包括目标检测器、图像级域分类器和实例级域分类器，其中：

目标检测器包括主干网络、区域生成网络、感兴趣区域头部网络，用于预测输入图像上目标的位置、类别、概率。

图像级域分类器通过梯度反转层与目标检测器形成对抗训练的关系，用于对齐源域和目标域的整体特征。

实例级域分类器通过梯度反转层与目标检测器形成对抗训练的关系，用于对齐源域和目标域的候选区域特征。

在一个实施例中，所述前景感知模块具体包括前景注意单元和类别引导注意单元，其中：

前景注意单元用于激活原始特征图中的前景区域并抑制原始特征图中的背景区域，保证图像级域分类器着眼于前景区域特征的迁移过程。

类别引导注意单元用于纠正前景注意单元对前景区域的预测偏差，将前景注意单元的关注点从整体层面引导至前景区域。

本发明通过在基准模型上构建前景感知模块和类别感知模块，沿着跨域目标检测流程，将域对齐的关注点从整体特征转向前景特征，进而转向类别特征，能够挖掘出真正需要参与迁移过程的前景区域甚至是其中的类别结构，在天气条件、摄像头配置、复杂场景变化的情况下具备一定的跨域检测鲁棒性。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于前景-类别感知对齐的域自适应目标检测方法，其特征在于，包括：

步骤3，通过所述域自适应目标检测模型的损失函数，训练并获得所述域自适应目标检测模型，所述域自适应目标检测模型用于将跨域目标检测流程的关注点从整体特征对齐，转向前景特征对齐，继而转向类别特征对齐；

其中，所述步骤2中设置前景感知模块的方法具体包括：

步骤2.1.1，通过前景注意单元中的区域分类器获取第l个前景注意单元中的区域分类器R_l(·)分别对第i张源域图像对应的第l个特征图f_i ^s,l在(h,w)位置上的区域分类分数

和对第j张目标域数据集中目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

并对原始特征图进行加权；其中，

表示第i张源域图像对应的第l个特征图f_i ^s,l在(h,w)位置上的特征值，

表示第j张目标域图像对应的第l个特征图

在(h,w)位置上的特征值，

步骤2.1.2，通过类别引导注意单元中的多类别分类器获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数，并将所述多类别分类分数转化得到概率分数

由式(8)获取多分类分数图v在(h,w)位置上属于类别k的多类别分类分数

式中，

表示v_h,w的通道数为K，

表示第i张源域图像对应的第3个重加权特征图

在(h,w)位置上的特征值

步骤2.1.3，根据所述概率分数

和源域图像标签转化得到的多类别标签d^k，建立所述前景感知模块的损失函数；

所述步骤2中设置类别感知模块的方法具体包括：

步骤2.2.3，根据每个源域特征向量类别感知的损失函数，建立类别感知模块的损失函数；

所述步骤2.2.1中的所述相似分数矩阵

中的元素设置为源域和目标域特征向量之间的相似分数

的维度为n^s×n^t：

式中，

表示第i个源域特征向量

和第j个目标域特征向量

之间的相似分数，||·||₂表示欧氏距离；

所述步骤2.2.2中的所述类别关系矩阵

中的元素设置为源域和目标域特征向量之间的类别关系，

的维度为n^s×n^t，如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别相同，则B_ij＝1；如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别不同，则B_ij＝0。

2.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法，其特征在于，使用由源域图像的标签转化得到的多类别标签来对多类别分类器的分类分数进行监督，当源域图像存在一个属于类别k的目标，则多类别标签中第k个类别标签d^k置为1，否则d^k置为0。

3.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法，其特征在于，所述步骤2.1.1具体包括：

步骤a1，将主干网络后3个卷积块输出且还未输入到图像级域分类器的源域特征图和目标域特征图，分别输入到区域分类器中，获得区域分类分数

和区域分类分数

步骤a2，按照式(6-1)，将第i张源域图像对应的第l个特征图f_i ^s,l在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

在(h,w)位置上的区域分类分数

转化为在(h,w)位置上属于前景的概率分数

式中，S(·)表示sigmoid激活函数；

步骤a3，按照式(7-1)对源域原始特征值

进行重加权得到特征值

以及按照式(7-2)对目标域原始特征值

进行重加权得到特征值

最后输入到各自的图像级域分类器；

式中，

表示两个张量对应位置处的元素相乘。

4.如权利要求1所述的基于前景-类别感知对齐的域自适应目标检测方法，其特征在于，所述多类别分类分数包括式(9)描述的多分类分数图v的第k个通道的平均分类分数

和式(11)描述的原始分类分数

加权后第k个通道的加权分类分数

式中，

被描述为式(10)，

所述步骤2.1.2具体包括：

步骤b1，将主干网络最后1个卷积块输出且经过重加权的特征图，输入到类别引导注意单元中的多类别分类器C(·)，由所述多类别分类器输出的所述多类别分类分数；

步骤b2，根据所述多类别分类分数和源域图像的标签获取

利用式(12)，获得第k个通道的概率分数

式中，S(·)表示sigmoid激活函数。

5.一种基于前景-类别感知对齐的域自适应目标检测系统，其特征在于，包括：

类别感知模块，其用于将跨域目标检测流程的关注点从前景特征对齐转向类别特征对齐；

设置前景感知模块的方法具体包括：

和对第j张目标域数据集中目标域图像对应的第l个特征图

在(h,w)位置上的区域分类分数

并对原始特征图进行加权；其中，

表示第j张目标域图像对应的第l个特征图

在(h,w)位置上的特征值，

式中，

表示v_h,w的通道数为K，

表示第i张源域图像对应的第3个重加权特征图

在(h,w)位置上的特征值

步骤2.1.3，根据所述概率分数

设置类别感知模块的方法具体包括：

所述步骤2.2.1中的所述相似分数矩阵

中的元素设置为源域和目标域特征向量之间的相似分数

的维度为n^s×n^t：

式中，

表示第i个源域特征向量

和第j个目标域特征向量

之间的相似分数，||·||₂表示欧氏距离；

所述步骤2.2.2中的所述类别关系矩阵

中的元素设置为源域和目标域特征向量之间的类别关系，

的维度为n^s×n^t，如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别相同，则B_ij＝1；如果第i个源域特征向量

对应的预测类别与第j个目标域特征向量

对应的预测类别不同，则B_ij＝0。

6.如权利要求5所述的基于前景-类别感知对齐的域自适应目标检测系统，其特征在于，所述前景感知模块具体包括前景注意单元、类别引导注意单元，其中：