CN113392933B

CN113392933B - 一种基于不确定性引导的自适应跨域目标检测方法

Info

Publication number: CN113392933B
Application number: CN202110764822.7A
Authority: CN
Inventors: 蔡敏捷; 罗敏怡
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2022-04-15
Anticipated expiration: 2041-07-06
Also published as: CN113392933A

Abstract

本发明公开了一种基于不确定性引导的自适应跨域目标检测方法，属于图像处理以及目标检测技术领域，包括以下步骤：S1.目标检测模型的预训练；S2.针对目标域数据的随机前向预测；S3.计算目标检测每个实例的平均类别概率、位置以及对应的不确定性；S4.图像伪标签的选择；S5.不确定性引导的模型自训练。本发明的基于不确定性引导的自适应目标检测方法，基于无监督领域自适应的框架，与现有技术不同的是本发明明确考虑了目标检测模型的不确定性，提出了一个不确定性感知伪标签选择算法，并基于得到的伪标签来进行模型自训练的新方法。基于本发明提出的方法，能够极大地提高目标检测模型的通用性能。

Description

一种基于不确定性引导的自适应跨域目标检测方法

技术领域

本发明属于图像处理以及目标检测技术领域，涉及一种基于不确定性引导的自适应跨域目标检测方法。

背景技术

目标检测是计算机视觉中的一个热门问题，随着新的深层神经网络的应用，如Faster R-CNN和YOLO，研究者提出了基于大量标注数据的目标检测器，其性能有了很大的提升。然而，在实际应用中，由于不同领域的分布差异，在新的不可见场景(领域)中部署一个预先训练好的目标检测器仍然是一个较大的挑战。

现有的跨域目标检测方法主要通过对抗学习的方式来学习域不变特征，从而对齐两个域输入的边缘分布。但这种方法有一定的局限性，当输入和输出的联合分布不一致时，即使两个域的图像特征很好对齐，目标域中的对象也可能在源域中被检测为不正确的类别。为了使输出和输入的分布保持一致，域自适应的另一种策略是自训练，它将一个预先训练模型对目标域数据的预测视为重新训练模型的伪标签，然而，模型重训练过程中噪声伪标签增加了自训练的难度，且两个域之间的分布差异会进一步增加自训练分配错误伪标签的风险。

发明内容

本发明的目的在于提供一种基于不确定性引导的跨域目标检测方法，该基于不确定性引导的自适应目标检测方法能够极大地提高目标检测模型的通用性能。

为了达到上述目的，本发明提供以下技术方案：

本发明提供一种基于不确定性引导的自适应跨域目标检测方法，包括以下步骤：

S1.目标检测模型的预训练：使用带标签的源域的训练数据、不带标签的目标域的训练数据，对目标检测模型进行训练和跨域的特征对齐；

S2.针对目标域数据的随机前向预测：使用目标检测模型对目标域数据进行多次随机前向预测；

S3.计算目标检测每个实例的平均类别概率、位置，以及平均类别概率、位置对应的不确定性，得到每个候选框的类别不确定性和位置不确定性；

S4.图像伪标签的选择：利用不确定性感知的伪标签选择算法，将图像选取部分实例预测结果作为伪标签，并作为步骤S5中模型自训练的伪标签；

S5.不确定性引导的模型自训练：基于步骤S3所得结果，以及步骤S4所得伪标签，对图像目标检测模型进行自训练，更新模型参数，使得模型更加适用于目标域数据。

优选的，步骤S1中，所述目标检测模型为带有丢弃正则化(Dropout正则化)的全卷积神经网络；所述跨域的特征对齐基于对抗思想，使用梯度反转层将源域的训练数据与目标域的训练数据在特征空间进行对齐。

优选的，步骤S2中，所述随机前向预测即在模型预测时开启dropout功能(开启dropout功能：相当于随机关闭一些神经元的作用)，使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到，不需要人为干预)，从而得到不同的预测结果，模型的直接预测结果是目标检测实例类别概率和位置。

优选的，步骤S3中，具体步骤如下：

给定一个候选框b，基于步骤S2得到的多次预测结果，可以利用下式计算它的平均类别概率

和位置

T代表步骤S2中的随机前向预测的次数，t是次数的索引，θ_t是使用dropout对预训练模型θ进行采样得到的模型参数；C_cls，C_reg分别代表模型的分类(类别)和回归(位置)模块；

采用基于贝叶斯神经网络的不确定性估计方法，得到类别的不确定性uc和位置的不确定性u_l；

其中，g_t∈Rⁿ是分类模块C_cls的一个关于类别的n维预测输出，

是g_t的转置向量，l_t＝(u，v，w，h)是回归模块C_reg的一个关于实例边界框中心坐标(u，v)及其宽度和高度(w，h)的四维预测输出，

是l_t的转置向量。

优选的，步骤S4中，利用不确定性感知的伪标签选择算法，为图像选取部分实例预测结果作为伪标签

并作为下一步模型自训练的伪标签；

优选的，步骤S5中，具体步骤如下：

基于步骤S3和步骤S4得到的平均类别预测

位置预测

不确定性uc，ul和伪标签

利用公式(7)对模型进行自训练，从而达到更新模型参数的目的，使得模型更加适用于目标域的数据；

公式(7)中第一项为带标签的源域图像的训练损失，第二项为带伪标签的目标域图像的训练损失，具体计算方式如公式(8)所以；

式(8)中，

是目标检测实例级的分类和回归损失，p_i是模型对候选框生成网络(RPN)生成

的最终预测结果，

是其对应的伪标签，

则是伪标签的不确定性感知权重，由类别不确定性u_c和位置不确定性u_l按公式(9)计算得到；

所述图像目标检测模型为Faster R-CNN全卷积神经网络模型，使用的损失函数是交叉熵函数(分类损失)和平滑L1范式(回归损失)。

与现有技术相比，本发明具有以下优点：

本发明的基于不确定性引导的自适应目标检测方法，基于无监督领域自适应的框架，与现有技术不同的是本发明明确考虑了目标检测模型的不确定性，提出了一个不确定性感知伪标签选择算法，并基于得到的伪标签来进行模型自训练的新方法。基于本发明提出的方法，能够极大地提高目标检测模型的通用性能。

附图说明

图1是本发明基于不确定性引导的自适应跨域目标检测方法的总体流程示意图。

图2是本发明方法的流程图。

具体实施方式

下面结合具体实施例和附图对本发明进行进一步说明：

实施例1

任务定义

假设有一个预先在源域

上训练好的目标检测器M，其中，x表示源域图像，Y＝{y_i}是一组带标记的对象实例，每个实例都包含一个类标签y_c和一个位置标签y_l＝(u，v，w，h)，位置标签y_l表示对象边界框的中心坐标以及它的宽度和高度。

本发明的任务是使预训练的检测器M适应新的目标

而无需新注释的对象实例。

本发明一种基于不确定性引导的跨域目标检测方法，采用了以下算法：

(1)跨域特征对齐；

文献Yuhua Chen，Wen Li，Christos Sakaridis，Dengxin Dai，and Luc VanGool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR)，2018.中提出了一种跨域特征对齐方法，通过使用图像级自适应组件和实例级自适应组件，以缓解域偏移带来的性能下降。这两个域自适应组件基于H-散度理论，通过对抗训练的方式学习一个域分类器来实现。同时，该文献还进一步应用一致性正则化方法学习域不变的RPN。

本发明在训练基线模型时，构造了图像级和实例级的域分类器，以对齐源域和目标域之间的特征分布。给定源域图像x_s和目标域图像x_t，图像级和实例级特征对齐损失由以下公式表示：

其中ROI()表示ROI池化操作，b^gt表示真实的对象建议框，b^rpn表示RPN网络生成的对象建议框。

本发明还对两个层级域的分类器进行了一致性正则化：

其中，

表示整个特征图F(x)中激活值的平均值，||·||₂表示L2距离，为简单起见，b表示源域图像的b^gt和目标域图像的b^rpn。

(2)基于贝叶斯神经网络的不确定性估计方法；

在贝叶斯神经网络中，其模型参数是随机变量，而非确定的值，参数θ的后验分布p(θ|D)通过贝叶斯定理来定义。利用变分(variational)的方法，使用一个由一组参数θ控制的分布q(θ)去逼近真正的后验p(θ|D)，求后验分布的问题就转化成了求最好的θ的优化问题，这个过程可以通过最小化两个分布的Kullback-Leibler(KL)散度实现。文献Y.Gal andZ Ghahramani.Dropout as a bayesian approximation：Representing modeluncertainty in deep learning.In international conference on machine leaming(ICML)，pages 1050-1059，2016.通过使用在深度学习中得到广泛的应用的随机正则化工具dropout来构造q(θ)，这种估计方法可以使带dropout的卷积神经网络在不改变模型的情况下转换为贝叶斯神经网络。

在测试阶段，可以使用从q(θ)采样的网络参数并通过多次随机前向传递，得到新的输入x下输出y的预测分布：

其中T是随机向前传递的次数，

是使用dropout采样的参数集合。

现在，描述如何基于贝叶斯深度学习技术估计用于目标检测模型的不确定性。假设目标图像的RPN中的一个候选边界框(或对象实例)为b，分类模块C_cls的一个关于类别的基于softmax的n维预测输出为g_t∈Rⁿ，回归模块C_reg的一个关于实例边界框中心坐标及其宽度和高度的四维预测输出预测为l_t＝(u，v，w，h)，b的平均类别概率和位置为：

θ_t～dropout(θ)

候选边界框b的类别的不确定性(u_c)和位置的不确定性(u_l)利用下式计算得到；

(3)不确定性感知伪标签选择；

在跨域目标检测领域，已有的自训练方法的伪标签选择策略是：用非极大值抑制(NMS)去除冗余重叠边界框后，选择具有固定检测分数阈值的子集作为伪标签。这种方法有两个缺点，首先，检测分数相对较高(不是最高)的真实对象实例可能会被错误删除；其次，在不考虑模型不确定性的情况下，如果选择了带噪声的伪标签，将会导致模型在自训练的过程中逐渐出现偏移的情况。为了解决上述问题，我们在伪标签选择中明确地考虑了模型的不确定性，并将其与NMS的一种更柔和的方式进行结合，方法如下：

给定一组预测的边界框

我们方法的核心是计算每个边界框的选择得分

并根据得分选择选择一个子集

作为自训练的伪标签。

用检测器分类模块基于softmax输出的最大分数对选择得分进行初始化。选择得分的计算是在一个迭代过程中进行的，在每次迭代中，我们首先选择得分最大的边界框b_m，其对应选择得分为s_m，然后，计算高于重叠阈值τ₁的边界框的重叠惩罚，而不是像在标准的NMS中那样直接地丢弃它们。重叠惩罚可由下式计算得到：

其中，IOU()表示两个边界框之间交集和并集的比值(简称交并比)。

考虑到模型不确定性，边界框b_i的选择得分更新为：

其中，σ_i是一个衰减因子，用于更快速地降低不确定样本的选择得分，在每次迭代时，只更新b_m及其相邻边界框的选择得分，σ_i由模型的类别不确定性uc和位置不确定性u_l根据下式计算得到：

u_i＝u_c+u_l

在每次迭代之后，边界框b_m及其对应的选择得分s_m被放入到伪标签子集

选择得分小于阈值τ₂的相邻边界框被丢弃。当B为空时，迭代将终止。最后，从

中按照选择得分的高低，选择得分在前K的边界框作为自训练的伪标签。

(4)不确定性引导的模型自训练；

自训练最初作为一种半监督学习方法被提出，而最近被当作一种简单的可应用于无监督领域自适应问题的策略。自训练从在标记的源域数据D_S上预先训练的基线模型开始，接着将该模型在未标记的目标域数据D_T上的预测结果作为伪标签，然后用这些伪标签与D_S重新训练模型，自训练的损失函数公式如下：

其中，

是目标域以

为标签的检测损失，其形式与源域检测损失

相同。

以上方法在使用伪标签

时，直接让所有伪标签拥有相同的权重参与自训练。

然而，这样会导致所选样本的差异及其对训练的相对影响被忽略。为了使自训练有选择地聚焦于模型可信度更高的样本，本发明根据估计的不确定度施加样本权重。对带有伪标签的目标数据的加权检测损失定义为：

其中，

是目标检测实例级的分类和回归损失，p_i是模型对候选框生成网络(RPN)生成的

的最终预测结果，

是其对应的伪标签，

则是伪标签的不确定性感知权重，由类别不确定性u_c和位置不确定性u_l按公式三计算得到；

不确定性引导的模型自训练的损失函数定义为：

需要强调的是，本发明的主要创新点在于将模型的不确定性引入目标检测的的领域自适应，以及如何基于不确定性对模型自训练过程进行引导和控制的算法。

实施例2

如图1～2所示，本发明提供一种基于不确定性引导的跨域目标检测方法，包括以下步骤：

步骤1：目标检测模型的预训练；

首先使用带标签的源域的训练数据(训练数据是公开数据集上面的数据)和不带标签的目标域训练数据(标签就是人工提供的图像实例的边界框，用来训练目标检测模型。但是标签要耗费大量人工来手动生成，而没有标签参与模型的训练，模型在目标域的性能就会大大降低。所以本发明的主要作用就是将只提供源域标签进行训练的模型自适应到没有标签的目标域数据中)对图像目标检测模型进行预训练。这里的图像模型可以是任意带有Dropout正则化(即Dropout Regularization，丢弃正则化)的全卷积神经网络，进行特征对齐的模型为二元分类的全卷积神经网络。训练模型使用的损失函数是交叉熵函数(分类损失)、平滑L1范式(回归损失)、图像级/实例级特征对齐损失和及一致性正则化(特征对齐损失)；

需要注意的是，步骤1在本发明中只需要执行一次，而步骤2～5是一个迭代过程；

步骤2：针对目标域数据的随机前向预测；

使用图像目标检测的模型对无标签的目标域数据进行多次随机前向预测，所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能：相当于随机关闭一些神经元的作用)，使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到，不需要人为干预)，从而得到不同的预测结果；

步骤3：计算目标检测每个实例的平均类别概率和位置以及对应的不确定性；

给定一个候选框b，基于步骤2得到的多次预测结果，可以利用下式计算它的平均类别概率和位置以及对应的类别的不确定性(u_c)和位置的不确定性(u_l)；

步骤4：图像伪标签的选择；

基于步骤3，可以得到每个候选框的类别不确定性和位置不确定性，利用我们的不确定性感知的伪标签选择算法，为图像选取选择得分在前20的边界框

并作为下一步模型自训练的伪标签；

步骤5：不确定性引导的模型自训练；

基于步骤3和步骤4得到的平均类别预测

位置预测

不确定性u_c，u_l和伪标签

利用公式1对模型进行自训练，从而达到更新模型参数的目的，使得模型更加适用于目标域的数据。

步骤1在本实施例中只需要执行一次，而步骤2～步骤5是一个迭代过程，迭代的停止条件是使得模型更加适用于目标域数据。

实验结果

1、数据集

为了评估本方法的有效性，下面基于多个公共数据集上进行实验，以评估跨域目标检测的不同方面的性能。

Cityscapes：一个真实世界的数据集，通过车载摄像头捕获图像，用于语义城市场景理解，由2975张训练集图像和500张验证集图像组成，带有像素级类别标注。在实验中，我们在分割掩码图上，围绕实例画出最紧的边界框作为实例级标签。参见文献：MariusCordts，Mohamed Omran，Sebastian Ramos，Timo

Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，andBernt Schiele.The cityscapes dataset for semantic urban sceneunderstanding.In Internaltional Conference on Computer Vision and PatternRecogintion(CVPR)，2016。

Foggy Cityscapes：是Cityscapes数据集的带雾版本，它模拟了三个级别的带雾天气。训练集与验证的分割和注释与Cityscapes数据集中一致。参见文献：ChristosSakaridis，Dengxin Dai，and Luc Van Gool.Semantic foggy scene understandingwith synthetic data.In IJCV，2018。

SIM10k：是一个从电脑游戏中收集的合成数据集，包含10000张图片和58701个关于汽车实例的标注。参见文献：Matthew Johnson-Roberson，Charles Barto，RounakMehta，Sharath Nittur Sridhar，Karl Rosaen，and Ram Vasudevan.Driving in thematrix：Can virtual worlds replace humangenerated annotations for real worldtasks？In ICRA.2017。

KITTI数据集：是自动驾驶领域的真实数据集，由7481张带实例级标注的图像组成。参见文献：Andreas Geiger，Philip Lenz，Christoph Stiller，and RaquelUrtasun.Vision meets robotics：The kitti dataset.The International Journal ofRobotics Research，32(11)：1231-1237，2013。

BDD100k数据集：是一个包含100k注释图像的大型驾驶视频数据集。采用文献Changdong Xu，Xingran Zhao，Xin Jin，and Xiushen Wei.Exploring categoricalregularization for domain adaptive object detection.In IntemaltionalConference on Computer Vision and Pattern Recogintion(CVPR)，2020.中的数据集使用策略，我们也使用数据集的日间子集，包括36728张训练图像和5258张验证图像。参见文献：Fisher Yu，Wenqi Xian，Yingying Chen，Fangchen Liu，Mike Liao，VashishtMadhavan，and Trevor Darrell.Bdd100k：A diverse driving video database withscalable annotation tooling.arXiv preprint，page arXiv：1805.04687，2018.

与文献Yuhua Chen，Wen Li，Christos Sakaridis，Dengxin Dai，and Luc VanGool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR)，2018.相同，我们也使用阈值为0.5的平均精度(mAP)作为评估指标。

2、性能比较

我们比较了我们的基线模型和完整模型与Faster-RCNN以及近期最先进的方法如下：

DA Faster[Yuhua Chen，Wen Li，Christos Sakaridis，Dengxin Dai，and LucVan Gool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR)，2018]：跨域目标检测的先驱工作，基于Faster R-CNN，学习图像和实例级别的对抗性领域分类器。

Noisy Labeling[Mehran Khodabandeh，Arash Vahdat，Mani Ranjbar,and

William G.Macready.A robust learning approach to domain adaptiveobject detection.in IEEE International Conference on Computer Vision(ICCV)，2019]：一种带噪声标签进行鲁棒性学习的域自适应学习方法。

SWDA[Kuniaki Saito，Yoshitaka Ushiku，Tatsuya Harada，and KateSaenko.Strong-weak distribution alignment for adaptive object detection.InInternaltional Conference on Computer Vision and Pattern Recogintion(CVPR)，2019]：一种图像强局部对齐和弱全局对齐的自适应目标检测方法。

ICR-CCR[Changdong Xu，Xingran Zhao，Xin Jin，and Xiushen Wei.Exploringcategorical regularization for domain adaptive object detection.InInternaltional Conference on Computer Vision and Pattern Recogintion(CVPR)，2020]：基于SWDA的类别正则化框架。

GPA[Minghao Xu，Hang Wang，Bingbing Ni，Qi Tian，and Wenjun Zhang.Cross-domain detection via graph-induced prototype alignment.In InternaltionalConference on Computer Vision and Pattern Recogintion(CVPR)，2020]：基于原型表示的类别级域对齐的图引导原型对齐框架。

CT[Ganlong Zhao，Guanbin Li，Ruijia Xu，and Liang Lin.Collaborativetraining between region proposal localization and classification for domainadaptive object detection.In European Conference on Computer Vision(ECCV)，2020]：一种协同训练的候选框定位与分类方法。

MEAA[Dang-Khoa Nguyen，Wei-Lun Tseng，and Hong-Han Shuai.Domain-adaptive object detection via uncertainty-aware distribution alignment.In The28th ACM International Conference on Multimedia，2020]：基于多级熵注意对齐域自适应目标检测方法。

(1)不同天气自适应结果对比

表1不同方法在Citysacpes→Foggy Cityscapes的定量性能比较

(2)合成到实际场景自适应的结果对比

表2不同方法在SIM10K→Cityscapes的定量性能比较

(3)不同实际场景自适应的结果对比

表3不同方法在KITTI→Cityscapes的定量性能比较

(4)不同实际场景和数据规模自适应的结果对比

表4不同方法在Cityscapes→BDD100k的定量性能比较

四种不同的自适应条件下的不同方法的定量结果如上表所示，本发明的方法在所有目标数据集上均达到最佳性能，验证了所提出的方法对跨域目标检测的自适应效果。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。