CN113392933B - 一种基于不确定性引导的自适应跨域目标检测方法 - Google Patents

一种基于不确定性引导的自适应跨域目标检测方法 Download PDF

Info

Publication number
CN113392933B
CN113392933B CN202110764822.7A CN202110764822A CN113392933B CN 113392933 B CN113392933 B CN 113392933B CN 202110764822 A CN202110764822 A CN 202110764822A CN 113392933 B CN113392933 B CN 113392933B
Authority
CN
China
Prior art keywords
uncertainty
model
target detection
domain
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110764822.7A
Other languages
English (en)
Other versions
CN113392933A (zh
Inventor
蔡敏捷
罗敏怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110764822.7A priority Critical patent/CN113392933B/zh
Publication of CN113392933A publication Critical patent/CN113392933A/zh
Application granted granted Critical
Publication of CN113392933B publication Critical patent/CN113392933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于不确定性引导的自适应跨域目标检测方法,属于图像处理以及目标检测技术领域,包括以下步骤:S1.目标检测模型的预训练;S2.针对目标域数据的随机前向预测;S3.计算目标检测每个实例的平均类别概率、位置以及对应的不确定性;S4.图像伪标签的选择;S5.不确定性引导的模型自训练。本发明的基于不确定性引导的自适应目标检测方法,基于无监督领域自适应的框架,与现有技术不同的是本发明明确考虑了目标检测模型的不确定性,提出了一个不确定性感知伪标签选择算法,并基于得到的伪标签来进行模型自训练的新方法。基于本发明提出的方法,能够极大地提高目标检测模型的通用性能。

Description

一种基于不确定性引导的自适应跨域目标检测方法
技术领域
本发明属于图像处理以及目标检测技术领域,涉及一种基于不确定性引导的自适应跨域目标检测方法。
背景技术
目标检测是计算机视觉中的一个热门问题,随着新的深层神经网络的应用,如Faster R-CNN和YOLO,研究者提出了基于大量标注数据的目标检测器,其性能有了很大的提升。然而,在实际应用中,由于不同领域的分布差异,在新的不可见场景(领域)中部署一个预先训练好的目标检测器仍然是一个较大的挑战。
现有的跨域目标检测方法主要通过对抗学习的方式来学习域不变特征,从而对齐两个域输入的边缘分布。但这种方法有一定的局限性,当输入和输出的联合分布不一致时,即使两个域的图像特征很好对齐,目标域中的对象也可能在源域中被检测为不正确的类别。为了使输出和输入的分布保持一致,域自适应的另一种策略是自训练,它将一个预先训练模型对目标域数据的预测视为重新训练模型的伪标签,然而,模型重训练过程中噪声伪标签增加了自训练的难度,且两个域之间的分布差异会进一步增加自训练分配错误伪标签的风险。
发明内容
本发明的目的在于提供一种基于不确定性引导的跨域目标检测方法,该基于不确定性引导的自适应目标检测方法能够极大地提高目标检测模型的通用性能。
为了达到上述目的,本发明提供以下技术方案:
本发明提供一种基于不确定性引导的自适应跨域目标检测方法,包括以下步骤:
S1.目标检测模型的预训练:使用带标签的源域的训练数据、不带标签的目标域的训练数据,对目标检测模型进行训练和跨域的特征对齐;
S2.针对目标域数据的随机前向预测:使用目标检测模型对目标域数据进行多次随机前向预测;
S3.计算目标检测每个实例的平均类别概率、位置,以及平均类别概率、位置对应的不确定性,得到每个候选框的类别不确定性和位置不确定性;
S4.图像伪标签的选择:利用不确定性感知的伪标签选择算法,将图像选取部分实例预测结果作为伪标签,并作为步骤S5中模型自训练的伪标签;
S5.不确定性引导的模型自训练:基于步骤S3所得结果,以及步骤S4所得伪标签,对图像目标检测模型进行自训练,更新模型参数,使得模型更加适用于目标域数据。
优选的,步骤S1中,所述目标检测模型为带有丢弃正则化(Dropout正则化)的全卷积神经网络;所述跨域的特征对齐基于对抗思想,使用梯度反转层将源域的训练数据与目标域的训练数据在特征空间进行对齐。
优选的,步骤S2中,所述随机前向预测即在模型预测时开启dropout功能(开启dropout功能:相当于随机关闭一些神经元的作用),使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到,不需要人为干预),从而得到不同的预测结果,模型的直接预测结果是目标检测实例类别概率和位置。
优选的,步骤S3中,具体步骤如下:
给定一个候选框b,基于步骤S2得到的多次预测结果,可以利用下式计算它的平均类别概率
Figure BDA0003150578140000031
和位置
Figure BDA0003150578140000032
Figure BDA0003150578140000033
Figure BDA0003150578140000034
Figure BDA0003150578140000035
T代表步骤S2中的随机前向预测的次数,t是次数的索引,θt是使用dropout对预训练模型θ进行采样得到的模型参数;Ccls,Creg分别代表模型的分类(类别)和回归(位置)模块;
采用基于贝叶斯神经网络的不确定性估计方法,得到类别的不确定性uc和位置的不确定性ul
Figure BDA0003150578140000036
Figure BDA0003150578140000037
其中,gt∈Rn是分类模块Ccls的一个关于类别的n维预测输出,
Figure BDA0003150578140000038
是gt的转置向量,lt=(u,v,w,h)是回归模块Creg的一个关于实例边界框中心坐标(u,v)及其宽度和高度(w,h)的四维预测输出,
Figure BDA0003150578140000039
是lt的转置向量。
优选的,步骤S4中,利用不确定性感知的伪标签选择算法,为图像选取部分实例预测结果作为伪标签
Figure BDA00031505781400000310
并作为下一步模型自训练的伪标签;
Figure BDA00031505781400000311
优选的,步骤S5中,具体步骤如下:
基于步骤S3和步骤S4得到的平均类别预测
Figure BDA00031505781400000312
位置预测
Figure BDA00031505781400000313
不确定性uc,ul和伪标签
Figure BDA00031505781400000314
利用公式(7)对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据;
Figure BDA0003150578140000041
公式(7)中第一项为带标签的源域图像的训练损失,第二项为带伪标签的目标域图像的训练损失,具体计算方式如公式(8)所以;
Figure BDA0003150578140000042
式(8)中,
Figure BDA0003150578140000043
是目标检测实例级的分类和回归损失,pi是模型对候选框生成网络(RPN)生成
Figure BDA0003150578140000044
的最终预测结果,
Figure BDA0003150578140000045
是其对应的伪标签,
Figure BDA0003150578140000046
则是伪标签的不确定性感知权重,由类别不确定性uc和位置不确定性ul按公式(9)计算得到;
Figure BDA0003150578140000047
所述图像目标检测模型为Faster R-CNN全卷积神经网络模型,使用的损失函数是交叉熵函数(分类损失)和平滑L1范式(回归损失)。
与现有技术相比,本发明具有以下优点:
本发明的基于不确定性引导的自适应目标检测方法,基于无监督领域自适应的框架,与现有技术不同的是本发明明确考虑了目标检测模型的不确定性,提出了一个不确定性感知伪标签选择算法,并基于得到的伪标签来进行模型自训练的新方法。基于本发明提出的方法,能够极大地提高目标检测模型的通用性能。
附图说明
图1是本发明基于不确定性引导的自适应跨域目标检测方法的总体流程示意图。
图2是本发明方法的流程图。
具体实施方式
下面结合具体实施例和附图对本发明进行进一步说明:
实施例1
任务定义
假设有一个预先在源域
Figure BDA0003150578140000051
上训练好的目标检测器M,其中,x表示源域图像,Y={yi}是一组带标记的对象实例,每个实例都包含一个类标签yc和一个位置标签yl=(u,v,w,h),位置标签yl表示对象边界框的中心坐标以及它的宽度和高度。
本发明的任务是使预训练的检测器M适应新的目标
Figure BDA0003150578140000052
而无需新注释的对象实例。
本发明一种基于不确定性引导的跨域目标检测方法,采用了以下算法:
(1)跨域特征对齐;
文献Yuhua Chen,Wen Li,Christos Sakaridis,Dengxin Dai,and Luc VanGool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR),2018.中提出了一种跨域特征对齐方法,通过使用图像级自适应组件和实例级自适应组件,以缓解域偏移带来的性能下降。这两个域自适应组件基于H-散度理论,通过对抗训练的方式学习一个域分类器来实现。同时,该文献还进一步应用一致性正则化方法学习域不变的RPN。
本发明在训练基线模型时,构造了图像级和实例级的域分类器,以对齐源域和目标域之间的特征分布。给定源域图像xs和目标域图像xt,图像级和实例级特征对齐损失由以下公式表示:
Figure BDA0003150578140000053
Figure BDA0003150578140000061
其中ROI()表示ROI池化操作,bgt表示真实的对象建议框,brpn表示RPN网络生成的对象建议框。
本发明还对两个层级域的分类器进行了一致性正则化:
Figure BDA0003150578140000062
其中,
Figure BDA0003150578140000063
表示整个特征图F(x)中激活值的平均值,||·||2表示L2距离,为简单起见,b表示源域图像的bgt和目标域图像的brpn
(2)基于贝叶斯神经网络的不确定性估计方法;
在贝叶斯神经网络中,其模型参数是随机变量,而非确定的值,参数θ的后验分布p(θ|D)通过贝叶斯定理来定义。利用变分(variational)的方法,使用一个由一组参数θ控制的分布q(θ)去逼近真正的后验p(θ|D),求后验分布的问题就转化成了求最好的θ的优化问题,这个过程可以通过最小化两个分布的Kullback-Leibler(KL)散度实现。文献Y.Gal andZ Ghahramani.Dropout as a bayesian approximation:Representing modeluncertainty in deep learning.In international conference on machine leaming(ICML),pages 1050-1059,2016.通过使用在深度学习中得到广泛的应用的随机正则化工具dropout来构造q(θ),这种估计方法可以使带dropout的卷积神经网络在不改变模型的情况下转换为贝叶斯神经网络。
在测试阶段,可以使用从q(θ)采样的网络参数并通过多次随机前向传递,得到新的输入x下输出y的预测分布:
Figure BDA0003150578140000071
其中T是随机向前传递的次数,
Figure BDA0003150578140000072
是使用dropout采样的参数集合。
现在,描述如何基于贝叶斯深度学习技术估计用于目标检测模型的不确定性。假设目标图像的RPN中的一个候选边界框(或对象实例)为b,分类模块Ccls的一个关于类别的基于softmax的n维预测输出为gt∈Rn,回归模块Creg的一个关于实例边界框中心坐标及其宽度和高度的四维预测输出预测为lt=(u,v,w,h),b的平均类别概率和位置为:
Figure BDA0003150578140000073
Figure BDA0003150578140000074
θt~dropout(θ)
候选边界框b的类别的不确定性(uc)和位置的不确定性(ul)利用下式计算得到;
Figure BDA0003150578140000075
Figure BDA0003150578140000076
(3)不确定性感知伪标签选择;
在跨域目标检测领域,已有的自训练方法的伪标签选择策略是:用非极大值抑制(NMS)去除冗余重叠边界框后,选择具有固定检测分数阈值的子集作为伪标签。这种方法有两个缺点,首先,检测分数相对较高(不是最高)的真实对象实例可能会被错误删除;其次,在不考虑模型不确定性的情况下,如果选择了带噪声的伪标签,将会导致模型在自训练的过程中逐渐出现偏移的情况。为了解决上述问题,我们在伪标签选择中明确地考虑了模型的不确定性,并将其与NMS的一种更柔和的方式进行结合,方法如下:
给定一组预测的边界框
Figure BDA0003150578140000081
我们方法的核心是计算每个边界框的选择得分
Figure BDA0003150578140000082
并根据得分选择选择一个子集
Figure BDA0003150578140000083
作为自训练的伪标签。
用检测器分类模块基于softmax输出的最大分数对选择得分进行初始化。选择得分的计算是在一个迭代过程中进行的,在每次迭代中,我们首先选择得分最大的边界框bm,其对应选择得分为sm,然后,计算高于重叠阈值τ1的边界框的重叠惩罚,而不是像在标准的NMS中那样直接地丢弃它们。重叠惩罚可由下式计算得到:
Figure BDA0003150578140000084
其中,IOU()表示两个边界框之间交集和并集的比值(简称交并比)。
考虑到模型不确定性,边界框bi的选择得分更新为:
Figure BDA0003150578140000085
其中,σi是一个衰减因子,用于更快速地降低不确定样本的选择得分,在每次迭代时,只更新bm及其相邻边界框的选择得分,σi由模型的类别不确定性uc和位置不确定性ul根据下式计算得到:
Figure BDA0003150578140000086
ui=uc+ul
在每次迭代之后,边界框bm及其对应的选择得分sm被放入到伪标签子集
Figure BDA0003150578140000091
选择得分小于阈值τ2的相邻边界框被丢弃。当B为空时,迭代将终止。最后,从
Figure BDA0003150578140000092
中按照选择得分的高低,选择得分在前K的边界框作为自训练的伪标签。
(4)不确定性引导的模型自训练;
自训练最初作为一种半监督学习方法被提出,而最近被当作一种简单的可应用于无监督领域自适应问题的策略。自训练从在标记的源域数据DS上预先训练的基线模型开始,接着将该模型在未标记的目标域数据DT上的预测结果作为伪标签,然后用这些伪标签与DS重新训练模型,自训练的损失函数公式如下:
Figure BDA0003150578140000093
其中,
Figure BDA0003150578140000094
是目标域以
Figure BDA0003150578140000095
为标签的检测损失,其形式与源域检测损失
Figure BDA0003150578140000096
相同。
以上方法在使用伪标签
Figure BDA0003150578140000097
时,直接让所有伪标签拥有相同的权重参与自训练。
然而,这样会导致所选样本的差异及其对训练的相对影响被忽略。为了使自训练有选择地聚焦于模型可信度更高的样本,本发明根据估计的不确定度施加样本权重。对带有伪标签的目标数据的加权检测损失定义为:
Figure BDA0003150578140000098
其中,
Figure BDA0003150578140000099
是目标检测实例级的分类和回归损失,pi是模型对候选框生成网络(RPN)生成的
Figure BDA00031505781400000910
的最终预测结果,
Figure BDA00031505781400000911
是其对应的伪标签,
Figure BDA00031505781400000912
则是伪标签的不确定性感知权重,由类别不确定性uc和位置不确定性ul按公式三计算得到;
Figure BDA00031505781400000913
不确定性引导的模型自训练的损失函数定义为:
Figure BDA0003150578140000101
需要强调的是,本发明的主要创新点在于将模型的不确定性引入目标检测的的领域自适应,以及如何基于不确定性对模型自训练过程进行引导和控制的算法。
实施例2
如图1~2所示,本发明提供一种基于不确定性引导的跨域目标检测方法,包括以下步骤:
步骤1:目标检测模型的预训练;
首先使用带标签的源域的训练数据(训练数据是公开数据集上面的数据)和不带标签的目标域训练数据(标签就是人工提供的图像实例的边界框,用来训练目标检测模型。但是标签要耗费大量人工来手动生成,而没有标签参与模型的训练,模型在目标域的性能就会大大降低。所以本发明的主要作用就是将只提供源域标签进行训练的模型自适应到没有标签的目标域数据中)对图像目标检测模型进行预训练。这里的图像模型可以是任意带有Dropout正则化(即Dropout Regularization,丢弃正则化)的全卷积神经网络,进行特征对齐的模型为二元分类的全卷积神经网络。训练模型使用的损失函数是交叉熵函数(分类损失)、平滑L1范式(回归损失)、图像级/实例级特征对齐损失和及一致性正则化(特征对齐损失);
需要注意的是,步骤1在本发明中只需要执行一次,而步骤2~5是一个迭代过程;
步骤2:针对目标域数据的随机前向预测;
使用图像目标检测的模型对无标签的目标域数据进行多次随机前向预测,所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能:相当于随机关闭一些神经元的作用),使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到,不需要人为干预),从而得到不同的预测结果;
步骤3:计算目标检测每个实例的平均类别概率和位置以及对应的不确定性;
给定一个候选框b,基于步骤2得到的多次预测结果,可以利用下式计算它的平均类别概率和位置以及对应的类别的不确定性(uc)和位置的不确定性(ul);
步骤4:图像伪标签的选择;
基于步骤3,可以得到每个候选框的类别不确定性和位置不确定性,利用我们的不确定性感知的伪标签选择算法,为图像选取选择得分在前20的边界框
Figure BDA0003150578140000111
并作为下一步模型自训练的伪标签;
步骤5:不确定性引导的模型自训练;
基于步骤3和步骤4得到的平均类别预测
Figure BDA0003150578140000112
位置预测
Figure BDA0003150578140000113
不确定性uc,ul和伪标签
Figure BDA0003150578140000114
利用公式1对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据。
步骤1在本实施例中只需要执行一次,而步骤2~步骤5是一个迭代过程,迭代的停止条件是使得模型更加适用于目标域数据。
实验结果
1、数据集
为了评估本方法的有效性,下面基于多个公共数据集上进行实验,以评估跨域目标检测的不同方面的性能。
Cityscapes:一个真实世界的数据集,通过车载摄像头捕获图像,用于语义城市场景理解,由2975张训练集图像和500张验证集图像组成,带有像素级类别标注。在实验中,我们在分割掩码图上,围绕实例画出最紧的边界框作为实例级标签。参见文献:MariusCordts,Mohamed Omran,Sebastian Ramos,Timo
Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,andBernt Schiele.The cityscapes dataset for semantic urban sceneunderstanding.In Internaltional Conference on Computer Vision and PatternRecogintion(CVPR),2016。
Foggy Cityscapes:是Cityscapes数据集的带雾版本,它模拟了三个级别的带雾天气。训练集与验证的分割和注释与Cityscapes数据集中一致。参见文献:ChristosSakaridis,Dengxin Dai,and Luc Van Gool.Semantic foggy scene understandingwith synthetic data.In IJCV,2018。
SIM10k:是一个从电脑游戏中收集的合成数据集,包含10000张图片和58701个关于汽车实例的标注。参见文献:Matthew Johnson-Roberson,Charles Barto,RounakMehta,Sharath Nittur Sridhar,Karl Rosaen,and Ram Vasudevan.Driving in thematrix:Can virtual worlds replace humangenerated annotations for real worldtasks?In ICRA.2017。
KITTI数据集:是自动驾驶领域的真实数据集,由7481张带实例级标注的图像组成。参见文献:Andreas Geiger,Philip Lenz,Christoph Stiller,and RaquelUrtasun.Vision meets robotics:The kitti dataset.The International Journal ofRobotics Research,32(11):1231-1237,2013。
BDD100k数据集:是一个包含100k注释图像的大型驾驶视频数据集。采用文献Changdong Xu,Xingran Zhao,Xin Jin,and Xiushen Wei.Exploring categoricalregularization for domain adaptive object detection.In IntemaltionalConference on Computer Vision and Pattern Recogintion(CVPR),2020.中的数据集使用策略,我们也使用数据集的日间子集,包括36728张训练图像和5258张验证图像。参见文献:Fisher Yu,Wenqi Xian,Yingying Chen,Fangchen Liu,Mike Liao,VashishtMadhavan,and Trevor Darrell.Bdd100k:A diverse driving video database withscalable annotation tooling.arXiv preprint,page arXiv:1805.04687,2018.
与文献Yuhua Chen,Wen Li,Christos Sakaridis,Dengxin Dai,and Luc VanGool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR),2018.相同,我们也使用阈值为0.5的平均精度(mAP)作为评估指标。
2、性能比较
我们比较了我们的基线模型和完整模型与Faster-RCNN以及近期最先进的方法如下:
DA Faster[Yuhua Chen,Wen Li,Christos Sakaridis,Dengxin Dai,and LucVan Gool.Domain adaptive faster r-cnn for object detection in the wild.InComputer Vision and Pattern Recognition(CVPR),2018]:跨域目标检测的先驱工作,基于Faster R-CNN,学习图像和实例级别的对抗性领域分类器。
Noisy Labeling[Mehran Khodabandeh,Arash Vahdat,Mani Ranjbar,and
William G.Macready.A robust learning approach to domain adaptiveobject detection.in IEEE International Conference on Computer Vision(ICCV),2019]:一种带噪声标签进行鲁棒性学习的域自适应学习方法。
SWDA[Kuniaki Saito,Yoshitaka Ushiku,Tatsuya Harada,and KateSaenko.Strong-weak distribution alignment for adaptive object detection.InInternaltional Conference on Computer Vision and Pattern Recogintion(CVPR),2019]:一种图像强局部对齐和弱全局对齐的自适应目标检测方法。
ICR-CCR[Changdong Xu,Xingran Zhao,Xin Jin,and Xiushen Wei.Exploringcategorical regularization for domain adaptive object detection.InInternaltional Conference on Computer Vision and Pattern Recogintion(CVPR),2020]:基于SWDA的类别正则化框架。
GPA[Minghao Xu,Hang Wang,Bingbing Ni,Qi Tian,and Wenjun Zhang.Cross-domain detection via graph-induced prototype alignment.In InternaltionalConference on Computer Vision and Pattern Recogintion(CVPR),2020]:基于原型表示的类别级域对齐的图引导原型对齐框架。
CT[Ganlong Zhao,Guanbin Li,Ruijia Xu,and Liang Lin.Collaborativetraining between region proposal localization and classification for domainadaptive object detection.In European Conference on Computer Vision(ECCV),2020]:一种协同训练的候选框定位与分类方法。
MEAA[Dang-Khoa Nguyen,Wei-Lun Tseng,and Hong-Han Shuai.Domain-adaptive object detection via uncertainty-aware distribution alignment.In The28th ACM International Conference on Multimedia,2020]:基于多级熵注意对齐域自适应目标检测方法。
(1)不同天气自适应结果对比
表1不同方法在Citysacpes→Foggy Cityscapes的定量性能比较
Figure BDA0003150578140000141
Figure BDA0003150578140000151
(2)合成到实际场景自适应的结果对比
表2不同方法在SIM10K→Cityscapes的定量性能比较
Figure BDA0003150578140000152
(3)不同实际场景自适应的结果对比
表3不同方法在KITTI→Cityscapes的定量性能比较
Figure BDA0003150578140000161
(4)不同实际场景和数据规模自适应的结果对比
表4不同方法在Cityscapes→BDD100k的定量性能比较
Figure BDA0003150578140000162
四种不同的自适应条件下的不同方法的定量结果如上表所示,本发明的方法在所有目标数据集上均达到最佳性能,验证了所提出的方法对跨域目标检测的自适应效果。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (5)

1.一种基于不确定性引导的自适应跨域目标检测方法,其特征在于,包括以下步骤:
S1.目标检测模型的预训练:使用带标签的源域的训练数据、不带标签的目标域的训练数据,对目标检测模型进行训练和跨域的特征对齐;
S2.针对目标域数据的随机前向预测:使用目标检测模型对目标域数据进行多次随机前向预测;
S3.计算目标检测每个实例的平均类别概率、位置,以及平均类别概率、位置对应的不确定性,得到每个候选框的类别不确定性和位置不确定性;
步骤S3的具体步骤如下:
给定一个候选框b,基于步骤S2得到的多次预测结果,利用下式计算它的平均类别概率
Figure FDA0003539559170000011
和位置
Figure FDA0003539559170000012
Figure FDA0003539559170000013
Figure FDA0003539559170000014
θt~dropout(θ) (3)
T代表步骤S2中的随机前向预测的次数,t是次数的索引,θt是使用dropout对预训练模型θ进行采样得到的模型参数;Ccls,Creg分别代表模型的分类和回归模块;
采用基于贝叶斯神经网络的不确定性估计方法,得到类别的不确定性uc和位置的不确定性ul
Figure FDA0003539559170000015
Figure FDA0003539559170000016
其中,gt∈Rn是分类模块Ccls的一个关于类别的n维预测输出,
Figure FDA0003539559170000017
是gt的转置向量,lt=(u,v,w,h)是回归模块Creg的一个关于实例边界框中心坐标(u,v)及其宽度和高度(w,h)的四维预测输出,
Figure FDA0003539559170000021
是lt的转置向量;
S4.图像伪标签的选择:利用不确定性感知的伪标签选择算法,将图像选取部分实例预测结果作为伪标签,并作为步骤S5中模型自训练的伪标签;
S5.不确定性引导的模型自训练:基于步骤S3所得结果,以及步骤S4所得伪标签,对图像目标检测模型进行自训练,更新模型参数,使得模型更加适用于目标域数据;
步骤S5的具体步骤如下:
基于步骤S3和步骤S4得到的平均类别预测
Figure FDA0003539559170000022
位置预测
Figure FDA0003539559170000023
不确定性uc,ul和伪标签
Figure FDA0003539559170000024
利用公式(7)对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据;
Figure FDA0003539559170000025
公式(7)中第一项为带标签的源域图像的训练损失,第二项为带伪标签的目标域图像的训练损失,具体计算方式如公式(8)所以;
Figure FDA0003539559170000026
式(8)中,
Figure FDA0003539559170000027
是目标检测实例级的分类和回归损失,pi是模型对候选框生成网络(RPN)生成
Figure FDA0003539559170000028
的最终预测结果,
Figure FDA0003539559170000029
是其对应的伪标签,
Figure FDA00035395591700000210
则是伪标签的不确定性感知权重,由类别不确定性uc和位置不确定性ul按公式(9)计算得到;
Figure FDA00035395591700000211
所述图像目标检测模型为Faster R-CNN全卷积神经网络模型,使用的损失函数是交叉熵函数和平滑L1范式。
2.根据权利要求1所述基于不确定性引导的自适应跨域目标检测方法,其特征在于,步骤S1中,所述目标检测模型为带有丢弃正则化的全卷积神经网络。
3.根据权利要求1所述基于不确定性引导的自适应跨域目标检测方法,其特征在于,步骤S1中,所述跨域的特征对齐基于对抗思想,使用梯度反转层将源域的训练数据与目标域的训练数据在特征空间进行对齐。
4.根据权利要求1所述基于不确定性引导的自适应跨域目标检测方法,其特征在于,步骤S2中,所述随机前向预测即在模型预测时开启dropout功能,使得每次预测使用不同的模型参数,从而得到不同的预测结果,模型的直接预测结果是目标检测实例类别概率和位置。
5.根据权利要求1所述基于不确定性引导的自适应跨域目标检测方法,其特征在于,步骤S4中,利用不确定性感知的伪标签选择算法,为图像选取部分实例预测结果作为伪标签
Figure FDA0003539559170000031
并作为下一步模型自训练的伪标签;
Figure FDA0003539559170000032
CN202110764822.7A 2021-07-06 2021-07-06 一种基于不确定性引导的自适应跨域目标检测方法 Active CN113392933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110764822.7A CN113392933B (zh) 2021-07-06 2021-07-06 一种基于不确定性引导的自适应跨域目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110764822.7A CN113392933B (zh) 2021-07-06 2021-07-06 一种基于不确定性引导的自适应跨域目标检测方法

Publications (2)

Publication Number Publication Date
CN113392933A CN113392933A (zh) 2021-09-14
CN113392933B true CN113392933B (zh) 2022-04-15

Family

ID=77625358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110764822.7A Active CN113392933B (zh) 2021-07-06 2021-07-06 一种基于不确定性引导的自适应跨域目标检测方法

Country Status (1)

Country Link
CN (1) CN113392933B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386527B (zh) * 2022-01-18 2022-12-09 湖南大学无锡智能控制研究院 一种用于域自适应目标检测的类别正则化方法及系统
CN114821152B (zh) * 2022-03-23 2023-05-02 湖南大学 基于前景-类别感知对齐的域自适应目标检测方法及系统
CN115471662B (zh) * 2022-11-03 2023-05-02 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质
CN117576453B (zh) * 2023-11-14 2024-07-19 中国人民解放军陆军装甲兵学院 一种跨域装甲目标检测方法、系统、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11861674B1 (en) * 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN111598914B (zh) * 2020-05-12 2022-05-06 湖南大学 一种基于不确定性引导的自适应图像分割方法
CN111652317B (zh) * 2020-06-04 2023-08-25 郑州科技学院 基于贝叶斯深度学习的超参数图像分割方法
CN111860670B (zh) * 2020-07-28 2022-05-17 平安科技(深圳)有限公司 域自适应模型训练、图像检测方法、装置、设备及介质
CN112861616B (zh) * 2020-12-31 2022-10-11 电子科技大学 一种无源领域自适应目标检测方法
CN113011513B (zh) * 2021-03-29 2023-03-24 华南理工大学 一种基于通用域自适应的图像大数据分类方法

Also Published As

Publication number Publication date
CN113392933A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113392933B (zh) 一种基于不确定性引导的自适应跨域目标检测方法
CN108304873B (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
Cheng et al. Fast and accurate online video object segmentation via tracking parts
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
US20200065976A1 (en) Method and system for real-time target tracking based on deep learning
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
CN113807420A (zh) 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
Wang et al. Towards realistic predictors
Yang et al. Handwriting text recognition based on faster R-CNN
CN113808123B (zh) 一种基于机器视觉的药液袋动态检测方法
CN106874825A (zh) 人脸检测的训练方法、检测方法和装置
CN116075820A (zh) 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备
Jin et al. Face recognition based on MTCNN and Facenet
CN114037666B (zh) 一种数据集扩充和阴影图像分类辅助的阴影检测方法
CN114998592A (zh) 用于实例分割的方法、装置、设备和存储介质
Siam et al. Temporal transductive inference for few-shot video object segmentation
Cai et al. Uncertainty-aware model adaptation for unsupervised cross-domain object detection
Seemakurthy et al. Domain generalised faster R-CNN
Li et al. Learning domain-aware detection head with prompt tuning
Anusha et al. Object detection using deep learning
Lei et al. Continuous action recognition based on hybrid CNN-LDCRF model
Meng et al. Cross-datasets facial expression recognition via distance metric learning and teacher-student model
Guo et al. Adaptive video object segmentation with online data generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant