CN113807420A - 一种考虑类别语义匹配的域自适应目标检测方法及系统 - Google Patents

一种考虑类别语义匹配的域自适应目标检测方法及系统 Download PDF

Info

Publication number
CN113807420A
CN113807420A CN202111036092.5A CN202111036092A CN113807420A CN 113807420 A CN113807420 A CN 113807420A CN 202111036092 A CN202111036092 A CN 202111036092A CN 113807420 A CN113807420 A CN 113807420A
Authority
CN
China
Prior art keywords
target
domain
category
image
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111036092.5A
Other languages
English (en)
Other versions
CN113807420B (zh
Inventor
王晓伟
蒋沛文
王惠
秦晓辉
边有钢
秦洪懋
徐彪
谢国涛
秦兆博
胡满江
丁荣军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111036092.5A priority Critical patent/CN113807420B/zh
Publication of CN113807420A publication Critical patent/CN113807420A/zh
Application granted granted Critical
Publication of CN113807420B publication Critical patent/CN113807420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种考虑类别语义匹配的域自适应目标检测方法及系统。该方法包括:步骤1,获取源域带标签图像和目标域无标签图像;步骤2,使用源域带标签图像训练得到经过预训练的基础目标检测器;步骤3,在经过预训练的基础目标检测器上增加域自适应组件,使用源域带标签图像和目标域无标签图像训练得到经过训练的域自适应目标检测模型;步骤4,移除增加的域自适应组件,使用经过训练的域自适应目标检测模型对目标域场景进行目标检测。本发明考虑了跨域目标检测中两域特定类别语义匹配的问题,避免源域和目标域的目标类别在共享类别空间中出现错误对齐的问题,从而促使目标检测模型在目标域上的检测性能得到进一步提高。

Description

一种考虑类别语义匹配的域自适应目标检测方法及系统
技术领域
本发明属于计算机视觉目标检测领域,尤其涉及一种考虑类别语义匹配的域自适应目标检测方法及系统。
背景技术
在数据规模剧增、计算能力进步以及算法创新等诸多因素的共同作用下,深度学习得以迅速崛起并取得长足发展,在计算机视觉领域展现出强大的优势。近年来,基于深度学习的目标检测方法借助大规模、带标签的数据来训练目标检测模型,已经在多种公开的数据集上取得了卓著的成果。在实际应用中,训练数据集(称为源域)和测试数据集(称为目标域)的分布通常存在着差异,如果将从源域训练得的目标检测模型应用到目标域,那么模型可能会因域漂移问题而出现明显的性能退化,这便对目标检测模型的泛化能力提出了挑战。
域自适应作为迁移学习的重要分支,为上述问题提供了一种新的解决方案。在目标域缺少可用带标签数据的困境下,域自适应设法将知识从源域迁移到目标域,使得在源域上训练得到的模型能够泛化到目标域。目标检测任务需要同时确定图像中特定实例的位置及其所属类别,与图像分类任务相比,考虑域自适应问题时就会更加复杂。近年来,针对目标检测域自适应问题的研究也得到了越来越多的关注。
申请公布号为CN111860670A(域自适应模型训练、图像检测方法、装置、设备及介质)的专利文献先后使用局部特征模型和全局特征模型分别对局部特征和全局特征进行对齐,该方法利用对抗特征学习策略在图像级和实例级上较好地保持了特征的域不变性,但是经过局部对齐后的实例级特征在类别语义层面仍然处于混乱的状态,不同目标类别在共享的类别空间中并不能得到很好的对齐。
申请公布号为CN112926599A(目标检测方法、装置、智能终端及计算机可读存储介质)的专利文献在进行全局特征弱对齐和局部特征强对齐后,通过特征解耦的方式分离出域不变特征和域特定特征,由此便可以专注于域不变实例级特征的对齐。该方法虽然考虑了对目标检测非常重要的实例级表示,但是忽略了这些实例级表示的可判别性,两域实例级表示的类别可能会出现错误匹配。
授权公告号为CN111950608B(一种基于对比损失的域自适应物体检测方法)的专利文献先使用风格迁移前后的对比损失对预训练后的检测器进行初次微调,再使用初次微调后的检测器为目标域无标签图像打上伪标签,最后使用带伪标签的目标域无标签图像对检测器进行再次微调。为选取正确伪标签,该方法只保留预测概率大于给定阈值的目标。由于预先给定的阈值并不总是最优,因此过滤后得到的伪标签仍普遍存在噪声,这将导致训练过程中误差的累积。
综上所述,当前域自适应目标检测方法大多通过对抗学习域不变特征的策略来提高目标检测模型在各种跨域场景下的检测性能。然而,这些方法往往只是从宏观的角度来对齐源域和目标域的分布,忽略了两域特定类别的语义信息,极易造成类别语义的错误匹配,进而限制了目标检测模型跨域检测性能的提高。而一些使用伪标签进行自训练的方法虽然克服了目标域缺乏带标签数据的困难,在一定程度上提高了目标检测模型的跨域鲁棒性,但是由于选取伪标签的策略不够合理,造成误差的累积而损害跨域目标检测模型的性能。
发明内容
鉴于现有技术的缺点与不足,本发明的目的在于提供一种考虑类别语义匹配的域自适应目标检测方法及系统,在对齐源域和目标域全局特征的同时,考虑两域特定类别语义匹配的问题,避免源域和目标域的目标类别在共享类别空间中出现错误对齐的问题,从而促使目标检测模型在目标域上的检测性能得到进一步提高。
为实现上述目的,本发明的技术方案为:
一种考虑类别语义匹配的域自适应目标检测方法,包括如下步骤:
步骤1,获取源域带标签图像和目标域无标签图像;
步骤2,使用源域带标签图像训练得到经过预训练的基础目标检测器;
步骤3,在经过预训练的基础目标检测器上增加域自适应组件,使用源域带标签图像和目标域无标签图像训练得到经过训练的域自适应目标检测模型;
步骤4,移除增加的域自适应组件,使用经过训练的域自适应目标检测模型对目标域场景进行目标检测。
进一步的改进,所述步骤1包括如下步骤:
步骤1.1,获取目标域无标签图像:根据实际应用需求,采集待检测场景的图像,使用采集得到的图像创建数据集作为无标签的目标域,无标签的目标域中的图像即目标域无标签图像;
步骤1.2,获取源域带标签图像:针对目标域待检测目标的类别,选取与目标检测任务相关的公开数据集作为源域,源域中的图像即源域带标签图像;
源域记为
Figure BDA0003247118650000031
其中
Figure BDA0003247118650000032
表示第i张源域带标签图像,
Figure BDA0003247118650000033
表示第i张源域带标签图像对应的标签,包括边界框标签b以及对应的类别标签c;Ns表示源域带标签图像的数量;
目标域记为
Figure BDA0003247118650000041
其中
Figure BDA0003247118650000042
表示第j张目标域无标签图像,Nt表示目标域无标签图像的数量;
源域和目标域共享K个目标类别即c∈{1,2,…,K}。
进一步的改进,所述步骤2包括如下步骤:
步骤2.1,主干网络G提取源域带标签图像
Figure BDA00032471186500000415
的特征:选用Faster R-CNN作为基础目标检测器,选用VGG16作为Faster R-CNN的主干网络G,输入图像依次经过随机水平翻转、特征归一化和等比例缩放的预处理操作,通过主干网络G的系列卷积块对预处理后的图像进行特征提取,得到源域带标签图像
Figure BDA0003247118650000043
的特征图
Figure BDA0003247118650000044
步骤2.2,区域生成网络(RPN)生成候选区域:先使用3×3滑动窗口对特征图
Figure BDA0003247118650000045
进行卷积运算,再经过两个1×1卷积层分别预测特征图
Figure BDA0003247118650000046
在当前窗口位置上的前景概率和边界框回归参数;通过先验框模板生成特征图
Figure BDA0003247118650000047
对应源域带标签图像
Figure BDA0003247118650000048
上的所有先验框;将预测的边界框回归参数应用到先验框上以获得候选框,移除小于指定尺寸的候选框后,再经过非极大值抑制处理,最后根据预测的前景概率保留前2000个概率最大的候选框,区域生成网络的损失
Figure BDA0003247118650000049
包括分类损失项
Figure BDA00032471186500000410
和回归损失项
Figure BDA00032471186500000411
步骤2.3,通过兴趣区域头部网络(RoI Head)预测最终的分类结果和边界框回归结果:不同尺寸大小候选框内的候选区域经过兴趣区域头部网络的兴趣区域对齐(RoIAlign)后都转变成维度固定的特征向量,随后经过两个全连接层分别进行目标类别概率预测和边界框回归参数预测;兴趣区域头部网络的损失
Figure BDA00032471186500000412
包括分类损失项
Figure BDA00032471186500000413
和回归损失项
Figure BDA00032471186500000414
步骤2.4,通过优化器获取基础目标检测器的损失并对基础目标检测器进行优化:基础目标检测器的损失
Figure BDA0003247118650000051
为区域生成网络损失
Figure BDA0003247118650000052
和兴趣区域头部网络损失
Figure BDA0003247118650000053
之和,如公式(1)所示:
Figure BDA0003247118650000054
使用随机梯度下降算法对基础目标检测器损失
Figure BDA0003247118650000055
进行优化,优化过程多次遍历数据集,参与训练的每一批次图像都重复经过步骤2.1、步骤2.2、步骤2.3,直至达到设定的总遍历次数,并完成损失的收敛,最终获得经过预训练的基础目标检测器。
进一步的改进,所述步骤3包括如下步骤:
步骤3.1,在经过预训练的基础目标检测器增加域自适应组件;
步骤3.2,使用源域带标签图像和目标域无标签图像训练得到域自适应目标检测模型;
所述步骤3.1,包括如下步骤:
步骤3.1.1,增加全局特征判别组件:在主干网络G的输出位置构建域判别器D,域判别器D用于区分主干网络G输出的特征图来自源域还是目标域;在主干网络G和域判别器D之间引入梯度反转层,梯度反转层用于在反向传播时对梯度符号取反,实现主干网络G和域判别器D的对抗训练,从而对齐源域和目标域的全局特征;
采用焦点损失计算域判别器D的损失:
Figure BDA0003247118650000056
Figure BDA0003247118650000057
Figure BDA0003247118650000058
其中,
Figure BDA0003247118650000059
为使用焦点损失计算域判别器D对源域样本的分类损失,
Figure BDA0003247118650000061
为使用焦点损失计算域判别器D对目标域样本的分类损失,
Figure BDA0003247118650000062
为域判别器D对源域和目标域样本的总分类损失,即全局特征判别损失;κ为聚焦参数,用来控制对难分类样本施加的权重;D()表示域分类器D预测样本属于源域的概率;
步骤3.1.2,增加伪标签动态选取组件:
基于源域带标签图像边界框标签b以及对应的类别标签c,根据公式(5),使用所有属于类别c的源域目标类别样本计算对应类别的中心点特征表示
Figure BDA0003247118650000063
得到源域所有目标类别在嵌入空间中的中心点特征表示
Figure BDA0003247118650000064
Figure BDA0003247118650000065
其中,Sc表示属于类别c的所有源域目标类别样本集合;
Figure BDA0003247118650000066
表示第i个源域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;|Sc|表示属于类别c的源域目标类别样本的数量;
使用步骤2中预训练的基础目标检测器为目标域所有无标签图像赋予伪标签,伪标签包括边界框伪标签以及对应的类别伪标签;根据公式(6),计算伪标签下第j个目标域目标类别样本
Figure BDA0003247118650000067
在嵌入空间中与所有源域目标类别中心点特征表示
Figure BDA0003247118650000068
之间的相似性分数
Figure BDA0003247118650000069
Figure BDA00032471186500000610
保存到属于类别c'的所有目标域目标类别样本集合Tc'中,其中
Figure BDA00032471186500000611
Figure BDA00032471186500000612
其中,cos()为余弦相似度;
根据公式(7)在训练过程中对阈值τ进行动态调整;对于
Figure BDA00032471186500000613
中的每个目标域类别样本
Figure BDA00032471186500000614
如果相似性分数σ大于或等于当前的阈值τ,那么就选取该目标类别样本,并保存到经过选取的属于类别c'的所有目标域目标类别样本集合
Figure BDA0003247118650000071
中,否则不选取;
Figure BDA0003247118650000072
其中,α和β为常数;n为当前遍历次数,n={1,2,…,max_epoch};
Figure BDA0003247118650000073
表示各个类别的目标域目标类别样本集合的集合,
Figure BDA0003247118650000074
表示经过选取的属于类别c'的所有目标域目标类别样本集合;max_epoch表示设定的最大遍历次数;
步骤3.1.3,增加类别语义匹配组件:在选取具有正确伪标签的目标类别样本后,在类别空间中对齐源域和目标域目标类别的分布,从而增强目标类别特征的可判别性:
基于选取后的目标域目标类别样本,根据公式(8),使用所有属于类别c'的目标域目标类别样本计算对应类别的中心点特征表示
Figure BDA0003247118650000075
得到目标域所有目标类别在嵌入空间中的中心点特征表示
Figure BDA0003247118650000076
Figure BDA0003247118650000077
其中,
Figure BDA0003247118650000078
表示经过选取的属于类别c'的所有目标域目标类别样本集合;
Figure BDA0003247118650000079
表示第j个目标域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;
Figure BDA00032471186500000710
表示经过选取的属于类别c'的目标域目标类别样本的数量;
使用指数加权平均策略对源域和目标域的所有目标类别在嵌入空间中的中心点特征表示进行动态更新;当对源域目标类别中心点特征表示进行更新时,基于属于类别c的所有源域目标类别样本集合Sc,根据公式(5)对目标类别中心点特征表示进行初始化,得到源域初始目标类别中心点特征表示
Figure BDA00032471186500000711
根据公式(9)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度ξs;根据公式(10)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息;
Figure BDA0003247118650000081
Figure BDA0003247118650000082
其中,iter为当前遍历次数中的迭代次数,iter={1,2,…,max_iter};
Figure BDA0003247118650000083
表示经过第iter次迭代后源域目标类别中心点特征表示;
当对目标域目标类别中心点特征表示进行更新时,基于经过选取的属于类别c'的所有目标域目标类别样本集合
Figure BDA0003247118650000084
根据公式(8)对目标类别中心点特征表示进行初始化,得到目标域初始目标类别中心点特征表示
Figure BDA0003247118650000085
根据公式(11)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度ξt;根据公式(12)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息;
Figure BDA0003247118650000086
Figure BDA0003247118650000087
其中,
Figure BDA0003247118650000088
表示经过第iter次迭代后目标域目标类别中心点特征表示;
对不同域的目标类别与对应目标类别中心点特征表示之间进行双向对齐,当进行源域目标类别样本与目标域对应的目标类别中心点特征表示的单向对齐时,给定源域目标类别样本
Figure BDA0003247118650000089
目标域对应的目标类别中心点特征表示
Figure BDA00032471186500000810
根据公式(13)计算得到源域匹配目标域相似性概率分布
Figure BDA00032471186500000811
Figure BDA0003247118650000091
其中,d()表示距离函数,具体为欧氏距离的平方;γ为温度参数,用来控制相似性概率分布集中或分散程度;
当进行目标域目标类别样本与源域对应的目标类别中心点特征表示的单向对齐时,给定目标域目标类别样本
Figure BDA0003247118650000092
源域对应的目标类别中心点特征表示
Figure BDA0003247118650000093
根据公式(14)计算得到目标域匹配源域相似性概率分布
Figure BDA0003247118650000094
Figure BDA0003247118650000095
根据公式(15)和公式(16),分别计算源域匹配目标域相似性概率分布
Figure BDA0003247118650000096
的熵
Figure BDA0003247118650000097
和目标域匹配源域相似性概率分布
Figure BDA0003247118650000098
的熵
Figure BDA0003247118650000099
Figure BDA00032471186500000910
Figure BDA00032471186500000911
根据公式(17),将双向对齐得到的相似性概率分布的熵
Figure BDA00032471186500000912
Figure BDA00032471186500000913
之和作为跨域目标类别语义匹配的损失
Figure BDA00032471186500000914
Figure BDA00032471186500000915
进一步的改进,所述步骤3.2包括如下步骤:
步骤3.2.1,主干网络G提取源域带标签图像
Figure BDA00032471186500000916
或目标域无标签图像
Figure BDA00032471186500000917
的特征:使用步骤2中预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,输入图像依次经过随机水平翻转、特征归一化和等比例缩放的预处理操作,通过主干网络G的系列卷积块对预处理后的图像进行特征提取,得到源域带标签图像
Figure BDA0003247118650000101
的特征图
Figure BDA0003247118650000102
目标域无标签图像
Figure BDA0003247118650000103
的特征图
Figure BDA0003247118650000104
步骤3.2.2,域判别器D判断步骤3.2.1中特征图的来源;
步骤3.2.3,区域生成网络生成若干候选区域;
步骤3.2.4,兴趣区域头部网络预测最终的分类结果和边界框回归结果;
步骤3.2.5,伪标签动态选取组件选取具有正确伪标签的目标域目标类别样本;
步骤3.2.6,类别语义匹配组件对齐源域和目标域目标类别的分布;
步骤3.2.7,优化器获取域自适应目标检测模型的损失并进行优化;域自适应目标检测模型的损失
Figure BDA0003247118650000105
包括基础目标检测器损失
Figure BDA0003247118650000106
全局特征判别损失
Figure BDA0003247118650000107
类别语义匹配损失
Figure BDA0003247118650000108
如公式(18)所示;使用随机梯度下降算法对公式(18)示出的域自适应目标检测模型的损失
Figure BDA0003247118650000109
进行优化;优化过程多次遍历数据集,参与训练的每一批次图像都会重复经过步骤3.2.1至步骤3.2.6,直至达到设定的总遍历次数,并完成损失的最终收敛,最终获得经过训练的域自适应目标检测模型;
Figure BDA00032471186500001010
其中,λ1和λ2为平衡参数,用来平衡
Figure BDA00032471186500001011
三项损失。
进一步的改进,所述步骤4包括如下步骤:
步骤4.1,主干网络G提取目标域无标签图像
Figure BDA00032471186500001012
的特征:使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化;
步骤4.2,区域生成网络生成候选区域;
步骤4.3,兴趣区域头部网络预测最终的分类结果和边界框回归结果;
步骤4.4,对目标检测模型的预测结果进行后处理,所述后处理包括预测框缩放、预测框绘制、类别信息标注、预测概率标注。
一种上述考虑类别语义匹配的域自适应目标检测方法的系统,包括图像存储模块、预训练模块、再训练模块和检测模块;
图像存储模块用于保存有多种用于目标检测研究的公开数据集,所述用于目标检测研究的公开数据集包含预设场景下的图像以及对应的标签;此外,图像存储模块还用于保存采集得到的待检测场景的图像;
所述预训练模块由域自适应目标检测模型由基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件组合而成;当输入的数据只包含源域带标签图像时,预训练模块使用源域带标签图像对基础目标检测器进行训练,获得经过预训练的基础目标检测器的权重;
当输入的数据包含源域和目标域无标签图像时,所述再训练模块使用经过预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,使用源域和目标域无标签图像对域自适应目标检测模型进行训练,基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件都参与训练,由此获得经过训练的域自适应目标检测模型的权重;
当输入的数据只包含目标域无标签图像时,所述检测模块使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,对目标域无标签图像进行检测,绘制包含目标的预测框并标注对应的类别信息和预测概率。
本发明的优点:
(1)本发明提供的考虑类别语义匹配的域自适应目标检测方法及系统,除了从宏观层面对齐图像级表示以保证全局特征的域不变性之外,还从类别层面对齐目标类别分布以保证类别特征的可判别性。本发明从跨域角度获取目标类别与对应类别中心点特征表示之间的相似性概率分布,通过最小化相似性概率分布的熵,对两域的类别语义进行匹配,保持了两域目标类别语义的一致性。
(2)本发明提供的考虑类别语义匹配的域自适应目标检测方法及系统,在使用源域已有标签和目标域伪标签进行类别语义匹配之前,通过为相似性分数设置随训练过程动态变化的阈值,合理地完成易分类目标类别样本的选取,避免因阈值无法适应易分类样本的增长速率而造成选取的易分类样本中混入错误伪标签的情况,从而潜在地降低伪标签噪声的影响,为跨域目标类别语义匹配提供质量保障。
附图说明
图1为本发明实施例1提供的一种考虑类别语义匹配的域自适应目标检测方法的流程示意图。
图2为本发明实施例1步骤1的具体流程示意图。
图3为本发明实施例1步骤2的具体流程示意图。
图4为本发明实施例1步骤3的具体流程示意图。
图5为本发明实施例1提供的一种考虑类别语义匹配的域自适应目标检测方法的模型框架图。
图6为本发明实施例1提供的特征空间中源域和目标域样本分布的示意图。
图7为本发明实施例1提供的类别空间中源域和目标域目标类别样本分布的示意图。
图8为本发明实施例1步骤4的具体流程示意图。
图9为本发明实施例2提供的一种考虑类别语义匹配的域自适应目标检测系统的结构原理图。
具体实施方式
以下结合附图及实施例对本发明做进一步说明。
实施例1:
步骤1,获取源域带标签图像和目标域无标签图像。
步骤2,使用源域带标签图像训练基础目标检测器。
步骤3,在基础目标检测器上增加域自适应组件,使用源域和目标域图像训练域自适应目标检测模型。
步骤4,移除先前增加的域自适应组件,使用自适应后的基础目标检测器对目标域场景进行目标检测。
进一步的,将步骤1中获取源域带标签图像和目标域无标签图像分为以下几个步骤,如图2所示,其具体表述为:
步骤1.1,获取目标域无标签图像。根据实际应用需求,采集待检测场景的图像,使用采集得到的图像创建数据集,以此为目标域。由于这些图像未经过任何标注,因此目标域图像均不带标签。
步骤1.2,获取源域带标签图像。由于目标检测领域已公开多种用于目标检测研究的数据集,因此可以针对目标域待检测目标的类别,选取与目标检测任务相关的公开数据集作为源域,所有源域图像均带有标签。
方便起见,将带标签的源域记为
Figure BDA0003247118650000131
其中
Figure BDA0003247118650000132
表示第i张源域图像,
Figure BDA0003247118650000133
表示该图像对应的标签,包括边界框标签b以及对应的类别标签c,NS表示源域图像的数量。将无标签的目标域记为
Figure BDA0003247118650000141
Figure BDA0003247118650000142
其中
Figure BDA0003247118650000143
表示第j张目标域图像,Nt表示目标域图像的数量。源域和目标域共享K个目标类别(背景除外),即c∈{1,2,…,K}。
进一步的,将步骤2中使用源域带标签图像训练基础目标检测器分为以下几个步骤,如图3所示,其具体表述为:
步骤2.1,主干网络G提取源域图像
Figure BDA0003247118650000144
的特征。选用Faster R-CNN作为基础目标检测器,选用VGG16作为Faster R-CNN的主干网络G,输入图像依次经过随机水平翻转、特征归一化和等比例缩放操作。通过系列主干网络G的系列卷积块对预处理后的图像进行特征提取,可以得到特征图
Figure BDA0003247118650000145
步骤2.2,区域生成网络(Region Proposal Network,RPN)生成可能包含目标的候选区域。先使用3×3滑动窗口对特征图进行卷积运算,再经过两个1×1卷积层分别预测特征图在当前窗口位置上的前景概率和边界框回归参数。通过先验框模板来生成特征图对应原始图像上的所有先验框。将预测的边界框回归参数应用到先验框上以获得候选框,移除小于指定尺寸的候选框后,再经过非极大值抑制(Non-Maximum Suppression,NMS)处理,最后根据预测的前景概率保留前2000个候选框。RPN的损失
Figure BDA0003247118650000146
包括分类损失项
Figure BDA0003247118650000147
和回归损失项
Figure BDA0003247118650000148
步骤2.3,兴趣区域头部网络(Region of Interest Head,RoI Head)预测最终的分类结果和边界框回归结果。不同尺寸大小的候选区域经过兴趣区域对齐(Region ofInterest Align,RoI Align)后都将转变成维度固定的特征向量,随后经过两个全连接层分别进行目标类别概率预测和边界框回归参数预测。RoI Head的损失
Figure BDA0003247118650000151
包括分类损失项
Figure BDA0003247118650000152
和回归损失项
Figure BDA0003247118650000153
步骤2.4,优化器获取基础目标检测器的损失并对其进行优化。基础目标检测器的损失
Figure BDA0003247118650000154
为区域生成网络损失
Figure BDA0003247118650000155
和兴趣区域头部网络损失
Figure BDA0003247118650000156
之和,如公式(1)所示。使用随机梯度下降(stochastic gradient descent,SGD)算法对基础目标检测器损失
Figure BDA0003247118650000157
进行优化。优化过程将会多次遍历数据集,参与训练的每一批次图像都会重复经过步骤2.1、步骤2.2、步骤2.3,直至达到设定的总遍历次数,并完成损失的收敛,最终获得经过预训练的基础目标检测器。
Figure BDA0003247118650000158
进一步的,将步骤3中在基础目标检测器上增加域自适应组件,使用源域和目标域图像训练域自适应目标检测模型分为以下几个步骤,如图4所示,其具体表述为:
步骤3.1,在基础目标检测器上增加域自适应组件。
步骤3.2,使用源域和目标域图像训练域自适应目标检测模型。
进一步的,将步骤3.1中在基础目标检测器上增加域自适应组件(如图5所示)分为以下几个步骤,其具体表述为:
步骤3.1.1,增加全局特征判别组件。图像级表示包含有图像风格、图像尺度、照明条件等丰富的全局信息,为减轻由图像宏观层面差异引起的域漂移问题,首先考虑从全局角度对齐图像级的特征表示。在主干网络G的输出位置构建域判别器D,域判别器D的作用是区分主干网络G输出的特征图来自源域还是目标域。为了促使源域和目标域全局特征的混淆,在主干网络G和域判别器D之间引入梯度反转层(gradient reverse layer,GRL)。梯度反转层能够在反向传播时对梯度符号取反,实现主干网络G和域判别器D的对抗训练,从而对齐源域和目标域的全局特征。
如图6所示,在特征空间中,易分类的样本远离域判别器D的决策边界,而难分类的样本靠近域判别器D的决策边界。如果直接使用交叉熵损失(Cross-Entropy Loss,CEL)作为域判别器D的优化目标,那么由于该损失对两种样本的惩罚力度相当,因此在训练过程中域判别器D无法聚焦于难分类样本,进而造成难分类样本没有得到充分的挖掘。本发明采用焦点损失(Focal Loss,FL),通过对难分类的样本施加较大的权重,对易分类的样本施加较小的权重,使得域判别器D在训练过程中能够更加关注难分类样本。公式(2)为使用焦点损失计算域判别器D对源域样本的分类损失
Figure BDA0003247118650000161
公式(3)为使用焦点损失计算域判别器D对目标域样本的分类损失
Figure BDA0003247118650000162
公式(4)为域判别器D对源域和目标域样本的总分类损失,即全局特征判别损失
Figure BDA0003247118650000163
Figure BDA0003247118650000164
Figure BDA0003247118650000165
Figure BDA0003247118650000166
其中,κ为聚焦参数,用来控制对难分类样本施加的权重。
步骤3.1.2,增加伪标签动态选取组件。全局特征判别组件只是从宏观层面对齐图像级的特征表示,并未考虑类别空间中源域和目标域类别语义的匹配情况。为进一步促进目标检测模型性能的提升,需要匹配源域和目标域目标类别的语义信息,而在此之前,需要对后续使用到的目标域伪标签进行恰当的选取。
由于目标域图像缺少标签信息,因此直接对齐两域的类别分布存在较大的困难。为保证源域和目标域每个类别的语义得到合适的匹配,可以使用步骤2中预训练得到基础目标检测器为目标域所有无标签图像赋予伪标签。如图7所示,在类别空间中,易分类的目标域类别样本远离分类器的决策边界,而难分类的目标域类别样本靠近分类器的决策边界。在易分类的目标域类别样本中,有些类别样本的伪标签虽然具有较高的置信度,但实际上是被分类器错误分类的,也就是说这种目标域类别样本的伪标签存在错误。直接想法是根据分类器预测得到的置信度对伪标签进行过滤,由于最优阈值往往难以把控,因此过滤后得到的伪标签仍普遍存在噪声,错误的伪标签将在目标类别对齐过程中引入错误的信息,进而导致训练过程中误差的累积。
基于源域图像边界框标签b以及对应的类别标签c,根据公式(5),使用所有属于类别c的源域目标类别样本计算对应类别的中心点特征表示
Figure BDA0003247118650000171
可以得到源域所有目标类别在嵌入空间中的中心点特征表示
Figure BDA0003247118650000172
Figure BDA0003247118650000173
其中,Sc表示属于类别c的所有源域目标类别样本集合;
Figure BDA0003247118650000174
表示第i个源域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;|Sc|表示属于类别c的源域目标类别样本的数量。
使用步骤2中预训练得到基础目标检测器为目标域所有无标签图像赋予伪标签,伪标签包括边界框伪标签以及对应的类别伪标签。根据公式(6),计算伪标签下第j个目标域目标类别样本
Figure BDA0003247118650000181
在嵌入空间中与所有源域目标类别中心点特征表示
Figure BDA0003247118650000182
之间的相似性分数
Figure BDA0003247118650000183
Figure BDA0003247118650000184
保存到属于类别c'的所有目标域目标类别样本集合Tc'中,其中
Figure BDA0003247118650000185
Figure BDA0003247118650000186
其中,cos()为余弦相似度。
在训练过程中,嵌入空间中的源域目标类别样本与目标域目标类别样本之间的距离不断缩短,目标域目标类别样本与所有源域目标类别中心点特征表示之间的相似性分数σ持续增加。在训练初期被视为难分类的目标类别样本随训练过程的推进将会逐渐过渡为易分类的目标类别样本。为选取具有正确伪标签的目标类别样本,可以为相似性分数σ设置固定的阈值τ进行易分类的目标类别样本的选取。由于训练过程中会有越来越多难分类的目标类别样本转变为易分类的目标类别样本,固定的阈值τ无法适应易分类样本的增长速率而造成选取的易分类样本中混入错误伪标签样本。
根据公式(7)在训练过程中对阈值τ进行动态调整。对于
Figure BDA0003247118650000187
中的每个目标域类别样本
Figure BDA0003247118650000188
如果相似性分数σ大于或等于当前的阈值τ,那么就选取该目标类别样本,并将其保存到经过选取的属于类别c'的所有目标域目标类别样本集合
Figure BDA0003247118650000191
中,否则不选取。
Figure BDA0003247118650000192
其中,α和β为常数;n为当前遍历次数,n={1,2,…,max_epoch}。
步骤3.1.3,增加类别语义匹配组件。在选取具有正确伪标签的目标类别样本后,需要匹配源域和目标域特定类别的语义信息,在类别空间中对齐源域和目标域目标类别的分布,从而增强目标类别特征的可判别性。
基于选取后的目标域目标类别样本,根据公式(8),使用所有属于类别c'的目标域目标类别样本计算对应类别的中心点特征表示
Figure BDA0003247118650000193
可以得到目标域所有目标类别在嵌入空间中的中心点特征表示
Figure BDA0003247118650000194
Figure BDA0003247118650000195
其中,
Figure BDA0003247118650000196
表示经过选取的属于类别c'的所有目标域目标类别样本集合;
Figure BDA0003247118650000197
表示第j个目标域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;
Figure BDA0003247118650000198
表示经过选取的属于类别c'目标域目标类别样本的数量。
然而,由于目标检测模型的训练采用小批量SGD算法,每个批次中的样本量通常较少,这就容易导致同一批次的类别信息不充分。例如,在相同的批次中,源域只有属于A类的目标类别样本,而目标域出现了属于B类的目标类别样本,目标域B类样本在当前批次就无法与源域对应的类别样本得到合适的匹配。
为克服上述困难,使用指数加权平均策略对源域和目标域的所有目标类别在嵌入空间中的中心点特征表示进行动态更新。当对源域目标类别中心点特征表示进行更新时,基于属于类别c的所有源域目标类别样本集合Sc,根据公式(5)对目标类别中心点特征表示进行初始化,得到源域初始目标类别中心点特征表示
Figure BDA0003247118650000201
根据公式(9)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度;根据公式(10)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息。
Figure BDA0003247118650000202
Figure BDA0003247118650000203
其中,iter为当前遍历次数中的迭代次数,iter={1,2,…,max_iter}。
当对目标域目标类别中心点特征表示进行更新时,基于经过选取的属于类别c'的所有目标域目标类别样本集合
Figure BDA0003247118650000204
根据公式(8)对目标类别中心点特征表示进行初始化,得到目标域初始目标类别中心点特征表示
Figure BDA0003247118650000205
根据公式(11)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度;根据公式(12)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息。
Figure BDA0003247118650000206
Figure BDA0003247118650000207
为合理匹配源域和目标域的目标类别语义,对不同域的目标类别与对应目标类别中心点特征表示之间进行双向对齐。当进行源域目标类别样本与目标域对应的目标类别中心点特征表示的单向对齐时,给定源域目标类别样本
Figure BDA0003247118650000211
目标域对应的目标类别中心点特征表示
Figure BDA0003247118650000212
根据公式(13)计算得到相似性概率分布
Figure BDA0003247118650000213
Figure BDA0003247118650000214
Figure BDA0003247118650000215
其中,d()表示距离函数,具体为欧氏距离的平方;γ为温度参数,用来控制相似性概率分布集中或分散程度。
当进行目标域目标类别样本与源域对应的目标类别中心点特征表示的单向对齐时,给定目标域目标类别样本
Figure BDA0003247118650000216
源域对应的目标类别中心点特征表示
Figure BDA0003247118650000217
根据公式(14)计算得到相似性概率分布
Figure BDA0003247118650000218
Figure BDA0003247118650000219
根据公式(15)和公式(16),分别计算相似性概率分布
Figure BDA00032471186500002110
Figure BDA00032471186500002111
的熵。
Figure BDA00032471186500002112
Figure BDA00032471186500002113
根据公式(17),将双向对齐得到的相似性概率分布的熵作为跨域目标类别语义匹配的损失。
Figure BDA00032471186500002114
进一步的,将步骤3.2中使用源域和目标域图像训练域自适应目标检测模型分为以下几个步骤,其具体表述为:
步骤3.2.1,主干网络G提取源域图像
Figure BDA0003247118650000221
或目标域图像
Figure BDA0003247118650000222
的特征。使用步骤2中预训练得到的基础目标检测器的权重对域自适应目标检测模型进行初始化,其余过程与步骤2.1相同。
步骤3.2.2,全局特征判别组件判断步骤3.2.1中特征图的来源。
步骤3.2.3,区域生成网络生成可能包含目标的候选区域。具体过程与步骤2.2相同。
步骤3.2.4,兴趣区域头部网络预测最终的分类结果和边界框回归结果。具体过程与步骤2.3相同。
步骤3.2.5,伪标签动态选取组件选取具有正确伪标签的目标域目标类别样本。
步骤3.2.6,类别语义匹配组件对齐源域和目标域目标类别的分布。
步骤3.2.7,优化器获取域自适应目标检测模型的损失并对其进行优化。域自适应目标检测模型的损失
Figure BDA0003247118650000223
包括基础目标检测器损失
Figure BDA0003247118650000224
全局特征判别损失
Figure BDA0003247118650000225
类别语义匹配损失
Figure BDA0003247118650000226
如公式(18)所示。使用随机梯度下降算法对公式(13)示出的域自适应目标检测模型的损失
Figure BDA0003247118650000227
进行优化。只有全局特征判别组件的域分类器存在待学习的参数,伪标签动态选取组件和类别语义匹配组件均不存在待学习的参数。优化过程将会多次遍历数据集,参与训练的每一批次图像都会重复经过步骤3.2.1至步骤3.2.6,直至达到设定的总遍历次数,并完成损失的最终收敛,最终获得经过训练的域自适应目标检测模型。
Figure BDA0003247118650000231
其中,λ1和λ2为平衡参数,用来平衡
Figure BDA0003247118650000232
三项损失。
进一步的,将步骤4中移除先前增加的域自适应组件,使用自适应后的基础目标检测器对目标域场景进行目标检测分为以下几个步骤,如图8所示,其具体表述为:
步骤4.1,主干网络G提取目标域图像
Figure BDA0003247118650000233
的特征。使用步骤3中经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,其余过程与步骤2.1相同。
步骤4.2,区域生成网络生成可能包含目标的候选区域。具体过程与步骤2.2相同,但不计算RPN的损失
Figure BDA0003247118650000234
步骤4.3,兴趣区域头部网络预测最终的分类结果和边界框回归结果。具体过程与步骤2.3相同,但不计算RoI Head的损失
Figure BDA0003247118650000235
步骤4.4,对目标检测模型的预测结果进行后处理,包括预测框缩放、预测框绘制、类别信息标注、预测概率标注。
实施例2:
本发明还提供了一种考虑类别语义匹配的域自适应目标检测系统,如图9所示,该系统包括:
模块1,图像存储模块。图像存储模块保存有多种用于目标检测研究的公开数据集,这些数据集包含特定场景下的图像以及对应的标签。此外,图像存储模块还保存有采集得到的待检测场景的图像。根据实际应用需求,可以选择其中一种公开数据集作为源域,而将采集得到的图像作为目标域。
模块2,预训练模块。域自适应目标检测模型由基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件组合而成。当输入的数据只包含源域图像时,预训练模块使用源域图像对基础目标检测器进行训练,全局特征判别组件、伪标签动态选取组件、类别语义匹配组件不参与训练,由此获得经过预训练的基础目标检测器的权重。
模块3,再训练模块。当输入的数据包含源域和目标域图像时,再训练模块使用经过预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,使用源域和目标域图像对域自适应目标检测模型进行训练,基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件都参与训练,由此获得经过训练的域自适应目标检测模型的权重。
模块4,检测模块。当输入的数据只包含目标域图像时,检测模块使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,对目标域图像进行检测,绘制包含目标的预测框并标注对应的类别信息和预测概率。在检测过程中,目标域图像只会经过基础目标检测器,并不会经过全局特征判别组件、伪标签动态选取组件、类别语义匹配组件。
尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

Claims (7)

1.一种考虑类别语义匹配的域自适应目标检测方法,其特征在于,包括如下步骤:
步骤1,获取源域带标签图像和目标域无标签图像;
步骤2,使用源域带标签图像训练得到经过预训练的基础目标检测器;
步骤3,在经过预训练的基础目标检测器上增加域自适应组件,使用源域带标签图像和目标域无标签图像训练得到经过训练的域自适应目标检测模型;
步骤4,移除增加的域自适应组件,使用经过训练的域自适应目标检测模型对目标域场景进行目标检测。
2.如权利要求1所述的考虑类别语义匹配的域自适应目标检测方法,其特征在于,所述步骤1包括如下步骤:
步骤1.1,获取目标域无标签图像:根据实际应用需求,采集待检测场景的图像,使用采集得到的图像创建数据集作为无标签的目标域,无标签的目标域中的图像即目标域无标签图像;
步骤1.2,获取源域带标签图像:针对目标域待检测目标的类别,选取与目标检测任务相关的公开数据集作为源域,源域中的图像即源域带标签图像;
源域记为
Figure FDA0003247118640000011
其中
Figure FDA0003247118640000012
表示第i张源域带标签图像,
Figure FDA0003247118640000013
表示第i张源域带标签图像对应的标签,包括边界框标签b以及对应的类别标签c;Ns表示源域带标签图像的数量;
目标域记为
Figure FDA0003247118640000014
其中
Figure FDA0003247118640000015
表示第j张目标域无标签图像,Nt表示目标域无标签图像的数量;
源域和目标域共享K个目标类别即c∈{1,2,…,K}。
3.如权利要求1所述的考虑类别语义匹配的域自适应目标检测方法,其特征在于,所述步骤2包括如下步骤:
步骤2.1,主干网络G提取源域带标签图像
Figure FDA00032471186400000218
的特征:选用Faster R-CNN作为基础目标检测器,选用VGG16作为FasterR-CNN的主干网络G,输入图像依次经过随机水平翻转、特征归一化和等比例缩放的预处理操作,通过主干网络G的系列卷积块对预处理后的图像进行特征提取,得到源域带标签图像
Figure FDA0003247118640000021
的特征图
Figure FDA0003247118640000022
步骤2.2,区域生成网络(RPN)生成候选区域:先使用3×3滑动窗口对特征图
Figure FDA0003247118640000023
进行卷积运算,再经过两个1×1卷积层分别预测特征图
Figure FDA0003247118640000024
在当前窗口位置上的前景概率和边界框回归参数;通过先验框模板生成特征图
Figure FDA0003247118640000025
对应源域带标签图像
Figure FDA0003247118640000026
上的所有先验框;将预测的边界框回归参数应用到先验框上以获得候选框,移除小于指定尺寸的候选框后,再经过非极大值抑制处理,最后根据预测的前景概率保留前2000个概率最大的候选框,区域生成网络的损失
Figure FDA0003247118640000027
包括分类损失项
Figure FDA0003247118640000028
和回归损失项
Figure FDA0003247118640000029
步骤2.3,通过兴趣区域头部网络(RoI Head)预测最终的分类结果和边界框回归结果:不同尺寸大小候选框内的候选区域经过兴趣区域头部网络的兴趣区域对齐(RoI Align)后都转变成维度固定的特征向量,随后经过两个全连接层分别进行目标类别概率预测和边界框回归参数预测;兴趣区域头部网络的损失
Figure FDA00032471186400000210
包括分类损失项
Figure FDA00032471186400000211
和回归损失项
Figure FDA00032471186400000212
步骤2.4,通过优化器获取基础目标检测器的损失并对基础目标检测器进行优化:基础目标检测器的损失
Figure FDA00032471186400000213
为区域生成网络损失
Figure FDA00032471186400000214
和兴趣区域头部网络损失
Figure FDA00032471186400000215
之和,如公式(1)所示:
Figure FDA00032471186400000216
使用随机梯度下降算法对基础目标检测器损失
Figure FDA00032471186400000217
进行优化,优化过程多次遍历数据集,参与训练的每一批次图像都重复经过步骤2.1、步骤2.2、步骤2.3,直至达到设定的总遍历次数,并完成损失的收敛,最终获得经过预训练的基础目标检测器。
4.如权利要求1所述的考虑类别语义匹配的域自适应目标检测方法,其特征在于,所述步骤3包括如下步骤:
步骤3.1,在经过预训练的基础目标检测器增加域自适应组件;
步骤3.2,使用源域带标签图像和目标域无标签图像训练得到域自适应目标检测模型;
所述步骤3.1,包括如下步骤:
步骤3.1.1,增加全局特征判别组件:在主干网络G的输出位置构建域判别器D,域判别器D用于区分主干网络G输出的特征图来自源域还是目标域;在主干网络G和域判别器D之间引入梯度反转层,梯度反转层用于在反向传播时对梯度符号取反,实现主干网络G和域判别器D的对抗训练,从而对齐源域和目标域的全局特征;
采用焦点损失计算域判别器D的损失:
Figure FDA0003247118640000031
Figure FDA0003247118640000032
Figure FDA0003247118640000033
其中,
Figure FDA0003247118640000034
为使用焦点损失计算域判别器D对源域样本的分类损失,
Figure FDA0003247118640000035
为使用焦点损失计算域判别器D对目标域样本的分类损失,
Figure FDA0003247118640000036
为域判别器D对源域和目标域样本的总分类损失,即全局特征判别损失;κ为聚焦参数,用来控制对难分类样本施加的权重;D()表示域分类器D预测样本属于源域的概率;
步骤3.1.2,增加伪标签动态选取组件:
基于源域带标签图像边界框标签b以及对应的类别标签c,根据公式(5),使用所有属于类别c的源域目标类别样本计算对应类别的中心点特征表示
Figure FDA0003247118640000041
得到源域所有目标类别在嵌入空间中的中心点特征表示
Figure FDA0003247118640000042
Figure FDA0003247118640000043
其中,Sc表示属于类别c的所有源域目标类别样本集合;
Figure FDA0003247118640000044
表示第i个源域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;|Sc|表示属于类别c的源域目标类别样本的数量;
使用步骤2中预训练的基础目标检测器为目标域所有无标签图像赋予伪标签,伪标签包括边界框伪标签以及对应的类别伪标签;根据公式(6),计算伪标签下第j个目标域目标类别样本
Figure FDA0003247118640000045
在嵌入空间中与所有源域目标类别中心点特征表示
Figure FDA0003247118640000046
之间的相似性分数
Figure FDA0003247118640000047
Figure FDA0003247118640000048
保存到属于类别c'的所有目标域目标类别样本集合Tc’中,其中
Figure FDA0003247118640000049
Figure FDA00032471186400000410
其中,cos()为余弦相似度;
根据公式(7)在训练过程中对阈值τ进行动态调整;对于
Figure FDA00032471186400000411
中的每个目标域类别样本
Figure FDA00032471186400000412
如果相似性分数σ大于或等于当前的阈值τ,那么就选取该目标类别样本,并保存到经过选取的属于类别c'的所有目标域目标类别样本集合
Figure FDA00032471186400000413
中,否则不选取;
Figure FDA00032471186400000414
其中,α和β为常数;n为当前遍历次数,n={1,2,…,max_epoch};
Figure FDA0003247118640000051
表示各个类别的目标域目标类别样本集合的集合,
Figure FDA0003247118640000052
表示经过选取的属于类别c'的所有目标域目标类别样本集合;max_epoch表示设定的最大遍历次数;
步骤3.1.3,增加类别语义匹配组件:在选取具有正确伪标签的目标类别样本后,在类别空间中对齐源域和目标域目标类别的分布,从而增强目标类别特征的可判别性:
基于选取后的目标域目标类别样本,根据公式(8),使用所有属于类别c'的目标域目标类别样本计算对应类别的中心点特征表示
Figure FDA0003247118640000053
得到目标域所有目标类别在嵌入空间中的中心点特征表示
Figure FDA0003247118640000054
Figure FDA0003247118640000055
其中,
Figure FDA0003247118640000056
表示经过选取的属于类别c'的所有目标域目标类别样本集合;
Figure FDA0003247118640000057
表示第j个目标域目标类别样本;R表示嵌入函数,具体为兴趣区域对齐以及随后的两个串联全连接层;
Figure FDA0003247118640000058
表示经过选取的属于类别c'的目标域目标类别样本的数量;
使用指数加权平均策略对源域和目标域的所有目标类别在嵌入空间中的中心点特征表示进行动态更新;当对源域目标类别中心点特征表示进行更新时,基于属于类别c的所有源域目标类别样本集合Sc,根据公式(5)对目标类别中心点特征表示进行初始化,得到源域初始目标类别中心点特征表示
Figure FDA0003247118640000059
根据公式(9)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度ξs;根据公式(10)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息;
Figure FDA00032471186400000510
Figure FDA0003247118640000061
其中,iter为当前遍历次数中的迭代次数,iter={1,2,…,max_iter};
Figure FDA0003247118640000062
表示经过第iter次迭代后源域目标类别中心点特征表示;
当对目标域目标类别中心点特征表示进行更新时,基于经过选取的属于类别c'的所有目标域目标类别样本集合
Figure FDA0003247118640000063
根据公式(8)对目标类别中心点特征表示进行初始化,得到目标域初始目标类别中心点特征表示
Figure FDA0003247118640000064
根据公式(11)计算新一轮迭代的中心点特征表示与前一轮迭代的中心点特征表示之间的余弦相似度ξt;根据公式(12)对旧的中心点特征表示进行覆盖,以保证新的中心点特征表示既包含当前类别信息又包含此前类别信息;
Figure FDA0003247118640000065
Figure FDA0003247118640000066
其中,
Figure FDA0003247118640000067
表示经过第iter次迭代后目标域目标类别中心点特征表示;
对不同域的目标类别与对应目标类别中心点特征表示之间进行双向对齐,当进行源域目标类别样本与目标域对应的目标类别中心点特征表示的单向对齐时,给定源域目标类别样本
Figure FDA0003247118640000068
目标域对应的目标类别中心点特征表示
Figure FDA0003247118640000069
根据公式(13)计算得到源域匹配目标域相似性概率分布
Figure FDA00032471186400000610
Figure FDA00032471186400000611
其中,d()表示距离函数,具体为欧氏距离的平方;γ为温度参数,用来控制相似性概率分布集中或分散程度;
当进行目标域目标类别样本与源域对应的目标类别中心点特征表示的单向对齐时,给定目标域目标类别样本
Figure FDA0003247118640000071
源域对应的目标类别中心点特征表示
Figure FDA0003247118640000072
根据公式(14)计算得到目标域匹配源域相似性概率分布
Figure FDA0003247118640000073
Figure FDA0003247118640000074
根据公式(15)和公式(16),分别计算源域匹配目标域相似性概率分布
Figure FDA0003247118640000075
的熵
Figure FDA0003247118640000076
和目标域匹配源域相似性概率分布
Figure FDA0003247118640000077
的熵
Figure FDA0003247118640000078
Figure FDA0003247118640000079
Figure FDA00032471186400000710
根据公式(17),将双向对齐得到的相似性概率分布的熵
Figure FDA00032471186400000711
Figure FDA00032471186400000712
之和作为跨域目标类别语义匹配的损失
Figure FDA00032471186400000713
Figure FDA00032471186400000714
5.如权利要求4所述的考虑类别语义匹配的域自适应目标检测方法,其特征在于,所述步骤3.2包括如下步骤:
步骤3.2.1,主干网络G提取源域带标签图像
Figure FDA00032471186400000715
或目标域无标签图像
Figure FDA00032471186400000716
的特征:使用步骤2中预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,输入图像依次经过随机水平翻转、特征归一化和等比例缩放的预处理操作,通过主干网络G的系列卷积块对预处理后的图像进行特征提取,得到源域带标签图像
Figure FDA00032471186400000717
的特征图
Figure FDA00032471186400000718
目标域无标签图像
Figure FDA00032471186400000719
的特征图
Figure FDA00032471186400000720
步骤3.2.2,域判别器D判断步骤3.2.1中特征图的来源;
步骤3.2.3,区域生成网络生成若干候选区域;
步骤3.2.4,兴趣区域头部网络预测最终的分类结果和边界框回归结果;
步骤3.2.5,伪标签动态选取组件选取具有正确伪标签的目标域目标类别样本;
步骤3.2.6,类别语义匹配组件对齐源域和目标域目标类别的分布;
步骤3.2.7,优化器获取域自适应目标检测模型的损失并进行优化;域自适应目标检测模型的损失
Figure FDA0003247118640000081
包括基础目标检测器损失
Figure FDA0003247118640000082
全局特征判别损失
Figure FDA0003247118640000083
类别语义匹配损失
Figure FDA0003247118640000084
如公式(18)所示;使用随机梯度下降算法对公式(18)示出的域自适应目标检测模型的损失
Figure FDA0003247118640000085
进行优化;优化过程多次遍历数据集,参与训练的每一批次图像都会重复经过步骤3.2.1至步骤3.2.6,直至达到设定的总遍历次数,并完成损失的最终收敛,最终获得经过训练的域自适应目标检测模型;
Figure FDA0003247118640000086
其中,λ1和λ2为平衡参数,用来平衡
Figure FDA0003247118640000087
三项损失。
6.如权利要求1所述的考虑类别语义匹配的域自适应目标检测方法,其特征在于,所述步骤4包括如下步骤:
步骤4.1,主干网络G提取目标域无标签图像
Figure FDA0003247118640000088
的特征:使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化;
步骤4.2,区域生成网络生成候选区域;
步骤4.3,兴趣区域头部网络预测最终的分类结果和边界框回归结果;
步骤4.4,对目标检测模型的预测结果进行后处理,所述后处理包括预测框缩放、预测框绘制、类别信息标注、预测概率标注。
7.一种使用权利要求1-6任一所述考虑类别语义匹配的域自适应目标检测方法的系统,其特征在于,包括图像存储模块、预训练模块、再训练模块和检测模块;
图像存储模块用于保存有多种用于目标检测研究的公开数据集,所述用于目标检测研究的公开数据集包含预设场景下的图像以及对应的标签;此外,图像存储模块还用于保存采集得到的待检测场景的图像;
所述预训练模块由域自适应目标检测模型由基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件组合而成;当输入的数据只包含源域带标签图像时,预训练模块使用源域带标签图像对基础目标检测器进行训练,获得经过预训练的基础目标检测器的权重;
当输入的数据包含源域和目标域无标签图像时,所述再训练模块使用经过预训练的基础目标检测器的权重对域自适应目标检测模型进行初始化,使用源域和目标域无标签图像对域自适应目标检测模型进行训练,基础目标检测器、全局特征判别组件、伪标签动态选取组件、类别语义匹配组件都参与训练,由此获得经过训练的域自适应目标检测模型的权重;
当输入的数据只包含目标域无标签图像时,所述检测模块使用经过训练的域自适应目标检测模型的权重对基础目标检测器进行初始化,对目标域无标签图像进行检测,绘制包含目标的预测框并标注对应的类别信息和预测概率。
CN202111036092.5A 2021-09-06 2021-09-06 一种考虑类别语义匹配的域自适应目标检测方法及系统 Active CN113807420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111036092.5A CN113807420B (zh) 2021-09-06 2021-09-06 一种考虑类别语义匹配的域自适应目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111036092.5A CN113807420B (zh) 2021-09-06 2021-09-06 一种考虑类别语义匹配的域自适应目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN113807420A true CN113807420A (zh) 2021-12-17
CN113807420B CN113807420B (zh) 2024-03-19

Family

ID=78894764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111036092.5A Active CN113807420B (zh) 2021-09-06 2021-09-06 一种考虑类别语义匹配的域自适应目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN113807420B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283287A (zh) * 2022-03-09 2022-04-05 南京航空航天大学 基于自训练噪声标签纠正的鲁棒领域自适应图像学习方法
CN114386527A (zh) * 2022-01-18 2022-04-22 湖南大学无锡智能控制研究院 一种用于域自适应目标检测的类别正则化方法及系统
CN114693983A (zh) * 2022-05-30 2022-07-01 中国科学技术大学 基于图像-实例对齐网络的训练方法和跨域目标检测方法
CN114821152A (zh) * 2022-03-23 2022-07-29 湖南大学 基于前景-类别感知对齐的域自适应目标检测方法及系统
CN114912516A (zh) * 2022-04-25 2022-08-16 湖南大学无锡智能控制研究院 一种协调特征一致性和特异性的跨域目标检测方法及系统
CN116167288A (zh) * 2023-04-19 2023-05-26 中国科学技术大学 一种ua2ft半监督迁移学习建模方法、介质及设备
CN116502644A (zh) * 2023-06-27 2023-07-28 浙江大学 一种基于无源领域自适应的商品实体匹配方法及装置
CN117576453A (zh) * 2023-11-14 2024-02-20 中国人民解放军陆军装甲兵学院 一种跨域装甲目标检测方法、系统、电子设备及存储介质
CN117876822A (zh) * 2024-03-11 2024-04-12 盛视科技股份有限公司 应用于鱼眼场景中的目标检测迁移训练方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564121A (zh) * 2018-04-09 2018-09-21 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
DE102018126664A1 (de) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC Domänenanpassung durch klassenausgeglichenes selbsttraining mit räumlichen prioren
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
US20190325299A1 (en) * 2018-04-18 2019-10-24 Element Ai Inc. Unsupervised domain adaptation with similarity learning for images
CN110795590A (zh) * 2019-09-30 2020-02-14 武汉大学 基于直推式零样本哈希的多标签图像检索方法及设备
CN111340021A (zh) * 2020-02-20 2020-06-26 中国科学技术大学 基于中心对齐和关系显著性的无监督域适应目标检测方法
CN111386536A (zh) * 2017-10-27 2020-07-07 谷歌有限责任公司 语义一致的图像样式转换
CN112115916A (zh) * 2020-09-29 2020-12-22 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN112257808A (zh) * 2020-11-02 2021-01-22 郑州大学 用于零样本分类的集成协同训练方法、装置及终端设备
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112465836A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
WO2021120752A1 (zh) * 2020-07-28 2021-06-24 平安科技(深圳)有限公司 域自适应模型训练、图像检测方法、装置、设备及介质
CN113158943A (zh) * 2021-04-29 2021-07-23 杭州电子科技大学 一种跨域红外目标检测方法
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统
CN113221905A (zh) * 2021-05-18 2021-08-06 浙江大学 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018126664A1 (de) * 2017-10-27 2019-05-02 GM Global Technology Operations LLC Domänenanpassung durch klassenausgeglichenes selbsttraining mit räumlichen prioren
CN111386536A (zh) * 2017-10-27 2020-07-07 谷歌有限责任公司 语义一致的图像样式转换
CN108564121A (zh) * 2018-04-09 2018-09-21 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
US20190325299A1 (en) * 2018-04-18 2019-10-24 Element Ai Inc. Unsupervised domain adaptation with similarity learning for images
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
CN110795590A (zh) * 2019-09-30 2020-02-14 武汉大学 基于直推式零样本哈希的多标签图像检索方法及设备
CN111340021A (zh) * 2020-02-20 2020-06-26 中国科学技术大学 基于中心对齐和关系显著性的无监督域适应目标检测方法
WO2021120752A1 (zh) * 2020-07-28 2021-06-24 平安科技(深圳)有限公司 域自适应模型训练、图像检测方法、装置、设备及介质
CN112115916A (zh) * 2020-09-29 2020-12-22 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN112257808A (zh) * 2020-11-02 2021-01-22 郑州大学 用于零样本分类的集成协同训练方法、装置及终端设备
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112465836A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 基于轮廓信息的热红外语义分割无监督领域自适应方法
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113326731A (zh) * 2021-04-22 2021-08-31 南京大学 一种基于动量网络指导的跨域行人重识别算法
CN113158943A (zh) * 2021-04-29 2021-07-23 杭州电子科技大学 一种跨域红外目标检测方法
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统
CN113221905A (zh) * 2021-05-18 2021-08-06 浙江大学 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张天坤;李汶原;平凡;史振威;: "面向多源遥感图像的自适应目标检测", 信号处理, no. 09 *
贾颖霞;郎丛妍;冯松鹤;: "基于类别相关的领域自适应交通图像语义分割方法", 计算机研究与发展, no. 04 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386527A (zh) * 2022-01-18 2022-04-22 湖南大学无锡智能控制研究院 一种用于域自适应目标检测的类别正则化方法及系统
CN114283287A (zh) * 2022-03-09 2022-04-05 南京航空航天大学 基于自训练噪声标签纠正的鲁棒领域自适应图像学习方法
CN114821152A (zh) * 2022-03-23 2022-07-29 湖南大学 基于前景-类别感知对齐的域自适应目标检测方法及系统
CN114912516A (zh) * 2022-04-25 2022-08-16 湖南大学无锡智能控制研究院 一种协调特征一致性和特异性的跨域目标检测方法及系统
CN114693983A (zh) * 2022-05-30 2022-07-01 中国科学技术大学 基于图像-实例对齐网络的训练方法和跨域目标检测方法
CN116167288A (zh) * 2023-04-19 2023-05-26 中国科学技术大学 一种ua2ft半监督迁移学习建模方法、介质及设备
CN116502644A (zh) * 2023-06-27 2023-07-28 浙江大学 一种基于无源领域自适应的商品实体匹配方法及装置
CN116502644B (zh) * 2023-06-27 2023-09-22 浙江大学 一种基于无源领域自适应的商品实体匹配方法及装置
CN117576453A (zh) * 2023-11-14 2024-02-20 中国人民解放军陆军装甲兵学院 一种跨域装甲目标检测方法、系统、电子设备及存储介质
CN117876822A (zh) * 2024-03-11 2024-04-12 盛视科技股份有限公司 应用于鱼眼场景中的目标检测迁移训练方法
CN117876822B (zh) * 2024-03-11 2024-05-28 盛视科技股份有限公司 应用于鱼眼场景中的目标检测迁移训练方法

Also Published As

Publication number Publication date
CN113807420B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN113807420B (zh) 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN111832605B (zh) 无监督图像分类模型的训练方法、装置和电子设备
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN109614907B (zh) 基于特征强化引导卷积神经网络的行人再识别方法及装置
US11775875B2 (en) Method for recognizing fog concentration of hazy image
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
CN103136504A (zh) 人脸识别方法及装置
CN110245620B (zh) 一种基于注意力的非最大化抑制方法
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN116342942A (zh) 基于多级域适应弱监督学习的跨域目标检测方法
CN114882534B (zh) 基于反事实注意力学习的行人再识别方法、系统、介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113808123B (zh) 一种基于机器视觉的药液袋动态检测方法
CN111104973A (zh) 一种基于知识注意力的细粒度图像分类方法
CN112613474B (zh) 一种行人重识别的方法和装置
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN115830401B (zh) 一种小样本图像分类方法
CN116486172A (zh) 基于语义表征的无监督域适应图像分类方法
CN116309466A (zh) 一种基于对比学习的跨域目标检测方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN116561614A (zh) 一种基于元学习的小样本数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant