CN112396097B - 基于加权最优传输的无监督域自适应视觉目标检测方法 - Google Patents

基于加权最优传输的无监督域自适应视觉目标检测方法 Download PDF

Info

Publication number
CN112396097B
CN112396097B CN202011236412.7A CN202011236412A CN112396097B CN 112396097 B CN112396097 B CN 112396097B CN 202011236412 A CN202011236412 A CN 202011236412A CN 112396097 B CN112396097 B CN 112396097B
Authority
CN
China
Prior art keywords
domain
target
optimal transmission
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011236412.7A
Other languages
English (en)
Other versions
CN112396097A (zh
Inventor
詹宗沅
魏朋旭
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011236412.7A priority Critical patent/CN112396097B/zh
Publication of CN112396097A publication Critical patent/CN112396097A/zh
Application granted granted Critical
Publication of CN112396097B publication Critical patent/CN112396097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法包括以下步骤:基于最优传输的域间样本对采样方法,基于加权最优传输的候选区域域间特征对齐学习,浅层全局特征对抗对齐学习,深层全局特征对抗对齐学习,上下文特征融合连接。本发明一方面解决了无监督域自适应目标检测中提案候选区域特征如何对齐的问题;另一方面,解决了最优传输算法初始的域间类别分布不均衡问题,根据候选区域类别数量重新分配最优传输算法的初始分布权重,使得两域间同类的候选区域总权重一致,有效的减少了错误类别匹配的发生,保证域差异减小的同时保持类别判别性。

Description

基于加权最优传输的无监督域自适应视觉目标检测方法
技术领域
本发明属于目标检测技术领域,具体涉及一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质。
背景技术
深度学习技术的突破推动了计算机视觉领域的发展,促使图像识别、目标检测等技术的应用化。然而,深度学习应用存在一些困难,模型往往在训练集上性能优秀,却在实际应用场景中出现性能的退化。许多研究已经表明应用性能中的退化源于“域偏差”,即测试数据和训练数据的域差异,在研究中训练数据集常常称为源域,测试数据称为目标域。为了解决“域差异”的问题,技术人员可以大量收集目标域的数据,并且进行人工标注,补充到模型的训练数据中。目标域的二次标注所带来的成本是高昂的,一旦应用场景变化,就会造成更多的标注人力成本。
近年来逐渐兴起无监督域适应技术的研究,这项技术能够解决上述应用场景中源域和目标域的偏差,减少人工标注的负担,帮助模型在应用中快速适应目标域。最初这项技术常常被应用于图像识别任务,很难直接应用到目标检测任务中,具体表现为:(1)未考虑目标检测中多个目标之间更精细化的域间表征匹配。(2)训练中批数据存在域间类别不均衡的问题。这将导致无监督域适应目标检测应用中常常出现类别判别性差的问题。
最优传输是一种能够衡量两个分布距离的算法,能够计算两个离散分布之间迁移总损失最小的迁移方案。在无监督域适应领域中,最优传输算法也是一种是常见的度量技术。现有研究中,仅将最优传输算法应用于图像识别任务中,当应用于更复杂的目标检测任务,最优传输算法的度量容易导致域间错误类别的匹配。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法通过基于最优传输算法的采样策略优化源域和目标域训练过程中采样策略,提升每个训练批次中域间同类样本的数量;再通过一个改进了的加权最优传输算法求解候选区域最佳匹配策略,解决了无监督域自适应目标检测任务中提案候选区域特征对齐的问题,并改善了该对齐过程中类别错误匹配的问题,提高目标域特征的域判别性,有效的提升目标域目标检测性能。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
优选的,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure GDA0003513966290000031
Figure GDA0003513966290000032
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure GDA0003513966290000033
表示
Figure GDA0003513966290000034
Figure GDA0003513966290000035
之间欧拉距离的平方,具体为:
Figure GDA0003513966290000036
采用
Figure GDA0003513966290000037
Figure GDA0003513966290000038
分别表示源域和目标域的样本出现的概率,NI,S,NI,T分别表示源域和目标域图像总数,则满足条件:
Figure GDA0003513966290000039
Figure GDA00035139662900000310
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure GDA0003513966290000041
Figure GDA0003513966290000042
Figure GDA0003513966290000043
Figure GDA0003513966290000044
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure GDA0003513966290000045
采样匹配度最高的目标域样本
Figure GDA0003513966290000046
Figure GDA0003513966290000047
优选的,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
优选的,所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure GDA0003513966290000048
Figure GDA0003513966290000049
其中,
Figure GDA00035139662900000410
Figure GDA00035139662900000411
分别表示当前批次中源域第i个和目标域第j个候选区域特征,
Figure GDA0003513966290000051
表示
Figure GDA0003513966290000052
Figure GDA0003513966290000053
欧拉距离的平方,
Figure GDA0003513966290000054
Figure GDA0003513966290000055
分别表示源域和目标域的候选区域目标出现的权重;
目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure GDA0003513966290000056
Figure GDA0003513966290000057
Figure GDA0003513966290000058
Figure GDA0003513966290000059
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure GDA00035139662900000510
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
优选的,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure GDA0003513966290000061
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure GDA0003513966290000062
优选的,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure GDA0003513966290000063
Figure GDA0003513966290000064
Figure GDA0003513966290000065
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure GDA0003513966290000071
优选的,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2
优选的,所述检测器采用两阶段检测器Faster-RCNN。
本发明还提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
本发明还提供了一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出了一种基于最优传输算法训练采样策略,缓解源域和目标域因随机采样造成的域适应难度不稳定问题,帮助训练过程中两域间特征语义信息能够更加接近,进而更加稳定的对齐域间特征。
2、本发明提出了一种基于加权最优传输算法候选区域特征对齐方法,针对目标检测的特点,精细化的对齐域间同类候选区域的特征,使得模型在目标域上得到更准确的类别判别效果。
附图说明
图1是本发明方法的模型架构图。
图2是本发明系统的结构示意图。
图3是本发明存储介质结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
S1、基于最优传输的域间样本对采样方法,用于提高域适应训练稳定性,保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致,具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure GDA0003513966290000091
Figure GDA0003513966290000092
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure GDA0003513966290000093
表示
Figure GDA0003513966290000094
Figure GDA0003513966290000095
之间欧拉距离的平方,具体为:
Figure GDA0003513966290000096
采用
Figure GDA0003513966290000097
Figure GDA0003513966290000098
分别表示源域和目标域的样本出现的概率,NI,S,NI,T分别表示源域和目标域图像总数,则满足条件:
Figure GDA0003513966290000099
Figure GDA00035139662900000910
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure GDA00035139662900000911
Figure GDA00035139662900000912
Figure GDA00035139662900000913
Figure GDA00035139662900000914
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure GDA00035139662900000915
采样匹配度最高的目标域样本
Figure GDA00035139662900000916
表示为:
Figure GDA0003513966290000101
在本实施例中,为保证更加充分利用目标域样本,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
S2、基于加权最优传输的候选区域域间特征对齐学习,用于源域和目标域候选区域语义特征的精确对齐,保证候选区域特征进一步精细化对齐,增强目标域候选区域特征判别性,具体为:
在本实施例中,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域大小为7x7x512维的目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度为512维;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure GDA0003513966290000102
Figure GDA0003513966290000103
其中,
Figure GDA0003513966290000104
Figure GDA0003513966290000105
分别表示当前批次中源域第i个和目标域第j个候选区域特征,
Figure GDA0003513966290000106
表示
Figure GDA0003513966290000107
Figure GDA0003513966290000108
欧拉距离的平方,
Figure GDA0003513966290000109
Figure GDA00035139662900001010
分别表示源域和目标域的候选区域目标出现的概率(权重);目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致。
在本实施例中,根据目标类别信息重新分配权重,使得两域间相同类别总权重保持一致,通过这种方式降低了错误类别的匹配情况,以解决传统最优传输算法应用于域适应特征对齐时类别错误匹配的问题;
进一步构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure GDA0003513966290000111
Figure GDA0003513966290000112
Figure GDA0003513966290000113
Figure GDA0003513966290000114
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure GDA0003513966290000115
其中,αot是控制损失函数大小的参数;通过最优传输算法的解能够得到对应类别特征的匹配信息,再进一步缩小两域间同类提案候选区域的特征距离,有效提升目标域特征的判别性和适应性。
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
S3、浅层全局特征对抗对齐学习,用于对齐骨干网络中浅层特征,使得模型适应目标域底层视觉要素,如纹理、颜色等,减小源域和目标域之间的浅层特征分布差异,具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure GDA0003513966290000121
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure GDA0003513966290000122
S4、深层全局特征对抗对齐学习,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征,提升模型在目标域高级语义特征中的适应性,具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure GDA0003513966290000131
Figure GDA0003513966290000132
Figure GDA0003513966290000133
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制难样本权重的平衡系数,在本实施例中取值为5.0;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure GDA0003513966290000134
合并上述两个对抗判别模块的损失函数,构成对抗判别损失函数:
Lda=Lda1+Lda2
S5、上下文特征融合连接,用于补充候选区域特征的上下文信息,具体为:
采用上述步骤S3和S4的浅层和深层域判别器的中间特征作为上下文信息,采用域判别器第一层卷积后的特征,并且经过全局平均池化得到固定维度特征,将该上下文特征补充到候选区域的特征中,具体的,融合的候选区域特征来自分类回归分支中第二次全连接的4096维特征,再对融合后的特征进行分类和回归。
在本实施例中,所述目标检测器采用两阶段检测器Faster-RCNN作为目标检测器,是无监督域自适应目标检测的对象,应用于最终的目标域检测。所述目标检测器采用的骨干网络是VGG-16,输入图像到骨干网络,从骨干网络第五卷积组输出图像的特征图。特征图通过第一阶段的区域提案网络进行锚点的分类和回归定位得到一系列候选区域,在训练阶段区域提案网络学习源域目标的分类和定位。进一步通过池化提取候选区域相同大小的特征,经过两层全连接后与来自域判别器的上下文特征进行连接,再进行最终候选区域的分类和回归。
如图2所示,在另一个实施例中,提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
如图3所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法,具体为:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure FDA0003513966280000011
Figure FDA0003513966280000012
对于任意c
其中,
Figure FDA0003513966280000013
Figure FDA0003513966280000014
分别表示源域和目标域的候选区域目标出现的权重;目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure FDA0003513966280000021
其中,
Figure FDA0003513966280000022
Figure FDA0003513966280000023
Figure FDA0003513966280000024
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure FDA0003513966280000025
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
2.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure FDA0003513966280000026
Figure FDA0003513966280000027
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure FDA0003513966280000028
表示
Figure FDA0003513966280000031
Figure FDA0003513966280000032
之间欧拉距离的平方,具体为:
Figure FDA0003513966280000033
采用
Figure FDA0003513966280000034
Figure FDA0003513966280000035
分别表示源域和目标域的样本出现的概率,NI,S,NI,T分别表示源域和目标域图像总数,则满足条件:
Figure FDA0003513966280000036
Figure FDA0003513966280000037
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure FDA0003513966280000038
其中,
Figure FDA0003513966280000039
Figure FDA00035139662800000310
Figure FDA00035139662800000311
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure FDA00035139662800000312
采样匹配度最高的目标域样本
Figure FDA00035139662800000313
Figure FDA00035139662800000314
3.根据权利要求2所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
4.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure FDA0003513966280000041
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;
Figure FDA0003513966280000042
表示同一训练批次中第ni个样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;
Figure FDA0003513966280000043
表示第ni个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure FDA0003513966280000044
5.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考FocalLoss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure FDA0003513966280000051
Figure FDA0003513966280000052
Figure FDA0003513966280000053
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure FDA0003513966280000054
6.根据权利要求4或5所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2
7.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述检测器采用两阶段检测器Faster-RCNN。
8.基于加权最优传输的无监督域自适应视觉目标检测系统,其特征在于,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
所述候选区域域间特征对齐学习模块,用于基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure FDA0003513966280000061
Figure FDA0003513966280000062
对于任意c
其中,
Figure FDA0003513966280000063
Figure FDA0003513966280000064
分别表示源域和目标域的候选区域目标出现的权重;目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure FDA0003513966280000065
其中,
Figure FDA0003513966280000066
Figure FDA0003513966280000071
Figure FDA0003513966280000072
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure FDA0003513966280000073
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离;
所述浅层全局特征对抗对齐学习模块,用于采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
所述深层全局特征对抗对齐学习模块,用于采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
所述上下文特征融合连接模块,用于计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
9.一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现如权利要求1-7任一项所述的基于加权最优传输的无监督域自适应视觉目标检测方法。
CN202011236412.7A 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法 Active CN112396097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011236412.7A CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011236412.7A CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Publications (2)

Publication Number Publication Date
CN112396097A CN112396097A (zh) 2021-02-23
CN112396097B true CN112396097B (zh) 2022-05-17

Family

ID=74598951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011236412.7A Active CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Country Status (1)

Country Link
CN (1) CN112396097B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222997A (zh) * 2021-03-31 2021-08-06 上海商汤智能科技有限公司 神经网络的生成、图像处理方法、装置、电子设备及介质
CN113469190B (zh) * 2021-06-10 2023-09-15 电子科技大学 基于域适应的单阶段目标检测算法
CN113610105A (zh) * 2021-07-01 2021-11-05 南京信息工程大学 基于动态加权学习和元学习的无监督域适应图像分类方法
CN117593594B (zh) * 2024-01-18 2024-04-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于一致性对齐的脑部mri图像分类方法、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN111209935A (zh) * 2019-12-26 2020-05-29 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
CN111814871A (zh) * 2020-06-13 2020-10-23 浙江大学 一种基于可靠权重最优传输的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625612B2 (en) * 2019-02-12 2023-04-11 D-Wave Systems Inc. Systems and methods for domain adaptation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN111209935A (zh) * 2019-12-26 2020-05-29 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
CN111814871A (zh) * 2020-06-13 2020-10-23 浙江大学 一种基于可靠权重最优传输的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Component Divide-and-Conquer for Real-World Image Super-Resolution;Pengxu Wei et al.;《ECCV2020,LNCS 12353》;20201107;第101-117页 *
DeepJDOT: Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation;Bharath Bhushan Damodaran et al.;《arXiv:1803.10081v3》;20181205;第1-17页 *

Also Published As

Publication number Publication date
CN112396097A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN112396097B (zh) 基于加权最优传输的无监督域自适应视觉目标检测方法
CN110287927B (zh) 基于深度多尺度和上下文学习的遥感影像目标检测方法
CN109801256B (zh) 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN106295714B (zh) 一种基于深度学习的多源遥感图像融合方法
CN110427836B (zh) 一种基于多尺度优化的高分辨率遥感影像水体提取方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
US11308714B1 (en) Artificial intelligence system for identifying and assessing attributes of a property shown in aerial imagery
CN110598600A (zh) 一种基于unet神经网络的遥感图像云检测方法
CN111967480A (zh) 基于权重共享的多尺度自注意力目标检测方法
CN110796009A (zh) 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110852317A (zh) 一种基于弱边缘的小尺度目标检测方法
CN110659601A (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN114119966A (zh) 基于多视角学习与元学习的小样本目标检测方法
CN115496891A (zh) 一种小麦倒伏程度分级方法和装置
CN113205103A (zh) 一种轻量级的文身检测方法
CN112101114A (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN113869463A (zh) 一种基于交叉增强匹配的长尾噪声学习方法
CN117830616A (zh) 基于渐进式伪标签的遥感图像无监督跨域目标检测方法
CN113255704B (zh) 一种基于局部二值模式的像素差卷积边缘检测方法
CN115546668A (zh) 海洋生物的检测方法、装置及无人机
CN114022516A (zh) 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
CN113947723A (zh) 基于尺寸平衡fcos的高分辨率遥感场景目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant