CN112396097A - 基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质 - Google Patents

基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质 Download PDF

Info

Publication number
CN112396097A
CN112396097A CN202011236412.7A CN202011236412A CN112396097A CN 112396097 A CN112396097 A CN 112396097A CN 202011236412 A CN202011236412 A CN 202011236412A CN 112396097 A CN112396097 A CN 112396097A
Authority
CN
China
Prior art keywords
domain
target
optimal transmission
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011236412.7A
Other languages
English (en)
Other versions
CN112396097B (zh
Inventor
詹宗沅
魏朋旭
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011236412.7A priority Critical patent/CN112396097B/zh
Publication of CN112396097A publication Critical patent/CN112396097A/zh
Application granted granted Critical
Publication of CN112396097B publication Critical patent/CN112396097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法包括以下步骤:基于最优传输的域间样本对采样方法,基于加权最优传输的候选区域域间特征对齐学习,浅层全局特征对抗对齐学习,深层全局特征对抗对齐学习,上下文特征融合连接。本发明一方面解决了无监督域自适应目标检测中提案候选区域特征如何对齐的问题;另一方面,解决了最优传输算法初始的域间类别分布不均衡问题,根据候选区域类别数量重新分配最优传输算法的初始分布权重,使得两域间同类的候选区域总权重一致,有效的减少了错误类别匹配的发生,保证域差异减小的同时保持类别判别性。

Description

基于加权最优传输的无监督域自适应视觉目标检测方法、系 统及存储介质
技术领域
本发明属于目标检测技术领域,具体涉及一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质。
背景技术
深度学习技术的突破推动了计算机视觉领域的发展,促使图像识别、目标检测等技术的应用化。然而,深度学习应用存在一些困难,模型往往在训练集上性能优秀,却在实际应用场景中出现性能的退化。许多研究已经表明应用性能中的退化源于“域偏差”,即测试数据和训练数据的域差异,在研究中训练数据集常常称为源域,测试数据称为目标域。为了解决“域差异”的问题,技术人员可以大量收集目标域的数据,并且进行人工标注,补充到模型的训练数据中。目标域的二次标注所带来的成本是高昂的,一旦应用场景变化,就会造成更多的标注人力成本。
近年来逐渐兴起无监督域适应技术的研究,这项技术能够解决上述应用场景中源域和目标域的偏差,减少人工标注的负担,帮助模型在应用中快速适应目标域。最初这项技术常常被应用于图像识别任务,很难直接应用到目标检测任务中,具体表现为:(1)未考虑目标检测中多个目标之间更精细化的域间表征匹配。(2)训练中批数据存在域间类别不均衡的问题。这将导致无监督域适应目标检测应用中常常出现类别判别性差的问题。
最优传输是一种能够衡量两个分布距离的算法,能够计算两个离散分布之间迁移总损失最小的迁移方案。在无监督域适应领域中,最优传输算法也是一种是常见的度量技术。现有研究中,仅将最优传输算法应用于图像识别任务中,当应用于更复杂的目标检测任务,最优传输算法的度量容易导致域间错误类别的匹配。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法通过基于最优传输算法的采样策略优化源域和目标域训练过程中采样策略,提升每个训练批次中域间同类样本的数量;再通过一个改进了的加权最优传输算法求解候选区域最佳匹配策略,解决了无监督域自适应目标检测任务中提案候选区域特征对齐的问题,并改善了该对齐过程中类别错误匹配的问题,提高目标域特征的域判别性,有效的提升目标域目标检测性能。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
优选的,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure BDA0002766839780000031
Figure BDA0002766839780000032
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure BDA0002766839780000033
表示
Figure BDA0002766839780000034
Figure BDA0002766839780000035
之间欧拉距离的平方,具体为:
Figure BDA0002766839780000036
采用
Figure BDA0002766839780000037
Figure BDA0002766839780000038
分别表示源域和目标域的样本出现的概率,
Figure BDA0002766839780000039
分别表示源域和目标域图像总数,则满足条件:
Figure BDA00027668397800000310
Figure BDA00027668397800000311
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure BDA0002766839780000041
Figure BDA0002766839780000042
Figure BDA0002766839780000043
Figure BDA0002766839780000044
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure BDA0002766839780000045
采样匹配度最高的目标域样本
Figure BDA0002766839780000046
Figure BDA0002766839780000047
优选的,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
优选的,所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure BDA0002766839780000051
Figure BDA0002766839780000052
其中,
Figure BDA0002766839780000053
Figure BDA0002766839780000054
分别表示当前批次中源域第i个和目标域第j个候选区域特征,
Figure BDA0002766839780000055
表示
Figure BDA0002766839780000056
Figure BDA0002766839780000057
欧拉距离的平方,
Figure BDA0002766839780000058
Figure BDA0002766839780000059
分别表示源域和目标域的候选区域目标出现的权重;
目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure BDA00027668397800000510
Figure BDA00027668397800000511
Figure BDA00027668397800000512
Figure BDA00027668397800000513
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure BDA00027668397800000514
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
优选的,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure BDA0002766839780000061
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure BDA0002766839780000062
优选的,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure BDA0002766839780000071
Figure BDA0002766839780000072
Figure BDA0002766839780000073
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure BDA0002766839780000074
优选的,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2
优选的,所述检测器采用两阶段检测器Faster-RCNN。
本发明还提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
本发明还提供了一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出了一种基于最优传输算法训练采样策略,缓解源域和目标域因随机采样造成的域适应难度不稳定问题,帮助训练过程中两域间特征语义信息能够更加接近,进而更加稳定的对齐域间特征。
2、本发明提出了一种基于加权最优传输算法候选区域特征对齐方法,针对目标检测的特点,精细化的对齐域间同类候选区域的特征,使得模型在目标域上得到更准确的类别判别效果。
附图说明
图1是本发明方法的模型架构图。
图2是本发明系统的结构示意图。
图3是本发明存储介质结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
S1、基于最优传输的域间样本对采样方法,用于提高域适应训练稳定性,保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致,具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure BDA0002766839780000091
Figure BDA0002766839780000092
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure BDA0002766839780000093
表示
Figure BDA0002766839780000094
Figure BDA0002766839780000095
之间欧拉距离的平方,具体为:
Figure BDA0002766839780000096
采用
Figure BDA0002766839780000097
Figure BDA0002766839780000098
分别表示源域和目标域的样本出现的概率,
Figure BDA0002766839780000099
分别表示源域和目标域图像总数,则满足条件:
Figure BDA00027668397800000910
Figure BDA00027668397800000911
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure BDA0002766839780000101
Figure BDA0002766839780000102
Figure BDA0002766839780000103
Figure BDA0002766839780000104
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure BDA0002766839780000105
采样匹配度最高的目标域样本
Figure BDA0002766839780000106
表示为:
Figure BDA0002766839780000107
在本实施例中,为保证更加充分利用目标域样本,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
S2、基于加权最优传输的候选区域域间特征对齐学习,用于源域和目标域候选区域语义特征的精确对齐,保证候选区域特征进一步精细化对齐,增强目标域候选区域特征判别性,具体为:
在本实施例中,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域大小为7x7x512维的目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度为512维;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure BDA0002766839780000111
Figure BDA0002766839780000112
其中,
Figure BDA0002766839780000113
Figure BDA0002766839780000114
分别表示当前批次中源域第i个和目标域第j个候选区域特征,
Figure BDA0002766839780000115
表示
Figure BDA0002766839780000116
Figure BDA0002766839780000117
欧拉距离的平方,
Figure BDA0002766839780000118
Figure BDA0002766839780000119
分别表示源域和目标域的候选区域目标出现的概率(权重);目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致。
在本实施例中,根据目标类别信息重新分配权重,使得两域间相同类别总权重保持一致,通过这种方式降低了错误类别的匹配情况,以解决传统最优传输算法应用于域适应特征对齐时类别错误匹配的问题;
进一步构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure BDA00027668397800001110
Figure BDA00027668397800001111
Figure BDA00027668397800001112
Figure BDA00027668397800001113
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure BDA00027668397800001114
其中,αot是控制损失函数大小的参数;通过最优传输算法的解能够得到对应类别特征的匹配信息,再进一步缩小两域间同类提案候选区域的特征距离,有效提升目标域特征的判别性和适应性。
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
S3、浅层全局特征对抗对齐学习,用于对齐骨干网络中浅层特征,使得模型适应目标域底层视觉要素,如纹理、颜色等,减小源域和目标域之间的浅层特征分布差异,具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure BDA0002766839780000121
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure BDA0002766839780000122
S4、深层全局特征对抗对齐学习,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征,提升模型在目标域高级语义特征中的适应性,具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure BDA0002766839780000131
Figure BDA0002766839780000132
Figure BDA0002766839780000133
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制难样本权重的平衡系数,在本实施例中取值为5.0;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure BDA0002766839780000134
合并上述两个对抗判别模块的损失函数,构成对抗判别损失函数:
Lda=Lda1+Lda2
S5、上下文特征融合连接,用于补充候选区域特征的上下文信息,具体为:
采用上述步骤S3和S4的浅层和深层域判别器的中间特征作为上下文信息,采用域判别器第一层卷积后的特征,并且经过全局平均池化得到固定维度特征,将该上下文特征补充到候选区域的特征中,具体的,融合的候选区域特征来自分类回归分支中第二次全连接的4096维特征,再对融合后的特征进行分类和回归。
在本实施例中,所述目标检测器采用两阶段检测器Faster-RCNN作为目标检测器,是无监督域自适应目标检测的对象,应用于最终的目标域检测。所述目标检测器采用的骨干网络是VGG-16,输入图像到骨干网络,从骨干网络第五卷积组输出图像的特征图。特征图通过第一阶段的区域提案网络进行锚点的分类和回归定位得到一系列候选区域,在训练阶段区域提案网络学习源域目标的分类和定位。进一步通过池化提取候选区域相同大小的特征,经过两层全连接后与来自域判别器的上下文特征进行连接,再进行最终候选区域的分类和回归。
如图2所示,在另一个实施例中,提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
如图3所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法,具体为:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
2.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用
Figure FDA0002766839770000011
Figure FDA0002766839770000012
分别表示源域S第i个样本编码和目标域T第j个样本编码,采用
Figure FDA0002766839770000013
表示
Figure FDA0002766839770000014
Figure FDA0002766839770000016
之间欧拉距离的平方,具体为:
Figure FDA0002766839770000015
采用
Figure FDA0002766839770000021
Figure FDA0002766839770000022
分别表示源域和目标域的样本出现的概率,NI,S,NI,T分别表示源域和目标域图像总数,则满足条件:
Figure FDA0002766839770000023
Figure FDA0002766839770000024
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
Figure FDA0002766839770000025
Figure FDA0002766839770000026
Figure FDA0002766839770000027
Figure FDA0002766839770000028
以求解得到的匹配解进行训练采样,每轮训练迭代根据匹配解采样一张源域样本和一张目标域样本,针对每一源域样本
Figure FDA0002766839770000029
采样匹配度最高的目标域样本
Figure FDA00027668397700000210
Figure FDA00027668397700000211
3.根据权利要求2所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
4.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
Figure FDA0002766839770000031
Figure FDA0002766839770000032
其中,
Figure FDA0002766839770000033
Figure FDA0002766839770000034
分别表示当前批次中源域第i个和目标域第j个候选区域特征,
Figure FDA0002766839770000035
表示
Figure FDA0002766839770000036
Figure FDA0002766839770000037
欧拉距离的平方,
Figure FDA0002766839770000038
Figure FDA0002766839770000039
分别表示源域和目标域的候选区域目标出现的权重;
目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
Figure FDA00027668397700000310
Figure FDA00027668397700000311
Figure FDA00027668397700000312
Figure FDA00027668397700000313
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
Figure FDA0002766839770000041
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
5.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
Figure FDA0002766839770000042
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
Figure FDA0002766839770000043
6.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考FocalLoss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
Figure FDA0002766839770000051
Figure FDA0002766839770000052
Figure FDA0002766839770000053
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
Figure FDA0002766839770000054
7.根据权利要求5或6所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2
8.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述检测器采用两阶段检测器Faster-RCNN。
9.基于加权最优传输的无监督域自适应视觉目标检测系统,其特征在于,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
10.一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现如权利要求1-8任一项所述的基于加权最优传输的无监督域自适应视觉目标检测方法。
CN202011236412.7A 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法 Active CN112396097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011236412.7A CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011236412.7A CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Publications (2)

Publication Number Publication Date
CN112396097A true CN112396097A (zh) 2021-02-23
CN112396097B CN112396097B (zh) 2022-05-17

Family

ID=74598951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011236412.7A Active CN112396097B (zh) 2020-11-09 2020-11-09 基于加权最优传输的无监督域自适应视觉目标检测方法

Country Status (1)

Country Link
CN (1) CN112396097B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222997A (zh) * 2021-03-31 2021-08-06 上海商汤智能科技有限公司 神经网络的生成、图像处理方法、装置、电子设备及介质
CN113469190A (zh) * 2021-06-10 2021-10-01 电子科技大学 基于域适应的单阶段目标检测算法
CN113610105A (zh) * 2021-07-01 2021-11-05 南京信息工程大学 基于动态加权学习和元学习的无监督域适应图像分类方法
CN114758227A (zh) * 2022-03-21 2022-07-15 中国科学院上海高等研究院 故障诊断模型训练方法、故障诊断方法、设备及介质
CN117593594A (zh) * 2024-01-18 2024-02-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于一致性对齐的脑部mri图像分类方法、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN111209935A (zh) * 2019-12-26 2020-05-29 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
US20200257984A1 (en) * 2019-02-12 2020-08-13 D-Wave Systems Inc. Systems and methods for domain adaptation
CN111814871A (zh) * 2020-06-13 2020-10-23 浙江大学 一种基于可靠权重最优传输的图像分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257984A1 (en) * 2019-02-12 2020-08-13 D-Wave Systems Inc. Systems and methods for domain adaptation
CN111062406A (zh) * 2019-03-09 2020-04-24 华南理工大学 一种面向异构领域适应的半监督最优传输方法
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN111209935A (zh) * 2019-12-26 2020-05-29 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
CN111814871A (zh) * 2020-06-13 2020-10-23 浙江大学 一种基于可靠权重最优传输的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BHARATH BHUSHAN DAMODARAN ET AL.: "DeepJDOT: Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation", 《ARXIV:1803.10081V3》 *
PENGXU WEI ET AL.: "Component Divide-and-Conquer for Real-World Image Super-Resolution", 《ECCV2020,LNCS 12353》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222997A (zh) * 2021-03-31 2021-08-06 上海商汤智能科技有限公司 神经网络的生成、图像处理方法、装置、电子设备及介质
CN113469190A (zh) * 2021-06-10 2021-10-01 电子科技大学 基于域适应的单阶段目标检测算法
CN113469190B (zh) * 2021-06-10 2023-09-15 电子科技大学 基于域适应的单阶段目标检测算法
CN113610105A (zh) * 2021-07-01 2021-11-05 南京信息工程大学 基于动态加权学习和元学习的无监督域适应图像分类方法
CN114758227A (zh) * 2022-03-21 2022-07-15 中国科学院上海高等研究院 故障诊断模型训练方法、故障诊断方法、设备及介质
CN117593594A (zh) * 2024-01-18 2024-02-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于一致性对齐的脑部mri图像分类方法、设备和介质
CN117593594B (zh) * 2024-01-18 2024-04-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于一致性对齐的脑部mri图像分类方法、设备和介质

Also Published As

Publication number Publication date
CN112396097B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112396097B (zh) 基于加权最优传输的无监督域自适应视觉目标检测方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110059586B (zh) 一种基于空洞残差注意力结构的虹膜定位分割系统
CN111652321A (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN112215119B (zh) 一种基于超分辨率重建的小目标识别方法、装置及介质
CN110796009A (zh) 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN112200143A (zh) 一种基于候选区域网络和机器视觉的道路病害检测方法
CN112001403B (zh) 一种图像轮廓检测方法及系统
CN110852317A (zh) 一种基于弱边缘的小尺度目标检测方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN115496891A (zh) 一种小麦倒伏程度分级方法和装置
CN106250814B (zh) 一种基于超球粒化商空间模型的手指静脉图像识别方法
CN114693712A (zh) 一种基于深度学习的暗视觉及低照度图像边缘检测方法
CN114139564A (zh) 二维码检测方法、装置、终端设备及检测网络的训练方法
CN117671364A (zh) 用于图像识别的模型处理方法、装置、电子设备及存储介质
CN117830616A (zh) 基于渐进式伪标签的遥感图像无监督跨域目标检测方法
CN117541535A (zh) 一种基于深度卷积神经网络的输电线路巡检图像检测方法
CN117689995A (zh) 一种基于单目图像的未知航天器层级检测方法
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN116416212A (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络
CN115546668A (zh) 海洋生物的检测方法、装置及无人机
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN114022516A (zh) 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
CN114818785A (zh) 基于多模型融合的信号调制方式识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant