CN112396097A - 基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质 - Google Patents
基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112396097A CN112396097A CN202011236412.7A CN202011236412A CN112396097A CN 112396097 A CN112396097 A CN 112396097A CN 202011236412 A CN202011236412 A CN 202011236412A CN 112396097 A CN112396097 A CN 112396097A
- Authority
- CN
- China
- Prior art keywords
- domain
- target
- optimal transmission
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 77
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000000007 visual effect Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000003042 antagnostic effect Effects 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法包括以下步骤:基于最优传输的域间样本对采样方法,基于加权最优传输的候选区域域间特征对齐学习,浅层全局特征对抗对齐学习,深层全局特征对抗对齐学习,上下文特征融合连接。本发明一方面解决了无监督域自适应目标检测中提案候选区域特征如何对齐的问题;另一方面,解决了最优传输算法初始的域间类别分布不均衡问题,根据候选区域类别数量重新分配最优传输算法的初始分布权重,使得两域间同类的候选区域总权重一致,有效的减少了错误类别匹配的发生,保证域差异减小的同时保持类别判别性。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质。
背景技术
深度学习技术的突破推动了计算机视觉领域的发展,促使图像识别、目标检测等技术的应用化。然而,深度学习应用存在一些困难,模型往往在训练集上性能优秀,却在实际应用场景中出现性能的退化。许多研究已经表明应用性能中的退化源于“域偏差”,即测试数据和训练数据的域差异,在研究中训练数据集常常称为源域,测试数据称为目标域。为了解决“域差异”的问题,技术人员可以大量收集目标域的数据,并且进行人工标注,补充到模型的训练数据中。目标域的二次标注所带来的成本是高昂的,一旦应用场景变化,就会造成更多的标注人力成本。
近年来逐渐兴起无监督域适应技术的研究,这项技术能够解决上述应用场景中源域和目标域的偏差,减少人工标注的负担,帮助模型在应用中快速适应目标域。最初这项技术常常被应用于图像识别任务,很难直接应用到目标检测任务中,具体表现为:(1)未考虑目标检测中多个目标之间更精细化的域间表征匹配。(2)训练中批数据存在域间类别不均衡的问题。这将导致无监督域适应目标检测应用中常常出现类别判别性差的问题。
最优传输是一种能够衡量两个分布距离的算法,能够计算两个离散分布之间迁移总损失最小的迁移方案。在无监督域适应领域中,最优传输算法也是一种是常见的度量技术。现有研究中,仅将最优传输算法应用于图像识别任务中,当应用于更复杂的目标检测任务,最优传输算法的度量容易导致域间错误类别的匹配。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于加权最优传输的无监督域自适应视觉目标检测方法、系统及存储介质,方法通过基于最优传输算法的采样策略优化源域和目标域训练过程中采样策略,提升每个训练批次中域间同类样本的数量;再通过一个改进了的加权最优传输算法求解候选区域最佳匹配策略,解决了无监督域自适应目标检测任务中提案候选区域特征对齐的问题,并改善了该对齐过程中类别错误匹配的问题,提高目标域特征的域判别性,有效的提升目标域目标检测性能。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
优选的,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用和分别表示源域S第i个样本编码和目标域T第j个样本编码,采用表示和之间欧拉距离的平方,具体为:
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
优选的,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
优选的,所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
优选的,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
优选的,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
优选的,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2。
优选的,所述检测器采用两阶段检测器Faster-RCNN。
本发明还提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
本发明还提供了一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出了一种基于最优传输算法训练采样策略,缓解源域和目标域因随机采样造成的域适应难度不稳定问题,帮助训练过程中两域间特征语义信息能够更加接近,进而更加稳定的对齐域间特征。
2、本发明提出了一种基于加权最优传输算法候选区域特征对齐方法,针对目标检测的特点,精细化的对齐域间同类候选区域的特征,使得模型在目标域上得到更准确的类别判别效果。
附图说明
图1是本发明方法的模型架构图。
图2是本发明系统的结构示意图。
图3是本发明存储介质结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本发明基于加权最优传输的无监督域自适应视觉目标检测方法,包括以下步骤:
S1、基于最优传输的域间样本对采样方法,用于提高域适应训练稳定性,保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致,具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用和分别表示源域S第i个样本编码和目标域T第j个样本编码,采用表示和之间欧拉距离的平方,具体为:
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
在本实施例中,为保证更加充分利用目标域样本,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
S2、基于加权最优传输的候选区域域间特征对齐学习,用于源域和目标域候选区域语义特征的精确对齐,保证候选区域特征进一步精细化对齐,增强目标域候选区域特征判别性,具体为:
在本实施例中,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域大小为7x7x512维的目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度为512维;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
其中,和分别表示当前批次中源域第i个和目标域第j个候选区域特征,表示和欧拉距离的平方,和分别表示源域和目标域的候选区域目标出现的概率(权重);目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致。
在本实施例中,根据目标类别信息重新分配权重,使得两域间相同类别总权重保持一致,通过这种方式降低了错误类别的匹配情况,以解决传统最优传输算法应用于域适应特征对齐时类别错误匹配的问题;
进一步构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
其中,αot是控制损失函数大小的参数;通过最优传输算法的解能够得到对应类别特征的匹配信息,再进一步缩小两域间同类提案候选区域的特征距离,有效提升目标域特征的判别性和适应性。
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
S3、浅层全局特征对抗对齐学习,用于对齐骨干网络中浅层特征,使得模型适应目标域底层视觉要素,如纹理、颜色等,减小源域和目标域之间的浅层特征分布差异,具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
S4、深层全局特征对抗对齐学习,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征,提升模型在目标域高级语义特征中的适应性,具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考Focal Loss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制难样本权重的平衡系数,在本实施例中取值为5.0;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
合并上述两个对抗判别模块的损失函数,构成对抗判别损失函数:
Lda=Lda1+Lda2。
S5、上下文特征融合连接,用于补充候选区域特征的上下文信息,具体为:
采用上述步骤S3和S4的浅层和深层域判别器的中间特征作为上下文信息,采用域判别器第一层卷积后的特征,并且经过全局平均池化得到固定维度特征,将该上下文特征补充到候选区域的特征中,具体的,融合的候选区域特征来自分类回归分支中第二次全连接的4096维特征,再对融合后的特征进行分类和回归。
在本实施例中,所述目标检测器采用两阶段检测器Faster-RCNN作为目标检测器,是无监督域自适应目标检测的对象,应用于最终的目标域检测。所述目标检测器采用的骨干网络是VGG-16,输入图像到骨干网络,从骨干网络第五卷积组输出图像的特征图。特征图通过第一阶段的区域提案网络进行锚点的分类和回归定位得到一系列候选区域,在训练阶段区域提案网络学习源域目标的分类和定位。进一步通过池化提取候选区域相同大小的特征,经过两层全连接后与来自域判别器的上下文特征进行连接,再进行最终候选区域的分类和回归。
如图2所示,在另一个实施例中,提供了一种基于加权最优传输的无监督域自适应视觉目标检测系统,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
如图3所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于加权最优传输的无监督域自适应视觉目标检测方法,具体为:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,包括以下步骤:
基于最优传输的域间样本对采样方法,采用预训练模型对源域和目标域训练数据图像进行特征编码,全局池化得到源域和目标域数据集的特征编码,构建最优传输模型,通过最优传输算法迭代求解源域和目标域之间的图像样本匹配解,以此匹配解进行训练采样;
基于加权最优传输的候选区域域间特征对齐学习,每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元和候选区域提取单元,输出对应图像中的候选区域,池化获得各个候选区域目标特征,根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,构建最优传输模型,通过最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解,对匹配解的域间候选区域构建特征距离最小化目标函数;
浅层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构,输出全局特征各个像素位置的域判别得分;
深层全局特征对抗对齐学习,采用检测器骨干网络提取浅层全局特征,通过梯度逆转模块和卷积网络结构后,再经过全连接层输出全局特征域判别得分;
上下文特征融合连接,计算域判别器中间特征作为上下文信息,将该上下文特征补充到候选区域的特征中,再对融合后的特征进行分类和回归。
2.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法具体为:
采用ImageNet数据集预训练模型VGG-16的卷积层对源域和目标域训练数据图像进行特征编码,再通过全局池化得到源域和目标域数据集的特征编码,采用和分别表示源域S第i个样本编码和目标域T第j个样本编码,采用表示和之间欧拉距离的平方,具体为:
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域S和目标域T之间的图像样本匹配解γI,*,具体为:
3.根据权利要求2所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于最优传输的域间样本对采样方法还包括,针对一部分未被最优选取的目标域样本,针对其选取源域匹配度最大的样本,补充到训练批次中。
4.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述基于加权最优传输的候选区域域间特征对齐学习具体为:
每轮训练迭代中,源域和目标域的图像分别通过检测器的特征提取单元、候选区域提取单元,输出对应图像中的候选区域,再经过池化获得各个候选区域目标特征,将特征进一步缩小,通过全局平均池化缩小特征维度;根据目标类别信息重新分配源域和目标域的候选区域目标出现的权重,使得两域间相同类别总权重保持一致并满足以下公式:
目标域候选区域类别通过伪标签判断类别,计算源域同类总权重,再平均赋予目标域同类样本,加权后域间同类总权重一致;
构建最优传输模型,通过推土机距离最优传输算法迭代求解源域和目标域提案候选区域之间的匹配最优解γf,*,具体如下:
对匹配解的域间候选区域构建特征距离最小化目标函数,缩小源域和目标域之间的差异,目标函数如下:
其中,αot是控制损失函数大小的参数;
通过最优传输算法的解得到对应类别特征的匹配信息,进一步缩小两域间同类提案候选区域的特征距离。
5.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述浅层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第三阶段卷积组的浅层全局特征,通过梯度逆转模块和两层卷积网络结构后,输出全局特征各个像素位置的域判别得分;所述梯度逆转模块和两层卷积网络组成对抗域判别器,通过对抗学习像素级域判别损失,降低浅层全局特征的域间差异,对抗训练损失函数具体为:
其中,nS,nT分别表示同一迭代时刻中源域和目标域样本数量;xi表示同一训练批次中的样本,包含源域和目标域;Fl表示浅层全局特征提取网络;Dl表示域判别器,进行对抗判别学习;W,H表示浅层全局特征的长宽大小,对抗判别学习是针对每一个像素进行的,对各个像素域进行分类;yi表示第i个样本的域标签,源域为0,目标域为1;
训练过程中Fl和Dl分别以损失函数最大化和最小化为目标进行对抗训练:
6.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述深层全局特征对抗对齐学习具体为:
在检测器骨干网络VGG-16中提取第五阶段卷积组的浅层全局特征,通过梯度逆转模块和一层卷积网络结构后,再经过两次全连接层输出全局特征域判别得分;其中对抗判别器通过对抗学习图像级域判别损失,降低浅层全局特征的域间差异;
参考FocalLoss损失函数,增强对抗判别样本的学习,得到具体对抗训练损失函数,具体如下:
其中,Fg表示浅层全局特征提取网络;Dg表示域判别器,进行对抗判别学习;γ表示控制样本权重的平衡系数;
训练过程中Fg和Dg分别以损失函数最大化和最小化为目标进行对抗训练:
7.根据权利要求5或6所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,还包括合并对抗判别模块的损失函数,具体为:
Lda=Lda1+Lda2。
8.根据权利要求1所述的基于加权最优传输的无监督域自适应视觉目标检测方法,其特征在于,所述检测器采用两阶段检测器Faster-RCNN。
9.基于加权最优传输的无监督域自适应视觉目标检测系统,其特征在于,包括域间样本对采样模块、候选区域域间特征对齐学习模块、浅层全局特征对抗对齐学习模块、深层全局特征对抗对齐学习模块以及上下文特征融合连接模块;
所述域间样本对采样模块,用于保证训练过程中源域和目标域同批次的样本中语义信息一致,使得最优传输对齐时中域间语义分布一致;
所述候选区域域间特征对齐学习模块,用于源域和目标域候选区域语义特征的精确对齐;
所述浅层全局特征对抗对齐学习模块,用于减小源域和目标域之间的浅层特征分布差异;
所述深层全局特征对抗对齐学习模块,用于通过减小深层语义特征域间差异使得模型适应目标域深层语义特征;
所述上下文特征融合连接模块,用于补充候选区域特征的上下文信息。
10.一种存储介质,存储有程序,其特征在于,所述程序被一个或多个处理器执行时,实现如权利要求1-8任一项所述的基于加权最优传输的无监督域自适应视觉目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236412.7A CN112396097B (zh) | 2020-11-09 | 2020-11-09 | 基于加权最优传输的无监督域自适应视觉目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236412.7A CN112396097B (zh) | 2020-11-09 | 2020-11-09 | 基于加权最优传输的无监督域自适应视觉目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396097A true CN112396097A (zh) | 2021-02-23 |
CN112396097B CN112396097B (zh) | 2022-05-17 |
Family
ID=74598951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011236412.7A Active CN112396097B (zh) | 2020-11-09 | 2020-11-09 | 基于加权最优传输的无监督域自适应视觉目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396097B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222997A (zh) * | 2021-03-31 | 2021-08-06 | 上海商汤智能科技有限公司 | 神经网络的生成、图像处理方法、装置、电子设备及介质 |
CN113469190A (zh) * | 2021-06-10 | 2021-10-01 | 电子科技大学 | 基于域适应的单阶段目标检测算法 |
CN113610105A (zh) * | 2021-07-01 | 2021-11-05 | 南京信息工程大学 | 基于动态加权学习和元学习的无监督域适应图像分类方法 |
CN114758227A (zh) * | 2022-03-21 | 2022-07-15 | 中国科学院上海高等研究院 | 故障诊断模型训练方法、故障诊断方法、设备及介质 |
CN117593594A (zh) * | 2024-01-18 | 2024-02-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于一致性对齐的脑部mri图像分类方法、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948628A (zh) * | 2019-03-15 | 2019-06-28 | 中山大学 | 一种基于判别性区域挖掘的目标检测方法 |
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN111062406A (zh) * | 2019-03-09 | 2020-04-24 | 华南理工大学 | 一种面向异构领域适应的半监督最优传输方法 |
CN111209935A (zh) * | 2019-12-26 | 2020-05-29 | 武汉安视感知科技有限公司 | 基于自适应域转移的无监督目标检测方法及系统 |
US20200257984A1 (en) * | 2019-02-12 | 2020-08-13 | D-Wave Systems Inc. | Systems and methods for domain adaptation |
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
-
2020
- 2020-11-09 CN CN202011236412.7A patent/CN112396097B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257984A1 (en) * | 2019-02-12 | 2020-08-13 | D-Wave Systems Inc. | Systems and methods for domain adaptation |
CN111062406A (zh) * | 2019-03-09 | 2020-04-24 | 华南理工大学 | 一种面向异构领域适应的半监督最优传输方法 |
CN109948628A (zh) * | 2019-03-15 | 2019-06-28 | 中山大学 | 一种基于判别性区域挖掘的目标检测方法 |
CN109977918A (zh) * | 2019-04-09 | 2019-07-05 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN111209935A (zh) * | 2019-12-26 | 2020-05-29 | 武汉安视感知科技有限公司 | 基于自适应域转移的无监督目标检测方法及系统 |
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
Non-Patent Citations (2)
Title |
---|
BHARATH BHUSHAN DAMODARAN ET AL.: "DeepJDOT: Deep Joint Distribution Optimal Transport for Unsupervised Domain Adaptation", 《ARXIV:1803.10081V3》 * |
PENGXU WEI ET AL.: "Component Divide-and-Conquer for Real-World Image Super-Resolution", 《ECCV2020,LNCS 12353》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222997A (zh) * | 2021-03-31 | 2021-08-06 | 上海商汤智能科技有限公司 | 神经网络的生成、图像处理方法、装置、电子设备及介质 |
CN113469190A (zh) * | 2021-06-10 | 2021-10-01 | 电子科技大学 | 基于域适应的单阶段目标检测算法 |
CN113469190B (zh) * | 2021-06-10 | 2023-09-15 | 电子科技大学 | 基于域适应的单阶段目标检测算法 |
CN113610105A (zh) * | 2021-07-01 | 2021-11-05 | 南京信息工程大学 | 基于动态加权学习和元学习的无监督域适应图像分类方法 |
CN114758227A (zh) * | 2022-03-21 | 2022-07-15 | 中国科学院上海高等研究院 | 故障诊断模型训练方法、故障诊断方法、设备及介质 |
CN117593594A (zh) * | 2024-01-18 | 2024-02-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于一致性对齐的脑部mri图像分类方法、设备和介质 |
CN117593594B (zh) * | 2024-01-18 | 2024-04-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于一致性对齐的脑部mri图像分类方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112396097B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396097B (zh) | 基于加权最优传输的无监督域自适应视觉目标检测方法 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111079847B (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN110059586B (zh) | 一种基于空洞残差注意力结构的虹膜定位分割系统 | |
CN111652321A (zh) | 一种基于改进yolov3算法的海上船舶检测方法 | |
CN112215119B (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN112200143A (zh) | 一种基于候选区域网络和机器视觉的道路病害检测方法 | |
CN112001403B (zh) | 一种图像轮廓检测方法及系统 | |
CN110852317A (zh) | 一种基于弱边缘的小尺度目标检测方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN115496891A (zh) | 一种小麦倒伏程度分级方法和装置 | |
CN106250814B (zh) | 一种基于超球粒化商空间模型的手指静脉图像识别方法 | |
CN114693712A (zh) | 一种基于深度学习的暗视觉及低照度图像边缘检测方法 | |
CN114139564A (zh) | 二维码检测方法、装置、终端设备及检测网络的训练方法 | |
CN117671364A (zh) | 用于图像识别的模型处理方法、装置、电子设备及存储介质 | |
CN117830616A (zh) | 基于渐进式伪标签的遥感图像无监督跨域目标检测方法 | |
CN117541535A (zh) | 一种基于深度卷积神经网络的输电线路巡检图像检测方法 | |
CN117689995A (zh) | 一种基于单目图像的未知航天器层级检测方法 | |
CN116740572A (zh) | 一种基于改进yolox的海上船舰目标检测方法和系统 | |
CN116416212A (zh) | 路面破损检测神经网络训练方法及路面破损检测神经网络 | |
CN115546668A (zh) | 海洋生物的检测方法、装置及无人机 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN114022516A (zh) | 一种基于高秩特征和位置注意力的双模态视觉跟踪方法 | |
CN114818785A (zh) | 基于多模型融合的信号调制方式识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |