CN112488229B - 一种基于特征分离和对齐的域自适应无监督目标检测方法 - Google Patents
一种基于特征分离和对齐的域自适应无监督目标检测方法 Download PDFInfo
- Publication number
- CN112488229B CN112488229B CN202011440101.2A CN202011440101A CN112488229B CN 112488229 B CN112488229 B CN 112488229B CN 202011440101 A CN202011440101 A CN 202011440101A CN 112488229 B CN112488229 B CN 112488229B
- Authority
- CN
- China
- Prior art keywords
- domain
- target
- target detection
- features
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 127
- 238000000926 separation method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000007670 refining Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000012855 volatile organic compound Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征分离和对齐的域自适应无监督目标检测方法,包括以下步骤:将成对的源域和目标域RGB样本输入到两阶段的目标检测框架中,通过源域的标签计算检测损失,训练目标检测框架,获得学习好的目标检测模型;其中,在训练过程中,将多级别的高维特征进行对齐;对每组的区域实例特征进行对齐;将所述成对的源域和目标域RGB样本灰度化并进行特征分离,分离出与检测有关的高维特征及与检测无关的扰乱特征。本发明提供了一种基于特征分离和对齐的无监督域自适应目标检测方法,可有效地解决域自适应目标检测中背景信息噪声和候选区域冗余问题。
Description
技术领域
本发明属于深度学习和目标检测技术领域,特别涉及一种基于特征分离和对齐的域自适应无监督目标检测方法。
背景技术
目标检测是计算机视觉的一个基本问题,它的任务是找出图像上的感兴趣目标,确定它们的位置和类别。在深度卷积网络的推动下,许多基于深度学习的方法被提出来,使得目标检测模型在一些基准自然图像数据集上有很好的性能;但在真实环境中,由于目标的风格、背景等差异,测试集与训练集存在着巨大的领域分布差异,会导致模型在新的领域的泛化能力显著降低。同时,在一些新的领域,如艺术图像等,现有的公开数据集较少,不足以充分训练一个深度目标检测模型。如何提高真实场景和新领域的目标检测模型成为新的挑战,若重新标注新数据集,会耗费大量的人力物力,导致模型成本较高,尤其是目标检测或者分割问题。因此许多无监督域自适应目标检测方法被提出来,用于解决数据分布偏移问题。大多数无监督域自适应目标检测方法是在先进的目标检测框架上,如Faster R-CNN,嵌套对抗训练模块,通过最小化不同层次上的特征图的领域差异,实现源域和目标域的高维特征图分布的对齐,以提高模型在目标域上的泛化能力;例如,图像和实例水平上的对齐(image-level instance-level alignment),强局部和弱全局(Strong-Local&Weak-Global)对齐和局部区域(Local-Region)对齐,上下文感知的实例(Context-AwareInstance-Level)对齐。此外,某些方法还会利用风格迁移方法,如Cycle-GAN,实现像素级别的对齐(pixel-level alignment via style transfer or CycleGAN)。它们提出了域自适应目标检测需要关注图像级别,实例级别,像素级别和局部区域级别的对齐。
上述公开的方法只关注了源域和目标域的映射,并没有充分考虑其它不需要对齐的差异化信息,如背景信息等;在该问题上,应找到图像上需要对齐的目标所在区域,忽略其它与检测无关的背景信息。然而,现有的区域对齐方法存在缺陷,其并没有考虑到图像的目标区域个数不一致问题;其次,对于实例级别,由于目标域数据不存在标签,难以从目标域图像中提取出需要对齐的目标区域特征,候选区域提议网络得到的候选区域可能存在冗余,此外还可能受到背景的影响,以至模型性能不理想。
发明内容
本发明的目的在于提供一种基于特征分离和对齐的域自适应无监督目标检测方法,以解决上述存在的一个或多个技术问题。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于特征分离和对齐的域自适应无监督目标检测方法,包括以下步骤:
将成对的源域和目标域RGB样本输入到两阶段的目标检测框架中,通过源域的标签计算检测损失,训练目标检测框架,获得学习好的目标检测模型;基于所述学习好的目标检测模型完成目标检测;
其中,在训练过程中,通过目标检测框架中的特征提取网络得到多级别的高维特征,并将多级别的高维特征进行对齐;通过目标检测框架中的区域提议网络,得到候选区域的预测边界框,对得到的预测边界框进行聚类实现区域分组,对每组的区域实例特征进行对齐;
其中,在训练过程中,将所述成对的源域和目标域RGB样本灰度化并进行特征分离,分离出与检测有关的高维特征及与检测无关的扰乱特征;将分离出的两特征合并,进行图像重构,得到源域和目标域的重构灰度图像,使得分离出的特征不偏移原图像本身。
本发明的进一步改进在于,所述将所述成对的源域和目标域RGB样本灰度化并进行特征分离,分离出与检测有关的高维特征及与检测无关的扰乱特征;将分离出的两特征合并,进行图像重构,得到源域和目标域的重构灰度图像,使得分离出的特征不偏移原图像本身的步骤具体包括:
将灰度化后的源域和目标域样本,分别输入到私有编码器Es、Et,得到两域的高维特征;
将两域的高维特征与目标检测框架的特征提取网络得到的高维特征合并,得到两域的融合特征;
将两域的融合特征输入到共享解码器SD,得到重构灰度图像。
本发明的进一步改进在于,所述将灰度化后的源域和目标域样本,分别输入到私有编码器Es、Et,得到两域的高维特征时,使用差异化损失,表达式为:
其中,为Frobenius范数的平方,g(·)为全局池化层,/>分别为第i个源域和目标域样本通过Es/Et得到的与检测无关的扰乱特征和通过特征提取网络得到的与检测有关的高维特征。
本发明的进一步改进在于,将两域的融合特征输入到共享解码器SD中,得到重构灰度图像时,灰度图像的重构损失函数采用l1损失,表达式为:
其中,为l1范数,/>和/>分别为第i个源域和目标域的灰度化的图像,/>为SD的重构图像。
本发明的进一步改进在于,通过目标检测框架中的区域提议网络,得到候选区域的预测边界框,对得到的预测边界框的中心坐标进行聚类实现区域分组,对每组的区域实例特征进行对齐的步骤具体包括:
通过目标检测框架的区域提议网络,得到候选区域的实例特征和其对应的预测边界框;将预测边界框的中心坐标输入到尺度空间滤波聚类,实现区域分组;
将每组的候选区域对应的上下文感应的实例特征进行精炼,得到精炼的实例特征,并将其输入到域分类器中,输出域标签,实现区域实例特征对齐。
本发明的进一步改进在于,将预测边界框的中心坐标输入到尺度空间滤波聚类,实现区域分组的步骤具体包括:
利用尺度空间滤波计算出来的生命周期“Lifetime”,确定聚类个数和每一类的聚类中心,得到合理区域;通过合理区域去除异常候选区域;通过聚类中心得到每一组的候选区域。
本发明的进一步改进在于,通过源域的标签计算检测损失,训练目标检测框架时的总体目标函数为:
式中,
其中,F,E,S,D分别为目标检测框架、私有编码器、共享解码器以及域分类器,Dri(·)为域分类器Dri的输出值,ns,nt分别为源域和目标域数据集的样本总数,分别为第i个源域和目标域样本的自适应分组个数,/>分别为第i个源域和目标域样本的第k个区域经过全局池化后的精炼实例特征,γ为Focal Loss的权重参数;β和λ用于权衡检测损失、对抗损失和重构损失;梯度符号通过梯度反转层进行翻转。
本发明的进一步改进在于,所述两阶段的目标检测框架为Faster R-CNN目标检测框架、Mask R-CNN目标检测框架、RetinaNet目标检测框架。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于特征分离和对齐的无监督域自适应目标检测方法,可有效地解决域自适应目标检测中背景信息噪声和候选区域冗余问题,能够提高模型的可迁移性和自适应性,在多个基准数据上获得了很好的效果,其水平达到业界最高水平。具体地,本发明采用了灰度特征分离,能够充分分解出与目标检测无关的扰乱信息,提高特征对齐模块的性能;使用灰度图像进行特征分离,让网络分离的信息更接近于目标特征,而不是色彩信息上,同时降低了重构图像的难度,让网络能更关注于目标检测上。本发明通过局部实例对齐,解决了候选区域冗余和背景噪声问题,提高了实例对齐的有效性。
进一步地,在局部实例对齐中,本发明提供了一种自适应区域搜索的实例对齐方法,通过尺度空间滤波聚类,可以自适应地获取图像上需要特征对齐的目标区域,避免了其它区域实例对齐方法需要手动设定区域个数的问题,提高了区域搜索的准确性。
进一步地,在获取目标区域后,本发明采用全局池化方法,对同一类别的区域特征进行精炼,降低了候选区域冗余问题的负面影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于特征分离和对齐的域自适应无监督目标检测方法的网络框架示意图;
图2是本发明实施例中,区域实例对齐模块的实现示意图;
图3是本发明实施例中,目标检测框架的骨干网络使用ResNet-101时的灰度特征分离模块网络结构示意图;
图4是本发明实施例中,目标检测框架的骨干网络使用VGG-16时的灰度特征分离模块网络结构示意图;
图5是本发明实施例中,域分类器Dri的网络结构示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种基于特征分离和对齐的域自适应无监督目标检测系统,包括:两阶段目标检测框架、灰度特征分离网络GSFS、局部全局特征对齐模块LGFA、区域实例对齐模块RILA;其中,两阶段目标检测框架包括:区域提议网络、检测网络;其具体的技术实现包含以下步骤:
将成对的源域和目标域RGB样本输入到目标检测框架中,通过源域的标签计算检测损失,训练目标检测框架;训练过程中,通过目标检测框架的特征提取网络F1,F2,F3,得到多级别的高维特征f1,f2,f3,然后将其输入到局部全局特征对齐模块LGFA,实现多级别特征对齐;通过目标检测框架中的区域提议网络,得到候选区域的预测边界框,并对其聚类以进行区域分组,并对每组的区域实例特征输入到区域实例对齐模块,实现区域实例对齐,进而实现多维度的高维特征的域自适应;将上述成对的源域和目标域RGB样本灰度化并输入到灰度特征分离网络GSFS,实现特征分离,分离出与检测有关的高维特征和与检测无关的扰乱特征;分离出与检测有关的高维特征以及无关的扰乱特征。同时,将这两特征合并,并进行图像重构,得到源域和目标域的重构图像,进而使得分离的特征不偏移原图像本身。
本发明一实施例中,为了简便,将有标签数据的源域数据集记为其中为输入图像/>为边界框的坐标,/>为目标类别标签,ns为源域数据集的样本数。无标签的目标域数据记为/>其中nt为目标域数据集的样本数。本发明方法的训练目标是从Ds学习到的模型迁移到Dt上。
本发明一实施例的灰度特征分离网络中,通过私有编码器Es、Et,共享解码器SD以及目标检测框架的特征提取网络{F1,F2,F3},实现灰度特征分离网络的双流网络结构;所述双流网络中,特征提取网络提取两个域的图像公有信息。具体地,将灰度化后的源域和目标域样本,分别输入到私有编码器Es和Et,得到两域的高维特征,该特征主要包含与检测无关的扰乱特征,同时,将该特征与目标检测框架的骨干网络得到的与检测有关的高维特征合并,得到融合特征,最后将两域的融合特征输入到共享解码器SD中,得到重构的灰度图像。
本发明利用局部全局特征模块的对齐损失和目标检测模块损失,使得特征提取网络提取与目标检测相有用的公有信息。而Es和Et分别提取源域和目标域的私有信息。私有编码器输入的是两个域灰度化的图像,得到两域图像色彩外的差异信息。若输入的是彩色图像,不仅增加了重构的难度,其次还会让私有编码器过度关注图像的色彩差异,而忽略了两个数据域上的目标的其它差异信息。共享解码器输入私有编码器得到的特征E(x)和特征提取网络得到的F3(x)合并后的融合特征[E(x),F3(x)],输出灰度化图像的重构图像。
本发明一实施例中,为了更好的完成特征分离,使用了差异化损失,限制特征提取器和私有编码器的高维特征,进而分离出与目标检测无关的差异化信息,其定义为:
其中,为Frobenius范数的平方,g(·)为全局池化层,/>分别为第i个源域和目标域样本通过Es/Et得到的与检测无关的扰乱特征和通过特征提取网络得到的与检测有关的高维特征。
本发明实施例中,通过图像重构,可以让网络提取的特征,不偏离图像本身,更好地指导私有编码器提取差异化信息。灰度图像的重构损失函数采用l1损失,其定义为:
其中,为l1范数,/>和/>分别为第i个源域和目标域的灰度化的图像,/>为SD的重构图像。训练时,通过该损失函数私有编码器提取的特征是有效的差异化信息。
本发明一实施例中,局域实例对齐模块由分组组件(Grouping)和基于上下文感知的区域实例对齐(Context-Aware RILA)组件组成。
其中,通过目标检测框架的区域提议网络,得到候选区域的实例特征和其对应的预测边界框。将预测边界框的中心坐标输入到尺度空间滤波聚类,实现区域分组。这里,利用尺度空间滤波计算出来的生命周期“Lifetime”,确定聚类个数和每一类的聚类中心,同时得到合理区域。通过合理区域,可以去除异常候选区域,并通过聚类中心,得到每一组的候选区域;将每组的候选区域对应的上下文感应的实例特征进行精炼,得到精炼的实例特征,并将其输入到域分类器D_ri中,输出域标签,从而实现区域实例特征对齐。
分组模块中,源域上存在标签而目标域上不存在,RPN的优化主要由源域的标签数据指导,无法确保在目标域上的候选区域含有目标,其很有可能包含大量背景噪声。此外,一个目标一般会被多个候选区域检测到,意味着某些候选区域是冗余的。应该对最有可能存在目标的候选区域对应的实例特征进行特征对齐,而不是对所有特征。很自然的想法是将候选区域进行分类,将含有同一类别的候选区域分到一起。一个可靠的模型预测的包含同一个目标的候选区域在图中的位置应该是相近的,因此可以利用其位置信息将疑似含有同一目标的候选区域聚类。
本发明优选的,使用RPN得到候选区的预测边界框其中/>为第i个预测边界框的中心坐标,wi为其宽度,hi为其高度,应用尺度空间滤波(scale-spacefiltering,SSF)算法自适应地对候选区域的中心坐标进行聚类,得到K个自适应聚类中心,意味着可以根据聚类中心,将ROIs分为K个区域,从而间接地将实例特征分为K类,之后只需要对每个类别上的实例特征对齐。
其中,基于尺度空间滤波算法的自适应区域搜索在本发明的实现步骤包括:
(1)聚类中心迭代:SSF是一个自适应聚类类别数目的聚类方法,并不需要设置聚类个数K,因此非常适合解决分组模块中目标域不存在无标签的问题。因此本发明选用SSF算法用于分组模块的聚类操作,而不是使用传统的聚类方法,如K-Means。通过RPN,可以得到N个预测边界框的中心点坐标集。然后通过SSF算法,将其聚类,直至聚成一类为止。
(2)自适应区域个数选择:根据SSF算法定义的聚类生命周期“Lifetime”,选择出最优的聚类个数K,以及其对应的聚类中心和合理存在范围/>
(3)移除异常值:对于每一个边界框的中心坐标bi=(bi,x,bi,y),本发明规定:如果则b′i为异常值,其大概率包含了背景噪声,因此它会在基于上下文感知的区域实例对齐模块中被移除。
基于上下文感知的区域实例对齐模块中,将候选区域分类后,需要提炼每一类的实例特征,用于实例对齐。最简单的,可以将分为同一类的实例特征重构成一个特征图,作为域分类器的输入,但这并没有从根本上解决冗余的或噪声的候选区域影响。因此,本发明使用全局池化的方法,精炼同一类别下的实例特征。假设尺度空间滤波得到的第k类的实例特征为其中mk是被分到第k类的个数,d为实例特征的维数。通过全局池化处理,可以得到第k类的全局池化特征/>其能够充分反映第k类的实例特征,同时降低了冗余特征的影响。其次,本发明使用上下文融合的实例特征作为实例对齐和目标检测模块中的边界框回归和分类预测的输入。从域分类器Dl,Dm,Dg得到三个不同等级的上下文向量fl,fm,fg,以及基于ROI-Pooling得到每个候选区域的实例特征fr。如图2所示,通过特征合并(Concat),得到上下文融合的实例特征fins=[fl,fm,fg,fr],用于全局池化,得到精炼实例特征/>随后,将全局池化后的实例特征输入到梯度反向层和域分类器Gri中,输出域标签,实现区域实例对齐。这一模块的损失函数,将使用Focal Loss,其定义如下:
其中,为第i个源域样本的自适应分组个数,/>为第i个源域样本的第k个区域经过全局池化后的精炼实例特征,γ为Focal Loss的权重参数。
本发明一实施例的局部全局特征对齐模块中,采用HTCN网络的Local FeatureMasks和IWAT-I框架,其对应的损失函数
而目标检测的损失包括源域上的分类损失Lc和边界框的回归损失Lr。
综上,本发明的总体目标函数为:
其中,β和λ用于权衡检测损失,对抗损失和重构损失。梯度符号通过梯度反转层进行翻转。
本发明以Faster R-CNN框架,提出了基于特征分离和对齐的无监督域自适应目标检测系统(FSANet),系统网络包括特征分离网络、局部全局特征对齐模块和区域实例对齐模块。其中,特征分离网络通过差异化损失,分离出不需要对齐的差异化信息和与目标检测相关的信息,能够让特征对齐模块可以更加关注于目标区域信息。局部全局特征对齐和区域实例对齐为领域自适应模块,它们通过减少多个级别上高维特征的分布差异来减少领域偏移。具体地,本发明将贡献分为以下几点:
(1)在本发明的网络框架中,设计了基于自编码器的灰度特征分离双流网络,它通过私有编码器分离图像的差异信息,而目标检测框架作为共享权值的公有信息提取器,提取对检测有用的公有信息;该结构有效地分离源域和目标域的公有信息和差异信息。在高维特征对齐时,本发明使用目标检测的网络框架中提取的公有信息,可降低与检测无关的差异化信息影响,以提升领域适应性和迁移性。为了降低不同图像的色彩差异和重构难度的影响,本发明利用灰度化图像提取领域的差异化特征,可以使得私有编码器在提取差异化信息时更关注于目标的其它信息而不是图像色彩,也能简化重构任务,让模型更加关注于目标检测。
(2)结合区域对齐和实例对齐方法,本发明设计了区域实例对齐模块,其能够有效地解决因候选区域的冗余和背景产生的负面影响问题;该模块是借助聚类算法,将RPN得到的候选区域利用分组,然后提取每组的特征向量,最后通过梯度反向层和域分类器进行实例级别的特征对齐。
(3)考虑到图像目标个数的不确定性和背景的影响,本发明采用尺度空间滤波聚类,而不是K-Means聚类。通过区域实例对齐模块,本发明实现了在不同图像中,自适应地提取不同个数的目标区域,解决因使用K-Means聚类而固定目标区域个数的问题。
(4)在聚类时,本发明进行了异常值判断,减少疑似背景的候选区域特征的影响。
请参阅图1,本发明实施例的网络框架除Faster R-CNN目标检测框架外,包含了局部全局特征对齐模块(LGFA),灰度特征分离模块(GSFS)和区域实例对齐模块(RILA)三个自适应组件。训练过程包括以下步骤:
步骤1:训练时,成对的RGB图像(一张源域图像和一张目标域图像)输入到目标检测框架,并通过LGFA模块的梯度反转层GRL和域分类器(Dl,Dm,Dg)实现多级别特征对齐。同时得到上下文向量特征[fl,fm,fg],该特征与ROI-Pooling得到的区域特征fr合并,得到融合实例特征fins=[fl,fm,fg,fr],并利用该融合特征,对源域图像进行目标检测。
步骤2:将融合特征输入到区域实例对齐模块RILA模块,实现检测和区域实例特征对齐。其中,RILA模块的实现流程如图2所示。首先,本发明利用RPN得到的预测边界框的中心坐标,进行尺度空间滤波聚类,并通过“Lifetime”,选择出“Lifetime”最长的聚类个数,实现自适应目标区域选择。其次,根据合理区域,移除异常值。最后将每个区域类别的融合实例特征fins输入到基于上下文感知的区域实例对齐模块(Context-Aware RILA)。该模块的第一步是通过全局池化层(Global Pooling),将fins转化为每个区域的精炼实例特征第二步是将/>输入到域分类器Dri(其网络结构如图5所示),实现区域实例特征对齐。
步骤3:与此同时,输入样本的灰度化图像输入到灰度特征分离模块GSFS中,通过双流网络,分离出对检测无用的扰乱特征。首先,将RGB图像通过加权平均法,转化为灰度图像,其计算公式如下:
G=0.299R+0.578G+0.114B,
其中,R,G,B分别为RGB三通道上的值。然后,将源域和目标域的灰度化样本分别输入到私有编码器Es,Et提取与目标检测无关的扰乱信息ds,dt。接着,ds,dt分别与它们对应的骨干网络输出的高维特征合并。最后经过公有解码器SD进行图像重构,输出重构后的灰度图像。这里会计算差异化损失Ldiff和重构损失Lrec用于反向传播,优化网络权值。本发明提供了两种常见骨干网络的灰度特征分离网络结构,分别为ResNet-101(见图4)和VGG-16(见图5)。
联合上述三个步骤,可以对网络进行训练,得到一个域自适应的目标检测模型。特别地,测试时,只需要将测试图像输入到目标检测框架中,这与Faster R-CNN的测试过程一致。
为了验证本发明方法的有效性,进行如下仿真实验。
本发明在真实场景到艺术场景,正常场景到雾噪声两组域自适应目标检测实验,说明发明方法的有效性。其中,真实场景到艺术场景使用PASCAL—>Clipart1k数据集。PASCAL VOC数据集作为真实场景下的源域,Clipart1k作为艺术场景下的目标域。PASCAL数据集包含有20个类别以及它们的边界框。在这组实验中,PASCAL VOC 2007和2012的训练集和测试集分割被用于训练,大约有15K张图像。而Clipart1k数据集共有1K张图像,且目标类别与PASCAL相同,其所有图像被用于训练(不包含目标)以及测试。而正常场景到雾噪声使用Cityscape—>Foggy-Cityscapes。Cityscape作为正常场景源域,Foggy-Cityscapes作为雾噪声目标域。Cityscapes数据集包含了由车载摄像机拍摄的不同城市在正常天气条件下的街道场景,共有2975张训练集图像,500张测试集图像。它的标签数据根据DA-Faster的方法获取。而Foggy-Cityscapes是在Cityscape图像上添加雾噪声获取,其标签数据与Cityscape相同。该实验将Cityscape和Foggy-Cityscapes的训练集数据用于训练,Foggy-Cityscapes的测试集数据用于测试。
实验细节:在所有实验中,与现阶段先进方法的设置保持基本一致,目标检测模型采用基于ROI-Align的Faster R-CNN,其输入图像的最短边设置为600。对于PASCAL—>Clipart1k实验,骨干网络选用ResNet-101,而Cityscape—>Foggy-Cityscapes选用VGG-16,骨干网络的权值初始化采用ImageNet的预训练权重。优化方法使用随机梯度下降SGD,其动量参数设置为0.9,初始化学习率设置为0.001,迭代训练50K次后,衰减为0.0001。训练70K次后,计算在IoU阈值为0.5下的测试集平均精度mAP。另外总体目标函数中的λ设置为1,β设置为0.1,Focal Loss的γ设置为5.0。所有实验基于Pytorch设计的。使用的训练硬件平台为:Intel CPU i7-9700,内存为32GB,显卡为NVIDIA GTX-1080Ti。
表1和表2分别列出了现有先进方法和本发明方法的结果对比,其中Source Only为只使用源域数据集训练的Faster R-CNN的结果,其它先进方法引用其原文上的实验结果。可以看到,本发明结果能有效地提高基于对抗式的域自适应无监督目标检测方法的精度,在这两组实验中,mAP均有提升,其中PASCAL—>Clipart1k实验的目标域测试集mAP达42.7%,提升了0.6%(从42.1%到42.7%),而Cityscape—>Foggy-Cityscapes的目标域测试集mAP达40.0%,接近上界,这充分说明本发明能够提升域自适应目标检测的可迁移性和自适应性。
表1域自适应实验PASCAL—>Clipart1k的实验结果
表2域自适应实验Cityscape—>Foggy-Cityscapes的实验结果
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (3)
1.一种基于特征分离和对齐的域自适应无监督目标检测方法,其特征在于,包括以下步骤:
将成对的源域和目标域RGB样本输入到两阶段的目标检测框架中,通过源域的标签计算检测损失,训练目标检测框架,获得学习好的目标检测模型;基于所述学习好的目标检测模型完成目标检测;
其中,在训练过程中,通过目标检测框架中的特征提取网络得到多级别的高维特征,并将多级别的高维特征进行对齐;通过目标检测框架中的区域提议网络,得到候选区域的预测边界框,对得到的预测边界框进行聚类实现区域分组,对每组的区域实例特征进行对齐;
其中,在训练过程中,将所述成对的源域和目标域RGB样本灰度化并进行特征分离,分离出与检测有关的高维特征及与检测无关的扰乱特征;将分离出的两特征合并,进行图像重构,得到源域和目标域的重构灰度图像,使得分离出的特征不偏移原图像本身;
其中,所述将所述成对的源域和目标域RGB样本灰度化并进行特征分离,分离出与检测有关的高维特征及与检测无关的扰乱特征;将分离出的两特征合并,进行图像重构,得到源域和目标域的重构灰度图像,使得分离出的特征不偏移原图像本身的步骤具体包括:
将灰度化后的源域和目标域样本,分别输入到私有编码器Es、Et,得到两域的高维特征;
将两域的高维特征与目标检测框架的特征提取网络得到的高维特征合并,得到两域的融合特征;
将两域的融合特征输入到共享解码器SD,得到重构灰度图像;
所述将灰度化后的源域和目标域样本,分别输入到私有编码器Es、Et,得到两域的高维特征时,使用差异化损失,表达式为:
其中,为Frobenius范数的平方,g(·)为全局池化层,/>分别为第i个源域和目标域样本通过Es/Et得到的与检测无关的扰乱特征和通过特征提取网络得到的与检测有关的高维特征;
将两域的融合特征输入到共享解码器SD中,得到重构灰度图像时,灰度图像的重构损失函数采用l1损失,表达式为:
其中,为l1范数,/>和/>分别为第i个源域和目标域的灰度化的图像,/>为SD的重构图像;
通过目标检测框架中的区域提议网络,得到候选区域的预测边界框,对得到的预测边界框的中心坐标进行聚类实现区域分组,对每组的区域实例特征进行对齐的步骤具体包括:
通过目标检测框架的区域提议网络,得到候选区域的实例特征和其对应的预测边界框;将预测边界框的中心坐标输入到尺度空间滤波聚类,实现区域分组;
将每组的候选区域对应的上下文感应的实例特征进行精炼,得到精炼的实例特征,并将其输入到域分类器中,输出域标签,实现区域实例特征对齐;
将预测边界框的中心坐标输入到尺度空间滤波聚类,实现区域分组的步骤具体包括:
利用尺度空间滤波计算出来的生命周期“Lifetime”,确定聚类个数和每一类的聚类中心,得到合理区域;通过合理区域去除异常候选区域;通过聚类中心得到每一组的候选区域。
2.根据权利要求1所述的一种基于特征分离和对齐的域自适应无监督目标检测方法,其特征在于,通过源域的标签计算检测损失,训练目标检测框架时的总体目标函数为:
式中,
其中,F,E,S,D分别为目标检测框架、私有编码器、共享解码器以及域分类器,Dri(·)为域分类器Dri的输出值,ns,nt分别为源域和目标域数据集的样本总数,分别为第i个源域和目标域样本的自适应分组个数,/>分别为第i个源域和目标域样本的第k个区域经过全局池化后的精炼实例特征,γ为Focal Loss的权重参数;β和λ用于权衡检测损失、对抗损失和重构损失;梯度符号通过梯度反转层进行翻转。
3.根据权利要求1所述的一种基于特征分离和对齐的域自适应无监督目标检测方法,其特征在于,所述两阶段的目标检测框架为Faster R-CNN目标检测框架、Mask R-CNN目标检测框架或RetinaNet目标检测框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011440101.2A CN112488229B (zh) | 2020-12-10 | 2020-12-10 | 一种基于特征分离和对齐的域自适应无监督目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011440101.2A CN112488229B (zh) | 2020-12-10 | 2020-12-10 | 一种基于特征分离和对齐的域自适应无监督目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488229A CN112488229A (zh) | 2021-03-12 |
CN112488229B true CN112488229B (zh) | 2024-04-05 |
Family
ID=74940079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011440101.2A Active CN112488229B (zh) | 2020-12-10 | 2020-12-10 | 一种基于特征分离和对齐的域自适应无监督目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488229B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011487B (zh) * | 2021-03-16 | 2022-11-18 | 华南理工大学 | 一种基于联合学习与知识迁移的开放集图像分类方法 |
CN113139468B (zh) * | 2021-04-24 | 2023-04-11 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN114529878B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种基于语义感知的跨域道路场景语义分割方法 |
CN114549883B (zh) * | 2022-02-24 | 2023-09-05 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法、装置和设备 |
CN114821152B (zh) * | 2022-03-23 | 2023-05-02 | 湖南大学 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340021A (zh) * | 2020-02-20 | 2020-06-26 | 中国科学技术大学 | 基于中心对齐和关系显著性的无监督域适应目标检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN111860678A (zh) * | 2020-07-29 | 2020-10-30 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
-
2020
- 2020-12-10 CN CN202011440101.2A patent/CN112488229B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN111340021A (zh) * | 2020-02-20 | 2020-06-26 | 中国科学技术大学 | 基于中心对齐和关系显著性的无监督域适应目标检测方法 |
CN111860678A (zh) * | 2020-07-29 | 2020-10-30 | 中国矿业大学 | 一种基于聚类的无监督跨域行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
基于主动学习的半监督领域自适应方法研究;姚明海;黄展聪;;高技术通讯(第08期);全文 * |
基于鉴别模型和对抗损失的无监督域自适应方法;赵文仓;袁立镇;徐长凯;;高技术通讯(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488229A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112488229B (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
Paris et al. | A topological approach to hierarchical segmentation using mean shift | |
CN111553397B (zh) | 基于区域全卷积网络和自适应的跨域目标检测方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN112036447B (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN103136504A (zh) | 人脸识别方法及装置 | |
CN113505792B (zh) | 面向非均衡遥感图像的多尺度语义分割方法及模型 | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及系统 | |
CN114820655A (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN113052017A (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN113505670A (zh) | 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法 | |
CN112819837A (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
Shi et al. | Adaptive threshold cascade faster RCNN for domain adaptive object detection | |
Lee et al. | Tracking-by-segmentation using superpixel-wise neural network | |
CN111832390B (zh) | 一种手写古文字检测方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |