CN115082762A - 基于区域建议网络中心对齐的目标检测无监督域适应系统 - Google Patents
基于区域建议网络中心对齐的目标检测无监督域适应系统 Download PDFInfo
- Publication number
- CN115082762A CN115082762A CN202210856674.6A CN202210856674A CN115082762A CN 115082762 A CN115082762 A CN 115082762A CN 202210856674 A CN202210856674 A CN 202210856674A CN 115082762 A CN115082762 A CN 115082762A
- Authority
- CN
- China
- Prior art keywords
- network
- domain
- alignment
- features
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 136
- 230000006978 adaptation Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 31
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013508 migration Methods 0.000 claims description 12
- 230000005012 migration Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000011425 standardization method Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000004132 cross linking Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明基于区域建议网络中心对齐的目标检测无监督域适应系统,涉及图像目标检测领域,本发明在使用领域特征对抗学习方法和自适应实例标准化方法对骨干网络特征进行对齐的基础上,提出区域建议网络中心对齐系统,进一步对齐区域建议特征,解决目标检测无监督域适应中模型的检测精度和泛化能力差的问题,使区域建议网络在目标域中依然能给出高质量的候选框,从而提高整体检测网络的域适应能力。
Description
技术领域
本发明涉及图像目标检测领域,尤其是一种基于区域建议网络中心对齐的目标检测无监督域适应系统及方法。
背景技术
当前,目标检测技术已经较为成熟,但好的检测效果离不开大量标注数据。在目标检测任务中,图片标注(亦称作标签)的主要内容为每张图片中各个物体的类别和能包围每个物体的最小矩形框的信息(大小、位置),这些标注数据的获得往往需要很多人力物力。同时,能通过一些其他方式方便地获取大量带有标注的相关数据(例如游戏引擎生成的虚拟图像,通常称为源域),标注类别相同的数据可以辅助真实世界场景(通常称为目标域)的任务,然而由于外观差异,直接利用这些数据训练得到的模型,在实际场景下的效果会明显变差。无监督域适应方法可以解决相应的问题。本发明主要研究目标检测无监督域适应学习方法,具体地,针对目标检测任务,给定源域数据(包括图像和相应标注)和目标域数据(仅包括图像),利用无监督域适应学习方法使得网络模型更加适应目标域上的检测任务。
在目标检测无监督域适应任务中,需要使网络尽可能学习到两个域共有的、对检测结果有利的特征。目前的目标检测无监督域适应方法主要分为两类:一种是对抗学习法,主要是利用生成对抗网络使得基础检测网络的前端特征提取网络能够提取出具有域不变性的特征,以此来对齐源域和目标域的特征分布等;另一种是图像风格转换法,主要是先把源域转换为多个具有不同风格的中间域,然后根据源域的标注信息让计算机自动的为中间域生成相应的标注数据,最后利用与目标域更为相近的中间域和目标域进行对抗训练,以得到域不变特征。在专利《一种基于对抗性域适应的无监督图像目标检测方法》(公开号CN112668594A)中,将源域、目标域图片输入两阶段网络获得骨干网络浅层、深层特征以及区域建议网络生产的正样本兴趣区域特征后,将这三个特征分别送入浅层域判别器、深层域判别器、正样本兴趣区域判别器进行对抗学习,以使网络尽可能的提取具有域不变性质的特征。但是这种方式会使网络强制对齐域特有的特征,这些特征本来就不应该也不可能被对齐,强制对齐域特有特征反而劣化了域适应效果。在某些现有技术中,会对区域建议特征与类别中心进行关系建模并不断的进行更新,利用更新得到的类别中心来拉近目标域和源域之间每一类的距离,同时借助源域信息拉开目标域不同类别之间的距离。但目标域的类别判定本就存在较多错误,对错误的类别进行中心对齐会使网络往错误的方向更新。现有的另外一些目标检测技术是在某一特定领域专用的方法,泛化能力差。因此,设计一种泛用的、能尽可能对齐域不变特征、能减小错误伪标签对网络的负面影响的方法具有重要的实用价值和现实意义。
发明内容
为了提高域适应中区域建议网络对目标域进行区域建议的迁移能力,进而提高目标检测无监督域适应中模型的检测精度和泛化能力,
本发明公开一种基于区域建议网络中心对齐的目标检测无监督域适应系统。先前的目标检测无监督域适应方法往往强调骨干网络或者二阶段检测算法中第二阶段分类、回归网络的特征对齐,忽略了一阶段区域建议网络给出候选框的精确度的重要性。本发明在使用领域特征对抗学习方法和自适应实例标准化方法对骨干网络特征进行对齐的基础上,提出区域建议网络中心对齐系统,进一步对齐区域建议特征,使区域建议网络在目标域中依然能给出高质量的候选框,从而提高整体检测网络的域适应能力。所述系统包含目标检测模块、骨干网络特征对抗学习模块、区域建议网络中心对齐模块和联合损失函数训练域适应目标检测网络四个部分。
其中,所述目标检测模块,能够使用基础的两阶段目标检测框架对输入图像依次进行特征提取、获得初步候选框、对候选框中的物体进行分类和候选框边界框精修,最终得到检测结果;所述骨干网络特征对抗学习模块,能够在骨干网络的中层、高层处分别设置一个领域判别器来判断所述骨干网络特征对抗学习模块提取的特征是否属于源域,所述领域判别器与骨干网络经梯度反传网络相连;所述区域建议网络中心对齐模块,能够通过在区域建议网络处额外引入一个中心对齐模块,使所述源域、目标域图像得到的区域建议特征尽可能的与预先定义的中心特征对齐,进而自然地对齐所述源域、所述目标域的所述区域建议特征;所述联合损失函数训练域适应目标检测网络,能够联合目标检测损失函数、骨干网络特征对抗学习损失函数和区域建议网络中心对齐损失函数对域适应检测网络中的所述目标检测模块、骨干网络特征对抗学习模块、区域建议网络中心对齐模块分别进行训练,最终获得域适应目标检测网络模型。
所述目标检测模块是指,使用基础的两阶段目标检测框架对输入图像依次进行特征提取、获得初步候选框、对候选框中的物体进行分类和候选框边界框精修等等,最终得到检测结果。本发明设置在目标检测的框架内,使用Faster RCNN作为基础的目标检测算法,利用源域图像的检测结果和源域标注构造目标检测损失函数,引导网络提取出有利于目标检测的特征。其中Faster RCNN为经典的两阶段目标检测算法,第一阶段先使用区域建议模块给出区域建议候选框,第二阶段再对给出的区域建议候选框中的物体进行分类并对候选框的位置、大小进一步修正。目标检测损失函数包括一阶段区域建议网络的分类损失、回归损失和二阶段的候选框类别判定损失、边界框精修损失,其中为相应损失的加权系数,用于控制各个模块产生的损失在整体损失中的比重:
所述骨干网络特征对抗学习模块是指,在骨干网络的中层、高层处分别设置一个领域判别器来判断特征是否属于源域,领域判别器与骨干网络经梯度反传网络相连。这样在训练时,领域判别器会尽可能的学习分辨输入特征来源的能力,而骨干网络则尽可能学习提取出让领域判别器混淆的特征(即域不变特征),实现对抗学习。另外,本发明对骨干网络提取的浅层特征使用自适应实例标准化方法,进一步促进骨干网络提取域不变特征的学习。通过比较域判别网络对输入特征的判定结果和特征的实际来源构造骨干网络特征对抗损失函数,引导骨干网络提取具有域不变性质的特征。骨干网络特征对抗学习损失函数为一个最小最大博弈,对于源域图片和目标域图片,对抗损失如下:
所述区域建议网络中心对齐模块是指,通过在区域建议网络处额外引入一个中心对齐模块,使源域、目标域图像得到的区域建议特征(即区域建议网络中心对齐模块提取的特征)尽可能的与预先定义的中心特征对齐,进而自然地对齐源域、目标域的区域建议特征,使区域建议网络在目标域上有着较好的迁移能力。所述区域建议网络中心对齐模块还包括伪标签生成、区域建议特征提取、中心特征更新、中心对齐、计算区域建议网络中心对齐损失五个子模块。
进一步地,所述伪标签生成是指,获得用来判定区域建议网络给出的候选框是否属于正样例的标签。对于源域,本发明直接选取标注数据作为标签。对于目标域,首先对第二阶段给出的检测框进行非极大值抑制()、概率阈值筛选,然后对每个类别按预测概率大小排序并选取每个类别前N个检测框作为伪标签,以此来平衡类不均匀性。本发明每隔T步对伪标签进行一次更新。
进一步地,所述区域建议特征提取是指,对于区域建议网络给出的所有候选框,分别计算其与标签框的(交并比),将大于正样例阈值的候选框记为正样本,小于负样例阈值的候选框记为负样本。然后将所有的正样本、随机选取的与正样本数目相同的负样本结合,作为区域建议网络中心对齐的训练样本。对于每一个训练样本,利用骨干网络提取的全局特征和Faster RCNN框架中的区域建议特征对齐模块()得到区域建议特征。
进一步地,所述中心特征更新是指,首先定义两个可学习的中心特征,其中1、0分别表示前景中心、背景中心。然后对中心特征使用K-Means算法进行更新。更新时首先在所有区域建议特征中随机选取两个作为簇质心,计算其余特征到两个质心间的距离,并将其分配给相应质心对应的簇中;然后分别计算两个簇中所有特征的平均值以更新簇质心;反复迭代上述两个步骤直到簇质心不再变化为止,并将最终得到的两个簇质心送入区域建议网络分类模块,根据分类结果对簇质心进行标记,得到新的中心特征。聚类中的距离选取余弦距离,令, 分别代表簇质心和区域建议特征,则距离衡量公式如下:
进一步地,所述中心对齐是指,事先定义两个可学习的中心特征,其中1、0分别表示前景中心、背景中心。再将源域、目标域的区域建议对齐特征按其标签与相应的中心特征尽可能对齐,同时拉开与另一个中心特征的距离。也就是使尽量靠近的同时尽可能远离。这样就促使了源域、目标域区域建议特征的对齐,进而促使区域建议网络尽可能的提取具有域不变性的区域建议特征,提高区域建议网络在目标域的迁移能力。
进一步地,所述计算区域建议网络中心对齐损失是指,通过计算源域、目标域区域建议对齐特征和中心特征的相似度,构造区域建议网络中心对齐损失函数,使区域建议网络在目标域有着更强的迁移能力。也就是说使尽量靠近的同时尽可能远离。特征的相似度采用余弦相似性来衡量,余弦相似度计算方式如下,其中实际应用中将区域建议对齐特征和中心特征分别代入, :
损失函数将源域、目标域的区域建议对齐特征按其标签与相应的中心特征尽可能对齐,同时拉开与另一个中心特征的差距,可以用以下公式表示。其中为事先定义的两个可学习的中心特征;为区域建议对齐特征;为挑选的候选框数量;为一个给定超参数,用于忽略较低相似度特征对带来的损失,本实施方式设置为0;,,分别代表正样本对齐损失、负样本对齐损失和整体对齐损失。
所述联合损失函数训练域适应目标检测网络是指,联合目标检测损失函数、骨干网络特征对抗学习损失函数和区域建议网络中心对齐损失函数对域适应检测网络进行训练,最终获得域适应目标检测网络模型。整个网络的损失函数为以上三者的加权和,其中、表示权重系数:
本发明还公开了一种基于区域建议网络中心对齐的目标检测无监督域适应方法,主要包括如下步骤:
首先,本发明对骨干网络中的中层、高层特征进行域对抗学习并使用自适应实例标准化方法,使骨干网络能够提取出具有域不变性的特征;其次,使用区域建议网络中心对齐方法来提高区域建议网络产生的候选框的精度,并提高其在目标域的迁移能力;最后,利用区域建议网络分类模块对中心特征使用K-Means算法进行更新,促进源域目标域区域建议特征的对齐,进而提高区域建议网络在目标域上的迁移能力。具体地,包括,
步骤1 准备源域、目标域的训练数据集,其中源域包括图像和对应的标注,目标域只包含图像;然后对图像进行预处理;最终得到的源域数据包括图像和标注,目标域数据只包含图像;
步骤2 搭建网络模型;使用深度学习框架,建立区域建议网络中心对齐的域适应目标检测网络模型,所述模型由基础检测网络、骨干网络特征领域判别器和中心对齐网络三个模块构成;采用VGG-16作为检测网络的backbone,然后在backbone的中层、高层特征输出处分别设置领域判别器对特征进行分类,领域判别器与backbone之间使用梯度反传网络连接,最后在区域建议网络处引入中心特征对齐模块来对齐源域、目标域的区域建议特征;
步骤3 基础检测网络、骨干网络特征领域判别器训练;在初始次迭代中,每次随机从源域、目标域中各选一个数据输入到网络;对于输入图片,经骨干网络提取出浅层特征后,使用自适应实例标准化方法得到标准化之后的浅层特征;继续使用骨干网络处理得到中层特征、高层特征和全局特征;将、分别送入对应的领域判别器中得到领域判定结果,比较领域判定结果和特征的实际标签,即判断来自源域还是目标域;
步骤4 生成或更新目标域伪标签和中心特征;当迭代次数达到后,对每张目标域图片生成伪标签,构成新的目标域数据;同时根据得到的区域建议特征得到初始的中心特征;后面每隔步更新一次伪标签和中心特征,IT表示超参数;
步骤5中心对其网络训练;在迭代次数大于后,依然每次随机从源域、目标域中各选一个数据输入到网络;对抗损失和目标检测损失与步骤3保持一致,但额外多了一个区域建议网络中心对齐步骤。对于输入,在骨干网络提取出全局特征后,首先输入到区域建议网络得到区域候选框,接着与标签计算并排序后区分出前景候选框和背景候选框;然后将所有的前景候选框、随机选取与前景候选框数目相同的背景候选框结合作为区域建议网络中心对齐的训练样本;对于每一个训练样本,利用骨干网络提取的全局特征和得到区域建议特征;根据区域建议对齐特征与相应中心特征的相似度和另外一个中心特征的相离度,得到区域建议网络中心对齐损失;综合以上三种损失函数,训练检测网络使其在目标域上能够取得较好的检测效果;
本发明的有益效果:首先对骨干网络的浅层特征使用自适应实例标准化方法,并同时对骨干网络中的中层、高层特征进行域对抗学习,使骨干网络尽可能的提取出具有域不变性的特征;其次,本发明使用区域建议网络中心对齐方法促使源域、目标域区域建议特征的对齐,进而提高区域建议网络在目标域的迁移能力;最后,本发明在多个场景的域适应任务中均有良好的表现,具有很强的泛化能力和实用价值。
附图说明
关于本发明的优点与精神可以通过以下的发明详述及所附图得到进一步的了解。
图1是本发明所涉及的基于区域建议网络中心对齐的目标检测无监督域适应系统的区域建议网络中心对齐的方法示意图;
图2是本发明所涉及的基于区域建议网络中心对齐的目标检测无监督域适应系统的区域建议网络特征对齐结果示意图;
图3是本发明所涉及的基于区域建议网络中心对齐的目标检测无监督域适应系统的区域建议网络中心对齐方法输出结果示意图;
图4是本发明所涉及的基于区域建议网络中心对齐的目标检测无监督域适应方法整体流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的整体网络架构见图1,并公开了一种基于区域建议网络中心对齐的目标检测无监督域适应系统。所述系统包含目标检测模块、骨干网络特征对抗学习模块、区域建议网络中心对齐模块和联合损失函数训练域适应目标检测网络四个部分。
所述目标检测模块是指,使用基础的两阶段目标检测框架对输入图像依次进行特征提取、获得初步候选框、对候选框中的物体进行分类和候选框边界框精修等等,最终得到检测结果。本发明设置在目标检测的框架内,使用Faster RCNN作为基础的目标检测算法,利用源域图像的检测结果和源域标注构造目标检测损失函数,引导网络提取出有利于目标检测的特征。其中Faster RCNN为经典的两阶段目标检测算法,第一阶段先使用区域建议模块给出区域建议候选框,第二阶段再对给出的区域建议候选框中的物体进行分类并对候选框的位置、大小进一步修正。目标检测损失函数包括一阶段区域建议网络的分类损失、回归损失和二阶段的候选框类别判定损失、边界框精修损失,其中为相应损失的加权系数,用于控制各个模块产生的损失在整体损失中的比重:
其中,所述目标检测损失函数为,所述一阶段区域建议网络的分类损失为、所述回归损失为,所述二阶段的候选框类别判定损失为、所述边界框精修损失为,其中为相应损失的加权系数,用于控制各个模块产生的损失在整体损失中的比重。
所述骨干网络特征对抗学习模块是指,在骨干网络的中层、高层处分别设置一个领域判别器来判断特征是否属于源域,领域判别器与骨干网络经梯度反传网络相连。这样在训练时,领域判别器会尽可能的学习分辨输入特征来源的能力,而骨干网络则尽可能学习提取出让领域判别器混淆的特征(即域不变特征),实现对抗学习。另外,本发明对骨干网络提取的浅层特征使用自适应实例标准化方法,进一步促进骨干网络提取域不变特征的学习。通过比较域判别网络对输入特征的判定结果和特征的实际来源构造骨干网络特征对抗损失函数,引导骨干网络提取具有域不变性质的特征。骨干网络特征对抗学习损失函数为一个最小最大博弈,对于源域图片和目标域图片,对抗损失如下:
所述区域建议网络中心对齐模块是指,通过在区域建议网络处额外引入一个中心对齐模块,使源域、目标域图像得到的区域建议特征(即区域建议网络中心对齐模块提取的特征)尽可能的与预先定义的中心特征对齐,进而自然地对齐源域、目标域的区域建议特征,使区域建议网络在目标域上有着较好的迁移能力。所述区域建议网络中心对齐模块还包括伪标签生成、区域建议特征提取、中心特征更新、中心对齐、计算区域建议网络中心对齐损失五个子模块。
进一步地,所述伪标签生成是指,获得用来判定区域建议网络给出的候选框是否属于正样例的标签。对于源域,本发明直接选取标注数据作为标签。对于目标域,首先对第二阶段给出的检测框进行非极大值抑制()、概率阈值筛选,然后对每个类别按预测概率大小排序并选取每个类别前N个检测框作为伪标签,以此来平衡类不均匀性。本发明每隔T步对伪标签进行一次更新。
进一步地,所述区域建议特征提取是指,对于区域建议网络给出的所有候选框,分别计算其与标签框的(交并比),将大于正样例阈值的候选框记为正样本,小于负样例阈值的候选框记为负样本。然后将所有的正样本、随机选取的与正样本数目相同的负样本结合,作为区域建议网络中心对齐的训练样本。对于每一个训练样本,利用骨干网络提取的全局特征和Faster RCNN框架中的区域建议特征对齐模块()得到区域建议特征。
进一步地,所述中心特征更新是指,首先定义两个可学习的中心特征,其中1、0分别表示前景中心、背景中心。然后对中心特征使用K-Means算法进行更新。更新时首先在所有区域建议特征中随机选取两个作为簇质心,计算其余特征到两个质心间的距离,并将其分配给相应质心对应的簇中;然后分别计算两个簇中所有特征的平均值以更新簇质心;反复迭代上述两个步骤直到簇质心不再变化为止,并将最终得到的两个簇质心送入区域建议网络分类模块,根据分类结果对簇质心进行标记,得到新的中心特征。聚类中的距离选取余弦距离,令, 分别代表簇质心和区域建议特征,则距离衡量公式如下:
进一步地,所述中心对齐是指,事先定义两个可学习的中心特征,其中1、0分别表示前景中心、背景中心。再将源域、目标域的区域建议对齐特征按其标签与相应的中心特征尽可能对齐,同时拉开与另一个中心特征的距离。也就是使尽量靠近的同时尽可能远离。这样就促使了源域、目标域区域建议特征的对齐,进而促使区域建议网络尽可能的提取具有域不变性的区域建议特征,提高区域建议网络在目标域的迁移能力。
进一步地,所述计算区域建议网络中心对齐损失是指,通过计算源域、目标域区域建议对齐特征和中心特征的相似度,构造区域建议网络中心对齐损失函数,使区域建议网络在目标域有着更强的迁移能力。也就是说使尽量靠近的同时尽可能远离。特征的相似度采用余弦相似性来衡量,余弦相似度计算方式如下,其中实际应用中将区域建议对齐特征和中心特征分别代入, :
损失函数将源域、目标域的区域建议对齐特征按其标签与相应的中心特征尽可能对齐,同时拉开与另一个中心特征的差距,可以用以下公式表示。其中为事先定义的两个可学习的中心特征;为区域建议对齐特征;为挑选的候选框数量;为一个给定超参数,用于忽略较低相似度特征对带来的损失,本实施方式设置为0;,,分别代表正样本对齐损失、负样本对齐损失和整体对齐损失。
所述联合损失函数训练域适应目标检测网络是指,联合目标检测损失函数、骨干网络特征对抗学习损失函数和区域建议网络中心对齐损失函数对域适应检测网络进行训练,最终获得域适应目标检测网络模型。整个网络的损失函数为以上三者的加权和,其中、表示权重系数:
本发明提供了一种基于区域建议网络中心对齐的目标检测无监督域适应方法。特别地,图像的目标检测模块通过经典的两阶段检测网络实现,而提出的区域建议网络中心对齐模块可以很容易地嵌入到两阶段检测网络的区域建议模块中,提升网络在目标域的检测效果。本方法包括,首先输入源域图像、标注和目标域图像训练检测网络,使网络在目标域上有良好的适应能力;再将目标域待检测图片送入网络,直接得到每张图片中物体的位置和类别。本发明整体流程见图4。
一种基于上述区域建议网络中心对齐的目标检测无监督域适应系统的适应方法,包括如下步骤,
步骤1 准备源域、目标域的训练数据集,其中源域包括图像和对应的标注,目标域只包含图像。然后对图像缩放,使短边保持为600,再使用一些常规的图像增强方式进行预处理。最终得到的源域数据包括图像和标注:源域数据,目标域数据只包含图像:目标域数据。这里的表示源域数据(源域图片)中的第i个数据(i表示,1、2、…、i、…、ns中第i个正整数),表示源域图片第i张图片的标注,是目标域的第j张图片(j表示,1、2、…、j、…、nt中第j个正整数)。
步骤2 搭建网络模型;使用深度学习框架,建立区域建议网络中心对齐的域适应目标检测网络模型,模型由基础检测网络、骨干网络特征领域判别器和中心对齐网络三个模块构成。其中基础检测网络为两阶段Faster RCNN(算法),骨干网络backbone可选择ResNet-50、ResNet-101、VGG-16等预训练模型,在这里我们采用VGG-16作为检测网络的backbone。然后在backbone的中层、高层特征输出处分别设置领域判别器对特征进行分类,领域判别器与backbone之间使用梯度反传网络连接。最后在区域建议网络处引入中心特征对齐模块来对齐源域、目标域的区域建议特征。
步骤3 基础检测网络、骨干网络特征领域判别器训练;在初始次迭代中,每次随机从源域、目标域中各选一个数据输入到网络。对于输入图片,经骨干网络提取出浅层特征后,使用自适应实例标准化方法得到标准化之后的浅层特征。继续使用骨干网络处理得到中层特征、高层特征和全局特征。将、分别送入对应的领域判别器中得到领域判定结果,比较领域判定结果和特征的实际标签(即来自源域还是目标域),计算对抗损失。然后,若(表示步骤1中或)来自源域,则输入到基础检测网络的后续部分,与标注(表示步骤1中表示源域第i张图片的对应的标注)比较后得到目标检测损失后进入下一轮迭代。若来自目标域则直接进入下一轮迭代。
步骤4 生成或更新目标域伪标签和中心特征;当迭代次数达到后,对每张目标域图片生成伪标签,构成新的目标域数据;同时根据得到的区域建议特征得到初始的中心特征。后面每隔步更新一次伪标签和中心特征。其中,IT表示超参数。
步骤5中心对其网络训练;在迭代次数大于后,依然每次随机从源域、目标域中各选一个数据输入到网络。对抗损失和目标检测损失与步骤3保持一致,但额外多了一个区域建议网络中心对齐步骤。对于输入,在骨干网络提取出全局特征后,首先输入到区域建议网络得到区域候选框,接着与标签计算并排序后区分出前景候选框和背景候选框。然后将所有的前景候选框、随机选取与前景候选框数目相同的背景候选框结合作为区域建议网络中心对齐的训练样本。对于每一个训练样本,利用骨干网络提取的全局特征和得到区域建议特征。 根据区域建议对齐特征与相应中心特征的相似度和另外一个中心特征的相离度,得到区域建议网络中心对齐损失。区域特征的对齐效果见图2中的(a)和图2中的(b),图2中的(a)的左、右图分别为baseline(基准方法结果)和本发明得到的区域建议网络特征对齐效果示意图。综合以上三种损失函数,训练检测网络使其在目标域上能够取得较好的检测效果。
步骤6 得到最终检测网络;在迭代次数达到最大后停止迭代,得到最终的检测网络。输入测试数据集,计算模型在目标域上进行目标检测的效果。检测效果见图3,从上到下的三行分别表示仅使用源域数据训练网络的检测效果示意图、本发明所述基准方法的检测效果示意图、引入所述区域建议网络中心对齐模块后的检测效果示意图。其中,Tmax表示超参数。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本说明书中所述只是本发明的较佳具体实施例,以上实施例仅用以说明本发明的技术方案而非对本发明的限制。凡本领域技术人员依本发明的构思通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在本发明的范围之内。
Claims (11)
1.基于区域建议网络中心对齐的目标检测无监督域适应系统,其特征在于,包括:目标检测模块、骨干网络特征对抗学习模块、区域建议网络中心对齐模块和联合损失函数训练域适应目标检测网络,
其中,所述目标检测模块,能够使用基础的两阶段目标检测框架对输入图像依次进行特征提取、获得初步候选框、对候选框中的物体进行分类和候选框边界框精修,最终得到检测结果;
所述骨干网络特征对抗学习模块,能够在骨干网络的中层、高层处分别设置一个领域判别器来判断所述骨干网络特征对抗学习模块提取的特征是否属于源域,所述领域判别器与骨干网络经梯度反传网络相连;
所述区域建议网络中心对齐模块,能够通过在区域建议网络处额外引入一个中心对齐模块,使所述源域、目标域图像得到的区域建议特征尽可能的与预先定义的中心特征对齐,进而自然地对齐所述源域、所述目标域的所述区域建议特征;
所述联合损失函数训练域适应目标检测网络,能够联合目标检测损失函数、骨干网络特征对抗学习损失函数和区域建议网络中心对齐损失函数对域适应检测网络中的所述目标检测模块、骨干网络特征对抗学习模块、区域建议网络中心对齐模块分别进行训练,最终获得域适应目标检测网络模型。
3.根据权利要求1所述系统,其特征在于,所述骨干网络特征对抗学习模块用于,在所述骨干网络的中层、高层处分别设置一个领域判别器来判断所述骨干网络特征对抗学习模块提取的特征是否属于所述源域,所述领域判别器与所述骨干网络经所述梯度反传网络相连;通过比较域判别网络对输入特征的判定结果和所述骨干网络特征对抗学习模块提取的特征的实际来源构造所述骨干网络特征对抗学习损失函数,引导骨干网络提取具有域不变性质的特征;所述骨干网络特征对抗学习损失函数为一个最小最大博弈,对于源域图片和目标域图片,对抗损失函数如下:
4.根据权利要求1所述系统,其特征在于,所述区域建议网络中心对齐模块,能够通过在区域建议网络处额外引入一个中心对齐模块,使所述源域、所述目标域图像得到的区域建议特征尽可能的与预先定义的中心特征对齐,进而自然地对齐所述源域、所述目标域的区域建议特征,使区域建议网络在目标域上有着较好的迁移能力;所述区域建议网络中心对齐模块包括:伪标签生成、区域建议特征提取、中心特征更新、中心对齐、计算区域建议网络中心对齐损失五个子模块。
7.根据权利要求4所述系统,其特征在于,所述中心特征更新是指,首先定义两个可学习的中心特征,两个所述可学习的中心特征分别表示前景中心、背景中心;然后对中心特征进行更新;所述更新是指,首先在所有区域建议特征中随机选取两个特征作为簇质心,计算其余特征到两个所述质心间的距离,并将其分配给相应质心对应的所述簇中;然后分别计算两个所述簇中所有特征的平均值以更新所述簇质心;反复迭代上述两个步骤直到所述簇质心不再变化为止,并将最终得到的两个所述簇质心送入区域建议网络分类模块,根据分类结果对所述簇质心进行标记,得到新的中心特征。
9.根据权利要求8所述系统,其特征在于,所述计算区域建议网络中心对齐损失是指,通过计算所述源域、所述目标域区域建议对齐特征和所述中心特征的相似度,构造区域建议网络中心对齐损失函数,使区域建议网络在目标域有更强的迁移能力。
11.根据权利要求9或10所述系统,其特征在于,所述区域建议网络中心对齐损失的计算包括,通过计算源域、目标域区域建议对齐特征和中心特征的相似度,构造区域建议网络中心对齐损失函数,所述相似度采用余弦相似度来衡量,构建所述余弦相似度的计算方式如下,其中实际应用中将区域建议对齐特征和中心特征分别代入, :
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210856674.6A CN115082762A (zh) | 2022-07-21 | 2022-07-21 | 基于区域建议网络中心对齐的目标检测无监督域适应系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210856674.6A CN115082762A (zh) | 2022-07-21 | 2022-07-21 | 基于区域建议网络中心对齐的目标检测无监督域适应系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115082762A true CN115082762A (zh) | 2022-09-20 |
Family
ID=83260330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210856674.6A Pending CN115082762A (zh) | 2022-07-21 | 2022-07-21 | 基于区域建议网络中心对齐的目标检测无监督域适应系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082762A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456309A (zh) * | 2023-12-20 | 2024-01-26 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于中间域引导与度量学习约束的跨域目标识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668594A (zh) * | 2021-01-26 | 2021-04-16 | 华南理工大学 | 一种基于对抗性域适应的无监督图像目标检测方法 |
CN114693983A (zh) * | 2022-05-30 | 2022-07-01 | 中国科学技术大学 | 基于图像-实例对齐网络的训练方法和跨域目标检测方法 |
-
2022
- 2022-07-21 CN CN202210856674.6A patent/CN115082762A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668594A (zh) * | 2021-01-26 | 2021-04-16 | 华南理工大学 | 一种基于对抗性域适应的无监督图像目标检测方法 |
CN114693983A (zh) * | 2022-05-30 | 2022-07-01 | 中国科学技术大学 | 基于图像-实例对齐网络的训练方法和跨域目标检测方法 |
Non-Patent Citations (1)
Title |
---|
YIXIN ZHANG 等: "RPN Prototype Alignment For Domain Adaptive Object Detector", 《IEEE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456309A (zh) * | 2023-12-20 | 2024-01-26 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于中间域引导与度量学习约束的跨域目标识别方法 |
CN117456309B (zh) * | 2023-12-20 | 2024-03-15 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于中间域引导与度量学习约束的跨域目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN113807420B (zh) | 一种考虑类别语义匹配的域自适应目标检测方法及系统 | |
CN114241260B (zh) | 一种基于深度神经网络的开集目标检测与识别方法 | |
Endres et al. | Category-independent object proposals with diverse ranking | |
CN105701502B (zh) | 一种基于蒙特卡罗数据均衡的图像自动标注方法 | |
CN113076994B (zh) | 一种开集域自适应图像分类方法及系统 | |
CN110689091B (zh) | 弱监督细粒度物体分类方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN108549895A (zh) | 一种基于对抗网络的半监督语义分割方法 | |
CN113553906B (zh) | 基于类中心域对齐的判别无监督跨域行人重识别方法 | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN112488229A (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN111797814A (zh) | 基于通道融合和分类器对抗的无监督跨域动作识别方法 | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
CN113850243A (zh) | 模型训练、人脸识别方法、电子设备及存储介质 | |
CN116452818A (zh) | 一种基于特征增强的小样本遥感图像目标检测方法 | |
CN114998602A (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
CN114821152A (zh) | 基于前景-类别感知对齐的域自适应目标检测方法及系统 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN116363712B (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
CN115412324A (zh) | 基于多模态条件对抗领域适应的空天地网络入侵检测方法 | |
CN115082762A (zh) | 基于区域建议网络中心对齐的目标检测无监督域适应系统 | |
CN111461323A (zh) | 一种图像识别方法及装置 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220920 |