CN116778277B - 基于渐进式信息解耦的跨域模型训练方法 - Google Patents
基于渐进式信息解耦的跨域模型训练方法 Download PDFInfo
- Publication number
- CN116778277B CN116778277B CN202310899182.XA CN202310899182A CN116778277B CN 116778277 B CN116778277 B CN 116778277B CN 202310899182 A CN202310899182 A CN 202310899182A CN 116778277 B CN116778277 B CN 116778277B
- Authority
- CN
- China
- Prior art keywords
- data set
- domain data
- target
- domain
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000000750 progressive effect Effects 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 69
- 230000000007 visual effect Effects 0.000 claims abstract description 61
- 239000006185 dispersion Substances 0.000 claims abstract description 56
- 238000004220 aggregation Methods 0.000 claims abstract description 49
- 230000002776 aggregation Effects 0.000 claims abstract description 48
- 238000012937 correction Methods 0.000 claims abstract description 29
- 238000005065 mining Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 95
- 230000005012 migration Effects 0.000 claims description 77
- 238000013508 migration Methods 0.000 claims description 77
- 230000004927 fusion Effects 0.000 claims description 47
- 238000009826 distribution Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 abstract description 12
- 238000010168 coupling process Methods 0.000 abstract description 12
- 238000005859 coupling reaction Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 241000364483 Lipeurus epsilon Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及目标检测技术领域,具体公开了一种基于渐进式信息解耦的跨域模型训练方法,包括:构建源域数据集和目标域数据集;将源域数据集和目标域数据集均输入至视觉目标检测器进行训练,挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准;语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正;聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散。本发明提供的基于渐进式信息解耦的跨域模型训练方法能够有效解决跨域目标检测中前景目标特征和背景环境特征的耦合。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于渐进式信息解耦的跨域模型训练方法。
背景技术
现实场景中的感兴趣目标以或大或小的尺度、或近或远的距离出现在摄像头周围。在摄像头采集得到的图像中,背景环境像素不规则地环绕在前景目标像素区域的外缘,两种不同属性的像素之间近似存在连续的边界。由于卷积神经网络深层特征图的像素以特定比例的感受野与原始图像的像素块相对应,前景目标像素与背景环境像素的区分边界将会随着网络层数加深而离散化,因此前景目标特征与背景环境特征之间的耦合性在维度越来越高的特征空间中逐渐得到增强。
近年来,无监督域自适应视觉目标检测在应用Faster R-CNN之外,还陆续出现了使用FCOS、YOLO等作为视觉目标检测器的方法。一些方法对检测器多尺度图像级和实例级特征进行对抗对齐,并对位于相同尺度上的图像级和实例级域分类器进行一致性正则化。另一些方法则先使用CycleGAN将源域图像转变为具有目标域风格的图像,实现源域到辅助域的训练样本扩充;接着在多尺度图像级和实例级特征对抗对齐框架中引入了“图像级类别正则化”和“类别一致性正则化”组件,从而对关键区域和重要实例进行更加充分的对齐。
然而,无论是CycleGAN图像翻译,还是图像级特征对抗对齐,它们只能从整体角度缩小两域全局特征的差异,而忽视了前景目标特征和背景环境特征之间的耦合性。此外,用于对抗对齐的实例级特征是由最终预测框中特征经过感兴趣区域池化得到的,所得特征向量很大程度上混入了背景环境噪声,这种方式仍然没有从本质上解决前景目标特征和背景环境特征的耦合问题。
由此可见,在无监督域自适应视觉目标检测研究中,如果想要降低前景目标特征和背景环境特征之间的耦合性,进而着重对齐源域和目标域的前景目标特征,这将存在较大的困难。
因此,如何能够解决目标检测中前景目标特征和背景环境特征的耦合成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种基于渐进式信息解耦的跨域模型训练方法,解决相关技术中存在的无法解决目标检测中前景目标和背景环境特征的耦合问题。
作为本发明的一个方面,提供一种基于渐进式信息解耦的跨域模型训练方法,其中,包括:
构建源域数据集和目标域数据集,其中所述源域数据集包括带有标签的数据集,所述目标域数据集包括无标签数据集;
将所述源域数据集和目标域数据集均输入至视觉目标检测器进行训练,获得跨域模型,所述视觉目标检测器包括特征提取网络、特征融合网络和检测头网络,所述特征提取网络能够对所述源域数据集和目标域数据集分别进行特征提取,所述特征融合网络能够对源域数据集在特征提取网络提取到的特征进行特征融合获得源域融合特征,以及能够对目标域数据集在特征提取网络提取到的特征进行特征融合获得目标域融合特征,所述检测头网络能够分别对源域融合特征和目标域融合特征进行边界框、置信度和分类类别进行预测;
其中,所述特征提取网络包括挖掘与配准组件,所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准;
所述特征融合网络包括语义校正组件,所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正;
所述检测头网络包括聚合分散组件,所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散。
进一步地,所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准,包括:
根据所述源域数据集提取到的浅层特征确定源域数据集提取到的浅层特征对应的第一迁移权重掩码;
将所述第一迁移权重掩码与所述源域数据集提取到的浅层特征进行融合获得第一迁移模式特征图;
根据所述目标域数据集提取到的浅层特征确定目标域数据集提取到的浅层特征对应的第二迁移权重掩码;
将所述第二迁移权重掩码与所述目标域数据集提取到的浅层特征进行融合获得第二迁移模式特征图;
根据预设迁移模式配准损失函数对所述第一迁移模式特征图和所述第二迁移模式特征图进行匹配优化,获得优化后的迁移模式配准损失函数。
进一步地,根据所述源域数据集提取到的浅层特征确定源域数据集提取到的浅层特征对应的第一迁移权重掩码,包括:
将所述源域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为源域的概率分数;
根据被预测为源域的概率分数计算源域数据集提取到的浅层特征对应的第一迁移不确定度;
根据所述第一迁移不确定度进行空间平均处理和归一化处理获得第一迁移权重掩码;
根据所述目标域数据集提取到的浅层特征确定目标域数据集提取到的浅层特征对应的第二迁移权重掩码,包括:
将所述目标域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为目标域的概率分数;
根据被预测为目标域的概率分数计算目标域数据集提取到的浅层特征对应的第二迁移不确定度;
根据所述第二迁移不确定度进行空间平均处理和归一化处理获得第二迁移权重掩码。
进一步地,还包括:
确定像素级域分类器的损失函数,根据所述像素级域分类器的损失函数对所述像素级域分类器进行优化训练,以实现对输入的源域数据集提取到的浅层特征或目标域数据集提取到的浅层特征进行概率分数预测。
进一步地,所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正,包括:
根据所述源域数据集提取到的中层特征确定所述源域数据集中多种类别前景目标的第一预测分数,以及根据所述目标域数据集提取到的中层特征确定所述目标域数据集中多种类别前景目标的第二预测分数;
根据所述第一预测分数对所述源域数据集中不同类别的前景目标的概率分布进行编码以获得第一编码,根据所述第二预测分数对所述目标域数据集中不同类别的前景目标的概率分布进行编码以获得第二编码;
根据预设分布一致性损失函数对所述第一编码和所述第二编码进行约束优化,获得优化后的分布一致性损失函数。
进一步地,根据所述源域数据集提取到的中层特征确定所述源域数据集中多种类别前景目标的第一预测分数,以及根据所述目标域数据集提取到的中层特征确定所述目标域数据集中多种类别前景目标的第二预测分数,包括:
将所述源域数据集提取到的中层特征和所述目标域数据集提取到的中层特征均输入至第一图像级域分类器和第二图像级域分类器;
从所述第一图像域分类器的中间层进行特征向量提取获得第一上下文特征向量,以及从所述第二图像域分类器的中间层进行特征向量提取获得第二上下文特征向量;
根据全连接层分别对所述第一上下文特征向量和所述第二上下文特征向量进行向量转变,获得不同图像级域分类器层级;
根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数。
进一步地,根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数,包括:
将所述源域数据集对应的特征融合网络中的特征输入至多标签分类器,获得源域数据集基于特征融合网络的多类别预测分数,以及将所述目标域数据集对应的特征融合网络中的特征输入至多标签分类器,获得目标域数据集基于特征融合网络的多类别预测分数;
根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测的预测结果以及所述源域数据集基于特征融合网络的多类别预测分数,获得第一预测分数;
根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测的预测结果以及所述目标域数据集基于特征融合网络的多类别预测分数,获得第二预测分数。
进一步地,还包括:
分别确定第一图像级域分类器的损失函数、第二图像级域分类器的损失函数以及多标签分类器的损失函数;
根据所述第一图像级域分类器的损失函数对所述第一图像级域分类器进行优化训练,根据所述第二图像级域分类器的损失函数对所述第二图像级域分类器进行优化训练,以及根据所述多标签分类器的损失函数对所述多标签分类器进行优化训练,以获得第一预测分数和第二预测分数。
进一步地,所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散,包括:
分别对源域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数,以及分别对目标域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数;
根据所述第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数计算源域数据集的特定类别前景目标的第一局部原型,以及根据所述第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数计算目标域数据集的特定类别前景目标的第二局部原型;
根据所述第一局部原型对源域数据集的特定类别前景目标的第一全局原型进行动态更新,以及根据所述第二局部原型对目标域数据集的特定类别前景目标的第二全局原型进行动态更新;
根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果。
进一步地,根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果,包括:
判断所述第一全局原型和所述第二全局原型是否属于相同类别;
若所述第一全局原型和所述第二全局原型属于相同类别,则构建聚合损失函数,所述聚合损失函数用于训练所述样本对以获得聚合结果,所述聚合结果包括相同类别的前景目标特征的相似度大于第一预设阈值且差异度小于第二预设阈值;
若所述第一全局原型和所述第二全局原型属于不同类别,则构建分散损失函数,所述分散损失函数用于训练所述样本对以获得分散结果,所述分散结果包括不同类别的前景目标特征的相似度小于第三预设阈值且差异度大于第四预设阈值;
所述第三预设阈值小于所述第一预设阈值,所述第四预设阈值大于所述第二预设阈值。
本发明提供的基于渐进式信息解耦的跨域模型训练方法,利用视觉目标检测器的固有特性,通过沿视觉目标检测流程设置促使前背景信息产生解耦的域自适应组件或模块,从冗余的背景环境信息中逐渐分离出有益的前景目标信息,同时对每个阶段解耦出来的前景目标信息进行有效的利用和匹配,继而从整体上促进视觉目标检测器域自适应性能的提升。因此,本发明提供的基于渐进式信息解耦的跨域模型训练方法,能够有效解决跨域目标检测中前景目标特征和背景环境特征的耦合,使得所获得的基于渐进式信息解耦的跨域模型在进行跨域应用时不会再因背景环境特征与前景目标特征之间的耦合而无法实现应用,因此,该方法所获得的跨域模型能够适应适应新的领域数据,提高模型在跨域场景下的性能。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
图1为本发明提供的基于渐进式信息解耦的跨域模型训练方法的流程图。
图2为本发明提供的基于渐进式信息解耦的跨域模型训练方法的架构图。
图3为本发明提供的挖掘与配准组件的工作流程图。
图4为本发明提供的获得第一迁移权重掩码的流程图。
图5为本发明提供的挖掘与配准组件的工作原理图。
图6为本发明提供的语义校正组件的工作流程图。
图7为本发明提供的第一预测分数和第二预测分数确定的流程图。
图8为本发明提供的语义校正组件的工作原理图。
图9为本发明提供的聚合分散组件的工作流程图。
图10为本发明提供的聚合分散组件的工作原理图。
图11为使用与不使用本发明实施例提供的渐进式信息解耦的跨域目标检测方法在雾天下的检测效果对比图。
图12为使用以及不使用本发明实施例提供的渐进式信息解耦的跨域目标检测方法在黑夜下的检测效果对比图。
图13为本发明提供的渐进式信息解耦的跨域目标检测方法的流程图。
图14为本发明提供的渐进式信息解耦的跨域模型训练系统的结构框图。
图15为本发明提供的渐进式信息解耦的跨域目标检测系统的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域技术人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在传统目标检测模型的训练过程中,通常会使用特定领域内的数据来训练模型。然而,在面对不同领域的数据时,由于数据分布的差异,往往会导致模型在新的领域上效果不佳。基于此,本发明实施例提供一种基于渐进式信息解耦的跨域模型训练方法,旨在解除前景目标特征和背景环境特征的耦合,以便于应用在不同领域的数据中时获得良好的应用效果。即,通过逐步解耦不同领域的数据,使模型能够更好地适应新的领域。
作为本发明的一种实施例,提供一种基于渐进式信息解耦的跨域模型训练方法,如图1所示,包括:
S100、构建源域数据集和目标域数据集,其中所述源域数据集包括带有标签的数据集,所述目标域数据集包括无标签数据集;
在本发明实施例中,所述源域数据集均带有标签,目标域数据集均没有标签。此处需要说明的是,所述源域数据集和目标域数据集是属于不同领域的数据集,例如,源域数据集包括的是晴天路上的车辆,且该晴天的车辆被打上标签;而目标域数据集则可以包括的是阴雨天的车辆,且该阴雨天的车辆没有打任何标签。
另外,本发明实施例中的源域数据集可以选择网上公开的数据集或自行标注的数据集;同时采集视觉目标检测模型真实应用场景的数据,以此为目标域,所有目标域数据均没有标签。作为本领域的技术人员应当理解,源域和目标域数据在概率分布方面存在差异,但是二者共享相同的类别空间,也就是说源域和目标域待检测的目标类别是相同的。例如,源域数据集包括“汽车”、“行人”和“骑车人”三种已经打标签的目标类别,则目标域数据集中待检测的目标类别也包括“汽车”、“行人”和“骑车人”三种。
S200、将所述源域数据集和目标域数据集均输入至视觉目标检测器进行训练,获得跨域模型,所述视觉目标检测器包括特征提取网络、特征融合网络和检测头网络,所述特征提取网络能够对所述源域数据集和目标域数据集分别进行特征提取,所述特征融合网络能够对源域数据集在特征提取网络提取到的特征进行特征融合获得源域融合特征,以及能够对目标域数据集在特征提取网络提取到的特征进行特征融合获得目标域融合特征,所述检测头网络能够分别对源域融合特征和目标域融合特征进行边界框、置信度和分类类别进行预测;
其中,所述特征提取网络包括挖掘与配准组件,所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准;
所述特征融合网络包括语义校正组件,所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正;
所述检测头网络包括聚合分散组件,所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散。
应当理解的是,不同场景对视觉目标检测器的性能固然有着不同要求。例如,有些场景需要具有较快甚至实时的视觉目标检测速度,而有些场景则可以稍微放松对检测精度方面的需求。为此,根据实际场景的应用需求,选择合适的视觉目标检测器。所选用的视觉目标检测器是渐进式信息解耦的跨域模型训练方法开展的基础,故本发明将选用的视觉目标检测器称为基础视觉目标检测器。作为本领域的技术人员应当理解,基础视觉目标检测器可以是现有两阶段检测器,如Faster R-CNN等;也可以是现有单阶段检测器,如SSD、FCOS、YOLO等。由于本发明并没有对检测器的类型加以限制,为方便阐述本发明的技术方案,本发明选择YOLOv5作为基础视觉目标检测器。
如图2所示,所述视觉目标检测器包括特征提取网络Backbone、特征融合网络Neck和检测头网络Head。而在特征提取网络中包括挖掘与配准组件a,在特征融合网络包括语义校正组件b,在检测头网络包括聚合分散组件c。
本发明提供的基于渐进式信息解耦的跨域模型训练方法,利用视觉目标检测器的固有特性,通过沿视觉目标检测流程设置促使前背景信息产生解耦的域自适应组件或模块,从冗余的背景环境信息中逐渐分离出有益的前景目标信息,同时对每个阶段解耦出来的前景目标信息进行有效的利用和匹配,继而从整体上促进视觉目标检测器域自适应性能的提升。因此,本发明提供的基于渐进式信息解耦的跨域模型训练方法,能够有效解决目标检测中前景目标特征和背景环境特征的耦合,使得所获得的基于渐进式信息解耦的跨域模型在进行跨域应用时不会再因背景环境特征与前景目标特征之间的耦合而无法实现应用,因此,该方法所获得的跨域模型能够适应适应新的领域数据,提高模型在跨域场景下的性能。
应当理解的是,在视觉目标检测流程的上游(此处具体为特征提取网络),由特征提取网络提取出来的浅层特征(边缘、角点、纹理)对于源域和目标域而言往往具有诸多共性,这些共性可以很好地辅助知识的跨域迁移。
然而,这些低级特征在特征图不同空间位置上所呈现的可迁移性却不尽相同。前景目标区域和背景环境区域的可迁移性固然存在差异,而且即使同为前景目标区域,不同类别前景目标的可迁移性也会存在显著变化。比如,在自动驾驶场景中,由汽车、行人等构成的前景目标区域的可迁移性大于由天空、建筑物等构成的背景环境区域,汽车这种类别前景目标的可迁移性也会不同于行人这种类别前景目标。高可迁移性的特征在源域和目标域之间更为通用,它们可以带来较好的跨域适配效果,理应在迁移过程中得到充分关注;而低可迁移性的特征倾向于为源域或目标域所专有,它们表现出较强的领域特异性质,不该和高迁移性特征一样具有同等的跨域对齐程度。
因此,整个特征图底层还隐藏有可迁移模式,这种模式可以为源域和目标域特征的合理对齐提供有利的信息导向。在前景目标特征和背景环境特征已经出现初步耦合的情况下,关注其视潜在的可迁移模式,而非简单地从整体角度来匹配源域和目标域特征,能够真正实现高可迁移性的前景目标特征的跨域对齐,从而能够提升视觉目标检测流程中下游解耦出来的前景目标信息的准确度。
在本发明实施例中,所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准,如图3所示,包括:
S210、根据所述源域数据集提取到的浅层特征确定源域数据集提取到的浅层特征对应的第一迁移权重掩码;
具体地,如图4所示,可以包括:
S211、将所述源域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为源域的概率分数;
由YOLOv5浅层卷积块提取出来的特征图fs/t经过像素级域分类器,以获得特征图每个像素属于源域的概率分数。如果将像素级域分类器记为E1(·),那么任意域图像被预测为源域的概率分数ps/t=E1(fs/t)(被预测为目标域的概率分数qs/t=1-ps/t)。
S212、根据被预测为源域的概率分数计算源域数据集提取到的浅层特征对应的第一迁移不确定度;
为了度量每个像素属于源域还是目标域的不确定度,使用香农熵(ShannonEntropy,SE)对像素级域分类器所预测的概率分数进行重新界定。
根据二元信源的熵函数:
hs/t=H(ps/t,qs/t)=-ps/tlog ps/t-qs/tlog qs/t,
其中,hs/t表示任意域图像对应的浅层特征图的迁移不确定度,H(·,·)表示熵函数。如果迁移不确定度越大,那么像素级域分类器就越难分清该像素的来源,说明其对应的知识可以更加容易从源域迁移到目标域,这就倾向于是一种可迁移模式。作为本领域的技术人员应当理解,香农熵只是一种评估样本不确定度的方式,当然还可以使用其他不确定度衡量方式对像素级域分类器所预测的概率分数进行转化。
S213、根据所述第一迁移不确定度进行空间平均处理和归一化处理获得第一迁移权重掩码。
如图5所示,先对迁移不确定度在整个空间位置上取平均,这样就可以从相对均衡的角度考虑可迁移模式的全局分布,具体为:
其中,ms/t表示hs/t的平均迁移不确定度,表示hs/t在第j个像素位置上的数值,Ns/t表示hs/t所有像素位置的数量,即hs/t的高度和宽度的乘积。然而,平均迁移不确定度默认所有像素迁移不确定度的表征贡献相当,并没有将原始图像中某些特定的可迁移模式突显出来。因此,再对迁移不确定度所有像素位置的数值进行Softmax归一化,从而保留可迁移模式在每个像素位置上的相互关系,具体为:
其中,表示ns/t在第j个像素位置上的数值,而ns/t表示hs/t的归一化迁移不确定度。归一化迁移不确定度对表征贡献大的可迁移模式加以突显,这样就可以在考虑全局分布以外注重原始图像中关键的可迁移模式。
进一步地,将平均迁移不确定度和归一化迁移不确定度进行叠加组合,有ws/t=ms/t+ns/t。其中,ws/t表示任意域图像对应的浅层特征图的迁移权重掩码。
S220、将所述第一迁移权重掩码与所述源域数据集提取到的浅层特征进行融合获得第一迁移模式特征图;
通过对可迁移模式进行修正,所得的迁移权重掩码不仅保留了可迁移模式在整个空间位置上的全局分布,而且还维持了每个像素位置可迁移模式之间的相互关系,使得挖掘出来的可迁移模式的鲁棒性得到提高。最后,通过将迁移权重掩码和浅层特征图进行融合,可以获得由可迁移模式表征的特征图,即其中,/>表示任意域图像对应的融合后浅层特征图。
S230、根据所述目标域数据集提取到的浅层特征确定目标域数据集提取到的浅层特征对应的第二迁移权重掩码;
具体可以包括:
将所述目标域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为目标域的概率分数;
根据被预测为目标域的概率分数计算目标域数据集提取到的浅层特征对应的第二迁移不确定度;
根据所述第二迁移不确定度进行空间平均处理和归一化处理获得第二迁移权重掩码。
S240、将所述第二迁移权重掩码与所述目标域数据集提取到的浅层特征进行融合获得第二迁移模式特征图;
应当理解的是,此处关于第二迁移模式特征图的获得可以参照前文的第一迁移模式特征图的获得过程,此处不再赘述。
S250、根据预设迁移模式配准损失函数对所述第一迁移模式特征图和所述第二迁移模式特征图进行匹配优化,获得优化后的迁移模式配准损失函数。
在本发明实施例中,原始特征图在经过可迁移模式表征之后,高可迁移性的特征得到更进一步的强化。为了缩小源域可迁移性较高的特征和目标域可迁移性较高的特征之间的差异,对由可迁移模式表征的特征图进行匹配,有
其中,表示可迁移模式配准的损失函数,/>和/>分别表示源域和目标域图像对应的融合后浅层特征图。在训练初期,SmoothL1损失函数可以在源域和目标域差异较大的情况下,避免反向传播时梯度爆炸的问题;在训练中后期,SmoothL1损失函数还可以让回传的梯度随着源域和目标域差异缩小而减小,从而实现训练过程的稳定。
作为本领域的技术人员应当理解,对由可迁移模式表征的特征图进行匹配的损失函数并不局限于SmoothL1,凡是具有上述SmoothL1特性的损失函数均可用来匹配由可迁移模式表征的特征图。
应当理解的是,为了保证像素级域分类器能够更加可靠地挖掘出可迁移模式,使用源域和目标域图像自带的域标签监督其预测结果,还包括:
确定像素级域分类器的损失函数,根据所述像素级域分类器的损失函数对所述像素级域分类器进行优化训练,以实现对输入的源域数据集提取到的浅层特征或目标域数据集提取到的浅层特征进行概率分数预测。
具体地,所述像素级域分类器的损失函数在本发明实施例中具体可以为对抗训练的损失函数,记为因此,可迁移模式挖掘与配准组件的损失函数/>
当优化可迁移模式挖掘与配准组件的损失函数时,该组件可以借助迁移权重掩码实现对高质量可迁移模式的挖掘,逐渐引导参与对齐的特征关注到自身潜在的可迁移模式,使得源域和目标域可迁移性较高的特征能够得到最大程度的匹配。在前景目标特征和背景环境特征初现耦合的情况下,由于对齐后的源域和目标域前景目标特征富含可迁移模式,因此可以确保高可迁移性的前景目标特征得到充分的跨域匹配,从而提高后续阶段解耦出来的前景目标信息的准确性。
应当理解的是,随着特征提取网络的加深,低级特征逐渐转变为能够代表前景目标和背景环境、甚至能够代表不同类别前景目标的高级特征。此时,前景目标在外观、视角、尺度、大小等方面存在明显区别,并与差异化的背景环境形成复杂组合。以自动驾驶场景为例,车载摄像头可能拍到汽车尾部或汽车侧面的图像,但是以尾部出现和以侧面出现的汽车目标都应该拥有相同的检测类别结果。在高维特征空间中,单纯依靠可迁移模式挖掘与配准模块已经不能使可迁移性较高的前景目标信息进一步从冗余的背景环境中分离出来。传统方法通常是在特征提取网络的高层位置构建图像级域分类器,直接对两域高级特征进行整体对抗对齐。在实践中,如果没有预先解耦前背景信息而强行对齐特征,那么极其容易破坏前期由可迁移模式构建起来的匹配关系,最终造成特征的负迁移。考虑到由特征提取网络提取的高级特征具有丰富的语义信息,倘若可以利用源域和目标域前景目标的类别分布,对高层语义和上下文语义进行校正,则有可能在分离出前景目标信息的同时又着重对它们的特征进行准确的跨域对齐。
具体地,所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正,如图6所示,包括:
S310、根据所述源域数据集提取到的中层特征确定所述源域数据集中多种类别前景目标的第一预测分数,以及根据所述目标域数据集提取到的中层特征确定所述目标域数据集中多种类别前景目标的第二预测分数;
进一步具体地,如图7所示,可以包括:
S311、将所述源域数据集提取到的中层特征和所述目标域数据集提取到的中层特征均输入至第一图像级域分类器和第二图像级域分类器;
如图8所示,将特征提取网络高层位置的图像级域分类器分别表示为E2(·)和E3(·)。
S312、从所述第一图像域分类器的中间层进行特征向量提取获得第一上下文特征向量,以及从所述第二图像域分类器的中间层进行特征向量提取获得第二上下文特征向量;
假设从两域分类器中间层提取的上下文特征向量分别为和/>为了对上下文特征向量的语义进行提炼,使用神经元个数为K的全连接层将上下文特征向量转变为以此为不同域分类器层级对原始图像中各种类别前景目标的预测分数。
S313、根据全连接层分别对所述第一上下文特征向量和所述第二上下文特征向量进行向量转变,获得不同图像级域分类器层级;
S314、根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数。
进一步具体地,根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数,包括:
将所述源域数据集对应的特征融合网络中的特征输入至多标签分类器,获得源域数据集基于特征融合网络的多类别预测分数,以及将所述目标域数据集对应的特征融合网络中的特征输入至多标签分类器,获得目标域数据集基于特征融合网络的多类别预测分数;
根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测的预测结果以及所述源域数据集基于特征融合网络的多类别预测分数,获得第一预测分数;
根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测的预测结果以及所述目标域数据集基于特征融合网络的多类别预测分数,获得第二预测分数。
在YOLOv5的SPPF中,不同大小池化核的池化结果与原始特征图完成合并,这种方式可以间接对多尺度目标的语义进行聚合,使得输出的特征图具有更加丰富的语义信息。将SPPF输出的特征图记为随后,/>将会被输入到多标签分类器E4(·)。其中,特征图先后经过全局平均池化层和神经元个数为K的全连接层,从而获得SPPF层级对原始图像中不同类别前景目标的预测分数,即/>为了尽可能发挥源域图像已有标签的使用价值,根据源域图像中是否存在某种特定类别的前景目标,将图像中每个目标对应的类别标签转化为图像级类别标签/>使用/>表示/>的第k个元素(k=1,2,...,K),如果图像中存在第k种类别的前景目标,那么/>如果图像中不存在第k种类别的前景目标,那么/>
S320、根据所述第一预测分数对所述源域数据集中不同类别的前景目标的概率分布进行编码以获得第一编码,根据所述第二预测分数对所述目标域数据集中不同类别的前景目标的概率分布进行编码以获得第二编码;
需要说明的是,与来自SPPF的高层特征图所蕴含的语义相比,来自图像级域分类器中间层的上下文特征向量所蕴含的语义相对较弱,它们在表征前景目标类别分布方面的能力较为欠缺。然而,无论是来自两域分类器中间层的上下文特征向量,还是来自SPPF的高层特征图,它们对于整个输入图像中不同类别前景目标的共现关系理应具有相同的描述。实际上,不同层级特征所蕴含的语义在强弱方面存在偏差,进而导致前景目标的类别分布在不同层级上无法完全相同。针对这一问题,本发明使用不同层级对原始图像中各种类别前景目标的预测分数,对相应层级上不同类别前景目标的概率分布进行编码,进而设法缩减不同层级之间的前景目标类别分布的差异。对于的第k个元素/>(l∈{1,2,3}),将其转化为原始图像中存在第k种类别前景目标的概率/>同时获得原始图像中不存在第k种类别前景目标的概率/>随后,将/>和/>进行拼接得到以此为该层级对原始图像中第k种类别前景目标编码的概率分布/>故有其中Γ(·)表示将预测分数编码成概率分布的过程,/>为第l个层级对原始图像中前景目标编码的概率分布,而/>就是/>的第k个元素。
S330、根据预设分布一致性损失函数对所述第一编码和所述第二编码进行约束优化,获得优化后的分布一致性损失函数。
作为对称性度量,JS散度(Jensen-Shannon divergence)可以用来衡量两个概率分布的差异,因此使用JS散度对不同层级之间的前景目标类别分布进行量化,有:
其中, 表示源域或目标域前景目标类别分布的一致性正则化损失函数,DKL(·||·)表示KL散度(Kullback-Leibler divergence),L={1,2,3},|·|表示集合的基数。由于源域图像带有标签,为了引导其他层级的前景目标类别分布向正确的前景目标类别分布靠拢,使用图像级类别标签来编码SPPF层级上前景目标的概率分布,即/>考虑到目标域图像没有标签,先使用语义信息丰富的SPPF高层特征图来获得准确性较高的预测分数,再将其编码成前景目标的概率分布,即/>最后,源域和目标域前景目标类别分布的一致性正则化损失函数/>
在本发明实施例中,为了提升前景目标的辨别能力,还包括:
分别确定第一图像级域分类器的损失函数、第二图像级域分类器的损失函数以及多标签分类器的损失函数;
根据所述第一图像级域分类器的损失函数对所述第一图像级域分类器进行优化训练,根据所述第二图像级域分类器的损失函数对所述第二图像级域分类器进行优化训练,以及根据所述多标签分类器的损失函数对所述多标签分类器进行优化训练,以获得第一预测分数和第二预测分数。
SPPF层级对源域图像中不同类别前景目标的预测分数可以在一定程度上反映不同类别前景目标在源域图像中的存在情况。如果可以对与真实标签存在偏差的不同类别前景目标预测分数进行纠正,那么就可以帮助特征提取网络准确激活源域图像中不同类别前景目标的存在区域,进而提高特征提取网络对目标域图像中不同类别前景目标存在方位的辨别能力。
因此,使用由源域标签转变得到的图像级类别标签,对SPPF后多标签分类器的源域预测结果进行监督,有:
其中,表示多标签分类损失函数。在不同层级之间的前景目标类别分布经过一致性正则化后,来自两域分类器中间层的上下文特征向量所蕴含语义可以不断接近来自SPPF的高层特征图所蕴含语义。完成校正的语义又可以为图像级域分类器的对抗训练融入不同类别前景目标的概率分布,使得前景目标特征能够从背景环境特征中脱离出来而成为图像级域分类器的对齐重点。
因此,上下文感知的语义校正组件的损失函数其中/>和/>分别表示两图像级域分类器的对抗训练损失函数。
根据对上下文感知的语义校正组件进行训练,高层语义愈发能够描述不同类别前景目标在输入图像中的存在情况和共现关系,并不断指导对类别分布表征能力较弱的上下文语义完成校正,使得不同层级输出趋于一致的前景目标类别分布。由于只有不同类别的前景目标参与概率分布的编码过程,因此经过校正的语义可以排除冗余的背景环境信息的干扰。在前期已经获得高可迁移性的基础上,前景目标特征又可以在校正后语义指导下与背景环境特征产生分化,更加深入地参与到跨域特征对抗对齐进程中。最终在视觉目标检测流程中游实现前景目标信息和背景环境信息的解耦,并完成源域和目标域前景目标特征的更进一步对齐。
具体地,经过一致性正则化的概率分布涵盖了待检测目标的所有类别,由于其帮助域分类器将特征对齐的关注点置于图像中包含前景目标的整个区域,并没有对特定类别的前景目标信息进行完全解耦。因此,为了能够对特定类别的前景目标信息进行完全解耦,所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散,如图9所示,包括:
S410、分别对源域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数,以及分别对目标域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数;
YOLOv5检测头部网络为三种不同尺度的特征图分别预测对应的边界框分数、置信度分数和类别分数。为了提取某一个尺度上特定类别的前景目标特征,使用类别分数和置信度分数对该尺度上特征图每个像素位置的特征进行筛选。
S420、根据所述第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数计算源域数据集的特定类别前景目标的第一局部原型,以及根据所述第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数计算目标域数据集的特定类别前景目标的第二局部原型;
假设源域或目标域第l个尺度上的特征图为(l∈{1,2,3}),对于当前空间位置上所有像素,如果某一个像素位置属于第k种类别,并且它对应的置信度分数大于或等于指定阈值,那么将该像素位置上沿通道方向的数值作为第k种类别的前景目标特征向量,并将其置于对应类别的特征向量集合中,有:
其中,表示源域或目标域第l个尺度上第k种类别的特征向量集合,/>表示/>在第j个像素位置上沿通道方向的数值,即特定类别的前景目标特征向量。obj(·)和cls(·)分别表示像素位置对应的置信度分数和类别分数,τ表示置信度阈值,可以取0.5。在为每种类别构建前景目标特征向量集合的过程中,并不是单纯依据类别分数来对像素级特征进行选取,而是同时结合置信度分数来保留更加可靠的前景目标特征向量,从而将背景环境噪声的负面影响进行有效过滤。随后,将第l个尺度上第k种类别特征向量集合中的所有前景目标特征向量进行取平均操作,将计算得到的结果作为该类别的局部原型,有:
其中,表示源域或目标域第l个尺度上第k种类别前景目标的局部原型,|·|表示集合的基数。通过上述方式,每个集合中的前景目标特征向量分别被建模成对应类别的局部原型,源域和目标域原始图像上的前景目标由此获得了特征空间中特定类别的表示。
S430、根据所述第一局部原型对源域数据集的特定类别前景目标的第一全局原型进行动态更新,以及根据所述第二局部原型对目标域数据集的特定类别前景目标的第二全局原型进行动态更新;
应当理解的是,视觉目标检测器的训练往往是采用小批量样本迭代的方式,在某一个批次中计算得到的局部原型只能代表当前批次样本的特定类别信息,这对于表示整个源域或目标域的特定类别信息而言显然是难以实现的。
如图10所示为了获得相对可靠的源域或目标域特定类别信息的表示,使用指数移动平均(Exponential Moving Average,EMA)按照一定的关系对当前特定类别信息和此前特定类别信息进行组合,有:
其中,表示源域或目标域第l个尺度上第k种类别前景目标的全局原型,θ表示平滑系数,可以取固定数值(如0.7)或动态变化数值(如在每次迭代中全局原型和局部原型的相似度)。在视觉目标检测器训练初期,检测器自身性能不足将会导致某些类别前景目标的局部原型不存在,这样会引起全局原型的更新过程极其不稳定,且有造成全局原型偏离正确信息表示方向的风险。因此,需要对视觉目标检测器进行预先训练,在其具备一定检测精度后,再使用局部原型来初始化全局原型,最后按照给定的平滑系数使用局部原型对全局原型进行动态更新。此后,随着视觉目标检测器的性能不断提高,全局原型越来越能够准确表示整个源域或目标域特定类别信息。
S440、根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果。
进一步具体地,根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果,包括:
判断所述第一全局原型和所述第二全局原型是否属于相同类别;
若所述第一全局原型和所述第二全局原型属于相同类别,则构建聚合损失函数,所述聚合损失函数用于训练所述样本对以获得聚合结果,所述聚合结果包括相同类别的前景目标特征的相似度大于第一预设阈值且差异度小于第二预设阈值;
若所述第一全局原型和所述第二全局原型属于不同类别,则构建分散损失函数,所述分散损失函数用于训练所述样本对以获得分散结果,所述分散结果包括不同类别的前景目标特征的相似度小于第三预设阈值且差异度大于第四预设阈值;
所述第三预设阈值小于所述第一预设阈值,所述第四预设阈值大于所述第二预设阈值。
在本发明实施例中,所述第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值均可以根据需要进行设定,且通过第一预设阈值和第二预设阈值能够确定所述聚合损失函数的收敛程度,通过第三预设阈值和第四预设阈值能够确定分散损失函数的收敛程度。
例如,若所述第一全局原型和所述第二全局原型属于相同类别,则设定所述第一预设阈值为85%,所述第二预设阈值为10%,根据该设定值进行聚合损失函数优化训练直至聚合损失函数收敛;若所述第一全局原型和第二全局原型属于不同类别,设定所述第三设阈值为20%,所述第四预设阈值为80%,根据该设定值进行分散损失函数优化训练直至分散损失函数收敛。
应当理解的是,作为自监督学习的一种技术手段,对比学习的核心是最大化相同类别样本的相似度和不同类别样本的差异度。基于对比学习的思想,本发明使用源域和目标域的全局原型来构建样本对,并根据对比学习的损失函数来调节样本对之间的关系。如果源域和目标域全局原型组成的样本对属于相同类别,那么聚合(Convergence)损失函数应该使二者在特征空间中的距离不断减小,以保证相同类别前景目标特征具有较高相似度和较低差异度。如果源域和目标域全局原型组成的样本对属于不同类别,那么分散(Divergence)损失函数应该使二者在特征空间中的距离不断增大,以保证不同类别前景目标特征具有较低相似度和较高差异度。
当源域和目标域相同类别全局原型之间的距离较大,通过优化类别聚合损失函数来对该距离进行惩罚,进而带动源域和目标域相同类别的前景目标特征相互靠近。当源域和目标域不同类别全局原型之间的距离较小,通过优化类别分散损失函数来对该距离进行惩罚,进而带动源域和目标域不同类别的前景目标特征相远离。
需要说明的是,对来自不同领域、甚至属于不同类别的全局原型在拉近和推远过程中理应具备不同关注度。考虑到上下文感知的语义校正组件中多标签分类器的预测结果能够反映特定类别前景目标在原始图像中的存在概率,对于存在概率较高的特定类别前景目标,其特征对应的全局原型在与其他全局原型进行拉近和推远过程中应该具备较高的关注度,而对于存在概率较低的特定类别前景目标,其特征对应的全局原型在与其他全局原型进行拉近和推远过程中应该具备较低的关注度。因此,根据前景目标的存在概率来计算施加在对应全局原型拉近和推远过程中的权重,类别聚合损失函数、类别分散损失函数和对比学习损失函数分别为:
其中,表示第l个尺度上的重加权类别聚合损失函数,/>表示第l个尺度上的重加权类别分散损失函数,/>表示第l个尺度上的重加权类别聚合分散损失函数。′(z,z′)=exp((z+z′)/2)表示施加在类别聚合损失函数和类别分散损失函数上的权重。Φ(z,z′)=||z-z′||2表示两个全局原型之间的L2距离,α为分散损失函数的惩罚力度,可以取1.0。
在小批量样本的迭代过程中,如果某种类别前景目标在原始图像中的存在概率较低,那么由此计算出来的权重较小,该前景目标对应的全局原型在与其他全局原型拉近和推远过程中受到较低关注度,同类前景目标特征聚合和异类前景目标特征分散得到较小程度的增强;如果某种类别前景目标在原始图像中的存在概率较高,那么由此计算出来的权重较大,该前景目标对应的全局原型在与其他全局原型拉近和推远过程中受到较高关注度,同类前景目标特征聚合和异类前景目标特征分散得到较大程度的增强。通过对每个尺度上的重加权类别聚合分散损失函数取平均,即可得到重加权的类别聚合分分散组件的损失函数,有:
其中,LRCCD表示重加权的类别聚合分散组件的损失函数。
重加权的类别聚合分散组件在YOLOv5检测头部网络每个尺度上,从像素位置提取特定类别的前景目标特征,在每个批次中将它们建模成对应类别的局部原型,并通过更新全局原型使得所代表的特定类别信息成熟化。此外,当对重加权的类别聚合分散组件的损失函数进行优化时,全局原型同类拉近和异类推远的关注度都得到增强,从而带领相同类别的前景目标特征彼此聚合,不同类别的前景目标特征相互分散。已从背景环境中分离出来的前景目标信息在类别层面发生全面解耦,源域和目标域各种类别前景目标特征实现充分而准确的对齐,由此规避不同类别前景目标特征错误匹配的风险。
综上,通过上述训练方法,即可搭建起基于渐进式信息解耦的域自适应视觉目标检测模型。为了获得指导该模型训练的优化目标,将基础视觉目标检测器、可迁移模式挖掘与配准组件、上下文感知的语义校正组件和重加权的类别聚合分散组件四个部分的损失函数,有:
其中,表示基于渐进式信息解耦的域自适应视觉目标检测模型的损失函数,λ1、λ2和λ3为平衡因子,它们的具体数值需要通过实验来调整,通常可以取0.1、0.01等。随后,可以使用带标签的源域图像和不带标签的目标域图像对该模型进行训练,而训练通常可以采用SGD、Adam等优化器。
基于渐进式信息解耦的域自适应视觉目标检测模型经过训练之后,可迁移模式挖掘与配准、上下文感知的语义校正和重加权的类别聚合分散三个域自适应模块沿着基础视觉目标检测器的流程依次对前景目标信息进行逐步深入的解耦,使得前景目标信息从背景环境中、在类别层面上发生分离,源域和目标域前景目标特征由此获得越来越精细的对齐。
本发明将晴天条件自动驾驶数据集作为源域,将雾天条件自动驾驶数据集作为目标域,经过所提供的渐进式信息解耦的跨域模型训练方法得到的最佳权重,并为基础视觉目标检测器载入该权重,得到视觉目标检测器在目标域上的推理效果。图11中(a1)列为目标域雾天图像原图,(b1)列为只使用晴天图像训练的检测器在雾天图像上的效果,(c1)列为经过本发明所提供的渐进式信息解耦的跨域目标检测方法后在雾天图像上的效果。由此可见,经过本发明所提供的的检测方法能够获得良好的检测效果。
此外,本发明还将白天条件自动驾驶数据集作为源域,将黑夜条件自动驾驶数据集作为目标域,经过所提供的渐进式信息解耦的跨域模型训练方法得到的最佳权重,并为基础视觉目标检测器载入该权重,得到视觉目标检测器在目标域上的推理效果。图12中(a2)列为目标域黑夜图像原图,(b2)列为只使用白天图像训练的检测器在黑夜图像上的效果,(c2)列为经过本发明所提供的渐进式信息解耦的跨域目标检测方法后在黑夜图像上的效果。由此可见,胫骨瓯北发明所提供的检测方法能够获得良好的检测效果。
作为本发明的另一实施例,提供一种渐进式信息解耦的跨域目标检测方法,如图13所示,包括:
步骤P1,为基础视觉目标检测器载入经过渐进式信息解耦的跨域模型训练方法训练得到的最佳权重,使得基础视觉目标检测器具备跨域视觉目标检测性能。
步骤P2,获取目标域图像,并将目标域图像输入到上述基础视觉目标检测器进行推理。
步骤P3,将推理得到的边界框和类别信息作为对目标域图像的检测结果,以便于后续使用。
作为本发明的另一实施例,提供一种渐进式信息解耦的跨域模型训练系统,如图14所示,包括:基础视觉目标检测模块、可迁移模式挖掘与配准模块、上下文感知的语义校正模块、重加权的类别聚合分散模块、训练模块。其中:
基础视觉目标检测模块是渐进式信息解耦的跨域模型训练系统构建的基本条件,具体可以采用当前主流的基础视觉目标检测器(Faster R-CNN、SSD、FCOS、YOLOv5),其选用需要能够确保实际场景的应用需求。
可迁移模式挖掘与配准模块位于基础视觉目标检测模块的上游,旨在发掘整个特征图背后潜在的可迁移模式,并对可迁移性较高的源域和目标域前景目标特征进行准确匹配。为了方便从整个特征图不同空间位置搜寻到可迁移模式,该模块使用熵函数将像素级域分类器的预测结果转变为特征图每个像素的迁移不确定度。在获得迁移权重掩码之后,该模块将原始特征图和迁移权重掩码进行融合,以获得可迁移模式的特征表征,并缩小源域和目标域高可迁移性特征之间的差异。此外,该模块还使用已知的域标签对像素级域分类器的预测结果进行监督,从而保证挖掘出来的可迁移模式趋于可靠。
上下文感知的语义校正模块位于视觉目标检测模块的中游,该模块主要作用是通过对视觉目标检测流程中游不同层级的类别分布进行一致性正则化来校正高层语义和上下文语义。具体而言,将来自图像级域分类器的上下文特征向量和来自SPPF的高层特征图转化成前景目标的类别分布。为了保证不同层级的类别分布趋于一致,使用JS散度对它们进行约束,并使用源域已有的图像级类别标签来提升特征提取网络的多标签分类能力。最后,使用不同层级校正后的语义来引导图像级域分类器将特征对齐的焦点置于前景目标区域,由此实现前背景信息解耦后前景目标特征的恰当对齐。
重加权的类别聚合分散模块位于视觉目标检测模块的下游,用来深度解耦所有类别的前景目标信息并充分对齐相同类别的前景目标特征。基于YOLOv5检测头部网络的多尺度特性,按照预定规则在不同尺度上提取特定类别的前景目标特征向量,继而将相同类别的特征向量进一步抽象成能够代表对应类别的原型。在高维特征空间中,设法拉近相同类别原型之间的距离,并推远不同类别原型之间的距离。此外,还根据上下文感知的语义校正模块中多标签分类器的预测结果来强增强同类原型聚合和异类原型分离程度,实现脱离背景环境噪声的前景目标信息在类别层面上的彻底解耦,为两域相同类别前景目标特征的充分对齐做好前期准备。
训练模块用于综合上述四个模块的损失函数,获得指导基于渐进式信息解耦的域自适应视觉目标检测模型训练的优化目标。此外,该模块还能够结合源域和目标域数据集,使用合适的优化器对上述模型进行训练,并保存最佳检测性能(mAP最高)对应的权重。
作为本发明的另一实施例,提供一种渐进式信息解耦的跨域目标检测系统,如图15所示,包括:基础视觉目标检测模块、已训练权重载入模块、待检测图像输入模块和检测结果输出模块。其中:
基础视觉目标检测模块用来确保渐进式信息解耦的跨域目标检测系统具备基本目标检测的功能。
已训练权重载入模块负责为基础视觉目标检测模块载入经过渐进式信息解耦的跨域模型训练系统提供的最佳权重。
待检测图像输入模块用来获取目标域图像,以便于为上述基础视觉目标检测模块提供输入数据的来源。
检测结果输出模块用来临时存放上述基础视觉目标检测模块的推理结果(目标域图像的预测边界框信息及其对应的类别信息)。
综上,本发明提供的可迁移模式的挖掘与配准组件或模块用来从浅层特征图中挖掘高质量的可迁移模式,并对源域和目标域可迁移性较高的前景目标特征进行匹配,为后续阶段前景目标信息的精确解耦奠定基础。本发明提供的上下文感知的语义校正组件或模块的作用是借助不同层级校正后的语义来聚焦前景目标区域的特征对齐,在视觉目标检测流程中游完成前景目标信息从复杂背景环境中的解耦。本发明提供的重加权的类别聚合分散组件或模块通过将不同尺度上特定类别的前景目标特征建模成局部原型,并对已更新的全局原型进行同类拉近和异类推远,最终实现已脱离背景环境的前景目标信息在类别层面上的完全解耦。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (7)
1.一种基于渐进式信息解耦的跨域模型训练方法,其特征在于,包括:
构建源域数据集和目标域数据集,其中所述源域数据集包括带有标签的数据集,所述目标域数据集包括无标签数据集;
将所述源域数据集和目标域数据集均输入至视觉目标检测器进行训练,获得跨域模型,所述视觉目标检测器包括特征提取网络、特征融合网络和检测头网络,所述特征提取网络能够对所述源域数据集和目标域数据集分别进行特征提取,所述特征融合网络能够对源域数据集在特征提取网络提取到的特征进行特征融合获得源域融合特征,以及能够对目标域数据集在特征提取网络提取到的特征进行特征融合获得目标域融合特征,所述检测头网络能够分别对源域融合特征和目标域融合特征进行边界框、置信度和分类类别进行预测;
其中,所述特征提取网络包括挖掘与配准组件,所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准;
所述特征融合网络包括语义校正组件,所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正;
所述检测头网络包括聚合分散组件,所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散;
所述挖掘与配准组件能够分别对源域数据集和目标域数据集提取到的浅层特征进行相似性特征挖掘与配准,包括:
根据所述源域数据集提取到的浅层特征确定源域数据集提取到的浅层特征对应的第一迁移权重掩码;
将所述第一迁移权重掩码与所述源域数据集提取到的浅层特征进行融合获得第一迁移模式特征图;
根据所述目标域数据集提取到的浅层特征确定目标域数据集提取到的浅层特征对应的第二迁移权重掩码;
将所述第二迁移权重掩码与所述目标域数据集提取到的浅层特征进行融合获得第二迁移模式特征图;
根据预设迁移模式配准损失函数对所述第一迁移模式特征图和所述第二迁移模式特征图进行匹配优化,获得优化后的迁移模式配准损失函数;
所述语义校正组件能够分别对源域数据集和目标数据集提取到的中层特征进行上下文感知的语义校正,包括:
根据所述源域数据集提取到的中层特征确定所述源域数据集中多种类别前景目标的第一预测分数,以及根据所述目标域数据集提取到的中层特征确定所述目标域数据集中多种类别前景目标的第二预测分数;
根据所述第一预测分数对所述源域数据集中不同类别的前景目标的概率分布进行编码以获得第一编码,根据所述第二预测分数对所述目标域数据集中不同类别的前景目标的概率分布进行编码以获得第二编码;
根据预设分布一致性损失函数对所述第一编码和所述第二编码进行约束优化,获得优化后的分布一致性损失函数;
所述聚合分散组件能够根据源域数据集和目标域数据集的边界框、置信度和分类类别实现不同类别前景目标的聚合和分散,包括:
分别对源域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数,以及分别对目标域数据集对应的边界框、置信度和分类类别的分数进行预测,获得第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数;
根据所述第一边界框预测分数、第一置信度预测分数和第一分类类别预测分数计算源域数据集的特定类别前景目标的第一局部原型,以及根据所述第二边界框预测分数、第二置信度预测分数和第二分类类别预测分数计算目标域数据集的特定类别前景目标的第二局部原型;
根据所述第一局部原型对源域数据集的特定类别前景目标的第一全局原型进行动态更新,以及根据所述第二局部原型对目标域数据集的特定类别前景目标的第二全局原型进行动态更新;
根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果。
2.根据权利要求1所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,
根据所述源域数据集提取到的浅层特征确定源域数据集提取到的浅层特征对应的第一迁移权重掩码,包括:
将所述源域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为源域的概率分数;
根据被预测为源域的概率分数计算源域数据集提取到的浅层特征对应的第一迁移不确定度;
根据所述第一迁移不确定度进行空间平均处理和归一化处理获得第一迁移权重掩码;
根据所述目标域数据集提取到的浅层特征确定目标域数据集提取到的浅层特征对应的第二迁移权重掩码,包括:
将所述目标域数据集提取到的浅层特征输入至像素级域分类器,获得被预测为目标域的概率分数;
根据被预测为目标域的概率分数计算目标域数据集提取到的浅层特征对应的第二迁移不确定度;
根据所述第二迁移不确定度进行空间平均处理和归一化处理获得第二迁移权重掩码。
3.根据权利要求2所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,还包括:
确定像素级域分类器的损失函数,根据所述像素级域分类器的损失函数对所述像素级域分类器进行优化训练,以实现对输入的源域数据集提取到的浅层特征或目标域数据集提取到的浅层特征进行概率分数预测。
4.根据权利要求1所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,根据所述源域数据集提取到的中层特征确定所述源域数据集中多种类别前景目标的第一预测分数,以及根据所述目标域数据集提取到的中层特征确定所述目标域数据集中多种类别前景目标的第二预测分数,包括:
将所述源域数据集提取到的中层特征和所述目标域数据集提取到的中层特征均输入至第一图像级域分类器和第二图像级域分类器;
从所述第一图像级域分类器的中间层进行特征向量提取获得第一上下文特征向量,以及从所述第二图像级域分类器的中间层进行特征向量提取获得第二上下文特征向量;
根据全连接层分别对所述第一上下文特征向量和所述第二上下文特征向量进行向量转变,获得不同图像级域分类器层级;
根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数。
5.根据权利要求4所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测,获得第一预测分数,以及根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测,获得第二预测分数,包括:
将所述源域数据集对应的特征融合网络中的特征输入至多标签分类器,获得源域数据集基于特征融合网络的多类别预测分数,以及将所述目标域数据集对应的特征融合网络中的特征输入至多标签分类器,获得目标域数据集基于特征融合网络的多类别预测分数;
根据所述不同图像级域分类器层级对所述源域数据集中多种类别前景目标进行预测的预测结果以及所述源域数据集基于特征融合网络的多类别预测分数,获得第一预测分数;
根据所述不同图像级域分类器层级对所述目标域数据集中多种类别前景目标进行预测的预测结果以及所述目标域数据集基于特征融合网络的多类别预测分数,获得第二预测分数。
6.根据权利要求5所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,还包括:
分别确定第一图像级域分类器的损失函数、第二图像级域分类器的损失函数以及多标签分类器的损失函数;
根据所述第一图像级域分类器的损失函数对所述第一图像级域分类器进行优化训练,根据所述第二图像级域分类器的损失函数对所述第二图像级域分类器进行优化训练,以及根据所述多标签分类器的损失函数对所述多标签分类器进行优化训练,以获得第一预测分数和第二预测分数。
7.根据权利要求1所述的基于渐进式信息解耦的跨域模型训练方法,其特征在于,根据所述第一全局原型和所述第二全局原型构建样本对进行对比学习,以获得源域数据集与目标域数据集前景目标的聚合或分散结果,包括:
判断所述第一全局原型和所述第二全局原型是否属于相同类别;
若所述第一全局原型和所述第二全局原型属于相同类别,则构建聚合损失函数,所述聚合损失函数用于训练所述样本对以获得聚合结果,所述聚合结果包括相同类别的前景目标特征的相似度大于第一预设阈值且差异度小于第二预设阈值;
若所述第一全局原型和所述第二全局原型属于不同类别,则构建分散损失函数,所述分散损失函数用于训练所述样本对以获得分散结果,所述分散结果包括不同类别的前景目标特征的相似度小于第三预设阈值且差异度大于第四预设阈值;
所述第三预设阈值小于所述第一预设阈值,所述第四预设阈值大于所述第二预设阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899182.XA CN116778277B (zh) | 2023-07-20 | 2023-07-20 | 基于渐进式信息解耦的跨域模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899182.XA CN116778277B (zh) | 2023-07-20 | 2023-07-20 | 基于渐进式信息解耦的跨域模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116778277A CN116778277A (zh) | 2023-09-19 |
CN116778277B true CN116778277B (zh) | 2024-03-01 |
Family
ID=88011551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310899182.XA Active CN116778277B (zh) | 2023-07-20 | 2023-07-20 | 基于渐进式信息解耦的跨域模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778277B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560876A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 解耦度量的单阶段小样本目标检测方法 |
CN114821152A (zh) * | 2022-03-23 | 2022-07-29 | 湖南大学 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
CN114912516A (zh) * | 2022-04-25 | 2022-08-16 | 湖南大学无锡智能控制研究院 | 一种协调特征一致性和特异性的跨域目标检测方法及系统 |
CN115115908A (zh) * | 2022-06-30 | 2022-09-27 | 湖南大学 | 跨域目标检测模型训练方法、目标检测方法及存储介质 |
CN115359295A (zh) * | 2022-08-23 | 2022-11-18 | 华北电力大学(保定) | 一种解耦知识蒸馏金具目标检测方法及系统 |
CN116342942A (zh) * | 2023-03-16 | 2023-06-27 | 西安理工大学 | 基于多级域适应弱监督学习的跨域目标检测方法 |
-
2023
- 2023-07-20 CN CN202310899182.XA patent/CN116778277B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560876A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 解耦度量的单阶段小样本目标检测方法 |
CN114821152A (zh) * | 2022-03-23 | 2022-07-29 | 湖南大学 | 基于前景-类别感知对齐的域自适应目标检测方法及系统 |
CN114912516A (zh) * | 2022-04-25 | 2022-08-16 | 湖南大学无锡智能控制研究院 | 一种协调特征一致性和特异性的跨域目标检测方法及系统 |
CN115115908A (zh) * | 2022-06-30 | 2022-09-27 | 湖南大学 | 跨域目标检测模型训练方法、目标检测方法及存储介质 |
CN115359295A (zh) * | 2022-08-23 | 2022-11-18 | 华北电力大学(保定) | 一种解耦知识蒸馏金具目标检测方法及系统 |
CN116342942A (zh) * | 2023-03-16 | 2023-06-27 | 西安理工大学 | 基于多级域适应弱监督学习的跨域目标检测方法 |
Non-Patent Citations (4)
Title |
---|
Adaptive background search and foreground estimation for saliency detection via comprehensive autoencoder;ke yan et al.;《2016 IEEE International Conference on Image Processing (ICIP)》;第2767-2771页 * |
Self-Training and Adversarial Background Regularizat for Unsupervised Domain Adaptive One一Stage Object Detectionion;Seunghyeon Kim et al.;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;第6091-6100页 * |
基于CHMM的背景差算法;李超;徐加银;丁广太;;计算机工程与设计(第09期);第245-249页 * |
基于深度学习的视频预测研究综述;莫凌飞;蒋红亮;李煊鹏;;智能系统学报(第01期);第89-100页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116778277A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691952B2 (en) | Adapting to appearance variations when tracking a target object in video sequence | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
CN111382686B (zh) | 一种基于半监督生成对抗网络的车道线检测方法 | |
CN112395951B (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110647804A (zh) | 一种暴力视频识别方法、计算机系统和存储介质 | |
CN112149538A (zh) | 一种基于多任务学习的行人重识别方法 | |
CN114627437B (zh) | 一种交通目标识别方法及系统 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
KR20210151773A (ko) | 대상 재인식 방법 및 장치, 단말 및 저장 매체 | |
CN112949510A (zh) | 基于Faster R-CNN热红外影像人物探测方法 | |
Xing et al. | The Improved Framework for Traffic Sign Recognition Using Guided Image Filtering | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN114549909A (zh) | 一种基于自适应阈值的伪标签遥感图像场景分类方法 | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
US11954917B2 (en) | Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof | |
US20230298335A1 (en) | Computer-implemented method, data processing apparatus and computer program for object detection | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
CN116778277B (zh) | 基于渐进式信息解耦的跨域模型训练方法 | |
Liu et al. | Robust object tracking via online discriminative appearance modeling | |
CN117593890B (zh) | 一种道路遗撒物体的检测方法、装置、电子设备及存储介质 | |
Wang et al. | Self-Paced Multi-Scale Joint Feature Mapper for Multi-Objective Change Detection in Heterogeneous Images | |
Liu et al. | LaneJoint: Simultaneous Lane Detection and Classification Algorithm | |
CN117036761A (zh) | 基于对比聚类和模板匹配的小样本目标检测方法及模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |