CN117456309A - 基于中间域引导与度量学习约束的跨域目标识别方法 - Google Patents

基于中间域引导与度量学习约束的跨域目标识别方法 Download PDF

Info

Publication number
CN117456309A
CN117456309A CN202311757258.1A CN202311757258A CN117456309A CN 117456309 A CN117456309 A CN 117456309A CN 202311757258 A CN202311757258 A CN 202311757258A CN 117456309 A CN117456309 A CN 117456309A
Authority
CN
China
Prior art keywords
domain
data
target
representing
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311757258.1A
Other languages
English (en)
Other versions
CN117456309B (zh
Inventor
刘安安
李天宝
宋丹
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202311757258.1A priority Critical patent/CN117456309B/zh
Publication of CN117456309A publication Critical patent/CN117456309A/zh
Application granted granted Critical
Publication of CN117456309B publication Critical patent/CN117456309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于中间域引导与度量学习约束的跨域目标识别方法,包括如下步骤:将待识别图像输送到已训练完成的领域自适应网络中以输出识别结果;所述领域自适应网络的训练过程如下:S1:获取有标注的源图像数据作为源域数据,获取无标注的目标图像数据作为目标域数据;S2:以源域数据和目标域数据作为领域自适应网络的输入,利用自适应中间域生成算法生成中间域;S3:利用中间域辅助的双分类器对抗域自适应算法,训练领域自适应网络,学习域不变特征表示;S4:利用多层级跨域度量学习算法,在有标记的源域数据和中间域数据的指导下,得到输出结果;该跨域目标识别方法提高了跨域目标识别的精度。

Description

基于中间域引导与度量学习约束的跨域目标识别方法
技术领域
本发明涉及图像识别技术领域,尤其涉及基于中间域引导与度量学习约束的跨域目标识别方法。
背景技术
深度学习技术已在众多视觉任务中取得显著成就,包括目标分类和检索。然而,深度学习的成功依赖于大规模带标注的训练数据,而这种数据的采集工作既费时又繁琐。此外,不同来源的数据可能包含领域特定因素,如光照、背景和颜色等,导致不同数据领域之间存在差异。
传统的深度学习模型通常在一个有标签的源域上训练,但在未标注的目标域上测试时,由于领域分布的不同,性能表现可能较差。为了解决这一问题,无监督域自适应成为一种吸引人的方法,其目标是在源域拥有标签数据的场景下,处理仅包含未标注数据的目标域。
然而,无监督域自适应面临两个主要挑战:首先,如何有效地从源域到目标域进行知识传递,特别是在领域存在显著差异的情况下。其次,如何在没有目标域标签的情况下学习判别性跨领域表示。一些先前方法试图通过最大均值差异和领域鉴别器等技术来减小领域之间的差异,但这些方法在处理领域差异较大的情况时表现不佳。
发明内容
基于背景技术存在的技术问题,本发明提出了基于中间域引导与度量学习约束的跨域目标识别方法,提高了跨域目标识别的精度。
本发明提出的基于中间域引导与度量学习约束的跨域目标识别方法,包括如下步骤:
将待识别图像输送到已训练完成的领域自适应网络中以输出识别结果;
所述领域自适应网络的训练过程如下:
S1:获取有标注的源图像数据作为源域数据,获取无标注的目标图像数据作为目标域数据;
S2:以源域数据和目标域数据作为领域自适应网络的输入,利用自适应中间域生成算法生成中间域,将生成的中间域/>送入双分类器对抗域自适应算法中;
S3:利用中间域辅助的双分类器对抗域自适应算法,训练领域自适应网络,学习域不变特征表示;
S4:利用多层级跨域度量学习算法,在有标记的源域数据和中间域数据的指导下,得到跨领域语义对齐且具有高鉴别性的输出结果;
S41:计算源域类数据、中间域类数据和目标域类数据的类别质心,约束任意两个类别质心中来自不同领域但属于相同类别的质心之间的距离,以获得到语义对齐的输出结果;
S42:在类数据组成的批量数据中构建跨域近邻正样本对,计算多模态质心以衡量正样本对的类别鉴别性,利用原型对比学习约束正样本对,以获得具有高鉴别性的输出结果;
步骤S3中双分类器对抗域自适应算法的对抗公式如下:
其中, />和/>分别是特征提取网络/>、第一分类网络/>和第二分类网络/>对应的参数,/>表示分类损失函数,/>表示概率差异损失函数,/>表示特征提取网络,表示混合源域数据样本,/>表示目标域数据样本,/>表示混合源域数据样本的类别标签,/>表示KL散度,/>表示/>来自混合源域,对应于数据样本/>,/>表示/>来自于目标域,对应于/>
进一步地,S21:基于傅里叶变换将源域数据和目标域数据分别转换到频域,基于频域获取源域相位、源域振幅、目标域相位和目标域振幅;
S22:构建低频掩码生成网络,生成适应数据的低频掩码,将源域振幅的低频分量替换为目标域振幅的低频分量,获得自适应的混合振幅;
S23:将混合振幅和源域相位通过逆傅里叶变换生成自适应中间域样本,基于自适应中间域样本生成中间域,将生成的中间域/>送入双分类器对抗域自适应算法中;
进一步地,在S21中,源域相位和目标域相位的计算公式一致,源域振幅和目标域振幅的计算公式一致,相位和振幅的计算公知如下:
其中,表示相位,/>表示振幅,/>表示源域数据/>或者目标域数据/>,/>和/>分别表示/>的实部和虚部,/>表示傅里叶变换,/>和/>表示/>对应图像的长和宽,/>表示/>对应图像上的坐标点(/>),/>表示频域横坐标,/>表示频域纵坐标,/>表示虚数单位,/>表示/>对应的图像域横坐标,/>表示/>对应的图像域纵坐标;
进一步地,在步骤S22中,自适应低频掩码和混合振幅/>的生成过程如下:
利用低频掩码,生成混合振幅:
其中,表示目标域数据/>的目标域振幅,/>表示源域数据/>的源域振幅;
在步骤S23中,中间域的生成公式如下:
其中,表示傅里叶逆变换,/>表示源域数据的源域相位,/>表示源域数据的样本总数,/>表示中间域的第/>个样本,/>表示中间域的第/>个样本所对应的类别标签,/>表示所生成的中间域数据,用来说明每一个中间域样本/>的生成过程。
进一步地,步骤S3中利用中间域辅助的双分类器对抗域自适应算法,具体为:
S31:基于原始源域和中间域/>构建混合源域/>,所述原始源域/>基于源域数据生成;
S32:基于混合源域和目标域/>执行双分类器对抗域自适应,以将语义知识从混合源域传输到目标域,并将双分类器对抗域自适应算法输出的类数据输入到多层级跨域度量学习算法中,所述目标域/>基于目标域数据生成,所述类数据包括源域类数据、中间域类数据和目标域类数据。
进一步地,在步骤S31中混合源域的计算公式如下:
其中,表示中间域的比例参数,/>表示从0到1变化的训练进度,/>是向上取整函数。
进一步地,在步骤S41中,计算源域类数据、中间域类数据和目标域类数据的类别质心,其中目标域类数据的类别标签使用第一分类网络和第一分类网络/>获得的伪标签来代替,类别质心具体计算公式如下:
其中,表示源域数据、目标域数据和中间域数据,/>分别指代源域、目标域和中间域,/>表示质心更新权重系数,/>表示第/>类的质心,/>表示第/>类样本的特征,/>表示第/>类的样本;
对来自不同领域但属于相同类别的质心之间的距离施加约束,约束公式如下:
其中,表示跨领域语义对齐的目标损失函数,/>表示一个距离度量函数,/>表示源域类数据的第/>个质心,/>表示目标域类数据的第/>个质心,/>表示中间域类数据的第/>个质心,/>表示类别总数,/>表示第/>个类别。
进一步地,在步骤S42中,计算多模态质心的计算公式如下:
其中,和/>是权重参数,/>表示第/>个多模态质心,/>由源域类数据质心、目标域类数据质心、中间域类数据的类别质心融合得到;
在计算多模态质心时,计算亲和矩阵和/>,表示多模态类别质心与跨领域最近邻正样本对之间的相似性,具体为:给定跨域最近邻样本对/>、/>以及多模态质心/>,计算亲和矩阵/>和/>,并且使用最小平方误差损失函数定义原型对比损失,具体公式如下:
其中,表示最近邻样本对中源域类数据样本/>的标签,/>表示由分类网络/>生成的目标类数据样本/>的伪标签,/>表示最近邻集合,/>表示原型对比损失,/>表示最小平方误差损失函数,/>表示温度系数,/>表示第/>个类别的多模态质心,/>(/>)表示以/>为底的指数函数,/>表示类别总数。
本发明提供的基于中间域引导与度量学习约束的跨域目标识别方法的优点在于:本发明结构中提供的基于中间域引导与度量学习约束的跨域目标识别方法,通过设计自适应中间域生成算法,以源域数据和目标域数据作为输入以生成中间域,以该中间域为桥梁,利用中间域辅助的双分类器对抗域自适应算法学习域不变特征,利用多层级跨域度量学习算法增强样本的语义表征能力和实例鉴别能力,从而有助于提高跨域目标识别的精度。
附图说明
图1为本发明的流程示意图;
图2为领域自适应网络的框架示意图;
图3为自适应中间域生成算法对应的框架示意图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1至3所示,本发明提出的基于中间域引导与度量学习约束的跨域目标识别方法,包括如下步骤:将待识别图像输送到已训练完成的领域自适应网络中以输出识别结果。
所述领域自适应网络的训练过程如下:
S1:获取有标注的源图像数据作为源域数据,获取无标注的目标图像数据作为目标域数据。
S2:以源域数据和目标域数据作为领域自适应网络的输入,利用自适应中间域生成算法生成中间域;所生成的中间域数据带有目标域数据的风格且保留有源域数据的语义信息,具体包括步骤S21至S23。
S21:基于傅里叶变换将源域数据和目标域数据分别转换为频域数据,基于频域数据获取源域相位、源域振幅、目标域相位和目标域振幅。
给定一个源域数据样本,以及一个随机的目标域数据样本,源域数据样本和目标域数据样本对应的图像大小一致,即长/>和宽/>是一样的。然后,使用傅里叶变换/>将单个图像/>(/>或/>)转换为频域数据,以获取其振幅和相位成分:
其中,表示傅里叶变换,/>表示傅里叶逆变换,/>表示源域数据/>或者目标域数据/>,/>和/>表示/>对应图像的长和宽,/>表示/>对应图像上的坐标点(/>),/>表示频域横坐标,/>表示频域纵坐标,/>表示/>对应的图像域横坐标,/>表示/>对应的图像域纵坐标。傅里叶变换逆傅里叶逆变换都可以使用FFT算法高效计算。
源域相位和目标域相位的计算公式一致,源域振幅和目标域振幅的计算公式一致,随后,相位和振幅可以分别表示为:
其中,表示相位,/>表示频域,/>和/>分别表示/>的实部和虚部,表示对图像/>的傅里叶变换。
S22:构建低频掩码生成网络,生成自适应低频掩码,以将源域振幅的低频分量替换为目标域振幅,获得混合振幅;
本方法所设计的低频掩码生成网络采用了UNet的结构,包括Encoder和Decoder两个主要组件。Encoder部分包括三个卷积层,每个卷积层之后跟随一个下采样操作,用于逐渐减小特征图的空间尺寸。每个卷积层的卷积核数量为64、128和256。在每个卷积层之后,添加ReLU激活函数,以引入非线性特性;即Encoder部分包括三个依次连接的模块,每个模块中包括依次连接的卷积层、下采样层和ReLU层。
Decoder部分也包括三个层,每个层包括上采样和一个卷积层。与Encoder部分相对应,每个卷积层的卷积核数量与Encoder的层级一致,以确保输出与输入的尺寸相匹配。
本方法所设计的低频掩码生成网络能够适应不同频域图像样本对的特征,具有更强的灵活性;并且通过激活函数引入了非线性特性,使得网络能够捕获和表示更丰富的频域特征,从而提高了掩码生成的精确度。网络以源域数据/>的源域振幅/>和目标域数据/>的目标域振幅/>为输入,生成低频掩码/>
对于两个随机采样的跨领域示例和/>,将源域振幅的低频分量替换为目标域振幅,以获得混合振幅:
S23:将混合振幅和源域相位通过逆傅里叶变换生成中间域样本,基于中间域样本生成中间域,将生成的中间域/>送入中间域辅助的双分类器对抗域自适应算法;
使用混合振幅和源域相位通过逆傅里叶变换生成中间域样本:
任意一个中间域的图像,用来表示每个中间域图像的生成过程,最终生成了中间域/>,/>包含了目标样式的样本,同时保留了源语义特征:
其中,表示傅里叶逆变换,/>表示源域数据的源域相位,/>表示源域数据的样本总数,/>个中间域样本图像构成中间域/>,/>表示中间域的第/>个样本,/>表示中间域的第/>个样本所对应的类别标签,/>表示所生成的中间域样本,用来说明中间域样本的生成过程,每个/>是基于/>对应的公式计算得到。
根据步骤S21至S23,提出了一种基于傅里叶变换的自适应风格迁移策略,可用于在不同领域之间实现有效的风格迁移和领域自适应,即,可以有效地、自适应地将低频领域特定风格从目标域数据迁移到源域数据,同时保留高频领域不变特征,从而构建中间域。
S3:利用中间域辅助的双分类器对抗域自适应算法,训练领域自适应网络,学习域不变特征表示,包括步骤S31至S32;
S31:基于原始源域和中间域/>构建混合源域/>,所述原始源域/>基于源域数据生成;
为了更好地利用中间域辅助领域自适应,设计了一个动态混合策略,用于构建混合源域,其中包括原始源域/>和中间域/>
中间域的比例参数随着训练的进展而减小:
其中,表示从0到1变化的训练进度,/>是向上取整函数。
具体来说,本申请的方法引入了一个中间域的比例参数/>,它会在训练过程中动态调整。随着训练的进行,这个参数会逐渐增加,从而引入更多的源域数据用于训练。这个设计的好处在于,它允许在训练的早期阶段使用更多的中间域数据来学习共嵌特征空间,而在训练的后期,可以充分利用源域数据进行准确的语义知识迁移。值得注意的是,这个比例参数在训练初期会迅速变化,而在中后期则变化较为缓慢。这种策略有助于实现快速学习共嵌特征空间,并精确挖掘语义知识以进行知识迁移。
因而获得了混合源域和目标域/>,以执行渐进对抗域自适应,其中,/>表示源域数据的样本总数,/>表示目标域数据的样本总数,/>表示混合源域的第/>个样本,/>表示混合源域第/>个样本的类别标签。
S32:基于混合源域和目标域/>执行双分类器对抗域自适应,学习一个共享嵌入空间,以将语义知识从混合源域传输到目标域,将双分类器对抗域自适应算法输出的类数据输入到多层级跨域度量学习算法中,所述目标域/>基于目标域数据生成,所述类数据包括源域类数据、中间域类数据和目标域类数据。
其中源域类数据是源域数据经过双分类器对抗域自适应算法输出的数据,中间域类数据是中间域经过双分类器对抗域自适应算法输出的数据,目标域类数据是目标域数据经过双分类器对抗域自适应算法输出的数据。
在双分类器对抗域自适应算法中引入了一个特征提取网络,一个分类网络/>和一个分类网络/>。特征提取网络的输出分别连接到分类网络/>和分类网络/>的输入。具体而言,双分类器对抗域自适应算法可以被表述为如下三步的对抗学习策略:
a1)对应于第一分类网络/>和第二分类网络/>,可以被优化以最小化标记混合源域的分类风险;
a2)对应于特征提取网/>、第一分类网络/>和第二分类网络/>,旨在衡量不同分类器对目标域样本的概率输出差异:
具体为:
b1)优化特征提取网、第一分类网络/>和第二分类网络/>,最小化分类损失/>,在混合源域样本上减小分类经验损失:
b2)冻结特征提取网的参数,优化第一分类网络/>和第二分类网络/>,使两个分类网络对目标域数据样本的概率树杈差异最大化,同时保持混合源域样本的分类准确率:
b3)冻结第一分类网络和第二分类网络/>的参数,优化特征提取网/>,使得两个分类网络的概率输出差异最小化:
其中,对应于第一分类网络/>和第二分类网络/>,可以被优化以最小化标记混合源域的分类风险:
其中,对应于特征提取网/>、第一分类网络/>和第二分类网络/>,旨在衡量不同分类器对目标域样本的概率输出差异:
其中,,/>和/>分别是特征提取网络/>、第一分类网络/>和第二分类网络/>对应的参数,/>表示分类损失函数,/>表示概率差异损失函数,/>表示特征提取网络,表示第一分类网络,/>表示第二分类网络,/>表示混合源域数据样本,/>表示目标域数据样本,/>表示混合源域数据样本的类别标签,/>表示KL散度,/>表示/>来自混合源域,对应于数据样本/>,/>表示/>来自于目标域,对应于/>
具体地,源域类数据和中间域类数据均包括样本特征和类别标签,目标域类数据包括样本特征和通过分类网络得到的类别伪标签,在本实施例中,目标域类数据可以单独由第一分类网络或者第二分类网络/>生成,也可以通过第一分类网络/>和第二分类网络/>共同得到。
例如:当目标域类数据由第一分类网络生成时,源域类数据表示为:;中间域类数据表示为:/>;目标域类数据表示为:/>;其中,/>分别指代源域数据、中间域数据和目标域数据,/>分别表示源域数据和中间域数据的类别标签,/>表示特征提取网络。
根据步骤S31至S32,通过中间域的帮助,减轻了领域自适应的难度,其特征分布更接近目标领域。提出了一种双分类器对抗域自适应策略,使用双分类器对抗域自适应算法训练领域自适应网络,这种方法有助于实现跨领域知识传递和领域自适应,增强了跨领域表示的领域不变性,从而提高了自适应过程的整体效果。在早期的训练过程中,尝试借助中间域学习一个共享的嵌入空间。然后,逐渐减少中间域数据的量,以将语义知识从源域传输到目标域,最终得到一个共享的嵌入空间,在领域自适应网络实际使用过程中,不存在中间域,以嵌入空间对输入数据进行处理。
S4:利用多层级跨域度量学习算法,在有标记的源域数据和中间域数据的指导下,得到跨领域语义对齐且具有高鉴别性的输出结果,包括步骤S41至S42。
S41:计算源域类数据、中间域类数据和目标域类数据的类别质心,两两之间约束来自不同领域但属于相同类别的质心之间的距离,以获得到语义对齐的输出结果;
首先直接计算已标记的源域和中间域样本的类别质心。对于未标记的目标域数据样本,引入从第一分类网络获得的伪标签来计算质心:
其中,表示源域数据、目标域数据和中间域数据,/>分别指代源域、目标域和中间域,/>表示质心更新权重系数,/>表示第/>类的质心,/>表示第/>类样本的特征,/>表示第/>类的样本;
,当/>对应为/>时,/>对应为/>,当/>对应为/>时,/>对应为/>,当/>对应为/>时,/>对应为/>
表示第/>类源域数据样本的特征,/>表示第/>类目标域数据样本的特征,/>表示第/>类中间域数据样本的特征;/>表示第/>类的源域数据样本,/>表示第类的目标域数据样本,/>表示第/>类的中间域数据样本。
然后,在每两个域之间,通过明确约束来自不同领域但属于相同类别的质心之间的距离来实现语义对齐。形式上:
其中,表示跨领域语义对齐的目标损失函数,/>表示一个距离度量函数,/>表示源域类数据的第/>个质心,/>表示目标域类数据的第/>个质心,/>表示中间域类数据的第/>个质心,/>表示类别总数,/>表示第/>个类别。
即,对于跨领域语义对齐,限制了同一类别但不同领域的质心之间的距离。
S42:在类数据组成的批量数据中构建跨领域最近邻正样本对,计算多模态质心以衡量正样本对的类别鉴别性,得到具有高鉴别性的输出结果;
对于鉴别性增强,提出了一个样本级原型对比损失。首先在类数据组成的批量数据中构建跨领域最近邻正样本对,然后计算计算多模态质心以衡量正样本对的类别鉴别性:
其中,和/>是权重参数,/>表示第/>个多模态质心,/>由源域类数据质心、目标域类数据质心、中间域类数据的类别质心融合得到;
在计算多模态质心时,计算亲和矩阵和/>,表示多模态类别质心与跨领域最近邻正样本对之间的相似性,具体为:给定跨域最近邻样本对/>、/>以及多模态质心/>,计算亲和矩阵/>和/>,并且使用最小平方误差损失函数定义原型对比损失,具体公式如下:
其中,表示最近邻样本对中源域类数据样本/>的标签,/>表示由分类网络/>生成的目标类数据样本/>的伪标签,/>表示最近邻集合,/>表示原型对比损失,/>表示最小平方误差损失函数,/>表示温度系数,/>表示第/>个类别的多模态质心,/>(/>)表示以/>为底的指数函数,/>表示类别总数。
根据步骤S41至S42,借助中间域来引导表示学习,包括类别级别和实例级别。在类别级别,强制要求不同领域中相同类别的簇中心接近,以实现跨领域语义对齐。在实例级别,通过多模态类质心的引导,增强了跨域最近正样本对的表征一致性和实例鉴别性,有利于提升跨域目标识别的精度。
根据步骤S41至S42,提出多层级跨域度量学习算法来对齐分布,增强跨领域表示的一致性和实例鉴别性。这种语义对齐和鉴别性增强是由标记的源域数据和中间域数据引导的,能够有效地学习具有鉴别性的跨领域表示。
利用目标损失函数对领域自适应网络进行评价并更新领域自适应网络的参数,以完成对待识别图像数据的目标识别和检索。
根据步骤S1至S4,本实施例通过设计自适应中间域生成算法,以源域数据和目标域数据作为输入以生成中间域,以该中间域为桥梁,利用双分类器对抗域自适应算法学习域不变特征,利用多层级跨域度量学习算法增强样本的语义表征能力和实例鉴别能力,从而有助于提高跨域目标识别的精度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,将待识别图像输送到已训练完成的领域自适应网络中以输出识别结果;
所述领域自适应网络的训练过程如下:
S1:获取有标注的源图像数据作为源域数据,获取无标注的目标图像数据作为目标域数据;
S2:以源域数据和目标域数据作为领域自适应网络的输入,利用自适应中间域生成算法生成中间域,将生成的中间域/>送入双分类器对抗域自适应算法中;
S3:利用中间域辅助的双分类器对抗域自适应算法,训练领域自适应网络,学习域不变特征表示;
S4:利用多层级跨域度量学习算法,在有标记的源域数据和中间域数据的指导下,得到跨领域语义对齐且具有高鉴别性的输出结果;
S41:计算源域类数据、中间域类数据和目标域类数据的类别质心,约束任意两个类别质心中来自不同领域但属于相同类别的质心之间的距离,以获得到语义对齐的输出结果;
S42:在类数据组成的批量数据中构建跨域近邻正样本对,计算多模态质心以衡量正样本对的类别鉴别性,利用原型对比学习约束正样本对,以获得具有高鉴别性的输出结果;
步骤S3中双分类器对抗域自适应算法的对抗公式如下:
其中, />和/>分别是特征提取网络/>、第一分类网络/>和第二分类网络/>对应的参数,/>表示分类损失函数,/>表示概率差异损失函数,/>表示特征提取网络,/>表示混合源域/>的数据样本,/>表示目标域/>的数据样本,/>表示混合源域数据样本的类别标签,/>表示KL散度,/>表示/>来自混合源域,对应于数据样本/>,/>表示/>来自于目标域,对应于/>
2.根据权利要求1所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在步骤S2中,具体包括:
S21:基于傅里叶变换将源域数据和目标域数据分别转换到频域,基于频域数据获取源域相位、源域振幅、目标域相位和目标域振幅;
S22:构建低频掩码生成网络,生成自适应低频掩码,以将源域振幅的低频分量替换为目标域振幅的低频分量,获得自适应的混合振幅;
S23:将混合振幅和源域相位通过逆傅里叶变换生成自适应中间域样本,基于自适应中间域样本生成中间域
3.根据权利要求2所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在S21中,源域相位和目标域相位的计算公式一致,源域振幅和目标域振幅的计算公式一致,相位和振幅的计算公知如下:
其中,表示相位,/>表示振幅,/>表示源域数据/>或者目标域数据/>,/>分别表示/>的实部和虚部,/>表示傅里叶变换,/>和/>表示/>对应图像的长和宽,/>表示/>对应图像上的坐标点(/>),/>表示频域横坐标,/>表示频域纵坐标,/>表示虚数单位,/>表示/>对应的图像域横坐标,/>表示/>对应的图像域纵坐标。
4.根据权利要求3所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在步骤S22中,自适应低频掩码和混合振幅/>的生成过程如下:
其中,表示目标域数据/>的振幅,/>表示源域数据/>的振幅;
在步骤S23中,中间域的生成公式如下:
其中,表示傅里叶逆变换,/>表示源域数据的源域相位,/>表示源域数据的样本总数,/>表示中间域的第/>个样本,/>表示中间域的第/>个样本所对应的类别标签,/>表示所生成的中间域数据,用来说明每一个中间域样本/>的生成过程。
5.根据权利要求1所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,步骤S3中利用中间域辅助的双分类器对抗域自适应算法,具体为:
S31:基于原始源域和中间域/>构建混合源域/>,所述原始源域/>基于源域数据生成;
S32:基于混合源域和目标域/>执行双分类器对抗域自适应,以将语义知识从混合源域传输到目标域,并将双分类器对抗域自适应算法输出的类数据输入到多层级跨域度量学习算法中,所述目标域/>基于目标域数据生成,所述类数据包括源域类数据、中间域类数据和目标域类数据。
6.根据权利要求5所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在步骤S31中,混合源域的计算公式如下:
其中,表示中间域的比例参数,/>表示中间域,/>表示从0到1变化的训练进度,/>是向上取整函数。
7.根据权利要求5所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在步骤S41中,计算源域类数据、中间域类数据和目标域类数据的类别质心,其中目标域类数据的类别标签使用分类网络获得的伪标签来代替,类别质心具体计算公式如下:
其中,表示源域数据、目标域数据和中间域数据,/>分别指代源域、目标域和中间域,/>表示质心更新权重系数,/>表示第/>类的质心,/>表示第/>类样本的特征,表示第/>类的样本;
对来自不同领域但属于相同类别的质心之间的距离施加约束,约束公式如下:
其中,表示跨领域语义对齐的目标损失函数,/>表示一个距离度量函数,/>表示源域类数据的第/>个质心,/>表示目标域类数据的第/>个质心,/>表示中间域类数据的第/>个质心,/>表示类别总数,/>表示第/>个类别。
8.根据权利要求7所述的基于中间域引导与度量学习约束的跨域目标识别方法,其特征在于,在步骤S42中,计算多模态质心的计算公式如下:
其中,和/>是权重参数,/>表示第/>个多模态质心,/>由源域类数据质心、目标域类数据质心、中间域类数据的类别质心融合得到;
在计算多模态质心时,计算亲和矩阵和/>,表示多模态类别质心与跨领域最近邻正样本对之间的相似性,具体为:给定跨域最近邻样本对/>、/>以及多模态质心/>,计算亲和矩阵/>和/>,并且使用最小平方误差损失函数定义原型对比损失,具体公式如下:
其中,表示最近邻样本对中源域类数据样本/>的标签,/>表示由分类网络生成的目标类数据样本/>的伪标签,/>表示/>所对应类别的多模态类中心,/>表述/>所对应类别的多模态类中心,/>表示最近邻集合,/>表示原型对比损失,/>表示最小平方误差损失函数,/>表示温度系数,/>表示第/>个类别的多模态质心,/>(/>)表示以/>为底的指数函数。
CN202311757258.1A 2023-12-20 2023-12-20 基于中间域引导与度量学习约束的跨域目标识别方法 Active CN117456309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311757258.1A CN117456309B (zh) 2023-12-20 2023-12-20 基于中间域引导与度量学习约束的跨域目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311757258.1A CN117456309B (zh) 2023-12-20 2023-12-20 基于中间域引导与度量学习约束的跨域目标识别方法

Publications (2)

Publication Number Publication Date
CN117456309A true CN117456309A (zh) 2024-01-26
CN117456309B CN117456309B (zh) 2024-03-15

Family

ID=89582101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311757258.1A Active CN117456309B (zh) 2023-12-20 2023-12-20 基于中间域引导与度量学习约束的跨域目标识别方法

Country Status (1)

Country Link
CN (1) CN117456309B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3185503A1 (en) * 2015-12-23 2017-06-28 Alcatel Lucent Method and server for computing and enforcing a trusted path in a multi domain network
CN111222471A (zh) * 2020-01-09 2020-06-02 中国科学技术大学 基于自监督域感知网络的零样本训练及相关分类方法
CN113469273A (zh) * 2021-07-20 2021-10-01 南京信息工程大学 基于双向生成及中间域对齐的无监督域适应图像分类方法
CN114065861A (zh) * 2021-11-17 2022-02-18 北京工业大学 基于对比对抗学习的领域自适应方法及装置
CN114723994A (zh) * 2022-04-18 2022-07-08 中国矿业大学 一种基于双分类器对抗增强网络的高光谱图像分类方法
CN115082762A (zh) * 2022-07-21 2022-09-20 合肥中科类脑智能技术有限公司 基于区域建议网络中心对齐的目标检测无监督域适应系统
CN115471739A (zh) * 2022-08-03 2022-12-13 中南大学 基于自监督对比学习的跨域遥感场景分类与检索方法
US20230055760A1 (en) * 2021-08-17 2023-02-23 Maplebear Inc.(dba Instacart) Training a classification model using labeled training data that does not overlap with target classifications for the classification model
CN116049937A (zh) * 2022-12-21 2023-05-02 合肥工业大学 基于深度学习的跨域桥梁损伤识别方法
WO2023086170A1 (en) * 2021-11-15 2023-05-19 Motional Ad Llc Unsupervised domain adaptation for lidar segmentation via enhanced pseudo-labeling techniques
CN116189255A (zh) * 2022-12-08 2023-05-30 佛山市南海区广工大数控装备协同创新研究院 一种基于生成式域适应的人脸活体检测方法
CN116309466A (zh) * 2023-03-22 2023-06-23 天津大学 一种基于对比学习的跨域目标检测方法
CN116342942A (zh) * 2023-03-16 2023-06-27 西安理工大学 基于多级域适应弱监督学习的跨域目标检测方法
CN116486483A (zh) * 2023-04-24 2023-07-25 天津大学 基于高斯建模的跨视角行人重识别方法及装置
CN116484218A (zh) * 2023-04-20 2023-07-25 南京信息工程大学 基于双分类器加权对抗的无监督部分域适应方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3185503A1 (en) * 2015-12-23 2017-06-28 Alcatel Lucent Method and server for computing and enforcing a trusted path in a multi domain network
CN111222471A (zh) * 2020-01-09 2020-06-02 中国科学技术大学 基于自监督域感知网络的零样本训练及相关分类方法
CN113469273A (zh) * 2021-07-20 2021-10-01 南京信息工程大学 基于双向生成及中间域对齐的无监督域适应图像分类方法
US20230055760A1 (en) * 2021-08-17 2023-02-23 Maplebear Inc.(dba Instacart) Training a classification model using labeled training data that does not overlap with target classifications for the classification model
WO2023086170A1 (en) * 2021-11-15 2023-05-19 Motional Ad Llc Unsupervised domain adaptation for lidar segmentation via enhanced pseudo-labeling techniques
CN114065861A (zh) * 2021-11-17 2022-02-18 北京工业大学 基于对比对抗学习的领域自适应方法及装置
CN114723994A (zh) * 2022-04-18 2022-07-08 中国矿业大学 一种基于双分类器对抗增强网络的高光谱图像分类方法
CN115082762A (zh) * 2022-07-21 2022-09-20 合肥中科类脑智能技术有限公司 基于区域建议网络中心对齐的目标检测无监督域适应系统
CN115471739A (zh) * 2022-08-03 2022-12-13 中南大学 基于自监督对比学习的跨域遥感场景分类与检索方法
CN116189255A (zh) * 2022-12-08 2023-05-30 佛山市南海区广工大数控装备协同创新研究院 一种基于生成式域适应的人脸活体检测方法
CN116049937A (zh) * 2022-12-21 2023-05-02 合肥工业大学 基于深度学习的跨域桥梁损伤识别方法
CN116342942A (zh) * 2023-03-16 2023-06-27 西安理工大学 基于多级域适应弱监督学习的跨域目标检测方法
CN116309466A (zh) * 2023-03-22 2023-06-23 天津大学 一种基于对比学习的跨域目标检测方法
CN116484218A (zh) * 2023-04-20 2023-07-25 南京信息工程大学 基于双分类器加权对抗的无监督部分域适应方法
CN116486483A (zh) * 2023-04-24 2023-07-25 天津大学 基于高斯建模的跨视角行人重识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIAN-BAO LI等: "Progressive Fourier Adversarial Domain Adaptation for Object Classification and Retrieval", 《IEEE XPLORE》, 11 October 2023 (2023-10-11), pages 1 - 14 *
张旭;刘韬;杜跃;: "一种基于样本选择和在线字典学习的域适应图像分类算法", 苏州市职业大学学报, no. 02, 6 June 2018 (2018-06-06) *

Also Published As

Publication number Publication date
CN117456309B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
CN105138973B (zh) 人脸认证的方法和装置
JP2022538866A (ja) 画像前処理のためのシステム及び方法
CN112446423B (zh) 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法
CN110472417B (zh) 基于卷积神经网络的恶意软件操作码分析方法
CN114842267A (zh) 基于标签噪声域自适应的图像分类方法及系统
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN117611932B (zh) 基于双重伪标签细化和样本重加权的图像分类方法及系统
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
CN111931814A (zh) 一种基于类内结构紧致约束的无监督对抗域适应方法
CN116227578A (zh) 一种无源域数据的无监督领域适应方法
CN114943017B (zh) 一种基于相似性零样本哈希的跨模态检索方法
CN114723994A (zh) 一种基于双分类器对抗增强网络的高光谱图像分类方法
CN110443273B (zh) 一种用于自然图像跨类识别的对抗零样本学习方法
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN112364980B (zh) 一种弱监督场景下基于强化学习的深度神经网络训练方法
CN117456309B (zh) 基于中间域引导与度量学习约束的跨域目标识别方法
CN113269274A (zh) 一种基于循环一致性的零样本识别方法及系统
CN117237727A (zh) 基于生成对抗网络原型修正的少样本图像分类方法及系统
CN116541704A (zh) 一种多类噪声分离的偏标记学习方法
US20240020531A1 (en) System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model
CN112800959B (zh) 一种用于人脸识别中数据拟合估计的困难样本发掘方法
Chu et al. Imbalanced Few-Shot Learning Based on Meta-transfer Learning
Ma et al. Geometric Prior Guided Feature Representation Learning for Long-Tailed Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant