CN117010531A

CN117010531A - 一种基于混合增强对比的黑盒源域无监督领域自适应方法

Info

Publication number: CN117010531A
Application number: CN202311024344.1A
Authority: CN
Inventors: 汪云云; 华子毅
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-07

Abstract

本发明属于机器学习下的迁移学习技术领域，公开了一种基于混合增强对比的黑盒源域无监督领域自适应方法，包括知识蒸馏初始化目标模型、混合增强特征对比学习以及随机混合增强矫正，基于黑盒源域模型利用知识蒸馏、互信息熵最大化和早期学习正则化方法对目标模型进行初始化，获取类别原型和类别学习难度阈值，并以此选取目标域样本，最小化混合特征对比损失，随机混合目标域样本及其伪标签作为增强样本，计算交叉熵矫正优化模型。该方法在不使用源域数据与模型参数的情况下进行领域间知识迁移，对无标签的目标域数据进行分类，从更细致的角度优化目标域类间结构以精确识别数据特征，在保证良好泛化性能的同时具备较强的安全性及隐私保护能力。

Description

一种基于混合增强对比的黑盒源域无监督领域自适应方法

技术领域

本发明属于机器学习下的迁移学习技术领域，涉及一种领域自适应模型方法，具体的说是涉及一种基于混合增强对比的黑盒无监督领域自适应方法。

背景技术

随着大数据时代的到来，数据产生速度不断加快，数据规模呈现爆发式增长，这使得有能力处理庞大数据集的机器学习技术备受关注。大量数据为机器学习和深度学习提供了更多训练和优化的机会，从而提升了模型的性能和适用性。尽管机器学习在许多领域取得了令人瞩目的成功，但在现实场景中仍然存在着一些限制。传统的机器学习方法通常依赖于大量标记数据来构建模型，以实现较高的分类性能。然而，获取大规模标记数据并不总是容易或实际可行的。这就带来了一个新的挑战，即如何在有限的标记数据条件下训练出具有良好泛化能力的模型，并能够准确地预测未标记数据。

迁移学习旨在利用已经训练好的模型中的知识和特征，将其应用于新任务或领域中以提升性能。通过迁移学习，我们可以将一个领域中的知识和经验转移到另一个相关或类似的领域，从而节省大量时间和资源。领域自适应是迁移学习的一个分支，它关注的是不同领域之间的知识迁移。在现实场景中，不同领域的数据可能存在领域间差异，例如图像的拍摄环境、文本的语言风格等，这些领域差异会影响模型在目标领域上的性能。领域自适应旨在通过减小不同领域间差异，使模型能够在目标领域上具有较好的泛化能力，其中一种常见的领域自适应方法是无监督领域自适应，它利用目标领域中未标记的数据进行训练。无监督领域自适应通常通过学习领域间的共享特征或对抗性学习来实现，而无需目标领域的标记数据。

尽管无监督领域自适应取得了显著的成功，但人们对数据隐私的日益关注给这项任务带来了新的挑战。源域和目标域的数据通常储存在不同的设备上并包含私人信息，因此将源域数据暴露给目标域存在一定的风险，换言之，已经标记的源域数据可能无法为目标模型所用，这就使得一些现有的无监督领域自适应方法不再适用，因此便有了无源领域自适应方法，以促进模型迁移并保护源数据的隐私安全。无源领域自适应向未标记的目标域提供训练有素的源模型而非已经标记的源域数据，因此无源领域自适应也称为白盒领域自适应。

然而在实际应用中，白盒源域模型并不总是能获得的。常见的云服务模型如谷歌云，腾讯云，被封装为应用程序编程接口的形式提供给用户，其中只有模型的输入输出接口可用，模型本身被保存为黑盒接口，这使大量无源领域自适应方法在实践中变得不可用，为此黑盒领域自适应诞生。黑盒领域自适应方法只能使用源域模型的接口访问，在安全性提高的同时也给领域自适应任务带来了不小的挑战，无法获得源模型输出的样本特征使解决域偏移问题变得困难，源模型接口信噪比的不确定也使伪标签变得不可靠。

发明内容

为了解决上述技术问题，本发明提供了一种基于混合增强对比的黑盒源域无监督领域自适应方法，该方法在基于知识蒸馏模型的基础上，增加了改进的混合特征对比模块、早期学习正则化模块和随机混合增强模块，帮助学习源域和目标域间共享类的知识和目标域私有类的知识，有效地提高了目标模型的预测准确率。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于混合增强对比的黑盒无监督领域自适应方法，包括如下步骤：

步骤1、将每个目标域样本输入黑盒源域，获得源域预测，代表样本属于源域中每个类的概率。根据源域预测计算每个类别的原型样本和学习难度阈值；

步骤2、将每个目标域样本输入目标模型，计算目标模型输出的互信息熵和与源域预测的相对熵作为蒸馏损失；

步骤3、计算并存储每个样本与类原型样本特征之间的距离作为非线性预测，增加早期学习正则化项，配合蒸馏损失初始化目标模型，迭代更新样本特征以保留模型训练早期的易学习特征；

步骤4、根据步骤1得到的源域预测以及步骤3得到的非线性预测计算伪标签，根据步骤1得到的学习难度阈值为目标样本筛选置信的非同类样本，将两者按相等比例混合增强后重新获得特征充当混合负样本；

步骤5、根据类原型特征及步骤4得到的混合负样本特征计算混合增强对比损失，目的是使得每个目标样本与类原型近，与其他类原型和混合负样本远；

步骤6、随机选择目标样本对按0.25和0.75的比例进行混合数据增强，根据其在目标模型的输出和其混合后的伪标签计算交叉熵；

步骤7、整体损失计算梯度，反向传播，迭代更新网络参数、类原型特征、学习难度阈值直至损失收敛，对目标域数据样本进行预测得到预测标签，与目标域数据样本的真实标签比较，对于每一类计算出该类的平均分类准确率作为度量结果。

进一步的，在步骤1中通过黑盒源域模型的输出计算每个类的原型样本和学习难度阈值，如下所示，

其中表示目标域样本；f_s ^k表示源域模型预测第k类的概率；/>为超参数。

进一步的，在步骤2中构造了蒸馏损失，通过最小化蒸馏损失来更新目标模型，蒸馏损失由相对熵和互信息熵组成，定义如下：

L_warm＝L_kd-L_im

其中D_kl表示相对熵，f_t表示目标模型，h(p)＝-∑_ip_ilogp_i表示自信息熵。

进一步的，在步骤3中通过早期学习正则化项来正则化模型训练过程，保留模型早期记忆的具有正确标签的干净样本，防止噪声数据影响。储存器用于记录每个样本的非线性预测，并通过动量策略基于新的预测进行更新，非线性预测、动量策略和早期学习正则化项定义如下：

其中l₂()为L2范式，σ为softmax函数，表示类原型样本，o_i表示样本/>在当前模型的中的非线性预测，β为超参数。

进一步的，目标模型的线性和非线性预测均有其局限性，在步骤4中综合考量两者获得伪标签，通过伪标签为目标样本筛选置信的非同类样本进行混合增强，定义如下：

其中Xⁱ表示与第i个样本拥有相同伪标签且置信度大于学习难度阈值的目标样本集合，将第i个样本与集合中的每个样本进行混合增强，获得增强后样本特征作为混合增强对比负样本，混合增强定义如下：

Mix_λ(a,b)＝λa+(1-λ)b

进一步的，在步骤5中，最小化目标域样本的infoNCE损失函数，其中样本特征作为锚点，类原型特征作为正样本，其他类原型特征及混合增强样本特征作为负样本，同时为了减小不确定数据对模型训练的影响，使用其置信度作为权重系数，定义如下：

其中z_i表示锚样本特征，z_d表示当前类原型特征，z_k表示各个类原型特征，z_uk表示混合负样本特征，K表示类别数，表示该样本对应的混合负样本数量，w_i表示置信度，τ表示温度系数，z_i、z_d、z_k和z_uk均经过归一化操作。

进一步的，在步骤6中，随机选择目标域数据样本对进行混合数据增强，根据其混合后的伪标签计算交叉熵，通过最小化交叉熵再次优化目标模型，交叉熵定义如下：

其中l_ce表示交叉熵损失。

进一步的，在步骤7中，计算整体损失，反向传播，迭代更新网络参数，整体损失定义如下：

L＝L_kd-L_im+αL_elr+γL_UniCon+δL_mix

其中α、γ和δ为超参数。

本发明的有益效果是：本发明提出了一种基于混合增强对比的黑盒源域无监督领域自适应方法，针对源域数据与模型参数均不可获得的情况，通过构造蒸馏损失使模型输出靠近源模型输出的同时鼓励标签分布均匀，防止出现类不平衡现象；通过添加早期正则化项，有效地防止噪声数据造成的错误积累；通过混合增强对比和随机混合数据增强优化目标数据的类间和类内结构，更准确地识别数据特征。相比于其他模型本发明在保证更好泛化性能的同时具备较强的安全性及隐私保护能力。

附图说明

图1是本发明方法的流程图。

图2是本发明网络模型总体架构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于混合增强对比的黑盒源域无监督领域自适应方法，首先通过调整大小、随机裁剪等方式将无标签的目标图片数据预处理成网络模型所要求的统一格式。模型训练分为模型初始化、混合特征对比和随机混合增强矫正三个部分。模型的初始化是为了尽可能地学习到黑盒源域中的知识并准确地识别目标数据的特征以进行正式训练中的特征对比。模型初始化又分为三个部分：构造相对熵损失最小化源域预测和目标预测输出的差距，构造互信息熵鼓励目标源模型的预测标签分布均匀，利用源域预测挑选类原型样本、计算类学习难度阈值并构造早期正则化项优化目标模型的特征分布。

具体的，本发明的黑盒源域无监督领域自适应方法包括如下步骤：

步骤1、将每个目标域样本输入黑盒源域，获得源域预测，代表样本属于源域中每个类的概率，根据源域预测计算每个类别的原型样本和学习难度阈值。

在此步骤中根据源域预测计算每个类别的原型样本和学习难度阈值，具体表示为：

其中表示目标域样本，f_s ^k表示源域模型预测第k类的概率，/>为超参数，C_k表示原型样本，Φ_k表示学习难度阈值。

步骤2、将每个目标域样本输入目标模型，计算目标模型输出的互信息熵和与源域预测的相对熵作为蒸馏损失。此步骤中构造了蒸馏损失，通过最小化蒸馏损失来更新目标模型，蒸馏损失由相对熵和互信息熵组成，定义如下：

L_warm＝L_kd-L_im

其中D_kl表示相对熵，f_t表示目标模型，h(p)＝-∑_ip_ilogp_i表示自信息熵，L_kd表示知识蒸馏损失，E表示经验风险，X_t表示所有的目标域样本，x_t表示当前目标域样本，L_im表示互信息最大化损失，L_warm表示总的蒸馏损失。

步骤3、计算并存储每个目标域样本与类原型样本特征之间的距离作为非线性预测，增加早期学习正则化项，配合蒸馏损失初始化目标模型，迭代更新所有目标域样本特征以保留目标模型训练早期的易学习特征。

在此步骤中通过早期学习正则化项来正则化模型训练过程，保留模型早期记忆的具有正确标签的干净样本，防止噪声数据影响，储存器用于记录每个样本的非线性预测，并通过动量策略基于新的预测进行更新，非线性预测、动量策略和早期学习正则化项定义如下：

其中l₂()为L2范式，σ为softmax函数，表示类原型样本，β为超参数，L_elr表示早期学习正则化项，o_i表示第i个样本/>在当前模型的中的非线性预测，/>表示储存器中记录的/>的非线性预测。

步骤4、根据步骤1得到的源域预测以及步骤3得到的非线性预测计算伪标签，根据步骤1得到的学习难度阈值为目标样本筛选置信的非同类样本，将两者按相等比例混合增强后重新获得特征充当混合负样本特征。

目标模型的线性和非线性预测均有其局限性，在步骤4中综合两者获得伪标签，通过伪标签为目标样本筛选置信的非同类样本进行混合增强，定义如下：

Mix_λ(a,b)＝λa+(1-λ)b

其中a，b表示维度和形状相同的两个数据，λ表示混合比例。

步骤5、根据类原型样本特征及步骤4得到的混合负样本特征计算混合增强对比损失，使得每个目标样本与类原型近，与其他类原型和混合负样本远。

在此步骤中，最小化目标域样本的infoNCE损失函数，其中样本特征作为锚点，类原型特征作为正样本，其他类原型特征及混合增强样本特征作为负样本，同时为了减小不确定数据对模型训练的影响，使用其置信度作为权重系数，定义如下：

其中z_i表示锚样本特征，z_d表示当前类原型特征，z_k表示各个类原型特征，z_uk表示混合负样本特征，K表示类别数，表示该样本对应的混合负样本数量，w_i表示置信度，τ表示温度系数，zi、z_d、z_k和z_uk均经过归一化操作。

步骤6、随机选择目标样本对按0.25和0.75的比例进行混合数据增强，根据其在目标模型的输出和其混合后的伪标签计算交叉熵。

在此步骤中，随机选择目标域样本对进行混合数据增强，根据其混合后的伪标签计算交叉熵，通过最小化交叉熵再次优化目标模型，交叉熵定义如下：

其中l_ce表示交叉熵损失，和/>表示在目标域中随机选取的两个样本，y_i和y_j分别表示/>和/>的伪标签向量。

步骤7、整体损失计算梯度，反向传播，迭代更新网络参数、类原型特征、学习难度阈值直至损失收敛，对目标域样本进行预测得到预测标签，与目标域样本的真实标签比较，对于每一类计算出该类的平均分类准确率作为度量结果。

在此步骤中，计算整体损失，反向传播，迭代更新网络参数，整体损失定义如下：

L＝L_kd-L_im+αL_elr+γL_UniCon+δL_mix

其中α、γ和δ为超参数，L_kd表示知识蒸馏损失,L_im表示互信息最大化损失，L_elr表示早期学习正则化项,L_UniCon表示权重系数，L_mix表示交叉熵损失。

下面以Office-31数据集为例，说明本发明方法的处理流程：

源域数据与目标数据共享类别，此外不对源域数据和源域模型做假设，在处理流程中除源域模型的输出以外不使用源域信息。

1.对目标域数据集使用随机裁剪、随机水平翻转等增强方式后将其转换成像素大小为256*256的RGB图像；使用由ImageNet预训练的ResNet模型、瓶颈层和分类器构成目标模型；初始化非线性预测存储器；

2.将所有目标数据输入源模型中，获得源域预测，计算出每个类的原型样本C_k和学习难度阈值Φ_k；

3.将目标数据集分为多个批次的数据，每个批次包含64个目标样本，将一批次数据输入目标模型得到目标模型预测，计算相对熵L_kd和互信息熵L_im；将目标样本和类原型样本输入目标模型特征提取器获得样本特征和原型特征，计算非线性预测并记录在存储器中，如果是首次处理该样本就直接记录在存储器中，否则根据动量策略更新存储器，计算早期学习正则化项L_elr；设置α为1，β为0.6，反向传播更新网络，根据EMA策略更新源域预测，初始化迭代数为全部流程迭代数的30％，且三项损失在后续流程中仍然保留；

4.通过源域预测和非线性预测计算样本伪标签向量，为每个样本筛选置信度大于类学习难度阈值的非同类样本集，并与该集合内样本进行λ为0.5的混合增强；

5.对于每个批次中的每个目标数据，将其作为锚点样本与类原型样本和上一步骤中得到的混合增强样本输入目标模型中，分别获得特征z_i、z_d、z_uk，设置τ为0.1计算L_UniCon；

6.将该批次数据与同一批次的随机打乱的数据一一匹配成样本对进行λ为0.25的混合数据增强，将增强后的样本输入目标模型得到预测，并根据混合增强后的伪标签向量计算交叉熵损失L_mix；

7.设置γ为8，δ为1，计算总体损失L反向传播更新网络参数。所有的目标样本经过一次网络为训练1代，每训练5代计算一次目标数据的平均准确率，并保存最优模型，共训练50代。

下表1为本发明与其他算法的结果比较数据。

表1

在上表1中，表中每一行给出了特定方法在每一个任务上的表现，No Adapt为仅使用交叉熵训练的ResNet50，LNL-KL和LNL-OT分别是具有KL散度和最优传输的噪声标签学习方法。HD-SHOT和SD-SHOT使用伪标签获得模型，并分别通过自训练和加权交叉熵损失应用在SHOT无源领域自适应方法上，DINE是使用KL散度和互信息最大化的黑盒领域自适应方法，OURS即为本发明提出的完整方法。本发明相比于DINE提升1.1个百分点，证明本发明的有效性。

本发明方法在不使用源域数据与模型参数的情况下进行领域间知识迁移，对无标签的目标域数据进行分类，从更细致的角度优化目标域类间结构以精确识别数据特征，在保证良好泛化性能的同时具备较强的安全性及隐私保护能力。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：具体步骤如下：

步骤1、将每个目标域样本输入黑盒源域，获得源域预测，代表样本属于源域中每个类的概率，根据源域预测计算每个类别的原型样本和学习难度阈值；

步骤3、计算并存储每个目标域样本与类原型样本特征之间的距离作为非线性预测，增加早期学习正则化项，配合蒸馏损失初始化目标模型，迭代更新所有目标域样本特征以保留目标模型训练早期的易学习特征；

步骤4、根据步骤1得到的源域预测以及步骤3得到的非线性预测计算伪标签，根据步骤1得到的学习难度阈值为目标样本筛选置信的非同类样本，将两者按相等比例混合增强后重新获得特征充当混合负样本特征；

步骤5、根据类原型样本特征及步骤4得到的混合负样本特征计算混合增强对比损失，使得每个目标样本与类原型近，与其他类原型和混合负样本远；

2.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：在步骤1中根据源域预测计算每个类别的原型样本和学习难度阈值，具体表示为：

3.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：步骤2中构造了蒸馏损失，通过最小化蒸馏损失来更新目标模型，蒸馏损失由相对熵和互信息熵组成，定义如下：

L_warm＝L_kd-L_im

4.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：在步骤3中通过早期学习正则化项来正则化模型训练过程，保留模型早期记忆的具有正确标签的干净样本，防止噪声数据影响，储存器用于记录每个样本的非线性预测，并通过动量策略基于新的预测进行更新，非线性预测、动量策略和早期学习正则化项定义如下：

5.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：目标模型的线性和非线性预测均有其局限性，在步骤4中综合两者获得伪标签，通过伪标签为目标样本筛选置信的非同类样本进行混合增强，定义如下：

Mix_λ(a,b)＝λa+(1-λ)b

其中a，b表示维度和形状相同的两个数据，λ表示混合比例。

6.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：在步骤5中，最小化目标域样本的infoNCE损失函数，其中样本特征作为锚点，类原型特征作为正样本，其他类原型特征及混合增强样本特征作为负样本，同时为了减小不确定数据对模型训练的影响，使用其置信度作为权重系数，定义如下：

7.根据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：在步骤6中，随机选择目标域样本对进行混合数据增强，根据其混合后的伪标签计算交叉熵，通过最小化交叉熵再次优化目标模型，交叉熵定义如下：

其中l_ce表示交叉熵损失，和/>表示在目标域中随机选取的两个样本，y_i和y_j分别表示和/>的伪标签向量。

8.据权利要求1所述的一种基于混合增强对比的黑盒源域无监督领域自适应方法，其特征在于：在步骤7中，计算整体损失，反向传播，迭代更新网络参数，整体损失定义如下：

L＝L_kd-L_im+αL_elr+γL_UniCon+δL_mix