CN113807371B

CN113807371B - 一种类条件下的有益特征对齐的无监督域自适应方法

Info

Publication number: CN113807371B
Application number: CN202111172832.8A
Authority: CN
Inventors: 黄安; 邓婉霞; 刘丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2024-03-29
Anticipated expiration: 2041-10-08
Also published as: CN113807371A

Abstract

本发明公开了一种类条件下的有益特征对齐的无监督域自适应方法，该方法包括：计算所有源域图像和目标域图像，得到目标域图像的伪标签；分别对源域图像和所述目标域图像的伪标签使用变分信息瓶颈进行解耦，过滤掉与任务无关的特征，得到有益且可迁移的特征；使用条件切片瓦瑟斯坦距离来估计类内的差异和类间的间距，跨域最小化类内差异和最大化类间间距，减少源域和目标域之间的类级分布差异，得到域不变的判别特征。该方法可以实现源域和目标域的解耦，将类级信息嵌入到切片瓦瑟斯坦距离中，实现有益特征对齐，同时解决了有益特征解耦和类条件特征对齐，以促进更好的域适应。

Description

一种类条件下的有益特征对齐的无监督域自适应方法

技术领域

本发明属于无监督域自适应领域，具体是涉及一种类条件下的有益特征对齐的无监督域自适应方法。

背景技术

深度神经网络(Deep Neural Networks,DNNs)在各种任务中取得了重大进展，如图像分类、目标检测、图像分割、人脸识别等。然而，这些令人印象深刻的进展取决于严格的假设，即感兴趣领域中有大量的良好标记的数据可用于模型学习。人工标记往往代价高且耗费大量劳动；特别是对于数据敏感领域，如医学图像和工业检查，标记样本甚至不可获得。

一种一般性的策略(如迁移学习)的操作是将从可用的相关领域(称为源域)所学得的知识/模型重复使用到感兴趣的领域中(称为目标域)。不幸的是，这种学习范式经常会使得性能显著下降，这种现象被称为域移位：代指源域和目标域之间的数据分布的差异。解决这个问题的一个实际策略是域适应(Domain Adaptation,DA)，它通过使得标记源样本和未标记目标样本接近得到一个泛化的目标模型，以弥合源域和目标域之间的分布差距。

无监督域自适应(Unsupervised Domain Adaptation,UDA)，其中源域包含丰富的标记数据，而目标域是完全无标记的。UDA的主要目标是学习不受域位移影响的域不变特征，使在源域上训练的分类器能够在目标样本上表现良好。受此启发，这类开创性工作要么明确地用度量范式来减少源域和目标域之间的分布差异，要么通过域对抗学习隐式地将源域分布和目标域分布对齐。尽管在域不变特征这一领域取得了显著的成功，但一个具有挑战性的问题被忽视了：即一些无用的编码表示可能会被强制地学习和适应。源域和目标域在任务相关信息中基本重叠，而来自与任务无关因素(如背景、颜色和上下文)的冗余信息在本质上可能是不同的，强制地对齐这些无用的特征可能会影响适应的性能。此外，在现有的一些UDA方法中，还有另一个瓶颈：即自适应过程中的类级分布差异在自适应过程中没有得到充分利用，只在域层面上对分布差异进行了适应，而不编码类级信息的差异，将使所学的特征有域不变性，但对类别不可区分，这可能导致分类错误，产生次优的性能。

发明内容

本发明为了解决上述两个问题，提出了一种新的方法，一种类条件下的有益特征对齐(Informative Class-Conditioned Feature Alignment,IC²FA)的无监督域自适应(Unsupervised Domain Adaptation,UDA)方法，它由两个关键的部分组成：有益特征解耦和类条件下的特征对齐，分别设计用来解决两个问题中的每个问题。

一种类条件下的有益特征对齐的无监督域自适应方法，具体包括：

对源域图像和目标域图像进行计算，得到目标域图像的伪标签；

使用变分信息瓶颈分别对源域图像和目标域图像的伪标签进行解耦，分别得到源域图像和目标域图像的有益且可迁移的特征；

对所述有益且可迁移的特征使用条件切片瓦瑟斯坦距离来估计类内的差异和类间的间距，跨域最小化类内差异和最大化类间间距，减少源域和目标域之间的类级分布差异，得到域不变的判别特征。

优选的，所述对源域图像和目标域图像进行计算，得到目标域图像的伪标签，包括：

使用特征提取器提取源域图像和目标域图像的特征，得到源域特征和目标域特征；

对所述源域特征进行聚类，得到目标域的初始质心；

对目标域的初始质心和所述目标域特征进行聚类，并附加相应的伪标签，得到目标域图像伪标签。

优选地，所述聚类均使用球面K-均值法，所述源域图像为已标记的图像样本，所述目标域图像为无标记图像样本。

优选的，所述使用变分信息瓶颈分别对源域图像和目标域图像的伪标签进行解耦，分别得到源域图像和目标域图像的有益且可迁移的特征，包括：

对源域图像使用变分信息瓶颈进行解耦，最小化分类损失得到源域图像有益特征，最小化信息瓶颈损失来过滤掉与输入图像无关的特征，得到源域图像可迁移的特征；

对目标域图像的伪标签使用变分信息瓶颈进行解耦和分类，最小化分类损失来捕获目标域图像的有益特征，最小化信息瓶颈损失，过滤掉与目标域图像无关的特征，得到目标域图像可迁移的特征。

优选的，所述方法的总体目标函数为：L＝L^s+βL^t+λL^ada，其中β和λ被用于正则化损失函数，L^s为源域的解耦损失函数，L^t为目标域的解耦损失函数，L^ada为域自适应的目标函数。

所述L^s为：

其中，N_s是训练数据集中的训练输入的总数，表示为来自源域的输入图像，/>表示相应的输出变量，参数编码器/>是在通过中间层所定义的可能的潜在表示上的概率分布，/>表示/>的确定函数，/>是变分信息瓶颈的定义解码器，把它和它自己的参数集φ一起作为分类块g，r(z^s)表示潜在特征z^s的先验分布，KL为散度函数，β_s表示拉格朗日乘子，ε表示高斯随机变量。

所述L^t为：

其中，N_t是训练数据集中的训练输入的总数，表示为目标域样本，/>为通过目标域样本/>计算的伪标签，参数编码器/>是在通过中间层所定义的可能的潜在表示上的概率分布，/>表示/>的确定函数，/>是变分信息瓶颈的定义解码器，把它和它自己的参数集φ一起作为分类块g，r(z^t)表示潜在特征z^t的先验分布，KL为散度函数，β_t表示拉格朗日乘子，ε表示高斯随机变量。

所述L^ada为：

其中，L表示分类器模块g中的FC层的数量为类内的条件瓦瑟斯坦距离，/>为类间的条件瓦瑟斯坦距离，λ₀被用来平衡两项。

本发明的有益效果，提出了一种类条件下的有益特征对齐的无监督域自适应方法，该方法将有益特征解耦和跨域适应与保留的类区分特征统一到一个框架中，能同时解决有益特征解耦和类条件特征对齐，以促进更好的域适应。

使用变分信息瓶颈(Variational Information Bottleneck,VIB)可以分别实现源域图像和目标域图像的解耦，过滤掉与任务无关的特征，实现有益特征解耦。

通过利用从球面k均值学习的目标域伪标签，将类级信息嵌入到切片瓦瑟斯坦距离中，并构造了一个新的度量：条件切片瓦瑟斯坦距离(Conditional Sliced WassersteinDistance,CSWD)。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为提出的IC²FA方法的示意图。

图2为计算目标域伪标签示意图。

图3为(a)-(b)在D→A任务上IC²FA和IC²FA(w/o ifd)方法的精度曲线。

图4为(a)-(b)在W→A任务上IC²FA和IC²FA(w/o ifd)方法的精度曲线。

图5为不同特征在任务A→W和A→D上的代理A-距离。

具体实施方式

一种类条件下的有益特征对齐的无监督域自适应方法的框架如图1所示。IC²FA的训练包括两个阶段，它们交替工作。在第一训练阶段，应用所有源域图像和目标域图像计算目标伪标签。第二阶段包括两个主要组成部分，即有益特征解耦和判别特征对齐，这两者都被集成到一个单一的框架中并协同工作。具体包括：

对源域图像和目标域图像进行计算，得到目标域图像的伪标签，所述源域图像为已标记的图像，所述目标域图像为无标记图像；

其中一个实施例中，所述对源域图像和目标域图像进行计算，得到目标域图像的伪标签，如图2所示，包括：

对所述源域特征使用球面K-均值法进行聚类，得到目标域的初始质心；

对目标域的初始质心和所述目标域特征使用球面K-均值法进行聚类，并附加相应的伪标签，得到目标域图像伪标签。

在另一个实施例中，所述使用变分信息瓶颈分别对源域图像和目标域图像的伪标签进行解耦，分别得到源域图像和目标域图像的有益且可迁移的特征，包括：

在另一个实施例中，为了尽可能准确地预测从目标域提取的样本的标签，假设有N_s个从源域提取已标记的图像样本和N_t个从目标域采样的无标记图像样本且有/>将图像特征提取器定义为带参数θ的f，并将嵌入分类器定义为具有参数φ的g，将整个网络表示为/>将X^s表示为来自源域的输入图像，令Y^s表示相应的输出变量(如所需标签)，是我们要保留的信息，将某些中间层的内部表示视为输入图像X^s的随机编码Z^s，由参数编码器p_θ(z^s|x^s)定义，为了表示清楚，分别将x^s,y^s和z^s作为X^s,Y^s和Z^s的实例。训练的目标是学习一种关于输出变量Y^s的最大化益处的图像编码，通过编码Z^s和输出变量I(Z^s,Y^s；θ)之间的相互信息来测量，而输入图像X^s和编码Z^s之间的互信息I(X^s,Z^s；θ)被最小化。因此，假设在信息瓶颈(IB)理论中引入的马尔科夫链约束：/>此外，最大化的目标函数的定义如下：

I(Z^s,Y^s；θ)-β_sI(X^s,Z^s；θ) (1)

其中β_s表示拉格朗日乘子。第一项鼓励由Y^s预测Z^s。第二项/>鼓励Z^s来尽可能地阻止X^s的细节。

然而，计算互信息在计算上具有挑战性，把第一项全部写出来，这变成：

由于p_θ(y^s|z^s)难以处理，将q_φ(y^s|z^s)应用作为p_θ(y^s|z^s)的变分近似值。q_φ(y^s|z^s)是VIB的定义解码器，我们将把它和它自己的参数集φ一起作为分类块g。根据KullbackLeibler散度可用得到不等式：

因此，不等式2可以被重写为：

其中H(Y^s)是标签的熵，它独立于优化的过程，因此可以被忽略。根据马尔可夫链约束，I(X^s,Z^s；θ)可以得到一个新的下界，可得到：

对于I(X^s,Z^s；θ)可被进一步计算如下：

然而，可能很难直接计算出z^s的边缘分布，由于需要积分来求解图像潜在特征空间，可用另一种可以替代的方法r(z^s)来表示p_θ(z^s)的变分近似值。r(z^s)表示潜在特征z^s的先验分布，同时选择r(z^s)为标准高斯分布N(0,I)。由于KL[p_θ(z^s),r(z^s)]≥0，可以得到下面的不等式：/>

因此，可以得到I(X^s,Z^s；θ)的上界：

结合I(Z^s,Y^s；θ,φ)和I(X^s,Z^s；θ)，可以得到变分下界：

p_θ(z^s|x^s)被实现为一个高斯分布p_θ(z^s|x^s)＝N(z^s|f^μ(x^s),f^σ(x^s)),其中f输出了潜在层特征的均值μ和方差σ。然后可以使用重新参数化的技巧来写p_θ(z^s|x^s)dz＝p_θ(ε)dε,其中z^s＝f(x^s,ε)表示x^s的确定函数，ε表示高斯随机变量，因而得到源域解耦损失函数：

其中第一项是源域分类损失的一种形式，而第二项表示信息瓶颈损失，它被最小化，以过滤掉输入图像X^s的无关部分，最大化源域的所学特征表示Z^s和标签Y^s之间的相互信息的变分下界相当于最小化分类损失，而最小化所学习特征表示Z^s和输入X^s的相互信息对应于找到图像可迁移的特征。

由于VIB进行的解耦只在监督条件下工作，因此使用目标域图像的伪标签作为监督信息来强制解耦。N_t是训练数据集中的训练输入的总数，表示为目标域样本，/>为通过目标域样本/>计算的伪标签，参数编码器/>是在通过中间层所定义的可能的潜在表示上的概率分布，/>表示/>的确定函数，/>是变分信息瓶颈的定义解码器，把它和它自己的参数集φ一起作为分类块g，r(z^t)表示潜在特征z^t的先验分布，KL为散度函数，β_t表示拉格朗日乘子，ε表示高斯随机变量。同样地，目标域的解耦损失函数为：

其中第一项是目标域图像的分类来捕获有益特征。我们利用聚类获得的分配作为监督来更新网络权值和捕获有益特征。与源域的解耦类似，第二项表明，我们试图过滤掉目标域的与任务无关的信息。

在另一个实施例中，瓦瑟斯坦的距离由下式定义：

其中ρ和v是在上定义的两个概率度量，且x和x’是随机变量。γ∈Π(ρ,v)表示所有联合分布γ(x,x′)的集合，其边际分布分别为ρ和v。C是度量，且有p＞0；由于高维分布的瓦瑟斯坦距离的计算负担，切片的瓦瑟斯坦距离是一种潜在的替代。

切片瓦瑟斯坦距离的概念基础是首先通过线性投影将高维概率分布分解为一组一维分布。这两个分布之间的距离是以一维分布的瓦瑟斯坦距离的形式计算出来的。这样，距离的计算就可以转化为解决几种具有闭环解的一维最优迁移问题。其定义为：

其中，ρ^ω和v^ω表示ρ和v在方向ω上的线性投影，而Ω是单位球。将ρ设置为2；此外，可以使用样本x∈D和x∈D′来近似二次瓦瑟斯坦距离：

这里假设|D|＝|D′|，这并非是一个严格的限制条件，只是为了计算简便。σ_D(i)和σ_D′(i)表示的排序如下：

因此，结合方程12，方程11可以被重写为：

其中M是一维随机投影方向ω_m的数目。

首先，引入切片2-瓦塞斯坦距离到UDA构想中：

其中X^s和X^t分别是从源域和目标域采样的输入图像。p^s＝h(z^s)和p^t＝h(z^t)是分类器的输出。直接应用方程15来对齐两个域的分布只能实现域层面的自适应，但是不能确保语义上的一致性，整合类级信息到方程15中，并对应地提出了条件切片瓦塞斯坦距离(Conditional Sliced Wasserstein Distance,CSWD)。为了简化标记，定义进而类内的CSWD可以给出如下：

其中表示源域样本/>的真实标签，且/>代表通过球面K-均值法为目标域样本/>计算的伪标签。/>和/>分别表示有相同标签k的源域图像和目标域图像的总数。/>定义为：/>类内CSWD在最大化类间CSWD被最小化，如下：

其中通过结合方程16与方程17，尝试最小化：

其中λ₀被用来平衡两项。为了完全适应判别特征，在分类器模块g的所有多个FC层最小化L^ada，因此自适应的目标是：

其中L表示分类器模块g中的FC层的数量。

所提出的IC²FA方法将有益特征的分解和CSWD统一到了一个单独的框架中，在其中这两个部分是联合工作的。总体目标构建如下：

L＝L^s+βL^t+λL^ada (20)

其中β和λ被用于正则化损失函数。

在其中一个实施例中，在三个UDA数据集上评估了IC²FA：Office-31，Office-Home和VisDA-C。应用了ResNet-50和ResNet-101，在ImageNet数据集上进行了预训练，作为特征提取器的分支，并用任务特定的FC层替换最后一个FC层。

该网络使用动量为0.9的小批量随机梯度下降(SGD)优化器进行训练。学习速率退火策略是基于余弦函数。对于Office-31和Office-Home数据集，卷积层的初始学习率为1e-3，对于特定任务的FC层为1e-2。对于VisDA-C，卷积层的初始学习率为3e-5，对于特定任务的FC层的初始学习率为3e-4。根据重要性加权交叉验证(IWCV)选择了超参数。λ和λ₀分别设置为3.0和0.5。β可以从(0.01,0.1)中选择。β_s和β_t被设置为1e-5。

更具体地说，对于目标域，只关注可靠性高的数据；也就是说，过滤掉了远离相应的集群质心的模糊数据点。与CAN类似，点对心阈值对于A→W,D→W,W→D和A→D任务，定义为0.05；对于其他任务，该阈值定义为1。

将所提出的IC²FA模型与几种最先进的领域自适应方法进行了比较，其中一些与工作相关的集中在：(1)ResNet-50作为下界；(2)深度自适应网络(Deep AdaptationNetwork,DAN)最小化两个域的MMD距离；(3)条件域对抗性网络(Conditional DomainAdversarial Network,CDAN)开发了一种基于对抗性学习的条件对齐网络；(4)最大分类器差异(Maximum Classifier Discrepancy,MCD)利用特定任务的决策边界以对抗性的方式适应分布；(5)深度联合分布最优迁移(Deep Joint Distribution Optimal Transport,DeepJDOT)适应深度网络中的最优迁移距离；(6)切片瓦瑟斯坦差异(Sliced WassersteinDiscrepancy,SWD)将瓦瑟斯坦距离应用于对抗性任务分类器学习；(7)SimNet学习每个类别的原型表示之间的相似性；(8)增强的迁移距离(Enhanced Transport Distance,ETD)建立了一个注意力感知的最优迁移距离来测量域差异；(9)可迁移注意力的领域自适应(Transferable Attention for Domain Adaptation,TADA)和(10)CADA利用注意机制来学习领域共享特征；(11)对比自适应网络(Contrastive Adaptation Network,CAN)优化了类内和类间的MMD距离，以获得类级的自适应。

表1为Office-31的无监督适应结果，所有的模型都使用ResNet-50作为基础架构，粗体数字表示每一列的最佳结果。为了便于公平比较，大多数比较方法的结果都引用了他们的原始论文。通过对结果的比较，可以观察到本发明提出的方法总体上击败了最先进的方法CAN，这有力地证实了IC²FA的有效性。虽然改进很小，但由于一维分布所需的计算性质简单，IC²FA确实执行效率更高。此外，在W→A的复杂任务上，IC²FA的性能大大优于许多方法。

表1在Office-31数据集上UDA的分类精度(％)

表2为在Office-Home数据集上的实验方法的分类准确性，所有的模型都使用ResNet-50作为基础架构。粗体数字表示每一列的最佳结果。表2表示IC²FA在大多数任务上显著优于所有的比较方法。IC²FA和CADA分别获得了最好的和第二好的性能，这验证了在不考虑特定领域的变化的情况下，关注任务相关的特征适应确实能提高性能。

表2在Office-Home数据集上的分类结果(％)

关于VisDA-C的结果见表3，除了SimNet使用ResNet-152作为基础架构外，所有模型都使用ResNet-101作为基础架构，粗体数字表示每一列的最佳结果。由于源分布和目标分布之间的域变化较大，比较方法在某些类中的性能较差。IC²FA实现了整体性能提升，证明了IC²FA对于大间隙自适应任务是有效的。

表3：每个类别在VisDA-C数据集上的分类准确率(％)

同时还在Office-31和Office-Home数据集上进行了消融实验，以确定IC²FA方法中有益特征解耦的影响。首先消除了解耦分量；得到的方法表示为IC²FA(w/o ifd)。表4显示了我们的消融研究的结果，粗体数字表示每一列的最佳结果。IC²FA优于IC²FA(w/o ifd)；这表明，有益特征解耦在适应跨域的判别特征方面起着重要的作用。

表4：在Office-31和Office-Home数据集上的消融实验

为了进一步探讨有益特征解耦的功能，在图3和图4中描述了D→A和W→A任务上的精度曲线。我们可以观察到，IC²FA比IC²FA(w/o ifd)在这两个任务上更快地实现了最佳性能，验证了有益特征解耦可以加速训练过程。

特征可视化：二维高维数据可视化的一种常用方法是t-SNE。本发明可视化了从ResNet-50、DAN、CDAN-E、CAN和IC²FA上获得的在源域和目标域上的嵌入式特征，用在自适应任务A→W，从结果可以看出，ResNet-50的特征分布是无序的。DAN可以在一定程度上缓解这个问题；然而，这两个领域的分布之间仍然存在很大的差异。虽然CDAN-E可以改进边际分布的适应，但出现了类别级特征不匹配。CAN得到了不错的类级分布对齐，但与IC²FA相比，它的边际分布比IC²FA稍离散些。IC²FA达到了最佳的适应结果；即类级分布被更好地对齐，也更紧凑。

差异距离：DA理论揭示了A-距离作为跨域差异的度量，它将把目标域风险与源域风险联系在一起。估计代理距离(proxyA-distance,PAD)的方式可以定义为其中ε是鉴别源域和目标域的二进制分类器的泛化误差。本发明应用了一个核SVM来估计A-距离。图5说明了在A→W和A→D上ResNet-50、DAN、CDAN-E、CAN和IC²FA的特征的代理距离。从结果中可以观察到IC²FA的代理距离在这两个任务上比其他方法要小得多；这表明，IC²FA的特性可以更有效地减少跨域差距。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种类条件下的有益特征对齐的无监督域自适应方法，其特征在于，该方法包括：

对所述有益且可迁移的特征使用条件切片瓦瑟斯坦距离来估计类内的差异和类间的间距，跨域最小化类内差异和最大化类间间距，减少源域和目标域之间的类级分布差异，得到域不变的判别特征；

所述使用变分信息瓶颈分别对源域图像和目标域图像的伪标签进行解耦，分别得到源域图像和目标域图像的有益且可迁移的特征，包括：

对目标域图像的伪标签使用变分信息瓶颈进行解耦和分类，最小化分类损失来捕获目标域图像的有益特征，最小化信息瓶颈损失，过滤掉与目标域图像无关的特征，得到目标域图像可迁移的特征；

所述方法的总体目标函数为：L＝L^s+βL^t+λL^ada，其中β和λ被用于正则化损失函数，L^s为源域的解耦损失函数，L^t为目标域的解耦损失函数，L^ada为域自适应的目标函数；

所述L^s为：

其中，N_s是训练数据集中的训练输入的总数，表示为来自源域的输入图像，/>表示相应的输出变量，参数编码器/>是在通过中间层所定义的可能的潜在表示上的概率分布，/>表示/>的确定函数，/>是变分信息瓶颈的定义解码器，把它和它自己的参数集φ一起作为分类块g，r(z^s)表示潜在特征z^s的先验分布，KL为散度函数，β_s表示拉格朗日乘子，ε表示高斯随机变量；

所述L^t为：

其中，N_t是训练数据集中的训练输入的总数，表示为目标域样本，/>为通过目标域样本/>计算的伪标签，参数编码器/>是在通过中间层所定义的可能的潜在表示上的概率分布，/>表示/>的确定函数，/>是变分信息瓶颈的定义解码器，把它和它自己的参数集φ一起作为分类块g，r(z^t)表示潜在特征z^t的先验分布，KL为散度函数，β_t表示拉格朗日乘子，ε表示高斯随机变量；

所述L^ada为：

CSW₂(X^s,X^t)＝CSW₂ ^intra(X^s,X^t)-λ₀CSW₂ ^inter(X^s,X^t)

其中，L表示分类器模块g中的FC层的数量，为类内的条件瓦瑟斯坦距离，/>为类间的条件瓦瑟斯坦距离，λ₀被用来平衡两项。

2.根据权利要求1所述的方法，其特征在于，所述对源域图像和目标域图像进行计算，得到目标域图像的伪标签，包括：

对所述源域特征进行聚类，得到目标域的初始质心；

3.根据权利要求2所述的方法，其特征在于，所述聚类均使用球面K-均值法。

4.根据权利要求1所述的方法，其特征在于，所述源域图像为已标记的图像样本，所述目标域图像为无标记图像样本。