CN114863213B

CN114863213B - 一种基于因果解耦生成模型的域泛化图像识别方法

Info

Publication number: CN114863213B
Application number: CN202210512236.8A
Authority: CN
Inventors: 孔万增; 李倪; 金宣妤; 杨冰; 张建海; 崔岂铨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2024-04-16
Anticipated expiration: 2042-05-11
Also published as: CN114863213A

Abstract

本发明公开一种基于因果解耦生成模型的域泛化图像识别方法。域泛化的目的是从多个源域数据中学习域不变表示很好的泛化到不可见的目标域，但是学习域不变特征的最大挑战在于从纠缠的特征空间中分解出语义信息和域信息。考虑到因果特征具有跨域不变的特性，本发明提出了因果解耦表征模型。首先，将跨域稳定的因果结构模型作为先验引入。然后，构建基于因果结构的生成模型，分别为任务相关和域相关特征建模。特别的是，两个隐特征之间的双向因果依赖通过一种干预手段解除，从而有效消除域相关特征对预测任务的影响。结果证明，本发明提出的方法能够有效解耦出任务相关和域相关特征，超过了大多数的解决域泛化的方法。

Description

一种基于因果解耦生成模型的域泛化图像识别方法

技术领域

本发明属于因果表征学习与解耦方法融合处理域泛化技术领域，具体涉及一种基于因果解耦生成模型的域泛化图像识别方法。

背景技术

深度神经网络的发展使得计算机视觉取得了很大的成功，特别是当训练数据和测试数据服从相同分布时。但是学习如何将深度神经网络泛化到训练分布之外的数据，仍然是机器学习的一个基本但是具有挑战性的问题。域泛化的目标是在多个源域上训练模型能很好地泛化到不可见的目标域。学习一个域不变表示被提出作为一个解决域泛化问题的关键技术。但是上述的方法存在一个缺陷，即当源域变得更加多样化时，学习一个域不变模型就变得困难。这是因为在每个域中包含许多特定于域的信息。解耦表征学习的方法可以从混淆的特征中分解出语义特征和域相关特征，并对域相关信息建模，从而更好地提取出域不变特征。但是很多生成模型方法直接强制生成的潜变量之间是独立的，没有考虑到他们之间的相关性，然而，这种相关性是随着分布偏移发生变化的。以奶牛和骆驼为例，动物类型和环境有很强的相关性。比如，一只骆驼站在沙漠中，假设有一个神经网络能对沙漠中的骆驼获得很高的准确率(可能专注于沙漠这个特征)，但是这个模型可能无法识别站在绿色草地上的骆驼或站在沙漠中的牛。如果模型可以认识到虽然景观随着气候变化而变化，但是动物的生物特征(如驼峰、颈部长度)保持不变，并使用这些特征来识别物种，那么我们就有更好的机会泛化到不可见的目标域。因果机制不同于特征分布，它是跨域稳定的。所以本发明将因果模型纳入生成解耦方法之中，从扭曲的纠缠信息中解耦出稳定的因果方向。

发明内容

本发明的一个目的是针对现有技术的不足，提出一种基于因果解耦生成模型的域泛化识别方法来消除域相关特征的影响，从而提取语义特征用来泛化。首先，我们从因果关系角度分析域泛化的问题，构建一个因果结构图，指出域相关信息与语义信息具有虚假的相关性，它对分类任务产生影响。然后，从干预角度分析出需要求解的目标函数。最后，提出一个因果解耦生成模型，从多个源域数据中识别出语义信息和域相关的因素，通过采用一种空间干预手段，去除两者之间的相关性，解耦出独立表征。

一种基于因果解耦生成模型的域泛化图像识别方法，具体步骤如下：

步骤一、模型训练

构建模型的损失函数如下：

其中，为似然函数损失；/>为域判别损失；/>为梯度正交损失；λ是一个独立的权重参数。

似然函数损失的表达式如下：

其中，是需要寻求最大化的对数似然比的权重，E表示期望的形式。x表示高维图像数据，y表示输出变量，c为语义特征，s是域相关特征。φ_c是语义特征空间参数，φ_s是域相关特征空间参数。p(x,y)为有监督目标下的高维图像x和对应标签y的联合概率分布。p(c,s)为先验模型；M表示为训练域的数目。/>和/>分别表示从图像中在语义特征空间φ_c编码出来的语义特征分布和在域相关特征空间φ_s编码出来的域相关特征分布，其表达式为：

其中，表示多元高斯分布。

两个潜在变量c和s通过重参数方法生成，为预测分布。/>是在参数为θ的图像空间，由c和s解码出原始的图像数据x。

损失函数的表达式如下：

其中，y_i表示第i个类别，共有n种类别，i∈{1,…n}。表示分类器。

域判别损失的表达式如下：

其中，d_j表示第j个域，共有m个训练域，j∈{1,…M}。表示域判别器。

令和/>定义基于梯度的正交损失/>如下：

其中，||·||_F表示Frobenius范数。

步骤二、模型训练及图像识别

获取含有目标对象的训练集；利用训练集对模型进行训练，迭代优化损失函数中的参数φ_c、φ_s、θ，获得域泛化图像识别模型；之后，被测图像输入域泛化图像识别模型，对被测图像中的目标进行识别。

作为优选，似然函数损失的表达式的获取过程如下：

利用琴生不等式得到似然函数的证据下届ELBO为：

其中，log p(x,y)为有监督目标下的高维图像x和对应标签y的对数似然函数；E_q(c,s|x,y)为变分后验分布q(c,s|x,y)的期望；p(x,y,c,s)为观测数据x，标签y和潜在变量c，s的联合概率分布；为似然函数损失。

获取概率分布p(x,y,c,s)的表达式如下：

p(x,y,c,s)＝p(c,s)p_θ(x|c,s)p(y|c)

其中，p_θ(x|c,s)和p(y|c)是跨域不变的，θ是图像生成空间的参数。

根据条件独立性x⊥y|c,s和贝叶斯公式，后验分布q(c,s|x,y)满足：

q(y|x)＝∫q(c,s|x)q(y|c)dsdc。

因此，得到VAE求解的ELBO目标如下：

作为优选，通过正交预测类别和预测域标签的两个梯度的中间特征损失。额外添加了一个辅助模型，域判别器用来判别域信息。

预测类别的梯度损失表示为：

预测域的梯度损失表示为：

本发明的有益效果如下：

1.本发明将跨域稳定的因果结构模型作为先验引入，能够从高维的图像数据中学习出一个稳定的因果方向用来作为域泛化识别的表征，防止其他可变因素对模型的干扰。将因果结构模型纳入生成模型变分自编码器重写最大似然函数的证据下届，来解耦出语义特征和域相关特征。

2.本发明通过空间干预的思想，为了学习出两个独立的表征空间，提出基于损失函数的梯度正交，将语义特征输入分类器得到关于预测类标签的损失函数，将域相关信息传入域判别器得到关于预测域标签的损失函数。

3.本发明通过斯密特正交法，使得语义特征和域相关特征相互独立。另外，本发明构建了一个图像生成空间，利用这两部分特征恢复出原始的图像数据，目的是尽可能保证信息的完整性。结果证明，本发明提出的方法能够有效解耦出语义特征和域相关特征，超过了大多数的解决域泛化的方法。

附图说明

图1为本发明提出的因果结构模型图；

图2为本发明的总体框架图。

图3为本发明针对Digit-DG数据集的特征可视化图。

图4为本发明针对PACS数据集的特征可视化图。

具体实施方式

以下结合附图对本发明进行进一步说明。

首先，用数学形式给出域泛化问题的定义以及本发明需要达到的目的。定义和/>分别表示从图像空间/>类别标签空间/>域标签空间/>中取值的图像x，类别标签y和域标签d。训练数据表示为从/>的联合分布p(x,y,d)取样的元组(x,y,d)。考虑一个由M个源域组成的训练数据集D_train＝{D₁,…,D_M}，其中/>表示第m个域。本发明的目标是从M个源域中学习一个模型可以泛化到不可见的目标域。从训练数据中学习到的潜变量z被分解为语义特征c和域相关的特征s。在本发明中，特征c和特征s在训练数据中是虚假相关的。

步骤一、模型训练

有监督下的目标为E_p(x,y)[log p(x,y)]，但是似然函数p(x,y)＝∫p(x,y,s,c)dsdc难以计算和优化。VAE提出一种证据下届ELBO，通过引进了容易处理的变分后验分布q(c,s|x,y)。

利用琴生不等式得到似然函数的证据下届ELBO为：

其中，logp(x,y)为有监督目标下的高维图像x和对应标签y的对数似然函数；E_q(c,sx,y)为变分后验分布q(c,s|x,y)的期望；p(x,y,c,s)为观测数据x，标签y和潜在变量c，s的联合概率分布；为似然函数损失。

获取概率分布p(x,y,c,s)的表达式如下：

p(x,y,c,s)＝p(c,s)p_θ(x|c,s)p(y|c)

q(y|x)＝∫q(c,s|x)q(y|c)dsdc。

似然函数损失的表达式如下：

其中，是需要寻求最大化的对数似然比的权重。p(s,c)为先验模型，其参数化为p(c,s|dⁱ),i∈{1,…M}，dⁱ表示域标签下的独热编码。推断模型/>和/>分别表示从图像中在语义特征空间φ_c编码出来的语义特征分布和在域相关特征空间φ_s编码出来的域相关特征分布，它们服从多元高斯分布，即：

两个潜在变量c和s通过重参数方法生成，为预测分布。p_θ(x|c，s)是在参数为θ的图像空间，由c和s解码出原始的图像数据x。

将语义特征c输入分类器中，获取分类器的损失函数/>如下：

其中，y_i表示第i个类别，共有n种类别，i∈{1,…N}。

将域相关特征s输入到域判别器中，获取域判别损失如下：

其中，d_j表示第j个域，共有m个训练域，j∈{1,…M}。

令和/>定义基于梯度的正交损失/>如下：

其中，||·||_F表示Frobenius范数。

总之，本实施例采用端到端的方式训练模型，总体的损失函数表示为：

步骤二、模型训练及图像识别

获取含有目标对象的训练集；利用训练集对模型进行训练，迭代优化损失函数中的参数φ_c、φ_s、θ，获得域泛化图像识别模型；之后，被测图像输入域泛化图像识别模型，对被测图像中的目标进行识别。被测图像与训练集中的样本可以属于不同的域，服从不同的分布，且依然能够达到识别效果。

本实施例中，本申请中被识别的图像分为多种不同类别(如油画、卡通图像、照片、简笔画)。取其中任意一种类别的图像作为目标进行识别，其余各类别的图像作为训练集。

以下使用的结构因果图模型从数据生成角度出发，分析图像数据的潜在因果结构，说明本申请使用稳定的因果结构方向实现预泛化识别的原因：

因果结构如图1所示，x表示输入变量，y表示输出变量，c和s分别是语义特征和域相关特征，o是混杂因子，实心圆表示可观测变量。其中存在着三种因果关系：

(1)c→y：语义特征是导致输出y的直接原因，说明只有语义因素与分类任务相关而域相关特征只会对分类任务产生负影响。

(2)c,s→x：语义因素c是域相关特征s是观测数据x的共同原因。

(3)c←o→s：结点o是混杂因子，它打开了一个后门路径，以至于c和s不再独立，即p(c,s)≠p(c)p(s)。在源域上训练的模型很有可能依赖于语义因素c和域相关因素s去预测y，这就导致了依赖域相关特征s的模型难以泛化到不可见的目标域。

针对后门路径c←o→s使得c和s不再独立的问题，本实施例通过干预分布的方式将后门路径c←o→s切断，具体如下：

首先，本实施例提出在训练阶段消除语义特征c和域相关特征s之间虚假的相关性，通过干预，用do(·)表示，切断后门路径c←o→s。重写p(c,s)的联合分布，在这种干预上去识别最优的c和s从而生成图像x，干预分布表示为：

其中，(c^*,s^*)是新的联合分布，do(c,s)表示对原来的联合分布进行干预。

有研究表明，生成的条件分布等于其干预分布，即：

p^do(c,s)(x)＝p(x|c,s)

这样就可以从数据生成过程中得到标签y的直接原因。

本发明的目标是通过一个空间的干预的方法，解除c和s之间的相关性，使得它们的表示空间在统计上独立。定义潜在空间Φ表示满足Φ＝φ_c×φ_s形式的乘积空间。

给定一个图像x，学习三个特征空间。一个推断出的语义嵌入c∈φ_c表示图像中看到的物体信息，如形状。另一个是推断出的域相关嵌入s∈φ_s表示图像中看到的域信息，如背景。最后一个是从这两个嵌入空间中选择特征来恢复原始的图像信息，并估计图像特征空间中的

本实施例中的数据集和参数设置如下：

在域泛化的两个基准数据集Digit-DG和PACS上验证我们方法的有效性。

(1)Digit-DG：该数据是由MNIST、MNIST-M、SVHN和SYN四种数字数据集组成。这个数据集是评估模型对字体样式、颜色和背景变化的鲁棒性。

(2)PACS：是广泛使用的基准数据集，由四个域组成，分别是Art Painting(油画)、Cartoon(卡通图像)、Photo(照片)和Sketch(简笔画)。每个域包含7个不同的类别，总共包括9991个样本。因为域之间样式不同而发生偏移。

为了与现有技术进行比较，本发明遵循leave-one-domain-out方式，选择一个域作为测试域，剩余的域作为模型的训练域。性能度量使用的是top-1的分类精度，所有的结果都是用不同的随机种子进行三次测试取平均值。对于Digit-DG，编码器是由4个3×3的卷积层和1个softmax层，每个卷积层后插入了BN、ReLU和2×2的max-pooling层。该模型使用SGD训练，初始学习率为0.05，批次大小为64，共100个epochs。对于PACS，使用在ImageNet上预训练的ResNet-18作为编码器，并使用SGD进行训练，批次大小为32，学习率为0.005，训练了200个epochs。模型中的语义编码器和域相关编码器使用两个全连接层，分类器和域判别器使用了一个全连接层。

本发明的实验结果分析：在Digit-DG数据集上，模型在所有领域都取得了最好的性能，平均总体准确率达84.4％。相比较于域对齐方法的CCSA和MMD-AAE，我们的分类精度平均提高了9.9％，并且与现在最好的方法COPA相比，提高了2.9％。图3比较了重建的图像和原始图像的对比，我们观察到与域相关的信息发生了变化，而语义特征却得到了很好地保持，这说明恢复的图像尽可能准确地再现了原始图像，这与我们方法的动机是一致的。在PACS数据集上，我们的模型平均分类精度达86.1％，超过了绝大多数域泛化在该数据集上的效果。与解耦方法DecAug相比，我们的模型引入一个结构性因果模型作为先验，并在图像特征空间中恢复了图像信息。除Photo域只提高了0.9％和Cartoon提升了1.6％外，剩下两个域都取得了较大的提升，Art提升了5％，Sketch提高了7.4％。图4表示对语义信息c和域相关信息s的可视化。以Art Painting数据集为目标域，其余三个域为源域。图4的a部分可以看出类别被很好地分开了，类间的距离被缩小，说明我们已经提取好了一个可泛化的语义信息。图4的b部分可以看出域信息被很好地解耦出来，因为它能很好地进行域判别。

Claims

1.一种基于因果解耦生成模型的域泛化图像识别方法，其特征在于：包括以下步骤：

步骤一、模型训练

构建模型的损失函数如下：

其中，为似然函数损失；/>为域判别损失；/>为梯度正交损失；λ是一个独立的权重参数；

似然函数损失的表达式如下：

其中，是需要寻求最大化的对数似然比的权重，E表示期望的形式；x表示高维图像数据，y表示输出变量，c为语义特征，s是域相关特征；φ_c是语义特征空间参数，φ_s是域相关特征空间参数；p(x，y)为有监督目标下的高维图像x和对应标签y的联合概率分布；p(c，s)为先验模型；M表示为训练域的数目；/>和/>分别表示从图像中在语义特征空间φ_c编码出来的语义特征分布和在域相关特征空间φ_s编码出来的域相关特征分布，其表达式为：

其中，表示多元高斯分布；

两个潜在变量c和s通过重参数方法生成，为预测分布；p_θ(x|c，s)是在参数为θ的图像空间，由c和s解码出原始的图像数据x；

损失函数的表达式如下：

其中，y_i表示第i个类别，共有n种类别，i∈{1，…n}；表示分类器；

域判别损失的表达式如下：

其中，d_j表示第j个域，共有m个训练域，j∈{1，…M}；表示域判别器；

令和/>定义基于梯度的正交损失/>如下：

其中，||·||_F表示Frobenius范数；

步骤二、模型训练及图像识别

获取含有目标对象的训练集；利用训练集对模型进行训练，迭代优化损失函数中的参数φ_c、φ_s、θ，获得域泛化图像识别模型；之后，将被测图像输入域泛化图像识别模型，对被测图像中的目标进行识别。

2.根据权利要求1所述的一种基于因果解耦生成模型的域泛化图像识别方法，其特征在于：似然函数损失的表达式的获取过程如下：

利用琴生不等式得到似然函数的证据下届ELBO为：

其中，log p(x，y)为有监督目标下的高维图像x和对应标签y的对数似然函数；E_{q(c，s|x，y)}为变分后验分布q(c，s|x，y)的期望；p(x，y，c，s)为观测数据x，标签y和潜在变量c，s的联合概率分布；为似然函数损失；

获取概率分布p(x，y，c，s)的表达式如下：

p(x，y，c，s)＝p(c，s)p_θ(x|c，s)p(y|c)

其中，p_θ(x|c，s)和p(y|c)是跨域不变的，θ是图像生成空间的参数；

根据条件独立性和贝叶斯公式，后验分布q(c，s|x，y)满足：

q(y|x)＝∫q(c，s|x)q(y|c)dsdc；

得到VAE求解的ELBO目标如下：

3.根据权利要求1所述的一种基于因果解耦生成模型的域泛化图像识别方法，其特征在于：预测类别的梯度损失表示为：预测域的梯度损失表示为：/>