CN114863213B - 一种基于因果解耦生成模型的域泛化图像识别方法 - Google Patents
一种基于因果解耦生成模型的域泛化图像识别方法 Download PDFInfo
- Publication number
- CN114863213B CN114863213B CN202210512236.8A CN202210512236A CN114863213B CN 114863213 B CN114863213 B CN 114863213B CN 202210512236 A CN202210512236 A CN 202210512236A CN 114863213 B CN114863213 B CN 114863213B
- Authority
- CN
- China
- Prior art keywords
- domain
- model
- causal
- loss
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000001364 causal effect Effects 0.000 title claims abstract description 30
- 238000009826 distribution Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 29
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 241000282832 Camelidae Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 241000282836 Camelus dromedarius Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000761389 Copa Species 0.000 description 1
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于因果解耦生成模型的域泛化图像识别方法。域泛化的目的是从多个源域数据中学习域不变表示很好的泛化到不可见的目标域,但是学习域不变特征的最大挑战在于从纠缠的特征空间中分解出语义信息和域信息。考虑到因果特征具有跨域不变的特性,本发明提出了因果解耦表征模型。首先,将跨域稳定的因果结构模型作为先验引入。然后,构建基于因果结构的生成模型,分别为任务相关和域相关特征建模。特别的是,两个隐特征之间的双向因果依赖通过一种干预手段解除,从而有效消除域相关特征对预测任务的影响。结果证明,本发明提出的方法能够有效解耦出任务相关和域相关特征,超过了大多数的解决域泛化的方法。
Description
技术领域
本发明属于因果表征学习与解耦方法融合处理域泛化技术领域,具体涉及一种基于因果解耦生成模型的域泛化图像识别方法。
背景技术
深度神经网络的发展使得计算机视觉取得了很大的成功,特别是当训练数据和测试数据服从相同分布时。但是学习如何将深度神经网络泛化到训练分布之外的数据,仍然是机器学习的一个基本但是具有挑战性的问题。域泛化的目标是在多个源域上训练模型能很好地泛化到不可见的目标域。学习一个域不变表示被提出作为一个解决域泛化问题的关键技术。但是上述的方法存在一个缺陷,即当源域变得更加多样化时,学习一个域不变模型就变得困难。这是因为在每个域中包含许多特定于域的信息。解耦表征学习的方法可以从混淆的特征中分解出语义特征和域相关特征,并对域相关信息建模,从而更好地提取出域不变特征。但是很多生成模型方法直接强制生成的潜变量之间是独立的,没有考虑到他们之间的相关性,然而,这种相关性是随着分布偏移发生变化的。以奶牛和骆驼为例,动物类型和环境有很强的相关性。比如,一只骆驼站在沙漠中,假设有一个神经网络能对沙漠中的骆驼获得很高的准确率(可能专注于沙漠这个特征),但是这个模型可能无法识别站在绿色草地上的骆驼或站在沙漠中的牛。如果模型可以认识到虽然景观随着气候变化而变化,但是动物的生物特征(如驼峰、颈部长度)保持不变,并使用这些特征来识别物种,那么我们就有更好的机会泛化到不可见的目标域。因果机制不同于特征分布,它是跨域稳定的。所以本发明将因果模型纳入生成解耦方法之中,从扭曲的纠缠信息中解耦出稳定的因果方向。
发明内容
本发明的一个目的是针对现有技术的不足,提出一种基于因果解耦生成模型的域泛化识别方法来消除域相关特征的影响,从而提取语义特征用来泛化。首先,我们从因果关系角度分析域泛化的问题,构建一个因果结构图,指出域相关信息与语义信息具有虚假的相关性,它对分类任务产生影响。然后,从干预角度分析出需要求解的目标函数。最后,提出一个因果解耦生成模型,从多个源域数据中识别出语义信息和域相关的因素,通过采用一种空间干预手段,去除两者之间的相关性,解耦出独立表征。
一种基于因果解耦生成模型的域泛化图像识别方法,具体步骤如下:
步骤一、模型训练
构建模型的损失函数如下:
其中,为似然函数损失;/>为域判别损失;/>为梯度正交损失;λ是一个独立的权重参数。
似然函数损失的表达式如下:
其中,是需要寻求最大化的对数似然比的权重,E表示期望的形式。x表示高维图像数据,y表示输出变量,c为语义特征,s是域相关特征。φc是语义特征空间参数,φs是域相关特征空间参数。p(x,y)为有监督目标下的高维图像x和对应标签y的联合概率分布。p(c,s)为先验模型;M表示为训练域的数目。/>和/>分别表示从图像中在语义特征空间φc编码出来的语义特征分布和在域相关特征空间φs编码出来的域相关特征分布,其表达式为:
其中,表示多元高斯分布。
两个潜在变量c和s通过重参数方法生成,为预测分布。/>是在参数为θ的图像空间,由c和s解码出原始的图像数据x。
损失函数的表达式如下:
其中,yi表示第i个类别,共有n种类别,i∈{1,…n}。表示分类器。
域判别损失的表达式如下:
其中,dj表示第j个域,共有m个训练域,j∈{1,…M}。表示域判别器。
令和/>定义基于梯度的正交损失/>如下:
其中,||·||F表示Frobenius范数。
步骤二、模型训练及图像识别
获取含有目标对象的训练集;利用训练集对模型进行训练,迭代优化损失函数中的参数φc、φs、θ,获得域泛化图像识别模型;之后,被测图像输入域泛化图像识别模型,对被测图像中的目标进行识别。
作为优选,似然函数损失的表达式的获取过程如下:
利用琴生不等式得到似然函数的证据下届ELBO为:
其中,log p(x,y)为有监督目标下的高维图像x和对应标签y的对数似然函数;Eq(c,s|x,y)为变分后验分布q(c,s|x,y)的期望;p(x,y,c,s)为观测数据x,标签y和潜在变量c,s的联合概率分布;为似然函数损失。
获取概率分布p(x,y,c,s)的表达式如下:
p(x,y,c,s)=p(c,s)pθ(x|c,s)p(y|c)
其中,pθ(x|c,s)和p(y|c)是跨域不变的,θ是图像生成空间的参数。
根据条件独立性x⊥y|c,s和贝叶斯公式,后验分布q(c,s|x,y)满足:
其中,q(y|c)是用语义特征c来预测标签y的预测分布;因为q(y|x)难以求解,所以利用推断函数q(c,s|x)和预测分布函数q(y|c)去求解q(y|x),表示为:
q(y|x)=∫q(c,s|x)q(y|c)dsdc。
因此,得到VAE求解的ELBO目标如下:
作为优选,通过正交预测类别和预测域标签的两个梯度的中间特征损失。额外添加了一个辅助模型,域判别器用来判别域信息。
预测类别的梯度损失表示为:
预测域的梯度损失表示为:
本发明的有益效果如下:
1.本发明将跨域稳定的因果结构模型作为先验引入,能够从高维的图像数据中学习出一个稳定的因果方向用来作为域泛化识别的表征,防止其他可变因素对模型的干扰。将因果结构模型纳入生成模型变分自编码器重写最大似然函数的证据下届,来解耦出语义特征和域相关特征。
2.本发明通过空间干预的思想,为了学习出两个独立的表征空间,提出基于损失函数的梯度正交,将语义特征输入分类器得到关于预测类标签的损失函数,将域相关信息传入域判别器得到关于预测域标签的损失函数。
3.本发明通过斯密特正交法,使得语义特征和域相关特征相互独立。另外,本发明构建了一个图像生成空间,利用这两部分特征恢复出原始的图像数据,目的是尽可能保证信息的完整性。结果证明,本发明提出的方法能够有效解耦出语义特征和域相关特征,超过了大多数的解决域泛化的方法。
附图说明
图1为本发明提出的因果结构模型图;
图2为本发明的总体框架图。
图3为本发明针对Digit-DG数据集的特征可视化图。
图4为本发明针对PACS数据集的特征可视化图。
具体实施方式
以下结合附图对本发明进行进一步说明。
首先,用数学形式给出域泛化问题的定义以及本发明需要达到的目的。定义 和/>分别表示从图像空间/>类别标签空间/>域标签空间/>中取值的图像x,类别标签y和域标签d。训练数据表示为从/>的联合分布p(x,y,d)取样的元组(x,y,d)。考虑一个由M个源域组成的训练数据集Dtrain={D1,…,DM},其中/>表示第m个域。本发明的目标是从M个源域中学习一个模型可以泛化到不可见的目标域。从训练数据中学习到的潜变量z被分解为语义特征c和域相关的特征s。在本发明中,特征c和特征s在训练数据中是虚假相关的。
一种基于因果解耦生成模型的域泛化图像识别方法,具体步骤如下:
步骤一、模型训练
有监督下的目标为Ep(x,y)[log p(x,y)],但是似然函数p(x,y)=∫p(x,y,s,c)dsdc难以计算和优化。VAE提出一种证据下届ELBO,通过引进了容易处理的变分后验分布q(c,s|x,y)。
利用琴生不等式得到似然函数的证据下届ELBO为:
其中,logp(x,y)为有监督目标下的高维图像x和对应标签y的对数似然函数;Eq(c,sx,y)为变分后验分布q(c,s|x,y)的期望;p(x,y,c,s)为观测数据x,标签y和潜在变量c,s的联合概率分布;为似然函数损失。
获取概率分布p(x,y,c,s)的表达式如下:
p(x,y,c,s)=p(c,s)pθ(x|c,s)p(y|c)
其中,pθ(x|c,s)和p(y|c)是跨域不变的,θ是图像生成空间的参数。
根据条件独立性x⊥y|c,s和贝叶斯公式,后验分布q(c,s|x,y)满足:
其中,q(y|c)是用语义特征c来预测标签y的预测分布;因为q(y|x)难以求解,所以利用推断函数q(c,s|x)和预测分布函数q(y|c)去求解q(y|x),表示为:
q(y|x)=∫q(c,s|x)q(y|c)dsdc。
似然函数损失的表达式如下:
其中,是需要寻求最大化的对数似然比的权重。p(s,c)为先验模型,其参数化为p(c,s|di),i∈{1,…M},di表示域标签下的独热编码。推断模型/>和/>分别表示从图像中在语义特征空间φc编码出来的语义特征分布和在域相关特征空间φs编码出来的域相关特征分布,它们服从多元高斯分布,即:
两个潜在变量c和s通过重参数方法生成,为预测分布。pθ(x|c,s)是在参数为θ的图像空间,由c和s解码出原始的图像数据x。
将语义特征c输入分类器中,获取分类器的损失函数/>如下:
其中,yi表示第i个类别,共有n种类别,i∈{1,…N}。
将域相关特征s输入到域判别器中,获取域判别损失如下:
其中,dj表示第j个域,共有m个训练域,j∈{1,…M}。
令和/>定义基于梯度的正交损失/>如下:
其中,||·||F表示Frobenius范数。
总之,本实施例采用端到端的方式训练模型,总体的损失函数表示为:
其中,为似然函数损失;/>为域判别损失;/>为梯度正交损失;λ是一个独立的权重参数。
步骤二、模型训练及图像识别
获取含有目标对象的训练集;利用训练集对模型进行训练,迭代优化损失函数中的参数φc、φs、θ,获得域泛化图像识别模型;之后,被测图像输入域泛化图像识别模型,对被测图像中的目标进行识别。被测图像与训练集中的样本可以属于不同的域,服从不同的分布,且依然能够达到识别效果。
本实施例中,本申请中被识别的图像分为多种不同类别(如油画、卡通图像、照片、简笔画)。取其中任意一种类别的图像作为目标进行识别,其余各类别的图像作为训练集。
以下使用的结构因果图模型从数据生成角度出发,分析图像数据的潜在因果结构,说明本申请使用稳定的因果结构方向实现预泛化识别的原因:
因果结构如图1所示,x表示输入变量,y表示输出变量,c和s分别是语义特征和域相关特征,o是混杂因子,实心圆表示可观测变量。其中存在着三种因果关系:
(1)c→y:语义特征是导致输出y的直接原因,说明只有语义因素与分类任务相关而域相关特征只会对分类任务产生负影响。
(2)c,s→x:语义因素c是域相关特征s是观测数据x的共同原因。
(3)c←o→s:结点o是混杂因子,它打开了一个后门路径,以至于c和s不再独立,即p(c,s)≠p(c)p(s)。在源域上训练的模型很有可能依赖于语义因素c和域相关因素s去预测y,这就导致了依赖域相关特征s的模型难以泛化到不可见的目标域。
针对后门路径c←o→s使得c和s不再独立的问题,本实施例通过干预分布的方式将后门路径c←o→s切断,具体如下:
首先,本实施例提出在训练阶段消除语义特征c和域相关特征s之间虚假的相关性,通过干预,用do(·)表示,切断后门路径c←o→s。重写p(c,s)的联合分布,在这种干预上去识别最优的c和s从而生成图像x,干预分布表示为:
其中,(c*,s*)是新的联合分布,do(c,s)表示对原来的联合分布进行干预。
有研究表明,生成的条件分布等于其干预分布,即:
pdo(c,s)(x)=p(x|c,s)
这样就可以从数据生成过程中得到标签y的直接原因。
本发明的目标是通过一个空间的干预的方法,解除c和s之间的相关性,使得它们的表示空间在统计上独立。定义潜在空间Φ表示满足Φ=φc×φs形式的乘积空间。
给定一个图像x,学习三个特征空间。一个推断出的语义嵌入c∈φc表示图像中看到的物体信息,如形状。另一个是推断出的域相关嵌入s∈φs表示图像中看到的域信息,如背景。最后一个是从这两个嵌入空间中选择特征来恢复原始的图像信息,并估计图像特征空间中的
本实施例中的数据集和参数设置如下:
在域泛化的两个基准数据集Digit-DG和PACS上验证我们方法的有效性。
(1)Digit-DG:该数据是由MNIST、MNIST-M、SVHN和SYN四种数字数据集组成。这个数据集是评估模型对字体样式、颜色和背景变化的鲁棒性。
(2)PACS:是广泛使用的基准数据集,由四个域组成,分别是Art Painting(油画)、Cartoon(卡通图像)、Photo(照片)和Sketch(简笔画)。每个域包含7个不同的类别,总共包括9991个样本。因为域之间样式不同而发生偏移。
为了与现有技术进行比较,本发明遵循leave-one-domain-out方式,选择一个域作为测试域,剩余的域作为模型的训练域。性能度量使用的是top-1的分类精度,所有的结果都是用不同的随机种子进行三次测试取平均值。对于Digit-DG,编码器是由4个3×3的卷积层和1个softmax层,每个卷积层后插入了BN、ReLU和2×2的max-pooling层。该模型使用SGD训练,初始学习率为0.05,批次大小为64,共100个epochs。对于PACS,使用在ImageNet上预训练的ResNet-18作为编码器,并使用SGD进行训练,批次大小为32,学习率为0.005,训练了200个epochs。模型中的语义编码器和域相关编码器使用两个全连接层,分类器和域判别器使用了一个全连接层。
本发明的实验结果分析:在Digit-DG数据集上,模型在所有领域都取得了最好的性能,平均总体准确率达84.4%。相比较于域对齐方法的CCSA和MMD-AAE,我们的分类精度平均提高了9.9%,并且与现在最好的方法COPA相比,提高了2.9%。图3比较了重建的图像和原始图像的对比,我们观察到与域相关的信息发生了变化,而语义特征却得到了很好地保持,这说明恢复的图像尽可能准确地再现了原始图像,这与我们方法的动机是一致的。在PACS数据集上,我们的模型平均分类精度达86.1%,超过了绝大多数域泛化在该数据集上的效果。与解耦方法DecAug相比,我们的模型引入一个结构性因果模型作为先验,并在图像特征空间中恢复了图像信息。除Photo域只提高了0.9%和Cartoon提升了1.6%外,剩下两个域都取得了较大的提升,Art提升了5%,Sketch提高了7.4%。图4表示对语义信息c和域相关信息s的可视化。以Art Painting数据集为目标域,其余三个域为源域。图4的a部分可以看出类别被很好地分开了,类间的距离被缩小,说明我们已经提取好了一个可泛化的语义信息。图4的b部分可以看出域信息被很好地解耦出来,因为它能很好地进行域判别。
Claims (3)
1.一种基于因果解耦生成模型的域泛化图像识别方法,其特征在于:包括以下步骤:
步骤一、模型训练
构建模型的损失函数如下:
其中,为似然函数损失;/>为域判别损失;/>为梯度正交损失;λ是一个独立的权重参数;
似然函数损失的表达式如下:
其中,是需要寻求最大化的对数似然比的权重,E表示期望的形式;x表示高维图像数据,y表示输出变量,c为语义特征,s是域相关特征;φc是语义特征空间参数,φs是域相关特征空间参数;p(x,y)为有监督目标下的高维图像x和对应标签y的联合概率分布;p(c,s)为先验模型;M表示为训练域的数目;/>和/>分别表示从图像中在语义特征空间φc编码出来的语义特征分布和在域相关特征空间φs编码出来的域相关特征分布,其表达式为:
其中,表示多元高斯分布;
两个潜在变量c和s通过重参数方法生成,为预测分布;pθ(x|c,s)是在参数为θ的图像空间,由c和s解码出原始的图像数据x;
损失函数的表达式如下:
其中,yi表示第i个类别,共有n种类别,i∈{1,…n};表示分类器;
域判别损失的表达式如下:
其中,dj表示第j个域,共有m个训练域,j∈{1,…M};表示域判别器;
令和/>定义基于梯度的正交损失/>如下:
其中,||·||F表示Frobenius范数;
步骤二、模型训练及图像识别
获取含有目标对象的训练集;利用训练集对模型进行训练,迭代优化损失函数中的参数φc、φs、θ,获得域泛化图像识别模型;之后,将被测图像输入域泛化图像识别模型,对被测图像中的目标进行识别。
2.根据权利要求1所述的一种基于因果解耦生成模型的域泛化图像识别方法,其特征在于:似然函数损失的表达式的获取过程如下:
利用琴生不等式得到似然函数的证据下届ELBO为:
其中,log p(x,y)为有监督目标下的高维图像x和对应标签y的对数似然函数;Eq(c,s|x,y)为变分后验分布q(c,s|x,y)的期望;p(x,y,c,s)为观测数据x,标签y和潜在变量c,s的联合概率分布;为似然函数损失;
获取概率分布p(x,y,c,s)的表达式如下:
p(x,y,c,s)=p(c,s)pθ(x|c,s)p(y|c)
其中,pθ(x|c,s)和p(y|c)是跨域不变的,θ是图像生成空间的参数;
根据条件独立性和贝叶斯公式,后验分布q(c,s|x,y)满足:
其中,q(y|c)是用语义特征c来预测标签y的预测分布;因为q(y|x)难以求解,所以利用推断函数q(c,s|x)和预测分布函数q(y|c)去求解q(y|x),表示为:
q(y|x)=∫q(c,s|x)q(y|c)dsdc;
得到VAE求解的ELBO目标如下:
3.根据权利要求1所述的一种基于因果解耦生成模型的域泛化图像识别方法,其特征在于:预测类别的梯度损失表示为:预测域的梯度损失表示为:/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210512236.8A CN114863213B (zh) | 2022-05-11 | 2022-05-11 | 一种基于因果解耦生成模型的域泛化图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210512236.8A CN114863213B (zh) | 2022-05-11 | 2022-05-11 | 一种基于因果解耦生成模型的域泛化图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863213A CN114863213A (zh) | 2022-08-05 |
CN114863213B true CN114863213B (zh) | 2024-04-16 |
Family
ID=82637593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210512236.8A Active CN114863213B (zh) | 2022-05-11 | 2022-05-11 | 一种基于因果解耦生成模型的域泛化图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863213B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228623B (zh) * | 2022-09-08 | 2024-05-03 | 上海贝特威自动化科技有限公司 | 一种基于等变正则化自监督注意力网络的金属表面缺陷检测方法、设备和储存介质 |
CN115730660B (zh) * | 2023-01-06 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 基于因果解耦的链接生成方法和相关装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059465A (zh) * | 2019-04-24 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 身份验证方法、对抗生成网络的训练方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11443193B2 (en) * | 2020-04-24 | 2022-09-13 | Adobe Inc. | Domain adaptation for machine learning models |
-
2022
- 2022-05-11 CN CN202210512236.8A patent/CN114863213B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059465A (zh) * | 2019-04-24 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 身份验证方法、对抗生成网络的训练方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114863213A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wickramasinghe et al. | Generalization of deep learning for cyber-physical system security: A survey | |
Chen et al. | Predictive subspace learning for multi-view data: a large margin approach | |
Hajibabaee et al. | An empirical study of the graphsage and word2vec algorithms for graph multiclass classification | |
Ou et al. | Multi-label zero-shot learning with graph convolutional networks | |
CN114863213B (zh) | 一种基于因果解耦生成模型的域泛化图像识别方法 | |
Wang et al. | Deep generative model for robust imbalance classification | |
Das et al. | NAS-SGAN: a semi-supervised generative adversarial network model for atypia scoring of breast cancer histopathological images | |
Liu et al. | Interpretability in graph neural networks | |
Liu et al. | A new belief-based bidirectional transfer classification method | |
US20230117980A1 (en) | Systems and methods for graph prototypical networks for few-shot learning on attributed networks | |
Zheng et al. | Deep multimodality model for multi-task multi-view learning | |
Kuang et al. | Firebolt: Weak supervision under weaker assumptions | |
CN114881173B (zh) | 基于自注意力机制的简历分类方法和装置 | |
Weller et al. | Predicting instance type assertions in knowledge graphs using stochastic neural networks | |
Kang et al. | Interpretability for reliable, efficient, and self-cognitive DNNs: From theories to applications | |
CN111401440B (zh) | 目标分类识别方法、装置、计算机设备及存储介质 | |
Vishwakarma et al. | Lifting weak supervision to structured prediction | |
JP2004326465A (ja) | 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 | |
Saeedeh et al. | Deep graph fusion for graph based label propagation | |
Lin et al. | Random Intersection Chains | |
Somani et al. | Interpretation in Specific Deep Architectures | |
Wan et al. | S3GCL: Spectral, Swift, Spatial Graph Contrastive Learning | |
Ye et al. | Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee | |
Perera | Deep Learning Based Novelty Detection | |
Liu | Incomplete multi-view data clustering with hidden data mining and fusion techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |