CN112102156B - 基于因果流模型的可控汽车图像合成方法 - Google Patents

基于因果流模型的可控汽车图像合成方法 Download PDF

Info

Publication number
CN112102156B
CN112102156B CN202010942153.3A CN202010942153A CN112102156B CN 112102156 B CN112102156 B CN 112102156B CN 202010942153 A CN202010942153 A CN 202010942153A CN 112102156 B CN112102156 B CN 112102156B
Authority
CN
China
Prior art keywords
automobile
automobile image
image
causal
flow model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010942153.3A
Other languages
English (en)
Other versions
CN112102156A (zh
Inventor
廖军
颜学文
刘礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010942153.3A priority Critical patent/CN112102156B/zh
Publication of CN112102156A publication Critical patent/CN112102156A/zh
Application granted granted Critical
Publication of CN112102156B publication Critical patent/CN112102156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开基于因果流模型的可控汽车图像合成方法,步骤为:1)获取原始汽车图像数据;2)建立可逆流模型pθ(x);3)建立可逆流模型pθ(x)的网络架构;4)输出汽车图像y;5)建立因果关系网络
Figure DDA0002673994550000011
6)根据因果关系网络
Figure DDA0002673994550000012
设置监督条件cs,并建立可控因果编码器Eθ;7)建立监督模块;8)输出合成汽车图片。本发明在原始流模型的基础上,加入了因果网络,能增强监督条件,进而生成符合预期目标的可控汽车图像。

Description

基于因果流模型的可控汽车图像合成方法
技术领域
本发明涉及图像处理技术领域,具体是基于因果流模型的可控汽车图像合成方法。
背景技术
如今汽车普及度越来越高,汽车保有量大幅提升,积累了大量的汽车图像数据,如何分析这些数据提取有用价值?对于生产商来说,需要分出商品线和市场竞争;对于消费者来说,需要明确购买方向;对于社会来说,需要方便管理规划。合理的利用数据将有效节省人力资源,推进汽车产业智能化发展。
随着深度学习技术不断发展,图像处理方面的研究已经十分成熟了,但是图像可控合成技术多用于人脸识别、军事应用、医学图像等领域,且通用性差,对于汽车图像的研究少之又少,因此,研究汽车图像的可控方法越来越受到人们的关注。目前基于深度学习的合成算法使用大量的图像来训练网络,例如生成对抗网络(GAN),并利用这些网络进行条件图像合成,虽然取得了较好的性能,但仍存在着没有显式的编码器将图像映射到潜在空间,而变分自编码器(VAE)可以做到这一点,但生成的图像往往很模糊。这些问题仍然存在于可控生成的研究课题中。
目前存在一种基于流模型和条件编码器的深度学习架构可以克服上述缺点,流模型的图像空间与潜在空间映射的可逆性、精确对数似然在图像合成中拥有着巨大的潜力,在条件编码器中,将编码输入属性标注作为监督条件作为生成图像中的可控因素,可以保存可控信息,这样的模型必须在图像的分布和潜在向量之间进行双射映射,即其潜在维数必须与可见维数匹配,但是没有办法将条件信息与图像连接到完整的模型中。因此,一个直接的想法就是在优化目标中添加有类依赖化的正则化,但是,当遇到复杂的情况时,模型训练往往会失败,这一现象产生的原因就是潜在空间上的图像条件的底层分布难以精确测量,且存在多目标的情况。
发明内容
本发明的目的是提供基于因果流模型的可控汽车图像合成方法,包括以下步骤:
1)获取原始汽车图像数据,并写入汽车图像数据集D中。对汽车图像数据集D进行预处理,得到汽车图像数据集D′=[D1,D2,....,DX]。X为汽车图像样本总数。DX表示汽车图像样本。
所述原始汽车图像数据为斯坦福汽车图像数据。所述斯坦福汽车图像根据年份、制造商、型号进行分类。
对汽车图像数据集D进行预处理的步骤如下:
1.1)提取汽车图像的序号、图像名和类别名。
1.2)删除汽车图像数据集D中的灰度汽车图像。删除汽车图像数据集D中长宽像素比小于h的汽车图像。删除汽车图像数据集D中图像字节数小于Hkb的汽车图像。
1.3)将汽车图像数据集D中汽车图像像素统一为n×n,得到汽车图像数据集D′。
1.4)为汽车图像数据集D′中每张汽车图像添加属性标注。所述属性包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。
2)基于汽车图像数据集D′,建立可逆流模型pθ(x)。所述可逆流模型pθ(x)用于对汽车图像样本x进行非线性变换,将高维的汽车图像样本x映射到潜在空间,得到独立的潜在向量z。所述非线性变换可逆。x=D1,D2,....,DX
构建可逆流模型的步骤如下:
2.1)记用于拟合汽车图像样本x的概率分布函数为pθ(x)。
其中,概率分布函数pθ(x)的最小化对数似然函数如下所示:
Figure BDA0002673994530000021
式中,x为汽车图像数据集D′中的任意元素。N为汽车图像样本数量。x(i)表示第i个汽车图像样本;
2.2)建立可逆的映射函数fθ(x),令:
z~pθ(z) (2)
x=gθ(z) (3)
式中,z是潜在向量。pθ(z)是潜在向量z的先验概率分布。函数gθ(x)是fθ(x)的反函数。
2.3)建立汽车图像样本x与潜在向量z的关系式,即:
Figure BDA0002673994530000031
式中,hk是根据映射函数fk生成的过程向量。k=1,2,…,K。K为映射函数数量。
Figure BDA0002673994530000032
表示可逆映射。
2.4)计算概率分布pθ(x)的概率密度函数,即:
Figure BDA0002673994530000033
式中,
Figure BDA0002673994530000034
Figure BDA0002673994530000035
表示等价于;标量值/>
Figure BDA0002673994530000036
是雅可比矩阵
Figure BDA0002673994530000037
的行列式绝对值的对数值。参数/>
Figure BDA0002673994530000038
其中,标量值
Figure BDA0002673994530000039
如下所示:
Figure BDA00026739945300000310
式中,sum()是所有向量元素的和。log()是对数的元素,diag()是雅可比矩阵的对角线。
3)根据可逆流模型pθ(x),建立可逆流模型pθ(x)的网络架构。所述网络架构包括激活归一化层、可逆1×1卷积层和仿射耦合层。
4)将汽车图像样本x输入到可逆流模型pθ(x)网络架构的前向流网络中,得到潜在变量z;
5)建立基于约束的因果网络。根据因果网络建立汽车图像数据集D′特征之间的因果关系,得到因果关系网络
Figure BDA00026739945300000311
建立因果关系网络
Figure BDA00026739945300000312
的步骤如下:
5.1)按照汽车属性标注将汽车图像数据集D′每个元素分割为若干汽车特征图像。以所有汽车特征图像为顶点,建立顶点集V={F1,F2,...,Fk}。Fk为第k幅汽车特征图像所对应的顶点。将顶点集V中相邻顶点连接起来。
5.2)对邻接点进行条件独立测试:S为邻接点集合,是顶点集V的子集,任选顶点Fh∈S,Fi、Fj为顶点,若存在Fi⊥Fj|Fh,则删除无向边Fi-Fj,并将Fh保留在集合S(Fi,Fj)和集合S(Fj,Fi)中。
5.3)重复步骤5.2),直至顶点Fh的所有邻接点均完成了条件独立测试。
5.4)重复步骤5.2)和步骤5.3),完成顶点集V中所有顶点的邻接点条件独立测试,得到无向因果网络。
5.5)确定无向因果网络中边的方向,步骤如下:
5.5.1)确定三元组无向边Fi-Fk-Fj,当且仅当
Figure BDA0002673994530000041
时,顶点Fi、顶点Fk和顶点Fj的有向边为Fi→Fk←Fj。Fi→Fk表示顶点Fi指向顶点Fk。-表示无向边。→表示有向边。有向边表示有直接的汽车属性因果关系。无向边表示汽车属性的因果关系不确定。
5.5.2)对无向因果网络其他无向边进行定向,得到因果网络
Figure BDA0002673994530000042
定向规则如下:
I)当存在有向边Fi→Fj时,将无向边Fj-Fk定向为有向边Fj→Fk,使得Fi和Fk不相邻。
II)当存在链Fi→Fk→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj
III)当存在两条链Fi-Fk→Fj和Fi-Fl→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj,使得顶点Fk和顶点Fl不相邻。
6)根据因果关系网络
Figure BDA0002673994530000043
设置监督条件cs,并建立可控因果编码器Eθ
利用编码器Eθ在监督条件cs和无监督条件cu上构建潜在向量z的条件分布pθ(z)。
利用条件分布pθ(z)生成多样化潜在向量z的汽车图像样本。
建立可控因果编码器Eθ的步骤如下:
6.1)根据汽车属性得到的因果关系网络
Figure BDA0002673994530000044
将汽车图像属性与其直接因果关系汽车属性组合为监督条件cs,进行one-hot编码,编码器的所有可控条件信息/>
Figure BDA0002673994530000045
如下所示:
Figure BDA0002673994530000046
式中,cu表示汽车图像自动学习到的无监督条件。
Figure BDA0002673994530000047
为可控条件。
6.2)构建潜在向量z的条件分布pθ(z),即:
Figure BDA0002673994530000048
/>
式中,∈表示为随机噪声。
6.3)对条件分布pθ(z)进行优化,令条件分布pθ(z)JS散度最小,步骤如下:
6.3.1)确定可控条件信息
Figure BDA0002673994530000051
的下界约束,即:
Figure BDA0002673994530000052
式中,条件分布p(z)=(pθ(z)+p*(z))/2。KL(pθ(z)||p(z))为KL散度;p*(z)为真实潜在分布;E为分布函数;
6.3.2)计算条件分布pθ(z)的散度JS(pθ(z)||p*(z)),即:
KL(pθ(z)||p(z))+KL(p*(z)||p(z))=JS(pθ(z)||p*(z)) (10)
式中,KL(p*(z)||p(z))为KL散度;
6.3.3)建立目标函数,即:
Figure BDA0002673994530000053
式中,真实潜在分布p*(z)由判别器D建立。
6.3.4)最大化目标函数(25),令条件分布pθ(z)JS散度达到最小。
6.4)计算编码器Eθ的损失
Figure BDA0002673994530000054
即:
Figure BDA0002673994530000055
式中,D为监督模块中的判别器。
7)建立监督模块,包括判别器D、分类器Cφ和解码器D。所述判别器D用于判别多样化潜在向量z的真实性。分类器Cφ用于对汽车图像类别进行分类。解码器D用于重构汽车图像自动学习到的无监督条件,进而输出合成汽车图片。
其中,判别器D、分类器Cφ和解码器D的损失利用L2正则化方法实现最小化。
判别器D损失
Figure BDA0002673994530000056
如下所示:
Figure BDA0002673994530000057
分类器Cφ损失
Figure BDA0002673994530000058
如下所示:
Figure BDA0002673994530000059
解码器D损失如下所示:
Figure BDA00026739945300000510
式中,p(cu)用二项分布来建模,损失设置为二叉熵损失。qφ(cu|z)为分布函数。
最小化监督模块损失的步骤如下:
1)计算真实的和假的汽车图像数据点的两两特征匹配损失
Figure BDA0002673994530000061
即:
Figure BDA0002673994530000062
/>
式中,
Figure BDA0002673994530000063
表示监督模块中间层的潜在向量的特征。z表示真实的潜在向量,z’表示生成的潜在向量。
2)建立目标函数,即最小化损失
Figure BDA0002673994530000064
Figure BDA0002673994530000065
式中,系数
Figure BDA0002673994530000066
8)集成可逆流模型、监督模块和因果编码器,构建因果流模型,将潜在变量z输入到因果流模型的逆向流网络中,输出可控的合成汽车图片y。
输出合成汽车图片y的步骤如下:
8.1)利用Squeeze函数增加汽车图像样本x的维数。汽车图像样本x原始维数为h×w×c。squeeze函数用于删除矩阵中的单一维。
8.2)激活归一化层对汽车图像样本x进行预处理,步骤如下:
8.2.1)把汽车图像样本x的通道c归一化为0平均值和单位方差的通道数据。
8.2.2)对汽车图像样本x和汽车图像y进行线性变换,即:
Figure BDA0002673994530000067
式中,⊙表示矩阵相乘。(i,j)表示张量x和y的空间索引。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。
汽车图像样本x和汽车图像y的逆变换如下所示:
Figure BDA0002673994530000068
其中,汽车图像样本x和汽车图像y的雅可比矩阵对
Figure BDA0002673994530000069
对数行列式为h*w*∑log|s|。
8.3)可逆1×1卷积层利用c×1权重矩阵对汽车图像样本x的通道c进行加权,叠加c个权重矩阵,混合可逆流模型通道,步骤如下:
8.3.1)建立汽车图像样本x和汽车图像y的变换关系式,即:
Figure BDA00026739945300000610
式中,W为c×c权重矩阵。
汽车图像样本x和汽车图像y逆变换如下所示:
Figure BDA0002673994530000071
8.3.2)计算权重矩阵W的对数行列式
Figure BDA0002673994530000072
即:
Figure BDA0002673994530000073
8.3.3)对权重矩阵W进行LU分解,降低对数行列式计算的复杂度。分解后的权重矩阵W如下所示:
W=PL(U+diag(s)) (23)
式中,P是计算后的通道排列矩阵。L为下三角矩阵。U为上三角矩阵,其对角线元素为0。而s为对角矩阵,对角元素为W上三角矩阵的对角元素。log|det(W)|=sum(log|s|)。
8.4)建立仿射耦合层,步骤如下:
8.4.1)运用函数split()沿着通道维度将输入的汽车图像张量x切分成两部分,分别记为汽车图像xa和汽车图像xb,即:
xa,xb=split(x) (24)
8.4.2)利用神经网络(log s,t)=NN(xb)对汽车图像xa进行线性组合,得到汽车图像ya=s⊙xa+t。其中,参数s=exp(log s)。函数NN()是非线性映射函数。参数s和参数t不参与可逆变换。
8.4.3)对汽车图像xb进行恒等变换,得到汽车图像yb=xb
8.4.4)利用函数concat()将汽车图像ya和汽车图像yb连接成一个输出的汽车图像张量y,即:
y=concat(ya,yb) (25)
其中,仿射耦合层的逆变换如公式:
ya,yb=split(y) (26)
(log s,t)=NN(yb) (27)
s=exp(log s) (28)
xa=(ya-t)/s (29)
xb=xb (30)
x=concat(xa,xb) (31)
8.4.5)利用公式(27)对汽车图像ya进行线性组合,求得对数行列式sum(log|s|),并根据对数行列式sum(log|s|)计算得到概率分布函数pθ(x),更新可逆流模型。
本发明的技术效果是毋庸置疑的,本发明目的在于实现汽车图像的可控生成,运用流模型实现汽车图像的生成,同时因果编码器实现对属性的可控,通过找到属性特征之间的因果关系,从而得到可控属性的直接原因,得到精确的可控条件的分布,避免多目标破坏模型训练稳定性;本发明在原始流模型的基础上,加入了因果网络,能增强监督条件,进而生成符合预期目标的可控汽车图像。由此可见,本发明设计原理可靠,前景是广阔的,具有突出的实质性特点和较高的实用性。
附图说明
图1为基于因果流模型的可控汽车图像合成方法的整体模型架构图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
基于因果流模型的可控汽车图像合成方法,包括以下步骤:
1)获取原始汽车图像数据,并写入汽车图像数据集D中。对汽车图像数据集D进行预处理,得到汽车图像数据集D′=[D1,D2,....,DX]。X为汽车图像样本总数。DX表示汽车图像样本。
所述原始汽车图像数据为斯坦福汽车图像数据。所述斯坦福汽车图像根据年份、制造商、型号进行分类。
对汽车图像数据集D进行预处理的步骤如下:
1.1)提取汽车图像的序号、图像名和类别名。
1.2)删除汽车图像数据集D中的灰度汽车图像。删除汽车图像数据集D中长宽像素比小于h的汽车图像。删除汽车图像数据集D中图像字节数小于Hkb的汽车图像。
1.3)将汽车图像数据集D中汽车图像像素统一为n×n,得到汽车图像数据集D′。
1.4)为汽车图像数据集D′中每张汽车图像添加属性标注。所述属性包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。
2)基于汽车图像数据集D′,建立可逆流模型pθ(x)。所述可逆流模型pθ(x)用于对汽车图像样本x进行非线性变换,将高维的汽车图像样本x映射到潜在空间,得到独立的潜在向量z。所述非线性变换可逆。x=D1,D2,....,DX
构建可逆流模型的步骤如下:
2.1)记用于拟合汽车图像样本x的概率分布函数为pθ(x)。
其中,概率分布函数pθ(x)的最小化对数似然函数如下所示:
Figure BDA0002673994530000091
式中,x为汽车图像数据集D′中的任意元素。N为汽车图像样本数量。x(i)表示第i个汽车图像样本;
2.2)建立可逆的映射函数fθ(x),令:
z~pθ(z) (2)
x=gθ(z) (3)
式中,z是潜在向量。pθ(z)是潜在向量z的先验概率分布。函数gθ(x)是fθ(x)的反函数。
2.3)建立汽车图像样本x与潜在向量z的关系式,即:
Figure BDA0002673994530000092
式中,hk是根据映射函数fk生成的过程向量。k=1,2,…,K。K为映射函数数量。
Figure BDA0002673994530000093
表示可逆映射。
2.4)计算概率分布pθ(x)的概率密度函数,即:
Figure BDA0002673994530000094
式中,
Figure BDA0002673994530000095
Figure BDA0002673994530000096
表示等价于。标量值/>
Figure BDA0002673994530000097
是雅可比矩阵/>
Figure BDA0002673994530000098
的行列式绝对值的对数值。参数/>
Figure BDA0002673994530000099
其中,标量值
Figure BDA0002673994530000101
如下所示:
Figure BDA0002673994530000102
式中,sum()是所有向量元素的和。log()是对数的元素,diag()是雅可比矩阵的对角线。
3)根据可逆流模型pθ(x),建立可逆流模型pθ(x)的网络架构。所述网络架构包括激活归一化层、可逆1×1卷积层和仿射耦合层。
4)将汽车图像样本x输入到可逆流模型pθ(x)网络架构的前向流网络中,得到潜在变量z;
5)建立基于约束的因果网络。根据因果网络建立汽车图像数据集D′特征之间的因果关系,得到因果关系网络
Figure BDA0002673994530000103
建立因果关系网络
Figure BDA0002673994530000104
的步骤如下:
5.1)按照汽车属性标注将汽车图像数据集D′每个元素分割为若干汽车特征图像。以所有汽车特征图像为顶点,建立顶点集V={F1,F2,...,Fk}。Fk为第k幅汽车特征图像所对应的顶点。将顶点集V中相邻顶点连接起来。
5.2)对邻接点进行条件独立测试:S为邻接点集合,是顶点集V的子集,任选顶点Fh∈S,Fi、Fj为顶点,任选顶点Fh∈S,若存在Fi⊥Fj|Fh,则删除无向边Fi-Fj,并将Fh保留在集合S(Fi,Fj)和集合S(Fj,Fi)中。
5.3)重复步骤5.2),直至顶点Fh的所有邻接点均完成了条件独立测试。
5.4)重复步骤5.2)和步骤5.3),完成顶点集V中所有顶点的邻接点条件独立测试,得到无向因果网络。
5.5)确定无向因果网络中边的方向,步骤如下:
5.5.1)确定三元组无向边Fi-Fk-Fj,当且仅当
Figure BDA0002673994530000105
时,顶点Fi、顶点Fk和顶点Fj的有向边为Fi→Fk←Fj。Fi→Fk表示顶点Fi指向顶点Fk。-表示无向边。→表示有向边。有向边表示有直接的汽车属性因果关系。无向边表示汽车属性的因果关系不确定。
5.5.2)对无向因果网络其他无向边进行定向,得到因果网络
Figure BDA0002673994530000106
定向规则如下:
I)当存在有向边Fi→Fj时,将无向边Fj-Fk定向为有向边Fj→Fk,使得Fi和Fk不相邻。
II)当存在链Fi→Fk→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj
III)当存在两条链Fi-Fk→Fj和Fi-Fl→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj,使得顶点Fk和顶点Fl不相邻。
6)根据因果关系网络
Figure BDA0002673994530000111
设置监督条件cs,并建立可控因果编码器Eθ
利用编码器Eθ在监督条件cs和无监督条件cu上构建潜在向量z的条件分布pθ(z)。
利用条件分布pθ(z)生成多样化潜在向量z的汽车图像样本。
建立可控因果编码器Eθ的步骤如下:
6.1)根据汽车属性得到的因果关系网络
Figure BDA0002673994530000112
将汽车图像属性与其直接因果关系汽车属性组合为监督条件cs,进行one-hot编码,编码器的所有可控条件信息/>
Figure BDA0002673994530000113
如下所示:
Figure BDA0002673994530000114
式中,cu表示汽车图像自动学习到的无监督条件。
Figure BDA0002673994530000115
为可控条件。
6.2)构建潜在向量z的条件分布pθ(z),即:
Figure BDA0002673994530000116
式中,∈表示为随机噪声。
6.3)对条件分布pθ(z)进行优化,令条件分布pθ(z)JS散度最小,步骤如下:
6.3.1)确定可控条件信息
Figure BDA0002673994530000117
的下界约束,即:
Figure BDA0002673994530000118
式中,条件分布p(z)=(pθ(z)+p*(z))/2。KL(pθ(z)||p(z))为pθ(z)和p(z)的KL散度;p*(z)为真实潜在分布;E为分布函数;
6.3.2)计算条件分布pθ(z)的散度JS(pθ(z)||p*(z)),即:
KL(pθ(z)||p(z))+KL(p*(z)||p(z))=JS(pθ(z)||p*(z)) (10)
式中,KL(p*(z)||p(z))为p*(z)和p(z)的KL散度;
6.3.3)建立目标函数,即:
Figure BDA0002673994530000121
式中,真实潜在分布p*(z)由判别器D建立。
6.3.4)最大化目标函数(25),令条件分布pθ(z)JS散度达到最小。
6.4)计算编码器Eθ的损失
Figure BDA0002673994530000122
即:
Figure BDA0002673994530000123
式中,D为监督模块中的判别器。
7)建立监督模块,包括判别器D、分类器Cφ和解码器D。所述判别器D用于判别多样化潜在向量z的真实性。分类器Cφ用于对汽车图像类别进行分类。解码器D用于重构汽车图像自动学习到的无监督条件,进而输出合成汽车图片。
其中,判别器D、分类器Cφ和解码器D的损失利用L2正则化方法实现最小化。
判别器D损失
Figure BDA0002673994530000124
如下所示:
Figure BDA0002673994530000125
分类器Cφ损失
Figure BDA0002673994530000126
如下所示:
Figure BDA0002673994530000127
解码器D损失如下所示:
Figure BDA0002673994530000128
式中,p(cu)用二项分布来建模,损失设置为二叉熵损失。qφ(cu|z)为分布函数。
最小化监督模块损失的步骤如下:
1)计算真实的和假的汽车图像数据点的两两特征匹配损失
Figure BDA0002673994530000129
即:
Figure BDA00026739945300001210
式中,
Figure BDA00026739945300001211
表示监督模块中间层的潜在向量的特征。z表示真实的潜在向量,z’表示生成的潜在向量。
2)建立目标函数,即最小化损失
Figure BDA00026739945300001212
Figure BDA00026739945300001213
式中,系数
Figure BDA0002673994530000131
|S|表示S数值。
8)集成可逆流模型、监督模块和因果编码器,构建因果流模型,将潜在变量z输入到因果流模型的逆向流网络中,输出可控的合成汽车图片。
因果可逆流模型包括可逆流模型、监督模块、因果网络编码器,可逆流模型只包括激活归一化层、可逆1×1卷积层和仿射耦合层,除去这三层,另外的监督模块和因果网络模块是独立的。
可逆流模型的作用是作为一个中介来合成图像的,起到可控作用的是因果编码器(简单理解为就是操纵潜在变量z),监督模块是把可控条件和合成图像结合起来。
输出汽车图像y的步骤如下:
8.1)利用Squeeze函数增加汽车图像样本x的维数。汽车图像样本x原始维数为h×w×c。h、w、c为汽车图像样本的三维尺寸。
8.2)激活归一化层对汽车图像样本x进行预处理,步骤如下:
8.2.1)把汽车图像样本x的通道c归一化为0平均值和单位方差的通道数据。
8.2.2)对汽车图像样本x和汽车图像y进行线性变换,即:
Figure BDA0002673994530000132
式中,⊙表示矩阵相乘。(i,j)表示张量x和y的空间索引。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。xi,j和yi,j为在空间索引(i,j)下对应的汽车图像样本张量和汽车图像张量。
汽车图像样本x和汽车图像y的逆变换如下所示:
Figure BDA0002673994530000133
其中,汽车图像样本x和汽车图像y的雅可比矩阵对
Figure BDA0002673994530000134
对数行列式为h*w*∑log|s|。
8.3)可逆1×1卷积层利用c×1权重矩阵对汽车图像样本x的通道c进行加权,叠加c个权重矩阵,混合可逆流模型通道,步骤如下:
8.3.1)建立汽车图像样本x和汽车图像y的变换关系式,即:
Figure BDA0002673994530000135
式中,W为c×c权重矩阵。
汽车图像样本x和汽车图像y逆变换如下所示:
Figure BDA0002673994530000141
8.3.2)计算权重矩阵W的对数行列式
Figure BDA0002673994530000142
即:
Figure BDA0002673994530000143
8.3.3)对权重矩阵W进行LU分解,降低对数行列式计算的复杂度。分解后的权重矩阵W如下所示:
W=PL(U+diag(s)) (23)
式中,P是计算后的通道排列矩阵。L为下三角矩阵。U为上三角矩阵,其对角线元素为0。而s为对角矩阵,对角元素为W上三角矩阵的对角元素。log|det(W)|=sum(log|s|)。
8.4)建立仿射耦合层,步骤如下:
8.4.1)运用函数split()沿着通道维度将输入的汽车图像张量x切分成两部分,分别记为汽车图像xa和汽车图像xb,即:
xa,xb=split(x) (24)
8.4.2)利用神经网络(log s,t)=NN(xb)对汽车图像xa进行线性组合,得到汽车图像ya=s⊙xa+t。其中,参数s=exp(log s)。函数NN()是非线性映射函数。参数s和参数t不参与可逆变换。
8.4.3)对汽车图像xb进行恒等变换,得到汽车图像yb=xb
8.4.4)利用函数concat()将汽车图像ya和汽车图像yb连接成一个输出的汽车图像张量y,即:
y=concat(ya,yb) (25)
其中,仿射耦合层的逆变换如公式:
ya,yb=split(y) (26)
(log s,t)=NN(yb) (27)
s=exp(log s) (28)
xa=(ya-t)/s (29)
xb=xb (30)
x=concat(xa,xb) (31)
8.4.5)利用公式(27)对汽车图像ya进行线性组合,求得对数行列式sum(log|s|)。计算对数行列式sum(log|s|)是为了计算公式(5)的概率函数,也就是汽车图像的可逆变换函数,即公式(4)中的f1,f2...fk。每一次变换也就是每一层,都有对应的合适的可逆变换函数(公式5),对应的就是要计算雅克比行列式,可以简化为求公式(6),进而计算每一层的对数行列式,更新可逆变换函数。
实施例2:
参见图1,基于因果流模型的可控汽车图像合成方法,主要包括以下步骤:
1)获取原始汽车图片数据,对数据集
Figure BDA0002673994530000153
进行预处理。所述的汽车图片数据为斯坦福汽车图像数据,包括196类共16185张图片,每个类别包括年份、制造商和型号。
进一步,对汽车图片数据进行预处理的主要步骤为:
1.1)提取数据中的序号、图片名、类别名;
1.2)删除汽车图片数据集中的灰度图、长宽像素比小于0.3、图片字节数小于10kb。
1.3)将图片固定像素大小为64×64。
1.4)每张汽车图像包含15个二进制的属性标注,包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。
2)构建因果流模型中的可逆流模型。
进一步,对输入的原始汽车图片x进行一个非线性变换,同时这个变换是可逆的,通过这个变换将输入的高维汽车图片x映射到潜在空间,产生独立的潜在向量z,主要步骤为:
2.1)用一个概率模型,即带参数θ的分布pθ(x),来拟合所给的汽车图片样本。假设x是一个高维随机向量,x的真实分布p*(x)是未知的。我们选择汽车图片数据集
Figure BDA0002673994530000151
有参数θ的概率模型pθ(x),那么,对于一张汽车图片x,求得pθ(x),需要最小化对数似然函数,即:
Figure BDA0002673994530000152
2.2)为了实现潜在空间之间的映射,找到可逆的映射函数f,使得
z~pθ(z) (2)
x=gθ(z) (3)
式中,z是潜在向量,pθ(z)是先验概率分布,如球面多元高斯分布
Figure BDA00026739945300001610
函数gθ(x)是fθ(x)的反函数,是可逆的,也叫做双射。
2.3)给定汽车图片x,通过
Figure BDA0002673994530000161
来推理潜在向量z。函数f(和函数g)是由一系列变换组成的函数:f=f1°f2°…°fK,使汽车图片x与潜在向量z的关系可以写成:
Figure BDA0002673994530000162
式中,h是根据变换函数f生成的过程向量。
2.4)这样的可逆变换序列叫做流,对公示(3)中的变量进行变换,对于汽车图片x,pθ(x)的概率密度函数如下所示:
Figure BDA0002673994530000163
/>
式中,
Figure BDA0002673994530000164
和/>
Figure BDA0002673994530000165
标量值/>
Figure BDA0002673994530000166
是雅可比矩阵/>
Figure BDA0002673994530000167
的行列式绝对值的对数值,该值是基于变换函数fi从hi-1到hi时对数行列式的变化。
2.5)由于可逆的映射难度较大,引入雅可比矩阵
Figure BDA0002673994530000168
为一个三角矩阵辅助实现映射,对数行列式计算如下所示:
Figure BDA0002673994530000169
式中sum()是所有向量元素的和,log()是对数的元素,diag()是雅可比矩阵的对角线。
2.6)最后,log pθ(x)是可求解的,并且函数f容易求逆,概率模型pθ(x)训练完成,我们求得函数g,采样出一个汽车图片,这就是生成模型,即可逆流模型。
3)依据可逆流模型的构建原理,建立可逆流模型的网络架构,主要步骤为:
3.1)可逆流模型的网络框架由激活归一化(Activation Normalization)、可逆的1×1卷积(1×1Convolution)和仿射耦合层(Affine Coupling)组成:设定汽车图片x是该层的输入,汽车图片y是该层的输出,x和y均为具有空间尺寸(h,w)和通道尺寸c的形状[h×w×c]的张量,(i,j)表示张量x和y的空间索引。设定函数NN()是非线性映射。
3.2)Squeeze用于重构汽车图像的维度大小。为了增加通道轴的维数,在不损失空间上的局部相关性下,局部的改变汽车图像的尺寸。具体来说,假设原来汽车图像为h×w×c大小,前两个轴是空间维度,然后沿着空间维度分为一个个2×2×c的块(这个2可以自定义),然后将每个块直接重构为1×1×4c,也就是说最后变成了h/2×w/2×4c。
3.3)激活归一化层使用每个通道的尺度和偏差参数执行激活函数的仿射变换,类似于批处理归一化。初始化这些参数,使得在给定初始汽车图片数据小批量的情况下,每个通道激活归一化后的激活值具有零均值和单位方差。初始化后,尺度和偏差为与数据无关的常规可训练参数。激活归一化可以理解为对输入汽车图片数据做预处理,整个过程的主要步骤如下:
3.3.1)把汽车图片x的通道c归一化为0平均值和单位方差的通道数据后,进行线性变换,即:
Figure BDA0002673994530000171
式中,⊙表示矩阵相乘。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。
3.3.2)线性变换的逆变换为:
Figure BDA0002673994530000172
3.3.3)其雅可比矩阵对
Figure BDA0002673994530000173
对数行列式为h*w*∑log|s|。
3.4)可逆1×1卷积层主要利用c×1权重矩阵对张量x的通道c加权得到新的通道,叠加c个权重矩阵,最终尺寸通道不变,以达到流模型混合通道的目的,整个过程的主要步骤如下:
3.4.1)整个过程h×w×c张量h与c×c权重矩阵W的可逆1×1卷积的对数行列式很容易计算,即:
Figure BDA0002673994530000174
3.4.2)其逆变换为:
Figure BDA0002673994530000175
3.4.3)其对数行列式计算为:
Figure BDA0002673994530000181
3.4.4)由于计算det(W)的复杂度是O(c)3,使用LU分解降低复杂度:
W=PL(U+diag(s)) (8)
式中,P是计算后的通道排列矩阵,L为下三角矩阵,U为上三角矩阵,但是对角线元素为0,而s为对角矩阵,对角元素为W上三角矩阵的对角元素。即有log|det(W)|=sum(log|s|)。
3.5)建立仿射耦合层主要步骤如下:
3.5.1)运用函数split()沿着通道维度将输入的汽车图片张量x切分成两部分xa和xb,即:
xa,xb=split(x)
3.5.2)通过神经网络(log s,t)=NN(xb),线性组合得到ya=s⊙xa+t,即:
(log s,t)=NN(xb)
s=exp(log s)
ya=s⊙xa+t
式中,s和t不参与可逆变换,因此可以是任意复杂函数。
3.5.3)xb经过恒等变换,得到yb=xb
yb=xb
3.5.4)同时,运用函数concat()将ya和yb连接成一个输出的汽车图片张量y,即:
y=concat(ya,yb)
3.5.5)结合步骤一至四的过程,仿射耦合层的逆变换为:
ya,yb=split(y)
(log s,t)=NN(yb)
s=exp(log s)
xa=(ya-t)/s
xb=xb
x=concat(xa,xb)
3.5.6)利用神经网络(log s,t)=NN(yb)对汽车图像ya进行线性组合,求得对数行列式sum(log|s|)。。
4)构建因果流模型中的编码器Eθ,建立基于约束的因果网络算法,将汽车特征图片运用因果发现算法找到特征之间的因果关系,得到因果关系网络
Figure BDA0002673994530000191
利用/>
Figure BDA0002673994530000192
找到与可控汽车特征相关的直接原因,得到监督条件cs。/>
编码器Eθ在监督条件cs和无监督条件cu上构建潜在向量z的条件分布pθ(z),从而生成多样化潜在向量z的汽车图像样本。建立编码器Eθ的主要步骤如下:
4.1)发现汽车图像属性之间的因果网络,所用的因果网络算法为PC算法,一个有向无环图(DAG)G是由顶点集V={F1,F2,...,Fk}(对应汽车特征图片)和边集E(对应汽车图像属性特征之间的因果关系)组成,我们所考虑的图都是简单的,这意味着任何一对顶点之间最多只有一条边,要么是有向边(→),要么是无向边(-)。假设节点V中所有汽车图像属性之间具有条件独立信息,S为邻接点集合,是顶点集V的子集,我们使用符号Fi⊥Fj|S表示在条件S下,Fi独立于Fj,其中S是一组不包含Fi和Fj的顶点集,对于任意Fh∈S,当且仅当条件独立测试ρi,j|S=0,则Fi⊥Fj|S,即:
Figure BDA0002673994530000193
PC算法的主要步骤如下:
4.1.1)步骤一是邻接搜索。
首先,从一个完全无向图开始,任意一个Fh∈S,如果Fi⊥Fj|Fh,则删除Fi-Fj,将Fh保留在S(Fi,Fj)和S(Fj,Fi),直到所有的邻接点Fi和Fj完成了条件独立测试。
4.1.2)步骤二是确定边的方向。
4.1.2.1)考虑三元组无向边Fi-Fk-Fj,当且仅当
Figure BDA0002673994530000194
Figure BDA0002673994530000195
即Fi→Fk←Fj是一个V结构;
4.1.2.2)通过重复以下三个规则,将剩余的无向边尽可能的定向:
规则1:当存在有向边Fi→Fj时,将Fj-Fk定向为Fj→Fk,使得Fi和Fk不相邻,否则会产生一个新的V结构;
规则2:当存在链Fi→Fk→Fj时,将Fi-Fj定向为Fi→Fj,否则形成有向循环;
规则3:当存在两条链Fi-Fk→Fj和Fi-Fl→Fj时,将Fi-Fj定向为Fi→Fj,使得Fk和Fl不相邻,否则形成新的V结构或有向循环。
4.1.3)最终,得到一个有关汽车图片的完全部分有向无环图,即因果网络
Figure BDA0002673994530000201
有向边表示有直接的汽车属性因果关系,无向边表示汽车属性的因果关系不确定。
4.2)因果可控编码器
4.2.1)根据汽车属性得到的因果关系网络
Figure BDA0002673994530000202
将可控汽车属性与其直接原因汽车属性组合为监督条件cs,进行one-hot编码,编码器的所有可控条件信息表示为:
Figure BDA0002673994530000203
式中,cu表示汽车图像自动学习到的无监督条件。
4.2.2)编码器Eθ帮助在条件
Figure BDA0002673994530000204
上构建潜在向量z的条件分布pθ(z),从而生成多样化潜在向量z的可控汽车图像样本,即:
Figure BDA0002673994530000205
式中,∈表示为随机噪声。
4.2.3)为了让条件分布pθ(z)的JS散度最小,主要步骤如下:
4.2.3.1)先找到
Figure BDA0002673994530000206
的下界,即:
Figure BDA0002673994530000207
式中,定义p(z)=(pθ(z)+p*(z))/2。
4.2.3.2)得到
KL(pθ(z)||p(z))+KL(p*(z)||p(z))=JS(pθ(z)||p*(z)) (13)
4.2.3.3)最大化目标函数,使得pθ(z)的JS散度最小:
Figure BDA0002673994530000208
其中,借助判别器D,通过前向流模型可以推出真实潜在分布p*(z)。
4.2.4)编码器Eθ的损失为:
Figure BDA0002673994530000209
式中,D为监督模块中的判别器,下文将详细描述。
5)集成因果流模型中的监督模块,主要包括判别器D、分类器Cφ和解码器D。集成监督模块的主要步骤如下:
5.1)判别器D目的是将因果流模型生成的潜在向量与可逆流模型推出的真实的潜在向量区分开,其损失表示为:
Figure BDA0002673994530000211
5.2)分类器Cφ是为了衡量区分不同类别的分类能力,共享鉴别器Dφ的部分参数,并且通过激活函数softmax或者sigmoid函数输出不同的类概率。以特定汽车可控属性的交叉熵损失或二进制交叉熵损失来监督其训练。通过这样的神经网络参数化分类器,我们可以获得标记类的真实z和生成z的后验概率qφ(cs|z)。其损失表示为:
Figure BDA0002673994530000212
5.3)解码器D共享判别器D与分类器Cφ的部分参数,目的是从生成的潜在向量z中解码无监督条件cu,进行重构,生成可控的汽车图像。其损失表示为:
Figure BDA0002673994530000213
式中,p(cu)用二项分布来建模,损失设置为二叉熵损失。
6)使用L2正则化,最小化因果流模型的损失,让因果流模型的训练更稳定,其主要步骤如下:
6.1)运用两两特征匹配的正则化策略在相同条件下,真实的和假的汽车图像数据点之间使用L2损失,则两两特征匹配损失可表示为:
Figure BDA0002673994530000214
式中,
Figure BDA0002673994530000215
表示监督模块中间层的潜在向量的特征,z表示真实的潜在向量,z’表示生成的潜在向量。
6.2)基于因果流模型的最终目标是将损失最小化:
Figure BDA0002673994530000216
式中,判别器D、分类器Cφ、解码器D除了输出层外,监督模块的大部分参数都是共享的。

Claims (8)

1.基于因果流模型的可控汽车图像合成方法,其特征在于,包括以下步骤:
(1)获取原始汽车图像数据,并写入汽车图像数据集D中;对汽车图像数据集D进行预处理,得到汽车图像数据集D′=[D1,D2,....,Dx];X为汽车图像样本总数;Dx表示汽车图像样本;
(2)基于汽车图像数据集D′,建立可逆流模型pθ(x);x=D1,D2,....,Dx;所述可逆流模型pθ(x)用于对汽车图像样本x进行非线性变换,将高维的汽车图像样本x映射到潜在空间,得到独立的潜在向量z;
(3)根据可逆流模型pθ(x),建立可逆流模型pθ(x)的网络架构;所述网络架构包括激活归一化层、可逆1×1卷积层和仿射耦合层;可逆流模型pθ(x)的网络架构分为前向流网络和逆向流网络;
(4)将汽车图像样本x输入到可逆流模型pθ(x)的前向流网络中,得到潜在变量z′;
(5)建立基于约束的因果网络;根据因果网络建立汽车图像数据集D′特征之间的因果关系,得到因果关系网络
Figure QLYQS_1
(6)根据因果关系网络
Figure QLYQS_2
设置监督条件cs,并建立可控因果编码器Eθ
利用编码器Eθ在监督条件cs和无监督条件cu上构建潜在向量z的条件分布pθ(z);
利用条件分布pθ(z)生成多样化潜在向量z的汽车图像样本;
(7)建立监督模块,包括判别器D、分类器Cφ和解码器D;所述判别器D用于判别多样化潜在向量z的真实性;分类器Cφ用于对汽车图像类别进行分类;解码器D用于重构汽车图像自动学习到的无监督条件;
其中,判别器D、分类器Cφ和解码器D的损失利用L2正则化方法实现最小化;
(8)集成可逆流模型、监督模块和因果编码器,构建因果流模型,将潜在变量z′输入到因果流模型的逆向流网络中,输出可控的合成汽车图片y;
输出合成汽车图片y的步骤如下:
1)利用Squeeze函数增加汽车图像样本x的维数;汽车图像样本x原始维数为h×w×c;
2)激活归一化层对汽车图像样本x进行预处理,步骤如下:
2.1)把汽车图像样本x的通道c归一化为0平均值和单位方差的通道数据;
2.2)对汽车图像样本x和汽车图像y进行线性变换,即:
Figure QLYQS_3
式中,⊙表示矩阵相乘;(i,j)表示张量x和y的空间索引;s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数;
汽车图像样本x和汽车图像y的逆变换如下所示:
Figure QLYQS_4
其中,汽车图像样本x和汽车图像y的雅可比矩阵对
Figure QLYQS_5
对数行列式为h*w*∑log|s|;
3)可逆1×1卷积层利用c×1权重矩阵对汽车图像样本x的通道c进行加权,叠加c个权重矩阵,混合可逆流模型通道,步骤如下:
3.1)建立汽车图像样本x和汽车图像y的变换关系式,即:
Figure QLYQS_6
式中,W为c×c权重矩阵;
汽车图像样本x和汽车图像y逆变换如下所示:
Figure QLYQS_7
3.2)计算权重矩阵W的对数行列式
Figure QLYQS_8
即:
Figure QLYQS_9
3.3)对权重矩阵W进行LU分解,降低对数行列式计算的复杂度;分解后的权重矩阵W如下所示:
W=PL(U+diag(s″)) (6)
式中,P是计算后的通道排列矩阵;L为下三角矩阵;U为上三角矩阵,其对角线元素为0;s″为对角矩阵,对角元素为权重矩阵W上三角矩阵的对角元素;log|det(W)|=sum(log|s″|);
4)建立仿射耦合层,步骤如下:
4.1)运用函数split()沿着通道维度将输入的汽车图像张量x切分成两部分,分别记为汽车图像xa和汽车图像xb,即:
xa,xb=split(x) (7)
4.2)利用神经网络(log s,t)=NN(xb)对汽车图像xa进行线性组合,得到汽车图像ya=s’⊙xa+t;其中,参数s′=exp(log s);函数NN()是非线性映射函数;参数s′和参数t不参与可逆变换;
4.3)对汽车图像xb进行恒等变换,得到汽车图像yb=xb
4.4)利用函数concat()将汽车图像ya和汽车图像yb连接成一个输出的汽车图像张量y,即:
y=concat(ya,yb) (8)
其中,仿射耦合层的逆变换如公式:
ya,yb=split(y) (9)
(log s,t)=NN(yb) (10)
s′=exp(log s) (11)
xa=(ya-t)/s′ (12)
xb=xb (13)
x=concat(xa,xb) (14)
4.5)利用公式(10)对汽车图像ya进行线性组合,求得对数行列式sum(log|S|),并根据对数行列式sum(log|S|)计算得到概率分布函数pθ(x)。
2.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,所述原始汽车图像数据为斯坦福汽车图像数据;所述斯坦福汽车图像根据年份、制造商、型号进行分类。
3.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,对汽车图像数据集D进行预处理的步骤如下:
1)提取汽车图像的序号、图像名和类别名;
2)删除汽车图像数据集D中的灰度汽车图像;删除汽车图像数据集D中长宽像素比小于h的汽车图像;删除汽车图像数据集D中图像字节数小于Hkb的汽车图像;
3)将汽车图像数据集D中汽车图像像素统一为n×n,得到汽车图像数据集D′;
4)为汽车图像数据集D′中每张汽车图像添加属性标注;所述属性标注包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。
4.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,构建可逆流模型的步骤如下:
1)记用于拟合汽车图像样本x的概率分布函数为pθ(x);
其中,概率分布函数pθ(x)的最小化对数似然函数
Figure QLYQS_10
如下所示:
Figure QLYQS_11
式中,x为汽车图像数据集D′中的任意元素;N为汽车图像样本数量;x(i)表示第i个汽车图像样本;
2)建立可逆的映射函数fθ(x),令:
z~pθ(z) (16)
x=gθ(z) (17)
式中,z是潜在向量;pθ(z)是潜在向量z的先验概率分布;函数gθ(z)是映射函数fθ(z)的反函数;
3)建立汽车图像样本x与潜在向量z的关系式,即:
Figure QLYQS_12
式中,hk是根据映射函数fk生成的过程向量;k=1,2,…,K;K为映射函数数量;
Figure QLYQS_13
表示可逆映射;
4)计算概率分布pθ(x)的概率密度函数,即:
Figure QLYQS_14
式中,
Figure QLYQS_15
表示等价于;标量值/>
Figure QLYQS_16
是雅可比矩阵/>
Figure QLYQS_17
的行列式绝对值的对数值;参数/>
Figure QLYQS_18
其中,标量值
Figure QLYQS_19
如下所示:
Figure QLYQS_20
式中,sum()是所有向量元素的和;log()是对数的元素,diag()是雅可比矩阵的对角线。
5.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,建立因果关系网络
Figure QLYQS_21
的步骤如下:
1)按照汽车属性标注将汽车图像数据集D′每个元素分割为若干汽车特征图像;以所有汽车特征图像为顶点,建立顶点集V={F1,F2,...,Fk};Fk为第k幅汽车特征图像所对应的顶点;将顶点集V中相邻顶点连接起来;
2)对邻接点进行条件独立测试:S为邻接点集合,是顶点集V的子集,任选顶点Fh∈S,若存在Fi⊥Fj|Fh,则删除无向边Fi-Fj,并将Fh保留在集合S(Fi,Fj)和集合S(Fj,Fi)中;Fi、Fj为顶点;
3)重复步骤2),直至顶点Fh的所有邻接点均完成了条件独立测试;
4)重复步骤2)和步骤3),完成顶点集V中所有顶点的邻接点条件独立测试,得到无向因果网络;
5)确定无向因果网络中边的方向,步骤如下:
5.1)确定三元组无向边Fi-Fk-Fj,当且仅当
Figure QLYQS_22
时,顶点Fi、顶点Fk和顶点Fj的有向边为Fi→Fk←Fj;Fi→Fk表示顶点Fi指向顶点Fk;-表示无向边;→表示有向边;有向边表示有直接的汽车属性因果关系;无向边表示汽车属性的因果关系不确定;
5.2)对无向因果网络其他无向边进行定向,得到因果网络
Figure QLYQS_23
定向规则如下:
I)当存在有向边Fi→Fj时,将无向边Fj-Fk定向为有向边Fj→Fk,使得Fi和Fk不相邻;
II)当存在链Fi→Fk→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj
III)当存在两条链Fi-Fk→Fj和Fi-Fl→Fj时,将无向边Fi-Fj定向为有向边Fi→Fj,使得顶点Fk和顶点Fl不相邻。
6.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,建立可控因果编码器Eθ的步骤如下:
1)根据汽车属性得到的因果关系网络
Figure QLYQS_24
将汽车图像属性与其直接因果关系汽车属性组合为监督条件cs,进行one-hot编码,编码器的所有可控条件信息/>
Figure QLYQS_25
如下所示:
Figure QLYQS_26
式中,cu表示汽车图像自动学习到的无监督条件;
Figure QLYQS_27
为可控条件;
2)构建潜在向量z的条件分布pθ(z),即:
Figure QLYQS_28
式中,∈表示为随机噪声;
3)对条件分布pθ(z)进行优化,令条件分布pθ(z)的JS散度最小,步骤如下:
3.1)确定可控条件信息
Figure QLYQS_29
的下界约束,即:
Figure QLYQS_30
式中,条件分布p(z)=(pθ(z)+p*(z))/2;KL(pθ(z)||p(z))为KL散度;p*(z)为真实潜在分布;
Figure QLYQS_31
为分布函数;
3.2)计算条件分布pθ(z)的JS散度JS(pθ(z)||p*(z)),即:
KL(pθ(z)||p(z))+KL(p*(z)||p(z))=JS(pθ(z)||p*(z)) (24)
式中,KL(p*(z)||p(z))为KL散度;
3.3)建立目标函数,即:
Figure QLYQS_32
式中,真实潜在分布p*(z)由判别器D建立;
3.4)最大化目标函数(25),令条件分布pθ(z)的JS散度达到最小;
4)计算编码器Eθ的损失
Figure QLYQS_33
即:
Figure QLYQS_34
式中,D为监督模块中的判别器。
7.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,判别器D损失
Figure QLYQS_35
如下所示:
Figure QLYQS_36
式中,条件分布p(z)=(pθ(z)+p*(z))/2;p*(z)为真实潜在分布;pθ(z)为潜在向量z的条件分布;
Figure QLYQS_37
为分布函数;
分类器Cφ损失
Figure QLYQS_38
如下所示:
Figure QLYQS_39
解码器D损失如下所示:
Figure QLYQS_40
式中,p(cu)用二项分布来建模,损失设置为二叉熵损失;qφ(cu|z)为分布函数。
8.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法,其特征在于,最小化监督模块损失的步骤如下:
1)计算真实的和假的汽车图像数据点的两两特征匹配损失
Figure QLYQS_41
即:
Figure QLYQS_42
式中,
Figure QLYQS_43
表示监督模块中间层的潜在向量的特征;z表示真实的潜在向量,z’表示生成的潜在向量;
2)建立目标函数,即最小化损失
Figure QLYQS_44
Figure QLYQS_45
式中,λS为系数。
CN202010942153.3A 2020-09-09 2020-09-09 基于因果流模型的可控汽车图像合成方法 Active CN112102156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010942153.3A CN112102156B (zh) 2020-09-09 2020-09-09 基于因果流模型的可控汽车图像合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010942153.3A CN112102156B (zh) 2020-09-09 2020-09-09 基于因果流模型的可控汽车图像合成方法

Publications (2)

Publication Number Publication Date
CN112102156A CN112102156A (zh) 2020-12-18
CN112102156B true CN112102156B (zh) 2023-06-09

Family

ID=73751132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010942153.3A Active CN112102156B (zh) 2020-09-09 2020-09-09 基于因果流模型的可控汽车图像合成方法

Country Status (1)

Country Link
CN (1) CN112102156B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912259B (zh) * 2023-09-14 2023-11-24 江西财经大学 针对计算摄影图像的图像色彩感知差异评价方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488537A (zh) * 2015-12-11 2016-04-13 中国航空工业集团公司西安飞机设计研究所 一种基于Petri网的部件故障属性表征方法
CN107563596A (zh) * 2017-08-03 2018-01-09 清华大学 一种基于贝叶斯因果网络的评价指标均衡态分析方法
CN109800881A (zh) * 2019-01-15 2019-05-24 合肥工业大学 一种基于贝叶斯网络的因果关系判定方法
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services
CN105488537A (zh) * 2015-12-11 2016-04-13 中国航空工业集团公司西安飞机设计研究所 一种基于Petri网的部件故障属性表征方法
CN107563596A (zh) * 2017-08-03 2018-01-09 清华大学 一种基于贝叶斯因果网络的评价指标均衡态分析方法
CN109800881A (zh) * 2019-01-15 2019-05-24 合肥工业大学 一种基于贝叶斯网络的因果关系判定方法
CN110110745A (zh) * 2019-03-29 2019-08-09 上海海事大学 基于生成对抗网络的半监督x光图像自动标注

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Angel Vázquez-Patiño 等.A causal flow approach for the evaluation of global climate models.《International Journal of Climatology》.2020,第1-21页. *
Predicting Cancer Risks By A Constraint-Based Causal Network;Xuewen Yan 等;《2020 IEEE International Conference on Multimedia and Expo (ICME)》;20200609;第1-6页 *
基于混合因果网络的配电变电站故障诊断;孙雅明 等;《电力系统自动化》;20050115;第28卷(第13期);第26-30页 *
基于混合因果网络的配电变电站故障诊断的研究;吕鹏;《中国优秀博硕士学位论文全文数据库 (硕士) 工程科技Ⅱ辑》;20050315(第01期);第C042-292页 *
基于贝叶斯网络分类的土壤盐渍化遥感监测;海米提.司马依 等;《云南环境科学》;20061225;第25卷(第04期);第52-55页 *

Also Published As

Publication number Publication date
CN112102156A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN111914907B (zh) 一种基于深度学习空谱联合网络的高光谱图像分类方法
Furukawa SOM of SOMs
CN113379655B (zh) 一种基于动态自注意力生成对抗网络的图像合成方法
CN113378971B (zh) 近红外光谱的分类模型训练方法、系统及分类方法、系统
CN111738313B (zh) 一种基于多重网络合作的零样本学习算法
Suo et al. Structured dictionary learning for classification
CN109712150A (zh) 基于稀疏表示的光学微波图像融合重建方法和装置
Ichien et al. Visual analogy: Deep learning versus compositional models
CN112614070B (zh) 一种基于DefogNet的单幅图像去雾方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN116682021A (zh) 一种高分辨率遥感影像建筑物矢量轮廓数据提取方法
Qu et al. Perceptual-DualGAN: perceptual losses for image to image translation with generative adversarial nets
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN112102156B (zh) 基于因果流模型的可控汽车图像合成方法
CN115457183A (zh) 序列化草图生成与重建模型训练方法、重建方法及装置
CN111353988A (zh) Knn动态自适应的双图卷积图像分割方法和系统
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
CN114445665A (zh) 基于Transformer增强的非局部U形网络的高光谱影像分类方法
Sun et al. Vehicle attribute recognition algorithm based on multi-task learning
CN114913368A (zh) 基于自步双向对抗学习的融合遥感图像分类方法
Zhu et al. Computer image analysis for various shading factors segmentation in forest canopy using convolutional neural networks
CN112651329B (zh) 一种双流特征学习生成对抗网络的低分辨率船舶分类方法
Xie et al. Hyperspectral Intrinsic Image Decomposition Based on Physical Prior Driven Unsupervised Learning
CN113962262A (zh) 一种基于连续学习的雷达信号智能分选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant