CN112102156B

CN112102156B - 基于因果流模型的可控汽车图像合成方法

Info

Publication number: CN112102156B
Application number: CN202010942153.3A
Authority: CN
Inventors: 廖军; 颜学文; 刘礼
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2023-06-09
Anticipated expiration: 2040-09-09
Also published as: CN112102156A

Abstract

本发明公开基于因果流模型的可控汽车图像合成方法，步骤为：1)获取原始汽车图像数据；2)建立可逆流模型p_θ(x)；3)建立可逆流模型p_θ(x)的网络架构；4)输出汽车图像y；5)建立因果关系网络

6)根据因果关系网络

设置监督条件c_s，并建立可控因果编码器E_θ；7)建立监督模块；8)输出合成汽车图片。本发明在原始流模型的基础上，加入了因果网络，能增强监督条件，进而生成符合预期目标的可控汽车图像。

Description

基于因果流模型的可控汽车图像合成方法

技术领域

本发明涉及图像处理技术领域，具体是基于因果流模型的可控汽车图像合成方法。

背景技术

如今汽车普及度越来越高，汽车保有量大幅提升，积累了大量的汽车图像数据，如何分析这些数据提取有用价值？对于生产商来说，需要分出商品线和市场竞争；对于消费者来说，需要明确购买方向；对于社会来说，需要方便管理规划。合理的利用数据将有效节省人力资源，推进汽车产业智能化发展。

随着深度学习技术不断发展，图像处理方面的研究已经十分成熟了，但是图像可控合成技术多用于人脸识别、军事应用、医学图像等领域，且通用性差，对于汽车图像的研究少之又少，因此，研究汽车图像的可控方法越来越受到人们的关注。目前基于深度学习的合成算法使用大量的图像来训练网络，例如生成对抗网络(GAN)，并利用这些网络进行条件图像合成，虽然取得了较好的性能，但仍存在着没有显式的编码器将图像映射到潜在空间，而变分自编码器(VAE)可以做到这一点，但生成的图像往往很模糊。这些问题仍然存在于可控生成的研究课题中。

目前存在一种基于流模型和条件编码器的深度学习架构可以克服上述缺点，流模型的图像空间与潜在空间映射的可逆性、精确对数似然在图像合成中拥有着巨大的潜力，在条件编码器中，将编码输入属性标注作为监督条件作为生成图像中的可控因素，可以保存可控信息，这样的模型必须在图像的分布和潜在向量之间进行双射映射，即其潜在维数必须与可见维数匹配，但是没有办法将条件信息与图像连接到完整的模型中。因此，一个直接的想法就是在优化目标中添加有类依赖化的正则化，但是，当遇到复杂的情况时，模型训练往往会失败，这一现象产生的原因就是潜在空间上的图像条件的底层分布难以精确测量，且存在多目标的情况。

发明内容

本发明的目的是提供基于因果流模型的可控汽车图像合成方法，包括以下步骤：

1)获取原始汽车图像数据，并写入汽车图像数据集D中。对汽车图像数据集D进行预处理，得到汽车图像数据集D′＝[D₁，D₂，....，D_X]。X为汽车图像样本总数。D_X表示汽车图像样本。

所述原始汽车图像数据为斯坦福汽车图像数据。所述斯坦福汽车图像根据年份、制造商、型号进行分类。

对汽车图像数据集D进行预处理的步骤如下：

1.1)提取汽车图像的序号、图像名和类别名。

1.2)删除汽车图像数据集D中的灰度汽车图像。删除汽车图像数据集D中长宽像素比小于h的汽车图像。删除汽车图像数据集D中图像字节数小于Hkb的汽车图像。

1.3)将汽车图像数据集D中汽车图像像素统一为n×n，得到汽车图像数据集D′。

1.4)为汽车图像数据集D′中每张汽车图像添加属性标注。所述属性包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。

2)基于汽车图像数据集D′，建立可逆流模型p_θ(x)。所述可逆流模型p_θ(x)用于对汽车图像样本x进行非线性变换，将高维的汽车图像样本x映射到潜在空间，得到独立的潜在向量z。所述非线性变换可逆。x＝D₁，D₂，....，D_X。

构建可逆流模型的步骤如下：

2.1)记用于拟合汽车图像样本x的概率分布函数为p_θ(x)。

其中，概率分布函数p_θ(x)的最小化对数似然函数如下所示：

式中，x为汽车图像数据集D′中的任意元素。N为汽车图像样本数量。x⁽ⁱ⁾表示第i个汽车图像样本；

2.2)建立可逆的映射函数f_θ(x)，令：

z～p_θ(z) (2)

x＝g_θ(z) (3)

式中，z是潜在向量。p_θ(z)是潜在向量z的先验概率分布。函数g_θ(x)是f_θ(x)的反函数。

2.3)建立汽车图像样本x与潜在向量z的关系式，即：

式中，h_k是根据映射函数f_k生成的过程向量。k＝1，2，…，K。K为映射函数数量。

表示可逆映射。

2.4)计算概率分布p_θ(x)的概率密度函数，即：

式中，

表示等价于；标量值/>

是雅可比矩阵

的行列式绝对值的对数值。参数/>

其中，标量值

如下所示：

式中，sum()是所有向量元素的和。log()是对数的元素，diag()是雅可比矩阵的对角线。

3)根据可逆流模型p_θ(x)，建立可逆流模型p_θ(x)的网络架构。所述网络架构包括激活归一化层、可逆1×1卷积层和仿射耦合层。

4)将汽车图像样本x输入到可逆流模型p_θ(x)网络架构的前向流网络中，得到潜在变量z；

5)建立基于约束的因果网络。根据因果网络建立汽车图像数据集D′特征之间的因果关系，得到因果关系网络

建立因果关系网络

的步骤如下：

5.1)按照汽车属性标注将汽车图像数据集D′每个元素分割为若干汽车特征图像。以所有汽车特征图像为顶点，建立顶点集V＝{F¹，F²，...，F^k}。F^k为第k幅汽车特征图像所对应的顶点。将顶点集V中相邻顶点连接起来。

5.2)对邻接点进行条件独立测试：S为邻接点集合，是顶点集V的子集，任选顶点F^h∈S，Fⁱ、F^j为顶点，若存在Fⁱ⊥F^j|F^h，则删除无向边Fⁱ-F^j，并将F^h保留在集合S(Fⁱ，F^j)和集合S(F^j，Fⁱ)中。

5.3)重复步骤5.2)，直至顶点F^h的所有邻接点均完成了条件独立测试。

5.4)重复步骤5.2)和步骤5.3)，完成顶点集V中所有顶点的邻接点条件独立测试，得到无向因果网络。

5.5)确定无向因果网络中边的方向，步骤如下：

5.5.1)确定三元组无向边Fⁱ-F^k-F^j，当且仅当

时，顶点Fⁱ、顶点F^k和顶点F^j的有向边为Fⁱ→F^k←F^j。Fⁱ→F^k表示顶点Fⁱ指向顶点F^k。-表示无向边。→表示有向边。有向边表示有直接的汽车属性因果关系。无向边表示汽车属性的因果关系不确定。

5.5.2)对无向因果网络其他无向边进行定向，得到因果网络

定向规则如下：

I)当存在有向边Fⁱ→F^j时，将无向边F^j-F^k定向为有向边F^j→F^k，使得Fⁱ和F^k不相邻。

II)当存在链Fⁱ→F^k→F^j时，将无向边Fⁱ-F^j定向为有向边Fⁱ→F^j。

III)当存在两条链Fⁱ-F^k→F^j和Fⁱ-F^l→F^j时，将无向边Fⁱ-F^j定向为有向边Fⁱ→F^j，使得顶点F^k和顶点F^l不相邻。

6)根据因果关系网络

设置监督条件c_s，并建立可控因果编码器E_θ。

利用编码器E_θ在监督条件c_s和无监督条件c_u上构建潜在向量z的条件分布p_θ(z)。

利用条件分布p_θ(z)生成多样化潜在向量z的汽车图像样本。

建立可控因果编码器E_θ的步骤如下：

6.1)根据汽车属性得到的因果关系网络

将汽车图像属性与其直接因果关系汽车属性组合为监督条件c_s，进行one-hot编码，编码器的所有可控条件信息/>

如下所示：

式中，c_u表示汽车图像自动学习到的无监督条件。

为可控条件。

6.2)构建潜在向量z的条件分布p_θ(z)，即：

/>

式中，∈表示为随机噪声。

6.3)对条件分布p_θ(z)进行优化，令条件分布p_θ(z)JS散度最小，步骤如下：

6.3.1)确定可控条件信息

的下界约束，即：

式中，条件分布p(z)＝(p_θ(z)+p^*(z))/2。KL(p_θ(z)||p(z))为KL散度；p^*(z)为真实潜在分布；E为分布函数；

6.3.2)计算条件分布p_θ(z)的散度JS(p_θ(z)||p^*(z))，即：

KL(p_θ(z)||p(z))+KL(p^*(z)||p(z))＝JS(p_θ(z)||p^*(z)) (10)

式中，KL(p^*(z)||p(z))为KL散度；

6.3.3)建立目标函数，即：

式中，真实潜在分布p^*(z)由判别器D_iφ建立。

6.3.4)最大化目标函数(25)，令条件分布p_θ(z)JS散度达到最小。

6.4)计算编码器E_θ的损失

即：

式中，D_iφ为监督模块中的判别器。

7)建立监督模块，包括判别器D_iφ、分类器C_φ和解码器D_eφ。所述判别器D_iφ用于判别多样化潜在向量z的真实性。分类器C_φ用于对汽车图像类别进行分类。解码器D_eφ用于重构汽车图像自动学习到的无监督条件，进而输出合成汽车图片。

其中，判别器D_iφ、分类器C_φ和解码器D_eφ的损失利用L2正则化方法实现最小化。

判别器D_iφ损失

如下所示：

分类器C_φ损失

如下所示：

解码器D_eφ损失如下所示：

式中，p(c_u)用二项分布来建模，损失设置为二叉熵损失。q_φ(c_u|z)为分布函数。

最小化监督模块损失的步骤如下：

1)计算真实的和假的汽车图像数据点的两两特征匹配损失

即：

/>

式中，

表示监督模块中间层的潜在向量的特征。z表示真实的潜在向量，z’表示生成的潜在向量。

2)建立目标函数，即最小化损失

式中，系数

8)集成可逆流模型、监督模块和因果编码器，构建因果流模型，将潜在变量z输入到因果流模型的逆向流网络中，输出可控的合成汽车图片y。

输出合成汽车图片y的步骤如下：

8.1)利用Squeeze函数增加汽车图像样本x的维数。汽车图像样本x原始维数为h×w×c。squeeze函数用于删除矩阵中的单一维。

8.2)激活归一化层对汽车图像样本x进行预处理，步骤如下：

8.2.1)把汽车图像样本x的通道c归一化为0平均值和单位方差的通道数据。

8.2.2)对汽车图像样本x和汽车图像y进行线性变换，即：

式中，⊙表示矩阵相乘。(i，j)表示张量x和y的空间索引。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。

汽车图像样本x和汽车图像y的逆变换如下所示：

其中，汽车图像样本x和汽车图像y的雅可比矩阵对

对数行列式为h*w*∑log|s|。

8.3)可逆1×1卷积层利用c×1权重矩阵对汽车图像样本x的通道c进行加权，叠加c个权重矩阵，混合可逆流模型通道，步骤如下：

8.3.1)建立汽车图像样本x和汽车图像y的变换关系式，即：

式中，W为c×c权重矩阵。

汽车图像样本x和汽车图像y逆变换如下所示：

8.3.2)计算权重矩阵W的对数行列式

即：

8.3.3)对权重矩阵W进行LU分解，降低对数行列式计算的复杂度。分解后的权重矩阵W如下所示：

W＝PL(U+diag(s)) (23)

式中，P是计算后的通道排列矩阵。L为下三角矩阵。U为上三角矩阵，其对角线元素为0。而s为对角矩阵，对角元素为W上三角矩阵的对角元素。log|det(W)|＝sum(log|s|)。

8.4)建立仿射耦合层，步骤如下：

8.4.1)运用函数split()沿着通道维度将输入的汽车图像张量x切分成两部分，分别记为汽车图像x_a和汽车图像x_b，即：

x_a，x_b＝split(x) (24)

8.4.2)利用神经网络(log s，t)＝NN(x_b)对汽车图像x_a进行线性组合，得到汽车图像y_a＝s⊙x_a+t。其中，参数s＝exp(log s)。函数NN()是非线性映射函数。参数s和参数t不参与可逆变换。

8.4.3)对汽车图像x_b进行恒等变换，得到汽车图像y_b＝x_b。

8.4.4)利用函数concat()将汽车图像y_a和汽车图像y_b连接成一个输出的汽车图像张量y，即：

y＝concat(y_a，y_b) (25)

其中，仿射耦合层的逆变换如公式：

y_a，y_b＝split(y) (26)

(log s，t)＝NN(y_b) (27)

s＝exp(log s) (28)

x_a＝(y_a-t)/s (29)

x_b＝x_b (30)

x＝concat(x_a，x_b) (31)

8.4.5)利用公式(27)对汽车图像y_a进行线性组合，求得对数行列式sum(log|s|)，并根据对数行列式sum(log|s|)计算得到概率分布函数p_θ(x)，更新可逆流模型。

本发明的技术效果是毋庸置疑的，本发明目的在于实现汽车图像的可控生成，运用流模型实现汽车图像的生成，同时因果编码器实现对属性的可控，通过找到属性特征之间的因果关系，从而得到可控属性的直接原因，得到精确的可控条件的分布，避免多目标破坏模型训练稳定性；本发明在原始流模型的基础上，加入了因果网络，能增强监督条件，进而生成符合预期目标的可控汽车图像。由此可见，本发明设计原理可靠，前景是广阔的，具有突出的实质性特点和较高的实用性。

附图说明

图1为基于因果流模型的可控汽车图像合成方法的整体模型架构图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

基于因果流模型的可控汽车图像合成方法，包括以下步骤：

对汽车图像数据集D进行预处理的步骤如下：

1.1)提取汽车图像的序号、图像名和类别名。

构建可逆流模型的步骤如下：

2.1)记用于拟合汽车图像样本x的概率分布函数为p_θ(x)。

其中，概率分布函数p_θ(x)的最小化对数似然函数如下所示：

2.2)建立可逆的映射函数f_θ(x)，令：

z～p_θ(z) (2)

x＝g_θ(z) (3)

2.3)建立汽车图像样本x与潜在向量z的关系式，即：

表示可逆映射。

2.4)计算概率分布p_θ(x)的概率密度函数，即：

式中，

表示等价于。标量值/>

是雅可比矩阵/>

的行列式绝对值的对数值。参数/>

其中，标量值

如下所示：

建立因果关系网络

的步骤如下：

5.2)对邻接点进行条件独立测试：S为邻接点集合，是顶点集V的子集，任选顶点F^h∈S，Fⁱ、F^j为顶点，任选顶点F^h∈S，若存在Fⁱ⊥F^j|F^h，则删除无向边Fⁱ-F^j，并将F^h保留在集合S(Fⁱ，F^j)和集合S(F^j，Fⁱ)中。

5.5)确定无向因果网络中边的方向，步骤如下：

5.5.1)确定三元组无向边Fⁱ-F^k-F^j，当且仅当

5.5.2)对无向因果网络其他无向边进行定向，得到因果网络

定向规则如下：

6)根据因果关系网络

设置监督条件c_s，并建立可控因果编码器E_θ。

利用条件分布p_θ(z)生成多样化潜在向量z的汽车图像样本。

建立可控因果编码器E_θ的步骤如下：

6.1)根据汽车属性得到的因果关系网络

如下所示：

式中，cu表示汽车图像自动学习到的无监督条件。

为可控条件。

6.2)构建潜在向量z的条件分布p_θ(z)，即：

式中，∈表示为随机噪声。

6.3.1)确定可控条件信息

的下界约束，即：

式中，条件分布p(z)＝(p_θ(z)+p^*(z))/2。K_L(p_θ(z)||p(z))为p_θ(z)和p(z)的KL散度；p^*(z)为真实潜在分布；E为分布函数；

6.3.2)计算条件分布p_θ(z)的散度JS(p_θ(z)||p*(z))，即：

KL(p_θ(z)||p(z))+KL(p^*(z)||p(z))＝JS(p_θ(z)||p^*(z)) (10)

式中，KL(p^*(z)||p(z))为p^*(z)和p(z)的KL散度；

6.3.3)建立目标函数，即：

式中，真实潜在分布p^*(z)由判别器D_iφ建立。

6.3.4)最大化目标函数(25)，令条件分布p_θ(z)JS散度达到最小。

6.4)计算编码器E_θ的损失

即：

式中，D_iφ为监督模块中的判别器。

判别器D_iφ损失

如下所示：

分类器C_φ损失

如下所示：

解码器D_eφ损失如下所示：

最小化监督模块损失的步骤如下：

1)计算真实的和假的汽车图像数据点的两两特征匹配损失

即：

式中，

2)建立目标函数，即最小化损失

式中，系数

|S|表示S数值。

8)集成可逆流模型、监督模块和因果编码器，构建因果流模型，将潜在变量z输入到因果流模型的逆向流网络中，输出可控的合成汽车图片。

因果可逆流模型包括可逆流模型、监督模块、因果网络编码器，可逆流模型只包括激活归一化层、可逆1×1卷积层和仿射耦合层，除去这三层，另外的监督模块和因果网络模块是独立的。

可逆流模型的作用是作为一个中介来合成图像的，起到可控作用的是因果编码器(简单理解为就是操纵潜在变量z)，监督模块是把可控条件和合成图像结合起来。

输出汽车图像y的步骤如下：

8.1)利用Squeeze函数增加汽车图像样本x的维数。汽车图像样本x原始维数为h×w×c。h、w、c为汽车图像样本的三维尺寸。

8.2)激活归一化层对汽车图像样本x进行预处理，步骤如下：

8.2.2)对汽车图像样本x和汽车图像y进行线性变换，即：

式中，⊙表示矩阵相乘。(i，j)表示张量x和y的空间索引。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。x_i，j和y_i，j为在空间索引(i，j)下对应的汽车图像样本张量和汽车图像张量。

汽车图像样本x和汽车图像y的逆变换如下所示：

其中，汽车图像样本x和汽车图像y的雅可比矩阵对

对数行列式为h*w*∑log|s|。

8.3.1)建立汽车图像样本x和汽车图像y的变换关系式，即：

式中，W为c×c权重矩阵。

汽车图像样本x和汽车图像y逆变换如下所示：

8.3.2)计算权重矩阵W的对数行列式

即：

W＝PL(U+diag(s)) (23)

8.4)建立仿射耦合层，步骤如下：

x_a，x_b＝split(x) (24)

8.4.3)对汽车图像x_b进行恒等变换，得到汽车图像y_b＝x_b。

y＝concat(y_a，y_b) (25)

其中，仿射耦合层的逆变换如公式：

y_a，y_b＝split(y) (26)

(log s，t)＝NN(y_b) (27)

s＝exp(log s) (28)

x_a＝(y_a-t)/s (29)

x_b＝x_b (30)

x＝concat(x_a，x_b) (31)

8.4.5)利用公式(27)对汽车图像y_a进行线性组合，求得对数行列式sum(log|s|)。计算对数行列式sum(log|s|)是为了计算公式(5)的概率函数，也就是汽车图像的可逆变换函数，即公式(4)中的f1，f2...fk。每一次变换也就是每一层，都有对应的合适的可逆变换函数(公式5)，对应的就是要计算雅克比行列式，可以简化为求公式(6)，进而计算每一层的对数行列式，更新可逆变换函数。

实施例2：

参见图1，基于因果流模型的可控汽车图像合成方法，主要包括以下步骤：

1)获取原始汽车图片数据，对数据集

进行预处理。所述的汽车图片数据为斯坦福汽车图像数据，包括196类共16185张图片，每个类别包括年份、制造商和型号。

进一步，对汽车图片数据进行预处理的主要步骤为：

1.1)提取数据中的序号、图片名、类别名；

1.2)删除汽车图片数据集中的灰度图、长宽像素比小于0.3、图片字节数小于10kb。

1.3)将图片固定像素大小为64×64。

1.4)每张汽车图像包含15个二进制的属性标注，包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。

2)构建因果流模型中的可逆流模型。

进一步，对输入的原始汽车图片x进行一个非线性变换，同时这个变换是可逆的，通过这个变换将输入的高维汽车图片x映射到潜在空间，产生独立的潜在向量z，主要步骤为：

2.1)用一个概率模型，即带参数θ的分布p_θ(x)，来拟合所给的汽车图片样本。假设x是一个高维随机向量，x的真实分布p^*(x)是未知的。我们选择汽车图片数据集

有参数θ的概率模型p_θ(x)，那么，对于一张汽车图片x，求得p_θ(x)，需要最小化对数似然函数，即：

2.2)为了实现潜在空间之间的映射，找到可逆的映射函数f，使得

z～p_θ(z) (2)

x＝g_θ(z) (3)

式中，z是潜在向量，p_θ(z)是先验概率分布，如球面多元高斯分布

函数g_θ(x)是f_θ(x)的反函数，是可逆的，也叫做双射。

2.3)给定汽车图片x，通过

来推理潜在向量z。函数f(和函数g)是由一系列变换组成的函数：f＝f₁°f₂°…°f_K，使汽车图片x与潜在向量z的关系可以写成：

式中，h是根据变换函数f生成的过程向量。

2.4)这样的可逆变换序列叫做流，对公示(3)中的变量进行变换，对于汽车图片x，p_θ(x)的概率密度函数如下所示：

/>

式中，

和/>

标量值/>

是雅可比矩阵/>

的行列式绝对值的对数值，该值是基于变换函数f_i从h_i-1到h_i时对数行列式的变化。

2.5)由于可逆的映射难度较大，引入雅可比矩阵

为一个三角矩阵辅助实现映射，对数行列式计算如下所示：

式中sum()是所有向量元素的和，log()是对数的元素，diag()是雅可比矩阵的对角线。

2.6)最后，log p_θ(x)是可求解的，并且函数f容易求逆，概率模型p_θ(x)训练完成，我们求得函数g，采样出一个汽车图片，这就是生成模型，即可逆流模型。

3)依据可逆流模型的构建原理，建立可逆流模型的网络架构，主要步骤为：

3.1)可逆流模型的网络框架由激活归一化(Activation Normalization)、可逆的1×1卷积(1×1Convolution)和仿射耦合层(Affine Coupling)组成：设定汽车图片x是该层的输入，汽车图片y是该层的输出，x和y均为具有空间尺寸(h，w)和通道尺寸c的形状[h×w×c]的张量，(i，j)表示张量x和y的空间索引。设定函数NN()是非线性映射。

3.2)Squeeze用于重构汽车图像的维度大小。为了增加通道轴的维数，在不损失空间上的局部相关性下，局部的改变汽车图像的尺寸。具体来说，假设原来汽车图像为h×w×c大小，前两个轴是空间维度，然后沿着空间维度分为一个个2×2×c的块(这个2可以自定义)，然后将每个块直接重构为1×1×4c，也就是说最后变成了h/2×w/2×4c。

3.3)激活归一化层使用每个通道的尺度和偏差参数执行激活函数的仿射变换，类似于批处理归一化。初始化这些参数，使得在给定初始汽车图片数据小批量的情况下，每个通道激活归一化后的激活值具有零均值和单位方差。初始化后，尺度和偏差为与数据无关的常规可训练参数。激活归一化可以理解为对输入汽车图片数据做预处理，整个过程的主要步骤如下：

3.3.1)把汽车图片x的通道c归一化为0平均值和单位方差的通道数据后，进行线性变换，即：

式中，⊙表示矩阵相乘。s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数。

3.3.2)线性变换的逆变换为：

3.3.3)其雅可比矩阵对

对数行列式为h*w*∑log|s|。

3.4)可逆1×1卷积层主要利用c×1权重矩阵对张量x的通道c加权得到新的通道，叠加c个权重矩阵，最终尺寸通道不变，以达到流模型混合通道的目的，整个过程的主要步骤如下：

3.4.1)整个过程h×w×c张量h与c×c权重矩阵W的可逆1×1卷积的对数行列式很容易计算，即：

3.4.2)其逆变换为：

3.4.3)其对数行列式计算为：

3.4.4)由于计算det(W)的复杂度是O(c)³，使用LU分解降低复杂度：

W＝PL(U+diag(s)) (8)

式中，P是计算后的通道排列矩阵，L为下三角矩阵，U为上三角矩阵，但是对角线元素为0，而s为对角矩阵，对角元素为W上三角矩阵的对角元素。即有log|det(W)|＝sum(log|s|)。

3.5)建立仿射耦合层主要步骤如下：

3.5.1)运用函数split()沿着通道维度将输入的汽车图片张量x切分成两部分x_a和x_b，即：

x_a，x_b＝split(x)

3.5.2)通过神经网络(log s，t)＝NN(x_b)，线性组合得到y_a＝s⊙x_a+t，即：

(log s，t)＝NN(x_b)

s＝exp(log s)

y_a＝s⊙x_a+t

式中，s和t不参与可逆变换，因此可以是任意复杂函数。

3.5.3)x_b经过恒等变换，得到y_b＝x_b，

y_b＝x_b

3.5.4)同时，运用函数concat()将y_a和y_b连接成一个输出的汽车图片张量y，即：

y＝concat(y_a，y_b)

3.5.5)结合步骤一至四的过程，仿射耦合层的逆变换为：

y_a，y_b＝split(y)

(log s，t)＝NN(y_b)

s＝exp(log s)

x_a＝(y_a-t)/s

x_b＝x_b

x＝concat(x_a，x_b)

3.5.6)利用神经网络(log s，t)＝NN(y_b)对汽车图像y_a进行线性组合，求得对数行列式sum(log|s|)。。

4)构建因果流模型中的编码器E_θ，建立基于约束的因果网络算法，将汽车特征图片运用因果发现算法找到特征之间的因果关系，得到因果关系网络

利用/>

找到与可控汽车特征相关的直接原因，得到监督条件c_s。/>

编码器E_θ在监督条件c_s和无监督条件c_u上构建潜在向量z的条件分布p_θ(z)，从而生成多样化潜在向量z的汽车图像样本。建立编码器E_θ的主要步骤如下：

4.1)发现汽车图像属性之间的因果网络，所用的因果网络算法为PC算法，一个有向无环图(DAG)G是由顶点集V＝{F¹，F²，...，F^k}(对应汽车特征图片)和边集E(对应汽车图像属性特征之间的因果关系)组成，我们所考虑的图都是简单的，这意味着任何一对顶点之间最多只有一条边，要么是有向边(→)，要么是无向边(-)。假设节点V中所有汽车图像属性之间具有条件独立信息，S为邻接点集合，是顶点集V的子集，我们使用符号Fⁱ⊥F^j|S表示在条件S下，Fⁱ独立于F^j，其中S是一组不包含Fⁱ和F^j的顶点集，对于任意F^h∈S，当且仅当条件独立测试ρ_i，j|S＝0，则Fⁱ⊥F^j|S，即：

PC算法的主要步骤如下：

4.1.1)步骤一是邻接搜索。

首先，从一个完全无向图开始，任意一个F^h∈S，如果Fⁱ⊥F^j|F^h，则删除Fⁱ-F^j，将F^h保留在S(Fⁱ，F^j)和S(F^j，Fⁱ)，直到所有的邻接点Fⁱ和F^j完成了条件独立测试。

4.1.2)步骤二是确定边的方向。

4.1.2.1)考虑三元组无向边Fⁱ-F^k-F^j，当且仅当

即Fⁱ→F^k←F^j是一个V结构；

4.1.2.2)通过重复以下三个规则，将剩余的无向边尽可能的定向：

规则1：当存在有向边Fⁱ→F^j时，将F^j-F^k定向为F^j→F^k，使得Fⁱ和F^k不相邻，否则会产生一个新的V结构；

规则2：当存在链Fⁱ→F^k→F^j时，将Fⁱ-F^j定向为Fⁱ→F^j，否则形成有向循环；

规则3：当存在两条链Fⁱ-F^k→F^j和Fⁱ-F^l→F^j时，将Fⁱ-F^j定向为Fⁱ→F^j，使得F^k和F^l不相邻，否则形成新的V结构或有向循环。

4.1.3)最终，得到一个有关汽车图片的完全部分有向无环图，即因果网络

有向边表示有直接的汽车属性因果关系，无向边表示汽车属性的因果关系不确定。

4.2)因果可控编码器

4.2.1)根据汽车属性得到的因果关系网络

将可控汽车属性与其直接原因汽车属性组合为监督条件c_s，进行one-hot编码，编码器的所有可控条件信息表示为：

式中，c_u表示汽车图像自动学习到的无监督条件。

4.2.2)编码器E_θ帮助在条件

上构建潜在向量z的条件分布p_θ(z)，从而生成多样化潜在向量z的可控汽车图像样本，即：

式中，∈表示为随机噪声。

4.2.3)为了让条件分布p_θ(z)的JS散度最小，主要步骤如下：

4.2.3.1)先找到

的下界，即：

式中，定义p(z)＝(p_θ(z)+p^*(z))/2。

4.2.3.2)得到

KL(p_θ(z)||p(z))+KL(p^*(z)||p(z))＝JS(p_θ(z)||p^*(z)) (13)

4.2.3.3)最大化目标函数，使得p_θ(z)的JS散度最小：

其中，借助判别器D_iφ，通过前向流模型可以推出真实潜在分布p^*(z)。

4.2.4)编码器E_θ的损失为：

式中，D_iφ为监督模块中的判别器，下文将详细描述。

5)集成因果流模型中的监督模块，主要包括判别器D_iφ、分类器C_φ和解码器D_eφ。集成监督模块的主要步骤如下：

5.1)判别器D_iφ目的是将因果流模型生成的潜在向量与可逆流模型推出的真实的潜在向量区分开，其损失表示为：

5.2)分类器C_φ是为了衡量区分不同类别的分类能力，共享鉴别器D_φ的部分参数，并且通过激活函数softmax或者sigmoid函数输出不同的类概率。以特定汽车可控属性的交叉熵损失或二进制交叉熵损失来监督其训练。通过这样的神经网络参数化分类器，我们可以获得标记类的真实z和生成z的后验概率q_φ(c_s|z)。其损失表示为：

5.3)解码器D_eφ共享判别器D_iφ与分类器C_φ的部分参数，目的是从生成的潜在向量z中解码无监督条件c_u，进行重构，生成可控的汽车图像。其损失表示为：

式中，p(c_u)用二项分布来建模，损失设置为二叉熵损失。

6)使用L2正则化，最小化因果流模型的损失，让因果流模型的训练更稳定，其主要步骤如下：

6.1)运用两两特征匹配的正则化策略在相同条件下，真实的和假的汽车图像数据点之间使用L2损失，则两两特征匹配损失可表示为：

式中，

表示监督模块中间层的潜在向量的特征，z表示真实的潜在向量，z’表示生成的潜在向量。

6.2)基于因果流模型的最终目标是将损失最小化：

式中，判别器D_iφ、分类器C_φ、解码器D_eφ除了输出层外，监督模块的大部分参数都是共享的。

Claims

1.基于因果流模型的可控汽车图像合成方法，其特征在于，包括以下步骤：

(1)获取原始汽车图像数据，并写入汽车图像数据集D中；对汽车图像数据集D进行预处理，得到汽车图像数据集D′＝[D₁，D₂，....，D_x]；X为汽车图像样本总数；D_x表示汽车图像样本；

(2)基于汽车图像数据集D′，建立可逆流模型p_θ(x)；x＝D₁，D₂，....，D_x；所述可逆流模型p_θ(x)用于对汽车图像样本x进行非线性变换，将高维的汽车图像样本x映射到潜在空间，得到独立的潜在向量z；

(3)根据可逆流模型p_θ(x)，建立可逆流模型p_θ(x)的网络架构；所述网络架构包括激活归一化层、可逆1×1卷积层和仿射耦合层；可逆流模型p_θ(x)的网络架构分为前向流网络和逆向流网络；

(4)将汽车图像样本x输入到可逆流模型p_θ(x)的前向流网络中，得到潜在变量z′；

(5)建立基于约束的因果网络；根据因果网络建立汽车图像数据集D′特征之间的因果关系，得到因果关系网络

(6)根据因果关系网络

设置监督条件c_s，并建立可控因果编码器E_θ；

利用编码器E_θ在监督条件c_s和无监督条件c_u上构建潜在向量z的条件分布p_θ(z)；

利用条件分布p_θ(z)生成多样化潜在向量z的汽车图像样本；

(7)建立监督模块，包括判别器D_iφ、分类器C_φ和解码器D_eφ；所述判别器D_iφ用于判别多样化潜在向量z的真实性；分类器C_φ用于对汽车图像类别进行分类；解码器D_eφ用于重构汽车图像自动学习到的无监督条件；

其中，判别器D_iφ、分类器C_φ和解码器D_eφ的损失利用L2正则化方法实现最小化；

(8)集成可逆流模型、监督模块和因果编码器，构建因果流模型，将潜在变量z′输入到因果流模型的逆向流网络中，输出可控的合成汽车图片y；

输出合成汽车图片y的步骤如下：

1)利用Squeeze函数增加汽车图像样本x的维数；汽车图像样本x原始维数为h×w×c；

2)激活归一化层对汽车图像样本x进行预处理，步骤如下：

2.1)把汽车图像样本x的通道c归一化为0平均值和单位方差的通道数据；

2.2)对汽车图像样本x和汽车图像y进行线性变换，即：

式中，⊙表示矩阵相乘；(i，j)表示张量x和y的空间索引；s和b分别表示通过卷积神经网络学习到的缩放变换参数和平移变换参数；

汽车图像样本x和汽车图像y的逆变换如下所示：

其中，汽车图像样本x和汽车图像y的雅可比矩阵对

对数行列式为h*w*∑log|s|；

3)可逆1×1卷积层利用c×1权重矩阵对汽车图像样本x的通道c进行加权，叠加c个权重矩阵，混合可逆流模型通道，步骤如下：

3.1)建立汽车图像样本x和汽车图像y的变换关系式，即：

式中，W为c×c权重矩阵；

汽车图像样本x和汽车图像y逆变换如下所示：

3.2)计算权重矩阵W的对数行列式

即：

3.3)对权重矩阵W进行LU分解，降低对数行列式计算的复杂度；分解后的权重矩阵W如下所示：

W＝PL(U+diag(s″)) (6)

式中，P是计算后的通道排列矩阵；L为下三角矩阵；U为上三角矩阵，其对角线元素为0；s″为对角矩阵，对角元素为权重矩阵W上三角矩阵的对角元素；log|det(W)|＝sum(log|s″|)；

4)建立仿射耦合层，步骤如下：

4.1)运用函数split()沿着通道维度将输入的汽车图像张量x切分成两部分，分别记为汽车图像x_a和汽车图像x_b，即：

x_a，x_b＝split(x) (7)

4.2)利用神经网络(log s，t)＝NN(x_b)对汽车图像x_a进行线性组合，得到汽车图像y_a＝s’⊙x_a+t；其中，参数s′＝exp(log s)；函数NN()是非线性映射函数；参数s′和参数t不参与可逆变换；

4.3)对汽车图像x_b进行恒等变换，得到汽车图像y_b＝x_b；

4.4)利用函数concat()将汽车图像y_a和汽车图像y_b连接成一个输出的汽车图像张量y，即：

y＝concat(y_a，y_b) (8)

其中，仿射耦合层的逆变换如公式：

y_a，y_b＝split(y) (9)

(log s，t)＝NN(y_b) (10)

s′＝exp(log s) (11)

x_a＝(y_a-t)/s′ (12)

x_b＝x_b (13)

x＝concat(x_a，x_b) (14)

4.5)利用公式(10)对汽车图像y_a进行线性组合，求得对数行列式sum(log|S|)，并根据对数行列式sum(log|S|)计算得到概率分布函数p_θ(x)。

2.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，所述原始汽车图像数据为斯坦福汽车图像数据；所述斯坦福汽车图像根据年份、制造商、型号进行分类。

3.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，对汽车图像数据集D进行预处理的步骤如下：

1)提取汽车图像的序号、图像名和类别名；

2)删除汽车图像数据集D中的灰度汽车图像；删除汽车图像数据集D中长宽像素比小于h的汽车图像；删除汽车图像数据集D中图像字节数小于Hkb的汽车图像；

3)将汽车图像数据集D中汽车图像像素统一为n×n，得到汽车图像数据集D′；

4)为汽车图像数据集D′中每张汽车图像添加属性标注；所述属性标注包括汽车颜色、汽车尺寸、车前大灯、车窗玻璃、天窗、车型、车轮、车尾组合灯、车门、车顶、外边后视镜、后风挡玻璃、车牌、雨刮器、行李车门。

4.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，构建可逆流模型的步骤如下：

1)记用于拟合汽车图像样本x的概率分布函数为p_θ(x)；

其中，概率分布函数p_θ(x)的最小化对数似然函数

如下所示：

式中，x为汽车图像数据集D′中的任意元素；N为汽车图像样本数量；x⁽ⁱ⁾表示第i个汽车图像样本；

2)建立可逆的映射函数f_θ(x)，令：

z～p_θ(z) (16)

x＝g_θ(z) (17)

式中，z是潜在向量；p_θ(z)是潜在向量z的先验概率分布；函数g_θ(z)是映射函数f_θ(z)的反函数；

3)建立汽车图像样本x与潜在向量z的关系式，即：

式中，h_k是根据映射函数f_k生成的过程向量；k＝1,2，…，K；K为映射函数数量；

表示可逆映射；

4)计算概率分布p_θ(x)的概率密度函数，即：

式中，

表示等价于；标量值/>

是雅可比矩阵/>

的行列式绝对值的对数值；参数/>

其中，标量值

如下所示：

式中，sum()是所有向量元素的和；log()是对数的元素，diag()是雅可比矩阵的对角线。

5.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，建立因果关系网络

的步骤如下：

1)按照汽车属性标注将汽车图像数据集D′每个元素分割为若干汽车特征图像；以所有汽车特征图像为顶点，建立顶点集V＝{F¹，F²，...，F^k}；F^k为第k幅汽车特征图像所对应的顶点；将顶点集V中相邻顶点连接起来；

2)对邻接点进行条件独立测试：S为邻接点集合，是顶点集V的子集，任选顶点F^h∈S，若存在Fⁱ⊥F^j|F^h，则删除无向边Fⁱ-F^j，并将F^h保留在集合S(Fⁱ，F^j)和集合S(F^j，Fⁱ)中；Fⁱ、F^j为顶点；

3)重复步骤2)，直至顶点F^h的所有邻接点均完成了条件独立测试；

4)重复步骤2)和步骤3)，完成顶点集V中所有顶点的邻接点条件独立测试，得到无向因果网络；

5)确定无向因果网络中边的方向，步骤如下：

5.1)确定三元组无向边Fⁱ-F^k-F^j，当且仅当

时，顶点Fⁱ、顶点F^k和顶点F^j的有向边为Fⁱ→F^k←F^j；Fⁱ→F^k表示顶点Fⁱ指向顶点F^k；-表示无向边；→表示有向边；有向边表示有直接的汽车属性因果关系；无向边表示汽车属性的因果关系不确定；

5.2)对无向因果网络其他无向边进行定向，得到因果网络

定向规则如下：

I)当存在有向边Fⁱ→F^j时，将无向边F^j-F^k定向为有向边F^j→F^k，使得Fⁱ和F^k不相邻；

II)当存在链Fⁱ→F^k→F^j时，将无向边Fⁱ-F^j定向为有向边Fⁱ→F^j；

6.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，建立可控因果编码器E_θ的步骤如下：

1)根据汽车属性得到的因果关系网络

如下所示：

式中，c_u表示汽车图像自动学习到的无监督条件；

为可控条件；

2)构建潜在向量z的条件分布p_θ(z)，即：

式中，∈表示为随机噪声；

3)对条件分布p_θ(z)进行优化，令条件分布p_θ(z)的JS散度最小，步骤如下：

3.1)确定可控条件信息

的下界约束，即：

式中，条件分布p(z)＝(p_θ(z)+p^*(z))/2；KL(p_θ(z)||p(z))为KL散度；p^*(z)为真实潜在分布；

为分布函数；

3.2)计算条件分布p_θ(z)的JS散度JS(p_θ(z)||p^*(z))，即：

KL(p_θ(z)||p(z))+KL(p^*(z)||p(z))＝JS(p_θ(z)||p^*(z)) (24)

式中，KL(p^*(z)||p(z))为KL散度；

3.3)建立目标函数，即：

式中，真实潜在分布p^*(z)由判别器D_iφ建立；

3.4)最大化目标函数(25)，令条件分布p_θ(z)的JS散度达到最小；

4)计算编码器E_θ的损失

即：

式中，D_iφ为监督模块中的判别器。

7.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，判别器D_iφ损失

如下所示：

式中，条件分布p(z)＝(p_θ(z)+p^*(z))/2；p^*(z)为真实潜在分布；p_θ(z)为潜在向量z的条件分布；

为分布函数；

分类器C_φ损失

如下所示：

解码器D_eφ损失如下所示：

式中，p(c_u)用二项分布来建模，损失设置为二叉熵损失；q_φ(c_u|z)为分布函数。

8.根据权利要求1所述的基于因果流模型的可控汽车图像合成方法，其特征在于，最小化监督模块损失的步骤如下：

1)计算真实的和假的汽车图像数据点的两两特征匹配损失

即：

式中，

表示监督模块中间层的潜在向量的特征；z表示真实的潜在向量，z’表示生成的潜在向量；

2)建立目标函数，即最小化损失

式中，λ_S为系数。