CN114119803A

CN114119803A - 一种基于因果图谱的场景图像生成方法

Info

Publication number: CN114119803A
Application number: CN202210097140.XA
Authority: CN
Inventors: 杨昌源; 李泽健; 李如诗; 张晟源; 孙凌云
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-03-01
Anticipated expiration: 2042-01-27
Also published as: CN114119803B

Abstract

本发明公开了一种基于因果图谱的场景图像生成方法，包括：获得风格一致的带有标框标注的真实场景图像数据集，基于标框标注构建因果子图，并基于因果子图的实体表示特征，通过线性变换和祖先采样得到具有因果关系的风格表示特征，基于原始全局掩码和通过实体、因果、像素询征与实体键征匹配得到放缩因子构建实体全局掩码，基于全局掩码和风格表示特征通过图像生成器得到生成场景图像，通过因果损失函数和合页损失函数训练因果子图和图像生成器得到最终全局因果子图和最终图像生成器，将绘制的标框标注布局依次输入最终全局因果子图和最终图像生成器得到具有因果关系的场景图像。利用该方法能够快速、高效地获得具有因果关系的复杂场景图像。

Description

一种基于因果图谱的场景图像生成方法

技术领域

本发明属于图像处理领域，具体涉及一种基于因果图谱的场景图像生成方法。

背景技术

生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型，可用于拟合数据分布并产生任意数量的近似同分布新样本。所拟合的分布可以是无条件数据分布或条件数据分布，例如图像分布、图像翻译的条件分布或者基于标框布局的图像分布。近年来，生成对抗神经网络技术飞速发展，易于与其他可微分的模型结合扩展，形成了真实感图像生成、智能图像增强、跨媒体生成等多个基础性应用。

然而，现有图像生成模型依然难以生成复杂场景，模型忽略复杂场景的细节或生成细节真实感不足。现有方法通过输入高精度像素级语义分割标注，减轻了任务困难度，让部分智力活动由人类完成。而这也带来了生成效率低、适用面窄等问题。复杂场景难以生成的根本在于，现有模型中并未设计有效机制理解复杂场景中物体之间的关系，尤其是外观、形状、表现等的因果关系。

为了解决上述存在的问题，公开号为（CN112102156A）的中国专利公开了基于因果流模型的可控汽车图像合成方法，包括了可逆流模型和因果关系网络、监督模块等组成部分，其工作步骤为步骤为：（1）获取原始汽车图像数据；（2）建立可逆流模型；（3）建立可逆流模型的网络架构；（4）输出汽车图像；（5）建立因果关系网络；（6）根据因果关系网络设置监督条件，并建立可控因果编码器；（7）建立监督模块；（8）输出合成汽车图像。然而该专利仅针对汽车图像，并为扩展到复杂场景，并未直接从数据中发现因果关系，尚不能直接扩展到复杂场景的因果关系构建。

标框标注是计算机视觉的典型标注方式，用于标注场景图像中每个物体的类型、位置和大小。传统标框标注用于供模型学习物体检测，从而使AI模型学会辨别场景图像里物体的类别、位置和大小。而基于标框标注的场景生成则旨在基于抽象的场景结构，生成全新、合理、真实感的图像。相比像素级别的语义分割标注，标框标注的标注和使用成本更低，也更易于让模型学习物体之间的关系。目前国内外尚无针对复杂场景图像中的物体因果关系学习及生成的解决方案。因此，亟需设计一种基于因果图谱的场景图像生成模型，实现基于标框标注的全新图像生成，并支持物体因果关系学习。

发明内容

本发明公开了一种基于因果图谱的场景图像生成方法，利用该方法能够快速、高效的获得具有因果关系的复杂场景图像。

一种基于因果图谱的场景图像生成方法，包括：

（1）获得带有标框标注的真实场景图像数据集，标框标注包括多个实体标框，每个实体标框包括标框的长和宽，标框在场景图像中的横、纵坐标，以及标框内实体类别；

（2）构建初始全局因果图，其中，结点为实体类别，边为实体类别之间的因果关系，基于标框标注从初始全局因果图中提取对应实体类别，如果对应实体类别的实体标框相重合则激活实体间因果关系，基于多个实体以及实体间因果关系构建第一因果子图，并基于实体间因果关系的强度设定第一邻接权重矩阵，其中，对每个结点对应的实体赋予实体表示特征；

对实体表示特征进行第一可学习线性变换后，进行祖先采样得到风格表示特征；基于实体表示特征，采用残差卷积网络生成实体形状掩码，将实体形状掩码嵌入标框标注中形成原始全局掩码；对实体表示特征进行第二、三可学习线性变换分别得到实体询征和实体键征，实体询征与原始全局掩码进行外积运算得到像素询征，对像素询征的每个像素进行祖先采样，使得每个像素引入各个实体的因果关系，从而得到因果询征，将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征，将局部询征和实体键征进行点积运算，使得局部询征的每个像素的每个实体信息与实体键征进行匹配，将匹配结果映射到实正数域，从而得到像素级别实体掩码的放缩因子，将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码，将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据，第一、二残差卷积网络，以及第一、二、三可学习线性变换构成初始图像生成器；

（3）首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵；

基于残差网络构建图像判别器，基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器，将生成场景图像输入优化后图像判别器得到判别信息，通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图，将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图；

（4）应用时，将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图，将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像。

获得带有标框标注的真实场景图像数据集，包括：

收集风格一致的真实场景图像数据集，并标注真实场景图像中各个实体的位置，即标框的横、纵坐标，和大小，即标框的长和宽，以及实体类别，得到标框标注的真实场景图像数据集，其中，风格一致为真实场景图像采集的设备和过程一致。

通过初始全局因果图表示实体类别之间的因果关系，其中，初始全局因果图包括结点、边和边的权重，结点为实体类别，且各个结点的实体类别不重合，边为实体类别之间的因果关系，边的权重为因果关系的强度。

基于多个实体以及实体间因果关系构建第一因果子图，包括：

基于标框标注确定每个实体类别对应的实体个数，将每个实体作为第一因果子图的结点，并基于每个实体间激活的因果关系构建第一因果子图的边；第一因果子图边的权重与初始全局因果图的对应实体类别边的权重一致。

通过实体表示特征表示实体的类别和大小，实体大小用于确定实体在生成场景图像中为近景图像或远景图像，实体大小通过实体标框长和宽表示；实体表示特征包括实体标框长和宽、以及实体类别。

进行祖先采样得到风格表示特征，包括：

基于第一邻接权重矩阵，对第一可学习线性变换后的实体表示特征进行祖先采样得到具有初始因果子图因果关系的风格表示特征，风格表示特征包括每个实体的颜色、纹理和细节信息。

首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵，其中，因果损失函数L_causal为：

其中，β为第一邻接权重矩阵，X为通过VGG19网络从真实场景图像中抽取得到的实体特征，λ₁和λ₂为正数，表示损失函数权值，

为L1范数，I为单位对角阵，tr[·]为矩阵的迹，

为哈达玛积，m为实体数量，R为第一邻接权重矩阵对实体特征进行重构后与实体特征的线性重构误差，P（R）为线性重构误差服从的概率分布，D_ind（·）为独立性判别器，用于判别为线性重构误差的概率，L_MI为P（R）的全相关系数，用于度量重构误差的各维度相互独立程度，L_DAG为因果子图无环程度的度量项，当L_DAG取零，因果子图为无环，L_rec为实体特征经过第一邻接权重矩阵线性重构后和实体特征的接近度。

对线性重构误差的每一个维度上的实体顺序分别进行打乱得到乱序线性重构误差，基于线性重构误差和乱序线性重构误差通过最大化目标函数训练初始独立性判别器得到独立判别器，通过最大化目标函数训练初始独立性判别器为：

其中，

为对线性重构误差分布求期望，

为对乱序线性重构误差分布求期望，

为乱序线性重构误差。

基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器，对合页损失函数求最小值以优化图像判别器如下：

其中，D为图像判别器，

为对真实场景图像数据集求期望，x_r为真实场景图像数据，P_r为真实场景图像数据集服从的概率分布，D（x_r）为真实场景图像数据集判别信息，

为对生成场景图像数据求期望，x_g为生成场景图像数据，P_g为生成场景图像数据服从的概率分布，D（x_g）为生成场景图像数据判别信息。

对判别信息求最大值以优化初始图像生成器和第二邻接权重矩阵如下：

E_l为对标框标注布局数据求期望，G（l）为将标框标注l的布局数据输入至初始图像生成器，得到生成场景图像数据，θ为第二邻接权重矩阵。

与现有技术相比，本发明的有益效果为：

（1）本发明使用标框标注，相对于像素级语义分割标注，数据集标注成本和使用成本都大大降低，更加易于使用。

（2）通过像素询征、因果询征和局部询证使得每个像素获得具有因果关系的实体信息，使得图像生成模型自主学习复杂场景中物体之间的因果关系，可更有效和鲁棒地捕捉场景图像中的物体之间的相互影响，提升生成结果的真实程度。

（3）本发明的因果发现模型可形成因果子图显示，可以有效地展示模型对于场景的理解，实现模型生成过程的可解释性。本发明基于生成式对抗网络构建全局因果图模型和图像生成器模型，用户仅仅需要提供绘制有标框标注布局数据就可以得到带有因果关系的生成图像，本发明提供的基于因果图谱的场景图像生成方法可替代现行图像检索技术，所需图像只需要生成而不必再检索。该技术也支持未来的图像素材按需定制应用，减少人力创造素材的成本，具有现实意义和良好的应用前景。

附图说明

图1为具体实施方式提供的基于因果图谱的场景图像生成方法的流程示意图；

图2为具体实施方式提供的生成场景图像的流程示意图；

图3为具体实施方式提供的调整实体掩码的流程示意图；

图4为具体实施方式提供的优化第一邻接权重矩阵过程示意图；

图5为具体实施方式提供的独立性判断器判别过程示意图；

图6为具体实施方式提供的图像判别器判别过程示意图。

具体实施方式

本发明提供了一种基于因果图谱的场景图像生成方法，如图1所示，具体包括：

S1：构建风格一致的场景图像数据集，收集风格一致的真实场景图像数据集，并标注真实场景图像中各个实体的位置，即标框的横、纵坐标，和大小，即标框的长和宽，以及实体类别，得到标框标注的真实场景图像数据集，其中，风格一致为真实场景图像采集的设备和过程一致。

每个场景图像为包含若干实体和背景的图像，风格一致要求图像采集使用的设备和过程无显著差异。数据集使用的矩形标框，标注场景中各个实体的位置、大小和类型。所述实体包括具象物体，如人类和衣服、汽车等人造物，也包括范围不确定的抽象背景，例如树木、河流、天空等自然区域。标框尽可能覆盖单个实体的可视范围，同时少覆盖多余的区域。与此对应的标框标注为

。其中，

指示了标框的横、纵坐标及标框的长宽，

指示了所标实体的类别，m是实体的数量。

S2：使用步骤S1的数据训练基于因果图谱的场景图像生成模型和全局因果图。场景图像生成模型最终图像生成器和最终全局因果图，其中，最终全局因果图是定义在实体类别上的全局因果图，指示实体类别之间待学习的结构方程模型，图中的结点表示一个实体类别，边指示不同类别之间在任意场景下是否有因果关系，边上的权重值指示因果关系的强度。由于定义在实体类别上，全局因果图结点类别不重复。具体构建过程如下：

如图2所示，构建初始全局因果图，其中，结点为实体类别，边为实体类别之间的因果关系，基于标框标注l从初始全局因果图中提取对应实体类别，如果对应实体类别的实体标框相重合则激活实体间因果关系，如果标框标注

中有多个相同类别的实体，则在把该类别扩展为相同数量的结点，并继承全局因果图中的边关系和权重。如场景中有三个人，则因果子图应构建三个“人”的结点，并都具有“人”和其他类别的边关系和权重。此外，根据标框标注

的实体重叠关系裁剪的边。如果实体的标框有所重叠，认为实体在场景中相近，激活因果关系，因此保留对应实体的边。如果实体标框不重叠，则认为实体在场景中相距甚远，因果关系不激活，因此裁剪因果子图对应实体的边。若边存在，第一因果子图的边的权重值和初始全局因果图的一致。基于多个实体以及实体间因果关系构建第一因果子图，并基于实体间因果关系的强度设定第一邻接权重矩阵β，其中，对每个结点对应的实体赋予实体表示特征；并基于实体间因果关系的强度设定第一邻接权重矩阵β，其中，对每个结点对应的实体赋予实体表示特征

，每个结点的表示特征

由两部分组成，包括实体类别

和标框中

所指示的大小，即标框的长宽。实体大小的信息在图像生成中不可或缺，实体较大意味要生成近景图像（如人的半身近照），实体较小意味着生成全景图像（如人的全身照）。

对实体表示特征进行第一可学习线性变换后，进行祖先采样（ancestralsampling）得到风格表示特征（style feature）；所述风格表示特征在图像生成过程中指示各个实体的颜色、纹理、细节等信息，以向量表示。其中，祖先采样为应用线性变换（I-β^T）^-1，以考虑了初始因果子图的实体间的因果关系，从而得到具有因果关系的风格表示特征。

生成全局掩码，如图3所示，掩码用于表示各个实体的形状。基于实体表示特征，采用残差卷积网络生成实体形状掩码，如图3的（II）所示；将实体形状掩码嵌入标框标注中形成原始全局掩码，如图3的（III）所示，原始全局掩码指示每个像素分别属于哪些实体。

根据第一因果子图的因果关系调整原始全局掩码，具体步骤为：对实体表示特征进行第二、三可学习线性变换分别得到实体询征（entity query）和实体键征（entity key），实体询征与原始全局掩码进行外积运算得到像素询征（pixel query），像素询征表示了每个像素中分别有哪些实体且其强度如何。对像素询征的每个像素进行祖先采样，使得每个像素引入各个实体的因果关系，从而得到因果询征（local query），将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征，将局部询征和实体键征进行点积运算（dot product），使得局部询征的每个像素的每个实体信息与实体键征进行匹配，匹配强度为点积的结果，定义在实数域

，经过一个变换

映射到实正数域

，像素级别的实体掩码的放缩因子，如图3的（IV）所示，从而得到像素级别实体掩码的放缩因子。将放缩因子与原始全局掩码进行哈达玛积运算(Hadamard product)得到实体全局掩码，如图3的（V）所示。

将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据，第一、二残差卷积网络，以及第一、二、三可学习线性变换构成初始图像生成器。

如图4所示，基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵，首先通过VGG19网络从真实场景图像中抽取得到的实体特征X，因果损失函数L_causal为：

为L1范数，I为单位对角阵，tr[·]为矩阵的迹，

为哈达玛积，m为实体数量，R为第一邻接权重矩阵对实体特征进行重构后与实体特征的线性重构误差，P（R）为线性重构误差服从的概率分布，P（R_j）是P（R）在第j维上的边缘分布，

是和P（R）的边缘分布相同但相互独立的概率分布，d为维度，L_MI 为P（R）的全相关系数，用于度量重构误差的各维度相互独立程度，L_MI将在独立性判断器D_ind （·）的辅助下得到，该优化问题是带约束的优化问题；L_DAG为因果子图无环程度的度量项，当L_DAG取零，因果子图为无环，L_rec为实体特征经过第一邻接权重矩阵线性重构后和实体特征的接近度。使用增广拉格朗日乘子法（augmented Lagrangian）和梯度下降法最优化该问题求解β。

如图5所示，独立性判断器D_ind（·）判别真实重构误差R和乱序误差

。独立性判断器D_ind（·）的接受真实重构误差或乱序误差为输入，输出为概率值标量，定义在[0,1]，表示输入的误差为真实重构误差而非乱序重构误差的概率。基于线性重构误差和乱序线性重构误差通过最大化目标函数训练初始独立性判别器得到独立判别器，通过最大化目标函数训练初始独立性判别器为：

其中，

为对线性重构误差分布求期望，

为对乱序线性重构误差分布求期望，

为乱序线性重构误差。使用梯度下降更新D_ind（·）以最大化该目标函数，当D_ind（·）到达最优解，对任意真实重构误差

，D_ind（R）为

。因此，所述的

替换为

，且可以对R求导。由此，独立性判断器D_ind（·）可辅助形成L_MI。

如图6所示，基于残差网络构建图像判别器，基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器，对合页损失函数求最小值以优化图像判别器如下：

其中，D为图像判别器，

为对生成场景图像数据求期望，x_g为生成场景图像数据，P_g为生成场景图像数据服从的概率分布，D（x_g）为生成场景图像数据判别信息，判别信息为图像真实程度、实体真实程度以及实体类别分数之和。

将生成场景图像输入优化后图像判别器得到判别信息，通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图，将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图；

其中，对判别信息求最大值以优化初始图像生成器和第二邻接权重矩阵如下：

S3：应用时，将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图，将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像，其中，绘制的标框标注布局数据的实体类别要在步骤S1收集的有标框标注的真实场景图像数据集的类别内。

Claims

1.一种基于因果图谱的场景图像生成方法，其特征在于，包括：

对实体表示特征进行第一可学习线性变换后，进行祖先采样得到风格表示特征；基于实体表示特征，采用残差卷积网络生成实体形状掩码，将实体形状掩码嵌入标框标注中形成原始全局掩码；对实体表示特征分别进行第二可学习线性变换得到实体询征，进行第三可学习线性变换得到实体键征，实体询征与原始全局掩码进行外积运算得到像素询征，对像素询征的每个像素进行祖先采样，使得每个像素引入各个实体的因果关系，从而得到因果询征，将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征，将局部询征和实体键征进行点积运算，使得局部询征的每个像素的每个实体信息与实体键征进行匹配，将匹配结果映射到实正数域，从而得到像素级别实体掩码的放缩因子，将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码，将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据，第一、二残差卷积网络，以及第一、二、三可学习线性变换构成初始图像生成器；

2.根据权利要求1所述的基于因果图谱的场景图像生成方法，其特征在于，获得带有标框标注的真实场景图像数据集，包括：

3.根据权利要求1所述的基于因果图谱的场景图像生成方法，其特征在于，通过初始全局因果图表示实体类别之间的因果关系，其中，初始全局因果图包括结点、边和边的权重，结点为实体类别，且各个结点的实体类别不重合，边为实体类别之间的因果关系，边的权重为因果关系的强度。

4.根据权利要求3所述的基于因果图谱的场景图像生成方法，其特征在于，基于多个实体以及实体间因果关系构建第一因果子图，包括：

5.根据权利要求1所述的基于因果图谱的场景图像生成方法，其特征在于，通过实体表示特征表示实体的类别和大小，实体大小用于确定实体在生成场景图像中为近景图像或远景图像，实体大小通过实体标框长和宽表示；实体表示特征包括实体标框长和宽、以及实体类别。

6.根据权利要求1所述的基于因果图谱的场景图像生成方法，其特征在于，进行祖先采样得到风格表示特征，包括：

7.根据权利要求1所述的基于因果图谱的场景图像生成方法，其特征在于，基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵，其中，因果损失函数L_causal为：