CN114119803A - 一种基于因果图谱的场景图像生成方法 - Google Patents

一种基于因果图谱的场景图像生成方法 Download PDF

Info

Publication number
CN114119803A
CN114119803A CN202210097140.XA CN202210097140A CN114119803A CN 114119803 A CN114119803 A CN 114119803A CN 202210097140 A CN202210097140 A CN 202210097140A CN 114119803 A CN114119803 A CN 114119803A
Authority
CN
China
Prior art keywords
entity
causal
graph
scene image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210097140.XA
Other languages
English (en)
Other versions
CN114119803B (zh
Inventor
杨昌源
李泽健
李如诗
张晟源
孙凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210097140.XA priority Critical patent/CN114119803B/zh
Publication of CN114119803A publication Critical patent/CN114119803A/zh
Application granted granted Critical
Publication of CN114119803B publication Critical patent/CN114119803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于因果图谱的场景图像生成方法,包括:获得风格一致的带有标框标注的真实场景图像数据集,基于标框标注构建因果子图,并基于因果子图的实体表示特征,通过线性变换和祖先采样得到具有因果关系的风格表示特征,基于原始全局掩码和通过实体、因果、像素询征与实体键征匹配得到放缩因子构建实体全局掩码,基于全局掩码和风格表示特征通过图像生成器得到生成场景图像,通过因果损失函数和合页损失函数训练因果子图和图像生成器得到最终全局因果子图和最终图像生成器,将绘制的标框标注布局依次输入最终全局因果子图和最终图像生成器得到具有因果关系的场景图像。利用该方法能够快速、高效地获得具有因果关系的复杂场景图像。

Description

一种基于因果图谱的场景图像生成方法
技术领域
本发明属于图像处理领域,具体涉及一种基于因果图谱的场景图像生成方法。
背景技术
生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,可用于拟合数据分布并产生任意数量的近似同分布新样本。所拟合的分布可以是无条件数据分布或条件数据分布,例如图像分布、图像翻译的条件分布或者基于标框布局的图像分布。近年来,生成对抗神经网络技术飞速发展,易于与其他可微分的模型结合扩展,形成了真实感图像生成、智能图像增强、跨媒体生成等多个基础性应用。
然而,现有图像生成模型依然难以生成复杂场景,模型忽略复杂场景的细节或生成细节真实感不足。现有方法通过输入高精度像素级语义分割标注,减轻了任务困难度,让部分智力活动由人类完成。而这也带来了生成效率低、适用面窄等问题。复杂场景难以生成的根本在于,现有模型中并未设计有效机制理解复杂场景中物体之间的关系,尤其是外观、形状、表现等的因果关系。
为了解决上述存在的问题,公开号为(CN112102156A)的中国专利公开了基于因果流模型的可控汽车图像合成方法,包括了可逆流模型和因果关系网络、监督模块等组成部分,其工作步骤为步骤为:(1)获取原始汽车图像数据;(2)建立可逆流模型;(3)建立可逆流模型的网络架构;(4)输出汽车图像;(5)建立因果关系网络;(6)根据因果关系网络设置监督条件,并建立可控因果编码器;(7)建立监督模块;(8)输出合成汽车图像。然而该专利仅针对汽车图像,并为扩展到复杂场景,并未直接从数据中发现因果关系,尚不能直接扩展到复杂场景的因果关系构建。
标框标注是计算机视觉的典型标注方式,用于标注场景图像中每个物体的类型、位置和大小。传统标框标注用于供模型学习物体检测,从而使AI模型学会辨别场景图像里物体的类别、位置和大小。而基于标框标注的场景生成则旨在基于抽象的场景结构,生成全新、合理、真实感的图像。相比像素级别的语义分割标注,标框标注的标注和使用成本更低,也更易于让模型学习物体之间的关系。目前国内外尚无针对复杂场景图像中的物体因果关系学习及生成的解决方案。因此,亟需设计一种基于因果图谱的场景图像生成模型,实现基于标框标注的全新图像生成,并支持物体因果关系学习。
发明内容
本发明公开了一种基于因果图谱的场景图像生成方法,利用该方法能够快速、高效的获得具有因果关系的复杂场景图像。
一种基于因果图谱的场景图像生成方法,包括:
(1)获得带有标框标注的真实场景图像数据集,标框标注包括多个实体标框,每个实体标框包括标框的长和宽,标框在场景图像中的横、纵坐标,以及标框内实体类别;
(2)构建初始全局因果图,其中,结点为实体类别,边为实体类别之间的因果关系,基于标框标注从初始全局因果图中提取对应实体类别,如果对应实体类别的实体标框相重合则激活实体间因果关系,基于多个实体以及实体间因果关系构建第一因果子图,并基于实体间因果关系的强度设定第一邻接权重矩阵,其中,对每个结点对应的实体赋予实体表示特征;
对实体表示特征进行第一可学习线性变换后,进行祖先采样得到风格表示特征;基于实体表示特征,采用残差卷积网络生成实体形状掩码,将实体形状掩码嵌入标框标注中形成原始全局掩码;对实体表示特征进行第二、三可学习线性变换分别得到实体询征和实体键征,实体询征与原始全局掩码进行外积运算得到像素询征,对像素询征的每个像素进行祖先采样,使得每个像素引入各个实体的因果关系,从而得到因果询征,将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征,将局部询征和实体键征进行点积运算,使得局部询征的每个像素的每个实体信息与实体键征进行匹配,将匹配结果映射到实正数域,从而得到像素级别实体掩码的放缩因子,将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码,将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据,第一、二残差卷积网络,以及第一、二、三可学习线性变换构成初始图像生成器;
(3)首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵;
基于残差网络构建图像判别器,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,将生成场景图像输入优化后图像判别器得到判别信息,通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图,将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图;
(4)应用时,将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图,将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像。
获得带有标框标注的真实场景图像数据集,包括:
收集风格一致的真实场景图像数据集,并标注真实场景图像中各个实体的位置,即标框的横、纵坐标,和大小,即标框的长和宽,以及实体类别,得到标框标注的真实场景图像数据集,其中,风格一致为真实场景图像采集的设备和过程一致。
通过初始全局因果图表示实体类别之间的因果关系,其中,初始全局因果图包括结点、边和边的权重,结点为实体类别,且各个结点的实体类别不重合,边为实体类别之间的因果关系,边的权重为因果关系的强度。
基于多个实体以及实体间因果关系构建第一因果子图,包括:
基于标框标注确定每个实体类别对应的实体个数,将每个实体作为第一因果子图的结点,并基于每个实体间激活的因果关系构建第一因果子图的边;第一因果子图边的权重与初始全局因果图的对应实体类别边的权重一致。
通过实体表示特征表示实体的类别和大小,实体大小用于确定实体在生成场景图像中为近景图像或远景图像,实体大小通过实体标框长和宽表示;实体表示特征包括实体标框长和宽、以及实体类别。
进行祖先采样得到风格表示特征,包括:
基于第一邻接权重矩阵,对第一可学习线性变换后的实体表示特征进行祖先采样得到具有初始因果子图因果关系的风格表示特征,风格表示特征包括每个实体的颜色、纹理和细节信息。
首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵,其中,因果损失函数Lcausal为:
Figure 678658DEST_PATH_IMAGE001
Figure 407580DEST_PATH_IMAGE002
Figure 548711DEST_PATH_IMAGE003
Figure 46688DEST_PATH_IMAGE004
Figure 818335DEST_PATH_IMAGE005
Figure 834220DEST_PATH_IMAGE006
Figure 716726DEST_PATH_IMAGE007
其中,β为第一邻接权重矩阵,X为通过VGG19网络从真实场景图像中抽取得到的实 体特征,λ1和λ2为正数,表示损失函数权值,
Figure 131527DEST_PATH_IMAGE008
为L1范数,I为单位对角阵,tr[·]为矩阵 的迹,
Figure 74075DEST_PATH_IMAGE009
为哈达玛积,m为实体数量,R为第一邻接权重矩阵对实体特征进行重构后与实体 特征的线性重构误差,P(R)为线性重构误差服从的概率分布,Dind(·)为独立性判别器,用 于判别为线性重构误差的概率,LMI为P(R)的全相关系数,用于度量重构误差的各维度相互 独立程度,LDAG为因果子图无环程度的度量项,当LDAG取零,因果子图为无环,Lrec为实体特征 经过第一邻接权重矩阵线性重构后和实体特征的接近度。
对线性重构误差的每一个维度上的实体顺序分别进行打乱得到乱序线性重构误差,基于线性重构误差和乱序线性重构误差通过最大化目标函数训练初始独立性判别器得到独立判别器,通过最大化目标函数训练初始独立性判别器为:
Figure 512009DEST_PATH_IMAGE010
其中,
Figure 932626DEST_PATH_IMAGE011
为对线性重构误差分布求期望,
Figure 467513DEST_PATH_IMAGE012
为对乱序线性重 构误差分布求期望,
Figure 580963DEST_PATH_IMAGE013
为乱序线性重构误差。
基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,对合页损失函数求最小值以优化图像判别器如下:
Figure 506193DEST_PATH_IMAGE014
其中,D为图像判别器,
Figure 792818DEST_PATH_IMAGE015
为对真实场景图像数据集求期望,xr为真实场 景图像数据,Pr为真实场景图像数据集服从的概率分布,D(xr)为真实场景图像数据集判 别信息,
Figure 854315DEST_PATH_IMAGE016
为对生成场景图像数据求期望,xg为生成场景图像数据,Pg为生成场景 图像数据服从的概率分布,D(xg)为生成场景图像数据判别信息。
对判别信息求最大值以优化初始图像生成器和第二邻接权重矩阵如下:
Figure 138666DEST_PATH_IMAGE017
El为对标框标注布局数据求期望,G(l)为将标框标注l的布局数据输入至初始图像生成器,得到生成场景图像数据,θ为第二邻接权重矩阵。
与现有技术相比,本发明的有益效果为:
(1)本发明使用标框标注,相对于像素级语义分割标注,数据集标注成本和使用成本都大大降低,更加易于使用。
(2)通过像素询征、因果询征和局部询证使得每个像素获得具有因果关系的实体信息,使得图像生成模型自主学习复杂场景中物体之间的因果关系,可更有效和鲁棒地捕捉场景图像中的物体之间的相互影响,提升生成结果的真实程度。
(3)本发明的因果发现模型可形成因果子图显示,可以有效地展示模型对于场景的理解,实现模型生成过程的可解释性。本发明基于生成式对抗网络构建全局因果图模型和图像生成器模型,用户仅仅需要提供绘制有标框标注布局数据就可以得到带有因果关系的生成图像,本发明提供的基于因果图谱的场景图像生成方法可替代现行图像检索技术,所需图像只需要生成而不必再检索。该技术也支持未来的图像素材按需定制应用,减少人力创造素材的成本,具有现实意义和良好的应用前景。
附图说明
图1为具体实施方式提供的基于因果图谱的场景图像生成方法的流程示意图;
图2为具体实施方式提供的生成场景图像的流程示意图;
图3为具体实施方式提供的调整实体掩码的流程示意图;
图4为具体实施方式提供的优化第一邻接权重矩阵过程示意图;
图5为具体实施方式提供的独立性判断器判别过程示意图;
图6为具体实施方式提供的图像判别器判别过程示意图。
具体实施方式
本发明提供了一种基于因果图谱的场景图像生成方法,如图1所示,具体包括:
S1:构建风格一致的场景图像数据集,收集风格一致的真实场景图像数据集,并标注真实场景图像中各个实体的位置,即标框的横、纵坐标,和大小,即标框的长和宽,以及实体类别,得到标框标注的真实场景图像数据集,其中,风格一致为真实场景图像采集的设备和过程一致。
每个场景图像为包含若干实体和背景的图像,风格一致要求图像采集使用的设备 和过程无显著差异。数据集使用的矩形标框,标注场景中各个实体的位置、大小和类型。所 述实体包括具象物体,如人类和衣服、汽车等人造物,也包括范围不确定的抽象背景,例如 树木、河流、天空等自然区域。标框尽可能覆盖单个实体的可视范围,同时少覆盖多余的区 域。与此对应的标框标注为
Figure 613509DEST_PATH_IMAGE018
。其中,
Figure 641508DEST_PATH_IMAGE019
指示了 标框的横、纵坐标及标框的长宽,
Figure 823091DEST_PATH_IMAGE020
指示了所标实体的类别,m是实体的数量。
S2:使用步骤S1的数据训练基于因果图谱的场景图像生成模型和全局因果图。场景图像生成模型最终图像生成器和最终全局因果图,其中,最终全局因果图是定义在实体类别上的全局因果图,指示实体类别之间待学习的结构方程模型,图中的结点表示一个实体类别,边指示不同类别之间在任意场景下是否有因果关系,边上的权重值指示因果关系的强度。由于定义在实体类别上,全局因果图结点类别不重复。具体构建过程如下:
如图2所示,构建初始全局因果图,其中,结点为实体类别,边为实体类别之间的因 果关系,基于标框标注l从初始全局因果图中提取对应实体类别,如果对应实体类别的实体 标框相重合则激活实体间因果关系,如果标框标注
Figure 75081DEST_PATH_IMAGE021
中有多个相同类别的实体,则在把该类 别扩展为相同数量的结点,并继承全局因果图中的边关系和权重。如场景中有三个人,则因 果子图应构建三个“人”的结点,并都具有“人”和其他类别的边关系和权重。此外,根据标框 标注
Figure 974904DEST_PATH_IMAGE021
的实体重叠关系裁剪的边。如果实体的标框有所重叠,认为实体在场景中相近,激活 因果关系,因此保留对应实体的边。如果实体标框不重叠,则认为实体在场景中相距甚远, 因果关系不激活,因此裁剪因果子图对应实体的边。若边存在,第一因果子图的边的权重值 和初始全局因果图的一致。基于多个实体以及实体间因果关系构建第一因果子图,并基于 实体间因果关系的强度设定第一邻接权重矩阵β,其中,对每个结点对应的实体赋予实体表 示特征;并基于实体间因果关系的强度设定第一邻接权重矩阵β,其中,对每个结点对应的 实体赋予实体表示特征
Figure 541014DEST_PATH_IMAGE022
,每个结点的表示特征
Figure 842683DEST_PATH_IMAGE023
由两部分组成,包括实体类别
Figure 265574DEST_PATH_IMAGE024
和标框中
Figure 652693DEST_PATH_IMAGE025
所指示的大小,即标框的长宽。实体大 小的信息在图像生成中不可或缺,实体较大意味要生成近景图像(如人的半身近照),实体 较小意味着生成全景图像(如人的全身照)。
对实体表示特征进行第一可学习线性变换后,进行祖先采样(ancestralsampling)得到风格表示特征(style feature);所述风格表示特征在图像生成过程中指示各个实体的颜色、纹理、细节等信息,以向量表示。其中,祖先采样为应用线性变换(I-βT-1,以考虑了初始因果子图的实体间的因果关系,从而得到具有因果关系的风格表示特征。
生成全局掩码,如图3所示,掩码用于表示各个实体的形状。基于实体表示特征,采用残差卷积网络生成实体形状掩码,如图3的(II)所示;将实体形状掩码嵌入标框标注中形成原始全局掩码,如图3的(III)所示,原始全局掩码指示每个像素分别属于哪些实体。
根据第一因果子图的因果关系调整原始全局掩码,具体步骤为:对实体表示特征 进行第二、三可学习线性变换分别得到实体询征(entity query)和实体键征(entity key),实体询征与原始全局掩码进行外积运算得到像素询征(pixel query),像素询征表示 了每个像素中分别有哪些实体且其强度如何。对像素询征的每个像素进行祖先采样,使得 每个像素引入各个实体的因果关系,从而得到因果询征(local query),将因果询征输入第 一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征,将局部询征和实体键征进 行点积运算(dot product),使得局部询征的每个像素的每个实体信息与实体键征进行匹 配,匹配强度为点积的结果,定义在实数域
Figure 22494DEST_PATH_IMAGE026
,经过一个变换
Figure 975407DEST_PATH_IMAGE027
映射到实正数域
Figure 772461DEST_PATH_IMAGE028
,像素级别的实体掩码的放缩因子,如图3的(IV)所示,从而得到像素级别实体掩码的 放缩因子。将放缩因子与原始全局掩码进行哈达玛积运算(Hadamard product)得到实体全 局掩码,如图3的(V)所示。
将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据,第一、二残差卷积网络,以及第一、二、三可学习线性变换构成初始图像生成器。
如图4所示,基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵,首先通过VGG19网络从真实场景图像中抽取得到的实体特征X,因果损失函数Lcausal为:
Figure 381297DEST_PATH_IMAGE001
Figure 554790DEST_PATH_IMAGE002
Figure 648296DEST_PATH_IMAGE003
Figure 616252DEST_PATH_IMAGE004
Figure 712384DEST_PATH_IMAGE005
Figure 486305DEST_PATH_IMAGE029
Figure 351492DEST_PATH_IMAGE007
其中,β为第一邻接权重矩阵,X为通过VGG19网络从真实场景图像中抽取得到的实 体特征,λ1和λ2为正数,表示损失函数权值,
Figure 490350DEST_PATH_IMAGE008
为L1范数,I为单位对角阵,tr[·]为矩阵 的迹,
Figure 136095DEST_PATH_IMAGE009
为哈达玛积,m为实体数量,R为第一邻接权重矩阵对实体特征进行重构后与实体 特征的线性重构误差,P(R)为线性重构误差服从的概率分布,P(Rj)是P(R)在第j维上的边 缘分布,
Figure 385810DEST_PATH_IMAGE030
是和P(R)的边缘分布相同但相互独立的概率分布,d为维度,LMI 为P(R)的全相关系数,用于度量重构误差的各维度相互独立程度,LMI将在独立性判断器Dind (·)的辅助下得到,该优化问题是带约束的优化问题;LDAG为因果子图无环程度的度量项, 当LDAG取零,因果子图为无环,Lrec为实体特征经过第一邻接权重矩阵线性重构后和实体特 征的接近度。使用增广拉格朗日乘子法(augmented Lagrangian)和梯度下降法最优化该问 题求解β。
如图5所示,独立性判断器Dind(·)判别真实重构误差R和乱序误差
Figure 433401DEST_PATH_IMAGE031
。独立性判 断器Dind(·)的接受真实重构误差或乱序误差为输入,输出为概率值标量,定义在[0,1],表 示输入的误差为真实重构误差而非乱序重构误差的概率。基于线性重构误差和乱序线性重 构误差通过最大化目标函数训练初始独立性判别器得到独立判别器,通过最大化目标函数 训练初始独立性判别器为:
Figure 743159DEST_PATH_IMAGE010
其中,
Figure 813884DEST_PATH_IMAGE011
为对线性重构误差分布求期望,
Figure 929607DEST_PATH_IMAGE012
为对乱序线性重 构误差分布求期望,
Figure 769387DEST_PATH_IMAGE013
为乱序线性重构误差。使用梯度下降更新Dind(·)以最大化该目标 函数,当Dind(·)到达最优解,对任意真实重构误差
Figure 250047DEST_PATH_IMAGE032
,Dind(R)为
Figure 542488DEST_PATH_IMAGE033
。因此, 所述的
Figure 461903DEST_PATH_IMAGE034
替换为
Figure 156189DEST_PATH_IMAGE035
,且可以 对R求导。由此,独立性判断器Dind(·)可辅助形成LMI
如图6所示,基于残差网络构建图像判别器,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,对合页损失函数求最小值以优化图像判别器如下:
Figure 807750DEST_PATH_IMAGE014
其中,D为图像判别器,
Figure 915384DEST_PATH_IMAGE015
为对真实场景图像数据集求期望,xr为真实场 景图像数据,Pr为真实场景图像数据集服从的概率分布,D(xr)为真实场景图像数据集判 别信息,
Figure 310593DEST_PATH_IMAGE016
为对生成场景图像数据求期望,xg为生成场景图像数据,Pg为生成场景 图像数据服从的概率分布,D(xg)为生成场景图像数据判别信息,判别信息为图像真实程 度、实体真实程度以及实体类别分数之和。
将生成场景图像输入优化后图像判别器得到判别信息,通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图,将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图;
其中,对判别信息求最大值以优化初始图像生成器和第二邻接权重矩阵如下:
Figure 859386DEST_PATH_IMAGE017
El为对标框标注布局数据求期望,G(l)为将标框标注l的布局数据输入至初始图像生成器,得到生成场景图像数据,θ为第二邻接权重矩阵。
S3:应用时,将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图,将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像,其中,绘制的标框标注布局数据的实体类别要在步骤S1收集的有标框标注的真实场景图像数据集的类别内。

Claims (10)

1.一种基于因果图谱的场景图像生成方法,其特征在于,包括:
(1)获得带有标框标注的真实场景图像数据集,标框标注包括多个实体标框,每个实体标框包括标框的长和宽,标框在场景图像中的横、纵坐标,以及标框内实体类别;
(2)构建初始全局因果图,其中,结点为实体类别,边为实体类别之间的因果关系,基于标框标注从初始全局因果图中提取对应实体类别,如果对应实体类别的实体标框相重合则激活实体间因果关系,基于多个实体以及实体间因果关系构建第一因果子图,并基于实体间因果关系的强度设定第一邻接权重矩阵,其中,对每个结点对应的实体赋予实体表示特征;
对实体表示特征进行第一可学习线性变换后,进行祖先采样得到风格表示特征;基于实体表示特征,采用残差卷积网络生成实体形状掩码,将实体形状掩码嵌入标框标注中形成原始全局掩码;对实体表示特征分别进行第二可学习线性变换得到实体询征,进行第三可学习线性变换得到实体键征,实体询征与原始全局掩码进行外积运算得到像素询征,对像素询征的每个像素进行祖先采样,使得每个像素引入各个实体的因果关系,从而得到因果询征,将因果询征输入第一残差卷积网络以聚合每个像素的邻域实体信息得到局部询征,将局部询征和实体键征进行点积运算,使得局部询征的每个像素的每个实体信息与实体键征进行匹配,将匹配结果映射到实正数域,从而得到像素级别实体掩码的放缩因子,将放缩因子与原始全局掩码进行哈达玛积运算得到实体全局掩码,将实体全局掩码和风格表示特征输入第二残差卷积网络得到生成场景图像数据,第一、二残差卷积网络,以及第一、二、三可学习线性变换构成初始图像生成器;
(3)首先基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵;
基于残差网络构建图像判别器,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,将生成场景图像输入优化后图像判别器得到判别信息,通过最大化判别信息来分别优化初始图像生成器的参数得到最终图像生成器和优化第二邻接权重矩阵得到第二因果子图,将第二因果子图替换初始全局因果图中的第一因果子图得到最终全局因果图;
(4)应用时,将绘制的标框标注布局数据输入至最终全局因果图得到第三因果子图,将第三因果子图输入至最终图像生成器得到具有因果关系的场景图像。
2.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,获得带有标框标注的真实场景图像数据集,包括:
收集风格一致的真实场景图像数据集,并标注真实场景图像中各个实体的位置,即标框的横、纵坐标,和大小,即标框的长和宽,以及实体类别,得到标框标注的真实场景图像数据集,其中,风格一致为真实场景图像采集的设备和过程一致。
3.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,通过初始全局因果图表示实体类别之间的因果关系,其中,初始全局因果图包括结点、边和边的权重,结点为实体类别,且各个结点的实体类别不重合,边为实体类别之间的因果关系,边的权重为因果关系的强度。
4.根据权利要求3所述的基于因果图谱的场景图像生成方法,其特征在于,基于多个实体以及实体间因果关系构建第一因果子图,包括:
基于标框标注确定每个实体类别对应的实体个数,将每个实体作为第一因果子图的结点,并基于每个实体间激活的因果关系构建第一因果子图的边;第一因果子图边的权重与初始全局因果图的对应实体类别边的权重一致。
5.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,通过实体表示特征表示实体的类别和大小,实体大小用于确定实体在生成场景图像中为近景图像或远景图像,实体大小通过实体标框长和宽表示;实体表示特征包括实体标框长和宽、以及实体类别。
6.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,进行祖先采样得到风格表示特征,包括:
基于第一邻接权重矩阵,对第一可学习线性变换后的实体表示特征进行祖先采样得到具有初始因果子图因果关系的风格表示特征,风格表示特征包括每个实体的颜色、纹理和细节信息。
7.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,基于实体特征通过最小化因果损失函数优化第一邻接权重矩阵得到第二邻接权重矩阵,其中,因果损失函数Lcausal为:
Figure 776440DEST_PATH_IMAGE001
Figure 693580DEST_PATH_IMAGE002
Figure 532705DEST_PATH_IMAGE003
Figure 927914DEST_PATH_IMAGE004
Figure 742286DEST_PATH_IMAGE005
Figure 564749DEST_PATH_IMAGE006
Figure 894099DEST_PATH_IMAGE007
其中,β为第一邻接权重矩阵,X为通过VGG19网络从真实场景图像中抽取得到的实体特 征,λ1和λ2为正数,表示损失函数权值,
Figure 92999DEST_PATH_IMAGE008
为L1范数,I为单位对角阵,tr[·]为矩阵的迹,
Figure 761878DEST_PATH_IMAGE009
为哈达玛积,m为实体数量,R为第一邻接权重矩阵对实体特征进行重构后与实体特征 的线性重构误差,P(R)为线性重构误差服从的概率分布,Dind(·)为独立性判别器,用于判 别为线性重构误差的概率,LMI为P(R)的全相关系数,用于度量重构误差的各维度相互独立 程度,LDAG为因果子图无环程度的度量项,当LDAG取零,因果子图为无环,Lrec为实体特征经过 第一邻接权重矩阵线性重构后和实体特征的接近度。
8.根据权利要求7所述的基于因果图谱的场景图像生成方法,其特征在于,对线性重构误差的每一个维度上的实体顺序分别进行打乱得到乱序线性重构误差,基于线性重构误差和乱序线性重构误差通过最大化目标函数训练初始独立性判别器得到独立判别器,通过最大化目标函数训练初始独立性判别器为:
Figure 817558DEST_PATH_IMAGE010
其中,
Figure 571888DEST_PATH_IMAGE011
为对线性重构误差分布求期望,
Figure 308900DEST_PATH_IMAGE012
为对乱序线性重构误 差分布求期望,
Figure 894602DEST_PATH_IMAGE013
为乱序线性重构误差。
9.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,基于真实场景图像数据集和生成场景图像数据通过合页损失函数优化图像判别器,对合页损失函数求最小值以优化图像判别器如下:
Figure 324446DEST_PATH_IMAGE014
其中,Dimg为图像判别器,
Figure 628388DEST_PATH_IMAGE015
为对真实场景图像数据集求期望,xr为真实场景图 像数据,Pr为真实场景图像数据集服从的概率分布,Dimg(xr)为真实场景图像数据集判别信 息,
Figure 903512DEST_PATH_IMAGE016
为对生成场景图像数据求期望,xg为生成场景图像数据,Pg为生成场景图像 数据服从的概率分布,Dimg(xg)为生成场景图像数据判别信息。
10.根据权利要求1所述的基于因果图谱的场景图像生成方法,其特征在于,对判别信息求最大值以优化初始图像生成器和第二邻接权重矩阵如下:
Figure 546983DEST_PATH_IMAGE017
El为对标框标注布局数据求期望,G(l)为将标框标注l的布局数据输入至初始图像生成器,得到生成场景图像数据,θ为第二邻接权重矩阵。
CN202210097140.XA 2022-01-27 2022-01-27 一种基于因果图谱的场景图像生成方法 Active CN114119803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210097140.XA CN114119803B (zh) 2022-01-27 2022-01-27 一种基于因果图谱的场景图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210097140.XA CN114119803B (zh) 2022-01-27 2022-01-27 一种基于因果图谱的场景图像生成方法

Publications (2)

Publication Number Publication Date
CN114119803A true CN114119803A (zh) 2022-03-01
CN114119803B CN114119803B (zh) 2022-05-10

Family

ID=80361181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210097140.XA Active CN114119803B (zh) 2022-01-27 2022-01-27 一种基于因果图谱的场景图像生成方法

Country Status (1)

Country Link
CN (1) CN114119803B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统
CN114898166A (zh) * 2022-07-13 2022-08-12 合肥工业大学 一种基于演进因果模型的检测玻璃洁净度的方法
CN114943322A (zh) * 2022-04-11 2022-08-26 山东大学 基于深度学习的从布局到场景图像的自动生成方法及系统
CN115661603A (zh) * 2022-12-15 2023-01-31 浙江大学 一种基于非模态布局补全的图像生成方法
CN117132804A (zh) * 2023-07-04 2023-11-28 中国矿业大学 一种基于因果跨域小样本学习的高光谱图像分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110024125A1 (en) * 2009-07-29 2011-02-03 Wallace Jon M Space-Time Surrogate Models of Subterranean Regions
CN110689086A (zh) * 2019-10-08 2020-01-14 郑州轻工业学院 基于生成式对抗网络的半监督高分遥感图像场景分类方法
CN112418390A (zh) * 2019-08-23 2021-02-26 国际商业机器公司 使用单调属性函数对图像进行对比解释
CN113191918A (zh) * 2021-03-31 2021-07-30 重庆大学 基于时序生成对抗网络的月度风光发电功率场景分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110024125A1 (en) * 2009-07-29 2011-02-03 Wallace Jon M Space-Time Surrogate Models of Subterranean Regions
CN112418390A (zh) * 2019-08-23 2021-02-26 国际商业机器公司 使用单调属性函数对图像进行对比解释
CN110689086A (zh) * 2019-10-08 2020-01-14 郑州轻工业学院 基于生成式对抗网络的半监督高分遥感图像场景分类方法
CN113191918A (zh) * 2021-03-31 2021-07-30 重庆大学 基于时序生成对抗网络的月度风光发电功率场景分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CEYUAN YANG ET AL: "Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *
DAVID BAU ET AL: "Gan dissection: Visualizing and understanding generative adversarial networks", 《PREPRINT PREPARED FOR ARXIV SUBMISSION》 *
唐佩军: "生成对抗网络的可解释性研究", 《中国优秀硕士学位论文全文数据库电子期刊 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943322A (zh) * 2022-04-11 2022-08-26 山东大学 基于深度学习的从布局到场景图像的自动生成方法及系统
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统
CN114842248B (zh) * 2022-04-22 2024-02-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统
CN114898166A (zh) * 2022-07-13 2022-08-12 合肥工业大学 一种基于演进因果模型的检测玻璃洁净度的方法
CN115661603A (zh) * 2022-12-15 2023-01-31 浙江大学 一种基于非模态布局补全的图像生成方法
CN115661603B (zh) * 2022-12-15 2023-04-25 浙江大学 一种基于非模态布局补全的图像生成方法
CN117132804A (zh) * 2023-07-04 2023-11-28 中国矿业大学 一种基于因果跨域小样本学习的高光谱图像分类方法
CN117132804B (zh) * 2023-07-04 2024-04-05 中国矿业大学 一种基于因果跨域小样本学习的高光谱图像分类方法

Also Published As

Publication number Publication date
CN114119803B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN114119803B (zh) 一种基于因果图谱的场景图像生成方法
CN109345575B (zh) 一种基于深度学习的图像配准方法及装置
CN107330453B (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN113609896B (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
CN107403434A (zh) 基于两阶段聚类的sar图像语义分割方法
CN114005085A (zh) 一种视频中密集人群分布检测与计数方法
CN111598032B (zh) 一种基于图神经网络的群体行为识别方法
CN117252892B (zh) 基于轻量化视觉自注意力网络的双分支人像自动抠图装置
Li et al. Automatic annotation algorithm of medical radiological images using convolutional neural network
CN115880720A (zh) 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法
CN116385660A (zh) 室内单视图场景语义重建方法及系统
Xu et al. Generative image completion with image-to-image translation
CN111275778A (zh) 人脸简笔画生成方法及装置
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN116503753A (zh) 一种基于多模态空域变换网络的遥感图像场景分类方法
CN111144422A (zh) 一种飞机部件的定位识别方法和系统
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
Zhang et al. TCFAP-Net: Transformer-based Cross-feature Fusion and Adaptive Perception Network for large-scale point cloud semantic segmentation
Kouritzin et al. A graph theoretic approach to simulation and classification
CN114913368A (zh) 基于自步双向对抗学习的融合遥感图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant