CN113570695A

CN113570695A - 一种图像生成方法、装置及电子设备

Info

Publication number: CN113570695A
Application number: CN202111132447.0A
Authority: CN
Inventors: 葛宁; 王志明; 陆建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-10-29
Anticipated expiration: 2041-09-27
Also published as: CN113570695B

Abstract

本发明涉及一种图像生成方法、装置及电子设备，其中，该方法包括：获取待测场景图；将待测场景图输入至训练好的图像生成模型中，得到生成图片；图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；判断测试场景图是否为3D模型图，若是，则将3D模型图进行渲染和编码，得到外观信息和形状信息；若否，则对测试场景图中物体进行编码和假设，得到外观信息和形状信息；根据测试场景图、外观信息和形状信息对图像生成模型进行测试。本发明通过将同一张图片的不同物体的表征向量视作一个序列，用序列模型学习他们之间的依赖关系，用于几何形状的修正，从而提高了图像的生成效果和质量。

Description

一种图像生成方法、装置及电子设备

技术领域

本发明涉及图像识别与生成技术领域，特别是涉及一种图像生成方法、装置、电子设备及计算机可读存储介质。

背景技术

场景图是图像内容的结构化表示，不仅提供场景中各个物体的语义和空间信息，还捕获每对物体之间的关系。近年来，推断这种图形已经越来越受到关注，因为它对图像有了更深入的理解，以促进从基本识别和检测到高级任务的各种视觉任务。

当前面向场景图的图像生成方法的难点在于：

（1）每个物体的类别信息并不能充分指导最终物体的生成效果；

（2）图像中各个物体存在依赖关系（如位置关系，动宾关系），简单地将各个物体拼接到一块会造成角度、大小上的不适配以及违和感。

（3）如果仅仅使用生成模型，由于提供的先验知识有限，所以生成逼真的图像效果难度比较大。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种图像生成方法、装置、电子设备及计算机可读存储介质。

一种图像生成方法，包括：

步骤1：获取待测场景图；

步骤2：将所述待测场景图输入至训练好的图像生成模型中，得到生成图片；所述图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；

步骤3：判断测试场景图是否为3D模型图，若是，则将所述3D模型图进行渲染和编码，得到外观信息和形状信息；若否，则对所述测试场景图中物体进行编码和假设，得到所述外观信息和形状信息；

步骤4：根据所述测试场景图、所述外观信息和所述形状信息对所述图像生成模型进行测试。

优选的，所述步骤2：将所述待测场景图输入至训练好的图像生成模型中，得到生成图片，包括：

步骤2.1：根据所述待测场景图得到至少两个物体外观向量；所述物体外观向量包括物体外观向量和物体类别向量；

步骤2.2：对所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息；

步骤2.3：根据所述掩膜预测信息生成至少两个初始布局图，并根据所述初始布局图得到物体布局图；

步骤2.4：根据所述物体布局图得到所述生成图片。

优选的，所述步骤2.2：对所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息，包括：

使用空间变形网络和物体位置框对所述物体外观向量和所述物体类别向量进行融合，得到所述掩膜预测信息。

优选的，所述图像生成模型的训练方法包括：

步骤101：根据训练场景图得到输入至所述图卷积神经网络的场景图和输入至所述物体编码模块的图像切块；

步骤102：根据所述图像切块得到外观表征向量和初始掩膜表征向量；

步骤103：根据所述外观表征向量和所述初始掩膜表征向量得到训练生成图像；

步骤104：根据所述训练场景图和所述训练生成图像对所述图像生成模型进行训练。

优选的，所述步骤103：根据所述外观表征向量和所述初始掩膜表征向量得到训练生成图像，包括：

步骤103.1：根据初始掩膜表征向量和预测的位置框得到空间依赖关系；

步骤103.2：根据所述空间依赖关系得到相应的仿射变换矩阵；

步骤103.3：根据所述仿射变换矩阵对相应的初始掩膜表征向量进行仿射变换得到最终的掩膜表征向量；

步骤103.4：根据所述外观表征向量和所述最终的掩膜表征向量得到训练生成图像。

本发明还提供了一种图像生成装置，包括：

场景图获取模块，用于获取待测场景图；

图片生成模块，用于将所述待测场景图输入至训练好的图像生成模型中，得到生成图片；所述图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；

外观信息和形状信息判断模块，用于判断测试场景图是否为3D模型图，若是，则将所述3D模型图进行渲染和编码，得到外观信息和形状信息；若否，则对所述测试场景图中物体进行编码和假设，得到所述外观信息和形状信息；

测试模块，用于根据所述测试场景图、所述外观信息和所述形状信息对所述图像生成模型进行测试。

优选的，所述图片生成模块，包括：

物体外观向量计算单元，用于根据所述待测场景图得到至少两个物体外观向量；所述物体外观向量包括物体外观向量和物体类别向量；

融合单元，用于对所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息；

初始布局图生成单元，用于根据所述掩膜预测信息生成至少两个初始布局图，并根据所述初始布局图得到物体布局图；

图片生成单元，用于根据所述物体布局图得到所述生成图片。

优选的，还包括：

训练场景图输入模块，用于根据训练场景图得到输入至所述图卷积神经网络的场景图和输入至所述物体编码模块的图像切块；

表征向量计算模块，用于根据所述图像切块得到外观表征向量和初始掩膜表征向量；

训练图像模块，用于根据所述外观表征向量和所述初始掩膜表征向量得到训练生成图像；

图像训练模块，用于根据所述训练场景图和所述训练生成图像对所述图像生成模型进行训练。

本发明还提供了一种电子设备，包括总线、收发器（显示单元/输出单元、输入单元）、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现上述任一项所述的图像生成方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的图像生成方法中的步骤。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明涉及一种图像生成方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：获取待测场景图；将待测场景图输入至训练好的图像生成模型中，得到生成图片；图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；判断测试场景图是否为3D模型图，若是，则将3D模型图进行渲染和编码，得到外观信息和形状信息；若否，则对测试场景图中物体进行编码和假设，得到外观信息和形状信息；根据测试场景图、外观信息和形状信息对图像生成模型进行测试。本发明通过将同一张图片的不同物体的表征向量视作一个序列，用序列模型学习他们之间的依赖关系，用于几何形状的修正，从而提高了图像的生成效果和质量。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的实施例中的图像生成示意图；

图2为本发明提供的实施例中的图像处理流程图；

图3为本发明提供的实施例中的掩膜预测器的结构图；

图4为本发明提供的实施例中的图像生成流程图；

图5为本发明提供的实施例中的图像生成局部结构图；

图6为本发明提供的实施例中的图像生成方法流程图；

图7为本发明提供的实施例中的训练阶段的流程框图；

图8为本发明提供的实施例中的图像切块处理流程框图；

图9为本发明提供的实施例中的掩膜表征向量处理流程框图；

图10为本发明提供的实施例中的测试阶段的处理流程图；

图11为本发明提供的实施例中的一种用于执行图像生成方法的的电子设备的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的目的提供一种图像生成方法、装置及电子设备，能够提高图像的生成效果和质量。

实施例1：

一种图像生成方法，包括：

步骤1：获取待测场景图；

在本发明中，步骤2具体包括：

步骤2.2：对所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息；具体的，使用空间变形网络和物体位置框对所述物体外观向量和所述物体类别向量进行融合，得到所述掩膜预测信息

步骤2.4：根据所述物体布局图得到所述生成图片。

本发明中还提供了所述图像生成模型的训练方法，包括：

步骤103：根据所述外观表征向量和所述初始掩膜表征向量得到训练生成图像；其中，步骤103具体包括：

以上详细介绍了图像生成方法流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明还提供了一种图像生成装置，包括：

场景图获取模块，用于获取待测场景图；

优选的，所述图片生成模块，包括：

优选的，所述融合单元，包括：

融合子单元，用于使用空间变形网络和物体位置框对所述物体外观向量和所述物体类别向量进行融合，得到所述掩膜预测信息。

优选的，还包括：

优选的，所述训练图像模块，包括：

空间依赖关系计算单元，用于根据初始掩膜表征向量和预测的位置框得到空间依赖关系；

仿射变换矩阵计算单元，用于根据所述空间依赖关系得到相应的仿射变换矩阵；

掩膜表征向量计算单元，用于根据所述仿射变换矩阵对相应的初始掩膜表征向量进行仿射变换得到最终的掩膜表征向量；

图像训练单元，用于根据所述外观表征向量和所述最终的掩膜表征向量得到训练生成图像。

本发明通过将同一张图片的不同物体的表征向量视作一个序列，用序列模型学习他们之间的依赖关系，用于几何形状的修正，从而提高了图像的生成效果和质量。

实施例2：

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的实施例中的图像生成示意图，如图1所示，本实施例的目的是从场景图到真实图片的转化。

针对现有技术汇总存在的缺陷，本实施例中提出了三个问题：

（1）如何引入额外的信息用于提升生成效果

（2）如何提取各个物体之间的依赖关系以及如何使用依赖关系来修正每个物体的几何形状。

（3）由于提供的先验知识有限，如何生成逼真的图像效果。

图2为本发明提供的实施例中的图像处理流程图，如图2所示，本实施例解决上述问题的基础为图像处理模型。

模型的主要模块包括：1）图卷积神经网络；2）位置预测器；3）掩膜预测器；4）实现从场景布局图到自然图像的图像翻译模型。

整个算法的实现流程如下所示：

1.图卷积神经网络以场景图作为输入，对<源物体，关系，目标物体>这样的三元组形式并行处理，捕捉每对物体的关联关系（如空间位置关系，动宾关系），从而得到每个物体的类别表征向量；

2.位置预测器以图卷积神经网络输出的物体编码向量作为输入，输出一个以四元组<左上顶点横坐标，左上顶点纵坐标，右上顶点横坐标，右上顶点纵坐标>表示的方框，表示当前物体未来应该放置的位置。

3.掩膜预测器以图卷积神经网络输出的物体编码向量作为输入，输出数值在区间（0,1）的掩膜。该掩膜上的每一个点的数值表示当前点是指定物体的概率。因此掩膜可以反映预测物体的形状。掩膜预测器的结构如图3所示。

4.将iii得到的每一个物体的掩膜，在对应的ii预测的物体位置框表示的区域内做插值操作，进而得到每个物体的布局图，组合所有物体的布局图得到场景布局图；

5.使用图像翻译模型实现从场景布局图到自然图像的翻译工作，通常使用的模型是级联修正网络。

图4和图5分别为本发明提供的实施例中的改进的图像生成流程图和图像生成局部结构图，如图4和图5所示，图中矩形框标注的物体编码模块和掩膜预测模块（布局图预测），具体的改进如下所示：

（1）在场景图包含的物体类别信息基础上，从图像切块中使用编码器得到物体的外观表征向量的分布参数，使用统计推断的方式并将其分布约束为标准高斯分布，这样可以实现同一张场景图可以有多张输出对应图；

（2）在掩膜预测器中，融合物体的类别表征向量和外观表征向量来对掩膜做预测。

下面介绍训练网络的时候通常使用的损失函数:

i.面向图像的对抗损失函数：用于从整体角度提高图像的逼真程度；

ii.面向物体的对抗损失函数：用于从局部角度提高每个物体的逼真程度；

iii.针对位置预测的回归损失函数：用于提高位置预测器的预测准确程度；

iv.分类损失函数：用于监督生成的物体符合当前既定的类别；

v.像素级重建误差：约束生成图像在像素层面逼近当前场景图对应的原始图像；

vi.隐变量重建误差：用于还原最初采样的隐变量；

vii.掩膜误差：约束预测的掩膜逼近真实掩膜；

Viii.散度误差：约束隐变量分布逼近假设的先验分布。

图6为本发明提供的实施例中的图像生成方法流程图，如图6所示，本实施例中还提供了一种图像生成方法，包括：

步骤100：获取待测场景图；

步骤200：将所述待测场景图输入至训练好的图像生成模型中，得到生成图片；所述图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；其中，所述物体编码模块根据所述待测场景图进行图像切块和图像编码，得到所述待测场景图中物体的外观表征向量的分布参数，并使用统计推断的方式并将所述分布参数的分布约束为标准高斯分布，得到至少两个物体外观向量；所述物体编码模块将所述物体外观向量和所述待测场景图的物体类别向量均输入至所述掩膜预测网络中，所述掩膜预测网络将所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息；所述图像布局网络根据所述掩膜预测信息生成生成至少两个初始布局图，并根据所述初始布局图得到物体布局图；所述图像翻译网络根据所述物体布局图得到所述生成图片；

所述图像生成模型的测试过程为：

步骤300：判断测试场景图是否为3D模型图，若是，则将所述3D模型图进行渲染，得到2D图像，并将所述2D图像输入至所述物体编码模块进行编码，得到外观信息和形状信息；若否，则在所述物体编码模块中使用统计推断的方式对所述测试场景图中物体编码得到的隐变量解耦为形状和外观两部分，并对两部分的隐变量做出对应的先验分布假设，得到所述外观信息和形状信息；

步骤400：根据所述测试场景图、所述外观信息和所述形状信息对所述图像生成模型进行测试。

优选地，所述掩膜预测网络将所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息，包括：

使用空间变形网络和物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的初步的掩膜表征向量做相应的几何形变，得到所述掩膜预测信息；所述掩膜预测信息中包含所述待测场景图中描述的物体之间的关系。

优选地，所述使用空间变形网络和物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的初步的掩膜表征向量做相应的几何形变，得到所述掩膜预测信息，包括：

将初始掩膜表征向量和所述物体位置框在通道维度上进行合并，将同一张所述待测场景图中各个物体融合后的表征信息输入到卷积长短期记忆网络中，得到各个物体之间的空间依赖关系；

将所述空间依赖关系输入到空间变换网络中，为每一个物体的掩膜表征向量输出对应的仿射变换矩阵；

基于所述仿射变换矩阵对所述初始掩膜表征向量进行仿射变换，得到所述掩膜预测信息；所述掩膜预测信息为最终的掩膜表征向量。

图7为本发明提供的实施例中的训练阶段的流程框图，如图7所示，训练阶段主要的改进对象是掩膜预测器和图像翻译模型，对应于图7中矩形框标注的部分，具体的改进如下所示：

（1）相对于上述图像处理过程的工作，主要改进在于将图像编码得到的信息解耦成形状表征向量的分布参数和外观表征向量的分布参数，根据高斯分布和指数分布的先验假设采样得到两部分表征向量。前者用于后续的物体掩膜生成（因为掩膜更多取决于形状信息），而外观的表征向量部分用于后续的从场景布局图到自然图像的图像翻译过程；

（2）使用空间变形网络，凭借预测的物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的初步的掩膜表征向量做相应的几何形变，使得最终得到的掩膜表征向量更能包含场景图中描述的物体之间的关系（如位置关系、动宾关系），从而使得最终生成的图像更自然。

（3）将（2）中提取到的外观表征向量与场景布局图做通道拼接操作，融合两部分的信息实现图像翻译。

针对步骤（1）的详细架构如图8所示：工作流程如下所示：

i.对图像切块分别使用形状编码器和外观编码器进行编码，分别得到形状隐变量的分布参数和外观隐变量的分布参数。使用KL散度约束两个隐变量的分布分别向标准高斯分布和参数λ为单位阵的指数分布靠近。通过按照给定的先验分布假设，用分布参数采样得到形状隐变量和外观隐变量。

ii.使用i中得到的形状隐变量，和图卷积神经网络得到的对应的物体的类别表征向量使用求和运算进行合并，用于将形状、外观等信息与类别信息进行融合。

iii.形状预测器输出初步的掩膜表征向量，作为后续的空间形变网络的输入。外观预测器输出外观表征向量用于图像翻译环节，具体实现方式是将场景布局图和外观表征向量在通道维度上进行拼接，从而融合两部分的信息，增进最终的图像质量。

针对步骤（2）的详细架构如图9所示，其工作流程如下：

i.初步掩膜表征向量和预测的位置框在通道维度上进行合并，将同一张图片中各个物体融合后的表征信息一起输入到卷积长短期记忆网络中学习各个物体之间的空间依赖关系；

ii.将i中得到的空间依赖关系输入到空间变换网络中，为每一个物体的掩膜表征向量输出对应的仿射变换矩阵。

将ii得到的仿射变换矩阵作用于对应物体的初步掩膜表征向量上，实现仿射变换，得到最终的掩膜表征向量，用于后续的物体掩膜的计算。

优选地，所述图像生成模型的训练方法包括：

将训练场景图输入至所述图像生成模型中；所述训练场景图包括输入至所述图卷积神经网络的场景图和输入至所述物体编码模块的图像切块；

将物体编码模块中进行图像编码得到的信息解耦成形状表征向量的分布参数和外观表征向量的分布参数，根据高斯分布和指数分布的先验假设采样得到初始掩膜表征向量和外观表征向量；所述初始掩膜表征向量用于训练物体掩膜的生成；所述外观表征向量用于训练图像翻译网络；

根据预测物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的所述初始掩膜表征向量做相应的几何形变，得到的最终的掩膜表征信息；

根据所述训练场景图中的物体类别表征向量和所述掩膜表征信息的场景布局图；

将所述外观表征向量与所述场景布局图做通道拼接操作，根据拼接操作后的信息确定训练生成图像；

采用迭代优化法，根据所述训练场景图和所述训练生成图像对所述图像生成模型进行训练。

优选地，所述将物体编码模块中进行图像编码得到的信息解耦成形状表征向量的分布参数和外观表征向量的分布参数，根据高斯分布和指数分布的先验假设采样得到初始掩膜表征向量和外观表征向量，包括：

对图像切块分别使用形状编码器和外观编码器进行编码，分别得到形状隐变量的分布参数和外观隐变量的分布参数，使用KL散度约束两个隐变量的分布分别向标准高斯分布和参数λ为单位阵的指数分布靠近，通过按照给定的先验分布假设，用分布参数采样得到形状隐变量和外观隐变量；

将所述形状隐变量和图卷积神经网络得到的对应的物体的类别表征向量使用求和运算进行合并，以实现将形状、外观等信息与类别信息进行融合，得到所述外观表征向量；

利用所述形状预测器输出所述初始掩膜表征向量。

图10为本发明提供的实施例中的测试阶段的处理流程图，如图10所示，其中需要说明的是：图中的形状编码器和外观编码器均来自于训练阶段的两个编码器。

本实施例中测试阶段的处理流程与训练阶段类似，区别在于：

（1）对于没有对应3D模型的情况：没有图像切块作为输入；对于存在对应3D模型的情况：首先将3D模型经过渲染得到对应的2D图像（对应于训练阶段的图像切块），然后使用形状编码器和外观编码器对2D图像进行编码，得到对应表征向量对应分布的参数；

（2）对于没有对应3D模型的情况：直接从假设的先验分布中采样得到外观隐变量和形状隐变量；对于存在对应3D模型的情况：通过第（1）步得到的对应分布的参数完成采样得到外观隐变量和形状隐变量。

本实施例中还提供了一种图像生成装置，包括：

获取单元，用于获取待测场景图；

生成单元，用于将所述待测场景图输入至训练好的图像生成模型中，得到生成图片；所述图像生成模型是基于物体编码模块和依次连接的图卷积神经网络、掩膜预测网络、图像布局网络和图像翻译网络构成的；其中，所述物体编码模块根据所述待测场景图进行图像切块和图像编码，得到所述待测场景图中物体的外观表征向量的分布参数，并使用统计推断的方式并将所述分布参数的分布约束为标准高斯分布，得到至少两个物体外观向量；所述物体编码模块将所述物体外观向量和所述待测场景图的物体类别向量均输入至所述掩膜预测网络中，所述掩膜预测网络将所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息；所述图像布局网络根据所述掩膜预测信息生成生成至少两个初始布局图，并根据所述初始布局图得到物体布局图；所述图像翻译网络根据所述物体布局图得到所述生成图片；

测试单元，用于判断测试场景图是否为3D模型图，若是，则将所述3D模型图进行渲染，得到2D图像，并将所述2D图像输入至所述物体编码模块进行编码，得到外观信息和形状信息；若否，则在所述物体编码模块中使用统计推断的方式对所述测试场景图中物体编码得到的隐变量解耦为形状和外观两部分，并对两部分的隐变量做出对应的先验分布假设，得到所述外观信息和形状信息；根据所述测试场景图、所述外观信息和所述形状信息对所述图像生成模型进行测试。

优选地，所述生成单元包括：

序列学习单元，用于使用空间变形网络和物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的初步的掩膜表征向量做相应的几何形变，得到所述掩膜预测信息；所述掩膜预测信息中包含所述待测场景图中描述的物体之间的关系。

优选地，所述序列学习单元包括：

合并子单元，用于将初始掩膜表征向量和所述物体位置框在通道维度上进行合并，将同一张所述待测场景图中各个物体融合后的表征信息输入到卷积长短期记忆网络中，得到各个物体之间的空间依赖关系；

空间变换子单元，用于将所述空间依赖关系输入到空间变换网络中，为每一个物体的掩膜表征向量输出对应的仿射变换矩阵；

仿射变换子单元，用于基于所述仿射变换矩阵对所述初始掩膜表征向量进行仿射变换，得到所述掩膜预测信息；所述掩膜预测信息为最终的掩膜表征向量。

优选地，还包括训练单元，所述训练单元包括：

输入子单元，将训练场景图输入至所述图像生成模型中；所述训练场景图包括输入至所述图卷积神经网络的场景图和输入至所述物体编码模块的图像切块；

解耦子单元，用于将物体编码模块中进行图像编码得到的信息解耦成形状表征向量的分布参数和外观表征向量的分布参数，根据高斯分布和指数分布的先验假设采样得到初始掩膜表征向量和外观表征向量；所述初始掩膜表征向量用于训练物体掩膜的生成；所述外观表征向量用于训练图像翻译网络；

形变子单元，用于根据预测物体位置框，捕捉各个物体之间的空间依赖关系，对每个物体的所述初始掩膜表征向量做相应的几何形变，得到的最终的掩膜表征信息；

布局图获取子单元，用于根据所述训练场景图中的物体类别表征向量和所述掩膜表征信息的场景布局图；

训练图像生成子单元，用于将所述外观表征向量与所述场景布局图做通道拼接操作，根据拼接操作后的信息确定训练生成图像；

模型确定子单元，用于采用迭代优化法，根据所述训练场景图和所述训练生成图像对所述图像生成模型进行训练。

优选地，所述解耦子单元包括：

编码子单元，用于对图像切块分别使用形状编码器和外观编码器进行编码，分别得到形状隐变量的分布参数和外观隐变量的分布参数，使用KL散度约束两个隐变量的分布分别向标准高斯分布和参数λ为单位阵的指数分布靠近，通过按照给定的先验分布假设，用分布参数采样得到形状隐变量和外观隐变量；

融合子单元，用于将所述形状隐变量和图卷积神经网络得到的对应的物体的类别表征向量使用求和运算进行合并，以实现将形状、外观等信息与类别信息进行融合，得到所述外观表征向量；

向量输出子单元，用于利用所述形状预测器输出所述初始掩膜表征向量。

本发明的有益效果如下：

（1）本发明在对于无3D模型的情况下，使用统计推断的方式对图像中物体编码得到的隐变量解耦为形状和外观两部分，并对两部分的隐变量做出对应的先验分布假设，从而从两方面实现对生成过程的控制，提升生成图像的丰富性和主观效果。

（2）本发明在对于存在3D模型的情况下，首先使用3D模型进行渲染，之后对渲染后的2D图像，使用编码器对2D图像分别编码形状和外观两部分信息，用于后续的生成任务。

（3）本发明将同一个图像中的不同物体看作是一个序列，借助于预测的各个物体的位置框，使用经典的序列模型——卷积长短期记忆网络来捕捉物体间的依赖关系，将这种依赖关系用于指导逐个物体的仿射变换参数的计算。最后使用得到的仿射变换参数对每个物体做仿射变换，实现对每个物体在角度和大小层面的几何形状修正。

（4）本发明的应用场景包括但不局限于家居布局的虚拟效果展示，虚拟现实教学中面向指定场景的图像演示等。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图11所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述图像生成方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port，AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro Channel Architecture，MCA)总线、扩展ISA(Enhanced ISA，EISA)总线、视频电子标准协会(Video Electronics Standards Association，VESA)、外围部件互连(Peripheral Component Interconnect，PCI)总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、复杂可编程逻辑器件(Complex ProgrammableLogicDevice，CPLD)、可编程逻辑阵列(Programmable Logic Array，PLA)、微控制单元(Microcontroller Unit，MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory，RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(ProgrammableROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband，eMBB)系统、海量机器类通信(massive Machine Type of Communication，mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications，uRLLC)系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存(Flash Memory)。

易失性存储器包括：随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(Media Player)、浏览器(Browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换的技术方案，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像生成方法，其特征在于，包括：

步骤1：获取待测场景图；

2.根据权利要求1所述的图像生成方法，其特征在于，所述步骤2：将所述待测场景图输入至训练好的图像生成模型中，得到生成图片，包括：

步骤2.4：根据所述物体布局图得到所述生成图片。

3.根据权利要求2所述的图像生成方法，其特征在于，所述步骤2.2：对所述物体外观向量和所述物体类别向量进行融合，得到掩膜预测信息，包括：

4.根据权利要求2所述的图像生成方法，其特征在于，所述图像生成模型的训练方法包括：

5.根据权利要求4所述的图像生成方法，其特征在于，所述步骤103：根据所述外观表征向量和所述初始掩膜表征向量得到训练生成图像，包括：

6.一种图像生成装置，其特征在于，包括：

场景图获取模块，用于获取待测场景图；

7.根据权利要求6所述的一种图像生成装置，其特征在于，所述图片生成模块，包括：

8.根据权利要求7所述的一种图像生成装置，其特征在于，还包括：

9.一种电子设备，包括总线、收发器（显示单元/输出单元、输入单元）、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的图像生成方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的图像生成方法中的步骤。