CN114943322A

CN114943322A - 基于深度学习的从布局到场景图像的自动生成方法及系统

Info

Publication number: CN114943322A
Application number: CN202210372997.8A
Authority: CN
Inventors: 武蕾; 高琳; 孟雷; 孟祥旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-26
Anticipated expiration: 2042-04-11

Abstract

本发明涉及计算机视觉技术领域，本发明公开了基于深度学习的从布局到场景图像的自动生成方法及系统，包括：获取输入的布局；所述布局，包括：不同边界框的位置、尺寸和类别；把获取到的布局输入至训练好的生成器中，输出与布局一致的场景图像；其中，所述生成器通过与判别器的对抗学习来提高自己的图像生成能力，生成器的多层特征被转换为不同尺度的边缘图，从而实现多尺度学习；通过提取与融合生成器的多层特征中包含的边缘信息，完成对布局中各个物体边缘的迭代优化。

Description

基于深度学习的从布局到场景图像的自动生成方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于深度学习的从布局到场景图像的自动生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

在艺术创作领域中，将脑海中的构图转变为栩栩如生的画作是个费时又费力的过程。它要求创作者有深厚的艺术功底及创作耐心。但是最终的成品可能并不尽人意，这时又需要复工，重新构图，重新创作，如此反复。该过程的创作流程效率低下，创作门槛高。

现有技术存在生成图像的边缘线条不清晰，物体可识别性低的缺陷。

发明内容

为了解决现有技术的不足，本发明提供了基于深度学习的从布局到场景图像的自动生成方法及系统；其基于简单的布局信息进行类似于照片的场景图像的自动生成，尤其通过关注物体的边缘轮廓来提高物体的可识别度和清晰度。

第一方面，本发明提供了基于深度学习的从布局到场景图像的自动生成方法；

基于深度学习的从布局到场景图像的自动生成方法，包括：

获取输入的布局；所述布局，包括：不同边界框的位置、尺寸和类别；

把获取到的布局输入至训练好的生成器中，输出与布局一致的场景图像；

其中，所述生成器通过与判别器的对抗学习来提高自己的图像生成能力，生成器的多层特征被转换为不同尺度的边缘图，从而实现多尺度学习；通过提取与融合生成器的多层特征中包含的边缘信息，完成对布局中各个物体边缘的迭代优化。

第二方面，本发明提供了基于深度学习的从布局到场景图像的自动生成系统；

基于深度学习的从布局到场景图像的自动生成系统，包括：

获取模块，其被配置为：获取输入的布局；所述布局，包括：不同边界框的位置、尺寸和类别；

图像生成模块，其被配置为：把获取到的布局输入至训练好的生成器中，输出与布局一致的场景图像；

其中，所述生成器通过与判别器的对抗学习来提高自己的图像生成能力，生成器的多层特征被转换为不同尺度的边缘图，从而实现多尺度学习；通过提取与融合生成器的多层特征中包含的边缘信息，完成对布局中各个物体边缘的迭代优化。第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

(1)本发明基于深度学习的从布局到场景图像的自动生成方法及系统，通过多尺度学习的方式基于布局条件生成边缘线条更清晰、物体可识别性更高的图像。

(2)本发明利用精心设计的边缘生成模块和边缘融合模块，对生成器输出的多层特征进行多尺度边缘信息的提取与融合，这些信息伴随着生成器的管道迭代地优化。这两个模块在生成管道中着重关注与边缘有关的信息，更有针对性地解决了生成图像中物体的形变、可识别性差等问题，进而提高了图像的生成质量。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一提供的基于深度学习的从布局到场景图像的自动生成方法的流程图；

图2是本发明实施例一提供的生成器中第一残差块的网络结构图；

图3是本发明实施例一提供的生成器中第二、第三和第四残差块的网络结构图；

图4是本发明实施例一提供的边缘校准的归一化EdgeCalibrationNormalization层的细节实现图；

图5是本发明实施例一提供的生成器中图像生成模块包含的图像生成单元的网络结构图；

图6是本发明实施例一提供的生成器中图像生成模块包含的边缘图提取单元的网络结构图；

图7是本发明实施例一提供的布局到图像自动生成任务组织方法的具体示例；

图8是本发明实施例一提供的生成器的网络结构图；

图9是本发明实施例一提供的基于深度学习的从布局到场景图像的自动生成方法的网络结构图；

图10(a)～图10(p)是本发明实施例一提供的方法与已有方法的定性结果对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于深度学习的从布局到场景图像的自动生成方法；

如图1所示，基于深度学习的从布局到场景图像的自动生成方法，包括：

S101：获取输入的布局；所述布局，包括：不同边界框的位置、尺寸和类别；

S102：把获取到的布局输入至训练好的生成器中，输出与布局一致的场景图像；

其中，所述生成器通过与判别器的对抗学习来提高自己的图像生成能力，生成器的多层特征被转换为不同尺度的边缘图，从而实现多尺度学习；通过对生成器输出的多层特征包含的边缘信息进行提取与融合，沿着生成器的管道完成对布局中各个物体边缘的迭代优化。进一步地，所述训练好的生成器，训练步骤包括：

S1021：构建生成器和判别器；将生成器和判别器进行连接，组成生成对抗网络；

S1022：构建训练集；其中，所述训练集为已知场景图像的布局；所述布局，包括：不同边界框的位置、尺寸和类别；

S1023：将训练集，输入到生成器中，生成器生成预测图像；判别器对预测图像与真实图像进行真假判别，当总损失函数值停止下降时，停止训练，得到训练后的生成器。

进一步地，所述生成器，结构包括：依次连接的映射层、第一残差块、第一边缘生成模块、第二残差块、第二边缘生成模块、第三残差块、第三边缘生成模块、第四残差块和图像生成单元。

所述生成器，用于生成分辨率为64×64图像。

进一步地，所述映射层，采用线性层Linear与谱归一化Spectral Normalization相互连接的结构，作用是把从正态分布中采样的向量z映射成形状为(1024,4,4)的向量。

进一步地，所述第一残差块，结构包括：并列的两条分支；

其中，第一条分支，包括依次连接的实例敏感和布局感知的特征归一化Instance-Sensitive and Layout-Aware Feature Normalization层、激活函数ReLU层、上采样层、卷积层、实例敏感和布局感知的特征归一化Instance-Sensitive and Layout-AwareFeature Normalization层、激活函数ReLU层和卷积层；

第二条分支，包括依次连接的上采样层和卷积层；

第一条分支的输入值为映射层的输出和表示物体特征的向量w；

第二条分支的输入值为映射层的输出；

第一条分支的输出值与第二条分支的输出值进行求和得到第一残差块的输出值。第一残差块的网络结构图见图2。

进一步地，所述第一残差块，工作原理包括：

对映射层的输出提取深层次的特征，表示物体特征的向量w在Instance-Sensitive and Layout-Aware Feature Normalization层发挥作用来辅助深层次特征的提取过程。该特征作为主要的数据流贯穿生成器的始终，所以第一残差块的角色尤为重要。

示例性地，第一个残差块，接收映射层的输出和表示物体特征的向量w作为输入。它首先对输入应用Instance-Sensitive and Layout-Aware Feature Normalization-ReLU()-上采样(scale factor为2，方式为nearest)-卷积层(卷积核大小为3×3，stride为1，paddind为1)-Instance-Sensitive and Layout-Aware Feature Normalization-ReLU()-卷积层(卷积核大小为3×3，stride为1，paddind为1)得到一部分输出。同时对第一部分输入应用上采样(scale factor为2，方式为nearest)-卷积层(卷积核大小为1×1，stride为1，padding为0)得到另一部分输出。这两部分进行相加，得到第一残差块的输出，输出的层级向量的形状为(1024,8,8)。

其中，所述第二、第三和第四残差块的内部结构是一致的，见图3。

其中，所述第二残差块内部包含边缘融合模块。

其中，所述第二残差块，结构包括：并列的两条分支；

其中，第一条分支，包括依次连接的边缘校准的归一化EdgeCalibrationNormalization层、激活函数ReLU层、上采样层、卷积层、边缘校准的归一化Edge CalibrationNormalization层、激活函数ReLU层和卷积层；

第二条分支，包括依次连接的上采样层和卷积层；

第一条分支的输入值为第一残差块输出的层级特征、表示物体特征的向量w和提取到的边缘图；

第二条分支的输入值为第一残差块输出的层级特征；

第一条分支的输出值与第二条分支的输出值进行求和得到第二残差块的输出值。

进一步地，所述第二残差块，工作原理包括：

对第一残差块的输出提取更深层次的特征，表示物体特征的向量w和提取到的边缘图在边缘校准的归一化Edge CalibrationNormalization层发挥作用来辅助深层次特征的提取过程。

示例性地，所述第二残差块，接收第一残差块输出的层级特征、表示物体特征的向量w和提取到的边缘图作为输入。它首先对输入应用Edge CalibrationNormalization-ReLU()-上采样(scale factor为2，方式为nearest)-卷积层(卷积核大小为3×3，stride为1，paddind为1)-Edge CalibrationNormalization-ReLU()-卷积层(卷积核大小为3×3，stride为1，paddind为1)得到一部分输出。同时第一部分输入应用上采样(scale factor为2，方式为nearest)-卷积层(卷积核大小为1×1，stride为1，padding为0)得到另一部分输出。这两部分进行相加，得到第二残差块的输出，输出的层级特征向量的形状为(512,16,16)。

进一步地，所述边缘校准的归一化Edge CalibrationNormalization层包含实例敏感和布局感知的特征归一化Instance-Sensitive and Layout-Aware FeatureNormalization和边缘融合模块两个部分，见图4。

示例性地，所述边缘校准的归一化Edge CalibrationNormalization层的工作过程包括：

(1.1)对第一残差块输出的层级特征x进行标准化；

首先计算每个通道的均值μ_c和方差

然后对x进行标准化得到

其中，ε是为了数值稳定性添加的常数。

通过对特征x进行标准化，可以减弱奇异数据导致的不良影响并加快模型的收敛速度。

(1.2)使用实例敏感和布局感知的特征归一化Instance-Sensitive and Layout-Aware Feature Normalization得到实例敏感和布局感知的仿射变换参数γ_ISLA和β_ISLA；具体过程如下：

表示物体特征的向量w通过依次连接的线性层Linear、谱归一化SpectralNormalization层、卷积层、谱归一化Spectral Normalization层、实例归一化InstanceNormalization层、激活函数ReLU层、卷积层、谱归一化Spectral Normalization层、实例归一化Instance Normalization层、激活函数ReLU层、卷积层、谱归一化SpectralNormalization层、实例归一化Instance Normalization层、激活函数ReLU层、卷积层、谱归一化Spectral Normalization层和激活函数Sigmoid层得到布局中包含的物体的特征向量，向量的形状为(m,s,s)，其中m表示布局中包含物体的个数，每个物体的特征向量的形状为s×s。对每个物体的特征向量的形状根据布局中相应边界框的尺寸进行重新调整，得到物体的初始特征向量，记为M_s，该向量的形状为(m,H,W)，其中H和W表示最终要生成的图像的长和宽。每个物体的特征向量的形状为H×W，对应的边界框外用0填充。

对第二残差块输出的层级特征进行近一步地提取，得到物体特征向量M_F。该部分采用的结构是依次连接的卷积层、批归一化Batch Normalization层、激活函数ReLU层和卷积层。M_F的形状为(m,H,W)。

表示物体特征的向量w通过依次连接的线性层Linear和谱归一化SpectralNormalization层得到参数Γ_γ。表示物体特征的向量w通过依次连接的线性层Linear和谱归一化Spectral Normalization层得到参数Γ_β。

对M_S、M_F、Γ_γ和Γ_β在空间上进行数值复制，把它们的向量形状变为(m,C,H,W)。

实例敏感和布局感知的仿射变换参数γ_ISLA和β_ISLA分别通过公式(2)和公式(3)得到。

其中，P_h,w用公式表示如下：

其中，M(·)用公式表示如下：

M(·)＝[(1-α)·M_s+α·M_F](·)；(5)

其中，α是个可学习的比例因子参数。

(1.3)使用边缘融合模块对边缘图中的信息进行精炼，得到带有边缘信息的仿射变换参数γ_edge和β_edge；具体过程如下：

将第一边缘生成模块输出的边缘图作为比例因子与第一残差块输出的层级特征x相乘，得到x′，x′与x相比，非边缘部分的数值减小，与之相对地，边缘部分进行了增强；

对x′应用卷积层和ReLU层，把x′投影到一个嵌入空间上，对其中的信息进行初步地精炼；

然后，再分别应用两个卷积层，对初步精炼结果分别再次进行精炼得到随空间位置而变化的带有边缘信息的调制参数γ_edge和β_edge。

(1.4)对标准化之后的特征

进行重新校准；

对四个调制参数γ_ISLA、β_ISLA、γ_edge和β_edge，根据公式(6)和公式(7)得到新的调制参数γ和β。

γ＝α·γ_ISLA+(1-α)·γ_edge；(6)

β＝α·β_ISLA+(1-α)·β_edge；(7)

其中，α是可学习的比例因子参数。

对两个新得到的调制参数γ和β，根据公式(8)对

进行重新校准得到校准特征

进一步地，所述第一、第二和第三边缘生成模块的内部结构是一致的。

进一步地，所述第一边缘生成模块，用于接收前一个模块输出值，生成第一中间图像，并对第一中间图像进行边缘图的提取，得到第一边缘图。

进一步地，所述第二边缘生成模块，用于接收前一个模块输出值，生成第二中间图像，并对第二中间图像进行边缘图的提取，得到第二边缘图。

进一步地，所述第三边缘生成模块，用于接收前一个模块输出值，生成第三中间图像，并对第三中间图像进行边缘图的提取，得到第三边缘图。

其中，第一边缘生成模块，包括：依次连接的图像生成单元和边缘图提取单元；

其中，图像生成单元，结构包括：依次连接的批归一化Batch Normalization层、激活函数ReLU层、卷积层和激活函数Tanh层。见图5。

进一步地，所述图像生成单元，用于将前一个模块的输出转化为对应分辨率的中间图像。输出的第一中间图像的形状为(3,8,8)，表示第一中间图像的通道数为3，宽和高都是8。

进一步地，所述边缘图提取单元，结构包括：依次连接的卷积层、激活函数ReLU层、卷积层、激活函数ReLU层、卷积层和激活函数Sigmoid层。见图6。

整体嵌套边缘检测holistically-nested edge detection(HED)是边缘检测任务中的良好实践，它的第一个侧输出层side-output layer被嵌入到边缘图提取单元辅助获得边缘图。

进一步地，所述边缘图提取单元，用于提取中间图像的边缘图。

示例性地，所述边缘图提取单元，包括：卷积层(卷积核大小为3×3，stride为1，padding为1)-ReLU()-卷积层(卷积核大小为3×3，stride为1，padding为1)-ReLU()-卷积层(卷积核大小为1×1，stride为1，padding为0)-Sigmoid()。输出的第一边缘图的形状为(1,8,8)，表示边缘图的通道数为1，宽和高都是8。并且该向量中的每一个点的数值都在0到1之间，数值越大，表示该点越倾向于是边缘。

如图7所示，生成器的主要作用是接收布局作为输入，输出一张与布局一致的场景图像。生成器G的结构，如图8所示，其中数量为B的残差块可以生成分辨率大小为4^B-1×4^B-1的最终图像(比如含有4个残差块的生成器生成的最终图像的分辨率为64×64，本领域技术人员也可以根据需要生成最终图像的分辨率为128×128或者256×256)。

对生成器的输入进行获取和处理：生成器的输入包括2个部分，分别是z和布局。z是从正态分布中采样的维度为128的向量，用来表征生成图像的多样性。布局，包括：物体的边界框和它对应的类别标签。其中，边界框用(x,y,w,h)来表示，x和y代表边界框的左上角坐标，w和h代表边界框的长和宽。每个边界框都有一个标签y，用来标明它所属的物体类别。为了方便后续的处理，标签y被转化为词嵌入的形式，与同样从正太分布中采样的维度为128的向量z_obj连接成表示物体特征的向量w，其中z_obj用来表征生成图像中物体的多样性。

进一步地，构建训练集；具体过程包括：

训练数据集使用COCO-Stuff和Visual Genome；其中COCO-Stuff数据集包含80个object instance类别(比如人，自行车等)和91个stuff类别(比如云、雾等)。VisualGenome数据集包含178个物体类别。

对于COCO-Stuff数据集，面积小于整张图像的2％的边界框将会被忽略，每张图像中物体的个数被限制到3和8之间，分别有74777和3097张图像用于后期模型的训练与测试。

对于Visual Genome数据集，每张图像中物体的个数被限制到3和30之间，分别有62565和5062张图像用于后期模型的训练与测试。

本发明实施例能够根据最终生成图像需要的分辨率增加边缘生成模块、带有边缘融合模块的残差块的层数。第i个残差块输出的层级特征向量的形状为(2^11-i,8i,8i)；第i个边缘生成模块生成的第i中间图像的形状为(3,8i,8i)，第i边缘图的形状为(1,8i,8i)。不同尺度的边缘图中包含有不同的信息，以此来实现多尺度学习。

本发明实施例倒数第一个残差块之后不再是边缘生成模块，而是边缘生成模块中的图像生成单元。它的作用是将残差块的输出转变为最终的图像结果。它采用的结构是Batch Normalization-ReLU()-卷积层(卷积核大小为3×3，stride为1，paddind为1)-Tanh()。

进一步地，如图9所示，所述判别器D的主要作用是对输入的图像以及图像中的物体进行真假判别。

对输入的图像进行真假判别的判别器结构包括：优化块、残差块c1、残差块c2、残差块c3、残差块c3、残差块c4、激活函数ReLU层、线性层Linear和谱归一化SpectralNormalization层。

优化块，包括：两个并列的分支；

优化块的第一分支，包括：依次连接的卷积层、激活函数ReLU层、卷积层和平均池化Average Pooling层；

优化块的第二分支，包括：依次连接的平均池化Average Pooling层和卷积层；

优化块的第一分支和优化块的第二分支，这两个分支的输出进行相加得到整个优化块的输出。

优化块的工作原理是：

对输入的图像进行深层次特征的提取，方便后续网络对图像以及图像中包含的物体进行真假判别。

进一步地，所述残差块c1、残差块c2、残差块c3、残差块c3、残差块c4的内部结构是一致的。

进一步地，所述残差块c1，包括：两个并列的分支；

残差块c1的第一分支，包括：依次连接的激活函数ReLU层、卷积层、激活函数ReLU层、卷积层和平均池化Average Pooling层；

残差块c1的第二分支，包括：卷积层和平均池化Average Pooling层；

残差块c1的第一分支和残差块的第二分支，这两个分支的输出进行相加得到整个残差块的输出。

进一步地，所述残差块c1，功能是对优化块的输出进行更深层次特征的提取，方便后续网络对图像以及图像中包含的物体进行真假判别。

进一步地，所述判别器对图像进行判别包括直接判别和间接判别两个方面；

其中，判别器对输入的图像进行直接地真假判别；具体过程包括：

应用判别器，对图像的真实性进行评分。

其中，判别器对输入的图像转换到频率空间进行间接地真假判别；具体过程包括：

判别器对输入的图像通过2D离散傅里叶变换得到其频率表示，公式见(9)。

其中，图像的尺寸为M×N；f(x,y)表示空间域的图像在(x,y)坐标处的像素值；F(u,v)表示频率域的空间频率在(u,v)坐标处的频率值；e是自然对数的底；i是虚数单位。

根据欧拉公式：

e^-iθ＝cosθ+isinθ；(10)

把公式(9)中的自然指数函数改写为：

于是，应用2D离散傅里叶变换之后，输入的图像被分解为余弦函数和正弦函数，分别对应频率值的实部和虚部。

然后，应用上述判别器的网络结构，在频率域上对输入图像的真实性进行打分。

对输入的图像中包含的物体进行真假判别的判别器结构是基于映射的，具体做法是把类别标签作为额外的条件信息合并到判别器中。具体结构包括：残差块-残差块-RoIAlign-残差块-ReLU()。该输出一部分经过Linear-Spectral Normalization结构得到初步的物体的真实性得分；另一部分与经过Embedding-Spectral Normalization之后的类别标签y相乘。这两部分相加得到最终的物体的真实性评分。

进一步地，总损失函数，包括：判别器的总损失函数和生成器的总损失函数；

判别器的总损失函数，用公式表示如下：

L_D＝λ_objL_obj(I,L)+λ_IL_I(I,L)；(12)

生成器的总损失函数，用公式表示如下：

其中，n是生成器中残差块的数量；L_obj(I,L)和L_I(I,L)对于判别器和生成器来说有不同的形式，具体公式见(18)和(19)；λ表示损失项占整个损失的比重。

进一步地，焦频率损失L_FFL，考虑的是真实图像和生成图像在频率上的差异，通过减小这种差异性来提高生成图像的质量。用公式表示如下：

L_FFL＝FFL(真实图像,生成图像)；(14)

其中FFL用公式表示如下：

其中，图像的尺寸为M×N；w(u,v)表示频率域的空间频率在(u,v)坐标处的权重，用公式表示如下：

w(u,v)＝|F_r(u,v)-F_f(u,v)|^α；(16)

其中，α是比例因子参数；F(u,v)表示频率域的空间频率在(u,v)坐标处的频率值。具体地，F_r(u,v)表示的是真实图像在(u,v)坐标处的频率值；F_f(u,v)表示的是生成图像在(u,v)坐标处的频率值。

进一步地，感知损失

约束的是真实图像和生成图像在深层次特征上的距离。这个损失项被添加到边缘生成模块中图像生成单元输出的图像和对应分辨率的真实图像之间。用公式表示如下：

其中，D表示距离函数；F表示提取图像深层次特征的网络；i∈{1,2,…,n}，n是生成器中残差块的数量。需要注意的是，当i＝n时，第i中间图像指的是生成器最终的生成图像，第i真实图像指的是生成器最终的生成图像对应的真实图像。

进一步地，铰链版对抗损失L_t(I,L)，倾向于让未能正确分类的图像/物体和正确分类的图像/物体之间的距离足够的远。在判别器中的对抗损失用公式表示如下：

在生成器中对抗损失用公式表示如下：

L_t(I,L)＝-p_t,如果I是生成图像；(19)

其中t可以代表真实图像、生成图像、图像中的所有物体；L表示图像I对应的布局；p_t表示网络层输出的t的真实性分数。L_I(I,L)表示图像的对抗损失，即t代表真实图像或者生成图像；L_obj(I,L)表示物体的对抗损失，即t代表图像中的所有物体。

整个模型训练好后，将测试数据集输入生成器，生成相对应的场景图像，检测模型的有效性。本实例提出的方法与其他方法在COCO-Stuff和Visual Genome测试数据集上的定性结果，如图10(a)～图10(p)所示，生成图像的分辨率是128×128。本实例提出的方法的生成能力非常可观，尤其是在边缘轮廓的处理方面与其他方法相比显示出了优越性。

使用新获得的图像自动生成器可以根据布局信息生成与布局一致的场景图像。布局具有简单、易于构建、表达的信息丰富且清晰、对非专业用户友好等特点。用户可以根据需求指定物体的尺寸、位置、类别等信息，构成图像自动生成器的输入部分，即布局。图像自动生成器接收布局输入，生成与布局一致的看似真实的场景图像。

生成器中包含多个残差块、边缘生成模块和边缘融合模块。它们的数量可以根据生成图像的预期分辨率灵活调整。

边缘生成模块接收残差块的输出，生成中间图像结果并进行边缘图的提取。

边缘融合模块对边缘图中的信息进行精炼，然后这些信息通过调制归一化层中仿射变换参数的方式融合到后续的图像生成过程中。不同尺度的边缘图中包含有不同的信息，以此来实现多尺度学习。

将生成器与判别器组成一个生成对抗网络。判别器的主要作用是对输入的图像以及图像中的物体进行真假判别。其中对输入的图像进行真假判别时分为直接判别和通过2D离散傅里叶变换得到其频率表示进行间接判别。

在训练对抗学习生成器的过程中，损失函数包括包含焦频率损失、感知损失和铰链版对抗损失。

本发明属于计算机视觉领域，提供了基于深度学习的从布局到场景图像的自动生成方法及系统。其中，该方法包括获取输入的布局，并将其输入至训练好的图像自动生成器中，输出与布局一致的看似真实的场景图像。为了解决物体生成存在的扭曲、可识别性差等问题，本发明着重从边缘角度入手。边缘信息的特征编码从生成器输出的多层特征中学习，并沿着生成器的管道进行迭代优化。两个新组件被包含在生成器的每一层来实现多尺度学习。具体来说，一个是边缘生成模块，它负责把生成器输出的多层特征转换为不同尺度的图像，并对他们进行边缘图的提取。另一个是边缘融合模块，它把精炼得到的包含边缘信息的特征编码通过调制归一化层中仿射变换参数的方式整合到后面的图像生成过程中。

布局包含边界框和相应的类别标签，它给出了不同物体的位置、尺寸和类别，包含的信息很丰富。用户只需要简单地画几个矩形框并指明每个框的类别，图像生成系统就会输出与布局信息一致且类似于照片质感的场景图像。对于艺术家而言，通过这种方式可以快速定位构图的不合理之处并作调整，有利于降低成品和预想构图不一致带来的风险，减少了创作的迭代周期和时间。对于普通人来说，通过这种方式可以实现自己艺术家的梦想。将脑海中的想法通过几秒变为一副图片，方便了人与人之间的沟通与交流，非常具有现实意义和实用价值。

实施例二

本实施例提供了基于深度学习的从布局到场景图像的自动生成系统；

基于深度学习的从布局到场景图像的自动生成系统，包括：

此处需要说明的是，上述获取模块和图像生成模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度学习的从布局到场景图像的自动生成方法，其特征是，包括：

2.如权利要求1所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述训练好的生成器，训练步骤包括：

构建生成器和判别器；将生成器和判别器进行连接，组成生成对抗网络；

构建训练集；其中，所述训练集为已知场景图像的布局；所述布局，包括：不同边界框的位置、尺寸和类别；

将训练集，输入到生成器中，生成器生成预测图像；判别器对预测图像与真实图像进行真假判别，当总损失函数值停止下降时，停止训练，得到训练后的生成器。

3.如权利要求1所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述生成器，结构包括：依次连接的映射层、第一残差块、第一边缘生成模块、第二残差块、第二边缘生成模块、第三残差块、第三边缘生成模块、第四残差块和图像生成单元。

4.如权利要求3所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述第一残差块，结构包括：并列的两条分支；

第二条分支，包括依次连接的上采样层和卷积层；

第二条分支的输入值为映射层的输出；

第一条分支的输出值与第二条分支的输出值进行求和得到第一残差块的输出值；

所述第一残差块，工作原理包括：

对映射层的输出提取深层次的特征，表示物体特征的向量w在Instance-Sensitiveand Layout-Aware Feature Normalization层发挥作用来辅助深层次特征的提取过程。

5.如权利要求3所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述第二残差块，结构包括：并列的两条分支；

第二条分支，包括依次连接的上采样层和卷积层；

第二条分支的输入值为第一残差块输出的层级特征；

第一条分支的输出值与第二条分支的输出值进行求和得到第二残差块的输出值；

所述第二残差块，工作原理包括：

6.如权利要求3所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述第一边缘生成模块，用于接收前一个模块输出值，生成第一中间图像，并对第一中间图像进行边缘图的提取，得到第一边缘图；

第一边缘生成模块，包括：依次连接的图像生成单元和边缘图提取单元；

其中，图像生成单元，结构包括：依次连接的批归一化Batch Normalization层、激活函数ReLU层、卷积层和激活函数Tanh层；

所述图像生成单元，用于将前一个模块的输出转化为对应分辨率的中间图像；

所述边缘图提取单元，结构包括：依次连接的卷积层、激活函数ReLU层、卷积层、激活函数ReLU层、卷积层和激活函数Sigmoid层；

所述边缘图提取单元，用于提取中间图像的边缘图。

7.如权利要求1所述的基于深度学习的从布局到场景图像的自动生成方法，其特征是，所述判别器的作用是对输入的图像以及图像中的物体进行真假判别；

对输入的图像进行真假判别的判别器结构包括：优化块、残差块c1、残差块c2、残差块c3、残差块c3、残差块c4、激活函数ReLU层、线性层Linear和谱归一化SpectralNormalization层；

或者，

优化块，包括：两个并列的分支；

优化块的第一分支和优化块的第二分支，这两个分支的输出进行相加得到整个优化块的输出；

优化块的工作原理是：

对输入的图像进行深层次特征的提取，方便后续网络对图像以及图像中包含的物体进行真假判别；

或者，

所述残差块c1，包括：两个并列的分支；

残差块c1的第一分支和残差块的第二分支，这两个分支的输出进行相加得到整个残差块的输出；

所述残差块c1，功能是对优化块的输出进行更深层次特征的提取，方便后续网络对图像以及图像中包含的物体进行真假判别；

总损失函数，包括：判别器的总损失函数和生成器的总损失函数；

判别器的总损失函数，用公式表示如下：

L_D＝λ_objL_obj(I,L)+λ_IL_I(I,L)； (12)

生成器的总损失函数，用公式表示如下：

其中，n是生成器中残差块的数量；L_obj(I,L)和L_I(I,L)对于判别器和生成器来说有不同的形式；λ表示损失项占整个损失的比重。

8.基于深度学习的从布局到场景图像的自动生成系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。