CN112288831A

CN112288831A - 基于生成对抗网络的场景图像生成方法和装置

Info

Publication number: CN112288831A
Application number: CN202011181870.5A
Authority: CN
Inventors: 邢萌; 于淼淼; 李硕豪; 石志强; 杨朝红; 王青海; 赵萌; 金丽亚; 毕建权; 陈财森
Original assignee: Academy of Armored Forces of PLA
Current assignee: Academy of Armored Forces of PLA
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-29

Abstract

本公开提供了基于生成对抗网络的场景图像生成方法和装置。所述方法包括：获取当前文本信息；提取所述当前文本信息中的文本特征；提取所述当前文本信息中的场景图特征；对所述场景图特征和文本特征进行特征融合，生成融合特征；将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。以此方式，能够根据文本信息的描述生成场景图像，使得生成的场景图像与真实的场景图像更接近，能够有效描述了场景图像中对象之间的位置关系。

Description

基于生成对抗网络的场景图像生成方法和装置

技术领域

本公开的实施例一般涉及人工智能技术领域，并且更具体地，涉及基于生成对抗网络的场景图像生成方法和装置。

背景技术

随着图形绘制技术、数字信号处理技术、传感技术、图形技术的发展，虚拟现实的研究日益广泛，即利用计算机生成逼真的图像等，使得用户可以在虚拟环境中实现交互和控制。在内容创建、智能编辑方面，很多软件可以改变图像的表情、皱纹等，这对高质量、多样性的图像生成技术提出很大需求。同时在许多对信息安全要求较高的公司(如信用卡公司)，需要构建虚拟欺诈数据、图像等来提高欺诈检测系统，这也属于数据增强的应用。人们对生成图像的要求越来越高。但是利用计算机从数据中学习生成高保真、高分辨率、多样化的图像仍然是很大的挑战。

近年来，生成图像建模领域涌现了很多成果。2014年lan Goodfellow创造性地提出了基于深度学习的生成对抗网络(Generative Adversarial Network,GAN)，目前GAN已经成为首选和最前沿的生成模型之一。虽然现有技术中能够生成高质量的图像，但是细节效果太差，尤其对于场景图像，通过模型生成的场景图像与实际的场景图像间的误差较大，不利于利用计算机生成场景图像的推广和应用。

发明内容

根据本公开的实施例，提供了一种能够根据文本信息的描述生成场景图像的方法，使得生成的场景图像与真实的场景图像更接近，并且能够有效描述了场景图像中对象之间的位置关系。

在本公开的第一方面，提供了一种基于生成对抗网络的场景图像生成方法，包括：

获取当前文本信息；

提取所述当前文本信息中的文本特征；

提取所述当前文本信息中的场景图特征；

对所述场景图特征和文本特征进行特征融合，生成融合特征；

将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。

在一些实施例中，在所述获取当前文本信息后，还包括：

对所述当前文本信息进行预处理，具体包括：将简写转为全写，和/或将大写字母转为小写字母，和/或将单词映射为数值。

在一些实施例中，所述提取所述当前文本信息中的文本特征，包括：

使用词向量模型Skip-Gram来表达单词，将每个单词映射到高维空间中，生成词向量，对所述词向量进行非线性变换，生成与所述文本信息对应的高维句子特征向量，并对所述高纬句子特征向量进行重要性加权处理，生成所述当前文本信息中的文本特征。

在一些实施例中，提取所述当前文本信息中的场景图特征，包括：

将所述当前文本信息转换成场景图，场景图是一种数据结构，其中每个节点代表一个对象，连接对象之间的边代表所属关系，使用词嵌入技术Skip-Gram网络将场景图中的所有对象以及对象之间的所属关系转换为嵌入向量。

在一些实施例中，还包括：

利用图注意网络提取所述嵌入向量的对象与对象之间的注意力系数，

定义为：

w_ij＝δ(f[O_i,R_k,O_j])

式中，w_ij(w_ij∈Rs×t)表示场景图的任意边(O_i,R_k,O_j)中对象O_j对对象O_i的贡献率，矩阵f的作用是将场景图中所有对象及关系向量集转换为更高级的特征向量，使其具有更强的表达能力，δ:R^3Q→R，[O_i,R_k,O_j]是对O_i,R_k,O_j进行拼接处理的操作，每个对象节点的输出描述为其与其他对象的加权和的形式：

在一些实施例中，还包括确定判别器的损失函数的过程，具体包括：

将生成的场景图像和真实的场景图像经过下采样后得到的张量和文本特征向量进行拼接，再经过卷积层得到对应的概率分布，根据所述概率分布，确定判别器的损失函数。

在一些实施例中，所述场景图像生成模型的损失函数为：

Loss_S＝Loss_G+Loss_F+Loss_I，其中，Loss_G＝H(D(F_g,T_t),1)为生成器的损失函数，

为像素级信息误差损失函数，

为特征误差匹配损失函数。

在本公开的第二方面，提供了一种基于生成对抗网络的场景图像生成装置，包括：

当前文本信息获取模块，用于获取当前文本信息；

文本特征提取模块，用于提取所述当前文本信息中的文本特征；

场景图特征提取模块，用于提取所述当前文本信息中的场景图特征；

融合特征生成模块，用于对所述场景图特征和文本特征进行特征融合，生成融合特征；

场景图生成模块，用于将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。

在本公开的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

通过本公开的基于生成对抗网络的场景图像生成方法，能够根据文本信息的描述生成场景图像，使得生成的场景图像与真实的场景图像更接近，能够有效描述了场景图像中对象之间的位置关系。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开实施例一的基于生成对抗网络的场景图像生成方法的流程图；

图2示出了本公开实施例二的基于对抗生成网络训练场景图像生成模型的流程示意图；

图3示出了本公开实施例三的基于生成对抗网络的场景图像生成装置的功能结构示意图；

图4示出了本公开实施例四的基于生成对抗网络的场景图像生成设备的结构示意图；

图5示出了文本特征的词向量的生成方法示意图；

图6为根据文本信息生成场景图像的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例的方法，用于根据文本描述信息生成场景图像。作为本公开的一个实施例，所述方法可以包括以下步骤：

S101：获取当前文本信息。

在本实施例中，所述文本信息可以是由用户编辑的表达场景图像的文本信息，也可以是从网络中获取的文本信息。并且，所述文本信息可以包括大写字母或简写。因此，在获取到所述当前文本信息后，还可以进一步地对所述当前文本信息进行预处理，具体包括：将简写转为全写，和/或将大写字母转为小写字母，并将预处理后的单词映射为数值。

S102：提取所述当前文本信息中的文本特征。

在本实施例中，当对所述当前文本信息数值化后，可以将数值化后的文本输入至文本编码组件中，该文本编码组件负责对文本进行编码处理，目的是将预处理后的文本映射为高维特征空间中的句子特征。具体地，可以使用词向量模型Skip-Gram来表达单词，为了反映不同单词之间的所属关系，将每个单词映射到高维空间中，通过计算向量间的距离来表达单词间的关系。最后，对句子中的所有单词的词向量进行非线性变换，从而得到能够表达该文本的高维句子特征向量。在得到表达所述当前文本信息的高维句子特征向量后，将所述高维句子特征向量经过注意力机制，对其中描述比较重要的部分进行加权，即对句子特征向量进行重要性加权处理。例如，可以采用现有的基于自然语言处理(NLP)的注意力机制对句子组分赋予权重，得到加权后的文本特征向量Tt。基于NLP的注意力机制根据上述生成的高维句子特征向量以及已经产生的内容来决定输出，具体过程如图5所示，X_i(i＝1,2,...,T)表示组成高维句子特征向量的词向量，过程采用双向递归网络，最后每个解码器输出的词向量取决于所有输入状态的权重组合，a决定了每个输入状态对输出状态的权重贡献率。

S103：提取所述当前文本信息中的场景图特征。

在本实施例中，可以将所述当前文本信息转换成场景图，场景图是一种数据结构，其中每个节点代表一个对象，连接对象之间的边代表所属关系。场景图可用元组(A,C)来表示，A＝{A1,A2,A3,...,Am}表示对象集，B＝{B1,B2,B3,...,Bn}表示关系集，C＝{(Ai,B1,Aj),...,(Ap,Bn,Aq)}表示对象之间不同关系形成的边集合。文本生成场景图的示例如下图6所示。图6为根据文本信息生成场景图像的示意图。对生成的场景图进行预处理，在本实施例中，可以使用词嵌入技术Skip-Gram网络将场景图中的所有对象以及对象之间的所属关系转换为抽象的嵌入向量，令O＝{O1,O2,O3,...,Om}表示对象特征向量集，R＝{R1,R2,R3,...,Rn}表示关系特征向量集，W＝{(Oi,R1,Oj),...,(Op,Rn,Oq)}表示边对应的嵌入向量集合，令对象特征向量集和关系特征向量集的特征维度都为s。

然后将场景图经图注意网络提取场景图特征向量，每个向量聚合了对象与其他对象及其关系的特征信息。与常见的图卷积网络不同，图注意网络在此基础上引入了注意力机制，具体方法是利用预处理后的场景图中的关系特征向量来计算对象与对象之间的注意力系数，定义为：

w_ij＝δ(f[O_i,R_k,O_j])

式中，w_ij(w_ij∈R^s×t)表示场景图的任意边(O_i,R_k,O_j)中对象O_j对对象O_i的贡献率，矩阵f的作用是将场景图中所有对象及关系向量集转换为更高级的特征向量，使其具有更强的表达能力，δ:R^3Q→R，[O_i,R_k,O_j]是对O_i,R_k,O_j进行拼接处理的操作。最后，每个对象节点的输出描述为其与其他对象的加权和的形式：

S104：对所述场景图特征和所述文本特征进行特征融合，生成融合特征。

在根据当前文本信息生成场景图特征和文本特征后，可以对对所述场景图特征和所述文本特征进行特征融合，生成融合特征。

S105：将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。

本公开的基于生成对抗网络的场景图像生成方法，能够根据文本信息的描述生成场景图像，使得生成的场景图像与真实的场景图像更接近，能够有效描述了场景图像中对象之间的位置关系。

上述实施例针对利用训练完成后的场景图像生成模型生成场景图像的过程进行阐述，下面阐述场景图像生成模型的生成过程。在本公开的实施例中，利用生成对抗网络训练场景图像生成模型，因此，在训练过程中，主要训练两部分，一部分为生成器，即本公开实施例中的场景图像生成模型，一部分为判别器。基于生成对抗网络训练场景图像生成模型的原理为根据文本信息生成场景图像，然后将生成的场景图像和真实的场景图像输入判别器，判别器尽可能地识别生成的场景图像和真实的场景图像之间的差异。

下面阐述判别器的具体训练过程。在判别过程中，生成的场景图像与真实的场景图像经过下采样后得到的张量和文本特征向量进行拼接，再经过卷积层得到一个概率分布，该概率分布反映了两个指标，一是判别输入图像来自真实样本还是生成器生成的图像，二是判别输入图像与文本描述是否匹配。记Fg为生成器生成的图像，Fr为与文本特征Tt匹配的真实图像，Fw与文本特征Tt不匹配的错误图像，形成集合M＝{(Fg,Tt),(Fr,Tt),(Fw,Tt)}，集合M中的每个元组记录了输入图像与文本之间所有可能的对应关系。在对判别器进行训练时，将每个元组进行输入，当输入元组为(Fg,Tt)与(Fr,Tt)时，用于训练判别器正确区分出输入的图像是真实图像还是生成器生成图像的能力，当输入元组为(Fr,Tt)与(Fw,Tt)时，用于训练判别器区分输入图像与文本描述是否匹配的能力。只有当相匹配的文本与真实图像输入至判别器中时，判别器计算与1作交叉熵的损失，其余两种情况下(输入生成图像与文本，输入不匹配的错误图像与文本)，判别器均计算与0作交叉熵的损失。由此，判别器损失函数定义为：

Loss_S＝H(D(F_r,T_t),1)+H(D(F_g,T_t),0)+H(D(F_w,T_t),0)

式中，H(·)表示交叉熵函数，D(·)表示神经网络非线性函数，在本实施例中选择卷积核个数为1的卷积层。

当判别器损失函数小于预设阈值时，完成判别器的训练。

由于在训练生成器时，生成器试图用生成的虚假图像来迷惑判别器，其目的是使判别器将生成图像判别为真实图像，因此对于生成器来说，其损失函数定义为：

Loss_G＝H(D(F_g,T_t),1)

为了使生成器生成的样本更接近于真实图像，本实施例在生成器的损失中加入了像素级信息误差损失和特征匹配误差损失来辅助训练，其中，像素级信息误差损失Loss_I采用均方误差的形式来定义：

式中，M×N(例如M＝N＝64)表示生成图像与真实图像的大小，X、Y分别表示生成图像以及真实图像在每个点处的像素值。特征匹配误差损失Loss_F定义为：

式中，S(·)表示使用SIFT特征点检测方法得到的图像特征描述子。最终，生成器的损失函数Loss_S表示为：

Loss_S＝Loss_G+Loss_F+Loss_I。当生成器的损失函数Loss_S小于预设阈值时，完成生成器(即场景图像生成模型)的训练。

本实施例的方法，能够取得与实施例一相类似的技术效果，这里不再重复赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图3所示，为本公开实施例三的基于生成对抗网络的场景图像生成装置的功能结构示意图，本实施例的基于生成对抗网络的场景图像生成装置，包括：

当前文本信息获取模块301，用于获取当前文本信息。

文本特征提取模块302，用于提取所述当前文本信息中的文本特征。

场景图特征提取模块303，用于提取所述当前文本信息中的场景图特征。

融合特征生成模块304，用于对所述场景图特征和文本特征进行特征融合，生成融合特征。

场景图像生成模块305，用于将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了本公开实施例四的基于生成对抗网络的场景图像生成设备的结构示意图。图4示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统包括中央处理单元(CPU)401，其可以基于存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也基于需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，基于需要安装在驱动器410上，以便于从其上读出的计算机程序基于需要被安装入存储部分408。

特别地，基于本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于生成对抗网络的场景图像生成方法，其特征在于，包括：

获取当前文本信息；

提取所述当前文本信息中的文本特征；

提取所述当前文本信息中的场景图特征；

2.根据权利要求1所述的基于生成对抗网络的场景图像生成方法，其特征在于，在所述获取当前文本信息后，还包括：

3.根据权利要求2所述的基于生成对抗网络的场景图像生成方法，其特征在于，所述提取所述当前文本信息中的文本特征，包括：

4.根据权利要求1至3任一项所述的基于生成对抗网络的场景图像生成方法，其特征在于，提取所述当前文本信息中的场景图特征，包括：

5.根据权利要求4所述的基于生成对抗网络的场景图像生成方法，其特征在于，还包括：

利用图注意网络提取所述嵌入向量的对象与对象之间的注意力系数，定义为：

w_ij＝δ(f[O_i,R_k,O_j])

式中，w_ij(w_ij∈Rs×t)表示场景图的任意边(O_i,R_k,O_j)中对象O_j对对象O_i的贡献率，矩阵f的作用是将场景图中所有对象及关系向量集转换为更高级的特征向量，使其具有更强的表达能力，δ:R^3Q→R，[O_i,R_k,O_j]是对O_i，R_k，O_j进行拼接处理的操作，每个对象节点的输出描述为其与其他对象的加权和的形式：

6.根据权利要求5所述的基于生成对抗网络的场景图像生成方法，其特征在于，还包括确定判别器的损失函数的过程，具体包括：

7.根据权利要求5所述的基于生成对抗网络的场景图像生成方法，其特征在于，所述场景图像生成模型的损失函数为：

为像素级信息误差损失函数，

为特征误差匹配损失函数。

8.一种基于生成对抗网络的场景图像生成装置，其特征在于，包括：

当前文本信息获取模块，用于获取当前文本信息；

场景图像生成模块，用于将所述融合特征输入到预先训练的场景图像生成模型中，生成对应的场景图像。

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。