CN114648681B

CN114648681B - 一种图像生成方法、装置、设备及介质

Info

Publication number: CN114648681B
Application number: CN202210546381.8A
Authority: CN
Inventors: 赵雅倩; 刘璐; 李仁刚; 郭振华; 闫瑞栋; 徐聪; 金良
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-10-28
Anticipated expiration: 2042-05-20
Also published as: CN114648681A; WO2023221363A1

Abstract

本申请公开了一种图像生成方法、装置、设备及介质，涉及人工智能领域，该方法包括：获取弱相关图文数据对，并根据弱相关图文数据对创建图文数据集，弱相关图文数据对为图文之间呈弱相关关系的图文数据对，利用图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型，图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器，当获取到待处理文本数据，则利用训练后图像生成模型生成与待处理文本数据对应的图片。本方法采用呈弱相关关系的图文数据，并使用单阶段端到端的训练方法，使生成的图像更加贴近实际的生活场景，容易落地实施，可用于指导艺术化、抽象化等图像的生成。

Description

一种图像生成方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，特别涉及一种图像生成方法、装置、设备及介质。

背景技术

文本生成图像（Text-to-Image）是指根据给定的文本描述，生成语义一致、视觉逼真的图像。通常的方法是以pixelCNN、近似Langevin采样、变分自编码器和生成对抗网络（即Generative Adversarial Network，GAN）为基础，研究视觉与语言信息之间不同统计属性的语义对齐，刻画文本描述与生成图像之间的强相关性，提高生成图像的逼真程度。其中基于GAN的多阶段细粒度文本-生成网络架构AttnGAN，通过关注文本描述中主题词来生成细粒度的图像细节，取得了较逼真的生成图像细节。自AttnGAN之后，多阶段的文本生成图像生成方法发展出一系列对象驱动的分层文本生成图像生成方法。这些方法一般在给定文本描述后，首先推断语义布局（例如对象包围框、分割蒙版或组合），然后根据布局生成图像，层次化的图像生成方法有助于文本与图像中信息的细粒度对齐。然而，这类多阶段的方法很难应用到现实世界场景中，模型也需要更细粒度的语义对象标签来训练。

尽管文本生成图像生成技术取得了阶段性成功，但距离实际落地应用仍有很大的距离。学术研究中，研究者们使用的文本生成图像样本对为强相关描述，文本与生成的图像之间存在较为直接的语义对应关系。然而实际生活中使用自然语言描述图像时，人的大脑中可隐射出语言中隐身含义所对应的图像，并非文字描述的强相关图像，所以导致在现有的图像生成方法中对于生成的图像不贴合实际生活场景。

由上可见，在基于GAN的文本生成图像生成过程中，如何避免出现由于传统的图像生成方法导致当前的文本生成的图像不贴近实际生活场景，且图像生成的过程不易落地实施的情况是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像生成方法、装置、设备及介质，能够根据采用文本图像弱相关关系的图文数据对图像生成模型进行训练，并利用图像生成模型完成文本生成图像，且图像生成更贴近实际生活场景，解决了传统图像生成的过程不易落地实施的情况。其具体方案如下：

第一方面，本申请公开了一种图像生成方法，包括：

获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集；所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对；

利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型；所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器；

当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。

可选的，所述利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练的过程中，包括：

通过所述图像生成模型中的生成器，从所述图文数据集中确定目标文本并基于所述目标文本生成相应的第一目标图像；

通过所述图像生成模型中的判别器，从所述图文数据集中确定与所述目标文本对应的第二目标图像，并利用所述第一目标图像与所述第二目标图像进行全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失值；所述对抗损失值为用于表示图像真伪的概率值；

基于所述对抗损失值确定所述第一目标图像的真伪判别结果。

可选的，所述基于所述目标文本生成相应的第一目标图像，包括：

利用预设的语言处理工具对所述目标文本进行处理，以确定所述目标文本中的目标实体；

基于所述目标实体并利用预设的知识图谱技术确定待扩充实体，并利用所述待扩充实体与所述目标实体构建相应的实体候选集；

将所述目标文本与所述实体候选集输入预设的转换模型中，以得到所述转换模型输出的与所述目标文本与所述实体候选集分别对应的文本语义嵌入和实体语义嵌入；

基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像。

可选的，所述基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像，包括：

将预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入输入预设的多层感知机，以得到仿射变换参数；

利用所述仿射变换参数确定目标隐层特征值，并将当前隐层特征值调整为所述目标隐层特征值，以得到用于对生成的所述第一目标图像的像素值进行约束的全局条件；

基于所述全局条件并利用预先连接上的上采样层生成所述第一目标图像。

可选的，所述的图像生成方法，还包括：

利用预设批大小的文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第一损失函数计算所述生成器的损失值；

使用同批的所述文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第二损失函数计算所述判别器的损失值；

确定影响所述生成器的损失值与所述判别器的损失值的网络参数，并使用预设优化器对所述网络参数进行优化更新。

可选的，所述使用预设优化器对所述网络参数进行优化更新之后，还包括：

利用预设计数器记录优化更新次数；

判断所述优化更新次数是否满足预设目标优化次数；

若所述优化更新次数满足预设目标优化次数，则终止训练。

可选的，所述获取弱相关图文数据对，包括：

获取公开社交网站信息，并利用所述公开社交网站信息确定目标网站；

爬取所述目标网站中的弱相关图文数据，并利用所述弱相关图文数据生成弱相关图文数据对。

第二方面，本申请公开了一种图像生成装置，包括：

数据集创建模块，用于获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集；所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对；

模型训练模块，用于利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型；所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器；

图片生成模块，用于当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的图像生成方法。

第四方面，本申请公开了一种计算机存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像生成方法的步骤。

本申请通过先获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集，所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对，然后利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型，所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器，最后当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。这样一来，本方法基于GAN技术，通过获取的弱相关图文数据对创建图文数据集，对图像生成模型中的生成器与判别器进行训练，以使用训练后的所述图像生成模型进行图像生成。本方法摒弃了传统图像生成方法中使用强相关关系的图文数据与多阶段生成器的方式，而采用文本图像弱相关关系的图文数据，并使用单阶段端到端的训练方法，使生成的预测图像更加贴近实际的生活场景，容易落地实施。另外，由于本方法针对目前图像生成方法中图文强相关关系进行改进的，因此可用于指导艺术化、抽象化等的图像的生成，弥补了当前文本生成图像生成方法中只适用于实验环境的劣势，可广泛用于图像编辑、图像艺术创作、图像生成等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种图像生成方法流程图；

图2为本申请提供的一种模型训练方法流程图；

图3为本申请提供的一种生成器的图片生成示意图；

图4为本申请提供的一种流程示意图；

图5为本申请提供的一种判别器的判别过程示意图；

图6为本申请提供的一种图像生成装置结构示意图；

图7为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中的图像生成方法使用强相关关系的图文数据与多阶段生成器的方式，但强相关关系无法真正的落地实施，原因是人类描述事务并非平铺直叙，而是充满了想象和联想的。在本申请中，采用文本图像弱相关关系的图文数据，并使用单阶段端到端的训练方法，使生成的预测图像更加贴近实际的生活场景，更容易落地实施，并可广泛用于图像编辑、图像艺术创作、图像生成等领域。

本发明实施例公开了一种图像生成方法，参见图1所述，该方法包括：

步骤S11：获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集；所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对。

本实施例中，所述获取弱相关图文数据对，可以包括：获取公开社交网站信息，并利用所述公开社交网站信息确定目标网站；爬取所述目标网站中的弱相关图文数据，并利用所述弱相关图文数据生成弱相关图文数据对。可以理解的是，本实施例中所述的弱相关图文数据对可以是从公开社交网站中爬取的，且在一种具体的实施过程中，可以先根据获取的公开社交网站信息确定目标网站，再对目标网站的弱相关图文数据进行爬取。具体地，公开社交网站信息可以是公开社交网站的链接。

步骤S12：利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型；所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器。

可以理解的是，本实施例中所述图像生成模型是预先基于对抗网络（即GAN）构建的，且所述图像生成模型包含生成器

与判别器

。需要指出的是本实施例中所述判别器可计算的相应损失值可以是用于表示图像真伪的概率值的对抗损失值以及判别器的损失值

。

步骤S13：当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。

可以理解的是，在S12中对所述图像生成模型进行训练，并得到相应的图像生成模型后，还会对所述图像生成模型进行测试，在具体的实施方式中，也可以使用所述图文数据集中的图文数据进行测试。在通过测试后，便可对所述图像生成模型进行应用，即获取到待处理的文本数据后，则利用图像生成模型生成与待处理的文本数据所对应的图片。

本实施例先获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集，所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对。然后利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型；所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器。最后当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。本方法通过利用图文数据集中呈弱相关关系的图文数据对对图像生成模型进行训练，以使用训练后的图像生成模型生成图像，图像生成与模型训练过程中摒弃了传统图像生成方法中使用强相关关系的图文数据与多阶段生成器的方式，而采用文本图像弱相关关系的图文数据指导图像的细粒度生成，并使用单阶段端到端的训练方法，使生成的预测图像更加贴近实际的生活场景，容易落地实施。另外，由于本方法是针对目前图像生成方法中图文强相关关系进行改进的，因此可用于指导艺术化、抽象化等的图像的生成，弥补了当前文本生成图像生成方法中只适用于实验环境的劣势，可广泛用于图像编辑、图像艺术创作、图像生成等领域。

图2为本申请实施例提供的一种模型训练方法流程图。参见图2所示，该方法包括：

步骤S21：通过所述图像生成模型中的生成器，从所述图文数据集中确定目标文本并基于所述目标文本生成相应的第一目标图像。

所述基于所述目标文本生成相应的第一目标图像，可以包括：利用预设的语言处理工具对所述目标文本进行处理，以确定所述目标文本中的目标实体；基于所述目标实体并利用预设的知识图谱技术确定待扩充实体，并利用所述待扩充实体与所述目标实体构建相应的实体候选集；将所述目标文本与所述实体候选集输入预设的转换模型中，以得到所述转换模型输出的与所述目标文本与所述实体候选集分别对应的文本语义嵌入和实体语义嵌入；基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像。

本实施例中，在从图文数据集中确定目标文本后，将会对目标文本进行处理，以提取出目标文本中的目标实体。在一种具体的实施方式中，若所述目标文本

为“生日快乐”，则可能提取出的目标实体

为“生日”。接着会利用预设的知识图谱技术确定待扩充实体为 “许愿”，然后利用所述待扩充实体与所述目标实体构建相应的实体候选集，即实体候选集可以是[生日，许愿]。再将“生日快乐”与[生日，许愿]输入至经过预训练的BERT模型中，以得到相应的embedding（即“嵌入”），即文本语义嵌入

，和实体语义嵌入

，最后结合随机噪声

，将

、

、

利用预设的连接函数进行连接，以利用连接后的

、

、

生成第一目标图像。需要指出的是，所述预设的连接函数包括但不限于concatenate与concat函数。

可以理解的是，本实施例中利用预设的知识图谱技术对实体进行扩充，使其在语义层面与目标文本所对应的图像中的主体内容建立关联，最后利用扩充后的实体候选集对图像生成模型进行训练，会大大提高图像生成的语义准确度，使生成的图片更加贴近生活实际。

在本实施例中，所述知识图谱技术包括但不限于基于维基百科知识库的知识图谱技术，所述语言处理工具包括但不限于spaCy，所述预设的转换模型包括但不限于BERT模型。

本实施例中，所述基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像，可以包括：将预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入输入预设的多层感知机，以得到仿射变换参数；利用所述仿射变换参数确定目标隐层特征值，并将当前隐层特征值调整为所述目标隐层特征值，以得到用于对生成的所述第一目标图像的像素值进行约束的全局条件；基于所述全局条件并利用预先连接上的上采样层生成所述第一目标图像。可以理解的是，上述生成第一目标图像的过程都是由生成器完成的，且所述的第一目标图像指生成器生成的与目标文本所对应的图片。

本实施例中生成器中包括仿射变换模块，用于使用随机噪声、文本语义嵌入以及实体语义嵌入输入的集合

指导第一目标图像的生成。在一种具体的实施方式中，在利用预设的连接函数对

、

、

进行连接后，会经过MLP层（即多层感知机），以得到仿射变换参数

和

，并预设利用公式计算目标隐层特征值

，通过对隐层特征值的调整以得到当前图像生成的全局条件，并基于全局条件利用预先连接的上采样层生成第一目标图像。其中，可以直接对隐层特征值进行修改，以修改为目标隐层特征值

。在对隐层特征值进行调整后，可以使用损失函数来约束生成图像的像素，在具体的实施方式中，所述损失函数的类型包括但不限于L1范数损失函数和L2范数损失函数，若使用L2范数损失函数，则相应的损失函数公式可以是

，其中

为生成器，

为图文数据集中与目标文本所对应的第二目标图像的像素值。

具体地，可以将实体语义嵌入

作为局部区域的附加调制参数，进而控制局部区域特征生成。所述计算目标隐层特征值

的公式可以是：

；

其中，

为数据的均值，

为数据的标准差。

如图3所示为一种生成器的图片生成示意图，图中为生成器利用随机噪声、目标文本、实体候选集生成第一目标图片的过程，其中将目标文本与目标文本对应的实体候选集输入BERT模型后生成与目标文本与实体候选集对应的文本语义嵌入

和实体语义嵌入

，然后将预设的随机噪声

、文本语义嵌入

和实体语义嵌入

通过concat函数连接，并通过仿射变换模块中的仿射变换方法进行相应的处理，最终生成第一目标图像。

在发明的另一种具体实施方式中，还可以在创建图文数据集后，直接使用对于基于维基百科知识库的知识图谱技术对图文数据集进行扩充，然后利用扩充后的图文数据集对所述图像生成模型进行训练。如图4为本发明提出的一种具体的实施方式的流程示意图，其中，先对公开社交网站的图文数据进行爬取，以构建基于弱相关关系的图文数据集，然后使用基于维基百科知识库的知识图谱技术对图文数据集进行扩充，再利用扩充后的图文数据集对所述图像生成模型进行训练，在图像生成模型训练完成后对模型进行测试，最后便可对图像生成模型进行应用。

步骤S22：通过所述图像生成模型中的判别器，从所述图文数据集中确定与所述目标文本对应的第二目标图像，并利用所述第一目标图像与所述第二目标图像进行全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失值；所述对抗损失值为用于表示图像真伪的概率值。

本实施例中，所述图像生成方法，还可以包括：利用预设批大小的文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第一损失函数计算所述生成器的损失值；使用同批的所述文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第二损失函数计算所述判别器的损失值；确定影响所述生成器的损失值与所述判别器的损失值的网络参数，并使用预设优化器对所述网络参数进行优化更新。

在一种具体的实施方式中所述图文数据集中的图像可以记作

，对应的文本可以记作

，实体候选集可以记作

，选取批大小的文本、与所述文本对应的图像以及所述文本对应的所述实体候选集可以记作

。

可以理解的是，判别器在获取到生成器生成的第一目标图像后，会对第一目标图像的真伪进行判断，具体的，判别器底层使用卷积神经网络的原理，会利用多个降采样层将空间维数降为16﹡16，经过多个下采样层和全局池化层确定图像特征，并进行图像特征的比对，然后连接两个projection head（即射影头），其中一个用于计算对抗损失值

，另一个用于计算损失值

、

以及

。

在一种具体的实施方式中，所述计算对抗损失值的公式可以是：

；

其中，

和

表示真实数据和生成数据的概率。

在一种具体实施方式中，所述判别器的损失值

，其中，计算损失值

、

以及

的函数可以是：

;

;

;

其中，

为目标文本与第一目标图像之间的对比损失函数，

为第一目标图像与第二目标图像之间的对比损失函数，

是第一目标图像与实体之间的对比损失函数，

为对比损失中的温度系数，

是图像生成模型中与img、或txt相关的函数层，

。

需要指出的是，所述使用预设优化器对所述网络参数进行优化更新的步骤，具体可以是使用Adam优化器反向梯度优化所述网络参数。

步骤S23：基于所述对抗损失值确定所述第一目标图像的真伪判别结果。

可以理解的是，在确定对抗损失值后，则可以根据所述对抗损失值确定第一目标图像的真伪结果。

如图5为一种判别器的判别过程示意图，展示了判别器对于图像的真伪判别过程，首先在获取第一目标图像与第二目标图像后，对全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失值对应的概率值，即图5中的“c”，最后根据对抗损失值判断图像的真伪。图中

为实体候选集中某一实体所对应的语义嵌入。

本实施例中，所述使用预设优化器对所述网络参数进行优化更新之后，还可以包括：利用预设计数器记录优化更新次数；判断所述优化更新次数是否满足预设目标优化次数；若所述优化更新次数满足预设目标优化次数，则终止训练。在一种具体的实施方式中，可以将目标优化次数设置为100万次，若优化更新次数满足100万次，则停止训练，若优化更新次数不满足100万次，则继续利用预设批大小的文本、与所述文本对应的图像以及所述文本对应的所述实体候选集计算生成器的损失值，使用同批的所述文本、与所述文本对应的图像以及所述文本对应的所述实体候选集计算所述判别器的损失值，然后确定影响所述生成器的损失值与所述判别器的损失值的网络参数，并使用预设优化器对所述网络参数进行优化更新的步骤，直到优化更新次数满足100万次。

本实施例中对于基于对抗网络构建的图像生成模型的训练过程进行详细描述，其中主要是生成器与判别器的训练过程进行展开，提出了生成器在生成目标图片的过程利用仿射变换模块中对于随机噪声、文本语义嵌入以及实体语义嵌入输入实现的仿射变换方法，与判别器中对于对抗损失值与判别器的损失值的计算方法。这样一来，本方案中提出的判别器不但具有判别图像真伪的功能，还具有作为编码器来计算损失值的功能，减少了现有技术中对于GAN技术应用时多阶段生成的繁琐过程，弥补了现有的图像生成方法的劣势，利用了融合模态间和跨模态的多粒度对比学习方法，实现基于图文间弱相关关系的图像生成模型而保证了图像生成的合理性，更有利于落地实施。

参见图6所示，本申请实施例公开了一种图像生成装置，具体可以包括：

数据集创建模块11，用于获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集；所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对；

模型训练模块12，用于利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型；所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器；

图片生成模块13，用于当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。

本申请通过先获取弱相关图文数据对，并根据所述弱相关图文数据对创建图文数据集，所述弱相关图文数据对为图文之间呈弱相关关系的图文数据对，然后利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练，以得到训练后图像生成模型，所述图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器，最后当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片。这样一来，本方法通过利用弱相关图文数据对创建图文数据集对图像生成模型中的生成器与判别器进行训练，以使用训练后的所述图像生成模型进行图像生成。本方法基于GAN技术，通过获取的弱相关图文数据集，对图像生成模型中的生成器与判别器进行训练，以使用训练后的所述图像生成模型进行图像生成。本方法摒弃了传统图像生成方法中使用强相关关系的图文数据与多阶段生成器的方式，而采用文本图像弱相关关系的图文数据，并使用单阶段端到端的训练方法，使生成的预测图像更加贴近实际的生活场景，容易落地实施。另外，由于本方法针对目前图像生成方法中图文强相关关系进行改进的，因此可用于指导艺术化、抽象化等的图像的生成，弥补了当前文本生成图像生成方法中只适用于实验环境的劣势，可广泛用于图像编辑、图像艺术创作、图像生成等领域。

在一些具体实施例中，所述模型训练模块12中，包括：

第一目标图像生成单元，用于通过所述图像生成模型中的生成器，从所述图文数据集中确定目标文本并基于所述目标文本生成相应的第一目标图像；

目标图像判别单元，用于通过所述图像生成模型中的判别器，从所述图文数据集中确定与所述目标文本对应的第二目标图像，并利用所述第一目标图像与所述第二目标图像进行全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失；所述对抗损失为用于表示图像真伪的概率值；

真伪确定单元，用于基于所述对抗损失确定所述第一目标图像的真伪判别结果。

在一些具体实施例中，所述目标图像生成单元，包括：

实体确定单元，用于利用预设的语言处理工具对所述目标文本进行处理，以确定所述目标文本中的目标实体；

候选集扩充单元，用于基于所述目标实体并利用预设的知识图谱技术确定待扩充实体，并利用所述待扩充实体与所述目标实体构建相应的实体候选集；

嵌入转换单元，用于将所述目标文本与所述实体候选集输入预设的转换模型中，以得到所述转换模型输出的与所述目标文本与所述实体候选集分别对应的文本语义嵌入和实体语义嵌入；

第二目标图片生成单元，用于基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像。

在一些具体实施例中，所述第二目标图片生成单元，包括：

仿射变换单元，用于将预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入输入预设的多层感知机，以得到仿射变换参数；

特征值确定单元，用于利用所述仿射变换参数确定目标隐层特征值，并将当前隐层特征值调整为所述目标隐层特征值，以得到用于对生成的所述第一目标图像的像素值进行约束的全局条件；

第三目标图片生成单元，用于基于所述全局条件并利用预先连接上的上采样层生成所述第一目标图像。

在一些具体实施例中，所述图像生成装置，还包括：

第一损失值确定单元，用于利用预设批大小的文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第一损失函数计算所述生成器的损失值；

第二损失值确定单元，用于使用同批的所述文本、与所述文本对应的图像以及所述文本对应的所述实体候选集，并利用预设的第二损失函数计算所述判别器的损失值；

优化更新单元，用于确定影响所述生成器的损失值与所述判别器的损失值的网络参数，并使用预设优化器对所述网络参数进行优化更新。

在一些具体实施例中，所述图像生成装置，还包括：

次数记录单元，用于利用预设计数器记录优化更新次数；

次数判断单元，用于判断所述优化更新次数是否满足预设目标优化次数；

终止训练单元，用于若所述优化更新次数满足预设目标优化次数，则终止训练。

在一些具体实施例中，所述数据集创建模块11中，包括：

网站确定单元，用于获取公开社交网站信息，并利用所述公开社交网站信息确定目标网站；

数据爬取单元，用于爬取所述目标网站中的弱相关图文数据，并利用所述弱相关图文数据生成弱相关图文数据对。

进一步的，本申请实施例还公开了一种电子设备，图7是根据示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图7为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、显示屏24、输入输出接口25、通信接口26和通信总线27。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的图像生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口26能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及虚拟机数据223等，虚拟机数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的图像生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory，RAM)、内存、只读存储器(Read-OnlyMemory，ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中，所述计算机程序被处理器执行时实现前述公开的图像生成方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的图像生成方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像生成方法，其特征在于，包括：

当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片；

其中，所述利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练的过程中，包括：通过所述图像生成模型中的生成器，从所述图文数据集中确定目标文本并基于所述目标文本生成相应的第一目标图像；通过所述图像生成模型中的判别器，从所述图文数据集中确定与所述目标文本对应的第二目标图像，并利用所述第一目标图像与所述第二目标图像进行全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失值；所述对抗损失值为用于表示图像真伪的概率值；基于所述对抗损失值确定所述第一目标图像的真伪判别结果；

并且，所述基于所述目标文本生成相应的第一目标图像，包括：利用预设的语言处理工具对所述目标文本进行处理，以确定所述目标文本中的目标实体；基于所述目标实体并利用预设的知识图谱技术确定待扩充实体，并利用所述待扩充实体与所述目标实体构建相应的实体候选集；将所述目标文本与所述实体候选集输入预设的转换模型中，以得到所述转换模型输出的与所述目标文本与所述实体候选集分别对应的文本语义嵌入和实体语义嵌入；基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像。

2.根据权利要求1所述的图像生成方法，其特征在于，所述基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像，包括：

3.根据权利要求1所述的图像生成方法，其特征在于，还包括：

4.根据权利要求3所述的图像生成方法，其特征在于，所述使用预设优化器对所述网络参数进行优化更新之后，还包括：

利用预设计数器记录优化更新次数；

判断所述优化更新次数是否满足预设目标优化次数；

若所述优化更新次数满足预设目标优化次数，则终止训练。

5.根据权利要求1至4任一项所述的图像生成方法，其特征在于，所述获取弱相关图文数据对，包括：

6.一种图像生成装置，其特征在于，包括：

图片生成模块，用于当获取到待处理文本数据，则利用所述训练后图像生成模型生成与所述待处理文本数据对应的图片；

其中，所述模型训练模块具体用于：在利用所述图文数据集对预先基于对抗网络构建的图像生成模型进行训练的过程中，通过所述图像生成模型中的生成器，从所述图文数据集中确定目标文本并基于所述目标文本生成相应的第一目标图像；通过所述图像生成模型中的判别器，从所述图文数据集中确定与所述目标文本对应的第二目标图像，并利用所述第一目标图像与所述第二目标图像进行全局特征比对与局部特征比对，得到相应的特征比对结果，然后根据所述特征比对结果确定与所述第一目标图像对应的对抗损失值；所述对抗损失值为用于表示图像真伪的概率值；基于所述对抗损失值确定所述第一目标图像的真伪判别结果；

并且，所述模型训练模块具体用于：利用预设的语言处理工具对所述目标文本进行处理，以确定所述目标文本中的目标实体；基于所述目标实体并利用预设的知识图谱技术确定待扩充实体，并利用所述待扩充实体与所述目标实体构建相应的实体候选集；将所述目标文本与所述实体候选集输入预设的转换模型中，以得到所述转换模型输出的与所述目标文本与所述实体候选集分别对应的文本语义嵌入和实体语义嵌入；基于预设随机噪声、所述文本语义嵌入以及所述实体语义嵌入生成第一目标图像。

7.一种电子设备，其特征在于，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至5任一项所述的图像生成方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的图像生成方法。