CN115797488A

CN115797488A - 图像生成方法、装置、电子设备和存储介质

Info

Publication number: CN115797488A
Application number: CN202211505834.9A
Authority: CN
Inventors: 王永灿; 丁克玉; 刘权
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-14

Abstract

本发明提供一种图像生成方法、装置、电子设备和存储介质，其中方法包括：获取第一文本；提取所述第一文本的文本语义特征和文本情绪特征；基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。本发明提供的方法、装置、电子设备和存储介质，使得生成的第一图像能够展现出贴合第一文本的内容和情绪信息，尤其是在表情包生成场景下，能更加符合用于交互的第一文本的特质，使用于交互的表情包更有创造性。并且，即便第一文本中不包括对于人体各部分的描述，也能生成第一图像，极大扩宽了图像生成的所使用的文本范围，能够为日常聊天的交互文本提供相应的表情包生成服务，保证了图像生成的泛用性和即时性以及便捷性。

Description

图像生成方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种图像生成方法、装置、电子设备和存储介质。

背景技术

当前表情包生成方法主要是基于已有图片或视频片段素材进行参数编辑，或自动截取合适的图片，或给图片匹配对应的文字，又或者通过将表情包图片分为头型、五官、上半身等多个人体部分进行语义标注训练GAN(Generative Adversarial Network，生成对抗网络)模型合成表情包图片。

但是，生成的表情包与使用场景不匹配，创造性不足，还可能存在版权风险。并且通过划分人体部分训练模型合成表情包图片，存在较大限制，且生成内容单调，造成使用不便。比如用户在交流中使用表情包，通常会直接输入“友谊的小船说翻就翻”或“好尴尬呀”等宽泛的语义表述或情绪表达的句子，而不会对人体各部分状态做具体描述，甚至期望的生成结果也不一定是人像。

发明内容

本发明提供一种图像生成方法、装置、电子设备和存储介质，用以解决现有技术生成的表情包与使用场景不匹配，创造性不足，且适用性差的问题。

本发明提供一种图像生成方法，包括：

获取第一文本；

提取所述第一文本的文本语义特征和文本情绪特征；

基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

根据本发明提供的图像生成方法，所述基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像，之后还包括：

提取所述第一图像的图像语义特征和/或图像情绪特征；

基于所述文本语义特征和所述图像语义特征之间的相似度，和/或所述文本情绪特征和所述图像情绪特征之间的相似度，确定所述第一图像的一致性得分；

基于所述第一图像的一致性得分，进行图像推荐。

根据本发明提供的图像生成方法，所述提取所述第一图像的图像语义特征和/或图像情绪特征，包括：

对所述第一图像进行图像特征提取，将提取所得的图像特征作为所述图像语义特征；和/或，

基于图像情绪提取模型，提取所述第一图像的图像情绪特征，所述图像情绪提取模型是人脸表情识别模型中用于提取人脸表情特征的部分。

根据本发明提供的图像生成方法，所述基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像，包括：

基于图像生成模型，确定与所述文本语义特征和所述文本情绪特征相对应的图像编码特征，并对所述图像编码特征进行解码，得到所述第一图像；

所述图像生成模型是基于样本文本，以及与所述样本文本对应的样本图像进行训练得到的。

根据本发明提供的图像生成方法，所述基于图像生成模型，确定与所述文本语义特征和所述文本情绪特征相对应的图像编码特征，并对所述图像编码特征进行解码，得到所述第一图像，包括：

接收针对第二图像的编辑操作，对所述第二图像中所述编辑操作对应的区域进行遮盖，得到第三图像；

基于所述图像生成模型，应用所述文本语义特征、所述文本情绪特征以及所述第三图像的图像编码特征，预测所述第三图像中遮盖区域的区域编码特征，并对所述区域编码特征进行解码，得到所述第一图像。

根据本发明提供的图像生成方法，所述图像生成模型的训练步骤包括：

对所述样本图像进行遮盖，得到遮盖图像；

以所述样本文本的样本文本语义特征和样本文本情绪特征为样本，以所述样本图像为标签，进行模型训练，得到初步生成模型；

以所述样本文本的样本文本语义特征和样本文本情绪特征，以及所述遮盖图像的图像编码特征为样本，以所述样本图像为标签，进行对所述初步生成模型进行微调，得到所述图像生成模型。

根据本发明提供的图像生成方法，所述文本情绪特征的提取步骤包括：

基于文本情绪提取模型，提取所述第一文本的文本情绪特征，所述文本情绪提取模型与文本情绪分类模型构成文本情绪识别模型，所述文本情绪分类模型用于基于所述文本情绪特征进行情绪分类。

本发明还提供一种图像生成装置，包括：

文本单元，用于获取第一文本；

提取单元，用于提取所述第一文本的文本语义特征和文本情绪特征；

生成单元，用于基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像生成方法。

本发明提供的图像生成方法、装置、电子设备和存储介质，通过获取第一文本；提取所述第一文本的文本语义特征和文本情绪特征；基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。使得生成的第一图像能够展现出贴合第一文本的内容和情绪信息，尤其是在表情包生成场景下，能更加符合用于交互的第一文本的特质，使用于交互的表情包更有创造性。并且，即便第一文本中不包括对于人体各部分的描述，也能生成第一图像，极大扩宽了图像生成的所使用的文本范围，能够为日常聊天的交互文本提供相应的表情包生成服务，保证了图像生成的泛用性和即时性以及便捷性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像生成方法的流程示意图之一；

图2是本发明提供的图像推荐方法的流程示意图；

图3是本发明提供的图像生成模型训练的流程示意图；

图4是本发明提供的图像编辑流程示意图之一；

图5是本发明提供的图像编辑流程示意图之二；

图6是本发明提供的图像生成模型的训练流程示意图；

图7是本发明提供的图像生成方法的流程示意图之二；

图8是本发明提供的图像生成装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前表情包生成方法主要是基于已有图片或视频片段素材进行参数编辑。但是，生成的表情包与使用场景不匹配，创造性不足，还可能存在版权风险。此外，也存在基于文本合成表情包的方法，具体是通过将表情包图片分为头型、五官、上半身等多个部分进行语义标注训练GAN模型，用于合成表情包图片。但是上述方案要求文本必须携带对于人体各部位的描述存在较大限制，且生成的均是人体图像，内容单调，不适用日常聊天所产生的交互文本所对应表情包的生成，造成使用不便。

针对上述问题，本发明提供一种图像生成方法，以实现基于文本的文本语义特征和文本情绪特征生成图像，使得生成图像更加方便，且生成的图像更加贴合文本的语义和情感，图像质量更高。可以理解的是，此处所指的图像，可以是聊天表情包，也可以是其他应用下的图像。图1是本发明提供的图像生成方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取第一文本；

此处，第一文本指的是用于进行图像生成的文本。第一文本可以是交互过程中用户输入的文本，比如“给你一朵小花花”。第一文本也可以是用于对图像进行具体描述的文本，比如，将图像分为头型、五官、上半身等多个部分进行详细的语义标注。

可以理解的是，在第一文本为交互过程中输入的文本的情况下，执行基于第一文本的图像生成，以获取第一文本所对应的可作为表情包的第一图像，能够保证交互过程中表情包的即时应用，提高用户体验。

步骤120，提取所述第一文本的文本语义特征和文本情绪特征；

具体地，在交互场景下，第一文本通常不仅表达用户的语义信息，还携带了用户想表达的情绪信息。为了能够使通过文本生成的图像更加生动，更加能够贴合用户交互场景。所以，不仅要提取第一文本的文本语义特征，还要提取第一文本的文本情绪特征。

此处，所述文本语义特征，指的是第一文本在语义表达上所包含的内容信息。第一文本的文本语义特征可以通过预训练的语言模型提取得到，例如可以通过BERT(Bidirectional Encoder Representation from Transformers)及其后续变体RoBerta等提取得到。

另外，第一文本的文本情绪特征，指的是第一文本在情绪表达上所包含的情绪信息。比如“宝宝心里苦”的文本情绪特征是悲伤的情绪特征。此处，第一文本的文本情绪特征，可以通过预先训练好的情绪特征提取模型提取得到，例如可以将情绪分类模型中的编码器作为情绪特征提取模型，以实现文本情绪特征提取。

步骤130，基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

具体地，在得到第一文本的文本语义特征和文本情绪特征之后，即可基于此进行图像生成。在此过程中，可以对第一文本的文本语义特征和文本情绪特征进行特征映射，得到对应第一文本的图像编码特征，再通过对第一文本的图像编码特征进行解码，以获取第一文本对应的第一图像。此处，第一图像，指的是与第一文本在语义和情绪上均能匹配对应的图像。具体在交互场景下，第一图像可以是第一文本所对应的表情包图像。

可以理解的是，相较于相关技术在进行图像生成时仅关注文本语义，本发明实施例中在生成第一图像时，不仅考虑了第一文本的文本语义特征，还结合了第一文本的文本情绪特征。文本情绪特征的应用使得由此生成的第一图像能够展现出与第一文本相匹配的情绪信息，由此更加贴合实际应用场景。

本发明实施例提供的方法，根据第一文本的文本语义特征和文本情绪特征，生成与所述第一文本对应的第一图像，使得生成的第一图像能够展现出更加贴合第一文本的内容和情绪信息，尤其是在表情包生成场景下能够更加符合用于交互的第一文本的特质，使得用于交互中的表情包更加有创造性。

并且，第一图像的生成依赖于第一文本的文本语义特征以及文本情绪特征，即便第一文本中不包括对于人体各部分的描述，也可以实现第一图像的生成，极大扩宽了图像生成的所使用的文本范围，能够为基于日常聊天产生的交互文本提供相应的表情包生成服务，保证了图像生成的泛用性和即时性以及便捷性。

为了提升生成的第一图像的质量，让用户可以获取到更加心仪的图像，基于上述实施例，本发明实施例提出了在得到第一图像之后的步骤，图2为本发明提供的图像推荐方法的流程示意图，如图2所示，生成与所述第一文本对应的第一图像，之后还包括：

步骤210，提取所述第一图像的图像语义特征和/或图像情绪特征；

步骤220，基于所述文本语义特征和所述图像语义特征之间的相似度，和/或所述文本情绪特征和所述图像情绪特征之间的相似度，确定所述第一图像的一致性得分。

具体地，上述步骤中生成的与第一文本对应的第一图像的数量可以是一张，也可以是多张。针对于任一第一图像而言，第一图像的一致性得分用于反映第一图像与第一文本之间的适配程度，可以从如下方面综合评价得到，具体包含第一文本的文本语义特征与第一图像的图像语义特征之间的一致性，和/或，第一文本的文本情绪特征与第一图像的图像情绪特征之间的一致性。此处，第一图像的图像语义特征，指的是图像中包含的事物内容信息，比如，图像中的“人”、“花朵”等。第一图像的图像语义特征可以使用ViT模型或ResNet模型等图像特征编码器提取得到。另外，所述第一图像的图像情绪特征，指的是第一图像表达的情绪内容信息，比如，“宝宝心里苦”生成的图像，表达的情绪通常是悲伤。第一图像的图像情绪特征可以使用人脸表情识别模型提取，也可以使用情绪识别模型中的编码器提取，本发明实施例对此不作具体限定。

具体在衡量第一图像和第一文本在语义和/或情绪上的一致性时，可以基于文本语义特征和图像语义特征之间的相似度，或者基于文本情绪特征和图像情绪特征之间的相似度，又或者基于以上两种相似度，来确定第一图像的一致性得分。此处所指的相似度，可以通过余弦相似度、欧式距离等相似度算法来计算。相似度越高，说明第一文本与对应生成的第一图像更加贴合，比如，第一文本为“宝宝心里苦”，第一文本的文本情绪特征为悲伤特征，如果生成的第一图像中有伤心流泪的表情，则此第一图像与第一文本在情绪层面上的相似度就大，即第一图像更加贴合对应的第一文本。如果生成的第一图像中有哈哈大笑的表情，则此第一图像与第一文本在情绪层面上的相似度就小，即第一图像不太贴合对应的第一文本。

特别地，针对于语义层面上的相似度，考虑到相关技术中存在一些已训练的文本图像匹配模型，比如CLIP(Contrastive Language-Image Pre-training，对比图文预训练)模型可以直接实现文本语义特征和图像语义特征之间的相似度计算。

在得到第一文本和第一图像在语义层面上的相似度和/或情绪层面上的相似度之后，可以直接由其中一个相似度确定第一图像的一致性得分，也可以对第一文本和第一图像在语义层面上的相似度和情绪层面上的相似度进行加权，以获取第一图像的一致性得分。

进一步地，在交互场景下，第一文本通常更凸显第一文本的情绪表达，直接的语义表述相对较少。因此在基于第一文本和第一图像之间的语义相似度和情绪相似度加权计算第一图像的一致性得分时，可以通过调整加权因子，控制两者所占的比重。具体一致性得分计算公式如下：

Score＝α*f(p_i,p_t)+(1-α)*f(e_i,e_t)

其中，Score为第一图像最终的一致性得分，α为情绪一致性权重占比，f()为相似度计算函数，p_i,p_t分别为第一图像的图像情绪特征与第一文本的文本情绪特征，e_i,e_t分别为第一图像的图像语义特征与第一文本的文本语义特征。

步骤230，基于所述第一图像的一致性得分，进行图像推荐。

具体地，根据各第一图像的一致性得分，可以对各第一图像进行筛选或者排序，从而基于筛选或者排序的结果进行图像推荐。比如，可以通过滤掉一致性得分较低的第一图像，将剩余的第一图像用于图像推荐。又比如，可以根据一致性得分对各个第一图像进行排序，将一致性得分更高的第一图像优先向用户展示，本发明实施例不做具体限定。

本发明实施例提供的方法，通过计算生成的各个第一图像相较于第一文本在语义和/或情绪上的一致性得分，实现更加忠于第一文本的图像推荐，有助于提高推荐给用户的图像质量和通用性，从而提高用户体验。并且，基于图像推荐，从而提升用户体验和图像的被使用率。

基于上述任一实施例，步骤210中，所述提取所述第一图像的图像语义特征和/或图像情绪特征，包括：

此处，考虑到图像语义特征实际反映的是第一图像中包含的事物内容的信息，而这些信息通常亦反映在图像特征中，因而针对于图像语义特征的提取，可以通过图像特征提取模型来实现，图像特征提取模型可以使用ViT模型或ResNet模型。

另外，由于第一图像中通常包含表情夸张的人脸，人脸表情一般表达了人的情绪，即反映第一图像的情绪。所以，图像情绪特征可以通过人脸表情识别模型提取。具体地，在检测到第一图像中的人脸后，即可通过表情识别模型提取图像情感特征。若未检测到人脸，则默认第一图像未携带明显的情绪，图像情绪特征默认为中性。

基于上述任一实施例，步骤130包括：

具体地，在基于图像生成模型进行图像生成的过程中，可以首先映射文本语义特征和文本情绪特征对应的图像编码特征。此处的图像编码特征，可以反映待生成的与文本语义特征和文本情绪特征相匹配的图像其在事物内容上的信息特征。在此基础上，针对图像编码特征进行解码，即可得到与第一文本相匹配的第一图像。

进一步地，图像生成模型可以预先建模文本语义特征、文本情绪特征与图像编码特征之间的关系，在具体应用时，即可应用输入的文本语义特征、文本情绪特征，由图像起始符BOI逐步解码出图像编码特征，随后再对图像编码特征进行解码重建，从而得到第一图像。此处的图像生成模型可以是Transformer模型，也可以是其他模型结构，本发明实施例对此不作具体限定。

在执行这一步骤之前，还需要通过训练得到图像生成模型，此处图像生成模型的训练可以是基于如下步骤实现的：首先，收集样本文本，以及样本文本对应的样本图像；然后，基于收集到的样本文本及其对应的样本图像，进行模型训练，得到图像生成模型。

在图像生成模型训练过程中，可以参见图3，图3为本发明提供的图像生成模型训练的流程示意图。具体地，在图像生成模型训练过程中，可以应用图编码器对样本图像进行图编码，并得到样本编码特征。此处的图编码器可以是VQVAE(Vector Quantised-Variational AutoEncoder，矢量量化自动编码器)模型。并且，可以通过文本情绪特征提取模块，提取样本文本的文本情绪特征，并通过文本语义特征提取模块，提取样本文本的文本语义。然后基于样本图像所得的样本编码特征，以及对样本文本的文本语义特征和文本情绪特征映射得到的图像编码特征之间的差异，即可构建损失函数，进而基于损失函数对训练模型进行参数迭代，得到图像生成模型。

或者，也可以对样本文本的文本语义特征和文本情绪特征进行映射，得到图像编码特征，并基于图解码器对图像编码特征进行解码得到预测图像，并基于预测图像与样本图像之间的差异，构建损失函数，进而基于损失函数对训练模型进行参数迭代，得到图像生成模型，本发明实施例对此不作具体限定。

基于上述实施例，图4为本发明提供的图像编辑流程示意图之一，如图4所示，步骤130中，所述基于图像生成模型，确定与所述文本语义特征和所述文本情绪特征相对应的图像编码特征，并对所述图像编码特征进行解码，得到所述第一图像，包括：

步骤410，接收针对第二图像的编辑操作，对所述第二图像中所述编辑操作对应的区域进行遮盖，得到第三图像；

此处的第二图像，是用户期望结合第一文本进行局部修改的图像，第二图像可以是前期根据第一文本生成的图像，也可以是用户自行上传的图像。

针对于第二图像，用户可以通过编辑操作选定第二图像中需要进行修改的区域。此处的编辑操作，可以是圈选、点选、滑动选择等形式，用户可以通过编辑操作选出第二图像中不满意的区域。在检测并接收到用户针对第二图像的编辑操作，可以基于编辑操作所执行的位置定位第二图像中需要修改的区域，即，编辑操作对应的区域，然后再针对这个区域进行遮盖，遮盖完成即得到第三图像。

步骤420，基于所述图像生成模型，应用所述文本语义特征、所述文本情绪特征以及所述第三图像的图像编码特征，预测所述第三图像中遮盖区域的区域编码特征，并对所述区域编码特征进行解码，得到所述第一图像。

具体地，基于图像生成模型，可以对第三图像中被遮盖的区域进行区域化的图像生成，从而得到与第一文本在语义和情绪上都能匹配的第一图像，可以理解的是，此处的第一图像继承了第三图像中未被遮盖的区域图像。

在第一图像的生成过程中，图像生成模型除了应用第一文本的文本语义特征和文本情绪特征，还结合了第三图像的未遮盖区域的图像编码特征，一并预测第三图像中遮盖区域处的图像编码特征，此处记为区域编码特征。可以理解的是，此处的区域编码特征，即由第一文本的文本语义特征、文本情绪特征以及第三图像的未遮盖区域的图像编码特征进行映射得到的。在得到区域编码特征之后，即可通过特征解码获取第三图像中遮盖区域的区域图像，并且将第三图像与区域图像迭代，即得到第一图像。

针对于此处的图像生成模型，可以是能够实现基于文本进行图像生成的模型基础上，即初步生成模型的基础上，进行微调训练得到的。微调训练步骤如下：可以对样本图像进行图编码，基于图编码所得的样本编码特征，以及基于初步生成模型对样本文本的文本语义特征、文本情绪特征和遮盖图像的图像编码特征映射得到的图像编码之间的差异，即可构建损失函数，进而基于损失函数对初步生成模型进行参数迭代，得到图像生成模型；或者，也可以基于初步生成模型对样本文本的文本语义特征、文本情绪特征和遮盖图像的图像编码特征进行映射，得到图像编码，并对图像编码进行解码得到遮盖图像对应的预测图像，并基于预测图像与样本图像之间的差异，构建损失函数，进而基于损失函数对初步生成模型进行参数迭代，得到图像生成模型，本发明实施例对此不作具体限定。

本发明实施例提供的方法，结合编辑操作和第一文本，实现针对于第二图像的图像修改，由此提高了图像生成在实际应用中的灵活性，提升了用户体验。

尤其是在第二图像为图像生成方法所生成图像的情况下，基于用户的编辑操作，针对第二图像进行修改，能够提升用户的参与感，从而能够更加方便快捷地实现个性化表情包的生成。

此外，第二图像还可以是用户自行创作或者选择的图像，基于此进行图像修改，可以生成用户个性化的第一图像，从而提升图像生成的趣味性。

进一步地，图5为本发明提供的图像编辑流程示意图之二，如图5所示，图像生成模型在初始图像生成模型上增加了图像编辑功能，构成了包含图像生成和编辑的图像生成模型。具体在图像编辑流程中，可以将第一文本分别输入到文本情绪特征提取模块和文本语义特征提取模块，以获取第一文本的文本语义特征和文本情绪特征；另外，还可以应用图编码器对获取的第三图像进行图编码，得到第三图像的图像编码特征。随后，可以将第一文本的文本语义特征和文本情绪特征，以及第三图像的图像编码特征输入到图像生成模型中，由图像生成模型基于上述输入的特征对第三图像中遮盖区域的区域编码特征进行预测。随后，可以应用图解码器对区域编码特征进行解码，由此得到对应于第一文本和第三图像的第一图像。

基于上述任一实施例，图6为本发明提供的图像生成模型的训练流程示意图，如图6所示，所述图像生成模型的训练步骤包括：

步骤610，对所述样本图像进行遮盖，得到遮盖图像；

步骤620，以所述样本文本的样本文本语义特征和样本文本情绪特征为样本，以所述样本图像为标签，进行模型训练，得到初步生成模型；

步骤630，以所述样本文本的样本文本语义特征和样本文本情绪特征，以及所述遮盖图像的图像编码特征为样本，以所述样本图像为标签，进行对所述初步生成模型进行微调，得到所述图像生成模型。

具体地，图像生成模型的训练，可以划分为两个阶段实现，即对应步骤620和步骤630，

其中，步骤620用于实现基础的图像生成功能，即通过训练得到具备基于文本生成图像的功能的初步生成模型。具体可以基于对样本图像进行图编码所得的样本编码特征，以及基于初始模型对样本文本的文本语义特征和文本情绪特征映射得到的图像编码之间的差异，构建损失函数，进而基于损失函数对初始模型进行参数迭代，得到初步生成模型；或者，也可以基于初始模型对样本文本的文本语义特征和文本情绪特征进行映射，得到图像编码，并对图像编码进行解码得到预测图像，并基于预测图像与样本图像之间的差异，构建损失函数，进而基于损失函数对初始模型进行参数迭代，得到初步生成模型。

步骤630用于实现针对初步生成模型的微调，从而得到既具备基于文本生成图像功能，也具备结合文本和图像进行图像修改功能的图像生成模型。具体可以对样本图像进行图编码，基于图编码所得的样本编码特征，以及基于初步生成模型对样本文本的文本语义特征、文本情绪特征和遮盖图像的图像编码特征映射得到的图像编码之间的差异，即可构建损失函数，进而基于损失函数对初步生成模型进行参数迭代，得到图像生成模型；或者，也可以基于初步生成模型对样本文本的文本语义特征、文本情绪特征和遮盖图像的图像编码特征进行映射，得到图像编码，并对图像编码进行解码得到预测图像，并基于预测图像与样本图像之间的差异，构建损失函数，进而基于损失函数对初步生成模型进行参数迭代，得到图像生成模型。

由此得到的图像生成模型，不仅具备文本生成图像的功能，还具备了结合文本和图像，对图像进行调整的功能，可以应用于交互场景下用户对于图像的指定修改任务，或者应用于对前期生成图像中用户不满之处进行调整的交互任务，能够提升图像生成中用户的参与感。

基于上述任一实施例，所述文本情绪特征的提取步骤包括：

具体地，文本情绪识别模型可以由文本情绪提取模型和文本情绪分类模型两个部分组成。针对于文本情绪识别任务，文本情绪提取模型承担了编码器的角色，用于对输入的文本进行情绪特征提取，而文本情绪分类模型则承担了分类器的角色，用于基于提取的情绪特征进行情绪分类。文本情绪识别模型的模型结构可以基于BERT或BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)等常用情感分类模型，此处不做具体限制。可以理解的是，文本情绪识别模型可以是基于样本文本及其对应的情绪标签进行有监督训练得到的，在此过程中，文本情绪识别模型中的文本情绪提取模型能够充分学习到样本文本的情绪特征，从而具备情绪特征提取的能力。具体应用中，情绪标签可使用情感分类常用标签类型，如快乐、悲伤、恐惧、愤怒、惊讶和厌恶等，也可以根据需要自行定义类型划分，如怼人、卖萌等。

由此，在本发明实施例的应用中，可以仅应用文本情绪识别模型中的文本情绪提取模型，实现针对于第一文本的文本情绪特征提取，从而得到文本情绪特征。由于文本情绪提取模型在训练阶段参与了文本情绪识别的有监督学习任务，因此基于文本情绪提取模型提取的文本情绪特征，能够准确可靠地反映第一文本中蕴含的情绪，从而能够生成更加贴合用户原意的第一图像。

基于上述任一实施例，图7为本发明提供的图像生成方法的流程示意图之二，如图7所示，该方法包括：

可以基于图像生成模型实现第一图像的生成，此处，第一图像的生成依赖于第一文本，或者依赖于第一文本与第三图像。此处，由于第三图像并不是图像生成所必须的，因此在图7中以虚线框示出。

具体地，首先，确定需要生成对应图像的第一文本；接着，将第一文本分别输入文本情绪特征提取模块和文本语义特征提取模块，由此得到第一文本的文本情绪特征和文本语义特征。

再接着，将第一文本的文本情绪特征和文本语义特征，输入到图像生成模型中，由图像生成模型通过第一文本的文本情绪特征和文本语义特征，得到对应的第一图像。

或者，在存在第三图像的情况下，还可以将第一文本的文本情绪特征和文本语义特征，以及第三图像的图像编码特征一并输入到图像生成模型中，由图像生成模型通过第一文本的文本情绪特征和文本语义特征以及第三图像的图像编码特征，生成对应的第一图像。

由此得到的第一图像，可能存在多个。

在得到多个第一图像之后，还可以应用图像情绪特征提取模块和图像语义特征提取模块对每个第一图像分别进行图像情绪特征提取和图像语义特征提取，得到每个第一图像的图像情绪特征和图像语义特征。结合第一文本的文本情绪特征和文本语义特征，可以针对每个第一图像分别计算文本情绪特征与图像情绪特征之间的情绪相似度、文本语义特征和图像语义特征之间的语义相似度。通过语义相似度和/或情绪相似度，即可计算得到第一图像的一致性得分。通过第一图像的一致性得分，可以对第一图像进行排序，从而完成对针对第一图像的图像推荐。

基于上述任一实施例，图8是本发明提供的图像生成装置的结构示意图，如图8所示，该装置包括：

文本单元810，用于获取第一文本；

提取单元820，用于提取所述第一文本的文本语义特征和文本情绪特征；

生成单元830，用于基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

本发明实施例提供的装置，根据第一文本的文本语义特征和文本情绪特征，生成与所述第一文本对应的第一图像，使得生成的第一图像能够展现出更加贴合第一文本的内容和情绪信息，尤其是在表情包生成场景下能够更加符合用于交互的第一文本的特质，使得用于交互中的表情包更加有创造性。

基于上述任一实施例，生成单元还包括确定一致性得分单元，确定一致性得分单元用于：

提取所述第一图像的图像语义特征和/或图像情绪特征；

基于所述第一图像的一致性得分，进行图像推荐。

基于上述任一实施例，提取单元还用于：

基于上述任一实施例，生成单元用于：

对所述样本图像进行遮盖，得到遮盖图像；

基于上述任一实施例，提取单元还用于：

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行图像生成方法，该方法包括：获取第一文本；提取所述第一文本的文本语义特征和文本情绪特征；基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像生成方法，该方法包括：获取第一文本；提取所述第一文本的文本语义特征和文本情绪特征；基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成方法，该方法包括：获取第一文本；提取所述第一文本的文本语义特征和文本情绪特征；基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取第一文本；

提取所述第一文本的文本语义特征和文本情绪特征；

2.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像，之后还包括：

提取所述第一图像的图像语义特征和/或图像情绪特征；

基于所述第一图像的一致性得分，进行图像推荐。

3.根据权利要求2所述的图像生成方法，其特征在于，所述提取所述第一图像的图像语义特征和/或图像情绪特征，包括：

4.根据权利要求1至3中任一项所述的图像生成方法，其特征在于，所述基于所述文本语义特征和所述文本情绪特征，生成与所述第一文本对应的第一图像，包括：

5.根据权利要求4所述的图像生成方法，其特征在于，所述基于图像生成模型，确定与所述文本语义特征和所述文本情绪特征相对应的图像编码特征，并对所述图像编码特征进行解码，得到所述第一图像，包括：

6.根据权利要求5所述的图像生成方法，其特征在于，所述图像生成模型的训练步骤包括：

对所述样本图像进行遮盖，得到遮盖图像；

7.根据权利要求1至3中任一项所述的图像生成方法，其特征在于，所述文本情绪特征的提取步骤包括：

8.一种图像生成装置，其特征在于，包括：

文本单元，用于获取第一文本；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像生成方法。