CN117808924B

CN117808924B - 一种图像生成方法、系统、电子设备及可读存储介质

Info

Publication number: CN117808924B
Application number: CN202410224980.7A
Authority: CN
Inventors: 李晓川; 赵雅倩; 范宝余; 李仁刚; 郭振华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-24
Anticipated expiration: 2044-02-29
Also published as: CN117808924A

Abstract

本发明公开了一种图像生成方法、系统、电子设备及可读存储介质，涉及图像内容生成领域，为解决纯文本生成图像方案不能在特定场景下进行情感引导，该方法包括根据输入文本确定语义指导特征和情绪指导特征；基于第i次图像处理操作的输入图像和目标指导特征得到生成图像；根据第i次图像处理操作的情绪修正特征确定第i次图像处理操作的生成图像和情绪指导特征的情绪匹配值；当情绪匹配值满足输出条件，将第i次图像处理操作的生成图像作为关联图像输出，当情绪匹配值不满足输出条件，将第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像。本发明能够提高图像生成的精准性，在满足语义要求的同时，进行情感方向引导。

Description

一种图像生成方法、系统、电子设备及可读存储介质

技术领域

本发明涉及图像内容生成领域，特别涉及一种图像生成方法、系统、电子设备及可读存储介质。

背景技术

图像内容生成是一种根据给定模态的指导输入（如文本、3D（Three Dimensions，三维）、点云或其他形式的信息）生成图像内容的技术。随着技术的迭代更新，AI（Artificial Intelligent，人工智能）图像生成内容逐渐成为互联网内容的重要来源。作为最主要的图像AIGC（Artificial Intelligent Generated Content，人工智能生成内容）手段，根据纯文本生成图像是最常见的任务形式，但是在某些任务场景下，如文本插图任务场景下，不仅需要生成的图像与任务场景的语义文本相同，还需要生成的图像满足该任务场景下的指定情感，但是现有的纯文本生成图像的方案并不能满足某些任务场景下的情感需求。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种图像生成方法、系统、电子设备及可读存储介质，能够提高图像生成的精准性，在满足语义要求的同时，进行情感方向引导。

为解决上述技术问题，本发明提供了一种图像生成方法，包括：

根据输入文本确定语义指导特征和情绪指导特征；

基于第i次图像处理操作的输入图像和目标指导特征，得到所述第i次图像处理操作的生成图像；i为正整数，i=1时，所述目标指导特征包括所述语义指导特征和所述情绪指导特征，i＞1时，所述目标指导特征包括所述语义指导特征、所述情绪指导特征和第i-1次图像处理操作对应的情绪修正特征；

获取所述第i次图像处理操作的情绪修正特征，根据所述情绪修正特征确定所述第i次图像处理操作的生成图像和所述情绪指导特征的情绪匹配值；

当所述情绪匹配值满足输出条件，将所述第i次图像处理操作的生成图像作为关联图像输出，当所述情绪匹配值不满足所述输出条件，将所述第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；所述输出条件包括所述情绪匹配值大于或等于预设匹配值，或i为停止预设值。

其中，基于第i次图像处理操作的输入图像和目标指导特征，得到所述第i次图像处理操作的生成图像的过程包括：

基于所述语义指导特征和所述第i次图像处理操作的输入图像得到当前图像预卷积特征；

获取当前情绪修正指导特征，利用所述当前情绪修正指导特征和所述当前图像预卷积特征，得到图像情绪融合特征；i=1时，所述当前情绪修正指导特征为所述情绪指导特征，i＞1时，所述当前情绪修正指导特征基于所述情绪指导特征及所述第i-1次图像处理操作对应的情绪修正特征确定；

基于所述图像情绪融合特征得到图像融合特征；

将所述图像融合特征作为当前图像预卷积特征，重复获取当前情绪修正指导特征，利用所述当前情绪修正指导特征和所述当前图像预卷积特征，得到图像情绪融合特征的操作，直至重复次数达到预设次数；

基于所述重复次数达到所述预设次数时的图像融合特征得到所述第i次图像处理操作的生成图像。

其中，基于所述语义指导特征和所述第i次图像处理操作的输入图像得到当前图像预卷积特征的过程包括：

获取所述第i次图像处理操作的输入图像对应的第一图像预卷积特征；

对所述语义指导特征进行转换得到语义转化特征；

将所述语义转化特征拼接到所述第一图像预卷积特征后，得到当前图像预卷积特征。

其中，获取当前情绪修正指导特征的过程包括：

当i＞1时，对所述第i-1次图像处理操作对应的情绪修正特征进行扩展，使扩展后的情绪修正特征与所述情绪指导特征大小相同；

将所述扩展后的情绪修正特征与所述情绪指导特征相加，得到当前情绪修正指导特征。

其中，利用所述当前情绪修正指导特征和所述当前图像预卷积特征，得到图像情绪融合特征的过程包括：

基于所述当前图像预卷积特征得到图像压缩特征；

将所述图像压缩特征和所述当前情绪修正指导特征融合为图像情绪融合特征，所述图像情绪融合特征与所述图像压缩特征大小相同。

其中，基于所述当前图像预卷积特征得到图像压缩特征的过程包括：

对所述当前图像预卷积特征进行卷积处理，得到图像特征；

对所述图像特征进行压缩处理，得到图像压缩特征。

其中，基于所述图像情绪融合特征得到图像融合特征的过程包括：

对所述图像情绪融合特征进行维度恢复，得到中间情绪融合特征，所述中间情绪融合特征与所述图像特征大小相同；

将所述中间情绪融合特征和所述图像特征相加，得到图像融合特征。

其中，基于所述重复次数达到所述预设次数时的图像融合特征得到所述第i次图像处理操作的生成图像的过程包括：

对所述重复次数达到预设次数时的图像融合特征进行图像后卷积处理，得到所述第i次图像处理操作的生成图像，所述第i次图像处理操作的生成图像与输入图像大小相同。

其中，当i=1时，所述输入图像为白噪声图像。

其中，获取所述第i次图像处理操作的情绪修正特征的过程包括：

获取提示文本，将所述提示文本拼接在所述情绪指导特征之前，得到组合指导特征；

获取所述第i次图像处理操作的输入图像对应的图像编码特征；

基于所述图像编码特征和所述组合指导特征得到所述第i次图像处理操作的情绪修正特征。

其中，基于所述图像编码特征和所述组合指导特征得到所述第i次图像处理操作的情绪修正特征的过程包括：

将所述图像编码特征和所述组合指导特征合并，得到合并特征；

将所述合并特征输入预设语言模型，得到对应全局位置的全局特征，将所述全局特征确定为所述第i次图像处理操作的情绪修正特征。

其中，根据所述情绪修正特征确定所述第i次图像处理操作的生成图像和所述情绪指导特征的情绪匹配值的过程包括：

使用预设回归模型对所述情绪修正特征进行打分，将所述情绪修正特征的得分作为所述第i次图像处理操作的生成图像和所述情绪指导特征的情绪匹配值。

其中，获取所述第i次图像处理操作的输入图像对应的图像编码特征的过程包括：

提取所述第i次图像处理操作的输入图像的全局特征；

基于所述全局特征得到情绪分布矩阵；所述情绪分布矩阵中的每个元素为所述输入图像中对应的像素点对情绪重要程度的权重；利用所述情绪分布矩阵和所述全局特征得到图像编码特征。

其中，基于所述全局特征得到情绪分布矩阵的过程包括：

对所述全局特征进行情绪敏感计算得到情绪分布矩阵。

其中，对所述全局特征进行情绪敏感计算得到情绪分布矩阵的过程包括：

利用第一关系式对所述全局特征进行情绪敏感计算得到情绪分布矩阵；

所述第一关系式为，其中，E_p为所述情绪分布矩阵，W_p为预设权重矩阵，b_p为预设偏差矩阵，α为可输入超参数，F_b为所述全局特征，f_c为第c通道的特征，c为特征的通道数，C为通道集合，/>为每个像素点上的特征在通道维度上的均值。

将所述第i次图像处理操作的输入图像输入预设图像编码器，得到图像编码特征。

其中，将所述第i次图像处理操作的输入图像输入预设图像编码器之前，所述图像生成方法还包括：

获取参考输入图像，对所述参考输入图像进行敏感图标注，得到敏感图标签；

对所述参考输入图像添加情绪标签；

基于所述情绪标签、情绪分布矩阵和所述敏感图标签计算损失函数并反向梯度优化得到所述预设图像编码器。

为解决上述技术问题，本发明还提供了一种图像生成系统，包括：

第一确定模块，用于根据输入文本确定语义指导特征和情绪指导特征；

生成模块，用于基于第i次图像处理操作的输入图像和目标指导特征，得到所述第i次图像处理操作的生成图像；i为正整数，i=1时，所述目标指导特征包括所述语义指导特征和所述情绪指导特征，i＞1时，所述目标指导特征包括所述语义指导特征、所述情绪指导特征和第i-1次图像处理操作对应的情绪修正特征；

第一获取模块，用于获取所述第i次图像处理操作的情绪修正特征，根据所述情绪修正特征确定所述第i次图像处理操作的生成图像和所述情绪指导特征的情绪匹配值；

情绪判别模块，用于当所述情绪匹配值满足输出条件，将所述第i次图像处理操作的生成图像作为关联图像输出，当所述情绪匹配值不满足所述输出条件，将所述第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；所述输出条件包括所述情绪匹配值大于或等于预设匹配值，或i为停止预设值。

为解决上述技术问题，本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任意一项所述的图像生成方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所述的图像生成方法的步骤。

本发明提供了一种图像生成方法，基于输入文本的情绪指导特征和语义指导特征得到生成图像，并在图像处理操作后对生成图像与情绪指导特征之间的情绪匹配值进行获取，以便根据情绪匹配值判断第i次图像处理操作的生成图像是否满足情景任务所需的情感方向引导要求，若不满足则将该生成图像作为新的输入图像结合上述指导特征及该生成图像对应的情绪修正特征进行下一次图像处理操作，得到新的生成图像，直至生成图像满足情景任务所需的情感方向引导要求，提高了图像生成的精准性，在满足语义要求的同时，能够进行情感方向引导。本发明还提供了一种图像生成系统、电子设备及计算机可读存储介质，具有和上述图像生成方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种图像生成方法的步骤流程图；

图2为本发明所提供的另一种图像生成方法的示意图；

图3为本发明所提供的一种基于情感方向引导的图像生成示意图；

图4为本发明所提供的一种情绪判别示意图；

图5为本发明所提供的一种图像编码器的模型结构示意图；

图6为本发明所提供的一种图像生成系统的结构示意图；

图7为本发明所提供的一种电子设备的结构示意图；

图8为本发明所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

本发明的核心是提供一种图像生成方法、系统、电子设备及可读存储介质，能够提高图像生成的精准性，在满足语义要求的同时，进行情感方向引导。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，请参照图1，图1为本发明所提供的一种图像生成方法的步骤流程图，该图像生成方法包括：

S101：根据输入文本确定语义指导特征和情绪指导特征；

考虑到在图像内容生成领域，图像内容生成是指根据文本语义生成准确的图像，图像的内容需要符合文本中的语义指导，但在某些任务场景下，图像生成任务不仅要求生成的图像的内容和语义指导相符，还需要配合相关的情绪。示例性地，在文本插图任务场景下，需要生成指定情感的图像，或在心理治疗任务场景下，需要尽量生成正面情绪相关的图像，在销售任务场景下，需要尽量生成使人产生兴奋色彩、令人高兴的图像。为了使生成的图像既符合语义指导，又能够配合相关的情绪，本实施例首先获取用户通过交互设备输入的输入文本，输入文本包括输入文本指导和输入情绪方向，将输入文本指导和输入情绪方向都输入文本编码器，通过文本编码器进行特征提取，分别得到输入文本指导对应的语义指导特征和输入情绪方向对应的情绪指导特征。

示例性地，用户的输入文本包括雪地上的小狗以及悲伤，其中，输入文本指导为雪地上的小狗，输入情绪方向为悲伤。

S102：基于第i次图像处理操作的输入图像和目标指导特征，得到第i次图像处理操作的生成图像；i为正整数，i=1时，目标指导特征包括语义指导特征和情绪指导特征，i＞1时，目标指导特征包括语义指导特征、情绪指导特征和第i-1次图像处理操作对应的情绪修正特征；

本实施例中，将基于目标指导特征和输入图像得到生成图像的操作称为图像处理操作，参照图2所示，输入文本指导经文本编码器处理后得到语义指导特征，输入情绪方向经文本编码器处理后得到情绪指导特征，对于第一次图像处理操作，其输入图像为白噪声图像，目标指导特征包括基于输入文本确定的语义指导特征和情绪指导特征。对于第二次及后续任一次图像处理操作，其输入图像均为上一次图像处理操作的生成图像，目标指导特征中除了包括基于输入文本确定的语义指导特征和情绪指导特征，还包括上一次图像处理操作得到的生成图像所对应的情绪修正特征，以便在本次图像处理操作中，通过情绪修正特征、语义指导特征和情绪指导特征对上一次图像处理操作的生成图像进行调整，使本次图像处理操作的生成图像更贴近输入文本中的情绪方向。

S103：获取第i次图像处理操作的情绪修正特征，根据情绪修正特征确定第i次图像处理操作的生成图像和情绪指导特征的情绪匹配值；

S104：当情绪匹配值满足输出条件，将第i次图像处理操作的生成图像作为关联图像输出，当情绪匹配值不满足输出条件，将第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；输出条件包括情绪匹配值大于或等于预设匹配值，或i为停止预设值。

同样参照图2进行说明，对于第一次图像处理操作，其输入图像为一个白噪声图像，利用该白噪声图像、语义指导特征及情绪指导特征得到第一次图像处理操作的生成图像P1，对生成图像P1进行情绪相关打分，以便根据情绪相关打分确定生成图像P1的内容是否符合语义指导及情绪导引方向。

在得到生成图像P1后，对生成图像P1进行情绪判别操作，包括获取该生成图像P1的情绪修正特征，基于该情绪修正特征对生成图像P1进行情绪相关打分，确定生成图像P1和情绪指导特征的情绪匹配值，基于情绪匹配值判断生成图像P1是否满足输出条件，如果情绪匹配值大于或等于预设匹配值，则将第一次图像处理操作的生成图像P1作为关联图像输出，如果情绪匹配值小于预设匹配值，判定生成图像P1不满足输出条件，则将生成图像P1作为第二次图像处理操作的输入图像，然后在进行第二次图像处理操作时，基于情绪指导特征、语义指导特征及第一次图像处理操作的情绪修正特征对P1进行微调，得到第二次图像处理操作的生成图像P2，基于第二次图像处理操作的情绪修正特征对生成图像P2进行情绪相关打分，确定生成图像P2和情绪指导特征的情绪匹配值，如果情绪匹配值大于或等于预设匹配值，则将第二次图像处理操作的生成图像P2作为关联图像输出，如果情绪匹配值小于预设匹配值，则将生成图像P2作为第三次图像处理操作的输入图像，以此类推，直至得到情绪匹配值大于或等于预设匹配值的生成图像作为关联图像输出，以使输出的关联图像满足情感方向引导。示例性地，预设匹配值可以设置为0.8，当情绪匹配值大于或等于0.8时输出该生成图像，否则重新生成。

进一步的，若i为停止预设值时，即便生成图像Pi和情绪指导特征之间的情绪匹配值小于预设匹配值，也将生成图像Pi作为关联图像输出，停止预设值和预设匹配值基于实际工程需要选择即可，本实施例在此不做具体限定。

可见，本实施例中，基于输入文本的情绪指导特征和语义指导特征得到生成图像，并在图像处理操作后对生成图像与情绪指导特征之间的情绪匹配值进行获取，以便根据情绪匹配值判断第i次图像处理操作的生成图像是否满足情景任务所需的情感方向引导要求，若不满足则将该生成图像作为新的输入图像结合上述指导特征及该生成图像对应的情绪修正特征进行下一次图像处理操作，得到新的生成图像，直至生成图像满足情景任务所需的情感方向引导要求，提高了图像生成的精准性，在满足语义要求的同时，能够进行情感方向引导。

在上述实施例的基础上：

作为一种示例性实施例，基于第i次图像处理操作的输入图像和目标指导特征，得到第i次图像处理操作的生成图像的过程包括：

基于语义指导特征和第i次图像处理操作的输入图像得到当前图像预卷积特征；

获取当前情绪修正指导特征，利用当前情绪修正指导特征和当前图像预卷积特征，得到图像情绪融合特征；i=1时，当前情绪修正指导特征为情绪指导特征，i＞1时，当前情绪修正指导特征基于情绪指导特征及第i-1次图像处理操作对应的情绪修正特征确定；

基于图像情绪融合特征得到图像融合特征；

将图像融合特征作为当前图像预卷积特征，重复获取当前情绪修正指导特征，利用当前情绪修正指导特征和当前图像预卷积特征，得到图像情绪融合特征的操作，直至重复次数达到预设次数；

基于重复次数达到预设次数时的图像融合特征得到第i次图像处理操作的生成图像。

其中，针对输入图像，输入图像为初始化的白噪声图像或者情绪判别打分不合格（返回）的生成图像，仅当输入图像为初始化的白噪声图像，即i=1时，有语义指导特征输入，仅当输入图像为情绪判别打分不合格（返回）的生成图像，即i>1时，有情绪修正特征输入。

作为一种示例性实施例，基于语义指导特征和第i次图像处理操作的输入图像得到当前图像预卷积特征的过程包括：

获取第i次图像处理操作的输入图像对应的第一图像预卷积特征；

对语义指导特征进行转换得到语义转化特征；

将语义转化特征拼接到第一图像预卷积特征后，得到当前图像预卷积特征。

对于大小为[3，h，w]的输入图像，首先使用图像预卷积得到大小为[c1，h，w]的第一图像预卷积特征。如果大小为[d，l]的语义指导特征被输入则将其使用文本特征转换层变为大小为[c2，h，w]的语义转化特征。对语义指导特征进行转化的方法如下：首先使用全连接层，将大小为[d，l]的语义指导特征转化为大小为[c3，l]的特征，之后将该特征压缩为[c4，1]，其中c4=c3×l，接着由一个全连接层将其转化为[c2，1]的特征，最后将其扩充为[c2，h，w]的大小，即语义转化特征。将语义转化特征拼接到第一图像预卷积特征的后边，更新图像预卷积特征，得到大小为[c，h，w]的当前图像预卷积特征，其中c=c1+c2，若语义指导特征不被输入，省略此步骤。其中，h为输入图像的高，w为输入图像的宽，c1、c2、c、c3、c4均表示通道数量，d为特征维度，l为特征个数。可以理解，对特征进行转换、拼接等处理，一方面便于数据处理，另一方面可以得到更多维度的特征，以提高生成图像的准确性。

作为一种示例性实施例，获取当前情绪修正指导特征的过程包括：

当i＞1时，对第i-1次图像处理操作对应的情绪修正特征进行扩展，使扩展后的情绪修正特征与情绪指导特征大小相同；

将扩展后的情绪修正特征与情绪指导特征相加，得到当前情绪修正指导特征。

本实施例中，如果大小为[d，1]的情绪修正特征被输入，则使用情绪特征修正层将其融合到情绪指导特征中，得到当前情绪修正指导特征，将情绪修正特征扩展成[d，n]的大小，即与情绪指导特征大小相同，之后将二者相加，并经过全连接层后得到大小为[c，n]的当前情绪修正指导特征，若情绪修正特征不被输入，当前情绪修正指导特征为经过全连接层的情绪指导特征；d为特征维度，n表示情绪修正特征的个数。

作为一种示例性实施例，利用当前情绪修正指导特征和当前图像预卷积特征，得到图像情绪融合特征的过程包括：

基于当前图像预卷积特征得到图像压缩特征；

将图像压缩特征和当前情绪修正指导特征融合为图像情绪融合特征，图像情绪融合特征与图像压缩特征大小相同。

作为一种示例性实施例，基于当前图像预卷积特征得到图像压缩特征的过程包括：

对当前图像预卷积特征进行卷积处理，得到图像特征；

对图像特征进行压缩处理，得到图像压缩特征。

作为一种示例性实施例，基于图像情绪融合特征得到图像融合特征的过程包括：

对图像情绪融合特征进行维度恢复，得到中间情绪融合特征，中间情绪融合特征与图像特征大小相同；

将中间情绪融合特征和图像特征相加，得到图像融合特征。

本实施例中，将当前图像预卷积特征输入到卷积层中，获得大小为[c，h，w]的图像特征，将图像特征输入到图像压缩层中，得到大小为[c，k]的图像压缩特征。本实施例采用的压缩方法为首先将[c，h，w]的特征拉平，获得[c，m]大小的特征，其中m=h×w，之后使用全连接层，将大小为[c，m]的特征转化为[c，k]的大小。情绪融合层将大小为[c，k]的图像压缩特征与大小为[c，n]的情绪修正指导特征融合成大小为[c，k]的图像情绪融合特征。具体的，首先将二者合并为大小为[c，k+n]的特征，之后在全连接层后重新转换为[c，k]的大小，其中，k表示图像特征的个数。

作为一种示例性实施例，基于重复次数达到预设次数时的图像融合特征得到第i次图像处理操作的生成图像的过程包括：

对重复次数达到预设次数时的图像融合特征进行图像后卷积处理，得到第i次图像处理操作的生成图像，生成图像与输入图像大小相同。

本实施例中，将图像情绪融合特征恢复为原有的维度后，称为图像融合特征。具体的，首先将[c，k]大小的特征经过全连接层转化为[c，m]大小的特征，其中m=h×w，之后将该特征重构成[c，h，w]大小，最后，将重构后的特征与上述图像特征相加，得到图像融合特征。将图像融合特征覆盖上述步骤中的当前图像预卷积特征，重复N次，N为预设次数。将最终输出的图像融合特征经过图像后卷积处理，得到并输出大小为[3，h，w]的生成图像。

综上所述，基于情感方向引导的图像生成方法参照图3所示，对输入图像（大小为[3，h，w]）进行图像预卷积，得到图像预卷积特征（大小为[c1，h，w]），将语义指导特征经过文本特征转换层处理得到语义转化特征（大小为[c2，h，w]），将图像预卷积特征和语义转化特征经过图像卷积层处理得到图像特征（大小为[c，h，w]），将图像特征经过图像压缩层处理后得到图像压缩特征（大小为[c，k]），将情绪修正特征和情绪指导特征经情绪特征修正层处理后得到情绪修正指导特征，将图像压缩特征和情绪修正指导特征经情绪融合层处理后得到图像情绪融合特征，将图像情绪融合特征经图像恢复层处理后得到图像融合特征（大小为[c，h，w]），将图像融合特征输入图像卷积层，并继续执行上述后续步骤，重复N次，对第N次的图像融合特征进行图像后卷积，得到生成图像（大小为[3，h，w]）。

本实施例将情绪作为输入，影响所生成图像的情感导向，其次，输入图像既可以是没有意义的噪声，也可以是上一次图像处理操作的生成图像，本实施例将生成和编辑共同兼容，最后，构造了情绪修正接口，用来对生成的情绪进行微调，以使生成图像进一步贴近输入文本中的情绪引导需求。

作为一种示例性实施例，获取第i次图像处理操作的情绪修正特征的过程包括：

获取提示文本，将提示文本拼接在情绪指导特征之前，得到组合指导特征；

获取第i次图像处理操作的输入图像对应的图像编码特征；

基于图像编码特征和组合指导特征得到第i次图像处理操作的情绪修正特征。

作为一种示例性实施例，基于图像编码特征和组合指导特征得到第i次图像处理操作的情绪修正特征的过程包括：

将图像编码特征和组合指导特征合并，得到合并特征；

将合并特征输入预设语言模型，得到对应全局位置的全局特征，将全局特征确定为第i次图像处理操作的情绪修正特征。

本实施例中，情绪判别过程可以用来根据判断是否需要重新执行图像处理操作，示例性地，本实施例可以选择通过大语言模型编码器进行情绪判别，大语言模型编码器如M6、T5等。

首先构造提示文本，可选的提示文本包括但不限于“这张图像是否符合以下情绪”或“当你看到如上图像，能否产生如下情绪”等，并将该提示文本拼接在情绪指导特征之前，得到拼接特征，将输入图像使用图像编码器，生成图像编码特征，将图像编码特征与拼接特征进一步合并，并将合并结果输入到大语言模型中，将全局token位置对应的输出提取出来，记为情绪修正特征。

作为一种示例性实施例，根据情绪修正特征确定第i次图像处理操作的生成图像和情绪指导特征的情绪匹配值的过程包括：

使用预设回归模型对情绪修正特征进行打分，将情绪修正特征的得分作为第i次图像处理操作的生成图像和情绪指导特征的情绪匹配值。

进一步的，可以使用由GBDT（Gradient Boosting Decision Tree，梯度提升决策树）回归模型建立的打分器对情绪修正特征进行打分得到情绪相关打分，也即情绪匹配值，该打分区间在[0，1]之间。

可以理解，情绪判别的目的一方面在于判断生成图像是否达标，另一方面又可以将情绪修正特征输出，进而与生成图像的过程进行交互，从而生成更好的图像。

参照图4所示，图4为本发明所提供的一种情绪判别示意图，将输入图像输入到图像编码器得到图像编码特征，基于图像编码特征，以及提示文本与情绪指导特征拼接后的拼接特征得到合并特征，将合并特征输入大预言模型得到情绪修正特征，通过梯度提升决策树打分器对情绪修正特征进行情绪相关打分。

作为一种示例性实施例，获取第i次图像处理操作的输入图像对应的图像编码特征的过程包括：

提取第i次图像处理操作的输入图像的全局特征；

基于全局特征得到情绪分布矩阵；情绪分布矩阵中的每个元素为输入图像中对应的像素点对情绪重要程度的权重；

利用情绪分布矩阵和全局特征得到图像编码特征。

作为一种示例性实施例，基于全局特征得到情绪分布矩阵的过程包括：

对全局特征进行情绪敏感计算得到情绪分布矩阵。

作为一种示例性实施例，对全局特征进行情绪敏感计算得到情绪分布矩阵的过程包括：

利用第一关系式对全局特征进行情绪敏感计算得到情绪分布矩阵；

第一关系式为，其中，E_p为情绪分布矩阵，W_p为预设权重矩阵，b_p为预设偏差矩阵，α为可输入超参数，F_b为全局特征，f_c为第c通道的特征，c为特征的通道数，C为通道集合，/>为每个像素点上的特征在通道维度上的均值。

本实施例中对于图像编码器提出了如图5所示的模型结构，使图像编码特征既能表达如雪地上的狗这种语义信息，也能表达“乐观”/“失望”/“悲伤”等情绪信息。

参照图5所示，首先将输入图像输入到一个卷积神经网络中提取全局特征，基于第一关系式对全局特征进行情绪敏感计算，得到情绪分布矩阵，第一关系式如下：

；

其中，E_p为情绪分布矩阵，大小为[h,w]，W_p为预设权重矩阵，α是可输入超参数。输入为大小为的[h,w,c,d]全局特征F_b，c表示特征的通道数量，d表示特征维度，表示每个像素点上的特征在通道维度上的均值，本实施例所采用的第一关系式既考虑了特征图的热度（最后一项）的同时加入了加权的计算项，用来更好地表征图像在每个像素点的注意力强弱差异，情绪分布矩阵中的每个元素为输入图像中对应的像素点对情绪重要程度的权重，取值范围为[0，1]。将矩阵加权后的情绪分布矩阵和全局特征相乘，得到大小为[h，w，c，d]的图像编码特征，图像编码特征输入情绪分类器后得到情绪分类。

将第i次图像处理操作的输入图像输入预设图像编码器，得到图像编码特征。

作为一种示例性实施例，将第i次图像处理操作的输入图像输入预设图像编码器之前，图像生成方法还包括：

获取参考输入图像，对参考输入图像进行敏感图标注，得到敏感图标签；

对参考输入图像添加情绪标签；

基于情绪标签、情绪分布矩阵和敏感图标签计算损失函数并反向梯度优化得到预设图像编码器。

参照图5所示，图5中的虚线框表示本实施例所提供的图像编码器的训练过程。具体包括以下步骤：

对输入图像进行敏感图标注，得到敏感图标签；

在输入图像上标注若干敏感区域，包括人物、动物的头部或其他等，记为中间敏感图标签，该中间敏感图标签为长宽为输入图像大小的二值图（敏感区域的像素值为1，其余为0）。将中间敏感图标签缩放至情绪分布矩阵的大小，即[h，w]，之后对中间敏感图标签按第二关系式进行衰减膨胀处理，第二关系式为：

；

其中，是预设的超参，表示敏感区域影响的最大范围，l_i,j表示缩放至情绪分布矩阵的大小的中间敏感图标签中的第i行第j列的值，l_p,q表示缩放至情绪分布矩阵的大小的中间敏感图标签中的第p行第q列的值，p_p,q表示第i行第j列的点的坐标位置，p_i,j表示第i行第j列的点的坐标位置，第二关系式计算当前像素点与感兴趣区域中所有点中的最小距离，并将该距离与预设的阈值作比值，赋值为该像素点的标签。将上述值中的结果输出，记为敏感图标签，该标签大小为[h，w]。对输入图像进行情绪标注，得到情绪标签，情绪分为8类，情绪标签是一个8位的二值向量。基于敏感图标签和情绪标签、情绪分别矩阵和情绪分类进行损失函数计算，并进行反向梯度优化，公式如下：

Loss=MES（E，L）+ABE（P，L_emo）；

其中，Loss为损失函数，E表示情绪分布矩阵，L表示敏感图标签。P表示情感预测向量，L_emo表示情绪标签，MSE和ABR分别表示二范数和一范数距离。

第二方面，请参照图6，图6为本发明所提供的一种图像生成系统的结构示意图，该图像生成系统包括：

第一确定模块11，用于根据输入文本确定语义指导特征和情绪指导特征；

生成模块12，用于基于第i次图像处理操作的输入图像和目标指导特征，得到第i次图像处理操作的生成图像；i为正整数，i=1时，目标指导特征包括语义指导特征和情绪指导特征，i＞1时，目标指导特征包括语义指导特征、情绪指导特征和第i-1次图像处理操作对应的情绪修正特征；

第一获取模块13，用于获取第i次图像处理操作的情绪修正特征，根据情绪修正特征确定第i次图像处理操作的生成图像和情绪指导特征的情绪匹配值；

情绪判别模块14，用于当情绪匹配值满足输出条件，将第i次图像处理操作的生成图像作为关联图像输出，当情绪匹配值不满足输出条件，将第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；输出条件包括情绪匹配值大于或等于预设匹配值，或i为停止预设值。

基于图像情绪融合特征得到图像融合特征；

对语义指导特征进行转换得到语义转化特征；

基于当前图像预卷积特征得到图像压缩特征；

对当前图像预卷积特征进行卷积处理，得到图像特征；

对图像特征进行压缩处理，得到图像压缩特征。

将中间情绪融合特征和图像特征相加，得到图像融合特征。

作为一种示例性实施例，当i=1时，输入图像为白噪声图像。

获取第i次图像处理操作的输入图像对应的图像编码特征；

将图像编码特征和组合指导特征合并，得到合并特征；

提取第i次图像处理操作的输入图像的全局特征；

基于全局特征得到情绪分布矩阵；情绪分布矩阵中的每个元素为输入图像中对应的像素点对情绪重要程度的权重；利用情绪分布矩阵和全局特征得到图像编码特征。

对全局特征进行情绪敏感计算得到情绪分布矩阵。

作为一种示例性实施例，图像生成系统还包括：

第二获取模块，用于获取参考输入图像，对参考输入图像进行敏感图标注，得到敏感图标签；

添加模块，用于对参考输入图像添加情绪标签；

优化模块，用于基于情绪标签、情绪分布矩阵和敏感图标签计算损失函数并反向梯度优化得到预设图像编码器。

第三方面，请参照图7，图7为本发明所提供的一种电子设备的结构示意图，该电子设备包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现如上文任意一个实施例所描述的图像生成方法的步骤。

该电子设备还包括：

输入接口23，经通信总线26与处理器22相连，用于获取外部导入的计算机程序、参数和指令，经处理器22控制保存至存储器21中。该输入接口可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板。

显示单元24，经通信总线26与处理器22相连，用于显示处理器22发送的数据。该显示单元可以为液晶显示屏或者电子墨水显示屏等。

网络端口25，经通信总线26与处理器22相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术、通用串行总线、高清多媒体接口、无线保真技术、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

对于本发明所提供的一种电子设备的介绍请参照上述实施例，本发明在此不再赘述。

本发明所提供的一种电子设备具有和上述图像生成方法相同的有益效果。

第四方面，请参照图8，图8为本发明所提供的一种计算机可读存储介质的结构示意图，计算机可读存储介质30上存储有计算机程序31，计算机程序31被处理器执行时实现如上文任意一个实施例所描述的图像生成方法的步骤。

该计算机可读存储介质30可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明所提供的一种计算机可读存储介质的介绍请参照上述实施例，本发明在此不再赘述。

本发明所提供的一种计算机可读存储介质具有和上述图像生成方法相同的有益效果。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像生成方法，其特征在于，包括：

根据输入文本确定语义指导特征和情绪指导特征；

当所述情绪匹配值满足输出条件，将所述第i次图像处理操作的生成图像作为关联图像输出，当所述情绪匹配值不满足所述输出条件，将所述第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；所述输出条件包括所述情绪匹配值大于或等于预设匹配值，或i为停止预设值；

获取所述第i次图像处理操作的情绪修正特征的过程包括：

获取所述第i次图像处理操作的输入图像对应的图像编码特征；其中，所述图像编码特征为将所述第i次图像处理操作的输入图像输入至图像编码器得到的图像编码特征；

2.根据权利要求1所述的图像生成方法，其特征在于，基于第i次图像处理操作的输入图像和目标指导特征，得到所述第i次图像处理操作的生成图像的过程包括：

基于所述图像情绪融合特征得到图像融合特征；

3.根据权利要求2所述的图像生成方法，其特征在于，基于所述语义指导特征和所述第i次图像处理操作的输入图像得到当前图像预卷积特征的过程包括：

对所述语义指导特征进行转换得到语义转化特征；

4.根据权利要求2所述的图像生成方法，其特征在于，获取当前情绪修正指导特征的过程包括：

5.根据权利要求2所述的图像生成方法，其特征在于，利用所述当前情绪修正指导特征和所述当前图像预卷积特征，得到图像情绪融合特征的过程包括：

基于所述当前图像预卷积特征得到图像压缩特征；

6.根据权利要求5所述的图像生成方法，其特征在于，基于所述当前图像预卷积特征得到图像压缩特征的过程包括：

对所述当前图像预卷积特征进行卷积处理，得到图像特征；

对所述图像特征进行压缩处理，得到图像压缩特征。

7.根据权利要求6所述的图像生成方法，其特征在于，基于所述图像情绪融合特征得到图像融合特征的过程包括：

8.根据权利要求2所述的图像生成方法，其特征在于，基于所述重复次数达到所述预设次数时的图像融合特征得到所述第i次图像处理操作的生成图像的过程包括：

9.根据权利要求1所述的图像生成方法，其特征在于，当i=1时，所述输入图像为白噪声图像。

10.根据权利要求9所述的图像生成方法，其特征在于，基于所述图像编码特征和所述组合指导特征得到所述第i次图像处理操作的情绪修正特征的过程包括：

11.根据权利要求9所述的图像生成方法，其特征在于，根据所述情绪修正特征确定所述第i次图像处理操作的生成图像和所述情绪指导特征的情绪匹配值的过程包括：

12.根据权利要求9所述的图像生成方法，其特征在于，获取所述第i次图像处理操作的输入图像对应的图像编码特征的过程包括：

提取所述第i次图像处理操作的输入图像的全局特征；

基于所述全局特征得到情绪分布矩阵；所述情绪分布矩阵中的每个元素为所述输入图像中对应的像素点对情绪重要程度的权重；

利用所述情绪分布矩阵和所述全局特征得到图像编码特征。

13.根据权利要求12所述的图像生成方法，其特征在于，基于所述全局特征得到情绪分布矩阵的过程包括：

对所述全局特征进行情绪敏感计算得到情绪分布矩阵。

14.根据权利要求13所述的图像生成方法，其特征在于，对所述全局特征进行情绪敏感计算得到情绪分布矩阵的过程包括：

15.根据权利要求1所述的图像生成方法，其特征在于，获取所述第i次图像处理操作的输入图像对应的图像编码特征的过程包括：

16.根据权利要求15所述的图像生成方法，其特征在于，将所述第i次图像处理操作的输入图像输入预设图像编码器之前，所述图像生成方法还包括：

对所述参考输入图像添加情绪标签；

17.一种图像生成系统，其特征在于，包括：

情绪判别模块，用于当所述情绪匹配值满足输出条件，将所述第i次图像处理操作的生成图像作为关联图像输出，当所述情绪匹配值不满足所述输出条件，将所述第i次图像处理操作的生成图像作为第i+1次图像处理操作的输入图像；所述输出条件包括所述情绪匹配值大于或等于预设匹配值，或i为停止预设值；

获取所述第i次图像处理操作的情绪修正特征的过程包括：

18.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-16任意一项所述的图像生成方法的步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-16任意一项所述的图像生成方法的步骤。