CN117808923A

CN117808923A - 一种图像生成方法、系统、电子设备及可读存储介质

Info

Publication number: CN117808923A
Application number: CN202410224976.0A
Authority: CN
Inventors: 范宝余; 李晓川; 赵雅倩; 李仁刚; 郭振华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117808923B

Abstract

本发明公开了一种图像生成方法、系统、电子设备及可读存储介质，涉及图像内容生成领域，为解决纯文本生成图像的方案不能满足特定任务场景下的情感需求，该图像生成方法包括：获取语义指导文本和情绪指导文本；基于语义指导文本和情绪指导文本检索得到多个参考图像样本；提取多个参考图像样本的特征，对所有特征中的至少两个特征进行组合得到多个图像组合语义特征；获取语义指导文本对应的文本语义特征，基于与文本语义特征的相似度最高的图像组合语义特征生成关联图像。本发明能够提高图像生成精度，使生成的关联图像与指导文本和情绪文本高度关联，在满足任务场景的语义文本要求的同时，满足该任务场景下的情感需求。

Description

一种图像生成方法、系统、电子设备及可读存储介质

技术领域

本发明涉及图像内容生成领域，特别涉及一种图像生成方法、系统、电子设备及可读存储介质。

背景技术

图像内容生成是一种根据给定模态的指导输入（如文本、3D（Three Dimensions，三维）、点云或其他形式的信息）生成图像内容的技术。随着技术的迭代更新，AI（Artificial Intelligent，人工智能）图像内容生成逐渐成为互联网内容的重要来源。作为最主要的图像AIGC（Artificial Intelligent Generated Content，人工智能生成内容）手段，根据纯文本生成图像是最常见的任务形式，但是在某些任务场景下，如文本插图任务场景下，不仅需要生成的图像与任务场景的语义文本相同，还需要生成的图像满足该任务场景下的指定情感，但是现有的纯文本生成图像的方案并不能满足某些任务场景下的情感需求。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种图像生成方法、系统、电子设备及可读存储介质，能够提高图像生成精度，使生成的关联图像与指导文本和情绪文本高度关联，在满足任务场景的语义文本要求的同时，满足该任务场景下的情感需求。

为解决上述技术问题，本发明提供了一种图像生成方法，包括：

获取语义指导文本和情绪指导文本；

基于所述语义指导文本和所述情绪指导文本检索得到多个参考图像样本；

提取多个所述参考图像样本的特征，对所有所述特征中的至少两个所述特征进行组合得到多个图像组合语义特征；

获取所述语义指导文本对应的文本语义特征，基于与所述文本语义特征的相似度最高的图像组合语义特征生成关联图像。

其中，基于所述语义指导文本和所述情绪指导文本检索得到多个参考图像样本的过程包括：

基于所述语义指导文本和所述情绪指导文本进行网页检索；

根据检索到的前n条网页构建关联内容集合，所述关联内容集合包括每条所述网页对应的关联内容，所述关联内容包括所述网页的标题文本和内容文本，n为正整数；

在所述关联内容集合中选择与所述语义指导文本和所述情绪指导文本的综合关联性最强的最优关联内容；

基于所述最优关联内容检索得到多个参考图像样本。

其中，基于所述语义指导文本和所述情绪指导文本进行网页检索的过程包括：

对所述语义指导文本和所述情绪指导文本进行拼接，得到检索文本；

将所述检索文本输入搜索引擎接口，以便对所述检索文本进行网页检索。

其中，根据检索到的前n条网页构建关联内容集合的过程包括：

提取检索到的前n条网页的标题文本和内容文本；

在本地存储空间以字典形式存储每条所述网页对应的标题文本和内容文本，得到关联内容集合；所述字典的键为所述标题文本，所述字典的值为所述内容文本。

其中，在所述关联内容集合中选择与所述语义指导文本和所述情绪指导文本的综合关联性最强的最优关联内容的过程包括：

针对所述关联内容集合中的每条所述内容文本，基于所述内容文本与所述语义指导文本对应的语义关联得分以及所述内容文本与所述情绪指导文本对应的情绪关联得分，得到所述内容文本的综合得分；

将包括所述综合得分最高的所述内容文本的关联内容确定为与所述语义指导文本和所述情绪指导文本的综合关联性最强的最优关联内容。

其中，基于所述内容文本与所述语义指导文本对应的语义关联得分以及所述内容文本与所述情绪指导文本对应的情绪关联得分，得到所述内容文本的综合得分的过程包括：

确定所述内容文本中与所述语义指导文本匹配的语义相关文本，以及所述语义相关文本中与所述情绪指导文本匹配的情绪相关文本；

基于所述语义相关文本确定所述内容文本的语义关联得分；

基于所述情绪相关文本确定所述内容文本的情绪关联得分；

利用所述语义关联得分和所述情绪关联得分确定所述内容文本的综合得分。

其中，基于所述语义相关文本确定所述内容文本的语义关联得分的过程包括：

将所述语义相关文本的字符长度占所述内容文本的字符长度的比值确定为所述内容文本的语义关联得分；

基于所述情绪相关文本确定所述内容文本的情绪关联得分的过程包括：

将所述情绪相关文本的字符长度占所述语义相关文本的字符长度的比值确定为所述内容文本的情绪关联得分。

其中，利用所述语义关联得分和所述情绪关联得分确定所述内容文本的综合得分的过程包括：

将所述语义关联得分和所述情绪关联得分的乘积作为所述内容文本的综合得分。

其中，基于所述最优关联内容检索得到多个参考图像样本的过程包括：

基于所述最优关联内容进行图像检索，得到多个候选图像样本；

利用所述情绪指导文本和所述语义指导文本在多个所述候选图像样本中筛选出多个参考图像样本。

其中，利用所述情绪指导文本和所述语义指导文本在多个所述候选图像样本中筛选出多个参考图像样本的过程包括：

提取每一所述候选图像样本的图像摘要文本；

对输入文本和每一所述图像摘要文本进行图像元素互斥性计算，得到每一所述图像摘要文本的视觉得分，所述输入文本包括所述语义指导文本和所述情绪指导文本；

将所述视觉得分超过预设值的候选图像样本确定为参考图像样本。

其中，对输入文本和每一所述图像摘要文本进行图像元素互斥性计算，得到每一所述图像摘要文本的视觉得分的过程包括：

提取每一所述图像摘要文本的第一实体元素和第一实体关系以及输入文本的第二实体元素和第二实体关系；

将所述第一实体元素中不存在与所述第二实体元素不同的实体元素且所述第一实体关系中不包括与所述第二实体关系不同的实体关系的图像摘要文本确定为候选摘要文本；

计算每一所述候选摘要文本与所述输入文本的一致性描述得分，将所述一致性描述得分作为所述候选摘要文本的视觉得分。

其中，提取多个所述参考图像样本的特征，对所有所述特征中的至少两个所述特征进行组合得到多个图像组合语义特征的过程包括：

提取多个所述参考图像样本的特征；

对所有所述特征进行聚类，得到多个一级语义特征；

根据所述一级语义特征的数量构造注意力掩码矩阵，

利用所述一级语义特征和所述注意力掩码矩阵得到多个图像组合语义特征。

其中，利用所述一级语义特征和所述注意力掩码矩阵得到多个图像组合语义特征的过程包括：

利用第一关系式得到多个图像组合语义特征，所述第一关系式为

；

其中，transformer为基于注意力机制的模型，g为所述一级语义特征，softmax为概率归一化函数，W_q为查询参数权重，W_k为链参数权重，W_v为值参数权重，Mask[:,k]为所述注意力掩码矩阵的第k列的选择参数，size（g）为所述一级语义特征的维度大小，为转置符号。

其中，对所有所述特征进行聚类，得到多个一级语义特征的过程包括：

对所有所述特征进行聚类，得到多个一级语义特征及每个所述一级语义特征下的二级语义特征；

所述图像生成方法还包括：

构建语义特征分布森林，所述语义特征分布森林包括多个树特征，每一所述树特征的树干特征为所述一级语义特征，每一所述树干特征的树枝特征为所述一级语义特征下的二级语义特征；

基于与所述文本语义特征的相似度最高的图像组合语义特征生成关联图像的过程包括：

基于与所述文本语义特征的相似度最高的图像组合语义特征对应的所述注意力掩码矩阵的选择参数确定最优树特征；

利用所述最优树特征得到图像筛选特征；

基于所述图像筛选特征和所述文本语义特征生成关联图像。

其中，基于所述图像筛选特征和所述文本语义特征生成关联图像的过程包括：

利用所述图像筛选特征得到条件噪声初始图像；

基于所述条件噪声初始图像和所述文本语义特征生成关联图像。

其中，对所有所述特征进行聚类的过程包括：

计算任意两个所述特征间的欧式距离；

针对每一所述特征，确定所述欧式距离小于第一预设距离的数量，当所述数量不小于预设数量，将所述特征划分至密集特征子集，当所述数量小于所述预设数量，将所述特征划分至非密集特征子集；

确定一个子类，将所述密集特征子集中的任一个特征加入到所述子类并从所述密集特征子集中剔除；

计算所述子类中的所有特征与所述密集特征子集中的所有特征之间的最小欧式距离，判断所述密集特征子集中是否存在第一待剔除特征，若是，将所述第一待剔除特征加入到所述子类并从所述密集特征子集中剔除，重复本步骤，直至所述密集特征子集中不存在所述第一待剔除特征，所述第一待剔除特征为所述密集特征子集中与所述子类中的特征之间的最小欧式距离小于第二预设距离的特征；

计算所述子类中的所有特征与所述非密集特征子集中的所有特征之间的最小欧式距离，确定所述非密集特征子集中是否存在第二待剔除特征，若是，将所述第二待剔除特征加入到所述子类并从所述非密集特征子集中剔除，重复本步骤，直至所述非密集特征子集中不存在所述第二待剔除特征，所述第二待剔除特征为所述非密集特征子集中与所述子类中的特征之间的最小欧式距离小于所述第二预设距离的特征；

将所述子类加入到预设聚类集合中。

其中，得到多个一级语义特征的过程包括：

按照第二关系式对所述预设聚类集合中的所有所述子类计算其包括的所有所述特征的加权和，基于所述加权和得到所述一级语义特征；

所述第二关系式为；

其中，t为第b个子类中的特征的个数，f_b为所述第b个子类的加权和，f_t为对所述第b个子类遍历过程中所述第b个子类中的当前特征，f_p为所述遍历过程中的每一个所述特征，为所述第一预设距离或所述第二预设距离，dis（f_t,f_p）为f_t和f_p间的欧式距离，为所述第b个子类中满足/>的特征的数量。

为解决上述技术问题，本发明还提供了一种图像生成系统，包括：

获取模块，用于获取语义指导文本和情绪指导文本；

检索模块，用于基于所述语义指导文本和所述情绪指导文本检索得到多个参考图像样本；

提取模块，用于提取多个所述参考图像样本的特征，对所有所述特征中的至少两个所述特征进行组合得到多个图像组合语义特征；

生成模块，用于获取所述语义指导文本对应的文本语义特征，基于与所述文本语义特征的相似度最高的图像组合语义特征生成关联图像。

为解决上述技术问题，本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任意一项所述的图像生成方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所述的图像生成方法的步骤。

本发明提供了一种图像生成方法，基于语义指导文本和情绪指导文本在网页中进行检索，获取多个与情绪指导文本和语义指导文本对应的参考图像样本，便于后续根据多个参考图像生成关联图像，提高图像生成精度，使生成的关联图像与指导文本和情绪文本高度关联，在满足任务场景的语义文本要求的同时，满足该任务场景下的情感需求。本发明还提供了一种图像生成系统、电子设备及计算机可读存储介质，具有和上述图像生成系统相同的有益效果。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种图像生成方法的步骤流程图；

图2为本发明所提供的一种关联内容匹配筛选示意图；

图3为本发明所提供的一种语义关联强化示意图；

图4为本发明实施例所提供的一种语义特征分布森林结构示意图；

图5为本发明实施例所提供的一种注意力掩码矩阵示意图；

图6为本发明所提供的一种关联图像生成示意图；

图7为本发明所提供的一种图像生成系统的结构示意图；

图8为本发明所提供的一种电子设备的结构示意图；

图9为本发明所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

本发明的核心是提供一种图像生成方法、系统、电子设备及可读存储介质，能够提高图像生成精度，使生成的关联图像与指导文本和情绪文本高度关联，在满足任务场景的语义文本要求的同时，满足该任务场景下的情感需求。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，请参照图1，图1为本发明所提供的一种图像生成方法的步骤流程图，该图像生成方法包括：

S101：获取语义指导文本和情绪指导文本；

本实施例中，考虑到在图像内容生成领域，图像内容生成旨在根据文本语义生成准确的图像，图像的内容精确符合文本中的语义指导，在某些任务场景下，图像生成任务不仅要求生成的图像的内容和语义指导相符，还需要配合相关的情绪。示例性地，在文本插图任务场景下，需要生成指定情感的图像，或在心理治疗任务场景下，需要尽量生成正面情绪相关的图像，在销售任务场景下，需要尽量生成使人产生兴奋色彩、令人高兴的图像。为了使生成的图像既符合语义指导，又能够配合相关的情绪，本实施例中，获取用户通过交互装置输入的语义指导文本和情绪指导文本。示例性地，用户的输入文本包括雪地上的小狗以及悲伤，获取到的语义指导文本为雪地上的小狗，获取到的情绪指导文本为悲伤。

S102：基于语义指导文本和情绪指导文本检索得到多个参考图像样本；

本实施例中，将语义指导文本和情绪指导文本输入搜索引擎进行检索，得到多条关联内容，从多条关联内容中确定与语义指导文本和情绪指导文本关联程度最高的最优关联内容，本实施例中获取最优关联内容的目的是便于后续筛选参考图像样本。

在确定最优关联内容后，根据最优关联内容在搜索引擎中搜索相关的图像，然后再基于情绪指导文本和语义指导文本在所有检索到的图像中进行筛选，筛选出多个与输入文本相关的图像作为参考图像样本，此处参考图像样本是一种视觉强化后的样本，基于此生成的关联图像更能满足语义和情感需求。

S103：提取多个参考图像样本的特征，对所有特征中的至少两个特征进行组合得到多个图像组合语义特征；

本实施例中，对多个参考图像样本的特征进行提取，并对其进行所有形式的组合，得到图像组合语义特征，每个图像组合语义特征中至少包括两个特征。

S104：获取语义指导文本对应的文本语义特征，基于与文本语义特征的相似度最高的图像组合语义特征生成关联图像。

本实施例中，首先获取语义指导文本对应的文本语义特征，根据文本语义特征与各个图像组合语义特征的相似度确定最优图像组合语义特征，将相似度最高的图像组合语义特征确定为最优图像组合语义特征，基于最优图像组合语义特征生成关联图像。可以理解，根据相似度对参考图像样本中的某些特定元素进行参考，使生成的关联图像中的内容更像所参考的若干图像中的模样，从而提高生成关联的图像的准确性。

可见，本实施例中，基于语义指导文本和情绪指导文本在网页中进行检索，获取多个与情绪指导文本和语义指导文本对应的参考图像样本，便于后续根据多个参考图像生成关联图像，提高图像生成精度，使生成的关联图像与指导文本和情绪文本高度关联，在满足任务场景的语义文本要求的同时，满足该任务场景下的情感需求。

在上述实施例的基础上：

在一示例性实施例中，基于语义指导文本和情绪指导文本检索得到多个参考图像样本的过程包括：

基于语义指导文本和情绪指导文本进行网页检索；

根据检索到的前n条网页构建关联内容集合，关联内容集合包括每条网页对应的关联内容，关联内容包括网页的标题文本和内容文本，n为正整数；

在关联内容集合中选择与语义指导文本和情绪指导文本的综合关联性最强的最优关联内容；

基于最优关联内容检索得到多个参考图像样本。

在一示例性实施例中，基于语义指导文本和情绪指导文本进行网页检索的过程包括：

对语义指导文本和情绪指导文本进行拼接，得到检索文本；

将检索文本输入搜索引擎接口，以便对检索文本进行网页检索。

在一示例性实施例中，根据检索到的前n条网页构建关联内容集合的过程包括：

提取检索到的前n条网页的标题文本和内容文本；

在本地存储空间以字典形式存储每条网页对应的标题文本和内容文本，得到关联内容集合；字典的键为标题文本，字典的值为内容文本。

本实施例中，首先将情绪指导文本和语义指导文本拼接在一起，得到一条合并指导文本，本实施例在此对情绪指导文本和语义指导文本的拼接先后顺序不做限定，可以将情绪指导文本拼接在语义指导文本后面，也可以将语义指导文本拼接在情绪指导文本后面。

获取合并指导文本后，调用搜索引擎接口对合并指导文本进行检索，将检索到的前n条网页打开，并将前n条网页中的关联内容下载到本地，关联内容包括标题文本和内容文本，一方面，前n条网页中的关联内容与本实施例中的指导文本的关联性较强，另一方面可以减少数据处理量，在保证关联度的同时，提高数据处理效率。

将前n条网页的关联内容存储到本地存储空间后，构造关联内容集合，该关联内容集合形式为字典类型，将每条网页的标题文本和内容文本存到字典中，键为检索到网页的标题文本，值网页中的内容文本。

当然，除了可以选择字典类型还可以选择其他方式，便于检索即可，本实施例在此不做具体限定。

在一示例性实施例中，在关联内容集合中选择与语义指导文本和情绪指导文本的综合关联性最强的最优关联内容的过程包括：

针对关联内容集合中的每条内容文本，基于内容文本与语义指导文本对应的语义关联得分以及内容文本与情绪指导文本对应的情绪关联得分，得到内容文本的综合得分；

将包括综合得分最高的内容文本的关联内容确定为与语义指导文本和情绪指导文本的综合关联性最强的最优关联内容。

在一示例性实施例中，基于内容文本与语义指导文本对应的语义关联得分以及内容文本与情绪指导文本对应的情绪关联得分，得到内容文本的综合得分的过程包括：

确定内容文本中与语义指导文本匹配的语义相关文本，以及语义相关文本中与情绪指导文本匹配的情绪相关文本；

基于语义相关文本确定内容文本的语义关联得分；

基于情绪相关文本确定内容文本的情绪关联得分；

利用语义关联得分和情绪关联得分确定内容文本的综合得分。

在一示例性实施例中，基于语义相关文本确定内容文本的语义关联得分的过程包括：

将语义相关文本的字符长度占内容文本的字符长度的比值确定为内容文本的语义关联得分；

基于情绪相关文本确定内容文本的情绪关联得分的过程包括：

将情绪相关文本的字符长度占语义相关文本的字符长度的比值确定为内容文本的情绪关联得分。

本实施例中，参照图2所示，遍历关联内容集合中的每条内容文本，对内容文本进行语义关联性打分，具体可以选择使用如T5、M6、ChatGPT等大模型进行语义关联性打分，得到语义关联得分，具体的，将内容文本中的每条文本与语义指导文本拼接后输入上述大模型中，判断二者是否匹配，将所有匹配的文本输出，记为语义相关文本，将语义相关文本的字符长度占关联文本内容字符长度的比值输出，记为语义关联得分，表示语义上和输入文本符合的文本占比。同时，对内容文本进行情绪关联性打分，具体可以选择使用如T5、M6、ChatGPT等大模型对语义相关文本进行情绪关联性打分，得到情绪关联得分，具体的，将语义相关文本中每条文本与情绪指导文本拼接后输入上述大模型中，判断二者是否匹配，若相配，将匹配的句子确定情绪相关文本，将所情绪相关文本的字符长度占语义相关文本的字符长度的比值输出，记为情绪关联得分，基于语义关联得分和情绪关联得分得到综合得分，根据综合得分确定最优关联内容，具体的，将综合得分最高的内容文本与该内容文本对应的标题文本拼接，得到与语义指导文本和情绪指导文本对应的最优关联内容。

在一示例性实施例中，利用语义关联得分和情绪关联得分确定内容文本的综合得分的过程包括：

将语义关联得分和情绪关联得分的乘积作为内容文本的综合得分。

本实施例中，可将语义关联得分与情感关联得分相乘，得到关联性综合得分。作为另一种可选的实施例，也可将语义关联得分与情感关联得分相加，得到关联性综合得分，根据实际工程需要选择即可，本实施例在此不作具体限定。

在一示例性实施例中，基于最优关联内容检索得到多个参考图像样本的过程包括：

基于最优关联内容进行图像检索，得到多个候选图像样本；

利用情绪指导文本和语义指导文本在多个候选图像样本中筛选出多个参考图像样本。

在一示例性实施例中，利用情绪指导文本和语义指导文本在多个候选图像样本中筛选出多个参考图像样本的过程包括：

提取每一候选图像样本的图像摘要文本；

对输入文本和每一图像摘要文本进行图像元素互斥性计算，得到每一图像摘要文本的视觉得分，输入文本包括语义指导文本和情绪指导文本；

将视觉得分超过预设值的候选图像样本确定为参考图像样本。

在一示例性实施例中，对输入文本和每一图像摘要文本进行图像元素互斥性计算，得到每一图像摘要文本的视觉得分的过程包括：

提取每一图像摘要文本的第一实体元素和第一实体关系以及输入文本的第二实体元素和第二实体关系；

将第一实体元素中不存在与第二实体元素不同的实体元素且第一实体关系中不包括与第二实体关系不同的实体关系的图像摘要文本确定为候选摘要文本；

计算每一候选摘要文本与输入文本的一致性描述得分，将一致性描述得分作为候选摘要文本的视觉得分。

本实施例中，参照图3所示，首先将最优关联内容使用第一预设模型进行关联摘要提取，输出关联摘要，该第一预设模型可使用ChatGPT等模型，目的是将其缩减为更精炼的语言文本，方便调用搜索引擎进行检索，基于关联摘要调用搜索引擎进行图像检索，得到多张候选图像样本，基于多张候选图像样本建立候选关联图像集合，对候选关联图像集合使用第二预设模型进行图像摘要文本提取，以获取候选关联图像集合中的每一候选图像样本的图像摘要文本，基于每一候选关联图像的图像摘要文本构建图像摘要集合，遍历图像摘要集合，基于输入文本对每条图像摘要文本进行图像元素互斥性计算，基于计算结果得到参考图像样本。

图像元素互斥性计算包括提取输入文本和图像摘要文本的实体元素和实体关系，实体元素包括但不限于类别和属性，如“车”，“红色”等，实体关系如“人‘喂’狗”，将图像摘要文本中的实体元素和实体关系记为Az，将输入文本的实体元素和实体关系记为Ain，比对Az和Ain的包含关系，如果Az包含Ain以外的其他内容，则不合格，需要删除，否则保留，将保留的图像摘要文本确定为候选摘要文本，计算每条候选摘要文本与输入文本的CIDEr（Consensus-based Image Description Evaluation，基于共识的图像描述评分）得分，即一致性描述得分，也即视觉得分。并按照该一致性描述得分为所有候选摘要文本进行排序，将保留下来的候选摘要文本对应的候选图像样本收集起来，作为视觉强化样本，也即本实施例中的参考图像样本。

本实施例中，可以将视觉得分超过预设得分的候选图像样本确定为参考图像样本，也可以将按照视觉得分排序后的得分较高的前m个候选摘要文本对应的候选图像样本作为参考图像样本，m为正整数。

在一示例性实施例中，提取多个参考图像样本的特征，对所有特征中的至少两个特征进行组合得到多个图像组合语义特征的过程包括：

提取多个参考图像样本的特征；

对所有特征进行聚类，得到多个一级语义特征；

根据一级语义特征的数量构造注意力掩码矩阵，

利用一级语义特征和注意力掩码矩阵得到多个图像组合语义特征。

本实施例针对给定若干张可参考的参考图像样本，并实现对这些参考图像样本中的某些特定元素的参考，比如，让生成的关联图像中的实体元素更贴近所参考的若干张参考图像样本中的实体元素。基于此，本实施例首先提供了一种用于表征多张图像的特征的专用表示，即构建一种图像的语义特征分布森林结构，图像的语义特征分布森林结构由若干树特征组成，每棵树特征由两层节点组成，每个节点表示一个特征（如大小为[1，d]的向量，d为维度）。

其次，对生成的关联图像而言，考虑到并非每一张参考图像样本都有帮助，对于有帮助的参考图像样本，也并非所有的特征都有帮助，因此，本实施例提供了一种基于注意力掩码矩阵的特征筛选机制，注意力掩码矩阵用来枚举所有可能的图像组合语义特征，以此来选择最佳的特征作为生成关联图像的参考特征。

下面分别对构建图像的语义特征分布森林结构和特征筛选机制进行说明。

本实施例首先对多张参考图像样本进行特征提取，具体的，将多张参考图像样本输入到图像编码器中进行特征提取，得到大小为[N，j，d]的特征集，记为视觉强化样本特征集，N为参考图像样本的数量，j为每张参考图像样本提取出的特征的数量，d表示每个特征的维度。

使用聚类算法为视觉强化样本集中的每一个特征进行聚类，对所有特征进行聚类的过程包括：

计算任意两个特征间的欧式距离；

针对每一特征，确定欧式距离小于第一预设距离的数量，当数量不小于预设数量，将特征划分至密集特征子集，当数量小于预设数量，将特征划分至非密集特征子集；

确定一个子类，将密集特征子集中的任一个特征加入到子类并从密集特征子集中剔除；

计算子类中的所有特征与密集特征子集中的所有特征之间的最小欧式距离，判断密集特征子集中是否存在第一待剔除特征，若是，将第一待剔除特征加入到子类并从密集特征子集中剔除，重复本步骤，直至密集特征子集中不存在第一待剔除特征，第一待剔除特征为密集特征子集中与子类中的特征之间的最小欧式距离小于第二预设距离的特征；

计算子类中的所有特征与非密集特征子集中的所有特征之间的最小欧式距离，确定非密集特征子集中是否存在第二待剔除特征，若是，将第二待剔除特征加入到子类并从非密集特征子集中剔除，重复本步骤，直至非密集特征子集中不存在第二待剔除特征，第二待剔除特征为非密集特征子集中与子类中的特征之间的最小欧式距离小于第二预设距离的特征；

将子类加入到预设聚类集合中。

将视觉强化样本特征集转化为[N×j，d]的大小，记L=N×j为特征的总个数，计算每两个特征之间的欧式距离，得到[L，L]的距离矩阵。

获取预设数量和预设距离，预设距离包括第一预设距离和第二预设距离，第一预设距离和第二预设距离可以相同，本实施例中的第一预设距离和预设数量用于构造密集特征子集和非密集特征子集。

针对特征集中的每一个特征，计算该特征与特征集中其他特征的欧式距离，确定计算得到的所有欧式距离小于第一预设距离的数量，判断该数量是否小于预设数量，若不小于预设数量，将该特征划分至密集特征子集中，设密集特征子集的大小为[M，d]，M≤L，并将未划分至密集特征子集中的特征划分至非密集特征子集中，设非密集特征子集的大小为[L-M，d]。

构造一个预设聚类集合C（空集），当密集特征子集不为空时，遍历密集特征子集中的每一特征f，假设密集特征子集中包括f1，f2，f3，f4和f5。初始化一个新的子类C_b{f}，假设当前遍历到的特征为f1，则将f1从密集特征子集中删除，将f1划分至C_b中，对于当前密集特征子集中的特征即f2、f3、f4、f5，分别计算f2和f1之间的欧式距离，f3与f1之间的欧式距离，f4与f1之间的欧式距离，f5和f1之间的欧式距离，若仅有f2和f1之间的欧式距离小于第二预设距离，则将f2划分至C_b中，并将f2从当前密集特征子集中删除，然后对于当前密集特征子集中的所有特征与C_b中的所有特征计算其欧式距离，针对当前密集特征子集中的f3、f4、f5与C_b中的所有特征f1和f2，由于f3、f4、f5与f1之间的欧式距离在上一次已经计算过了，此处不再计算，然后分别计算f3与f2之间的欧式距离，f4与f2之间的欧式距离，f5与f2之间的欧式距离，判断当前密集特征子集中是否存在欧式距离小于第二预设距离的特征，假设f4与f2之间的欧式距离小于第二预设距离，则将f4划分至C_b中，并将f4从密集特征子集中删除，以此类推，重复上述过程，直至密集特征子集中再无任何一个特征可以被并入C_b。同理，遍历非密集特征子集中的所有特征，按照上述方式在非密集特征子集中选择与C_b中的特征的欧式距离小于第二预设距离的特征加入到C_b中，并将其从非密集特征子集中剔除，直至非密集特征子集中再无任何一个特征可以被并入C_b，将C_b加入到预设聚类集合中，输出C={C₁，C₂，…，C_s}，C_b为C₁至C_s中的任一个。

在一示例性实施例中，得到多个一级语义特征的过程包括：

按照第二关系式对预设聚类集合中的所有子类计算其包括的所有特征的加权和，基于加权和得到一级语义特征；

第二关系式为；

其中，t为第b个子类中的特征的个数，f_b为第b个子类的加权和，f_t为对第b个子类遍历过程中第b个子类中的当前特征，f_p为遍历过程中的每一个特征，为第一预设距离或第二预设距离，dis（f_t,f_p）为f_t和f_p间的欧式距离，/>为所述第b个子类中满足/>的特征的数量。

本实施例中，对于C中每一子类，按照第二关系式计算其包括的所有特征的加权和，其中，t表示子类C_b中特征的个数。

在一示例性实施例中，对所有特征进行聚类，得到多个一级语义特征的过程包括：

对所有特征进行聚类，得到多个一级语义特征及每个一级语义特征下的二级语义特征；

图像生成方法还包括：

构建语义特征分布森林，语义特征分布森林包括多个树特征，每一树特征的树干特征为一级语义特征，每一树干特征的树枝特征为一级语义特征下的二级语义特征；

基于与文本语义特征的相似度最高的图像组合语义特征生成关联图像的过程包括：

基于与文本语义特征的相似度最高的图像组合语义特征对应的注意力掩码矩阵的选择参数确定最优树特征；

利用最优树特征得到图像筛选特征；

基于图像筛选特征和文本语义特征生成关联图像。

本实施例中，构造语义特征分布森林，其中，树特征的个数即为预设聚类集合中所有子类的个数，树特征的树干特征为一级语义特征，具体为所有f_b输出，每个树干特征的树枝特征则为其对应的子类里面的所有特征，即每一个C_b中存储的特征。示例性地，假设对多个参考图像样本的特征进行聚类后的得到的预设聚类集合C={C₁，C₂，C₃，C₄，C₅}，可以理解，以图4所示语义特征分布森林结构为例，图4中包括五棵树特征，第一棵树特征的一级语义特征为C₁中所有特征的加权和f_b1，第一棵树特征的二级语义特征为C₁中所有的特征（f_c1），第二棵树特征的一级语义特征为C₂中所有特征的加权和f_b2，第二棵树特征的二级语义特征为C₂中所有的特征（f_c2），第三棵树特征的一级语义特征为C₃中所有特征的加权和f_b3，第三棵树特征的二级语义特征为C₃中所有的特征（f_c3），第四棵树特征的一级语义特征为C₄中所有特征的加权和f_b4，第四棵树特征的二级语义特征为C₄中所有的特征（f_c4），第五棵树特征的一级语义特征为C₅中所有特征的加权和f_b5，第五棵树特征的二级语义特征为C₅中所有的特征（f_c5）。

构造注意力掩码集合，根据语义特征分布森林中树特征的个数进行初始化：

；其中，y为树特征的个数，结合图4所示的语义特征分布森林的结构，可以得到如图5所示的注意力掩码矩阵，注意力掩码矩阵中的每一列表示一种可行的特征组合，1表示该特征应该被选择，对于r=2，y=5时，有10种特征组合，见图5中的前10列，r=3，y=5时，有10种特征组合，见图5中的第11列至20列，r=4，y=5时，有5种特征组合，见图5中的第21列至25列，r=5，y=5时，有1种特征组合，见图5中的第26列。使用transformer等模型结构对各一级语义特征（记为g）进行特征提取，并依次使用注意力掩码集合中的各列注意力掩码按照第一关系式进行计算得到与各第一语义特征对应的多个图像组合语义特征，大小为[b，d]，第一关系式为

；

其中，transformer为基于注意力机制的模型，g为所述一级语义特征，softmax为概率归一化函数，W_q为查询参数权重，W_k为链参数权重，W_v为值参数权重，Mask[:,k]为所述注意力掩码矩阵的第k列的选择参数，size（g）为一级语义特征的维度大小，为转置符号。使用文本编码器对输入指导文本进行编码，得到文本语义特征，大小为/>。

计算文本语义特征与每一图像组合语义特征之间的三角相似度，确定三角相似度最高的图像组合语义特征，根据该图像组合语义特征在注意力掩码矩阵中的位置，得到最优组合，其中，最优组合用来描述聚类后哪些类的组合能最准确地表达文本中类似的语义，假设该图像组合语义特征在注意力掩码矩阵中的位置为第13列，则最优组合为1，2，5，也即最优组合为图4中的第一棵树特征、第二棵树特征及第五棵树特征，针对第一棵树特征随机挑选一个树枝特征，针对第二棵树特征随机挑选一个树枝特征，针对第五棵树特征随机挑选一个树枝特征，得到一个图像筛选特征，大小为[z，d]，本实施例中z=3。

在一示例性实施例中，基于图像筛选特征和文本语义特征生成关联图像的过程包括：

利用图像筛选特征得到条件噪声初始图像；

基于条件噪声初始图像和文本语义特征生成关联图像。

本实施例中，将图像筛选特征进行复制，将维度变换为[h，w，z×d]的大小，其中前两维表示图像的高和宽，记为条件噪声初始图像，采用扩散生成模型，将条件噪声初始图像与文本语义特征共同输入其中，输出最终生成的关联图像。

综上，关联图像生成方案参照图6所示，包括将语义指导文本（大小为[1，l]）输入文本编码器得到文本语义特征（大小为[1，l，d]），将每一参考图像样本（大小为[N，h，w]）输入图像编码器提取该参考图像样本的特征，基于所有参考图像样本的特征构建特征集（大小为[N，j，d]），对特征集中的特征进行图像语义聚类，根据聚类结果构建语义特征分布森林，并根据语义特征分布森林中树特征的个数对注意力掩码矩阵初始化，以及根据语义特征分布森林和文本语义整体以及注意力掩码矩阵进行语义的相似度计算，得到图像筛选特征，基于图像筛选特征生成条件噪声图像，将条件噪声图像和文本语义特征输入扩散模型生成器，生成关联图像。

第二方面，请参照图7，图7为本发明所提供的一种图像生成系统的结构示意图，包括：

获取模块11，用于获取语义指导文本和情绪指导文本；

检索模块12，用于基于语义指导文本和情绪指导文本检索得到多个参考图像样本；

提取模块13，用于提取多个参考图像样本的特征，对所有特征中的至少两个特征进行组合得到多个图像组合语义特征；

生成模块14，用于获取语义指导文本对应的文本语义特征，基于与文本语义特征的相似度最高的图像组合语义特征生成关联图像。

基于语义指导文本和情绪指导文本进行网页检索；

基于最优关联内容检索得到多个参考图像样本。

对语义指导文本和情绪指导文本进行拼接，得到检索文本；

提取检索到的前n条网页的标题文本和内容文本；

基于语义相关文本确定内容文本的语义关联得分；

基于情绪相关文本确定内容文本的情绪关联得分；

基于最优关联内容进行图像检索，得到多个候选图像样本；

提取每一候选图像样本的图像摘要文本；

提取多个参考图像样本的特征；

对所有特征进行聚类，得到多个一级语义特征；

根据一级语义特征的数量构造注意力掩码矩阵，

在一示例性实施例中，利用一级语义特征和注意力掩码矩阵得到多个图像组合语义特征的过程包括：

利用第一关系式得到多个图像组合语义特征，第一关系式为

；

其中，transformer为基于注意力机制的模型，g为所述一级语义特征，softmax为概率归一化函数，W_q为查询参数权重，W_k为链参数权重，W_v为值参数权重，Mask[:,k]为所述注意力掩码矩阵的第k列的选择参数，size（g）为一级语义特征的维度大小，为转置符号。

图像生成系统还包括：

构建模块，用于构建语义特征分布森林，语义特征分布森林包括多个树特征，每一树特征的树干特征为一级语义特征，每一树干特征的树枝特征为一级语义特征下的二级语义特征；

利用最优树特征得到图像筛选特征；

基于图像筛选特征和文本语义特征生成关联图像。

利用图像筛选特征得到条件噪声初始图像；

基于条件噪声初始图像和文本语义特征生成关联图像。

在一示例性实施例中，对所有特征进行聚类的过程包括：

计算任意两个特征间的欧式距离；

将子类加入到预设聚类集合中。

在一示例性实施例中，得到多个一级语义特征的过程包括：

所述第二关系式为；

第三方面，参照图8所示，图8为本发明所提供的一种电子设备的结构示意图，该电子设备包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现如上文任意一个实施例所描述的图像生成方法的步骤。

该电子设备还包括：

输入接口23，经通信总线26与处理器22相连，用于获取外部导入的计算机程序、参数和指令，经处理器22控制保存至存储器21中。该输入接口可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板。

显示单元24，经通信总线26与处理器22相连，用于显示处理器22发送的数据。该显示单元可以为液晶显示屏或者电子墨水显示屏等。

网络端口25，经通信总线26与处理器22相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术、通用串行总线、高清多媒体接口、无线保真技术、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

第四方面，请参照图9，图9为本发明所提供的一种计算机可读存储介质的结构示意图，计算机可读存储介质30上存储有计算机程序31，计算机程序31被处理器执行时实现如上文任意一个实施例所描述的图像生成方法的步骤。

该计算机可读存储介质30可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取语义指导文本和情绪指导文本；

2.根据权利要求1所述的图像生成方法，其特征在于，基于所述语义指导文本和所述情绪指导文本检索得到多个参考图像样本的过程包括：

基于所述语义指导文本和所述情绪指导文本进行网页检索；

基于所述最优关联内容检索得到多个参考图像样本。

3.根据权利要求2所述的图像生成方法，其特征在于，基于所述语义指导文本和所述情绪指导文本进行网页检索的过程包括：

4.根据权利要求2所述的图像生成方法，其特征在于，根据检索到的前n条网页构建关联内容集合的过程包括：

提取检索到的前n条网页的标题文本和内容文本；

5.根据权利要求2所述的图像生成方法，其特征在于，在所述关联内容集合中选择与所述语义指导文本和所述情绪指导文本的综合关联性最强的最优关联内容的过程包括：

6.根据权利要求5所述的图像生成方法，其特征在于，基于所述内容文本与所述语义指导文本对应的语义关联得分以及所述内容文本与所述情绪指导文本对应的情绪关联得分，得到所述内容文本的综合得分的过程包括：

基于所述语义相关文本确定所述内容文本的语义关联得分；

基于所述情绪相关文本确定所述内容文本的情绪关联得分；

7.根据权利要求6所述的图像生成方法，其特征在于，基于所述语义相关文本确定所述内容文本的语义关联得分的过程包括：

8.根据权利要求6所述的图像生成方法，其特征在于，利用所述语义关联得分和所述情绪关联得分确定所述内容文本的综合得分的过程包括：

9.根据权利要求2所述的图像生成方法，其特征在于，基于所述最优关联内容检索得到多个参考图像样本的过程包括：

10.根据权利要求9所述的图像生成方法，其特征在于，利用所述情绪指导文本和所述语义指导文本在多个所述候选图像样本中筛选出多个参考图像样本的过程包括：

提取每一所述候选图像样本的图像摘要文本；

11.根据权利要求10所述的图像生成方法，其特征在于，对输入文本和每一所述图像摘要文本进行图像元素互斥性计算，得到每一所述图像摘要文本的视觉得分的过程包括：

12.根据权利要求1-11任意一项所述的图像生成方法，其特征在于，提取多个所述参考图像样本的特征，对所有所述特征中的至少两个所述特征进行组合得到多个图像组合语义特征的过程包括：

提取多个所述参考图像样本的特征；

对所有所述特征进行聚类，得到多个一级语义特征；

根据所述一级语义特征的数量构造注意力掩码矩阵，

13.根据权利要求12所述的图像生成方法，其特征在于，利用所述一级语义特征和所述注意力掩码矩阵得到多个图像组合语义特征的过程包括：

；

14.根据权利要求13所述的图像生成方法，其特征在于，对所有所述特征进行聚类，得到多个一级语义特征的过程包括：

所述图像生成方法还包括：

利用所述最优树特征得到图像筛选特征；

基于所述图像筛选特征和所述文本语义特征生成关联图像。

15.根据权利要求14所述的图像生成方法，其特征在于，基于所述图像筛选特征和所述文本语义特征生成关联图像的过程包括：

利用所述图像筛选特征得到条件噪声初始图像；

16.根据权利要求14所述的图像生成方法，其特征在于，对所有所述特征进行聚类的过程包括：

计算任意两个所述特征间的欧式距离；

将所述子类加入到预设聚类集合中。

17.根据权利要求16所述的图像生成方法，其特征在于，得到多个一级语义特征的过程包括：

所述第二关系式为；

18.一种图像生成系统，其特征在于，包括：

获取模块，用于获取语义指导文本和情绪指导文本；

19.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-17任意一项所述的图像生成方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-17任意一项所述的图像生成方法的步骤。