CN116433800B

CN116433800B - 基于社交场景用户偏好与文本联合指导的图像生成方法

Info

Publication number: CN116433800B
Application number: CN202310701147.2A
Authority: CN
Inventors: 张勇东; 胡博; 毛震东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-10-20
Anticipated expiration: 2043-06-14
Also published as: CN116433800A

Abstract

本发明涉及图像生成技术领域，公开了一种基于社交场景用户偏好与文本联合指导的图像生成方法，包括：社交场景下用户偏好建模；面向图像视觉特征到用户偏好特征的迁移学习；多条件联合指导的图像生成；本发明能够高效准确地针对社交网络中指定的用户，包括个体用户和群体用户，精确提取其用户偏好，并联合此用户偏好与文本指导，共同生成图像。本发明可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。

Description

基于社交场景用户偏好与文本联合指导的图像生成方法

技术领域

本发明涉及图像生成技术领域，具体涉及一种基于社交场景用户偏好与文本联合指导的图像生成方法。

背景技术

基于社交场景用户偏好与文本联合指导的图像生成，具有重要的科研与应用价值，它旨在生成符合社交媒体平台中不同类型用户偏好的图像的同时，保持与文本指导的语义一致性。其中用户既可以是单一个体，也可以是具有某一类共性的个体组合。该项技术可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。

目前图像生成的研究工作普遍集中于基于文本的单一指导，如何联合社交场景用户偏好进行图像生成的联合指导的相关研究还比较缺乏，主要亟待解决的困难点在于：缺乏对社交场景下用户偏好的有效建模、缺乏生成图像与用户偏好程度之间一致性的精确度量以及多指导条件的联合图像生成中不同条件之间的成功解耦。

发明内容

为解决上述技术问题，本发明提供一种基于社交场景用户偏好与文本联合指导的图像生成方法。本发明首先构建了基于图卷积网络的偏好扩散模型以实现用户偏好的精确表达。其次，本发明针对生成图像缺少与用户的交互数据所带来的“冷启动问题”，利用弱监督关系构建生成对抗网络，学习任意生成图像到用户偏好空间的映射方法，并以此为基础构建生成图像符合用户偏好程度的度量方法。最后，本发明提出了一种多条件联合指导的图像生成方法，研究多条件特征的耦合机理，构造条件特征解耦的联合指导图像生成方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于社交场景用户偏好与文本联合指导的图像生成方法，通过图像生成模型提取社交网络中特定用户的用户偏好，并联合用户偏好的指导和文本的指导，共同生成图像；图像生成模型的构建过程，包括以下步骤：

步骤一，社交场景下用户偏好建模：

针对用户中的个体与图像交互数据，利用图卷积网络学习个体u的个体特征表示和图像i的图像特征表示/>；

针对表示用户与个体隶属交互关系的用户个体数据，利用图卷积网络学习用户特征表示；

通过用户中每个个体之间的社交关系以及个体在社交网络中的活动，评估个体在社交网络中的各类中心性，通过个体在社交网络中各类的中心性特征表示，建模个体对用户偏好的影响力特征表示/>：

则用户偏好特征表示表示为：/>；其中/>为特征拼接操作；

步骤二，面向图像视觉特征到用户偏好特征的迁移学习任务：

利用图像i的图像特征表示，用户偏好特征表示/>，并通过预训练模型，从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>；然后将图像i的图像特征表示与图像i的图像视觉特征嵌入/>组成的输入对，构成图像视觉特征嵌入/>到用户偏好特征表示/>之间的弱监督关系；

利用弱监督关系生成对抗网络：基于用户对不同图像的偏好程度，使用多层神经网络构建判别器D；基于图像视觉特征嵌入，使用多层神经网络构建生成器G，将任意图像的图像视觉特征转换为图像的用户偏好特征，得到图像的用户偏好特征嵌入/>；

步骤三，多条件联合指导的图像生成：

基于矢量量化的自编码器学习构建图像离散潜空间，所述自编码器的学习在ImageNet图像数据集中进行；所述自编码器的学习过程为：将ImageNet图像数据集中的图像x表征为低维离散特征，通过量化操作/>将每个低维离散特征/>替换为矢量量化码本中与/>具有最小欧氏距离的条目/>，通过解码器/>重构成原图像x；

将个体与图像交互数据中的图像i通过步骤二得到的生成器G生成用户偏好特征嵌入，通过跨模态预训练模型CLIP或者预训练分类模型提取文本指导的语义特征/>，得到特征对(/>,/>)；

构建跨模态特征映射关系网络W，以得到用户偏好特征嵌入在语义特征空间的投影/>：/>；则优化目标函数/>为：

；

其中，为联合指导扩散模型，z为真实的图像i通过所述自编码器编码得到的离散低维离散特征，/>为t时间步添加的噪声，/>表示/>噪声符合/>的正态分布，/>为t时间步的带噪的离散低维离散特征，/>为数学期望。

进一步地，步骤一中，针对用户中的个体与图像交互数据，利用图卷积网络学习个体特征表示和图像特征表示/>时：

；

其中，、/>分别为个体与图像交互数据第k次迭代中的图像特征表示和个体特征表示；/>表示与个体u直接交互的图像，/>表示与图像i直接交互的个体，表示图卷积网络进行图卷积操作时的衰减因子，k次迭代后个体特征表示/>和图像特征表示/>为：

，/>。

进一步地，步骤一中，针对表示用户与个体隶属交互关系的用户个体数据，利用图卷积网络学习用户特征表示时：

；

其中，表示单个个体u隶属的用户数量，/>表示用户g中的个体数量，、/>表示用户个体数据第k次迭代中个体特征表示和用户特征表示；k次迭代后的用户特征表示/>为：/>。

进一步地，步骤一中通过个体在社交网络中各类的中心性特征表示，建模个体对用户偏好的影响力/>时：

；

其中，为用户，/>表示第i个个体/>对用户/>的中心性特征表示。

进一步地，步骤二的迁移学习任务中，生成器损失与判别器的损失/>如下：

；

其中表示的是L2正则化范式，α为生成器中控制对抗生成器损失与相似性损失比例的超参数，/>为判别器中控制对抗判别器损失与用户个性化损失比例的超参数，表示用户/>对图像i的偏好程度；

使用与用户有交互的图像作为用户/>相关用户偏好特征嵌入的正例，与用户/>没有交互的图像作为用户/>相关用户偏好特征嵌入的负例，来优化判别器的推荐性能,推荐损失/>如下：

；

式中，图像i为与用户有交互的图像，作为正例，图像j为用户/>未曾交互过的图像，作为负例。

进一步地，步骤三中，基于矢量量化的自编码器构建图像离散潜空间，所述自编码器在ImageNet数据集上预训练，将ImageNet数据集中图像x表征为低维离散特征，通过量化操作/>将每个低维离散特征/>替换为矢量量化码本中与/>具有最小欧氏距离的条目/>，通过解码器/>重构成原图像，具体包括：

所述自编码器包括卷积编码器和解码器；通过卷积编码器E将图像编码至低维离散潜空间，得到低维离散特征：

；

图像，其中H、W分别为图像/>的高和宽，h、w为潜空间的高和宽，/>为低维离散特征/>的维度，R表示维度空间，/>表示/>的维度空间；

给定一个离散的码本，K是码本长度，/>为码本C中的第k个条目，则量化操作Q(⋅)将每个低维离散特征/>替换为码本中与/>具有最小欧氏距离的条目/>：

；

表示取最小值，/>表示z中第i行第j列的低维离散特征，z的维度为/>；/>表示欧几里得距离；

最后，再通过解码器重构成原图像，重构的图像记为/>：

。

进一步地，图像生成模型进行图像生成时，从一个完全的高斯噪声开始，逐渐降低噪声程度，得到不同程度的带噪图像，最后得到一张完全不带噪的图像，即带噪图像是图像生成过程中的中间产物；

图像生成模型使用多梯度融合策略，并利用每一步采样过程中的用户偏好和文本分别对于当前带噪图像的梯度矢量指导，优化图像生成的方向；具体包括：

通过生成过程中的图像和用户偏好相对于图像的点积的梯度扰动采样过程：

；

其中，代表扰动后采样得到的联合指导扩散模型的输出结果，/>代表扰动前采样得到的联合指导扩散模型的输出结果，/>是联合指导扩散模型前向扩散过程中设置的超参数，/>表示求取梯度的操作，/>为用户偏好指导中的图像编码器，/>为文本指导中的图像编码器；/>为t时间步的带噪图像，为t时间步的带噪的低维离散表征/>通过自编码器解码得到的，即实际图像生成时，是逐渐生成噪声程度降低的低维离散表征，再通过自编码器解码得到重构的图像/>。

与现有技术相比，本发明的有益技术效果是：

本发明提出了一种全新的基于社交场景用户偏好与文本联合指导的图像生成方法，包括社交场景下用户偏好建模框架、面向图像视觉特征到用户偏好特征的迁移学习框架以及多条件联合指导的扩散模型图像生成框架三个部分。该方法能够高效准确地针对社交网络中指定的用户，包括个体用户和群体用户，精确提取其用户偏好，并联合此用户偏好与文本指导，共同生成图像。该项技术可以广泛用于社交媒体推荐、网络空间舆论攻防等关键方向。本发明提出的三个框架相对于目前图像生成和社交网络领域的其他方法都有着独到的设计，具有良好的应用前景。

附图说明

图1为本发明社交场景下用户偏好建模框架的示意图；

图2为本发明面向图像视觉特征到用户偏好特征的迁移学习框架的示意图；

图3为本发明多条件联合指导的扩散模型图像生成框架的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明中，用户为单个个体或者具有共性的多个个体组合。

本发明中的技术方案主要包括以下三个部分：（1）社交场景下用户偏好建模框架；（2）面向图像视觉特征到用户偏好特征的迁移学习框架；（3）多条件联合指导的扩散模型图像生成框架。

（1）社交场景下用户偏好建模框架

该框架的结构如图1所示，该框架针对社交场景下的用户偏好建模，若用户为具有某一类共性的个体组合，则首先利用其中的个体与图像交互数据，建模个体偏好；其次，利用用户、个体和图像之间的多跳关系作为协同信号，构建基于图卷积网络的偏好扩散模型，从而缓解个体交互行为样本稀疏的问题；最后构建基于用户个体决策机制的用户偏好模型，最终实现用户偏好的精确表达。若用户为单一个体，则可以视为上述框架的一个特例。

具体来说，该框架首先基于个体与图像交互数据建模用户中个体的偏好。具体来说，个体与图像交互数据中包含个体和图像之间的交互信息，每个个体与至少一个图像相交互，每个图像与至少一个个体相交互，这里交互指的是个体点击图像的社交行为。个体u表示个体与图像交互数据中的第u个个体，图像i表示个体与图像交互数据中的第i个图像。本框架首先利用图卷积网络学习个体u的个体特征表示和图像i的图像特征表示/>：

；

其中，表示与个体u直接交互的图像，/>表示与图像直接交互的个体，表示图卷积操作中的衰减因子。当k=1时，最初的个体特征表示通过随机正态初始化得到，而最初的图像特征表示通过在ImageNet预训练的ResNet网络提取得到。k次迭代后个体特征表示/>和图像特征表示/>为：

，/>。

进一步地，为了缓解不同用户之间缺少交互数据、难以建模的问题，本发明根据用户中个体交互行为，以及用户与个体的隶属关系，进一步构建拥有异构节点的图结构，如图1所示。观察图1中用户个体隶属关系图，可以看到路径：，用户/>和/>包含了共同的个体/>，可以利用该路径上共同个体/>的信息去挖掘协同信号。针对用户与个体的隶属关系，本发明利用图卷积网络进一步学习用户特征表示/>：

；

。

其中，表示单个个体u隶属的用户数量，/>表示用户g中的个体数量，、/>表示用户个体数据第k次迭代中个体特征表示和用户特征表示。当k=1时，个体和用户的初始特征均由随机正态初始化得到。k次迭代后用户特征表示/>为：

。

最后，针对用户中不同个体对用户偏好和决策有不同的影响的问题，本发明进一步深入挖掘用户中每个个体之间的社交关系，以及个体在社交场景中的活动，如转发、评论、收藏等，评估个体的中心性，建模个体对用户偏好的影响力特征表示：

；

其中，表示个体在社交网络中各类中心性的特征表示，g为用户。最终，用户偏好特征表示/>为：

。

其中，为特征拼接操作。

（2）面向图像视觉特征到用户偏好特征的迁移学习框架

本框架针对生成图像缺少与用户的交互数据所带来的“冷启动问题”，利用弱监督关系构建生成对抗网络，学习任意生成图像到用户偏好空间的映射方法，并以此为基础构建生成图像符合用户偏好程度的度量方法。该框架如图2所示。

具体来说，本框架首先研究图像视觉特征表示与用户偏好特征表示之间的弱监督关系，从个体与图像交互数据中提取得到用户图像的交互图，利用从个体与图像交互数据中提取到的图像i的图像特征表示/>，用户偏好特征表示/>，以及通过预训练模型从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>；图像i的图像特征表示/>与图像i的图像视觉特征嵌入/>组成的输入对，构成图像视觉特征到用户偏好特征表示/>之间的弱监督关系。

其次，本框架提供一种将任意生成图像映射到用户偏好空间的映射方法，通过从用户g历史的交互图像可以得到用户g对不同图像的偏好程度，构建判别器D，来判别图像的内容特征是否与用户偏好特征具有类似的分布，例如D表示用户g对图像i的偏好程度。利用图像视觉特征嵌入/>构建生成器G，其作用为将任意图像的图像视觉特征转换为图像的用户偏好特征，例如生成器G可基于输入图像的图像视觉特征嵌入/>得到生成图像的用户偏好特征嵌入/>。使用多层神经网络构建生成器G与判别器D，生成器G与判别器D在整个生成对抗网络中起到对抗的作用，通过设计两者之间的对抗关系，可使得生成器G与判别器D在交替训练中互相促进，目的是使训练出的生成器G生成的图像的用户偏好特征嵌入与已交互图像训练出的图像特征表示/>在判别器D上获得相似的结果。

本框架基于生成器与判别器之间的对抗关系来设计对抗损失，生成器G设法欺骗判别器D，以使得判别器D对生成器G生成的图像的用户偏好特征嵌入给出更高的相关性分数，同时，判别器D要正确的识别出生成的图像的用户偏好特征嵌入/>，使得训练出的图像视觉特征嵌入/>得到更高的相关性分数。另外设计推荐损失，使用与用户g有交互的图像作为用户g相关用户偏好特征嵌入的正例，与用户g没有交互的图像作为用户g相关用户偏好特征嵌入的负例，来优化判别器的推荐性能，推荐损失/>如下：

；

上式中，图像i为与用户g有交互的图像，作为推荐损失中的正例，图像j为用户u历史未曾交互过的图像，作为推荐损失中的负例。

对抗网络中生成器的损失与判别器的损失/>如下：

；

上式中，本发明额外引入相似性损失来辅助生成器G的训练，其中表示的是L2正则化范式，α为生成器中控制对抗生成器损失与相似性损失比例的超参数，/>为判别器中控制对抗判别器损失与用户个性化损失比例的超参数。通过成对的训练数据对生成器与判别器进行交替训练，不断对函数进行优化，使迁移学习框架达到均衡，最终使迁移学习框架的生成器实现图像视觉特征到用户偏好特征的转换，基于此可以度量生成图像符合用户偏好的程度。

（3）多条件联合指导的扩散模型图像生成框架

最后，本发明通过多条件特征的耦合机理，构造条件特征解耦的多条件联合指导下的图像生成框架，如图3所示。

A.基于矢量量化自编码器构建图像离散潜空间

图像中同时包含了高层语义信息和人类难以察觉的高频底层细节信息，直接建模这两者难以同时很好的兼顾。本节首先基于矢量量化自编码器构建图像离散潜空间，将图像表征为低维离散特征，这些低维离散特征一方面降低了图像的维度，优化了训练成本，提高了生成速度，另一方面，在一定程度上解耦了图像的高层语义信息和底层细节信息，即，通过自编码器的重构保留底层细节信息生成能力，而下一阶段可以更好地专注于社交网络用户偏好和文本主题与图像高层语义信息之间的映射。具体来说，给定图像，其中H、W分别为图像/>的高和宽，拟首先通过卷积编码器E将图像/>编码至低维离散潜空间，得到低维离散特征/>：

；

其中h、w为低维离散潜空间的高和宽，为低维离散特征的维度。给定一个离散码本/>，K是码本长度，则量化操作Q(⋅)被定义为将每个低维离散特征/>替换为码本中与低维离散特征/>具有最小欧氏距离的条目/>：

；

最后，再通过解码器Dz重构成原图像，重构的图像记为：

。

B.多条件特征解耦的联合指导图像生成训练

本节研究基于用户偏好指导和文本指导的多条件联合指导的图像生成，在训练过程中需要引入多条件联合指导，然而由于不同条件之间在特征上存在不同程度的耦合性，容易导致联合指导扩散模型在训练收敛困难。因此，本节首先研究不同指导条件之间的耦合机制，并据此构造指导条件之间的解耦方法。具体来说，对于用户偏好指导，本节通过图像i在用户偏好域的生成器G构造图像在用户偏好域的特征：/>；对于文本指导或分类指导，通过跨模态预训练模型CLIP或者预训练分类模型，提取文本指导或分类指导的语义特征/>。基于此，可以得到特征对(/>,/>)。由于/>中包含了用户对特定文本或主题的偏好，因此/>与/>之间存在耦合关系，训练中/>的加入会对/>在图像生成过程中作为语义的表达产生干扰。为了实现条件特征解耦，本节进一步构建跨模态的特征映射关系网络W，以得到用户偏好/>在语义特征空间的投影/>：

。

该特征映关系网络W基于得到的投影与语义特征/>之间相似度构建目标函数。基于此，构造基于条件特征解耦的联合指导图像生成方法，具体来说，设联合指导扩散模型为/>，则优化目标/>为：

；

其中，x为真实图像，为t时间步添加的噪声，/>是指噪声/>符合/>的正态分布，/>为t时间步的带噪图像，/>为数学期望。

C.多指导梯度的融合采样策略

基于以上训练得到的联合指导扩散模型基础上，本节首先计算每一步生成过程中，条件目标（用户偏好和文本）分别对于当前带噪图像的梯度矢量指导，然后针对性设计多梯度融合策略，利用梯度矢量指导优化图像生成方向。具体来说，通过计算图像和用户偏好、文本或分类等条件相对于图像的点积的梯度，可以扰动采样过程，偏好指导中的图像编码器为，文本或分类指导中图像编码器为/>，则扰动采样过程为：

；

上式中，代表扰动后采样得到的联合指导扩散模型的输出结果，/>代表扰动前采样得到的联合指导扩散模型的输出结果，/>是联合指导扩散模型前向扩散过程中设置的超参数，/>表示求取梯度的操作。

本发明可以应用于社交媒体平台上，对任意给定的用户和指定的文本内容，生成符合该用户偏好的图像的同时，保持与文本指导的语义一致性。在实施上，可以以软件的方式嵌入于智能系统；也可以嵌入于后台服务器上，满足大批量的图像生成需求。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于社交场景用户偏好与文本联合指导的图像生成方法，通过图像生成模型提取社交网络中特定用户的用户偏好，并联合用户偏好的指导和文本的指导，共同生成图像；图像生成模型的构建过程，包括以下步骤：

步骤一，社交场景下用户偏好建模：

针对用户中的个体与图像交互数据，利用图卷积网络学习个体u的个体特征表示/>和图像i的图像特征表示/>；

则用户偏好特征表示表示为：/>；其中/>为特征拼接操作；

利用图像i的图像特征表示，用户偏好特征表示/>，并通过预训练模型，从图像i中提取出语义s、风格t和色彩c的图像视觉特征嵌入/>；然后将图像i的图像特征表示/>与图像i的图像视觉特征嵌入/>组成的输入对，构成图像视觉特征嵌入/>到用户偏好特征表示之间的弱监督关系；

步骤三，多条件联合指导的图像生成：

构建跨模态特征映射关系网络W，以得到用户偏好特征嵌入在语义特征空间的投影：/>；则优化目标函数/>为：

；

2.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于，步骤一中，针对用户中的个体与图像交互数据，利用图卷积网络学习个体特征表示和图像特征表示/>时：

；

，/>。

3.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于：步骤一中，针对表示用户与个体隶属交互关系的用户个体数据，利用图卷积网络学习用户特征表示时：

；

其中，表示单个个体u隶属的用户数量，/>表示用户g中的个体数量，/>、表示用户个体数据第k次迭代中个体特征表示和用户特征表示；k次迭代后的用户特征表示/>为：/>。

4.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于：步骤一中通过个体在社交网络中各类的中心性特征表示，建模个体对用户偏好的影响力/>时：

；

5.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于，步骤二的迁移学习任务中，生成器损失与判别器的损失/>如下：

；

其中表示的是L2正则化范式，/>为生成器中控制对抗生成器损失与相似性损失比例的超参数，/>为判别器中控制对抗判别器损失与用户个性化损失比例的超参数，表示用户/>对图像i的偏好程度；

使用与用户有交互的图像作为用户/>相关用户偏好特征嵌入的正例，与用户/>没有交互的图像作为用户/>相关用户偏好特征嵌入的负例，来优化判别器的推荐性能,推荐损失如下：

；

6.根据权利要求1所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于，步骤三中，基于矢量量化的自编码器构建图像离散潜空间，所述自编码器在ImageNet数据集上预训练，将ImageNet数据集中图像x表征为低维离散特征，通过量化操作/>将每个低维离散特征/>替换为矢量量化码本中与/>具有最小欧氏距离的条目/>，通过解码器/>重构成原图像，具体包括：

；

表示取最小值，/>表示z中第i行第j列的低维离散特征，z的维度为/>；表示欧几里得距离；

最后，再通过解码器重构成原图像，重构的图像记为/>：

。

7.根据权利要求6所述的基于社交场景用户偏好与文本联合指导的图像生成方法，其特征在于，图像生成模型进行图像生成时，从一个完全的高斯噪声开始，逐渐降低噪声程度，得到不同程度的带噪图像，最后得到一张完全不带噪的图像，即带噪图像是图像生成过程中的中间产物；

；