CN117726721B

CN117726721B - 基于主题驱动与多模态融合的图像生成方法、设备及介质

Info

Publication number: CN117726721B
Application number: CN202410175704.6A
Authority: CN
Inventors: 刘德培; 谭周兴; 唐铁军; 何浩; 陈鸣; 刘治国; 熊婕
Original assignee: Hunan Junan Technology Co ltd
Current assignee: Hunan Junan Technology Co ltd
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-04-30
Anticipated expiration: 2044-02-08
Also published as: CN117726721A

Abstract

本申请涉及一种基于主题驱动与多模态融合的图像生成方法、设备及介质。所述方法包括：构建图像生成模型；图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块；根据预先设计的损失函数对多模态对齐模块进行训练，利用训练后的多模态对齐模块对主题图像和主题类别进行编码，利用文本编码模块对提示文本和多模态主题语义向量进行融合，根据通用面部表征神经网络对主题图像进行提取，利用条件编码模块对得到的视觉图像进行特征转化，利用图像生成模块对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像。采用本方法能够提高主题驱动的图像生成效率。

Description

基于主题驱动与多模态融合的图像生成方法、设备及介质

技术领域

本申请涉及图像生成技术领域，特别是涉及一种基于主题驱动与多模态融合的图像生成方法、设备及介质。

背景技术

文本到图像生成模型已经有了显著的发展，并且能够根据文本提示创建高质量的图像。基于主题驱动的生成是生成式模型的应用之一，旨在保留主题外观的同时呈现输入主题的新风格。主题驱动生成的常见方法是通过将主题视觉内容反转为文本嵌入空间，通过预训练的文本到图像生成模型，对占位符文本嵌入向量进行优化，以重构一组主题图像，然后这些嵌入向量被组合成自然语言提示，用于创建不同的主题风格。

Rinon Gal等人基于扩散模型提出了使用占位文本嵌入来表示视觉概念，并优化嵌入以重构主题图像。Nataniel Ruiz等人采用类似的方法，同时对扩散模型进行微调，从而提高了表达能力和主题保真度。这两种方法的缺点是它们对每个新主题的微调时间较长，这阻碍了这些方法的扩展。Wenhu Chen等人的工作提出了一种知识蒸馏方法，可以从数百万个经过微调的专家模型中学习零样本生成，他们的模型在主题姿势上显示出较少的灵活性，并且可能会被输入图像的背景所分散注意力。然而，对于每个新主题，这些方法需要重复进行多次繁琐的微调步骤，这阻碍了模型在广泛的主题范围内进行高效的扩展，图像生成效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高主题驱动的图像生成效率的基于主题驱动与多模态融合的图像生成方法、设备及介质。

一种基于主题驱动与多模态融合的图像生成方法，所述方法包括：

获取主题图像、主题类别和提示文本；构建图像生成模型；图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块；

根据预先设计的损失函数对多模态对齐模块进行训练，利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐，然后对对齐后的主题图像和主题类别进行编码，得到多模态主题语义向量；

利用文本编码模块对提示文本和多模态主题语义向量进行融合，得到混合后的多模态特征向量；

根据通用面部表征神经网络对主题图像进行提取，得到视觉图像；利用条件编码模块对视觉图像进行特征转化，得到语义特征向量；

利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像。

在其中一个实施例中，训练后的多模态对齐模块包括预训练的图像编码器和多模态编码器；利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐，然后对对齐后的主题图像和主题类别进行编码，得到多模态主题语义向量，包括：

根据预训练的图像编码器对主题图像进行特征提取，得到通用图像特征；利用多模态编码器将主题图像和主题类别进行对齐，接受可学习查询向量、主题类别以及通用图像特征，查询向量通过自注意力层与主题类别向量进行交互，并通过交叉注意力层与通用图像特征进行交互，输出类别向量对齐的多模态主题语义向量。

在其中一个实施例中，预先设计的损失函数为

；

其中，表示多模态对齐模块，/>表示训练集合的样本个数，/>表示主题类别的个数，/>为温度系数，/>表示第/>个主题类别的特征向量，/>表示第/>个主题的图像语义特征向量的第/>个分量。

在其中一个实施例中，文本编码模块包括多层的多头自注意力模块、前馈神经网络以及残差连接网络；利用文本编码模块对获取的提示文本和多模态主题语义向量进行融合，得到混合后的多模态特征向量，包括：

将获取的提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列，然后将多模态主题语义向量通过多层感知机制映射到语义空间，然后与提示文本的特征向量序列做拼接得到多模态特征向量。

在其中一个实施例中，条件编码模块包括由多个专家网络和一个门控网络组成的混合专家模型，每个专家网络由编码器和解码器构成；利用条件编码模块对视觉图像进行特征转化，得到语义特征，包括：

根据编码器将视觉图像转化为高维特征，解码器将高维特征和低维特征进行融合，得到融合特征；利用门控网络动态地选择和组合融合特征，得到语义特征。

在其中一个实施例中，利用门控网络动态地选择和组合融合特征，得到语义特征，包括：

根据门控网络动态地选择和组合融合特征，得到语义特征为

；

其中，表示视觉图像，/>表示第/>个门控网络，/>和/>分别表示第/>个专家网络的编码器和解码器，/>表示专家网络个数。

在其中一个实施例中，利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像之前，还包括：

根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数为

；

其中，为期望值，/>表示从高斯分布中采样的噪声向量，/>表示多模态特征向量，/>表示扩散模型的可训练参数，/>表示采样的总步长，/>表示训练集合中的图像，表示噪声向量。

在其中一个实施例中，扩散模型包括深度学习分割网络的编码器和解码器；利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像，包括：

利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入，多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器，得到深度学习分割网络的编码器特征；语义特征向量通过与深度学习分割网络的编码器特征相加进行融合，得到融合后的特征向量；

将图像状态被视为马尔可夫链中的一个状态，通过迭代当前状态在链中依次转移到下一个状态，对融合后的特征向量进行逆向去燥，生成提示文本对应的图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于主题驱动与多模态融合的图像生成方法、设备及介质，本申请利用多模态对齐模块实现主题图像和主题类别的对齐，提取多模态主题语义向量，提高了图像和文本的对齐性能，通过多层感知机映射到文本嵌入空间实现多模态主题语义向量与文本提示向量做融合，根据通用面部表征神经网络对主题图像进行提取，得到视觉图像，利用条件编码模块对视觉图像进行特征转化，以获得更准确的视觉图像语义，将得到的语义特征向量通过混合专家模型注入扩散模型的解码模块，最后对服从高斯分布的样本通过逆向迭代去噪过程生成图像，提高了主题驱动的图像生成效率。在效果上，与当前未使用额外数据的同类方法对比，本申请在主题驱动生成数据集上取得了最好效果，并且在模型的训练效率上也能取得有竞争力的效果，可以作为主题驱动下的图像生成通用方法。

附图说明

图1为一个实施例中一种基于主题驱动与多模态融合的图像生成方法的流程示意图；

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于主题驱动与多模态融合的图像生成方法，包括以下步骤：

步骤102，获取主题图像、主题类别和提示文本；构建图像生成模型；图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块。

步骤104，根据预先设计的损失函数对多模态对齐模块进行训练，利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐，然后对对齐后的主题图像和主题类别进行编码，得到多模态主题语义向量。

根据预先设计的损失函数对多模态对齐模块进行训练，通过对比学习方式提高了图像和文本的对齐性能，该模块由预训练的图像编码器和多模态编码器构成，图像编码器用于提取通用图像特征且在训练过程中参数固定，多模态编码器用于图像和文本的对齐，接受可学习查询向量、主题类别c以及图像编码器的输出特征，查询向量通过自注意力层与主题类别向量进行交互，并通过交叉注意力层与预训练的图像编码器输出的图像特征进行交互，输出类别向量对齐的多模态主题语义向量t，通过计算多模态主题语义向量可以提高模型对于图像的语义理解能力。

步骤106，利用文本编码模块对提示文本和多模态主题语义向量进行融合，得到混合后的多模态特征向量。

文本编码模块采用Transformer结构，将提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列，然后将多模态主题语义向量/>通过多层感知机映射到语义空间，然后与提示文本的特征向量序列做拼接得到多模态特征向量/>，通过将提示文本和多模态主题语义向量进行融合，使得融合后的多模态特征向量能够与提示文本的语义特征一一对应，紧密相连，在后续图像生成过程，提高图像生成的准确率。

步骤108，根据通用面部表征神经网络对主题图像进行提取，得到视觉图像；利用条件编码模块对视觉图像进行特征转化，得到语义特征向量。

在条件编码模块设计了个专家网络和一个门控网络来构成混合专家模型，每个专家网络由编码器和解码器构成，编码器负责将输入的视觉图像转化为高维特征，解码器则负责将高维特征和低维特征进行融合，得到融合特征。门控网络的作用是动态地选择和组合融合特征，以获得更准确的视觉图像语义，进而提高图像生成的效率。

步骤110，利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像。

图像生成模块基于扩散模型的逆向去燥生成图像，利用正向扩散加噪实现训练，在训练过程当中，多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器，视觉图像的语义特征向量通过与深度学习分割网络的编码器特征相加进行融合，服从高斯分布的噪声通过马尔可夫过程得到t时刻的噪声向量/>，将图像状态被视为马尔可夫链中的一个状态，通过迭代当前状态在链中依次转移到下一个状态，噪声向量是从高斯分布当中随机采样获得，然后对噪声向量进行迭代去噪（解码）就得到了生成的图像，通过逐渐降低噪声来生成图像。同时根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数，通过不断优化逆向去噪的过程来提高模型的图像生成能力。

在本申请中，图像生成模型的总的损失函数为

；

其中，表示可训练参数,/>表示图像生成模块的损失,/>表示多模态对齐模块的损失。

上述基于主题驱动与多模态融合的图像生成方法中，本申请利用多模态对齐模块实现主题图像和主题类别的对齐，提取多模态主题语义向量，提高了图像和文本的对齐性能，通过多层感知机映射到文本嵌入空间实现多模态主题语义向量与文本提示向量做融合，根据通用面部表征神经网络对主题图像进行提取，得到视觉图像，利用条件编码模块对视觉图像进行特征转化，以获得更准确的视觉图像语义，将得到的语义特征向量通过混合专家模型注入扩散模型的解码模块，最后对服从高斯分布的样本通过逆向迭代去噪过程生成图像，提高了主题驱动的图像生成效率。在效果上，与当前未使用额外数据的同类方法对比，本申请在主题驱动生成数据集上取得了最好效果，并且在模型的训练效率上也能取得有竞争力的效果，可以作为主题驱动下的图像生成通用方法。

在其中一个实施例中，预先设计的损失函数为

；

根据门控网络动态地选择和组合融合特征，得到语义特征为

；

在具体实施例中，根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数能够训练模型去噪的能力，从而提高图像的生成质量。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于主题驱动与多模态融合的图像生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于主题驱动与多模态融合的图像生成方法，其特征在于，所述方法包括：

获取主题图像、主题类别和提示文本；构建图像生成模型；所述图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块；

利用文本编码模块对所述提示文本和所述多模态主题语义向量进行融合，得到混合后的多模态特征向量；

根据通用面部表征神经网络对所述主题图像进行提取，得到视觉图像；利用条件编码模块对所述视觉图像进行特征转化，得到语义特征向量；

利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像；

所述预先设计的损失函数为

；

其中，表示多模态对齐模块，/>表示训练集合的样本个数，/>表示主题类别的个数，为温度系数，/>表示第/>个主题类别的特征向量，/>表示第/>个主题的图像语义特征向量的第/>个分量；

所述条件编码模块包括由多个专家网络和一个门控网络组成的混合专家模型，每个专家网络由编码器和解码器构成；利用条件编码模块对所述视觉图像进行特征转化，得到语义特征向量，包括：

根据编码器将视觉图像转化为高维特征，解码器将高维特征和低维特征进行融合，得到融合特征；利用门控网络动态地选择和组合融合特征，得到语义特征向量；

利用门控网络动态地选择和组合融合特征，得到语义特征向量，包括：

根据门控网络动态地选择和组合融合特征，得到语义特征向量为

；

2.根据权利要求1所述的方法，其特征在于，所述训练后的多模态对齐模块包括预训练的图像编码器和多模态编码器；利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐，然后对对齐后的主题图像和主题类别进行编码，得到多模态主题语义向量，包括：

根据预训练的图像编码器对主题图像进行特征提取，得到通用图像特征；利用所述多模态编码器将主题图像和主题类别进行对齐，接受可学习查询向量、主题类别以及通用图像特征，查询向量通过自注意力层与主题类别向量进行交互，并通过交叉注意力层与通用图像特征进行交互，输出类别向量对齐的多模态主题语义向量。

3.根据权利要求1至2任意一项所述的方法，其特征在于，所述文本编码模块包括多层的多头自注意力模块、前馈神经网络以及残差连接网络；利用文本编码模块对获取的提示文本和所述多模态主题语义向量进行融合，得到混合后的多模态特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像之前，还包括：

；

其中，为期望值，/>表示从高斯分布中采样的噪声向量，/> 表示多模态特征向量，/>表示扩散模型的可训练参数，/>表示采样的总步长，/>表示训练集合中的图像，/>表示噪声向量。

5.根据权利要求4所述的方法，其特征在于，所述扩散模型包括深度学习分割网络的编码器和解码器；利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入，对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥，生成提示文本对应的图像，包括：

利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入，多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器，得到深度学习分割网络的编码器特征；语义特征向量通过与深度学习分割网络的编码器特征相加进行融合，得到融合后的特征向量；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。