CN117726721B - 基于主题驱动与多模态融合的图像生成方法、设备及介质 - Google Patents
基于主题驱动与多模态融合的图像生成方法、设备及介质 Download PDFInfo
- Publication number
- CN117726721B CN117726721B CN202410175704.6A CN202410175704A CN117726721B CN 117726721 B CN117726721 B CN 117726721B CN 202410175704 A CN202410175704 A CN 202410175704A CN 117726721 B CN117726721 B CN 117726721B
- Authority
- CN
- China
- Prior art keywords
- theme
- image
- feature vector
- semantic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 169
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000001815 facial effect Effects 0.000 claims abstract description 3
- 238000009792 diffusion process Methods 0.000 claims description 23
- 238000001035 drying Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000012512 characterization method Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种基于主题驱动与多模态融合的图像生成方法、设备及介质。所述方法包括:构建图像生成模型;图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块;根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块对主题图像和主题类别进行编码,利用文本编码模块对提示文本和多模态主题语义向量进行融合,根据通用面部表征神经网络对主题图像进行提取,利用条件编码模块对得到的视觉图像进行特征转化,利用图像生成模块对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像。采用本方法能够提高主题驱动的图像生成效率。
Description
技术领域
本申请涉及图像生成技术领域,特别是涉及一种基于主题驱动与多模态融合的图像生成方法、设备及介质。
背景技术
文本到图像生成模型已经有了显著的发展,并且能够根据文本提示创建高质量的图像。基于主题驱动的生成是生成式模型的应用之一,旨在保留主题外观的同时呈现输入主题的新风格。主题驱动生成的常见方法是通过将主题视觉内容反转为文本嵌入空间,通过预训练的文本到图像生成模型,对占位符文本嵌入向量进行优化,以重构一组主题图像,然后这些嵌入向量被组合成自然语言提示,用于创建不同的主题风格。
Rinon Gal等人基于扩散模型提出了使用占位文本嵌入来表示视觉概念,并优化嵌入以重构主题图像。Nataniel Ruiz等人采用类似的方法,同时对扩散模型进行微调,从而提高了表达能力和主题保真度。这两种方法的缺点是它们对每个新主题的微调时间较长,这阻碍了这些方法的扩展。Wenhu Chen等人的工作提出了一种知识蒸馏方法,可以从数百万个经过微调的专家模型中学习零样本生成,他们的模型在主题姿势上显示出较少的灵活性,并且可能会被输入图像的背景所分散注意力。然而,对于每个新主题,这些方法需要重复进行多次繁琐的微调步骤,这阻碍了模型在广泛的主题范围内进行高效的扩展,图像生成效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高主题驱动的图像生成效率的基于主题驱动与多模态融合的图像生成方法、设备及介质。
一种基于主题驱动与多模态融合的图像生成方法,所述方法包括:
获取主题图像、主题类别和提示文本;构建图像生成模型;图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块;
根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量;
利用文本编码模块对提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量;
根据通用面部表征神经网络对主题图像进行提取,得到视觉图像;利用条件编码模块对视觉图像进行特征转化,得到语义特征向量;
利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像。
在其中一个实施例中,训练后的多模态对齐模块包括预训练的图像编码器和多模态编码器;利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量,包括:
根据预训练的图像编码器对主题图像进行特征提取,得到通用图像特征;利用多模态编码器将主题图像和主题类别进行对齐,接受可学习查询向量、主题类别以及通用图像特征,查询向量通过自注意力层与主题类别向量进行交互,并通过交叉注意力层与通用图像特征进行交互,输出类别向量对齐的多模态主题语义向量。
在其中一个实施例中,预先设计的损失函数为
;
其中,表示多模态对齐模块,/>表示训练集合的样本个数,/>表示主题类别的个数,/>为温度系数,/>表示第/>个主题类别的特征向量,/>表示第/>个主题的图像语义特征向量的第/>个分量。
在其中一个实施例中,文本编码模块包括多层的多头自注意力模块、前馈神经网络以及残差连接网络;利用文本编码模块对获取的提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量,包括:
将获取的提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列,然后将多模态主题语义向量通过多层感知机制映射到语义空间,然后与提示文本的特征向量序列做拼接得到多模态特征向量。
在其中一个实施例中,条件编码模块包括由多个专家网络和一个门控网络组成的混合专家模型,每个专家网络由编码器和解码器构成;利用条件编码模块对视觉图像进行特征转化,得到语义特征,包括:
根据编码器将视觉图像转化为高维特征,解码器将高维特征和低维特征进行融合,得到融合特征;利用门控网络动态地选择和组合融合特征,得到语义特征。
在其中一个实施例中,利用门控网络动态地选择和组合融合特征,得到语义特征,包括:
根据门控网络动态地选择和组合融合特征,得到语义特征为
;
其中,表示视觉图像,/>表示第/>个门控网络,/>和/>分别表示第/>个专家网络的编码器和解码器,/>表示专家网络个数。
在其中一个实施例中,利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像之前,还包括:
根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数为
;
其中,为期望值,/>表示从高斯分布中采样的噪声向量,/>表示多模态特征向量,/>表示扩散模型的可训练参数,/>表示采样的总步长,/>表示训练集合中的图像,表示噪声向量。
在其中一个实施例中,扩散模型包括深度学习分割网络的编码器和解码器;利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像,包括:
利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器,得到深度学习分割网络的编码器特征;语义特征向量通过与深度学习分割网络的编码器特征相加进行融合,得到融合后的特征向量;
将图像状态被视为马尔可夫链中的一个状态,通过迭代当前状态在链中依次转移到下一个状态,对融合后的特征向量进行逆向去燥,生成提示文本对应的图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取主题图像、主题类别和提示文本;构建图像生成模型;图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块;
根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量;
利用文本编码模块对提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量;
根据通用面部表征神经网络对主题图像进行提取,得到视觉图像;利用条件编码模块对视觉图像进行特征转化,得到语义特征向量;
利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取主题图像、主题类别和提示文本;构建图像生成模型;图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块;
根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量;
利用文本编码模块对提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量;
根据通用面部表征神经网络对主题图像进行提取,得到视觉图像;利用条件编码模块对视觉图像进行特征转化,得到语义特征向量;
利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像。
上述基于主题驱动与多模态融合的图像生成方法、设备及介质,本申请利用多模态对齐模块实现主题图像和主题类别的对齐,提取多模态主题语义向量,提高了图像和文本的对齐性能,通过多层感知机映射到文本嵌入空间实现多模态主题语义向量与文本提示向量做融合,根据通用面部表征神经网络对主题图像进行提取,得到视觉图像,利用条件编码模块对视觉图像进行特征转化,以获得更准确的视觉图像语义,将得到的语义特征向量通过混合专家模型注入扩散模型的解码模块,最后对服从高斯分布的样本通过逆向迭代去噪过程生成图像,提高了主题驱动的图像生成效率。在效果上,与当前未使用额外数据的同类方法对比,本申请在主题驱动生成数据集上取得了最好效果,并且在模型的训练效率上也能取得有竞争力的效果,可以作为主题驱动下的图像生成通用方法。
附图说明
图1为一个实施例中一种基于主题驱动与多模态融合的图像生成方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于主题驱动与多模态融合的图像生成方法,包括以下步骤:
步骤102,获取主题图像、主题类别和提示文本;构建图像生成模型;图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块。
步骤104,根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量。
根据预先设计的损失函数对多模态对齐模块进行训练,通过对比学习方式提高了图像和文本的对齐性能,该模块由预训练的图像编码器和多模态编码器构成,图像编码器用于提取通用图像特征且在训练过程中参数固定,多模态编码器用于图像和文本的对齐,接受可学习查询向量、主题类别c以及图像编码器的输出特征,查询向量通过自注意力层与主题类别向量进行交互,并通过交叉注意力层与预训练的图像编码器输出的图像特征进行交互,输出类别向量对齐的多模态主题语义向量t,通过计算多模态主题语义向量可以提高模型对于图像的语义理解能力。
步骤106,利用文本编码模块对提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量。
文本编码模块采用Transformer结构,将提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列,然后将多模态主题语义向量/>通过多层感知机映射到语义空间,然后与提示文本的特征向量序列做拼接得到多模态特征向量/>,通过将提示文本和多模态主题语义向量进行融合,使得融合后的多模态特征向量能够与提示文本的语义特征一一对应,紧密相连,在后续图像生成过程,提高图像生成的准确率。
步骤108,根据通用面部表征神经网络对主题图像进行提取,得到视觉图像;利用条件编码模块对视觉图像进行特征转化,得到语义特征向量。
在条件编码模块设计了个专家网络和一个门控网络来构成混合专家模型,每个专家网络由编码器和解码器构成,编码器负责将输入的视觉图像转化为高维特征,解码器则负责将高维特征和低维特征进行融合,得到融合特征。门控网络的作用是动态地选择和组合融合特征,以获得更准确的视觉图像语义,进而提高图像生成的效率。
步骤110,利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像。
图像生成模块基于扩散模型的逆向去燥生成图像,利用正向扩散加噪实现训练,在训练过程当中,多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器,视觉图像的语义特征向量通过与深度学习分割网络的编码器特征相加进行融合,服从高斯分布的噪声通过马尔可夫过程得到t时刻的噪声向量/>,将图像状态被视为马尔可夫链中的一个状态,通过迭代当前状态在链中依次转移到下一个状态,噪声向量是从高斯分布当中随机采样获得,然后对噪声向量进行迭代去噪(解码)就得到了生成的图像,通过逐渐降低噪声来生成图像。同时根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数,通过不断优化逆向去噪的过程来提高模型的图像生成能力。
在本申请中,图像生成模型的总的损失函数为
;
其中,表示可训练参数,/>表示图像生成模块的损失,/>表示多模态对齐模块的损失。
上述基于主题驱动与多模态融合的图像生成方法中,本申请利用多模态对齐模块实现主题图像和主题类别的对齐,提取多模态主题语义向量,提高了图像和文本的对齐性能,通过多层感知机映射到文本嵌入空间实现多模态主题语义向量与文本提示向量做融合,根据通用面部表征神经网络对主题图像进行提取,得到视觉图像,利用条件编码模块对视觉图像进行特征转化,以获得更准确的视觉图像语义,将得到的语义特征向量通过混合专家模型注入扩散模型的解码模块,最后对服从高斯分布的样本通过逆向迭代去噪过程生成图像,提高了主题驱动的图像生成效率。在效果上,与当前未使用额外数据的同类方法对比,本申请在主题驱动生成数据集上取得了最好效果,并且在模型的训练效率上也能取得有竞争力的效果,可以作为主题驱动下的图像生成通用方法。
在其中一个实施例中,训练后的多模态对齐模块包括预训练的图像编码器和多模态编码器;利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量,包括:
根据预训练的图像编码器对主题图像进行特征提取,得到通用图像特征;利用多模态编码器将主题图像和主题类别进行对齐,接受可学习查询向量、主题类别以及通用图像特征,查询向量通过自注意力层与主题类别向量进行交互,并通过交叉注意力层与通用图像特征进行交互,输出类别向量对齐的多模态主题语义向量。
在其中一个实施例中,预先设计的损失函数为
;
其中,表示多模态对齐模块,/>表示训练集合的样本个数,/>表示主题类别的个数,/>为温度系数,/>表示第/>个主题类别的特征向量,/>表示第/>个主题的图像语义特征向量的第/>个分量。
在其中一个实施例中,文本编码模块包括多层的多头自注意力模块、前馈神经网络以及残差连接网络;利用文本编码模块对获取的提示文本和多模态主题语义向量进行融合,得到混合后的多模态特征向量,包括:
将获取的提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列,然后将多模态主题语义向量通过多层感知机制映射到语义空间,然后与提示文本的特征向量序列做拼接得到多模态特征向量。
在其中一个实施例中,条件编码模块包括由多个专家网络和一个门控网络组成的混合专家模型,每个专家网络由编码器和解码器构成;利用条件编码模块对视觉图像进行特征转化,得到语义特征,包括:
根据编码器将视觉图像转化为高维特征,解码器将高维特征和低维特征进行融合,得到融合特征;利用门控网络动态地选择和组合融合特征,得到语义特征。
在其中一个实施例中,利用门控网络动态地选择和组合融合特征,得到语义特征,包括:
根据门控网络动态地选择和组合融合特征,得到语义特征为
;
其中,表示视觉图像,/>表示第/>个门控网络,/>和/>分别表示第/>个专家网络的编码器和解码器,/>表示专家网络个数。
在其中一个实施例中,利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像之前,还包括:
根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数为
;
其中,为期望值,/>表示从高斯分布中采样的噪声向量,/>表示多模态特征向量,/>表示扩散模型的可训练参数,/>表示采样的总步长,/>表示训练集合中的图像,表示噪声向量。
在具体实施例中,根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数能够训练模型去噪的能力,从而提高图像的生成质量。
在其中一个实施例中,扩散模型包括深度学习分割网络的编码器和解码器;利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像,包括:
利用图像生成模块采用扩散模型接受语义特征向量以及混合后的多模态特征向量作为输入,多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器,得到深度学习分割网络的编码器特征;语义特征向量通过与深度学习分割网络的编码器特征相加进行融合,得到融合后的特征向量;
将图像状态被视为马尔可夫链中的一个状态,通过迭代当前状态在链中依次转移到下一个状态,对融合后的特征向量进行逆向去燥,生成提示文本对应的图像。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于主题驱动与多模态融合的图像生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于主题驱动与多模态融合的图像生成方法,其特征在于,所述方法包括:
获取主题图像、主题类别和提示文本;构建图像生成模型;所述图像生成模型包括多模态对齐模块、文本编码模块、条件编码模块和图像生成模块;
根据预先设计的损失函数对多模态对齐模块进行训练,利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量;
利用文本编码模块对所述提示文本和所述多模态主题语义向量进行融合,得到混合后的多模态特征向量;
根据通用面部表征神经网络对所述主题图像进行提取,得到视觉图像;利用条件编码模块对所述视觉图像进行特征转化,得到语义特征向量;
利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像;
所述预先设计的损失函数为
;
其中,表示多模态对齐模块,/>表示训练集合的样本个数,/>表示主题类别的个数,为温度系数,/>表示第/>个主题类别的特征向量,/>表示第/>个主题的图像语义特征向量的第/>个分量;
所述条件编码模块包括由多个专家网络和一个门控网络组成的混合专家模型,每个专家网络由编码器和解码器构成;利用条件编码模块对所述视觉图像进行特征转化,得到语义特征向量,包括:
根据编码器将视觉图像转化为高维特征,解码器将高维特征和低维特征进行融合,得到融合特征;利用门控网络动态地选择和组合融合特征,得到语义特征向量;
利用门控网络动态地选择和组合融合特征,得到语义特征向量,包括:
根据门控网络动态地选择和组合融合特征,得到语义特征向量为
;
其中,表示视觉图像,/>表示第/>个门控网络,/>和/>分别表示第/>个专家网络的编码器和解码器,/>表示专家网络个数。
2.根据权利要求1所述的方法,其特征在于,所述训练后的多模态对齐模块包括预训练的图像编码器和多模态编码器;利用训练后的多模态对齐模块将主题图像和主题类别在隐空间进行对齐,然后对对齐后的主题图像和主题类别进行编码,得到多模态主题语义向量,包括:
根据预训练的图像编码器对主题图像进行特征提取,得到通用图像特征;利用所述多模态编码器将主题图像和主题类别进行对齐,接受可学习查询向量、主题类别以及通用图像特征,查询向量通过自注意力层与主题类别向量进行交互,并通过交叉注意力层与通用图像特征进行交互,输出类别向量对齐的多模态主题语义向量。
3.根据权利要求1至2任意一项所述的方法,其特征在于,所述文本编码模块包括多层的多头自注意力模块、前馈神经网络以及残差连接网络;利用文本编码模块对获取的提示文本和所述多模态主题语义向量进行融合,得到混合后的多模态特征向量,包括:
将获取的提示文本输入多层的多头自注意力模块、前馈神经网络以及残差连接网络得到提示文本的特征向量序列,然后将多模态主题语义向量通过多层感知机制映射到语义空间,然后与提示文本的特征向量序列做拼接得到多模态特征向量。
4.根据权利要求1所述的方法,其特征在于,利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像之前,还包括:
根据最小化负对数自然的变分下界原理设计逆向去燥的损失函数为
;
其中,为期望值,/>表示从高斯分布中采样的噪声向量,/> 表示多模态特征向量,/>表示扩散模型的可训练参数,/>表示采样的总步长,/>表示训练集合中的图像,/>表示噪声向量。
5.根据权利要求4所述的方法,其特征在于,所述扩散模型包括深度学习分割网络的编码器和解码器;利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入,对输入的语义特征向量以及混合后的多模态特征向量进行逆向去燥,生成提示文本对应的图像,包括:
利用图像生成模块采用扩散模型接受所述语义特征向量以及混合后的多模态特征向量作为输入,多模态特征向量通过交叉注意力机制注入到深度学习分割网络的编码器与解码器,得到深度学习分割网络的编码器特征;语义特征向量通过与深度学习分割网络的编码器特征相加进行融合,得到融合后的特征向量;
将图像状态被视为马尔可夫链中的一个状态,通过迭代当前状态在链中依次转移到下一个状态,对融合后的特征向量进行逆向去燥,生成提示文本对应的图像。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410175704.6A CN117726721B (zh) | 2024-02-08 | 2024-02-08 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410175704.6A CN117726721B (zh) | 2024-02-08 | 2024-02-08 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117726721A CN117726721A (zh) | 2024-03-19 |
CN117726721B true CN117726721B (zh) | 2024-04-30 |
Family
ID=90200166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410175704.6A Active CN117726721B (zh) | 2024-02-08 | 2024-02-08 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117726721B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222222A (zh) * | 2019-06-18 | 2019-09-10 | 西安电子科技大学 | 基于深层主题自编码模型的多模态检索方法 |
EP3754548A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A method for recognizing an object in an image using features vectors of an encoding neural network |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
CN113449085A (zh) * | 2021-09-02 | 2021-09-28 | 华南师范大学 | 多模态情感分类方法、装置以及电子设备 |
CN113672716A (zh) * | 2021-08-25 | 2021-11-19 | 中山大学·深圳 | 基于深度学习和多模态数值推理的几何题解答方法及模型 |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
EP4134921A1 (en) * | 2021-07-01 | 2023-02-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for training video label recommendation model, and method for determining video label |
CN115809327A (zh) * | 2023-02-08 | 2023-03-17 | 四川大学 | 一种多模融合和话题的实时社交网络谣言检测方法 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN115964638A (zh) * | 2022-12-30 | 2023-04-14 | 深圳市网联安瑞网络科技有限公司 | 多模态社交数据情感分类方法、系统、终端、设备及应用 |
CN116150480A (zh) * | 2023-01-05 | 2023-05-23 | 合肥工业大学 | 一种融合多模态评论信息的用户个性化需求预测方法 |
WO2023093574A1 (zh) * | 2021-11-25 | 2023-06-01 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN116680343A (zh) * | 2023-06-01 | 2023-09-01 | 北京理工大学 | 基于融合多模态信息的实体和关系表示的链接预测方法 |
CN117216546A (zh) * | 2023-05-31 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
CN117290461A (zh) * | 2023-11-24 | 2023-12-26 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
WO2024012251A1 (zh) * | 2022-07-11 | 2024-01-18 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
CN117421591A (zh) * | 2023-10-16 | 2024-01-19 | 长春理工大学 | 一种基于文本引导图像块筛选的多模态表征学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220392637A1 (en) * | 2021-06-02 | 2022-12-08 | Neumora Therapeutics, Inc. | Multimodal dynamic attention fusion |
CN113240056B (zh) * | 2021-07-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
-
2024
- 2024-02-08 CN CN202410175704.6A patent/CN117726721B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3754548A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A method for recognizing an object in an image using features vectors of an encoding neural network |
CN110222222A (zh) * | 2019-06-18 | 2019-09-10 | 西安电子科技大学 | 基于深层主题自编码模型的多模态检索方法 |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
EP4134921A1 (en) * | 2021-07-01 | 2023-02-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for training video label recommendation model, and method for determining video label |
CN113672716A (zh) * | 2021-08-25 | 2021-11-19 | 中山大学·深圳 | 基于深度学习和多模态数值推理的几何题解答方法及模型 |
CN113449085A (zh) * | 2021-09-02 | 2021-09-28 | 华南师范大学 | 多模态情感分类方法、装置以及电子设备 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
WO2023093574A1 (zh) * | 2021-11-25 | 2023-06-01 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
CN114580425A (zh) * | 2022-05-06 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 命名实体识别的方法和装置,以及电子设备和存储介质 |
WO2024012251A1 (zh) * | 2022-07-11 | 2024-01-18 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
CN117437516A (zh) * | 2022-07-11 | 2024-01-23 | 北京字跳网络技术有限公司 | 语义分割模型训练方法、装置、电子设备及存储介质 |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
CN115964638A (zh) * | 2022-12-30 | 2023-04-14 | 深圳市网联安瑞网络科技有限公司 | 多模态社交数据情感分类方法、系统、终端、设备及应用 |
CN116150480A (zh) * | 2023-01-05 | 2023-05-23 | 合肥工业大学 | 一种融合多模态评论信息的用户个性化需求预测方法 |
CN115809327A (zh) * | 2023-02-08 | 2023-03-17 | 四川大学 | 一种多模融合和话题的实时社交网络谣言检测方法 |
CN117216546A (zh) * | 2023-05-31 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
CN116680343A (zh) * | 2023-06-01 | 2023-09-01 | 北京理工大学 | 基于融合多模态信息的实体和关系表示的链接预测方法 |
CN117421591A (zh) * | 2023-10-16 | 2024-01-19 | 长春理工大学 | 一种基于文本引导图像块筛选的多模态表征学习方法 |
CN117290461A (zh) * | 2023-11-24 | 2023-12-26 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Non-Patent Citations (6)
Title |
---|
一种融合知识图谱的图注意力神经网络谣言实时检测方法;王根生 等;数据分析与知识发现;20230607;全文 * |
基于多模态神经网络生成图像中文描述;陈兴;;计算机系统应用;20200915(第09期);全文 * |
基于深度学习的图像自动标注方法综述;常致富;周风余;王玉刚;沈冬冬;赵阳;;山东大学学报(工学版);20191118(第06期);全文 * |
基于深度学习的领域知识对齐模型研究:知识网络视角;余传明;李浩男;安璐;;情报学报;20200524(第05期);全文 * |
基于表示学习的跨模态检索模型与特征抽取研究综述;李志义;黄子风;许晓绵;;情报学报;20180424(第04期);全文 * |
融合图像注意力的多模态机器翻译模型;李霞;马骏腾;覃世豪;;中文信息学报;20200715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117726721A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
Zhang et al. | Adversarial feature matching for text generation | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN112800757B (zh) | 关键词生成方法、装置、设备及介质 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN111563160B (zh) | 基于全局语义的文本自动摘要方法、装置、介质及设备 | |
Qin | Dual learning | |
Mitton et al. | A graph vae and graph transformer approach to generating molecular graphs | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN111125323B (zh) | 一种聊天语料标注方法、装置、电子设备及存储介质 | |
Huai et al. | Zerobn: Learning compact neural networks for latency-critical edge systems | |
Du et al. | Efficient network construction through structural plasticity | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN114741507B (zh) | 基于Transformer的图卷积网络的引文网络分类模型建立及分类 | |
Zhen et al. | Toward compact transformers for end-to-end object detection with decomposed chain tensor structure | |
Tang et al. | A Survey on Transformer Compression | |
CN117726721B (zh) | 基于主题驱动与多模态融合的图像生成方法、设备及介质 | |
CN116821340A (zh) | 基于深度学习的多标签文本分类方法 | |
CN111414762A (zh) | 基于dcu编码和自注意力机制的机器阅读理解方法 | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
Huang et al. | Efficient representation learning via adaptive context pooling | |
CN114464267A (zh) | 模型训练与生成物预测的方法及装置 | |
Chen et al. | Adaptive joint attention with reinforcement training for convolutional image caption | |
CN111291576A (zh) | 神经网络内部表示信息量确定方法、装置、设备、介质 | |
Li et al. | Attention-aware invertible hashing network with skip connections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |