CN117725247B - 一种基于检索及分割增强的扩散图像生成方法及系统 - Google Patents

一种基于检索及分割增强的扩散图像生成方法及系统 Download PDF

Info

Publication number
CN117725247B
CN117725247B CN202410172400.4A CN202410172400A CN117725247B CN 117725247 B CN117725247 B CN 117725247B CN 202410172400 A CN202410172400 A CN 202410172400A CN 117725247 B CN117725247 B CN 117725247B
Authority
CN
China
Prior art keywords
image
vector
model
text
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410172400.4A
Other languages
English (en)
Other versions
CN117725247A (zh
Inventor
冯好国
徐青伟
严长春
裴非
范娥媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co ltd
Zhiguagua Tianjin Big Data Technology Co ltd
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Beijing Zhiguagua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd, Beijing Zhiguagua Technology Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202410172400.4A priority Critical patent/CN117725247B/zh
Publication of CN117725247A publication Critical patent/CN117725247A/zh
Application granted granted Critical
Publication of CN117725247B publication Critical patent/CN117725247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Processing (AREA)

Abstract

本申请公开了一种基于检索及分割增强的扩散图像生成方法及系统,方法包括模型构建、数据集构建、模型训练以及图像生成,通过将图像检索及语义分割技术与扩散模型相结合,在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果,结合用户输入的描述文本和检索及语义分割得到的图像向量融合,丰富了输入信息种类。外部检索图像扩充了描述文本的语义;语义分割形成的构成部件拆解细化了对待生成图像的结构理解。本申请在理解基础上指导扩散模型更加准确、多样的生成图像,提高了生成图像的语义一致性和视觉质量,能够生成与文本描述更加匹配的图像。

Description

一种基于检索及分割增强的扩散图像生成方法及系统
技术领域
本申请涉及图像处理技术领域,具体涉及一种基于检索及分割增强的扩散图像生成方法及系统。
背景技术
随着计算机图像技术的不断发展,人工智能领域的研究者们致力于提高图像生成的质量和多样性。
现有技术如一种基于过渡空间映射的文本生成图像方法和系统(CN110930469B的中国专利公开文本),基于跨模态相似度和生成对抗网络的文本生成图像方法(CN110490946B的中国专利公开文本),一种基于语义内容和快速图像检索的照片级图像生成方法(CN110634170B的中国专利公开文本),一种知识驱动型的文本到图像生成方法(授权公告号CN113837229A的中国专利公开文本),都是通过训练由生成式对抗网络组成的图像生成模型进而实现扩散图像生成。
然而,现有技术的生成对抗网络GAN训练生成器中生成的图像发生同质化,缺少多样性,即生成器一直生成单一类别的输出,存在存在模式崩溃挑战。模式崩溃是GAN训练中最常见的挑战,也是亟需解决的问题之一。
发明内容
本申请提供一种基于检索及分割增强的扩散图像生成方法及系统,旨在解决现有技术知识抽取模型多领域适配性差的问题。
第一方面,一种基于检索及分割增强的扩散图像生成方法,所述方法包括
S1模型构建、S2数据集构建、S3模型训练以及S4图像生成,具体包括:
S1模型构建,其中,所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;
S2数据集构建,包括建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;
S3模型训练,包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;
S4图像生成,包括获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
可选地,所述S1模型构建中,所述分割模型包括图像编码器、提示编码器和快速掩码解码器;所述Chinese-Clip模型包括文本编码器、图像编码器和特征空间;所述多层感知机由输入层、输出层和多个隐藏层构成;所述噪声生成模块用于在模型训练阶段产生高斯噪声。
可选地,所述S1模型构建中,所述扩散模型具体包括U-Net模型、变分自编码器以及检索及分割增强条件机制,具体地:
检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割,并在描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏;变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像;U-Net模块用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征。
可选地,所述S1模型构建中,所述扩散模型具体包括U-Net模型、变分自编码器以及检索及分割增强条件机制,具体地:
检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割,并在描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏;变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像;U-Net模块用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征。
可选地,S2数据集构建具体包括:
S101:利用分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图;
S102:使用Chinese-Clip模型的图像编码器对所述图像库中的图像及其主要部件构件构成子图执行图像编码,实现向量化,其中,默认维度均为768;对主要部件构成子图的所有向量求均值,然后拼接到图像向量后面,形成拼接向量,维度768×2;其中/>表示图像库中某张图像经Chinese-CLIP编码后的向量,默认维度768;/>表示某张图像的所有主要部件构成子图Chinese-CLIP编码的向量求均值后的向量,默认为维度768;
S103:对S22中的向量进行归一化,使用L2范数将向量归一化,公式包括:
其中,是归一化后的向量,/>是拼接向量,/>表示计算其中向量/>的L2范数,即向量/>中各元素平方和的平方根;
S104:获取图像库中图像描述文本,经Chinese-Clip文本编码器获取文本向量
S105:将归一化向量和步骤S104获取的图像描述文本的向量/>配对存储到faiss向量数据库。
可选地,所述S3模型训练具体包括:
S201:输入图像描述文本,经Chinese-Clip文本编码器获取文本向量
S202:使用文本向量检索faiss向量库,获取Top-K图像向量/>
S203:将用户输入文本经过扩散模型的文本编码器,得到文本的嵌入向量,维度为dim,默认值为768;
S204:通过多层感知机实现增强融合;所述多层感知机具体为:
其中,MLP表示多层感知机,用于将检索出的图像向量和文本向量做融合,指导扩散模型的图像生成,维度为,其中初始参数设置为:为1,其余值为0,使得/>的初始结果为/>;/>表示拼接方法,实现对括号内所有参数进行拼接;/>表示Top-K图像向量;/>表示描述文本经扩散模型文本编码器输出的文本嵌入向量;
S205:输出图像和文本的融合向量。
可选地,所述S3模型训练还包括:
S301:冻结扩散模型的文本编码器和变分自动编码器模块;
S302:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S303:根据当前描述文本经Chinese-Clip编码向量化,然后到faiss向量库中检索出Top-K图像向量
S304:应用Top-K图像向量与文本嵌入向量/>进行融合,得到融合向量并经检索及分割增强的条件机制输入模型;
S305:根据模型生成图像和样本库图像之间的差异,计算得到损失函数值,其中,采用MSE损失计算预测图像和输入图像之间的差异,计算过程如下:
其中,表示平方和,即计算对象/>中各元素的平方和;/>表示模型训练时添加的噪声;/>表示训练中的模型预测出的噪声;/>表示训练过程学习到的模型参数;/>是所有时刻超参数的乘积,控制图像内容和噪声的权重,即;/>表示检索文本对应的样本图像;t表示加噪的最终时刻;
S306:使用AdamW优化器优化模型,更新UNet模块和用于融合检索图像和文本信息内容的MLP模块;
S307:遍历数据集所有数据,迭代执行S302至S306;
S308:迭代执行步骤直到数据集遍历次数达到设定阈值止,其中,设置阈值为20;
S309:输出训练好的扩散模型。
可选地,所述S4图像生成具体包括:
S401:提供描述文本input;
S402:使用Chinese-Clip的文本编码器对input进行编码,得到文本嵌入向量
S403:在faiss向量数据库中,根据文本嵌入向量检索出与其最相似的Top-K图像向量;
S404:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S405:对检索到的Top-K图像向量和文本嵌入向量,使用MLP进行向量融合,得到融合向量;
S406:将描述文本和融合向量输入扩散模型,预测生成图像。
第二方面,一种基于检索及分割增强的扩散图像生成系统,所述系统包括模型构建单元,其中构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;
数据集构建单元,用于建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;
模型训练单元,用于将配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;
图像生成单元,用于获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的基于检索及分割增强的扩散图像生成方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的基于检索及分割增强的扩散图像生成方法。
相比现有技术,本申请至少具有以下有益效果:
本发明通过将图像检索及语义分割技术与扩散模型相结合,在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果,结合用户输入的描述文本和检索及语义分割得到的图像向量融合,丰富了输入信息种类。外部检索图像扩充了描述文本的语义;语义分割形成的构成部件拆解细化了对待生成图像的结构理解。在理解基础上指导扩散模型更加准确、多样的生成图像,提高了生成图像的语义一致性和视觉质量,能够生成与文本描述更加匹配的图像。
本发明钟基于检索及分割增强的扩散模型基于稳定扩散模型实现,避免了GAN生成器存在的模式崩溃现象。
本发明使用faiss向量数据库进行快速检索,大大提高了检索速度,使得整个图像生成过程更加高效。
本发明采用了渐进式训练策略,从低分辨率图像开始,逐渐增加图像的分辨率,这不仅可以加速模型的收敛,还可以提高生成图像的质量。
附图说明
图1为本申请实施例提供的一种基于检索及分割增强的扩散图像生成方法框图;
图2为本申请实施例提供的检索及分割增强的条件机制扩散模型架构;
图3为本申请实施例提供的数据集构建及模型训练示意图;
图4为本申请实施例提供的应用模型生成图像示意图;
图5为本申请一个实施例提供的基于检索及分割增强的扩散图像生成系统的模块架构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请的描述中:术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。
本发明涉及一种基于检索及分割增强的扩散图像生成方法,具体基于检索及分割增强的条件扩散机制。通过将图像检索及语义分割技术与扩散模型相结合,在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果,指导扩散模型实现更加准确、多样的图像生成。利用外部检索图像扩充描述文本的语义;利用检索图像经语义分割形成的构成部件拆解细化待生成图像的结构理解。在理解基础上指导扩散模型生成图像,提高了生成图像的语义一致性和视觉质量。
在一个实施例中,本发明所公开的一种基于检索及分割增强的扩散图像生成方法,如图1所示,主要包括模型架构、数据集构建、模型训练和应用模型生成图像四部分内容,其具体包括:
S1模型构建,其中,所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成。
在本步骤中主要公开了模型的具体架构:本发明提出检索及分割增强的条件机制扩散模型,检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成,模型架构如图2所示。其中,SAM(Segment Anything Model,分割一切模型,本实施例中又称分割模型)由一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器构成,图像编码器输出图像嵌入。Chinese-Clip(中文原生图文对多模态预训练模型)是基于对比学习的多模态模型,由一个文本编码器、一个图像编码器和一个特征空间构成。MLP(多层感知机)是一种前向结构神经网络,由输入层、输出层和多个隐藏层构成。噪声生成模块用于在模型训练阶段产生高斯噪声。检索及分割增强的条件机制,检索图像库获取图像并进行语义分割,和,描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程中,发挥指导和纠偏的作用。变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像。U-Net模块是稳定扩散模型的核心之一,用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征。
S2数据集构建,包括建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中。
在本步骤中主要公开了数据集构建过程,如图3中数据集构建虚线框部分所示。输入包括:质量优良的图像库,如:能够支持图像检索的领域专用图像搜索引擎,用于图像检索;支持中文的Chinese-CLIP(中文原生图文对多模态预训练模型),用于图像编码。输出是归一化后的图像向量,并存储到faiss向量数据库。功能是实现图像库中图像向量化和归一化,并与其对应的描述文本的嵌入向量配对存储到faiss向量数据库。主要通过“算法1:数据集构建算法”实现。
其中,算法1:数据集构建算法的具体过程包括了:
输入:(1)质量优良的图像库,如:能够支持图像检索的领域专用图像搜索引擎,用于图像检索;(2)支持中文的Chinese-CLIP(中文原生图文对多模态预训练模型),用于编码图像及其描述文本。
输出:归一化图像向量及图像描述文本向量,存储到faiss向量库。
步骤具体包括了:
S101:利用SAM(Segment Anything Model,分割一切的模型)对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图。
S102:使用Chinese-Clip模型的图像编码器对所述图像库中的图像及其主要部件构件构成子图执行图像编码,实现向量化,其中,默认维度均为768;对主要部件构成子图的所有向量求均值,然后拼接到图像向量后面,形成拼接向量,维度768×2;其中/>表示图像库中某张图像经Chinese-CLIP编码后的向量,默认维度768;/>表示某张图像的所有主要部件构成子图Chinese-CLIP编码的向量求均值后的向量,默认为维度768;
S103:对S22中的向量进行归一化,使用L2范数将向量归一化,公式包括:
其中,是归一化后的向量,/>是拼接向量,/>表示计算其中向量/>的L2范数,即向量/>中各元素平方和的平方根;
S104:获取图像库中图像描述文本,经Chinese-Clip文本编码器获取文本向量
S105:将归一化向量和步骤S104获取的图像描述文本的向量/>配对存储到faiss向量数据库。
S3模型训练,包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练。
在本步骤中主要是模型训练过程,通过输入样本库图像及描述文本,输出训练好的模型,功能是训练图像生成扩散模型。
为了防止模型过早地陷入局部最优,我们采用了渐进式训练策略。所述渐进式训练策略指在训练的初期,只使用低分辨率的图像进行训练,随着训练的进行,逐渐增加图像的分辨率。应用所述渐进式训练策略可以加速模型收敛,提高生成图像的质量。
模型训练,如图3所示,主要涉及向量融合条件机制和扩散模型训练,分别为下方“算法2:向量融合算法”和“算法3:扩散模型训练算法”。
其中,算法2:向量融合算法的具体过程包括了:
输入:图像描述文本。
输出:图像和文本的融合向量。
步骤:
S201:输入图像描述文本,经Chinese-Clip文本编码器获取文本向量
S202:使用文本向量检索faiss向量库,获取Top-K图像向量/>
S203:将用户输入文本经过扩散模型的文本编码器,得到文本的嵌入向量,维度为dim,默认值为768;
S204:通过多层感知机实现增强融合;所述多层感知机具体为:
其中,MLP表示多层感知机,用于将检索出的图像向量和文本向量做融合,指导扩散模型的图像生成,维度为,其中初始参数设置为:为1,其余值为0,使得/>的初始结果为/>;/>表示拼接方法,实现对括号内所有参数进行拼接;/>表示Top-K图像向量;/>表示描述文本经扩散模型文本编码器输出的文本嵌入向量。
S205:输出图像和文本的融合向量。
算法3:扩散模型训练算法的具体过程包括了:
输入:样本库图像及描述文本。
输出:训练好的扩散模型。
步骤:
S301:冻结扩散模型的文本编码器和变分自动编码器模块。
S302:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S303:根据当前描述文本经Chinese-Clip编码向量化,然后到faiss向量库中检索出Top-K图像向量
S304:应用Top-K图像向量与文本嵌入向量/>进行融合,得到融合向量并经检索及分割增强的条件机制输入模型;
S305:根据模型生成图像和样本库图像之间的差异,计算得到损失函数值,其中,采用MSE损失计算预测图像和输入图像之间的差异,计算过程如下:
其中,表示平方和,即计算对象/>中各元素的平方和;/>表示模型训练时添加的噪声,用作标签;/>表示训练中的模型预测出的噪声;/>表示训练过程学习到的模型参数;/>是所有时刻超参数的乘积,控制图像内容和噪声的权重,即;/>表示检索文本对应的样本图像,用作标签;t表示加噪的最终时刻;
S306:使用AdamW优化器优化模型,更新UNet模块和用于融合检索图像和文本信息内容的MLP模块。
S307:遍历数据集所有数据,迭代执行S302、S303、S304、S305和S306步骤。
S308:迭代执行S302、S303、S304、S305、S306和S307步骤,直到epoch(数据集遍历次数)达到设定阈值止,本发明设置阈值为20。
S309:输出训练好的扩散模型。
S4图像生成,包括获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
在本步骤中主要公开了应用模型生成图像的过程,应用模型生成图像,流程如图4所示。输入描述文本,输出生成图像,功能是应用训练好的扩散模型进行图像生成,主要涉及“算法4:应用扩散模型生成图像算法”。
算法4:应用扩散模型生成图像算法的具体过程包括了:
输入:描述文本。
输出:预测生成图像。
步骤:
S401:提供描述文本input。
S402:使用Chinese-Clip的文本编码器对input进行编码,得到文本嵌入向量
S403:在faiss向量数据库中,根据文本嵌入向量检索出与其最相似的Top-K图像向量;
S404:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S405:对检索到的Top-K图像向量和文本嵌入向量,使用MLP进行向量融合,得到融合向量;
S406:将描述文本和融合向量输入扩散模型,预测生成图像。
1.本发明涉及一种基于检索及分割增强的扩散图像生成方法,基于检索及分割增强的条件扩散机制。通过将图像检索及语义分割技术与扩散模型相结合,在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果,指导扩散模型实现更加准确、多样的图像生成。利用外部检索图像扩充描述文本的语义;利用检索图像经语义分割形成的构成部件拆解细化待生成图像的结构理解。在理解基础上指导扩散模型生成图像,提高了生成图像的语义一致性和视觉质量。本发明所述扩散图像生成方法,如图1 一种基于检索及分割增强的扩散图像生成方法框图所示,主要包括模型架构、数据集构建、模型训练和应用模型生成图像四部分内容。
2.模型架构。本发明提出检索及分割增强的条件机制扩散模型。所述检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成,模型架构如“图2检索及分割增强的条件机制扩散模型架构”所示,包括SAM(Segment Anything Model,分割一切模型)、Chinese-Clip(中文原生图文对多模态预训练模型)、MLP(多层感知机)、噪声生成模块、检索及分割增强的条件机制、变分自编码器、U-Net模块。其中,SAM(SegmentAnything Model,分割一切模型)由一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器构成,图像编码器输出图像嵌入。Chinese-Clip(中文原生图文对多模态预训练模型)是基于对比学习的多模态模型,由一个文本编码器、一个图像编码器和一个特征空间构成。MLP(多层感知机)是一种前向结构神经网络,由输入层、输出层和多个隐藏层构成。噪声生成模块用于在模型训练阶段产生高斯噪声。检索及分割增强的条件机制,检索图像库获取图像并进行语义分割,和,描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程中,发挥指导和纠偏的作用。变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像。U-Net模块是稳定扩散模型的核心之一,用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征。
3.数据集构建,如图3数据集构建及模型训练示意图中“数据集构建”虚线框部分所示。输入包括:质量优良的图像库,如:能够支持图像检索的领域专用图像搜索引擎,用于图像检索;支持中文的Chinese-CLIP(中文原生图文对多模态预训练模型),用于图像编码。输出是归一化后的图像向量,并存储到faiss向量数据库。功能是实现图像库中图像向量化和归一化,并与其对应的描述文本的嵌入向量配对存储到faiss向量数据库。主要通过“算法1:数据集构建算法”实现。
4.模型训练。输入样本库图像及描述文本,输出训练好的模型,功能是训练图像生成扩散模型。如图3数据集构建及模型训练示意图中“扩散模型训练”虚线框部分所示,主要涉及向量融合条件机制和扩散模型训练,分别如“算法2:向量融合算法”和“算法3:扩散模型训练算法”所示。本发明所述模型训练采用了渐进式训练策略。所述渐进式训练策略指在训练的初期,只使用低分辨率的图像进行训练,随着训练的进行,逐渐增加图像的分辨率。应用所述渐进式训练策略可以加速模型收敛,提高生成图像的质量。
5.应用模型生成图像,流程如图4应用模型生成图像示意图所示。输入描述文本,输出生成图像,功能是应用训练好的扩散模型进行图像生成,主要涉及“算法4:应用扩散模型生成图像算法”。
在一个实施例中,如图5所示,提供了一种基于检索及分割增强的扩散图像生成系统,系统包括:
模型构建单元,其中构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;
数据集构建单元,用于建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;
模型训练单元,用于将配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;
图像生成单元,用于获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
其中各单元具体实现内容可以参见上文中对于基于检索及分割增强的扩散图像生成系统方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种基于检索及分割增强的扩散图像生成方法,其特征在于,所述方法包括S1模型构建、S2数据集构建、S3模型训练以及S4图像生成,具体包括:
S1模型构建,其中,所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;
其中,包括检索及分割增强的条件机制扩散模型,检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成;分割模型包括图像编码器、提示编码器和快速掩码解码器,图像编码器输出图像嵌入;Chinese-Clip模型包括文本编码器、图像编码器和特征空间;多层感知机由输入层、输出层和多个隐藏层构成;噪声生成模块用于在模型训练阶段产生高斯噪声;检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割,并在描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏;变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像;U-Net模块用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征;
S2数据集构建,包括建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;
S3模型训练,包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;
S4图像生成,包括获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
2.根据权利要求1所述的方法,其特征在于,S2数据集构建具体包括:
S101:利用分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图;
S102:使用Chinese-Clip模型的图像编码器对所述图像库中的图像及其主要部件构成子图执行图像编码,实现向量化,其中,默认维度均为768;对主要部件构成子图的所有向量求均值,然后拼接到图像向量后面,形成拼接向量,维度768×2;其中/>表示图像库中某张图像经Chinese-CLIP编码后的向量,默认维度768;/>表示某张图像的所有主要部件构成子图Chinese-CLIP编码的向量求均值后的向量,默认为维度768;
S103:对S22中的向量进行归一化,使用L2范数将向量归一化,公式包括:
其中,是归一化后的向量,/>是拼接向量,/>表示计算其中向量/>的L2范数,即向量/>中各元素平方和的平方根;
S104:获取图像库中图像描述文本,经Chinese-Clip文本编码器获取文本向量
S105:将归一化向量和步骤S104获取的图像描述文本的向量/>配对存储到faiss向量数据库。
3.根据权利要求1所述的方法,其特征在于,所述S3模型训练具体包括:
S201:输入图像描述文本,经Chinese-Clip文本编码器获取文本向量
S202:使用文本向量检索faiss向量库,获取Top-K图像向量/>
S203:将用户输入文本经过扩散模型的文本编码器,得到文本的嵌入向量,维度为dim,默认值为768;
S204:通过多层感知机实现增强融合;所述多层感知机具体为:
其中,MLP表示多层感知机,用于将检索出的图像向量和文本向量做融合,指导扩散模型的图像生成,维度为,其中初始参数设置为:为1,其余值为0,使得/>的初始结果为/>;/>表示拼接方法,实现对括号内所有参数进行拼接;/>表示Top-K图像向量;/>表示描述文本经扩散模型文本编码器输出的文本嵌入向量;
S205:输出图像和文本的融合向量。
4.根据权利要求1所述的方法,其特征在于,所述S3模型训练还包括:
S301:冻结扩散模型的文本编码器和变分自动编码器模块;
S302:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S303:根据当前描述文本经Chinese-Clip编码向量化,然后到faiss向量库中检索出Top-K图像向量
S304:应用Top-K图像向量与文本嵌入向量/>进行融合,得到融合向量并经检索及分割增强的条件机制输入模型;
S305:根据模型生成图像和样本库图像之间的差异,计算得到损失函数值,其中,采用MSE损失计算预测图像和输入图像之间的差异,计算过程如下:
其中,表示平方和,即计算对象/>中各元素的平方和;/>表示模型训练时添加的噪声;/>表示训练中的模型预测出的噪声;/>表示训练过程学习到的模型参数;/>是所有时刻超参数的乘积,控制图像内容和噪声的权重,即/>;/>表示检索文本对应的样本图像;t表示加噪的最终时刻;
S306:使用AdamW优化器优化模型,更新UNet模块和用于融合检索图像和文本信息内容的MLP模块;
S307:遍历数据集所有数据,迭代执行S302至S306;
S308:迭代执行步骤直到数据集遍历次数达到设定阈值止,其中,设置阈值为20;
S309:输出训练好的扩散模型。
5.根据权利要求1所述的方法,其特征在于,所述S4图像生成具体包括:
S401:提供描述文本input;
S402:使用Chinese-Clip的文本编码器对input进行编码,得到文本嵌入向量
S403:在faiss向量数据库中,根据文本嵌入向量检索出与其最相似的Top-K图像向量;
S404:将当前描述文本输入扩散模型文本编码器获取文本嵌入向量
S405:对检索到的Top-K图像向量和文本嵌入向量,使用MLP进行向量融合,得到融合向量;
S406:将描述文本和融合向量输入扩散模型,预测生成图像。
6.一种基于检索及分割增强的扩散图像生成系统,其特征在于,系统包括:
模型构建单元,其中构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;
其中,包括检索及分割增强的条件机制扩散模型,检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成;分割模型包括图像编码器、提示编码器和快速掩码解码器,图像编码器输出图像嵌入;Chinese-Clip模型包括文本编码器、图像编码器和特征空间;多层感知机由输入层、输出层和多个隐藏层构成;噪声生成模块用于在模型训练阶段产生高斯噪声;检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割,并在描述文本信息融合后,通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏;变分自编码器主要由编码器和解码器构成,变分自编码器的编码器结构将输入图像转换为低维潜在特征,并作为U-Net的输入;变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像;U-Net模块用于预测噪声残差,对输入的特征矩阵进行重构,逐步将其从随机高斯噪声转化成图片的潜在特征;
数据集构建单元,用于建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;
模型训练单元,用于将配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;
图像生成单元,用于获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN202410172400.4A 2024-02-07 2024-02-07 一种基于检索及分割增强的扩散图像生成方法及系统 Active CN117725247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410172400.4A CN117725247B (zh) 2024-02-07 2024-02-07 一种基于检索及分割增强的扩散图像生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410172400.4A CN117725247B (zh) 2024-02-07 2024-02-07 一种基于检索及分割增强的扩散图像生成方法及系统

Publications (2)

Publication Number Publication Date
CN117725247A CN117725247A (zh) 2024-03-19
CN117725247B true CN117725247B (zh) 2024-04-26

Family

ID=90210990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410172400.4A Active CN117725247B (zh) 2024-02-07 2024-02-07 一种基于检索及分割增强的扩散图像生成方法及系统

Country Status (1)

Country Link
CN (1) CN117725247B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118247440B (zh) * 2024-05-27 2024-09-06 广东朝野科技有限公司 一种电视机外壳3d模型构建方法及系统
CN118365887B (zh) * 2024-06-18 2024-09-10 广东电网有限责任公司 一种开放词汇输电线路设备图像分割方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630482A (zh) * 2023-07-26 2023-08-22 拓尔思信息技术股份有限公司 一种基于多模态检索与轮廓引导的图像生成方法
CN116883530A (zh) * 2023-07-06 2023-10-13 中山大学 一种基于细粒度语义奖励的文本到图像生成方法
CN117351325A (zh) * 2023-12-06 2024-01-05 浙江省建筑设计研究院 一种模型训练方法、建筑效果图生成方法、设备及介质
CN117521672A (zh) * 2023-12-22 2024-02-06 湖南大学 一种基于扩散模型的长文本生成连续图片的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883530A (zh) * 2023-07-06 2023-10-13 中山大学 一种基于细粒度语义奖励的文本到图像生成方法
CN116630482A (zh) * 2023-07-26 2023-08-22 拓尔思信息技术股份有限公司 一种基于多模态检索与轮廓引导的图像生成方法
CN117351325A (zh) * 2023-12-06 2024-01-05 浙江省建筑设计研究院 一种模型训练方法、建筑效果图生成方法、设备及介质
CN117521672A (zh) * 2023-12-22 2024-02-06 湖南大学 一种基于扩散模型的长文本生成连续图片的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Rapid Diffusion: Building Domain-Specifc Text-to-Image Synthesizers with Fast Inference Speed;Bingyan Liu 等;《Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics》;20230712;全文 *
基于扩散模型的多模态引导图像合成系统;何文睿 等;《北京信息科技大学学报》;20231231;第38卷(第6期);全文 *

Also Published As

Publication number Publication date
CN117725247A (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN117725247B (zh) 一种基于检索及分割增强的扩散图像生成方法及系统
CN111832501B (zh) 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN111967277B (zh) 基于多模态机器翻译模型的翻译方法
CN114860893B (zh) 基于多模态数据融合与强化学习的智能决策方法及装置
CN115797495B (zh) 一种句子-字符语义空间融合感知的文本生成图像的方法
CN110110331B (zh) 文本生成方法、装置、介质和计算设备
Huang et al. Turbo learning for captionbot and drawingbot
CN117058673A (zh) 文本生成图像模型训练方法、系统以及文本生成图像方法、系统
CN115129839A (zh) 基于图感知的视觉对话答案生成方法及装置
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN115587924A (zh) 一种基于循环生成对抗网络的自适应掩膜引导的图像模态转换方法
CN117541668A (zh) 虚拟角色的生成方法、装置、设备及存储介质
CN117576248B (zh) 基于姿态引导的图像生成方法和装置
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN116975347A (zh) 图像生成模型训练方法及相关装置
Weerakoon et al. SoftSkip: Empowering Multi-Modal Dynamic Pruning for Single-Stage Referring Comprehension
CN117034133A (zh) 一种数据处理方法、装置、设备和介质
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN113392249A (zh) 图文信息分类方法、图文分类模型训练方法、介质及设备
Meira et al. Generating Synthetic Faces for Data Augmentation with StyleGAN2-ADA.
CN114494774B (zh) 一种图像分类方法、装置、电子设备及存储介质
Jin et al. A Simple and Effective Baseline for Attentional Generative Adversarial Networks
US20240169662A1 (en) Latent Pose Queries for Machine-Learned Image View Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240508

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

TR01 Transfer of patent right