CN117725247B

CN117725247B - 一种基于检索及分割增强的扩散图像生成方法及系统

Info

Publication number: CN117725247B
Application number: CN202410172400.4A
Authority: CN
Inventors: 冯好国; 徐青伟; 严长春; 裴非; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguagua Technology Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co ltd; Zhiguagua Tianjin Big Data Technology Co ltd
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-04-26
Anticipated expiration: 2044-02-07
Also published as: CN117725247A

Abstract

本申请公开了一种基于检索及分割增强的扩散图像生成方法及系统，方法包括模型构建、数据集构建、模型训练以及图像生成，通过将图像检索及语义分割技术与扩散模型相结合，在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果，结合用户输入的描述文本和检索及语义分割得到的图像向量融合，丰富了输入信息种类。外部检索图像扩充了描述文本的语义；语义分割形成的构成部件拆解细化了对待生成图像的结构理解。本申请在理解基础上指导扩散模型更加准确、多样的生成图像，提高了生成图像的语义一致性和视觉质量，能够生成与文本描述更加匹配的图像。

Description

一种基于检索及分割增强的扩散图像生成方法及系统

技术领域

本申请涉及图像处理技术领域，具体涉及一种基于检索及分割增强的扩散图像生成方法及系统。

背景技术

随着计算机图像技术的不断发展，人工智能领域的研究者们致力于提高图像生成的质量和多样性。

现有技术如一种基于过渡空间映射的文本生成图像方法和系统（CN110930469B的中国专利公开文本），基于跨模态相似度和生成对抗网络的文本生成图像方法（CN110490946B的中国专利公开文本），一种基于语义内容和快速图像检索的照片级图像生成方法（CN110634170B的中国专利公开文本），一种知识驱动型的文本到图像生成方法（授权公告号CN113837229A的中国专利公开文本），都是通过训练由生成式对抗网络组成的图像生成模型进而实现扩散图像生成。

然而，现有技术的生成对抗网络GAN训练生成器中生成的图像发生同质化，缺少多样性，即生成器一直生成单一类别的输出，存在存在模式崩溃挑战。模式崩溃是GAN训练中最常见的挑战，也是亟需解决的问题之一。

发明内容

本申请提供一种基于检索及分割增强的扩散图像生成方法及系统，旨在解决现有技术知识抽取模型多领域适配性差的问题。

第一方面，一种基于检索及分割增强的扩散图像生成方法，所述方法包括

S1模型构建、S2数据集构建、S3模型训练以及S4图像生成，具体包括：

S1模型构建，其中，所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成；

S2数据集构建，包括建立与图像库的数据传输关系，通过分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图，利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量，并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中；

S3模型训练，包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后，利用图像和文本的融合向量对扩散模型进行训练；

S4图像生成，包括获取目标描述文本，利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量，基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。

可选地，所述S1模型构建中，所述分割模型包括图像编码器、提示编码器和快速掩码解码器；所述Chinese-Clip模型包括文本编码器、图像编码器和特征空间；所述多层感知机由输入层、输出层和多个隐藏层构成；所述噪声生成模块用于在模型训练阶段产生高斯噪声。

可选地，所述S1模型构建中，所述扩散模型具体包括U-Net模型、变分自编码器以及检索及分割增强条件机制，具体地：

检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割，并在描述文本信息融合后，通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏；变分自编码器主要由编码器和解码器构成，变分自编码器的编码器结构将输入图像转换为低维潜在特征，并作为U-Net的输入；变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像；U-Net模块用于预测噪声残差，对输入的特征矩阵进行重构，逐步将其从随机高斯噪声转化成图片的潜在特征。

可选地，S2数据集构建具体包括：

S101：利用分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图；

S102：使用Chinese-Clip模型的图像编码器对所述图像库中的图像及其主要部件构件构成子图执行图像编码，实现向量化，其中，默认维度均为768；对主要部件构成子图的所有向量求均值，然后拼接到图像向量后面，形成拼接向量，维度768×2；其中/>表示图像库中某张图像经Chinese-CLIP编码后的向量，默认维度768；/>表示某张图像的所有主要部件构成子图Chinese-CLIP编码的向量求均值后的向量，默认为维度768；

S103：对S22中的向量进行归一化，使用L2范数将向量归一化，公式包括：

其中，是归一化后的向量，/>是拼接向量，/>表示计算其中向量/>的L2范数，即向量/>中各元素平方和的平方根；

S104：获取图像库中图像描述文本，经Chinese-Clip文本编码器获取文本向量；

S105：将归一化向量和步骤S104获取的图像描述文本的向量/>配对存储到faiss向量数据库。

可选地，所述S3模型训练具体包括：

S201：输入图像描述文本，经Chinese-Clip文本编码器获取文本向量；

S202：使用文本向量检索faiss向量库，获取Top-K图像向量/>；

S203：将用户输入文本经过扩散模型的文本编码器，得到文本的嵌入向量，维度为dim，默认值为768；

S204：通过多层感知机实现增强融合；所述多层感知机具体为：

其中，MLP表示多层感知机，用于将检索出的图像向量和文本向量做融合，指导扩散模型的图像生成，维度为，其中初始参数设置为：为1，其余值为0，使得/>的初始结果为/>；/>表示拼接方法,实现对括号内所有参数进行拼接；/>表示Top-K图像向量；/>表示描述文本经扩散模型文本编码器输出的文本嵌入向量；

S205：输出图像和文本的融合向量。

可选地，所述S3模型训练还包括：

S301：冻结扩散模型的文本编码器和变分自动编码器模块；

S302：将当前描述文本输入扩散模型文本编码器获取文本嵌入向量；

S303：根据当前描述文本经Chinese-Clip编码向量化，然后到faiss向量库中检索出Top-K图像向量；

S304：应用Top-K图像向量与文本嵌入向量/>进行融合，得到融合向量并经检索及分割增强的条件机制输入模型；

S305：根据模型生成图像和样本库图像之间的差异，计算得到损失函数值，其中，采用MSE损失计算预测图像和输入图像之间的差异，计算过程如下：

其中，表示平方和，即计算对象/>中各元素的平方和；/>表示模型训练时添加的噪声；/>表示训练中的模型预测出的噪声；/>表示训练过程学习到的模型参数；/>是所有时刻超参数的乘积，控制图像内容和噪声的权重，即；/>表示检索文本对应的样本图像；t表示加噪的最终时刻；

S306：使用AdamW优化器优化模型，更新UNet模块和用于融合检索图像和文本信息内容的MLP模块；

S307：遍历数据集所有数据，迭代执行S302至S306；

S308：迭代执行步骤直到数据集遍历次数达到设定阈值止，其中，设置阈值为20；

S309：输出训练好的扩散模型。

可选地，所述S4图像生成具体包括：

S401：提供描述文本input；

S402：使用Chinese-Clip的文本编码器对input进行编码，得到文本嵌入向量；

S403：在faiss向量数据库中，根据文本嵌入向量检索出与其最相似的Top-K图像向量；

S404：将当前描述文本输入扩散模型文本编码器获取文本嵌入向量；

S405：对检索到的Top-K图像向量和文本嵌入向量，使用MLP进行向量融合，得到融合向量；

S406：将描述文本和融合向量输入扩散模型，预测生成图像。

第二方面，一种基于检索及分割增强的扩散图像生成系统，所述系统包括模型构建单元，其中构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成；

数据集构建单元，用于建立与图像库的数据传输关系，通过分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图，利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量，并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中；

模型训练单元，用于将配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后，利用图像和文本的融合向量对扩散模型进行训练；

图像生成单元，用于获取目标描述文本，利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量，基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于检索及分割增强的扩散图像生成方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于检索及分割增强的扩散图像生成方法。

相比现有技术，本申请至少具有以下有益效果：

本发明通过将图像检索及语义分割技术与扩散模型相结合，在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果，结合用户输入的描述文本和检索及语义分割得到的图像向量融合，丰富了输入信息种类。外部检索图像扩充了描述文本的语义；语义分割形成的构成部件拆解细化了对待生成图像的结构理解。在理解基础上指导扩散模型更加准确、多样的生成图像，提高了生成图像的语义一致性和视觉质量，能够生成与文本描述更加匹配的图像。

本发明钟基于检索及分割增强的扩散模型基于稳定扩散模型实现，避免了GAN生成器存在的模式崩溃现象。

本发明使用faiss向量数据库进行快速检索，大大提高了检索速度，使得整个图像生成过程更加高效。

本发明采用了渐进式训练策略，从低分辨率图像开始，逐渐增加图像的分辨率，这不仅可以加速模型的收敛，还可以提高生成图像的质量。

附图说明

图1为本申请实施例提供的一种基于检索及分割增强的扩散图像生成方法框图；

图2为本申请实施例提供的检索及分割增强的条件机制扩散模型架构；

图3为本申请实施例提供的数据集构建及模型训练示意图；

图4为本申请实施例提供的应用模型生成图像示意图；

图5为本申请一个实施例提供的基于检索及分割增强的扩散图像生成系统的模块架构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

本发明涉及一种基于检索及分割增强的扩散图像生成方法，具体基于检索及分割增强的条件扩散机制。通过将图像检索及语义分割技术与扩散模型相结合，在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果，指导扩散模型实现更加准确、多样的图像生成。利用外部检索图像扩充描述文本的语义；利用检索图像经语义分割形成的构成部件拆解细化待生成图像的结构理解。在理解基础上指导扩散模型生成图像，提高了生成图像的语义一致性和视觉质量。

在一个实施例中，本发明所公开的一种基于检索及分割增强的扩散图像生成方法，如图1所示，主要包括模型架构、数据集构建、模型训练和应用模型生成图像四部分内容，其具体包括：

S1模型构建，其中，所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成。

在本步骤中主要公开了模型的具体架构：本发明提出检索及分割增强的条件机制扩散模型，检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成，模型架构如图2所示。其中，SAM（Segment Anything Model，分割一切模型，本实施例中又称分割模型）由一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器构成，图像编码器输出图像嵌入。Chinese-Clip（中文原生图文对多模态预训练模型）是基于对比学习的多模态模型，由一个文本编码器、一个图像编码器和一个特征空间构成。MLP（多层感知机）是一种前向结构神经网络，由输入层、输出层和多个隐藏层构成。噪声生成模块用于在模型训练阶段产生高斯噪声。检索及分割增强的条件机制，检索图像库获取图像并进行语义分割，和，描述文本信息融合后，通过扩散模型的条件机制在模型训练和生成过程中，发挥指导和纠偏的作用。变分自编码器主要由编码器和解码器构成，变分自编码器的编码器结构将输入图像转换为低维潜在特征，并作为U-Net的输入；变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像。U-Net模块是稳定扩散模型的核心之一，用于预测噪声残差，对输入的特征矩阵进行重构，逐步将其从随机高斯噪声转化成图片的潜在特征。

S2数据集构建，包括建立与图像库的数据传输关系，通过分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图，利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量，并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中。

在本步骤中主要公开了数据集构建过程，如图3中数据集构建虚线框部分所示。输入包括：质量优良的图像库，如：能够支持图像检索的领域专用图像搜索引擎，用于图像检索；支持中文的Chinese-CLIP（中文原生图文对多模态预训练模型），用于图像编码。输出是归一化后的图像向量，并存储到faiss向量数据库。功能是实现图像库中图像向量化和归一化，并与其对应的描述文本的嵌入向量配对存储到faiss向量数据库。主要通过“算法1：数据集构建算法”实现。

其中，算法1：数据集构建算法的具体过程包括了：

输入：（1）质量优良的图像库，如：能够支持图像检索的领域专用图像搜索引擎，用于图像检索；（2）支持中文的Chinese-CLIP（中文原生图文对多模态预训练模型），用于编码图像及其描述文本。

输出：归一化图像向量及图像描述文本向量，存储到faiss向量库。

步骤具体包括了：

S101：利用SAM（Segment Anything Model，分割一切的模型）对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图。

S3模型训练，包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后，利用图像和文本的融合向量对扩散模型进行训练。

在本步骤中主要是模型训练过程，通过输入样本库图像及描述文本，输出训练好的模型，功能是训练图像生成扩散模型。

为了防止模型过早地陷入局部最优，我们采用了渐进式训练策略。所述渐进式训练策略指在训练的初期，只使用低分辨率的图像进行训练，随着训练的进行，逐渐增加图像的分辨率。应用所述渐进式训练策略可以加速模型收敛，提高生成图像的质量。

模型训练，如图3所示，主要涉及向量融合条件机制和扩散模型训练，分别为下方“算法2：向量融合算法”和“算法3：扩散模型训练算法”。

其中，算法2：向量融合算法的具体过程包括了：

输入：图像描述文本。

输出：图像和文本的融合向量。

步骤：

S202：使用文本向量检索faiss向量库，获取Top-K图像向量/>；

其中，MLP表示多层感知机，用于将检索出的图像向量和文本向量做融合，指导扩散模型的图像生成，维度为，其中初始参数设置为：为1，其余值为0，使得/>的初始结果为/>；/>表示拼接方法,实现对括号内所有参数进行拼接；/>表示Top-K图像向量；/>表示描述文本经扩散模型文本编码器输出的文本嵌入向量。

S205：输出图像和文本的融合向量。

算法3：扩散模型训练算法的具体过程包括了：

输入：样本库图像及描述文本。

输出：训练好的扩散模型。

步骤：

S301：冻结扩散模型的文本编码器和变分自动编码器模块。

其中，表示平方和，即计算对象/>中各元素的平方和；/>表示模型训练时添加的噪声，用作标签；/>表示训练中的模型预测出的噪声；/>表示训练过程学习到的模型参数；/>是所有时刻超参数的乘积，控制图像内容和噪声的权重，即；/>表示检索文本对应的样本图像，用作标签；t表示加噪的最终时刻；

S306：使用AdamW优化器优化模型，更新UNet模块和用于融合检索图像和文本信息内容的MLP模块。

S307：遍历数据集所有数据，迭代执行S302、S303、S304、S305和S306步骤。

S308：迭代执行S302、S303、S304、S305、S306和S307步骤，直到epoch（数据集遍历次数）达到设定阈值止，本发明设置阈值为20。

S309：输出训练好的扩散模型。

在本步骤中主要公开了应用模型生成图像的过程，应用模型生成图像，流程如图4所示。输入描述文本，输出生成图像，功能是应用训练好的扩散模型进行图像生成，主要涉及“算法4：应用扩散模型生成图像算法”。

算法4：应用扩散模型生成图像算法的具体过程包括了：

输入：描述文本。

输出：预测生成图像。

步骤：

S401：提供描述文本input。

S406：将描述文本和融合向量输入扩散模型，预测生成图像。

1.本发明涉及一种基于检索及分割增强的扩散图像生成方法，基于检索及分割增强的条件扩散机制。通过将图像检索及语义分割技术与扩散模型相结合，在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果，指导扩散模型实现更加准确、多样的图像生成。利用外部检索图像扩充描述文本的语义；利用检索图像经语义分割形成的构成部件拆解细化待生成图像的结构理解。在理解基础上指导扩散模型生成图像，提高了生成图像的语义一致性和视觉质量。本发明所述扩散图像生成方法，如图1 一种基于检索及分割增强的扩散图像生成方法框图所示，主要包括模型架构、数据集构建、模型训练和应用模型生成图像四部分内容。

2.模型架构。本发明提出检索及分割增强的条件机制扩散模型。所述检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成，模型架构如“图2检索及分割增强的条件机制扩散模型架构”所示，包括SAM（Segment Anything Model，分割一切模型）、Chinese-Clip（中文原生图文对多模态预训练模型）、MLP（多层感知机）、噪声生成模块、检索及分割增强的条件机制、变分自编码器、U-Net模块。其中，SAM（SegmentAnything Model，分割一切模型）由一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器构成，图像编码器输出图像嵌入。Chinese-Clip（中文原生图文对多模态预训练模型）是基于对比学习的多模态模型，由一个文本编码器、一个图像编码器和一个特征空间构成。MLP（多层感知机）是一种前向结构神经网络，由输入层、输出层和多个隐藏层构成。噪声生成模块用于在模型训练阶段产生高斯噪声。检索及分割增强的条件机制，检索图像库获取图像并进行语义分割，和，描述文本信息融合后，通过扩散模型的条件机制在模型训练和生成过程中，发挥指导和纠偏的作用。变分自编码器主要由编码器和解码器构成，变分自编码器的编码器结构将输入图像转换为低维潜在特征，并作为U-Net的输入；变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像。U-Net模块是稳定扩散模型的核心之一，用于预测噪声残差，对输入的特征矩阵进行重构，逐步将其从随机高斯噪声转化成图片的潜在特征。

3.数据集构建，如图3数据集构建及模型训练示意图中“数据集构建”虚线框部分所示。输入包括：质量优良的图像库，如：能够支持图像检索的领域专用图像搜索引擎，用于图像检索；支持中文的Chinese-CLIP（中文原生图文对多模态预训练模型），用于图像编码。输出是归一化后的图像向量，并存储到faiss向量数据库。功能是实现图像库中图像向量化和归一化，并与其对应的描述文本的嵌入向量配对存储到faiss向量数据库。主要通过“算法1：数据集构建算法”实现。

4.模型训练。输入样本库图像及描述文本，输出训练好的模型，功能是训练图像生成扩散模型。如图3数据集构建及模型训练示意图中“扩散模型训练”虚线框部分所示，主要涉及向量融合条件机制和扩散模型训练，分别如“算法2：向量融合算法”和“算法3：扩散模型训练算法”所示。本发明所述模型训练采用了渐进式训练策略。所述渐进式训练策略指在训练的初期，只使用低分辨率的图像进行训练，随着训练的进行，逐渐增加图像的分辨率。应用所述渐进式训练策略可以加速模型收敛，提高生成图像的质量。

5.应用模型生成图像，流程如图4应用模型生成图像示意图所示。输入描述文本，输出生成图像，功能是应用训练好的扩散模型进行图像生成，主要涉及“算法4：应用扩散模型生成图像算法”。

在一个实施例中，如图5所示，提供了一种基于检索及分割增强的扩散图像生成系统，系统包括：

模型构建单元，其中构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成；

其中各单元具体实现内容可以参见上文中对于基于检索及分割增强的扩散图像生成系统方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于检索及分割增强的扩散图像生成方法，其特征在于，所述方法包括S1模型构建、S2数据集构建、S3模型训练以及S4图像生成，具体包括：

其中，包括检索及分割增强的条件机制扩散模型，检索及分割增强的条件机制扩散模型使用稳定扩散模型作为主干网络进行图像生成；分割模型包括图像编码器、提示编码器和快速掩码解码器，图像编码器输出图像嵌入；Chinese-Clip模型包括文本编码器、图像编码器和特征空间；多层感知机由输入层、输出层和多个隐藏层构成；噪声生成模块用于在模型训练阶段产生高斯噪声；检索及分割增强的条件机制用于检索图像库获取图像并进行语义分割，并在描述文本信息融合后，通过扩散模型的条件机制在模型训练和生成过程进行指导和纠偏；变分自编码器主要由编码器和解码器构成，变分自编码器的编码器结构将输入图像转换为低维潜在特征，并作为U-Net的输入；变分自编码器的解码器结构将低维潜在特征重建还原成像素级图像；U-Net模块用于预测噪声残差，对输入的特征矩阵进行重构，逐步将其从随机高斯噪声转化成图片的潜在特征；

S2数据集构建，包括建立与图像库的数据传输关系，通过分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图，利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构成子图执行图像编码得到向量，并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中；

2.根据权利要求1所述的方法，其特征在于，S2数据集构建具体包括：

S102：使用Chinese-Clip模型的图像编码器对所述图像库中的图像及其主要部件构成子图执行图像编码，实现向量化，其中，默认维度均为768；对主要部件构成子图的所有向量求均值，然后拼接到图像向量后面，形成拼接向量，维度768×2；其中/>表示图像库中某张图像经Chinese-CLIP编码后的向量，默认维度768；/>表示某张图像的所有主要部件构成子图Chinese-CLIP编码的向量求均值后的向量，默认为维度768；

；

3.根据权利要求1所述的方法，其特征在于，所述S3模型训练具体包括：

S202：使用文本向量检索faiss向量库，获取Top-K图像向量/>；

；

S205：输出图像和文本的融合向量。

4.根据权利要求1所述的方法，其特征在于，所述S3模型训练还包括：

S301：冻结扩散模型的文本编码器和变分自动编码器模块；

；

其中，表示平方和，即计算对象/>中各元素的平方和；/>表示模型训练时添加的噪声；/>表示训练中的模型预测出的噪声；/>表示训练过程学习到的模型参数；/>是所有时刻超参数的乘积，控制图像内容和噪声的权重，即/>；/>表示检索文本对应的样本图像；t表示加噪的最终时刻；

S307：遍历数据集所有数据，迭代执行S302至S306；

S309：输出训练好的扩散模型。

5.根据权利要求1所述的方法，其特征在于，所述S4图像生成具体包括：

S401：提供描述文本input；

S406：将描述文本和融合向量输入扩散模型，预测生成图像。

6.一种基于检索及分割增强的扩散图像生成系统，其特征在于，系统包括：

数据集构建单元，用于建立与图像库的数据传输关系，通过分割模型对图像库中的图像执行语义分割，获取所有图像的主要部件构成子图，利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构成子图执行图像编码得到向量，并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。