CN117237479A

CN117237479A - 基于扩散模型的产品风格自动生成方法、装置及设备

Info

Publication number: CN117237479A
Application number: CN202310969757.0A
Authority: CN
Inventors: 洪岩; 李孟思; 张婕; 何小明
Original assignee: Suzhou Yanrui Textile Technology Co ltd; Suzhou University
Current assignee: Suzhou Yanrui Textile Technology Co ltd; Suzhou University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-12-15

Abstract

本发明涉及图像处理技术领域，尤其是指一种基于扩散模型的产品风格自动生成方法、系统及存储介质。本发明所述的一种基于扩散模型的产品风格自动生成方法具体步骤包括：用户输入产品的相关文本，所述文本与产品风格知识量化模型匹配，产品风格知识量化模型通过分析所述文本的风格设计要素自动预测其风格；利用基于CLIP模型的文本编码器，将所述文本转化成文本向量；将所述文本向量和噪声一同输入到扩散模型的图像生成器中，生成产品风格的图像。本发明所述的产品风格自动生成方法通过简单的文本输入就可以自动生成产品风格图片，帮助产品设计平台在提高设计速度的同时，更加精准地把握产品风格，以此设计出令用户满意的产品设计。

Description

基于扩散模型的产品风格自动生成方法、装置及设备

技术领域

本发明涉及图像处理技术领域，尤其是指一种基于扩散模型的产品风格自动生成方法、装置及设备。

背景技术

风格是产品设计的一项基本内容，是最具有创新性的部分，风格的多样性直接造就了产品独特的品质。只有精准把握了产品风格，才能给人们接下来的设计行为提供一个明确的指引。

但是，目前对于产品风格的研究大多集中在风格识别和风格设计上，而对风格生成的研究较少。虽然对于产品风格识别和风格设计的研究可以解决由风格引发的具体问题，但对风格生成的研究可以从根本上对风格进行把握，并将抽象的风格具体地表现出来。

实现产品风格自动生成的关键是生成模型的选择。目前主流的深度学习生成模型包括变分自动编码器(Variational auto-encoder,VAE)、基于流的生成模型(Flow-basedmodel)和对抗生成网络(Generative adversarial network,GAN)。其中变分自动编码器的生成速度快，生成样本的多样性比较好，但是生成出来样本的质量比较模糊。基于流的生成模型由于要保持可逆转换，因此在模型架构的选择上比较受限。对抗生成网络的生成速度快，但是训练不稳定，而且生成样本的多样性有所欠缺。

因此，如何快速准确地生成产品风格是目前有待解决的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中，如何快速准确地生成产品风格的问题。

为解决上述技术问题，本发明提供了一种基于扩散模型的产品风格自动生成方法，包括：

S1、用户输入产品的相关文本，将所述文本输入产品风格知识量化模型，与所述产品风格知识量化模型中的产品风格感性意向词匹配，利用模糊工具获取与所述文本相匹配的产品风格感性意向词所对应的设计要素，将所述输入文本转化为包含风格设计要素的文本；

S2、利用基于CLIP模型的文本编码器，将所述包含风格设计要素的文本转化成文本向量，再将所述文本向量转化为图片向量；

S3、所述图片向量和随机噪声一同输入到扩散模型的图像生成器中，生成具有所述输入文本产品风格的图像。

在本发明的一个实施例中，所述产品风格知识量化模型包括：

产品审美偏好情感空间，由产品风格感性意向词构成，利用爬虫技术爬取用户在社交网络中发布的有关产品描述的情感词汇，并运用语言处理技术筛选出高频情感词汇，每个维度包含一对相反的两个情感词，将多个维度相互叠加形成一个n维空间；

设计要素矩阵，依据工业设计领域的模块化理念，将产品风格分为了多个独立的造型类别，每个类别下又包含了众多的设计元素，构成设计要素矩阵；

模糊工具，使用三角模糊数理论将所述产品风格感性意向词转化为具体的设计要素。

在本发明的一个实施例中，所述三角模糊数的具体公式为：

其中，每一个等级的模糊数表示为表示第一个位置上的模糊数，/>表示第二个位置上的模糊数，表示第三个位置上的模糊数，N(F_c)表示模糊数出现的次数，c表示模糊数的等级数。

在本发明的一个实施例中，所述CLIP模型训练的过程具体包括：

从训练集中随机抽取一张图片和一段文字，通过CLIP模型的图片编码器和文本编码器分别将图片、文本数据转换成图片向量和文本向量；

通过图片事件生成器将图片向量转换成多个图片事件表示；通过文本事件生成器将文本向量转换成与图片事件表示数量相同的文本事件表示；

计算所述多个图片事件表示与多个文本事件表示之间的余弦相似性，若存在余弦相似性低于预设值，则更新图像编码器和文本编码器中的参数，直至多个图片时间表示与多个文本事件表示之间的余弦相似性均不低于预设值，完成CLIP模型的训练。

在本发明的一个实施例中，所述扩散模型采用UNet作为核心架构，利用扩张卷积作为UNet架构中的卷积滤波器。

在本发明的一个实施例中，所述扩张卷积向卷积层引入了新参数扩张率，所述扩张率为卷积核中点的间隔数量。

在本发明的一个实施例中，所述图片向量和随机噪声一同输入到扩散模型的图像生成器中，生成产品风格的图像，具体过程包括：

所述图片向量和随机噪声构成噪声图像，将所述噪声图像输入到扩散模型中的UNet模型，UNet模型识别出所述噪声图像中的随机噪声并减去，同时CLIP模型中的文本向量通过注意力机制在UNet模型中不断加强，指导UNet模型输出随机图像信息向量；

所述图像信息向量输入至图像解码器，生成具有所述输入文本产品风格的图像。

在本发明的一个实施例中，训练所述产品风格知识量化模型、CLIP模型和扩散模型时，使用的数据集为MS-COCO和ImageNet，评价指标为IS、FID和R-Precision，并综合考虑所述评价指标和人类主观感知作为评估方案。

本发明还提供了一种基于扩散模型的产品风格自动生成装置，包括：

产品文本生成模块，用于将用户输入的相关文本输入产品风格知识量化模型，与所述产品风格知识量化模型中的产品风格感性意向词匹配，利用模糊工具获取与所述文本相匹配的产品风格感性意向词所对应的设计要素，将所述输入文本转化为包含风格设计要素的文本；

文本编码模块，利用基于CLIP模型的文本编码器，将所述包含风格设计要素的文本转化成文本向量，再将所述文本向量转化为图片向量；

产品风格图像生成模块，用于将所述图片向量和随机噪声一同输入到扩散模型的图像生成器中，生成具有所述输入文本产品风格的图像。

本发明还提供了一种基于扩散模型的产品风格自动生成设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机时实现上述一种基于扩散模型的产品风格自动生成方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的一种基于扩散模型的产品风格自动生成方法，使用产品风格知识量化模型对用户输入的产品风格感性意向词和设计要素之间的关系进行量化分析，实现了通过分析产品的设计要素自动预测产品风格的目的。利用CL IP模型将用户输入的文本信息转化为计算机可识别的文本向量，进而使用扩散模型进行产品风格图片的生成，使产品的风格特征最大程度地表现出来。本发明所述的产品风格自动生成方法通过简单的文本输入就可以自动生成高质量和高相关的产品风格图片，进一步帮助产品设计平台在提高设计速度的同时，更加精准地把握产品风格，以此设计出令用户满意的产品设计。

本发明所述的一种基于扩散模型的产品风格自动生成方法，通过挖掘图片和文本之间的细粒度相似性关系训练CLIP模型，使CLIP模型计算出更准确的文本与图片之间的语义相似性关系，提高文本和文本向量转换的准确度，进一步提高生成图片和文本的符合度。

本发明所述的一种基于扩散模型的产品风格自动生成方法，利用扩张卷积来构造合适的卷积滤波器，以此增加UNet架构的感受野，能够更好地提取图片特征，改善图片生成在深层网络中出现细节信息和边缘信息丢失的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明提供的一种基于扩散模型的产品风格自动生成方法框架图；

图2是本发明提供的CL IP模型优化图；

图3中的(a)为本发明提供的扩散模型的UNet架构图；

图3中的(b)为本发明提供的利用扩张卷积增加感受野示例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

综合对目前主流的生成模型性能的考虑，本发明使用扩散模型进行复杂风格的生成，实现将文本形式模糊的产品风格以图像表达出来。但是，仅使用扩散模型无法完成由自然语言直接转化成图像的任务，因此需要借助CL IP模型进行产品文本到文本向量的转换，使文字转化成计算机可以识别的向量形式，再由扩散模型进行生成。

参照图1所示，本发明提供了一种基于扩散模型的产品风格自动生成方法，具体步骤包括：

S1、用户输入产品的相关文本，将所述文本输入产品风格知识量化模型，与所述产品风格知识量化模型中的产品风格感性意向词匹配，利用模糊工具获取与所述文本相匹配的产品风格感性意向词所对应的设计要素，将所述输入文本转化为包含风格设计要素的文本。

所述产品风格知识量化模型包括由产品风格感性意向词构成的产品审美偏好情感空间、构成风格的设计要素矩阵和模糊工具。

由于不同的消费者对“风格”的理解存在差异，而产品风格感性意象词描述了个人关于产品方面的审美感知，这些词汇涵盖了众多的维度，表达的程度也各不相同。本实施例利用爬虫技术爬取用户在社交网络中发布的有关产品描述的情感词汇，并运用语言处理技术筛选出高频情感词汇，每个维度包含一对相反的两个情感词，将多个维度相互叠加形成一个n维空间，即产品审美偏好情感空间。借助所述产品审美偏好情感空间，能够对每一个产品设计元素的感知结果进行唯一表示。

所述构成风格的设计要素矩阵依据工业设计领域的模块化设计理念，先将产品视为一个整体，然后依据产品的风格特征和属性对其进行分解。基于模块化设计理念，本实施例将产品风格分为了多个独立的造型类别，每个类别下又包含了众多的设计元素，构成设计要素矩阵。以服装为例，影响服装的设计要素包括款式、颜色、面料、工艺等，款式又分为廓形、领型、袖子、门襟等，进一步，廓形又可进行进一步细分，如H型、X型、V型等。所述设计要素分类方式能够把握产品风格的每一个部分，从而形成一个全面的产品风格感知。

所述模糊工具能够将抽象的自然语言转化为具体的定量数据，解决了产品风格无法被准确衡量而产生模糊评价的矛盾状态，有利于进一步的数据处理。三角模糊数是由模糊集合发展而来的一种处理模糊和不确定问题的数学工具，能够将模糊不确定的语言变量转换为确定的数值，其定义为：如果给定论域X上有一个模糊集M，对于任何x∈X都有一个数μ_M(x)∈[0,1]与之对应，μ_M(x)称为x对M的隶属度。三角模糊数包含3个参数，参数代表与隶属度0或1有关的语言变量，即可以将上述三角模糊数记为M＝(a,b,c)，其中a、b、c分别表示模糊事件的最小值、期望值、最大值。

因此本实施例采用三角模糊数来量化产品风格感性意象词，借助专家的评估结果以及产品风格感性意象词各等级三角模糊数，能够通过三角模糊数公式计算出每个产品文本在每个产品风格感性意象词维度的三角模糊数。

所述三角模糊数公式为：

S2、利用基于CLIP模型的文本编码器，将所述包含风格设计要素的文本转化成文本向量，再将所述文本向量转化为图片向量。

训练所述CLIP模型的过程为，CLIP模型从数据集中随机选取图片和注释，所述图片和注释会分别经过图片编码器和文本编码器生成图片向量和文本向量，通过比较图片向量和文本向量之间的事件相似性反向更新编码器，最终达到文本和向量相互转化的目的。

S3、所述图片向量和随机噪声一同输入到扩散模型的图像生成器中，生成具有所述输入文本产品风格的图像，具体过程包括：

所述图片向量和随机噪声构成噪声图像，将所述噪声图像输入到扩散模型中的UNet模型，UNet模型识别出所述噪声图像中的随机噪声并减去，同时CLIP模型中的文本向量通过注意力机制在UNet模型中不断加强，达到去除噪声，提高图片生成质量的目的，指导UNet模型输出随机图像信息向量；

在上述方法中，尽管扩散模型生成图片效果良好，但是在生成过程中，无可避免地还是会存在生成图片和用户输入文本符合度不高，生成的图片在一定程度上出现细节信息、边缘信息丢失等问题，导致产品的风格特征无法完全体现。为了解决图片生成过程中存在的质量问题，本发明对起主要生成作用的扩散模型和CLIP模型进行优化。

参照图2所示，为了提高生成的图片和用户输入文本的符合度，所述CLIP模型训练的过程具体包括：

通过上述方法训练CLIP模型，能够在原有基础上进一步提高文本和文本向量之间转换的准确度，使计算机视觉和人类语言二者拥有更加统一的数学表示，有利于后续图片的生成，提高生成的图片和用户输入文本的符合度。

参照图3中的(a)所示，为了减少生成图片细节丢失的问题，本发明所述扩散模型采用UNet作为核心架构，利用扩张卷积作为UNet架构中的卷积滤波器，增加扩散模型的感受野，增加图片特征提取的范围。

参照图3中的(b)所示，所述扩张卷积又称空洞卷积或者膨胀卷积，其原理是在标准的卷积核中注入空洞，以增加扩散模型的感受野。在神经网络中用扩张卷积代替普通卷积时，训练参数不会增加，且扩张卷积可使模型获得更大的感受野并缩小特征信息的丢失，有助于提高模型的性能。与原来普通的卷积操作相比，扩张卷积多引入了一个参数扩张率(dilation rate)，所述扩张率是指卷积核中点的间隔数量，而普通卷积操作的扩张率为1。

所述感受野为网络当前层输入的特征图中的一个像素对应的当前层输入特征区域的大小，增加感受野可以增加图片特征提取的范围，使得扩散模型可以更好地把握图片的特征，进而改善图片在深层网络中出现的细节信息和边缘信息丢失的问题。

因此，利用扩张卷积来构造合适的卷积滤波器以此优化扩散模型的核心架构UNet能够提高生成图片的质量，使产品的风格特征最大程度地表现出来。

在本实施例中，训练所述产品风格知识量化模型、CLIP模型和扩散模型时，使用的数据集为MS-COCO和ImageNet，并将训练结果与现有的根据文本生成图片的方法进行了定量和定性的全部比较。

由于与图像分类、目标检测等判别任务的结果不同，图像生成任务比较特殊，更偏向于一个艺术创造的过程，需要考虑一致性、图像质量、多样性等众多因素，

因此本实施例综合考虑了三个生成图像评估任务的量化指标，包括IS(InceptionScore)、FIDFrechet Inception Distance)和R-Precision，并综合考虑所述评价指标和人类主观感知(Human Perceptual,HP)作为评估方案。

本实施例中，将本发明提供的一种基于扩散模型的产品风格自动生成方法与现有的方法DF-GAN、DM-GAN、AttnGAN和CogView进行比较，最终发现本发明的图片生成效果最好。

综上所述，本发明通过简单的文本输入就可以自动生成高质量和高相关的产品风格图片，进一步帮助产品设计平台在提高设计速度的同时，更加精准地把握产品风格，以此设计出令用户满意的产品设计。

文本编码模块，利用基于CL IP模型的文本编码器，将所述包含风格设计要素的文本转化成文本向量，再将所述文本向量转化为图片向量；

存储器，用于存储计算机程序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于扩散模型的产品风格自动生成方法，其特征在于，包括：

S1、用户输入产品的相关文本，将所述文本输入产品风格知识量化模型，与所述产品风格知识量化模型中的产品风格感性意向词匹配，利用模糊工具获取与所述文本相匹配的产品风格感性意向词所对应的设计要素，

将所述输入文本转化为包含风格设计要素的文本；

2.根据权利要求1所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述产品风格知识量化模型包括：

3.根据权利要求2所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述三角模糊数的具体公式为：

其中，每一个等级的模糊数表示为表示第一个位置上的模糊数，/>表示第二个位置上的模糊数，/>表示第三个位置上的模糊数，N(F_c)表示模糊数出现的次数，c表示模糊数的等级数。

4.根据权利要求1所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述CLIP模型训练的过程具体包括：

5.根据权利要求1所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述扩散模型采用UNet作为核心架构，利用扩张卷积作为UNet架构中的卷积滤波器。

6.根据权利要求5所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述扩张卷积向卷积层引入了新参数扩张率，所述扩张率为卷积核中点的间隔数量。

7.根据权利要求1所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，所述图片向量和随机噪声一同输入到扩散模型的图像生成器中，生成产品风格的图像，具体过程包括：

所述图片向量和随机噪声构成噪声图像，将所述噪声图像输入到扩散模型中的UNet模型，UNet模型识别出所述噪声图像中的随机噪声并减去，同时CLIP模型中的文本向量通过注意力机制在UNet模型中不断加强，

指导UNet模型输出随机图像信息向量；

8.根据权利要求1所述的一种基于扩散模型的产品风格自动生成方法，其特征在于，训练所述产品风格知识量化模型、CLIP模型和扩散模型时，使用的数据集为MS-COCO和ImageNet，评价指标为IS、FID和R-Precision，并综合考虑所述评价指标和人类主观感知作为评估方案。

9.一种基于扩散模型的产品风格自动生成装置，其特征在于，包括：

10.一种基于扩散模型的产品风格自动生成设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机时实现如权利要求1至8任一项所述的一种基于扩散模型的产品风格自动生成方法的步骤。