CN116740204A

CN116740204A - 风格化图像生成模型的生成方法、装置、设备及存储介质

Info

Publication number: CN116740204A
Application number: CN202310254977.5A
Authority: CN
Inventors: 马宇航; 唐霁霁; 沈铖波; 张荣升; 赵增; 李乐; 范长杰; 刘柏; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-09-12

Abstract

本申请公开了一种风格化图像生成模型的生成方法、装置、设备及存储介质。该方法包括：获取多个第一图像及第一图像的第一描述文本，多个第一图像包括多种图像风格的图像；将第一图像作为预训练输入样本，第一描述文本作为引导条件，对引导扩散模型进行预训练，引导扩散模型包括扩散加噪层和引导去噪层；从具有目标图像风格的视频中获取多个第二图像，以及获取第二图像的第二描述文本；第二描述文本中包括对目标图像风格的描述内容；将第二图像作为微调输入样本，第二描述文本作为引导条件，对预训练后的引导扩散模型进行微调，得到包括微调后的引导扩散模型中的引导去噪层的风格化图像生成模型；该模型用于生成具有目标图像风格的图像。

Description

风格化图像生成模型的生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种风格化图像生成模型的生成方法、装置、电子设备及计算机可读存储介质。

背景技术

AI(Artificial Intelligence，人工智能)绘画在人工智能领域得到了许多关注，很多AI绘画的模型和平台应运而生。在基于AI绘画的一种可应用场景中，希望生成具有某种特定风格的图像，如大鱼海棠风格、宫崎骏风格等，从而可以风格迁移，因此，在AI绘画模型的基础上，进一步获得能够生成具有特定风格图像的模型，将成为AI绘画的一个重要的下游任务。

发明内容

本申请提供了一种风格化图像生成模型的生成方法、装置、电子设备及计算机可读存储介质，以解决或至少部分解决上述问题。具体如下。

第一方面，本申请提供了一种风格化图像生成模型的生成方法，所述方法包括：

获取多个第一图像，以及获取所述第一图像的第一描述文本；所述多个第一图像包括多种图像风格的图像；

将所述第一图像作为预训练输入样本，所述第一描述文本作为引导条件，对引导扩散模型进行预训练；所述引导扩散模型包括扩散加噪层和引导去噪层；

从具有目标图像风格的视频中获取多个第二图像，以及获取所述第二图像的第二描述文本；所述第二描述文本中包括对所述目标图像风格的描述内容；

将所述第二图像作为微调输入样本，所述第二描述文本作为引导条件，对预训练后的所述引导扩散模型进行微调，得到包括微调后的所述引导扩散模型中的引导去噪层的风格化图像生成模型；所述风格化图像生成模型用于生成具有所述目标图像风格的图像。

第二方面，本申请实施例还提供了一种风格化图像生成模型的生成装置，所述装置包括：

第一获取模块，用于获取多个第一图像，以及获取所述第一图像的第一描述文本；所述多个第一图像包括多种图像风格的图像；

预训练模块，用于将所述第一图像作为预训练输入样本，所述第一描述文本作为引导条件，对引导扩散模型进行预训练；所述引导扩散模型包括扩散加噪层和引导去噪层；

第二获取模块，用于从具有目标图像风格的视频中获取多个第二图像，以及获取所述第二图像的第二描述文本；所述第二描述文本中包括对所述目标图像风格的描述内容；

微调模块，用于将所述第二图像作为微调输入样本，所述第二描述文本作为引导条件，对预训练后的所述引导扩散模型进行微调，得到包括微调后的所述引导扩散模型中的引导去噪层的风格化图像生成模型；所述风格化图像生成模型用于生成具有所述目标图像风格的图像。

第三方面，本申请实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储程序，该电子设备通电并通过所述处理器运行该程序后，执行如第一方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有程序，该程序被处理器运行，执行如第一方面所述的方法。

与现有技术相比，本申请具有以下优点：

在本申请实施例中，通过预训练获得具有图像生成能力的引导扩散模型，然后通过从特定风格视频中获取的特定风格的图像，对预训练得到的引导扩散模型进行微调，从而获得能够生成特定风格图像的风格化图像生成模型，通过该风格化图像生成模型即可生成具有某种特定风格的图像。另外，通过从特定风格视频中获取特定风格的图像，构建用于微调模型的数据集，可以解决某些风格无法找出大量图片用于微调模型的问题，不仅使得微调后的模型能够达到预期的能力，还无需消耗较多的人力、时间成本，构建高质量的模型微调数据集，节约了模型微调的人力、时间成本。

附图说明

图1是本申请实施例提供的一种风格化图像生成模型的生成方法的流程图；

图2是本申请实施例提供的一种引导扩散模型的示意图；

图3是本申请实施例提供的另一种引导扩散模型的示意图；

图4是本申请实施例提供的一种风格化图像生成模型的示意图；

图5是本申请实施例提供的一种风格化图像生成模型的生成装置的框图；

图6是本申请实施例提供的一种用于实现风格化图像生成模型的生成的电子设备的逻辑结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请实施例提供一种风格化图像生成模型的生成方法，如图1所示，该方法包括以下步骤S10～步骤S40。

步骤S10：获取多个第一图像，以及获取第一图像的第一描述文本；多个第一图像包括多种图像风格的图像。

在本申请实施例中，首先可以获取多个第一图像，如多个写实图像，以及每个第一图像对应的第一描述文本，其中，第一描述文本可以是对第一图像进行标注得到，用于描述第一图像所表达的重点或特点，以便于更好地理解第一图像中的信息。

例如，当第一图像为人像图像时，人物是该第一图像所表达的重点，则该第一图像的第一描述文本可以描述该人物的一些特征或特点，如“小女孩，正面，奔跑”。再例如，当第一图像为风景图像时，风景是该第一图像所表达的重点，则该第一图像的第一描述文本可以描述该风景的一些特征或特点，如“大海，夕阳”。

在本申请实施例中，第一图像用于实现基础的图像生成模型的预训练，图像生成模型经过大量图像数据的预训练后，具有较强的语义能力，可以实现生成较高质量的图像的效果。由于第一图像仅用于使基础的图像生成模型对具有较好的图像生成能力，而不针对某种特定风格的图像进行生成，因此，获取的多个第一图像包括多种图像风格的图像。

步骤S20：将第一图像作为预训练输入样本，第一描述文本作为引导条件，对引导扩散模型进行预训练；引导扩散模型包括扩散加噪层和引导去噪层。

在本申请实施例中，图像生成模型可以选取引导扩散模型(Guided DiffusionModel)。在获取到第一图像及其对应的第一描述文本后，可以将第一图像作为预训练输入样本，第一描述文本作为引导条件，对初始的引导扩散模型进行预训练。

引导扩散模型是扩散模型(Diffusion Model)中的一种，扩散模型的原理是对图像添加噪声，并学习由于噪声引起的图像信息衰减，然后使用学习到的模式来生成图像，因此，扩散模型的推理过程可以根据一个随机给出的噪声图，通过去噪生成图像。然而，随机输入一个噪声图显然不能按照人的意愿生成需要的图像，因而需要额外的引导(guidance)条件以得到需要的图像。该引导条件用于指导扩散模型的去噪过程，从而得到需要的输出。因此，引导扩散模型即为可以在引导条件的引导下生成图像的扩散模型。

在本申请实施例中，可以将第一图像作为预训练输入样本，将用于描述第一图像中的重点或特定的第一描述文本作为引导条件，输入初始的引导扩散模型，以使引导扩散模型通过扩散加噪层对第一图像添加噪声，再通过引导去噪层，在第一描述文本的引导下学习由于噪声引起的图像信息衰减，从而学习到生成图像的模式，完成引导扩散模型的预训练。

可选地，该引导扩散模型可以选取基于文本引导的Stable Diffusion(稳定扩散)模型。

步骤S30：从具有目标图像风格的视频中获取多个第二图像，以及获取第二图像的第二描述文本；第二描述文本中包括对目标图像风格的描述内容。

在完成引导扩散模型的预训练之后，可以对预训练后的引导扩散模型进行微调，以使不特定风格图像的生成能力较强的图像生成模型具有特定风格图像的生成能力。

在本申请实施例中，当需要生成具有目标图像风格的图像生成能力的风格化图像生成模型时，可以从具有目标图像风格的视频中获取多个第二图像，以及获取第二图像的第二描述文本。其中，第二描述文本可以是对第二图像进行标注得到，至少用于描述第二图像的图像风格，还可以用于第二图像所表达的重点或特点，以便于更好地理解第二图像中的信息，尤其是第二图像的图像风格。

获取的多个第二图像与获取的多个第一图像的区别是，获取的多个第一图像具有多种图像风格，而获取的多个第二图像具有某种特定的图像风格，即目标图像风格，也即获取的多个第一图像的图像风格是多样的，而获取的多个第二图像的图像风格是统一的。

基于第二图像与第一图像的区别，第二图像的第二描述文本与第一图像的第一描述文本的区别是，第一描述文本中不需要包括对第一图像的图像风格的描述内容，而第二描述文本中需要包括对第二图像的图像风格的描述内容，这是因为在本申请实施例中，需要通过特定图像风格的描述内容指导特定图像风格图像的生成过程。例如，第二描述文本可以是“大鱼海棠风格，小女孩”。

另外，目前很多基于图像的模型，用于训练或微调模型的图像基本都是通过从图片网址爬取图片得到，但是，有些风格无法找出大量图片，例如某部动画(或动漫)电影中的特定动画(或动漫)风格，具体如大鱼海棠风格、新海诚风格等，这就需要耗费较多的人力、时间成本，针对特定风格构建高质量的用于微调模型的图像数据。

而在本申请实施例中，通过从特定风格视频中获取特定风格的图像，构建用于微调模型的数据集，可以解决某些风格无法找出大量图片用于微调模型的问题，不仅使得微调后的模型能够达到预期的能力，还无需消耗较多的人力、时间成本，构建高质量的模型微调数据集，节约了模型微调的人力、时间成本。

步骤S40：将第二图像作为微调输入样本，第二描述文本作为引导条件，对预训练后的引导扩散模型进行微调，得到包括微调后的引导扩散模型中的引导去噪层的风格化图像生成模型；风格化图像生成模型用于生成具有目标图像风格的图像。

在本申请实施例中，可以将具有目标图像风格的第二图像作为微调输入样本，将包括目标图像风格的描述内容的第二描述文本作为引导条件，输入预训练后的引导扩散模型，以使预训练后的引导扩散模型通过扩散加噪层对第二图像添加噪声，再通过引导去噪层，在包括目标图像风格的第二描述文本的引导下学习由于噪声引起的图像信息衰减，从而学习到生成具有目标图像风格的图像的模式，完成引导扩散模型的微调。

将微调后的引导扩散模型中的扩散加噪层去除，保留微调后的引导扩散模型中的引导去噪层，即可获得用于生成具有目标图像风格的图像的风格化图像生成模型。

本申请实施例提供的风格化图像生成模型的生成方法，首先获取多个第一图像及其第一描述文本，其中，多个第一图像包括多种图像风格的图像；然后将第一图像作为预训练输入样本，第一描述文本作为引导条件，对包括扩散加噪层和引导去噪层的引导扩散模型进行预训练；之后从具有目标图像风格的视频中获取多个第二图像，并获取第二图像的第二描述文本，其中，第二描述文本中包括对目标图像风格的描述内容；进而将第二图像作为微调输入样本，第二描述文本作为引导条件，对预训练后的引导扩散模型进行微调，保留微调后模型中的引导去噪层，即可得到风格化图像生成模型，其中，该风格化图像生成模型可用于生成具有目标图像风格这种特定风格的图像。

在上述实施例的基础上，可选地，步骤S20具体可以通过以下方式实现，包括：

S21：将第一图像作为预训练输入样本，第一描述文本作为引导条件，将第一图像和第一描述文本输入引导扩散模型，以使引导扩散模型输出第一图像的第一重构图像。

其中，引导扩散模型具体可通过以下步骤获得第一图像的第一重构图像：

通过扩散加噪层对第一图像添加噪声；

通过引导去噪层在第一描述文本的引导下对添加噪声后的第一图像进行去噪，以学习第一图像由于添加噪声引起的图像信息衰减特征，得到第一图像的第二重构图像。

以下将通过一具体实施例，详细说明以上步骤。参照图2所示的引导扩散模型示意图，引导扩散模型中的扩散加噪层具体可包括图像编码层和图像加噪层。图像编码层用于对图像进行编码，得到第一特征图像。图像加噪层用于对第一特征图像逐步添加高斯噪声，得到高斯噪声图像。

参照图2，引导扩散模型中的引导去噪层具体可包括文本编码层、图像去噪层和图像解码层。文本编码层用于对图像的描述文本进行编码，得到文本特征向量。图像去噪层用于在文本特征向量的引导下，基于交叉注意力机制对图像的高斯噪声图像进行逐步去噪，得到第二特征图像。图像解码层用于对第二特征图像进行解码，以重构或生成图像。

在步骤S21中，将第一图像输入引导扩散模型中的扩散加噪层，其中，图像编码层可以对第一图像进行编码，编码过程中首先得到第一图像的概率分布，然后根据该概率分布对第一图像的图像特征进行压缩，得到概率分布与第一图像相同的第一特征图像。例如，可采用8倍压缩，可从512*512*3的图像特征压缩成64*64*4的图像特征，其中，第三位数字为图层数，与压缩倍数无关。第一图像的第一特征图像中保留了第一图像的主要特征信息。可选地，图像编码层可以通过图像编码器实现，参照图3所示的引导扩散模型示意图，该图像编码器具体可以是变分自编码器(VariationalAutoencoder，VAE)中的图像编码器，其中，变分自编码器包括图像编码器和图像解码器。

然后，第一图像的第一特征图像输入图像加噪层，图像加噪层对该第一特征图像逐步添加高斯噪声，得到第一图像的高斯噪声图像，对于引导扩散模型，该过程也称为前向过程，或称扩散过程。

在步骤S21中，将第一描述文本和通过扩散加噪层获得的第一图像的高斯噪声图像，输入引导扩散模型中的引导去噪层。其中，第一描述文本输入引导去噪层中的文本编码层，文本编码层可以对第一描述文本进行编码，从而提取出第一描述文本的主要特征信息，得到第一描述文本的文本特征向量。可选地，参照图3所示的引导扩散模型示意图，文本编码层可以通过CLIP(Generative Pre-training，生成式预训练)模型中的文本编码器实现。进一步可选地，当描述文本采用中文时，CLIP模型中的文本编码器则选用中文文本编码器。

然后，将第一图像的高斯噪声图像和第一描述文本的文本特征向量，输入图像去噪层，图像去噪层中可以引入交叉注意力机制，使得图像去噪层可以基于交叉注意力机制对第一图像的高斯噪声图像进行逐步去噪，逐步去噪的过程需要有第一描述文本的文本特征向量的引导，从而可以重构出概率分布与第一图像相同的特征图像，也即第一图像的第二特征图像。可选地，参照图3所示的引导扩散模型示意图，图像去噪层可以通过Unet模型实现。

之后，第一图像的第二特征图像输入图像解码层，图像解码层可以对第一图像的第二特征图像进行解码，从而得到第一图像的第一重构图像。可选地，图像解码层可以通过图像解码器实现，参照图3所示的引导扩散模型示意图，该图像解码器具体可以是变分自编码器(VariationalAutoencoder，VAE)中的图像解码器。

简而言之，在预训练阶段，引导扩散模型通过对第一图像逐步加噪获得高斯噪声图像，进而在第一描述文本的引导下，通过对该高斯噪声图像逐步去噪，实现对第一图像的重构。

S22：根据第一重构图像与第一图像的相似度，确定引导扩散模型的第一损失函数值。

在本步骤中，引导扩散模型的损失函数表示引导扩散模型的图像重构能力，重构出的图像与原始图像的相似度越高，表示引导扩散模型的图像重构能力越强。在预训练阶段，重构出的图像与原始图像的相似度越低，引导扩散模型的第一损失函数值就越大，重构出的图像与原始图像的相似度越高，引导扩散模型的第一损失函数值就越小。在本申请实施例中，每获得一个第一图像的第一重构图像，就计算一次引导扩散模型的损失函数值。

需要说明的是，为了与微调阶段的引导扩散模型的损失函数值进行区分，将预训练阶段计算的引导扩散模型的损失函数值称为第一损失函数值，将微调阶段计算的引导扩散模型的损失函数值称为第二损失函数值。

S23：根据第一损失函数值调整引导扩散模型的模型参数，以实现对引导扩散模型的预训练。

每次对一个第一图像重构得到一个第一重构图像，就按照使第一损失函数值逐渐减小至小于第一预设值的策略，调整一次引导扩散模型的模型参数。基于所有第一图像进行模型参数的多次调整，多次调整完毕后，即完成了对引导扩散模型的预训练。

进一步地，引导扩散模型的微调过程与引导扩散模型的预训练过程类似，也即步骤S40具体可以通过以下方式实现，包括：

S41：将第二图像作为微调输入样本，第二描述文本作为引导条件，将第二图像和第二描述文本输入预训练后的引导扩散模型，以使预训练后的引导扩散模型输出第二图像的第二重构图像。

其中，引导扩散模型具体可通过以下步骤获得第二图像的第二重构图像：

通过扩散加噪层对第二图像添加噪声；

通过引导去噪层在第二描述文本的引导下对添加噪声后的第二图像进行去噪，以学习第二图像由于添加噪声引起的图像信息衰减特征，得到第二图像的第二重构图像。

以下将通过一具体实施例，详细说明以上步骤。参考步骤S21，以及图2和图3，在步骤S41中，将第二图像输入引导扩散模型中的扩散加噪层，其中，图像编码层可以对第二图像进行编码，编码过程中首先得到第二图像的概率分布，然后根据该概率分布对第二图像的图像特征进行压缩，得到概率分布与第二图像相同的第一特征图像。第二图像的第一特征图像中保留了第二图像的主要特征信息。

然后，第二图像的第一特征图像输入图像加噪层，图像加噪层对该第一特征图像逐步添加高斯噪声，得到第二图像的高斯噪声图像，对于引导扩散模型，该过程也称为前向过程，或称扩散过程。

在步骤S41中，将第二描述文本和通过扩散加噪层获得的第二图像的高斯噪声图像，输入引导扩散模型中的引导去噪层。其中，第二描述文本输入引导去噪层中的文本编码层，文本编码层可以对第二描述文本进行编码，从而提取出第二描述文本的主要特征信息，尤其是第二图像的风格描述特征，得到第二描述文本的文本特征向量。

然后，将第二图像的高斯噪声图像和第二描述文本的文本特征向量，输入图像去噪层，图像去噪层可以基于交叉注意力机制对第二图像的高斯噪声图像进行逐步去噪，逐步去噪的过程需要有第二描述文本的文本特征向量的引导，从而可以重构出概率分布与第二图像相同的特征图像，也即第二图像的第二特征图像。

之后，第二图像的第二特征图像输入图像解码层，图像解码层可以对第二图像的第二特征图像进行解码，从而得到第二图像的第二重构图像。

简而言之，在微调阶段，引导扩散模型通过对第二图像逐步加噪获得高斯噪声图像，进而在第二描述文本的引导下，通过对该高斯噪声图像逐步去噪，实现对第二图像的重构。

S42：根据第二重构图像与第二图像的相似度，确定预训练后的引导扩散模型的第二损失函数值。

在本申请实施例中，每获得一个第二图像的第二重构图像，就计算一次引导扩散模型的损失函数值。

S43：根据第二损失函数值调整预训练后的引导扩散模型的模型参数，以实现对预训练后的引导扩散模型的微调。

每次对一个第二图像重构得到一个第二重构图像，就按照使第二损失函数值逐渐减小至小于第二预设值的策略，调整一次预训练后的引导扩散模型的模型参数。基于所有第二图像进行模型参数的多次调整，多次调整完毕后，即完成了对预训练后的引导扩散模型的微调，得到了风格化图像生成模型，如图4所示。

另外，本申请实施例还提供包括风格化图像生成模型的推理过程，也即通过风格化图像生成模型生成具有特定风格的图像的过程。参照图4，该推理过程具体包括：

获取包括对目标图像风格的描述内容的目标描述文本，以及获取随机高斯噪声图像；

将随机高斯噪声图像和目标描述文本输入风格化图像生成模型，以使风格化图像生成模型在目标描述文本的引导下输出具有目标图像风格的图像。

其中，给定一个包括对目标图像风格的描述内容的目标描述文本，并随机生成一个高斯噪声图像，将二者输入风格化图像生成模型，从而风格化图像生成模型可以通过对随机高斯噪声图像进行逐步去噪，然后解码，从而生成一个具有目标图像风格的图像。其中，逐步去噪的过程需要基于目标描述文本的引导实现。

此外，本申请实施例中还对第二图像的具体获取方式进行介绍，见下文。

可选地，步骤S30具体可以通过以下方式实现，包括：

S31：对具有目标图像风格的视频进行关键帧提取，得到多个第二图像。

在该实施例中，对于风格明显的视频，例如大鱼海棠风格、宫崎骏动画风格、新海诚漫画风格、海贼王动漫风格等，可以提取视频的关键帧，将提取得到的关键帧作为用于微调模型的第二图像。

通过关键帧提取能够保证从视频中获取的图像帧具有有效的画面信息，去除一些黑屏、转场、冗余的图像帧，避免因模型微调数据集中出现内容多次重复而导致的模型过拟合。

进一步可选地，在步骤S31之前，该风格化图像生成模型的生成还可以包括以下步骤：

S32：确定视频的开头视频段和结尾视频段；

S33：分别对开头视频段和结尾视频段中的图像帧进行画面信息丰富度检测；

S34：当开头视频段中的图像帧的画面信息丰富度小于预设丰富度阈值时，将开头视频段从视频中删除；

S35：当结尾视频段中的图像帧的画面信息丰富度小于预设丰富度阈值时，将结尾视频段从视频中删除。

在该实施例中，对于例如电影之类的视频，视频的开头部分和结尾部分经常用于重点展示字幕，往往不利于视频风格的捕捉，因此，可以通过对视频的开头部分和结尾部分进行画面信息丰富度检测，若画面信息丰富度较低，则表示开头部分或结尾部分的画面信息不丰富，视频风格的捕捉难度较大，因此，可以将画面信息丰富度较低的开头部分或结尾部分删除，从而避免视频开头结尾的字幕影响模型的图像生成效果。

具体地，首先可以根据视频时长，确定开头视频段和结尾视频段。例如可以从视频开头向后占据视频时长的3％的视频段，确定为该视频的开头视频段，从视频结尾向前占据视频时长的3％的视频段，确定为该视频的结尾视频段。

然后，分别对开头视频段和结尾视频段中的图像帧进行画面信息丰富度检测。可选地，可以对开头视频段和结尾视频段随机抽取图像帧，并对抽取到的图像帧进行画面信息丰富度检测，如此，可以避免检测过多的图像帧。在一种实施例中，对图像帧进行画面信息丰富度检测，可以通过以下公式实现：

rg＝R-G

C＝σ_rgyb+0.3·μ_rgyb

在上述各公式中，R、G、B分别表示图像帧中的像素的R(红色)通道分量、G(绿色)通道分量和B(蓝色)通道分量。为方便描述之后的公式，将rg称为第一参数，yb称为第二参数。σ_rg表示图像帧中所有像素的第一参数的标准差，σ_yb表示图像帧中所有像素的第二参数的标准差，μ_rg表示图像帧中所有像素的第一参数的平均值，μ_yb表示图像帧中所有像素的第二参数的平均值，C表示图像帧的画面信息丰富度。

若开头视频段中的图像帧的画面信息丰富度小于预设丰富度阈值(例如20)，则将开头视频段从视频中删除，若开头视频段中的图像帧的画面信息丰富度大于或等于预设丰富度阈值，则将开头视频段保留；若结尾视频段中的图像帧的画面信息丰富度小于预设丰富度阈值，则将结尾视频段从视频中删除，若结尾视频段中的图像帧的画面信息丰富度大于或等于预设丰富度阈值，则将结尾视频段保留。

相应地，在步骤S31中，具体可以对经过步骤S32-S35处理后的视频，进行关键帧提取。

进一步地，步骤S31具体可以通过以下过程实现，包括：

S311：从具有目标图像风格的视频中选取多个候选图像帧。

在该步骤中，可以按照预设间隔，对具有目标图像风格的视频选取多个候选图像帧，其中，预设间隔可以是时间间隔，也可以是图像帧数间隔，例如每隔1秒选取1个图像帧，或者每隔20帧选取1个图像帧。

S312：根据候选图像帧之间的结构相似性指数，从各候选图像帧中提取关键帧。

在该步骤，可以确定候选图像帧之间的结构相似性指数，并据此从各候选图像帧中提取关键帧。其中，结构相似性指数具体可以是MS-SSIM指数(Multi-Scale StructuralSimilarity，多尺度结构相似性指数)，MS-SSIM指数可以从亮度、对比度和结构这三个方面考察图像之间的相似性，MS-SSIM指数越大，表示两个图像之间的相似性越高。

在一种实施例中，该步骤具体可以通过以下方式实现，包括：

将视频中的第一个候选图像帧作为初始的对比帧，循环执行以下关键帧确定步骤，直至对比帧更新为视频中的最后一个候选图像帧，退出循环。

其中，关键帧确定步骤包括：

在第一候选图像帧为当前的对比帧的情况下，确定第一候选图像帧与第二候选图像帧之间的结构相似性指数；第二候选图像帧与第一候选图像帧相邻，且在当前的视频中位于第一候选图像帧之后；

当第一候选图像帧与第二候选图像帧之间的结构相似性指数小于预设相似性阈值时，将第二候选图像帧确定为关键帧，将对比帧更新为第二候选图像帧，并返回执行关键帧确定步骤。

关键帧确定步骤还包括：

当第一候选图像帧与第二候选图像帧之间的结构相似性指数大于或等于预设相似性阈值时，从视频中删除第二候选图像帧，返回执行关键帧确定步骤。

具体地，可以将视频中的第一个候选图像帧作为初始的对比帧，使用MS-SSIM指数对下一个候选图像帧和对比帧进行亮度、对比度和结构三个要素加权的相似性计算。具体地，首先读入待计算相似性的两个图像帧，将这两个图像帧均转换为灰度图像，利用skimage.metrics.structural_similarity函数计算两个灰度图像间的MS-SSIM指数，若MS-SSIM指数小于预设相似性阈值(例如0.4)，则将当前对比帧的下一个候选图像帧作为关键帧保留，并将当前对比帧的下一个候选图像作为下一次确定关键帧所需的对比帧，执行下一次的关键帧确定步骤。

若MS-SSIM指数大于或等于预设相似性阈值，则认为当前对比帧的下一个候选图像帧不是关键帧，将其删除，并保持对比帧不变，也即将当前对比帧继续作为下一次确定关键帧所需的对比帧，执行下一次的关键帧确定步骤。

如此，循环执行关键帧确定步骤，直至对比帧更新为视频中的最后一个候选图像帧，也即对视频中的最后一个候选图像帧与对比帧的MS-SSIM指数计算完毕，退出循环，完成对视频的关键帧提取。

在本申请实施例中，被确定为关键帧的图像需要具有代表性，也即需要与其他关键帧的内容有所区别，便于从不同内容的图像中学习同种风格，若两个图像的相似程度较高，则选取其一作为关键帧即可。

通过本申请实施例提供的方法，可以获得用于生成某种特定风格的图像的风格化图像生成模型，并且实现了基于视频关键帧的风格化图像生成模型的微调。其中，可以利用视频，进行关键帧提取，构建统一风格的图像数据集，并对图像数据集添加图像风格描述，进行风格化图像生成模型的微调。该方法可以将视频素材用作预训练图像生成模型下游的微调，同时，利用关键帧提取以及视频开头结尾部分的画面信息丰富度检测，保证图像数据集的画面信息有效，去除一些黑屏、转场、冗余的视频帧，避免了模型过拟合，还避免了黑屏和视频开头结尾字幕给模型效果带来的负面影响。

与本申请实施例提供的风格化图像生成模型的生成方法相对应的，本申请实施例还提供一种风格化图像生成模型的生成装置。如图5所示，所述装置包括：

可选地，所述第二获取模块包括：

关键帧提取子模块，用于对具有目标图像风格的视频进行关键帧提取，得到多个第二图像。

可选地，所述装置还用于：

确定所述视频的开头视频段和结尾视频段；

分别对所述开头视频段和所述结尾视频段中的图像帧进行画面信息丰富度检测；

当所述开头视频段中的图像帧的画面信息丰富度小于预设丰富度阈值时，将所述开头视频段从所述视频中删除；

当所述结尾视频段中的图像帧的画面信息丰富度小于所述预设丰富度阈值时，将所述结尾视频段从所述视频中删除。

可选地，所述关键帧提取子模块包括：

选取单元，用于从具有目标图像风格的视频中选取多个候选图像帧；

提取单元，用于根据所述候选图像帧之间的结构相似性指数，从各所述候选图像帧中提取关键帧。

可选地，所述提取单元具体用于：

将所述视频中的第一个所述候选图像帧作为初始的对比帧，循环执行以下关键帧确定步骤，直至所述对比帧更新为所述视频中的最后一个所述候选图像帧，退出循环；

所述关键帧确定步骤包括：

在第一候选图像帧为当前的所述对比帧的情况下，确定所述第一候选图像帧与第二候选图像帧之间的结构相似性指数；所述第二候选图像帧与所述第一候选图像帧相邻，且在当前的所述视频中位于所述第一候选图像帧之后；

当所述第一候选图像帧与所述第二候选图像帧之间的结构相似性指数小于预设相似性阈值时，将所述第二候选图像帧确定为关键帧，将所述对比帧更新为所述第二候选图像帧，并返回执行所述关键帧确定步骤。

可选地，所述关键帧确定步骤还包括：

当所述第一候选图像帧与所述第二候选图像帧之间的结构相似性指数大于或等于预设相似性阈值时，从所述视频中删除所述第二候选图像帧，并返回执行所述关键帧确定步骤。

可选地，所述装置还包括：

第三获取模块，用于获取包括对所述目标图像风格的描述内容的目标描述文本，以及获取随机高斯噪声图像；

风格化图像生成模块，用于将所述随机高斯噪声图像和所述目标描述文本输入所述风格化图像生成模型，以使所述风格化图像生成模型在所述目标描述文本的引导下输出具有所述目标图像风格的图像。

可选地，所述预训练模块具体用于：

将所述第一图像作为预训练输入样本，所述第一描述文本作为引导条件，将所述第一图像和所述第一描述文本输入所述引导扩散模型，以使所述引导扩散模型输出所述第一图像的第一重构图像；

根据所述第一重构图像与所述第一图像的相似度，确定所述引导扩散模型的第一损失函数值；

根据所述第一损失函数值调整所述引导扩散模型的模型参数，以实现对所述引导扩散模型的预训练。

可选地，所述微调模块具体用于：

将所述第二图像作为微调输入样本，所述第二描述文本作为引导条件，将所述第二图像和所述第二描述文本输入预训练后的所述引导扩散模型，以使预训练后的所述引导扩散模型输出所述第二图像的第二重构图像；

根据所述第二重构图像与所述第二图像的相似度，确定预训练后的所述引导扩散模型的第二损失函数值；

根据所述第二损失函数值调整预训练后的所述引导扩散模型的模型参数，以实现对预训练后的所述引导扩散模型的微调。

可选地，所述微调模块更具体用于：

通过所述扩散加噪层对所述第二图像添加噪声；

通过所述引导去噪层在所述第二描述文本的引导下对添加噪声后的所述第二图像进行去噪，以学习所述第二图像由于添加噪声引起的图像信息衰减特征，得到所述第二图像的第二重构图像。

可选地，所述扩散加噪层包括图像编码层和图像加噪层；

所述图像编码层用于对图像进行编码，得到第一特征图像；

所述图像加噪层用于对所述第一特征图像逐步添加高斯噪声，得到高斯噪声图像。

可选地，所述引导去噪层包括文本编码层、图像去噪层和图像解码层；

所述文本编码层用于对图像的描述文本进行编码，得到文本特征向量；

所述图像去噪层用于在所述文本特征向量的引导下，基于交叉注意力机制对所述图像的高斯噪声图像进行逐步去噪，得到第二特征图像；

所述图像解码层用于对所述第二特征图像进行解码，以重构或生成所述图像。

与本申请实施例提供的风格化图像生成模型的生成方法相对应的，本申请实施例还提供了一种用于生成风格化图像生成模型的电子设备。如图6所示，所述电子设备包括：处理器601；以及存储器602，用于存储风格化图像生成模型的生成方法的程序，该设备通电并通过所述处理器运行该风格化图像生成模型的生成方法的程序后，执行如下步骤：

获取多个第二图像，以及获取所述第二图像的第二描述文本；所述第二图像为具有目标图像风格的图像，所述第二描述文本中包括对所述目标图像风格的描述内容；

与本申请实施例提供的风格化图像生成模型的生成方法相对应的，本申请实施例提供一种计算机可读存储介质，存储有风格化图像生成模型的生成方法的程序，该程序被处理器运行，执行下述步骤：

需要说明的是，对于本申请实施例提供的装置、电子设备及计算机可读存储介质的详细描述可以参考对本申请实施例中对方法的相关描述，这里不再赘述。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种风格化图像生成模型的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从具有目标图像风格的视频中获取多个第二图像，包括：

对具有目标图像风格的视频进行关键帧提取，得到多个第二图像。

3.根据权利要求2所述的方法，其特征在于，所述对具有目标图像风格的视频进行关键帧提取，得到多个第二图像之前，还包括：

确定所述视频的开头视频段和结尾视频段；

4.根据权利要求2所述的方法，其特征在于，所述对具有目标图像风格的视频进行关键帧提取，得到多个第二图像，包括：

从具有目标图像风格的视频中选取多个候选图像帧；

根据所述候选图像帧之间的结构相似性指数，从各所述候选图像帧中提取关键帧。

5.根据权利要求4所述的方法，其特征在于，所述根据所述候选图像帧之间的结构相似性指数，从所述视频中提取关键帧，包括：

所述关键帧确定步骤包括：

6.根据权利要求5所述的方法，其特征在于，所述关键帧确定步骤还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包括对所述目标图像风格的描述内容的目标描述文本，以及获取随机高斯噪声图像；

将所述随机高斯噪声图像和所述目标描述文本输入所述风格化图像生成模型，以使所述风格化图像生成模型在所述目标描述文本的引导下输出具有所述目标图像风格的图像。

8.根据权利要求1所述的方法，其特征在于，所述将所述第一图像作为预训练输入样本，所述第一描述文本作为引导条件，对引导扩散模型进行预训练，包括：

9.根据权利要求1所述的方法，其特征在于，所述将所述第二图像作为微调输入样本，所述第二描述文本作为引导条件，对预训练后的所述引导扩散模型进行微调，得到包括微调后的所述引导扩散模型中的引导去噪层的风格化图像生成模型，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述第二图像和所述第二描述文本输入预训练后的所述引导扩散模型，以使预训练后的所述引导扩散模型输出所述第二图像的第二重构图像，包括：

通过所述扩散加噪层对所述第二图像添加噪声；

11.根据权利要求1所述的方法，其特征在于，所述扩散加噪层包括图像编码层和图像加噪层；

所述图像编码层用于对图像进行编码，得到第一特征图像；

12.根据权利要求1所述的方法，其特征在于，所述引导去噪层包括文本编码层、图像去噪层和图像解码层；

13.一种风格化图像生成模型的生成装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储程序，该电子设备通电并通过所述处理器运行该程序后，执行如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有程序，该程序被处理器运行，执行如权利要求1-12中任一项所述的方法。