CN116630464A

CN116630464A - 基于稳定扩散的图像风格迁移方法和装置

Info

Publication number: CN116630464A
Application number: CN202310898974.5A
Authority: CN
Inventors: 郭建君
Original assignee: Beijing Weiling Times Technology Co Ltd
Current assignee: Beijing Weiling Times Technology Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-22

Abstract

一种基于稳定扩散的图像风格迁移方法和装置，所述方法包括以下步骤：S101：将输入图像使用第一模型处理，获取第一图像；S102：将所述输入图像使用第二模型处理，获取第二图像；S103：将所述第一图像和所述第二图像进行融合，获得输出图像；所述第一模型是通过微调稳定扩散模型中的UNet模块中的交叉注意力层而获得的LoRA模型；所述第二模型为对稳定扩散模型中UNet模块中所有层进行条件训练而获得的ControlNet模型。一种基于稳定扩散的图像风格迁移装置，包括：第一模型、第二模型；本发明属于图像处理领域，通过本发明的方法和装置，可以实现对图片进行不同风格的风格迁移，此风格迁移能保持内容不变。

Description

基于稳定扩散的图像风格迁移方法和装置

技术领域

本发明涉及图像处理领域，具体涉及图像风格迁移处理。

背景技术

风格迁移是将一种预设的纹理转移到真实的照片图像上，对图像的重新渲染的图像处理技术。目前常见的图像风格迁移的算法都基本以对抗模型（GAN）为主，常用的GAN模型例如AnimeGAN、cartoonGAN等基于GAN算法的风格生成迁移模型，可能会对细节（如纹理）、以及结构的保留度不够，而忽略掉原图中的部分的细节，因此在实现风格迁移的图生图任务时，原图转变到目标图像的风格时，原图一部分细节会丢失，从而导致在风格迁移后的图像内容发生了改变。

基于GAN模型的风格迁移算法，基底模型都是基于GAN模型，GAN模型是由生成器和判别器两个网络组成，由生成器来生成不同风格的图片，判别器来准确识别生成器生成的图像与真实图像的差异，提高鉴别能力，两者相互对抗，通过训练上述过程，从而得到最终的生成器，对图片进行风格迁移处理。但是上述过程会存在以下问题：1）两个网络同时训练时，不容易收敛，2）在生成过程中，生成器容易过拟合，模型的迁移能力较差。

公开号为CN108038821 A的专利申请文件中公开了一种基于生成式对抗网络的图像风格迁移方法，把缺少颜色或轻微残缺的图片的风格迁移成色彩和形状都较为完整的图像，包括以下步骤：a)收集要风格转换的两类图片；b)图像预处理，如果图片像素过大，就分割成较小的部分；c)基于深度卷积网络构造生成式对抗网络；d)对生成式判别网络进行训练；e)生成风格迁移的图像；f)如果预处理把图片分割成较小的部分，还需要将它们拼接起来。上述相关技术中，仍然存在模型不容易收敛，生成器容易过拟合，模型的迁移能力差，风格迁移后的图像内容发生改变的问题。

发明内容

本发明要解决上述相关技术中，基于GAN模型的图像迁移方法模型训练时不容易收敛，模型迁移能力差，生成器容易过拟合，风格迁移后的图像内容发生改变的问题。本发明的发明人经过研究发现，基于稳定扩散的风格迁移算法，可以通过直接学习特征解决问题，即使在加以干扰的情况下，还能通过掌握的特征去还原原图，有较强的学习能力，从而可以有效提高任意风格迁移模型的迁移质量。

针对上述存在的局限性，本发明提出了一种基于稳定扩散的图像风格迁移方法和装置。

一种基于稳定扩散的图像风格迁移方法，包括以下步骤：

S101：将输入图像使用第一模型处理，获取第一图像；

S102：将所述输入图像使用第二模型处理，获取第二图像；

S103：将所述第一图像和所述第二图像进行融合，获得输出图像；

所述第一模型是通过微调稳定扩散模型中的UNet模块中的交叉注意力层而获得的LoRA模型；

所述第二模型为对稳定扩散模型中UNet模块中所有层进行条件训练而获得的ControlNet模型。。

进一步地：所述第一模型的获取方式为：

搭建稳定扩散模型，将稳定扩散模型的UNet模块中交叉注意力层进行微调训练后与交叉注意力层之外的其他层结合，从而获得所述第一模型；所述第二模型的获取方式为：

搭建稳定扩散模型，对所述稳定扩散模型中UNet模块的UNet编码器和UNet解码器进行条件训练，从而获得所述第二模型；所述条件训练为以约束条件进行训练。进一步地：使用所述第一模型处理所述输入图像获取第一图像，包括以下步骤：

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S203：根据约束条件和所述隐向量B，对所述隐向量B进行噪声预测获得噪声预测信息；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S205：根据预设的采样次数，重复步骤S202-S204，将最后一次获得的所述隐向量C作为隐向量D；

S206：处理所述隐向量D获得输出图像；

所述输出图像作为第一图像。

进一步地：使用所述第二模型处理所述输入图像获取第二图像，包括以下步骤：

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S206：处理所述隐向量D获得输出图像；

所述输出图像作为第二图像。

进一步地：在步骤S201中，处理所述输入图像获得隐向量A的方式为将所述输入图像经过隐空间编码而获得；

在步骤S205中，所述采样次数为20~40次；

在步骤S206中，处理所述隐向量D获得输出图像的方式为将所述隐向量D经过隐空间解码而获得；

所述隐空间编码使用VAE自动编码器；所述隐空间解码使用VAE自动解码器。

进一步地：所述约束条件为文字提示；

或，所述约束条件由Lineart线稿提取获取；

或，所述约束条件由Canny边缘检测获取。

进一步地：所述Canny边缘检测的方法为：

使用高斯滤波对图像进行平滑；

计算所述图像中所有像素点的梯度值和梯度方向，筛选梯度值大于预设阈值的点作为边缘候选点；

从所述边缘候选点中过滤梯度值在其梯度方向上不是最大值的点，从而获取过滤候选点；

从所述过滤候选点中筛选梯度值大于最低阈值和最高阈值的点，作为检测到的边缘点。

进一步地：在步骤S202中，添加的噪声强度为0.3-0.7。

一种基于稳定扩散的图像风格迁移装置，用于实现如上述所述的方法，所述装置包括：

第一模型、第二模型；所述第一模型为微调稳定扩散模型中交叉注意力层而获得；所述第二模型为稳定扩散模型中对UNet模块进行条件训练而获得；

所述第一模型，包括：

VAE自动编码器：所述VAE自动编码器将待处理图像进行隐空间编码

VAE自动解码器：所述VAE自动解码器将待处理图像进行隐空间解码；

扩散处理模块：所述噪声处理模块对待处理图像进行噪声叠加；根据约束条件和叠加噪声后的图像，进行噪声预测获得噪声预测信息；从待处理图像减去噪声预测信息；

所述第二模型，包括：

扩散处理模块：所述噪声处理模块对待处理图像进行噪声叠加；根据约束条件和叠加噪声后的图像，进行噪声预测获得噪声预测信息；从待处理图像减去噪声预测信息。

进一步地：所述第二模型还包括：约束条件模块，所述约束条件模块包括：Lineart线稿提取模块：提取图像线稿获得约束条件；

Canny边缘检测模块：提取图像边缘信息获得约束条件。

与相关技术相对比，本发明具有以下优点：

本发明一个发明点的图像风格迁移方法，通过使用第一模型模型，可以实现对模型的微调，从而提高了模型的可迁移性，同时提高了训练的收敛速度，提高了模型训练的效率。通过使用第二模型来控制生成结构的稳定性，从而保证内容的一致性，并能达到风格迁移细粒度的控制。

本发明一个发明点的图像风格迁移装置，包括第一模型、第二模型；通过使用第一模型，可以实现对模型的微调，从而提高了模型的可迁移性，同时提高了训练的收敛速度，提高了模型训练的效率。通过使用第二模型来控制生成结构的稳定性，从而保证内容的一致性，并能达到风格迁移细粒度的控制。

附图说明

图1为本发明一个实施例的基于稳定扩散的图像风格迁移方法的流程图；

图2为本发明另一实施例的基于稳定扩散的图像风格迁移方法中获取第一图像的流程图；

图3为本发明又一实施例的基于稳定扩散的图像风格迁移方法中获取第二图像的流程图；

图4为本发明又一实施例的基于稳定扩散的图像风格迁移装置的结构框图；

图5为本发明一个实施例的基于稳定扩散的图像风格迁移方法的处理效果对比图；（a）为处理前；（b）为处理后；

图6是本发明又一实施例的基于稳定扩散的图像风格迁移方法中Lineart线稿提取前后的效果图（a）为原图；（b）为提取后。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面对本发明进行进一步详细说明。但是应该理解，此处所描述仅仅用以解释本发明，并不用于限制本发明的范围。

除非另有定义，本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同，本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文中所涉及的表征手段均可参阅现有技术中的相关描述，本文中不再赘述。

为了进一步了解本发明，下面结合最佳实施例对本发明作进一步的详细说明。

实施例1

如图1-4所示，一种基于稳定扩散的图像风格迁移方法，包括以下步骤：

S101：将输入图像使用第一模型处理，获取第一图像；

S102：将所述输入图像使用第二模型处理，获取第二图像；

所述第二模型为对稳定扩散模型中UNet模块中所有层进行条件训练而获得的ControlNet模型。所述融合可以采取逐像素叠加，或逐像素加权求和。

稳定扩散模型是一种深度学习模型，能够生成高质量的图像，可以将图像转换为图像，适合用于风格迁移的处理。如第一模型的对稳定扩散模型进行微调的训练方式称为LoRA模型，LoRA模型基于稳定扩散模型，对参数量非常大的模型进行微调，从而可以适应各种不同的应用场景快速进行训练，提高了模型的收敛速度和可迁移性。

稳定扩散模型（Stable Diffusion）包括UNet模块、CLIP模型（文本图像对应模型）、Unet模块、VAE变分自动编解码器（编码器用来将图像编码成隐向量；解码器是将隐向量解码成图像）。LoRA模型是基于稳定扩散模型的一种模型，具有大模型的网络结构，其微调主要针对UNet模块的交叉注意力层进行微调，训练时，锁定稳定扩散模型的其他层，只对交叉注意力层进行微调，然后将微调后的LoRA模型的交叉注意力层与稳定扩散模型的其他层结合作为第一模型，进行模型推理，对图像进行风格迁移处理，上述稳定扩散模型可以是预先训练好的带有模型参数的模型。也可以是通过使用通用图片训练集进行训练获得的带有模型参数的模型。

ControlNet模型也是基于稳定扩散模型，也具有大模型的网络结构，其主要是针对UNet模块的编解码层进行微调，对约束条件进行学习从而训练UNet模块的生成和解码结果。ControlNet是通过控制输入条件来控制扩散模型的神经网络结构，在生成过程中输入约束条件，对原有图像进行生成，控制图像的属性，从而可以让生成的图像将更接近输入图像，增加生成图像的细节，进行对图像内容细粒度的控制。

ControlNet是一种条件训练，是以约束条件进行训练的，例如以Canny线图、Lineart线稿等作为约束条件、复制扩散稳定模型的UNet的编解码器部分进行训练。UNet的编码器提取隐向量的特征，UNet的解码器将特征进行复原，从而达到去噪的过程，复原出想要的隐向量，隐向量再经VAE自动解码器进行解码成图片。ControlNet是根据约束条件（如文字提示、Canny、Lineart等）、原图而训练的模型。例如，输入到ControlNet的条件为线稿提取图，会对应输出线稿填充图，因此输入条件之前，先进行边缘提取，例如使用Canny提取算子先把原始图片进行提取Canny边缘图，将边缘图再输入到ControlNet模型。

上述微调交叉注意力层获得LoRA模型的方法和条件训练获取ControlNet模型训练的方法可以使用常用的方法，不限于一种方法。

VAE(Variational AutoEncoder)：变分自编码机，用于实现图片和隐向量之间的转换。VAE包含VAE自动编解码器。

风格迁移常用的约束条件可以是文字提示（prompt）、Canny边缘提取和Lineart线稿提取。文字提示经过文本处理，可以经过Transformer等模型获取约束条件标签，输入到风格迁移模型中。Canny边缘提取是利用图像的灰度变化梯度值，提取边缘信息。

Lineart线稿提取是通过一个训练好的GAN模型，通过对输入图片提取边缘信息，输出一张类似边缘图。如图6所示。

稳定扩散模型进行风格迁移处理的方式为：

将输入图片进行潜空间编码，获得潜向量并向其添加噪声。噪声预测器将添加噪声后的潜空间向量与文字提示等约束条件作为输入传入稳定扩散模型的UNet网络（对应UNet模块），并给出预测应减去的潜空间噪声张量。将这个潜空间噪声从初始潜空间图像中减去，得到潜空间中新的隐向量。第一模型、第二模型对图像的处理都基于上述步骤，只是二者基于的微调训练的侧重点不同。潜空间编码将高维度的像素空间的像素矩阵转换为4x64x64的潜空间张量，后续处理都在潜空间中完成，从而节省了计算量。UNet的作用方式是从噪声中生成图像，在预测过程中，通过反复调用UNet，将UNet预测输出的噪声从原有的噪声中去除，得到逐步去噪后的图像表示。每次UNet输出的噪声片（noise_slice）都与原有的隐向量相减，作为UNet下次迭代的输入。根据设置的采样次数进行上述步骤重复。优选的，所述采样次数为20~40次。迭代次数越高质量越好，但采样次数控制在上述范围内，有利于兼顾质量与处理效率。上述去噪过程使用了UNet模块中的编解码器。

VAE自动解码器将最后得到的潜空间向量恢复为像素空间的图像获得最终的处理图像。

本发明的图像风格迁移方法，通过使用第一模型模型，可以实现对模型的微调，从而提高了模型的可迁移性，同时提高了训练的收敛速度，提高了模型训练的效率。通过使用第二模型来控制生成结构的稳定性，从而保证内容的一致性，并能达到风格迁移细粒度的控制。

实施例2

在实施例1的基础上，如图1-4所示，进一步地：

所述第一模型的获取方式为：

搭建稳定扩散模型，将稳定扩散模型的UNet模块中交叉注意力层进行微调训练后与交叉注意力层之外的其他层结合，从而获得所述第一模型；

所述第二模型的获取方式为：

搭建稳定扩散模型，对所述稳定扩散模型中UNet模块的UNet编码器和UNet解码器进行条件训练，从而获得所述第二模型；所述条件训练为以约束条件进行训练。UNet模块的层包括残差层、自注意层、交叉注意力层。

所述交叉注意力层之外的其他层即稳定扩散模型中除了UNet模块中交叉注意力层之外的其他层。在微调交叉注意力层过程中，UNet模块其他层保持不变，且稳定扩散模型中其他层也保持不变。

进一步地：使用所述第一模型处理所述输入图像获取第一图像，包括以下步骤：

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S206：处理所述隐向量D获得第一图像并将其输出。

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S206：处理所述隐向量D获得第二图像并将其输出。

在步骤S205中，所述采样次数为20~40次；

进一步地：所述约束条件为文字提示；

或，所述约束条件由Lineart线稿提取获取；

或，所述约束条件由Canny边缘检测获取。

进一步地：所述Canny边缘检测的方法为：

使用高斯滤波对图像进行平滑；

进一步地：在步骤S202中，添加的噪声强度为0.3-0.8。

使用本发明的方法对图像进行风格迁移处理的效果对比如图5所示。本发明的方法可以实现在风格迁移处理中，通过控制高频信息的不变形，从而保证内容的不变。

基于稳定扩散模型的风格迁移处理方法，在编码中会添加噪声，生成的图片会有一定的随机性，为了保证只迁移风格而不改变原始图片的内容，因此额外加入ControlNet模型对图片的高频信息进行约束，增加控制条件，从而使得风格迁移后的风格变化，内容保持稳定不变。其中Lineart精细线稿提取和Canny边缘检测都会提取高频信息，通过Lineart和Canny联合控制高频信息的不变形，从而保证内容的不变。

实施例3

在实施例1或2的基础上，如图1-4所示，一种基于稳定扩散的图像风格迁移装置，用于实现如上述所述的方法，所述装置包括：

第一模型、第二模型；

所述第二模型为对稳定扩散模型中的UNet模块中所有层进行条件训练而获得的ControlNet模型；

所述第一模型，包括：

所述第二模型，包括：

本发明的图像风格迁移装置，包括第一模型、第二模型；通过使用第一模型模型，可以实现对模型的微调，从而提高了模型的可迁移性，同时提高了训练的收敛速度，提高了模型训练的效率。通过使用第二模型来控制生成结构的稳定性，从而保证内容的一致性，并能达到风格迁移细粒度的控制。

实施例4

在实施例3的基础上，如图1-4所示，进一步地：所述第二模型还包括：约束条件模块，所述约束条件模块包括：

Lineart线稿提取模块：提取图像线稿获得约束条件；

Canny边缘检测模块：提取图像边缘信息获得约束条件。

在本发明的实施例中，本发明的方法和装置可以用于图像风格迁移，可以理解，所述方法和装置不限于上述应用，还可以用于一切适用于本发明的发明构思的图像处理的应用场景中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稳定扩散的图像风格迁移方法，其特征在于：包括以下步骤：

S101：将输入图像使用第一模型处理，获取第一图像；

S102：将所述输入图像使用第二模型处理，获取第二图像；

所述第一模型是通过微调稳定扩散模型中的UNet模块中的交叉注意力层而获得的LoRA模型。

2.所述第二模型为对稳定扩散模型中UNet模块中所有层进行条件训练而获得的ControlNet模型。如权利要求1所述的方法，其特征在于：

所述第一模型的获取方法为：

搭建稳定扩散模型，将稳定扩散模型的UNet模块中的交叉注意力层进行微调训练后与交叉注意力层之外的其他层结合，从而获得所述第一模型；

所述第二模型的获取方法为：

搭建稳定扩散模型，对所述稳定扩散模型中UNet模块的UNet编码器和UNet解码器进行条件训练，从而获得所述第二模型；所述条件训练为以约束条件进行训练。

3.如权利要求2所述的方法，其特征在于：

使用所述第一模型处理所述输入图像获取第一图像，包括以下步骤：

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S206：处理所述隐向量D获得输出图像；

所述输出图像作为第一图像。

4.如权利要求2所述的方法，其特征在于：

使用所述第二模型处理所述输入图像获取第二图像，包括以下步骤：

S201：处理输入图像获得隐向量A；

S202：向所述隐向量A添加噪声获得隐向量B；

S204：从所述隐向量A中减去所述噪声预测信息获得隐向量C；

S206：处理所述隐向量D获得输出图像；

所述输出图像作为第二图像。

5.如权利要求3或4所述的方法，其特征在于：

在步骤S201中，处理所述输入图像获得隐向量A的方式为将所述输入图像经过隐空间编码而获得；

在步骤S205中，所述采样次数为20~40次；

6.如权利要求3或4所述的方法，其特征在于：

所述约束条件为文字提示；

或，所述约束条件由Lineart线稿提取获取；

或，所述约束条件由Canny边缘检测获取。

7.如权利要求6所述的方法，其特征在于：

所述Canny边缘检测的方法为：

使用高斯滤波对图像进行平滑；

8.如权利要求3或4所述的方法，其特征在于：

在步骤S202中，添加的噪声强度为0.3-0.7。

9.一种基于稳定扩散的图像风格迁移装置，其特征在于：用于实现如权利要求1-8任意一项所述的方法，所述装置包括：

第一模型、第二模型；

所述第二模型为对稳定扩散模型中UNet模块中所有层进行条件训练而获得的ControlNet模型；

所述第一模型，包括：

所述第二模型，包括：

10.如权利要求9所述的装置，其特征在于：所述第二模型还包括：约束条件模块，所述约束条件模块包括：

Lineart线稿提取模块：提取图像线稿获得约束条件；

Canny边缘检测模块：提取图像边缘信息获得约束条件。