CN116503513A

CN116503513A - 一种基于条件扩散模型的草图引导图像编辑方法

Info

Publication number: CN116503513A
Application number: CN202310269415.8A
Authority: CN
Inventors: 耿卫东; 蒋寅峰; 毛卫航; 厉向东; 梁秀波
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-28

Abstract

本发明公开了一种基于条件扩散模型的草图引导图像编辑方法，包括：获取待修复图像和草图，并随机生成掩码图；利用两个编码器分别对待修复图像和草图进行降维编码得到两个低维向量，同时对掩码图采样得到掩码向量；将两个低维向量和掩码向量作为引导条件，利用条件扩散模型基于引导条件的逆扩散生成修复向量；利用解码器对修复向量进行解码重构回图像像素空间得到图像编辑结果。该方法由于整体过程引入草图作为引导，实现对图像中目标区域的有效编辑并且保证图像的全局一致性。

Description

一种基于条件扩散模型的草图引导图像编辑方法

技术领域

本发明属于图像编辑技术领域，具体涉及一种基于条件扩散模型的草图引导图像编辑方法。

背景技术

图像编辑技术是指通过添加文本、音频、视觉等引导信息，或是通过用户交互式的操作，以实现对图像的风格样式、内容的修改，常见的编辑效果主要有删除图像中多余的对象、修改对象的形状或颜色、添加额外的对象、移动或旋转对象等。

传统的图像编辑技术主要采用图形学的方法，通过修改和调整图像空间中的几何特征以实现例如物体变形、移动、添加、删除等编辑效果，根据是否实时交互式编辑操作可以分为非实时交互式图像编辑和实时交互式的图像编辑两大类。对于非实时交互式的图像编辑，这些技术一般都是通过用户在图像上绘制线条实现物体的变形，或者通过添加掩码图实现物体的删除。对于实时交互式图像编辑技术，这些技术一般依靠鼠标或者触控板等设备实现用户的交互式编辑操作，由于对于操作的计算复杂度有较高的要求，因此一般只能支持对简单的动画图像进行编辑。然而这些传统的图像编辑技术主要都是基于像素、补丁等底层的图像特征，因此往往缺乏整体的语义信息，只能用于场景较为简单的图像。

随着基于文本生成图像的AIGC技术的迅速发展，许多功能强大的生成式模型如变分自编码器对抗网络、扩散模型等被提出。但在实际的使用中，大部分模型都存在着以下问题：

(1)无法进行局部修改。如果对于生成的图像中的部分细节不够满意，用户无法在生成图像的基础上使用文本生成图像模型进行准确地修改。如果用户通过向原来的输入文本中补充添加额外的描述信息，并重新生成图像，则可能会对图像中用户不希望变化的部分造成修改。

(2)生成细节效果不佳。尽管文本生成图像模型可以根据据用户输入的文本信息生成相应的风格、并包含相应内容的图像，但是生成的图像细节往往不够理想，存在人脸变形、复杂场景中的形状容易扭曲、对象细节不够完善等问题。

(3)文本信息表达能力有限。当用户希望生成的图像中包含特定形状或结构的内容时，使用文本进行描述可能过于复杂，并且对于某业些形状或结构可能难以准确描述。此外，即使提供了复杂的描述文本，也可能无法准确生成用户期望的图像。

综上所述，基于文本生成图像的AIGC技术虽然在艺术风格准确性和生产效率上满足了用户的基本需求，但是依然存在着无法进行局部修改、生成细节不佳、文本信息表达受限等问题。

发明内容

鉴于上述，本发明的目的是提供一种基于条件扩散模型的草图引导图像编辑方法，以实现对图像中目标区域的有效编辑并且保证图像的全局一致性。

为实现上述发明目的，实施例还提供了一种基于条件扩散模型的草图引导图像编辑方法，包括以下步骤：

获取待修复图像和草图，并随机生成掩码图；

利用两个编码器分别对待修复图像和草图进行降维编码得到两个低维向量，同时对掩码图采样得到掩码向量；

将两个低维向量和掩码向量作为引导条件，利用条件扩散模型基于引导条件的逆扩散生成修复向量；

利用解码器对修复向量进行解码重构回图像像素空间得到图像编辑结果。

在一个实施例中，所述两个编码器和解码器被应用之前，通过构建包括编码器、解码器和判别器的VQGAN框架，采用对抗学习来优化编码器和解码器参数。

在一个实施例中，所述条件扩散模型在被应用之前需要经过训练，训练过程包括：

构建训练样本：生成彩色图像对应的初始草图，随机生成掩码图，依据掩码图和彩色图像生成待修复图像，依据掩码图和初始草图生成草图；

构建引导条件：利用两个编码器分别对待修复图像和草图进行降维编码得到两个低维向量，同时对掩码图采样得到掩码向量，两个低维向量和掩码向量拼接作为引导条件；

构建条件扩散模型：条件扩散模型包括正向扩散过程和基于引导条件的逆扩散过程，其中，正向扩散过程中，以基于彩色图像的低维向量作为初始正扩散向量，通过在每个扩散步增加实际噪声实现正向扩散并获得每个扩散步的正扩散向量；逆扩散过程中，以从高斯分布随机采样的向量作为初始逆扩散向量，针对每个扩散步，基于引导条件和前一扩散步的逆扩散向量计算累积噪声，并根据累积噪声计算每个扩散步的逆扩散向量；

构建损失函数：以同一扩散步的正向扩散过程增加的实际噪声与逆向扩散过程计算的累积噪声之间的均方误差作为损失函数；

模型训练：采用损失函数对条件扩散模型进行训练，以优化模型参数。

在一个实施例中，采用以下公式通过在每个扩散步增加实际噪声实现正向扩散并获得每个扩散步的正扩散向量：

其中，z_t表示扩散步t对应的正扩散向量，表示加噪参数，取值范围为(0,1)，ε_image(x)表示彩色图像经过编码器ε_image编码得到的低维向量，∈_t表示扩散步t增加的实际噪声。

在一个实施例中，采用以下公式根据累积噪声计算每个扩散步的逆扩散向量：

其中，和/>分别表示扩散步t和t-1对应的逆扩散向量，c_image,c_sketch,c_mask分别表示待修复图像对应的低维向量、草图对应的低维向量、掩码向量，/>表示基于引导条件和/>计算的累积噪声，σ_t表示调节参数，z属于标准正态分布N(0,I)，/>表示加噪参数，取值范围为(0,1)，β_t表示高斯噪声标准差，取值范围为(0,1)，方差/>应当等于/>取值范围为(0,1)，计算公式为：

在一个实施例中，所述生成彩色图像对应的初始草图，包括：对彩色图像进行边缘轮廓提取和二值化处理得到初始草图；

所述随机生成掩码图，包括：使用随机生成矩形的方式模拟矩形选框生成相应的第一初始掩膜图，通过移动圆形区域模拟橡皮擦生成相应的第二初始掩膜图，将第一初始掩膜图和第二初始掩膜图相加得到所述掩码图。

在一个实施例中，所述依据掩码图和彩色图像生成待修复图像，包括：将掩码图mask和彩色图像x执行操作x⊙(1-mask)得到待修复图像x_image；

所述依据掩码图和初始草图生成草图，包括：将掩码图mask和初始草图s执行操作s⊙mask得到草图s_sketch，⊙表示点乘。

在一个实施例中，所述利用条件扩散模型基于引导条件的逆扩散生成修复向量，包括：

以从高斯分布随机采样的向量作为初始逆扩散向量，针对每个逆扩散步，基于引导条件和前一逆扩散步的逆扩散向量计算累积噪声，并根据累积噪声计算每个扩散步的逆扩散向量，最后逆扩散步获得的逆扩散向量作为修复向量。

与现有技术相比，本发明具有的有益效果至少包括：

基于待修复图像、草图以及掩码图对应的低维向量构建引导条件，并在低维隐空间内，基于引导条件采用条件扩散模型的逆扩散生成最终时间步的逆扩散向量作为修复向量，在此基础上，利用解码器对修复向量进行解码重构回图像像素空间得到图像编辑结果，由于整体过程引入草图作为引导，使得模型最终输出的图像满足在给定的编辑区域内实现草图提供的形状和结构信息所引导的编辑效果，即实现对图像中目标区域的有效编辑并且保证图像的全局一致性，该方法降低了推理成本，强化了草图条件的引导作用，提升了生成图像的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于条件扩散模型的草图引导图像编辑方法的流程图；

图2是实施例提供的灰度图在不同阈值下生成的二值化图像；

图3是实施例提供的掩膜图示例；

图4是实施例提供的基于自编码器隐空间的条件扩散模型；

图5是实施例提供的草图引导图像编辑流程图；

图6是实施例提供的在多风格自建数据集上的草图编辑效果；

图7是实施例提供的VQGAN框架结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

经研究发现，草图信息相比其他类型的引导信息，可以提供更为底层的图像引导信息，并且可以更为准确地表达出用户在图像编辑中对物体形状、结构等细节特征的期望。因此，实施例提供了一种基于条件扩散模型的草图引导图像编辑方方法，如图1所示，包括以下步骤：

步骤1，构建条件扩散模型的训练样本。

实施例中，给定大小为H×W×3的彩色图像x，并生成彩色图像x对应的初始草图S，具体地，针对彩色图像x使用边缘轮廓提取模型LDC以及二值化处理获得相应大小为H×W×1的初始草图S，S中值为1表示线条、形状等草图引导信息，值为0表示背景。

具体地，使用边缘轮廓提取模型LDC以及二值化处理获得相应大小为H×W×1的初始草图s，包括：首先，使用LDC模型对才是图像x进行边缘提取，得到相应的灰度图；然后，针对灰度图，选择阈值threshold＝125进行二值化以及取反操作，从而使得初始草图符合实际应用场景中用户的输入。对于灰度图，将所有>threshold的像素值设为0，将所有≤threshold的像素值设为1，当采用不同阈值时，得到的二值化图像不同，如图2所示。

实施例中，在训练阶段随机大小为H×W×1的掩膜图mask作为待修复的图像区域标识，mask中1表示需要修复区域，值为0表示无需修复区域，如图3所示。在此基础上，依据掩码图mask和彩色图像x通过操作x⊙(1-mask)生成待修复图像x_image，依据掩码图mask和初始草图通过操作s⊙mask生成待修复区域的草图s_sketch，该草图s_sketch提供草图引导信息，⊙表示点乘。

具体地，随机大小为H×W×1的掩膜图mask，包括：1)使用随机生成矩形的方式模拟矩形选框生成相应的第一初始掩膜图；2)通过移动圆形区域模拟橡皮擦生成相应的第二初始掩膜图；3)第一初始掩膜图和第二初始掩膜图相加得到最终的掩码图。

其中，使用随机生成矩形的方式模拟矩形选框生成相应的第一初始掩膜图，包括：1-1)初始化大小为H×W的零矩阵mask；1-2)设置maxMatrixWidth和maxMatrixHeight分别为模拟矩形框的最大宽度和最大高度，设置maxDeltaWidth和maxDeltaHeight分别为矩形框在宽度和高度上的最大浮动量，实现在浮动量范围内随机调整矩形框的高度和宽度；1-3)通过random.uniform函数分别取得maxMatrixWidth和maxMatrixHeight范围内的两个随机数pointX和pointY；1-4)通过random.uniform函数分别取得maxDeltaWidth/2和maxMatrixHeight/2范围内的两个随机数deltaWidth和deltaHeight；1-5)接着计算矩形框的四个点，分别为：P₁＝pointY+deltaHeight，P₂＝pointY+maxMatrixHeight-deltaHeight，P₃＝pointX+deltaWidth，P₄＝pointY+maxMatrixWidth-deltaWidth；1-6)将mask矩阵中的四个点围成的矩形部分赋值为1，得到模拟矩形选框的掩膜图，即mask[P₁:P₂,P₃:P₄]＝1；1-7)对于生成的掩膜图会进一步随机左右、上下翻转以实现数据增强。

其中，通过移动圆形区域模拟橡皮擦生成相应的第二初始掩膜图，包括：2-1)初始化大小为H×W的零矩阵mask；2-2)设置maxNum和minNum分别为模拟橡皮擦滑动的最大次数和最小次数，通过random.uniform函数取得minNum到maxNum范围内的随机数num作为模拟橡皮擦滑动次数；2-3)通过random.uniform函数分别取得W和H范围内的两个随机数startX和startY；2-4)设置maxBrushWidth和minBrushWidth分别为模拟橡皮擦滑动时的最大宽度和最小宽度；2-5)通过random.uniform函数取得minBrushWidth到maxBrushWidth范围内的随机数brushWidth作为模拟橡皮擦滑动时的宽度；2-6)设置i＝0，迭代步骤2-7)到步骤2-13)的操作，直到i>num为止；2-7)设置minAngle和maxAngle分别为橡皮擦滑动调整的最小角度和最大角度，通过random.uniform函数分别取得minAngle和maxAngle范围内的随机数作为本次模拟橡皮擦滑动随机调整的角度angle；2-8)判断i是否为偶数，若是，则进行操作angle＝2*π-anlge；若不是，则进入步骤2-9)；2-9)设置maxLength为模拟橡皮擦滑动的最大长度，通过random.uniform函数取得maxLength范围内的随机数作为本次模拟橡皮擦随机滑动的长度length；2-10)从点(startX,startY)出发以角度angle画一条线，直线的长度为length，宽度为brushWidth；2-11)分别进行赋值操作startX＝startX+length*sin(angle)和startY＝startY+length*cos(angle)；2-12)以点(startX,startY)为圆形绘制一个圆，圆的半径为brushWidth/2；2-13)进行赋值操作i＝i+1；2-14)对于步骤2-7)到步骤2-13)生成的掩膜图mask会进一步随机左右、上下翻转以实现数据增强。其中，生成掩码图的具体参数详见表1：

表1

基于上述，将彩色图像、待修复图像、草图以及掩码图构成训练样本。

步骤2，基于训练样本构建引导条件。

实施例中，在构建引导条件时，利用两个编码器分别对待修复图像和草图进行降维编码得到两个低维向量，同时对掩码图采样得到掩码向量，两个低维向量和掩码向量拼接作为引导条件。

步骤3，构建条件扩散模型。

如图4所示，在自编码器隐空间内构建条件扩散模型，该条件扩散模型包括正向扩散过程和基于引导条件的逆扩散过程，

其中，正向扩散过程实际为对彩色图像在每个时间步做加噪，不同于DDPM直接对彩色图像x进行加噪，而是先将彩色图像编码到隐空间得到低维向量z＝ε_image(x)，再对z进行加噪，即以基于彩色图像的低维向量z作为初始正扩散向量，通过在每个扩散步增加实际噪声实现正向扩散并获得每个扩散步的正扩散向量，用公式表示为：

其中，z_t表示扩散步t对应的正扩散向量，表示加噪参数，取值范围为(0,1)，ε_image(x)表示彩色图像经过编码器ε_image编码得到的低维向量，ε_t表示扩散步t增加的实际噪声。

逆向扩散过程实际为对初始逆向量在每个时间步去噪，不同于DDPM直接对初始逆向量直接去噪，还考虑了草图引导条件的输入，即以从高斯分布N(0,I)随机采样的向量作为初始逆扩散向量针对每个扩散步，首先基于引导条件和前一扩散步的逆扩散向量计算累积噪声，表示为：

其中，p_θ表示累积噪声的概率分布，和/>分别表示扩散步t和t-1对应的逆扩散向量，u_θ(·)和∑_θ(·)表示正态分布N的均值和方差，通过从中采样得到累积噪声/>其中，c_image,c_sketch,c_mask分别表示待修复图像对应的低维向量、草图对应的低维向量、掩码向量；

然后根据累积噪声计算每个扩散步的逆扩散向量，用公式表示为：

其中，σ_t表示调节参数，根据公式方差/>应当等于/>取值范围为(0,1)，z属于标准正态分布N(0,I)，/>表示加噪参数，取值范围为(0,1)，β_t表示高斯噪声标准差，取值范围为(0,1)。

步骤4，构建损失函数，并基于训练样本及引导条件对条件扩散模型进行训练。

实施例中，以同一扩散步的正向扩散过程增加的实际噪声∈_t～N(0,I)与逆向扩散过程计算的累积噪声∈_θ之间的均方误差作为损失函数。

实施例中，训练目标是将训练样本中待修复图像x_image、草图s_sketch、掩码图mask一起作为模型的输入，将彩色图像x作为草图引导的图像修复的目标图像，基于输入的s_sketch和mask，对待修复图像x_image进行修复，使得修复结果尽可能地与彩色图像x一致。由于本实施例中，条件扩散模型建立在隐空间下，因此，利用上述损失函数，实现训练目标为基于输入的c_sketch和c_mask，对c_image进行修复，使得修复结果尽可能地与z一致，基于该实际训练目标不断优化条件扩散模型的参数。

步骤5，利用训练好的条件扩散模型进行草图引导的图像编辑。

实施例中，如图5所示，利用训练好的条件扩散模型进行草图引导的图像编辑时，采用以下步骤：

5-1)获取待修复图像和草图，并随机生成掩码图；

5-2)利用两个编码器分别对待修复图像和草图进行降维编码得到两个低维向量，同时对掩码图采样得到掩码向量；

5-3)将两个低维向量和掩码向量作为引导条件，利用条件扩散模型基于引导条件的逆扩散生成修复向量，具体包括：

以从高斯分布随机采样的向量作为初始逆扩散向量，针对每个逆扩散步，基于引导条件和前一逆扩散步的逆扩散向量计算累积噪声，并根据累积噪声计算每个扩散步的逆扩散向量，最后逆扩散步获得的逆扩散向量作为修复向量；

5-4)利用解码器对修复向量进行解码重构回图像像素空间得到图像编辑结果如图6所示。

实施例中，上述用于对待修复图像和草图进行有效降维的编码器和将隐空间向量解码器在被应用之前需要经过预训练。如图7所示的VQGAN框架包括编码器ε(Encoder)、解码器D(Decoder)和判别器Ν(Discriminator)三部分，其中，Conv为卷积层，ResBlock为残差块，Norm为归一化层，Upsample为上采样层，输入图像x∈R^H×W×d，经过编码器ε降维后得到z∈R^H×W×d，f＝W/w＝H/h表示编码器ε对图像进行下采样的比例因子。引入判别器Ν是为了进行对抗训练，其训练目标是尽可能区分真实图像x和重建图像

输入图像x通过编码器ε编码得到z，不同于一般的自编码器直接将z输入到判别器D中进行重建，VQGAN将z输入到Codebook(向量词典)中进行向量离散化后得到新的再将/>输入到D中。Codebook的作用相当于对隐向量进行聚类，可以使得重建的结果更加稳定。向量离散化的过程q(z)就是通过查询Codebook得到于z距离最近的隐向量/>公式如下：

解码器D的结构与编码器类似，负责对隐向量进行上采样，在解码器D中通过两个插值上采样操作实现特征维度的上升。此外在训练时，会将真实图像x和重建图像/>输入到判别器N中，进行对抗训练。

基于上述VQGAN框架，对于待修复图像和二值化的草图，分别训练model_image和model_sketch两个自编码器，其中model_image由编码器ε_image和解码器D_image构成，model_sketch由编码器ε_sketch和解码器D_sketch构成，参数如表2所示，通过编码器ε_image将待修复图像从像素空间降维到隐空间，同时通过编码器ε_sketch将草图从像素空间降维到隐空间，然后，将上述c_image,c_sketch和c_mask作为条件一起输入到基于隐空间的条件扩散模型中，从而实现草图引导的图像内容编辑。

表2

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于条件扩散模型的草图引导图像编辑方法，其特征在于，包括以下步骤：

获取待修复图像和草图，并随机生成掩码图；

2.根据权利要求1所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，所述两个编码器和解码器被应用之前，通过构建包括编码器、解码器和判别器的VQGAN框架，采用对抗学习来优化编码器和解码器参数。

3.根据权利要求1所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，所述条件扩散模型在被应用之前需要经过训练，训练过程包括：

4.根据权利要求1所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，采用以下公式通过在每个扩散步增加实际噪声实现正向扩散并获得每个扩散步的正扩散向量：

其中，z_t表示扩散步t对应的正扩散向量，表示加噪参数，(x)表示彩色图像经过编码器ε_image编码得到的低维向量，∈_t表示扩散步t增加的实际噪声。

5.根据权利要求3所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，采用以下公式根据累积噪声计算每个扩散步的逆扩散向量：

其中，和/>分别表示扩散步t和t-1对应的逆扩散向量，c_image,c_sketch,c_mask分别表示待修复图像对应的低维向量、草图对应的低维向量、掩码向量，/>表示基于引导条件和/>计算的累积噪声，σ_t表示调节参数，z属于标准正态分布N(0,I)，/>表示加噪参数，β_t表示高斯噪声标准差，方差/>应当等于/>计算公式为：

6.根据权利要求3所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，所述生成彩色图像对应的初始草图，包括：对彩色图像进行边缘轮廓提取和二值化处理得到初始草图；

7.根据权利要求3所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，所述依据掩码图和彩色图像生成待修复图像，包括：将掩码图mask和彩色图像x执行操作x⊙(1-mask)得到待修复图像x_image；

8.根据权利要求1所述的基于条件扩散模型的草图引导图像编辑方法，其特征在于，所述利用条件扩散模型基于引导条件的逆扩散生成修复向量，包括：