CN117237478A

CN117237478A - 草图到彩色图像的生成方法、系统、存储介质及处理终端

Info

Publication number: CN117237478A
Application number: CN202311483502.XA
Authority: CN
Inventors: 行习铭; 于茜; 王闯; 周海涛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2023-12-15
Anticipated expiration: 2043-11-09
Also published as: CN117237478B

Abstract

本发明公开了一种草图到彩色图像的生成方法、系统、存储介质及处理终端，对草图加入随机高斯噪声获得噪声图片，通过噪声预测模型进行噪声预测，利用几何能量函数获得扰动，通过反向随机微分方程对噪声图片迭代去噪，并衡量去噪过程中的生成图像和草图间的形状相似度，以引导去噪方向进行形状增强反演获得形状增强无色图像；向形状增强无色图像添加随机高斯噪声，通过噪声预测模型进行噪声预测，并参考风格图片采用几何能量函数和纹理能量函数获得扰动，通过反向随机微分方程迭代去噪，并衡量生成图像和风格图片间的纹理相似度与形状相似度，以引导去噪方向进行全控反演获得彩色图；本发明实现草图增加颜色和纹理的同时保持草图的原始形状与结构。

Description

草图到彩色图像的生成方法、系统、存储介质及处理终端

技术领域

本发明涉及图像处理技术领域，更具体的说是涉及一种草图到彩色图像的生成方法、系统、存储介质及处理终端。

背景技术

目前，扩散模型及随机微分方程方法在图像生成任务领域实现了显著的突破，为生成式人工智能的进步注入了新的活力。

其中，以能量函数为基础的随机微分方程方法在图像转换任务中也已取得成果，这种方法通过正向随机微分方程对输入图像加入特定的随机扰动，然后通过反向随机微分方程消除这些噪声；在去噪过程中，设计特定的能量函数可以引导图像生成的方向，从而实现图像的转换；这种方法在输入域与输出域间差距较小的转换任务中相对有效，如彩色图像风格转换。

然而，对于草图与彩色图像这种域间差异较大的转换任务，扩散模型的表现尚不理想；与彩色图像相比，草图仅由黑色线条和白色背景构成，缺乏颜色和纹理信息，是十分稀疏抽象的形状表达，扩散模型很难借助草图生成具有丰富颜色和纹理的彩色图像；扩散模型仅以草图作为条件时，生成的彩色图像很难保持草图的原始形状和结构。

因此，如何为草图增加颜色和纹理，同时保持草图的原始形状与结构，从而生成彩色图像，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种草图到彩色图像的生成方法、系统、存储介质及处理终端以解决背景技术中提到的问题。

为了实现上述目的，本发明采用如下技术方案：

一种草图到彩色图像的生成方法，包括以下步骤：

S1.对草图图片加入随机高斯噪声获得噪声图片，通过神经网络噪声预测模型进行噪声预测，利用几何能量函数获得扰动，通过反向随机微分方程对噪声图片迭代去噪，并衡量去噪过程中的生成图像和草图之间的形状相似度，以引导去噪方向进行形状增强反演，获得形状增强无色图像；

S2.向形状增强无色图像添加随机高斯噪声，通过神经网络噪声预测模型进行噪声预测，并参考风格图片，采用几何能量函数和纹理能量函数获得扰动，通过反向随机微分方程迭代去噪，并衡量去噪过程中的生成图像和风格图片之间的纹理相似度与形状相似度，以引导去噪方向进行全控反演，获得彩色图像。

优选的，衡量去噪过程中的生成图像和草图之间的形状相似度的函数为：

其中，为去噪环节中的生成结果，/>为用于引导的草图在加噪t步的结果，为预训练的图像到草图的生成模型；通过形状相似度的函数计算L2距离衡量形状相似度。

优选的，步骤S1中的几何能量函数具体为：

其中，为正向SDE扩散过程中从时间0到时间t的扰动核，/>为一个权重超参数。

优选的，对噪声图片去噪的随机微分方程为：

其中，为待去噪的图片，t表示去噪步数，/>为用于引导的图像，/>表示的漂移系数，/>为/>的扩散系数，/>为待去噪照片/>的扩散过程，/>为逆时序标准布朗运动， />为用于引导的能量函数。

优选的，步骤S2中衡量纹理相似度的函数具体为：

其中，表示Inception V3网络提取出的第i层特征图，/>表示上下采样倍率为N的低通滤波器，二者均使用L₂距离衡量相似度。

优选的，纹理能量函数具体为：

其中，为正向SDE扩散过程中从时间0到时间t的扰动核，/>

为一个权重超参数，为风格图片，/>为风格图片在加噪t步的结果。

优选的，步骤S2中，去噪的反向随机微分方程具体为：

其中，和/>为超参数。

一种草图到彩色图像的生成系统，基于所述的一种草图到彩色图像的生成方法，包括草图获取模块、形状增强反演模块、风格图片获取模块和全控反演模块；

草图获取模块与形状反演模块的输入端相连，形状反演模块的输出端和风格图片获取模块均与全控反演模块的输入端相连。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的一种草图到彩色图像的生成方法。

一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现所述的一种草图到彩色图像的生成方法。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种草图到彩色图像的生成方法、系统、存储介质及处理终端，在形状增强反演中，根据给定的草图生成一张细节更加丰富的无颜色图像；在全控反演中，根据这张无颜色图像和风格图片，生成得到一张彩色照片，其形状遵循输入草图，而其视觉细节遵循风格图片，为草图增加颜色和纹理的同时保持草图的原始形状与结构；本发明不需要重新训练生成模型，可以直接基于预训练的模型完成生成任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种草图到彩色图像的生成方法流程图；

图2附图为本发明提供的一种草图到彩色图像的生成方法示意图；

图3附图为本发明提供的预测噪声的扩散模型网络架构示意图；

图4附图为本发明实施例提供的本发明与其他不同图像转换方法对比图；

图5附图为本发明实施例提供的本发明与其他不同图像转换方法可视化结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种草图到彩色图像的生成方法，如图1和图2，包括以下步骤：

S1.对草图图片加入随机高斯噪声获得噪声图片，通过神经网络噪声预测模型进行噪声预测，利用几何能量函数获得扰动，通过反向随机微分方程对噪声图片迭代去噪，并衡量去噪过程中的生成图像和草图之间的形状相似度，以引导去噪方向进行形状增强反演，获得形状增强无色图像，如图2中的（a）；

S2.向形状增强无色图像添加随机高斯噪声，通过神经网络噪声预测模型进行噪声预测，并参考风格图片，采用几何能量函数和纹理能量函数获得扰动，通过反向随机微分方程迭代去噪，并衡量去噪过程中的生成图像和风格图片之间的纹理相似度与形状相似度，以引导去噪方向进行全控反演，获得彩色图像，如图2中的（b）。

在本实施例中，每次加噪过程可以定义为：

其中，为第t次加噪的程度，x_t为从均值为/>，方差为/>的正态分布上进行的采样，在实际应用中，为草图加入400步的噪声，然后通过反向随机微分方程将噪声逐渐去除。

为了进一步实施上述技术方案，衡量去噪过程中的生成图像和草图之间的形状相似度的函数为：

其中，为去噪环节中的生成结果，/>为用于引导的草图在加噪t步的结果，为预训练的图像到草图的生成模型，经过到草图的转换模型后，形状相似度函数通过计算一个距离L₂，来衡量生成图像和草图的形状相似度。

为了进一步实施上述技术方案，步骤S1中的几何能量函数具体为：

为了进一步实施上述技术方案，对噪声图片去噪的随机微分方程为：

在本实施例中，衡量生成图像和风格图片之间的纹理相似度分为两个层面的衡量：像素级和特征级；

在像素层面，使用低通滤波器对风格图片进行预处理，抹除掉过于细节的形状信息，仅仅保留大范围的色彩信息用于引导；表示上下采样倍率为N的低通滤波器，图片通过滤波器时，会先进行下采样，边长缩小N倍，之后会再进行上采样，边长扩大N倍，恢复至原来的大小,通过滤波器的图片会丢失掉大部分细节信息与过于细节的纹理信息，只保留下大致的色彩和轮廓信息；

在特征层面，由于不同的风格图片具有不同的样式和纹理，因此从风格图片重建外观并不像像素级对齐那么简单，因此，额外引入预训练的Inception V3网络来提取抽象特征，实现对纹理级别的控制。

为了进一步实施上述技术方案，步骤S2中衡量纹理相似度的函数具体为：

其中，表示Inception V3网络提取出的第i层特征图，/>表示上下采样倍率为N的低通滤波器，使用L₂距离衡量相似度。

为了进一步实施上述技术方案，纹理能量函数具体为：

其中，为正向SDE扩散过程中从时间0到时间t的扰动核，/>为一个权重超参数，/>为风格图片，/>为风格图片在加噪t步的结果。

为了进一步实施上述技术方案，步骤S2中，去噪的反向随机微分方程具体为：

其中，和/>为超参数。

在本实施例中，如图3，使用基于U-Net的扩散模型网络架构预测噪声，U-Net的主体部分属于Encoder-Decoder架构，只包含卷积层，不包含全连接层，左侧的Encoder部分包含了下采样模块，负责将输入的图片逐级降维，提取出低空间维度的图像特征；而右侧的Decoder模块则相反，包含了上采样模块，负责将被Encoder压缩的特征逐渐恢复到和输入图片相同的大小。此外，一些组件中还引入了自注意力机制模块来增强网络的全局建模能力。

由于每次预测的噪声都属于不同的时间，为了不用针对不同的时间训练专门的去噪网络，扩散模型引入了Time Embedding模块，即一个简单的全连接组件，对时间进行编码，同时将编码的结果连接到上方的U-Net网络中，这样，每次去噪时，U-Net都会知道当前的时间信息，从而只需要训练一个U-Net模型，就可以完成对不同时间下图片去噪的任务。

在本实施例中，在AFHQ数据集上进行了对比实验，输入的风格图片是一张猫或野生动物的彩色图片，输入草图则是一张狗的黑白图片；将本发明与五种基于随机微分方程的图像转换方法进行了比较: ILVR、SDEdit、EGSDE、DiSS和 DiffSketching；还比较了基于GAN的方法AODA，由于一些方法只能接收一张图像作为输入，还尝试了将风格图片与草图进行不同比例的混合作为这些方法的输入，混合方式一共有两种：30%风格图片+70%草图（即混合方式一）和70%风格图片+30%草图（即混合方式二）；在FID，L₂，PSNR三个指标上的数值结果如图4，可视化结果如图5。

数值指标方面：

本发明取得了最好的FID指标，并在很大程度上优于其他基线方法；例如，在猫到狗的图像转换任务中，本发明获得的FID指标结果为31.26，而第二的FID是EGSDE的53.63；这些结果表明，与其他基线方法相比，本发明生成的图像更接近真实分布。

在输入草图和输出照片草图之间的L2距离方面：

本发明的结果要优于 SDEdit、 EGSDE 和 Diss，但略逊于ILVR 和DiffSketching；值得注意的是，这两种方法的 FID指标比本发明差很多，例如，本发明在野生动物到狗的图像转换任务上达到了27.11的 FID，而 ILVR 的结果则是113.94。

PSNR 指标评估了生成的结果与样本之间的相似性：

本发明比大多数方法获得了更好的结果，并且与 DiSS 的结果相当，这些结果表明，本发明能够产生具有最高的视觉质量的图像，同时保留了输入草图的几何结构和样本的外观。

在图5中，当直接使用一个草图作为输入时，其他基线方法的结果出现大面积的白色，因为其他基线方法没有获得颜色或纹理信息的引导；

当输入更改为混合方式时，这些方法的结果的视觉质量得到了明显改善，但这些基线方法仍很难实现形状控制和纹理控制之间的平衡；

当输入为混合方式一时，基线方法的结果可以很好地保持原始草图的形状，但颜色明显比较匮乏；

当增加混合图像中风格图片的比例时，这些基线方法可以产生与风格图片在颜色和纹理上更一致的结果，但难以保持原始草图的形状。

DiffSketching可以生成逼真的图像，但不能忠实地保持输入草图的形状；而虽然DiSS 获得了最高的PSNR数值结果，但是其生成的照片的视觉质量和其他方法相比有明显的差距。

一种草图到彩色图像的生成系统，基于一种草图到彩色图像的生成方法，包括草图获取模块、形状增强反演模块、风格图片获取模块和全控反演模块；

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种草图到彩色图像的生成方法。

一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现一种草图到彩色图像的生成方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种草图到彩色图像的生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种草图到彩色图像的生成方法，其特征在于，衡量去噪过程中的生成图像和草图之间的形状相似度的函数为：

；

其中，为去噪环节中的生成结果，/>为用于引导的草图在加噪t步的结果，/>为预训练的图像到草图的生成模型；通过形状相似度的函数计算L2距离衡量形状相似度。

3.根据权利要求2所述的一种草图到彩色图像的生成方法，其特征在于，步骤S1中的几何能量函数具体为：

；

4.根据权利要求3所述的一种草图到彩色图像的生成方法，其特征在于，对噪声图片去噪的随机微分方程为：

；

其中，为待去噪的图片，t表示去噪步数，/>为用于引导的图像，/>表示/>的漂移系数，/>为/>的扩散系数，/>为待去噪照片/>的扩散过程，/>为逆时序标准布朗运动，/> 为用于引导的能量函数。

5.根据权利要求4所述的一种草图到彩色图像的生成方法，其特征在于，步骤S2中衡量纹理相似度的函数具体为：

；

其中，表示Inception V3网络提取出的第i层特征图，/>表示上下采样倍率为N的低通滤波器；通过纹理相似度的函数计算L₂距离衡量纹理相似度。

6.根据权利要求5所述的一种草图到彩色图像的生成方法，其特征在于，纹理能量函数具体为：

；

7.根据权利要求6所述的一种草图到彩色图像的生成方法，其特征在于，步骤S2中，去噪的反向随机微分方程具体为：

；

其中，和/>为超参数。

8.一种草图到彩色图像的生成系统，其特征在于，基于权利要求1-7任意一项所述的一种草图到彩色图像的生成方法，包括草图获取模块、形状增强反演模块、风格图片获取模块和全控反演模块；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任意一项所述的一种草图到彩色图像的生成方法。

10.一种处理终端，包括存储器和处理器，存储器中存储有可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如权利要求1-7任意一项所述的一种草图到彩色图像的生成方法。