CN117649365A

CN117649365A - 基于卷积神经网络和扩散模型的纸本经图数字化修复方法

Info

Publication number: CN117649365A
Application number: CN202311537090.3A
Authority: CN
Inventors: 龚勋; 彭会雯; 梁聪鑫
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-03-05
Anticipated expiration: 2043-11-16
Also published as: CN117649365B

Abstract

本发明涉及计算机视觉及图像修复技术领域，提供一种基于卷积神经网络和扩散模型的纸本经图数字化修复方法，包括：1、图像预处理；2、训练和微调基于CNN的边缘检测模型DexiNed，获得草图；3、加入交互信息，用户可在草图的基础上增加或者删除线条；4、训练基于DM的风格迁移模型InST；5、调整参数优化模型，获得线稿图；6、构建数据集；7、训练Stable Diffusion：使用LoRa技术进行微调，获得具有经图画风的模型；8、利用ControlNet进行推理：加入线稿条件，在经图风格的模型上输入文字实现着色功能。本发明能较佳地进行纸本经图数字化修复。

Description

基于卷积神经网络和扩散模型的纸本经图数字化修复方法

技术领域

本发明涉及计算机视觉及图像修复技术领域，具体地说，涉及一种基于卷积神经网络和扩散模型的纸本经图数字化修复方法。

背景技术

川西南纸本经图是藏羌彝走廊地区文化研究不可多得的文化资源，具有深刻文化内涵和重要艺术价值，由于纸本经图年代久远，长期受到自然环境的损害，很多已经残破甚至不可辨析，难以形成良性的文化传播和影响。目前川西南地区纸本经图的修复工作主要采用人工手段，遵循以下的三个步骤进行：(1)文化识别，尽可能识别其身份含义，对于缺失严重的图样需寻找对应的文化元素进行重绘；(2)根据原作和其他参考资料进行线稿绘制；(3)根据原作进行填色与再制，最终形成数字化。然而，采取人工手段进行图像修复，效率低下，这不仅考验绘画人员的美术功底，也需要花大量的时间去调研文物时代背景、工艺特点等等，整个过程周期长，非常耗时耗精力。

首先，线稿作为数字化图像修复中的重要组成部分，可以表现经图各个部位以及整体的结构信息，用于辅助经图临摹复原，目前主要的线稿提取技术有以下几种方式：

传统算法将手工制作的底层特征(如颜色、亮度、纹理、梯度)作为图像线稿检测的优先级。有学者提出了一种交互式线描生成技术，包括三个阶段：提取壁画的完整结构、补充壁画的内容线条以及整体线描的融合与矢量化优化。该方法交互性强，但在结构提取过程中，参数调节对于不同的壁画有比较大的影响，人为参与的因素在一定程度上降低了线描生成技术的应用场景和使用范围。

另外，多数文物图像经过人为或者自然因素的破坏后会存在大量的噪声，采用低水平的图像处理方法很难直接从原始图像中提取到完整的线稿，需要提前进行一系列图像预处理操作，效率较低，同时加工过程中也会使得原图丢掉部分特征，不利于文物的修复与重现。

基于深度学习的算法利用网络模型从数据集中自动学习图像特征，可以去除一定量的人为因素，提取到更为准确与完整的线稿图，让线描生成过程更加实用。有学者提出了基于双向级联网络的彩绘文物线条提取算法，通过卷积神经网络学习多尺度特征来提取整体轮廓与细节信息。有学者在此基础上提出了细节感知层次化彩绘文物线稿提取框架，包括了两个阶段：集成FDoG算子和BDCN网络对图像进行初步线稿提取，利用改进的MSU-Net网络对线稿进行细化。

其次，将线稿转换为数字化图像，需要进行着色，以补充色彩信息，使其更加逼真和生动，最终生成的图像不仅具有更高的艺术性，也更有利于传播。目前主要的图像着色技术有以下几种方式：

人工着色是最传统的线稿着色方式，由人工根据线稿的轮廓和细节进行着色，这种方式可以获得最理想的效果，但也需要大量的人工成本和时间。

软件着色利用软件工具进行线稿着色，可以快速生成色彩丰富的图像。常用的软件工具包括Photoshop、SAI、Clip Studio Paint等，可以根据用户的需求进行调整，但也需要一定的绘画基础。

利用人工智能技术进行线稿着色，可以自动生成色彩合理的图像，例如经典的风格迁移算法CycleGAN，需要有大量的线稿图风格的图片和经图图像风格的图片，可以快速生成高质量的图像，但是对于特定的输入只能得到特定的输出，而且产生的图像有时清晰度不高，会缺乏真实感。

发明内容

本发明的内容是提供一种基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其能够克服文物图像复杂的色彩、结构以及受开裂、褪色、表面污染等病害较多的特点为数字化修复工作带来的阻碍，同时充分利用人工线稿、文字标签等作为先验知识。

根据本发明的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，包括以下步骤：

S1、图像预处理：使用开源工具LabelMe标注纸本经图；

S2、训练和微调基于CNN的边缘检测模型DexiNed，获得草图；

S3、加入交互信息，用户可在草图的基础上增加或者删除线条；

S4、准备高质量线稿图的数据，训练基于DM的风格迁移模型InST；

S5、调整参数优化模型，获得线稿图；

S6、构建数据集：准备用于训练的素材图片，并为每张图片标注文字作为标签；

S7、训练Stable Diffusion：使用LoRa技术进行微调，获得具有经图画风的模型；

S8、利用ControlNet进行推理：加入线稿条件，在经图风格的模型上输入文字实现着色功能。

作为优选，S1中，利用开源工具LabelMe，人工标注500对原图和标签数据，数据增强7200对，用于微调阶段使用。

作为优选，S2中，DexiNed的上采样块能生成中间的边缘映射馈送到网络末端的学习滤波器堆栈，产生融合的边缘映射，实现层与层之间的有效连接，损失函数如下：

以及

其中W是所有网络参数的集合，w是n个相应的参数，δ是每个尺度级别的权重；β＝|Y^-|/|Y⁺+Y^-|，(1-β)＝|Y⁺|/|Y⁺+Y^-|，Y^-和Y⁺分别代表GT中的边缘和非边缘，j代表具体的边缘点，X，Y代表输入原始图片及其对应的边缘图的集合，y代表具体的边缘图，σ代表模型预测的边缘点。

作为优选，S3中，当草图结果理想时跳过交互；当经图原图受损严重的时候，加入交互信息，用户在草图的基础上增加或者删除线条，再送入风格迁移网络。

作为优选，S4中，InST目标是从一张图像中就能学习到其风格；其采用的方法为将风格视为一种新的文字，通过基于注意力机制的文本反演，将风格图片转换为文本向量用于控制LDM进行条件生成；

其优化目标为：

其中是可学习的文本编码；∈是标准高斯分布；z_t是当前时间布下的图片像素分布；MultiAtt代表多头注意力层；∈_θ代表UNet根据输入的参数对噪声的预测；τ_θ代表图片编码器，将输入图片y编码为向量；t代表采样的时间步。

同时InST考虑到初始噪声对生成结果的影响，将图像到噪声映射的过程定义为一个反演问题，并提出了随机反演来保持内容图像的语义；在去噪过程中的∈_t可以表示为：

其中μ，σ代表均值与方差。T代表最终时间步。

作为优选，S5中，调整参数优化模型时，通过输入原始草图、提示文字以及迁移强度三个指标指导模型进行采样；输入原始草图为人工修改后的边缘图像，提示文字为艺术专家对原破损经图的语义描述，迁移强度为0.5。

作为优选，S6中，使用专家人工标注的文字进行训练，共构建了100个文本图像对。

本发明设计了基于卷积神经网络和扩散模型的纸本经图数字化修复技术，主要包括线稿提取和填色再绘这两个部分，能够更好地适应川西南经图文物图像特征，自动化检测达到了理想的效果，寻找到了“AI+艺术”的纸本图像修复和活化路径，可以广泛适用于文物修复场景，特别是对于图像文物的数字化保护具有重要的意义。

附图说明

图1为实施例中一种基于卷积神经网络和扩散模型的纸本经图数字化修复方法的流程图；

图2为实施例中经图线稿提取流程图；

图3为实施例中加入交互信息的经图线稿提取流程图；

图4为实施例中边缘检测和风格迁移模型的整体网络结构图；

图5为实施例中填色再绘流程图；

图6为实施例中自动数字化修复流程图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例

如图1-6所示，本实施例提供了一种基于卷积神经网络和扩散模型的纸本经图数字化修复方法，包括以下步骤：

S1、图像预处理：使用开源工具LabelMe标注(川西南)纸本经图；

S2、训练和微调基于CNN的边缘检测模型DexiNed，获得第一阶段的结果，称之为草图；

S5、调整参数优化模型，获得第二阶段的结果，称之为线稿图；

对于步骤S1中的图像预处理模块，由于文物图像收集难度较大，数量较少，需要利用大型公开的自然图像数据集，例如BSDS、BIPED等，确保模型训练的稳定性，用于训练阶段使用。同时，因为数据集中的文物图像受污染、破损等情况较多，存在一定的噪声，传统的边缘检测不能直接获得良好的边缘图，为了微调获取更好的效果，利用开源工具LabelMe，人工标注500对原图和标签数据，数据增强约7200对，用于微调阶段使用。

对于步骤S2中的边缘检测训练过程，本实施例选择DexiNed(Dense ExtremeInception Network:Towards a Robust CNN Model for Edge Detection)模型，使用官方预训练模型和公开数据集BIPED，旨在产生细边缘，以增强预测边缘图的可视化，其关键组件是上采样块，可以生成中间的边缘映射馈送到网络末端的学习滤波器堆栈，产生融合的边缘映射，实现层与层之间的有效连接，损失函数如下：

以及

其中W是所有网络参数的集合，w是n个相应的参数，δ是每个尺度级别的权重。β＝|Y^-|/|Y⁺+Y^-|，(1-β)＝|Y⁺|/|Y⁺+Y^-|，Y^-和Y⁺分别代表GT(Groud Truth)中的边缘和非边缘。j代表具体的边缘点，X，Y代表输入原始图片及其对应的边缘图的集合，y代表具体的边缘图，σ代表模型预测的边缘点。

微调阶段，使用经图数据集，让模型学习到经图图像的特征，检测的线条会更丰富。

S1～S2为第一阶段边缘检测的实现过程，可以得到粗略的线条，结果定义为草图，在绘画过程中，草图是为了帮助艺术家捕捉灵感和构思的简略绘画，它们在帮助画家发展和实现最终艺术作品的过程中发挥着关键的作用。

对于步骤S3中的用户交互模块，可选项，当草图结果比较理想时可以跳过。当经图原图受损较严重的时候，边缘检测的效果不会很好，此时加入交互信息，用户可以在草图的基础上增加或者删除线条，再送入风格迁移网络。

对于步骤S4风格迁移训练的实现，需要提前准备好质量较高的线稿图，本发明所用的川西南经图数据集，有专家绘制的标准线稿图100对。考虑到该数据集数量较少，因此选择的风格迁移模型应尽量在数据较小时能有较好的表现。

本实施例选择的是InST(Inversion-Based Style Transfer with Diffusion Models)可以实现由草图源域向线稿图目标域的转换。其主要的优势在于：训练数据集仅需一张图片，就可以较好的实现风格迁移；同时可以输入文本调整生成线稿图像的内容，具备较高的多样性。

InST主干结构为潜在扩散模型(Latent Diffusion Model)。潜在扩散模型原理为：图像编码器将图像从像素空间压缩到更小维度的潜在空间；对潜在空间中的图片添加噪声，进行扩散过程；通过CLIP文本编码器将输入的描述转换为去噪过程的条件输入；基于条件对图像进行去噪以获得生成图片的潜在表示；图像解码器通过将图像从潜在空间转换回像素空间来生成最终图像。

InST目标是从一张图像中就能学习到其风格。其采用的方法为将风格视为一种新的“文字，”通过基于注意力机制的文本反演，将风格图片转换为文本向量用于控制LDM进行条件生成。

其优化目标为：

其中是可学习的文本编码；∈是标准高斯分布；z_t是当前时间布下的图片像素分布；MultiAtt代表多头注意力层；∈_θ代表UNet根据输入的参数对噪声的预测；τ_θ代表图片编码器，将输入图片y编码为向量。t代表采样的时间步。

同时InST考虑到初始噪声对生成结果的影响，将图像到噪声映射的过程定义为一个反演问题，并提出了随机反演来保持内容图像的语义。在去噪过程中的∈_t可以表示为：

其中μ，σ代表均值与方差。T代表最终时间步。

通过上述方法，InST可以仅从一张高质量的线稿图中学习到其风格，该风格是通过文本编码来实现的。

步骤S5采样的过程中，主要是通过输入原始草图，提示文字以及迁移强度三个指标指导模型进行采样。原始草图会影响最终线稿图的主体语义，提示文字会影响生成的具体内容，迁移强度会影响风格迁移的程度。本发明中选择将人工修改后的边缘图像作为输入原始草图，提示词为艺术专家对原破损经图的语义描述，迁移强度选择0.5，旨在追求“准确度”与“风格化”的平衡。

S4～S5为第二阶段风格迁移的实现过程，得到的结果属于理想的线条，定义为线稿图。线稿图在草图的基础上，进一步细化和完善，形成标准的线稿图，背景干净、无阴影、噪声、网纹等，更加美观且具有画家独特的风格。

对于步骤S6中的数据集模块，经过测试，为了保障良好的效果，需要准备80～100张左右纸本经图图像，一般地可以使用tagger标签器等插件为图像自动打上文字标签。由于文物图像比较特殊，不属于通用图像，为了让文字准确地描述画面元素构成，本实施例使用专家人工标注的文字进行训练，共构建了100个文本图像对。

对于步骤S7中的训练模块，本发明选择的是大模型Stable Diffusion，采用LoRA微调技术，在小的数据集上也能满足特定的需求，如认识某个角色或物体，学会某种风格等，本实施例希望训练出经图的画风，保证下一阶段生成的图像特征与真实的经图保持一致。

对于步骤S8中的推理模块，ControlNet可以对Stable Diffusion生成的结果进行控制，避免了随机性对修复效果带来的负面影响，这一步骤会利用到S5生成的线稿，能够准确还原佛像姿态和宗教图像符号，同时结合文字对各个部分自动着色，极大地提高了经图生成的准确性。

目前对于川西南经图文物的修复方式尚未得到充分的关注，本实施例首次提出了针对该类文物的自动化修复方案，通过专业人士的参与，修复流程得到有效规范和优化，提高了修复质量和可信度。

本实施例第一阶段提出的线稿提取，与现有的边缘检测或图像分割技术不同，本实施例能够生成高质量的艺术插图，而不是简单地检测边缘，更注重美学方面的表现。线稿提取在数字化图像修复中提供结构信息，使修复人员能够更加准确地绘制缺失的细节和元素，有助于修复和保护受损文物，展示文物的特点和价值，促进文化传播与学术研究。

本实施例认为当经图受损严重，直接提取完整的线条是困难的，因此加入了交互信息，可以人为辅助修改草图，充分利用修复人员的专业知识和经验，弥补直接线条提取的不足之处。这种交互性的方法为生成最终线稿图提供了更大的灵活性和准确性，有利于最大限度地还原经图的结构和细节。

本实施例第二阶段提出的填色再绘，文本描述可以提供图像的整体风格和内容，例如主题、场景、人物等信息，线稿可以提供图像的轮廓和细节。通过两者的共同引导，极大地提高了图像着色的多样性，满足不同用户的需求，并且基于扩散大模型，可以生成更加逼真和符合风格的图像，视觉效果更佳。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：包括以下步骤：

S1、图像预处理：使用开源工具LabelMe标注纸本经图；

S2、训练和微调基于CNN的边缘检测模型DexiNed，获得草图；

S5、调整参数优化模型，获得线稿图；

2.根据权利要求1所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S1中，利用开源工具LabelMe，人工标注500对原图和标签数据，数据增强7200对，用于微调阶段使用。

3.根据权利要求2所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S2中，DexiNed的上采样块能生成中间的边缘映射馈送到网络末端的学习滤波器堆栈，产生融合的边缘映射，实现层与层之间的有效连接，损失函数如下：

以及

其中W是所有网络参数的集合，w是n个相应的参数，δ是每个尺度级别的权重；β＝|Y-|/|Y⁺+Y-|，(1-β)＝|Y⁺|/|Y⁺+Y-|，Y-和Y⁺分别代表GT中的非边缘和边缘，j代表具体的边缘点，X，Y代表输入原始图片及其对应的边缘图的集合，y代表具体的边缘图，σ代表模型预测的边缘点。

4.根据权利要求3所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S3中，当草图结果理想时跳过交互；当经图原图受损严重的时候，加入交互信息，用户在草图的基础上增加或者删除线条，再送入风格迁移网络。

5.根据权利要求4所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S4中，InST目标是从一张图像中就能学习到其风格；其采用的方法为将风格视为一种新的文字，通过基于注意力机制的文本反演，将风格图片转换为文本向量用于控制LDM进行条件生成；

其优化目标为：

其中是可学习的文本编码；∈是标准高斯分布；z_t是当前时间布下的图片像素分布；MultiAtt代表多头注意力层；∈_θ代表UNet根据输入的参数对噪声的预测；τ_θ代表图片编码器，将输入图片y编码为向量；t代表采样的时间步；

其中μ，σ代表均值与方差，T代表最终时间步。

6.根据权利要求5所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S5中，调整参数优化模型时，通过输入原始草图、提示文字以及迁移强度三个指标指导模型进行采样；输入原始草图为人工修改后的边缘图像，提示文字为艺术专家对原破损经图的语义描述，迁移强度为0.5。

7.根据权利要求6所述的基于卷积神经网络和扩散模型的纸本经图数字化修复方法，其特征在于：S6中，使用专家人工标注的文字进行训练，共构建了100个文本图像对。