CN110322529B

CN110322529B - 一种基于深度学习辅助艺术绘画的方法

Info

Publication number: CN110322529B
Application number: CN201910629814.4A
Authority: CN
Inventors: 秦科; 惠孛; 张栗粽; 罗光春; 周玉阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-04-18
Anticipated expiration: 2039-07-12
Also published as: CN110322529A

Abstract

本发明涉及绘画辅助领域，其公开了一种基于深度学习辅助艺术绘画的方法，解决传统技术中的辅助绘画方案存在的绘画内容受限，不能实现个性化绘画，适用范围和应用场景有限的问题。该方法包括：步骤1、采用爬虫获取艺术绘画数据并进行预处理，构建训练数据集；步骤2、构建由多层卷积层、池化层、反卷积层、上采样层及全连接层组成的深度卷积变分自编码网络；步骤3、利用训练数据集在有监督条件下，运用反向传播学习算法对深度卷积变分自编码网络进行训练，获得辅助绘画模型；步骤4、利用辅助绘画模型对用户输入的绘画进行处理，生成辅助绘画结果。本发明用于辅助用户在计算机等设备上进行艺术绘画。

Description

一种基于深度学习辅助艺术绘画的方法

技术领域

本发明涉及绘画辅助领域，特别涉及一种基于深度学习辅助艺术绘画的方法。

背景技术

绘画是一种重要的思想表达方式。而在绘画过程中，特别是利用计算机绘画过程中由于受制于技术水平和设备，大多普通人都不能很好地在绘画中表达自己思想情感同时兼具美感。

目前，有部分服务能够为用户提供预先制作好的素材，只需简单搭配组合就可以完成一幅绘画，如谷歌推出的AutoDraw。在该方案中，数据库中存有大量简笔画图像，并通过训练神经网络模型来识别用户输入，根据识别结果对数据库中图像进行匹配，最后列出匹配结果让用户选择从而替换自己的输入为查询结果图片。如此，通过多次绘画、匹配、替换的流程，用户最终组合出一幅绘画。

专利CN201810753008.3则是针对手绘图案基于绘图路径进行自动绘画。在该专利中，首先需要获取用户手绘图案并计算出其路径，然后通过从大量路径数据中提取的轮廓、布局、走向及风格特征训练的循环神经网络模型计算路径走向，最后依据路径有效性检测方法确保计算得到路径合理并以其更新用户手绘图案，完成自动绘画。其中循环神经网络训练还需要用到路径所属图案的归属种类标签，路径有效性检测依据路径相似度顺序选择有效路径。

上述两种辅助绘画方案均存在一定缺陷：

(1)对于AutoDraw方案，用户只能在预先存储的数据库中选择绘画内容，而无法生成新的内容，要丰富内容只能通过添加数据库内容同时更新匹配模型来实现，因此，绘画内容具有很大的局限性，不能实现个性化绘画。

(2)对于专利CN201810753008.3的方案，只能针对手绘图案生成绘画，其采用的路径预测算法并不适用于绘画其他方面，如色块、渐进等，因此其适用范围和应用场景有限。

发明内容

本发明所要解决的技术问题是：提出一种基于深度学习辅助艺术绘画的方法，解决传统技术中的辅助绘画方案存在的绘画内容受限，不能实现个性化绘画，适用范围和应用场景有限的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于深度学习辅助艺术绘画的方法，包括以下步骤：

步骤1、采用爬虫获取艺术绘画数据并进行预处理，构建训练数据集；

步骤2、构建由多层卷积、池化、反卷积、上采样及全连接组成的深度卷积变分自编码网络；

步骤3、利用训练数据集在有监督条件下，运用反向传播学习算法对深度卷积变分自编码网络进行训练，获得辅助绘画模型；

步骤4、利用辅助绘画模型对用户输入的绘画进行处理，生成辅助绘画结果。

作为进一步优化，步骤1具体包括：

步骤1.1、采用网络爬虫爬取艺术绘画网站并保存其中的绘画图片；

步骤1.2、对绘画图片进行预处理，获取原始绘画图片的简笔线条作为标签，将原始绘画图片作为输入数据，构建训练数据集。

具体的，步骤1.1具体包括：

步骤1.1.1、根据网站规则构造URL获取绘画列表，其中页数从1取值，直到结束页；

步骤1.1.2、由绘画列表解析出所有绘画URL并下载图片数据。

具体的，步骤1.2具体包括：

步骤1.2.1、对每幅爬取得到的绘画图片进行中值滤波：

设绘画图片第i行j列为x_ij，其中值滤波结果为p_ij，则中值滤波过程表示为：

p_ij＝median(x_i-1j-1,x_i-1j,x_ij-1,x_ij,x_i+1j+1,x_i+1j,x_ij+1)

其中，中值滤波核大小为3，median函数选取参数中值输出；

步骤1.2.2、对中值滤波后的绘画图片进行直方图均衡化操作，获得增强的绘画图片：

其中，H(b)为图像原始直方图，H′(a)为其对应的累计分布；

步骤1.2.3、应用Canny算子检测增强的绘画图片中的边缘信息：

首先计算梯度G及梯度角θ：

其中，G_x为图像点x_ij横向梯度值，G_y为图像点x_ij纵向梯度值；

然后对这些梯度值去除异常点，通过设置Canny算子的上限阈值和下限阈值，只选择高于上限阈值或上下限阈值之间且与上限阈值梯度点相邻的点作为结果输出；

步骤1.2.4、将绘画图片的边缘信息进行二值化处理，得到原始绘画的简笔线条并将其作为标签部分，而原始绘画作为数据输入部分，最终构造出整个训练数据集。

作为进一步优化，步骤2具体包括：

步骤2.1、构建多层卷积、池化组成的深度卷积编码器；

步骤2.2、由深度卷积编码器提取输入图片的高维特征，建立全连接层生成分布参数；

步骤2.3、由上层分布参数采样得到编码结果；

步骤2.4、构建多层反卷积、上采样组成的深度反卷积解码器，根据编码结果来解码输出。

作为进一步优化，步骤3具体包括：

步骤3.1、初始化深度卷积变分自编码网络的参数；

步骤3.2、将步骤1中得到的训练数据集中的数据分批次输入网络模型得到解码输出；

步骤3.3、根据解码输出以及分布参数计算重建损失和KL损失；

步骤3.4、反向传播重建损失和KL损失的均值，更新深度卷积变分自编码模型权重；

步骤3.5、迭代步骤3.2至3.4，直至模型权重趋于收敛，最终获得辅助绘画模型。

具体的，步骤3.1中，采用的初始化过程为随机初始化，设第d层网络权重矩阵为W_d，则初始化表现为：

其中，rand为随机数，n_d-1为第d-1层的权重总数。

具体的，步骤3.2包括：

步骤3.2.1、将当前批次所有输入数据前向传播得到编码分布参数向量；

步骤3.2.2、对编码分布参数向量进行采样，得到当前批次所有输入数据的编码向量；

步骤3.2.3、对当前批次中的编码向量再解码，最终输出本批次所有重构数据。

具体的，步骤3.3中，根据解码输出以及分布参数计算重建损失和KL损失的方法为：

设对应批次中一个单独样本输出y及其对应标签

则重建损失L₁的计算公式为：

对应KL损失L₂的计算公式为：

其中，z为所有分布参数向量；

具体的，步骤3.4中，反向传播过程为从最后输出层方向到输入层计算梯度并更新权重参数；

其中，反向的梯度计算过程为：

接着，根据下式来更新权重：

其中，t为迭代步数，且

作为进一步优化，步骤4具体包括：

步骤4.1、客户端将用户输入的绘画以及辅助绘画请求发送至服务端；

步骤4.2、服务端将用户输入的绘画输入至辅助绘画模型，生成辅助绘画结果。

本发明的有益效果是：

将深度卷积变分自编码器网络应用到辅助绘画中，不仅能帮助用户表达自我，还能克服其它方案中不能主动生成新绘画的缺点。本发明通过变分自编码结果智能学习绘画特征并应用到用户绘画中，不需要过多的如路径预测等先验知识，因此适用于多种不同类型绘画，不但能辅助手绘画创作，也能辅助水彩画等其他类型的创作；

不仅如此，通过扩充训练数据和细化模型，本发明还能提供不同风格辅助结果供用户选择与调整，极大降低了绘画难度、解决了普通绘画生成方法个性化不足的问题。

附图说明

图1为实施例中的基于深度学习辅助艺术绘画的方法流程图；

图2为训练数据集的构建流程图；

图3为辅助绘画模型的训练流程图；

图4为用户的获取辅助绘画结果的交互流程图。

具体实施方式

本发明旨在提供一种基于深度学习辅助艺术绘画的方法，解决传统技术中的辅助绘画方案存在的绘画内容受限，不能实现个性化绘画，适用范围和应用场景有限的问题。本发明方法主要包括：训练数据集获取：利用爬虫爬取艺术绘画并进行预处理得到数据及其对应标签以满足后续模型训练要求；深度模型构造：结合深度卷积网络，变分自编码器，构造出能自动通过用户输入生成辅助艺术绘画的网络模型结构；模型训练：利用训练数据、重构损失及KL损失更新模型权重使其学习艺术绘画特点；用户交互：训练完成后的模型通过客户端获取用户输入并据其计算生成艺术绘画作为辅助结果并返还给用户选择，进而根据选择得出最终的绘画。

实施例：

如图1所示，本实施例中的基于深度学习辅助艺术绘画的方法包括：

训练数据获取、网络搭建、模型训练以及辅助绘画四个主要步骤；

其中，训练数据获取和网络搭建都是为了训练出能辅助用户绘画的深度卷积变分自编码模型，从而达到应用模型辅助用户绘画的目的。

训练数据获取包括爬取艺术绘画和数据预处理两个子步骤，从而获得训练数据集；模型训练包括初始化模型参数、将训练集数据输入模型进行解码、根据解码输出来学习模型权重，并不断迭代直至模型收敛几个子步骤；辅助绘画包括根据用户请求输入绘画内容和利用训练好的模型辅助绘画两个子步骤。

下面对各个步骤的实现进行具体描述：

1、训练数据获取以fineartamerican.com网站上的艺术绘画为例，如图2所示，分为下面多个步骤获取并预处理：

1.1、编写爬虫爬取艺术绘画网站并保存其中绘画数据，具体又分为：

1.1.1、根据网站规则构造URL：

https://fineartamerica.com/art/paintings？page＝<页数>

获取绘画列表，其中页数从1取值，直到结束页；

1.1.2、由绘画列表解析出所有绘画URL并下载图片数据；

1.2、获得绘画图片数据后，还需对绘画数据预处理，包括二值化、边缘提取等，得到简笔线条作为标签，而原始绘画作为输入，标签和输入组合成训练集，具体操作步骤为：

1.2.1、对每幅爬取得到的绘画图片，进行中值滤波，过滤掉部分噪声，设输入图片第i行j列为x_ij，其中值滤波结果为p_ij，那么中值滤波过程就可以表示为：

p_ij＝median(x_i-1j-1,x_i-1j,x_ij-1,x_ij,x_i+1j+1,x_i+1j,x_ij+1)

其中中值滤波核大小为3，median函数选取参数中值输出；

1.2.2、对上一步输出进行直方图均衡化操作，从而对图片增强，突出其中细节以便后续步骤处理：

其中，H(b)为图像原始直方图，H′(a)为其对应的累计分布；

1.2.3、得到增强的图像后，再对其应用Canny算子取得绘画中的边缘信息：

首先计算梯度及梯度角：

其中，G_x为图像点x_ij横向梯度值，G_y为图像点x_ij纵向梯度值。然后对这些梯度值去除异常点，然后设置Canny算子上限阈值为200，下限阈值为100，只选择高于上限阈值或上下限阈值之间且与上限阈值梯度点相邻的点作为结果输出；

1.2.4、将图片边缘信息作二值化，得到原始绘画的简笔线条并将其作为标签部分，而原始绘画作为数据输入部分，最终构造出整个训练数据集。

2、针对网络搭建，本发明采用的网络为深度卷积变分自编码结构，具体参数如表1。

表1本发明的网络结构参数

名称	核大小	步长	全连接神经元
				conv_1	3×3×32	1	-
conv_2	3×3×128	1	-
				maxpool_1	2×2×128	2	-
conv_3	3×3×64	1	-
				maxpool_2	2×2×64	2	-
fc_1	-	-	2048
				fc_2	-	-	2048
upsampling_1	2×2×64	2	-
				deconv_1	3×3×64	1	-
upsampling_2	2×2×128	2	-
				deconv_2	3×3×128	1	-
deconv_3	3×3×32	1	-
				output	1×1×3	1

其中conv为卷积层，对输入进行卷积操作，maxpool为最大池化层网络，fc是全连接层，upsampling为上采样层，deconv为反卷积层。整个网络输入为训练输入数据或用户交互数据，输出则为生成的辅助绘画结果。

该网络的运算原理为：

2.1、输入数据首先通过多层卷积、池化组成的深度卷积编码器，提取出输入的高维特征，其中卷积运算具体为：

上式中k为3×3卷积核权重矩阵，A_ij为y_ij对应的输入数据中3×3邻域。每个卷积核通过上式按步长1在输入矩阵中滑动，最终都能得到一个同样大小的二维矩阵，将这些矩阵在第三个维度上组合，就得到输出的三维矩阵。那么同样的，最大池化运算通过下式也能对输入得出三维矩阵输出：

2.2、由上层得到的三维特征展开成一维向量后，分别通过两个全连接层生成正态分布参数向量：均值μ，方差σ，具体全连接运算如下：

y＝f(Wx+b)

其中W为2048个神经元的权重矩阵，b则是对应偏差，f表示激活函数，本发明采用的激活函数具体运算如下式：

2.3通过上述均值μ，方差σ向量，进行随机采样得到采样后的编码向量结果：

y＝kσ+μ

其中k为随机采样的均值为0，方差为1的正态分布随机变量；

2.4、由上述采样结果，反展开从而重构出三维矩阵结构，通过构建的多层反卷积、上采样组成的深度反卷积解码器，根据编码结果来解码输出，其中反卷积运算具体为：

上式中k为3×3反卷积核权重矩阵，B_ij为y_ij对应的x′中3×3邻域。在本发明中，由于步长为1，那么反卷积输入x′为x沿第三维进行最外层补0操作后的三维矩阵。和卷积层类似，反卷积核通过按步长1在输入上滑动以及多个反卷积结果组合，能输出同样维度和大小的反卷积结果。上采样相同：

y_ij＝max(0,x_i′_j)

最终通过输出层卷积，该网络能输出和输入相同维度和大小的图像矩阵，达到了重构原始图像，从而实现了对用户输入进行填色、平滑、风格化等辅助操作。

3、构建好网络后，还需要对其权重参数等训练，得到实用的辅助绘画模型，训练过程如图3所示，具体如下：

3.1、初始化步骤2中的深度卷积变分自编码网络参数，本发明采用的初始化过程为随机初始化，设第d层网络权重矩阵为W_d，那么初始化表现为：

其中rand为随机数，n_d-1为第d-1层的权重总数；

3.2、将步骤1中得到的训练集数据分批次输入网络模型得出解码输出，具体又可以细分为：

3.2.1、将当前批次所有输入数据前向传播得出编码分布参数，计算过程如前所述，经过卷积、池化以及全连接层后，就能得到当前批次所有输入数据对应的分布参数向量；

3.2.2、根据分布参数向量采样，得出当前批次所有的编码向量；

3.2.3、通过反卷积、上采样以及输出层，分别对批次中的编码向量再解码，最终输出本批次所有重构数据；

3.3、根据解码输出以及分布参数计算重建损失和KL损失之和：

设对应批次中一个单独样本输出y及其对应标签

重建损失L₁计算为：

对应KL损失为：

其中，z为所有分布参数向量；

3.4、反向传播上述损失的均值更新深度卷积变分自编码模型权重，其中反向传播过程为从最后输出层方向到输入层计算梯度并更新权重参数，反向的梯度计算过程如下式：

从上式可以看出，损失值从最后输出层能通过反向传播达到计算前面层权重梯度的目的。最后根据下式来更新权重：

其中，t为迭代步数，且

3.5、重复步骤3.2至3.4直到模型权重收敛足够好。

模型训练完成后，就能实现辅助用户绘画的功能了，具体辅助过程描述如图4所示：

4.1、通过客户端请求并得到用户输入的绘画：

本发明采用包含C/S及B/S在内的多样化客户端服务端架构。以B/S为例，用户首先打开本发明提供的网页，然后在其中用鼠标或触摸屏进行简单线条绘画，最后点击辅助按钮，客户端网页就会以用户身份，将辅助绘画请求以及用户输入收集并发往服务后端；

4.2、服务后端得到用户输入后，将其输入训练好的模型，生成保留用户思想并具有艺术感的辅助绘画结果并反馈给用户，具体来说：

4.2.1、服务器将用户输入通过预先训练并加载到内存中的深度卷积变分自编码模型计算分布参数向量，和训练阶段类似，对分布进行采样得到编码向量最终解码该编码向量得出辅助绘画结果；

4.2.2、根据客户端请求参数，服务器将生成的辅助结果返回客户端展现给用户。若有多个不同风格模型，用户只需选择满意的结果即可。

本发明是通过爬取并预处理艺术绘画来模拟用户输入，从而能将其作为输入数据和标签来训练模型对实际用户输入进行艺术加工。之后通过构造深度卷积网络，使得模型能自动对图像特征进行学习应用，减少人工先验知识的参与。这一不仅减轻人工工作量，而且得出的模型更加泛化不依赖特定条件。同时卷积核参数都采用3×3大小，理论上来说，两层连续的3×3大小卷积操作和一层5×5卷积操作等效感受相同，都能提取5×5邻域范围内的特征，但是只用3×3大小卷积能最大限度降低网络权重数量，从而加快收敛降低资源占用。本发明还结合了变分自编码结构，没有直接用卷积网络进行编码，而是将卷积网络输出通过全连接层计算编码分布参数，所以对同一个输入数据，虽然分布参数一致但每次都会进行的随机采样结果不尽相同，能达到转化离散编码空间到连续编码空间的目的。

因此，本发明能基于深度卷积变分自编码网络对用户输入的简单线条绘画进行辅助，生成各式各样的艺术绘画。用应用范围更加广泛的深度方法，从大量数据中寻找解决方案，取代了原来的适用受限的传统方法。实际使用证明，本发明辅助绘画快捷方便且更具创造力。