CN112463912A

CN112463912A - 一种基于树莓派和循环神经网络的简笔画识别与生成方法

Info

Publication number: CN112463912A
Application number: CN202011322789.4A
Authority: CN
Inventors: 姚琤; 张超; 柳丽娟; 刘蓝静
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-09

Abstract

本发明公开了一种基于树莓派和循环神经网络的简笔画识别与生成方法，包括：(1)收集矢量简笔画数据集；(2)建立矢量简笔画数据的数学模型；(3)预处理矢量简笔画数据；(4)构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型；(5)对循环神经网络矢量简笔画生成模型进行训练；(6)将训练好的模型部署在树莓派上；(7)利用麦克风收集用户语音，利用谷歌语音转文字模块和自然语言处理模块理解用户语义，将用户语义作为输入映射到简笔画生成模型中，通过树莓派控制打印机输出生成的简笔画画面。本发明的方法，解决了现有的图像生成方法中较难处理矢量数据的问题，解决实现语言到图像的端到端系统的局限性。

Description

一种基于树莓派和循环神经网络的简笔画识别与生成方法

技术领域

本发明属于图像生成技术领域，尤其是涉及一种基于树莓派和循环神经网络的简笔画识别与生成方法。

背景技术

生成模型的研究是深度学习领域中一个非常重要且活跃的研究主题，目前的深度学习领域已经提出了许多有效的生成模型，例如NADE，变分自动编码器，DRAW等。在图像生成领域，目前最流行的方法是生成对抗网络。GAN模型同时训练一个生成器和一个识别器，生成器用以捕获数据分布以生成新样本，识别器用以区分真实样本和生成样本。为了更好地模拟生成过程，GAN同时在零和博弈框架中训练生成器和识别器。通过零和博弈以及生成器与识别器之间的条件约束，可以在无监督学习模式下获得更接近真实目标类型的图像，从而使双方都能达到理想的训练效果。基于此，GAN延伸了各种拓展模型，比如LAPGAN和DCGAN可以生成更高质量的图像。但是经过GAN生成的绘画图像是静态图像，它们忽略了绘制的动态过程，包括时间顺序和笔的轨迹。

此外，为了自动生成笔的动态轨迹，相关文献证明了具有LSTM的循环神经网络对于处理英文在线笔迹生成工作时是非常有效的。基于RNN的生成模型是完全端到端的，它可以直接处理基于时间顺序的序列结构，不需要任何特定领域的先验知识。简笔画通常包含多个笔画，每个笔画由许多点组成。实时绘制的简笔画在整理为序列数据后可以收集到丰富的动态信息，这些信息被表示为可变长度的序列。除了形状信息外，序列数据还保留了重要的绘制顺序信息，这些信息很难从静态图像或者像素图像中恢复。因此，为了捕获动态信息以提高识别精度并有利于进行下一步的生成工作，直接将实时绘制的可变长度原始序列数据输入到RNN模型中进行训练，而不是将其转换为静态图像或者像素图像的表示形式，可以使生成器学习到更多的数据特征，并模拟简笔画在绘制过程中的动态过程。

但是，上述生成模型并没有建立针对矢量数据的生成方法，也没有建立从语言到图像的端到端系统。

发明内容

针对现有技术中的上述不足，本发明提供一种基于树莓派和循环神经网络的简笔画识别与生成方法，解决了现有的图像生成方法中较难处理矢量数据的问题，以及解决实现语言到图像的端到端系统的局限性。

一种基于树莓派和循环神经网络的简笔画识别与生成方法，包括以下步骤：

(1)收集矢量简笔画数据集，作为训练对象；

(2)建立矢量简笔画数据的数学模型；

(3)预处理收集到的矢量简笔画数据；

(4)构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型；

(5)利用经过预处理的数据集对循环神经网络矢量简笔画生成模型进行训练；

(6)将经过训练的生成模型部署在树莓派上，所述的树莓派上接有麦克风、打印机、语音转文字模块和自然语言处理模块；

(7)在应用时，利用麦克风收集用户语音，利用谷歌语音转文字模块和自然语言处理模块理解用户语义，将用户语义作为输入映射到简笔画生成模型中，通过树莓派控制打印机输出生成的简笔画画面。

进一步地，步骤(2)中，矢量简笔画数据的数学模型具体为：

数据格式由每一个笔画的点偏移量和笔触的绘制状态组成，图形的初始绝对坐标位于原点，简笔画序列数据是点的列表，每一个点都是由5个元素组成的向量：

[[Δx₀,Δy₀,p_0.1,p_0.2,p_0.3] [Δx₁,Δy₁,p_1.1,p_1.2,p_1.3]...[Δx_n,Δy_n,p_n.1,p_n.2,p_n.3]]

其中，前两个元素是笔在x和y方向上与上一个点的偏移距离，最后的3个元素为二进制格式，表示3个可能的笔触状态；笔触的第一种状态p1表示笔当前正在接触纸，并且将画一条线连接下一个点和当前点；第二种笔触状态p2指示在当前点之后将笔从纸上抬起，并且接下来将不再画线，结束绘画；最后的笔触状态p3指示图形已结束，并且当前点和后续点将不会被渲染。

进一步地，步骤(3)中，所述的预处理包括去除冗余数据点和数据坐标归一化，具体过程为：

(3-1)采用Ramer–Douglas–Peucker矢量数据压缩算法对矢量数据的所有笔画进行冗余数据点的剔除；

(3-2)针对每一条笔画，将第一个和最后一个点标记为保留点，并将由第一个和最后一个点的连接形成的线段记录为Line1；

(3-3)针对每一条笔画，如果头和尾之间存在点到Line1的距离大于阈值，则在其中找到和Line1之间的距离最大的点A，将其标记为保留点，否则为可以删除的点；

(3-4)针对每一条笔画，将首点和点A再次连接构成线段Line2，并将尾点和点A连接构成线段Line3；

(3-5)针对每一条笔画，重复步骤(3-3)和步骤(3-4)，直到点的数量小于三个或所有点距离当前线段的距离都大于阈值时停止；

(3-6)利用连接两个点的直线在x轴和y轴上的投影计算标准偏移归一化每一个数据点。

进一步地，步骤(4)中，所述的循环神经网络矢量简笔画生成模型具体结构为：

根据Sketch-RNN无条件生成模型，并基于Seq2seq VAE，采用LSTM作为网络基本单元，将输出层的模型架构调整为高斯混合模型和SoftMax逻辑回归模型；该模型主要利用Seq2seq模型的Decoder部分，Decoder RNN的大小为512，高斯混合模型中的混合数为20，隐藏向量z的大小为128，Dropout的保有率为0.9。

进一步地，步骤(5)的具体过程如下：

(5-1)利用Tensorflow1.0框架搭建循环神经网络矢量简笔画生成模型；

(5-2)计算需要训练的参数，选取训练样本、验证集样本和测试集样本；

(5-3)采用数据增强方法避免训练过程过拟合；

(5-4)将Batch的大小设置为100，总共训练6000个Batch，平均每个Batch用时3.39s；

(5-5)在训练过程中，每个Batch作为一个step，每500个step进行一次测试和验证。

进一步地，步骤(5-3)中，所述的数据增强方法包括随机缩放训练图像和随机删除直线笔划中的点；其中，随机删除直线笔划中的点是指在给定的线段具有2个以上的点的情况下，将线段内的点随机删除，这些值的增量或者影响可能很小，并且在删除后可以仍然保持矢量图像的不失真。

进一步地，步骤(7)中，利用谷歌语音转文字模块和自然语言处理模块理解用户语义的具体步骤为：

(7-1)语音识别服务器根据一系列语法标准来检查麦克风收集到的语音；

(7-2)当一个单词或者短语被成功识别后，结果以文本字符串的形式返回；

(7-3)在获取识别结果后，NLTK自然语言处理模块解析识别结果，从中提取关键词信息。

进一步地，步骤(7)中，通过建立用户语义关键词哈希表将用户语义作为输入映射到简笔画生成模型中，具体为：

分离用户期望绘制的物体名称，以字符串的形式存储到哈希表中；分离用户期望绘制的物体位置，以字符串的形式存储到哈希表中；分离用户期望绘制的物体数量，以整型数据的形式存储到哈希表中。

与现有技术相比，本发明具有以下有益效果：

本发明开创性地提出一种序列数据的建模方法，进而可以用循环神经网络建立矢量简笔画生成模型，模型在经过训练后的损失收敛在0.185左右，概率分布散度收敛在0.344左右，符合训练预期。模型在训练集上的表现和在测试集与验证集上的表现较为接近，该模型具有较小的方差。将经过预训练的生成模型部署在树莓派中，通过麦克风将用户语音作为输入，经过语音转文字和自然语言处理之后生成哈希表，并由生成模型根据哈希表生成简笔画。最终生成的简笔画清晰可辨，达到了9岁左右儿童的绘画水平。

附图说明

图1为本发明方法的流程示意图；

图2为本发明实施例中乌龟简笔画的矢量简笔画；

图3为本发明实施例中乌龟简笔画对应的的序列数据；

图4为本发明实施例中序列数据笔画端点坐标归一化示意图；

图5为本发明实施例中用户语音收集与处理过程图；

图6为本发明实施例中简笔画生成结果打印示例图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于树莓派和循环神经网络的简笔画识别与生成方法，包括以下步骤：

步骤a、矢量简笔画数据集的收集，利用网上开源的数据集作为训练对象；

步骤b、建立矢量简笔画数据的数学模型；

步骤c、预处理收集到的矢量简笔画数据；

步骤d、构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型；

步骤e、利用经过预处理的数据集对循环神经网络矢量简笔画生成模型进行训练；

步骤f、将经过训练的生成模型在树莓派上部署；

步骤g、利用麦克风收集用户语音；

步骤h、利用谷歌语音转文字和自然语言处理模块理解用户语义；

步骤i、将用户语义作为输入映射到简笔画生成模型中；

步骤j、通过树莓派控制打印机输出生成的简笔画画面。

具体地，所述步骤b中建立矢量简笔画的数学模型具体方法为：

如图2和图3所示，在这种数据格式由每一个笔画的点偏移量和笔触的绘制状态组成，图形的初始绝对坐标位于原点。简笔画序列数据是点的列表，每一个点都是由5个元素组成的向量：

其中，前两个元素是笔在x和y方向上与上一个点的偏移距离。最后的3个元素为二进制格式，表示3个可能的笔触状态。笔触的第一种状态p1表示笔当前正在接触纸，并且将画一条线连接下一个点和当前点。第二种笔触状态p2指示在当前点之后将笔从纸上抬起，并且接下来将不再画线，即结束绘画。最后的笔触状态p3指示图形已结束，并且后续点(包括当前点)将不会被渲染。

具体地，步骤c中预处理收集到的矢量简笔画数据包括去除冗余数据点和数据坐标归一化。如图4所示，步骤c的数据坐标归一化具体为：

这条线的长度以及在x轴和y轴上的投影分别为：

利用这些信息，将所有线段投影到x轴和y轴上来估计平均值：

其中，Ω表示连接同一笔画内两个连续点的所有线段的集合，从均值中估计投影的偏移：

在x轴上的标准偏移可以被估计为：

然后，利用从一个字符中估计所得的所有μ_x，μ_y和δ_x信息，现在可以通过以下方式对坐标进行归一化：

x_next＝(x-μ_x)/δ_x

y_next＝(y-μ_y)/δ_x

归一化操作将应用于经过简化后的原始数据中的所有采样点。坐标归一化后，每个图像都被放置在标准的xy坐标系中，而图像的形状和比例保持不变。

步骤e中，对构建的循环神经网络矢量简笔画生成模型训练的具体步骤为：

步骤e1、利用Tensorflow1.0框架搭建循环神经网络矢量简笔画生成模型；

步骤e2、计算需要训练的参数总共有2,186,107个；

步骤e3、选取7400个训练样本、300个验证集样本和300个测试集样本；

步骤e4、采用数据增强方法避免训练过程过拟合；

步骤e5、将Batch的大小设置为100，总共训练6000个Batch，平均每个Batch用时3.39s；

步骤e6、在训练过程中，每个Batch作为一个step，每500个step进行一次测试和验证。

如图5所示，步骤h中利用谷歌语音转文字和NLTK自然语言处理模块理解用户语义的具体步骤为：

步骤h1、语音识别服务器会根据一系列语法标准来检查麦克风收集到的语音；

步骤h2、当一个单词或者短语被成功识别后，结果会以文本字符串的形式返回；

步骤h3、在获取识别结果后，NLTK自然语言处理模块解析识别结果，从中提取关键词信息。

如图6所示，步骤j通过树莓派控制打印机输出生成的简笔画画面的硬件原理以及打印输出示例。

可以看出，本发明的方法，通过麦克风将用户语音作为输入，经过语音转文字和自然语言处理之后生成哈希表，可以直接由生成模型生成简笔画。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。