CN112463912A - 一种基于树莓派和循环神经网络的简笔画识别与生成方法 - Google Patents
一种基于树莓派和循环神经网络的简笔画识别与生成方法 Download PDFInfo
- Publication number
- CN112463912A CN112463912A CN202011322789.4A CN202011322789A CN112463912A CN 112463912 A CN112463912 A CN 112463912A CN 202011322789 A CN202011322789 A CN 202011322789A CN 112463912 A CN112463912 A CN 112463912A
- Authority
- CN
- China
- Prior art keywords
- stroke
- vector
- neural network
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 235000011034 Rubus glaucus Nutrition 0.000 title claims abstract description 26
- 235000009122 Rubus idaeus Nutrition 0.000 title claims abstract description 26
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 22
- 244000235659 Rubus idaeus Species 0.000 title description 2
- 238000012549 training Methods 0.000 claims abstract description 28
- 240000007651 Rubus glaucus Species 0.000 claims abstract description 24
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 9
- 238000013178 mathematical model Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000007787 long-term memory Effects 0.000 claims abstract description 4
- 230000006403 short-term memory Effects 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000013144 data compression Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 241001092459 Rubus Species 0.000 claims 1
- 235000017848 Rubus fruticosus Nutrition 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 101000933252 Homo sapiens Protein BEX3 Proteins 0.000 description 1
- 102100025955 Protein BEX3 Human genes 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于树莓派和循环神经网络的简笔画识别与生成方法,包括:(1)收集矢量简笔画数据集;(2)建立矢量简笔画数据的数学模型;(3)预处理矢量简笔画数据;(4)构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型;(5)对循环神经网络矢量简笔画生成模型进行训练;(6)将训练好的模型部署在树莓派上;(7)利用麦克风收集用户语音,利用谷歌语音转文字模块和自然语言处理模块理解用户语义,将用户语义作为输入映射到简笔画生成模型中,通过树莓派控制打印机输出生成的简笔画画面。本发明的方法,解决了现有的图像生成方法中较难处理矢量数据的问题,解决实现语言到图像的端到端系统的局限性。
Description
技术领域
本发明属于图像生成技术领域,尤其是涉及一种基于树莓派和循环神经网络的简笔画识别与生成方法。
背景技术
生成模型的研究是深度学习领域中一个非常重要且活跃的研究主题,目前的深度学习领域已经提出了许多有效的生成模型,例如NADE,变分自动编码器,DRAW等。在图像生成领域,目前最流行的方法是生成对抗网络。GAN模型同时训练一个生成器和一个识别器,生成器用以捕获数据分布以生成新样本,识别器用以区分真实样本和生成样本。为了更好地模拟生成过程,GAN同时在零和博弈框架中训练生成器和识别器。通过零和博弈以及生成器与识别器之间的条件约束,可以在无监督学习模式下获得更接近真实目标类型的图像,从而使双方都能达到理想的训练效果。基于此,GAN延伸了各种拓展模型,比如LAPGAN和DCGAN可以生成更高质量的图像。但是经过GAN生成的绘画图像是静态图像,它们忽略了绘制的动态过程,包括时间顺序和笔的轨迹。
此外,为了自动生成笔的动态轨迹,相关文献证明了具有LSTM的循环神经网络对于处理英文在线笔迹生成工作时是非常有效的。基于RNN的生成模型是完全端到端的,它可以直接处理基于时间顺序的序列结构,不需要任何特定领域的先验知识。简笔画通常包含多个笔画,每个笔画由许多点组成。实时绘制的简笔画在整理为序列数据后可以收集到丰富的动态信息,这些信息被表示为可变长度的序列。除了形状信息外,序列数据还保留了重要的绘制顺序信息,这些信息很难从静态图像或者像素图像中恢复。因此,为了捕获动态信息以提高识别精度并有利于进行下一步的生成工作,直接将实时绘制的可变长度原始序列数据输入到RNN模型中进行训练,而不是将其转换为静态图像或者像素图像的表示形式,可以使生成器学习到更多的数据特征,并模拟简笔画在绘制过程中的动态过程。
但是,上述生成模型并没有建立针对矢量数据的生成方法,也没有建立从语言到图像的端到端系统。
发明内容
针对现有技术中的上述不足,本发明提供一种基于树莓派和循环神经网络的简笔画识别与生成方法,解决了现有的图像生成方法中较难处理矢量数据的问题,以及解决实现语言到图像的端到端系统的局限性。
一种基于树莓派和循环神经网络的简笔画识别与生成方法,包括以下步骤:
(1)收集矢量简笔画数据集,作为训练对象;
(2)建立矢量简笔画数据的数学模型;
(3)预处理收集到的矢量简笔画数据;
(4)构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型;
(5)利用经过预处理的数据集对循环神经网络矢量简笔画生成模型进行训练;
(6)将经过训练的生成模型部署在树莓派上,所述的树莓派上接有麦克风、打印机、语音转文字模块和自然语言处理模块;
(7)在应用时,利用麦克风收集用户语音,利用谷歌语音转文字模块和自然语言处理模块理解用户语义,将用户语义作为输入映射到简笔画生成模型中,通过树莓派控制打印机输出生成的简笔画画面。
进一步地,步骤(2)中,矢量简笔画数据的数学模型具体为:
数据格式由每一个笔画的点偏移量和笔触的绘制状态组成,图形的初始绝对坐标位于原点,简笔画序列数据是点的列表,每一个点都是由5个元素组成的向量:
[[Δx0,Δy0,p0.1,p0.2,p0.3] [Δx1,Δy1,p1.1,p1.2,p1.3]...[Δxn,Δyn,pn.1,pn.2,pn.3]]
其中,前两个元素是笔在x和y方向上与上一个点的偏移距离,最后的3个元素为二进制格式,表示3个可能的笔触状态;笔触的第一种状态p1表示笔当前正在接触纸,并且将画一条线连接下一个点和当前点;第二种笔触状态p2指示在当前点之后将笔从纸上抬起,并且接下来将不再画线,结束绘画;最后的笔触状态p3指示图形已结束,并且当前点和后续点将不会被渲染。
进一步地,步骤(3)中,所述的预处理包括去除冗余数据点和数据坐标归一化,具体过程为:
(3-1)采用Ramer–Douglas–Peucker矢量数据压缩算法对矢量数据的所有笔画进行冗余数据点的剔除;
(3-2)针对每一条笔画,将第一个和最后一个点标记为保留点,并将由第一个和最后一个点的连接形成的线段记录为Line1;
(3-3)针对每一条笔画,如果头和尾之间存在点到Line1的距离大于阈值,则在其中找到和Line1之间的距离最大的点A,将其标记为保留点,否则为可以删除的点;
(3-4)针对每一条笔画,将首点和点A再次连接构成线段Line2,并将尾点和点A连接构成线段Line3;
(3-5)针对每一条笔画,重复步骤(3-3)和步骤(3-4),直到点的数量小于三个或所有点距离当前线段的距离都大于阈值时停止;
(3-6)利用连接两个点的直线在x轴和y轴上的投影计算标准偏移归一化每一个数据点。
进一步地,步骤(4)中,所述的循环神经网络矢量简笔画生成模型具体结构为:
根据Sketch-RNN无条件生成模型,并基于Seq2seq VAE,采用LSTM作为网络基本单元,将输出层的模型架构调整为高斯混合模型和SoftMax逻辑回归模型;该模型主要利用Seq2seq模型的Decoder部分,Decoder RNN的大小为512,高斯混合模型中的混合数为20,隐藏向量z的大小为128,Dropout的保有率为0.9。
进一步地,步骤(5)的具体过程如下:
(5-1)利用Tensorflow1.0框架搭建循环神经网络矢量简笔画生成模型;
(5-2)计算需要训练的参数,选取训练样本、验证集样本和测试集样本;
(5-3)采用数据增强方法避免训练过程过拟合;
(5-4)将Batch的大小设置为100,总共训练6000个Batch,平均每个Batch用时3.39s;
(5-5)在训练过程中,每个Batch作为一个step,每500个step进行一次测试和验证。
进一步地,步骤(5-3)中,所述的数据增强方法包括随机缩放训练图像和随机删除直线笔划中的点;其中,随机删除直线笔划中的点是指在给定的线段具有2个以上的点的情况下,将线段内的点随机删除,这些值的增量或者影响可能很小,并且在删除后可以仍然保持矢量图像的不失真。
进一步地,步骤(7)中,利用谷歌语音转文字模块和自然语言处理模块理解用户语义的具体步骤为:
(7-1)语音识别服务器根据一系列语法标准来检查麦克风收集到的语音;
(7-2)当一个单词或者短语被成功识别后,结果以文本字符串的形式返回;
(7-3)在获取识别结果后,NLTK自然语言处理模块解析识别结果,从中提取关键词信息。
进一步地,步骤(7)中,通过建立用户语义关键词哈希表将用户语义作为输入映射到简笔画生成模型中,具体为:
分离用户期望绘制的物体名称,以字符串的形式存储到哈希表中;分离用户期望绘制的物体位置,以字符串的形式存储到哈希表中;分离用户期望绘制的物体数量,以整型数据的形式存储到哈希表中。
与现有技术相比,本发明具有以下有益效果:
本发明开创性地提出一种序列数据的建模方法,进而可以用循环神经网络建立矢量简笔画生成模型,模型在经过训练后的损失收敛在0.185左右,概率分布散度收敛在0.344左右,符合训练预期。模型在训练集上的表现和在测试集与验证集上的表现较为接近,该模型具有较小的方差。将经过预训练的生成模型部署在树莓派中,通过麦克风将用户语音作为输入,经过语音转文字和自然语言处理之后生成哈希表,并由生成模型根据哈希表生成简笔画。最终生成的简笔画清晰可辨,达到了9岁左右儿童的绘画水平。
附图说明
图1为本发明方法的流程示意图;
图2为本发明实施例中乌龟简笔画的矢量简笔画;
图3为本发明实施例中乌龟简笔画对应的的序列数据;
图4为本发明实施例中序列数据笔画端点坐标归一化示意图;
图5为本发明实施例中用户语音收集与处理过程图;
图6为本发明实施例中简笔画生成结果打印示例图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于树莓派和循环神经网络的简笔画识别与生成方法,包括以下步骤:
步骤a、矢量简笔画数据集的收集,利用网上开源的数据集作为训练对象;
步骤b、建立矢量简笔画数据的数学模型;
步骤c、预处理收集到的矢量简笔画数据;
步骤d、构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型;
步骤e、利用经过预处理的数据集对循环神经网络矢量简笔画生成模型进行训练;
步骤f、将经过训练的生成模型在树莓派上部署;
步骤g、利用麦克风收集用户语音;
步骤h、利用谷歌语音转文字和自然语言处理模块理解用户语义;
步骤i、将用户语义作为输入映射到简笔画生成模型中;
步骤j、通过树莓派控制打印机输出生成的简笔画画面。
具体地,所述步骤b中建立矢量简笔画的数学模型具体方法为:
如图2和图3所示,在这种数据格式由每一个笔画的点偏移量和笔触的绘制状态组成,图形的初始绝对坐标位于原点。简笔画序列数据是点的列表,每一个点都是由5个元素组成的向量:
[[Δx0,Δy0,p0.1,p0.2,p0.3] [Δx1,Δy1,p1.1,p1.2,p1.3]...[Δxn,Δyn,pn.1,pn.2,pn.3]]
其中,前两个元素是笔在x和y方向上与上一个点的偏移距离。最后的3个元素为二进制格式,表示3个可能的笔触状态。笔触的第一种状态p1表示笔当前正在接触纸,并且将画一条线连接下一个点和当前点。第二种笔触状态p2指示在当前点之后将笔从纸上抬起,并且接下来将不再画线,即结束绘画。最后的笔触状态p3指示图形已结束,并且后续点(包括当前点)将不会被渲染。
具体地,步骤c中预处理收集到的矢量简笔画数据包括去除冗余数据点和数据坐标归一化。如图4所示,步骤c的数据坐标归一化具体为:
这条线的长度以及在x轴和y轴上的投影分别为:
利用这些信息,将所有线段投影到x轴和y轴上来估计平均值:
其中,Ω表示连接同一笔画内两个连续点的所有线段的集合,从均值中估计投影的偏移:
在x轴上的标准偏移可以被估计为:
然后,利用从一个字符中估计所得的所有μx,μy和δx信息,现在可以通过以下方式对坐标进行归一化:
xnext=(x-μx)/δx
ynext=(y-μy)/δx
归一化操作将应用于经过简化后的原始数据中的所有采样点。坐标归一化后,每个图像都被放置在标准的xy坐标系中,而图像的形状和比例保持不变。
步骤e中,对构建的循环神经网络矢量简笔画生成模型训练的具体步骤为:
步骤e1、利用Tensorflow1.0框架搭建循环神经网络矢量简笔画生成模型;
步骤e2、计算需要训练的参数总共有2,186,107个;
步骤e3、选取7400个训练样本、300个验证集样本和300个测试集样本;
步骤e4、采用数据增强方法避免训练过程过拟合;
步骤e5、将Batch的大小设置为100,总共训练6000个Batch,平均每个Batch用时3.39s;
步骤e6、在训练过程中,每个Batch作为一个step,每500个step进行一次测试和验证。
如图5所示,步骤h中利用谷歌语音转文字和NLTK自然语言处理模块理解用户语义的具体步骤为:
步骤h1、语音识别服务器会根据一系列语法标准来检查麦克风收集到的语音;
步骤h2、当一个单词或者短语被成功识别后,结果会以文本字符串的形式返回;
步骤h3、在获取识别结果后,NLTK自然语言处理模块解析识别结果,从中提取关键词信息。
如图6所示,步骤j通过树莓派控制打印机输出生成的简笔画画面的硬件原理以及打印输出示例。
可以看出,本发明的方法,通过麦克风将用户语音作为输入,经过语音转文字和自然语言处理之后生成哈希表,可以直接由生成模型生成简笔画。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,包括以下步骤:
(1)收集矢量简笔画数据集,作为训练对象;
(2)建立矢量简笔画数据的数学模型;
(3)预处理收集到的矢量简笔画数据;
(4)构建基于序列到序列模型和长短期记忆网络的循环神经网络矢量简笔画生成模型;
(5)利用经过预处理的数据集对循环神经网络矢量简笔画生成模型进行训练;
(6)将经过训练的生成模型部署在树莓派上,所述的树莓派上接有麦克风、打印机、语音转文字模块和自然语言处理模块;
(7)在应用时,利用麦克风收集用户语音,利用谷歌语音转文字模块和自然语言处理模块理解用户语义,将用户语义作为输入映射到简笔画生成模型中,通过树莓派控制打印机输出生成的简笔画画面。
2.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(2)中,矢量简笔画数据的数学模型具体为:
数据格式由每一个笔画的点偏移量和笔触的绘制状态组成,图形的初始绝对坐标位于原点,简笔画序列数据是点的列表,每一个点都是由5个元素组成的向量:
[[Δx0,Δy0,p0.1,p0.2,p0.3] [Δx1,Δy1,p1.1,p1.2,p1.3] ... [Δxn,Δyn,pn.1,pn.2,pn.3]]
其中,前两个元素是笔在x和y方向上与上一个点的偏移距离,最后的3个元素为二进制格式,表示3个可能的笔触状态;笔触的第一种状态p1表示笔当前正在接触纸,并且将画一条线连接下一个点和当前点;第二种笔触状态p2指示在当前点之后将笔从纸上抬起,并且接下来将不再画线,结束绘画;最后的笔触状态p3指示图形已结束,并且当前点和后续点将不会被渲染。
3.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(3)中,所述的预处理包括去除冗余数据点和数据坐标归一化,具体过程为:
(3-1)采用Ramer–Douglas–Peucker矢量数据压缩算法对矢量数据的所有笔画进行冗余数据点的剔除;
(3-2)针对每一条笔画,将第一个和最后一个点标记为保留点,并将由第一个和最后一个点的连接形成的线段记录为Line1;
(3-3)针对每一条笔画,如果头和尾之间存在点到Line1的距离大于阈值,则在其中找到和Line1之间的距离最大的点A,将其标记为保留点,否则为可以删除的点;
(3-4)针对每一条笔画,将首点和点A再次连接构成线段Line2,并将尾点和点A连接构成线段Line3;
(3-5)针对每一条笔画,重复步骤(3-3)和步骤(3-4),直到点的数量小于三个或所有点距离当前线段的距离都大于阈值时停止;
(3-6)利用连接两个点的直线在x轴和y轴上的投影计算标准偏移归一化每一个数据点。
4.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(4)中,所述的循环神经网络矢量简笔画生成模型具体结构为:
根据Sketch-RNN无条件生成模型,并基于Seq2seq VAE,采用LSTM作为网络基本单元,将输出层的模型架构调整为高斯混合模型和SoftMax逻辑回归模型;该模型主要利用Seq2seq模型的Decoder部分,Decoder RNN的大小为512,高斯混合模型中的混合数为20,隐藏向量z的大小为128,Dropout的保有率为0.9。
5.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(5)的具体过程如下:
(5-1)利用Tensorflow1.0框架搭建循环神经网络矢量简笔画生成模型;
(5-2)计算需要训练的参数,选取训练样本、验证集样本和测试集样本;
(5-3)采用数据增强方法避免训练过程过拟合;
(5-4)将Batch的大小设置为100,总共训练6000个Batch,平均每个Batch用时3.39s;
(5-5)在训练过程中,每个Batch作为一个step,每500个step进行一次测试和验证。
6.根据权利要求5所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(5-3)中,所述的数据增强方法包括随机缩放训练图像和随机删除直线笔划中的点;其中,随机删除直线笔划中的点是指在给定的线段具有2个以上的点的情况下,将线段内的点随机删除。
7.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(7)中,利用谷歌语音转文字模块和自然语言处理模块理解用户语义的具体步骤为:
(7-1)语音识别服务器根据一系列语法标准来检查麦克风收集到的语音;
(7-2)当一个单词或者短语被成功识别后,结果以文本字符串的形式返回;
(7-3)在获取识别结果后,NLTK自然语言处理模块解析识别结果,从中提取关键词信息。
8.根据权利要求1所述的基于树莓派和循环神经网络的简笔画识别与生成方法,其特征在于,步骤(7)中,通过建立用户语义关键词哈希表将用户语义作为输入映射到简笔画生成模型中,具体为:
分离用户期望绘制的物体名称,以字符串的形式存储到哈希表中;分离用户期望绘制的物体位置,以字符串的形式存储到哈希表中;分离用户期望绘制的物体数量,以整型数据的形式存储到哈希表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322789.4A CN112463912A (zh) | 2020-11-23 | 2020-11-23 | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011322789.4A CN112463912A (zh) | 2020-11-23 | 2020-11-23 | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463912A true CN112463912A (zh) | 2021-03-09 |
Family
ID=74798574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011322789.4A Pending CN112463912A (zh) | 2020-11-23 | 2020-11-23 | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463912A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658291A (zh) * | 2021-08-17 | 2021-11-16 | 青岛鱼之乐教育科技有限公司 | 一种简笔画自动渲染方法 |
CN114092591A (zh) * | 2022-01-20 | 2022-02-25 | 中国科学院自动化研究所 | 图像生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
US20190317739A1 (en) * | 2019-06-27 | 2019-10-17 | Intel Corporation | Methods and apparatus to automatically generate code for graphical user interfaces |
CN111476867A (zh) * | 2020-04-07 | 2020-07-31 | 华中科技大学 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
CN111897511A (zh) * | 2020-07-31 | 2020-11-06 | 科大讯飞股份有限公司 | 一种语音绘图方法、装置、设备及存储介质 |
-
2020
- 2020-11-23 CN CN202011322789.4A patent/CN112463912A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
US20190317739A1 (en) * | 2019-06-27 | 2019-10-17 | Intel Corporation | Methods and apparatus to automatically generate code for graphical user interfaces |
CN111476867A (zh) * | 2020-04-07 | 2020-07-31 | 华中科技大学 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
CN111897511A (zh) * | 2020-07-31 | 2020-11-06 | 科大讯飞股份有限公司 | 一种语音绘图方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
DAVID HA, ET AL: "A Neural Representation of Sketch Drawings", 《ARXIV:1704.03477V4》 * |
王刚: "《顾及要素特征的层次增量矢量网络传输研究》", 31 July 2018, 武汉大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658291A (zh) * | 2021-08-17 | 2021-11-16 | 青岛鱼之乐教育科技有限公司 | 一种简笔画自动渲染方法 |
CN114092591A (zh) * | 2022-01-20 | 2022-02-25 | 中国科学院自动化研究所 | 图像生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN111177366A (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN104657654B (zh) | 一种利用人眼视觉补偿原理的图片验证码生成方法 | |
KR102073388B1 (ko) | 이미지에 작가의 화풍을 적용하여 제공하는 방법, 서버 및 프로그램 | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN112463912A (zh) | 一种基于树莓派和循环神经网络的简笔画识别与生成方法 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN112070139A (zh) | 基于bert与改进lstm的文本分类方法 | |
CN114610851A (zh) | 意图识别模型的训练方法、意图识别方法、设备及介质 | |
CN111581970A (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN116167362A (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
Geiger et al. | Optimizing the number of states for HMM-based on-line handwritten whiteboard recognition | |
CN111563379B (zh) | 基于中文词向量模型的文本识别方法、装置及存储介质 | |
CN114461779A (zh) | 一种案件笔录要素抽取方法 | |
CN114387431A (zh) | 基于语义分析的多行文字纸质表格ocr方法 | |
CN109101499B (zh) | 基于神经网络的人工智能语音学习方法 | |
CN108829675A (zh) | 文档表示方法及装置 | |
CN109241539B (zh) | 机器学习人工智能翻译数据库的更新方法 | |
CN112528980B (zh) | Ocr识别结果纠正方法及其终端、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |