CN110992441A - 书写轨迹处理方法及装置 - Google Patents
书写轨迹处理方法及装置 Download PDFInfo
- Publication number
- CN110992441A CN110992441A CN201911222936.8A CN201911222936A CN110992441A CN 110992441 A CN110992441 A CN 110992441A CN 201911222936 A CN201911222936 A CN 201911222936A CN 110992441 A CN110992441 A CN 110992441A
- Authority
- CN
- China
- Prior art keywords
- image
- sequence
- training
- point
- stroke
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000011084 recovery Methods 0.000 claims abstract description 165
- 230000003068 static effect Effects 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 193
- 230000006870 function Effects 0.000 claims description 110
- 238000012545 processing Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 21
- 238000012512 characterization method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 16
- 238000013461 design Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 23
- 238000013527 convolutional neural network Methods 0.000 description 20
- 238000011176 pooling Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000010606 normalization Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种书写轨迹处理方法及装置,该方法包括:对静态图像进行编码处理,得到静态图像的图像特征序列,其中,静态图像包括至少一个字符。将图像特征序列输入至图像恢复模型,以使得图像恢复模型输出静态图像的点序列和笔画图像序列。根据点序列和笔画图像序列,得到字符的书写轨迹。通过图像恢复模型根据静态图像的图像特征序列得到对应的点序列和笔画图像序列,可以针对多笔画字符得到其对应的笔画书写位置和笔画书写顺序,从而能够有效的实现对多笔画字符的书写轨迹恢复。
Description
技术领域
本申请实施例涉及计算机技术,尤其涉及一种书写轨迹处理方法及装置。
背景技术
手写体数据的识别和分析一直是研究的热点之一,因为在线数据获取难度较大,因此从静态图像中恢复出书写轨迹,能够有效降低手写体识别的难度。
目前,现有技术在针对静态数据恢复书写轨迹时,通常是通过引入两个神经网络,其中,在引入的两个神经网络中,编码器的结构是通过对静态图像的特征序列编码成隐层表示,再通过解码器对该隐层表示进行解码,从而预测出书写轨迹的点序列坐标。
然而,该方法只能恢复出英文、数字、印度文等单笔画中的点序列,无法实现针对包含多笔画的单字符的书写轨迹恢复,从而导致书写轨迹处理缺乏适用性。
发明内容
本申请实施例提供一种书写轨迹处理方法及装置,以克服无法实现针对包含多笔画的单字符的书写轨迹恢复的问题。
第一方面,本申请实施例提供一种书写轨迹处理方法,包括:
对静态图像进行编码处理,得到所述静态图像的图像特征序列,其中,所述静态图像包括至少一个字符;
将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列;
根据所述点序列和所述图像特征序列,得到所述字符的书写轨迹。
在一种可能的设计中,所述将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列之前,所述方法还包括:
根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,其中,所述多组训练样本包括多张训练静态图像,以及各所述训练静态图像所包括的训练字符的点序列。
在一种可能的设计中,所述根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,包括:
将所述训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,所述笔画图像序列包括多个笔画过程图像;
根据所述多个笔画过程图像依次进行差分处理,得到训练差分图像序列;
根据所述训练差分图像序列,对所述图像恢复模型进行训练。
在一种可能的设计中,所述根据所述训练差分图像序列,对所述图像恢复模型进行训练,包括:
将所述训练差分图像序列输入至特征提取单元,得到所述训练差分图像序列的第一特征图;
将所述第一特征图输入至所述图像恢复模型,以使得所述图像恢复模型输出所述训练差分图像序列对应的第二特征图;
将所述第二特征图输入至图像表征单元,以使得所述图像表征单元输出预测差分图像序列;
根据第一损失函数对所述训练差分图像序列和预测差分图像序列进行处理,以得到所述图像恢复模型的第一损失函数值;
若所述第一损失函数值大于第一预设阈值,则确定所述图像恢复模型的笔画图像序列恢复单元训练完成。
在一种可能的设计中,所述点序列包括点状态序列和点坐标序列;
所述根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,包括:
将所述训练字符的点坐标序列转化为点坐标图像;
将所述点坐标图像输入至所述图像恢复模型,以使得所述图像恢复模型输出所述点坐标图像对应的预测点坐标和预测点状态,其中,所述预测点状态包括落笔、抬笔以及字符终点;
根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值;
若所述第二损失函数值大于第二预设阈值,则确定所述图像恢复模型的点序列恢复单元训练完成。
在一种可能的设计中,所述根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值,包括:
根据第二损失函数对所述预测点坐标和所述训练点坐标进行处理,得到所述图像恢复模型的第三损失函数值;
根据第三损失函数对所述预测点状态和所述训练点状态进行处理,得到所述图像恢复模型的第四损失函数值;
根据所述第三损失函数值和所述第四损失函数值,得到所述图像恢复模型的第二损失函数值。
在一种可能的设计中,所述图像恢复模型包括笔画图像序列恢复单元和点序列恢复单元,其中,所述笔画图像序列恢复单元用于输出所述静态图像的笔画图像序列,所述点序列恢复单元用于输出所述静态图像的点坐标序列;
所述图像恢复模块还包括时序单元,其中,所述时序单元用于在同一时刻更新所述笔画图像序列恢复单元和点序列恢复单元的时间参数,以使得所述笔画图像序列和所述点坐标序列输出的时序一致。
在一种可能的设计中,所述对静态图像进行编码处理,得到所述静态图像的笔画图像序列,包括:
采用卷积神经网络对所述静态图像进行编码处理,得到所述静态图像的图像特征向量,其中,所述图像特征向量包括三个通道;
将所述图像特征向量的第二个通道和第三个通道进行合并,得到所述静态图像的笔画图像序列。
第二方面,本申请实施例提供一种书写轨迹处理装置,包括:
编码模块,用于对静态图像进行编码处理,得到所述静态图像的图像特征序列,其中,所述静态图像包括至少一个字符;
输入模块,用于将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列;
处理模块,用于根据所述点序列和所述图像特征序列,得到所述字符的书写轨迹。
在一种可能的设计中,所述装置还包括:训练模块;
所述训练模块,用于在所述将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列之前,根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,其中,所述多组训练样本包括多张训练静态图像,以及各所述训练静态图像所包括的训练字符的点序列。
在一种可能的设计中,所述训练模块具体用于:
将所述训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,所述笔画图像序列包括多个笔画过程图像;
根据所述多个笔画过程图像依次进行差分处理,得到训练差分图像序列;
根据所述训练差分图像序列,对所述图像恢复模型进行训练。
在一种可能的设计中,所述训练模块具体用于:
将所述训练差分图像序列输入至特征提取单元,得到所述训练差分图像序列的第一特征图;
将所述第一特征图输入至所述图像恢复模型,以使得所述图像恢复模型输出所述训练差分图像序列对应的第二特征图;
将所述第二特征图输入至图像表征单元,以使得所述图像表征单元输出预测差分图像序列;
根据第一损失函数对所述训练差分图像序列和预测差分图像序列进行处理,以得到所述图像恢复模型的第一损失函数值;
若所述第一损失函数值大于第一预设阈值,则确定所述图像恢复模型的笔画图像序列恢复单元训练完成。
在一种可能的设计中,所述点序列包括点状态序列和点坐标序列;
所述训练模块具体用于:
将所述训练字符的点坐标序列转化为点坐标图像;
将所述点坐标图像输入至所述图像恢复模型,以使得所述图像恢复模型输出所述点坐标图像对应的预测点坐标和预测点状态,其中,所述预测点状态包括落笔、抬笔以及字符终点;
根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值;
若所述第二损失函数值大于第二预设阈值,则确定所述图像恢复模型的点序列恢复单元训练完成。
在一种可能的设计中,所述训练模块具体用于:
根据第二损失函数对所述预测点坐标和所述训练点坐标进行处理,得到所述图像恢复模型的第三损失函数值;
根据第三损失函数对所述预测点状态和所述训练点状态进行处理,得到所述图像恢复模型的第四损失函数值;
根据所述第三损失函数值和所述第四损失函数值,得到所述图像恢复模型的第二损失函数值。
在一种可能的设计中,所述图像恢复模型包括笔画图像序列恢复单元和点序列恢复单元,其中,所述笔画图像序列恢复单元用于输出所述静态图像的笔画图像序列,所述点序列恢复单元用于输出所述静态图像的点坐标序列;
所述图像恢复模块还包括时序单元,其中,所述时序单元用于在同一时刻更新所述笔画图像序列恢复单元和点序列恢复单元的时间参数,以使得所述笔画图像序列和所述点坐标序列输出的时序一致。
在一种可能的设计中,所述编码模块具体用于:
采用卷积神经网络对所述静态图像进行编码处理,得到所述静态图像的图像特征向量,其中,所述图像特征向量包括三个通道;
将所述图像特征向量的第二个通道和第三个通道进行合并,得到所述静态图像的笔画图像序列。
第三方面,本申请实施例提供一种书写轨迹处理设备,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。
本申请实施例提供一种书写轨迹处理方法及装置,该方法包括:对静态图像进行编码处理,得到静态图像的图像特征序列,其中,静态图像包括至少一个字符。将图像特征序列输入至图像恢复模型,以使得图像恢复模型输出静态图像的点序列和笔画图像序列。根据点序列和笔画图像序列,得到字符的书写轨迹。通过图像恢复模型根据静态图像的图像特征序列得到对应的点序列和笔画图像序列,可以针对多笔画字符得到其对应的笔画书写位置和笔画书写顺序,从而能够有效的实现对多笔画字符的书写轨迹恢复。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的书写轨迹处理方法的系统示意图;
图2为本申请实施例提供的书写轨迹处理方法的流程图一;
图3为本申请实施例提供的卷积神经网络的网络结构示意图;
图4-1为本申请实施例提供的基于笔画图像序列的恢复示意图;
图4-2为本申请实施例提供的基于点序列的恢复示意图;
图5为本申请实施例提供的书写轨迹处理方法的流程图二;
图6为本申请实施例提供的书写轨迹处理方法的网络结构示意图;
图7为本申请实施例提供的笔画图像序列示意图;
图8为本申请实施例提供的差分处理示意图;
图9为本申请实施例提供的书写轨迹处理方法的流程图三;
图10为本申请提供的FPSCM的网络结构示意图;
图11为本申请提供的书写轨迹处理方法的效果示意图;
图12为本申请实施例提供的书写轨迹处理装置的结构示意图一;
图13为本申请实施例提供的书写轨迹处理装置的结构示意图二;
图14为本申请实施例提供的书写轨迹处理设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
手写体数据根据其采集方式,可分为离线手写体数据和在线手写体数据。通常,包含字符书写轨迹的在线手写体数据因为容纳了更多字符信息,所以比离线手写体数据在字符识别和分析方面更具优势。但是,由于获得在线手写体数据的资源、成本有限,因此从离线手写体数据中恢复其书写轨迹是一种新颖且具有吸引力的方法。
手写体数据的识别和分析一直是研究的热点,根据采样设备的不同,手写体数据可分为离线手写体数据和在线手写体数据两种类型。离线手写体数据是指由照相机或扫描仪等图像采集设备捕获的静态图像;而在线手写体数据是由包括采集面板的电子终端设备在用户书写过程中采集的点序列,其中,电子终端设备例如可以为数位板、移动终端设备、包括采集面板的个人电脑等,本申请对具体的电子终端设备的实现方式不做限制,其可以根据实际需求进行选择。
具体的,在线手写体数据的点序列记录了书写过程中的坐标信息和笔触情况(笔尖离开面板,笔尖在面板上移动),与离线手写体数据的静态图像相比,在线手写体数据提供了额外的动态运动信息,可以提高手写体识别任务的准确率,然而,由于获取在线手写体数据的采样设备的应用有限,在线手写体数据的获取比离线手写体数据的成本高、难度大,因此,从离线手写体数据中恢复其书写轨迹是一种新颖且具有吸引力的方法。
例如可以参照图1进行理解,图1为本申请实施例提供的书写轨迹处理方法的系统示意图,如图1所示,假设当前通过图像采集设备获取到静态图像101,并将静态图像101输入至服务器102,以使得服务器102对静态图像102进行书写轨迹处理,以得到静态图像102所包括的字符的书写轨迹,具体的书写轨迹可以参照图1中的103所示。
目前,现有技术中为了从静态图像中恢复书写轨迹,提出了基于循环神经网络(Recurrent Neural Network,RNN)的点序列预测框架。具体的,可以通过设计了一个基于长短记忆网络(Long Short-Term Memory Network,LSTM)编码器-解码器模型,通过引入两个神经网络来解决从静态图像恢复书写轨迹的问题。该上述模型中的编码器的结构是通过对静态图像的特征序列编码成隐层表示,再通过解码器对该隐层表示的解码预测出书写轨迹的点序列坐标。然而该方法只能恢复出英文、数字、印度文等单笔画中的点序列,无法恢复包含多笔画的单字符(如汉字字符中大多数是由多笔画组成)。另外,上述介绍的框架仅使用了简单的L1距离损失函数,解码器的输出坐标很可能偏离原始静态图像的实际骨架。
为了解决现有技术方案中无法恢复多笔画单字符的书写轨迹以及恢复点坐标不精确的问题,本申请提出了一种书写轨迹处理方法,下面结合图2以具体的实施例对本申请的技术方案进行详细介绍,图2为本申请实施例提供的书写轨迹处理方法的流程图一,如图2所示,该方法包括:
S201、对静态图像进行编码处理,得到静态图像的图像特征序列,其中,静态图像包括至少一个字符。
在本实施例中,静态图像即为图像采集设备采集到的的离线手写体数据对应的图像,在静态图像中包括至少一个字符,也就是本实施例中需要恢复书写轨迹的字符,可以理解的是,本实施例中的字符可以是单笔画的字符,还可以是多笔画的字符,本实施例对此不做限制。
在一种可能的实现方式中,可以采用卷积神经网络(Convolutional NeuralNetworks,CNN)对静态图像进行编码处理,得到静态图像的图像特征向量,其中,图像特征向量包括三个通道;
将图像特征向量的第二个通道和第三个通道进行合并,得到静态图像的图像特征序列。
其中,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”,其中,CNN的网络结构示意图如图3所示,CNN包括卷积层、池化层,下面对卷积层和池化层分别进行介绍:
卷积(convolutional,conv)层:卷积层的功能是对输入的静态图像进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,类似于一个前馈神经网络的神经元。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小,卷积核在工作时,会有规律地扫过输入特征,在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。
池化(pooling)层:在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。
通过上述的卷积层和池化层的处理,可以得到静态图像的图像特征向量,在一种可能的实现方式中,CNN的网络结构还可以包括批归一化(Batch Normalization,BN)操作,其中,BN操作是指对每一批数据进行归一化,具体的,可以在网络中任意一层进行归一化处理。
在神经网络的训练过程中,我们一般会将输入样本特征进行归一化处理,使数据变为均值为0,标准差为1的分布或者范围在0~1的分布。因为当我们没有将数据进行归一化的话,由于样本特征分布较散,可能会导致神经网络学习速度缓慢甚至难以学习,但是以前在神经网络训练中,只是对输入层数据进行归一化处理,却没有在中间层进行归一化处理。虽然我们对输入数据进行了归一化处理,但是输入数据经过矩阵乘法以及非线性运算之后,其数据分布很可能被改变,而随着深度网络的多层运算之后,数据分布的变化将越来越大。因此在网络的中间也进行归一化处理,能够对网络的训练起到改进作用,具体的,BN操作不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散(特征分布较散)”的问题,从而使得训练深层网络模型更加容易和稳定。
在本申请一种可能的实现方式中,CNN由若干卷积层、池化层和批归一化BN操作构成,其中,CNN的网络结构可以为:conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4-conv6-BN2-conv7-pool5-conv8-BN3,其中conv表示卷积、pool表示池化,在一种可能的实现中,该CNN网络中卷积操作均采用3*3大小的卷积核,conv1、conv2的卷积核个数分别为64和128,conv3-conv8的卷积核个数均为256;以及在池化操作中,除了pool1采用2*2的池化策略,pool2-pool5均采用2*1的池化方式,并且,pool1-poo5的步长为2。
则假设CNN网络的输入是大小为64*64的静态图像,经过8次卷积,5次池化,以及3次BN操作,得到静态图像的图像特征向量conv_fea∈R32×2×256,其中,该图像特征向量conv_fea∈R32×2×256包括是三个通道。
进一步地,将图像特征向量conv_fea∈R32×2×256的倒数第一个通道和倒数第二个通道进行合并,从而将该图像特征向量的转化为图像特征序列,以得到静态图像的图像特征序列encoder_sep∈R32×512。
S202、将图像特征序列输入至图像恢复模型,以使得图像恢复模型输出静态图像的点序列和笔画图像序列。
将得到的图像特征向量输入至本实施例的图像恢复模型中,具体的,本实施例中的图像恢复模型用于恢复字符的书写轨迹,其中点序列是指字符书写过程中的笔画所在的点坐标所构成的序列,其中笔画图像序列是指字符书写过程中笔画所对应的图像所构成的序列。
值得说明的是,笔画图像序列和点序列都有其各自特定的恢复误差,首先参照图4-1所示,其显示的是基于笔画图像序列恢复的书写轨迹,因为笔画图像序列恢复过程中使用L1损失函数,因此其笔画顺序恢复的效果较差,容易出现一次恢复成片区域的现象。
以及参照图4-2所示,基于点序列恢复书写轨迹对于笔画顺序的捕捉较好,但是容易出现点坐标不准确,没有落在真实笔画上的问题。
总的来说,就是基于笔画图像序列的恢复,能够保证恢复的书写轨迹落在真实笔画上,但是容易出现一次恢复成片区域的问题;基于点序列的恢复,能够保证是按照笔画的顺序进行书写轨迹的恢复,但是无法保证点序列落在真实笔画上。
因此本实施例中通过图像恢复模型同时得到静态图像的点序列和笔画图像序列,以结合上述两种序列的特点,具体的图像恢复模型得到点序列和笔画图像序列的实现方式是基于对图像恢复模型的训练,使得图像恢复模型的功能就是输出静态图像的点序列和笔画图像序列,具体的训练过程在后续的实施例中进行详细介绍,此处先不做过多说明。
S203、根据点序列和笔画图像序列,得到字符的书写轨迹。
具体的,点序列可以指示书写轨迹的笔画顺序,图像特征可以指示真实笔画的位置,因此通过同时根据点序列和笔画图像序列,以得到字符的书写轨迹,可以结合笔画图像序列的能够保证落在真实笔画上的特点和点序列能够保证按照笔画的顺序恢复书写轨迹的特点,从而保证恢复的字符的书写轨迹的准确性。
在一种可能的实现方式中,可以继续通过本实施例中的图像恢复模型得到字符的书写轨迹,例如在图像恢复模型中设置有时序单元,以保证点序列和笔画图像序列的同步性,从而按照时间得到静态图像的点序列和笔画图像序列,并根据点序列和笔画图像序列得到落笔的位置和顺序,从而得到字符的书写轨迹。
本申请实施例提供的书写轨迹处理方法,包括:对静态图像进行编码处理,得到静态图像的图像特征序列,其中,静态图像包括至少一个字符。将图像特征序列输入至图像恢复模型,以使得图像恢复模型输出静态图像的点序列和笔画图像序列。根据点序列和笔画图像序列,得到字符的书写轨迹。通过图像恢复模型根据静态图像的图像特征序列得到对应的点序列和笔画图像序列,可以针对多笔画字符得到其对应的笔画书写位置和笔画书写顺序,从而能够有效的实现对多笔画字符的书写轨迹恢复。
在上述实施例的基础上,本申请在将图像特征序列输入至图像恢复模型,以使得图像恢复模型输出静态图像的点序列和笔画图像序列之前,需要对图像恢复模型进行训练,以使得图像恢复模型可以准确输出点序列和笔画图像序列,并得到字符的书写轨迹。
具体的,根据多组训练样本对图像恢复模型进行训练,以得到训练后的图像恢复模型,其中,多组训练样本包括多张训练静态图像,以及各训练静态图像所包括的训练字符的点序列,其中点序列包括了训练点坐标序列和训练点状态序列。
可以理解的是,训练图像中所包括的训练字符的点序列是已知的,因为这是用来训练的数据,所以其点序列肯定是正确的。
在本申请中,因为图像恢复模型需要输出静态图像的点序列,还需要输出静态图像的笔画图像序列,因此本申请中的图像恢复模型的训练包括笔画图像序列恢复单元的训练和点序列恢复单元的训练,下面对这两个单元的序列分别进行说明:
首先结合图5和图6对笔画图像序列恢复单元的训练进行介绍,图5为本申请实施例提供的书写轨迹处理方法的流程图二,图6为本申请实施例提供的书写轨迹处理方法的网络结构示意图。
在介绍之前,首先对图6中的双向长短记忆网络(Bilateral Long Short-TermMemory,BiLSTM)进行说明,在本实施例中,图像编码是基于CNN-BiLSTM进行的,通过CNN,对于任意静态图像,都可以得到固定大小的图像特征序列encoder_sep,也就是图6中CNN中特征提取单元的输出,接着将其作为BiLSTM的输入,BiLSTM的网络结构如图6所示,隐层节点数为512。如图所示,BiLSTM分为正向计算和反向计算。
正向计算时,隐层的状态st和前面时刻的状态st-1有关;
反向计算时,隐层的状态st和后续时刻的状态st+1相关;
也就是如下公式一与公式二所示:
st=sigmoid(U×Xt+W×st-1) 公式一
s′t=sigmoid(U′×Xt+W′×s′t+1) 公式二
其中,sigmoid()为Sigmoid函数,U、W、U′和W′是BiLSTM网络需要学习的参数,st为正向计算的隐层状态,st-1为正向计算的前面时刻的状态,s′t为反向计算的隐层状态,s′t+1为反向计算的后续时刻的状态,Xt为输入图像特征。
基于上述介绍,下面结合图5对笔画图像序列恢复单元的训练进行说明,如图5所示,该方法包括:
S501、将训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,笔画图像序列包括多个笔画过程图像。
在本实施例中,将训练字符的点坐标序列转换为笔画图像序列(帧序列)I=[img1,img2,...,imgN],其中,I为笔画图像序列,imgt(t=1、2、...、N)即为笔画图像序列中的笔画图像,其中t为时刻,其中一个时刻可以对应一个笔画过程图像。
其中,以“匆”字为例,对训练字符的点坐标序列进行说明,我们可以知道“匆”字包含5个笔画顺序,分别是撇(丿)、横折钩()、撇(丿)、撇(丿)、点(丶),则“匆”字的点坐标序列可以包括书写“匆”字的过程中所对应的触发点在界面中的多个坐标,以及根据点坐标序列和“匆”字的笔画顺序,可以得到“匆”字的笔画图像序列,其中,“匆”字的笔画图像序列可以如图7所示,其中5个图像笔画构成了图像笔画序列,每一个图像笔画包括“匆”字的一个笔画过程图像。
S502、根据多个笔画过程图像依次进行差分处理,得到训练差分图像序列。
在本实施例中,为了更好的提取帧间的变化,对多个笔画过程图像进行差分处理得到差分图像作为预测的输出目标D=[diff_img1,diff_img2,...,diff_imgN-1],其中,D为训练差分图像序列,diff_imgt(t=1、2、...、N-1)即为训练差分图像序列中的训练差分图像,以及,训练差分图像就是两个笔画过程图像之间不同的部分,因此
diff_imgt=imgt+1-imgt
下面结合图8对差分处理进行说明,参见图8可以理解,两个笔画过程图像进行差分处理可以得到一张训练差分图像,在训练差分图像中包括的是两个笔画过程图像所不相同的部分,也就是一个单独的笔画的图像,则训练差分图像序列所包括的就是多个单独的笔画的图像。
S503、将训练差分图像序列输入至特征提取单元,得到训练差分图像序列的第一特征图。
在训练差分图像序列中包括多个训练差分图像,在一种可能的实现方式中,本实施例将将训练差分图像序列输入至特征提取单元的具体实现方式可以为,依次将单个训练差分图像输入至特征提取单元,在一个训练差分图像处理完成之后,再输入下一个训练差分图像;或者,还可以为将多个训练差分图像一次性输入至特征提取单元,特征提取单元对多个图像进行并行处理,本实施例对此不做限制,在图6中示意出的是对一个训练差分图像进行处理的过程。
其中特征提取单元为用于对图像特征进行提取的模块,其例如可以与上述实施例介绍的CNN相同,或者还可以为任意用于进行图像特征提取的功能模块,本实施例对此不做限制。
在本实施例中,特征提取单元对输入的训练差分图像进行处理之后可以得到训练差分图像序列的第一特征图img0,t,其中的0表示第0层处理,t表示时刻。
S504、将第一特征图输入至图像恢复模型,以使得图像恢复模型输出训练差分图像序列对应的第二特征图。
参见图6的笔画图像序列恢复单元,将第一特征图输入至图像恢复模型。进行L层处理,图像恢复模型输出训练差分图像序列对应的第二特征图imgL,t,其中,L表示经过了L层处理。
S505、将第二特征图输入至图像表征单元,以使得图像表征单元输出预测差分图像序列。
具体的,通过图像表征模块之后,输出预测差分图像diff_It+1,其中,
diff_It+1=fdeconv(imgL,t)
这里的fdeconv()即为图像表征模块,本实施例中的图像表征模块是由多层反卷积和上采样池化层堆叠组成的,以及diff_It+1为t+1时刻的预测差分图像,则各个时刻的预测差分图像构成了预测差分图像序列。
S506、根据第一损失函数对训练差分图像序列和预测差分图像序列进行处理,以得到图像恢复模型的第一损失函数值。
参照上述过程可知,其是根据t时刻的训练差分图像得到了t+1时刻的预测差分图像,为了检测图像恢复模型输出的预测差分模型是否准确,本实施例根据第一损失函数对训练差分图像序列和预测差分图像序列进行处理,以得到图像恢复模型的第一损失函数值。
在一种可能的实现方式中,第一损失函数为MSE损失函数,具体的,MSE损失的实现可以参照公式三:
其中,Limg为第一损失函数值,diff_It为t时刻的预测差分图像,diff_imgt+1为t+1时刻的训练差分图像。
S507、若第一损失函数值大于第一预设阈值,则确定图像恢复模型的笔画图像序列恢复单元训练完成。
本实施例中的第一损失函数用于衡量预测图像的质量好坏,当第一损失函数值大于第一预设阈值时,则确定图像恢复模型的笔画图像序列恢复单元训练完成,其中第一预设阈值的具体大小可以根据实际需求进行选择。
训练后的笔画图像序列恢复单元可以根据输入的静态图像,恢复出笔画顺序图像,每张图片包含一个笔画,并且按顺序输出。
本申请实施例提供的书写轨迹处理方法,包括:将训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,笔画图像序列包括多个笔画过程图像。根据多个笔画过程图像依次进行差分处理,得到训练差分图像序列。将训练差分图像序列输入至特征提取单元,得到训练差分图像序列的第一特征图。将第一特征图输入至图像恢复模型,以使得图像恢复模型输出训练差分图像序列对应的第二特征图。将第二特征图输入至图像表征单元,以使得图像表征单元输出预测差分图像序列。根据第一损失函数对训练差分图像序列和预测差分图像序列进行处理,以得到图像恢复模型的第一损失函数值。若第一损失函数值大于第一预设阈值,则确定图像恢复模型的笔画图像序列恢复单元训练完成。通过根据训练数据对笔画图像序列恢复单元进行训练,能够有效保证图像恢复模型输出的笔画图像序列的正确性,并且采用MSE损失函数作为第一损失函数,能够有效避免使用L1损失函数导致的笔画顺序恢复的效果较差的问题。
下面结合图9对点序列恢复单元的训练的训练进行说明,图9为本申请实施例提供的书写轨迹处理方法的流程图三。
如图9所示,该方法包括:
S901、将训练字符的点序列转化为点坐标图像。
本实施例中的点序列恢复单元能够恢复出笔画点的坐标信息和状态信息,我们使用双分支联合学习的方法,实现了包含多笔画的静态图像的轨迹恢复。具体的,我们将每个点序列看作是不同时刻的采样数据,则对于每个时刻,我们通过图6中示意的预处理单元,将训练字符的点序列转化为点坐标图像point0,t。
S902、将点坐标图像输入至图像恢复模型,以使得图像恢复模型输出点坐标图像对应的预测点坐标和预测点状态,其中,预测点状态包括落笔、抬笔以及字符终点。
将点坐标图像输入至图像恢复模型,经过L层的处理之后,图像恢复模型输出点坐标图像对应的特征图pointL,t,接着将pointL,t输入至点表征单元,以使得点表征单元输出预测点坐标和预测点状态,其中,预测点状态包括落笔、抬笔以及字符终点。
在本实施例中,点表征单元包括两个全连接层。
值得说明的是,本实施例中的训练样本还包括训练静态图像的训练点坐标和训练点状态,其中,训练点坐标是真实的点坐标,以及训练点状态为真实的点状态。
下面对点状态的含义进行说明:
假设静态图像对应的真实点状态为:
statei=[si0,si1,…,siM]
其中,statei为真实点状态的集合,si0为0时刻的轨迹点状态,sit为t时刻的轨迹点状态,t=0,1,…,M。
也就是说,中的三个元素只有一个元素为1,其他两个均为0。其中,落笔表示t时刻和t+1时刻坐标点之间有连线,即每个笔画中除终点之外的所有点都是落笔的状态;抬笔则表示t时刻和t+1时刻坐标点之间没有连线,即每个笔画的终点是抬笔的状态;字符终点表示该字符结束。在一个字符中,字符终点的状态出现的最少,抬笔的状态其次,落笔的状态在一个字符中出现的最多。
S903、根据第二损失函数对预测点坐标和训练点坐标进行处理,得到图像恢复模型的第三损失函数值。
在本实施例中,点序列同时包括了点坐标和点状态,则要对点状态和点坐标分别计算损失函数值。
根据第二损失函数值计算点坐标的损失函数值,具体的,根据第二损失函数对预测点坐标和训练点坐标进行处理,得到图像恢复模型的第三损失函数值。
静态图像对应的真实坐标为cori=[xi0,yi0,xi1,yi1,…,xiM,yiM]
其中,xit表示t时刻的训练x坐标,yit表示t时刻的训练y坐标,t=0,1,…,M。
则第二损失函数如下公式四所示:
其中,lossreg为第二损失函数值,N为样本总数,也就是时刻的总数量。
S904、根据第三损失函数对预测点状态和训练点状态进行处理,得到图像恢复模型的第四损失函数值。
参照上述介绍可知,训练点状态为statei=[si0,si1,…,siM]。
则第三损失函数可以如下公式五所示:
其中,losscls为第三损失函数值,wj为权重参数,在一种可能的实现方式中,wj=[w0,w1,w2]=[1,5,100],其分别表示落笔、抬笔和字符终点的分类损失函数权重。
S905、根据第三损失函数值和第四损失函数值,得到图像恢复模型的第二损失函数值。
在得到点坐标对应的第三损失函数值和点序列对应的第四损失函数值之后,可以根据第三损失函数值和第四损失函数值,得到图像恢复模型的第二损失函数值。
在一种可能的实现方式中,可以根据下面的公式六确定第二损失函数值:
L=lossreg+losscls 公式六
具体的,可以通过优化公式六所示的目标函数,通过梯度下降算法,寻找该目标函数的最优解,从而实现了点坐标位置回归分支和点状态分类分支的联合学习。
S906、若第二损失函数值大于第二预设阈值,则确定图像恢复模型的点序列恢复单元训练完成。
与上述S507类似,在第二损失函数值大于第二预设阈值时,则确定图像恢复模型的点序列恢复单元训练完成。
本申请实施例提供的书写轨迹处理方法,包括:将训练字符的点序列转化为点坐标图像。将点坐标图像输入至图像恢复模型,以使得图像恢复模型输出点坐标图像对应的预测点坐标和预测点状态,其中,预测点状态包括落笔、抬笔以及字符终点。根据第二损失函数对预测点坐标和训练点坐标进行处理,得到图像恢复模型的第三损失函数值。根据第三损失函数对预测点状态和训练点状态进行处理,得到图像恢复模型的第四损失函数值。根据第三损失函数值和第四损失函数值,得到图像恢复模型的第二损失函数值。若第二损失函数值大于第二预设阈值,则确定图像恢复模型的点序列恢复单元训练完成。通过根据训练数据对点序列恢复单元进行训练,能够有效保证图像恢复模型输出的点序列的正确性。
在上述介绍的实施例的基础上,可以理解的是,为了保证输出的书写轨迹是准确的落在真实笔画上,同时还需要保证输出的笔画顺序,处理上述得到点序列和笔画图像序列之外,还需要保证笔画图像序列恢复单元和点序列恢复单元的一致性,即同步输出图像序列和点序列中的笔画信息。
因此本申请中的图像恢复模型具体可以为点-图序列同步模块(Frame-pointSequence Coherent Model,FPSCM),FPSCM将空间内容表征与时序表征分解开,分别形成内容表征流与时序表征流,并且通过图像序列的分支和点序列的分支共享时序表征流,来确保两个分支间的时序一致性。
具体的,FPSCM的网络结构如图10所示,图10为本申请提供的FPSCM的网络结构示意图。
具体的,在FPSCM中,有两个表征单元R和一个时序单元T,其中,R单元可以看作笔画图像序列和点序列的内容特征提取器,也就是说两个R单元分别是笔画图像序列恢复单元和点序列恢复单元,以及T单元为时序维度上的序列一致性保持器,在T单元的作用下,内容表征流与时序表征流可以同时更新参数,从而保持时序的一致性。
具体的,在FPSCM网络第i层的第t个时刻,笔画图像序列和点序列的输入为imgi-1,t和pointi-1,t,则
这里的R=ReLU(conv(),其中,线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数。
其中,T=sigmoid(conv()),Ci,t用于标识时序表征流上t时刻的记忆存储状态。
最后,为了使笔画图像序列和点序列同步,我们用M单元来融合图像和点序列的信息,具体的,参照公式八和公式九:
imgi,t=M(imgi′,t,Ci,t) 公式八
pointi,t=M(pointi′,t,Ci,t) 公式九
其中,M为逐元素点乘,imgi,t和pointi,t为图像序列和点序列的输出。参照图6,对于每个时刻t,我们将L个FPSCM堆叠构成一个FPSCM网络,其中每一个FPSCM的内部结构都如图10所示。
综上所述,本申请基于卷积神经网络(Convolutional Neural Networks,CNN)-双向长短记忆网络(BiLSTM)对静态图像进行编码,编码后BiLSTM的状态作为解码器状态的初始值。有利于解码器解码时,根据训练样本的数据分布,进行解码。
以及本申请中的笔画图像序列恢复单元和点序列恢复单元,分别从静态图像中分别恢复出笔画的点序列和笔画图像序列,其中点序列包括点序列和点状态序列,进一步地,基于点-图序列同步模块(FPSCM),能够将空间内容表征与时序表征拆分开,分成空间内容表征流与时序表征流,用于将点坐标恢复序列和图像恢复序列在时序上进行同步,消除两个序列笔画预测的误差。
最终的效果训练完成的模型的处理效果可以如图11所示,图11为本申请提供的书写轨迹处理方法的效果示意图。
参照图11,图4中灰色字迹为输入的静态图像,参照图11可以看出,在基于单独的图像序列进行书写轨迹的恢复时,其能够保证恢复的轨迹一定位于真实笔画上,但是并不是按照笔画顺序恢复的,以及在基于单独的点序列进行书写轨迹的恢复时,其能够保证是按照笔画顺序恢复的,但是并没有落在真实笔画上。
然而,基于点序列-图像序列同步进行书写轨迹的恢复时,可以有效保证恢复的书写轨迹位于真实笔画上,同时,还能够保证是按照笔画顺序恢复的,从而有效提升了对于静态图像进行书写轨迹恢复的有效性和正确性。
图12为本申请实施例提供的书写轨迹处理装置的结构示意图一。如图12所示,该装置120包括:编码模块1201、输入模块1202以及处理模块1203。
编码模块1201,用于对静态图像进行编码处理,得到所述静态图像的图像特征序列,其中,所述静态图像包括至少一个字符;
输入模块1202,用于将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列;
处理模块1203,用于根据所述点序列和所述图像特征序列,得到所述字符的书写轨迹。
在一种可能的设计中,所述编码模块1201具体用于:
采用卷积神经网络对所述静态图像进行编码处理,得到所述静态图像的图像特征向量,其中,所述图像特征向量包括三个通道;
将所述图像特征向量的第二个通道和第三个通道进行合并,得到所述静态图像的笔画图像序列。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图13为本申请实施例提供的书写轨迹处理装置的结构示意图二。如图13所示,本实施例在图12实施例的基础上,还包括:训练模块1304。
在一种可能的设计中,所述训练模块1304,用于在所述将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列之前,根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,其中,所述多组训练样本包括多张训练静态图像,以及各所述训练静态图像所包括的训练字符的点序列。
在一种可能的设计中,所述训练模块1304具体用于:
将所述训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,所述笔画图像序列包括多个笔画过程图像;
根据所述多个笔画过程图像依次进行差分处理,得到训练差分图像序列;
根据所述训练差分图像序列,对所述图像恢复模型进行训练。
在一种可能的设计中,所述训练模块1304具体用于:
将所述训练差分图像序列输入至特征提取单元,得到所述训练差分图像序列的第一特征图;
将所述第一特征图输入至所述图像恢复模型,以使得所述图像恢复模型输出所述训练差分图像序列对应的第二特征图;
将所述第二特征图输入至图像表征单元,以使得所述图像表征单元输出预测差分图像序列;
根据第一损失函数对所述训练差分图像序列和预测差分图像序列进行处理,以得到所述图像恢复模型的第一损失函数值;
若所述第一损失函数值大于第一预设阈值,则确定所述图像恢复模型的笔画图像序列恢复单元训练完成。
在一种可能的设计中,所述点序列包括点状态序列和点坐标序列;
所述训练模块1304具体用于:
将所述训练字符的点坐标序列转化为点坐标图像;
将所述点坐标图像输入至所述图像恢复模型,以使得所述图像恢复模型输出所述点坐标图像对应的预测点坐标和预测点状态,其中,所述预测点状态包括落笔、抬笔以及字符终点;
根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值;
若所述第二损失函数值大于第二预设阈值,则确定所述图像恢复模型的点序列恢复单元训练完成。
在一种可能的设计中,所述训练模块1304具体用于:
根据第二损失函数对所述预测点坐标和所述训练点坐标进行处理,得到所述图像恢复模型的第三损失函数值;
根据第三损失函数对所述预测点状态和所述训练点状态进行处理,得到所述图像恢复模型的第四损失函数值;
根据所述第三损失函数值和所述第四损失函数值,得到所述图像恢复模型的第二损失函数值。
在一种可能的设计中,所述图像恢复模型包括笔画图像序列恢复单元和点序列恢复单元,其中,所述笔画图像序列恢复单元用于输出所述静态图像的笔画图像序列,所述点序列恢复单元用于输出所述静态图像的点坐标序列;
所述图像恢复模块还包括时序单元,其中,所述时序单元用于在同一时刻更新所述笔画图像序列恢复单元和点序列恢复单元的时间参数,以使得所述笔画图像序列和所述点坐标序列输出的时序一致。
图14为本申请实施例提供的书写轨迹处理设备的硬件结构示意图,如图14所示,本实施例的书写轨迹处理设备140包括:处理器1401以及存储器1402;其中
存储器1402,用于存储计算机执行指令;
处理器1401,用于执行存储器存储的计算机执行指令,以实现上述实施例中书写轨迹处理方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器1402既可以是独立的,也可以跟处理器1401集成在一起。
当存储器1402独立设置时,该书写轨迹处理设备还包括总线1403,用于连接所述存储器1402和处理器1401。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上书写轨迹处理设备所执行的书写轨迹处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种书写轨迹处理方法,其特征在于,包括:
对静态图像进行编码处理,得到所述静态图像的图像特征序列,其中,所述静态图像包括至少一个字符;
将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列;
根据所述点序列和所述图像特征序列,得到所述字符的书写轨迹。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列之前,所述方法还包括:
根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,其中,所述多组训练样本包括多张训练静态图像,以及各所述训练静态图像所包括的训练字符的点序列,其中,所述点序列包括点坐标序列和点状态序列。
3.根据权利要求2所述的方法,其特征在于,所述根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,包括:
将所述训练字符的点坐标序列按照笔画顺序,转换为笔画图像序列,其中,所述笔画图像序列包括多个笔画过程图像;
根据所述多个笔画过程图像依次进行差分处理,得到训练差分图像序列;
根据所述训练差分图像序列,对所述图像恢复模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述根据所述训练差分图像序列,对所述图像恢复模型进行训练,包括:
将所述训练差分图像序列输入至特征提取单元,得到所述训练差分图像序列的第一特征图;
将所述第一特征图输入至所述图像恢复模型,以使得所述图像恢复模型输出所述训练差分图像序列对应的第二特征图;
将所述第二特征图输入至图像表征单元,以使得所述图像表征单元输出预测差分图像序列;
根据第一损失函数对所述训练差分图像序列和预测差分图像序列进行处理,以得到所述图像恢复模型的第一损失函数值;
若所述第一损失函数值大于第一预设阈值,则确定所述图像恢复模型的笔画图像序列恢复单元训练完成。
5.根据权利要求2所述的方法,其特征在于,所述根据多组训练样本对所述图像恢复模型进行训练,以得到训练后的图像恢复模型,包括:
将所述训练字符的点坐标序列转化为点坐标图像;
将所述点坐标图像输入至所述图像恢复模型,以使得所述图像恢复模型输出所述点坐标图像对应的预测点坐标和预测点状态,其中,所述预测点状态包括落笔、抬笔以及字符终点;
根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值;
若所述第二损失函数值大于第二预设阈值,则确定所述图像恢复模型的点序列恢复单元训练完成。
6.根据权利要求5所述的方法,其特征在于,所述根据所述预测点坐标、预测点状态以及训练点坐标、训练点状态,确定所述图像恢复模型的第二损失函数值,包括:
根据第二损失函数对所述预测点坐标和所述训练点坐标进行处理,得到所述图像恢复模型的第三损失函数值;
根据第三损失函数对所述预测点状态和所述训练点状态进行处理,得到所述图像恢复模型的第四损失函数值;
根据所述第三损失函数值和所述第四损失函数值,得到所述图像恢复模型的第二损失函数值。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述图像恢复模型包括笔画图像序列恢复单元和点序列恢复单元,其中,所述笔画图像序列恢复单元用于输出所述静态图像的笔画图像序列,所述点序列恢复单元用于输出所述静态图像的点坐标序列;
所述图像恢复模块还包括时序单元,其中,所述时序单元用于在同一时刻更新所述笔画图像序列恢复单元和点序列恢复单元的时间参数,以使得所述笔画图像序列和所述点坐标序列输出的时序一致。
8.一种书写轨迹处理装置,其特征在于,包括:
编码模块,用于对静态图像进行编码处理,得到所述静态图像的图像特征序列,其中,所述静态图像包括至少一个字符;
输入模块,用于将所述图像特征序列输入至图像恢复模型,以使得所述图像恢复模型输出所述静态图像的点序列和笔画图像序列;
处理模块,用于根据所述点序列和所述图像特征序列,得到所述字符的书写轨迹。
9.一种书写轨迹处理设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至7中任一所述的方法。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222936.8A CN110992441A (zh) | 2019-12-03 | 2019-12-03 | 书写轨迹处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222936.8A CN110992441A (zh) | 2019-12-03 | 2019-12-03 | 书写轨迹处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110992441A true CN110992441A (zh) | 2020-04-10 |
Family
ID=70089767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911222936.8A Pending CN110992441A (zh) | 2019-12-03 | 2019-12-03 | 书写轨迹处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992441A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699780A (zh) * | 2020-12-29 | 2021-04-23 | 上海臣星软件技术有限公司 | 对象识别方法、装置、设备及存储介质 |
CN114055483A (zh) * | 2021-09-30 | 2022-02-18 | 杭州未名信科科技有限公司 | 一种基于机械臂书写汉字的方法、装置、设备及介质 |
CN114757969A (zh) * | 2022-04-08 | 2022-07-15 | 华南理工大学 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256418B1 (en) * | 1998-04-13 | 2001-07-03 | Compaq Computer Corporation | Method and system for compressing a sequence of images including a moving figure |
CN101316356A (zh) * | 2007-05-29 | 2008-12-03 | 北京大学 | 面向远程教育的板书动态图像压缩方法 |
US20090041354A1 (en) * | 2007-08-10 | 2009-02-12 | Microsoft Corporation | Hidden Markov Model Based Handwriting/Calligraphy Generation |
WO2010150916A1 (en) * | 2009-06-24 | 2010-12-29 | Sharp Kabushiki Kaisha | Handwriting recognition method and device |
CN102609735A (zh) * | 2012-02-06 | 2012-07-25 | 安徽科大讯飞信息科技股份有限公司 | 一种字符书写规范度评测的方法和装置 |
WO2014108866A1 (en) * | 2013-01-11 | 2014-07-17 | Natural Intelligent Technologies S.R.L. | Process of handwriting recognition and related apparatus |
CN109147002A (zh) * | 2018-06-27 | 2019-01-04 | 北京捷通华声科技股份有限公司 | 一种图像处理方法和装置 |
-
2019
- 2019-12-03 CN CN201911222936.8A patent/CN110992441A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256418B1 (en) * | 1998-04-13 | 2001-07-03 | Compaq Computer Corporation | Method and system for compressing a sequence of images including a moving figure |
CN101316356A (zh) * | 2007-05-29 | 2008-12-03 | 北京大学 | 面向远程教育的板书动态图像压缩方法 |
US20090041354A1 (en) * | 2007-08-10 | 2009-02-12 | Microsoft Corporation | Hidden Markov Model Based Handwriting/Calligraphy Generation |
WO2010150916A1 (en) * | 2009-06-24 | 2010-12-29 | Sharp Kabushiki Kaisha | Handwriting recognition method and device |
CN102609735A (zh) * | 2012-02-06 | 2012-07-25 | 安徽科大讯飞信息科技股份有限公司 | 一种字符书写规范度评测的方法和装置 |
WO2014108866A1 (en) * | 2013-01-11 | 2014-07-17 | Natural Intelligent Technologies S.R.L. | Process of handwriting recognition and related apparatus |
CN109147002A (zh) * | 2018-06-27 | 2019-01-04 | 北京捷通华声科技股份有限公司 | 一种图像处理方法和装置 |
Non-Patent Citations (4)
Title |
---|
周敏;唐洪英;卢玲;: "一个在线手写签名识别系统的设计与实现" * |
曹忠升;苏哲文;王元珍;: "一种脱机手写汉字书写顺序恢复模型" * |
曹忠升;苏哲文;王元珍;熊鹏;: "基于模糊区域检测的手写汉字笔画提取方法" * |
王强;毕胜;单海涛;: "静态字体笔顺信息的提取" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699780A (zh) * | 2020-12-29 | 2021-04-23 | 上海臣星软件技术有限公司 | 对象识别方法、装置、设备及存储介质 |
CN114055483A (zh) * | 2021-09-30 | 2022-02-18 | 杭州未名信科科技有限公司 | 一种基于机械臂书写汉字的方法、装置、设备及介质 |
CN114757969A (zh) * | 2022-04-08 | 2022-07-15 | 华南理工大学 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | ECFFNet: Effective and consistent feature fusion network for RGB-T salient object detection | |
Chen et al. | Fsrnet: End-to-end learning face super-resolution with facial priors | |
Rahman et al. | A new benchmark on american sign language recognition using convolutional neural network | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN112506342B (zh) | 基于动态手势识别的人机交互方法及系统 | |
Zhou et al. | IRFR-Net: Interactive recursive feature-reshaping network for detecting salient objects in RGB-D images | |
Miao et al. | Shallow feature based dense attention network for crowd counting | |
CN109871781B (zh) | 基于多模态3d卷积神经网络的动态手势识别方法及系统 | |
CN106960206B (zh) | 字符识别方法和字符识别系统 | |
Zhao et al. | Feedforward categorization on AER motion events using cortex-like features in a spiking neural network | |
CN112541864A (zh) | 一种基于多尺度生成式对抗网络模型的图像修复方法 | |
CN110992441A (zh) | 书写轨迹处理方法及装置 | |
CN111046771A (zh) | 用于恢复书写轨迹的网络模型的训练方法 | |
CN111783748A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN110390254B (zh) | 基于人脸的性格分析方法、装置、计算机设备及存储介质 | |
CN113920516B (zh) | 一种基于孪生神经网络的书法字骨架匹配方法及系统 | |
CN111079764A (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN113807356B (zh) | 一种端到端的低能见度图像语义分割方法 | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
WO2021103474A1 (zh) | 图像的处理方法和装置、存储介质及电子装置 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN111680550A (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN108229432A (zh) | 人脸标定方法及装置 | |
Alam et al. | Two dimensional convolutional neural network approach for real-time bangla sign language characters recognition and translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240524 |
|
AD01 | Patent right deemed abandoned |