CN111046771A

CN111046771A - 用于恢复书写轨迹的网络模型的训练方法

Info

Publication number: CN111046771A
Application number: CN201911231842.7A
Authority: CN
Inventors: 周康明; 肖尧
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-21

Abstract

本发明的目的是提供一种用于恢复书写轨迹的网络模型的训练方法及设备，本发明编码器和解码器的输入均为静态汉字图像，不依赖于其他额外的辅助信息，直接从静态汉字图像出发，以点坐标位置回归和点状态分类为驱动，学习到静态图像中笔记的位置和时序信息，在保证位置和静态图像之间存在允许的较小偏移前提下，恢复出点序列的时序信息。

Description

用于恢复书写轨迹的网络模型的训练方法

技术领域

本发明涉及计算机领域，尤其涉及一种用于恢复书写轨迹的网络模型的训练方法。

背景技术

手写体数据根据其采集方式，可分为在线手写体数据和离线手写体数据。通常，包含字符书写轨迹的在线手写体数据比离线手写体数据在字符识别和分析方面更具优势。然而，由于获得在线手写体数据的资源、成本有限，从离线手写体数据数据中恢复其书写轨迹是一种新颖且具有吸引力的方法。

手写体识别和分析在过去二十年中一直是研究的热点，根据采样设备的不同，手写体数据可分为离线数据和在线数据两种类型。其中，

离线数据是指由照相机或扫描仪捕获的静态图像；

在线数据是由带面板的电子终端设备在用户书写过程中采集的点序列。其中，点序列记录了书写过程中的坐标信息和笔触情况，所述笔触情况是指笔尖离开面板或笔尖在面板上移动。

与静态图像相比，在线数据提供了额外的动态运动信息，可以提高手写体识别任务的准确率。但是，由于获取在线数据的采样设备应用有限，在线数据的获取比离线数据的成本高、难度大。因此，如果能从静态图像中恢复出书写轨迹，离线数据的静态手写体字符识别问题就可以转化成在线手写体识别任务。

为了从静态图像中恢复书写轨迹，已经有一些学者提出了基于循环神经网络(Recurrent Neural Network，RNN)的点序列预测框架。现有技术中，设计了一个基于长短记忆网络(Long Short-Term Memory Network， LSTM)编码器-解码器模型，通过引入两个神经网络来解决从静态图像恢复书写笔迹的问题。该模型中的编码器的结构是通过对静态图像的特征序列编码成隐层表示，再通过解码器对该隐层表示的解码预测出书写轨迹的点序列坐标。

然而，该现有的方法只能恢复出英文、数字、印度文等单笔画中的点序列，无法恢复包含多笔画的单字符(如汉字字符中大多数是由多笔画组成)。此外，由于该框架仅使用了简单的L1距离损失函数，解码器的输出坐标很可能偏离原始静态图像的实际骨架。

发明内容

本发明的一个目的是提供一种用于恢复书写轨迹的网络模型的训练方法及设备。

根据本发明的一个方面，提供了一种静态汉字图像的用于恢复书写轨迹的网络模型的训练方法，该方法包括：

所述用于恢复书写轨迹的网络模型包括CNN-BiLSTM的编码器、CNN- BiLSTM的解码器、点坐标位置回归分支和点状态分类分支，该方法包括：

由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息；

基于所述隐层的状态信息，由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征；

基于所述汉字的点序列的特征，由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标；基于所述汉字的点序列的特征，由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态；

基于所述预测轨迹坐标计算点坐标位置回归损失，基于所述预测轨迹点状态计算点状态分类损失；

基于所述点坐标位置回归损失和点状态分类损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行上述步骤，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练。

进一步的，上述方法中，由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息，包括：

将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，以获得所述CNN编码器输出的对应的第一静态图像特征序列；将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器，以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息；

基于所述隐层的状态信息，由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征，包括：

将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器，以获得所述CNN解码器输出的对应的第二静态图像特征序列；将所述第二静态图像特征序列和隐层的状态信息输入所述CNN-BiLSTM的解码器，以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征；

基于所述汉字的点序列的特征，由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标；基于所述汉字的点序列的特征，由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态，包括：

将所述汉字的点序列的特征点输入所述点坐标位置回归分支，以得到所述点坐标位置回归分支输出的所述静态汉字图像的样本对应的预测轨迹坐标；将所述汉字的点序列的特征点输入所述点状态分类分支，以得到所述点状态分类分支输出的所述静态汉字图像的样本对应的预测轨迹点状态；

基于所述预测轨迹坐标计算点坐标位置回归损失，基于所述预测轨迹点状态计算点状态分类损失，包括：

将所述静态汉字图像的样本对应的预测轨迹坐标及对应的真实轨迹坐标输入点坐标位置回归分支的损失函数，以计算得到对应的点坐标位置回归损失；将所述静态汉字图像的样本对应的预测轨迹点状态及对应的真实预测轨迹点状态输入点状态分类分支的损失函数，以计算得到对应的点状态分类损失；

基于所述点坐标位置回归损失和点状态分类损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行上述步骤，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练，包括：

将所述点坐标位置回归损失和点状态分类损失输入目标函数，以得到对应的联合损失，基于所述联合损失对所述CNN-BiLSTM的编码器、CNN- BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行上述步骤，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练。

进一步的，上述方法中，所述CNN编码器的网络结构为：

conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4- conv6-BN2-conv7-pool5-conv8-BN3，

其中，conv表示卷积操作，pool表示池化操作，BN(Batch Normalization)表示批归一化操作，所述CNN编码器的网络结构中卷积操作均采用3*3大小的卷积核，conv1、conv2的卷积核个数分别为64和128， conv3～conv8的卷积核个数均为256；池化操作中，除了pool1采用2*2的池化策略，pool2～pool5均采用2*1的池化方式，并且，pool1-poo5的步长为2。

进一步的，上述方法中，将静态汉字图像的样本输入所述CNN-BiLSTM 的编码器中的CNN编码器，以获得所述CNN编码器输出的对应的第一静态图像特征序列，包括：

将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，所述CNN编码器基于所述静态汉字图像的样本得到对应的第一图像特征向量；

所述CNN编码器将所述第一图像特征向量的倒数第一、二个通道进行合并，以输出对应的第一静态图像特征序列；

将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的 BiLSTM编码器，以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息，包括：

将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的 BiLSTM编码器；

所述BiLSTM编码器基于如下公式输出对应的隐层的状态信息s_t和s′_t：

s_t＝sigmoid(U·X_t+W·s_t-1) (1)

s′_t＝sigmoid(U′·X_t+W′·s′_t+1) (2)

其中，t＝1,2,…,L，L表示所述静态汉字图像的样本的待恢复的书写轨迹中包含的点的数量，U、W、U′和W′是所述BiLSTM编码器的网络中待学习的参数，X_t表示t时刻的静态汉字图像的特征。

进一步的，上述方法中，所述CNN解码器的网络结构为：

conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4- conv6-BN2-conv7-pool5，其中，conv表示卷积操作，pool表示池化操作， BN表示批归一化操作，所述CNN解码器的网络中卷积操作均采用3*3大小的卷积核，con1的卷积核个数为16，conv2和conv3的卷积核个数为32， conv4和conv5的卷积核个数为64，conv6的卷积核个数为128，conv7的卷积核个数为256；池化操作中，pool1～pool5均采用步长为2、2*2的池化方式。

进一步的，上述方法中，将所述静态汉字图像的样本输入所述CNN- BiLSTM的解码器中的CNN解码器，以获得所述CNN解码器输出的对应的第二静态图像特征序列，包括：

将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器，所述CNN解码器基于所述静态汉字图像的样本得到对应的第二图像特征向量；

所述CNN解码器将所述第二图像特征向量的倒数第一、二个通道进行合并，以输出对应的第二静态图像特征序列；

将第二静态图像特征序列复制L行，得到复制后的第二静态图像特征序列。

进一步的，上述方法中，将所述第二静态图像特征序列和隐层的状态信息输入所述CNN-BiLSTM的解码器，以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征，包括：

将第二静态图像特征序列作为BiLSTM解码器的输入，同时将s_t和s′_t作为 BiLSTM解码器的网络隐层的初始化参数；

所述BiLSTM解码器基于如下公式得到对应的汉字的点序列的特征o_t：

o_t＝tanh(V·s_t+V′·s′_t),t＝1,2,…,L，

其中，V和V′表示解码器中待学习的网络参数。

进一步的，上述方法中，所述点坐标位置回归分支的损失函数如下：

其中，N为样本静态汉字图像的样本的总数；

静态汉字图像的样本对应的预测轨迹坐标为：

静态汉字图像的样本对应的真实轨迹坐标为：

cor_i＝[x_i1,y_i1,…,x_iL,y_iL]。

进一步的，上述方法中，所述点状态分类分支的损失函数如下：

其中，所述静态汉字图像的样本对应的预测轨迹点状态为：

表示第i个样本在时刻t由所述点状态分类分支得到的点状态分类的one-hot形式估计值，即

中的三个元素只有一个元素的值为1，其他两个元素的值均为0；

静态汉字图像的样本对应的真实轨迹点状态为：

state_i＝[s_i1,…,s_iL]；

点状态

分为3类：

其中，所述落笔表示t时刻和t+1时刻坐标点之间有连线，即某个笔画中除终点之外的所有点都是落笔的状态；

所述抬笔则表示t时刻和t+1时刻坐标点之间没有连线，即某个笔画的终点是抬笔的状态；

所述字符终点表示字符结束；

[w¹,w²,w³]＝[1,5,100]依次表示落笔、抬笔和字符终点的权重。

进一步的，上述方法中，所述目标函数如下：

L＝loss_reg+loss_cls。

根据本发明的另一方面，还提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述任一项所述的方法。

根据本发明的另一方面，还提供一种用于在网络设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行上述任一项所述的方法。

与现有技术相比，本发明提出的基于序列到序列模型的静态汉字图像恢复书写轨迹的方法，编码器和解码器的输入均为静态汉字图像，不依赖于其他额外的辅助信息，直接从静态汉字图像本出发，以点坐标位置回归和点状态分类为驱动，学习到静态图像中笔记的位置和时序信息，在保证位置和静态图像之间存在允许的较小偏移前提下，恢复出点序列的时序信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一实施例的一种恢复书写轨迹网络模型的结构图；

图2示出本发明一实施例的BiLSTM网络结构图；

图3示出本发明一实施例的静态汉字图像的示意图；

图4示出由图3的静态汉字图像恢复得到的点序列的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明提供一种用于恢复书写轨迹的网络模型的训练方法，所述用于恢复书写轨迹的网络模型包括CNN-BiLSTM的编码器、CNN-BiLSTM的解码器、点坐标位置回归分支和点状态分类分支，

在此，本发明的用于恢复书写轨迹的网络模型网络结构如图1所示，包括基于CNN-BiLSTM的编码器，基于CNN-BiLSTM的解码器，以及点坐标位置回归分支和点状态分类分支；

所述方法包括：

步骤S1，由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息，包括：将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，以获得所述CNN编码器输出的对应的第一静态图像特征序列；将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器，以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息；

步骤S2，基于所述隐层的状态信息，由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征，包括：将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器，以获得所述CNN解码器输出的对应的第二静态图像特征序列；将所述第二静态图像特征序列和隐层的状态信息输入所述CNN-BiLSTM的解码器，以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征；

步骤S3，基于所述汉字的点序列的特征，由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标；基于所述汉字的点序列的特征，由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态，包括：将所述汉字的点序列的特征点输入所述点坐标位置回归分支，以得到所述点坐标位置回归分支输出的所述静态汉字图像的样本对应的预测轨迹坐标；将所述汉字的点序列的特征点输入所述点状态分类分支，以得到所述点状态分类分支输出的所述静态汉字图像的样本对应的预测轨迹点状态；

步骤S4，基于所述预测轨迹坐标计算点坐标位置回归损失，基于所述预测轨迹点状态计算点状态分类损失，包括：将所述静态汉字图像的样本对应的预测轨迹坐标及对应的真实轨迹坐标输入点坐标位置回归分支的损失函数，以计算得到对应的点坐标位置回归损失；将所述静态汉字图像的样本对应的预测轨迹点状态及对应的真实预测轨迹点状态输入点状态分类分支的损失函数，以计算得到对应的点状态分类损失；

步骤S5，基于所述点坐标位置回归损失和点状态分类损失对所述CNN- BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行上述步骤，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练，包括：将所述点坐标位置回归损失和点状态分类损失输入目标函数，以得到对应的联合损失，基于所述联合损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行步骤S1～步骤S5，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练。

在此，为了解决现有技术方案中无法恢复多笔画单字符及恢复点坐标不精确的问题，本发明提出基于卷积神经网络(Convolutional Neural Networks,CNN)-双向长短记忆网络(BiLSTM，Bidirectional Long Short-Term Memory Network)的编码器，用于从静态汉字图像的样本提取的静态图像特征序，对提取的静态图像特征序列进行编码得到隐层的状态信息；本发明还提出基于CNN-BiLSTM的解码器，用于从静态汉字图像的样本提取的静态图像特征序列和编码阶段得到的隐层的状态信息进行解码；另外，本发明通过点坐标位置回归分支和点状态分类分支联合学习的方法，对解码出的汉字的点序列的特征点分别进行点序列的轨迹坐标和轨迹点状态 (笔触状态)进行预测，并基于预测结果计算相应的点坐标位置回归损失和点状态分类损失，基于所述点坐标位置回归损失和点状态分类损失完成对所述用于恢复书写轨迹的网络模型的训练，能够实现包含多笔画的静态图像的轨迹恢复的任务。

本发明的训练完成的用于恢复书写轨迹的网络模型不仅可以恢复出包含多笔画中文汉字静态图像的点序列的坐标位置，还能恢复点序列中点的笔触状态，便于后续基于点序列的坐标位置和笔触状态准确识别中文汉字静态图像中的汉字。

本发明提出的基于序列到序列模型的静态汉字图像恢复书写轨迹的方法，编码器和解码器的输入均为静态汉字图像，不依赖于其他额外的辅助信息，直接从静态汉字图像出发，以点坐标位置回归和点状态分类为驱动，学习到静态图像中笔记的位置和时序信息，在保证位置和静态图像之间存在允许的较小偏移前提下，恢复出点序列的时序信息。

如图3和4所示，展示了静态汉字图像恢复书写轨迹的效果图。图3是输入到网络中的静态图像，图4是本专利技术提出基于序列到序列模型的静态汉字图像恢复书写轨迹的方法恢复出的点序列可视化结果，即根据预测的点位置和点状态连点成线，其中每种颜色代表笔画中的一个线段。

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，所述 CNN编码器的网络结构为：

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤 S1中，将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，以获得所述CNN编码器输出的对应的第一静态图像特征序列，包括：

步骤S111，将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，所述CNN编码器基于所述静态汉字图像的样本得到对应的第一图像特征向量；

步骤S112，所述CNN编码器将所述第一图像特征向量的倒数第一、二个通道进行合并，以输出对应的第一静态图像特征序列。

在此，本发明方案中，设计了用于图像序列特征提取的CNN编码器，该 CNN编码器特征提取网络由若干卷积(convolutional，conv)、池化 (pooling)和批归一化(BatchNormalization，BN)操作构成。假设CNN 编码器的输入是大小为64*64的静态图像，经过8次卷积，7次池化，得到第一图像特征向量conv_fea∈R^32*2*256encoder_conv∈R^32*2*256。接着，对第一图像特征向量encoder_conv∈R^32*2*256encoder_conv∈R^32*2*256的倒数第一、二个通道进行合并，以将图像特征向量的转化为第一静态图像特征序列encoder_seq∈ R^32*512。

通过CNN编码器，对于任意静态汉字图像，都可以得到固定大小的图像特征序列encoder_seq。

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤 S1，将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的 BiLSTM编码器，以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息，包括：

步骤S121，将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器；

步骤S122，所述BiLSTM编码器基于如下公式输出对应的隐层的状态信息s_t和s′_t：

s_t＝sigmoid(U·X_t+W·s_t-1) (1)

s′_t＝sigmoid(U′·X_t+W′·s′_t+1) (2)

在此，将其固定大小的第一静态图像特征序列encoder_seq作为BiLSTM编码器的输入，BiLSTM编码器的网络结构可如图2所示，隐层节点数为512。如图所示，BiLSTM编码器分为正向计算和反向计算。正向计算时，隐层的状态s_t和前面时刻的状态s_t-1有关；反向计算时，隐层的状态s_t和后续时刻的状态s_t+1相关：

s_t＝sigmoid(U·X_t+W·s_t-1) (1)

s′_t＝sigmoid(U′·X_t+W′·s′_t+1) (2)。

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，CNN 解码器的网络结构为：

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤 S2中，将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN 解码器，以获得所述CNN解码器输出的对应的第二静态图像特征序列，包括：

步骤S211，将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器，所述CNN解码器基于所述静态汉字图像的样本得到对应的第二图像特征向量；

步骤S212，所述CNN解码器将所述第二图像特征向量的倒数第一、二个通道进行合并，以输出对应的第二静态图像特征序列；

步骤S213，将第二静态图像特征序列复制L行，得到复制后的第二静态图像特征序列。

在此，CNN解码器的网络结构和CNN编码器的网络结构类似，不同之处在于卷积层数、卷积核个数以及池化方式。具体网络结构为：接着，对第二图像特征向量decoder_conv∈R^2*2*256的倒数第一、二个通道进行合并，以将第二图像特征向量的转化为第二静态图像特征序列decoder_seq∈R^1*1024。假设待恢复的书写轨迹中包含L个点，将decoder_seq复制L行，得到复制后的第二静态图像特征序列decoder_seq′∈R^L*1024。

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤 S2中，将所述第二静态图像特征序列和隐层的状态信息输入所述CNN- BiLSTM的解码器，以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征，包括：

步骤S221，将第二静态图像特征序列作为BiLSTM解码器的输入，同时将s_t和s′_t作为BiLSTM解码器的网络隐层的初始化参数；

步骤S222，所述BiLSTM解码器基于如下公式得到对应的汉字的点序列的特征o_t：

o_t＝tanh(V·s_t+V′·s′_t),t＝1,2,…,L，

其中，V和V′表示解码器中待学习的网络参数。

在此，将s_t和s′_t作为BiLSTM解码器的网络隐层的初始化参数，有利于解码器解码时，根据训练样本的数据分布，进行解码

在此，CNN解码器提取的出复制后的第二静态图像特征序列decoder_seq′∈ R^L*1024作为BiLSTM解码器的输入，同时将BiLSTM编码器输出的s_t和s′_t作为 BiLSTM解码器的网络隐层的初始化参数。

BiLSTM解码器的结构和BiLSTM编码器的结构类似，BiLSTM解码器通过将decoder_seq′作为输入，s_t和s′_t作为隐层状态的初始值，最终得到输出值：

o_t＝tanh(V·s_t+V′·s′_t),t＝1,2,…,L (3)。

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤S4中，所述点坐标位置回归分支的损失函数如下：

其中，N为样本静态汉字图像的样本的总数；

静态汉字图像的样本对应的预测轨迹坐标为：

静态汉字图像的样本对应的真实轨迹坐标为：

cor_i＝[x_i1,y_i1,…,x_iL,y_iL]。

在此，本发明将每个点序列看作是不同时刻的采样数据，那么，对于每个时刻t,t＝1,2,…,L，将得到的所述汉字的点序列的特征点作为两个全连接层的输入,

一个全连接层的神经元个数为2，作为点坐标位置回归分支，计作fc1；

另一个全连接层的神经元个数为3，作为点状态分类分支，计作fc2。

为了方便表示，本发明中定义经过全连接层fc1后得到的静态汉字图像的样本对应的预测轨迹坐标为：

假设的静态汉字图像的样本对应的真实轨迹坐标为：

cor_i＝[x_i1,y_i1,…,x_iL,y_iL] (5)

本发明用于点坐标位置回归分支的损失函数定义为：

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，步骤 S4中，所述点状态分类分支的损失函数如下：

其中，所述静态汉字图像的样本对应的预测轨迹点状态为：

静态汉字图像的样本对应的真实轨迹点状态为：

state_i＝[s_i1,…,s_iL]；

点状态

分为3类：

所述字符终点表示字符结束；

[w¹,w²,w³]＝[1,5,100]依次表示落笔、抬笔和字符终点的权重。

在此，经过全连接层fc2后输出的所述静态汉字图像的样本对应的预测轨迹点状态为：

其中，

中的三个元素只有一个元素的值为1，其他两个元素的值均为0。

假设静态汉字图像的样本对应的真实轨迹点状态为：

state_i＝[s_i1,…,s_iL] (8)

点状态

分为3类：

所述字符终点表示字符结束。

在一个字符中，字符终点的状态出现的最少，抬笔的状态其次，落笔的状态在一个字符中出现的最多。因此，本发明设计了带权重的点状态分类损失函数：

本发明的用于恢复书写轨迹的网络模型的训练方法一实施例中，所述目标函数如下：

L＝loss_reg+loss_cls。

在此，通过优化公式(11)所示的目标函数，可以通过梯度下降算法，寻找该目标函数的最优解，从而实现了点坐标位置回归分支和点状态分类分支的联合学习:

L＝loss_reg+loss_cls (11)。

当模型训练完毕，只需将待恢复的静态图像作为编码器和解码器的输入，就可以得到输入图像经过基于序列到序列模型预测出的点序列

和

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构) 可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于恢复书写轨迹的网络模型的训练方法，其特征在于，所述用于恢复书写轨迹的网络模型包括CNN-BiLSTM的编码器、CNN-BiLSTM的解码器、点坐标位置回归分支和点状态分类分支，该方法包括：

2.根据权利要求1所述的方法，其特征在于，由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息，包括：

将所述点坐标位置回归损失和点状态分类损失输入目标函数，以得到对应的联合损失，基于所述联合损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后，重新循环执行上述步骤，直至得到小于预设阈值的联合损失，以完成对所述用于恢复书写轨迹的网络模型的训练。

3.根据权利要求2所述的方法，其特征在于，所述CNN编码器的网络结构为：

conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4-conv6-BN2-conv7-pool5-conv8-BN3，

其中，conv表示卷积操作，pool表示池化操作，BN(Batch Normalization)表示批归一化操作，所述CNN编码器的网络结构中卷积操作均采用3*3大小的卷积核，conv1、conv2的卷积核个数分别为64和128，conv3～conv8的卷积核个数均为256；池化操作中，除了pool1采用2*2的池化策略，pool2～pool5均采用2*1的池化方式，并且，pool1-poo5的步长为2。

4.根据权利要求3所述的方法，其特征在于，将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器，以获得所述CNN编码器输出的对应的第一静态图像特征序列，包括：

将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器，以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息，包括：

将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器；

s_t＝sigmoid(U·X_t+W·s_t-1) (1)

s′_t＝sigmoid(U′·X_t+W′·s′_t+1) (2)

5.根据权利要求4所述的方法，其特征在于，所述CNN解码器的网络结构为：

conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4-conv6-BN2-conv7-pool5，其中，conv表示卷积操作，pool表示池化操作，BN表示批归一化操作，所述CNN解码器的网络中卷积操作均采用3*3大小的卷积核，con1的卷积核个数为16，conv2和conv3的卷积核个数为32，conv4和conv5的卷积核个数为64，conv6的卷积核个数为128，conv7的卷积核个数为256；池化操作中，pool1～pool5均采用步长为2、2*2的池化方式。

6.根据权利要求5所述的方法，其特征在于，将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器，以获得所述CNN解码器输出的对应的第二静态图像特征序列，包括：

7.根据权利要求6所述的方法，其特征在于，将所述第二静态图像特征序列和隐层的状态信息输入所述CNN-BiLSTM的解码器，以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征，包括：

将第二静态图像特征序列作为BiLSTM解码器的输入，同时将s_t和s′_t作为BiLSTM解码器的网络隐层的初始化参数；

o_t＝tanh(V·s_t+V′·s′_t),t＝1,2,…,L，

其中，V和V′表示解码器中待学习的网络参数。

8.根据权利要求7所述的方法，其特征在于，所述点坐标位置回归分支的损失函数如下：