CN114757969B

CN114757969B - 基于全局追踪解码的文字图像书写轨迹恢复方法

Info

Publication number: CN114757969B
Application number: CN202210363417.9A
Authority: CN
Inventors: 黄双萍; 陈洲楠; 杨代辉; 梁景麟; 彭政华
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2023-04-07
Anticipated expiration: 2042-04-08
Also published as: CN114757969A

Abstract

本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法，包括以下步骤：将文字图像调整为预设尺寸并进行二值化处理；构建卷积循环神经编码网络；构建全局追踪解码网络，所述的全局追踪解码网络的输入为编码特征Z，输出为预测文字书写轨迹序列；联合训练卷积循环神经编码网络和全局追踪解码网络，获得文字图像书写轨迹恢复网络模型；利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中，设置全局追踪解码机制，在每个解码时刻，加入编码特征作为RNN解码器的输入，有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪，缓解轨迹序列偏移问题，有效提升文字图像书写轨迹的恢复性能。

Description

基于全局追踪解码的文字图像书写轨迹恢复方法

技术领域

本发明涉及文字图像模式识别领域，尤其涉及基于全局追踪解码的文字图像书写轨迹恢复方法。

背景技术

文字数据可以依据模态类型大致划分为图像模态数据和书写轨迹模态数据两大类，文字生成技术主要围绕这两种模态形式展开。文字图像往往是由扫描仪或是摄像头等图像采集设备得到，以点阵图像的形式保存，这种数据能直观地展示文字的形状，常用于文字的显示和阅读。文字书写轨迹由可以记录轨迹的数字笔，手写板或是触控屏等交互设备采集得到，通常以笔尖坐标点轨迹序列的方式存储，可能还会记录书写过程中的笔尖压力和速度等辅助信息。文字图像的书写轨迹恢复，是一种跨模态的文字生成技术，其目的是从不包含轨迹信息的文字图像中恢复得到其书写运动轨迹信息，常作为文字识别和数据增广的重要技术手段，也在司法笔迹鉴定、写字机器人、字体生成和文字特效生成等领域有巨大应用潜力。

书写轨迹恢复算法的挑战首先来源于字形结构的复杂性。以汉字为例，国标GB18030收纳的汉字数目多达7万余个，其中不乏结构复杂或是容易类间混淆的字形，恢复模型稍有错误就可能会导致文字模糊，类别错乱，或是生成无意义的字形。其次恢复算法不仅要克服字形结构的复杂性，同时还要能学习笔尖在空间上的位置分布以及不同笔迹点之间的先后顺序(汉字的笔顺)。所以一般而言，文字书写轨迹生成任务比普通的文字图像生成更加困难。此外，由于书写轨迹恢复任务跨越了文字的图像和轨迹序列模态，要综合考虑这两种模态的特性以及他们之间复杂的映射关系，这使得轨迹恢复算法的设计存在巨大挑战。

近期，有学者尝试用先进的深度学习模型替代手工设计的系统，来实现端到端的轨迹恢复算法，但是现有的编解码网络在解码的过程中，RNN解码器只在初始预测时刻使用编码特征。但由于RNN的遗忘现象，会导致轨迹序列偏移问题：后续时刻预测的轨迹点出现较大的位置偏移，这种现象在轨迹点数很多的中文字体、日文字体、英文长文本的轨迹恢复上会更加严重。

发明内容

有鉴于此，本发明的目的在于提供基于全局追踪解码的文字图像书写轨迹恢复方法，以解决现有技术在进行文字图像书写轨迹恢复时所存在的解码时轨迹序列偏移、书写轨迹序列恢复效果差的问题。

本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法，包括以下步骤：

步骤1，将文字图像调整为预设尺寸并进行二值化处理；

步骤2，构建卷积循环神经编码网络，所述的卷积循环神经编码网络的输入为文字图像，输出为编码特征Z；

步骤3，构建全局追踪解码网络，所述的全局追踪解码网络的输入为编码特征Z，输出为预测文字书写轨迹序列；

步骤4，联合训练卷积循环神经编码网络和全局追踪解码网络，获得文字图像书写轨迹恢复网络模型；

步骤5，利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。

具体地，所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器，CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样，然后配合卷积操作，对输入文字图像进行编码，得到文字在水平方向上的一维方向特征C，一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列，BiLSTM编码器对时序的特征序列进行编码，得到编码特征Z。

具体地，所述的全局追踪解码网络为LSTM解码器，LSTM解码器以编码特征Z为输入，依次预测轨迹点，具体地，LSTM解码器根据编码特征Z、t-1时刻的预测值p_t-1和隐藏层向量h_t-1，预测t时刻的轨迹点信息p_t，

其中，x_t和y_t表示t时刻的位置坐标，

表示t时刻笔尖的状态，三种状态值对应的意义为：“笔尖正与纸面接触”，“当前笔画书写完毕，临时抬笔”和“所有笔画书写完毕”，最终，P＝{p₁,p₂,…,p_N}为预测的文字书写轨迹序列。

具体地，所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中，编解码网络损失函数为：

L＝λ₁L_l2+λ₂L_ce+λ₃L_dtw

λ₁，λ₂，λ₃为平衡各个损失权重的预设常数，L_l2为L2损失，计算公式为：

其中，x_i和y_i分别为所述解码网络对位置的X坐标和Y坐标的预测值，

和

分别为位置的X坐标和Y坐标的标签值，N为轨迹点的数目；

L_ce为交叉熵损失，计算公式为：

其中，

为所述解码网络对笔尖状态

的概率预测值，

为笔尖状态的标签值；

L_dtw为动态时间规整损失，使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径，计算在最优对齐路径下的序列距离作为预测序列的全局损失：

给定预测轨迹序列P＝{p₁,p₂,…,p_N}和标签轨迹序列

序列长度分别为N和M，设置欧式距离函数

用于表征轨迹点p_i和

的距离，定义对齐路径φ＝{φ(1),…,φ(T)}，其中，T≤M+N，T为对齐路径的长度，对齐路径的每一项定义了

和

的对应关系：

φ_p(k)∈{1,…,N}，

其中，

表示P的第φ_p(k)个轨迹点，

表示

的第

个轨迹点，使用动态时间规整DTW算法寻找使得序列距离最小的对齐路径，作为最优对齐路径，其对应的序列距离作为预测序列的全局损失：

优选地，使用双流编码网络中的BiLSTM编码器的隐藏层状态，作为LSTM解码器的隐藏层初始状态h₀。

优选地，λ₁取值0.5，λ₂取值1.0，λ₃取值1/6000。

更进一步地，设置初始输入轨迹点为p₀＝{0,0,1,0,0}。

本发明方法相对于现有技术而言，在解码的过程中，设置全局追踪解码机制：在每个解码时刻，加入编码特征作为RNN解码器的输入。有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪，缓解轨迹序列偏移问题，最终能有效提升文字图像书写轨迹的恢复性能。

附图说明

图1示出了本发明实施方法的流程示意图；

图2示出了本发明实施例中双流编码网络的结构示意图；

图3示出了本发明实施例中解码网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

CNN：Convolutional Neural Network,卷积神经网络；

RNN：Recurrent Neural Network，循环神经网络；

CRNN：Convolutional Recurrent Neural Network，卷积循环神经网络；

BiLSTM：Bi-directional Long Short-Term Memory，双向长短时记忆模型；

DTW：Dynamic Time Warping，动态时间规整。

图1示出了本发明实施例的流程示意图。基于全局追踪解码的文字图像书写轨迹恢复方法，包括以下步骤：

步骤1，将文字图像调整为预设尺寸并进行二值化处理；

本实施例的具体操作步骤如下：

(1)对输入文字图像进行预处理操作:保持宽高比的同时将尺寸调整为64X64；进行二值化处理。

(2)构建编码网络。

如图2所示，构建卷积循环神经网络(Convolutional Recurrent NeuralNetwork，CRNN)CRNN。它包含CNN编码器和BiLSTM编码器。CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样，配合卷积操作，对输入文字图像进行编码，得到文字在水平方向上的一维方向特征C。一维方向特征C在方向维度上拆分后可得到以方向为时序的特征序列，BiLSTM编码器对该时序特征序列进行编码，得到编码特征Z。

(3)构建全局追踪解码网络，进行特征解码，输出预测文字书写轨迹序列。

1)构建LSTM解码器，LSTM解码器以编码特征Z为输入，依次预测轨迹点。如图3所示，LSTM解码器根据编码特征Z，t-1时刻的预测值p_t-1和隐藏层向量h_t-1，预测t时刻的轨迹点信息p_t。最终，P＝{p₁,p₂,…,p_N}为预测的文字书写轨迹序列。使用编码网络中的BiLSTM编码器的隐藏层状态，作为LSTM解码器的隐藏层初始状态h₀。

2)对于t时刻的轨迹点信息，设置

其中，x_t和y_t表示该时刻的位置坐标，

表示该时刻笔尖的状态，构成热码{1,0,0}，{0,1,0}和{0,0,1}，分别表示书写过程中的3种状态：“笔尖正与纸面接触”，“当前笔画书写完毕，临时抬笔”和“所有笔画书写完毕”。特别的，设置初始输入轨迹点为p₀＝{0,0,1,0,0}。

(4)构建编解码网络损失函数，端到端(end-to-end)地训练编码网络和全局追踪解码网络构成的模型。设置的编解码网络损失函数包括L2损失，交叉熵损失和动态时间规整损失。

L2损失：

其中，x_i和y_i为网络的预测值，

和

为标签值，N为轨迹点的数目。

交叉熵损失(CrossEntropy Loss)：

其中，

为网络的预测值，

为标签值。

动态时间规整损失(Dynamic Time Warping Loss)：使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径，计算在最优对齐路径下的序列距离作为预测序列的全局损失，从而实现轨迹序列的全局优化。

给定预测轨迹序列P＝{p₁,p₂,…,p_N}和标签轨迹序列

序列长度分别为N和M，设置欧式距离函数

用于表征轨迹点p_i和

的距离，定义对齐路径φ＝{φ(1),…,φ(T)}(其中T≤M+N为对齐路径的长度)，对齐路径的每一项定义了

和

的对应关系：

φ_p(k)∈{1,…,N},

使用动态时间规整(DTW)算法寻找使得序列距离最小的对齐路径，作为最优对齐路径，其对应的序列距离作为预测序列的全局损失：

编解码网络损失函数：

L＝λ₁L_l2+λ₂L_ce+λ₃L_dtw

λ₁,λ₂,λ₃为平衡各个损失权重的常数。在实施中，我们分别设置λ₁,λ₂,λ₃为0.5,1.0和1/6000。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，包括以下步骤：

步骤1，将文字图像调整为预设尺寸并进行二值化处理；

步骤5，利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复；

所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中，编解码网络损失函数为：

L＝λ₁L_l2+λ₂L_ce+λ₃L_dtw

和

分别为位置的X坐标和Y坐标的标签值，N为轨迹点的数目；

L_ce为交叉熵损失，计算公式为：

其中，

为所述解码网络对笔尖状态

的概率预测值，

为笔尖状态的标签值；

给定预测轨迹序列P＝{p₁,p₂,…,p_N}和标签轨迹序列

序列长度分别为N和M，设置欧式距离函数

用于表征轨迹点p_i和

和

的对应关系：

φ_p(k)∈{1,…,N}，

其中，

表示P的第φ_p(k)个轨迹点，

表示

的第

个轨迹点，使用动态时间规整DTW算法寻找使得序列距离最小的对齐路径，作为最优对齐路径，对应的序列距离作为预测序列的全局损失：

2.根据权利要求1所述的基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器，CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样，然后配合卷积操作，对输入文字图像进行编码，得到文字在水平方向上的一维方向特征C，一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列，BiLSTM编码器对时序的特征序列进行编码，得到编码特征Z。

3.根据权利要求2所述的基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，所述的全局追踪解码网络为LSTM解码器，LSTM解码器以编码特征Z为输入，依次预测轨迹点，具体地，LSTM解码器根据编码特征Z、t-1时刻的预测值p_t-1和隐藏层向量h_t-1，预测t时刻的轨迹点信息p_t，

其中，x_t和y_t表示t时刻的位置坐标，

4.根据权利要求3所述的基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，使用双流编码网络中的BiLSTM编码器的隐藏层状态，作为LSTM解码器的隐藏层初始状态h₀。

5.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，λ₁取值0.5，λ₂取值1.0，λ₃取值1/6000。

6.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法，其特征在于，设置初始输入轨迹点为p₀＝{0,0,1,0,0}。