CN114757969B - 基于全局追踪解码的文字图像书写轨迹恢复方法 - Google Patents
基于全局追踪解码的文字图像书写轨迹恢复方法 Download PDFInfo
- Publication number
- CN114757969B CN114757969B CN202210363417.9A CN202210363417A CN114757969B CN 114757969 B CN114757969 B CN 114757969B CN 202210363417 A CN202210363417 A CN 202210363417A CN 114757969 B CN114757969 B CN 114757969B
- Authority
- CN
- China
- Prior art keywords
- network
- track
- sequence
- character
- global tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
Description
技术领域
本发明涉及文字图像模式识别领域,尤其涉及基于全局追踪解码的文字图像书写轨迹恢复方法。
背景技术
文字数据可以依据模态类型大致划分为图像模态数据和书写轨迹模态数据两大类,文字生成技术主要围绕这两种模态形式展开。文字图像往往是由扫描仪或是摄像头等图像采集设备得到,以点阵图像的形式保存,这种数据能直观地展示文字的形状,常用于文字的显示和阅读。文字书写轨迹由可以记录轨迹的数字笔,手写板或是触控屏等交互设备采集得到,通常以笔尖坐标点轨迹序列的方式存储,可能还会记录书写过程中的笔尖压力和速度等辅助信息。文字图像的书写轨迹恢复,是一种跨模态的文字生成技术,其目的是从不包含轨迹信息的文字图像中恢复得到其书写运动轨迹信息,常作为文字识别和数据增广的重要技术手段,也在司法笔迹鉴定、写字机器人、字体生成和文字特效生成等领域有巨大应用潜力。
书写轨迹恢复算法的挑战首先来源于字形结构的复杂性。以汉字为例,国标GB18030收纳的汉字数目多达7万余个,其中不乏结构复杂或是容易类间混淆的字形,恢复模型稍有错误就可能会导致文字模糊,类别错乱,或是生成无意义的字形。其次恢复算法不仅要克服字形结构的复杂性,同时还要能学习笔尖在空间上的位置分布以及不同笔迹点之间的先后顺序(汉字的笔顺)。所以一般而言,文字书写轨迹生成任务比普通的文字图像生成更加困难。此外,由于书写轨迹恢复任务跨越了文字的图像和轨迹序列模态,要综合考虑这两种模态的特性以及他们之间复杂的映射关系,这使得轨迹恢复算法的设计存在巨大挑战。
近期,有学者尝试用先进的深度学习模型替代手工设计的系统,来实现端到端的轨迹恢复算法,但是现有的编解码网络在解码的过程中,RNN解码器只在初始预测时刻使用编码特征。但由于RNN的遗忘现象,会导致轨迹序列偏移问题:后续时刻预测的轨迹点出现较大的位置偏移,这种现象在轨迹点数很多的中文字体、日文字体、英文长文本的轨迹恢复上会更加严重。
发明内容
有鉴于此,本发明的目的在于提供基于全局追踪解码的文字图像书写轨迹恢复方法,以解决现有技术在进行文字图像书写轨迹恢复时所存在的解码时轨迹序列偏移、书写轨迹序列恢复效果差的问题。
本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。
具体地,所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器,CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,然后配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C,一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列,BiLSTM编码器对时序的特征序列进行编码,得到编码特征Z。
具体地,所述的全局追踪解码网络为LSTM解码器,LSTM解码器以编码特征Z为输入,依次预测轨迹点,具体地,LSTM解码器根据编码特征Z、t-1时刻的预测值pt-1和隐藏层向量ht-1,预测t时刻的轨迹点信息pt, 其中,xt和yt表示t时刻的位置坐标,表示t时刻笔尖的状态,三种状态值对应的意义为:“笔尖正与纸面接触”,“当前笔画书写完毕,临时抬笔”和“所有笔画书写完毕”,最终,P={p1,p2,…,pN}为预测的文字书写轨迹序列。
具体地,所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中,编解码网络损失函数为:
L=λ1Ll2+λ2Lce+λ3Ldtw
λ1,λ2,λ3为平衡各个损失权重的预设常数,Ll2为L2损失,计算公式为:
Lce为交叉熵损失,计算公式为:
Ldtw为动态时间规整损失,使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失:
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列序列长度分别为N和M,设置欧式距离函数用于表征轨迹点pi和的距离,定义对齐路径φ={φ(1),…,φ(T)},其中,T≤M+N,T为对齐路径的长度,对齐路径的每一项定义了和的对应关系:
φp(k)∈{1,…,N},
优选地,使用双流编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0。
优选地,λ1取值0.5,λ2取值1.0,λ3取值1/6000。
更进一步地,设置初始输入轨迹点为p0={0,0,1,0,0}。
本发明方法相对于现有技术而言,在解码的过程中,设置全局追踪解码机制:在每个解码时刻,加入编码特征作为RNN解码器的输入。有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,最终能有效提升文字图像书写轨迹的恢复性能。
附图说明
图1示出了本发明实施方法的流程示意图;
图2示出了本发明实施例中双流编码网络的结构示意图;
图3示出了本发明实施例中解码网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
CNN:Convolutional Neural Network,卷积神经网络;
RNN:Recurrent Neural Network,循环神经网络;
CRNN:Convolutional Recurrent Neural Network,卷积循环神经网络;
BiLSTM:Bi-directional Long Short-Term Memory,双向长短时记忆模型;
DTW:Dynamic Time Warping,动态时间规整。
图1示出了本发明实施例的流程示意图。基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。
本实施例的具体操作步骤如下:
(1)对输入文字图像进行预处理操作:保持宽高比的同时将尺寸调整为64X64;进行二值化处理。
(2)构建编码网络。
如图2所示,构建卷积循环神经网络(Convolutional Recurrent NeuralNetwork,CRNN)CRNN。它包含CNN编码器和BiLSTM编码器。CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C。一维方向特征C在方向维度上拆分后可得到以方向为时序的特征序列,BiLSTM编码器对该时序特征序列进行编码,得到编码特征Z。
(3)构建全局追踪解码网络,进行特征解码,输出预测文字书写轨迹序列。
1)构建LSTM解码器,LSTM解码器以编码特征Z为输入,依次预测轨迹点。如图3所示,LSTM解码器根据编码特征Z,t-1时刻的预测值pt-1和隐藏层向量ht-1,预测t时刻的轨迹点信息pt。最终,P={p1,p2,…,pN}为预测的文字书写轨迹序列。使用编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0。
2)对于t时刻的轨迹点信息,设置其中,xt和yt表示该时刻的位置坐标,表示该时刻笔尖的状态,构成热码{1,0,0},{0,1,0}和{0,0,1},分别表示书写过程中的3种状态:“笔尖正与纸面接触”,“当前笔画书写完毕,临时抬笔”和“所有笔画书写完毕”。特别的,设置初始输入轨迹点为p0={0,0,1,0,0}。
(4)构建编解码网络损失函数,端到端(end-to-end)地训练编码网络和全局追踪解码网络构成的模型。设置的编解码网络损失函数包括L2损失,交叉熵损失和动态时间规整损失。
L2损失:
交叉熵损失(CrossEntropy Loss):
动态时间规整损失(Dynamic Time Warping Loss):使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失,从而实现轨迹序列的全局优化。
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列序列长度分别为N和M,设置欧式距离函数用于表征轨迹点pi和的距离,定义对齐路径φ={φ(1),…,φ(T)}(其中T≤M+N为对齐路径的长度),对齐路径的每一项定义了和的对应关系:
φp(k)∈{1,…,N},
使用动态时间规整(DTW)算法寻找使得序列距离最小的对齐路径,作为最优对齐路径,其对应的序列距离作为预测序列的全局损失:
编解码网络损失函数:
L=λ1Ll2+λ2Lce+λ3Ldtw
λ1,λ2,λ3为平衡各个损失权重的常数。在实施中,我们分别设置λ1,λ2,λ3为0.5,1.0和1/6000。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复;
所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中,编解码网络损失函数为:
L=λ1Ll2+λ2Lce+λ3Ldtw
λ1,λ2,λ3为平衡各个损失权重的预设常数,Ll2为L2损失,计算公式为:
Lce为交叉熵损失,计算公式为:
Ldtw为动态时间规整损失,使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失:
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列序列长度分别为N和M,设置欧式距离函数用于表征轨迹点pi和的距离,定义对齐路径φ={φ(1),…,φ(T)},其中,T≤M+N,T为对齐路径的长度,对齐路径的每一项定义了和的对应关系:
φp(k)∈{1,…,N},
2.根据权利要求1所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器,CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,然后配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C,一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列,BiLSTM编码器对时序的特征序列进行编码,得到编码特征Z。
4.根据权利要求3所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,使用双流编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0。
5.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,λ1取值0.5,λ2取值1.0,λ3取值1/6000。
6.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,设置初始输入轨迹点为p0={0,0,1,0,0}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363417.9A CN114757969B (zh) | 2022-04-08 | 2022-04-08 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363417.9A CN114757969B (zh) | 2022-04-08 | 2022-04-08 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757969A CN114757969A (zh) | 2022-07-15 |
CN114757969B true CN114757969B (zh) | 2023-04-07 |
Family
ID=82329200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210363417.9A Active CN114757969B (zh) | 2022-04-08 | 2022-04-08 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757969B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977950A (zh) * | 2019-03-22 | 2019-07-05 | 上海电力学院 | 一种基于混合cnn-lstm网络的文字识别方法 |
US11158055B2 (en) * | 2019-07-26 | 2021-10-26 | Adobe Inc. | Utilizing a neural network having a two-stream encoder architecture to generate composite digital images |
CN110717345B (zh) * | 2019-10-15 | 2020-07-07 | 内蒙古工业大学 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
CN110992441A (zh) * | 2019-12-03 | 2020-04-10 | 上海眼控科技股份有限公司 | 书写轨迹处理方法及装置 |
CN111046771A (zh) * | 2019-12-05 | 2020-04-21 | 上海眼控科技股份有限公司 | 用于恢复书写轨迹的网络模型的训练方法 |
CN113127637A (zh) * | 2019-12-31 | 2021-07-16 | 中兴通讯股份有限公司 | 一种字符的还原方法及装置、存储介质、电子装置 |
-
2022
- 2022-04-08 CN CN202210363417.9A patent/CN114757969B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114757969A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ptucha et al. | Intelligent character recognition using fully convolutional neural networks | |
Zhang et al. | Sequence-to-sequence domain adaptation network for robust text image recognition | |
CN109614944B (zh) | 一种数学公式识别方法、装置、设备及可读存储介质 | |
JP4142463B2 (ja) | パターン認識を容易にするシステムおよび方法 | |
EP1971957B1 (en) | Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text | |
CN1030985A (zh) | 表意文字的处理方法及装置 | |
CN111553350A (zh) | 一种基于深度学习的注意力机制文本识别方法 | |
CN111046771A (zh) | 用于恢复书写轨迹的网络模型的训练方法 | |
Gan et al. | In-air handwritten Chinese text recognition with temporal convolutional recurrent network | |
US11837001B2 (en) | Stroke attribute matrices | |
CN114463760B (zh) | 一种基于双流编码的文字图像书写轨迹恢复方法 | |
He et al. | Open set Chinese character recognition using multi-typed attributes | |
CN114973229A (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
Archibald et al. | Trace: a differentiable approach to line-level stroke recovery for offline handwritten text | |
CN114757969B (zh) | 基于全局追踪解码的文字图像书写轨迹恢复方法 | |
CN111738167A (zh) | 一种无约束手写文本图像的识别方法 | |
Rabhi et al. | Multi-lingual handwriting recovery framework based on convolutional denoising autoencoder with attention model | |
Abirami et al. | Handwritten mathematical recognition tool | |
Choudhury et al. | Trajectory-based recognition of in-air handwritten Assamese words using a hybrid classifier network | |
Wu et al. | In-Air Handwritten Chinese Text Recognition with Attention Convolutional Recurrent Network | |
Xu et al. | On-line sample generation for in-air written chinese character recognition based on leap motion controller | |
CN113435398B (zh) | 基于掩码预训练模型的签名特征识别方法、系统、设备及存储介质 | |
Bezine et al. | Handwriting perceptual classification and synthesis using discriminate HMMs and progressive iterative approximation | |
Assaleh et al. | Recognition of handwritten Arabic alphabet via hand motion tracking | |
CN113673635B (zh) | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |