CN114757969B - 基于全局追踪解码的文字图像书写轨迹恢复方法 - Google Patents

基于全局追踪解码的文字图像书写轨迹恢复方法 Download PDF

Info

Publication number
CN114757969B
CN114757969B CN202210363417.9A CN202210363417A CN114757969B CN 114757969 B CN114757969 B CN 114757969B CN 202210363417 A CN202210363417 A CN 202210363417A CN 114757969 B CN114757969 B CN 114757969B
Authority
CN
China
Prior art keywords
network
track
sequence
character
global tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210363417.9A
Other languages
English (en)
Other versions
CN114757969A (zh
Inventor
黄双萍
陈洲楠
杨代辉
梁景麟
彭政华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
South China University of Technology SCUT
Original Assignee
Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou, South China University of Technology SCUT filed Critical Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
Priority to CN202210363417.9A priority Critical patent/CN114757969B/zh
Publication of CN114757969A publication Critical patent/CN114757969A/zh
Application granted granted Critical
Publication of CN114757969B publication Critical patent/CN114757969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。

Description

基于全局追踪解码的文字图像书写轨迹恢复方法
技术领域
本发明涉及文字图像模式识别领域,尤其涉及基于全局追踪解码的文字图像书写轨迹恢复方法。
背景技术
文字数据可以依据模态类型大致划分为图像模态数据和书写轨迹模态数据两大类,文字生成技术主要围绕这两种模态形式展开。文字图像往往是由扫描仪或是摄像头等图像采集设备得到,以点阵图像的形式保存,这种数据能直观地展示文字的形状,常用于文字的显示和阅读。文字书写轨迹由可以记录轨迹的数字笔,手写板或是触控屏等交互设备采集得到,通常以笔尖坐标点轨迹序列的方式存储,可能还会记录书写过程中的笔尖压力和速度等辅助信息。文字图像的书写轨迹恢复,是一种跨模态的文字生成技术,其目的是从不包含轨迹信息的文字图像中恢复得到其书写运动轨迹信息,常作为文字识别和数据增广的重要技术手段,也在司法笔迹鉴定、写字机器人、字体生成和文字特效生成等领域有巨大应用潜力。
书写轨迹恢复算法的挑战首先来源于字形结构的复杂性。以汉字为例,国标GB18030收纳的汉字数目多达7万余个,其中不乏结构复杂或是容易类间混淆的字形,恢复模型稍有错误就可能会导致文字模糊,类别错乱,或是生成无意义的字形。其次恢复算法不仅要克服字形结构的复杂性,同时还要能学习笔尖在空间上的位置分布以及不同笔迹点之间的先后顺序(汉字的笔顺)。所以一般而言,文字书写轨迹生成任务比普通的文字图像生成更加困难。此外,由于书写轨迹恢复任务跨越了文字的图像和轨迹序列模态,要综合考虑这两种模态的特性以及他们之间复杂的映射关系,这使得轨迹恢复算法的设计存在巨大挑战。
近期,有学者尝试用先进的深度学习模型替代手工设计的系统,来实现端到端的轨迹恢复算法,但是现有的编解码网络在解码的过程中,RNN解码器只在初始预测时刻使用编码特征。但由于RNN的遗忘现象,会导致轨迹序列偏移问题:后续时刻预测的轨迹点出现较大的位置偏移,这种现象在轨迹点数很多的中文字体、日文字体、英文长文本的轨迹恢复上会更加严重。
发明内容
有鉴于此,本发明的目的在于提供基于全局追踪解码的文字图像书写轨迹恢复方法,以解决现有技术在进行文字图像书写轨迹恢复时所存在的解码时轨迹序列偏移、书写轨迹序列恢复效果差的问题。
本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。
具体地,所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器,CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,然后配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C,一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列,BiLSTM编码器对时序的特征序列进行编码,得到编码特征Z。
具体地,所述的全局追踪解码网络为LSTM解码器,LSTM解码器以编码特征Z为输入,依次预测轨迹点,具体地,LSTM解码器根据编码特征Z、t-1时刻的预测值pt-1和隐藏层向量ht-1,预测t时刻的轨迹点信息pt
Figure BDA0003586073260000031
Figure BDA0003586073260000032
其中,xt和yt表示t时刻的位置坐标,
Figure BDA0003586073260000033
表示t时刻笔尖的状态,三种状态值对应的意义为:“笔尖正与纸面接触”,“当前笔画书写完毕,临时抬笔”和“所有笔画书写完毕”,最终,P={p1,p2,…,pN}为预测的文字书写轨迹序列。
具体地,所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中,编解码网络损失函数为:
L=λ1Ll22Lce3Ldtw
λ1,λ2,λ3为平衡各个损失权重的预设常数,Ll2为L2损失,计算公式为:
Figure BDA0003586073260000034
其中,xi和yi分别为所述解码网络对位置的X坐标和Y坐标的预测值,
Figure BDA0003586073260000035
Figure BDA0003586073260000036
分别为位置的X坐标和Y坐标的标签值,N为轨迹点的数目;
Lce为交叉熵损失,计算公式为:
Figure BDA0003586073260000037
其中,
Figure BDA0003586073260000038
为所述解码网络对笔尖状态
Figure BDA0003586073260000039
的概率预测值,
Figure BDA00035860732600000310
为笔尖状态的标签值;
Ldtw为动态时间规整损失,使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失:
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列
Figure BDA0003586073260000041
序列长度分别为N和M,设置欧式距离函数
Figure BDA0003586073260000042
用于表征轨迹点pi
Figure BDA0003586073260000043
的距离,定义对齐路径φ={φ(1),…,φ(T)},其中,T≤M+N,T为对齐路径的长度,对齐路径的每一项定义了
Figure BDA0003586073260000044
Figure BDA0003586073260000045
的对应关系:
Figure BDA0003586073260000046
φp(k)∈{1,…,N},
Figure BDA0003586073260000047
其中,
Figure BDA0003586073260000048
表示P的第φp(k)个轨迹点,
Figure BDA0003586073260000049
表示
Figure BDA00035860732600000410
的第
Figure BDA00035860732600000411
个轨迹点,使用动态时间规整DTW算法寻找使得序列距离最小的对齐路径,作为最优对齐路径,其对应的序列距离作为预测序列的全局损失:
Figure BDA00035860732600000412
优选地,使用双流编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0
优选地,λ1取值0.5,λ2取值1.0,λ3取值1/6000。
更进一步地,设置初始输入轨迹点为p0={0,0,1,0,0}。
本发明方法相对于现有技术而言,在解码的过程中,设置全局追踪解码机制:在每个解码时刻,加入编码特征作为RNN解码器的输入。有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,最终能有效提升文字图像书写轨迹的恢复性能。
附图说明
图1示出了本发明实施方法的流程示意图;
图2示出了本发明实施例中双流编码网络的结构示意图;
图3示出了本发明实施例中解码网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
CNN:Convolutional Neural Network,卷积神经网络;
RNN:Recurrent Neural Network,循环神经网络;
CRNN:Convolutional Recurrent Neural Network,卷积循环神经网络;
BiLSTM:Bi-directional Long Short-Term Memory,双向长短时记忆模型;
DTW:Dynamic Time Warping,动态时间规整。
图1示出了本发明实施例的流程示意图。基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。
本实施例的具体操作步骤如下:
(1)对输入文字图像进行预处理操作:保持宽高比的同时将尺寸调整为64X64;进行二值化处理。
(2)构建编码网络。
如图2所示,构建卷积循环神经网络(Convolutional Recurrent NeuralNetwork,CRNN)CRNN。它包含CNN编码器和BiLSTM编码器。CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C。一维方向特征C在方向维度上拆分后可得到以方向为时序的特征序列,BiLSTM编码器对该时序特征序列进行编码,得到编码特征Z。
(3)构建全局追踪解码网络,进行特征解码,输出预测文字书写轨迹序列。
1)构建LSTM解码器,LSTM解码器以编码特征Z为输入,依次预测轨迹点。如图3所示,LSTM解码器根据编码特征Z,t-1时刻的预测值pt-1和隐藏层向量ht-1,预测t时刻的轨迹点信息pt。最终,P={p1,p2,…,pN}为预测的文字书写轨迹序列。使用编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0
2)对于t时刻的轨迹点信息,设置
Figure BDA0003586073260000061
其中,xt和yt表示该时刻的位置坐标,
Figure BDA0003586073260000062
表示该时刻笔尖的状态,构成热码{1,0,0},{0,1,0}和{0,0,1},分别表示书写过程中的3种状态:“笔尖正与纸面接触”,“当前笔画书写完毕,临时抬笔”和“所有笔画书写完毕”。特别的,设置初始输入轨迹点为p0={0,0,1,0,0}。
(4)构建编解码网络损失函数,端到端(end-to-end)地训练编码网络和全局追踪解码网络构成的模型。设置的编解码网络损失函数包括L2损失,交叉熵损失和动态时间规整损失。
L2损失:
Figure BDA0003586073260000071
其中,xi和yi为网络的预测值,
Figure BDA0003586073260000072
Figure BDA0003586073260000073
为标签值,N为轨迹点的数目。
交叉熵损失(CrossEntropy Loss):
Figure BDA0003586073260000074
其中,
Figure BDA0003586073260000075
为网络的预测值,
Figure BDA0003586073260000076
为标签值。
动态时间规整损失(Dynamic Time Warping Loss):使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失,从而实现轨迹序列的全局优化。
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列
Figure BDA0003586073260000077
序列长度分别为N和M,设置欧式距离函数
Figure BDA0003586073260000078
用于表征轨迹点pi
Figure BDA0003586073260000079
的距离,定义对齐路径φ={φ(1),…,φ(T)}(其中T≤M+N为对齐路径的长度),对齐路径的每一项定义了
Figure BDA00035860732600000710
Figure BDA00035860732600000711
的对应关系:
Figure BDA00035860732600000712
φp(k)∈{1,…,N},
Figure BDA00035860732600000713
使用动态时间规整(DTW)算法寻找使得序列距离最小的对齐路径,作为最优对齐路径,其对应的序列距离作为预测序列的全局损失:
Figure BDA0003586073260000081
编解码网络损失函数:
L=λ1Ll22Lce3Ldtw
λ123为平衡各个损失权重的常数。在实施中,我们分别设置λ123为0.5,1.0和1/6000。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,包括以下步骤:
步骤1,将文字图像调整为预设尺寸并进行二值化处理;
步骤2,构建卷积循环神经编码网络,所述的卷积循环神经编码网络的输入为文字图像,输出为编码特征Z;
步骤3,构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;
步骤4,联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;
步骤5,利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复;
所述的联合训练卷积循环神经编码网络和全局追踪解码网络的过程中,编解码网络损失函数为:
L=λ1Ll22Lce3Ldtw
λ1,λ2,λ3为平衡各个损失权重的预设常数,Ll2为L2损失,计算公式为:
Figure FDA0004051982060000011
其中,xi和yi分别为所述解码网络对位置的X坐标和Y坐标的预测值,
Figure FDA0004051982060000012
Figure FDA0004051982060000013
分别为位置的X坐标和Y坐标的标签值,N为轨迹点的数目;
Lce为交叉熵损失,计算公式为:
Figure FDA0004051982060000014
其中,
Figure FDA0004051982060000015
为所述解码网络对笔尖状态
Figure FDA0004051982060000016
的概率预测值,
Figure FDA0004051982060000017
为笔尖状态的标签值;
Ldtw为动态时间规整损失,使用动态时间规整算法寻找预测和标签轨迹序列之间的最优对齐路径,计算在最优对齐路径下的序列距离作为预测序列的全局损失:
给定预测轨迹序列P={p1,p2,…,pN}和标签轨迹序列
Figure FDA0004051982060000021
序列长度分别为N和M,设置欧式距离函数
Figure FDA0004051982060000022
用于表征轨迹点pi
Figure FDA0004051982060000023
的距离,定义对齐路径φ={φ(1),…,φ(T)},其中,T≤M+N,T为对齐路径的长度,对齐路径的每一项定义了
Figure FDA0004051982060000024
Figure FDA0004051982060000025
的对应关系:
Figure FDA0004051982060000026
φp(k)∈{1,…,N},
Figure FDA0004051982060000027
其中,
Figure FDA0004051982060000028
表示P的第φp(k)个轨迹点,
Figure FDA0004051982060000029
表示
Figure FDA00040519820600000210
的第
Figure FDA00040519820600000211
个轨迹点,使用动态时间规整DTW算法寻找使得序列距离最小的对齐路径,作为最优对齐路径,对应的序列距离作为预测序列的全局损失:
Figure FDA00040519820600000212
2.根据权利要求1所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,所述的卷积循环神经编码网络包括CNN编码器和BiLSTM编码器,CNN编码器利用竖直方向上的非对称池化操作来进行竖直方向上的降采样,然后配合卷积操作,对输入文字图像进行编码,得到文字在水平方向上的一维方向特征C,一维方向特征C在方向维度上拆分后得到以方向为时序的特征序列,BiLSTM编码器对时序的特征序列进行编码,得到编码特征Z。
3.根据权利要求2所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,所述的全局追踪解码网络为LSTM解码器,LSTM解码器以编码特征Z为输入,依次预测轨迹点,具体地,LSTM解码器根据编码特征Z、t-1时刻的预测值pt-1和隐藏层向量ht-1,预测t时刻的轨迹点信息pt
Figure FDA0004051982060000031
Figure FDA0004051982060000032
其中,xt和yt表示t时刻的位置坐标,
Figure FDA0004051982060000033
表示t时刻笔尖的状态,三种状态值对应的意义为:“笔尖正与纸面接触”,“当前笔画书写完毕,临时抬笔”和“所有笔画书写完毕”,最终,P={p1,p2,…,pN}为预测的文字书写轨迹序列。
4.根据权利要求3所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,使用双流编码网络中的BiLSTM编码器的隐藏层状态,作为LSTM解码器的隐藏层初始状态h0
5.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,λ1取值0.5,λ2取值1.0,λ3取值1/6000。
6.根据权利要求4所述的基于全局追踪解码的文字图像书写轨迹恢复方法,其特征在于,设置初始输入轨迹点为p0={0,0,1,0,0}。
CN202210363417.9A 2022-04-08 2022-04-08 基于全局追踪解码的文字图像书写轨迹恢复方法 Active CN114757969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363417.9A CN114757969B (zh) 2022-04-08 2022-04-08 基于全局追踪解码的文字图像书写轨迹恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363417.9A CN114757969B (zh) 2022-04-08 2022-04-08 基于全局追踪解码的文字图像书写轨迹恢复方法

Publications (2)

Publication Number Publication Date
CN114757969A CN114757969A (zh) 2022-07-15
CN114757969B true CN114757969B (zh) 2023-04-07

Family

ID=82329200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363417.9A Active CN114757969B (zh) 2022-04-08 2022-04-08 基于全局追踪解码的文字图像书写轨迹恢复方法

Country Status (1)

Country Link
CN (1) CN114757969B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
US11158055B2 (en) * 2019-07-26 2021-10-26 Adobe Inc. Utilizing a neural network having a two-stream encoder architecture to generate composite digital images
CN110717345B (zh) * 2019-10-15 2020-07-07 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110992441A (zh) * 2019-12-03 2020-04-10 上海眼控科技股份有限公司 书写轨迹处理方法及装置
CN111046771A (zh) * 2019-12-05 2020-04-21 上海眼控科技股份有限公司 用于恢复书写轨迹的网络模型的训练方法
CN113127637A (zh) * 2019-12-31 2021-07-16 中兴通讯股份有限公司 一种字符的还原方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN114757969A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Ptucha et al. Intelligent character recognition using fully convolutional neural networks
Zhang et al. Sequence-to-sequence domain adaptation network for robust text image recognition
CN109614944B (zh) 一种数学公式识别方法、装置、设备及可读存储介质
JP4142463B2 (ja) パターン認識を容易にするシステムおよび方法
EP1971957B1 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
CN1030985A (zh) 表意文字的处理方法及装置
CN111553350A (zh) 一种基于深度学习的注意力机制文本识别方法
CN111046771A (zh) 用于恢复书写轨迹的网络模型的训练方法
Gan et al. In-air handwritten Chinese text recognition with temporal convolutional recurrent network
US11837001B2 (en) Stroke attribute matrices
CN114463760B (zh) 一种基于双流编码的文字图像书写轨迹恢复方法
He et al. Open set Chinese character recognition using multi-typed attributes
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
Archibald et al. Trace: a differentiable approach to line-level stroke recovery for offline handwritten text
CN114757969B (zh) 基于全局追踪解码的文字图像书写轨迹恢复方法
CN111738167A (zh) 一种无约束手写文本图像的识别方法
Rabhi et al. Multi-lingual handwriting recovery framework based on convolutional denoising autoencoder with attention model
Abirami et al. Handwritten mathematical recognition tool
Choudhury et al. Trajectory-based recognition of in-air handwritten Assamese words using a hybrid classifier network
Wu et al. In-Air Handwritten Chinese Text Recognition with Attention Convolutional Recurrent Network
Xu et al. On-line sample generation for in-air written chinese character recognition based on leap motion controller
CN113435398B (zh) 基于掩码预训练模型的签名特征识别方法、系统、设备及存储介质
Bezine et al. Handwriting perceptual classification and synthesis using discriminate HMMs and progressive iterative approximation
Assaleh et al. Recognition of handwritten Arabic alphabet via hand motion tracking
CN113673635B (zh) 一种基于自监督学习任务的手绘草图理解深度学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant