CN112686134B - 手写识别方法、装置、电子设备和存储介质 - Google Patents

手写识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112686134B
CN112686134B CN202011588676.9A CN202011588676A CN112686134B CN 112686134 B CN112686134 B CN 112686134B CN 202011588676 A CN202011588676 A CN 202011588676A CN 112686134 B CN112686134 B CN 112686134B
Authority
CN
China
Prior art keywords
track point
sequence
space
decoding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011588676.9A
Other languages
English (en)
Other versions
CN112686134A (zh
Inventor
王翔翔
常欢
吴嘉嘉
殷兵
胡金水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011588676.9A priority Critical patent/CN112686134B/zh
Publication of CN112686134A publication Critical patent/CN112686134A/zh
Application granted granted Critical
Publication of CN112686134B publication Critical patent/CN112686134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种手写识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的轨迹点序列及其对应的笔迹图像;对所述笔迹图像进行空间特征提取,得到空间特征图;索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;对所述轨迹点空间特征序列进行手写识别,得到识别结果。本发明提供的方法、装置、电子设备和存储介质,通过索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列用于手写识别,实现了手写识别在时间层面和空间层面上的特征融合,能够有效利用用户手写过程中在各个层面上的特征信息,从而有效提高手写识别的识别性能,以满足不同情形下的手写识别需求。

Description

手写识别方法、装置、电子设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种手写识别方法、装置、电子设备和存储介质。
背景技术
作为一种简单方便而又高效的输入方式,手写识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。
目前的手写识别主要分为在线模态和离线模态两种,其中在线模态是将用户手写过程中采集的轨迹点序列进行特征提取,进而从时序上进行手写识别,离线模态是将用户手写所得的图像进行特征提取,进而从空间上进行手写识别。在线模态针对于同一个笔画反复描绘的情形,极难准确识别,而离线模态针对空间上存在重叠的情形,也极易识别错误。因此,亟需一种能够适应不同情形的手写识别方法。
发明内容
本发明提供一种手写识别方法、装置、电子设备和存储介质,用以解决现有技术中手写识别在特殊情形下识别准确性差的缺陷。
本发明提供一种手写识别方法,包括:
确定待识别的轨迹点序列及其对应的笔迹图像;
对所述笔迹图像进行空间特征提取,得到空间特征图;
索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;
对所述轨迹点空间特征序列进行手写识别,得到识别结果。
根据本发明提供一种的手写识别方法,所述对所述笔迹图像进行空间特征提取,得到空间特征图,包括:
对上一特征图进行空间特征提取,得到当前特征图,直至空间特征提取的次数达到预设次数;
基于多次空间特征提取所得特征图,确定所述空间特征图;
其中,首个特征图是对所述笔迹图像进行空间特征提取得到的。
根据本发明提供一种的手写识别方法,所述索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列,包括:
基于所述轨迹点序列中各个轨迹点的位置坐标,索引所述空间特征图中对应位置坐标处的特征,作为各个轨迹点的空间特征;
将各个轨迹点的位置坐标与空间特征进行拼接,得到所述轨迹点空间特征序列。
根据本发明提供一种的手写识别方法,所述对所述轨迹点空间特征序列进行手写识别,得到识别结果,包括:
对所述轨迹点空间特征序列进行时空编码,得到轨迹点时空特征序列;
对所述轨迹点时空特征序列进行解码,得到所述识别结果。
根据本发明提供一种的手写识别方法,所述对所述轨迹点时空特征序列进行解码,得到所述识别结果,包括:
基于上一解码时刻的解码状态,对所述轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征;
基于当前解码时刻的解码状态和轨迹点上下文特征,以及上一解码时刻的解码结果进行解码,得到当前解码时刻的解码结果;
其中,所述当前解码时刻的解码状态是基于当前解码时刻的轨迹点上下文特征,以及上一解码时刻的解码状态和解码结果确定的,所述识别结果即最终解码时刻的解码结果。
根据本发明提供一种的手写识别方法,所述基于上一解码时刻的解码状态,对所述轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征,包括:
基于所述轨迹点时空特征序列,以及上一解码时刻的解码状态,确定当前解码时刻下所述轨迹点时空特征序列中各时空特征的注意力权重;
将各时空特征及其注意力权重进行编码融合,得到当前解码时刻的轨迹点上下文特征。
根据本发明提供一种的手写识别方法,所述确定待识别的轨迹点序列,包括:
确定原始轨迹点序列;
对所述原始轨迹点序列进行重采样,得到轨迹点间距均等的轨迹点序列。
本发明还提供一种手写识别装置,包括:
采集单元,用于确定待识别的轨迹点序列及其对应的笔迹图像;
空间特征提取单元,用于对所述笔迹图像进行空间特征提取,得到空间特征图;
索引单元,用于索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;
识别单元,用于对所述轨迹点空间特征序列进行手写识别,得到识别结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述手写识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述手写识别方法的步骤。
本发明提供的手写识别方法、装置、电子设备和存储介质,通过索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列用于手写识别,实现了手写识别在时间层面和空间层面上的特征融合,能够有效利用用户手写过程中在各个层面上的特征信息,从而有效提高手写识别的识别性能,以满足不同情形下的手写识别需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的手写文本样例示意图;
图2是本发明提供的手写识别方法的流程示意图之一;
图3是本发明提供的手写识别方法中步骤220的实施方式的流程示意图;
图4是本发明提供的空间特征提取模型的结构示意图;
图5是本发明提供的单个特征提取层的结构示意图;
图6是本发明提供的手写识别方法中步骤230的实施方式的流程示意图;
图7是本发明提供的手写识别方法中步骤240的实施方式的流程示意图;
图8是本发明提供的时空编码器的结构示意图;
图9是本发明提供的手写识别方法中步骤242的实施方式的流程示意图;
图10是本发明提供的手写识别方法中步骤2421的实施方式的流程示意图;
图11是本发明提供的解码流程示意图;
图12是本发明提供的重采样示意图;
图13是本发明提供的手写识别方法的流程示意图之二;
图14是本发明提供的手写识别装置的结构示意图;
图15是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前的手写识别主要分为在线模态和离线模态两种,其中在线模态在时间维度上具有良好的分辨能力,离线模态在空间维度上具有良好的分辨能力,两种模态分别利用了手写文本行的不同特征,各有优劣,单独利用其中一种模板进行手写识别,均无法满足各种情形的识别需求。例如图1是本发明提供的手写文本样例示意图,图1中左图展示的文本行在空间上无法分辨是“fake up”还是“take up”,而由于其对应的轨迹点序列中任意两个点都不会重叠,因此不存在由于空间上的重叠或者距离接近而带来的识别难度。图1中右图展示的文本行,存在同一个笔画反复描绘的情形,应用该文本行对应的轨迹点序列进行手写识别时,极难分辨,但是仅从空间结构上进行手写识别的话,则很容易将其识别为“light”。针对这种情况,本发明实施例提供一种手写识别方法,用于满足各种情形下的手写识别需求。
图2是本发明提供的手写识别方法的流程示意图之一,如图2所示,该方法包括:
步骤210,确定待识别的轨迹点序列及其对应的笔迹图像。
此处,轨迹点轨迹是用户写入笔画的轨迹信息,轨迹点序列包含用户写入笔画中各个轨迹点的位置坐标,各个轨迹点的输入时序等。笔迹图像是在采集所得的轨迹点序列的基础上得到的包含用户写入笔画的二维图像。轨迹点序列和笔迹图像是相互对应的,轨迹点序列中的每个轨迹点均在笔迹图像中存在对应位置的像素点。
步骤220,对笔迹图像进行空间特征提取,得到空间特征图。
具体地,笔迹图像包含了用户写入笔画的空间结构,对笔迹图像进行空间层面上的图像特征提取,能够得到笔迹图像中的各个像素点与其邻域像素点在空间层面上的关系,进而得到空间特征图。此处的空间特征图中包含了每个像素点的空间特征,每个像素点的空间特征均包含了每个像素点自身及其邻域空间的图像特征。
此处,针对笔迹图像的空间特征提取可以通过常见的图像特征提取方式实现,例如可以通过ResNet(Deep residual network,深度残差网络)、DenseNet等CNN(Convolutional Neural Networks,卷积神经网络)架构实现。
步骤230,索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列。
具体地,在得到空间特征图后,可以将轨迹点序列中的各个轨迹点定位到空间特征图中,从而获取各个轨迹点在空间特征图中对应位置的空间特征,并基于各个轨迹点在空间特征图中对应位置的空间特征,构建轨迹点空间特征序列。
各个轨迹点在空间层面上的特征在轨迹点空间特征序列中,按照各个轨迹点自身的时序进行排列,因此轨迹点空间特征序列不仅能够通过自身涵盖的信息反映出各个轨迹点在空间层面上的特征,还能够根据自身涵盖信息的排列顺序反映出各个轨迹点在时间层面上的特征。相较于传统的在线模态,仅应用轨迹点序列反映各个轨迹点在时间层面上的特征,或者传统的离线模态,仅应用笔迹图像反映笔迹在空间层面上的特征,本发明实施例中的轨迹点空间特征序列,实现了轨迹点在时间层面和空间层面上特征的融合,从而能够更加全面地反映文本行所体现的信息。
步骤240,对轨迹点空间特征序列进行手写识别,得到识别结果。
具体地,在得到轨迹点空间特征序列后,即可基于轨迹点空间特征序列所表征的各个轨迹点在时间和空间层面上的特征,进行手写文本行识别,从而得到相应的识别结果,此处的识别结果即轨迹点序列及其对应笔迹图像所表征的字符。例如,图1中左图的识别结果为“fake up”,右图的识别结果为“light”。
进一步地,步骤240中的手写识别可以通过预先训练好的手写识别模型实现,例如将轨迹点空间特征序列输入至手写识别模型,由手写识别模型基于轨迹点空间特征序列所表征的各个轨迹点在时间和空间层面上的特征进行手写识别,并输出相应的识别结果。此处的手写识别模型可以是基于样本轨迹点空间特征序列以及对应的样本识别结果训练得到的,手写识别模型可以是基于编码器-解码器encoder-decoder架构构建的。
本发明实施例提供的方法,通过索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列用于手写识别,实现了手写识别在时间层面和空间层面上的特征融合,能够有效利用用户手写过程中在各个层面上的特征信息,从而有效提高手写识别的识别性能,以满足不同情形下的手写识别需求。
基于上述实施例,图3是本发明提供的手写识别方法中步骤220的实施方式的流程示意图,如图3所示,步骤220包括:
步骤221,对上一特征图进行空间特征提取,得到当前特征图,直至空间特征提取的次数达到预设次数;其中,首个特征图是对笔迹图像进行空间特征提取得到的。
具体地,针对笔迹图像,可以进行不同尺度的空间特征提取,从而得到不同尺度的特征图。例如,首先对笔迹图像进行首个尺度下的空间特征提取,得到首个特征图,在此基础上,对首个特征图进行第二个尺度下的空间特征提取,得到第二个特征图,对第二个特征图进行第三个尺度下的空间特征提取,得到第三个特征图,依次类推,直至空间特征提取的次数达到预先设定好的次数,此时共得到预设次数个不同尺度的特征图。
步骤222,基于多次空间特征提取所得特征图,确定空间特征图。
具体地,在得到预设次数个不同尺度的特征图,可以抽取其中几个不同尺度的特征图进行融合,也可以将所有尺度的特征图进行融合,从而得到涵盖了多个尺度下的空间信息的空间特征图。此处,在进行多尺度融合是,可以将尺度更小的深层特征图放大到浅层特征图的尺度大小,再进行拼接。
本发明实施例提供的方法,通过多次空间特征提取,确定空间特征图,使得空间特征图中能够包含不同感受野的特征,有助于提高手写识别的准确性。
基于上述任一实施例,步骤220中的空间特征提取,可以基于预先训练好的空间特征提取模型实现,空间特征提取模型的结构可以类似于GoogLeNet中的Inception。例如,图4是本发明提供的空间特征提取模型的结构示意图,如图4所示,空间特征提取模型包括三个空间特征提取层,其中,空间特征提取层1输出的浅层特征图在经过该放大后,与空间特征提取层3输出的深层特征图进行拼接,从而得到了空间特征图。
其中,图5是本发明提供的单个特征提取层的结构示意图,如图5所示,单个特征提取层可以包含9个叠加的残差层,每个残差层包含3个卷积层。此外,在特征提取层的最后,可以对特征图进行下采样(downsample)。图5中示出的残差层的应用,有助于空间特征提取模型的梯度的回传,保证在空间特征提取模型设计较深的时候,空间特征提取模型仍然能够有效地收敛。
通常对不同模态的数据进行融合的方式有两种,一种是浅层融合,指将不同模态的数据在浅层融合到一起,然后通过相同的特征提取操作,浅层融合可以带来一定的效果提升,但是要求不同模态的数据在浅层存在可融合性,例如RGB和HSV形式呈现的图片模态,它们仅仅是像素值表达的意义不一样,而图片的尺寸和通道数一样,所以其两种模态融合相对容易;另一种是深层融合,指将不同模态的数据分别进行不同的特征提取,并基于各自提取所得的深层特征进行组合,由于存在两个并行的特征提取层,因此进行深层融合需要更多的计算量。此外,考虑到手写识别过程中轨迹点序列表征的时间层面的特征,和笔迹图像表征的空间层面的特征在融合时需要进行对齐,应用深层融合要面临更多的挑战。对此,基于上述实施例,图6是本发明提供的手写识别方法中步骤230的实施方式的流程示意图,如图6所示,步骤230包括:
步骤231,基于轨迹点序列中各个轨迹点的位置坐标,索引空间特征图中对应位置坐标处的特征,作为各个轨迹点的空间特征。
具体地,轨迹点序列和笔迹图像的对齐,可以通过将轨迹点序列中各个轨迹点的位置坐标投影到笔迹图像的空间特征图上实现,根据各个轨迹点的位置坐标对应在空间特征图上的位置,可以提取到对应位置处的特征,作为各个轨迹点的空间特征。例如,第n个轨迹点的坐标为[point xn,point yn],可以在空间特征区上对应位置坐标处提取得到特征其中C为特征维度,c为C维特征中的第c个位置。
步骤232,将各个轨迹点的位置坐标与空间特征进行拼接,得到轨迹点空间特征序列。
具体地,针对各个轨迹点的位置坐标和空间特征,可以直接进行拼接得到作为各个轨迹点的特征,进而基于轨迹点采集的先后顺序,对各个轨迹点的特征进行排列,从而得到轨迹点空间特征序列。
此处的轨迹点空间特征序列在时间层面上,反映了各个轨迹点采集的先后顺序,在空间层面上,反映了各个轨迹点的空间特征,实现了时间层面和空间层面的数据融合。
基于上述任一实施例,图7是本发明提供的手写识别方法中步骤240的实施方式的流程示意图,如图7所示,步骤240包括:
步骤241,对轨迹点空间特征序列进行时空编码,得到轨迹点时空特征序列。
具体地,针对轨迹点空间特征序列的时空编码,可以通过时间层面上的卷积网络,例如双向长短时记忆网络实现。在轨迹点空间特征序列中已经包含了各个轨迹点的空间特征,因此在时空编码阶段更侧重于对轨迹点序列在时序上的特征的提取,从而使得由此得到的轨迹点时空特征序列中各个轨迹点对应的特征能够实现时间层面和空间层面上的特征融合。
步骤242,对轨迹点时空特征序列进行解码,得到识别结果。
具体地,在得到轨迹点时空特征序列后,即可结合轨迹点时空特征序列中包含的时间层面和空间层面上的融合特征进行解码,从而得到手写识别的结果。
基于上述任一实施例,图8是本发明提供的时空编码器的结构示意图,如图8所示的时空编码器,可用于实现步骤241中的时空编码,具体可以将轨迹点时空特征序列作为时空编码器的输入,由时空编码器对轨迹点时空特征序列中各个轨迹点的特征进行时空编码,并输出由各个轨迹点的时空特征构成的轨迹点时空特征序列。
图8中的时空编码器包括4层卷积层和下采样层,在完成4层卷积(Conv)和下采样(Downsample)后,通过双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM),得到包含了时间上下文信息的轨迹点时空特征序列。此处,输入的轨迹点空间特征序列共N帧,对应输出的轨迹点时空特征序列为N/4帧。
基于上述任一实施例,图9是本发明提供的手写识别方法中步骤242的实施方式的流程示意图,如图9所示,步骤242包括:
步骤2421,基于上一解码时刻的解码状态,对轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征;
步骤2422,基于当前解码时刻的解码状态和轨迹点上下文特征,以及上一解码时刻的解码结果进行解码,得到当前解码时刻的解码结果;
其中,当前解码时刻的解码状态是基于当前解码时刻的轨迹点上下文特征,以及上一解码时刻的解码状态和解码结果确定的,识别结果即最终解码时刻的解码结果。
具体地,由于手写过程本身具备时序性,得到的轨迹点时空特征序列也呈序列化,其解码过程同样是序列化输出的过程。在解码过程中,每个解码时刻所关注的轨迹点时空特征序列中各个轨迹点的时空特征的重要性是不同的。
步骤2421中,为了消除解码过程中无关轨迹点的时空特征对于当前解码时刻解码操作的干扰,以提高解码的准确性,可以基于上一解码时刻的解码状态,对轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征。此处,任一解码时刻的解码状态包含了在该解码时刻之前的解码过程中所产生的历史信息。对轨迹点时空特征序列进行上下文编码的过程主要判断在当前解码时刻,应当重点关注轨迹点时空特征序列中哪些时空特征,从而编码得到当前解码时刻的轨迹点上下文编码。此处,当前解码时刻的轨迹点上下文编码中凸显出了在当前解码时刻应当重点关注的时空特征。
步骤2422中,当前解码时刻的解码状态是基于当前解码时刻的轨迹点上下文编码,以及上一解码时刻的解码状态和解码结果确定的。任一解码时刻对应的解码结果为该解码时刻解码得到的字符与上一解码时刻对应的解码结果拼接后的字符序列。针对于当前解码时刻,可以将基于当前解码时刻的解码状态和轨迹点上下文特征,以及上一解码时刻解码输出的字符进行解码,进而得到当前时刻解码输出的字符,将当前解码时刻输出的字符拼接在上一解码时刻的解码结果之后,即可得到当前解码时刻的解码结果。例如,可以采用如下公式表示当前解码时刻解码输出的字符yt
p(yt|y0,...,yt-1,h)=g(yt-1,st,ct)
式中,p(yt|y0,...,yt-1,h)即基于当前解码时刻t之前的各解码时刻输出的字符y0,...,yt-1以及轨迹点时空特征序列h得到的当前解码时刻解码输出的字符yt的概率。g为非线性函数,yt-1为上一解码时刻t-1解码输出的字符,st和ct分别为当前解码时刻的解码状态和轨迹点上下文编码。
当前解码时刻的解码状态st可以基于如下公式得到:
st=f(st-1,yt-1,ct)
式中,f为预设函数,st-1为上一解码时刻的解码状态。
本发明实施例提供的方法,基于轨迹点时空特征序列以及上一解码时刻的解码状态,确定当前解码时刻的轨迹点上下文编码,并基于当前解码时刻的解码状态和轨迹点时空特征序列上下文编码,以及上一解码时刻的解码结果,确定当前解码时刻的解码结果,提高了解码的准确性,从而提高了手写识别的准确性。
基于上述任一实施例,图10是本发明提供的手写识别方法中步骤2421的实施方式的流程示意图,如图10所示,步骤2421包括:
步骤2421-1,基于轨迹点时空特征序列,以及上一解码时刻的解码状态,确定当前解码时刻下轨迹点时空特征序列中各时空特征的注意力权重。
此处,可以通过注意力机制,分析在当前解码时刻,轨迹点时空特征序列中各时空特征的重要性,具体可以在轨迹点时空特征序列以及上一解码时刻的解码状态的基础上,确定轨迹点时空特征序列中各时空特征的注意力权重。可选地,可以通过如下公式将各时空特征分别与上一解码时刻的解码状态进行注意力交互,从而得到各个时空特征的注意力权重:
式中,αtn即当前解码时刻t轨迹点时空特征序列中第n个时空特征的注意力权重,N/16为轨迹点时空特征序列中的时空特征总数,etn即当前解码时刻t轨迹点时空特征序列中第n个时空特征的注意力得分,可以表示为如下形式:
其中,a为预设函数,st-1为上一解码时刻的解码状态,hn为时空特征序列中第n个时空特征,Wa和Ua为权重矩阵。
步骤2421-2,将各时空特征及其注意力权重进行编码融合,得到当前解码时刻的轨迹点上下文特征。
具体地,可以基于各时空特征的注意力权重,对各时空特征进行加权融合。例如,可以直接对各时空特征进行加权求和,从而得到当前解码时刻的轨迹点上下文特征:
式中,ct即当前解码时刻的轨迹点上下文编码。
基于上述任一实施例,图11是本发明提供的解码流程示意图,如图11所示,针对当前解码时刻,可以基于上一解码时刻的解码状态和轨迹点时空特征序列中的各时空特征进行注意力交互,进而得到当前解码时刻下各时空特征的注意力权重αt1、αt2、…、αtN/16。分别对各时空特征进行加权求和,从而得到当前解码时刻的轨迹点上下文特征ct。基于上一解码时刻的解码状态st-1、上一解码时刻解码输出的字符yt-1以及当前解码时刻的轨迹点上下文特征ct,确定当前解码时刻的解码状态st。在此基础上,结合上一解码时刻解码输出的字符yt-1、当前解码时刻的解码状态st以及当前解码时刻的轨迹点上下文特征ct,确定当前解码时刻解码输出的字符yt
基于上述任一实施例,步骤110中,确定待识别的轨迹点序列,包括:确定原始轨迹点序列,对原始轨迹点序列进行重采样,得到轨迹点间距均等的轨迹点序列。
具体地,原始轨迹点序列即直接进行轨迹点采集得到的,由于用户在手写输入时笔画书写的速度可能发生变化,直接采集所得的原始轨迹点序列中各个轨迹点之间的距离可能是不均等的,而距离不均等的轨迹点序列可能会导致后续时间层面的特征提取不均匀,影响手写识别的准确性,且在基于轨迹点序列进行空间特征索引时,密集的轨迹点分布可能会导致索引得到的空间特征存在高重复度,不利用后续的分别识别。
因此,需要在进行手写识别之前,对原始轨迹点序列进行重采样,以获取间距均等的轨迹点序列。例如,图12是本发明提供的重采样示意图,图12中箭头左侧的原始轨迹点序列中各个轨迹点疏密不均,而箭头右侧重采样后的轨迹点序列中连续轨迹点之间的距离均等。
基于上述任一实施例,重采样可以基于如下步骤实现:
预先设定重采样后连续轨迹点之间的距离为S,并初始化一个空的集合resampled,以及一个参数D用于记录重采样笔画的进度,D的初始值为0。
将原始轨迹点序列中的首个轨迹点point0直接置入resampled中,随后,针对原始轨迹点点序列中的每个轨迹点,将该轨迹点pointi与前个轨迹点pointi-1之间的距离d累加到D,并比较累加后的D与预先设定的S的大小,如果D<S,则将i+1,并将更新后的轨迹点pointi与前个轨迹点pointi-1之间的距离d累加到D,重新判断D与S的大小;如果D≥S,则创建一个新的轨迹点q,q的位置与上一个重采样点之间的距离为S,且q在pointi-1与pointi之间,距离pointi-1为(S-D)/d。完成q的创建后,将q置入resampled中,并将q插入原始轨迹点序列的pointi之前,并返回更新D值,重新判断D与S的大小。
最终,将resampled作为重采样后的轨迹点序列。
基于上述任一实施例,图13是本发明提供的手写识别方法的流程示意图之二,如图13所示,该方法包括:
首先,确定原始轨迹点序列,并对原始轨迹点序列进行重采样,从而得到间距均等的轨迹点序列。同时,确定原始轨迹点序列相对应的笔迹图像。
对笔迹图像进行空间特征提取,从而得到包含了每个像素点的空间特征的空间特征图。
将轨迹点序列中各个轨迹点的位置坐标投影到笔迹图像的空间特征图,根据各个轨迹点的位置坐标对应在空间特征图上的位置,提取到对应位置处的特征,作为各个轨迹点的空间特征,进而将各个轨迹点的位置坐标与空间特征进行拼接,得到轨迹点空间特征序列。
在得到轨迹点空间特征序列后,可以基于编码器-解码器的形式进行手写识别,从而得到识别结果。
下面对本发明提供的手写识别装置进行描述,下文描述的手写识别装置与上文描述的手写识别方法可相互对应参照。
图14是本发明提供的手写识别装置的结构示意图,如图14所示,该装置包括采集单元1410、空间特征提取单元1420、索引单元1430和识别单元1440;
其中,采集单元1410用于确定待识别的轨迹点序列及其对应的笔迹图像;
空间特征提取单元1420用于对所述笔迹图像进行空间特征提取,得到空间特征图;
索引单元1430用于索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;
识别单元1440用于对所述轨迹点空间特征序列进行手写识别,得到识别结果。
本发明实施例提供的装置,通过索引轨迹点序列中各个轨迹点对应在空间特征图中的特征,得到轨迹点空间特征序列用于手写识别,实现了手写识别在时间层面和空间层面上的特征融合,能够有效利用用户手写过程中在各个层面上的特征信息,从而有效提高手写识别的识别性能,以满足不同情形下的手写识别需求。
基于上述任一实施例,空间特征提取单元1420用于:
对上一特征图进行空间特征提取,得到当前特征图,直至空间特征提取的次数达到预设次数;
基于多次空间特征提取所得特征图,确定所述空间特征图;
其中,首个特征图是对所述笔迹图像进行空间特征提取得到的。
基于上述任一实施例,索引单元1430用于:
基于所述轨迹点序列中各个轨迹点的位置坐标,索引所述空间特征图中对应位置坐标处的特征,作为各个轨迹点的空间特征;
将各个轨迹点的位置坐标与空间特征进行拼接,得到所述轨迹点空间特征序列。
基于上述任一实施例,识别单元1440包括:
编码子单元,用于对所述轨迹点空间特征序列进行时空编码,得到轨迹点时空特征序列;
解码子单元,用于对所述轨迹点时空特征序列进行解码,得到所述识别结果。
基于上述任一实施例,解码子单元用于:
上下文编码模块,用于基于上一解码时刻的解码状态,对所述轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征;
解码模块,用于基于当前解码时刻的解码状态和轨迹点上下文特征,以及上一解码时刻的解码结果进行解码,得到当前解码时刻的解码结果;
其中,所述当前解码时刻的解码状态是基于当前解码时刻的轨迹点上下文特征,以及上一解码时刻的解码状态和解码结果确定的,所述识别结果即最终解码时刻的解码结果。
基于上述任一实施例,上下文编码模块用于:
基于所述轨迹点时空特征序列,以及上一解码时刻的解码状态,确定当前解码时刻下所述轨迹点时空特征序列中各时空特征的注意力权重;
将各时空特征及其注意力权重进行编码融合,得到当前解码时刻的轨迹点上下文特征。
基于上述任一实施例,采集单元1410用于:
确定原始轨迹点序列;
对所述原始轨迹点序列进行重采样,得到轨迹点间距均等的轨迹点序列。
图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1510、通信接口(Communications Interface)1520、存储器(memory)1530和通信总线1540,其中,处理器1510,通信接口1520,存储器1530通过通信总线1540完成相互间的通信。处理器1510可以调用存储器1530中的逻辑指令,以执行手写识别方法,该方法包括:确定待识别的轨迹点序列及其对应的笔迹图像;对所述笔迹图像进行空间特征提取,得到空间特征图;索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;对所述轨迹点空间特征序列进行手写识别,得到识别结果。
此外,上述的存储器1530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的手写识别方法,该方法包括:确定待识别的轨迹点序列及其对应的笔迹图像;对所述笔迹图像进行空间特征提取,得到空间特征图;索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;对所述轨迹点空间特征序列进行手写识别,得到识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的手写识别方法,该方法包括:确定待识别的轨迹点序列及其对应的笔迹图像;对所述笔迹图像进行空间特征提取,得到空间特征图;索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;对所述轨迹点空间特征序列进行手写识别,得到识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种手写识别方法,其特征在于,包括:
确定待识别的轨迹点序列及其对应的笔迹图像;
对所述笔迹图像进行空间特征提取,得到空间特征图;
索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;
对所述轨迹点空间特征序列进行手写识别,得到识别结果;
所述索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列,包括:
基于所述轨迹点序列中各个轨迹点的位置坐标,索引所述空间特征图中对应位置坐标处的特征,作为各个轨迹点的空间特征;基于所述各个轨迹点的空间特征,构建所述轨迹点空间特征序列。
2.根据权利要求1所述的手写识别方法,其特征在于,所述对所述笔迹图像进行空间特征提取,得到空间特征图,包括:
对上一特征图进行空间特征提取,得到当前特征图,直至空间特征提取的次数达到预设次数;
基于多次空间特征提取所得特征图,确定所述空间特征图;
其中,首个特征图是对所述笔迹图像进行空间特征提取得到的。
3.根据权利要求1所述的手写识别方法,其特征在于,所述基于所述各个轨迹点的空间特征,构建所述轨迹点空间特征序列,包括:
将各个轨迹点的位置坐标与空间特征进行拼接,得到所述轨迹点空间特征序列。
4.根据权利要求1所述的手写识别方法,其特征在于,所述对所述轨迹点空间特征序列进行手写识别,得到识别结果,包括:
对所述轨迹点空间特征序列进行时空编码,得到轨迹点时空特征序列;
对所述轨迹点时空特征序列进行解码,得到所述识别结果。
5.根据权利要求4所述的手写识别方法,其特征在于,所述对所述轨迹点时空特征序列进行解码,得到所述识别结果,包括:
基于上一解码时刻的解码状态,对所述轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征;
基于当前解码时刻的解码状态和轨迹点上下文特征,以及上一解码时刻的解码结果进行解码,得到当前解码时刻的解码结果;
其中,所述当前解码时刻的解码状态是基于当前解码时刻的轨迹点上下文特征,以及上一解码时刻的解码状态和解码结果确定的,所述识别结果即最终解码时刻的解码结果。
6.根据权利要求5所述的手写识别方法,其特征在于,所述基于上一解码时刻的解码状态,对所述轨迹点时空特征序列进行上下文编码,得到当前解码时刻的轨迹点上下文特征,包括:
基于所述轨迹点时空特征序列,以及上一解码时刻的解码状态,确定当前解码时刻下所述轨迹点时空特征序列中各时空特征的注意力权重;
将各时空特征及其注意力权重进行编码融合,得到当前解码时刻的轨迹点上下文特征。
7.根据权利要求1至6中任一项所述的手写识别方法,其特征在于,所述确定待识别的轨迹点序列,包括:
确定原始轨迹点序列;
对所述原始轨迹点序列进行重采样,得到轨迹点间距均等的轨迹点序列。
8.一种手写识别装置,其特征在于,包括:
采集单元,用于确定待识别的轨迹点序列及其对应的笔迹图像;
空间特征提取单元,用于对所述笔迹图像进行空间特征提取,得到空间特征图;
索引单元,用于索引所述轨迹点序列中各个轨迹点对应在所述空间特征图中的特征,得到轨迹点空间特征序列;
识别单元,用于对所述轨迹点空间特征序列进行手写识别,得到识别结果;
所述索引单元具体用于:
基于所述轨迹点序列中各个轨迹点的位置坐标,索引所述空间特征图中对应位置坐标处的特征,作为各个轨迹点的空间特征;基于所述各个轨迹点的空间特征,构建所述轨迹点空间特征序列。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述手写识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述手写识别方法的步骤。
CN202011588676.9A 2020-12-29 2020-12-29 手写识别方法、装置、电子设备和存储介质 Active CN112686134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011588676.9A CN112686134B (zh) 2020-12-29 2020-12-29 手写识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011588676.9A CN112686134B (zh) 2020-12-29 2020-12-29 手写识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112686134A CN112686134A (zh) 2021-04-20
CN112686134B true CN112686134B (zh) 2023-12-01

Family

ID=75454843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011588676.9A Active CN112686134B (zh) 2020-12-29 2020-12-29 手写识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112686134B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469184B (zh) * 2021-04-21 2022-08-12 华东师范大学 一种基于多模态数据的面向手写中文的性格识别方法
CN113239840A (zh) * 2021-05-24 2021-08-10 中国农业银行股份有限公司 字迹鉴定方法、装置、设备和存储介质
CN113743315B (zh) * 2021-09-07 2023-07-14 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
CN114253435A (zh) * 2021-12-17 2022-03-29 安徽淘云科技股份有限公司 笔迹显示方法、装置、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010150916A1 (en) * 2009-06-24 2010-12-29 Sharp Kabushiki Kaisha Handwriting recognition method and device
CN102810015A (zh) * 2011-05-31 2012-12-05 中兴通讯股份有限公司 基于空间运动的输入方法及终端
CN103577843A (zh) * 2013-11-22 2014-02-12 中国科学院自动化研究所 一种空中手写字符串识别方法
CN104008405A (zh) * 2013-02-26 2014-08-27 佳能株式会社 手写字符识别方法和装置
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
CN110045840A (zh) * 2019-04-15 2019-07-23 广州视源电子科技股份有限公司 一种书写轨迹关联的方法、装置、终端设备和存储介质
CN110197224A (zh) * 2019-05-29 2019-09-03 华南理工大学 基于特征空间深度对抗学习的空中手写字符轨迹恢复方法
WO2020078017A1 (zh) * 2018-10-19 2020-04-23 北京百度网讯科技有限公司 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
CN111381754A (zh) * 2020-04-30 2020-07-07 京东方科技集团股份有限公司 笔迹处理方法、设备及介质
CN112115936A (zh) * 2020-10-10 2020-12-22 京东方科技集团股份有限公司 一种用于文本的识别方法、装置、存储介质以及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010150916A1 (en) * 2009-06-24 2010-12-29 Sharp Kabushiki Kaisha Handwriting recognition method and device
CN102810015A (zh) * 2011-05-31 2012-12-05 中兴通讯股份有限公司 基于空间运动的输入方法及终端
CN104008405A (zh) * 2013-02-26 2014-08-27 佳能株式会社 手写字符识别方法和装置
CN103577843A (zh) * 2013-11-22 2014-02-12 中国科学院自动化研究所 一种空中手写字符串识别方法
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
WO2020078017A1 (zh) * 2018-10-19 2020-04-23 北京百度网讯科技有限公司 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
CN110045840A (zh) * 2019-04-15 2019-07-23 广州视源电子科技股份有限公司 一种书写轨迹关联的方法、装置、终端设备和存储介质
CN110197224A (zh) * 2019-05-29 2019-09-03 华南理工大学 基于特征空间深度对抗学习的空中手写字符轨迹恢复方法
CN111381754A (zh) * 2020-04-30 2020-07-07 京东方科技集团股份有限公司 笔迹处理方法、设备及介质
CN112115936A (zh) * 2020-10-10 2020-12-22 京东方科技集团股份有限公司 一种用于文本的识别方法、装置、存储介质以及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Air-Writing Recognition—Part I Modeling and Recognition of Characters, Words, and Connecting Motions;Mingyu Chen et al;《IEEE Transactions on Human-Machine Systems 》;第46卷(第3期);第403-413页 *
人工智能在手写文档识别分析中的技术演进;竺博 等;《电子测试》;第2019年卷(第13期);第5-8+48页 *

Also Published As

Publication number Publication date
CN112686134A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112686134B (zh) 手写识别方法、装置、电子设备和存储介质
US10354168B2 (en) Systems and methods for recognizing characters in digitized documents
US20190180154A1 (en) Text recognition using artificial intelligence
US10878269B2 (en) Data extraction using neural networks
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN110647829A (zh) 一种票据的文本识别方法及系统
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN110287952B (zh) 一种维语图片字符的识别方法及系统
CN111401219B (zh) 一种手掌关键点检测方法和装置
CN112016315A (zh) 模型训练、文本识别方法及装置、电子设备、存储介质
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN113283336A (zh) 一种文本识别方法与系统
CN115222845A (zh) 样式字体图片生成方法、装置、电子设备和介质
CN115187456A (zh) 基于图像强化处理的文本识别方法、装置、设备及介质
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN117058723B (zh) 掌纹识别方法、装置及存储介质
CN113449726A (zh) 文字比对及识别方法、装置
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN114707017A (zh) 视觉问答方法、装置、电子设备和存储介质
EP3832544A1 (en) Visually-aware encodings for characters
CN113762261A (zh) 一种对图像的字符识别方法、装置、设备及介质
CN115346225A (zh) 书写测评方法、装置及设备
CN111104886A (zh) 手势识别方法、装置、设备和存储介质
RU2792743C1 (ru) Идентификация используемых в документах систем письма

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant