CN112132050A - 联机手写汉字识别算法及可视化关键笔画评估方法 - Google Patents

联机手写汉字识别算法及可视化关键笔画评估方法 Download PDF

Info

Publication number
CN112132050A
CN112132050A CN202011015320.6A CN202011015320A CN112132050A CN 112132050 A CN112132050 A CN 112132050A CN 202011015320 A CN202011015320 A CN 202011015320A CN 112132050 A CN112132050 A CN 112132050A
Authority
CN
China
Prior art keywords
vector
neural network
character
coordinate
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011015320.6A
Other languages
English (en)
Other versions
CN112132050B (zh
Inventor
任海青
杨林
王浩枫
芦存博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202011015320.6A priority Critical patent/CN112132050B/zh
Publication of CN112132050A publication Critical patent/CN112132050A/zh
Application granted granted Critical
Publication of CN112132050B publication Critical patent/CN112132050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Abstract

本发明涉及一种联机手写汉字识别算法及可视化关键笔画评估方法,属于模式识别技术领域。本发明提出一种局部自注意力机制,能够通过神经网络自身产生对应各个时刻隐含层状态的注意力权重,通过这种注意力机制能够有效地提升联机手写汉字的识别精度。本发明提出了一种可视化的联机手写汉字识别中关键笔画评估方法,通过自注意力机制生成的权重,将输入字符样本轨迹坐标中对识别起关键作用的笔画(轨迹点或者轨迹段)显示出来,能够更直观的评估联机手写汉字字符样本中的关键笔画,分析神经网络学习字符样本时的方式。

Description

联机手写汉字识别算法及可视化关键笔画评估方法
技术领域
本发明属于模式识别技术领域,具体涉及一种联机手写汉字识别算法及可视化关键笔画评估方法。
背景技术
随着计算机技术的快速发展,尤其是手机等智能终端在人们生活中发挥越来越重要的作用,手写输入已成为一种面向智能终端的重要输入方式。具体来说,手写文字识别是指让传感器感知手指或笔等的书写轨迹或者通过摄像设备获取书写后的文字或符号的图像,并由计算机通过识别算法识别文字过程。联机手写汉字主要是指在触摸屏上书写的汉字,这类手写汉字的数据当中一般包含了笔画顺序、书写轨迹等时序信息。联机手写汉字识别处理的主要是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息。
随着深度学习广泛发展,深度学习在联机手写汉字识别领域的应用取得了巨大的成功。递归神经网络、卷积神经网络都是联机手写汉字识别中最为常用的算法。对于联机手写汉字识别,联机手写汉字字符数据是一种典型的序列数据。递归神经网络是一种专门解决时间序列问题的神经网络,基于递归神经网络的算法能够学习到序列数据中天然的时序信息,因而比卷积神经网络更适用于联机手写汉字的识别。
当我们使用递归神经网络进行手写汉字识别时,递归神经网络每一时刻接收手写汉字轨迹中的一个坐标点,通过计算,在神经网络的顶层生成相应时刻的隐含层状态向量。每一个隐含层状态向量都与输入字符样本轨迹中相应时刻的轨迹点相对应。目前使用递归神经网络进行联机手写汉字识别的任务中,一般都是将神经网络顶层产生的所有时刻的隐含层状态求和或者求均值作为神经网络的输出,也就是输入字符样本的特征。这种对所有时刻的隐含层状态求和或者求均值的算法意味着轨迹中所有的坐标点对于识别当前输入字符样本来讲同等重要。然而,同一类字符,不同用户书写的方式不同,导致了同一类字符不同样本的书写轨迹千差万别。这样,在识别字符样本的过程中,就会有一些轨迹点或者轨迹段对当前样本的识别并不重要,甚至还会产生负面影响。
手写汉字中关键笔画的评估是在手写汉字识别过程中,对要识别的手写汉字中的笔画(轨迹点或者轨迹段)定性或者定量地分析评价其对识别结果的影响。
近年来,相关的联机手写汉字识别的研究取得了一系列重要的成果,识别精度上大幅度提升,但是仍存在以下两点不足之处:
(1)现有的联机手写汉字识别算法只是不断地通过改进算法提高识别精度,并没有对字符样本轨迹本身进行关键笔画的分析。
(2)现有的基于递归神经网络的联机手写汉字识别算法没有引入自注意力机制来对各个时刻的隐含层状态向量进行融合,通过引入自注意力机制可以区分输入样本中不同的轨迹点对识别样本的重要程度。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何实现联机手写汉字字符样本中各轨迹点对系统识别样本的重要程度的评估。
(二)技术方案
为了解决上述技术问题,本发明提供了一种联机手写汉字识别算法及可视化关键笔画评估方法,包括:
第一步、联机手写汉字识别阶段,具体流程为:
(1)数据预处理模块接收联机手写汉字字符原始轨迹坐标序列,对坐标数据进行预处理;
(2)基于神经网络的特征提取模块,接收数据预处理模块处理过的坐标数据,即字符样本坐标序列,经过递归神经网络的计算生成对应各个时刻的神经网络顶层状态向量,即字符样本特征;
(3)局部自注意力模块接收基于神经网络的特征提取模块产生的状态向量,经过计算生成各时刻顶层状态向量对应的权值,并结合权值计算所有状态向量的加权和;
(4)分类模块接收局部自注意力模块输出的结果,通过softmax分类器基于神经网络的特征提取模块提取的字符样本特征进行分类;
第二步、联机手写汉字关键笔画可视化评估阶段,具体流程为:
(1)权值二值化模块接收局部自注意力机制模块产生的权值信息,设定特定的阈值,将接收到的权值二值化;
(2)关键笔画显示模块,是结合权值二值化模块二值化后的权重信息以及数据预处理模块处理过的字符样本轨迹坐标数据,将输入字符样本的关键笔画显示出来,对当前的输入字符样本的坐标轨迹点的重要程度做一个可视化的评估。
优选地,所述数据预处理模块对坐标数据进行预处理,包括坐标归一化、坐标点下采样。
优选地,所述基于神经网络的特征提取模块,是一个门控循环单元类型的递归神经网络。
优选地,所述分类模块包含一个全连接层和一个softmax分类器。
优选地,所述关键笔画显示模块是一个基于opencv的显示模块,将二值化权重作为一个mask,与字符样本坐标序列相乘,即将字符坐标序列中对应权重为0的坐标点擦除,并将最终的结果显示出来。
优选地,所述数据预处理模块的实现方法具体包括:
(1)对于给定的字符,字符坐标序列中所有坐标点(mt,nt)都归一化到[0,64]的范围之内,t=1,2,…,T;T为整数;
Figure BDA0002698862500000041
(2)将字符的坐标序列进一步归一化,使得所有的坐标点的均值为0,即
Figure BDA0002698862500000042
其中,
Figure BDA0002698862500000043
Figure BDA0002698862500000044
分别代表相应所有横坐标m′t和纵坐标n′t的平均值,在后续出现的所有mt和nt均表示经过预处理之后的数据。
优选地,所述基于神经网络的特征提取模块的实现方法包括:
对于联机手写汉字样本,原始数据其实是一系列点坐标的序列,以联机手写汉字样本的坐标点序列为系统的输入,x=(x1,x2,…,xt,…,xT),其中,xt=(mt,nt),mt和nt分别代表坐标点序列在时刻t的横坐标和纵坐标,将这些坐标点送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0002698862500000045
Figure BDA0002698862500000046
其中,
Figure BDA0002698862500000047
表示在时刻t,第n层的隐含层状态向量,
Figure BDA0002698862500000048
表示计算第一个隐含层的函数,
Figure BDA0002698862500000049
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数,经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0002698862500000051
优选地,所述局部自注意力模块的实现方法包括:
计算递归神经网络顶层状态向量
Figure BDA0002698862500000052
对应的权重向量,并求相应的加权和:
(1)引入参数矩阵W和参数向量p,将矩阵
Figure BDA0002698862500000053
转化为一维向量:
z=p tanh(WH)
其中,递归神经网络顶层状态向量的维度为u,那么矩阵H是一个u×T维的矩阵,矩阵W是一个d×u维的矩阵,两个矩阵的乘积WH是一个d×T维的矩阵,向量p是一个维度为d的行向量,通过计算得到向量z,它的维度为T;
(2)对向量z使用softmax归一化,得到对应T个时刻状态向量
Figure BDA0002698862500000054
的权重向量a:
a=softmax(z)
其中,a是一个维度为T的向量,a中的T个元素分别代表T个时刻状态向量
Figure BDA0002698862500000055
的权重。
(3)结合权重向量a求T个时刻状态向量
Figure BDA0002698862500000056
的加权和:
Figure BDA0002698862500000057
其中,aT表示向量a=(a1,a2,…,at,…,aT)的转置。
局部自注意力模块接收神经网络顶层的状态向量,计算状态向量对应的权重向量,并计算T个时刻状态向量
Figure BDA0002698862500000061
的加权和输出给分类模块。
优选地,所述分类模块的实现方法包括:
(1)将局部自注意力模块输出的向量f通过全连接层映射到与字符类别数相同的维度上,假设类别数为K,则输出向量
y=by+Wfyf
其中,Wfy全连接层的参数矩阵,维度为K×u,by对应全连接层的偏置向量;
(2)使用softmax分类器进行分类:
通过softmax分类器的计算,会生成对应于K个类别的概率分布,这个概率分布用于判别当前字符属于哪个类别;具体地,给定一个字符样本x(i),通过前述各模块的计算生成对应的输出向量
Figure BDA0002698862500000062
Figure BDA0002698862500000063
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure BDA0002698862500000064
其中,θ表示参与计算的所有参数的集合;根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入字符的类别:
Figure BDA0002698862500000065
神经网络训练过程中的损失函数为:
Figure BDA0002698862500000066
Figure BDA0002698862500000071
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
优选地,所述权重二值化模块的实现方法包括:
给定一个特定的阈值r,二值化权重向量
Figure BDA0002698862500000072
中的元素
Figure BDA0002698862500000073
通过如下方法算出:
Figure BDA0002698862500000074
其中at为权重向量a中的元素;
所述关键笔画显示模块的实现方法包括:
给定字符输入样本x(i),轨迹坐标序列为(x1,x2,…,xt,…,xT),二值化权重向量
Figure BDA0002698862500000075
将字符样本轨迹坐标序列中对应二值化权重为零的轨迹坐标点移除,将剩余的坐标轨迹显示出来,对应二值化权重为1的坐标点,即在识别过程中其关键作用的坐标点,将这些坐标点连接起来,则做到了联机手写汉字识别中关键笔画可视化评估。
(三)有益效果
本发明提出一种局部自注意力机制,能够通过神经网络自身产生对应各个时刻隐含层状态的注意力权重,通过这种注意力机制能够有效地提升联机手写汉字的识别精度。本发明提出了一种可视化的联机手写汉字识别中关键笔画评估方法,通过自注意力机制生成的权重,将输入字符样本轨迹坐标中对识别起关键作用的笔画(轨迹点或者轨迹段)显示出来,能够更直观的评估联机手写汉字字符样本中的关键笔画,分析神经网络学习字符样本时的方式。
附图说明
图1为基于递归神经网络的联机手写汉字识别及关键笔画可视化评估方法实现的总体架构图;
图2为神经网络计算模块的网络结构示意图;
图3为局部自注意力模块的计算流程示意图;
图4为关键笔画显示模块显示的图像示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供一种基于递归神经网络的联机手写汉字识别算法及关键笔画评估方法。这种方法实现了联机手写汉字字符样本中各轨迹点对系统识别样本的重要程度的评估,在一定程度上解释了神经网络学习字符样本时,样本中哪些轨迹点起了相对重要的作用。
本发明面向常见的联机手写汉字识别任务,是指基于触摸屏的手写汉字以及基于手势的空中手写汉字。
本发明的一种基于递归神经网络的联机手写汉字识别算法及可视化关键笔画评估方法,涵盖联机手写汉字识别和字符关键笔画分析两个阶段。首先在手写汉字识别阶段,提出了一种带有自注意力机制的递归神经网络算法,这种算法对神经网络顶层每一时刻的隐含层状态向量都生成一个相应的权值,然后使用这些权值对所有时刻顶层的状态向量求加权和作为神经网络的输出,通过使用这种自注意力机制,提高了联机手写汉字的识别精度。其次,神经网络训练完成后,给定输入字符样本,将对应的各个轨迹点的权值提取出来,使用特定的阈值将权值向量二值化,与输入字符样本轨迹相结合,对输入字符轨迹中各轨迹点的重要程度做一个可视化评估。
图1为基于递归神经网络的联机手写汉字识别及关键笔画可视化评估方法的总体架构图。给出本发明的联机手写汉字识别阶段和关键笔画可视化评估阶段的模块设计、数据流向与相互作用。如图1所示,本发明的方法流程包括:
第一步、联机手写汉字识别阶段,具体流程为:
(1)数据预处理模块接收联机手写汉字字符原始轨迹坐标序列,对坐标数据进行预处理,包括坐标归一化、坐标点下采样;
(2)基于神经网络的特征提取模块,是一个门控循环单元类型的递归神经网络,接收数据预处理模块处理过的坐标数据,即字符样本坐标序列,经过递归神经网络的计算生成对应各个时刻的神经网络顶层状态向量,即字符样本特征;
(3)局部自注意力模块接收基于神经网络的特征提取模块产生的状态向量,经过计算生成各时刻顶层状态向量对应的权值,并结合权值计算所有状态向量的加权和;
(4)分类模块接收局部自注意力模块输出的结果,通过softmax分类器基于神经网络的特征提取模块提取的字符样本特征进行分类,分类模块包含一个全连接层和一个softmax分类器。
第二步、联机手写汉字关键笔画可视化评估阶段,具体流程为:
(1)权值二值化模块接收局部自注意力机制模块产生的权值信息,设定特定的阈值,将接收到的权值二值化;
(2)关键笔画显示模块,是结合权值二值化模块二值化后的权重信息以及数据预处理模块处理过的字符样本轨迹坐标数据,将输入字符样本的关键笔画显示出来,对当前的输入字符样本的坐标轨迹点的重要程度做一个可视化的评估;关键笔画显示模块是一个基于opencv的显示模块,将二值化权重作为一个mask,与字符样本坐标序列相乘,即将字符坐标序列中对应权重为0的坐标点擦除,并将最终的结果显示出来。
所述数据预处理模块的实现方法具体包括:
(1)对于给定的字符,字符坐标序列中所有坐标点(mt,nt)都归一化到[0,64]的范围之内,t=1,2,…,T;T为整数;
Figure BDA0002698862500000101
(2)将字符的坐标序列进一步归一化,使得所有的坐标点的均值为0,即
Figure BDA0002698862500000102
其中,
Figure BDA0002698862500000103
Figure BDA0002698862500000104
分别代表相应所有横坐标m′t和纵坐标n′t的平均值,在后续的描述中,出现的所有mt和nt均表示经过上述预处理之后的数据。
图2为基于神经网络的特征提取模块的网络结构示意图,给出本发明中使用的递归神经网络的基本结构。基于神经网络的特征提取模块的实现方法主要包括:
对于联机手写汉字样本,原始数据其实是一系列点坐标的序列。对于序列的识别,递归神经网络(RNN)是最好的选择之一。以联机手写汉字样本的坐标点序列为系统的输入,x=(x1,x2,…,xt,…,xT),其中,xt=(mt,nt),mt和nt分别代表坐标点序列在时刻t的横坐标和纵坐标,将这些坐标点送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure BDA0002698862500000111
Figure BDA0002698862500000112
其中,
Figure BDA0002698862500000113
表示在时刻t,第n层的隐含层状态向量,
Figure BDA0002698862500000114
表示计算第一个隐含层的函数,
Figure BDA0002698862500000115
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数,经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure BDA0002698862500000116
在本发明中,使用的是门控循环单元(Gated Recurrent Unit)类型的递归神经网络。
图3为局部自注意力模块的计算流程示意图,给出本发明中局部自注意力权重的计算流程,图中只列出了递归神经网络中正向计算得出的顶层状态向量对应的注意力权重的计算。所述局部自注意力模块的实现方法包括:
计算递归神经网络顶层状态向量
Figure BDA0002698862500000117
对应的权重向量,并求相应的加权和:
(4)引入参数矩阵W和参数向量p,将矩阵
Figure BDA0002698862500000118
转化为一维向量:
z=p tanh(WH)
其中,递归神经网络顶层状态向量的维度为u,那么矩阵H是一个u×T维的矩阵,矩阵W是一个d×u维的矩阵,两个矩阵的乘积WH是一个d×T维的矩阵,向量p是一个维度为d的行向量,通过计算得到向量z,它的维度为T。
(5)对向量z使用softmax归一化,得到对应T个时刻状态向量
Figure BDA0002698862500000121
的权重向量a:
a=softmax(z)
其中,a是一个维度为T的向量,a中的T个元素分别代表T个时刻状态向量
Figure BDA0002698862500000122
的权重。
(6)结合权重向量a求T个时刻状态向量
Figure BDA0002698862500000123
的加权和:
Figure BDA0002698862500000124
其中,aT表示向量a=(a1,a2,…,at,…,aT)的转置。
局部自注意力模块接收神经网络顶层的状态向量,计算状态向量对应的权重向量,并计算T个时刻状态向量
Figure BDA0002698862500000125
的加权和输出给分类模块。
所述分类模块的实现方法包括:
(1)将局部自注意力模块输出的向量f通过全连接层映射到与字符类别数相同的维度上,假设类别数为K,则输出向量
y=by+Wfyf
其中,Wfy全连接层的参数矩阵,维度为K×u,by对应全连接层的偏置向量。
(2)使用softmax分类器进行分类:
通过softmax分类器的计算,会生成对应于K个类别的概率分布,这个概率分布用于判别当前字符属于哪个类别;具体地,给定一个字符样本x(i),通过前述各模块的计算生成对应的输出向量
Figure BDA0002698862500000131
Figure BDA0002698862500000132
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure BDA0002698862500000133
其中,θ表示参与计算的所有参数的集合;根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入字符的类别:
Figure BDA0002698862500000134
神经网络训练过程中的损失函数为:
Figure BDA0002698862500000135
Figure BDA0002698862500000136
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
所述权重二值化模块的实现方法包括:
给定一个特定的阈值r,二值化权重向量
Figure BDA0002698862500000137
中的元素
Figure BDA0002698862500000138
通过如下方法算出:
Figure BDA0002698862500000139
其中at为权重向量a中的元素。
图4为关键笔画显示模块显示的图像示意图,给出本发明中关键笔画评估的可视化结果。所述关键笔画显示模块的实现方法包括:
给定字符输入样本x(i),轨迹坐标序列为(x1,x2,…,xt,…,xT),二值化权重向量
Figure BDA0002698862500000141
将字符样本轨迹坐标序列中对应二值化权重为零的轨迹坐标点移除,将剩余的坐标轨迹显示出来,对应二值化权重为1的坐标点,即在识别过程中其关键作用的坐标点,将这些坐标点连接起来,便是联机手写汉字字符中对识别其关键作用的笔画,即做到了联机手写汉字识别中关键笔画可视化评估。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种联机手写汉字识别算法及可视化关键笔画评估方法,其特征在于,包括:
第一步、联机手写汉字识别阶段,具体流程为:
(1)数据预处理模块接收联机手写汉字字符原始轨迹坐标序列,对坐标数据进行预处理;
(2)基于神经网络的特征提取模块,接收数据预处理模块处理过的坐标数据,即字符样本坐标序列,经过递归神经网络的计算生成对应各个时刻的神经网络顶层状态向量,即字符样本特征;
(3)局部自注意力模块接收基于神经网络的特征提取模块产生的状态向量,经过计算生成各时刻顶层状态向量对应的权值,并结合权值计算所有状态向量的加权和;
(4)分类模块接收局部自注意力模块输出的结果,通过softmax分类器基于神经网络的特征提取模块提取的字符样本特征进行分类;
第二步、联机手写汉字关键笔画可视化评估阶段,具体流程为:
(1)权值二值化模块接收局部自注意力机制模块产生的权值信息,设定特定的阈值,将接收到的权值二值化;
(2)关键笔画显示模块,是结合权值二值化模块二值化后的权重信息以及数据预处理模块处理过的字符样本轨迹坐标数据,将输入字符样本的关键笔画显示出来,对当前的输入字符样本的坐标轨迹点的重要程度做一个可视化的评估。
2.如权利要求1所述的方法,其特征在于,所述数据预处理模块对坐标数据进行预处理,包括坐标归一化、坐标点下采样。
3.如权利要求2所述的方法,其特征在于,所述基于神经网络的特征提取模块,是一个门控循环单元类型的递归神经网络。
4.如权利要求3所述的方法,其特征在于,所述分类模块包含一个全连接层和一个softmax分类器。
5.如权利要求4所述的方法,其特征在于,所述关键笔画显示模块是一个基于opencv的显示模块,将二值化权重作为一个mask,与字符样本坐标序列相乘,即将字符坐标序列中对应权重为0的坐标点擦除,并将最终的结果显示出来。
6.如权利要求5所述的方法,其特征在于,所述数据预处理模块的实现方法具体包括:
(1)对于给定的字符,字符坐标序列中所有坐标点(mt,nt)都归一化到[0,64]的范围之内,t=1,2,…,T;T为整数;
Figure FDA0002698862490000021
(2)将字符的坐标序列进一步归一化,使得所有的坐标点的均值为0,即
Figure FDA0002698862490000022
其中,
Figure FDA0002698862490000023
Figure FDA0002698862490000024
分别代表相应所有横坐标m′t和纵坐标n′t的平均值,在后续出现的所有mt和nt均表示经过预处理之后的数据。
7.如权利要求6所述的方法,其特征在于,所述基于神经网络的特征提取模块的实现方法包括:
对于联机手写汉字样本,原始数据其实是一系列点坐标的序列,以联机手写汉字样本的坐标点序列为系统的输入,x=(x1,x2,...,xt,...,xT),其中,xt=(mt,nt),mt和nt分别代表坐标点序列在时刻t的横坐标和纵坐标,将这些坐标点送入递归神经网络进行计算,在神经网络的顶层得到一系列的隐含层状态向量,在每个时刻,神经网络计算过程如下:
Figure FDA0002698862490000031
Figure FDA0002698862490000032
其中,
Figure FDA0002698862490000033
表示在时刻t,第n层的隐含层状态向量,
Figure FDA0002698862490000034
表示计算第一个隐含层的函数,
Figure FDA0002698862490000035
表示计算第n个隐含层的函数,θ1,θn表示相应层的神经网络的参数,经过T个时刻的迭代,在神经网络的顶层产生T个隐含层状态
Figure FDA0002698862490000036
8.如权利要求7所述的方法,其特征在于,所述局部自注意力模块的实现方法包括:
计算递归神经网络顶层状态向量
Figure FDA0002698862490000037
对应的权重向量,并求相应的加权和:
(1)引入参数矩阵W和参数向量p,将矩阵
Figure FDA0002698862490000038
转化为一维向量:
z=p tanh(WH)
其中,递归神经网络顶层状态向量的维度为u,那么矩阵H是一个u×T维的矩阵,矩阵W是一个d×u维的矩阵,两个矩阵的乘积WH是一个d×T维的矩阵,向量p是一个维度为d的行向量,通过计算得到向量z,它的维度为T;
(2)对向量z使用softmax归一化,得到对应T个时刻状态向量
Figure FDA0002698862490000041
的权重向量a:
a=softmax(z)
其中,a是一个维度为T的向量,a中的T个元素分别代表T个时刻状态向量
Figure FDA0002698862490000042
的权重。
(3)结合权重向量a求T个时刻状态向量
Figure FDA0002698862490000043
的加权和:
Figure FDA0002698862490000044
其中,aT表示向量a=(a1,a2,…,at,…,aT)的转置。
局部自注意力模块接收神经网络顶层的状态向量,计算状态向量对应的权重向量,并计算T个时刻状态向量
Figure FDA0002698862490000045
的加权和输出给分类模块。
9.如权利要求8所述的方法,其特征在于,所述分类模块的实现方法包括:
(1)将局部自注意力模块输出的向量f通过全连接层映射到与字符类别数相同的维度上,假设类别数为K,则输出向量
y=by+Wfyf
其中,Wfy全连接层的参数矩阵,维度为K×u,by对应全连接层的偏置向量;
(2)使用softmax分类器进行分类:
通过softmax分类器的计算,会生成对应于K个类别的概率分布,这个概率分布用于判别当前字符属于哪个类别;具体地,给定一个字符样本x(i),通过前述各模块的计算生成对应的输出向量
Figure FDA0002698862490000046
Figure FDA0002698862490000051
通过softmax分类器的计算生成对应K个类别的概率分布,其中对应类别标签C(i)=l,l=1,2,…,K的概率值为:
Figure FDA0002698862490000052
其中,θ表示参与计算的所有参数的集合;根据计算出来的概率分布,取概率值最大的项对应的字符类别标签判断为当前输入字符的类别:
Figure FDA0002698862490000053
神经网络训练过程中的损失函数为:
Figure FDA0002698862490000054
Figure FDA0002698862490000055
其中,J(θ)表示损失函数,Y{i}表示训练样本真实类别标签,m表示参与训练的样本的总数。
10.如权利要求9所述的方法,其特征在于,所述权重二值化模块的实现方法包括:
给定一个特定的阈值r,二值化权重向量
Figure FDA0002698862490000057
中的元素
Figure FDA0002698862490000058
通过如下方法算出:
Figure FDA0002698862490000056
其中at为权重向量a中的元素;
所述关键笔画显示模块的实现方法包括:
给定字符输入样本x(i),轨迹坐标序列为(x1,x2,...,xt,...,xT),二值化权重向量
Figure FDA0002698862490000061
将字符样本轨迹坐标序列中对应二值化权重为零的轨迹坐标点移除,将剩余的坐标轨迹显示出来,对应二值化权重为1的坐标点,即在识别过程中其关键作用的坐标点,将这些坐标点连接起来,则做到了联机手写汉字识别中关键笔画可视化评估。
CN202011015320.6A 2020-09-24 2020-09-24 联机手写汉字识别算法及可视化关键笔画评估方法 Active CN112132050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011015320.6A CN112132050B (zh) 2020-09-24 2020-09-24 联机手写汉字识别算法及可视化关键笔画评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011015320.6A CN112132050B (zh) 2020-09-24 2020-09-24 联机手写汉字识别算法及可视化关键笔画评估方法

Publications (2)

Publication Number Publication Date
CN112132050A true CN112132050A (zh) 2020-12-25
CN112132050B CN112132050B (zh) 2024-03-29

Family

ID=73839960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011015320.6A Active CN112132050B (zh) 2020-09-24 2020-09-24 联机手写汉字识别算法及可视化关键笔画评估方法

Country Status (1)

Country Link
CN (1) CN112132050B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537472A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络
CN116432521A (zh) * 2023-03-21 2023-07-14 浙江大学 一种基于多模态重建约束的手写汉字识别和检索方法
CN116758557A (zh) * 2023-06-21 2023-09-15 厦门理工学院 一种基于浅层图神经网络的联机手写笔画分类方法
CN117315790A (zh) * 2023-11-28 2023-12-29 恒银金融科技股份有限公司 手部书写动作的分析方法和智能笔

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0624853A2 (en) * 1993-05-12 1994-11-17 International Business Machines Corporation Hybrid on-line handwriting recognition and optical character recognition system
CN101110006A (zh) * 2006-07-19 2008-01-23 富士通株式会社 手写输入方法
CN101604378A (zh) * 2009-07-10 2009-12-16 华南理工大学 一种用于联机手写汉字识别的汉字笔画特征串行提取方法
CN103390358A (zh) * 2013-07-03 2013-11-13 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108664975A (zh) * 2018-04-24 2018-10-16 新疆大学 一种维吾尔文手写字母识别方法、系统及电子设备
CN109102037A (zh) * 2018-06-04 2018-12-28 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
CN110188669A (zh) * 2019-05-29 2019-08-30 华南理工大学 一种基于注意力机制的空中手写字符轨迹恢复方法
US20200143191A1 (en) * 2018-11-02 2020-05-07 Iflytek Co., Ltd. Method, apparatus and storage medium for recognizing character
CN111475667A (zh) * 2020-04-08 2020-07-31 西北农林科技大学 一种基于手写汉字的机械臂楷体风格书法撰写方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0624853A2 (en) * 1993-05-12 1994-11-17 International Business Machines Corporation Hybrid on-line handwriting recognition and optical character recognition system
CN101110006A (zh) * 2006-07-19 2008-01-23 富士通株式会社 手写输入方法
CN101604378A (zh) * 2009-07-10 2009-12-16 华南理工大学 一种用于联机手写汉字识别的汉字笔画特征串行提取方法
CN103390358A (zh) * 2013-07-03 2013-11-13 广东小天才科技有限公司 对电子设备的字符书写操作进行规范性判断的方法及装置
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN108664975A (zh) * 2018-04-24 2018-10-16 新疆大学 一种维吾尔文手写字母识别方法、系统及电子设备
CN109102037A (zh) * 2018-06-04 2018-12-28 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
US20200143191A1 (en) * 2018-11-02 2020-05-07 Iflytek Co., Ltd. Method, apparatus and storage medium for recognizing character
CN110188669A (zh) * 2019-05-29 2019-08-30 华南理工大学 一种基于注意力机制的空中手写字符轨迹恢复方法
CN111475667A (zh) * 2020-04-08 2020-07-31 西北农林科技大学 一种基于手写汉字的机械臂楷体风格书法撰写方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIANSHU ZHANG 等: "A GRU-based Encoder-Decoder Approach with Attention for Online Handwritten Mathematical Expression Recognition", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》, pages 1 - 6 *
VICTOR CARBUNE 等: "Fast multi-language LSTM-based online handwriting recognition", 《INTERNATIONAL JOURNAL ON DOCUMENT ANALYSIS AND RECOGNITION》, pages 89 *
庄子明: "基于深度学习的手写汉字识别与美感评分", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 1127 *
张文君: "基于编码器—解码器的联机手写数学公式识别方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 1939 *
肖文斌: "基于编码器—解码器和注意力机制神经网络的数学公式识别方法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 600 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537472A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络
CN113537472B (zh) * 2021-07-26 2024-04-09 北京计算机技术及应用研究所 一种低计算和存储消耗的双向递归神经网络的构建方法
CN116432521A (zh) * 2023-03-21 2023-07-14 浙江大学 一种基于多模态重建约束的手写汉字识别和检索方法
CN116432521B (zh) * 2023-03-21 2023-11-03 浙江大学 一种基于多模态重建约束的手写汉字识别和检索方法
CN116758557A (zh) * 2023-06-21 2023-09-15 厦门理工学院 一种基于浅层图神经网络的联机手写笔画分类方法
CN116758557B (zh) * 2023-06-21 2024-04-05 厦门理工学院 一种基于浅层图神经网络的联机手写笔画分类方法
CN117315790A (zh) * 2023-11-28 2023-12-29 恒银金融科技股份有限公司 手部书写动作的分析方法和智能笔
CN117315790B (zh) * 2023-11-28 2024-03-19 恒银金融科技股份有限公司 手部书写动作的分析方法和智能笔

Also Published As

Publication number Publication date
CN112132050B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112132050B (zh) 联机手写汉字识别算法及可视化关键笔画评估方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
Suen et al. Building a new generation of handwriting recognition systems
CN111414862B (zh) 基于神经网络融合关键点角度变化的表情识别方法
CN107194418B (zh) 一种基于对抗特征学习的水稻蚜虫检测方法
CN108509881A (zh) 一种无切分的脱机手写汉字文本识别方法
CN108537168B (zh) 基于迁移学习技术的面部表情识别方法
CN111260568B (zh) 基于多辨别器对抗网络的碑帖二值化背景噪声去除方法
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
Truong et al. Vietnamese handwritten character recognition using convolutional neural network
CN115620312A (zh) 跨模态字符笔迹验证方法、系统、设备及存储介质
Qin et al. Finger-vein quality assessment based on deep features from grayscale and binary images
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
Dlamini et al. Developing a surface mount technology defect detection system for mounted devices on printed circuit boards using a MobileNetV2 with Feature Pyramid Network
Khudeyer et al. Combination of machine learning algorithms and Resnet50 for Arabic Handwritten Classification
CN114220178A (zh) 基于通道注意力机制的签名鉴别系统及方法
Sethia et al. Gesture recognition for American sign language using Pytorch and Convolutional Neural Network
Dan et al. S-Swin Transformer: simplified Swin Transformer model for offline handwritten Chinese character recognition
CN112651323A (zh) 一种基于文本行检测的中文手写体识别方法及系统
Shinde et al. Feedforward back propagation neural network (FFBPNN) based approach for the identification of handwritten math equations
Oktaviani et al. Optical character recognition for hangul character using artificial neural network
Huang et al. Recognition of blurring alphabet character on timing pulley drawing based on HALCON image processing technology
CN114359917A (zh) 一种手写汉字检测识别及字形评估方法
Alqudah et al. Shift and scale invariant recognition of printed numerals
Gotlur et al. Handwritten math equation solver using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant