CN112132050A

CN112132050A - 联机手写汉字识别算法及可视化关键笔画评估方法

Info

Publication number: CN112132050A
Application number: CN202011015320.6A
Authority: CN
Inventors: 任海青; 杨林; 王浩枫; 芦存博
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-25
Anticipated expiration: 2040-09-24
Also published as: CN112132050B

Abstract

本发明涉及一种联机手写汉字识别算法及可视化关键笔画评估方法，属于模式识别技术领域。本发明提出一种局部自注意力机制，能够通过神经网络自身产生对应各个时刻隐含层状态的注意力权重，通过这种注意力机制能够有效地提升联机手写汉字的识别精度。本发明提出了一种可视化的联机手写汉字识别中关键笔画评估方法，通过自注意力机制生成的权重，将输入字符样本轨迹坐标中对识别起关键作用的笔画(轨迹点或者轨迹段)显示出来，能够更直观的评估联机手写汉字字符样本中的关键笔画，分析神经网络学习字符样本时的方式。

Description

联机手写汉字识别算法及可视化关键笔画评估方法

技术领域

本发明属于模式识别技术领域，具体涉及一种联机手写汉字识别算法及可视化关键笔画评估方法。

背景技术

随着计算机技术的快速发展，尤其是手机等智能终端在人们生活中发挥越来越重要的作用，手写输入已成为一种面向智能终端的重要输入方式。具体来说，手写文字识别是指让传感器感知手指或笔等的书写轨迹或者通过摄像设备获取书写后的文字或符号的图像，并由计算机通过识别算法识别文字过程。联机手写汉字主要是指在触摸屏上书写的汉字，这类手写汉字的数据当中一般包含了笔画顺序、书写轨迹等时序信息。联机手写汉字识别处理的主要是以坐标点序列表示的笔尖移动轨迹，因而被处理的是一维的线条(笔画)串，这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息。

随着深度学习广泛发展，深度学习在联机手写汉字识别领域的应用取得了巨大的成功。递归神经网络、卷积神经网络都是联机手写汉字识别中最为常用的算法。对于联机手写汉字识别，联机手写汉字字符数据是一种典型的序列数据。递归神经网络是一种专门解决时间序列问题的神经网络，基于递归神经网络的算法能够学习到序列数据中天然的时序信息，因而比卷积神经网络更适用于联机手写汉字的识别。

当我们使用递归神经网络进行手写汉字识别时，递归神经网络每一时刻接收手写汉字轨迹中的一个坐标点，通过计算，在神经网络的顶层生成相应时刻的隐含层状态向量。每一个隐含层状态向量都与输入字符样本轨迹中相应时刻的轨迹点相对应。目前使用递归神经网络进行联机手写汉字识别的任务中，一般都是将神经网络顶层产生的所有时刻的隐含层状态求和或者求均值作为神经网络的输出，也就是输入字符样本的特征。这种对所有时刻的隐含层状态求和或者求均值的算法意味着轨迹中所有的坐标点对于识别当前输入字符样本来讲同等重要。然而，同一类字符，不同用户书写的方式不同，导致了同一类字符不同样本的书写轨迹千差万别。这样，在识别字符样本的过程中，就会有一些轨迹点或者轨迹段对当前样本的识别并不重要，甚至还会产生负面影响。

手写汉字中关键笔画的评估是在手写汉字识别过程中，对要识别的手写汉字中的笔画(轨迹点或者轨迹段)定性或者定量地分析评价其对识别结果的影响。

近年来，相关的联机手写汉字识别的研究取得了一系列重要的成果，识别精度上大幅度提升，但是仍存在以下两点不足之处：

(1)现有的联机手写汉字识别算法只是不断地通过改进算法提高识别精度，并没有对字符样本轨迹本身进行关键笔画的分析。

(2)现有的基于递归神经网络的联机手写汉字识别算法没有引入自注意力机制来对各个时刻的隐含层状态向量进行融合，通过引入自注意力机制可以区分输入样本中不同的轨迹点对识别样本的重要程度。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何实现联机手写汉字字符样本中各轨迹点对系统识别样本的重要程度的评估。

(二)技术方案

为了解决上述技术问题，本发明提供了一种联机手写汉字识别算法及可视化关键笔画评估方法，包括：

第一步、联机手写汉字识别阶段，具体流程为：

(1)数据预处理模块接收联机手写汉字字符原始轨迹坐标序列，对坐标数据进行预处理；

(2)基于神经网络的特征提取模块，接收数据预处理模块处理过的坐标数据，即字符样本坐标序列，经过递归神经网络的计算生成对应各个时刻的神经网络顶层状态向量，即字符样本特征；

(3)局部自注意力模块接收基于神经网络的特征提取模块产生的状态向量，经过计算生成各时刻顶层状态向量对应的权值，并结合权值计算所有状态向量的加权和；

(4)分类模块接收局部自注意力模块输出的结果，通过softmax分类器基于神经网络的特征提取模块提取的字符样本特征进行分类；

第二步、联机手写汉字关键笔画可视化评估阶段，具体流程为：

(1)权值二值化模块接收局部自注意力机制模块产生的权值信息，设定特定的阈值，将接收到的权值二值化；

(2)关键笔画显示模块，是结合权值二值化模块二值化后的权重信息以及数据预处理模块处理过的字符样本轨迹坐标数据，将输入字符样本的关键笔画显示出来，对当前的输入字符样本的坐标轨迹点的重要程度做一个可视化的评估。

优选地，所述数据预处理模块对坐标数据进行预处理，包括坐标归一化、坐标点下采样。

优选地，所述基于神经网络的特征提取模块，是一个门控循环单元类型的递归神经网络。

优选地，所述分类模块包含一个全连接层和一个softmax分类器。

优选地，所述关键笔画显示模块是一个基于opencv的显示模块，将二值化权重作为一个mask，与字符样本坐标序列相乘，即将字符坐标序列中对应权重为0的坐标点擦除，并将最终的结果显示出来。

优选地，所述数据预处理模块的实现方法具体包括：

(1)对于给定的字符，字符坐标序列中所有坐标点(m_t,n_t)都归一化到[0,64]的范围之内,t＝1,2,…,T；T为整数；

(2)将字符的坐标序列进一步归一化，使得所有的坐标点的均值为0，即

其中，

和

分别代表相应所有横坐标m′_t和纵坐标n′_t的平均值，在后续出现的所有m_t和n_t均表示经过预处理之后的数据。

优选地，所述基于神经网络的特征提取模块的实现方法包括：

对于联机手写汉字样本，原始数据其实是一系列点坐标的序列，以联机手写汉字样本的坐标点序列为系统的输入，x＝(x₁,x₂,…,x_t,…,x_T)，其中，x_t＝(m_t,n_t)，m_t和n_t分别代表坐标点序列在时刻t的横坐标和纵坐标，将这些坐标点送入递归神经网络进行计算，在神经网络的顶层得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示在时刻t，第n层的隐含层状态向量，

表示计算第一个隐含层的函数，

表示计算第n个隐含层的函数，θ₁，θ_n表示相应层的神经网络的参数，经过T个时刻的迭代，在神经网络的顶层产生T个隐含层状态

优选地，所述局部自注意力模块的实现方法包括：

计算递归神经网络顶层状态向量

对应的权重向量，并求相应的加权和：

(1)引入参数矩阵W和参数向量p，将矩阵

转化为一维向量：

z＝p tanh(WH)

其中，递归神经网络顶层状态向量的维度为u，那么矩阵H是一个u×T维的矩阵，矩阵W是一个d×u维的矩阵，两个矩阵的乘积WH是一个d×T维的矩阵，向量p是一个维度为d的行向量，通过计算得到向量z，它的维度为T；

(2)对向量z使用softmax归一化，得到对应T个时刻状态向量

的权重向量a:

a＝softmax(z)

其中，a是一个维度为T的向量，a中的T个元素分别代表T个时刻状态向量

的权重。

(3)结合权重向量a求T个时刻状态向量

的加权和：

其中，a^T表示向量a＝(a₁,a₂,…,a_t,…,a_T)的转置。

局部自注意力模块接收神经网络顶层的状态向量，计算状态向量对应的权重向量，并计算T个时刻状态向量

的加权和输出给分类模块。

优选地，所述分类模块的实现方法包括：

(1)将局部自注意力模块输出的向量f通过全连接层映射到与字符类别数相同的维度上，假设类别数为K，则输出向量

y＝b_y+W_fyf

其中，W_fy全连接层的参数矩阵，维度为K×u，b_y对应全连接层的偏置向量；

(2)使用softmax分类器进行分类：

通过softmax分类器的计算，会生成对应于K个类别的概率分布，这个概率分布用于判别当前字符属于哪个类别；具体地，给定一个字符样本x⁽ⁱ⁾，通过前述各模块的计算生成对应的输出向量

通过softmax分类器的计算生成对应K个类别的概率分布，其中对应类别标签C⁽ⁱ⁾＝l,l＝1,2,…,K的概率值为：

其中，θ表示参与计算的所有参数的集合；根据计算出来的概率分布，取概率值最大的项对应的字符类别标签判断为当前输入字符的类别：

神经网络训练过程中的损失函数为：

其中，J(θ)表示损失函数，Y^{i}表示训练样本真实类别标签，m表示参与训练的样本的总数。

优选地，所述权重二值化模块的实现方法包括：

给定一个特定的阈值r，二值化权重向量

中的元素

通过如下方法算出：

其中a_t为权重向量a中的元素；

所述关键笔画显示模块的实现方法包括：

给定字符输入样本x⁽ⁱ⁾，轨迹坐标序列为(x₁,x₂,…,x_t,…,x_T)，二值化权重向量

将字符样本轨迹坐标序列中对应二值化权重为零的轨迹坐标点移除，将剩余的坐标轨迹显示出来，对应二值化权重为1的坐标点，即在识别过程中其关键作用的坐标点，将这些坐标点连接起来，则做到了联机手写汉字识别中关键笔画可视化评估。

(三)有益效果

本发明提出一种局部自注意力机制，能够通过神经网络自身产生对应各个时刻隐含层状态的注意力权重，通过这种注意力机制能够有效地提升联机手写汉字的识别精度。本发明提出了一种可视化的联机手写汉字识别中关键笔画评估方法，通过自注意力机制生成的权重，将输入字符样本轨迹坐标中对识别起关键作用的笔画(轨迹点或者轨迹段)显示出来，能够更直观的评估联机手写汉字字符样本中的关键笔画，分析神经网络学习字符样本时的方式。

附图说明

图1为基于递归神经网络的联机手写汉字识别及关键笔画可视化评估方法实现的总体架构图；

图2为神经网络计算模块的网络结构示意图；

图3为局部自注意力模块的计算流程示意图；

图4为关键笔画显示模块显示的图像示意图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供一种基于递归神经网络的联机手写汉字识别算法及关键笔画评估方法。这种方法实现了联机手写汉字字符样本中各轨迹点对系统识别样本的重要程度的评估，在一定程度上解释了神经网络学习字符样本时，样本中哪些轨迹点起了相对重要的作用。

本发明面向常见的联机手写汉字识别任务，是指基于触摸屏的手写汉字以及基于手势的空中手写汉字。

本发明的一种基于递归神经网络的联机手写汉字识别算法及可视化关键笔画评估方法，涵盖联机手写汉字识别和字符关键笔画分析两个阶段。首先在手写汉字识别阶段，提出了一种带有自注意力机制的递归神经网络算法，这种算法对神经网络顶层每一时刻的隐含层状态向量都生成一个相应的权值，然后使用这些权值对所有时刻顶层的状态向量求加权和作为神经网络的输出，通过使用这种自注意力机制，提高了联机手写汉字的识别精度。其次，神经网络训练完成后，给定输入字符样本，将对应的各个轨迹点的权值提取出来，使用特定的阈值将权值向量二值化，与输入字符样本轨迹相结合，对输入字符轨迹中各轨迹点的重要程度做一个可视化评估。

图1为基于递归神经网络的联机手写汉字识别及关键笔画可视化评估方法的总体架构图。给出本发明的联机手写汉字识别阶段和关键笔画可视化评估阶段的模块设计、数据流向与相互作用。如图1所示，本发明的方法流程包括：

第一步、联机手写汉字识别阶段，具体流程为：

(1)数据预处理模块接收联机手写汉字字符原始轨迹坐标序列，对坐标数据进行预处理，包括坐标归一化、坐标点下采样；

(2)基于神经网络的特征提取模块，是一个门控循环单元类型的递归神经网络，接收数据预处理模块处理过的坐标数据，即字符样本坐标序列，经过递归神经网络的计算生成对应各个时刻的神经网络顶层状态向量，即字符样本特征；

(4)分类模块接收局部自注意力模块输出的结果，通过softmax分类器基于神经网络的特征提取模块提取的字符样本特征进行分类，分类模块包含一个全连接层和一个softmax分类器。

(2)关键笔画显示模块，是结合权值二值化模块二值化后的权重信息以及数据预处理模块处理过的字符样本轨迹坐标数据，将输入字符样本的关键笔画显示出来，对当前的输入字符样本的坐标轨迹点的重要程度做一个可视化的评估；关键笔画显示模块是一个基于opencv的显示模块，将二值化权重作为一个mask，与字符样本坐标序列相乘，即将字符坐标序列中对应权重为0的坐标点擦除，并将最终的结果显示出来。

所述数据预处理模块的实现方法具体包括：

其中，

和

分别代表相应所有横坐标m′_t和纵坐标n′_t的平均值，在后续的描述中，出现的所有m_t和n_t均表示经过上述预处理之后的数据。

图2为基于神经网络的特征提取模块的网络结构示意图，给出本发明中使用的递归神经网络的基本结构。基于神经网络的特征提取模块的实现方法主要包括：

对于联机手写汉字样本，原始数据其实是一系列点坐标的序列。对于序列的识别，递归神经网络(RNN)是最好的选择之一。以联机手写汉字样本的坐标点序列为系统的输入，x＝(x₁,x₂,…,x_t,…,x_T)，其中，x_t＝(m_t,n_t)，m_t和n_t分别代表坐标点序列在时刻t的横坐标和纵坐标，将这些坐标点送入递归神经网络进行计算，在神经网络的顶层得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：

其中，

表示在时刻t，第n层的隐含层状态向量，

表示计算第一个隐含层的函数，

在本发明中，使用的是门控循环单元(Gated Recurrent Unit)类型的递归神经网络。

图3为局部自注意力模块的计算流程示意图，给出本发明中局部自注意力权重的计算流程，图中只列出了递归神经网络中正向计算得出的顶层状态向量对应的注意力权重的计算。所述局部自注意力模块的实现方法包括：

计算递归神经网络顶层状态向量

对应的权重向量，并求相应的加权和：

(4)引入参数矩阵W和参数向量p，将矩阵

转化为一维向量：

z＝p tanh(WH)

其中，递归神经网络顶层状态向量的维度为u，那么矩阵H是一个u×T维的矩阵，矩阵W是一个d×u维的矩阵，两个矩阵的乘积WH是一个d×T维的矩阵，向量p是一个维度为d的行向量，通过计算得到向量z，它的维度为T。

(5)对向量z使用softmax归一化，得到对应T个时刻状态向量

的权重向量a:

a＝softmax(z)

的权重。

(6)结合权重向量a求T个时刻状态向量

的加权和：

其中，a^T表示向量a＝(a₁,a₂,…,a_t,…,a_T)的转置。

的加权和输出给分类模块。

所述分类模块的实现方法包括：

y＝b_y+W_fyf

其中，W_fy全连接层的参数矩阵，维度为K×u，b_y对应全连接层的偏置向量。

(2)使用softmax分类器进行分类：

神经网络训练过程中的损失函数为：

所述权重二值化模块的实现方法包括：

给定一个特定的阈值r，二值化权重向量

中的元素

通过如下方法算出：

其中a_t为权重向量a中的元素。

图4为关键笔画显示模块显示的图像示意图，给出本发明中关键笔画评估的可视化结果。所述关键笔画显示模块的实现方法包括：

将字符样本轨迹坐标序列中对应二值化权重为零的轨迹坐标点移除，将剩余的坐标轨迹显示出来，对应二值化权重为1的坐标点，即在识别过程中其关键作用的坐标点，将这些坐标点连接起来，便是联机手写汉字字符中对识别其关键作用的笔画，即做到了联机手写汉字识别中关键笔画可视化评估。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种联机手写汉字识别算法及可视化关键笔画评估方法，其特征在于，包括：

第一步、联机手写汉字识别阶段，具体流程为：

2.如权利要求1所述的方法，其特征在于，所述数据预处理模块对坐标数据进行预处理，包括坐标归一化、坐标点下采样。

3.如权利要求2所述的方法，其特征在于，所述基于神经网络的特征提取模块，是一个门控循环单元类型的递归神经网络。

4.如权利要求3所述的方法，其特征在于，所述分类模块包含一个全连接层和一个softmax分类器。

5.如权利要求4所述的方法，其特征在于，所述关键笔画显示模块是一个基于opencv的显示模块，将二值化权重作为一个mask，与字符样本坐标序列相乘，即将字符坐标序列中对应权重为0的坐标点擦除，并将最终的结果显示出来。

6.如权利要求5所述的方法，其特征在于，所述数据预处理模块的实现方法具体包括：

(1)对于给定的字符，字符坐标序列中所有坐标点(m_t，n_t)都归一化到[0，64]的范围之内，t＝1，2，…，T；T为整数；

其中，

和

7.如权利要求6所述的方法，其特征在于，所述基于神经网络的特征提取模块的实现方法包括：

对于联机手写汉字样本，原始数据其实是一系列点坐标的序列，以联机手写汉字样本的坐标点序列为系统的输入，x＝(x₁，x₂，...，x_t，...，x_T)，其中，x_t＝(m_t，n_t)，m_t和n_t分别代表坐标点序列在时刻t的横坐标和纵坐标，将这些坐标点送入递归神经网络进行计算，在神经网络的顶层得到一系列的隐含层状态向量，在每个时刻，神经网络计算过程如下：