CN111695527B

CN111695527B - 一种蒙古文在线手写体识别方法

Info

Publication number: CN111695527B
Application number: CN202010544102.5A
Authority: CN
Inventors: 飞龙; 杨帆; 李敏; 张晖; 高光来
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2022-07-08
Anticipated expiration: 2040-06-15
Also published as: CN111695527A

Abstract

本发明公开了一种蒙古文在线手写体识别方法，获取表征手写体蒙古文单词笔画轨迹的手写体蒙古文坐标序列，同时采用表达的蒙古文单词作为标注；依次对手写体蒙古文坐标序列进行平滑化、去噪、规范化处理；将手写体蒙古文坐标序列作为样本，并将对应标注作为样本标签，对样本及样本标签进行数据转换为样本张量和样本标签张量；构建基于注意力机制的序列模型，采用样本张量和样本标签张量训练模型；对待识别手写体蒙古文单词进行处理得到新的样本张量，并将新的样本张量输入基于注意力机制的序列模型中，得到待识别手写体蒙古文单词的概率矩阵；经蒙古文字典引导，采用集束搜索算法得到识别结果，有效提升识别准确度和效率，识别率达到79.88％。

Description

一种蒙古文在线手写体识别方法

技术领域

本发明属于文字识别技术领域，涉及一种蒙古文在线手写体识别方法。

背景技术

传统蒙古文在中国的内蒙古自治区、青海省、新疆维吾尔自治区等八个省区被广泛使用，但由于蒙古文数字化较晚，且传统蒙古文是世界上公认的信息处理过程最复杂的文字之一，而现有的机器学习技术多只用于离线蒙古文手写体识别。

在线蒙古文手写体识别的输入数据包括笔尖轨迹、笔尖抬起放下以及笔尖的移动速度等。其中包含着笔画和笔顺信息，将这些笔迹自然的分离开来，形成一个个字符，一旦能够将字符分离出来，剩下的问题就是把字符映射到有限的字符集合的问题，多数分类器都可以完成这些工作。然而在实际的应用场景下，从这样的手写文字中区分出单个字符是及其困难的，字符的切分误差会直接影响到分类准确率。所以一般来说，将识别单位从字符更换为整词可以降低分割过程产生的误差，然而，蒙古文常用词规模较大，如果将文字识别形式作为输入笔迹数据到百万级的目标分类问题，则系统将面临巨大的数据稀疏问题，无法达到理想的识别准确度。除了切分问题，在实现本发明过程中，发明人发现在线蒙古文手写体识别的实现还存在以下问题：

问题一，在线手写体识别通过利用笔画的数量和笔画的走向等信息进行分类，但是由于每个人都有不同习惯的书写方式，找到一维信息中特征的分布成为了一个非常困难的事情。

问题二，在线蒙古文手写体的信息比其它语言更复杂，蒙古文在线手写体的序列要比其它语言的序列更长。一般来说，越长的数据里包含的特征信息越大，而对于机器学习来说，特征信息过多造成了学习数据中特征分布的难度更大，分类的准确率和效率更低等问题。

问题三，一般在手写的过程中为了提高书写速度，会出现连笔的情况，连笔使得划分笔迹类型的问题变得更加困难。

综上可知，现有的在线蒙古文手写体识别方法的识别效率和识别准确度较低。

发明内容

本发明实施例的目的在于提供一种蒙古文在线手写体识别方法，以解决现有的蒙古文在线手写体识别方法的准确度和识别效率较低的问题。

本发明所采用的技术方案是，一种蒙古文在线手写体识别方法，按照以下步骤进行：

步骤S1、获取移动设备保存的表征手写体蒙古文单词笔画轨迹的坐标序列即手写体蒙古文坐标序列，同时采用该手写体蒙古文坐标序列表达的蒙古文单词作为标注；

步骤S2、对手写体蒙古文坐标序列进行平滑化处理；

步骤S3、对手写体蒙古文坐标序列进行去噪处理；

步骤S4、对手写体蒙古文坐标序列进行规范化处理，使得手写体蒙古文字体大小一致；

步骤S5、将一个手写体蒙古文坐标序列作为一个样本，并将样本对应的标注作为样本标签，对样本及样本标签进行数据转换，将其转换为深度学习模型能够处理的样本张量和样本标签张量；

步骤S6、构建基于注意力机制的序列模型，并采用样本张量和样本标签张量训练基于注意力机制的序列模型，基于注意力机制的序列模型输出的是由多个概率矩阵组成的三维张量，其第一个维度是样本数量即概率矩阵数量，第二个维度和第三个维度共同组成概率矩阵，第二个维度表示长度为25的预测序列的所有字符位，第三个维度是每个字符位对应所有分类的概率；

步骤S7、采用步骤S1～S5对待识别手写体蒙古文单词进行处理得到新的样本张量，并将新的样本张量输入训练后得到的基于注意力机制的序列模型中，得到待识别手写体蒙古文单词的概率矩阵；然后经蒙古文字典引导，采用集束搜索算法匹配最大概率的输出结果，得到蒙古文手写体识别结果。

本发明的有益效果是，提出一种蒙古文在线手写体识别方法，以蒙古文单词作为识别单位，相比以分割后的字符为识别单位的传统方法识别率大幅度提升，同时避免了将蒙古文单词切分成字符的错误率对识别结果的影响；采用相邻点坐标均值化对蒙古文单词序列进行平滑化处理，提高了坐标曲线的连续性，减少了局部区域笔画形状的变化，减小了同一字符的笔画差异；采用距离阈值和斜率阈值作为约束处理序列，实现序列去噪，大幅提升了模型的训练速度；用坐标序列点之间的特征，在数据转换的过程中，通过提取序列点的x坐标和y坐标，以及序列点之间的距离关系，包括当前序列点和上一个序列点的x坐标差值，当前序列点和上一个序列点的y坐标差值，作为特征进行学习，有效的获取了数据中的重要特征信息；采用包含注意力机制的序列到序列模型对手写体蒙古文坐标序列进行识别，利用注意力机制找到潜在的字符切分位置，大幅降低解码器的学习难度，识别准确率有了较大的提升，识别率达到79.88％。且利用集束搜索算法在概率矩阵中查找能够以最大概率输出预测的拉丁字符序列，大幅减小搜索空间，提高了搜索速度；采用压缩前缀字典的方法储存蒙语词典，减少了内存占用，提高了集束搜索过程的匹配速度；采用字典引导的方法约束集束搜索过程，提高了搜索匹配速度，优化了模型最终推荐的结果，有效解决了现有的在线蒙古文手写体识别方法的准确度和识别效率较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种蒙古文在线手写体识别方法的流程图。

图2是本发明实施例的手写体蒙古文坐标序列的去噪效果对比图。

图3是本发明实施例的序列长度和分类均为5的概率矩阵示意图。

图4是本发明实施例的基于注意力机制的序列模型的效果图。

图5是本发明实施例的前缀压缩字典树的示意图。

图6是本发明实施例的坐标序列特征值经过数据转换后的样本张量示例图。

图7是本发明实施例的蒙古文单词标注经过数据转换后的样本标签张量示例图。

图8是本发明实施例的最终识别结果的示例图。

图9是本发明施例训练得到的基于注意力机制的序列模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种蒙古文在线手写体识别方法，本发明实施例对手写回鹘式蒙古文进行识别，如图1，具体步骤如下：

步骤S1、获取手写体蒙古文坐标序列并将其存放在两级列表中：

计算机等移动设备通过一串离散的坐标点组成的序列表示直线或者曲线段，我们在手机、电脑等移动设备(包括手写板)的屏幕上手写的蒙古文单词，是通过与其对应的坐标序列来记录的手写数据，保存的这段坐标序列称为蒙古文单词序列或者蒙古文坐标序列，表征手写体蒙古文笔画轨迹。在进行在线蒙古文手写体识别时，首先需要获取输入信息即表征手写体蒙古文的手写体蒙古文坐标序列，保存的蒙古文坐标序列中，不同坐标点以；符号进行分割，不同连续的笔画以#符号进行分割，如“364,298#373,298；373,306；373,320；373,339；373,357；373,383；373,422；......”。在训练过程中，需要这段手写体蒙古文坐标序列表达的蒙古文单词作为标注，对待识别的手写体蒙古文进行识别的过程中，只需要这段手写体蒙古文坐标序列。然后，将手写体蒙古文坐标序列存放在计算机的列表中，更改为统一格式，如，“[[(364,298)],[(373,298),(373,306),(373,320),(373,339),(373,357),(373,383),(373,422),......]”，其中第一级列表存放手写体蒙古文的笔画轨迹，第二级列表存放每一连续不中断的笔画，第二级列表中每个节点存放构成该连续不中断的笔画的序列点的坐标(x,y)，表示该序列点的x坐标和y坐标。

步骤S2、对手写体蒙古文坐标序列进行平滑化处理：

在蒙古文坐标序列中，因为无意的抖动而形成的拐点大多数情况会被误认为关键点，从而得到错误的特征信息。通过平滑化处理，可以提高通过坐标还原的原手写蒙古文的轨迹曲线的连续性，减少局部区域笔画形状的变化。本发明实施例采用相邻序列点坐标均值化的方法对蒙古文单词序列进行平滑化处理，在每个笔画中，除去起始点和终止点，用每个序列点以及与其左右相邻的两个序列点的坐标均值代替该序列点的原始坐标，具体实现过程如下：

设x_i-1是第i-1个序列点的原始x坐标值，x_i是第i个序列点的原始x坐标值，x_i+1是第i+1个序列点的原始x坐标值，x_new是第i个序列点的新x坐标值即平滑化处理后第i个序列点的x坐标值，x_new的计算过程如公式(1-1)所示：

设y_i-1是第i-1个序列点的原始y坐标值，y_i是第i个序列点的原始y坐标值，y_i+1是第i+1个序列点的原始y坐标值，y_new是第i个序列点的新y坐标值即平滑化处理后第i个序列点的y坐标值，y_new的计算过程如公式(1-2)所示：

将手写轨迹进行平滑化处理，除了每一笔画的第一个序列点和最后一个序列点，其余序列点的坐标转为相邻序列点和自己坐标的平均值，则手写坐标序列变更为“[[(364,298)],[(373,298),(373,308),(373,321),(373,338),(373,359),(373,387),(373,421),......]”。

步骤S3、对手写体蒙古文坐标序列进行去噪处理：

经过平滑处理的蒙古文单词序列存在大量的噪声点，它们会降低模型训练效果，增大计算时间及内存的损耗，将这些噪声点去掉，可以有效压缩数据的大小，提升计算处理的速度。本发明实施例判断当前序列点是否为噪声点，需要满足以下两个约束条件：

约束一：该序列点与前一相邻序列点的直线距离小于指定的距离阈值；

约束二：该序列点和前一相邻序列点形成直线的斜率与该序列点和后一相邻序列点形成直线的斜率之差小于指定的斜率阈值；

若当前序列点同时满足上述两个约束条件，则判断该序列点为噪声点，并删除该序列点进行去噪。具体实现过程如下：

设平滑化处理后第i个序列点的坐标为(x_newi，y_newi)，考虑是否删除序列点i取决于两个条件：

第一个条件是判断序列点i坐标(x_newi，y_newi)与前一相邻序列点即第i-1个序列点坐标(x_newi-1，y_newi-1)的距离是否小于设定的阈值T_dist，判断过程如公式(2-1)：

第二个条件是基于余弦相似性，设Δx_i为第i个序列点的x坐标与第i-1个序列点的x坐标的差值，Δy_i为第i个序列点的y坐标与第i-1个序列点的y坐标的差值，Δx_i+1为第i+1个序列点的x坐标与第i个序列点的x坐标的差值，△y_i+1为第i+1个序列点的y坐标与第i个序列点的y坐标的差值，T_cos为设定的余弦相似度阈值，判断序列点i和序列点i-1的斜率与序列点i和序列点i+1的斜率之差是否小于设定的余弦相似度阈值T_cos，如公式(2-2)：

假如序列点i满足了以上公式(2-1)和公式(2-2)设置的阈值，则删除序列点i。因此序列点i-1、i再到i+1的曲线变成了序列点i-1到i+1的直线。通过这种数据清理处理方式，关键形状信息仍然得到很好的保留，新的数据序列中的所有点变得更具代表性，包含了原始数据的大部分重要信息，效果如图2，左侧的序列为源序列即平滑化处理后的蒙古文单词序列，右侧是经过去噪处理的蒙古文单词序列，经过去噪处理的蒙古文单词序列明显相比平滑化处理后的蒙古文单词序列更具有代表性。该点与前一相邻点的直线距离小于指定的距离阈值时，删除该点可以使得线段尽量去掉中间点，仅保留两端端点来表达。该点和前一相邻点形成直线的斜率与该点和后一相邻点形成直线的斜率之差小于指定的斜率阈值时，删除该点可以通过这种多边形代替曲线计算方式，有效保留关键信息。优化后的手写坐标序列变更为“[[(364,298)],[(373,298),(373,387),(373,480),(376,495),(302,500),(280,481),(274,390),......”，可以看出手写坐标序列包含的信息不再过于重复，坐标间的距离拉大，并且多为角度比较明显的拐点。

步骤S4、对手写体蒙古文坐标序列进行规范化处理：

由于移动设备屏幕尺寸大小多种多样，且每个用户的书写习惯不同，使得手写蒙古文字体数据的大小并不相同，并且经平滑化处理和去噪处理后的蒙古文单词序列长度不一致，所以需要对蒙古文单词序列进行规范化处理，才能更好的对其进行识别。

由于蒙古文是竖排书写，蒙古文的上下距离根据词的长度变化，为了保证缩放后的所有蒙古文大小相同，选择将蒙古文的宽度缩放到固定值，由于长度是可变化的，如果将长度缩放为固定值，越长的单词缩放后的单词宽度越窄，将会造成包含同样片段的蒙古文识别过程学习困难。例如a和abcdefg，同样包含a，但是由于后者和前者在宽度上表现的特征值相差过大将导致学习过程困难，而选择宽度缩放为固定值，同样是表达a的片段的数据几乎是一致的。

本申请将宽度缩放成固定的值计算出rata_x，再按照rata_x的比例对蒙古文单词序列的高度进行缩放；然后计算出所有蒙古文单词序列中最长的点数，对于小于最长的点数的蒙古文单词序列填充空白点，具体步骤流程如下：

步骤S41、设蒙古文单词序列的宽度固定值为Δx_w，遍历蒙古文单词序列的所有序列点的坐标(x_i，y_i)，得到所有序列点的x坐标的最小值x_min和最大值x_max以及y坐标的最小值y_min；

步骤S42、按照公式(4-1)和(4-2)，计算每个蒙古文单词序列的宽度值Δx_m以及比例rata_x值：

Δx_m＝x_max-x_min (4-1)

步骤S43、按照公式(4-3)和(4-4)对蒙古文单词序列的序列点坐标(x_i，y_i)进行缩放，得到缩放后的蒙古文单词序列的序列点坐标(x_zm，y_zm)：

x_zm＝(x_i-x_min)×rata_x (4-3)

y_zm＝(y_i-y_min)×rata_x (4-4)

步骤S44、对手写体蒙古文坐标序列的长度进行规范，计算缩放后的手写体蒙古文坐标序列的序列长度即序列点数量C，并从所有训练数据中获取手写体蒙古文坐标序列的最长序列点数C_max作为规范标注值，当缩放后的手写体蒙古文坐标序列的序列长度C小于C_max，对缩放后的手写体蒙古文坐标序列进行补零操作使其序列长度为C_max，当缩放后的手写体蒙古文坐标序列的序列长度C大于C_max，则对缩放后的手写体蒙古文坐标序列进行截断使其序列长度为C_max，C_max根据经验确定。

规范化后，手写坐标序列变更为“[[(0.53873239436619724,0.0)],[(0.57042253521126762,0.0),(0.57042253521126762,0.31338028169014087),(0.57042253521126762,0.64084507042253525),......”，规范化后的数据，数值分布集中，更容易计算。

步骤S5、将一个手写体蒙古文坐标序列作为一个样本，并将样本对应的标注作为样本标签，对样本及样本标签进行数据转换，将其转换为深度学习模型能够处理的样本张量和样本标签张量：

深度学习模型采用张量作为基本的数据结构，对蒙古文单词序列进行深度学习训练之前，需要将规范化处理后的蒙古文单词序列坐标数据转换为指定的张量类型。本发明实施例将一个蒙古文单词序列的坐标序列作为一个样本，并将样本对应的类作为样本的标签。由于我们的识别任务不仅是蒙古文单词，还包括了使用频率极高的常用数字和特殊符号，所以样本对应的类包括蒙古文名义字符对应的拉丁字符(aeiwvouEnNbphgmlsxtqdjyrWfkKczHRLZCI)36种、数字字符(0123456789)10种、特殊符号字符(-_'"&*^`！％/<＝>@×÷\,.:$？！！？？()《》+￥)31种，空白字符(#)，合计78种。每个样本的坐标序列都对应着一个由蒙古文类型、数字类型或特殊符号字符类型表示的字符序列，用与蒙古文对应的拉丁字符表示蒙古文名义字符，用数字字符本身表示数字，用特殊符号字符表示特殊符号，将空白字符、拉丁字符、数字字符、特殊符号字符按顺序封装为一个序列，得到对应的字符序列，即(#aeiwvouEnNbphgmlsxtqdjyrWfkKczHRLZCI-_'"&*^`！％/0123456789<＝>@×÷\,.:$？！！？？()《》+￥)，每个字符在字符序列中的编码即为其索引。

首先，将样本转换为三维张量，第一个维度为样本总数，训练过程中，训练数据中所有蒙古文单词的全部样本总和就是样本总数，进行在线手写体蒙古文识别时，同一时间仅对一个蒙古文单词进行识别，即只有一个蒙古文单词序列的坐标点集合，因此此处的样本总数为1；第二个维度为蒙古文单词序列的长度，取最长的蒙古文坐标序列的长度为规范长度，目前收集的坐标序列长度最长为410，所以规范所有蒙古文单词坐标序列为410；第三个维度为数据特征，数据特征利用序列中每个坐标点，选取点的横纵坐标，并计算相邻点之间的横纵距离，每个数据特征包含4个值的向量，具体为当前序列点x坐标，当前序列点y坐标，当前序列点和上一个序列点的x坐标差，当前序列点和上一个序列点的y坐标差这4个值，得到的三维的样本张量如图6所示。

其次，将标签转换为张量，通过采用编码表示蒙古文坐标序列对应的标签，具体实现过程如下：

步骤S51、判断当前样本标签是蒙古文单词、数字还是特殊符号，如是蒙古文，则采用拉丁字符对其进行表示，如是数字则采用数字字符本身进行表示，如是特殊符号则采用特殊符号字符本身进行表示，除了有意义的目标外，识别还需要判断出无意义的部分，并视作空白，空白用#号表示，得到样本标签的表示字符序列；

步骤S52、采用表示字符序列中每个字符的索引对表示字符序列进行数字编码，得到当前样本标签的编码序列；

步骤S53、判断当前样本标签的编码序列长度是否等于25，如长度不足25，则进行补零操作使其长度为25；

步骤S54、利用当前样本标签的编码序列将当前样本标签转换为三维的样本标签张量。

例如，有长度为50的坐标序列表示一个单词作为样本，它对应的蒙古文单词为

每个蒙古文单词由多个蒙古文字符构成，每个蒙古文字符通过对应的一个拉丁字符表示，得到每个蒙古文单词的拉丁字符表示，用蒙古文名义字符即拉丁字符将上述蒙古文单词表示为abai，然后通过每个拉丁字符的索引对其进行数字编码，如a的索引是1(计算机从0开始计数)，b的索引是11，i的索引是3，因此该蒙古文单词的标签用数字编码(1,11,1,3)表示。机器学习中需要张量的长度是固定的，所以需要对蒙古文单词进行补零，如abai补充为abai#...#的格式，本发明中补充标签序列的长度到25，最终标签表示为向量(1,11,1,3,0，...，0)。标签数据同样需要转换为三维张量才能被模型处理。第一个维度是样本维度，表示标签的总数量，训练过程中，训练数据中所有蒙古文单词的全部标签总和就是样本总数，进行在线手写体蒙古文识别时，同一时间仅对一个蒙古文单词进行识别，即只有一个蒙古文单词序列的坐标点集合，因此此处的标签数量为1；第二个维度同样是时间轴，代表标签序列的长度，机器学习中通常叫做时间步长，所有样本或标签的时间步长都应该是固定的，时间步长选取最长的序列长度，由于本发明实施例中字典中收录的蒙古文单词对应的拉丁字符最长为23个字符，以及序列需要的起始标识符和终止标识符，经过规范化的补零操作，长度不足25的单词都进行补零，所有标签的长度都被规范化为25，所以这个维度的值设置为25；第三个维度表示字符的类型，由于机器学习需要用数字来表示种类，所以我们用字符的索引，即数字0到77，共78个数字来表示78种字符类型。所以之前的单词abai在转换好的向量中被表示为(1,11,1,3,0，...，0)，后面的0补充到张量的形状为(25,1)，如前述中字符的类型共78种，我们只用1个数字表示，即0-78，所以这个轴对应的形状为1，因此标签的形状为(标签数量,25,1)。例如

单词，先转为拉丁形式habhada，再根据蒙古文名义字符对应的拉丁、数字、特殊符号和表示为空的#封装好的序列索引，将拉丁转为数字编码序列“[13,1,11,13,1,21,1]”，最终补零转为三维张量，如图7所示。

步骤S6、构建基于注意力机制的序列模型，并采用样本张量和标签张量对基于注意力机制的序列模型进行训练：

本发明实施例采用两层输出维度为64、激活函数为relu函数的一维卷积层获取序列特征值，并采用隐藏神经元数为96、输出步长为25、输出维度为78的带有注意力机制的序列到序列层即编码解码层以及常用的Softmax分类层合成基于注意力机制的序列模型，该模型采用RMSprop优化器，学习率0.001，由于分类的编码类型是数字编码，所以损失函数采用sparse_categorical_crossentropy，该Softmax分类层输出78个不同类别的概率分布。然后将步骤S4获得的样本张量和标签张量输入基于注意力机制的序列模型，对基于注意力机制的序列模型进行训练。

本发明每一轮的模型训练都会向着损失值最小的方向自动调整参数，最终模型会得到最好的参数组合，最后用训练好的基于注意力机制的序列模型对新的样本即在线手写体蒙古文单词进行概率预测，输入是新的样本张量，输出的则是由多个概率矩阵(二维张量)组成的三维张量，概率矩阵数量与样本数量一致。张量的第一个维度是样本维度，即输出预测序列的数量，由于预测的序列对应输入的样本，所以这个维度的值与样本总数一致；第二个维度是时间维度，输出长度25的序列；第三个维度是特征维度，是78个分类的每个分类出现的概率，所得基于注意力机制的序列模型如图9所示。

由于我们实际过程中的概率矩阵形状过于大，所以制作了概率矩阵的简化示意图，如图3所示，我们通过这个示意图来解释概率矩阵中各个元素代表的含义。假设识别任务中字符序列长度为5(本发明中实际序列长度为25)、分类为5(本发明中实际分类数量为78)。序列中每位字符的所有分类概率之和都应该为1，矩阵中每个元素的值代表预测分类的概率。如果只选取每一位中概率最大的分类作为结果，则示意图中的输出结果为(第一分类，第一分类，第四分类，空，空)构成的序列，这种直接输出的方法，称为模型的原始输出方法，也叫最大概率原始输出，找到概率最大的原始输出只需要找到每个字符位概率最大的字符组成词，但是找到前n个概率最大的词，需要从分类数量的预测序列长度次方中个结果中找出概率最大的n个词，本发明实施例中就是从78的25次方个结果中找到前10个概率最大的词。而本发明实施例采用集束搜索方法代替模型的原始输出方法，只需要找到集束搜索宽度的预测序列长度次方结果中概率最大的前n个词，即2的25次方个结果中找到前10个概率最大的词。

本发明实施例利用在编码器和解码器之间添加注意力机制的编码解码层，降低了模型训练难度。通过在编码器和解码器层中添加注意力打分向量的学习，训练过程中，编码器通过计算样本序列中每个时间步(序列的最小片段)的输入、学习得到状态(能直接表现的规律)以及学习序列的隐藏状态(存在的却不直接表现的规律)，得到一个形式为向量的编码。解码器通过计算样本的标签序列的每个时间步、学习得到状态以及学习序列的隐藏状态，对应到之前编码器产生的编码。可以简单的理解为，模型对上万个参数进行随机的调整，只保留可以提升准确率的变化，以此来达到自主学习的目的，编码器学习如何将蒙古文坐标序列中获取的特征值映射到编码(一个向量空间)，解码器同时学习如何将标签序列映射到相同的编码，注意力打分向量同时会学习蒙古文坐标序列到标签序列的间接映射(上述蒙古文序列到编码，编码再到标签序列)中输入输出序列每个片段的关系而不是整个序列到序列。在预测过程中，编码器将样本转为编码，解码器将编码解码为可能的目标序列。

注意力机制通过注意力打分向量表示注意力分配概率信息。在训练过程中，将蒙古文坐标序列的特征向量看作x₁到x_n，编码器会从x₁到x_n中学习到隐藏状态h₁到h_n，模型通过学习求得中间的编码C向量，即如何将编码器中的隐藏状态对应到解码器的隐藏状态H₁到H_n的信息，将预测的拉丁字符看作y₁到y_m，解码器学习通过隐藏状态H₁到H_m得到y₁到y_m。再从H₁到H_m计算h₁到h_n的概率分布，例如，我们把H₁与h₁到h_n的每一个状态对比，得到一个表示对齐的可能性的值a_1,i，i为1到n，获得对齐可能性有多种方法，我们用相似程度函数F(H₁,h_i)来计算a_1,i，i为1到n，再利用softmax函数对相似程度进行归一化，就会得到概率分布。我们把这个概率分布叫做注意力打分向量。识别过程中，通过计算h₁到h_n和注意力打分向量的加权和求得C向量，再利用C向量得到对应的隐藏状态H₁到H_m从而得到y₁到y_m。通过这种方式解决了序列与序列之间的对齐问题，即确定输入序列和输出序列之间的对应关系，也可以降低非相关信息的影响。本发明通过这种方法进行潜在的字符切分，利用注意力机制使输出字母与各自对应序列的权重高，与不相关序列即不与其对应的序列权重低，造成这种潜在的字符切分。如图4所示，在理想状况下，输出字母与输入字形的序列各部分对应，且在注意力打分向量中，输出字母与对应的输入序列部分有着较高的权重，与无关的序列权重低。低权重并不意味着输入序列与不对应部分毫无关系，相邻的部分依然占有一定的权重。这种方法也解决了字母连接时候字形因为相邻字母的变形问题，注意力机制通过这种权重分布既加强了对应关系，又实现了相邻字母对应的序列之间互相影响。

本发明实施例还可利用输入法的反馈数据增加新的训练数据，由于输入法用户在使用后会产生用于识别的蒙古文单词坐标序列和选择的候选词，相当于人为制造了可训练的样本和标签，将反馈的数据继续训练模型可以进一步扩充模型已知的数据。或者通过数据增强的方法，即在原有的样本上随机增加抖动或者干扰生成新的样本，对原有的样本进行扩充，机器学习中这类方法叫做数据增强，多用于图像数据，我们的方法是对序列中的每个点进行上下或左右的移动，移动的距离由参数决定，参数是随机增加或减少的，但是参数的变化是连续的，保证连续的点之间不会由于参数变化过大，造成过大的摆动，轻微的抖动不会影响字迹本身蕴含的蒙古文信息(参数和参数的变化值都由经验而定)，所以与原有的标签可以对应上，更多的样本可以降低模型拟合程度，过拟合是指模型只有接受到和训练样本完全一样的特征才会表现正确，任何不同都会导致错误。通过这两种方法，提高模型的泛化能力，减少模型对训练数据的过拟合，提升模型在实际情况中的使用效果，使得模型可以学习到鲁棒性更好的切分知识，在处理样式不规范的数据时有更好的表现效果。

步骤S7、基于蒙古文字典引导，采用集束搜索算法匹配最大概率的输出结果，给出蒙古文手写体识别结果。

本发明实施例在基于注意力机制的序列模型输出预测结果后，通过集束搜索算法，并结合以下的词典引导，在输出的概率矩阵中搜索概率最大的输出结果。

从基于注意力机制的序列模型预测得到的概率矩阵中找到前十个(一般分类任务的评价标准为top1，top5和top10的识别准确率)概率最大的预测的拉丁序列是一个计算较为复杂的过程。随着搜索空间的增大，内存消耗将会是指数级的增长。本发明实施例在字典引导的基础上使用集束搜索算法进行搜索。集束搜索算法是一种动态规划算法，用于寻找最大概率路径。本发明实施例中，这个最大概率路径则为预测拉丁序列的可能结果。模型输出预测拉丁序列的概率矩阵，在字典中匹配序列，筛选出存在字典中的序列，淘汰不存在的序列，将寻找到的序列片段按照预测的概率的大小进行排序。每次搜索后，淘汰概率较小的分支，筛选出概率最大的前十个(数量由集束搜素的宽度决定，本发明中这个参数设置为10)片段进行下一位的搜索。例如，我们从概率矩阵中获得预测单词序列第一位的所有78个字符的概率，搜索字典(我们以图5的字典示例图说明，不在示例图中的路径认为不存在字典中)，我们可以找到字典第一层a和b是存在的，则我们可以排除其余不存在字典第一层中的所有字符，假设集束搜索宽度为2，我们选取剩余字符中概率前2的字符，只有a和b，进行下一位的搜索，扩展a和b的下一位，用第一位是a的概率乘第二位78个字符每个字符可能的概率，获得ab，ac等78个扩展序列的概率值，b也是同样的操作，现在有156个可能的选择，通过字典进行搜索，只剩下了ab，ad，ba，对这三个序列的概率值排序，获取概率前2的两个序列，以此类推对下一位继续搜索。这样的搜索方法既保证了集内词的正确性，也保证了最大的概率。由蒙古文词典和预测模型协同构建的搜索空间中，使用集束搜索算法可以快速查找到最大概率输出序列。

本发明实施例可通过压缩结构的方式制作字典，该字典用于以下提到的词典引导过程。本发明采用的压缩方式是前缀字典树的结构，前缀字典是通过用字母作为节点，合并相同前缀分支进行存储，即采用前缀字典树的结构将收录到的全部蒙古文单词制作成词典。如图5所示，符号$作为根节点，ab和ad两个分支合并为父节点为a，子节点为b、d的树，符号#代表词的结束符。这样的合并使得相同前缀的单词消除了冗余，也使搜索过程简化。常用的蒙古文的词汇有十万到一百万个，要逐一匹配需要很大的计算量，并且存储数据也会占用相当大的资源，通过字典树搜索，只需逐层搜索是否存在子节点，由于最长的蒙古文单词是23个字符，所以字典树最深只有23层。本发明实施例通过前缀字典树压缩储存结构，将存储的大小缩小在原来的二十分之一，并且压缩字典树的结构比普通的字典结构更加紧密，所以将搜索的时间减少到了适合服务器计算的水平。

在模型提供的原始的预测方法中，输出序列每一位都选各自位置上概率最大的字符。而通过集束搜索算法，可以找到使序列整体概率最大的输出序列作为结果。但是一些概率最大的词其实并不存在。例如，我们搜索abai时，预测出的最大概率序列可能是aaai，事实上，并没有开头为aa的单词，所以只搜索存在的词可以大幅度缩小搜索的范围。在字典引导的情况下，每一位都会选择字典树中存在节点的最大概率字符作为输出，即只从录入的单词进行集束搜索。

集束搜索方法，是从步骤S6生成的概率矩阵中搜索，结合压缩前缀字典树引导，采用集束搜索算法在基于注意力机制的序列模型输出的概率矩阵中搜索概率最大的输出结果的具体实现过程如下：

步骤S71、设置集束搜索宽度的值BeamWidth，即每一轮搜索中保留选项的个数；然后从基于注意力机制的序列模型输出的概率矩阵的第一列开始搜索，一般来说，预测的序列肯定是一个有意义的字符，所以第一位为空的概率是0，所以就有了78长度为1的预测的拉丁序列，搜索完成后得到78个长度为1的预测的拉丁序列即78个字符及其概率，然后在生成的压缩前缀字典树中搜索，将所有不存在于生成的压缩前缀字典树内的预测的拉丁序列删除，将剩余的候选项即剩余的预测的拉丁序列按概率从大到小排列，保留BeamWidth个选项，如集束搜索宽度设置为10，则选择前10个概率最大的候选项；

步骤S72、对概率矩阵的第一列进行搜索，搜索完成后获取到78*BeamWidth个长度为2的预测的拉丁序列，如集束搜索宽度设置为10，则取到78*10个长度为2的预测的拉丁序列，得每个拉丁序列的概率是其中所有字符的概率乘积，在生成的压缩前缀字典树中搜索，将当前获取到的长度为2的预测的拉丁序列中所有不存在于其内的预测的拉丁序列删除，再次将剩余的候选项即剩余的预测的拉丁序列按概率从大到小排列，保留BeamWidth个选项；

步骤S73、循环步骤S72，直至完成对概率矩阵的最后一列搜索，生成10度为25的预测的拉丁序列，再通过拉丁转蒙古文的映射表，将10度为25的预测的拉丁序列转换为蒙古文并输出作为识别结果，如图8所示。

本发明实施例从收集的数据中分离出5000个样本作为测试集，包含数字标点符号样本74个，蒙古文格后缀样本100个，其余为常用的蒙古文单词，该测试集不用于模型训练，测试结果得到传统方法短字素HMM识别率为70.62％，本发明实施例的识别率达到79.88％。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种蒙古文在线手写体识别方法，其特征在于，按照以下步骤进行：

步骤S2、对手写体蒙古文坐标序列进行平滑化处理；

步骤S3、对手写体蒙古文坐标序列进行去噪处理；

步骤S7、采用步骤S1～S5对待识别手写体蒙古文单词进行处理得到新的样本张量，并将新的样本张量输入训练后得到的基于注意力机制的序列模型中，得到待识别手写体蒙古文单词的概率矩阵；然后经蒙古文字典引导，采用集束搜索算法匹配最大概率的输出结果，得到蒙古文手写体识别结果；

所述步骤S5对样本进行数据转换得到的样本张量是一个三维张量，其第一个维度是样本总数，基于注意力机制的序列模型训练过程中，训练数据中所有手写体蒙古文坐标序列的总数就是样本总数，进行在线手写体蒙古文识别时，同一时间仅对一个蒙古文单词进行识别，即只有一个手写体蒙古文坐标序列，此时样本总数为1；其第二个维度为样本长度，即缩放后的手写体蒙古文坐标序列的序列点数；其第三个维度为数据特征，每个数据特征为包含当前序列点x坐标、当前序列点y坐标、当前序列点和上一个序列点的x坐标差值、当前序列点和上一个序列点的y坐标差值这4个值的向量；

所述步骤S5对样本标签进行数据转换的具体实现过程如下：

步骤S54、利用当前样本标签的编码序列将当前样本标签转换为三维的样本标签张量，其第一个维度是当前样本标签的总数即当前样本的总数，第二个维度是当前样本标签的编码序列长度，第三个维度是当前样本标签对应的字符类别即字符索引0～77；

所述拉丁字符为(aeiwvouEnNbphgmlsxtqdjyrWfkKczHRLZCI)这36类，所述数字字符为(0123456789)这10类，所述特殊符号字符为(-_'"&*^`！％/<＝>@×÷\,.:$？！！？？()《》+￥)这31类，所述空白字符为(#)，共78类；

所述表示字符序列中每个字符的索引极其中每个字符在字符序列中的编码，所述字符序列是将空白字符、拉丁字符、数字字符、特殊符号字符依次封装得到的序列，即(#aeiwvouEnNbphgmlsxtqdjyrWfkKczHRLZCI-_'"&*^`！％/0123456789<＝>@×÷\,.:$？！！？？()《》+￥)，所述字符序列的长度为78，表征78个字符类别；

所述步骤S6基于注意力机制的序列模型输出的三维张量的第三个维度的特征维度，是78个字符类别即78个分类中每个分类出现的概率；

所述步骤S6构建的基于注意力机制的序列模型是采用两层输出维度为64、激活函数为relu函数的一维卷积层获取序列特征值，并采用隐藏神经元数为96、输出步长为25、输出维度为78的带有注意力机制的序列到序列层即编码解码层，以及常用的Softmax分类层合成基于注意力机制的序列模型；

所述基于注意力机制的序列模型采用RMSprop优化器，学习率0.001，损失函数采用sparse_categorical_crossentropy，其Softmax分类层输出78个字符类别的概率分布；

所述步骤S7是先创建压缩前缀字典树，然后结合压缩前缀字典树引导，采用集束搜索算法在基于注意力机制的序列模型输出的概率矩阵中搜索概率最大的输出结果；

所述创建压缩前缀字典树，是采用前缀字典树的结构将收录到的全部蒙古文单词对应的拉丁字符制作成词典，采用符号$作为根节点，采用符号#作为词的结束符，采用拉丁字符作为节点，对任意两蒙古文单词对应的拉丁字符的相同字符进行合并作为相同前缀作为父节点，并将不同字符分别作为子节点形成分支进行存储；

所述结合压缩前缀字典树引导，采用集束搜索算法在基于注意力机制的序列模型输出的概率矩阵中搜索概率最大的输出结果的具体实现过程如下：

步骤S71、设置集束搜索宽度的值BeamWidth，即每一轮搜索中保留选项的个数；然后从基于注意力机制的序列模型输出的概率矩阵的第一列开始搜索，搜索完成后得到78个长度为1的预测的拉丁序列即78个字符及其概率，然后在生成的压缩前缀字典树中搜索，将所有不存在于生成的压缩前缀字典树内的预测的拉丁序列删除，将剩余的候选项即剩余的预测的拉丁序列按概率从大到小排列，保留BeamWidth个选项；

步骤S72、对概率矩阵的第一列进行搜索，搜索完成后获取到78*BeamWidth个长度为2的预测的拉丁序列，所得每个拉丁序列的概率是其中所有字符的概率乘积，在生成的压缩前缀字典树中搜索，将当前获取到的长度为2的预测的拉丁序列中所有不存在于其内的预测的拉丁序列删除，再次将剩余的候选项即剩余的预测的拉丁序列按概率从大到小排列，保留BeamWidth个选项；

步骤S73、循环步骤S72，直至完成对概率矩阵的最后一列搜索，生成BeamWidth个长度为25的预测的拉丁序列，再通过拉丁转蒙古文的映射表，将BeamWidth个长度为25的预测的拉丁序列转换为蒙古文并输出作为识别结果。

2.根据权利要求1所述的一种蒙古文在线手写体识别方法，其特征在于，所述步骤S1中获取的手写体蒙古文坐标序列中，不同序列点以符号；进行分割，不同连续的笔画以符号#进行分割；

获取到手写体蒙古文坐标序列后将其存放在两级列表中并更改为统一的格式，第一级列表存放手写体蒙古文的笔画轨迹，第二级列表存放每个连续不中断的笔画，第二级列表中每个节点存放构成该连续不中断的笔画的序列点的坐标(x,y)。

3.根据权利要求2所述的一种蒙古文在线手写体识别方法，其特征在于，所述步骤S2采用相邻序列点坐标均值化的方法对手写体蒙古文坐标序列进行平滑化处理，在每个笔画中，除去起始点和终止点后，用每个序列点以及与其左右相邻的两个序列点的坐标均值代替该序列点的原始坐标，具体实现过程如下：

设x_i是第i个序列点的原始x坐标值，则第i个序列点的新x坐标值，即平滑化处理后第i个序列点的x坐标值x_new按照下式计算：

其中，x_i-1是第i-1个序列点的原始x坐标值，x_i+1是第i+1个序列点的原始x坐标值；

设y_i是第i个序列点的原始y坐标值，则第i个序列点的新y坐标值即平滑化处理后第i个序列点的y坐标值y_new按照下式计算：

其中，y_i-1是第i-1个序列点的原始y坐标值，y_i+1是第i+1个序列点的原始y坐标值。

4.根据权利要求2所述的一种蒙古文在线手写体识别方法，其特征在于，所述步骤S3先判断当前序列点是否为噪声点，即判断当前序列点是否满足以下两个约束条件：

若当前序列点同时满足上述两个约束条件，则判断该序列点为噪声点，并删除该序列点进行去噪。

5.根据权利要求4所述的一种蒙古文在线手写体识别方法，其特征在于，所述步骤S3的具体实现过程如下：

判断序列点i是否满足：

其中，x_newi为平滑化处理后第i个序列点的横坐标，y_newi为平滑化处理后第i个序列点的纵坐标；x_newi-1为平滑化处理后第i-1个序列点的横坐标，y_newi-1为平滑化处理后第i-1个序列点的纵坐标；T_dist为设定的距离阈值；Δx_i为第i个序列点与第i-1个序列点的x坐标的差值，Δy_i为第i个序列点与第i-1个序列点的y坐标的差值，Δx_i+1为第i+1个序列点与第i个序列点的x坐标的差值，△y_i+1为第i+1个序列点与第i个序列点的y坐标的差值，T_cos为设定的余弦相似度阈值即斜率阈值；

如果序列点i同时满足上述条件，则删除序列点i进行去噪。

6.根据权利要求1～5任一项所述的一种蒙古文在线手写体识别方法，其特征在于，所述步骤S4的具体实现过程如下：

步骤S41、设蒙古文单词的宽度固定值为Δx_w，遍历手写体蒙古文坐标序列的所有序列点的坐标，得到其所有序列点的x坐标的最小值x_min和最大值x_max以及y坐标的最小值y_min；

步骤S42、按照以下公式计算每个去噪后的手写体蒙古文坐标序列对应的手写体蒙古文单词的宽度值Δx_m以及比例rata_x值：

Δx_m＝x_max-x_min；

步骤S43、按照以下公式对手写体蒙古文坐标序列的第i个序列点的坐标(x_i，y_i)进行缩放，得到缩放后的手写体蒙古文坐标序列的第i个序列点的坐标(x_zmi，y_zmi)：

x_zmi＝(x_i-x_min)×rata_x；

y_zmi＝(y_i-y_min)×rata_x；

步骤S44、对手写体蒙古文坐标序列的长度进行规范，计算缩放后的手写体蒙古文坐标序列的序列长度即序列点数量C，并从所有训练数据中获取手写体蒙古文坐标序列的最长序列点数C_max作为规范标注值，当缩放后的手写体蒙古文坐标序列的序列长度C小于C_max，对缩放后的手写体蒙古文坐标序列进行补零操作使其序列长度为C_max，当缩放后的手写体蒙古文坐标序列的序列长度C大于C_max，则对缩放后的手写体蒙古文坐标序列进行截断使其序列长度为C_max。