CN115114887A

CN115114887A - 一种联机手写文本行识别方法

Info

Publication number: CN115114887A
Application number: CN202210894092.7A
Authority: CN
Inventors: 庄建明; 陈颂光
Original assignee: Hong Yuxing Private LLC
Current assignee: Hong Yuxing Private LLC
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-09-27

Abstract

本发明提供一种联机手写文本行识别方法，该方法包括如下步骤：对输入的轨迹进行预处理；利用人工神经网络提取点级别的特征；利用人工神经网络解码出字符串；对解码结果进行后处理。本发明能够比较准确地识别世界上各主流的自然语言，包括右到左书写的语言，并能够提供输入笔画与输出字符间的对应关系，支持任意倒笔书写，可以在运行期配置识别范围以支持开放或封闭词典场景，可以在一般手机和平板电脑上进行端侧的实时识别。

Description

一种联机手写文本行识别方法

技术领域

本发明涉及文本行识别技术领域，具体涉及一种联机手写文本行识别方法。

背景技术

联机手写文本行识别是一种把一行手写文字的动态笔迹转换为字符串的技术；与印刷体识别相比，手写识别也由于要应付因人而异的书写习惯而更为困难；与脱机手写识别相比，联机手写识别则由于有额外的时序信息和较少的背景噪声而更有希望达到较高的准确性；现有的识别技术分为两类：

第一类方法基于切分解码机制，首先对笔划序列进行过切分，再通过动态规划利用分类器选取最佳的切分方式及对应的识别结果，使用这类方法的公司包括MyScript(原Vision Objects)和较早前的Google，这类方法的优点在于能够输出准确的对应关系；

第二类方法不进行显式的切分,一般基于双向循环神经网络和CTC解码器，使用这类方法的公司包括Samsung和Google，这类方法的优点是容易实现，因为有关模型是端到端可训练的；

但是，现有技术存在以下的一项或多项局限性：

1)能够识别的语言种类有限，比如仅限于识别中文或者英文；

2)只能支持从左到右或者从右到左的书写顺序；

3)不能提供输入笔画与输出字符间的对应关系；

4)不支持任意倒笔书写，不能在运行期配置识别范围以支持开放或封闭词典场景；

5)不支持在运行期通过一般的LL(1)语法配置识别范围；

6)需要专门的硬件设备支持，不能在一般手机和平板电脑上进行端侧的实时识别；

因此，需要提供一种新的技术方案，解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种联机手写文本行识别方法。

为实现上述目的，本发明的具体方案如下：

本发明提供一种联机手写文本行识别方法，包括如下步骤：

S1，对输入的轨迹进行预处理；

S2，利用人工神经网络提取点级别的特征；

S3，利用人工神经网络解码出字符串；

S4，对解码结果进行后处理。

进一步的，步骤S1中，预处理包括如下步骤：

S11，按笔画外接方框的左侧从左到右对笔画进行排序，以便系统能支持任意的倒笔和乱序书写；

S12，利用各笔画的长度，以及外接方框的高度和宽度估计行高，以便对字体大小进行估算；

S13，去除与前一采样点的距离小于行高估计的设定值(比如行高估计的某个倍数，0.05倍、0.06倍、0.07倍等)的采样点，也去除与前后采样点夹角大于设定角度(比如大于172°)的采样点，以便在保持轨迹外观的前提下减低需要输入到人工神经网络的数据量，从而提高识别速度；

S14，利用行高估计对坐标进行规范化，以便让识别结果与字体大小和屏幕分辨率无关。

进一步的，所述人工神经网络为基于多层的双向循环神经网络。

进一步的，在步骤S3中，解码过程具体包含以下特征：

S31，基于beam搜索顺序地预测文本行中的各个字符，直到预测出一个设定的结束符；

S32，采用解码器为带注意力机制的人工神经网络，通过注意力系数给出输入笔画与输出字符间的对应关系；

S33，利用预测分析法确保解码结果符合LL(1)语法，每个未完成的候选都是合法字符串的前缀；使得用户可以通过设置词典、正则表达式以至LL(1)语法来配置识别范围；

S34，结合n-gram语言模型来调整置信度；用语料使识别结果更贴合特定语言的使用习惯；语言模型与识别模型分开训练，让多种字符集相近的语言或方言共用识别模型，减低手写样本采集成本并节省训练时间。

进一步的，在步骤S4中，后处理具体包括如下步骤：

S41，对字符串进行Unicode的NFKC规范化，以便支持带组合标记的语言；

S42，把Unicode码位从视觉顺序转换为逻辑顺序，以便支持左到右语言与右到左语言的混排；

S43，按照启发式规则根据上下文切换全半角和加入空格，使结果符合用户使用标点符号的习惯；

S44，对识别结果进行分词，同时向用户提供字符和单词级别的候选；

S45，把置信度低于设定值且不在词典中的词替换为词典中与之编辑距离最短的词，有冲突时再选择其中词频最高的，纠正识别结果中的拼写错误。

进一步的，所述多层的双向循环神经网络为多层双向LSTM循环神经网络。

采用本发明的技术方案，具有以下有益效果：

本发明能够比较准确地识别世界上各主流的自然语言，包括右到左书写的语言，并能够提供输入笔画与输出字符间的对应关系，支持任意倒笔书写，可以在运行期配置识别范围以支持开放或封闭词典场景，可以在一般手机和平板电脑上进行端侧的实时识别。

附图说明

图1是本发明的整体流程图；

图2是本发明的预处理流程图；

图3是本发明的解码流程图；

图4是本发明的后处理流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”、“固定”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本实施例的描述中，术语“上”、“下”、“前”、“后”、“左”、“右”等方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化操作，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅仅用于在描述上加以区分，并没有特殊的含义。

如图1所示，本发明提供一种联机手写文本行识别方法，包括如下步骤：

S1，对输入的轨迹进行预处理；

S2，利用人工神经网络提取点级别的特征；

S3，利用人工神经网络解码出字符串；

S4，对解码结果进行后处理。

其中，所述人工神经网络为基于多层的双向循环神经网络即多层双向LSTM循环神经网络。

如图2所示，在步骤S1中，预处理包括如下步骤：

如图3所示，在步骤S3中，解码过程具体包含以下特征：

如图4所示，在步骤S4中，后处理具体包括如下步骤：

具体实施如下：

文字识别被建模为一个序列到序列问题，其中输入为一列采样点(包括x、y坐标和笔画结束标记)，而输出为一列字符，两者的长度都不是固定的。本法采用基于注意力机制的编码器-解码器架构来解决这个问题。

在训练和预测时，输入的轨迹都经过同样的预处理流程：

(1)规范化笔画顺序。按笔画外接方框的左侧从左到右对笔画进行排序。

(2)估计行高。当一条笔画的长度与其外接方框的宽度相近时，用外接方框的宽度作为该笔画尺度，否则用外接方框的高度。利用这些尺度的某个分位数作为行高的估计。

(3)重新采样。去除与前一采样点的距离小于行高估计的某个倍数的采样点，也去除与前后采样点夹角接近平角的采样点。

(4)坐标规范化。把坐标除以行高估计。

在训练时，预期输出的字符串经过以下的规范化：

(1)进行Unicode的NFKD规范化。

(2)把Unicode码位的顺序从正常的逻辑顺序转换为视觉顺序(从左到右)，从而大致与排序过的输入对齐。在预测时，可以预期预测结果通常也是这样规范化的，于是要对解码出的字符串进行Unicode的NFKC规范化,并把Unicode码位的顺序从视觉顺序转换回逻辑顺序。

编码器的输入为各采样点的结束标记和相对于下一采样点的位移向量，输出为上下文矩阵和解码器的初始状态；输入直接进入多层双向LSTM循环神经网络，最终得到上下文矩阵；对于上下文矩阵进行全局平均池化后再经过一层全连接人工神经网络就得到解码器的初始状态；解码器的输入有上一个字符(初始时为一个特殊的开始标记)、状态(初始时由编码器给出)、收敛向量(初始时为零向量)、上下文矩阵(由编码器给出)；解码器的输出为下一字符的置信度分布、新的状态和新的收敛向量；这里，收敛向量的作用是记录哪些点已经有对应的输出字符，从而减少丢字和多字的情况。

只要有配对的联机手写轨迹和对应的字符串，就可以同时训练上述的编码器和解码器；损失函数是多个函数的线性组合，除了用来校准置信度分布的交叉熵外，还有引导收敛向量结束时全1的均方差；当已知某些字符对应的笔画时(例如数据有字符级标注或者是合成的)，还引导解码出一个字符时，收敛向量对应于有关笔画的点的分量增大1。这样，预测时就可以凭解码时收敛向量的变化来判断各个输出字符分别对应于哪些笔画。

为了提高识别系统的泛化能力，可以使用数据增广方法以增加训练样本的数量。特别地，可以收集一种语言的一个代表性语料库，从其中抽取字符串并合成轨迹以尝试模仿该字符串的手写样式。可能的具体实施方式包括：

1.利用文本排版算法渲染字符串并记录其中各个字符/单词的位置，然后从手写样本库寻找各字符/单词的手写样本并把它们放到相应位置。此外，可以在字符、单词和行等级别对轨迹进行随机仿射变换以进一步提高轨迹的多样性。

2.利用带标注的文本行样本训练一个把字符串转换为轨迹的序列到序列翻译模型，再用来生成手写体。

在识别时，解码过程使用beam搜索逐步建立候选行；对于每条未完成的候选行，记录字符串、置信度、解码器状态、收敛向量和预测分析栈；在需要输出字符级别的候选时，还要记录每个字符的若干个其它候选字符及相应的置信度；在需要输出笔画与字符的对应关系时，还要记录历史的收敛向量；逻辑上，在每一步解码时，对于每条未完成的候选行：

1、调用基于人工神经网络解码器以获取下一字符的候选列表及对应的置信度，同时更新解码器状态与收敛向量。

2、利用n-gram得分调整下一字符的各候选的置信度。

3、对于下一字符的各个候选，计算与原字符串结合后的置信度和预测分析栈：

(1)若候选为结束符且预测分析栈为空，就得到一条已完成候选行。

(2)若候选非结束符且预测分析栈不处于出错状态，就得到一条待下一步解码时处理的未完成候选行。

在下一步开始时只保留其中置信度最高的若干条。在已完成的候选行数目达到预设值时，解码过程中止。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的保护范围内。

Claims

1.一种联机手写文本行识别方法，其特征在于，包括如下步骤：

S1，对输入的轨迹进行预处理；

S2，利用人工神经网络提取点级别的特征；

S3，利用人工神经网络解码出字符串；

S4，对解码结果进行后处理。

2.根据权利要求1所述的联机手写文本行识别方法，其特征在于，步骤S1中，预处理包括如下步骤：

S13，去除与前一采样点的距离小于行高估计的设定值的采样点，也去除与前后采样点夹角大于设定角度的采样点，以便在保持轨迹外观的前提下减低需要输入到人工神经网络的数据量，从而提高识别速度；

3.根据权利要求1所述的联机手写文本行识别方法，其特征在于，所述人工神经网络为基于多层的双向循环神经网络。

4.根据权利要求1所述的联机手写文本行识别方法，其特征在于，在步骤S3中，解码过程具体包含以下特征：

5.根据权利要求1所述的联机手写文本行识别方法，其特征在于，在步骤S4中，后处理具体包括如下步骤：

6.根据权利要求3所述的联机手写文本行识别方法，其特征在于，所述多层的双向循环神经网络为多层双向LSTM循环神经网络。