CN110276069A

CN110276069A - 一种中国盲文错误自动检测方法、系统及存储介质

Info

Publication number: CN110276069A
Application number: CN201910410573.4A
Authority: CN
Inventors: 王向东; 崔晓娟; 钱跃良; 刘宏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-24
Anticipated expiration: 2039-05-17
Also published as: CN110276069B

Abstract

本发明提出一种中国盲文错误自动检测方法、系统及存储介质，包括：获取待检测中国盲文作为原始盲文，根据中国盲文标点符号和汉语标点符号的对应规则，确定原始盲文的盲文标点位置，以生成标点序列，将标点序列与标点使用规则进行比对，将标点序列中不符合标点使用规则的盲文标点位置标注规则错误索引；对具有规则错误索引的盲文标点位置完成纠正，得到中间盲文，以标点符号为节点对中间盲文进行切分后输入深度神经网络模型进行语义规则检查，将中间盲文中不符合语义规则的盲方位置标注语义错误索引，作为待检测中国盲文的错误检测结果。本发明通过融合规则和深度学习以实现盲文错误的自动检测，可节约校对成本，提高盲文书籍生产效率。

Description

一种中国盲文错误自动检测方法、系统及存储介质

技术领域

本发明涉及盲文自动校对技术领域，并特别涉及一种中国盲文错误自动检测方法、系统及存储介质。

背景技术

盲文图书的制作包括编辑加工、录入、校对、通读、制版等十多道程序。出版周期长，出版效率远低于普通出版物，为保证盲文图书精准出版及出版物质量，从长期调研盲文选题到盲文译校采取“三校一通读”方式，即三次校对后再通读全文，盲文具有其特殊性，且每个校对环节都是由一位明眼人和一位盲人共同完成，人力投入需增加一倍，在工作人员有限的条件下，生产能力无法无限制扩大。

近年来，随着信息技术和网络技术的不断发展，大众阅读方式由传统的纸介质开始向新兴媒体转移，数字出版成为未来出版业的趋势和发展方向。盲文的展现形式也因此不再局限于纸张，基于电脑和其他终端设备得到广泛使用。数字盲文读物的出版过程中，不需要制版、印刷、配页等环节，提高盲文编辑和校对的效率和准确性就成为盲文读物出版的核心问题之一。故盲文自动错误检测的产生在辅助盲文编辑修正错误，提高编辑准确率，帮助校对人员节约校对时间，快速定位盲文错误位置有巨大意义。

盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统，印刷在纸张或显示在点显器上，通过触摸进行阅读。盲文的基本单位称作“方”，一盲方包含6个点位，通过设置每个点位是否有点共可形成64种组合，这些组合构成了最基本的盲文符号。

盲文在人工编辑的过程中极易产生缺失、增加或替换盲文点位的错误，这类错误往往需要校对人员结合上下文进行更正。虽然传统的人工校对方式繁琐，需要高昂的人力投入，但目前尚缺少盲文自动校对的相关研究，所以，盲文图书校对过程仍处在人工“三校一通读”的模式。

发明内容

本发明的目标在于实现盲文错误高准确率的自动检测。本发明根据盲文规则，将盲文错误分为两类，一类是深度学习较好处理的语义类错误，提出融合盲文词语级语义和字符级匹配特征的向量表示，并使用双向LSTM网络学习盲文上下文之间的依赖关系，缓解盲文词无穷性的特征使大量未登录词问题，实现基于深度学习的盲文错误自动检测。另一类是对于语料中较少的数字、英文和需要在段落范围内检测的标点，这类盲文规则性强，且由于深度学习中为避免句子太长导致出现溢出的情况，输入盲文需对段落根据标点进行切分，所以深度学习并不能对段落内部成对标点匹配错误情况进行检测，这类盲文需要根据规则进行拼写错误检测。通过融合规则和深度学习方法，对标点、数字、英文字母、声韵母匹配的拼写错误和上下文搭配不当的语义错误均可进行准确检测，输出错误盲文位置索引，对盲文编辑和校对人员起到辅助修正作用。

针对现有技术的不足，本发明提出一种中国盲文错误自动检测方法，其中包括：

步骤1、获取待检测中国盲文作为原始盲文，根据中国盲文标点符号和汉语标点符号的对应规则，确定该原始盲文的盲文标点位置，以生成标点序列，将该标点序列与标点使用规则进行比对，将该标点序列中不符合该标点使用规则的盲文标点位置标注规则错误索引；

步骤2、对具有该规则错误索引的盲文标点位置完成纠正，得到中间盲文，以标点符号为节点对该中间盲文进行切分后输入深度神经网络模型进行语义规则检查，将该中间盲文中不符合语义规则的盲方位置标注语义错误索引，作为该待检测中国盲文的错误检测结果。

所述的中国盲文错误自动检测方法，其中该步骤1包括：

英文、数字和声韵母匹配检测步骤，对该原始盲文中每个盲文ASCII，判断其前后盲文是否符合预设的英文、数字和声韵母组合规则，若不符合，则将不符合的盲文ASCII对应位置标注规则错误索引。

所述的中国盲文错误自动检测方法，步骤2中该深度神经网络模型的训练过程包括：

步骤21、获取已标注语义错误位置的语义检查语料，通过双向LSTM网络对该语义检查语料中每个词的字符向量进行编码，得到输出向量，通过一层隐层重新调整该输出向量的大小，得到固定维度字符级词向量，其表征盲文词内部盲文ASCII字符之间的匹配依赖关系；

步骤22、该固定维度字符级词向量与GloVe词向量结合得到盲文词向量，将该盲文词向量输入具有线性CRF层和双向LSTM网络的模型，经过多轮迭代，得到该深度神经网络模型。

所述的中国盲文错误自动检测方法，该GloVe词向量的生成过程包括：

使用基于全局词频统计的词表征工具，对该语义检查语料中每个词的字符向量进行编码，得到该GloVe词向量。

本发明还提出了一种中国盲文错误自动检测系统，其中包括：

模块1、获取待检测中国盲文作为原始盲文，根据中国盲文标点符号和汉语标点符号的对应规则，确定该原始盲文的盲文标点位置，以生成标点序列，将该标点序列与标点使用规则进行比对，将该标点序列中不符合该标点使用规则的盲文标点位置标注规则错误索引；

模块2、对具有该规则错误索引的盲文标点位置完成纠正，得到中间盲文，以标点符号为节点对该中间盲文进行切分后输入深度神经网络模型进行语义规则检查，将该中间盲文中不符合语义规则的盲方位置标注语义错误索引，作为该待检测中国盲文的错误检测结果。

所述的中国盲文错误自动检测系统，其中该模块1包括：

英文、数字和声韵母匹配检测模块，对该原始盲文中每个盲文ASCII，判断其前后盲文是否符合预设的英文、数字和声韵母组合规则，若不符合，则将不符合的盲文ASCII对应位置标注规则错误索引。

所述的中国盲文错误自动检测系统，模块2中该深度神经网络模型的训练过程包括：

模块21、获取已标注语义错误位置的语义检查语料，通过双向LSTM网络对该语义检查语料中每个词的字符向量进行编码，得到输出向量，通过一层隐层重新调整该输出向量的大小，得到固定维度字符级词向量，其表征盲文词内部盲文ASCII字符之间的匹配依赖关系；

模块22、该固定维度字符级词向量与GloVe词向量结合得到盲文词向量，将该盲文词向量输入具有线性CRF层和双向LSTM网络的模型，经过多轮迭代，得到该深度神经网络模型。

所述的中国盲文错误自动检测系统，该GloVe词向量的生成过程包括：

本发明还提出了一种存储介质，用于存储执行所述中国盲文错误自动检测方法的程序。

由以上方案可知，本发明的优点在于：

通过采用本发明提出的融合规则和深度学习的中国盲文错误自动检测方法和系统，可以实现盲文错误的自动检测。将该技术应用于盲文编辑和校对，可改革盲文校对方式、节约校对成本，提高盲文书籍生产效率，满足广大盲人对盲文出版物的需求。

附图说明

图1为融合规则和深度学习的中国盲文错误自动检测方法流程图；

图2为基于深度学习盲文错误自动检查方法整体框架图；

图3为提取盲文词间字符级向量流程图；

图4为基于深度学习盲文错误自动检测模型框架图；

图5为中国盲文错误自动检查模型的训练过程图。

具体实施方式

本文提出一种融合规则和深度学习的中国盲文错误检测方法，首次将人工智能的方法引入盲文校对领域，针对编辑过程中最易出现的缺失、增加、替换盲文点的相似性错误进行检测。整个检测过程分为两个阶段：基于规则的盲文拼写错误检测阶段和基于深度学习的盲文语义错误检测阶段，如图1所示，基于规则的盲文拼写错误检测阶段针对深度学习不易解决的标点和规则性很强的数字、英文，以及声韵母匹配不当导致的非词错误，以中国盲文书写规则为基准，进行错误检测。对于仍符合盲文规则，但产生语义问题的盲文错误，采用深度神经网络(双向LSTM)学习上下文语义依赖关系，引入字符级别和词语级别的组合型词向量，解决分词连写规则导致的盲文词语无穷性问题，并通过多模型结果融合，得到盲文语义错误对应位置，与基于规则的拼写错误检测结果取并集，得到盲文错误检测最终结果。

本文中的拼写错误，是根据盲文规则和检查方法划分得到的，主要包括三个部分：一是由于数字和英文在语料中较少，且具有很强规则性，故不适合用深度学习来进行检测，将其归为基于规则的检查方法一类；二是深度学习中输入盲文前需进行预处理，对段落根据标点进行切分，避免句子太长导致出现溢出的情况，故标点错误检测中在段落上检测标点匹配度(例如：“《”“》”必须成对出现)，不能用深度学习，故本文将标点归为基于规则检查方法一类；三是声母、韵母不符合拼音组合规则，即不能将该盲文词转成对应汉语，可以通过声韵母组合规则来检测。因此，可将其分成4类：标点错误、数字错误、字母错误和声韵母匹配错误。

1.基于规则的盲文拼写错误检测阶段。对输入盲文语料进行标点、数字、英文字母、声韵母匹配检测。

1.1标点检测

标点错误检测主要针对段落内成对标点匹配错误问题和标点不符合盲文空方规则的情况，例如双书名号盲文的左右两部分”1和-1是必须成对出现的，缺少任意一部分都会造成段落内部标点匹配问题，同时，中国盲文规定逗号、顿号、分号和冒号后面均需空一方，标点错误检测可以对不符合空方规则的盲文标点进行检测。具体流程如图2所示，首先对输入盲文，以段落为单位，检测所有标点，如表1标点符号盲文ASCII对照表所示，可看出盲文ASCII文件的标点符号之间存在包含关系(例如句号和逗号均含盲文ASCII”字符)，所以在需要添加规则判定以确认标点符号。首先使用KMP算法获得盲文标点的位置索引列表，然后通过对比具有包含关系的标点符号对应的索引，如果相等，则删掉被包含的短字符的索引，经过更新得到该段落中所有标点符号和对应的索引(例如句号”2在检测句号的位置同样可以检测到逗号”可以通过这两种标点的长度确定这两种标点是在文中同一位置，所以要删掉逗号的位置列表中的这一位置)。最后，对标点进行匹配，判断句子中标点序列是否正确，例如句子中含有奇数个“^”，则丢失部分引号，同时判断该标点是否符合标点空方规则，例如在盲文规则中要求逗号、顿号、分号、冒号、省略号后均要空一方。

表1 标点符号盲文ASCII对照表

Table 1 Chinese braille ASCII code punctuation comparison table

KMP位置索引列表具有包含关系的标点符号的索引相等，相等就是指这两种标点在同一位置，而该位置一定只有一种标点，所以在长度相对短的标点的位置列表中删掉该位置。

1.2英文、数字和声韵母匹配检测

对于数字、英文和声韵母都存在极大的重合情况，故将其统一处理。对每个盲文ASCII判断其前后盲文是否符合规则。例如：对于盲文ASCII码B，若看成是声母，则根据声韵母匹配规则，下一个盲文是95IU[6V80！#E<*％>其中之一；若看成是数字，该盲文所在位置前面字符串中需有#字符；若看成是英文，则该盲文所在位置前面字符串中有，，或；字符，或前一个盲文为，字符。按照此类规则判断盲文ASCII码B、F、G、H、K、L、M、N、P、T、#符、，，符、；符和4符，其他盲文在规则上均可单独成词，具体情况需按照语境判断。

2.在基于深度学习盲文错误自动检测阶段，用于检测盲文语义错误

2.1.对段落按标点进行切分

将输入盲文语料，以句号、问号、叹号、省略号作为节点，进行一次切分，对切分后过长句子以最靠近中间部分的逗号作为切分点进行切分，重复切分几次，保证每个句子长度在一定范围内，避免模型训练过程数据溢出。

2.2.训练基于深度学习盲文错误自动检测模型

通过深度学习进行错误检测模型训练属于分类问题，每个盲文词都有其正确与否的标注项。语料标注是给盲文语料中的每个词标注特定的标签的过程，其中每个标签代表一个类别。本文的标签信息表示每个词的正确性，共有两个类别，即0(错误)和1(正确)。

在准备好训练语料之后，需要构建并训练深度神经网络模型。深度神经网络是一种比传统人工神经网络层数更深的人工神经网络模型，采用深度神经网络进行机器学习的技术称为深度学习技术，该技术近年来在机器学习领域受到了广泛关注，在图像处理、语音识别、自然语言处理等领域取得了巨大成功。本发明首次进行中国盲文错误自动检测任务，并将深度学习技术引入该领域。在模型选取方面，可根据情况选取各种深度神经网络模型，如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等。

由于盲文的分词连写规则，盲文以词为单位，空方分隔，而盲文词是无穷的，不能通过字典将所有词涵盖，所以解决大量未登录词是盲文错误自动检测中的核心问题。本发明提取盲文词间字符级向量，如图3，将其与包含语义特征的词向量结合，极大程度地解决这一问题，提高盲文自动错误检测准确率。

2.3.利用基于深度学习盲文错误自动检测模型进行错误检测

由训练得到的深度学习模型，输入盲文语料，经过切分预处理后，放入该模型，输出每个盲文词预测的标签，得到其中预测为错误的位置，即可对编辑和校对人员达到辅助效果。

3.融合规则和基于深度学习的模型。

将基于规则的盲文拼写错误检测，得到的拼写错误位置和基于深度学习的盲文错误检测模型得到语义错误位置合并，得到最终错误盲文位置结果。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提出了融合规则和深度学习的中国盲文错误自动检测方法和系统，首次将人工智能的方法引入盲文校对领域，针对编辑过程中的语义类型错误，采用深度学习模型，联系上下文，判断词语的正确性，并引入字符级和词语级组合型词向量，极大程度解决了盲文词语无穷性带来的大量未登录词问题，并对于深度学习不易解决的标点、和具有很强规则性的英文、数字、声韵母匹配错误按照盲文规则进行检测，引入基于规则的拼写查错。系统及方法的总体流程和步骤如图1所示。

在基于规则的盲文拼写错误检测阶段，对输入盲文语料进行标点、数字、英文字母、声韵母匹配检测。

标点检测

可看出盲文ASCII文件的标点符号之间存在包含关系，所以在需要添加规则判定以确认标点符号。首先使用KMP算法获得盲文标点的位置索引列表，然后对比具有包含关系的标点符号的索引，如果相等，则删掉被包含的短字符的索引。得到标点位置后，对标点进行匹配，判断句子中标点序列是否正确，例如句子中含有奇数个“^”，则丢失部分引号。

英文、数字和声韵母匹配检测

对于数字、对于数字、英文和声韵母都存在极大的重合情况，故将其统一处理。对每个盲文ASCII判断其前后盲文是否符合规则，规则如下表2所示。其他盲文在规则上均可单独成词，具体情况需按照语境判断，故拼写检查仅包括表2中盲文ASCII。

表2：拼写检查之拼写规则

2、在基于深度学习盲文错误自动检测阶段，用于检测盲文语义错误

对段落按标点进行切分

将输入盲文语料，以表1中表示的句号、问号、叹号、省略号作为节点，进行一次切分，对切分后过长句子以最靠近中间部分的逗号作为切分点进行切分，重复切分几次，保证每个句子长度在500个字符的范围内，避免模型训练过程数据溢出。

训练基于深度学习盲文错误自动检测模型

基于深度学习盲文错误自动检测模型框架如图4，主要由三个部分组成：字符级和词语级组合型词向量生成、Bi-LSTM和CRF模块。

首先对大量盲文语料进行预训练，得到GloVe词向量表，将输入的句子转换为词向量序列，本发明对355本盲文图书语料(经过预处理得到图书数据共385,553句)采用GloVe(Global Vectors for Word Representation)工具预训练词向量，该GloVe工具是一个基于全局词频统计的词表征工具，可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了盲文词语之间一些语义特性，比如相似性、类比性等。可分为三个步骤实现：首先根据语料库构建一个共现矩阵X，该矩阵中的每一个元素X_ij代表单词i和上下文单词j在特定大小的上下文窗口内共同出现的次数。GloVe根据两个单词在上下文窗口的距离d，提出了一个衰减函数：decay＝1/d用于计算权重，也就是说距离越远的两个单词所占总数的权重越小。其次，构建词向量和共现矩阵之间的近似关系，并提出公式1，可以近似地表达两者之间的关系，其中和是最终要求解的词向量，b_i和是对应偏置项。最后构造损失函数如公式2所示，其中f(X_ij)是一个权重，如公式3所示，非递减函数，使权重到达一定程度之后不再增加，且当两个单词没有在一起出现时不参与损失函数计算。采用了AdaGrad的梯度下降算法，对矩阵X中的所有非零元素进行随机采样，设置学习率和向量维度，迭代了一定次数，直至收敛。

一系列词向量经过双向LSTM网络可以学习到上下文盲文词之间的语义依赖关系，但是由于盲文词具有汉语特征，同一个盲文可以对应多个汉字，多个汉字可以组成许多个词语，所以由训练集学习到的词向量非常有限，随意变更一个字母，或将该词拆分就会得到许多新词，故验证集和测试集中会出现大量未登录词的。故盲文校对需要解决的核心问题是盲文词无穷性导致的大量未登录词问题。

为解决这一问题，对中国盲文63个盲文ASCII进行one-hot编码，通过双向LSTM网络对每个词内的字符向量进行编码，由最后一层隐含层输出向量经过重新调整大小，得到固定维度字符级词向量，其表征盲文词内部盲文ASCII字符之间的匹配依赖关系，与GloVe词向量结合得到盲文词向量，输入句子转换成词向量之后，输入双向LSTM网络，添加线性CRF层，更多地考虑整个句子的局部特征的线性加权组合，通过计算联合概率，优化了整个序列，弥补了Bi-LSTM网络直接选择每个时刻的最优值而忽略整体性的缺点，经过多轮迭代直到在验证集上测试得到F1值在一定迭代次数内不再提高，得到基于深度学习的中国盲文错误自动检查模型，训练过程如图5。

利用基于深度学习盲文错误自动检测模型进行错误检测

融合规则和基于深度学习的模型。

对输入盲文首先进行基于规则的盲文拼写错误检测，输出标点、数字、英文字母和声韵母错误位置。之后按标点进行切分，得到长度在一定范围内的句子，输入基于深度学习盲文错误自动检测模型，得到语义错误位置，将其拼写错误位置合并，得到最终错误盲文位置结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的中国盲文错误自动检测系统，其中该模块1包括：

模块21、获取已标注语义错误位置的语义检查语料，通过双向LSTM网络对该语义检查语料中每个词的字符向量进行编码，得到隐含层输出向量，重新调整该输出向量的大小，得到固定维度字符级词向量，其表征盲文词内部盲文ASCII字符之间的匹配依赖关系；

Claims

1.一种中国盲文错误自动检测方法，其特征在于，包括：

2.如权利要求1所述的中国盲文错误自动检测方法，其特征在于，该步骤1包括：

3.如权利要求1所述的中国盲文错误自动检测方法，步骤2中该深度神经网络模型的训练过程包括：

4.如权利要求3所述的中国盲文错误自动检测方法，该GloVe词向量的生成过程包括：

5.一种中国盲文错误自动检测系统，其特征在于，包括：

6.如权利要求5所述的中国盲文错误自动检测系统，其特征在于，该模块1包括：

7.如权利要求5所述的中国盲文错误自动检测系统，模块2中该深度神经网络模型的训练过程包括：

8.如权利要求7所述的中国盲文错误自动检测系统，该GloVe词向量的生成过程包括：

9.一种存储介质，用于存储执行权利要求1-4中任意一种所述中国盲文错误自动检测方法的程序。