CN106776501A

CN106776501A - 一种文本错别字自动更正方法和服务器

Info

Publication number: CN106776501A
Application number: CN201611142654.3A
Authority: CN
Inventors: 黄威威; 潘嵘; 张晋斌
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-31

Abstract

本发明提供了一种文本错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练纠正模型，学习错别字的特征。本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正，它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字，大大提高了错别字的纠正效率。

Description

一种文本错别字自动更正方法和服务器

技术领域

本发明涉及一种数据更正方法领域，更具体的，涉及一种文本错别字自动更正方法和服务器。

背景技术

文本校对过程中主要技术就是纠正错别字。通常情况下，文本校对过程基本上采用２种方法（人工检查校对和基于错别字词典的校对），其中最主要的是错别字词典校对，通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此发明通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典，再利用评分模型对相应的词进行打分，最后根据打分从词典中选取正确的字。

从错别字的本意上来看，错别字之所以错是因为错别字出现的位置使得句子语义错误、句子的语法以及词性发生变化。传统的错别字纠正方法都是以词作为分析单元，这在某些情况下是可行的，如：“百度”和“百渡”；但在某些基于语义下是不行的，如：“我是各国人”和“我是中国人”。因此，传统的错别字纠正方法有如下不足：

１．建立错别词和正确词配对词典成本非常高。

２．当出现了词典以外的错别字时，系统将无法识别和纠正，这使得系统性能比较局限。

３．系统没有考虑词的词性，词的上下文信息，句法和语义，因此会出现纠正后的词不符合语法和语义，或者有不符合语义与句法的词无法被识别。对于一些同音词，如“百度”和“摆渡”，当出现这样的错别词语时，系统是无法识别和纠正的。

４．当一些句子出现长短错误，系统是无法进行纠正的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种文本错别字自动更正方法和服务器，通过设计一种文本错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练语料，搭建一个错别字纠正模型，学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时，本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。

为实现上述目的，本发明提供一种文本错别字自动更正方法，其特征在于，包括：

步骤1，对需要校对的文本进行预处理；

步骤2，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；

步骤3，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；

步骤4，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；

步骤5，将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择。

优选的，所述步骤5还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

优选的，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

优选的，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。

优选的，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。

优选的，所述字符特征信息为词性、语法、语义中的一种或几种。

本发明另一方面还提供一种文本错别字自动更正服务器，包括：

预处理模块，用于对需要校对的文本进行预处理；

向量生成模块，用于将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量；

识别模块，用于采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果；

预测模块，用于针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较；

发送模块，用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端，供用户进行选择。

优选的，所述服务器还用于：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

优选的，所述预处理模块还用于去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

优选的，在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。

通过本发明设计一种文本错别字自动更正方法和服务器，能够更高效的纠正文本中的错别字，通过深度学习模型和高维向量化，将每个字映射到高位空间中，并通过高维向量表示字与字之间的关系，再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系，而仅仅是构建一个合适的错别字训练语料，搭建一个错别字纠正模型，学习错别字的特征。本发明很好的解决了传统方法下的错别字纠正系统缺点。同时，本发明采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字，还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。

附图说明

图1示出了本发明一种文本错别字自动更正方法的流程图；

图2示出了本发明一种文本错别字自动更正服务器的结构框图；

图3示出了本发明一实施例的文本错别字更正方法的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种文本错别字自动更正方法的流程图。

如图1所示，根据本发明一种文本错别字自动更正方法，包括以下步骤：

步骤1，对需要校对的文本进行预处理。

所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤，并且转换成简体字以统一处理。

步骤2，将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量。

优选的，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码。将预处理后的数据进行编码后，再进行向量化的处理，将每个字符高维向量化，得到相应的字向量。

步骤3，采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果。

LSTM技术是比普通的RNN算法要更优的算法，更适合进行语义和错别字的识别，基于LSTM是现有技术，所以采用attention机制和双向LSTM进行识别的内容不再一一赘述。attention机制也是在深度学习和语言处理中的常用技术，属于现有技术，所以本说明书不再对此机制进行赘述。

步骤4，针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较。

用户接收到服务器发送更正结果后，在结果选项中选择更适合的结果进行错别字更正。

优选的，所述步骤5还包括：当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。例如，当采用上述的更正方法得到的大于概率阈值的结果只有一个时，那么说明此结果是最符合条件的结果，则自动进行错别字更正，不需要经过用户的确认。另外，还可以直接把概率最大的结果进行自动错别字更正，不需要经过用户的确认。

优选的，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。所述字符特征信息为词性、语法、语义中的一种或几种。

图2示出了本发明一种文本错别字自动更正服务器的结构框图。

如图2所示，根据本发明提供的一种文本错别字自动更正服务器，包括：

预处理模块，用于对需要校对的文本进行预处理。

向量生成模块，用于将所述预处理后的文本进行编码，并将编码后的文本中每个字符进行向量化处理，得到相应的第一字符向量。

识别模块，用于采用attention机制和双向LSTM（long short term memory，长短时记忆网络）模型对句子进行识别，并输出其识别结果。

预测模块，用于针对所述识别结果，对其周边的字符进行预测，并与预设的概率阈值进行比较。

优选的，当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。例如，当采用上述的更正方法得到的大于概率阈值的结果只有一个时，那么说明此结果是最符合条件的结果，则自动进行错别字更正，不需要经过用户的确认。另外，还可以直接把概率最大的结果进行自动错别字更正，不需要经过用户的确认。

在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。所述字符特征信息为词性、语法、语义中的一种或几种。

上述每个模块都可以互相连接或者单独与行使对应功能的模块进行连接。

图3示出了本发明一实施例的文本错别字更正方法的流程图。

如图3所示，首先用户进行文本的输入，其输入的文本数据会发送至服务器中，服务器中的数据清洗系统将对文本数据进行数据清洗工作，数据清洗主要为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤，并且转换成简体字以统一处理。

然后对清洗后的文本数据进行字符向量化的处理。接着采用end to end模型对句子进行解码，在利用attention机制，对句子进行解码，判断此时的概率阈值，将大于此概率阈值的数据选取最大概率的字作为结果进行输出。如果数据不大于概率阈值，则直接输出最终结果。

在本说明书的描述中，术语“安装”、“相连”、“连接”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本错别字自动更正方法，其特征在于，包括：

步骤1，对需要校对的文本进行预处理；

2.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述步骤5还包括：

当大于所述概率阈值的结果为1时，则自动对校对文本进行更正，不需要用户进行选择。

3.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述预处理为去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

4.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。

5.根据权利要求1所述的一种文本错别字自动更正方法，其特征在于，在所述步骤1之前，还包括：服务器针对每个字符都进行向量表示，生成第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则，将所述第二字符向量和语言模型规则存储到相应的数据库中。

6.根据权利要求5所述的一种文本错别字自动更正方法，其特征在于，所述字符特征信息为词性、语法、语义中的一种或几种。

7.一种文本错别字自动更正服务器，其特征在于，包括：

预处理模块，用于对需要校对的文本进行预处理；

8.根据权利要求7所述的一种文本错别字自动更正服务器，其特征在于，所述服务器还用于：

9.根据权利要求7所述的一种文本错别字自动更正服务器，其特征在于，所述预处理模块还用于去除掉无意义的符号，将繁体字转换成简体字，全角符号转换成半角符号中的一种或几种。

10.根据权利要求7所述的一种文本错别字自动更正服务器，其特征在于，在所述服务器还包括：数据库，用于存储第二字符向量和语言模型规则；所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量，所述第二字符向量包含了字符特征信息，然后得到一个语言模型规则。