CN111737982A

CN111737982A - 一种基于深度学习的汉语文本错别字检测方法

Info

Publication number: CN111737982A
Application number: CN202010604113.8A
Authority: CN
Inventors: 张坤; 孙含福; 夏世念; 梁振; 黄晓艳
Original assignee: Wuhan Hongxin Technology Service Co Ltd
Current assignee: Wuhan Hongxin Technology Service Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-02

Abstract

本发明公开了一种基于深度学习的汉语文本错别字检测方法，该方法包括步骤:利用训练样本集训练神经网络模型，重复上述训练步骤，直至利用验证样本集对神经网络模型验证通过；获取待检测文本，利用训练好的神经网络模型依次查询待检测文本的每个汉字进行检测。该方法通过大量文本数据进行训练得到相应的算法模型，通过该算法模型对待检测文本进行错别字检测，算法模型检测后进行相应的反馈，从而可以很方便且快速的找到待检测文本中的错别字。

Description

一种基于深度学习的汉语文本错别字检测方法

技术领域

本发明属于神经网络应用领域，具体涉及一种基于深度学习的汉语文本错别字检测方法。

背景技术

汉语历史悠久，使用人数最多，世界上使用汉语的人数至少15亿，超过世界总人口的20％，是中国的官方语言，是新加坡的四种官方语言之一，亦是联合国六种工作语言之一，主要流通于中国和新加坡、马来西亚、缅甸、泰国等东南亚国家以及美国、加拿大、澳大利亚、新西兰、日本等国的华人社区。

汉语文本可以用来表达我们思想，但在使用汉语写作时很容易出现错别字，这样别人就不能正确理解甚至是误解我们要传达的意思了。目前，汉语文本进行错别字检测通常是用肉眼进行检测，然而，对于大量的文本数据，使用人工检测的方法不仅很难发现，而且检测准确性和效率不高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的汉语文本错别字检测方法，旨在解决现有的人工检测汉语文本错别字时准确性和效率不高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的汉语文本错别字检测方法，包括：

利用训练样本集训练神经网络模型，神经网络模型包括汉字模型库，训练样本集包括多个汉语文本训练数据样本，依次查询每个训练句组中的每个汉字是否存在于汉字模型库，不存在时将对应的汉字添加入所述汉字模型库；

重复上述训练步骤，直至利用验证样本集对神经网络模型验证通过，其中，验证样本集中的样本数据包括错别字；

获取待检测文本，依次查询待检测文本的每个汉字是否存在于汉字模型库，不存在时则认为当前汉字为错别字。

作为本发明的进一步改进，神经网络模型的验证条件包括：

验证样本集的所有汉字的检测正确率大于第一预设阈值。

作为本发明的进一步改进，神经网络模型还包括汉字关联图谱；

神经网络模型的训练过程还包括：对汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组，将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组，查询所述汉字关联图谱是否存在当前训练词组，存在则更新当前训练词组的出现频率，否则将当前训练词组添加入汉字关联图谱；

神经网络模型的检测过程还包括：对汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组，待检测句组的当前汉字存在于汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前词组，获取当前词组在所述汉字关联图谱的出现频率，出现频率小于第三预设阈值时则认为当前汉字为错别字。

作为本发明的进一步改进，验证样本集中的样本数据还包括错误词组，神经网络模型的验证条件包括当验证样本集的所有词组的检测正确率大于第二预设阈值，神经网络模型的验证过程包括：

对验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组，待验证句组的当前汉字存在于汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前验证词组，获取当前验证词组在汉字关联图谱的出现频率，出现频率小于第三预设阈值时则认为当前汉字为错别字。

作为本发明的进一步改进，获取待检测文本的过程包括：提取图片或视频数据中的文本数据。

作为本发明的进一步改进，神经网络模型的训练过程还包括：

依据用户的反馈结果对所述神经网络模型进行再训练，以提高所述神经网络模型的检测准确性。

作为本发明的进一步改进，依据文本数据的类型建立多个不同类型的神经网络模型，利用与待检测文本类型对应的神经网络模型对待检测文本进行错别字检测。

为实现上述目的，按照本发明的另一个方面，提供了一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备执行上述方法的步骤。

为实现上述目的，按照本发明的另一个方面，提供了一种终端设备，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明的一种基于深度学习的汉语文本错别字检测方法，其通过对大量文本进行训练得到神经网络模型的汉字模型库，再利用汉字模型库将能够很方便和快速地检测出文本中的错别字，从而解决人工检测汉语文本错别字时准确性和效率不高的问题。

本发明的一种基于深度学习的汉语文本错别字检测方法，其通过获取当前训练词组建立汉字关联图谱，通过汉字关联图谱中的词组的出现频率进行错别字的判断，从而进一步提高错别字的检测精度。

本发明的一种基于深度学习的汉语文本错别字检测方法，依据文本数据的类型建立多个不同类型的神经网络模型，使每个模型更专注一种类型，从而进一步提高错别字的检测精度。

附图说明

图1为本发明实施例的一种基于深度学习的汉语文本错别字检测方法的示意图；

图2为本发明实施例的汉字模型库的一种存储方式的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

图1为本发明实施例的一种基于深度学习的汉语文本错别字检测方法的示意图。如图1所示，一种基于深度学习的汉语文本错别字检测方法，包括：

收集大量文本数据，利用训练样本集训练神经网络模型，神经网络模型包括汉字模型库，训练样本集包括多个汉语文本训练数据样本，依次查询每个训练句组中的每个汉字是否存在于汉字模型库，不存在时将对应的汉字添加入汉字模型库；汉字的查询过程可以利用查询指针来实现，即查询指针所指汉字在汉字模型库中是否存在；

图2为本发明实施例的汉字模型库的一种存储方式的示意图。如图2所示，作为汉字模型库的一种存储方式，汉字模型库初期为空，通过训练进行扩充，为了方便查找，汉字模型库的节点可以采用链式或者树结构，并以汉字出现率为权进行排序；在汉字模型库中，每个节点都代表一个不同的汉字，即汉语有多少个汉字，汉字模型库就有多少个节点；每个节点包含一个关联图谱，该关联图谱由此汉字可组成的全部词语和出现频率组成，存储方式同汉字模型库，以单词出现频率为权重进行排序。

可选的，神经网络模型的验证条件包括：

验证样本集的所有汉字的检测正确率大于第一预设阈值。

可选的，神经网络模型还包括汉字关联图谱；

神经网络模型的训练过程还包括：对汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组，将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组，查询所述汉字关联图谱是否存在当前训练词组，存在则更新当前训练词组的出现频率，否则将当前训练词组添加入汉字关联图谱；作为一个示例，其训练过程为：接收待检测文本，对文本进行断句得到多个句子，分别对每个句子从第一个汉字开始利用所述算法模型进行查找得到该汉字的汉字模型和关联图谱，直到汉字指针指向待检测文本最后一个汉字，汉字指针初始指向第一个汉字；

可选的，验证样本集中的样本数据还包括错误词组，神经网络模型的验证条件包括当验证样本集的所有词组的检测正确率大于第二预设阈值，神经网络模型的验证过程包括：

作为一个示例，验证过程如下：

S1.提供一个错误的文本数据和文本数据中所有错误的单词；

S2.利用对错误的文本数据进行检测可得到算法模型认为错误的多组单词；

S3.计算S2中的程序认为的错误单词在S1中的错误单词的命中率；

S4.提供更多组S1所述的错误文本数据和文本数据中错误的单词，重复S1，S2，S3得到多组命中率，当多组命中率算术平均值高于设定值(例如90％)时即认为模型训练完成。

可选的，获取待检测文本的过程包括：提取图片或视频数据中的文本数据。利用图片提取成文本数据，主要是将图片滤波即转化为黑白图片，黑白图片包含黑色象素和白色象素，将黑色象素用1代替，白色象素用0代替，就可以取得一个二进制矩阵，再通过已存在的技术手段很容易将二进制矩阵转化为一段文本数据。提取视频文件的文本数据时，只需要将视频文件装化为多个视频帧，每一视频帧即为一张图片，再将图片转化为文本数据即可。

可选的，神经网络模型的训练过程还包括：

可选的，依据文本数据的类型建立多个不同类型的神经网络模型，利用与待检测文本类型对应的神经网络模型对待检测文本进行错别字检测。例如学术类的就完全找学术论文作为训练集和验证集，使每个模型更专注一种类型，从而提高准确性。

一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备执行上述方法的步骤。

一种终端设备，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述方法的步骤。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的汉语文本错别字检测方法，其特征在于，包括：

利用训练样本集训练神经网络模型，所述神经网络模型包括汉字模型库，所述训练样本集包括多个汉语文本训练数据样本，依次查询每个训练句组中的每个汉字是否存在于汉字模型库，不存在时将对应的汉字添加入所述汉字模型库；

重复上述训练步骤，直至利用验证样本集对所述神经网络模型验证通过，其中，所述验证样本集中的样本数据包括错别字；

获取待检测文本，依次查询待检测文本的每个汉字是否存在于所述汉字模型库，不存在时则认为当前汉字为错别字。

2.根据权利要求1所述的一种基于深度学习的汉语文本错别字检测方法，其中，所述神经网络模型的验证条件包括：

所述验证样本集的所有汉字的检测正确率大于第一预设阈值。

3.根据权利要求1或2所述的一种基于深度学习的汉语文本错别字检测方法，其中，所述神经网络模型还包括汉字关联图谱；

所述神经网络模型的训练过程还包括：对所述汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组，将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组，查询所述汉字关联图谱是否存在当前训练词组，存在则更新当前训练词组的出现频率，否则将当前训练词组添加入所述汉字关联图谱；

所述神经网络模型的检测过程还包括：对所述汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组，待检测句组的当前汉字存在于所述汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前词组，获取当前词组在所述汉字关联图谱的出现频率，所述出现频率小于第三预设阈值时则认为当前汉字为错别字。

4.根据权利要求3所述的一种基于深度学习的汉语文本错别字检测方法，其中，所述验证样本集中的样本数据还包括错误词组，所述神经网络模型的验证条件包括当所述验证样本集的所有词组的检测正确率大于第二预设阈值，所述神经网络模型的验证过程包括：

对所述验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组，待验证句组的当前汉字存在于所述汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前验证词组，获取当前验证词组在所述汉字关联图谱的出现频率，所述出现频率小于第三预设阈值时则认为当前汉字为错别字。

5.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法，其中，获取待检测文本的过程包括：提取图片或视频数据中的文本数据。

6.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法，其中，所述神经网络模型的训练过程还包括：

7.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法，其中，依据文本数据的类型建立多个不同类型的神经网络模型，利用与待检测文本类型对应的神经网络模型对所述待检测文本进行错别字检测。

8.一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在所述终端设备上运行时，使得所述终端设备执行权利要求1-7中任一项所述方法的步骤。

9.一种终端设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1-7中任一项所述方法的步骤。