CN111737982A - 一种基于深度学习的汉语文本错别字检测方法 - Google Patents

一种基于深度学习的汉语文本错别字检测方法 Download PDF

Info

Publication number
CN111737982A
CN111737982A CN202010604113.8A CN202010604113A CN111737982A CN 111737982 A CN111737982 A CN 111737982A CN 202010604113 A CN202010604113 A CN 202010604113A CN 111737982 A CN111737982 A CN 111737982A
Authority
CN
China
Prior art keywords
chinese character
chinese
training
neural network
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010604113.8A
Other languages
English (en)
Inventor
张坤
孙含福
夏世念
梁振
黄晓艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Hongxin Technology Service Co Ltd
Original Assignee
Wuhan Hongxin Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hongxin Technology Service Co Ltd filed Critical Wuhan Hongxin Technology Service Co Ltd
Priority to CN202010604113.8A priority Critical patent/CN111737982A/zh
Publication of CN111737982A publication Critical patent/CN111737982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的汉语文本错别字检测方法,该方法包括步骤:利用训练样本集训练神经网络模型,重复上述训练步骤,直至利用验证样本集对神经网络模型验证通过;获取待检测文本,利用训练好的神经网络模型依次查询待检测文本的每个汉字进行检测。该方法通过大量文本数据进行训练得到相应的算法模型,通过该算法模型对待检测文本进行错别字检测,算法模型检测后进行相应的反馈,从而可以很方便且快速的找到待检测文本中的错别字。

Description

一种基于深度学习的汉语文本错别字检测方法
技术领域
本发明属于神经网络应用领域,具体涉及一种基于深度学习的汉语文本错别字检测方法。
背景技术
汉语历史悠久,使用人数最多,世界上使用汉语的人数至少15亿,超过世界总人口的20%,是中国的官方语言,是新加坡的四种官方语言之一,亦是联合国六种工作语言之一,主要流通于中国和新加坡、马来西亚、缅甸、泰国等东南亚国家以及美国、加拿大、澳大利亚、新西兰、日本等国的华人社区。
汉语文本可以用来表达我们思想,但在使用汉语写作时很容易出现错别字,这样别人就不能正确理解甚至是误解我们要传达的意思了。目前,汉语文本进行错别字检测通常是用肉眼进行检测,然而,对于大量的文本数据,使用人工检测的方法不仅很难发现,而且检测准确性和效率不高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的汉语文本错别字检测方法,旨在解决现有的人工检测汉语文本错别字时准确性和效率不高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的汉语文本错别字检测方法,包括:
利用训练样本集训练神经网络模型,神经网络模型包括汉字模型库,训练样本集包括多个汉语文本训练数据样本,依次查询每个训练句组中的每个汉字是否存在于汉字模型库,不存在时将对应的汉字添加入所述汉字模型库;
重复上述训练步骤,直至利用验证样本集对神经网络模型验证通过,其中,验证样本集中的样本数据包括错别字;
获取待检测文本,依次查询待检测文本的每个汉字是否存在于汉字模型库,不存在时则认为当前汉字为错别字。
作为本发明的进一步改进,神经网络模型的验证条件包括:
验证样本集的所有汉字的检测正确率大于第一预设阈值。
作为本发明的进一步改进,神经网络模型还包括汉字关联图谱;
神经网络模型的训练过程还包括:对汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组,将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组,查询所述汉字关联图谱是否存在当前训练词组,存在则更新当前训练词组的出现频率,否则将当前训练词组添加入汉字关联图谱;
神经网络模型的检测过程还包括:对汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组,待检测句组的当前汉字存在于汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前词组,获取当前词组在所述汉字关联图谱的出现频率,出现频率小于第三预设阈值时则认为当前汉字为错别字。
作为本发明的进一步改进,验证样本集中的样本数据还包括错误词组,神经网络模型的验证条件包括当验证样本集的所有词组的检测正确率大于第二预设阈值,神经网络模型的验证过程包括:
对验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组,待验证句组的当前汉字存在于汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前验证词组,获取当前验证词组在汉字关联图谱的出现频率,出现频率小于第三预设阈值时则认为当前汉字为错别字。
作为本发明的进一步改进,获取待检测文本的过程包括:提取图片或视频数据中的文本数据。
作为本发明的进一步改进,神经网络模型的训练过程还包括:
依据用户的反馈结果对所述神经网络模型进行再训练,以提高所述神经网络模型的检测准确性。
作为本发明的进一步改进,依据文本数据的类型建立多个不同类型的神经网络模型,利用与待检测文本类型对应的神经网络模型对待检测文本进行错别字检测。
为实现上述目的,按照本发明的另一个方面,提供了一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述方法的步骤。
为实现上述目的,按照本发明的另一个方面,提供了一种终端设备,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明的一种基于深度学习的汉语文本错别字检测方法,其通过对大量文本进行训练得到神经网络模型的汉字模型库,再利用汉字模型库将能够很方便和快速地检测出文本中的错别字,从而解决人工检测汉语文本错别字时准确性和效率不高的问题。
本发明的一种基于深度学习的汉语文本错别字检测方法,其通过获取当前训练词组建立汉字关联图谱,通过汉字关联图谱中的词组的出现频率进行错别字的判断,从而进一步提高错别字的检测精度。
本发明的一种基于深度学习的汉语文本错别字检测方法,依据文本数据的类型建立多个不同类型的神经网络模型,使每个模型更专注一种类型,从而进一步提高错别字的检测精度。
附图说明
图1为本发明实施例的一种基于深度学习的汉语文本错别字检测方法的示意图;
图2为本发明实施例的汉字模型库的一种存储方式的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。
图1为本发明实施例的一种基于深度学习的汉语文本错别字检测方法的示意图。如图1所示,一种基于深度学习的汉语文本错别字检测方法,包括:
收集大量文本数据,利用训练样本集训练神经网络模型,神经网络模型包括汉字模型库,训练样本集包括多个汉语文本训练数据样本,依次查询每个训练句组中的每个汉字是否存在于汉字模型库,不存在时将对应的汉字添加入汉字模型库;汉字的查询过程可以利用查询指针来实现,即查询指针所指汉字在汉字模型库中是否存在;
图2为本发明实施例的汉字模型库的一种存储方式的示意图。如图2所示,作为汉字模型库的一种存储方式,汉字模型库初期为空,通过训练进行扩充,为了方便查找,汉字模型库的节点可以采用链式或者树结构,并以汉字出现率为权进行排序;在汉字模型库中,每个节点都代表一个不同的汉字,即汉语有多少个汉字,汉字模型库就有多少个节点;每个节点包含一个关联图谱,该关联图谱由此汉字可组成的全部词语和出现频率组成,存储方式同汉字模型库,以单词出现频率为权重进行排序。
重复上述训练步骤,直至利用验证样本集对神经网络模型验证通过,其中,验证样本集中的样本数据包括错别字;
获取待检测文本,依次查询待检测文本的每个汉字是否存在于汉字模型库,不存在时则认为当前汉字为错别字。
可选的,神经网络模型的验证条件包括:
验证样本集的所有汉字的检测正确率大于第一预设阈值。
可选的,神经网络模型还包括汉字关联图谱;
神经网络模型的训练过程还包括:对汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组,将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组,查询所述汉字关联图谱是否存在当前训练词组,存在则更新当前训练词组的出现频率,否则将当前训练词组添加入汉字关联图谱;作为一个示例,其训练过程为:接收待检测文本,对文本进行断句得到多个句子,分别对每个句子从第一个汉字开始利用所述算法模型进行查找得到该汉字的汉字模型和关联图谱,直到汉字指针指向待检测文本最后一个汉字,汉字指针初始指向第一个汉字;
神经网络模型的检测过程还包括:对汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组,待检测句组的当前汉字存在于汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前词组,获取当前词组在所述汉字关联图谱的出现频率,出现频率小于第三预设阈值时则认为当前汉字为错别字。
可选的,验证样本集中的样本数据还包括错误词组,神经网络模型的验证条件包括当验证样本集的所有词组的检测正确率大于第二预设阈值,神经网络模型的验证过程包括:
对验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组,待验证句组的当前汉字存在于汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前验证词组,获取当前验证词组在汉字关联图谱的出现频率,出现频率小于第三预设阈值时则认为当前汉字为错别字。
作为一个示例,验证过程如下:
S1.提供一个错误的文本数据和文本数据中所有错误的单词;
S2.利用对错误的文本数据进行检测可得到算法模型认为错误的多组单词;
S3.计算S2中的程序认为的错误单词在S1中的错误单词的命中率;
S4.提供更多组S1所述的错误文本数据和文本数据中错误的单词,重复S1,S2,S3得到多组命中率,当多组命中率算术平均值高于设定值(例如90%)时即认为模型训练完成。
可选的,获取待检测文本的过程包括:提取图片或视频数据中的文本数据。利用图片提取成文本数据,主要是将图片滤波即转化为黑白图片,黑白图片包含黑色象素和白色象素,将黑色象素用1代替,白色象素用0代替,就可以取得一个二进制矩阵,再通过已存在的技术手段很容易将二进制矩阵转化为一段文本数据。提取视频文件的文本数据时,只需要将视频文件装化为多个视频帧,每一视频帧即为一张图片,再将图片转化为文本数据即可。
可选的,神经网络模型的训练过程还包括:
依据用户的反馈结果对所述神经网络模型进行再训练,以提高所述神经网络模型的检测准确性。
可选的,依据文本数据的类型建立多个不同类型的神经网络模型,利用与待检测文本类型对应的神经网络模型对待检测文本进行错别字检测。例如学术类的就完全找学术论文作为训练集和验证集,使每个模型更专注一种类型,从而提高准确性。
一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述方法的步骤。
一种终端设备,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述方法的步骤。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的汉语文本错别字检测方法,其特征在于,包括:
利用训练样本集训练神经网络模型,所述神经网络模型包括汉字模型库,所述训练样本集包括多个汉语文本训练数据样本,依次查询每个训练句组中的每个汉字是否存在于汉字模型库,不存在时将对应的汉字添加入所述汉字模型库;
重复上述训练步骤,直至利用验证样本集对所述神经网络模型验证通过,其中,所述验证样本集中的样本数据包括错别字;
获取待检测文本,依次查询待检测文本的每个汉字是否存在于所述汉字模型库,不存在时则认为当前汉字为错别字。
2.根据权利要求1所述的一种基于深度学习的汉语文本错别字检测方法,其中,所述神经网络模型的验证条件包括:
所述验证样本集的所有汉字的检测正确率大于第一预设阈值。
3.根据权利要求1或2所述的一种基于深度学习的汉语文本错别字检测方法,其中,所述神经网络模型还包括汉字关联图谱;
所述神经网络模型的训练过程还包括:对所述汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组,将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组,查询所述汉字关联图谱是否存在当前训练词组,存在则更新当前训练词组的出现频率,否则将当前训练词组添加入所述汉字关联图谱;
所述神经网络模型的检测过程还包括:对所述汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组,待检测句组的当前汉字存在于所述汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前词组,获取当前词组在所述汉字关联图谱的出现频率,所述出现频率小于第三预设阈值时则认为当前汉字为错别字。
4.根据权利要求3所述的一种基于深度学习的汉语文本错别字检测方法,其中,所述验证样本集中的样本数据还包括错误词组,所述神经网络模型的验证条件包括当所述验证样本集的所有词组的检测正确率大于第二预设阈值,所述神经网络模型的验证过程包括:
对所述验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组,待验证句组的当前汉字存在于所述汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前验证词组,获取当前验证词组在所述汉字关联图谱的出现频率,所述出现频率小于第三预设阈值时则认为当前汉字为错别字。
5.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法,其中,获取待检测文本的过程包括:提取图片或视频数据中的文本数据。
6.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法,其中,所述神经网络模型的训练过程还包括:
依据用户的反馈结果对所述神经网络模型进行再训练,以提高所述神经网络模型的检测准确性。
7.根据权利要求1-4中任一项所述的一种基于深度学习的汉语文本错别字检测方法,其中,依据文本数据的类型建立多个不同类型的神经网络模型,利用与待检测文本类型对应的神经网络模型对所述待检测文本进行错别字检测。
8.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在所述终端设备上运行时,使得所述终端设备执行权利要求1-7中任一项所述方法的步骤。
9.一种终端设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1-7中任一项所述方法的步骤。
CN202010604113.8A 2020-06-29 2020-06-29 一种基于深度学习的汉语文本错别字检测方法 Pending CN111737982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604113.8A CN111737982A (zh) 2020-06-29 2020-06-29 一种基于深度学习的汉语文本错别字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604113.8A CN111737982A (zh) 2020-06-29 2020-06-29 一种基于深度学习的汉语文本错别字检测方法

Publications (1)

Publication Number Publication Date
CN111737982A true CN111737982A (zh) 2020-10-02

Family

ID=72651622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604113.8A Pending CN111737982A (zh) 2020-06-29 2020-06-29 一种基于深度学习的汉语文本错别字检测方法

Country Status (1)

Country Link
CN (1) CN111737982A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714361A (zh) * 2020-12-25 2021-04-27 江苏匠韵文化传媒有限公司 一种动画资源管理方法及装置
WO2021208727A1 (zh) * 2020-11-24 2021-10-21 平安科技(深圳)有限公司 基于人工智能的文本错误检测方法、装置、计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
CN106815592A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和错别字识别方法及装置
CN107341140A (zh) * 2017-06-30 2017-11-10 深圳天珑无线科技有限公司 错别字修改方法、终端以及计算机可读存储介质
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及系统
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
CN106815592A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和错别字识别方法及装置
CN107341140A (zh) * 2017-06-30 2017-11-10 深圳天珑无线科技有限公司 错别字修改方法、终端以及计算机可读存储介质
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN107665190A (zh) * 2017-09-29 2018-02-06 李晓妮 一种文本校对错误词库的自动构造方法和装置
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及系统
CN110135414A (zh) * 2019-05-16 2019-08-16 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵冬香: "基于BP神经网络的清水江文书识别系统研究", 《科技创新与应用》, no. 15 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021208727A1 (zh) * 2020-11-24 2021-10-21 平安科技(深圳)有限公司 基于人工智能的文本错误检测方法、装置、计算机设备
CN112714361A (zh) * 2020-12-25 2021-04-27 江苏匠韵文化传媒有限公司 一种动画资源管理方法及装置
CN112714361B (zh) * 2020-12-25 2022-08-05 河北精英动漫文化传播股份有限公司 一种动画资源管理方法及装置

Similar Documents

Publication Publication Date Title
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN106030568B (zh) 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN111737982A (zh) 一种基于深度学习的汉语文本错别字检测方法
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN105095196A (zh) 文本中新词发现的方法和装置
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN115438650A (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109472020B (zh) 一种特征对齐中文分词方法
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN109947932B (zh) 一种推送信息分类方法及系统
CN110750984A (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN110069780B (zh) 一种基于特定领域文本的情感词识别方法
CN113705568A (zh) 文字识别网络训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination