CN110472243A - 一种中文拼写检查方法 - Google Patents

一种中文拼写检查方法 Download PDF

Info

Publication number
CN110472243A
CN110472243A CN201910728950.9A CN201910728950A CN110472243A CN 110472243 A CN110472243 A CN 110472243A CN 201910728950 A CN201910728950 A CN 201910728950A CN 110472243 A CN110472243 A CN 110472243A
Authority
CN
China
Prior art keywords
word
chinese
spell checking
checking methods
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910728950.9A
Other languages
English (en)
Other versions
CN110472243B (zh
Inventor
张东生
刘纯燕
李涵
张梦琪
赵凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN201910728950.9A priority Critical patent/CN110472243B/zh
Publication of CN110472243A publication Critical patent/CN110472243A/zh
Application granted granted Critical
Publication of CN110472243B publication Critical patent/CN110472243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种中文拼写检查方法。包括如下步骤:构建分词模型,对待检测文本进行分词,得到分词序列;辨认分词序列中的可疑字,并对可疑字进行标记;建立混淆集;利用混淆集构建图模型框架生成纠正候选;计算得出最优候选结果。本发明构建了优质的混淆字集,对分词系统做进一步改进,提高分词的准确率,进而更准确地查找错误位置和错误字。

Description

一种中文拼写检查方法
技术领域
本发明涉及文字检错领域,特别是一种中文拼写检查方法。
背景技术
在国内外相关领域研发人员的共同努力下,中文拼写检查在关键技术方面取得了重要突破,在技术运用方面也有相关产品落地,比如百度智能纠错平台,云查错等各种APP,拼写检查的质量在一定程度上满足了人们的应用需求。然而,在效果上面,人们还在追求更高水平,错别字检测的准确度、句子修改的正确率、以及混淆集建立的实用性等,都有待提高。
实证研究表明,仅使用带注释的语料库不能产生令人满意的性能,因为拼写错误的学习是严重不平衡的机器学习任务,很少发生但多样化的错误形式的发现,需要更大的正确文字语料库。这种情况促使研究者通过整合有用的方法找到更好的方法。研究者观察到中文拼写错误与分词错误有紧密的正相关关系,因为拼写错误很可能导致分词错误。这种观察是有道理的,因为拼写错误可能会导致一个正确的单词产生不太可能的分段句子。从而,可以粗略地判断:所有可能的单词分割中有或没有拼写校正,具有最高可能性的分割则通常会产生正确的句子。
如果能提出一种同时解决分词和拼写错误检查的技术方案,将是十分有意义的。
发明内容
为解决上述问题,本发明提供了一种中文拼写检查方法,包括如下步骤:
步骤一:构建分词模型,对待检测文本进行分词,得到分词序列;
步骤二:辨认分词序列中的可疑字,并对可疑字进行标记;
步骤四:建立混淆集;
步骤五:利用混淆集构建图模型框架生成纠正候选;
步骤六:计算得出最优候选结果。
进一步的,步骤一中,构建分词模型的具体方法为:
S1.1:预先选定Bi-LSTM模型;
S1.2:对语料进行处理,使用word2vec对语料的字进行嵌入,得到字嵌入;
S1.3:将字嵌入的特征喂给Bi-LSTM模型;
S1.4:在Bi-LSTM模型中加入线性层、CRF层;(请确定S1.3与S1.4的步骤顺序),得到分词模型。
进一步的,步骤二中,辨认可疑字的具体方法为:将单个字构成的词定义为单字,如果分词序列出现连续的单字构成的单字串,则将单字串认定为可疑字。
进一步的,混淆集的数据格式是key-value格式,其中key为中文字或者中文词语,value为该中文字词可能存在的错误形式。
进一步的,所述错误形式分为发音混淆、形状混淆;形状混淆,是指输入错误;发音混淆包括相同读音、相同音节不同音调、相似音节相同音调、相似音节不同音调。
进一步的,步骤五具体为:对分词序列内的可疑字进行混淆集替换,最后选择满足最短路径的边,确定最终的错误字,输出错误的位置。
进一步的,步骤五中,如果存在多条最短路径,则利用RNN+N-gram模型,确定最终的错误字,输出错误的位置。
进一步的,步骤六具体为:构建RNN+N-gram框架,采用RNN算法得到最优的一个候选句,并将其作为错字校对的最终结果。
本发明的有益效果为:
1.经济效益分析
近年来许多公司会从网络上撷取资料,透过语意分析,分析市场趋势、产品品质、消费者行为……等。但网络文献中存在着许多错误的字词,在语意分析上一般都会舍弃这些字词,但这无形中造就了资源的浪费。采用本发明,在分析上就能有更多的资源,从而做出更有意义和价值的分析。本发明研究拥有高度的侦错能力和修正功能,能够修复错误的字词,让企业做出更有效的分析,加强企业的竞争力。
2.社会效益分析
本发明能够精确地检测出错别字并且修正,从而大量减少人工侦错的时间与成本,且在取得显著经济效益的同时,增加外国用户使用中文的意愿,从而达到推广中文的目的。
3.环境效益分析
本发明研究成果能在任何已知的系统上运作,且在研究过程中没有使用多余的资源或场地,不会对环境产生不良影响。
附图说明
图1为本发明的流程图。
具体实施方式
如图1所示,本发明包括如下步骤:
步骤一:构建分词模型,对待检测文本进行分词,得到分词序列;
本步骤是使用keras实现的基于Bi-LSTM(双向LSTM)+CRF的中文分词来改善分词效果,采用双向的长短期记忆网络LSTM,它可以解决语言远距离依赖问题,从而增强长句分词能力。分词的具体步骤如下:
S1.1:预先选定Bi-LSTM模型;
S1.2:对语料进行处理,使用word2vec对语料的字进行嵌入,得到字嵌入。字嵌入是一种有效的特征学习,属于深度学习技术领域,深度学习主要是特征学习,端到端训练。
S1.3:将字嵌入的特征喂给Bi-LSTM模型;
S1.4:对Bi-LSTM模型中输出的隐层加一个线性层,然后再加一个CRF层,得到分词模型。利用CRF进行学习符号之间的约束,达到最高准确率的分词效果。由于句子中含有错别字,所以分词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集。利用日志信息,生成关键词的热度信息,构建一个常用词表加上需要应用的领域词表,从而提高错误检测率。
步骤二:辨认分词序列中的可疑字,并对可疑字进行标记。
辨认可疑字的具体方法为:在分词结果中,将单个字构成的词定义为单字。如果分词序列连续出现两个及以上的单字被认为是连续的单字串,则将单字串认定为可疑字。如果一个文本中包含有拼写错误的字,在分词后的序列中,往往会出现连续的单字串(连续出现两个及以上的单字被认为是连续单字串)。本发明将连续的单字串内的字被认为是可疑字。为了减少检错系统的误报,制定一些过滤容易被误报的单字,忽略句首的单字和忽略单独成词的字。
步骤四:建立混淆集。
混淆集的质量很大程度上决定了中文纠错的上限。混淆集的数据格式是key-value格式,其中key为中文字或者中文词语,value为该中文字词可能存在的错误形式。
常见的错误形式分为发音混淆、形状混淆。其中,发音混淆是最为主要的一种形式,其比例可达70%左右,发音混淆有四种错误类型,分别为相同读音、相同音节不同音调、相似音节相同音调、相似音节不同音调。形状混淆可根据五笔码的编辑距离计算就可以得到。根据这些错误类型建立最优混淆字集,混淆集的质量很大程度上决定了中文纠错的上限。
步骤五:利用混淆集构建图模型框架生成纠正候选。
图模型(Graphical Model)是用图论方法以表现数个独立随机变数之关联的一种建模法。首先对需要检测的句子进行分词,通过规则记录对分词序列内的可疑字,并用进行混淆集替换,最后选择满足最短路径的边,确定最终的错误字,输出错误的位置。如果存在多条最短路径,则对所有最短路径序列进行词性标记与转换,利用RNN+N-gram模型,基于神经网络最大熵的原理,确定最终的错误字,输出错误的位置。
步骤六:计算得出最优候选结果。
该步骤六具体为:构建RNN+N-gram框架,采用RNN算法得到最优的一个候选句,并将其作为错字校对的最终结果。
得到最优候选句的原理为:RNN+N-gram模型可以看成二分类问题,通过大量的训练语料提取出特征值,并映射为一个n维向量,n是数据中所有特征的总数,且每个特征对应一个权重w。因为是二分类问题,把权重w设为n*2维的向量,随机初始化权重,并根据随机梯度下降法不断更新权重来确定最终的权重值。输出y是1*2维向量,代表替换是否合适。根据前向后向算法重复操作确定最终权重后,得到输出值y值,1*2维的数组(a,b),若a>=b,则是正向,可以做替换;若a<b,则是负向,表示不可以做替换。根据此模型二次赛选,最终确定最合适的错字替换字。
本实施例采用循环神经网络(RNN)算法得到最优的一个候选句,并将其作为错字校对的最终结果。避免了运用语言模型的高阶N-gram模型的稀疏性问题,而导致一些零条件概率结果产生,还有无法利用前文的更多信息等问题。

Claims (8)

1.一种中文拼写检查方法,其特征在于,包括如下步骤:
步骤一:构建分词模型,对待检测文本进行分词,得到分词序列;
步骤二:辨认分词序列中的可疑字,并对可疑字进行标记;
步骤四:建立混淆集;
步骤五:利用混淆集构建图模型框架生成纠正候选;
步骤六:计算得出最优候选结果。
2.如权利要求1所述的中文拼写检查方法,其特征在于,步骤一中,构建分词模型的具体方法为:
S1.1:预先选定Bi-LSTM模型;
S1.2:对语料进行处理,使用word2vec对语料的字进行嵌入,得到字嵌入;
S1.3:将字嵌入的特征喂给Bi-LSTM模型;
S1.4:在Bi-LSTM模型中加入线性层、CRF层,得到分词模型。
3.如权利要求1所述的中文拼写检查方法,其特征在于,步骤二中,辨认可疑字的具体方法为:将单个字构成的词定义为单字,如果分词序列出现连续的单字构成的单字串,则将单字串认定为可疑字。
4.如权利要求3所述的中文拼写检查方法,其特征在于,混淆集的数据格式是key-value格式,其中key为中文字或者中文词语,value为该中文字或中文词可能存在的错误形式。
5.如权利要求4所述的中文拼写检查方法,其特征在于,所述错误形式分为发音混淆、形状混淆;发音混淆包括相同读音、相同音节不同音调、相似音节相同音调、相似音节不同音调。
6.如权利要求1~5任一项所述的中文拼写检查方法,其特征在于,步骤五具体为:对分词序列内的可疑字进行混淆集替换,最后选择满足最短路径的边,确定最终的错误字,输出错误的位置。
7.如权利要求6所述的中文拼写检查方法,其特征在于,步骤五中,如果存在多条最短路径,则利用RNN+N-gram模型,确定最终的错误字,输出错误的位置。
8.如权利要求1或7所述的中文拼写检查方法,其特征在于,步骤六具体为:构建RNN+N-gram框架,采用RNN算法得到最优的一个候选句,并将其作为错字校对的最终结果。
CN201910728950.9A 2019-08-08 2019-08-08 一种中文拼写检查方法 Active CN110472243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728950.9A CN110472243B (zh) 2019-08-08 2019-08-08 一种中文拼写检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728950.9A CN110472243B (zh) 2019-08-08 2019-08-08 一种中文拼写检查方法

Publications (2)

Publication Number Publication Date
CN110472243A true CN110472243A (zh) 2019-11-19
CN110472243B CN110472243B (zh) 2023-04-07

Family

ID=68511656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728950.9A Active CN110472243B (zh) 2019-08-08 2019-08-08 一种中文拼写检查方法

Country Status (1)

Country Link
CN (1) CN110472243B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753529A (zh) * 2020-06-03 2020-10-09 杭州云嘉云计算有限公司 一种基于拼音相同或相似的中文文本纠错方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519973A (zh) * 2018-03-29 2018-09-11 广州视源电子科技股份有限公司 文字拼写的检测方法、系统、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN108519973A (zh) * 2018-03-29 2018-09-11 广州视源电子科技股份有限公司 文字拼写的检测方法、系统、计算机设备及存储介质
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘亮亮等: "基于局部上下文特征的组合的中文真词错误自动校对研究", 《计算机科学》 *
郭浩等: "基于CNN和BiLSTM的短文本相似度计算方法", 《信息技术与网络安全》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753529A (zh) * 2020-06-03 2020-10-09 杭州云嘉云计算有限公司 一种基于拼音相同或相似的中文文本纠错方法
CN111753529B (zh) * 2020-06-03 2021-07-27 杭州云嘉云计算有限公司 一种基于拼音相同或相似的中文文本纠错方法

Also Published As

Publication number Publication date
CN110472243B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
Hämäläinen et al. From the paft to the fiiture: a fully automatic NMT and word embeddings method for OCR post-correction
CN113312501A (zh) 基于知识图谱的安全知识自助查询系统的构建方法及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN110222250B (zh) 一种面向微博的突发事件触发词识别方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN109145287A (zh) 印尼语单词检错纠错方法及系统
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN114997288A (zh) 一种设计资源关联方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法
CN110472243A (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant