CN109213998A - 中文错字检测方法及系统 - Google Patents

中文错字检测方法及系统 Download PDF

Info

Publication number
CN109213998A
CN109213998A CN201810942637.0A CN201810942637A CN109213998A CN 109213998 A CN109213998 A CN 109213998A CN 201810942637 A CN201810942637 A CN 201810942637A CN 109213998 A CN109213998 A CN 109213998A
Authority
CN
China
Prior art keywords
word
language model
frequency
error detection
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810942637.0A
Other languages
English (en)
Other versions
CN109213998B (zh
Inventor
夏天
刘智美
龚永罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Midu Information Technology Co ltd
Original Assignee
Huizhi Rongda (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhi Rongda (beijing) Information Technology Co Ltd filed Critical Huizhi Rongda (beijing) Information Technology Co Ltd
Priority to CN201810942637.0A priority Critical patent/CN109213998B/zh
Publication of CN109213998A publication Critical patent/CN109213998A/zh
Application granted granted Critical
Publication of CN109213998B publication Critical patent/CN109213998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文错字检测方法及系统,该方法包括:步骤S1:获取待检测文本;步骤S2:对待检测文本进行分词处理,得到分词数组,令i=1;步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在bigram语言模型中的频次以及titi+1ti+2在trigram语言模型中的频次,若titi+1在bigram语言模型中的频次小于第一阈值且titi+1ti+2在trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;步骤S4:执行i=i+1,若i≤n‑2,重复执行步骤S3,若i>n‑2,执行步骤S5;步骤S5:根据错误检测处理的结果生成修改建议列表。本发明能满足互联网大规模海量文本的实时处理需求。

Description

中文错字检测方法及系统
技术领域
本发明涉及语言处理技术领域,具体涉及一种中文错字检测方法及系统。
背景技术
信息化社会下,中文书写大量通过电脑处理,中文文字可以录入到电脑的方法主要有三种:拼音输入法、五笔输入法、OCR扫描。每天通过电脑处理的中文文字数以千亿计算,各种输入法和OCR扫描会产生大量的错别字问题,包括同音字问题、多音字问题、音近字问题、形近字问题、多字、少字、词语搭配不对、历史文化常识性错误、语法搭配错误、标点符号错误等,错别字问题长期广泛存在,对人们的工作和生活带来极大影响,例如,经济合同里的错别字可能会导致巨大的商业损失,知名公众人物的错别字问题可能会影响其发展前途,高考作文里的错别字也一定会影响到学生的升学成绩,政府网站、新闻媒体里的错别字甚至会造成政府公信力的丧失。
然而,目前的错别字处理方法不但复杂,而且效率低下,不能满足互联网大规模海量文本的实时处理需求。
发明内容
本发明的目的在于提供一种中文错字检测方法及系统,可以提高错字处理效率。
为实现上述目的,本发明的技术方案提供了一种中文错字检测方法,包括:
步骤S1:获取待检测文本;
步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;
步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;
步骤S5:根据所述错误检测处理的结果生成修改建议列表。
进一步地,所述错误检测处理包括:
步骤A:判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。
进一步地,所述错误检测处理还包括:
步骤B:对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。
进一步地,所述错误检测处理还包括:
步骤C:若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;
步骤D:根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。
进一步地,所述步骤S5包括:
按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
为实现上述目的,本发明的技术方案还提供了一种中文错字检测系统,包括:
获取模块,用于获取待检测文本;
分词处理模块,用于对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;
错误检测处理模块,用于根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
执行模块,用于执行i=i+1;
结果生成模块,用于根据所述错误检测处理的结果生成修改建议列表。
进一步地,所述错误检测处理模块包括:
第一处理单元,用于判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。
进一步地,所述错误检测处理模块还包括:
第二处理单元,用于对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。
进一步地,所述错误检测处理模块还包括:
第三处理单元,用于若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;
第四处理单元,用于根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。
进一步地,所述结果生成模块包括:
误报处理单元,用于按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
标记单元,用于去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
本发明提供的中文错字检测方法,可以解决现有错字检测方法计算复杂、效率低下的问题,有效提高错字处理效率,能够满足互联网大规模海量文本的实时处理需求,降低用户使用成本。
附图说明
图1是本发明实施方式提供的一种中文错字检测方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种中文错字检测方法的流程图,该方法包括:
步骤S1:获取待检测文本;
步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1,开始进行错误检测流程;
步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;
步骤S5:根据所述错误检测处理的结果生成修改建议列表。
其中,在本发明实施方式中,所述步骤S5包括:
按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
本发明实施方式提供的中文错字检测方法,可以解决现有错字检测方法计算复杂、效率低下的问题,有效提高错字处理效率,能够满足互联网大规模海量文本的实时处理需求,降低用户使用成本。
具体地,首先进行预处理过程,包括步骤1.1~步骤1.4;
步骤1.1:对GB18030中定义的汉字,机器统计其同音字;同时考虑键盘上字母布局,统计每个字的近音字,比如kai、lai、kao、lao这四个拼音在键盘布局上是非常接近的,通过上述方式构造一个汉字的“拼音混淆集”;
步骤1.2:对GB18030中定义的汉字,机器统计其形近字,比如“习”、“刁”是字形接近的汉字,通过该方式构造一个汉字的“字形混淆集”;
步骤1.3:对步骤1.1和步骤1.2中的字,按汉字字频排序,形成每个汉字的“单字混淆集”;
步骤1.4:通过大规模爬虫抓取(如抓取中央和省级报纸、官方网站、知名商业媒体文章)、网页文章自动抽取技术,建立文章素材库,使用中文分词技术对素材库中文章进行分词;
之后统计词与词之间的二元配对关系bigram、三元配对关系trigram,建立bigram语言模型以及trigram语言模型,例如:中国_人民_站_起来_了,bigram语言模型有:中国^人民,人民^站,站^起来,起来^了;trigram语言模型有:中国^人民^站,人民^站^起来,站^起来^了,bigram语言模型中可超过2000万对,trigram语言模型中可超过4亿对,其中,统计bigram语言模型中所有二元配对的词频总数,表示为TOTAL2;统计trigram语言模型中所有三元配对的词频总数,表示为TOTAL3;寻找第一阈值R2,使得bigram语言模型中词频>R2的所有二元配对的频次≥TOTOAL2*k;寻找第二阈值R3,使得trigram语言模型中词频>R3的所有三元配对的总频次≥TOTOAL3*k,其中k是(0,1)之间的一个常数,可以取k在范围[0.8,0.99],设置第一阈值R2和第二阈值R3的目的,是为了减少文章中要纠错的处所,提高算法的执行效率;
另外,对素材库中所有文章的所有分词结果,按同音词、音近词进行统计,以词的拼音为主键、词的序列为值,建立同音词倒排索引,得到同音库,例如,tong yi:[统一,同意,同一,同义,........];
再有,对素材库的文章进行依存语法分析,存放到依存树统计库中,例如,对于句子“我吃过饭了”,依存树分析结果为:我^吃,主谓关系;吃^饭,动宾关系;吃^过,动补关系;吃^了,动补关系;过^了,状态关系,将这些结果统计起来,主键是类似“我^吃:主谓关系”,值是出现频次;
之后可以利用上述预处理得到的结果对待检测文本进行错字检测,具体过程如下:
步骤2.1:对于要纠错的文章(即待检测文本),先进行分词处理,将分词结果表示为分词数组T=[t1,t2,t3,......,tn];
顺序遍历数组T,若titi+1在bigram语言模型中的频次<第一阈值R2,且titi+1ti+2在trigram语言模型中的频次<第二阈值R3,1≤i≤n-2,则对ti进行错误检测处理,其中,R2和R3越大,漏报率越低,检测速度越慢;R2和R3越小,漏报率越高,检测速度越快,其中,错误检测处理包括:
步骤A:判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作;
即进行叠词处理过程,对当前词ti,如果ti+1与ti相同,且ti是形容词、副词、拟声词中的一种,同时bigram(ti^ti+1)<R2*2,则ti+1非常可能是多余的叠词,执行标记删除操作,其中,bigram(ti^ti+1)为titi+1在bigram语言模型中的频次;
对当前词ti,如果ti+1与ti相同,且ti是名词、动词中的一种,同时bigram(ti^ti+1)<R2/2,则ti+1非常可能是多余的叠词,建议删除,执行标记删除操作;
如果ti+1与ti相同,且ti+1是其他虚词(如连词、介词、助词等),建议删除,执行标记删除操作。
步骤B:对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度;
具体地,可以对前后、前中后的词,进行合并、替换(按步骤1.3中的单字混淆集、步骤1.4中词的同音库进行查错替换,寻找概率最高的混淆字/词)、换位、删字中的至少一种操作,构造新的字/词,对新的字词,再检查前后的ngram搭配,通过局部二、三元ngram搭配关系计算新字/词的局部搭配得分(也即合理度),如果新搭配的合理度>>原来搭配的合理度,说明新的搭配更合理,纠错词可以接受,可以作为错词的候选词,其中,局部二、三员ngram搭配得分的计算公式为:
Score(ti)=a1*Pleft(ti|ti-1)+a2*Pright(ti|ti+1)+a3*Ptri(ti|ti-1ti+1)+
a4*Pleft-tri(ti|ti-2ti-1)+a5*Pright-tri(ti|ti+1ti+2);
其中,Score(ti)为重搭配前的合理度,Pleft(ti|ti-1)为ti-1ti的bigram概率(即在bigram语言模型中的概率),Pright(ti|ti+1)为titi+1的bigram概率,Ptri(ti|ti-1ti+1)为ti- 1titi+1的trigram概率(即在trigram语言模型中的概率),Pleft-tri(ti|ti-2ti-1)为ti-2ti-1ti的trigram概率,Pright-tri(ti|ti+1ti+2)为titi+1ti+2的trigram概率,a1、a2、a3、a4、a5为预设系数,且a1+a2+a3+a4+a5=1;
例如,若重搭配将ti替换为ti o,则将上述公式中的ti更换为ti o以计算重搭配后的合理度;
步骤C:若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语,尝试有无可能是成语;
步骤D:根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程;
具体地,如果ti被分词标记为姓名(词性是nr),检查姓名词的姓氏部分,是否是稀有姓氏(如没有在中国人常见姓氏的前100名的姓氏可认为是稀有姓氏),如果是,设置分词算法不识别姓名再次分词,对当前句子再进行一轮上述的错误检测流程;
通过上述错误检测处理可以找到若干个错词的候选词,通过对得到的候选词进行误报过滤处理,可以进一步地降低误报,具体地,对候选词,要计算候选词和当前句子中主要成分词(主谓宾定)的关联关系是否合理,其实现办法是通过神经网络依存树算法和词向量结合的方式,判断候选纠错词是否可接受,具体地,若原词和前序词(可以紧邻,可以不紧邻)存在主谓关系,候选词破坏了主谓关系,标记候选词可能为误报;若原词和后序词(可以紧邻,可以不紧邻)存在动宾关系,候选词破坏了动宾关系,标记候选词可能为误报;若原词和前、后词(可以紧邻,可以不紧邻)存在并列关系,候选词破坏了并列关系,标记候选词可能为误报;若原词和前、后词(可以紧邻,可以不紧邻)的搭配关系在预先建立的依存树统计库中的频率非常高,候选词和前、后词(可以紧邻,可以不紧邻)的搭配关系频率没有显著上升,则标记的候选词可能为误报;
通过上述方式去掉误报后的候选词,之后在修改建议列表中将剩余的候选词标记为错词的推荐词;
本发明实施方式提供的中文错字检测方法具有以下优点:
1、通过机器学习技术,可以主动发现中文语义搭配规律、语法规律,能够自动学习、自动训练、智能进化,快速迭代以提升算法的准确率和召回率;
2、可以智能跟踪互联网上的新词语、新的语法表述,快速收录到算法知识库;
3、解决现有算法计算复杂、效率低下的问题,处理速度可以达到现在主流错别字检测技术的100倍以上,普通4核8G内存的电脑可以达到20万字/秒,进而满足互联网海量信息高速实时处理的需求,降低用户使用成本;
4、可以快速应用到不同的行业,比如政府行文、大众传媒、出版社、武装部队、商业企业等,此外,在学生作文/论文写作、各种知识工作者日常工作中,也可以方便地使用本发明中的技术方案实现快速检测错别字。
例如,本发明的实际应用可以采用以下两种模式:
1、基于SAAS服务的API接口模式,任何客户可以快速在自己产品里集成云查错错别字检测功能;
2、基于chrome浏览器的插件形式,用户安装一次插件,以后在浏览网页、在网页写作时,都可以进行错别字检测,使用简单方便。
本发明可以实现网络信息自动采集、自动学习、自动验证模型、自动更新部署模型的全自动流程,无需人工干预,对互联网新的词语和表述可以快速发现和学习应用,因为具备持续的自动学习能力,算法的准确性可以持续快速提升,在生产环境实际测试,其漏报率<5%,准确率>83%,远远高于市场上现有错别字检测技术的水准。
此外,本发明实施方式还提供了一种中文错字检测系统,包括:
获取模块,用于获取待检测文本;
分词处理模块,用于对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;
错误检测处理模块,用于根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
执行模块,用于执行i=i+1;
结果生成模块,用于根据所述错误检测处理的结果生成修改建议列表。
其中,在本发明实施方式中,所述错误检测处理模块包括:
第一处理单元,用于判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。
其中,在本发明实施方式中,所述错误检测处理模块还包括:
第二处理单元,用于对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。
其中,在本发明实施方式中,所述错误检测处理模块还包括:
第三处理单元,用于若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;
第四处理单元,用于根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。
其中,在本发明实施方式中,所述结果生成模块包括:
误报处理单元,用于按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
标记单元,用于去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种中文错字检测方法,其特征在于,包括:
步骤S1:获取待检测文本;
步骤S2:对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;
步骤S3:根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
步骤S4:执行i=i+1,若i≤n-2,重复执行步骤S3,若i>n-2,执行步骤S5;
步骤S5:根据所述错误检测处理的结果生成修改建议列表。
2.根据权利要求1所述的中文错字检测方法,其特征在于,所述错误检测处理包括:
步骤A:判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。
3.根据权利要求2所述的中文错字检测方法,其特征在于,所述错误检测处理还包括:
步骤B:对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。
4.根据权利要求3所述的中文错字检测方法,其特征在于,所述错误检测处理还包括:
步骤C:若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;
步骤D:根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。
5.根据权利要求1所述的中文错字检测方法,其特征在于,所述步骤S5包括:
按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
6.一种中文错字检测系统,其特征在于,包括:
获取模块,用于获取待检测文本;
分词处理模块,用于对所述待检测文本进行分词处理,得到分词数组T=[t1,t2,t3,......,tn],令i=1;
错误检测处理模块,用于根据预先建立的bigram语言模型以及trigram语言模型获取titi+1在所述bigram语言模型中的频次以及titi+1ti+2在所述trigram语言模型中的频次,若titi+1在所述bigram语言模型中的频次小于第一阈值且titi+1ti+2在所述trigram语言模型中的频次小于第二阈值,则对ti进行错误检测处理;
执行模块,用于执行i=i+1;
结果生成模块,用于根据所述错误检测处理的结果生成修改建议列表。
7.根据权利要求6所述的中文错字检测系统,其特征在于,所述错误检测处理模块包括:
第一处理单元,用于判断ti+1与ti是否相同,若相同,则根据titi+1在所述bigram语言模型中的频次以及ti+1的词性对ti+1执行标记删除操作。
8.根据权利要求7所述的中文错字检测系统,其特征在于,所述错误检测处理模块还包括:
第二处理单元,用于对ti进行局部重搭配操作,并根据所述bigram语言模型以及所述trigram语言模型比较重搭配前与重搭配后的合理度。
9.根据权利要求8所述的中文错字检测系统,其特征在于,所述错误检测处理模块还包括:
第三处理单元,用于若ti、ti+1的结合或者ti、ti+1、ti+2的结合为4个字,则对所结合的4个字进行字或词的替换,并判断替换后的四个字是否为四字成语;
第四处理单元,用于根据预设的稀有姓氏表判断ti中是否存在稀有姓氏,若存在,则采用不识别姓名模式的分词算法对所述待检测文本再次进行分词处理,并对得到的分词数组进行错误检测流程。
10.根据权利要求6所述的中文错字检测系统,其特征在于,所述结果生成模块包括:
误报处理单元,用于按照预设的误报处理规则判断所述错误检测处理得到的错词的候选词是否为误报;
标记单元,用于去除误报的候选词,在所述修改建议列表中将剩余的候选词标记为错词的推荐词。
CN201810942637.0A 2018-08-17 2018-08-17 中文错字检测方法及系统 Active CN109213998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810942637.0A CN109213998B (zh) 2018-08-17 2018-08-17 中文错字检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810942637.0A CN109213998B (zh) 2018-08-17 2018-08-17 中文错字检测方法及系统

Publications (2)

Publication Number Publication Date
CN109213998A true CN109213998A (zh) 2019-01-15
CN109213998B CN109213998B (zh) 2023-06-23

Family

ID=64989219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810942637.0A Active CN109213998B (zh) 2018-08-17 2018-08-17 中文错字检测方法及系统

Country Status (1)

Country Link
CN (1) CN109213998B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291552A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 一种文本内容修正的方法和系统
CN111709228A (zh) * 2020-06-22 2020-09-25 中国标准化研究院 一种字词重复错误的自动识别方法
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法
CN112183071A (zh) * 2019-06-14 2021-01-05 上海流利说信息技术有限公司 一种文本纠错的方法、装置、存储介质及电子设备
CN112966506A (zh) * 2021-03-23 2021-06-15 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331214A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文字認識誤り訂正方法、装置及びプログラム
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331214A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文字認識誤り訂正方法、装置及びプログラム
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN102789504A (zh) * 2012-07-19 2012-11-21 姜赢 一种基于xml规则的中文语法校正方法与系统
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183071A (zh) * 2019-06-14 2021-01-05 上海流利说信息技术有限公司 一种文本纠错的方法、装置、存储介质及电子设备
CN112183071B (zh) * 2019-06-14 2022-12-13 上海流利说信息技术有限公司 一种文本纠错的方法、装置、存储介质及电子设备
CN111291552A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 一种文本内容修正的方法和系统
CN111709228A (zh) * 2020-06-22 2020-09-25 中国标准化研究院 一种字词重复错误的自动识别方法
CN111709228B (zh) * 2020-06-22 2023-11-21 中国标准化研究院 一种字词重复错误的自动识别方法
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法
CN112966506A (zh) * 2021-03-23 2021-06-15 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109213998B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN109213998A (zh) 中文错字检测方法及系统
CN103399901B (zh) 一种关键词抽取方法
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN104199965A (zh) 一种语义信息检索方法
CN108509490B (zh) 一种网络热点话题发现方法及系统
CN103688254B (zh) 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN109766547B (zh) 一种句子相似度计算方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113934814B (zh) 古诗文主观题自动评分方法
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
CN101369285B (zh) 一种中文搜索引擎中查询词的拼写校正方法
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN117251455A (zh) 一种基于大模型的智能报表生成方法及其系统
Ahmad et al. Pipilika n-gram viewer: an efficient large scale n-gram model for bengali
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210621

Address after: No.18-d2561, Jianshe Road, Kaixuan street, Liangxiang, Fangshan District, Beijing

Applicant after: Beijing Yuyun Technology Co.,Ltd.

Address before: 100068 620, 5th floor, building 1, yard 36, Majiabao West Road, Fengtai District, Beijing

Applicant before: HUIZHI RONGDA (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230517

Address after: Room 301AB, No. 10, Lane 198, Zhangheng Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Applicant after: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: No.18-d2561, Jianshe Road, Kaixuan street, Liangxiang, Fangshan District, Beijing

Applicant before: Beijing Yuyun Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee after: Shanghai Mido Technology Co.,Ltd.

Address before: Room 301AB, No. 10, Lane 198, Zhangheng Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Chinese misspelling detection method and system

Granted publication date: 20230623

Pledgee: Bank of Communications Ltd. Shanghai New District Branch

Pledgor: Shanghai Mido Technology Co.,Ltd.

Registration number: Y2024310000145

PE01 Entry into force of the registration of the contract for pledge of patent right
TR01 Transfer of patent right

Effective date of registration: 20240412

Address after: Room 301, 3rd Floor, Building 3, No. 20 Yong'an Road, Shilong Economic Development Zone, Mentougou District, Beijing, 102308

Patentee after: Beijing Midu Information Technology Co.,Ltd.

Country or region after: China

Address before: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204

Patentee before: Shanghai Mido Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right