CN105824800B - 一种中文真词错误自动校对方法 - Google Patents

一种中文真词错误自动校对方法 Download PDF

Info

Publication number
CN105824800B
CN105824800B CN201610145237.8A CN201610145237A CN105824800B CN 105824800 B CN105824800 B CN 105824800B CN 201610145237 A CN201610145237 A CN 201610145237A CN 105824800 B CN105824800 B CN 105824800B
Authority
CN
China
Prior art keywords
word
ternary
true
confusable
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610145237.8A
Other languages
English (en)
Other versions
CN105824800A (zh
Inventor
顾德之
刘亮亮
吴健康
刘海波
张再跃
张晓如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Dingyi Intelligent Technology Co.,Ltd.
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201610145237.8A priority Critical patent/CN105824800B/zh
Publication of CN105824800A publication Critical patent/CN105824800A/zh
Application granted granted Critical
Publication of CN105824800B publication Critical patent/CN105824800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文真词错误自动校对方法,该方法首先利用正确词词典和汉字混淆集生成中文真词混淆集;利用统计知识对当前词进行验证;通过同义词泛化上下文特征缓解语料的数据稀疏问题;利用贝叶斯模型估计当前词出现在上下文中的概率,最终判断当前词是否为真词错误,对真词错误进行标记并给出修改建议列表。本发明的中文真词错误自动校对方法解决了现有技术中数据稀疏、正确词误判、校对效率低等问题,具有较高的有效性和准确性。

Description

一种中文真词错误自动校对方法
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及中文文本自动校对领域。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,文本中的错误也越来越多。目前大多采用人工校对的方法,校对工作单调,劳动强度大,效率低,人工校对的方式已经无法满足文本校对的需求,因此研究自动文本校对对于理论和应用都具有很深远的意义。
文本自动校对是自然语言处理的主要应用之一,也是自然语言理解的难题。中文真词错误是指将词典中的一个词写错成词典中另外一个词,而这个词不符合当前上下文语境。例如“他接收总经理的邀请参加会议”中的“接收”是一个真词错误。由于人们的粗心选择以及对汉语词语之间区别的认知不足,汉语文本中出现了很多的真词错误。中文真词错误的自动校对方法存在着以下问题:
1)发生真词错误的词是词典中正确的词,对于真词错误的检查及给出修改建议,需要依据对该该词的上下文进行考察;
2)多数发生真词错误的词符合局部语言限制,但却与全局语言限制发生冲突,所以要实现真词错误的自动校对需要考虑该真词与长距离的上下文是否搭配;
3)真词错误会干扰整个句子的语法和语义,因此发现真词错误需要很多的知识与资源;
4)数据稀疏是真词错误自动校对的一个主要的障碍。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种中文真词错误的自动校对方法,是一种集自动查错和自动校对于一体的方法。
技术方案:为了实现上述目的,本发明提出的一种中文真词错误自动校对方法是基于中文真词混淆集、NGram模型、贝叶斯模型组合判断法进行中文真词错误自动校对,利用同义词泛化上下文特征缓解数据稀疏问题。该方法包括以下步骤:
(1)利用正确词词典和汉字混淆集生成中文真词混淆集;
(2)对Web语料中的句子进行分词,建立左向三元、右向三元和中间三元模型,对于某一词Wi,根据其左向三元、右向三元、中间三元在语料中出现的频次确定该词的第一统计值,若该词的第一统计值大于预设的第一门限α则该词为正确词;否则,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该词的第二统计值,若该词的第二统计值大于所述第一门限α则该词为正确词;否则,进入步骤(3);
(3)利用极大似然估计计算该词出现在上下文的第一贝叶斯概率,若该词的第一贝叶斯概率大于预设的第二门限β则该词为正确词;否则,利用同义词泛化该词的上下文特征,计算该词出现在上下文的第二贝叶斯概率,若该词的第二贝叶斯概率大于所述第三门限γ则该词为正确词;否则,进入步骤(4);
(4)利用该词的真词混淆集C(Wi)中的混淆词来代替该词形成混淆词的左向三元、右向三元和中间三元,对于任意混淆词,根据该混淆词左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第一统计值,若该词的真词混淆集C(Wi)中存在混淆词的第一统计值大于所述第一门限α,则该词为错词,将这些混淆词按其第一统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(5);
(5)利用该词的真词混淆集C(Wi)中任意混淆词Wi h来代替该词,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该混淆词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第二统计值,若存在第二统计值大于所述第一门限α的混淆词,则该词为错词;将这些混淆词按其第二统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(6);
(6)对该词的真词混淆集C(Wi)中任意混淆词Wi h来代替该词,利用极大似然估计计算该混淆词出现在上下文的第一贝叶斯概率,若存在混淆词的第一贝叶斯概率大于所述第二门限β,则该词为错词,将这些混淆词按其第一贝叶斯概率的大小进行降序排列形成该词的修改建议表;否则,利用同义词泛化该词的上下文特征,计算该词任意混淆词出现在上下文的第二贝叶斯概率,若存在第二贝叶斯概率大于所述第三门限γ的混淆词,则该词为错词,将这些混淆词按其第二贝叶斯概率的大小进行降序排列形成该词的修改建议表。
进一步地,步骤(1)中生成中文真词混淆集包括以下步骤:
获取中文词典中的所有正确词;
对任意正确词,根据汉字混淆集替换所述正确词中的字,并且每次仅替换词中的一个字,判断换字后所形成的词是否为所述中文词典中的正确词,若是,则将该词存入相应正确词的真词混淆集中。
具体地,步骤(2)中建立分词的三元模型具体为:设语料中的某一句子经分词后为S=W1W2..Wi-1WiWi+1...Wn,则对于某一词Wi,其
左向三元为:LeftTriGram(Wi)=Wi-2Wi-1Wi
右向三元为:RightTriGram(Wi)=WiWi+1Wi+2
中间三元为:TriGram(Wi)=Wi-1WiWi+1
进一步地,对于某一词Wi,该词的第一统计值为其左向三元、右向三元、中间三元在语料中出现的频次的最大值。
具体地,对于某一词Wi,该词的第一贝叶斯概率为:
式中,count(Wi)表示Wi在语料中出现的频次。
具体地,所述同义词是指与其词义相同或相近的词,对于某一词Wi,所述利用同义词泛化该词的上下文特征指的是:用Wi-1的同义词集合Syn(Wi-1)中的任意同义词替换Wi-1,Wi+1的同义词集合Syn(Wi+1)中的任意同义词替换Wi+1,用Wi+2的同义词集合Syn(Wi+2)中的任意同义词替换Wi+2
进一步地,对于某一词Wi,确定该词的第二统计值包括以下步骤:
1)设Wi-1的同义词集合Wi+1的同义词集合
2)对于中间三元,用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,则最大中间三元频次为:
3)对于左向三元和右向三元,用与步骤2)相同的方法统计出最大左向三元频次M(Wi-2Wi-1Wi)和最大右向三元频次M(WiWi+1Wi+2),选取三者中的最大值得到所述词的第二统计值为:m(Wi)=max(M(Wi-1WiWi+1),M(Wi-2Wi-1Wi),M(WiWi+1Wi+2)}。
具体地,对于某一词Wi,该词的第二贝叶斯概率为:
式中,count(Wi)表示Wi在语料中出现的频次,为Wi-1的同义词集合Syn(Wi-1)中的元素,s为Syn(Wi-1)的元素个数;为Wi+1的同义词集合Syn(Wi+1)中的元素,t为Syn(Wi+1)的元素个数。
有益效果:本发明中的中文真词错误自动校对方法,利用正确词词典和汉字混淆集生成中文真词混淆集;再利用统计知识对当前词进行验证,进一步通过同义词泛化上下文特征缓解语料的数据稀疏问题,对当前词做出进一步验证;接着利用贝叶斯模型估计当前词出现在上下文中的概率,更进一步地对当前词是否正确做出判断,随后通过同义词泛化上下文特征,再次利用贝叶斯模型判断当前词的正确性;最后,用混淆词对当前词进行替换,利用统计知识和贝叶斯模型最终判断当前词是否为真词错误,对真词错误进行标记并给出修改建议列表。本发明通过对当前词多个维度的验证,实验表明,本发明方法查错召回率达到81%,查错精度达到61%,纠错精度达到54%,具有较高的有效性和准确性。
附图说明
图1为本发明的中文真词错误自动校对方法的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明提出的一种中文真词错误自动校对方法是基于中文真词混淆集、NGram模型、贝叶斯模型组合判断法进行中文真词错误自动校对,并应用同义词使得数据稀疏问题在很大程度上得到缓解。该方法如图1所示,包括以下步骤:
1)利用正确词词典和汉字混淆集生成中文真词混淆词;
一个中文词W的混淆集C(W)是指中文词典中的一组与W音相似或形相似、或意相似的词,而在人们的使用过程中,W与C(W)中的词常常容易混淆。
11)获取中文词典中的所有正确词;
12)对任意正确词,根据汉字混淆集替换所述正确词中的字,并且每次仅替换词中的一个字,判断换字后所形成的词是否为所述中文词典中的正确词,若是,则将该词存入相应正确词的真词混淆集中。可以进一步对上述真词混淆集进行人工校对,去除不常见的混淆词,完善真词混淆集。
本实施例中,真词混淆集的结构如下:
C(W)={W1,W2...,Wn}
其中,W是词典中一个词,W1,W2...,Wn是W的混淆词。
2)建立待判断词的左向三元、右向三元、中间三元模型,基于大规模Web语料统计三元频次,若得到的三元频次均不符合条件,则用上下文特征的同义词泛化目标词的上下文特征重新统计三元频次,若得到的三元频次依然不符合条件,则转向步骤3);具体为:
步骤21)基于大规模Web语料,建立三元模型:对语料中的句子进行分词,如对句子S进行分词得到S=W1W2..Wi-1WiWi+1...Wn,对于词Wi而言,
左向三元为:LeftTriGram(Wi)=Wi-2Wi-1Wi
右向三元为:RightTriGram(Wi)=WiWi+1Wi+2
中间三元为:TriGram(Wi)=Wi-1WiWi+1
步骤22)基于大规模Web语料,统计左向三元频次count(Wi-2Wi-1Wi)、右向三元频次count(WiWi+1Wi+2)和中间三元频次count(Wi-1WiWi+1);
步骤23)对于步骤22)统计出的三种频次,记m(Wi)=max{count(Wi-2Wi-1Wi),count(WiWi+1Wi+2),count(Wi-1WiWi+1)}如果满足m(Wi)>α,α是三元频次阈值,为了便于区分,称为第一门限,实施例中α=3,则判断Wi是正确的,置查错状态为RIGHT,否则转向步骤24;
步骤24)为缓解语料的数据稀疏问题,在统计三元频次过程中用同义词泛化上下文特征;
步骤24-1)对于一个词典中的任意一词,同义词是指与其词义相同或相近的词,本实施例中将某一词的同义词存储在该词的同义词集合中。Wi-1的同义词集合Wi+1的同义词集合
步骤24-2)对于三元TriGram(Wi)=Wi-1WiWi+1,用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,统计到最大三元频次,记为
步骤24-3)对于左向三元和右向三元,用与步骤24-2)相同的方式统计出最大左向三元频次M(Wi-2Wi-1Wi)和最大右向三元频次M(WiWi+1Wi+2)。即:对于最大左向三元频次M(Wi- 2Wi-1Wi),用Wi-2的其同义词集合Syn(Wi-2)中的任意同义词替代Wi-2,用Syn(Wi-1)中的任意代替Wi-1,统计所形成的所有左向三元的出现频次,以最大出现频次作为最大左向三元频次M(Wi-2Wi-1Wi);对于最大右向三元频次M(WiWi+1Wi+2),用Syn(Wi+1)中的任意代替Wi+1,用Wi+2的其同义词集合Syn(Wi+2)中的任意同义词代替Wi+2,统计所形成的所有右向三元中找出出现频次,以最大出现频次作为最大右向三元频次M(WiWi+1Wi+2)。
记m(Wi)=max(M(Wi-1WiWi+1),M(Wi-2Wi-1Wi),M(WiWi+1Wi+2)},如果满足m(Wi)>α,则判断Wi是正确的,置查错状态为RIGHT,否则转向步骤3);
3)经过步骤2筛选后,利用贝叶斯模型估计该词出现在当前上下文中的概率,若得到的第一贝叶斯概率大于预设阈值,则该词正确;否则,用上下文特征的同义词泛化上下文特征重新估计贝叶斯概率,称为第二贝叶斯概率,若第二贝叶斯概率大于预设阈值,则该词正确,否则,进行步骤4),具体为:
步骤31-1)对于句子S=W1W2..Wi-1WiWi+1...Wn,假设Wi出现在当前上下文的贝叶斯概率为:
步骤31-2)假设上下文中词的出现互相独立,则
p(Wi-1,Wi+1|Wi)=p(Wi-1|Wi)*p(Wi+1|Wi)
步骤31-3)利用极大似然估计, N是预料中所有一元的频次总和;
步骤31-4) 若B1(Wi|Wi-1,Wi+1)>β,本实施例中第二门限β=0.04,则判断Wi为正确的;
否则转向步骤32);
步骤32)用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,记若B2(Wi|Wi-1,Wi+1)>,本实施例中第三门限γ=0.06,则判断Wi为正确的,置查错状态为RIGHT,否则转向步骤4);
4)利用真词混淆集中的词对该词进行替换,以对该词步骤2)和3)处理方式几乎相同的方式,对替换后的混淆词进行相同的处理,并利用混淆词的相关统计值判断是否为真词错误并进行标记,根据混淆词的排序情况给出修改建议列表,具体为:
步骤41)Wi的真词混淆集为C(Wi)=(Wi 1,...,Wi h,...,Wi n),将C(Wi)中任意的Wi h代替Wi执行步骤21)-步骤23),
m(Wi h)=max{count(Wi-2Wi-1Wi h),count(Wi hWi+1Wi+2),count(Wi-1Wi hWi+1)}若存在Wi h满足m(Wi h)>α,则认为Wi是错误的,置查错状态为ERROR,将满足条件的Wi h按m(Wi h)降序加入到修改建议列表中,否则转向步骤42);
步骤42)将C(Wi)中任意的Wi h代替Wi执行步骤24),对于三元TriGram(Wi h)=Wi- 1Wi hWi+1,用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,则
m(Wi h)=max{M(Wi-1Wi hWi+1),M(Wi-2Wi-1Wi h),M(Wi hWi+1Wi+2)},若存在Wi h满足m(Wi h)>α,则判断Wi是错误的,置查错状态为ERROR,将满足条件的Wi h按m(Wi h)降序加入到修改建议列表中,否则转向步骤43);
步骤43)将C(Wi)中任意的Wi h代替Wi执行步骤31),Wi h出现在当前上下文的贝叶斯概率为p(Wi h|Wi-1,Wi+1),若存在Wi h满足B1(Wi h|Wi-1,Wi+1)>β,则判断Wi为错误的,置查错状态为ERROR,记m(Wi h)=B1(Wi hhWi-1,Wi+1),将满足条件的Wi h按m(Wi h)降序加入到修改建议列表中,否则转向步骤44);
步骤44)用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,执行步骤43),则若存在Wi h,使得B2(Wi h|Wi-1,Wi+1)>γ,则判断Wi为错误的,置查错状态为ERROR,记m(Wi h)=B2(Wi h|Wi-1,Wi+1),将满足条件的Wi h按m(Wi h)降序加入到修改建议列表中,否则不对Wi是否为真词错误给出判断,置查错状态为MARK。
实验:
为了验证本发明提供的真词错误自动校对方法的有效性,实验采用1万行Web中的句子作为语料,人工对语料中的真词错误进行标注,共5000处,以实施例中给定的参数为实验参数。实验表明,本发明提供的真词错误自动校对方法查错召回率达到81%,查错精度达到61%,纠错精度达到54%。这一精度超过了现有技术,达到了实际应用的需求,具有较高的有效性和准确性。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。

Claims (9)

1.一种中文真词错误自动校对方法,其特征在于,包括以下步骤:
(1)利用正确词词典和汉字混淆集生成中文真词混淆集;
(2)对Web语料中的句子进行分词,建立左向三元、右向三元和中间三元模型,对于某一词Wi,根据其左向三元、右向三元、中间三元在语料中出现的频次确定该词的第一统计值,若该词的第一统计值大于预设的第一门限α则该词为正确词;否则,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该词的第二统计值,若该词的第二统计值大于所述第一门限α则该词为正确词;否则,进入步骤(3);
(3)利用极大似然估计计算该词出现在上下文的第一贝叶斯概率,若该词的第一贝叶斯概率大于预设的第二门限β则该词为正确词;否则,利用同义词泛化该词的上下文特征,计算该词出现在上下文的第二贝叶斯概率,若该词的第二贝叶斯概率大于第三门限γ则该词为正确词;否则,进入步骤(4);
(4)利用该词的真词混淆集C(Wi)中的混淆词来代替该词形成混淆词的左向三元、右向三元和中间三元,对于任意混淆词,根据该混淆词左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第一统计值,若该词的真词混淆集C(Wi)中存在第一统计值大于所述第一门限α的混淆词,则该词为错词,将这些混淆词按其第一统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(5);
(5)利用该词的真词混淆集C(Wi)中任意混淆词Wi h来代替该词,利用同义词泛化该词的上下文特征得到泛化后的左向三元、右向三元、中间三元,根据该混淆词泛化后的左向三元、右向三元、中间三元在语料中出现的频次确定该混淆词的第二统计值,若存在第二统计值大于所述第一门限α的混淆词,则该词为错词;将这些混淆词按其第二统计值的大小进行降序排列形成该词的修改建议表;否则,进入步骤(6);
(6)利用该词的真词混淆集C(Wi)中任意混淆词Wi h来代替该词,利用极大似然估计计算该混淆词出现在上下文的第一贝叶斯概率,若存在第一贝叶斯概率大于所述第二门限β的混淆词,则该词为错词,将这些混淆词按其第一贝叶斯概率的大小进行降序排列形成该词的修改建议表;否则,利用同义词泛化该词的上下文特征,计算该词任意混淆词出现在上下文的第二贝叶斯概率,若存在第二贝叶斯概率大于所述第三门限γ的混淆词,则该词为错词,将这些混淆词按其第二贝叶斯概率的大小进行降序排列形成该词的修改建议表。
2.根据权利要求1所述的中文真词错误自动校对方法,其特征在于,步骤(1)中生成中文真词混淆集包括以下步骤:
获取中文词典中的所有正确词;
对任意正确词,根据汉字混淆集替换所述正确词中的字,并且每次仅替换词中的一个字,判断换字后所形成的词是否为所述中文词典中的正确词,若是,则将该词存入相应正确词的真词混淆集中。
3.根据权利要求1所述的中文真词错误自动校对方法,其特征在于,步骤(2)中建立分词的三元模型为:设语料中的某一句子经分词后为S=W1W2..Wi-1WiWi+1…Wn,则对于某一词Wi,其
左向三元为:LeftTriGram(Wi)=Wi-2Wi-1Wi
右向三元为:RightTriGram(Wi)=WiWi+1Wi+2
中间三元为:TriGram(Wi)=Wi-1WiWi+1
4.根据权利要求3所述的中文真词错误自动校对方法,其特征在于,对于某一词Wi,该词的第一统计值为其左向三元、右向三元、中间三元在语料中出现的频次的最大值。
5.根据权利要求3所述的中文真词错误自动校对方法,其特征在于,对于某一词Wi,该词的第一贝叶斯概率为:
式中,count(Wi)表示Wi在语料中出现的频次。
6.根据权利要求3所述的中文真词错误自动校对方法,其特征在于,对于某一词Wi,所述利用同义词泛化该词的上下文特征指的是:用Wi-1的同义词集合Syn(Wi-1)中的任意同义词替换Wi-1,Wi+1的同义词集合Syn(Wi+1)中的任意同义词替换Wi+1,用Wi+2的同义词集合Syn(Wi+2)中的任意同义词替换Wi+2,所述同义词是指与相应词的词义相同或相近的词。
7.根据权利要求6所述的中文真词错误自动校对方法,其特征在于,对于某一词Wi,确定该词的第二统计值包括以下步骤:
1)设Wi-1的同义词集合Wi+1的同义词集合
2)对于中间三元,用Syn(Wi-1)中的任意代替Wi-1,用Syn(Wi+1)中的任意代替Wi+1,则最大中间三元频次为:
3)对于左向三元和右向三元,用与步骤2)相同的方式统计出最大左向三元频次M(Wi- 2Wi-1Wi)和最大右向三元频次M(WiWi+1Wi+2),选取三者中的最大值得到所述词的第二统计值为:m(Wi)=max(M(Wi-1WiWi+1),M(Wi-2Wi-1Wi),M(WiWi+1Wi+2)}。
8.根据权利要求6所述的中文真词错误自动校对方法,其特征在于,对于某一词Wi,该词的第二贝叶斯概率为:
式中,count(Wi)表示Wi在语料中出现的频次,为Wi-1的同义词集合Syn(Wi-1)中的元素,s为Syn(Wi-1)的元素个数;为Wi+1的同义词集合Syn(Wi+1)中的元素,t为Syn(Wi+1)的元素个数。
9.根据权利要求1至8中任意一项所述的中文真词错误自动校对方法,其特征在于,所述第一门限α的值为3,第二门限β的值为0.04,第三门限γ的值为0.06。
CN201610145237.8A 2016-03-15 2016-03-15 一种中文真词错误自动校对方法 Active CN105824800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610145237.8A CN105824800B (zh) 2016-03-15 2016-03-15 一种中文真词错误自动校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610145237.8A CN105824800B (zh) 2016-03-15 2016-03-15 一种中文真词错误自动校对方法

Publications (2)

Publication Number Publication Date
CN105824800A CN105824800A (zh) 2016-08-03
CN105824800B true CN105824800B (zh) 2018-06-26

Family

ID=56987260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610145237.8A Active CN105824800B (zh) 2016-03-15 2016-03-15 一种中文真词错误自动校对方法

Country Status (1)

Country Link
CN (1) CN105824800B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577668A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于语义的社交媒体非规范词纠正方法
CN107729318B (zh) * 2017-10-17 2021-04-20 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法-由中文词性判断
CN111259654B (zh) * 2018-11-30 2023-09-15 北京嘀嘀无限科技发展有限公司 一种文本检错方法及装置
CN110716674B (zh) * 2019-08-28 2021-07-13 云知声智能科技股份有限公司 一种电子病历缺陷定位方法和系统
CN110532572A (zh) * 2019-09-12 2019-12-03 四川长虹电器股份有限公司 基于tan树形朴素贝叶斯的拼写检查方法
CN111428478B (zh) * 2020-03-20 2023-08-15 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102956231A (zh) * 2011-08-23 2013-03-06 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
CN103020045A (zh) * 2012-12-11 2013-04-03 中国科学院自动化研究所 一种基于谓词论元结构的统计机器翻译方法
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941437B2 (en) * 2007-08-24 2011-05-10 Symantec Corporation Bayesian surety check to reduce false positives in filtering of content in non-trained languages

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102956231A (zh) * 2011-08-23 2013-03-06 上海交通大学 基于半自动校正的语音关键信息记录装置及方法
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN103020045A (zh) * 2012-12-11 2013-04-03 中国科学院自动化研究所 一种基于谓词论元结构的统计机器翻译方法
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NN型复合结构的语义关系识别及相似度计算;张韬文,陆汝占;《计算机应用与软件》;20110331;第28卷(第3期);5-8 *
中文篇章级句间语义关系识别;张牧宇 等;《中文信息学报》;20131130;第27卷(第6期);51-57 *
机器可读词典中词汇属性信息的获取;宋孜攀,陆汝占;《计算机工程与应用》;20090211;第45卷(第5期);138-141 *
领域问答系统中的文本错误自动发现方法;刘亮亮 等;《中文信息学报》;20130531;第27卷(第3期);77-83 *

Also Published As

Publication number Publication date
CN105824800A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105824800B (zh) 一种中文真词错误自动校对方法
CN105045778B (zh) 一种汉语同音词错误自动校对方法
Ling et al. Latent predictor networks for code generation
Chollampatt et al. Neural network translation models for grammatical error correction
CN108304445B (zh) 一种文本摘要生成方法和装置
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
US20150278195A1 (en) Text data sentiment analysis method
Shaalan et al. Arabic word generation and modelling for spell checking.
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN103970765A (zh) 一种改错模型训练方法、装置和文本改错方法、装置
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
Janssen NeoTag: a POS Tagger for Grammatical Neologism Detection.
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US20070282596A1 (en) Generating grammatical elements in natural language sentences
US20160217122A1 (en) Apparatus for generating self-learning alignment-based alignment corpus, method therefor, apparatus for analyzing destructne expression morpheme by using alignment corpus, and morpheme analysis method therefor
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN107577663A (zh) 一种关键短语抽取方法和装置
Khalifa et al. Morphological analysis and disambiguation for Gulf Arabic: The interplay between resources and methods
US10515148B2 (en) Arabic spell checking error model
Sagcan et al. Toponym recognition in social media for estimating the location of events
Shrestha Codeswitching detection via lexical features in conditional random fields
Formiga Fanals et al. Improving English to Spanish out-of-domain translations by morphology generalization and generation
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160803

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Denomination of invention: An automatic correction method for Chinese true word errors

Granted publication date: 20180626

License type: Common License

Record date: 20201029

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Date of cancellation: 20201223

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231012

Address after: 215600, 2nd Floor, Building 1, No. 3 Xingyuan Road, Nanfeng Town, Zhangjiagang City, Suzhou City, Jiangsu Province

Patentee after: Suzhou Dingyi Intelligent Technology Co.,Ltd.

Address before: 212003, No. 2, Mengxi Road, Zhenjiang, Jiangsu

Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY