CN111709228A - 一种字词重复错误的自动识别方法 - Google Patents
一种字词重复错误的自动识别方法 Download PDFInfo
- Publication number
- CN111709228A CN111709228A CN202010576591.2A CN202010576591A CN111709228A CN 111709228 A CN111709228 A CN 111709228A CN 202010576591 A CN202010576591 A CN 202010576591A CN 111709228 A CN111709228 A CN 111709228A
- Authority
- CN
- China
- Prior art keywords
- word
- repeated
- words
- corpus
- information entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000002474 experimental method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种字词重复错误的自动识别方法,其包括如下步骤:对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。本发明可快速判断识别出该重复字词是否为收录于词典中的重复字词,且能有效判断出是否为非词典但属于日常用语中的重复字词,判断识别快速、综合,实用性高。
Description
技术领域
本发明涉及一种自然语言处理方法,具体涉及中文自动校对领域中字词重复错误的发现方法。
背景技术
在大数据时代,文本数据越来越多,而文本中的错误也越来越多,其中字词重复错误(又称插入错误)。而在汉语中,有些词是可以重复出现的,比如说“研究研究”,但是有些是不能重复出现的,如“道歉道歉”、“的的”,一旦出现就是重复错误。
如何自动发现文本中出现的字词重复错误,是中文文本自动校对的研究内容之一。
而汉语中存在这种合理重复字词的现象,因此简单的判断重复词语会带来很多的误判,而现在大部分的中文文本自动校对中对于字词重复错误没有单独来进行处理,只是简单的利用字词的二元或三元的信息来判断是否出错。而重复出现的字词大部分都不是词典中的词,更多是一种日常用语中的常见语言现象,因此如何提供一种方法,可以来判断字词中的重复错误,且准确高效,这一问题亟待解决。
发明内容
发明目的:为了解决现有技术中的不足,本发明的目的是提供一种字词重复错误的自动识别方法。
技术方案:为解决上述技术问题,本发明提供的一种字词重复错误的自动识别方法,其包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
作为优选的,所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。
作为优选的,所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:
21)统计汉语词典中的包含重复字的词;
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
作为优选的,所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
进一步优选的,所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如是,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。
进一步优选的,第一预设阈值α为3.0;第二预设阈值β为3.0;第三预设阈值c为3.0。
优选的,所述步骤44)中,如Wi-1′Wi′Wi+1′在训练语料中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
优选的,所述步骤11)中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。
有益效果:本发明提供的一种字词重复错误的自动识别方法,在对大规模训练语料分词后统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,以及统计并收录汉语词典中的包含重复字的词的基础上,对于待查错文本,先是基于汉语词典中的重复字词对其中出现的重复字词进行判断,进而基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵对其中出现的重复字词继续进行判断,从而给出其是正确的还是错误的重复字词的判定和识别,不仅可以快速判断识别出该重复字词是否为收录于词典中的重复字词,还能结合日常用语中的常见语言现象,进一步有效地判断识别出该重复字词是否为非词典(未收录于词典中)但属于日常用语中的重复字词,判断识别更为快速、综合;而且通过实验可见本发明召回率高达84%及以上,准确率达到77%及以上,准确高效;同时本发明对错误的重复字词予以标记,便于用户清晰直观地获得待查错文本中字词重复错误的明确提示,并可灵活、紧密地结合日常用语的演变及时更新,实用性很高。
附图说明
图1为实施例提供的一种字词重复错误的自动识别方法的流程示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以下实施列对本发明不构成限定。
本发明提供的一种字词重复错误的自动识别方法,该方法包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
本发明提供的一种字词重复错误的自动识别方法中,所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到训练语料中所有的包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
文中也可用freq(gram)不失一般性的表示gram(词或字词串)所对应的词或元组在训练语料中出现的频次;gram表示某个词或某一元组对应的字词串;
在本实施例中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。本实施例中第一字符串为“#Begin#”,第二字符串为“#End#”。也就是说:在本实施例中,如果i=1,则Wi-1为“#Begin#”表示句子开始符,若i+1=n,则Wi+2为“#End#”表示句子结尾。
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有的词在训练语料中出现的总频次;
也可以说是,N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次之和;
也即:N1为训练语料中所有的字词串gram1在训练语料中出现的频次之和,其中字词串gram1为训练语料中若干个满足Wi=Wi+1的二元组(Wi,Wi+1)对应的字词串gram1。同时本实施例中,N2为训练语料中所有的字词串gram2在训练语料中出现的频次之和,其中字词串gram2为训练语料中若干个满足Wi=Wi+1的三元组(Wi-1,Wi,Wi+1)对应的字词串gram2;N3为训练语料中所有的字词串gram3在训练语料中出现的频次之和,其中字词串gram3为训练语料中若干个满足Wi=Wi+1的三元组(Wi,Wi+1,Wi+2)对应的字词串gram3;
13)对于三元组(Wi-1,Wi,Wi+1)及三元组(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算其左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次;
此时因不失一般性将Wi记为W,则Wi=Wi+1=W,因此文中WiWi+1可以不失一般性地表达为WW。
本发明提供的一种字词重复错误的自动识别方法中,所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤,具体包括:
21)统计汉语词典中的包含重复字的词;
本实施例中,即为在字典中统计寻找包含连续相同的重复字的词,如“慢吞吞”、“高高兴兴”、“多多益善”、“欣欣向荣”、“哈哈”、和/或“拜拜”等。
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
其中索引结构可以提高匹配的效率,本实施例中为:Set<String>wordSet。
本发明提供的一种字词重复错误的自动识别方法中,所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,在本实施例中具体为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;本实施例中如图1所示,具体包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′,其中Wi′为汉语词典中的词,1<=i<=n;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词(本实施例中也可以说是判断Wi′Wi+1′是否是wordSet中的词),如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,以通过统计信息量来继续进行判断。
本发明提供的一种字词重复错误的自动识别方法中,所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,本实施例中如图1所示,具体包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如果Degree(Wi′,Wi+1′)=0,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。其中:如Wi-1′Wi′Wi+1′在训练语料(也即训练语料库)中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料(也即训练语料库)中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
文中三元组Wi-1′Wi′Wi+1′亦可表达为三元组(Wi-1′Wi′Wi+1′)或三元组(Wi-1′,Wi′,Wi+1′);三元组Wi′Wi+1′Wi+2′亦可表达为三元组(Wi′Wi+1′Wi+2′)或三元组(Wi′,Wi+1′,Wi+2′);freq(Wi-1′,Wi′,Wi+1′)亦可表达为freq(Wi-1′Wi′Wi+1′),freq(Wi′,Wi+1′,Wi+2′)亦可表达为freq(Wi′Wi+1′Wi+2′)。
上述α为第一预设阈值,本实施例中第一预设阈值α为3.0;上述β为第二预设阈值,本实施例中第二预设阈值β为3.0;上述c为第三预设阈值,本实施例中第三预设阈值c为3.0。
文中所述训练语料,亦可称为语料库或训练语料库。
实验:首先采用本发明对大规模训练语料(8G)进行统计训练(该8G大规模语料为训练语料),测试集中的所有句子中包括预先设置的1000个错误的重复字词,采用本发明提供的字词重复错误的自动识别方法对该测试集进行字词重复查错/识别,实验表明其召回率可以得到84%,准确率达到77%,由此可见,本发明能有效地发现字词重复错误。
以上仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。
Claims (8)
1.一种字词重复错误的自动识别方法,其特征在于该方法包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
2.根据权利要求1所述的字词重复错误的自动识别方法,其特征在于:所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。
3.根据权利要求1或2所述的字词重复错误的自动识别方法,其特征在于:所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:
21)统计汉语词典中的包含重复字的词;
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
4.根据权利要求3所述的字词重复错误的自动识别方法,其特征在于:所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
5.根据权利要求4所述的字词重复错误的自动识别方法,其特征在于:所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如是,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。
6.根据权利要求5所述的字词重复错误的自动识别方法,其特征在于:第一预设阈值α为3.0;第二预设阈值β为3.0;第三预设阈值c为3.0。
7.根据权利要求5所述的字词重复错误的自动识别方法,其特征在于:所述步骤44)中,如Wi-1′Wi′Wi+1′在训练语料中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
8.根据权利要求2所述的字词重复错误的自动识别方法,其特征在于:所述步骤11)中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576591.2A CN111709228B (zh) | 2020-06-22 | 2020-06-22 | 一种字词重复错误的自动识别方法 |
PCT/CN2021/074961 WO2021258739A1 (zh) | 2020-06-22 | 2021-02-03 | 一种字词重复错误的自动识别方法 |
US17/640,845 US20220343070A1 (en) | 2020-06-22 | 2021-02-03 | Method for automatically identifying word repetition errors |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576591.2A CN111709228B (zh) | 2020-06-22 | 2020-06-22 | 一种字词重复错误的自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709228A true CN111709228A (zh) | 2020-09-25 |
CN111709228B CN111709228B (zh) | 2023-11-21 |
Family
ID=72541821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010576591.2A Active CN111709228B (zh) | 2020-06-22 | 2020-06-22 | 一种字词重复错误的自动识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343070A1 (zh) |
CN (1) | CN111709228B (zh) |
WO (1) | WO2021258739A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021258739A1 (zh) * | 2020-06-22 | 2021-12-30 | 中国标准化研究院 | 一种字词重复错误的自动识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246048A1 (en) * | 2012-03-19 | 2013-09-19 | Fujitsu Limited | Text proofreading apparatus and text proofreading method |
CN104375986A (zh) * | 2014-12-02 | 2015-02-25 | 江苏科技大学 | 一种汉语叠词的自动获取方法 |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN109213998A (zh) * | 2018-08-17 | 2019-01-15 | 汇智容大(北京)信息技术有限公司 | 中文错字检测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN111709228B (zh) * | 2020-06-22 | 2023-11-21 | 中国标准化研究院 | 一种字词重复错误的自动识别方法 |
-
2020
- 2020-06-22 CN CN202010576591.2A patent/CN111709228B/zh active Active
-
2021
- 2021-02-03 WO PCT/CN2021/074961 patent/WO2021258739A1/zh active Application Filing
- 2021-02-03 US US17/640,845 patent/US20220343070A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246048A1 (en) * | 2012-03-19 | 2013-09-19 | Fujitsu Limited | Text proofreading apparatus and text proofreading method |
CN104375986A (zh) * | 2014-12-02 | 2015-02-25 | 江苏科技大学 | 一种汉语叠词的自动获取方法 |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN109213998A (zh) * | 2018-08-17 | 2019-01-15 | 汇智容大(北京)信息技术有限公司 | 中文错字检测方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021258739A1 (zh) * | 2020-06-22 | 2021-12-30 | 中国标准化研究院 | 一种字词重复错误的自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111709228B (zh) | 2023-11-21 |
US20220343070A1 (en) | 2022-10-27 |
WO2021258739A1 (zh) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885683B (zh) | 一种基于K-means模型和神经网络模型的生成文本摘要的方法 | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
US20080228463A1 (en) | Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building | |
CN113435186B (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
Layton et al. | Recentred local profiles for authorship attribution | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN109086266B (zh) | 一种文本形近字的检错与校对方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN111444706A (zh) | 一种基于深度学习的裁判文书文本纠错方法及系统 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN113221542A (zh) | 一种基于多粒度融合与Bert筛选的中文文本自动校对方法 | |
CN111709228A (zh) | 一种字词重复错误的自动识别方法 | |
CN114970554B (zh) | 一种基于自然语言处理的文档校验方法 | |
CN112287657A (zh) | 基于文本相似度的信息匹配系统 | |
Nagata | Japanese OCR error correction using character shape similarity and statistical language model | |
Tarmom et al. | Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
CN112668328A (zh) | 媒体智能校对算法 | |
CN116522966B (zh) | 基于多语言词条的文本翻译方法及系统 | |
CN113033188B (zh) | 一种基于神经网络的藏文语法纠错方法 | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |