CN111709228B - 一种字词重复错误的自动识别方法 - Google Patents

一种字词重复错误的自动识别方法 Download PDF

Info

Publication number
CN111709228B
CN111709228B CN202010576591.2A CN202010576591A CN111709228B CN 111709228 B CN111709228 B CN 111709228B CN 202010576591 A CN202010576591 A CN 202010576591A CN 111709228 B CN111709228 B CN 111709228B
Authority
CN
China
Prior art keywords
word
repeated
words
training corpus
information entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010576591.2A
Other languages
English (en)
Other versions
CN111709228A (zh
Inventor
王海涛
曹馨宇
刘亮亮
周长青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202010576591.2A priority Critical patent/CN111709228B/zh
Publication of CN111709228A publication Critical patent/CN111709228A/zh
Priority to PCT/CN2021/074961 priority patent/WO2021258739A1/zh
Priority to US17/640,845 priority patent/US20220343070A1/en
Application granted granted Critical
Publication of CN111709228B publication Critical patent/CN111709228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种字词重复错误的自动识别方法,其包括如下步骤:对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。本发明可快速判断识别出该重复字词是否为收录于词典中的重复字词,且能有效判断出是否为非词典但属于日常用语中的重复字词,判断识别快速、综合,实用性高。

Description

一种字词重复错误的自动识别方法
技术领域
本发明涉及一种自然语言处理方法,具体涉及中文自动校对领域中字词重复错误的发现方法。
背景技术
在大数据时代,文本数据越来越多,而文本中的错误也越来越多,其中字词重复错误(又称插入错误)。而在汉语中,有些词是可以重复出现的,比如说“研究研究”,但是有些是不能重复出现的,如“道歉道歉”、“的的”,一旦出现就是重复错误。
如何自动发现文本中出现的字词重复错误,是中文文本自动校对的研究内容之一。
而汉语中存在这种合理重复字词的现象,因此简单的判断重复词语会带来很多的误判,而现在大部分的中文文本自动校对中对于字词重复错误没有单独来进行处理,只是简单的利用字词的二元或三元的信息来判断是否出错。而重复出现的字词大部分都不是词典中的词,更多是一种日常用语中的常见语言现象,因此如何提供一种方法,可以来判断字词中的重复错误,且准确高效,这一问题亟待解决。
发明内容
发明目的:为了解决现有技术中的不足,本发明的目的是提供一种字词重复错误的自动识别方法。
技术方案:为解决上述技术问题,本发明提供的一种字词重复错误的自动识别方法,其包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
作为优选的,所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。
作为优选的,所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:
21)统计汉语词典中的包含重复字的词;
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
作为优选的,所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
进一步优选的,所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如是,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。
进一步优选的,第一预设阈值α为3.0;第二预设阈值β为3.0;第三预设阈值c为3.0。
优选的,所述步骤44)中,如Wi-1′Wi′Wi+1′在训练语料中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
优选的,所述步骤11)中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。
有益效果:本发明提供的一种字词重复错误的自动识别方法,在对大规模训练语料分词后统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,以及统计并收录汉语词典中的包含重复字的词的基础上,对于待查错文本,先是基于汉语词典中的重复字词对其中出现的重复字词进行判断,进而基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵对其中出现的重复字词继续进行判断,从而给出其是正确的还是错误的重复字词的判定和识别,不仅可以快速判断识别出该重复字词是否为收录于词典中的重复字词,还能结合日常用语中的常见语言现象,进一步有效地判断识别出该重复字词是否为非词典(未收录于词典中)但属于日常用语中的重复字词,判断识别更为快速、综合;而且通过实验可见本发明召回率高达84%及以上,准确率达到77%及以上,准确高效;同时本发明对错误的重复字词予以标记,便于用户清晰直观地获得待查错文本中字词重复错误的明确提示,并可灵活、紧密地结合日常用语的演变及时更新,实用性很高。
附图说明
图1为实施例提供的一种字词重复错误的自动识别方法的流程示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以下实施列对本发明不构成限定。
本发明提供的一种字词重复错误的自动识别方法,该方法包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤。
本发明提供的一种字词重复错误的自动识别方法中,所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到训练语料中所有的包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
文中也可用freq(gram)不失一般性的表示gram(词或字词串)所对应的词或元组在训练语料中出现的频次;gram表示某个词或某一元组对应的字词串;
在本实施例中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。本实施例中第一字符串为“#Begin#”,第二字符串为“#End#”。也就是说:在本实施例中,如果i=1,则Wi-1为“#Begin#”表示句子开始符,若i+1=n,则Wi+2为“#End#”表示句子结尾。
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有的词在训练语料中出现的总频次;
也可以说是,N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次之和;
也即:N1为训练语料中所有的字词串gram1在训练语料中出现的频次之和,其中字词串gram1为训练语料中若干个满足Wi=Wi+1的二元组(Wi,Wi+1)对应的字词串gram1。同时本实施例中,N2为训练语料中所有的字词串gram2在训练语料中出现的频次之和,其中字词串gram2为训练语料中若干个满足Wi=Wi+1的三元组(Wi-1,Wi,Wi+1)对应的字词串gram2;N3为训练语料中所有的字词串gram3在训练语料中出现的频次之和,其中字词串gram3为训练语料中若干个满足Wi=Wi+1的三元组(Wi,Wi+1,Wi+2)对应的字词串gram3;
13)对于三元组(Wi-1,Wi,Wi+1)及三元组(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算其左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次;
此时因不失一般性将Wi记为W,则Wi=Wi+1=W,因此文中WiWi+1可以不失一般性地表达为WW。
本发明提供的一种字词重复错误的自动识别方法中,所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤,具体包括:
21)统计汉语词典中的包含重复字的词;
本实施例中,即为在字典中统计寻找包含连续相同的重复字的词,如“慢吞吞”、“高高兴兴”、“多多益善”、“欣欣向荣”、“哈哈”、和/或“拜拜”等。
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
其中索引结构可以提高匹配的效率,本实施例中为:Set<String>wordSet。
本发明提供的一种字词重复错误的自动识别方法中,所述基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,在本实施例中具体为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;本实施例中如图1所示,具体包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′,其中Wi′为汉语词典中的词,1<=i<=n;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词(本实施例中也可以说是判断Wi′Wi+1′是否是wordSet中的词),如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,以通过统计信息量来继续进行判断。
本发明提供的一种字词重复错误的自动识别方法中,所述基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,本实施例中如图1所示,具体包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如果Degree(Wi′,Wi+1′)=0,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。其中:如Wi-1′Wi′Wi+1′在训练语料(也即训练语料库)中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料(也即训练语料库)中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
文中三元组Wi-1′Wi′Wi+1′亦可表达为三元组(Wi-1′Wi′Wi+1′)或三元组(Wi-1′,Wi′,Wi+1′);三元组Wi′Wi+1′Wi+2′亦可表达为三元组(Wi′Wi+1′Wi+2′)或三元组(Wi′,Wi+1′,Wi+2′);freq(Wi-1′,Wi′,Wi+1′)亦可表达为freq(Wi-1′Wi′Wi+1′),freq(Wi′,Wi+1′,Wi+2′)亦可表达为freq(Wi′Wi+1′Wi+2′)。
上述α为第一预设阈值,本实施例中第一预设阈值α为3.0;上述β为第二预设阈值,本实施例中第二预设阈值β为3.0;上述c为第三预设阈值,本实施例中第三预设阈值c为3.0。
文中所述训练语料,亦可称为语料库或训练语料库。
实验:首先采用本发明对大规模训练语料(8G)进行统计训练(该8G大规模语料为训练语料),测试集中的所有句子中包括预先设置的1000个错误的重复字词,采用本发明提供的字词重复错误的自动识别方法对该测试集进行字词重复查错/识别,实验表明其召回率可以得到84%,准确率达到77%,由此可见,本发明能有效地发现字词重复错误。
以上仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (6)

1.一种字词重复错误的自动识别方法,其特征在于该方法包括如下步骤:
对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤;
统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤;
基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤;
基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤;
其中基于汉语词典中的重复字词对待查错文本中出现的重复字词进行判断的步骤,为:将待查错文本对应的句子进行分词,并基于汉语词典重复字词库对待查错文本中出现的重复字词进行判断;包括:
31)对于待查错文本对应的句子S'进行分词得到S'=W1′…Wn′;
32)如果存在某Wi′=Wi+1′,判断Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向步骤33);
33)如果Wi′Wi+1′不是汉语词典重复字词库中的词,则如果其左边的词不为空,判断Wi-1′Wi′Wi+1′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′为正确的重复字词;否则,如果其右边的词不为空,则判断Wi′Wi+1′Wi+2′是否是汉语词典重复字词库中的词,如果是,则判定Wi′Wi+1′是正确的重复字词;否则,转向基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤;
其中基于统计得到的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵,对待查错文本中出现的重复字词进行判断的步骤,包括如下步骤:
41)对于已分词的待查错文本对应的句子S'=W1′…Wn′,以及其中存在的某Wi′=Wi+1′,判断Wi′Wi+1′在训练语料中是否存在,如在训练语料中不存在,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;如在训练语料中存在,则判断重复结合度Degree(Wi′,Wi+1′)是否等于0,如是,则判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误;否则,转向步骤42);
42)判断重复结合度Degree(Wi′,Wi+1′)是否大于α,α为第一预设阈值,如是,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤43);
43)判断左上文邻接词信息熵和右下文邻接词信息熵,如果左上文邻接词信息熵LE(Wi′Wi+1′)>β或右下文邻接词信息熵RE(Wi′Wi+1′)>β,β为第二预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,转向步骤44);
44)判断三元组Wi-1′Wi′Wi+1′和三元组Wi′Wi+1′Wi+2′在训练语料中出现的频次,如果freq(Wi-1′,Wi′,Wi+1′)>c或freq(Wi′,Wi+1′,Wi+2′)>c,c为第三预设阈值,则判定Wi′Wi+1′为正确的重复字词;否则,判定Wi′Wi+1′是错误的重复字词,并对Wi'和Wi+1'标记为错误。
2.根据权利要求1所述的字词重复错误的自动识别方法,其特征在于:所述对大规模训练语料分词后,统计得到训练语料中包括重复字词的二元组和三元组结构,及其出现的重复结合度、左上文邻接词信息熵及右下文邻接词信息熵的步骤中,包括如下步骤:
11)扫描训练语料中的所有句子,得到所有包含重复字词的二元组及三元组,并分别统计每一元组在训练语料中出现的频次;其中:
对于训练语料中的某一句子S进行分词得到S=W1…Wn,其中Wi为汉语词典中的词,1<=i<=n;
对于该句子S中,若存在i使得Wi=Wi+1,则分别统计二元组(Wi,Wi+1)对应的字词串gram1在训练语料中出现的频次freq(Wi,Wi+1)、三元组(Wi-1,Wi,Wi+1)对应的字词串gram2在训练语料中出现的频次freq(Wi-1,Wi,Wi+1)、以及三元组(Wi,Wi+1,Wi+2)对应的字词串gram3在训练语料中出现的频次freq(Wi,Wi+1,Wi+2);
12)计算二元组(Wi,Wi+1)的重复结合度,为:
其中:
其中:freq(Wi)为词Wi在训练语料中出现的频次;freq(Wi+1)为词Wi+1在训练语料中出现的频次;N1为训练语料中的所有的包含重复字词的二元组(Wi,Wi+1)在训练语料中出现的频次之和;N为训练语料中的所有词在训练语料中出现的总频次;
13)对于三元组(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),对其中每一对Wi=Wi+1,不失一般性将Wi记为W,根据其所有的左上文语境词Wi-1记为{C1,…,Cn},和其所有的右下文语境词Wi+2记为{D1…Dn},分别计算左上文邻接词信息熵LE(WW)及右下文邻接词信息熵RE(WW):
其中:
其中:freq(Ci,WW)为三元组(Ci,W,W)对应的字词串在训练语料中出现的频次;freq(WW,Di,)为三元组(W,W,Di)对应的字词串在训练语料中出现的频次。
3.根据权利要求1或2所述的字词重复错误的自动识别方法,其特征在于:所述统计并收录汉语词典中的包含重复字的词并建立汉语词典重复字词库的步骤中,包括:
21)统计汉语词典中的包含重复字的词;
22)并建立汉语词典重复字词库及其索引结构予以收录存储。
4.根据权利要求1所述的字词重复错误的自动识别方法,其特征在于:第一预设阈值α为3.0;第二预设阈值β为3.0;第三预设阈值c为3.0。
5.根据权利要求1所述的字词重复错误的自动识别方法,其特征在于:所述步骤44)中,如Wi-1′Wi′Wi+1′在训练语料中不存在,则freq(Wi-1′,Wi′,Wi+1′)=0,如Wi′Wi+1′Wi+2′在训练语料中不存在,则freq(Wi′,Wi+1′,Wi+2′)=0。
6.根据权利要求2所述的字词重复错误的自动识别方法,其特征在于:所述步骤11)中,如果i=1,则Wi-1为表示句子开始符的第一字符串,若i+1=n,则Wi+2为表示句子结尾的第二字符串。
CN202010576591.2A 2020-06-22 2020-06-22 一种字词重复错误的自动识别方法 Active CN111709228B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010576591.2A CN111709228B (zh) 2020-06-22 2020-06-22 一种字词重复错误的自动识别方法
PCT/CN2021/074961 WO2021258739A1 (zh) 2020-06-22 2021-02-03 一种字词重复错误的自动识别方法
US17/640,845 US20220343070A1 (en) 2020-06-22 2021-02-03 Method for automatically identifying word repetition errors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010576591.2A CN111709228B (zh) 2020-06-22 2020-06-22 一种字词重复错误的自动识别方法

Publications (2)

Publication Number Publication Date
CN111709228A CN111709228A (zh) 2020-09-25
CN111709228B true CN111709228B (zh) 2023-11-21

Family

ID=72541821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010576591.2A Active CN111709228B (zh) 2020-06-22 2020-06-22 一种字词重复错误的自动识别方法

Country Status (3)

Country Link
US (1) US20220343070A1 (zh)
CN (1) CN111709228B (zh)
WO (1) WO2021258739A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709228B (zh) * 2020-06-22 2023-11-21 中国标准化研究院 一种字词重复错误的自动识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375986A (zh) * 2014-12-02 2015-02-25 江苏科技大学 一种汉语叠词的自动获取方法
CN105045778A (zh) * 2015-06-24 2015-11-11 江苏科技大学 一种汉语同音词错误自动校对方法
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
CN102567371A (zh) * 2010-12-27 2012-07-11 上海杉达学院 自动过滤停用词的方法
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN111709228B (zh) * 2020-06-22 2023-11-21 中国标准化研究院 一种字词重复错误的自动识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375986A (zh) * 2014-12-02 2015-02-25 江苏科技大学 一种汉语叠词的自动获取方法
CN105045778A (zh) * 2015-06-24 2015-11-11 江苏科技大学 一种汉语同音词错误自动校对方法
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及系统

Also Published As

Publication number Publication date
US20220343070A1 (en) 2022-10-27
CN111709228A (zh) 2020-09-25
WO2021258739A1 (zh) 2021-12-30

Similar Documents

Publication Publication Date Title
Brill et al. An improved error model for noisy channel spelling correction
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN112435651B (zh) 一种语音数据自动标注的质量评估方法
CN109086266B (zh) 一种文本形近字的检错与校对方法
US20130035926A1 (en) Automatic transliteration of a record in a first language to a word in a second language
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
US20050234906A1 (en) Segmentation of strings into structured records
CN111444706A (zh) 一种基于深度学习的裁判文书文本纠错方法及系统
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN111709228B (zh) 一种字词重复错误的自动识别方法
CN109190099B (zh) 句模提取方法及装置
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN112001183A (zh) 一种基于段落语义的中小学试题分割提取方法及系统
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN112287657B (zh) 基于文本相似度的信息匹配系统
CN114186058A (zh) 一种政策公文标题相似度计算方法
Nagata Japanese OCR error correction using character shape similarity and statistical language model
WO2021196835A1 (zh) 提取时间字符串的方法、装置、计算机设备及存储介质
CN112668328A (zh) 媒体智能校对算法
CN111881678A (zh) 一种基于无监督学习的领域词发现方法
CN110928989A (zh) 一种基于语言模型的年报语料库构建方法
CN115687334B (zh) 数据质检方法、装置、设备及存储介质
CN113033188B (zh) 一种基于神经网络的藏文语法纠错方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant