CN114021560A - 文本纠错方法及装置、电子设备、存储介质 - Google Patents

文本纠错方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114021560A
CN114021560A CN202111324451.7A CN202111324451A CN114021560A CN 114021560 A CN114021560 A CN 114021560A CN 202111324451 A CN202111324451 A CN 202111324451A CN 114021560 A CN114021560 A CN 114021560A
Authority
CN
China
Prior art keywords
word
corrected
quasi
candidate word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111324451.7A
Other languages
English (en)
Inventor
简仁贤
王伟
刘家国
吴文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202111324451.7A priority Critical patent/CN114021560A/zh
Publication of CN114021560A publication Critical patent/CN114021560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本申请提供一种文本纠错方法及装置、电子设备、计算机可读存储介质,方法包括:对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词‑拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;针对每一候选词,从包含所述候选词的若干候选词‑拟纠正词对中,确定唯一的指定候选词‑拟纠正词对;针对每一指定候选词‑拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;基于所有指定候选词‑拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。本申请方案,极大地缩小了错误词的搜索范围,节省了候选词的构建时间,从而整体上提高了文本纠错的效率。

Description

文本纠错方法及装置、电子设备、存储介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文本纠错方法及装置、电子设备、计算机可读存储介质。
背景技术
文本纠错通常分为错误检测和错误纠正两个阶段。在错误检测阶段,需识别待纠错文本中可能存在的错误词汇。一般,可以对待纠错文本进行分词,获得多个分词单元,然后以字粒度和词粒度两个方面对分词单元进行错误检测,获得检测结果,作为疑似错误候选集。疑似错误候选集中可以包括待纠错文本中多个疑似错误的字和词汇。在错误纠正阶段,可以利用字词典对疑似错误的字或词汇进行纠正,从而得到纠正后的文本。
相关技术中,可以对待纠错文本进行字或词级别的2-gram和3-gram计算,从而得到疑似错误候选集。然而,这种方式获得的疑似错误候选集中包含数量巨大的字和词汇,这使得后续错误纠正阶段涉及大量计算,导致文本纠错的效率低下。
发明内容
本申请实施例的目的在于提供一种文本纠错方法及装置、电子设备、计算机可读存储介质,用于对文本中错误的词汇进行纠错。
一方面,本申请提供了一种文本纠错方法,包括:
对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;
针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对;
针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;
基于所有指定候选词-拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。
在一实施例中,在所述逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对之前,所述方法还包括:
获取所述目标词典,并从所述目标词典中解析出多个条目;
根据所述多个条目中每一汉字为键,构造所述倒排索引;其中,所述倒排索引包括多个汉字和包含汉字的条目之间映射关系。
在一实施例中,所述根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对,包括:
将所述待纠错文本中每一汉字逐个作为目标汉字,在所述倒排索引中查找与所述目标汉字对应的条目,作为目标条目;
依据所述目标条目中所述目标汉字的位置,以及所述目标汉字在所述待纠错文本中的位置,确定与所述目标条目对应的待检词;
针对每一目标条目对应的待检词,判断所述待检词是否与所述目标条目匹配程度位于预设匹配范围;
若是,将所述待检词作为候选词,将待检词对应的目标条目作为拟纠正词,构造所述候选词-拟纠正词对。
在一实施例中,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词是否位于预设停用词表;
若是,过滤所述待检词;
若否,继续执行所述构造所述候选词-拟纠正词对的步骤。
在一实施例中,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词的最后一个字符和所述待纠错文本中所述待检词之后的第一个字符,是否均为指定字符;
如果是,过滤所述待检词;
如果否,继续执行所述构造所述候选词-拟纠正词对的步骤。
在一实施例中,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词与所述目标条目,是否已构建候选词-拟纠正词对;
若是,过滤所述待检词;
若否,继续执行所述构造所述候选词-拟纠正词对的步骤。
在一实施例中,所述针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对,包括:
针对每一候选词,确定包含所述候选词的每个候选词-拟纠正词对中,候选词与拟纠正词之间的相似度;
针对每一候选词,将所述相似度最高的候选词-拟纠正词对,作为所述候选词的指定候选词-拟纠正词对。
另一方面,本申请还提供了一种文本纠错装置,包括:
检索模块,用于对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;
确定模块,用于针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对;
判断模块,用于针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;
生成模块,用于基于所有指定候选词-拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述文本纠错方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述文本纠错方法。
本申请方案,针对待纠错文本的每一汉字,根据检索策略,逐个在目标词对对应的倒排索引中进行检索,从而筛选出多个候选词-拟纠正词对,通过对候选词-拟纠正词对作进一步筛选,可以确定需要纠正的错误词以及相应的纠正词;相比以n-gram确定疑似错误候选集的方案,可以极大地缩小后续错误词的搜索范围,节省了候选词的构建事件,从而整体上提高了文本纠错的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的文本纠错方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的文本纠错方法的流程示意图;
图4为本申请一实施例提供的倒排索引的构造方法的流程示意图;
图5为本申请一实施例提供的词对检索方法的流程示意图;
图6为本申请一实施例提供的文本纠错方法的示意图;
图7为本申请一实施例提供的文本纠错装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的文本纠错方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送待纠错文本;服务端30可以是服务器、服务器集群或云计算中心,可以对待纠错文本进行处理,获得纠错结果,并返回客户端20。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行文本纠错方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的文本纠错方法。
参见图3,为本申请一实施例提供的文本纠错方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤340。
步骤310:对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为待纠错文本中的疑似错误词汇,拟纠正词为目标词典中的条目。
待纠错文本可以是句子,也可以是文章。
目标词典为待纠错文本所属领域的词典,可根据应用场景进行配置。示例性的,在通用场景中,目标词典可以为同音字词典、同形字词典、混淆词词典、人名词典、地名词典等。在专用场景中,金融、医疗、学术科研、财经等各行各业,均存在对应的专业词典,作为目标词典。
获得待纠错文本之后,服务端可以针对待纠错文本中每个汉字,根据检索策略逐个在目标词典对对应的倒排索引中进行检索。对于待纠错文本中的任一汉字,服务端可以在倒排索引中查找与该汉字对应的条目,并依据查找到的条目和检索策略从待纠错文本中确定候选词。候选词为疑似错误词汇,换而言之,候选词可能是错误的,也可能是正确的。服务端可以将与汉字对应的条目作为拟纠正词,将拟纠正词与候选词构造候选词-拟纠正词对。拟纠正词表示可能用于纠正候选词的词汇。对于任一汉字,可能构建一个或多个候选词-拟纠正词对。
对待纠错文本的每一汉字进行检索之后,可以获得多个候选词-拟纠正词对。
步骤320:针对每一候选词,从包含候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对。
其中,指定候选词-拟纠正词对中的拟纠正词,是词对中候选词对应的所有拟纠正词中,最有可能用于纠正该候选词的词汇。
在获得多个候选词-拟纠正词对之后,服务端可以确定多个可能错误的候选词。对于每一候选词,存在一个或多个拟纠正词。针对每一候选词,服务端可以筛选出包含该候选词的所有候选词-拟纠正词对。一种情况下,若候选词对应唯一的候选词-拟纠正词对,可以将该候选词-拟纠正词对作为候选词的指定候选词-拟纠正词对。另一种情况下,若候选词对应至少两个候选词-拟纠正词对,服务端可以比对不同拟纠正词,确定最有可能替换候选词的拟纠正词,并将包含该拟纠正词的候选词-拟纠正词对,作为指定候选词-拟纠正词对。
步骤330:针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词。
在获得若干指定候选词-拟纠正词对之后,服务端可以判断每一指定候选词-拟纠正词对中,候选词与拟纠正词之间的相似度是否达到预设相似度阈值。这里,相似度阈值用于筛选与候选词足够相似的拟纠正词。候选词与拟纠正词之间的相似度可以通过相似度算法确定,这里,相似度算法可以是欧氏距离、编辑距离、Jaccard相似度、余弦相似度等算法的一种或多种的组合。
一方面,拟纠正词与候选词之间的相似度达到相似度阈值,此时,可以确定拟纠正词为候选词的纠正词,而候选词为确定的错误词。纠正词为确定用于纠正候选词的词汇。另一方面,拟纠正词语候选词之间的相似度未达到相似度阈值,此时,可以确定拟纠正词并非候选词的纠正词。
步骤340:基于所有指定候选词-拟纠正词对的判断结果,获得待纠错文本的纠错结果。
在对所有指定候选词-拟纠正词对进行判断之后,可以确定所有存在纠正词的错误词。服务端可以基于候选词及其对应的错误词,构成纠错结果。其中,纠错结果包含所有纠正词,以及纠正词所纠正的错误词。
如果待纠错文本是客户端发送至服务端处理,服务端在获得纠错结果之后,可以客户端返回纠错结果。
在一实施例中,在倒排索引中检索,以确定候选词-拟纠正词之前,服务端可以构造目标词典对应的倒排索引。参见图4,为本申请一实施例提供的倒排索引的构造方法的流程示意图,如图4所示,该方法可以包括如下步骤301-步骤302。
步骤301:获取目标词典,并从目标词典中解析出多个条目。
服务端可以根据应用场景获取目标词典,并从目标词典中解析出多个条目,每一条目为目标词典中的一个词条。
步骤302:根据多个条目中每一汉字为键,构造倒排索引;其中,倒排索引包括多个汉字和包含汉字的条目之间映射关系。
针对每一条目,可以分别以条目中的每个汉字为键,构建条目中汉字与条目之间的映射关系。在对每一条目构建若干映射关系后,服务端可以将多个映射关系中相同的键进行合并,从而以多个映射关系构造倒排索引。
示例性的,目标词典为处方常用语的词典,包括词条:阿莫西林、阿洛西林、克林霉素……针对词条“阿莫西林”,可以构建汉字“阿”与“阿莫西林”、汉字“莫”与“阿莫西林”、汉字“西”与“阿莫西林”、汉字“林”与“阿莫西林”之间的映射关系。针对每一词条,构造多个映射关系后,可以构建出倒排索引。倒排索引的结构如下表1所示:
Figure BDA0003346493680000091
Figure BDA0003346493680000101
表1
在一实施例中,参见图5,为本申请一实施例提供的词对检索方法的流程示意图,如图5所示,该方法可以包括步骤311-步骤314。
步骤311:将待纠错文本中每一汉字逐个作为目标汉字,在倒排索引中查找与目标汉字对应的条目,作为目标条目。
服务端可以将待纠错文本中每个汉字逐个作为目标汉字,并在倒排索引中查找对应于目标汉字的条目。一方面,倒排索引中不存在对应于该目标汉字的条目,服务端可以在待纠错文本中选择下一汉字作为目标汉字,重新在倒排索引中进行查找。另一方面,倒排索引中存在至少一个对应于该目标汉字的条目,可将查找到的条目作为目标条目。当任一目标汉字在倒排索引中查找完成后,服务端可以继续在待纠错文本中选择下一汉字作为目标汉字,重新在倒排索引中进行查找。
步骤312:依据目标条目中目标汉字的位置,以及目标汉字在待纠错文本中的位置,确定与目标条目对应的待检词。
这里,待检词为需进一步检查是否属于候选词的词汇。
目标汉字在目标条目中的位置,可以以目标汉字在目标条目中排序位置、目标条目中目标汉字左侧字数、目标条目中目标汉字右侧字数来表示。示例性的,表2罗列了多个目标汉字在目标条目中的位置信息:
Figure BDA0003346493680000102
Figure BDA0003346493680000111
表2
目标汉字在待纠错文本中的位置,可以以目标汉字在待纠错文本中的排序位置来表示。
针对任一目标汉字,在确定该目标汉字对应的目标条目之后,服务端可以以目标汉字在待纠错文本中的位置为基础,依据目标汉字在目标条目中位置,在待纠错文本中目标汉字的左右侧截取若干汉字,构造与目标条目对应的待检词。服务端依据目标条目中目标汉字左侧字数,从待纠错文本的目标汉字左侧截取若干汉字;依据目标条目中目标汉字右侧字数,从待纠错文本的目标汉字右侧截取若干汉字。
示例性的,待纠错文本为“医生推荐使用阿莫西灵作为特效药来治疗肺炎”,目标条目为“阿莫西林”,目标汉字为“莫”。目标条目中目标汉字左侧字数为1,右侧字数为2。服务端可在待纠错文本中目标汉字左侧截取“阿”、右侧截取“西灵”,从而得到待检词“阿莫西灵”。
步骤313:针对每一目标条目对应的待检词,判断待检词是否与目标条目匹配程度位于预设匹配范围。
步骤314:若是,将待检词作为候选词,将待检词对应的目标条目作为拟纠正词,构造候选词-拟纠正词对。
其中,匹配程度表示待检词语目标条目相同字数与总字数之比;相同字数为相同位置相同汉字的字数,总字数为待检词的总字数。
针对每一目标条目对应的待检词,服务端可以比对目标条目与待检词各个位置的汉字是否相同,并确定相同字数与总字数之间的比值,作为匹配程度。当确定匹配程度之后,可以判断该匹配程度是否位于匹配范围内。这里,匹配范围用于筛选待纠错文本中可能错误的词汇。这种情况下,如果待检词与目标条目完全相同,则说明待检词没问题。如果待检词语目标条目不同,且差异非常大,则待检词表示的含义可能与目标条目完全不相干。因此,通过匹配范围可以筛选出与目标条目足够相似,又不完全相似的词汇。示例性的,预设匹配范围可以是大于等于50%且小于100%。
一方面,如果匹配程度不位于预设匹配范围内,可以舍弃该待检词。另一方面,如果匹配程度位于预设匹配范围内,可以将该待检词作为候选词,将该待检词对应的目标条目作为拟纠正词,从而构造候选词-拟纠正词对。
针对每一待检词作上述处理之后,可以构造出与待纠错文本对应的若干候选词-拟纠正词对。
在一实施例中,当确定待检词与目标条目之间的匹配程度位于预设匹配范围之后,在构造候选词-拟纠正词对之前,服务端可以在预设停用词表查找待检词,判断待检词是否位于停用词表。其中,停用词表包括多个停用词。一方面,如果查到待检词,说明待检词为停用词,此时,服务端可以过滤该待检词,不再构造包含该待检词的候选词-拟纠正词对。另一方面,如果未查到待检词,说明该待检词并非停用词,服务端可以继续执行构造包含该待检词的候选词-拟纠正词对的步骤。
在一实施例中,当确定待检词与目标条目之间的匹配程度位于预设匹配范围之后,在构造候选词-拟纠正词对之前,服务端可以判断待检词的最后一个字符和待纠错文本中待检词之后的第一个字符,是否均为指定字符。这里,指定字符可以为数字、字母、标点等不属于汉字的字符。
一方面,如果待检词的最后一个字符和待纠错文本中待检词之后的第一个字符均为指定字符,这种情况下,待检词的最后一个字符可能与待检词后的字符构成词汇,换而言之,待检词并非单一的完整词汇。服务端可以过滤该待检词,不再构造包含该待检词的候选词-拟纠正词对。
另一方面,如果待检词的最后一个字符、待纠错文本中待检词之后的第一个字符,至少有一个不是指定字符,可认为待检词为单一的完整词汇。服务端可以继续执行构造包含该待检词的候选词-拟纠正词对的步骤。
在一实施例中,当确定待检词与目标条目之间的匹配程度位于预设匹配范围之后,在构造候选词-拟纠正词对之前,服务端可以判断待检词与目标条目,是否已构建候选词-拟纠正词对。服务端可以将已构建的候选词-拟纠正词对放入词对集中,在构建新的候选词-拟纠正词对之前,可以在词对集中搜索待检词和目标条目,判断是否查到完全完全一致的词对。
一方面,若查找相同的词对,说明已经基于上述待检词和上述目标条目,构建候选词-拟纠正词对。这种情况下,服务端可以过滤该待检词,不再重复构造包含该待检词的候选词-拟纠正词对。另一方面,若未查到相同的词对,说明尚未基于上述待检词和上述目标条目,构建候选词-拟纠正词对。这种情况下,服务端可以继续执行构造包含该待检词的候选词-拟纠正词对的步骤。
在一实施例中,在执行步骤320时,如果候选词对应至少两个候选词-拟纠正词对。针对上述候选词,服务端可以确定包含候选词的每个候选词-拟纠正词对中,候选词与拟纠正词之间的相似度。服务端可以依据欧氏距离、编辑距离、Jaccard相似度、余弦相似度等一种或多种相似度算法确定候选词与拟纠正词之间的相似度。
这里,如果根据至少两种相似度算法确定相似度,可以根据应用场景为不同相似度算法预配置权重。在为候选词和拟纠正词计算出多个相似度之后,根据不同相似度算法对应的权值,对多个相似度进行加权求和,从而得到最终的相似度。
服务端可以将同一候选词所在词对所对应的相似度进行排序,确定最高相似度,并将相似度最高的候选词-拟纠正词对,作为候选词的指定候选词-拟纠正词对。
在一实施例中,参见图6,为本申请一实施例提供的文本纠错方法的示意图。如图6所示,执行本申请文本纠错方法的系统在启动之后,可以从目标词对中解析出多个条目,获得条目集合,并以条目中每个汉字为键、以条目为值,构造汉字与条目之间的映射关系。服务端可以依据多个映射关系,构建目标词典对应的倒排索引。
系统接收待纠错文本,并对待纠错文本进行错误检测。在错误检测时,系统可以依据待纠错文本的每一汉字,在倒排索引中查找目标条目,并依据目标条目,在待纠错文本中截取待检词。系统可以依据若干过滤策略对待检词进行过滤,并依据过滤后的待检词和对应的目标条目,构建候选词-拟纠正词对。
系统可以对多个词对进行纠错处理。在纠错阶段,针对同一候选词,从包含该候选词的若干词对中,确定指定候选词-拟纠正词对。当指定候选词-拟纠正词对中,候选词与拟纠正词之间的相似度达到相似度阈值,可以确定候选词为错误词,而拟纠正词为纠正该错误词的纠正词。
系统对每个词对进行纠错处理之后,可以生成待纠错文本的纠错结果。
示例性的,系统接收到的待纠错文本为“医生推荐使用阿莫西灵作为特效药来治疗肺炎”。目标词典为处方常用语的词典,依据目标词典构建的构造的倒排索引的部分条目可以参照表1。
系统以待纠错文本中汉字“阿”,在倒排索引中查到目标条目“阿莫西林”和“阿洛西林”。这种情况下,可以截取出待检词“阿莫西灵”,经过一系列过滤策略处理,可以构造词对“阿莫西灵-阿莫西林”、“阿莫西灵-阿洛西林”。针对两个候选词-拟纠正词对分别计算相似度,可以确定“阿莫西灵-阿莫西林”的相似度为1.014;“阿莫西灵-阿洛西林”的相似度为0.623。对于候选词“阿莫西灵”,可以确定指定候选词-拟纠正词对为“阿莫西灵-阿莫西林”。
“阿莫西灵-阿莫西林”中候选词与拟纠正词之间的相似度1.014大于相似度阈值0.7,因此,系统可以确定候选词“阿莫西灵”为错误词,“阿莫西林”为纠正该错误词的纠正词。
图7是本发明一实施例的一种文本纠错装置的框图,如图7所示,该装置可以包括:
检索模块710,用于对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;
确定模块720,用于针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对;
判断模块730,用于针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;
生成模块740,用于基于所有指定候选词-拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。
上述装置中各个模块的功能和作用的实现过程具体详见上述文本纠错方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种文本纠错方法,其特征在于,包括:
对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;
针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对;
针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;
基于所有指定候选词-拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。
2.根据权利要求1所述的方法,其特征在于,在所述逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对之前,所述方法还包括:
获取所述目标词典,并从所述目标词典中解析出多个条目;
根据所述多个条目中每一汉字为键,构造所述倒排索引;其中,所述倒排索引包括多个汉字和包含汉字的条目之间映射关系。
3.根据权利要求1所述的方法,其特征在于,所述根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对,包括:
将所述待纠错文本中每一汉字逐个作为目标汉字,在所述倒排索引中查找与所述目标汉字对应的条目,作为目标条目;
依据所述目标条目中所述目标汉字的位置,以及所述目标汉字在所述待纠错文本中的位置,确定与所述目标条目对应的待检词;
针对每一目标条目对应的待检词,判断所述待检词是否与所述目标条目匹配程度位于预设匹配范围;
若是,将所述待检词作为候选词,将待检词对应的目标条目作为拟纠正词,构造所述候选词-拟纠正词对。
4.根据权利要求3所述的方法,其特征在于,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词是否位于预设停用词表;
若是,过滤所述待检词;
若否,继续执行所述构造所述候选词-拟纠正词对的步骤。
5.根据权利要求3所述的方法,其特征在于,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词的最后一个字符和所述待纠错文本中所述待检词之后的第一个字符,是否均为指定字符;
如果是,过滤所述待检词;
如果否,继续执行所述构造所述候选词-拟纠正词对的步骤。
6.根据权利要求3所述的方法,其特征在于,在所述构造所述候选词-拟纠正词对之前,所述方法还包括:
判断所述待检词与所述目标条目,是否已构建候选词-拟纠正词对;
若是,过滤所述待检词;
若否,继续执行所述构造所述候选词-拟纠正词对的步骤。
7.根据权利要求1所述的方法,其特征在于,所述针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对,包括:
针对每一候选词,确定包含所述候选词的每个候选词-拟纠正词对中,候选词与拟纠正词之间的相似度;
针对每一候选词,将所述相似度最高的候选词-拟纠正词对,作为所述候选词的指定候选词-拟纠正词对。
8.一种文本纠错装置,其特征在于,包括:
检索模块,用于对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词-拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;
确定模块,用于针对每一候选词,从包含所述候选词的若干候选词-拟纠正词对中,确定唯一的指定候选词-拟纠正词对;
判断模块,用于针对每一指定候选词-拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;
生成模块,用于基于所有指定候选词-拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的文本纠错方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的文本纠错方法。
CN202111324451.7A 2021-11-10 2021-11-10 文本纠错方法及装置、电子设备、存储介质 Pending CN114021560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111324451.7A CN114021560A (zh) 2021-11-10 2021-11-10 文本纠错方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111324451.7A CN114021560A (zh) 2021-11-10 2021-11-10 文本纠错方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN114021560A true CN114021560A (zh) 2022-02-08

Family

ID=80063016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111324451.7A Pending CN114021560A (zh) 2021-11-10 2021-11-10 文本纠错方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114021560A (zh)

Similar Documents

Publication Publication Date Title
US9563721B2 (en) Managing an archive for approximate string matching
EP3591538B1 (en) Data clustering, segmentation, and parallelization
US8510322B2 (en) Enriched search features based in part on discovering people-centric search intent
US20220171753A1 (en) Matching Non-exact Addresses
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
CN110941959B (zh) 文本违规检测、文本还原方法、数据处理方法及设备
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN110851559B (zh) 数据元自动识别方法和识别系统
CN108427702B (zh) 目标文档获取方法及应用服务器
KR102373146B1 (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
US10552398B2 (en) Database records associated with a tire
CN113297238A (zh) 基于历史变更记录进行信息挖掘的方法和装置
CN111191105A (zh) 政务信息的搜索方法、装置、系统、设备及存储介质
Han et al. Towards effective extraction and linking of software mentions from user-generated support tickets
US7072827B1 (en) Morphological disambiguation
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
CN114021560A (zh) 文本纠错方法及装置、电子设备、存储介质
US9830355B2 (en) Computer-implemented method of performing a search using signatures
CN114003685B (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
CN112989793B (zh) 文章检测方法及装置
CN113094469B (zh) 文本数据分析方法、装置、电子设备及存储介质
El-Shishtawy Linking Databases using Matched Arabic Names
CN116361517B (zh) 一种企业字号查重方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination