CN112668311A - 文本错误的检测方法及装置 - Google Patents

文本错误的检测方法及装置 Download PDF

Info

Publication number
CN112668311A
CN112668311A CN201910937037.XA CN201910937037A CN112668311A CN 112668311 A CN112668311 A CN 112668311A CN 201910937037 A CN201910937037 A CN 201910937037A CN 112668311 A CN112668311 A CN 112668311A
Authority
CN
China
Prior art keywords
combination
word
text
detected
participles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910937037.XA
Other languages
English (en)
Inventor
曹志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910937037.XA priority Critical patent/CN112668311A/zh
Publication of CN112668311A publication Critical patent/CN112668311A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种文本错误的检测方法及装置。其中,该方法包括:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。本申请解决了相关技术中无法检测词语搭配错误的技术问题。

Description

文本错误的检测方法及装置
技术领域
本申请涉及文本错误检测领域,具体而言,涉及一种文本错误的检测方法及装置。
背景技术
拼写检查是指在选定文本、一篇完整文章,一个出版物的全部文章,或所有打开的出版物的全部文章中检查和帮助修正拼写和基本的语法错误。其普遍应用在字处理软件,文本编辑器软件,网页中的富文本编辑器等技术中。
其中,目前的文本错误检测方式一般仅能检测到错别字,但是,还有一种“词语搭配错误”,比如“精力集中”,写成了“经理集中”。
现在使用拼音输入法是远远多于五笔等其他输入法的,而拼音输入法中输入词语是一种更常用的输入方式,所以输入错误的词语也更常见。但是,上述技术方案是不能够检测出来这种错误的。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本错误的检测方法及装置,以至少解决相关技术中无法检测词语搭配错误的技术问题。
根据本申请实施例的一个方面,提供了一种文本错误的检测方法,包括:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。
可选地,依据匹配结果确定待检测文本中是否存在词语搭配错误,包括:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
可选地,上述方法还包括:对于多个组合中的每个组合,在预设词库中不存在与每个组合音标相同的组合词时,且不存在与每个组合中的文字相同的组合词时,将每个组合作为疑似错误搭配词语。
可选地,上述方法还包括:在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定与每个组合相邻的分词,并将与每个组合相邻的分词与每个组合进行重新组合,得到目标组合;判断目标组合是否存在词语搭配错误。
可选地,确定与每个组合相邻的分词之前,方法还包括:确定每个组合中分词的数量;在数量大于预设阈值时,拒绝确定与每个组合相邻的分词;在数量小于预设阈值时,允许确定与每个组合相邻的分词。
可选地,预设词库中的词条通过以下方式确定:从预设文本库中选择目标语句;对语句进行分词处理,并将得到的分词进行组合,得到样本组合分词;去掉样本组合分词中的助词或副词,得到初始词条,并建立初始词条和初始词条中文字的音标信息的关联;将初始词条和音标信息作为词库中的一个词条。
可选地,将多个分词按照顺序进行组合,得到多个组合,包括:将多个分词按照每个分词在待检测文本中的位置进行两两组合,其中,每个组合是位置相邻的两个分词。
可选地,上述方法还包括:在多个组合中相邻的连续两个组合均出现词语搭配错误时,确定连续两个组合中共有的分词,将共有的分词作为疑似错误分词。
可选地,依据匹配结果确定待检测文本中是否存在词语搭配错误之后,方法还包括:在待检测文本中存在词语搭配错误时,依据多个组合中存在词语搭配错误的组合生成检测报告,并输出检测报告;或者,在待检测文本中突出显示多个组合中存在词语搭配错误的组合。
根据本申请实施例的另一个方面,提供了一种文本错误的检测装置,包括:获取模块,用于获取待检测文本;分词模块,用于对待检测文本进行分词处理,得到多个分词;组合模块,用于将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;匹配模块,用于对多个组合中的每个组合与预设词库中的组合词进行匹配;确定模块,用于依据匹配结果确定待检测文本中是否存在词语搭配错误。
根据本申请实施例的一个方面,提供了一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如上所述的接口变化的检测方法。
根据本申请实施例的再一个方面,提供了一种处理器,该处理器用于运行存储在存储介质中的程序,其中,程序运行时执行以上所述的文本错误的检测方法。
根据本申请实施例的又一个方面,提供了一种非易失性存储介质,该非易失性存储介质用于程序,其中,程序运行时控制存储介质所在设备执行以上所述的文本错误的检测方法。
在本申请实施例中,对待检测文本进行分词,并将分词进行组合后,得到多个组合,对每个组合与预设词库中的组合词进行匹配,依据匹配结果确定是否存在词语搭配错误,由于对文本进行分词后,对其进行了组合处理,并对组合进行了匹配验证,因此,可以实现对词语搭配错误的检测,进而解决了相关技术中无法检测词语搭配错误的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种文本错误的检测方法的流程示意图;
图2是根据本申请实施例的一种文本错误的检测装置的结构示意图。
图3是根据本申请实施例的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解本申请实施例,以下将本申请实施例中涉及的术语简述如下:
分词:对连续的字序列按照一定的规范重新组合成词序列的过程。其是自然语言识别领域中常用的一种手段。
根据本申请实施例,提供了一种文本错误的检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种文本错误的检测方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取待检测文本;
待检测文本的获取方式有多种,例如,从网页中爬取的文本,或者,用户输入的文本,或者,用户从本地上述的文本。
步骤S104,对待检测文本进行分词处理,得到多个分词;
其中,分词处理的方式有多种,例如,可以采用基于词表的分词算法(例如正向最大匹配算法FMM,双向最大匹配算法BM);采用基于统计模型的分词算法(基于N-gram语言模型的分词算法);基于序列标注的分词算法(例如,基于HMM的分词算法,基于深度学习的端到端的分词算法)
步骤S106,将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;
在本申请的一些实施例中,在对上述多个分词进行组合时,可以采用两两组合的方式,也可以采用三个分词组合的方式,具体根据词库中的词条情况灵活确定,例如,词库中的词条是两个分词的组合分词时,则采用两两组合的方式;在词库中的词条是三个分词的组合分词时,则采用三个分词组合成一个组合分词的方式进行组合。在本申请的一些实施例中,将多个分词按照每个分词在待检测文本中的位置进行两两组合,其中,每个组合是位置相邻的两个分词。
在本申请的另一些实施例中,可以采用词语搭配错误检测结果检测出线错误字的词语,例如,在多个组合中相邻的连续两个组合均出现词语搭配错误时,确定连续两个组合中共有的分词,将共有的分词作为疑似错误分词。例如,“狡猾的护理被猎人抓住了”,分词结果:“狡猾”,“护理”,“猎人”,“抓住”,如果“狡猾护理”和“护理猎人”两个分词组合均检测出词语搭配错误,此时两个组合中共有的分词“护理”则可以确定为疑似错别字,然后采用相关技术中错别字的检测方式进一步进行检测。
步骤S108,对多个组合中的每个组合与预设词库中的组合词进行匹配;
步骤S110,依据匹配结果确定待检测文本中是否存在词语搭配错误。
需要说明的是,步骤S102-110的执行主体可以为计算机设备,该计算机设备包括存储介质和处理器,该存储介质中包括用于执行步骤S102-S110的程序指令。
具体地:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
在一些场景下,在数量比较少的分词进行组合后得到的分词组合,有可能会被误判为存在词语搭配错误,但是如果在分词组合中增加分词的话,可以减少误判情况的发生。在本申请的一些实施例中,为减少错误检测结果出现的概率,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定与每个组合相邻的分词,并将与每个组合相邻的分词与每个组合进行重新组合,得到目标组合;判断目标组合是否存在词语搭配错误。
如果无限制地在分词组合中增加分词,这无疑会降低检测效率,因此,在本申请的一些可选的实施例中,在确定与每个组合相邻的分词之前,确定每个组合中分词的数量;在数量大于预设阈值时,拒绝确定与每个组合相邻的分词;在数量小于预设阈值时,允许确定与每个组合相邻的分词。即限定了组合中的分词数量,这样,既兼顾了效率,又兼顾了准确率。
在本申请的一些实施例中,对于多个组合中的每个组合,在预设词库中不存在与每个组合音标相同的组合词时,且不存在与每个组合中的文字相同的组合词时,将每个组合作为疑似错误搭配词语。
为便于理解,以下结合一个实例详细说明,具体地:
对需要检测的文本进行分词。比如这句话“狡猾的护理被猎人抓住了”,分词结果:“狡猾”,“护理”,“猎人”,“抓住”。(StopWords:的,被,了)
第二步,依次对分词结果按顺序两两组合检查分库中是否包含,这里有三种情况:
a)拼音相同,汉字也相同
b)拼音相同,汉字不同
c)词库中不包含
这里只对第二种情况,即b),算作是“词语搭配错误”;第一种情况是正确的词语搭配,第三种情况可能是错误的词语搭配,但更可能不是词语搭配,或者没有收录的词语搭配,即对于第三种情况可以认为其属于疑似词语搭配错误。
按照这种策略,上述例句中,“狡猾”和“护理”的组合,会被判定为“词语搭配错误”。
在本申请的一些实施例中,预设词库中的词条(为词库中的基本单位)通过以下方式确定:从预设文本库中选择目标语句;对语句进行分词处理,并将得到的分词进行组合,得到样本组合分词;去掉样本组合分词中的助词或副词,得到初始词条,并建立初始词条和初始词条中文字的音标信息的关联;将初始词条和音标信息作为词库中的一个词条。其中,上述预设文本库包括具有权威认证的数据源。
以下结合一个具体实例说明词库的建立过程:
词库建立的需要选择词典,权威的书籍,报刊等能够保证不存在别字和错误词语搭配情况的数据源。
在确定数据源后,对数据源中的语句进行分词。比如这句话”我早上去上学”,就分为”我”,“早上”,“去”,“上学”5个词。
然后,获取每个单词的词性,也就是需要确定单词是动词,名词,形容词或者其他词性。关于单词的词性,可以从《新华词典》等词典中获取,互联网上也有一些开源或者收费的词典。
其中,词语搭配一般分为下面几种:
名词性短语(形容词+名词):狡猾的狐狸
动词性短语(动词+名词):指挥交通
形容词性短语(名词+形容词):葡萄很甜
将这种“形容词+名词”,“动词+名词”,“名词+形容词”搭配的数据添加到词典中。
上面的例子中,还包含一些助词或副词,比如“的”,“很”,可以将其当作StopWords,在分析中忽略掉,或者只将上述助词或副词去掉。上面的例句组成的词库就是:狡猾狐狸,指挥交通,葡萄甜。
需要说明的是,词库的中词条的组成,还需添加上拼音。这是因为“词语搭配错误”的主要情况就是选择了错误的同音词。那么词库中的词条的表现形式为
jiao hua hu li,狡猾狐狸
zhi hui jiao tong,指挥交通
pu tao tian,葡萄甜
本申请实施例提供的上述方案,由于对文本进行分词后,对其进行了组合处理,并对组合进行了匹配验证,因此,可以实现对词语搭配错误的检测,进而解决了相关技术中无法检测词语搭配错误的技术问题。
在依据匹配结果确定待检测文本中是否存在词语搭配错误之后,还可以依据检测结果进行以下处理:在待检测文本中存在词语搭配错误时,依据多个组合中存在词语搭配错误的组合生成检测报告,并输出检测报告;或者,在待检测文本中突出显示多个组合中存在词语搭配错误的组合。
图2是根据本申请实施例的一种文本错误的检测装置的结构示意图。如图2所示,该装置包括:
获取模块20,用于获取待检测文本;
分词模块22,用于对待检测文本进行分词处理,得到多个分词;
组合模块24,用于将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;
匹配模块26,用于对多个组合中的每个组合与预设词库中的组合词进行匹配;
确定模块28,用于依据匹配结果确定待检测文本中是否存在词语搭配错误。
在本申请的一些实施例中,确定模块28,还用于在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
上述确定模块28,还用于在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定与每个组合相邻的分词,并将与每个组合相邻的分词与每个组合进行重新组合,得到目标组合;判断目标组合是否存在词语搭配错误。其中,在确定与每个组合相邻的分词之前,还可以确定每个组合中分词的数量;在数量大于预设阈值时,拒绝确定与每个组合相邻的分词;在数量小于预设阈值时,允许确定与每个组合相邻的分词。
需要说明的是,上述各个模块可以作为程序模块存储于同一个存储器中,该存储器与处理器连接,处理器用于运行存储器中的程序。
还需要说明的是,图2所示实施例的优选实施方式,可以参见图1所示实施例的相关描述,此处不再赘述。
接口变化的检测装置包括处理器和存储器,上述获取单元、分词单元、组合单元、匹配单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决了相关技术中无法检测词语搭配错误的技术问题。
本申请实施例还提供了一种处理器,该处理器用于运行存储在存储介质中的程序,其中,程序运行时执行以上所述的文本错误的检测方法。
处理器,用于执行实现以下功能的程序指令:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。
可选地,处理器,还用于执行实现以下功能的程序指令:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
本申请实施例还提供了一种非易失性存储介质,该非易失性存储介质用于程序,其中,程序运行时控制存储介质所在设备执行以上所述的文本错误的检测方法。
其中,存储介质,用于存储执行以下功能的指令:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误
可选地,存储器,还用于存储执行实现以下功能的程序指令:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
根据本申请实施例的一个方面,提供了一种电子设备30,如图3所示,设备包括至少一个处理器301、以及与处理器连接的至少一个存储器302、总线303;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行以上所述的文本错误的检测方法。例如,执行如图1所示的文本错误的检测方法,具体地:
上述处理器用于调用存储器中的程序指令,以执行以上实现以下功能的程序指令:对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。
本文中的电子设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。
可选地,当在数据处理设备上执行时,还用于执行如下方法步骤的程序:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。确定每个组合中分词的数量;在数量大于预设阈值时,拒绝确定与每个组合相邻的分词;在数量小于预设阈值时,允许确定与每个组合相邻的分词。从预设文本库中选择目标语句;对语句进行分词处理,并将得到的分词进行组合,得到样本组合分词;去掉样本组合分词中的助词或副词,得到初始词条,并建立初始词条和初始词条中文字的音标信息的关联;将初始词条和音标信息作为词库中的一个词条。将多个分词按照每个分词在待检测文本中的位置进行两两组合,其中,每个组合是位置相邻的两个分词。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本错误的检测方法,其特征在于,包括:
获取待检测文本;
对所述待检测文本进行分词处理,得到多个分词;
将所述多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;
对所述多个组合中的每个组合与预设词库中的组合词进行匹配;
依据匹配结果确定所述待检测文本中是否存在词语搭配错误。
2.根据权利要求1所述的方法,其特征在于,依据匹配结果确定所述待检测文本中是否存在词语搭配错误,包括:
在所述预设词库中存在与所述多个组合均匹配的组合词时,确定所述待检测文本不存在词语搭配错误;
在所述多个组合中的至少一个组合在所述预设词库中不存在匹配的组合词时,确定所述至少一个组合与所述预设词库中的组合词的音标是否相同,在音标相同,且音标相同的所述每个组合和对应的组合词的文字不同时,确定所述待检测文本中存在所述词语搭配错误。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对于所述多个组合中的每个组合,在所述预设词库中不存在与所述每个组合音标相同的组合词时,且不存在与所述每个组合中的文字相同的组合词时,将所述每个组合作为疑似错误搭配词语。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在音标相同,且音标相同的所述每个组合和对应的组合词的文字不同时,确定与所述每个组合相邻的分词,并将与所述每个组合相邻的分词与所述每个组合进行重新组合,得到目标组合;判断所述目标组合是否存在词语搭配错误。
5.根据权利要求4所述的方法,其特征在于,确定与所述每个组合相邻的分词之前,所述方法还包括:
确定所述每个组合中分词的数量;
在所述数量大于预设阈值时,拒绝确定与所述每个组合相邻的分词;在所述数量小于所述预设阈值时,允许确定与所述每个组合相邻的分词。
6.根据权利要求1所述的方法,其特征在于,所述预设词库中的词条通过以下方式确定:
从预设文本库中选择目标语句;
对所述语句进行分词处理,并将得到的分词进行组合,得到样本组合分词;
去掉所述样本组合分词中的助词或副词,得到初始词条,并建立所述初始词条和所述初始词条中文字的音标信息的关联;
将所述初始词条和所述音标信息作为所述词库中的一个词条。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,将所述多个分词按照顺序进行组合,得到多个组合,包括:
将所述多个分词按照每个分词在所述待检测文本中的位置进行两两组合,其中,每个组合是位置相邻的两个分词。
8.根据权利要求1至6中任意一项所述的方法,其特征在于,依据匹配结果确定所述待检测文本中是否存在词语搭配错误之后,所述方法还包括:
在所述待检测文本中存在词语搭配错误时,依据所述多个组合中存在词语搭配错误的组合生成检测报告,并输出所述检测报告;或者,
在所述待检测文本中突出显示所述多个组合中存在词语搭配错误的组合。
9.一种文本错误的检测装置,其特征在于,包括:
获取模块,用于获取待检测文本;
分词模块,用于对所述待检测文本进行分词处理,得到多个分词;
组合模块,用于将所述多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;
匹配模块,用于对所述多个组合中的每个组合与预设词库中的组合词进行匹配;
确定模块,用于依据匹配结果确定所述待检测文本中是否存在词语搭配错误。
10.一种电子设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至8中任意一项所述的文本错误的检测方法。
CN201910937037.XA 2019-09-29 2019-09-29 文本错误的检测方法及装置 Pending CN112668311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910937037.XA CN112668311A (zh) 2019-09-29 2019-09-29 文本错误的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910937037.XA CN112668311A (zh) 2019-09-29 2019-09-29 文本错误的检测方法及装置

Publications (1)

Publication Number Publication Date
CN112668311A true CN112668311A (zh) 2021-04-16

Family

ID=75399669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910937037.XA Pending CN112668311A (zh) 2019-09-29 2019-09-29 文本错误的检测方法及装置

Country Status (1)

Country Link
CN (1) CN112668311A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673238A (zh) * 2021-10-25 2021-11-19 杭州费尔斯通科技有限公司 基于上位词的分词修正方法、系统、电子装置和存储介质
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113763949A (zh) * 2021-07-22 2021-12-07 南方电网深圳数字电网研究院有限公司 语音识别修正方法、电子设备及计算机可读存储介质
CN115859975A (zh) * 2023-02-07 2023-03-28 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN118013958A (zh) * 2024-04-08 2024-05-10 江苏网进科技股份有限公司 一种文本中搭配的纠错方法、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106708799A (zh) * 2016-11-09 2017-05-24 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
US20180341640A1 (en) * 2017-05-25 2018-11-29 Baidu Online Network Technology (Beijing) Co., Ltd. Amendment Source-Positioning Method and Apparatus, Computer Device and Readable Medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106708799A (zh) * 2016-11-09 2017-05-24 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
US20180341640A1 (en) * 2017-05-25 2018-11-29 Baidu Online Network Technology (Beijing) Co., Ltd. Amendment Source-Positioning Method and Apparatus, Computer Device and Readable Medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐梦瑶: "网商用户评论中错别字自动检测与纠正的研究及实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 03, pages 138 - 6312 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763949A (zh) * 2021-07-22 2021-12-07 南方电网深圳数字电网研究院有限公司 语音识别修正方法、电子设备及计算机可读存储介质
CN113763949B (zh) * 2021-07-22 2024-05-14 南方电网数字平台科技(广东)有限公司 语音识别修正方法、电子设备及计算机可读存储介质
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113673238A (zh) * 2021-10-25 2021-11-19 杭州费尔斯通科技有限公司 基于上位词的分词修正方法、系统、电子装置和存储介质
CN113673238B (zh) * 2021-10-25 2022-05-06 杭州费尔斯通科技有限公司 基于上位词的分词修正方法、系统、电子装置和存储介质
CN115859975A (zh) * 2023-02-07 2023-03-28 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN118013958A (zh) * 2024-04-08 2024-05-10 江苏网进科技股份有限公司 一种文本中搭配的纠错方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN112668311A (zh) 文本错误的检测方法及装置
US10157177B2 (en) System and method for extracting entities in electronic documents
Hirst et al. Bigrams of syntactic labels for authorship discrimination of short texts
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
US20090024385A1 (en) Semantic parser
US10713438B2 (en) Determining off-topic questions in a question answering system using probabilistic language models
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN109753661B (zh) 一种机器阅读理解方法、装置、设备及存储介质
US20210124976A1 (en) Apparatus and method for calculating similarity of images
Rozovskaya et al. Correcting grammatical verb errors
Swanson et al. Extracting the native language signal for second language acquisition
CN103038762A (zh) 自然语言处理装置、方法、以及程序
CN112148862A (zh) 一种问题意图识别方法、装置、存储介质及电子设备
EP4152202A1 (en) Sentence extraction device and sentence extraction method
Islam et al. Correcting different types of errors in texts
Kaur et al. Spell Checking and Error Correcting System for text paragraphs written in Punjabi Language using Hybrid approach
CN110321557A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN109614624A (zh) 一种英文语句的识别方法及电子设备
CN108564086A (zh) 一种字符串的识别校验方法及装置
CN106815191B (zh) 修正词的确定方法和装置
Hladek et al. Unsupervised spelling correction for Slovak
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
Goyal et al. Forward-backward transliteration of punjabi gurmukhi script using n-gram language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination