CN110781665B - 纠错对的质量评估方法、装置、设备及存储介质 - Google Patents

纠错对的质量评估方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110781665B
CN110781665B CN201911039234.6A CN201911039234A CN110781665B CN 110781665 B CN110781665 B CN 110781665B CN 201911039234 A CN201911039234 A CN 201911039234A CN 110781665 B CN110781665 B CN 110781665B
Authority
CN
China
Prior art keywords
participle
mutual information
reference corpus
information value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911039234.6A
Other languages
English (en)
Other versions
CN110781665A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911039234.6A priority Critical patent/CN110781665B/zh
Publication of CN110781665A publication Critical patent/CN110781665A/zh
Application granted granted Critical
Publication of CN110781665B publication Critical patent/CN110781665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种纠错对的质量评估方法、装置、设备及存储介质,属于信息处理领域。方法包括:获取待评估的纠错对,纠错对包括第一字符串和第二字符串;确定第一字符串的第一部分和第二部分,以及第二字符串的第三部分和第四部分,第一部分与第三部分相同,第二部分与第四部分不同;根据参考语料,确定第一部分与第二部分之间的互信息值,以及第三部分与第四部分之间的互信息值,得到第一互信息值和第二互信息值;根据第一互信息值和第二互信息值,对纠错对进行质量评估。本申请可以实现对纠错对的自动化质量评估,减少对人力资源的消耗,提高质量评估的效率和准确度。

Description

纠错对的质量评估方法、装置、设备及存储介质
技术领域
本申请涉及信息处理领域,特别涉及一种纠错对的质量评估方法、装置、设备及存储介质。
背景技术
用户在使用搜索引擎进行搜索时,可能会因认知或打字失误等原因导致输入包含错误字符的第一字符串。为了提高搜索准确性,搜索系统可以先根据多个纠错对,对第一字符串进行识别,并将其纠正为正确的字符串,即第二字符串,再将第二字符串发往搜索引擎进行搜索。
为了便于对第一字符串进行纠错,往往需要大量人员预先对纠错语料包括的多个第一字符串进行人工纠错和标注,得到大量纠错对,每个纠错对包括一个第一字符串和对应的一个第二字符串。但是由于纠错语料包括的第一字符串的数量巨大,不少第一字符串不一定属于标注人员擅长的领域,因此,还需要对人工标注得到的纠错对进行质量评估。
相关技术中,在通过人工标注得到大量纠错对之后,通常采用多层人工审核和人工交叉审核的方式,来对纠错对进行人工质量评估,以评估纠错对是否符合质量要求。但是人工质量评估的方式将耗费大量人力资源,评估效率较低,且评估准确性容易受到人为因素的影响。
发明内容
本申请实施例提供了一种纠错对的质量评估方法、装置、设备及存储介质,可以用于解决相关技术中存在的通过人工方式进行质量评估会耗费大量人力资源,评估效率较低,且评估准确性容易受到人为因素影响的问题。所述技术方案如下:
一方面,提供了一种纠错对的质量评估方法,所述方法包括:
获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
根据所述第一互信息值和所述第二互信息值,对所述纠错对进行质量评估。
另一方面,提供了一种纠错对的质量评估装置,所述装置包括:
获取模块,用于获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
第一确定模块,用于确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
第二确定模块,用于根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
第三确定模块,用于根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
评估模块,用于根据所述第一互信息值和所述第二互信息值,对所述纠错对进行质量评估。
另一方面,提供了一种电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以上述纠错对的质量评估方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述纠错对的质量评估方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例中,通过确定纠错对中第一字符串与第二字符串的相同部分和不同部分,然后确定每个字符串中相同部分和不同部分在参考语料中的互信息值,并根据两者的互信息值来对纠错对进行质量评估,可以实现对纠错对的自动化质量评估,减少对人力资源的消耗,提高质量评估的效率。而且,由于每个字符串对应的互信息值用于指示每个字符串中相同部分和不同部分在参考语料中的关联程度,关联程度越高,说明字符串的准确率越高,通过将纠错前的第一字符串与纠错后的第二字符串对应的互信息值进行比较,可以准确得到第二字符串的纠错效果,并根据纠错效果来对纠错对进行质量评估,如此,可以提高评估准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种纠错对的质量评估方法的流程图;
图2是本申请实施例提供的另一种纠错对的质量评估方法的流程图;
图3是本申请实施例提供的一种纠错对的质量评估装置的框图;
图4是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例的应用场景予以说明。
目前,为了构建搜索系统的查询纠错模块,往往需要通过雇佣很多编辑人员,甚至采取众包的方式来预先对潜在的包括错误词的错误查询字符串(即第一字符串)进行人工纠错和标注,但是,由于纠错语料的数据量巨大,且不少纠错语料不一定属于标注人员擅长的领域,因此可能会导致人工标注的纠错对的不符合质量要求。而且,由于查询字符串本身是否需要纠正也具有一定的模糊性,这也导致了人工很难判断纠错对是否符合质量要求,比如是否需要将“一株小草”纠正为“一棵小草”很难判断。
本申请实施例中,为了减少人力资源的消耗,以及提高对纠错对进行质量评估的评估效率和准确性,提出了一种能够对纠错对进行自动化质量评估的方法,可以应用于对人工标注得到的大量纠错对进行质检的场景中。比如,在人工标注得到大量纠错对之后,可以按照本申请实施例提供的方法对每个纠错对进行质量评估,并从中筛除不满足质量要求的纠错对,以实现对人工标注的纠错对的自动化质检。
图1是本申请实施例提供的一种纠错对的质量评估方法的流程图,该方法用于终端或服务器等电子设备中,该终端可以为手机、平板电脑或计算机等。
参见图1,该方法包括:
步骤101:获取待评估的纠错对,该纠错对包括第一字符串和第二字符串,第二字符串是对第一字符串进行字符校正得到。
其中,第一字符串和第二字符串可以包括一个或多个分词。比如,第一字符串包括错误分词,第二字符串是将第一字符串中的错误分词纠正为正确分词之后得到字符串。比如,第一字符串为“拨萝卜儿歌”,第二字符串为“拔萝卜儿歌”,第二字符串将第一字符串中的错误分词“拨”校正为了正确的“拔”。
作为一个示例,第一字符串为包括错误分词的错误查询语句,第二字符串为对错误查询语句进行字符校正得到的正确查询语句。
需要说明的是,该纠错对可以由人工标注得到,比如,由人工对语料中包括错误字符的第一字符串进行识别,并将第一字符串中的错误字符纠正为正确字符,得到第二字符串。当然,该纠错对也可以由机器自动标注得到,本申请实施例对此不做限定。
步骤102:确定第一字符串的第一部分和第二部分,以及第二字符串的第三部分和第四部分,第一部分与第三部分相同,第二部分与第四部分不同。
也即是,确定第一字符串和第二字符串的相同部分和不同部分。
比如,假设第一字符串和第二字符串分别为:
第一字符串:优质团对
第二字符串:优质团队
则第一字符串和第二字符串的相同部分为“优质”,不同部分为“团对”和“团队”。即第一字符串的第一部分为“优质”,第二部分为“团对”;第二字符串的第三部分为“优质”,第四部分为“团队”。
作为一个示例,可以将第一字符串和第二字符串的不同部分,即第二部分和第四部分分别表示为diff1和diff2,将第一字符串和第二字符串的相同部分,即第一部分和第三部分均表示为no_diff。
作为一个示例,可以先对第一字符串进行分词,得到第一分词结果,以及对第二字符串进行分词,得到第二分词结果,第一分词结果和第二分词结果均包括至少一个分词。然后,将第一分词结果和第二分词结果进行比较,将第一分词结果和第二分词结果中相同的分词确定为相同部分,将不同的分词确定为不同部分。比如,将第一字符串中与第二字符串存在相同的分词的部分作为第一部分,其余部分作为第二部分;将第二字符串中与第一字符串存在相同的分词的部分作为第三部分,其余部分作为第四部分。
步骤103:根据参考语料,分别确定第一部分与第二部分之间的互信息值,以及第三部分与第四部分之间的互信息值,得到第一互信息值和第二互信值。
本申请实施例中,可以通过计算学习第一字符串和第二字符串中相同部分和不同部分在大量文本中的互信息值,根据这两种不同互信息值之间的差值来评估纠错对是否符合质量要求。
其中,该参考语料为预先设置的包括大量文本的语料,示例的,参考语料为分词和语法表达较为准确的、具有公信力的语料。比如,该参考语料为新闻文章标题、公众号文章标题或搜索引擎的搜索日志等,当然,该参考语料也可以设置为其他语料,本申请实施例对此不做限定。
其中,第一互信息值用于指示第一部分和第二部分在参考语料中的关联程度,第二互信息值用于指示第三部分和第四部分在参考语料中的关联程度。也即是,每个字符串对应的互信息值用于衡量每个字符串中的相同部分和不同部分之间的关联程度,互信息值越高,关联程度越高,该字符串的为正确字符串的可能性越高。作为一个示例,该互信息值可以为PMI(Pointwise Mutual Information,点互信息)值。
作为一个示例,可以根据参考语料,确定第一部分与第二部分之间的互信息值,得到第一互信息值;根据参考语料,确定第三部分与第四部分之间的互信息值,得到第二互信息值。
在一种可能的实现方式中,第一字符串中的第一部分和第二部分均包括至少一个分词,根据参考语料,确定第一部分与第二部分之间的互信息值的过程可以包括:先根据参考语料,确定第一部分中的各个分词与第二部分中的各个分词之间的互信息值,然后将第一部分中的各个分词与第二部分中的各个分词之间的互信息值进行相加,得到第一部分与第二部分之间的互信息值。
同理,第二字符串中的第三部分和第四部分均包括至少一个分词,根据参考语料,确定第三部分与第四部分之间的互信息值的过程可以包括:先根据参考语料,确定第三部分中的各个分词与第四部分中的各个分词之间的互信息值,然后将第三部分中的各个分词与第四部分中的各个分词之间的互信息值进行相加,得到第三部分与第四部分之间的互信息值。
作为一个示例,可以通过以下公式(1)确定第一互信息值和第二互信值:
Figure GDA0004090684190000061
其中,score1为第一互信息值,score2为第二互信息值,n1为第一部分/第三部分包括的分词数目,n2为第二部分包括的分词数目,n3为第四部分包括的分词数目,diff1j为第二部分包括的任一分词,no_diffi为第一部分/第三部分包括的任一分词,diff2j为第四部分包括的任一分词,pmi(diff1j,no_diffi)为diff1j与no_diffi之间的信息值,pmi(diff2j,no_diffi)为diff2j与no_diffi之间的信息值。
作为一个示例,根据参考语料,确定第一部分中的各个分词与第二部分中的各个分词之间的互信息值的操作包括以下步骤1)-2):
1)对于第一部分中的第一分词和第二部分中的第二分词,确定第一分词和第二分词分别在参考语料中出现的次数,以及第一分词和第二分词在参考语料中共现的次数;其中,第一分词为第一部分中的任一分词,第二分词为第二部分中的任一分词。
其中,第一分词和第二分词在参考语料中共现的次数可以根据预设窗口长度对参考语料中的第一分词和第二分词进行统计得到,该预设窗口长度可以预先设置,比如可以设置为5。
作为一个示例,第一分词和第二分词在参考语料中共现的次数可以根据第一分词和第二分词在参考语料的预设窗口长度的字符串中同时出现的次数确定得到。该共现的次数可以为第一分词和第二分词在参考语料的预设窗口长度的字符串中同时出现的次数,也可以为第一分词和第二分词在参考语料的预设窗口长度的字符串中同时出现的次数与预设参数之间的比值。
作为一个示例,可以按照预设窗口长度,对参考语料进行遍历,根据遍历到的所有预设窗口长度的字符串中同时出现第一分词和第二分词的次数,确定第一分词和第二分词在该参考语料中共现的次数。
在一种可能的实现方式中,若遍历到的每个预设窗口长度的字符串中同时出现第一分词和第二分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现第一分词和第二分词的次数,确定为第一分词和第二分词在参考语料中共现的次数。
在另一种可能的实现方式中,若遍历到的任一预设窗口长度的字符串中同时出现第一分词和第二分词的次数大于1,或遍历到的预设数目个预设窗口长度的字符串中同时出现第一分词和第二分词的次数大于1,则将遍历到的所有预设窗口长度的字符串中同时出现第一分词和第二分词的次数与预设参数的比值,确定为该第一分词和该第二分词在该参考语料中共现的次数。
其中,该预设参数可以根据预设窗口长度设置,比如为预设窗口长度与指定值的差值,该指定值可以为1、2或3等。比如,假设预设窗口长度为5,预设窗口长度用w表示,则预设参数可以为w-1。
本申请实施例中,当预设窗口长度的字符串中同时出现第一分词和第二分词的次数大于1时,为了保证第一分词和第二分词的共现的次数不大于第一分词和第二分词中任一分词出现的次数,可以对遍历到的所有预设窗口长度的字符串中同时出现第一分词和第二分词的次数进行标准化处理,得到共现的次数。
作为一个举例,假设第一分词为set,第二分词为from,则set和from共现的次数可以表示为Co(set,from)表示,假设预设窗口长度w为5,那么如果有这么个句子“we setfrom xx from xx in chinese”,从set开始(包括set)长度为5的窗口里的单词为“setfrom xx from xx”(5个单词),那么Co(set,from)=2,因为“set from xx from xx”中set和from同时出现了两次。由于它们在一个窗口里面的共现在次数超过1,也就是Co(set,from)>1,因此需要做标准化处理,比如,可以令Co(set,from)=Co(set,from)/(w-1),如此可以保证Co(set,from)<=Co(set)。
2)根据第一分词和第二分词分别在参考语料中出现的次数,以及第一分词和第二分词在参考语料中共现的次数,确定第一分词与第二分词之间的互信息值。
作为一个示例,可以确定第一分词在参考语料中出现的次数,第二分词在参考语料中出现的次数,以及第一分词和第二分词在参考语料中共现的次数分别与参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;然后根据第一比值、该第二比值和第三比值,确定第一分词与第二分词之间的互信息值。
示例的,可以通过以下公式(2)确定第一分词与第二分词之间互信息值:
Figure GDA0004090684190000081
其中,x,y分别为第一分词和第二分词,pmi(x,y)为第一分词与第二分词之间互信息值,p(x,y)为第三比值,p(x)和p(y)分别为第一比值和第二比值。
其中,假设参考语料表示为Docs,参考语料包括的分词总数为N,则
p(x)=x在Docs中出现的次数/N;
p(y)=y在Docs中出现的次数/N;
p(x)p(y)=x,y在Docs中共现的次数/N。
需要说明的是,根据参考语料,确定第三部分与第四部分之间的互信息值,得到第二互信息值的方式,与上述根据参考语料,确定第一部分与第二部分之间的互信息值,得到第一互信息值的方式同理,具体实现方式可以参考上述根据参考语料,确定第一部分与第二部分之间的互信息值,得到第一互信息值的相关描述,本申请实施例在此不再赘述。
比如,第三部分和第四部分均包括至少一个分词,相应地,根据参考语料,确定第三部分与第四部分之间的互信息的过程包括:根据参考语料,确定第三部分中的各个分词与第四部分中的各个分词之间的互信息值;将第三部分中的各个分词与第四部分中的各个分词之间的互信息值进行相加,得到第三部分与第四部分之间的互信息值。
作为一个示例,根据参考语料,确定第三部分中的各个分词与第四部分中的各个分词之间的互信息值的操作包括:对于第三部分中的第三分词和第四部分中的第四分词,确定第三分词和第四分词分别在参考语料中出现的次数,以及第三分词和第四分词在参考语料中共现的次数,第三分词为第三部分中的任一分词,第四分词为第四部分中的任一分词;根据第三分词和第四分词分别在参考语料中出现的次数,以及第三分词和第四分词在参考语料中共现的次数,确定第三分词与第四分词之间的互信息值。
其中,第三分词和第四分词在参考语料中共现的次数可以根据第三分词和第四分词在参考语料的预设窗口长度的字符串中同时出现的次数确定得到。该共现的次数可以为第三分词和第四分词在参考语料的预设窗口长度的字符串中同时出现的次数,也可以为第三分词和第四分词在参考语料的预设窗口长度的字符串中同时出现的次数与预设参数之间的比值。
作为一个示例,确定第三分词和第四分词在参考语料中共现的次数的操作包括:按照预设窗口长度,对参考语料进行遍历;若遍历到的每个预设窗口长度的字符串中同时出现第三分词和第四分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现第三分词和第四分词的次数,确定为第三分词和第四分词在参考语料中共现的次数。
作为一个示例,根据第三分词和第四分词分别在参考语料中出现的次数,以及第三分词和第四分词在参考语料中共现的次数,确定第三分词与第四分词之间的互信息值的操作包括:确定第三分词在参考语料中出现的次数,第四分词在参考语料中出现的次数,以及第三分词和第四分词在参考语料中共现的次数分别与参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;根据第一比值、第二比值和第三比值,确定第三分词与第四分词之间的互信息值。
请参考下述表1,表1示出了两个纠错对的第一互信息值和第二互信值:
表1
第一字符串 第二字符串 第一互信息值 第二互信息值
拨萝卜儿歌 拔萝卜儿歌 3.1541 7.22862
优质团对 优质团队 0 1.36559
步骤104:根据第一互信息值和第二互信息值,对纠错对进行质量评估。
作为一个示例,可以确定第一互信息值与第二互信息值之间的差值;若该差值的绝对值大于预设阈值,则确定该纠错对符合质量要求,即通过质检;若该差值的绝对值小于或等于该预设阈值,则确定该纠错对不符合质量要求,即未通过质检。其中,该预设阈值可以预先设置,比如,该预设阈值为0.4、0.5或0.6等。比如,请参考图2,可以按照图2所示的方式对纠错对进行质量评估。
作为一个示例,可以获取人工标注得到的多个纠错对,然后按照步骤101-104的方式对这多个纠错对中的每个纠错对进行质检,并筛除不符合质量要求的纠错对。
作为一个示例,可以获取人工标注得到的多个纠错对,且每个纠错对具有一个标签,每个纠错对的标签的初始值为1,表示该纠错对为正例。之后,可以按照上述步骤101-104的方式对这多个纠错对中的每个纠错对进行质检,若质检后确定某个纠错对不符合质量要求,则将该纠错对对应标签的标签值从1修改为0,即将标签值从正例修改为负例。
请参考下表2,可以将第一互信息值与第二互信息值之间的差值的绝对值小于0.5或等于0.5的纠错对的标签(label)的标签值从1修改为0。
表2
Figure GDA0004090684190000101
本申请实施例中,通过确定纠错对中第一字符串与第二字符串的相同部分和不同部分,然后确定每个字符串中相同部分和不同部分在参考语料中的互信息值,并根据两者的互信息值来对纠错对进行质量评估,可以实现对纠错对的自动化质量评估,减少对人力资源的消耗,提高质量评估的效率。而且,由于每个字符串对应的互信息值用于指示每个字符串中相同部分和不同部分在参考语料中的关联程度,关联程度越高,说明字符串的准确率越高,通过将纠错前的第一字符串与纠错后的第二字符串对应的互信息值进行比较,可以准确得到第二字符串的纠错效果,并根据纠错效果来对纠错对进行质量评估,如此,可以提高评估准确性。
图3是本申请实施例提供的一种纠错对的质量评估装置的框图,该装置可以集成于终端或服务器等电子设备,参见图3,该装置包括获取模块301、第一确定模块302、第二确定模块303、第三确定模块304和评估模块305。
获取模块301,用于获取待评估的纠错对,该纠错对包括第一字符串和第二字符串,该第二字符串是对该第一字符串进行字符校正得到;
第一确定模块302,用于确定该第一字符串的第一部分和第二部分,以及该第二字符串的第三部分和第四部分,该第一部分与该第三部分相同,该第二部分与该第四部分不同;
第二确定模块303,用于根据参考语料,确定该第一部分与该第二部分之间的互信息值,得到第一互信息值,该第一互信息值用于指示该第一部分和该第二部分在该参考语料中的关联程度;
第三确定模块304,用于根据该参考语料,确定该第三部分与该第四部分之间的互信息值,得到第二互信息值,该第二互信息值用于指示该第三部分和该第四部分在该参考语料中的关联程度;
评估模块305,用于根据该第一互信息值和该第二互信息值,对该纠错对进行质量评估。
可选地,该第一部分和该第二部分均包括至少一个分词;
该第二确定模块303用于:
根据该参考语料,确定该第一部分中的各个分词与该第二部分中的各个分词之间的互信息值;
将该第一部分中的各个分词与该第二部分中的各个分词之间的互信息值进行相加,得到该第一部分与该第二部分之间的互信息值。
可选地,该第二确定模块303用于:
对于该第一部分中的第一分词和该第二部分中的第二分词,确定该第一分词和该第二分词分别在该参考语料中出现的次数,以及该第一分词和该第二分词在该参考语料中共现的次数,该第一分词为该第一部分中的任一分词,该第二分词为该第二部分中的任一分词;
根据该第一分词和该第二分词分别在该参考语料中出现的次数,以及该第一分词和该第二分词在该参考语料中共现的次数,确定该第一分词与该第二分词之间的互信息值。
可选地,该第二确定模块303用于:
按照预设窗口长度,对该参考语料进行遍历;
若遍历到的每个预设窗口长度的字符串中同时出现该第一分词和该第二分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现该第一分词和该第二分词的次数,确定为该第一分词和该第二分词在该参考语料中共现的次数。
可选地,该第二确定模块303用于:
若遍历到的任一预设窗口长度的字符串中同时出现该第一分词和该第二分词的次数大于1,则将遍历到的所有预设窗口长度的字符串中同时出现该第一分词和该第二分词的次数与预设参数的比值,确定为该第一分词和该第二分词在该参考语料中共现的次数。
可选地,该第二确定模块303用于:
确定该第一分词在该参考语料中出现的次数,该第二分词在该参考语料中出现的次数,以及该第一分词和该第二分词在该参考语料中共现的次数分别与该参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;
根据该第一比值、该第二比值和该第三比值,确定该第一分词与该第二分词之间的互信息值。
可选地,该评估模块305用于:
确定该第一互信息值与该第二互信息值之间的差值;
若该差值的绝对值大于预设阈值,则确定该纠错对符合质量要求。
本申请实施例中,通过确定纠错对中第一字符串与第二字符串的相同部分和不同部分,然后确定每个字符串中相同部分和不同部分在参考语料中的互信息值,并根据两者的互信息值来对纠错对进行质量评估,可以实现对纠错对的自动化质量评估,减少对人力资源的消耗,提高质量评估的效率。而且,由于每个字符串对应的互信息值用于指示每个字符串中相同部分和不同部分在参考语料中的关联程度,关联程度越高,说明字符串的准确率越高,通过将纠错前的第一字符串与纠错后的第二字符串对应的互信息值进行比较,可以准确得到第二字符串的纠错效果,并根据纠错效果来对纠错对进行质量评估,如此,可以提高评估准确性。
需要说明的是:上述实施例提供的纠错对的质量评估装置在对纠错对进行质量评估时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者片段功能。另外,上述实施例提供的纠错对的质量评估装置与纠错对的质量评估方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种电子设备400的结构框图。该电子设备400可以是手机、平板电脑、智能电视、多媒体播放设备、可穿戴设备、台式电脑、服务器等电子设备。该电子设备400可用于实施上述实施例中提供的纠错对的质量评估方法。
通常,电子设备400包括有:处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的纠错对的质量评估方法。
在一些实施例中,电子设备400还可选包括有:外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地,外围设备可以包括:显示屏404、音频电路405、通信接口406和电源407中的至少一种。
本领域技术人员可以理解,图3中示出的结构并不构成对电子设备400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性的实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述纠错对的质量评估方法。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述纠错对的质量评估方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或片段步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种纠错对的质量评估方法,其特征在于,所述方法包括:
获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估。
2.根据权利要求1所述的方法,其特征在于,所述第一部分和所述第二部分均包括至少一个分词;
所述根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,包括:
根据所述参考语料,确定所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值;
将所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值进行相加,得到所述第一部分与所述第二部分之间的互信息值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述参考语料,确定所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值,包括:
对于所述第一部分中的第一分词和所述第二部分中的第二分词,确定所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,所述第一分词为所述第一部分中的任一分词,所述第二分词为所述第二部分中的任一分词;
根据所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,确定所述第一分词与所述第二分词之间的互信息值。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第一分词和所述第二分词在所述参考语料中共现的次数,包括:
按照预设窗口长度,对所述参考语料进行遍历;
若遍历到的每个预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
5.根据权利要求4所述的方法,其特征在于,所述按照预设窗口长度,对所述参考语料进行遍历之后,还包括:
若遍历到的任一预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数与预设参数的比值,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,确定所述第一分词与所述第二分词之间的互信息值,包括:
确定所述第一分词在所述参考语料中出现的次数,所述第二分词在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数分别与所述参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;
根据所述第一比值、所述第二比值和所述第三比值,确定所述第一分词与所述第二分词之间的互信息值。
7.根据权利要求1-6任一所述的方法,其特征在于,所述根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估之前,还包括:
确定所述第一互信息值与所述第二互信息值之间的差值;
所述根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估,包括:
若所述差值的绝对值大于预设阈值,则确定所述纠错对符合质量要求。
8.一种纠错对的质量评估装置,其特征在于,所述装置包括:
获取模块,用于获取待评估的纠错对,所述纠错对包括第一字符串和第二字符串,所述第二字符串是对所述第一字符串进行字符校正得到;
第一确定模块,用于确定所述第一字符串的第一部分和第二部分,以及所述第二字符串的第三部分和第四部分,所述第一部分与所述第三部分相同,所述第二部分与所述第四部分不同;
第二确定模块,用于根据参考语料,确定所述第一部分与所述第二部分之间的互信息值,得到第一互信息值,所述第一互信息值用于指示所述第一部分和所述第二部分在所述参考语料中的关联程度;
第三确定模块,用于根据所述参考语料,确定所述第三部分与所述第四部分之间的互信息值,得到第二互信息值,所述第二互信息值用于指示所述第三部分和所述第四部分在所述参考语料中的关联程度;
评估模块,用于根据所述第一互信息值和所述第二互信息值之间的差值,对所述纠错对进行质量评估。
9.根据权利要求8所述的装置,其特征在于,所述第一部分和所述第二部分均包括至少一个分词;
所述第二确定模块包括:
第一确定子模块,用于根据所述参考语料,确定所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值;
第二确定子模块,用于将所述第一部分中的各个分词与所述第二部分中的各个分词之间的互信息值进行相加,得到所述第一部分与所述第二部分之间的互信息值。
10.根据权利要求9所述的装置,其特征在于,所述第一确定子模块包括:
第一确定单元,用于对于所述第一部分中的第一分词和所述第二部分中的第二分词,确定所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,所述第一分词为所述第一部分中的任一分词,所述第二分词为所述第二部分中的任一分词;
第二确定单元,用于根据所述第一分词和所述第二分词分别在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数,确定所述第一分词与所述第二分词之间的互信息值。
11.根据权利要求10所述的装置,其特征在于,所述第一确定单元用于:
按照预设窗口长度,对所述参考语料进行遍历;
若遍历到的每个预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数均不大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
12.根据权利要求11所述的装置,其特征在于,所述第一确定单元用于:
若遍历到的任一预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数大于1,则将遍历到的所有预设窗口长度的字符串中同时出现所述第一分词和所述第二分词的次数与预设参数的比值,确定为所述第一分词和所述第二分词在所述参考语料中共现的次数。
13.根据权利要求10所述的装置,其特征在于,所述第二确定单元用于:
确定所述第一分词在所述参考语料中出现的次数,所述第二分词在所述参考语料中出现的次数,以及所述第一分词和所述第二分词在所述参考语料中共现的次数分别与所述参考语料包括的分词总数之间的比值,得到第一比值、第二比值和第三比值;
根据所述第一比值、所述第二比值和所述第三比值,确定所述第一分词与所述第二分词之间的互信息值。
14.根据权利要求8-13任一所述的装置,其特征在于,所述装置还包括:
用于确定所述第一互信息值与所述第二互信息值之间的差值的模块;
所述评估模块用于:
若所述差值的绝对值大于预设阈值,则确定所述纠错对符合质量要求。
15.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的纠错对的质量评估方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1-7任一项所述的纠错对的质量评估方法。
CN201911039234.6A 2019-10-29 2019-10-29 纠错对的质量评估方法、装置、设备及存储介质 Active CN110781665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911039234.6A CN110781665B (zh) 2019-10-29 2019-10-29 纠错对的质量评估方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911039234.6A CN110781665B (zh) 2019-10-29 2019-10-29 纠错对的质量评估方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110781665A CN110781665A (zh) 2020-02-11
CN110781665B true CN110781665B (zh) 2023-04-07

Family

ID=69387409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911039234.6A Active CN110781665B (zh) 2019-10-29 2019-10-29 纠错对的质量评估方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110781665B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705576B (zh) * 2021-11-01 2022-03-25 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN106534548A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 语音纠错方法和装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
EP3422201A1 (en) * 2017-06-29 2019-01-02 Thomson Licensing Method and apparatus for correcting text
CN109460552A (zh) * 2018-10-29 2019-03-12 朱丽莉 基于规则和语料库的汉语语病自动检测方法及设备
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及系统
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8103671B2 (en) * 2007-10-11 2012-01-24 Honda Motor Co., Ltd. Text categorization with knowledge transfer from heterogeneous datasets
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN106534548A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 语音纠错方法和装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
EP3422201A1 (en) * 2017-06-29 2019-01-02 Thomson Licensing Method and apparatus for correcting text
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN109460552A (zh) * 2018-10-29 2019-03-12 朱丽莉 基于规则和语料库的汉语语病自动检测方法及设备
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及系统
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘滔 .面向中文校对的语料库并行处理技术研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2015,I138-1669. *

Also Published As

Publication number Publication date
CN110781665A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110427487B (zh) 一种数据标注方法、装置及存储介质
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN102646091B (zh) 依存关系标注方法、装置和系统
CN111369980B (zh) 语音检测方法、装置、电子设备及存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN113139043B (zh) 问答样本生成方法、装置、电子设备和存储介质
CN113822059A (zh) 中文敏感文本识别方法、装置、存储介质及设备
CN111492364B (zh) 数据标注方法、装置及存储介质
CN110781665B (zh) 纠错对的质量评估方法、装置、设备及存储介质
WO2022166808A1 (zh) 文本还原方法、装置及电子设备
US20210042363A1 (en) Search pattern suggestions for large datasets
CN111859974A (zh) 一种结合知识图谱的语义消歧方法和装置、智能学习设备
CN111079433A (zh) 一种事件抽取方法、装置及电子设备
CN112100493B (zh) 文档排序方法、装置、设备及存储介质
CN112949290A (zh) 文本纠错方法、装置及通信设备
US20230274088A1 (en) Sentiment parsing method, electronic device, and storage medium
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN108197113B (zh) 文章资讯转换方法、装置、设备及计算机可读介质
CN108932228A (zh) 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN114297381A (zh) 文本处理方法、装置、设备及存储介质
CN114417834A (zh) 文本的处理方法、装置、电子设备及可读存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022620

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant