CN109800428A

CN109800428A - 一种为语料标注分词结果的方法、装置、设备及存储介质

Info

Publication number: CN109800428A
Application number: CN201811623737.3A
Authority: CN
Inventors: 李玉信
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-24
Anticipated expiration: 2038-12-28
Also published as: CN109800428B

Abstract

本发明公开了一种为语料标注分词结果的方法、装置、设备及存储介质，包括：获取针对于目标语料标注的多个初始分词结果，并对于该多个初始分词结果，根据关联分词与各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，分析各个初始分词结果的可信程度，其中，该关联分词包括多个分词结果之间相同的分词；根据分析得到的各个分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。可见，依据各个初始分词结果的可信程度，可以从多个不同初始分词结果中自动选择出较为准确的初始分词结果作为最终标注该目标语料的分词结果。这样，无需对存在差异的分词结果进行人工校验，从而有效节省人力成本。

Description

一种为语料标注分词结果的方法、装置、设备及存储介质

技术领域

本发明涉及信息处理技术领域，特别是涉及一种为语料标注分词结果的方法、装置、设备及存储介质。

背景技术

目前，语料可以通过分词模型来实现分词。其中，分词模型需要通过已标注了分词结果的训练语料进行训练。目前，训练语料的分词结果主要是依靠人工标注的方式来确定。为了使得分词结果标注得更为准确，语料可以分别被分配给多个人进行分词结果的标注。若每个人对该语料标注的分词结果都相同，则表明该分词结果较为准确。但由于不同的人对语料内容的理解往往存在差别，不同人对同一语料标注的分词结果很可能存在差异。目前针对这种差异，通常采用人工校验的方式从不同人针对同一语料标注的分词结果中选出较为准确的分词结果。但是，在语料数量庞大的情况下，人工校验的工作量非常庞大。

发明内容

本发明所要解决的技术问题是，提供一种为语料标注分词结果的方法、装置、设备及存储介质，以使得在无需人工校验的情况下就可以从针对同一语料标注的不同分词结果中选择出较为准确的分词结果，从而节省人力成本。

第一方面，本申请实施例提供了一种为语料标注分词结果的方法，包括：

获取针对目标语料标注的多个初始分词结果；

对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，分析所述各个初始分词结果的可信程度；所述关联分词包括所述多个分词结果之间相同的分词；

根据所述各个初始分词结果的可信程度，从所述各个初始分词结果中选择用于标注所述目标语料的目标分词结果。

在一些可能的实施方式中，所述各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，具体为：所述各个初始分词结果中与其他初始分词结果不同的分词与关联分词在所述收集语料中的互信息；

其中，所述互信息通过所述收集语料中所述各个初始分词结果中与其他初始分词结果不同的分词的出现次数、所述关联分词的出现次数以及所述各个初始分词结果中与其他初始分词结果不同的分词与所述关联分词的同现次数确定。

在一些可能的实施方式中，所述对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，分析所述各个初始分词结果的可信程度，具体为：

对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率和所述关联分词的权重，分析所述各个初始分词结果的可信程度；

其中，所述关联分词的权重表示所述关联分词与所述目标语料的关联程度。

在一些可能的实施方式中，所述获取针对目标语料标注的多个初始分词结果，包括：

获取针对目标语料标注的多个第一分词结果；

对于所述多个第一分词结果，根据各个第一分词结果中与其他第一分词结果不同的分词，分析所述各个第一分词结果与其他第一分词结果的相似程度；

根据所述各个第一分词结果与其他第一分词结果的相似程度，从所述各个第一分词结果中选取所述多个初始分词结果。

在一些可能的实施方式中，所述各个第一分词结果与其他第一分词结果的相似程度具体为：所述各个第一分词结果与其他第一分词结果之间的Jaccard相似系数。

获取针对目标语料标注的多个第二分词结果；

若所述多个第二分词结果之间不同的分词在所述目标语料中的篇幅占比未超过占比阈值，获取所述多个第二分词结果作为所述多个初始分词结果。

在一些可能的实施方式中，还包括：

若所述多个第二分词结果之间不同的分词在所述目标语料中的篇幅占比超过占比阈值，反馈提示信息；所述提示信息用于提示为所述目标语料重新标注分词结果。

第二方面，本申请实施例还提供了一种为语料标注分词结果的装置，包括：

获取模块，用于获取针对目标语料标注的多个初始分词结果；

分析模块，用于对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，分析所述各个初始分词结果的可信程度；所述关联分词包括所述多个分词结果之间相同的分词；

选择模块，用于根据所述各个初始分词结果的可信程度，从所述各个初始分词结果中选择用于标注所述目标语料的目标分词结果。

在一些可能的实施方式中，所述分析模块，具体用于对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率和所述关联分词的权重，分析所述各个初始分词结果的可信程度；

在一些可能的实施方式中，所述获取模块，包括：

第一获取单元，用于获取针对目标语料标注的多个第一分词结果；

分析单元，用于对于所述多个第一分词结果，根据各个第一分词结果中与其他第一分词结果不同的分词，分析所述各个第一分词结果与其他第一分词结果的相似程度；

选取单元，用于根据所述各个第一分词结果与其他第一分词结果的相似程度，从所述各个第一分词结果中选取所述多个初始分词结果。

在一些可能的实施方式中，所述获取模块，包括：

第二获取单元，用于获取针对目标语料标注的多个第二分词结果；

第三获取单元，用于若所述多个第二分词结果之间不同的分词在所述目标语料中的篇幅占比未超过占比阈值，获取所述多个第二分词结果作为所述多个初始分词结果。

在一些可能的实施方式中，还包括：

反馈模块，用于若所述多个第二分词结果之间不同的分词在所述目标语料中的篇幅占比超过占比阈值，反馈提示信息；所述提示信息用于提示为所述目标语料重新标注分词结果。

第三方面，本申请实施例还提供了一种为语料标注分词结果的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的为语料标注分词结果的方法。

第四方面，本申请实施例还提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的为语料标注分词结果的方法。

与现有技术相比，本申请实施例具有以下优点：

本实施例中，通过分析出标注者针对于目标语料所标注的初始分词结果的可信程度，可以从多个标注者所标注的不同初始分词结果中自动确定出较为准确的目标分词结果，以节省人力成本。具体的，可以获取针对于目标语料标注的多个初始分词结果，并对于该多个初始分词结果，根据关联分词与各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，即关联分词与该不同的分词同时出现在同一篇收集语料中的概率，分析各个初始分词结果的可信程度，其中，该关联分词包括多个分词结果之间相同的分词；然后，根据分析得到的各个分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。可见，在不同标注者针对于同一语料所标注的初始分词结果存在差异时，通过分析出每个初始分词结果的可信程度，可以依据各个初始分词结果的可信程度从多个不同初始分词结果中自动选择出较为准确的初始分词结果作为最终标注该目标语料的分词结果。这样，即使语料的数量较为庞大，也无需对存在差异的分词结果进行人工校验，从而可以有效节省人力成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一个示例性应用场景示意图；

图2为本申请实施例中一种为语料标注分词结果的方法的流程示意图；

图3为本申请实施例中一种为语料标注分词结果的装置的结构示意图；

图4为本申请实施例中一种为语料标注分词结果的设备的架构示意图。

具体实施方式

在训练用于对语料进行分词的分词模型时，需要利用已经标注了分词结果的训练语料进行训练，而目前作为训练语料的分词结果通常是依靠多个标注者共同标注的分词进行确定的。具体的，将同一语料分别分配给不同的标注者进行分词结果的标注，若每位标注者对该语料的分词结果相同，则表明该分词结果较为准确，即可采用基于该分词结果对分词模型进行训练。但是，由于不同的人对于语料内容的理解往往存在差别，从而使得不同标注者对于同一语料所标注的分词结果可能存在差异。

目前，当不同标注者针对于同一语料所标注的分词结果存在差异时，通常是采用人工校验的方式从不同标注者所标注的分词结果中选出较为准确的分词结果。但是，当语料数量较为庞大时，需要人工校验的分词结果的数量也会较多，从而使得人工校验的工作量非常庞大。

为了解决上述技术问题，本申请实施例提供了一种为语料标注分词结果的方法，通过分析出标注者针对于目标语料所标注的初始分词结果的可信程度，可以从多个标注者所标注的不同初始分词结果中自动确定出较为准确的目标分词结果，以节省人力成本。具体的，可以获取针对于目标语料标注的多个初始分词结果，并对于该多个初始分词结果，根据关联分词与各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，即关联分词与该不同的分词同时出现在同一篇收集语料中的概率，分析各个初始分词结果的可信程度，其中，该关联分词包括多个分词结果之间相同的分词；然后，根据分析得到的各个分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。可见，在不同标注者针对于同一语料所标注的初始分词结果存在差异时，通过分析出每个初始分词结果的可信程度，可以依据各个初始分词结果的可信程度从多个不同初始分词结果中自动选择出较为准确的初始分词结果作为最终标注该目标语料的分词结果。这样，即使语料的数量较为庞大，也无需对存在差异的分词结果进行人工校验，从而可以有效节省人力成本。

作为一种示例，本申请实施例可以应用于如图1所示的示例性应用场景。在该应用场景中，标准者1、标注者2以及标注者3可以分别在终端101、终端102以及终端103上针对于同一目标语料标注出初始分词结果，各个终端可以分别将3个标注者所标注的初始分词结果发送给服务器200，以使得服务器200能够获得不同标注者针对于目标语料所标注的不同初始分词结果；服务器200接收针对于该目标语料标注的多个初始分词结果，并计算出关联分词以及各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，其中，该关联分词包括多个初始分词结果之间相同的分词；然后，服务器根据该同现概率分析各个初始分词结果的可信程度，并根据各个初始分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。

值得注意的是，上述场景仅作为本申请实施例提供的一个场景示例，本申请实施例并不句限于此场景。比如，在另一些可能的应用场景中，也可以是由终端102分别从终端101以及终端103中获取标注者1所标注的初始分词结果以及标注者2所标注的初始分词结果，从而在终端102上为目标语料确定出最终的目标分词结果等。总而言之，本申请实施例可以应用于各种可适用的场景中。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图2，图2示出了本申请实施例中一种为语料标注分词结果的方法流程示意图，该方法具体可以包括：

S201：获取针对于目标语料的多个初始分词结果。

在一种示例性的具体实现方式中，可以由服务器为目标语料确定最终标注的分词结果。具体的，不同的标注者可以在终端上基于自身对该目标语料内容的理解为该目标语料标注出相应的初始分词结果，并由终端将不同标注者所标注出的初始多个初始分词结果发送给服务器，以使得服务器能够获得针对于该目标语料的多个初始分词结果。

其中，该目标语料可以是包括多个词语的一句话，或者是包括多个语句的一个段落、文章等。如，该目标语料可以为“中国航天官员应邀到美国与太空总署官员开会”这样的一句话，或者可以是诸如“中国航天官员应邀到美国与太空总署官员开会。中国航天官员与太空总署官员进行了非常深入的交流”这样的包括多个语句的一个段落等。而所获取的针对于目标语料的初始分词结果，在一种示例中，具体可以是该目标语料中各个词语的集合，如针对于“中国航天官员应邀到美国与太空总署官员开会”这一目标语料，其可能的初始分词结果可以表征为{中国，航天，官员，应邀，到，美国，与，太空，总署，官员，开会}等包括多个词语的集合。

可以理解，不同的标注者对于目标语料的内容可能具有不同的理解，从而可能会使得不同标注者所标注出的初始分词结果可能存在差异。比如，对于同一个目标语料“中国航天官员应邀到美国与太空总署官员开会”，其中，标注者A针对于该目标语料所标注出的初始分词结果可能为“中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会”，而标注者B针对于该目标语料所标注出的初始分词结果可能为“中国/航天官员/应邀/到/美国/与/太空/总署/官员/开会”，标注者C针对于该目标语料所标注出的初始分词结果可能为“中国/航/天/官员/应邀/到/美国/与/太空/总署/官员/开会”。可见，标注者A将“航天官员”切分成“航天”和“官员”两个词语，标注者B是将“航天官员”整体作为一个词语进行标注，标注者C将“航天官员”切分成“航”、“天”以及“官员”三个词语，即标注者A、标注者B以及标注者C相互之间针对于该目标语料的初始分词结果存在一定的差异。

基于此，本实施例中，服务器在获得多个不同初始分词结果后，由于该多个不同的初始分词结果可能并不相同，因此，服务器可以继续执行步骤S202以及步骤S203，以实现从多个初始分词结果中选择其中一个较为准确的初始分词结果作为该目标语料最终的分词结果。

实际应用中，若针对于同一目标语料存在三个或者三个以上的分词结果，则可以对多个分词结果进行过滤，具体是过滤掉该多个分词结果中标注质量相对较低的分词结果。具体的，在一种示例中，可以获取针对于该目标语料标注的多个第一分词结果，对于该多个第一分词结果，可以根据各个第一分词结果中与其它第一分词结果不同的分词，分析各个第一分词结果与其它第一分词结果的相似程度，并根据该第一分词结果与其它分词的相似程度，从各个第一分词结果中选取出多个标注质量相对较高的初始分词结果。可以理解，通常情况下，多个第一分词结果之间的相似程度越高，表明多个标注者对于目标语料的内容理解越相近，则相对于其它标注者对该目标语料的分词结果而言，该多个标注者对该目标语料的分词结果通常会相对更准确一些。过滤掉标注质量相对较低的第一分词结果，并基于标注质量相对较高的第一分词结果来确定出该目标语料最终的分词结果，这样不仅可以提高该目标语料的分词结果的准确性，而且，标注质量相对较低的第一分词结果，无需参与后续为目标语料确定目标分词结果的过程，从而可以减少确定分词结果所需的计算量。

在一些可能的实施方式中，所获取的各个第一分词结果与其它第一分词结果的相似程度，具体可以是各个第一分词结果与其它第一分词结果之间的Jaccard相似系数。其中，该Jaccard相似系数体现了各个第一分词结果与其它第一分词结果之间的相似性和差异性，通常情况下，两个第一分词结果之间的Jaccard相似系数的值越大，表明这两个第一分词结果之间的相似度越高，反之，Jaccard相似系数的值越小，表明相似度越低。基于此，在计算出每个第一分词结果与其它第一分词结果之间的Jaccard相似系数后，可以根据每个第一分词结果与其它第一分词结果之间的Jaccard相似系数，选取部分第一分词结果作为初始分词结果。比如，可以是从多个第一分词结果中选取与其它第一分词结果之间的Jaccard相似系数之和相对较大的第一分词结果，作为初始分词结果。

其中，两个第一分词结果之间的Jaccard相似系数可以利用公式(1)计算得到，具体如下：

其中，“J(a，b)”为第一分词结果a与第一分词结果b之间的Jaccard相似系数，“a∩b”为第一分词结果a中与第一分词结果b中相同分词的分词集合，“a∪b”为第一分词结果a中与第一分词结果b中所有分词的分词集合。

针对于每个第一分词结果，在计算该第一分词结果与其它第一分词结果之间的Jaccard相似系数之和时，可以先确定出该第一分词结果中与其它第一分词结果之间存在不同分词的分词集合，再利用公式(1)计算出该第一分词结果与其它每个第一分词结果之间的Jaccard相似系数，进而可以计算出该第一分词结果与其它第一分词结果之间的Jaccard相似系数之和。

举例来说，假设针对于同一个目标语料“中国航天官员应邀到美国与太空总署官员开会”，标注者A所标注的第一分词结果a为{中国，航天，官员，应邀，到，美国，与，太空，总署，官员，开会}，标注者B所标注的第一分词结果b为{中国，航天官员，应邀，到，美国，与，太空，总署，官员，开会}，标注者C所标注的第一分词结果c为{中，国，航，天，官员，应邀，到，美国，与，太空，总署，官员，开会}。则，第一分词结果a中与第一分词结果b、第一分词结果c之间不同分词的分词集合为A＝{中国，航天，官员}，第一分词结果b中与第一分词结果a、第一分词结果c之间不同分词的分词集合为B＝{中国，航天官员}，第一分词结果c中与第一分词结果a、第一分词结果b之间不同分词的分词集合为C＝{中，国，航，天，官员}。则，采用上述公式(1)即可计算出第一分词结果a与第一分词结果b之间的Jaccard相似系数J(a，b)为(a∩b)/(a∪b)＝1/4，第一分词结果a与第一分词结果c之间的Jaccard相似系数(J(a，c)为a∩c)/(a∪c)＝1/7，第一分词结果b与第一分词结果c之间的Jaccard相似系数J(b，c)为(b∩c)/(b∪c)＝0。则，第一分词结果a与第一分词结果b、第一分词结果c之间的Jaccard相似系数之和Total_A为(1/4+1/7)＝11/28，第一分词结果b与第一分词结果a、第一分词结果c之间的Jaccard相似系数之和Total_B为(1/4+0)＝1/4，第一分词结果c与第一分词结果a、第一分词结果b之间的Jaccard相似系数之和Total_C为(1/7+0)＝1/7。这样，在选取初始分词结果时，由于Total_A＞Total_B＞Total_C，因此，可以选取Total_A对应的第一分词结果a以及Total_B对应的第一分词结果b作为初始分词结果。

上述选取初始分词结果的实施方式中，是根据Jaccard相似系数来进行确定所要选取的分词结果，而在另一些可能的实施方式中，也可以是根据各个分词结果之间不同的分词在目标语料中的篇幅占比来进行确定。具体的，可以获取针对于目标语料标注的多个第二分词结果，若该多个第二分词结果之间不同的分词在目标语料中的篇幅占比未超过预设的占比阈值，则获取该多个第二分词结果作为多个初始分词结果。

可以理解，不同标注者对于同一目标语料的内容理解所存在差异的部分，通常只是目标语料中的较少部分，因此，不同标注者所标注得到的多个第二分词结果之间不同的分词在目标语料中的篇幅占比通常较小，而若针对于目标语料的不同分词结果之间不同的分词在目标语料中的篇幅占比较高，不同第二分词结果之间存在较大的差异，此时，若继续基于该多个第二分词结果确定出该目标语料最终的分词结果，则可能会降低该目标语料的分词结果的准确性。因此，本实施例中在获取初始分词结果时，可以要求所获取的各个初始分词结果之间不同的分词在目标语料中的篇幅占比存在一定的阈值限制。

比如，若所获取的多个第二分词结果分别为第二分词结果a{中国，航天，官员，应邀，到，美国，与，太空，总署，官员，开会}、第二分词结果b{中国，航天官员，应邀，到，美国，与，太空，总署，官员，开会}以及第二分词结果c{中，国，航，天，官员，应邀，到，美国，与，太空，总署，官员，开会}，则第二分词结果a中与第二分词结果b、第二分词结果c之间存在不同的分词为“中国”、“航天”以及“官员”，包括6个字符，该不同的分词在目标语料(总共20个字符)中的篇幅占比为6/20＝0.3，则可以设定一个占比阈值γ，若确定0.3<γ值时，才将该第二分词结果a作为多个初始分词结果中的其中一个初始分词结果。

进一步的，当针对于目标语料的不同分词结果之间不同的分词在目标语料中的篇幅占比超过预设的占比阈值时，可以反馈提示信息，其中，该提示信息用于提示为目标语料重新标注分词结果。这样，基于该提示信息可以提示标注者重新为该目标语料进行标注，以保证该目标语料的分词结果的准确性。在进一步可能的实施方式中，针对于该目标语料，还可以采用人工校验的方式从多个针对于该目标语料的第二分词结果中为该目标语料确定出准确性较高的第二分词结果。

S202：对于该多个初始分词结果，根据关联分词以及各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，分析各个初始分词结果的可信程度，其中，该关联分词包括多个初始分词结果之间相同的分词。

本实施例中，在从多个初始分词结果中选择一个较为准确的初始分词结果作为目标语料最终的分词结果时，可以是根据每个初始分词结果的可信程度进行确定。通常情况下，该初始分词结果的可信程度越高，则该初始分词结果作为用于标注目标语料的目标分词结果通常也就越准确，反之，该初始分词结果的可信程度越低，该初始分词结果就越不适合作为用于标注目标语料的目标分词结果。

而在分析各个初始分词结果的可信程度时，本实施例中可以根据关联分词以及各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率进行确定，即根据该不同的分词与关联分词在同一收集语料中共同出现的概率进行确定。

其中，该关联分词可以包括多个初始分词结果之间相同的分词。例如，对于标注者A所标注的初始分词结果a{中国，航天，官员，应邀，到，美国，与，太空，总署，官员，开会}，以及标注者B所标注的初始分词结果b{中国，航天官员，应邀，到，美国，与，太空，总署，官员，开会}，则关联分词可以为两个初始分词结果中相同的分词{中国，应邀，到，美国，与，太空，总署，官员，开会}。在一些可能的实施方式中，该关联分词除了可以包括两个初始分词结果中相同的分词以外，还可以包括该目标语料的上下文的分词。比如，若目标语料为某个段落中的一句话，则该关联分词还可以包括该目标语料所在段落中其它被切分的相同分词；若目标语料为某篇文章中的一个段落，则该关联分词还可以包括该目标语料所在文章中的前后段落甚至是整篇文章中被切分的相同分词。相应的，对于每个初始分词结果中与其它初始分词结果不同的分词，在上述例子中，初始分词结果a中与初始分词结果b不同的分词即为{航天官员}，而初始分词结果b中与初始分词结果a不同的分词即为{航天，官员}。而对于收集语料，具体可以是与该目标语料所不同的一个语句或多个语句所构成的语料等，并且，该收集语料既可以是被标注分词结果的语料，也可以是未被标注分词结果的语料。

可以理解，关联分词以及各个初始分词结果中与其它初始分词结果不同的分词在同一收集语料中共同出现的概率越大，表明该分词的分词结果的准确性通常也就越高，反之，关联分词与该不同的分词在同一收集语料中共同出现的概率越小，表明该分词的分词结果的准确性也就越低。通过计算出标注者所标注出的初始分词结果与其它初始分词结果之间所存在的每个不同分词与关联分词的同现概率，可以进一步分析计算出哪个标注者所标注得到的初始分词结果的可信程度相对较高，从而可以确定出哪个初始分词结果相对而言更加准确。

在一种分析可信程度的示例性的具体实施方式中，关联分词以及各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，具体可以是各个初始分词结果中与其它初始分词结果不同的分词与关联分词在该收集语料中的互信息，该互信息可以对该不同的分词与关联分词之间的相互依赖性进行度量，表征了该不同的分词与关联分词之间的关联性。其中，该互信息可以通过该收集语料中各个初始分词结果中与其它初始分词结果不同的分词的出现次数、该关联分词的出现次数以及各个初始分词结果中与其它初始分词结果不同的分词与该关联分词的同现次数进行确定。

在一种计算互信息的示例性实施方式中，针对于每个初始分词结果中与其它初始分词结果所不同的每个分词p以及每个关联分词q，可以统计该分词p在收集语料中出现的次数W_p，该分词p与该关联分词q在收集语料中同时出现的次数W_pq以及该关联分词q在收集语料中出现的次数W_q。然后，可以分别计算出在收集语料中同时出现分词p以及关联分词q时分词p(或分词q)在收集语料中的词频P(p，q)，分词p在收集语料中的词频P(p)以及关联分词q在收集语料中的词频P(q)。

其中，词频P(p，q)、词频P(p)以及词频P(q)的计算公式具体如下所示：

其中，“NW”是指收集语料中所包括的词语的总个数。

在一种示例中，该“NW”可以利用目标语料进行估算得到。具体的，可以利用如下所示的公式(5)来估算出收集语料中的“NW”值。其中，公式(5)具体为：

其中，“NW_目”是指目标语料中所包括的词语的总个数，“NL_目”是指目标语料中所包括的文字的总个数，“NL”是指收集语料中所包括的文字的总个数。

在计算出词频P(p，q)、词频P(p)以及词频P(q)后，分词p与关联分词q之间的互信息I(p，q)即为：

利用公式(6)，可以计算出初始分词结果中与其它初始分词结果所不同的每个分词，分别与每个关联分词之间的互信息，进而可以根据每个不同的分词与每个关联分词之间的互信息分析各个初始分词结果。具体的，对于多个初始分词结果中的其中一个初始分词结果，为了描述方便，此处称之为目标初始分词结果，假设该目标初始分词结果与其它初始分词结果所不同的分词的个数为m(m为大于0的正整数)，构成分词集合P为{p₁，p₂，…，p_m}，各个初始分词结果之间相同的分词的个数为n(n为大于0的正整数)，构成分词集合Q为{q₁，q₂，…，q_n}，则目标初始分词结果与其它初始分词结果不同的分词与关联分词在收集语料中的互信息之和I_Total，即为：

这样，针对于每个初始分词结果，都可以计算出与该初始分词结果所对应的互信息之和，进而可以根据每个初始分词结果所对应的互信息之和，分析各个初始分词结果的可信程度。例如，可以认为初始分词结果对应的互信息之和越大，则该初始分词结果的可信程度越高，反之，该初始分词结果对应的互信息之和越小，该初始分词结果的可信程度越低。

当然，上述过程仅作为本申请实施例中确定初始分词结果的可信程度的一种示例性实施过程，在其它可实现的实施方式中，也可以基于上述过程进行简单地变动等。比如，每个初始分词程度的可信程度，也可以是根据上述过程中所计算出的各个互信息的乘积或者各互信息的平均值进行确定等。

上述分析可信程度的示例性实施方式中，是根据各个初始分词结果中与其它初始分词结果之间不同的分词与关联分词在收集语料中的互信息进行分词得到的，而在另一些分词可信程度的示例性实施方式中，还可以是根据各个初始分词结果中与其它初始分词结果不同的分词与关联分词在收集语料中的同现概率，以及该关联分词的权重来分析出各个初始分词结果的可信程度，其中，该关联分词的权重表示该关联分词与目标语料的关联程度。

其中，该关联分词的权重可以预先设定，比如，假设关联分词为“的”、“与”“可以”等固定分词时，可以为该类关联分词设置较小的权重，或者为0等，而若关联分词为非固定分词，则可以设置相对较大的权重等。而在另一些实施方式中，也可以是按照预设规则进行计算得到。具体的，该关联分词的权重具体可以是根据该关联分词在收集语料中的词频和逆文档频率进行确定。其中，该关联分词在收集语料汇总的词频TF_q可以采用公式(8)进行计算得到，而该关联分词在收集语料中的逆文档频率IDF_q可以利用公式(9)进行计算得到。该公式(8)以及公式(9)具体可以如下所示：

其中，“NW_q”是指该关联分词在收集语料中出现的次数，“NW”是指收集语料中所包括的词语的总个数，“N_D”是指收集语料中所包含的语料数(该收集语料可以是由一篇或者多篇语料所构成)，“N_W”是指该关联分词在收集语料的“N_W”篇语料中出现过。

则该关联分词的权重可以为TF_q与IDF_q之间的乘积，如公式(10)所示：

当然，上述两种分词各个初始分词的可信程度的实施方式仅作为示例性说明，并不用于对本申请实施例中分词可信程度的具体实现过程进行限定。比如，在其它确定可信程度的实施方式中，还可以将上述两种实现方式进行结合，即可以根据各个初始分词结果中与其它初始分词结果不同的分词与关联分词在该收集语料中的互信息，以及该关联分词的权重来分析得到各个初始分词结果的可信程度。具体的，可以采用公式(11)计算出各个初始分词结果与其它初始分词结果不同的分词与关联分词在收集语料中的互信息之和I′_Total，进而根据所计算出的各个初始分词结果所对应的I′_Total分词出各个初始分词结果的可信程度。其中，公式(11)具体如下所示：

S203：根据各个初始分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。

具体实现时，在基于步骤S202分析出各个初始分词结果的可信程度后，可以依据各个初始分词结果的可信程度，从多个初始分词结果选择出可信程度相对较高的初始分词结果作为用于标注该目标语料的目标分词结果。可以理解，初始分词结果的可信程度，可以认为表征了该初始分词结果用于标注目标语料的准确性，因此，从各个初始分词结果中选择出可信程度最高的初始分词结果作为目标分词结果，可以使得最终为目标语料所确定的分词结果的分词准确性更高，也就更适合作为该目标语料的目标分词结果。

本实施例中，可以获取针对于目标语料标注的多个初始分词结果，并对于该多个初始分词结果，根据关联分词与各个初始分词结果中与其它初始分词结果不同的分词在收集语料中的同现概率，即关联分词与该不同的分词同时出现在同一篇收集语料中的概率，分析各个初始分词结果的可信程度，其中，该关联分词包括多个分词结果之间相同的分词；然后，根据分析得到的各个分词结果的可信程度，从各个初始分词结果中选择用于标注该目标语料的目标分词结果。可见，在不同标注者针对于同一语料所标注的初始分词结果存在差异时，通过分析出每个初始分词结果的可信程度，可以依据各个初始分词结果的可信程度从多个不同初始分词结果中自动选择出较为准确的初始分词结果作为最终标注该目标语料的分词结果。这样，即使语料的数量较为庞大，也无需对存在差异的分词结果进行人工校验，从而可以有效节省人力成本。

此外，本申请实施例还提供了一种为语料标注分词结果的装置。参阅图3，图3示出了本申请实施例中一种为语料标注分词结果的装置的结构示意图，该装置300包括：

获取模块301，用于获取针对目标语料标注的多个初始分词结果；

分析模块302，用于对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，分析所述各个初始分词结果的可信程度；所述关联分词包括所述多个分词结果之间相同的分词；

选择模块303，用于根据所述各个初始分词结果的可信程度，从所述各个初始分词结果中选择用于标注所述目标语料的目标分词结果。

在一些可能的实施方式中，所述分析模块302，具体用于对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率和所述关联分词的权重，分析所述各个初始分词结果的可信程度；

在一些可能的实施方式中，所述获取模块301，包括：

在一些可能的实施方式中，该装置300还包括：

本实施例中，在不同标注者针对于同一语料所标注的初始分词结果存在差异时，通过分析出每个初始分词结果的可信程度，可以依据各个初始分词结果的可信程度从多个不同初始分词结果中自动选择出较为准确的初始分词结果作为最终标注该目标语料的分词结果。这样，即使语料的数量较为庞大，也无需对存在差异的分词结果进行人工校验，从而可以有效节省人力成本。

此外，本申请实施例还提供了一种为语料标注分词结果的设备。参阅图4，图4示出了本申请实施例中一种为语料标注分词结果的设备架构示意图，该设备400包括处理器401以及存储器402：

所述存储器402用于存储程序代码，并将所述程序代码传输给所述处理器401；

所述处理器401用于根据所述程序代码中的指令执行以下操作：

获取针对目标语料标注的多个初始分词结果；

在一些可能的实施方式中，所述处理器401具体用于执行：

获取针对目标语料标注的多个第一分词结果；

在一些可能的实施方式中，所述处理器401具体用于执行：

获取针对目标语料标注的多个第二分词结果；

在一些可能的实施方式中，所述处理器401还用于执行：

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行如下指令：

获取针对目标语料标注的多个初始分词结果；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置和设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种为语料标注分词结果的方法，其特征在于，包括：

获取针对目标语料标注的多个初始分词结果；

2.根据权利要求1所述的方法，其特征在于，所述各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，具体为：所述各个初始分词结果中与其他初始分词结果不同的分词与关联分词在所述收集语料中的互信息；

3.根据权利要求1所述的方法，其特征在于，所述对于所述多个初始分词结果，根据各个初始分词结果中与其他初始分词结果不同的分词与关联分词在收集语料中的同现概率，分析所述各个初始分词结果的可信程度，具体为：

4.根据权利要求1所述的方法，其特征在于，所述获取针对目标语料标注的多个初始分词结果，包括：

获取针对目标语料标注的多个第一分词结果；

5.根据权利要求4所述的方法，其特征在于，所述各个第一分词结果与其他第一分词结果的相似程度具体为：所述各个第一分词结果与其他第一分词结果之间的Jaccard相似系数。

6.根据权利要求1所述的方法，其特征在于，所述获取针对目标语料标注的多个初始分词结果，包括：

获取针对目标语料标注的多个第二分词结果；

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种为语料标注分词结果的装置，其特征在于，包括：

9.一种为语料标注分词结果的设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的为语料标注分词结果的方法。

10.一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1至7任一项所述的为语料标注分词结果的方法。