CN102043791A

CN102043791A - 分词评价方法及装置

Info

Publication number: CN102043791A
Application number: CN2009101811243A
Authority: CN
Inventors: 方高林; 郑全战
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2009-10-10
Filing date: 2009-10-10
Publication date: 2011-05-04
Anticipated expiration: 2029-10-10
Also published as: CN102043791B

Abstract

本发明公开了一种分词评价方法及装置，属于信息处理领域。所述方法包括：从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。所述装置包括：构建模块、分词模块、比对模块和评价模块。本发明通过从互联网中获取测试词语的测试语料，构建测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，进行分词评价，能够更好地评价面向互联网应用的分词性能。

Description

分词评价方法及装置

技术领域

本发明涉及信息处理领域，特别涉及一种分词评价方法及装置。

背景技术

随着互联网的普遍应用，面向互联网进行搜索逐渐成为了人们获取信息的主要方式。分词技术作为搜索引擎中的一项重要的基础技术，它的好坏将直接影响搜索质量的好坏。为了提高分词的质量，人们设计出了各种各样的分词程序。如何对这些分词程序的分词性能进行评价，一直是一个比较困难的问题。

现有技术采用的是根据分词的准确率和召回率进行分词评价的方式，为了计算分词的准确率和召回率，需要有事先标注的比较大规模的语料库，并在此基础上进行统计计算，最后根据计算结果对分词的好坏进行评价。

在实现本发明的过程中，发明人发现现有技术至少存在以下缺点：

现有的分词评价方式需要有事先标注的语料库才能实现自动评价，而目前已有的比较大规模的语料库均需要人工进行标注。另外，由于现有语料库中的语料和目前互联网中涉及的网络语料具有一定的差异性，从而导致有些分词程序即使根据现有语料库计算出较高的准确率和召回率，但将其应用到面向互联网的搜索引擎中时，分词性能仍然很差。

发明内容

为了实现对分词性能的自动评价，并更加有效地评价面向互联网应用的分词性能，本发明实施例提供了一种分词评价方法及装置。所述技术方案如下：

一方面，提供了一种分词评价方法，所述方法包括：

从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；

以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；

将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。

其中，所述从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集，具体包括：

将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；

在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。

所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括：

统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；

根据所述统计出的个数，对所述待评价的分词程序进行评价。

或者，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括：

在所有测试语料集中，统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；

根据所述统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。

另一方面，提供了一种分词评价装置，所述装置包括：

构建模块，用于从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；

分词模块，用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；

比对模块，用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对；

评价模块，用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。

其中，所述构建模块，具体包括：

搜索单元，具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；

构建单元，具体用于在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。

具体地，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，对所述待评价的分词程序进行评价。

或者，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，在所有测试语料集中，统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。

本发明实施例提供的技术方案的有益效果是：

通过从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，对分词性能进行评价，不仅能够在无需人工参与的情况下实现自动评价，还能够更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，适合应用于大规模的数据测试。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的分词评价方法流程图；

图2是本发明实施例二提供的分词评价方法流程图；

图3是本发明实施例三提供的分词评价装置结构示意图；

图4是本发明实施例三提供的分词评价装置中的构建模块结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

参见图1，本实施例提供了一种分词评价方法，该方法流程如下：

101：从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集；

102：以待评价的分词程序对每个测试词语及其测试语料集进行分词处理；

103：将每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对待评价的分词程序进行评价。

综上所述，本实施例提供的方法，通过从互联网中获取测试词语的测试语料，构建测试词语的测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，进行分词评价，能够在无需人工参与的情况下，更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，适合应用于大规模的数据测试。

实施例二

本实施例提供了一种分词评价方法，该方法针对各种各样的分词程序，提供了一种面向互联网应用的分词性能评价方法，参见图2，方法流程具体如下：

201：从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集；

针对该步骤，为了使测试词语更具代表性，更能体现出分词性能，可以将网络中点击频率较高、比较热门的词语作为测试词语，还可以将古今中外的一些名人的人名作为测试词语，除此之外，还可以将一些具有代表性、确定性的词语作为测试词语，本实施例不对测试词语的内容及数量进行具体限定。

具体地，为了缩小获取的测试语料与网络语料之间的差异性，提供一种面向互联网应用的分词评价方法，本实施例以面向互联网的搜索引擎为例，将每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到每个测试词语的搜索结果；并在每个测试词语的搜索结果中提取有效的测试语料，构建每个测试词语的测试语料集。

对于每个测试词语，其搜索结果可能是成千上万的，搜索引擎一般会将最相关的、高质量的搜索结果显示在最前面，因此，为了提高获取测试语料的效率，提高获取的测试语料的质量，可以在显示靠前的多个搜索结果中提取有效的测试语料。

此处判断测试语料有效性的标准是以“。”、“？”、“！”等代表完整语句的符号作为分隔符，且该测试语料中包含其对应的测试词语，而不是另一个词语的一部分。例如，以测试词语“王维”为例，将其放入搜索引擎中进行搜索时，搜索结果可能会出现“上海社保案核心人物王维工受贿千万获死缓”的语料，测试词语“王维”作为该语料中词语“王维工”的一部分，因此，该语料不具备有效性。

优选地，再对提取的语料进行过滤，去除一些包含特殊字符的语料，同时去除上下文完全相同的语料，最终得到每个测试词语的测试语料集。

202：以待评价的分词程序对每个测试词语及其测试语料集进行分词处理；

其中，对每个测试词语的测试语料集进行分词处理，也就是对测试语料集中的每个测试语料进行分词处理，每个测试词语的测试语料集中包含一至多个测试语料。由于每种分词程序之间会存在不同程度的差异，即使是同一个测试语料或测试词语，在用不同的分词程序进行分词处理时，得到的分词结果也可能会不一样。即使是同一个测试词语，以相同的分词程序对其进行分词处理，和将其放入测试语料中再对其进行分词处理，得到的分词结果也可能不同，因此，一个测试语料集中可能存在多种分词结果。

例如，对于测试词语“ABC”，对其进行分词处理时，得到的分词结果可能是“A”、“B”、“C”；“AB”、“C”；“A”、“BC”；“ABC”等多种分词结果中的任一种。而将该测试词语放入测试语料中，即对该测试词语的测试语料集进行分词处理时，有可能会得到“A”、“B”、“C”；“AB”、“C”；“A”、“BC”；“ABC”等多种分词结果，由此可见，对单独的测试词语进行分词处理，和将其放入测试语料中再对其进行分词处理时，得到的分词结果有可能是不一样的，一个测试语料集中也可能存在多种分词结果。

203：将每个测试词语的分词结果与其测试语料集中的分词结果进行比对；

针对该步骤，通过将每个测试词语的分词结果与其测试语料集中的分词结果进行比对，可得出每个测试词语的分词结果，和将其放入测试语料中的分词结果是否一样，如果一样，则认为该测试词语的分词结果，和将其放入测试语料中的分词结果一致。测试语料集中的分词结果与测试词语的分词结果一致的个数越多，则说明该测试词语的分词结果与其测试语料集中的分词结果的一致性越高。

204：根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对该待评价的分词程序进行评价。

具体地，统计每个测试语料集中的分词结果的个数，并统计每个测试语料集中的分词结果与每个测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，对待评价的分词程序进行评价。

例如，将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为“一致性指标”，表示为：

如果该“一致性指标”越高，则认为该待评价的分词程序的分词性能越好。其中，PN_i表示收集的所有测试词语中的第i个测试词语的分词结果，CPN_i表示第i个测试词语在其测试语料集的不同测试语料中的分词结果，Num表示个数，K表示收集的所有测试词语的个数。该“一致性指标”表明，如果测试词语的分词结果和该测试词语在其测试语料集中的分词结果一致的个数越多，则Num(CPN_i＝PN_i)就越大，这样“一致性指标”就越高。

以所有测试词语的个数为2(K＝2)，测试词语分别为“ABC”和“DE”，每个测试词语在其测试语料集中出现的次数为3，即每个测试词语的测试语料集中均有3个测试语料为例。对于测试词语“ABC”，在用待评价的分词程序对其进行分词处理后，得到的分词结果为“ABC”，而以相同待评价的分词程序对其测试语料集进行分词处理时，由于该测试词语有3个测试语料，则对应的分词结果的个数为3，即Num(CPN_i)＝3，在这3个分词结果中，设只有一个分词结果为“ABC”，与该测试词语的分词结果一致，即Num(CPN_i＝PN_i)＝1，则对于该测试词语，

对于测试词语“DE”，在以相同待评价的分词程序对其进行分词处理后，得到的分词结果为“D”“E”，而对其测试语料集进行分词处理时，由于该测试词语有3个测试语料，同样对应的分词结果的个数也为3，即Num(CPN_i)＝3，在这3个分词结果中，只得到的“D”“E”一种分词结果，即Num(CPN_i＝PN_i)＝3，则

则针对该待评价的分词程序，得到的“一致性指标”为：

进一步地，“一致性指标”还可以不包括测试词语的总个数，即将“一致性指标”定义为：

则对于上述的例子，以该计算方式得到的“一致性指标”为：

本实施例不对“一致性指标”的计算形式进行具体限定，为了使评价的标准统一，更具公平性，在对每个分词程序进行评价时，保证采用相同的计算形式计算即可。

可选地，根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对该待评价的分词程序进行评价时，还可以在所有测试语料集中，统计测试语料集中的所有分词结果均与测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，及所有测试词语的个数，对待评价的分词程序进行评价。

例如，测试词语与其测试语料集中的所有分词结果完全一致的才被计算，此处将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为“绝对一致性指标”，该“绝对一致性指标”＝在测试语料集中的所有分词结果均与该测试语料集对应的测试词语的分词结果一致的个数/所有测试词语的个数，如果该“绝对一致性指标”越高，则认为该待评价的分词程序的分词性能越好。仍以上述例子为例，测试词语的个数为2，测试词语“DE”的分词结果为“D”“E”，而该测试词语的测试语料集中的所有分词结果均为“D”“E”，即与该测试词语的分词结果一致，则“绝对一致性指标”＝1/2＝0.5。

综上所述，本实施例提供的分词评价方法，在从互联网中获取测试语料，构建测试语料集后，根据测试词语的分词结果与其测试语料集中的分词结果的一致性，进行分词评价，无需人工参与，即可实现更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，不仅弥补了目前分词语料库与网络语料具有差异性的缺点，还能有效改善使用分词应用如搜索引擎的搜索结果、分类、过滤的效果。

实施例三

参见图3，本实施例提供了一种分词评价装置，所述装置包括：

构建模块301，用于从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集；

分词模块302，用于以待评价的分词程序对每个测试词语及其测试语料集进行分词处理；

比对模块303，用于将每个测试词语的分词结果与其测试语料集中的分词结果进行比对；

评价模块304，用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对待评价的分词程序进行评价。

其中，参见图4，构建模块301，具体包括：

搜索单元301a，具体用于将每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到每个测试词语的搜索结果；

构建单元301b，具体用于在每个测试词语的搜索结果中提取有效的测试语料，构建每个测试词语的测试语料集。

具体地，评价模块304，具体用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，统计每个测试语料集中的分词结果的个数，并统计每个测试语料集中的分词结果与每个测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，对待评价的分词程序进行评价。

可选地，评价模块304，具体用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，在所有测试语料集中，统计测试语料集中的所有分词结果均与该测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，及所有测试词语的个数，对待评价的分词程序进行评价。

综上所述，本实施例提供的分词评价装置，通过从互联网中获取测试词语的测试语料，构建测试词语的测试语料集，并根据测试词语与其测试语料集的分词结果的一致性，实现对分词性能的自动评价，无需人工参与，即可更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，并适合应用于大规模的数据测试。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分词评价方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括：

根据统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。

5.一种分词评价装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述构建模块，具体包括：

7.根据权利要求5所述的装置，其特征在于，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，对所述待评价的分词程序进行评价。

8.根据权利要求5所述的装置，其特征在于，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，在所有测试语料集中，统计测试语料集的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。