CN101246473B

CN101246473B - 一种分词系统的评测方法和一种分词评测系统

Info

Publication number: CN101246473B
Application number: CN2008100898349A
Authority: CN
Inventors: 张耀杰; 邵荣防
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2008-03-28
Filing date: 2008-03-28
Publication date: 2010-09-15
Anticipated expiration: 2028-03-28
Also published as: CN101246473A

Abstract

本发明公开了一种分词系统的评测方法，所述分词系统包括基准分词系统和目标分词系统，所述方法包括：将测试语料分别在基准分词系统和目标分词系统进行切分，获得基准切分结果和目标切分结果；依据所述基准切分结果和目标切分结果生成评测参数，以评测所述目标分词系统。本发明可以在节约成本的情况下，提高对分词系统评测的处理效率。

Description

一种分词系统的评测方法和一种分词评测系统

技术领域

本发明涉及自然语言处理领域，特别是涉及一种分词系统的评测方法和一种分词评测系统。

背景技术

分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解，就是分词技术所要解决的问题。例如，英文是以词为单位的，词和词之间是靠空格隔开，对于英文句子“I am a student”，计算机可以很简单通过空格知道student是一个单词；而中文是以字为单位，句子中所有的字连起来才能描述一个意思，对于中文句子“我是一个学生”，计算机不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词。例如，对于“我是一个学生”，分词的结果可以是：我是一个学生。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，而需要综合不同的算法。由于中文分词是其他中文信息处理的基础，诸如搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等技术均需要运用到中文分词技术，因此，有必要建立一个相应的评测机制，用来评价分词系统分词的合理性。

现有技术中，对于分词系统的评测通常采用将分词系统分词的结果与基础语料库(如，北大语料库)进行匹配，根据匹配的结果验证分词的合理性，在实际中，这种匹配评测的过程需要大量的人工操作才能得以完成，且数据处理量较大，不仅评测效率较低，成本也较高。

因此，现阶段需要本领域技术人员迫切解决的一个技术问题就是，如何在尽可能地节约成本的情况下，提高对分词系统评测的处理效率。

发明内容

本发明所要解决的技术问题是提供一种分词系统的评测方法，以在节约成本的情况下，提高对分词系统评测的处理效率。

本发明的另一个目的是提供了一种分词评测系统，用以保证上述方法在实际中的实现及应用。

为了解决上述技术问题，本发明实施例公开了一种分词系统的评测方法，包括：

采用目标分词系统对测试语料进行多次切分，获得多个目标切分结果，并采用基准分词系统对所述测试预料进行切分，获得基准切分结果；

将所述多个目标切分结果进行纵向对比，得到第一评测参数，用以评估所述目标分词系统的稳定性；并将所述目标切分结果与所述基准切分结果进行横向对比，得到第二评测参数，用以评估所述目标分词系统的准确性。

优选的，所述的方法，还包括：

记录所述评测参数符合预设条件的测试语料。

优选的，所述的方法，还包括：

从不符合所述预设条件的测试语料中，选取一定的测试语料生成语料库。

优选的，所述评测步骤包括：

依据所述测试语料的多个目标切分结果计算第一评测参数；以及，匹配所述基准切分结果和目标切分结果获得第二评测参数；

依据所述第一评测参数和第二评测参数评测所述目标分词系统。

优选的，所述切分步骤包括：

获取所述测试语料的特征信息；

所述基准分词系统和目标分词系统分别依据所述特征信息对所述测试语料进行切分，获得基准切分结果和目标切分结果。

优选的，所述切分步骤还包括：

将具有同一特征信息的测试语料保存至同一文件中。

优选的，所述评测参数符合预设条件的测试语料为不合理语料，所述记录为在文件或数据库中记录。

优选的，所述基准分词系统为海量智能分词系统。

本发明实施例还公开了一种分词评测系统，所述评测系统用于评测分词系统，所述分词系统包括基准分词系统和目标分词系统，所述评测系统包括：

结果获取模块，用于采用目标分词系统对测试语料进行多次切分，获得多个目标切分结果，并采用基准分词系统对所述测试预料进行切分，获得基准切分结果；

参数评测模块，用于将所述多个目标切分结果进行纵向对比，得到第一评测参数，用以评估所述目标分词系统的稳定性；并将所述目标切分结果与所述基准切分结果进行横向对比，得到第二评测参数，用以评估所述目标分词系统的准确性。

优选的，所述的评测系统，还包括：

记录模块，用于记录所述评测参数符合预设条件的测试语料。

优选的，所述的评测系统，还包括：

自定义库生成模块，用于从不符合所述预设条件的测试语料中，选取一定的测试语料生成语料库。

优选的，所述参数评测模块包括：

参数计算子模块，用于依据所述测试语料的多个目标切分结果计算第一评测参数；以及，匹配所述基准切分结果和目标切分结果获得第二评测参数；

评测子模块，用于依据所述第一评测参数和第二评测参数评测所述目标分词系统。

优选的，所述结果获取模块包括：

特征提取子模块，用于获取所述测试语料的特征信息；

切分子模块，用于获得所述基准分词系统和目标分词系统分别依据所述特征信息对所述测试语料切分后的基准切分结果和目标切分结果。

优选的，所述结果获取模块还包括：

保存子模块，用于将具有同一特征信息的测试语料保存至同一文件中。

与现有技术相比，本发明具有以下优点：

本发明通过评测参数来评估分词系统的合理性，具体地，通过两个指标来评估分词系统合理性，一是将采用目标分词系统对测试语料进行多次切分获得的目标切分结果进行对比，以获得目标切分结果的一致性情况，即获得分词系统的稳定性评测参数；二是将对测试语料的目标切分结果与采用基准分词系统获得的基准切分结果进行对比，以获得目标切分结果与基准切分结果的匹配情况，即获得分词系统的准确性评测参数。基于所述评测参数评测目标分词系统，可以对现有技术中，每次都需要将目标分词系统的分词结果与基础语料库进行对比判断的处理过程大大简化，提高了对分词系统评测的处理效率，并有效节约了人工评测的成本。

附图说明

图1是本发明的一种分词系统的评测方法实施例1的流程图；

图2是本发明的一种分词系统的评测方法实施例2的流程图；

图3是本发明的一种分词评测系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明实施例的核心构思之一在于，通过评测参数来评估分词系统的合理性，具体地，通过两个指标来评估分词系统合理性，一是将采用目标分词系统对测试语料进行多次切分获得的目标切分结果进行对比，以获得目标切分结果的一致性情况，即获得分词系统的稳定性评测参数；二是将对测试语料的目标切分结果与采用基准分词系统获得的基准切分结果进行对比，以获得目标切分结果与基准切分结果的匹配情况，即获得分词系统的准确性评测参数。基于所述评测参数评测目标分词系统，可以对现有技术中，每次都需要将目标分词系统的分词结果与基础语料库进行对比判断的处理过程大大简化，提高了对分词系统评测的处理效率，并有效节约了人工评测的成本。

参考图1，示出了本发明的一种分词系统的评测方法实施例1的流程图，可以包括以下步骤：

步骤101、将测试语料分别在基准分词系统和目标分词系统进行切分，获得基准切分结果和目标切分结果；

步骤102、依据所述基准切分结果和目标切分结果生成评测参数，以评测所述目标分词系统。

分词系统中常用的分词方法包括：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：是指，中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

分词系统通常需要综合多种分词方法来完成分词操作。以目前较为成熟的海量智能分词系统为例，就是采用“复方分词法”，所谓复方，相当于用中药中的复方概念，即用不同的药才综合起来去医治疾病，同样，对于中文词的识别，需要多种算法来处理不同的问题。为获得较好的评测效果，在本实施例中，对目标分词系统的评测可以基于较为成熟、完善的基准分词系统完成，如上述海量智能分词系统。

为提高评测效果，所述测试语料可以为具有某一特征信息的语料集合，在这种情况下，本实施例的切分步骤101可以包括以下子步骤：

子步骤A1、获取所述测试语料的特征信息；

子步骤A2、所述基准分词系统和目标分词系统分别依据所述特征信息对所述测试语料进行切分，获得基准切分结果和目标切分结果。

在实际中，所述特征信息可以通过依据语料特征对语料作出的特殊标记来获得，如词类标记、词性标记等。

例如，测试语料为：

{你}跟着{我}[走]。

小红明天会[帮助]{我}考试。

{我们}[写](对联)不是[装](文雅)，而是[学](知识)。

(人参){这}种(植物)，<娇嫩>极了。

在上述测试语料中，名词用()标记，动词用[]标记，形容词用<>标记，代词用{}标记，在测试时即可直接分析被相应标记标注部分的词性。

作为另一种实施方式，本实施例的切分步骤101可以包括以下子步骤：

子步骤B1、获取所述测试语料的特征信息；

子步骤B2、将具有同一特征信息的测试语料保存至同一文件中；

子步骤B3、所述基准分词系统和目标分词系统分别依据所述特征信息对所述测试语料进行切分，获得基准切分结果和目标切分结果。

例如，将同类词性的测试语料保存在同一个文件中，使分词系统直接依据词性对测试语料进行相应切分即可。

当然，本领域技术人员采用任一种方法完成切分都是可行的，例如，采用多种标记，如″非常和谐的发展″″这种生活″″炉边宴会″中的″发展″、″生活″、″宴会″标注名词或动词；又如，″给农民″中的″给″标注介词和动词，使分词系统依据相应标记的权重进行切分；或者，对唐诗、宋词、元曲等语料按位置断句的，由于断句的部分往往是代表一种词性，且第一、二和四句(律诗中还有第五、六和八句)断句后相同位置的词性也基本相同，则可以依据这种位置规律进行切分等，本发明对此并不需要作出限定。

优选的，所述步骤102也可以采用实施例2中的相关步骤，当然，本领域技术人员根据实际需要采用任一种现有技术基于所述基准切分结果和目标切分结果生成评测参数也是可行的，本发明对此不作限制。

参考图2，示出了本发明的一种分词系统的评测方法实施例2的流程图，可以包括以下步骤：

步骤201、将测试语料分别在基准分词系统和目标分词系统进行切分，获得基准切分结果和目标切分结果；

步骤202、依据所述基准切分结果和目标切分结果生成评测参数，以评测所述目标分词系统；

步骤203、记录所述评测参数符合预设条件的测试语料；

步骤204、从不符合所述预设条件的测试语料中，选取一定的测试语料生成语料库。

优选的，所述步骤202可以包括以下子步骤：

子步骤C1、依据所述测试语料的多个目标切分结果计算第一评测参数；以及，匹配所述基准切分结果和目标切分结果获得第二评测参数；

子步骤C2、依据所述第一评测参数和第二评测参数评测所述目标分词系统。

所述第一评测参数和第二评测参数为评估分词系统合理性的两个指标，具体而言，所述第一评测参数可以将多次切分获得的目标切分结果进行纵向对比，以获得目标切分结果的一致性情况，即评估分词系统的稳定性评测参数；所述第二评测参数可以将目标切分结果与基准切分结果进行横向对比，以获得目标切分结果与基准切分结果的匹配情况，即评估分词系统的准确性评测参数。

本实施例带来的又一技术效果为，对于目标分词系统切分不合理的测试语料保存至另一文件或数据库中，用以为开发人员提供定位修改或其它处理的依据。

例如，通过以下代码评测目标切分结果：

char* SegWord(const char* word，int TYPE)；

/*

功能：将指定的字符串用指定的方式进行切分

输入：

word：待切分的字符串

TYPE：切分的类型，0为基准分词系统带标注的扩展模式

1为目标分词系统的第一模式加标注

2为目标分词系统的第二模式加标注

输出：

按要求切分后的字符串

*/

int WordsSegCheck(const char* filename，char* Pos，char* errorFile)；

/*

功能：对一个含有同类词性的测试语料文件进行测试，输出正确的结果数，并将错误的语料结果输出到另一文件中

输入：

Filename：输入文件的文件名

Pos：输入文件中测试语料的词性

errorFile：出现问题的测试语料的输出文件名

输出：

正确的测试语料结果数

*/

可以看出，上述代码可以适用于前述同类词性语料测试的情形。

typedef struce SegSign{

Char chStart；//标注开始符，只占一个字符，如“(”

Char chEnd；//标注结束符，只占一个字符，如“)”

Char* pPos；//被包括部分的词性标注

}；

int SentenceSegCheck(const char* filename，

struct SegSign[]，char* errorFile)；

/*

功能：对一个含有句子语料的文件进行测试，输出正确的语料结果数，并将错误的语料结果输出到另一个文件中

输入：

Filename：输入文件的文件名

SegSign[]：标记(括号)与标记的词性

以前述名词用()标记，动词用[]标记，形容词用<>标记，代词用{}标记为例，则为，

SegSign[0]＝{′(′，′)′，″/n″}；

SegSign[1]＝{′[′，′]′，″/v″}；

SegSign[2]＝{′<′，′>′，″/a″}；

SegSign[3]＝{′{′，′}′，″/r″}；

errorFile：出现问题的测试语料的输出文件名

输出：

正确的语料结果数

*/

可以看出，上述代码可以适用于前述标记词性语料测试的情形。

int PoemSegCheck(const char* filename，int bit，char* errorFile)；

/*

功能：对一个含有诗词曲语料的文件进行测试，输出正确的语料结果数，并将错误的语料结果输出到另一个文件中

输入：

Filename：输入文件的文件名

Bit：模四后除第bit句外其它词要对仗工整

errorFile：测试中出现问题的语料输出文件名

输出：

正确语料结果数

(语料可以以！！开始，出现一次！！，即对应一个语料)

*/

在本实施例中，还可以进一步通过步骤204生成自定义标准的语料库，以保证与基准分词系统的语料不重复，以使得目标分词系统的评测与问题回归的工作更为简化。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参考图3，示出了本发明的一种分词评测系统实施例的结构框架图，所述评测系统用于评测分词系统，所述分词系统包括基准分词系统和目标分词系统，所述评测系统可以包括模块：

结果获取模块301，用于将测试语料分别在基准分词系统和目标分词系统进行切分，获得基准切分结果和目标切分结果；

参数评测模块302，用于依据所述基准切分结果和目标切分结果生成评测参数，以评测所述目标分词系统。

优选的，在本实施例中，所述的评测系统还可以包括：

记录模块303，用于记录所述评测参数符合预设条件的测试语料。

优选的，在本实施例中，所述的评测系统还可以包括：

自定义库生成模块304，用于从不符合所述预设条件的测试语料中，选取一定的测试语料生成语料库。

优选的，所述参数评测模块可以包括以下子模块：

优选的，所述结果获取模块可以包括以下子模块：

特征提取子模块，用于获取所述测试语料的特征信息；

优选的，所述结果获取模块还可以包括以下子模块：

以下基于一种本发明实施例的具体应用以更进一步说明本发明。

应用本发明实施例的评测系统对分词系统合理性评测的过程可以包括：

步骤S1、读入评测系统中自定义标准的语料库K；

在实际中，对于语料库K中没有出现的语料，均假定基准分词系统的切分与标注是正确的。

步骤S2、评测系统收到测试语料S后，先做一个备份S′；

步骤S3、评测系统将S进行分析，选择合适的调用方式向基准分词系统(HL)和目标分词系统(QS)进行发送；

步骤S4、基准分词系统和目标分词系统分别对S进行切分，其中，基准分词系统返回结果S(HL)，目标分词系统返回结果S(QS)；

步骤S5、参数评测模块向目标分词系统发送S，得到结果Si(i＝0...N)，对比S(QS)进行稳定性判断，得出稳定性参数(第一评测参数)S_stab(S)，若满分为100分，则可以通过以下公式得到稳定性参数：

S_tab(S)＝100*X/N

其中，X为相Si与S(QS)相同的个数。

步骤S6、参数评测模块依据QS(S)和HL(S)，自动计算QS(S)与HL(S)的结果的相同个数Nsame，即可以通过以下公式得到准确性参数(第二评测参数)：

S_vera(S)＝100*Nsame/Nall

其中，Nall为max{HL(S)，QS(S)}。

步骤S7、对上述稳定性参数和准确性参数进行加权求和获得总评测参数，可以通过以下公式表示：

sum(S)＝k1*S_stab(S)+(1-k1)*S_vera(S)

其中，k1为0-1的系数，在实际中，k1可以设置成尽可能小的数，比如0.01。

步骤S8、设置不合理语料的选取条件F，对于总评测参数小于F的语料，存入集合temp中；

步骤S9、与北大语料库进行对比判断，将语料正确的结果存入集合K中；

步骤S10、对下一个语料重复S1-S9步骤，在n个语料评测后，对QS系统根据评测参数进行评测为total＝k2*|temp|/n。

其中，k2为系数，可以为10的幂。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见前述部分的相关描述即可。上述随意举出了本发明的几种实施例，本领域技术人员根据具体情况适当组合、选择，可以充分地发挥本发明的技术功效。基于上述实施例的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

由于图3所示的系统都可以对应适用于前述的各种方法实施例中，所以描述较为简略，未详尽之处可以参见本说明书前面相应部分的描述。

以上对本发明所提供的一种分词系统的评测方法和一种分词评测系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种分词系统的评测方法，其特征在于，所述分词系统包括基准分词系统和目标分词系统，所述方法包括：

2.如权利要求1所述的方法，其特征在于，还包括：

记录所述评测参数符合预设条件的测试语料。

3.如权利要求2所述的方法，其特征在于，还包括：

4.如权利要求1、2或3所述的方法，其特征在于，所述评测步骤包括：

5.如权利要求1所述的方法，其特征在于，所述切分步骤包括：

获取所述测试语料的特征信息；

6.如权利要求5所述的方法，其特征在于，所述切分步骤还包括：

将具有同一特征信息的测试语料保存至同一文件中。

7.如权利要求2所述的方法，其特征在于，所述评测参数符合预设条件的测试语料为不合理语料，所述记录为在文件或数据库中记录。

8.一种分词评测系统，其特征在于，所述评测系统用于评测分词系统，所述分词系统包括基准分词系统和目标分词系统，所述评测系统包括：

9.如权利要求8所述的评测系统，其特征在于，还包括：

10.如权利要求9所述的评测系统，其特征在于，还包括：

11.如权利要求8、9或10所述的评测系统，其特征在于，所述参数评测模块包括：

12.如权利要求8所述的评测系统，其特征在于，所述结果获取模块包括：

特征提取子模块，用于获取所述测试语料的特征信息；

13.如权利要求12所述的评测系统，其特征在于，所述结果获取模块还包括：