CN101727441A

CN101727441A - 一种面向中文人名识别系统的评测方法及评测系统

Info

Publication number: CN101727441A
Application number: CN200910243123A
Authority: CN
Inventors: 李玉鑑; 张德栋; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2009-12-25
Filing date: 2009-12-25
Publication date: 2010-06-09
Anticipated expiration: 2029-12-25
Also published as: CN101727441B

Abstract

一种面向中文人名识别系统的评测方法及评测系统自然语言处理领域。评测方法包括：评测文件生成步骤，从句子库抽取指定数目的句子，并对句子中的每个人名利用人名库中的人名进行替换产生评测文件；记录数据步骤，记录句子在评测文件中的行号、句子中的每个人名和人名在句子中的起始位置；识别步骤，利用待评测的中文人名识别系统对评测文件进行人名识别；判断步骤，根据预先设定的判断标准对识别结果和记录数据进行比较，判断人名识别系统是否正确识别出人名；评测指标计算步骤，根据判断步骤的判断结果形成评价中文人名识别系统的评测指标。本发明实现了中文人名识别系统评测的自动化，使不同识别系统有可比性；发现识别算法存在的问题。

Description

一种面向中文人名识别系统的评测方法及评测系统

技术领域：

本发明涉及一种面向中文人名识别系统的评测方法，属于自然语言处理领域。

背景技术：

随着信息技术的发展，尤其是近几年互联网的飞速发展，新信息大量地涌现，Web上的数据正以每天几百万个页面的速度增长。目前，Web已成为人类获取信息的主要手段之一。面对海量的、大规模的、非结构化的语言文本信息，如何快速有效的获得所需的信息和知识己经成为自然语言处理研究的重点。命名实体识别尤其是中文人名识别在信息检索、信息抽取、机器翻译和文本分类等应用领域有重要作用，能够显著地提高信息检索、信息提取、机器翻译和文本分类等系统的性能，为从文本中自动获取知识奠定了基础。人名识别结果的好坏，直接决定着语法分析、语义分析等语言理解全过程的性能。

随着近几年人们对中文人名识别的研究，中文人名识别已经取得了一定的成果，然而对中文人名识别方法的评测的方法却是一个空白。正确客观的对人名识别方法的进行评测可以极大的促进中文人名识别方法的发展。

在当前评测人名识别方法主要是采取随意抓取一篇文章或一定数目的句子进行人名识别，然后人工统计识别的结果，进行人工计算召回率和准确率，通过几次结果的比较判断系统的稳定性。这主要存在以下不足：

(1)每次都要进行人工统计费时、费力而且不可避免的出现差错。

(2)句子数目、人名固定不具有代表性，统计的结果不能足够、客观的反应识别系统的准确率和召回率。

(3)评测次数过少，不能很好的反映系统的稳定性。

因此，设计一种中文人名识别系统的评测方法具有及其重要意义。

发明内容：

本发明的目的，就在于克服上面提到的当前中文姓名识别评测方法中的不足，提出了一种面向中文人名识别系统的评测方法。

本发明的一种面向中文人名识别系统的评测方法，其特征在于，包括以下步骤：

评测文件生成步骤：从句子库抽取指定数目的句子，并对句子中的每个

人名利用人名库中的人名进行替换产生评测文件；

记录数据步骤：在生成评测文件的过程中，记录句子在评测文件中的行号、句子中的每个人名及人名在句子中的起始位置；

识别步骤：利用待评测的中文人名识别系统对评测文件进行人名识别，得到识别结果，识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置；

判断步骤：根据预先设定的判断标准对识别结果和记录数据进行比较，判断人名识别系统是否正确识别出句子中的人名；所述预先设定的判断标准如下：当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时，为一个正确识别出的人名；

评测指标计算步骤：根据判断步骤的判断结果形成评价中文人名识别系统的评测指标；

在所述评测指标计算步骤中的一次评测指标包括：

对识别系统的评测指标包括：

指标一：平均召回率，n次评测召回率的平均值；

指标二：平均准确率，n次评测准确率的平均值；

指标三：稳定性，通过n次评测准确率的方差来表示，方差小于等于一设定阈值0.01时，n取值范围为10≤n≤50，表明中文人名识别系统具有较高稳定性。

在所述评测文件生成步骤中所述句子库其特征在于：

特征一：句子库要涉及政治，经济，文化等多个领域；

特征二：句子库中句子的个数要大于1万条，每个句子要包含一个或多个人名，对句子中的每个人名采用计算机能够准确识别的标识来标示，如：“/nrb姓名/nre”(/nrb姓名在句子的起始位置，/nre姓名在句子的结束位置)；

特征三：为增加评测的准确性和客观性，增加10％-50％不包含人名的干扰句子。

在所述评测文件生成步骤中所述人名库其特征在于：

特征一：人名库的姓氏个数要大于600个；

特征二：人名库包含的人名数要大于10万个。

一种所述方法的中文人名识别评测系统，该评测系统实现对中文人名识别系统的性能进行评测，该系统包括一计算机，其特征在于，该计算机包括：

第一存储模块，用于存储人名库和句子库；

第二存储模块，用于存储评测文件；

第三存储模块，用于存储记录数据中每个句子的行号，句子中的每个人名以及人名在句子中的起始位置；

第四存储模块，用于存储待评测的中文人名识别系统对评测文件人名识别的识别结果；

判断模块，根据预先设定的判断标准对识别结果和评测文件中句子中的人名及人名起始位置进行比较，判断人名识别系统是否正确识别出句子中的人名，并记录判断结果；

评测指标计算模块，根据判断模块的判断结果形成评价中文人名识别系统的评测指标。

显示模块，显示人名识别系统的评测指标，显示识别错误的句子和识别错误的原因，识别错误的原因包括句子中的人名没有被识别出来和人名被识别错误。

本发明对中文人名识别系统提供一套完整的评测方法和评测系统，实现了中文人名识别系统评测的自动化，解决了人工评测时的误差；使不同方法的中文人名识别系统间具有可比性；帮助中文人名识别系统发现识别算法存在的问题，对改善识别算法具有重要意义。

附图说明

图1是本发明的中文人名识别评测系统的组成示意图；

图2是本发明的中文人名识别系统评测方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明方法及系统进行详细描述。

如图1中的虚线框所示，本发明的中文人名识别评测系统包括第一存储模块、第二存储模块、第三存储模块、第四存储模块、判断模块、评测指标计算模块、显示模块。该中文人名识别评测系统可用一计算机来实现。

图2显示了本发明的中文人名识别系统评测方法的流程图，下面结合图1对本发明的方法和系统进行详细说明。

如图2所示，在步骤1中生成评测文件，评测文件是用来评测中文人名识别系统的文本文件，评测文件来源于句子库和人名库，为了客观、全面的评测一个中文人名识别系统：

(1)句子库需满足以下特征：

特征一：句子库要涉及政治，经济，文化等多个领域；

特征三：句子库中要包含10％-50％不含人名的干扰句子。

(2)人名库需满足以下特征：

特征一：人名库的姓氏个数要大于600个；

特征二：人名库包含的人名数要大于10万个。

(3)评测文件应该具有多样性，利用系统产生随机数，利用随机数随机的从句子库中抽取指定数目的句子，并对每个句子中的每个人名利用人名库中的人名进行随机替换，利用线性同余算法产生随机数，保证了每次产生的句子和人名都是随机的，从而每次产生的评测文件都是不同的。

在一个实施例中，句子库中包含句子2万条，涉及政治、经济、文化三个领域，其中含有人名的句子1.5万条，对句子中的每个姓名采用“/nrb姓名/nre”(/nrb姓名在句子的起始位置，/nre姓名在句子的结束位置)的格式进行标识使计算机能够准确的识别；如：“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”，其中“田聪明”为人名；人名库包含人名个数47万个，其中包含中华姓氏647个，单姓姓氏569个和复姓姓氏78个；指定评测文件中的句子数为200，利用线性同余算法产生200个随机数，以随机数为行号从句子库中抽取200个句子；依次对每一个句子中的每一个人名产生一个随机数，利用随机数从人名库中抽取人名对句子中的人名进行替换，产生评测文件。如：抽取的句子为“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”，抽取的人名为“刘志作”，则评测文件中的句子为“广播电影电视部副部长刘志作主持了今天的颁证会。”。评测文件共包含200个句子，句子行号依次为1，2，......，200；评测文件存放在计算机中中文人名识别评测系统的第二存储模块中。

在步骤2中，记录评测文件中每个句子的行号、句子中的每个人名及人名在句子中的起始位置；在生成评测文件的过程中，记录评测文件中每个句子的行号，记录句子中被替换后的人名以及人名在该句中的起始位置。如：从句子库中抽取的第一个句子为“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”，抽取的人名为“刘志作”，则评测文件中的句子为“广播电影电视部副部长刘志作主持了今天的颁证会。”。则应记录：行号1，人名刘志作，起始位置20。依次对评测文件中的每一个句子做以上记录，将数据存放在计算机中中文人名识别评测系统的第三存储模块中。

在步骤3中，用待评测的中文人名识别系统对评测文件进行人名识别。如图1所示，在步骤1中所生成的评测文件不仅要输入到计算机中中文人名识别评测系统中的第三模块还要将其输入到待测的中文人名识别系统中进行人名识别。中文人名识别系统对评测文件进行人名识别后，输出其识别结果。识别结果即为识别出的人名，为了确定识别出的人名，识别结果应间接或直接包含评测文件中句子的行号，对该句子识别出的人名，人名在该句子中的起始位置。识别结果记录在文件中并存放在计算机中中文人名识别评测系统的第四存储模块中。

在步骤4中，对中文人名识别系统的识别结果进行评测。中文人名识别评测系统中的判断模块从第四存储模块到中文人名识别系统的识别结果，从第三模块中得到评测文件中每个句子行号，句子中的人名，人名在句子中的起始位置。根据预先设定的判断标准对两组数据进行比较，从而判断人名识别系统是否正确识别出句子中的人名，并记录判断结果。在一个实施例中，预先设定的判断标准如下：

当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时，为一个正确识别出的人名。

在步骤5中，计算评测指标。根据判断步骤的判断结果形成评价中文人名识别系统的评测指标。在一个实施例中，根据一次评测结果可以形成两个评测指标：召回率和准确率，其计算公式如下：

其中，在上述公式中，识别系统识别正确的人名数是在步骤4中评测中文人名识别系统的识别结果后得到的识别正确的人名数目；识别系统识别出的人名总数是中文人名识别系统识别出的所有人名数；评测文件中的人名总数是指评测文件中所有人名的总和。

根据一次评测结果形成的两个评测指标可以形成对整个中文人名识别系统的三个评测指标：平均召回率，平均准确率和稳定性。平均召回率，n(10≤n≤50)次评测召回率的平均值；平均准确率，n(10≤n≤50)次评测准确率的平均值；稳定性，通过n(10≤n≤50)次评测准确率的方差D来表示，方差越小说明系统性越好；当D≤0.01时，识别系统具有较好稳定性；其计算公式如下：

Ravg = \frac{1}{n} (R_{1} + R_{2} + . . . + R_{n}),

(R_n第n次评测的召回率)

Eavg = \frac{1}{n} (E_{1} + E_{2} + . . . + E_{n}),

(E_n第n次评测的准确率)

D = \frac{1}{n} [{(E_{1} - E_{avg})}^{2} + {(E_{2} - E_{avg})}^{2} + . . . + {(E_{n} - E_{avg})}^{2}]

利用上述评测指标即可对中文人名识别系统的性能作出评估。在本发明中，不同的中文人名识别系统均可按照本发明的方法和系统进行评测，以便在同一平台上对不同的中文人名识别系统作出评价。

Claims

1.一种面向中文人名识别系统的评测方法，其特征在于，包括以下步骤：

评测文件生成步骤：从句子库抽取指定数目的句子，并对句子中的每个人名利用人名库中的人名进行替换产生评测文件；

在所述评测指标计算步骤中的一次评测指标包括：

指标一：

指标二：

对识别系统的评测指标包括：

指标一：平均召回率，n次评测召回率的平均值；

指标二：平均准确率，n次评测准确率的平均值；

2.根据权利要求1所述的中文人名识别系统的评测方法，其特征在于，在所述评测文件生成步骤中所述句子库其特征如下：

特征一：句子库要涉及多个领域；

特征二：句子库中句子的个数要大于1万条，每个句子要包含一个或多个人名，对句子中的每个人名采用计算机能够准确识别的标识来标示；

特征三：句子库包括10％-50％不包含人名的干扰句子。

3.根据权利要求1所述的中文人名识别系统的评测方法，其特征在于，在所述评测文件生成步骤中所述人名库其特征在于：

特征一：人名库的姓氏个数要大于600个；

特征二：人名库包含的人名数要大于10万个。

4.一种应用于权利要求1所述方法的中文人名识别评测系统，该评测系统实现对中文人名识别系统的性能进行评测，该系统包括一计算机，其特征在于，该计算机包括：

第一存储模块，用于存储人名库和句子库；

第二存储模块，用于存储评测文件；

第三存储模块，用于存储记录数据中每个句子的行号，句子中的每个人名以及该人名在句子中的起始位置；

评测指标计算模块，根据判断模块的判断结果形成评价中文人名识别系统的评测指标；