CN101727441A - 一种面向中文人名识别系统的评测方法及评测系统 - Google Patents
一种面向中文人名识别系统的评测方法及评测系统 Download PDFInfo
- Publication number
- CN101727441A CN101727441A CN200910243123A CN200910243123A CN101727441A CN 101727441 A CN101727441 A CN 101727441A CN 200910243123 A CN200910243123 A CN 200910243123A CN 200910243123 A CN200910243123 A CN 200910243123A CN 101727441 A CN101727441 A CN 101727441A
- Authority
- CN
- China
- Prior art keywords
- name
- sentence
- evaluation
- evaluating
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向中文人名识别系统的评测方法及评测系统自然语言处理领域。评测方法包括:评测文件生成步骤,从句子库抽取指定数目的句子,并对句子中的每个人名利用人名库中的人名进行替换产生评测文件;记录数据步骤,记录句子在评测文件中的行号、句子中的每个人名和人名在句子中的起始位置;识别步骤,利用待评测的中文人名识别系统对评测文件进行人名识别;判断步骤,根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出人名;评测指标计算步骤,根据判断步骤的判断结果形成评价中文人名识别系统的评测指标。本发明实现了中文人名识别系统评测的自动化,使不同识别系统有可比性;发现识别算法存在的问题。
Description
技术领域:
本发明涉及一种面向中文人名识别系统的评测方法,属于自然语言处理领域。
背景技术:
随着信息技术的发展,尤其是近几年互联网的飞速发展,新信息大量地涌现,Web上的数据正以每天几百万个页面的速度增长。目前,Web已成为人类获取信息的主要手段之一。面对海量的、大规模的、非结构化的语言文本信息,如何快速有效的获得所需的信息和知识己经成为自然语言处理研究的重点。命名实体识别尤其是中文人名识别在信息检索、信息抽取、机器翻译和文本分类等应用领域有重要作用,能够显著地提高信息检索、信息提取、机器翻译和文本分类等系统的性能,为从文本中自动获取知识奠定了基础。人名识别结果的好坏,直接决定着语法分析、语义分析等语言理解全过程的性能。
随着近几年人们对中文人名识别的研究,中文人名识别已经取得了一定的成果,然而对中文人名识别方法的评测的方法却是一个空白。正确客观的对人名识别方法的进行评测可以极大的促进中文人名识别方法的发展。
在当前评测人名识别方法主要是采取随意抓取一篇文章或一定数目的句子进行人名识别,然后人工统计识别的结果,进行人工计算召回率和准确率,通过几次结果的比较判断系统的稳定性。这主要存在以下不足:
(1)每次都要进行人工统计费时、费力而且不可避免的出现差错。
(2)句子数目、人名固定不具有代表性,统计的结果不能足够、客观的反应识别系统的准确率和召回率。
(3)评测次数过少,不能很好的反映系统的稳定性。
因此,设计一种中文人名识别系统的评测方法具有及其重要意义。
发明内容:
本发明的目的,就在于克服上面提到的当前中文姓名识别评测方法中的不足,提出了一种面向中文人名识别系统的评测方法。
本发明的一种面向中文人名识别系统的评测方法,其特征在于,包括以下步骤:
评测文件生成步骤:从句子库抽取指定数目的句子,并对句子中的每个
人名利用人名库中的人名进行替换产生评测文件;
记录数据步骤:在生成评测文件的过程中,记录句子在评测文件中的行号、句子中的每个人名及人名在句子中的起始位置;
识别步骤:利用待评测的中文人名识别系统对评测文件进行人名识别,得到识别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置;
判断步骤:根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出句子中的人名;所述预先设定的判断标准如下:当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人名;
评测指标计算步骤:根据判断步骤的判断结果形成评价中文人名识别系统的评测指标;
在所述评测指标计算步骤中的一次评测指标包括:
对识别系统的评测指标包括:
指标一:平均召回率,n次评测召回率的平均值;
指标二:平均准确率,n次评测准确率的平均值;
指标三:稳定性,通过n次评测准确率的方差来表示,方差小于等于一设定阈值0.01时,n取值范围为10≤n≤50,表明中文人名识别系统具有较高稳定性。
在所述评测文件生成步骤中所述句子库其特征在于:
特征一:句子库要涉及政治,经济,文化等多个领域;
特征二:句子库中句子的个数要大于1万条,每个句子要包含一个或多个人名,对句子中的每个人名采用计算机能够准确识别的标识来标示,如:“/nrb姓名/nre”(/nrb姓名在句子的起始位置,/nre姓名在句子的结束位置);
特征三:为增加评测的准确性和客观性,增加10%-50%不包含人名的干扰句子。
在所述评测文件生成步骤中所述人名库其特征在于:
特征一:人名库的姓氏个数要大于600个;
特征二:人名库包含的人名数要大于10万个。
一种所述方法的中文人名识别评测系统,该评测系统实现对中文人名识别系统的性能进行评测,该系统包括一计算机,其特征在于,该计算机包括:
第一存储模块,用于存储人名库和句子库;
第二存储模块,用于存储评测文件;
第三存储模块,用于存储记录数据中每个句子的行号,句子中的每个人名以及人名在句子中的起始位置;
第四存储模块,用于存储待评测的中文人名识别系统对评测文件人名识别的识别结果;
判断模块,根据预先设定的判断标准对识别结果和评测文件中句子中的人名及人名起始位置进行比较,判断人名识别系统是否正确识别出句子中的人名,并记录判断结果;
评测指标计算模块,根据判断模块的判断结果形成评价中文人名识别系统的评测指标。
显示模块,显示人名识别系统的评测指标,显示识别错误的句子和识别错误的原因,识别错误的原因包括句子中的人名没有被识别出来和人名被识别错误。
本发明对中文人名识别系统提供一套完整的评测方法和评测系统,实现了中文人名识别系统评测的自动化,解决了人工评测时的误差;使不同方法的中文人名识别系统间具有可比性;帮助中文人名识别系统发现识别算法存在的问题,对改善识别算法具有重要意义。
附图说明
图1是本发明的中文人名识别评测系统的组成示意图;
图2是本发明的中文人名识别系统评测方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明方法及系统进行详细描述。
如图1中的虚线框所示,本发明的中文人名识别评测系统包括第一存储模块、第二存储模块、第三存储模块、第四存储模块、判断模块、评测指标计算模块、显示模块。该中文人名识别评测系统可用一计算机来实现。
图2显示了本发明的中文人名识别系统评测方法的流程图,下面结合图1对本发明的方法和系统进行详细说明。
如图2所示,在步骤1中生成评测文件,评测文件是用来评测中文人名识别系统的文本文件,评测文件来源于句子库和人名库,为了客观、全面的评测一个中文人名识别系统:
(1)句子库需满足以下特征:
特征一:句子库要涉及政治,经济,文化等多个领域;
特征二:句子库中句子的个数要大于1万条,每个句子要包含一个或多个人名,对句子中的每个人名采用计算机能够准确识别的标识来标示,如:“/nrb姓名/nre”(/nrb姓名在句子的起始位置,/nre姓名在句子的结束位置);
特征三:句子库中要包含10%-50%不含人名的干扰句子。
(2)人名库需满足以下特征:
特征一:人名库的姓氏个数要大于600个;
特征二:人名库包含的人名数要大于10万个。
(3)评测文件应该具有多样性,利用系统产生随机数,利用随机数随机的从句子库中抽取指定数目的句子,并对每个句子中的每个人名利用人名库中的人名进行随机替换,利用线性同余算法产生随机数,保证了每次产生的句子和人名都是随机的,从而每次产生的评测文件都是不同的。
在一个实施例中,句子库中包含句子2万条,涉及政治、经济、文化三个领域,其中含有人名的句子1.5万条,对句子中的每个姓名采用“/nrb姓名/nre”(/nrb姓名在句子的起始位置,/nre姓名在句子的结束位置)的格式进行标识使计算机能够准确的识别;如:“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”,其中“田聪明”为人名;人名库包含人名个数47万个,其中包含中华姓氏647个,单姓姓氏569个和复姓姓氏78个;指定评测文件中的句子数为200,利用线性同余算法产生200个随机数,以随机数为行号从句子库中抽取200个句子;依次对每一个句子中的每一个人名产生一个随机数,利用随机数从人名库中抽取人名对句子中的人名进行替换,产生评测文件。如:抽取的句子为“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”,抽取的人名为“刘志作”,则评测文件中的句子为“广播电影电视部副部长刘志作主持了今天的颁证会。”。评测文件共包含200个句子,句子行号依次为1,2,......,200;评测文件存放在计算机中中文人名识别评测系统的第二存储模块中。
在步骤2中,记录评测文件中每个句子的行号、句子中的每个人名及人名在句子中的起始位置;在生成评测文件的过程中,记录评测文件中每个句子的行号,记录句子中被替换后的人名以及人名在该句中的起始位置。如:从句子库中抽取的第一个句子为“广播电影电视部副部长/nrb田聪明/nre主持了今天的颁证会。”,抽取的人名为“刘志作”,则评测文件中的句子为“广播电影电视部副部长刘志作主持了今天的颁证会。”。则应记录:行号1,人名刘志作,起始位置20。依次对评测文件中的每一个句子做以上记录,将数据存放在计算机中中文人名识别评测系统的第三存储模块中。
在步骤3中,用待评测的中文人名识别系统对评测文件进行人名识别。如图1所示,在步骤1中所生成的评测文件不仅要输入到计算机中中文人名识别评测系统中的第三模块还要将其输入到待测的中文人名识别系统中进行人名识别。中文人名识别系统对评测文件进行人名识别后,输出其识别结果。识别结果即为识别出的人名,为了确定识别出的人名,识别结果应间接或直接包含评测文件中句子的行号,对该句子识别出的人名,人名在该句子中的起始位置。识别结果记录在文件中并存放在计算机中中文人名识别评测系统的第四存储模块中。
在步骤4中,对中文人名识别系统的识别结果进行评测。中文人名识别评测系统中的判断模块从第四存储模块到中文人名识别系统的识别结果,从第三模块中得到评测文件中每个句子行号,句子中的人名,人名在句子中的起始位置。根据预先设定的判断标准对两组数据进行比较,从而判断人名识别系统是否正确识别出句子中的人名,并记录判断结果。在一个实施例中,预先设定的判断标准如下:
当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人名。
在步骤5中,计算评测指标。根据判断步骤的判断结果形成评价中文人名识别系统的评测指标。在一个实施例中,根据一次评测结果可以形成两个评测指标:召回率和准确率,其计算公式如下:
其中,在上述公式中,识别系统识别正确的人名数是在步骤4中评测中文人名识别系统的识别结果后得到的识别正确的人名数目;识别系统识别出的人名总数是中文人名识别系统识别出的所有人名数;评测文件中的人名总数是指评测文件中所有人名的总和。
根据一次评测结果形成的两个评测指标可以形成对整个中文人名识别系统的三个评测指标:平均召回率,平均准确率和稳定性。平均召回率,n(10≤n≤50)次评测召回率的平均值;平均准确率,n(10≤n≤50)次评测准确率的平均值;稳定性,通过n(10≤n≤50)次评测准确率的方差D来表示,方差越小说明系统性越好;当D≤0.01时,识别系统具有较好稳定性;其计算公式如下:
利用上述评测指标即可对中文人名识别系统的性能作出评估。在本发明中,不同的中文人名识别系统均可按照本发明的方法和系统进行评测,以便在同一平台上对不同的中文人名识别系统作出评价。
Claims (4)
1.一种面向中文人名识别系统的评测方法,其特征在于,包括以下步骤:
评测文件生成步骤:从句子库抽取指定数目的句子,并对句子中的每个人名利用人名库中的人名进行替换产生评测文件;
记录数据步骤:在生成评测文件的过程中,记录句子在评测文件中的行号、句子中的每个人名及人名在句子中的起始位置;
识别步骤:利用待评测的中文人名识别系统对评测文件进行人名识别,得到识别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置;
判断步骤:根据预先设定的判断标准对识别结果和记录数据进行比较,判断人名识别系统是否正确识别出句子中的人名;所述预先设定的判断标准如下:当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子中的起始位置对应相等时,为一个正确识别出的人名;
评测指标计算步骤:根据判断步骤的判断结果形成评价中文人名识别系统的评测指标;
在所述评测指标计算步骤中的一次评测指标包括:
对识别系统的评测指标包括:
指标一:平均召回率,n次评测召回率的平均值;
指标二:平均准确率,n次评测准确率的平均值;
指标三:稳定性,通过n次评测准确率的方差来表示,方差小于等于一设定阈值0.01时,n取值范围为10≤n≤50,表明中文人名识别系统具有较高稳定性。
2.根据权利要求1所述的中文人名识别系统的评测方法,其特征在于,在所述评测文件生成步骤中所述句子库其特征如下:
特征一:句子库要涉及多个领域;
特征二:句子库中句子的个数要大于1万条,每个句子要包含一个或多个人名,对句子中的每个人名采用计算机能够准确识别的标识来标示;
特征三:句子库包括10%-50%不包含人名的干扰句子。
3.根据权利要求1所述的中文人名识别系统的评测方法,其特征在于,在所述评测文件生成步骤中所述人名库其特征在于:
特征一:人名库的姓氏个数要大于600个;
特征二:人名库包含的人名数要大于10万个。
4.一种应用于权利要求1所述方法的中文人名识别评测系统,该评测系统实现对中文人名识别系统的性能进行评测,该系统包括一计算机,其特征在于,该计算机包括:
第一存储模块,用于存储人名库和句子库;
第二存储模块,用于存储评测文件;
第三存储模块,用于存储记录数据中每个句子的行号,句子中的每个人名以及该人名在句子中的起始位置;
第四存储模块,用于存储待评测的中文人名识别系统对评测文件人名识别的识别结果;
判断模块,根据预先设定的判断标准对识别结果和评测文件中句子中的人名及人名起始位置进行比较,判断人名识别系统是否正确识别出句子中的人名,并记录判断结果;
评测指标计算模块,根据判断模块的判断结果形成评价中文人名识别系统的评测指标;
显示模块,显示人名识别系统的评测指标,显示识别错误的句子和识别错误的原因,识别错误的原因包括句子中的人名没有被识别出来和人名被识别错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102431237A CN101727441B (zh) | 2009-12-25 | 2009-12-25 | 一种面向中文人名识别系统的评测方法及评测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102431237A CN101727441B (zh) | 2009-12-25 | 2009-12-25 | 一种面向中文人名识别系统的评测方法及评测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101727441A true CN101727441A (zh) | 2010-06-09 |
CN101727441B CN101727441B (zh) | 2012-02-01 |
Family
ID=42448344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102431237A Expired - Fee Related CN101727441B (zh) | 2009-12-25 | 2009-12-25 | 一种面向中文人名识别系统的评测方法及评测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727441B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN105868271A (zh) * | 2016-03-16 | 2016-08-17 | 东软集团股份有限公司 | 一种姓名统计方法及装置 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN109918676A (zh) * | 2019-03-18 | 2019-06-21 | 广东小天才科技有限公司 | 一种检测意图正则表达式的方法及装置、终端设备 |
CN110209561A (zh) * | 2019-05-09 | 2019-09-06 | 北京百度网讯科技有限公司 | 用于对话平台的评测方法和评测装置 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111683285A (zh) * | 2020-08-11 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 文件内容识别方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU631276B2 (en) * | 1989-12-22 | 1992-11-19 | Bull Hn Information Systems Inc. | Name resolution in a directory database |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
CN1313554A (zh) * | 2000-03-10 | 2001-09-19 | 张凯 | 一种名片信息管理系统 |
CN101359254B (zh) * | 2007-08-03 | 2011-06-15 | 北京搜狗科技发展有限公司 | 一种提高姓名词条输入效率的字符输入方法和系统 |
-
2009
- 2009-12-25 CN CN2009102431237A patent/CN101727441B/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN103823859B (zh) * | 2014-02-21 | 2017-02-22 | 安徽博约信息科技股份有限公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN105868271A (zh) * | 2016-03-16 | 2016-08-17 | 东软集团股份有限公司 | 一种姓名统计方法及装置 |
CN105868271B (zh) * | 2016-03-16 | 2019-12-06 | 东软集团股份有限公司 | 一种姓名统计方法及装置 |
CN106354713A (zh) * | 2016-08-29 | 2017-01-25 | 达而观信息科技(上海)有限公司 | 自动识别中文姓名的方法 |
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN111401083A (zh) * | 2019-01-02 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN111401083B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 名称的识别方法及装置、存储介质和处理器 |
CN109918676A (zh) * | 2019-03-18 | 2019-06-21 | 广东小天才科技有限公司 | 一种检测意图正则表达式的方法及装置、终端设备 |
CN110209561A (zh) * | 2019-05-09 | 2019-09-06 | 北京百度网讯科技有限公司 | 用于对话平台的评测方法和评测装置 |
CN110209561B (zh) * | 2019-05-09 | 2024-02-09 | 北京百度网讯科技有限公司 | 用于对话平台的评测方法和评测装置 |
CN111683285A (zh) * | 2020-08-11 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 文件内容识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101727441B (zh) | 2012-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727441B (zh) | 一种面向中文人名识别系统的评测方法及评测系统 | |
CN107977362B (zh) | 一种用于中文文本定级以及计算中文文本难度评分的方法 | |
CN108269125B (zh) | 评论信息质量评估方法及系统、评论信息处理方法及系统 | |
KR101983538B1 (ko) | 카테고리 비율들을 계산하기 위한 시스템들 및 방법들 | |
Spinde et al. | MBIC--A Media Bias Annotation Dataset Including Annotator Characteristics | |
CN104731954A (zh) | 基于群透视音乐推荐方法与系统 | |
CN102436483A (zh) | 一种基于显式共享子空间的视频广告检测方法 | |
CN109917457A (zh) | 一种地震波初至点的拾取方法以及设备 | |
CN106780204A (zh) | 一种用于试题题库的评估方法及装置 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
CN107342079A (zh) | 一种基于互联网的真实人声的采集系统 | |
Martínez-Villaronga et al. | Language model adaptation for video lectures transcription | |
CN110046789A (zh) | 一种学生信息素养测评试卷的自动生成方法及系统 | |
Koops et al. | Integration and quality assessment of heterogeneous chord sequences using data fusion | |
EP3819789A3 (en) | Method, apparatus, device and storage medium for map retrieval test | |
Heeringa et al. | Computational dialectology | |
CN109783586B (zh) | 基于聚类重采样的水军评论检测方法 | |
CN106338722A (zh) | 一种基于多次样本的高分辨雷达一维距离像目标识别方法 | |
CN115438645A (zh) | 一种序列标注任务的文本数据增强方法及系统 | |
CN114066506A (zh) | 网络行为ai分析算法 | |
CN108986786A (zh) | 语音交互设备评级方法、系统、计算机设备和存储介质 | |
CN111538669B (zh) | 一种基于历史问题回溯分析的测试案例抽取方法及装置 | |
CN110442864B (zh) | 语句通顺度确定方法、装置、电子设备及存储介质 | |
CN108874749B (zh) | 一种高考志愿录取概率模型的建立方法 | |
CN102789500B (zh) | 一种音频比较方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120201 Termination date: 20141225 |
|
EXPY | Termination of patent right or utility model |