CN1253815C

CN1253815C - 计算机在中文数据中识别中文姓名的方法

Info

Publication number: CN1253815C
Application number: CN 00124352
Authority: CN
Inventors: 崔珊珊; 雷鸣; 刘建国; 李彦宏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2000-09-08
Filing date: 2000-09-08
Publication date: 2006-04-26
Anticipated expiration: 2020-09-08
Also published as: CN1342942A

Abstract

一种提高计算机在进行中文数据识别时相关度的方法，由计算机的识别模块对输入模块输入的中文信息进行处理并查找出姓氏关键字；并由中央处理器对查找出的姓氏关键字进行判断，判断该姓氏关键字是否为存储模块中的关键字，如不属于计算机存储模块中的纯姓氏存储模块，中央处理器再对其进行判断，最终提高中文数据识别相关度。本发明能够有效地从被识别对象中快捷识别中文姓名，获得较高地识别准确性，而且能够通过相关度的调整、排序，获得更准确的高质量识别结果。

Description

计算机在中文数据中识别中文姓名的方法

技术领域

本发明涉及一种计算机在中文数据中识别中文姓名的方法。

背景技术

随着计算机技术的普及、网络应用的延伸，人们的日常工作和生活对于信息资源的利用越来越离不开计算机识别。而无论是对各类信息中心的资料查询，还是对数据仓库、网络、数字图书馆等各种电子化信息资料源进行相关信息资料查询，以姓名为途径或目的的识别查询都占有很大的比重。例如，根据对网络用户查询日志的统计，大约5％的识别属于姓名搜索。但是，现有的识别方法都不能很好地支持对中文姓名的识别。实际中常常遇到的情况是：当输入“刘建”期望查找一位名叫“刘建”的先生时，得到的却是有关“刘建国”、“刘建军”等人的资料。

这是因为目前的中文姓名识别大都采用英文搜索引擎的核心技术，没有根据中文语言的特点进行相应处理。中文与英文相比有很多不同的特点。其中最大的特点是英文有天然的分割符(空格或符号)将语言中的最小语义单位词汇间隔开来、使得计算机可以轻易识别；而中文是连续书写，没有这种天然的分割符。人名是一种非常重要的特殊词汇，只有在中文语句中识别出人名，才能正确理解与人有关的信息，从而进行正确的识别等操作。

传统的中文姓名识别是通过以下两种技术实现：

1、中文双字识别法：这种方法直接将连续的包含N个汉字的中文句子机械的切分为N-1个双字，形成N-1个“词汇”。例如：“刘建国教授”＝“刘建”+“建国”+“国教”+“教授”

在使用这种技术的系统中，当你识别“刘建”时，上述的这段文字便会被错误地检出。

2、中文切词识别法：这种方法采用一个配置好的电子版中文词典，通过将待分析的文字和词典进行一定形式的匹配，辅以其它技术(如词频统计、语法处理)实现对中文的分析处理。这种技术主要依赖分析使用的词典。一个大而全的词典会大大提高实现分词的准确率。但是这种技术不能够对人名进行有效的处理，因为中文人名千差万别，不可能都配置到词典中。对于没有配置在词典中的名字，词汇切分的准确率非常低。仍以上面的例句为例，如果一个词典中加入了“刘建国”这个词汇，在对“刘建国教授”进行识别时，分词结果应为：

“刘建国教授”＝“刘”+“建国”+“教授”

如果没有配置这个词汇，而“建国”和“教授”被配成了词汇，则分词结果为：

“刘建国教授”＝“刘”+“建国”+“教授”

因此当识别“刘建”时，不会识别出这段文字；但是当不期望识别“建国”时，这个结果又会反馈出来。

计算机识别系统处理的对象往往是数量非常大的信息，例如搜索引擎处理的对象是数以千万计或亿计的网页信息。用户使用搜索引擎时，往往不是识别不到结果，而是识别得到的结果特别多，但与用户识别最相关的网页却没有被排在前面。这就是搜索引擎的相关度问题。在识别人名时，使用中并不是完全不能容忍上例中的相关度较低的识别结果，但是如果有更相关的文档时，它应能排在最前面。例如，识别“刘建”时，应该能够把有关“刘建”先生的文档放在最前面，而把有关“刘建建国”先生的文档放在较后面的位置。显然，当一个识别不能够有效地识别中文姓名时，它也无法通过相关度的调整来达到用户期望的中文姓名识别效果，从而降低了信息识别的准确性。

发明内容

本发明的主要目的在于针对现有技术的不足而提供一种计算机在中文数据中识别中文姓名的方法，它能够有效地从被识别对象中识别中文姓名，获得较高的识别准确性。

本发明的再一目的在于提供一种计算机在中文数据中识别中文姓名的方法，它能够快捷地识别出文件中的中文姓名。

本发明的又一目的在于提供一种计算机在中文数据中识别中文姓名的方法，它不仅能够有效地识别中文姓名，而且能够通过相关度的调整、排序，获得更准确的高质量识别结果。

本发明的目的是这样实现的：一种计算机在中文数据中识别中文姓名的方法，其特征在于：包括如下步骤：

a、首先，计算机对输入的中文信息进行处理并查找出姓氏字；

b、由计算机依据纯姓氏配置文件的比较，对查找出的姓氏字进行判断，判断该姓氏字是否为纯姓氏字，如果在计算机存储的纯姓氏配置文件中，则计算机中央处理器判断其为姓氏字；

c、如果计算机判断该姓氏字不属于计算机存储的纯姓氏配置文件，中央处理器再判断该姓氏字的前一个字是否属于混姓氏中的高频字，如果是混姓氏，则继续进行到下一步骤d；如不是，则返回步骤a；

d、中央处理器判断查找出的姓氏字后，在高频单字文件中查找姓氏字后的第2个字是否属于高频字；如果是高频字，则该高频字前面第一个字为跟随该姓氏字后的单字名，完成一个单字名的识别；否则执行下一步骤e；

e、由中央处理器判别查找出的姓氏关键字后的第3个字是否属于高频字，如果是高频字，则中央处理器判断该高频字前面的两个字为跟随该姓氏字后的双字名，完成一个双字名的识别；否则执行下一步骤f；

f、中央处理器在高频词词典中查找、判别该姓氏字后第1个字之后的两个字是否属于高频字；如果是高频字，则中央处理器判断该高频词前面第一个字为跟随该姓氏字后的单字名，完成姓氏之后的一个单字名的识别；否则执行下一步骤g；

g、中央处理器判断该姓氏字后的两个字为跟随该姓氏字后的双字名，完成姓氏之后的双字名识别。

所述的姓名识别还包括在上述a、b步骤之间，直接在姓名词典中查找、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行第b步骤。

所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。

所述的姓名词典是从学习数据源进行臻选、过滤，获得姓名词汇，高于预定阈值的姓名词汇为高频姓名，而组成的高频姓名的集合。

在对所述的姓名识别前，可对识别出的姓名进行权值调整，所述的权值调整步骤为：对于每个识别出的姓名在文件中的权值乘以一个系数，将姓名的权值扩大为原有权值的若干倍；对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字，将这些汉字在数据来源中的权值除以一个系数，将其权值减小为现有姓名权值的若干倍。

本发明完全不同于现有技术中的中文姓名的计算机识别方法，它在充分分析中文语言的表达特点和中文姓名使用规律的基础上，提供了独特的中文姓名识别技术，不仅能够有效地识别出中文姓名，而且配合通过权值升降处理技术提高了中文姓名识别的质量。本发明适用于各种计算机环境的今文处理领域(如信息检索、数字图书馆、数据挖掘、数据仓库等)，具有额的普及适应性，而尤其在中文搜索引擎中，其效果更为明显。

再有，本发明方法通用于任何汉字编码集上，如GBZ312、GBK、BIG5。

附图说明

图1为本发明一种实施例识别系统构成示意图；

图2为本发明识别方法流程图；

图3为本发明利用了高频姓名字典的识别流程图；

图4为本发明姓名权值处理流程图。

具体实施方式

数据识别的开始就对一定数量的待分析数据的统计，提取出待分析数据的特征。根据这种特征，加之以相应算法的配合，实现对待分析数据的高质量的分析处理。参见图1，本发明为一种提高计算机在进行中文数据识别时相关度的方法，包括一计算机数据源，该方法的步骤包括从数据源中随机配置的学习数据源，即该学习数据源为从计算机数据源中针对所识别领域随机选取的一定数量的相关数据源。例如，搜索引擎通过机器人程序从WWW获得大量的网页，从中随机选取一定数量的网页作为学习数据来源。它主要完成对待分析数据的抽样学习统计和调整，获得其中的数据分布规则，如姓氏识别规则库，它包括纯姓氏文件、混姓氏文件、姓名前高频单字、姓名后高频单字、高频词词典、高频姓名字典等；然后根据这些相应的统计数据信息，分析步骤是根据相应的姓名识别方法以及权值调整方法，对待分析的文件进行分析，再创建索引，为用户提供识别服务。

本发明中的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。纯姓氏包括单字姓氏和多字姓氏。例如根据中国百家姓参考文献，获得所有姓氏，配置咸姓氏文件。根据姓氏的特点分为两大类：纯姓氏和混姓氏。纯姓氏：该类中文汉字在正文中一般出现时都表示姓氏，如“郭”、“冯”等。混姓氏：该类中文汉字除了作为姓氏出现外，还表示为其他意义，如“张”、“王”等。将这两类姓氏分别配置为相应的纯姓氏配置文件和混姓氏配置文件。而对于复姓的两个字可看作一个位置对待，其识别过程等与单字姓氏一样。

获得一个中文词典的电子版，如《中华大词典》。对选取的学习数据来源进行分析、统计、排序；统计词典中词汇在数据来源中出现的频率。按照词典中的词汇出现的次数从高到低排序，高于预定阈值的词汇认为是高频词汇，若干高频词汇组成的高频词的集合。

而姓名前、后的高频单字文件是从学习数据来源中，选取适当的数据来源数量进行姓名前、后高频单字的统计和排序；按照统计的结果，对单字出现的次数从高到低排序，高于预定阈值的设定为姓名前、后的高频单字，若干高频单字组成高频单字文件。

有了上述的学习数据源、姓氏配置文件、电子版高频词词典和姓名前、后的高频单字文件后，本发明的姓名识别具体步骤如下：

110：首先，在一段连续的中文之中查找出的姓氏字；

120：依据纯姓氏配置文件的比较，判别该姓氏字是否为纯姓氏；是则定为姓氏；

130：依据纯姓氏配置文件的比较，判别该姓氏字不是纯姓氏，则判断该字的前一个字是否为高频字，是，则该字为混姓氏，再执行下一步140；不是则回到110；

140：如果是姓氏，则依据高频单字文件比较、判别该姓氏后第2个字是否为高频字；如果是高频字，则该高频字前面第一个字为跟随该姓氏后的单字名，从而完成一个单字名的识别；否则执行下一步150；

150：判别该姓氏后第3个字是否为高频字，如果是高频字，则该高频字前面两个字为跟随该姓氏后的双字名，完成一个双字名的识别；否则执行下一步160；

160：依据高频词词典比较、判别该姓氏后第1个字之后的两个字是否为高频词；如果是高频词，则该高频词前面第一个字为跟随该姓氏后的单字名，完成姓氏之后的一个单字名的识别；否则执行下一步170；

170：直接判定该姓氏字后的两个字为跟随该姓氏字后的双字名，完成姓氏之后的双字名识别。

通过执行以上步骤，准确、有效地完成了中文姓名的识别。

在应用中，利用上述姓名识别步骤，可获得高频姓名词典。也就是利用分析已经选好的学习素材库，获得姓名词汇，高于预定阈值的姓名词汇认为是高频姓名。对于已经选出的姓名，再经过过滤。根据原文中姓名的出现情况，将高频姓名中不合适的字符串删除，最终获得高频姓名词典。姓名词典包括常用的高频两字或多字姓名词典。

因此可如图3所示，在识别姓名时，可先执行第112步，即直接判定从该姓氏开始的连续两个或多个汉字是否是一个两字或多字姓名的步骤。它直接依据姓名配置文件比较、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行判断第一个字是否为纯姓氏，然后再进行以下步骤。该方法是无姓名词典的姓名识别方法的改进步骤，用于进一步提高姓名识别的准确率和效率。

进一步地，当使用上述方法能够准确地识别出姓名，而识别出的姓名需要反应到用户的识别结果中，就有了识别排序的问题，即需要对姓名识别结果进行相应的权值调整。也就是在计算机识别中，一个词汇在一文件中的权值决定了文件在识别这个词汇时的排列次序。参见图4，对于识别出的姓名，本发明用一定的升权方法，使得用户在识别这些姓名时，能够很容易地获得识别出这些姓名的文件。升权的办法如下：

对于每个识别出的姓名，把该姓名在文件中的权值乘以一个系数，即将姓名的权值扩大为原有权值的若干倍。由于该姓名具有较高的权值，在识别该姓名时，包含该姓名的文档在排序时便能处于前位，从而提高了识别结果的相关度。

而对于三字姓名或三个以上字的姓名中的汉字需要进行两两顺序匹配拆分为双字，做降低权值处理，即将这些双字在数据来源中的权值除以一个系数，或减小为现有姓名权值的若干倍。例如“刘建国”拆分为“刘建”、“建国”，需要对“刘建”、“建国”做降低权值处理，以保证识别“刘建”时，包含“刘建国”的文档能被排在后面，从而提高识别结果的相关度。

Claims

1、一种计算机在中文数据中识别中文姓名的方法，其特征在于：包括如下步骤：

2、根据权利要求1所述的计算机在中文数据中识别中文姓名的方法，其特征在于：所述的姓名识别还包括在上述a、b步骤之间，直接在姓名词典中查找、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行第b步骤。

3、根据权利要求2所述的计算机在中文数据中识别中文姓名的方法，其特征在于：所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。

4、根据权利要求3所述的计算机在中文数据中识别中文姓名的方法，其特征在于：所述的姓名词典是从学习数据源进行臻选、过滤，获得姓名词汇，高于预定阈值的姓名词汇为高频姓名，而组成的高频姓名的集合。

5、根据权利要求3所述的计算机在中文数据中识别中文姓名的方法，其特征在于：在对所述的姓名识别前，可对识别出的姓名进行权值调整，所述的权值调整步骤为：对于每个识别出的姓名在文件中的权值乘以一个系数，将姓名的权值扩大为原有权值的若干倍；对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字，将这些汉字在数据来源中的权值除以一个系数，将其权值减小为现有姓名权值的若干倍。