CN1342942A

CN1342942A - 中文姓名的计算机识别及检索方法

Info

Publication number: CN1342942A
Application number: CN 00124352
Authority: CN
Inventors: 崔珊珊; 雷鸣; 刘建国; 李彦宏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2000-09-08
Filing date: 2000-09-08
Publication date: 2002-04-03
Anticipated expiration: 2020-09-08
Also published as: CN1253815C

Abstract

一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。本发明能够有效地从被检索对象中快捷地识别中文姓名,获得较高的识别准确性,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。

Description

中文姓名的计算机识别及检索方法

本发明涉及一种中文姓名的计算机识别及检索方法。

随着计算机技术的普及、网络应用的延伸，人们的日常工作和生活对于信息资源的利用越来越离不开计算机检索。而无论是对各类信息中心的资料查询，还是对数据仓库、网络、数字图书馆等各种电子化信息资料源进行相关信息资料检索，以姓名为途径或目的的检索都占有很大的比重。例如，根据对网络用户检索日志的统计，大约5％的检索属于姓名搜索。但是，现有的检索方法都不能很好地支持对中文姓名的检索。实际中常常遇到的情况是：当输入“刘建”期望查找一位名叫“刘建”的先生时，得到的却是有关“刘建国”、“刘建军”等人的资料。

这是因为目前的中文姓名检索大都采用英文搜索引擎的核心技术，没有根据中文语言的特点进行相应处理。中文与英文相比有很多不同的特点。其中最大的特点是英文有天然的分割符(空格或符号)将语言中的最小语义单位词汇间隔开来，使得计算机可以轻易识别；而中文是连续书写，没有这种天然的分割符。人名是一种非常重要的特殊词汇，只有在中文语句中识别出人名，才能正确理解与人有关的信息，从而进行正确的检索等操作。

传统的中文姓名识别是通过以下两种技术实现：

1、中文双字识别法：这种方法直接将连续的包含N个汉字的中文句子机械的切分为N-1个双字，形成N-1个“词汇”。例如：“刘建国教授”＝“刘建”+“建国”+“国教”+“教授”

在使用这种技术的系统中，当你检索“刘建”时，上述的这段文字便会被错误地检出。

2、中文切词识别法：这种方法采用一个配置好的电子版中文词典，通过将待分析的文字和词典进行一定形式的匹配，辅以其它技术(如词频统计、语法处理)实现对中文的分析处理。这种技术主要依赖分析使用的词典。一个大而全的词典会大大提高实现分词的准确率。但是这种技术不能够对人名进行有效的处理，因为中文人名千差万别，不可能都配置到词典中。对于没有配置在词典中的名字，词汇切分的准确率非常低。仍以上面的例句为例，如果一个词典中加入了“刘建国”这个词汇，检索“刘建国教授”时，分词结果应为：

“刘建国教授”＝“刘建国”+“教授”

如果没有配置这个词汇，而“建国”和“教授”被配成了词汇，则分词结果为：

“刘建国教授”＝“刘”+“建国”+“教授”

因此当检索“刘建”时，不会检出这段文字；但是当不期望检索“建国”时，这个结果又会反馈出来。

计算机检索系统处理的对象往往是数量非常大的信息，例如搜索引擎处理的对象是数以千万计或亿计的网页信息。用户使用搜索引擎时，往往不是检索不到结果，而是检索得到的结果特别多，但与用户检索最相关的网页却没有被排在前面。这就是搜索引擎的相关度问题。在检索人名时，使用中并不是完全不能容忍上例中的相关度较低的检索结果，但是如果有更相关的文档时，它应能排在最前面。例如，检索“刘建”时，应该能够把有关“刘建”先生的文档放在最前面，而把有关“刘建国”先生的文档放在较后面的位置。显然，当一个检索不能够有效地识别中文姓名时，它也无法通过相关度的调整来达到用户期望的中文姓名检索效果，从而降低了检索的准确性。

本发明的主要目的在于针对现有技术之不足而提供一种中文姓名的计算机识别及检索方法，它能够有效地从被检索对象中识别中文姓名，获得较高的识别准确性。

本发明的再一目的在于提供一种中文姓名的计算机识别及检索方法，它能够快捷地识别出文件中的中文姓名。

本发明的又一目的在于提供一种中文姓名的计算机识别及检索方法，它不仅能够有效地识别中文姓名，而且能够通过相关度的调整、排序，获得更准确的高质量检索结果。

本发明的目的是这样实现的：

一种中文姓名的计算机识别及检索方法，包括用于计算机检索的数据源，该方法的步骤包括从所述的数据源中随机选取学习数据源，根据姓名识别规则库的内容对分析的数据源进行姓名识别，再创建索引，提供检索结果。

所述的姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。

所述的学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。

所述的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。

所述的纯姓氏包括单字姓氏和多字姓氏。

所述的混姓氏包括单字姓氏和多字姓氏。

所述的电子版高频词词典是先利用电子版中文词典对学习数据源进行分析、统计，再按照统计的结果，对词典中的词汇出现的频率从高到低排序，高于预定阈值的词汇认为是高频词汇，若干高频词汇组成高频词词典。

所述的姓名前、后的高频单字文件为从学习数据源中选取适当的部分进行姓氏前、后高频单字统计，再按照统计的结果，对单字出现的频率从高到低排序，高于预定阈值的设定为姓氏前、后的高频单字，若干高频单字组成高频单字文件。

所述的姓名识别包括如下步骤：

a、首先，在一段连续的中文之中查找出姓氏字；

b、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏；是，则定其为姓氏字；

c、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏字；不是，则判断该字的前一个字是否为高频字，是，则该字为混姓氏字；不是，则回到a；

d、如果是姓氏字，在高频单字文件中查找、判别该姓氏字之后第2个字是否为高频字；如果是高频字，则该高频字前面第一个字为跟随该姓氏字后的单字名；否则；

e、判别该姓氏后第3个字是否为高频字，如果是高频字，则该高频字前面两个字为跟随该姓氏字后的双字名；否则；

f、在高频词词典中查找、判别该姓氏字后第1个字之后的两个字是否为高频词；如果是高频词，则该高频词前面第一个字为跟随该姓氏字后的单字名；

g、否则，该姓氏字后的两个字为跟随该姓氏字后的双字名。

所述的姓名识别步骤还包括在上述a、b步骤之间，直接在姓名词典中查找、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行第b步骤。

所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。

所述的姓名词典是从检索学习数据源进行臻选、过滤，获得姓名词汇，高于预定阈值的姓名词汇为高频姓名，而组成的高频姓名的集合。

在所述的姓名识别步骤后、创建索引前，可对识别出的姓名进行权值调整。

所述的权值调整步骤为：对于每个识别出的姓名在文件中的权值乘以一个系数，将姓名的权值扩大为原有权值的若干倍；对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字，将这些双字在数据来源中的权值除以一个系数，将其权值减小为现有姓名权值的若干倍。

本发明完全不同于现有技术中的中文姓名的计算机识别及检索方法，它在充分分析中文语言的表达特点和中文姓名使用规律的基础上，提供了独特的中文姓名识别技术，不仅能够有效地检索出中文姓名，而且配合通过权值升降处理技术提高了中文姓名检索的质量。本发明适用于各种计算机环境的中文处理领域(如信息检索、数字图书馆、数据挖掘、数据仓库等)，具有较强的普及适应性，而尤其在中文搜索引擎中，其效果更为明显。

再有，本发明方法通用于任何汉字编码集上，如GB2312、GBK、BIG5。

下面结合附图和具体实施方案对本发明做进一步的详细说明。

图1为本发明一种实施例检索系统构成示意图；

图2为本发明检索方法流程图；

图3为本发明利用了高频姓名字典的检索流程图；

图4为本发明姓名权值处理流程图。

检索的开始就对一定数量的待分析数据的统计学习，提取出待分析数据的特征。根据这种特征，加之以相应算法的配合，实现对待分析数据的高质量的分析处理。参见图1，本发明为一种中文姓名的计算机识别及检索方法，包括一用于计算机检索的数据源，该方法的步骤包括从数据源中随机配置的学习数据源，即该学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。例如，搜索引擎通过机器人程序从WWW获得大量的网页，从中随机选取一定数量的网页作为学习数据来源。它主要完成对待分析数据的抽样学习统计和调整，获得其中的数据分布规则，如姓氏识别规则库，它包括纯姓氏文件、混姓氏文件、姓名前高频单字、姓名后高频单字、高频词词典、高频姓名字典等；然后根据这些相应的统计数据信息，分析步骤是根据相应的姓名识别方法以及检索权值调整方法，对待分析的文件进行分析，再创建索引，为用户提供检索服务。

本发明中的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。纯姓氏包括单字姓氏和多字姓氏。例如根据中国百家姓参考文献，获得所有姓氏，配置成姓氏文件。根据姓氏的特点分为两大类：纯姓氏和混姓氏。纯姓氏：该类中文汉字在正文中一般出现时都表示姓氏，如“郭”、“冯”等。混姓氏：该类中文汉字除了作为姓氏出现外，还表示为其他意义，如“张”、“王”等。将这两类姓氏分别配置为相应的纯姓氏配置文件和混姓氏配置文件。而对于复姓的两个字可看作一个位置对待，其识别过程等与单字姓氏一样。

获得一个中文词典的电子版，如《中华大词典》。对选取的学习数据来源进行分析、统计、排序；统计词典中词汇在数据来源中出现的频率。按照词典中的词汇出现的次数从高到低排序，高于预定阈值的词汇认为是高频词汇，若干高频词汇组成的高频词的集合。

而姓名前、后的高频单字文件是从学习数据来源中，选取适当的数据来源数量进行姓名前、后高频单字的统计和排序；按照统计的结果，对单字出现的次数从高到低排序，高于预定阈值的设定为姓名前、后的高频单字，若干高频单字组成高频单字文件。

有了上述的学习数据源、姓氏配置文件、电子版高频词词典和姓名前、后的高频单字文件后，本发明的姓名识别具体步骤如下：

110：首先，在一段连续的中文之中查找出的姓氏字；

120：依据纯姓氏配置文件的比较，判别该姓氏字是否为纯姓氏；是则定为姓氏；

130：依据纯姓氏配置文件的比较，判别该姓氏字不是纯姓氏，则判断该字的前一个字是否为高频字，是，则该字为混姓氏，再执行下一步140；不是则回到110；

140：如果是姓氏，则依据高频单字文件比较、判别该姓氏后第2个字是否为高频字；如果是高频字，则该高频字前面第一个字为跟随该姓氏后的单字名，从而完成一个单字名的识别；否则执行下一步150；

150：判别该姓氏后第3个字是否为高频字，如果是高频字，则该高频字前面两个字为跟随该姓氏后的双字名，完成一个双字名的识别；否则执行下一步160；

160：依据高频词词典比较、判别该姓氏后第1个字之后的两个字是否为高频词；如果是高频词，则该高频词前面第一个字为跟随该姓氏后的单字名，完成姓氏之后的一个单字名的识别；否则执行下一步170；

170：直接判定该姓氏字后的两个字为跟随该姓氏字后的双字名，完成姓氏之后的双字名识别。

通过执行以上步骤，准确、有效地完成了中文姓名的识别。

在应用中，利用上述姓名识别步骤，可获得高频姓名词典。也就是利用分析已经选好的学习素材库，获得姓名词汇，高于预定阈值的姓名词汇认为是高频姓名。对于已经选出的姓名，再经过过滤。根据原文中姓名的出现情况，将高频姓名中不合适的字符串删除，最终获得高频姓名词典。姓名词典包括常用的高频两字或多字姓名词典。

因此可如图3所示，在识别姓名时，可先执行第112步，即直接判定从该姓氏开始的连续两个或多个汉字是否是一个两字或多字姓名的步骤。它直接依据姓名配置文件比较、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行判断第一个字是否为纯姓氏，然后再进行以下步骤。该方法是无姓名词典的姓名识别方法的改进步骤，用于进一步提高姓名识别的准确率和效率。

进一步地，当使用上述方法能够准确地检索出姓名，而识别出的姓名需要反应到用户的检索结果中，就有了检索排序的问题，即需要对姓名识别结果进行相应的权值调整。也就是在计算机检索中，一个词汇在一文件中的权值决定了文件在检索这个词汇时的排列次序。参见图4，对于识别出的姓名，本发明用一定的升权方法，使得用户在检索这些姓名时，能够很容易地获得识别出这些姓名的文件。升权的办法如下：

对于每个识别出的姓名，把该姓名在文件中的权值乘以一个系数，即将姓名的权值扩大为原有权值的若干倍。由于该姓名具有较高的权值，在检索该姓名时，包含该姓名的文档在排序时便能处于前位，从而提高了检索结果的相关度。

而对于三字姓名或三个以上字的姓名中的汉字需要进行两两顺序匹配拆分为双字，做降低权值处理，即将这些双字在数据来源中的权值除以一个系数，或减小为现有姓名权值的若干倍。例如“刘建国”拆分为“刘建”、“建国”，需要对“刘建”、“建国”做降低权值处理，以保证检索“刘建”时，包含“刘建国”的文档能被排在后面，从而提高检索结果的相关度。

Claims

1、一种中文姓名的计算机识别及检索方法，包括用于计算机检索的数据源，其特征在于：该方法的步骤包括从所述的数据源中随机选取学习数据源，根据姓名识别规则库的内容对分析的数据源进行姓名识别，再创建索引，提供检索结果。

2、根据权利要求1所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。

3、根据权利要求1所述的中文姓名的计算机识别及检索方法，其特征在于：所述的学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。

4、根据权利要求2所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。

5、根据权利要求4所述的中文姓名的计算机识别及检索方法，其特征在于：所述的纯姓氏包括单字姓氏和多字姓氏。

6、根据权利要求4所述的中文姓名的计算机识别及检索方法，其特征在于：所述的混姓氏包括单字姓氏和多字姓氏。

7、根据权利要求2所述的中文姓名的计算机识别及检索方法，其特征在于：所述的电子版高频词词典是先利用电子版中文词典对学习数据源进行分析、统计，再按照统计的结果，对词典中的词汇出现的频率从高到低排序，高于预定阈值的词汇认为是高频词汇，若干高频词汇组成高频词词典。

8、根据权利要求2所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名前、后的高频单字文件为从学习数据源中选取适当的部分进行姓氏前、后高频单字统计，再按照统计的结果，对单字出现的频率从高到低排序，高于预定阈值的设定为姓氏前、后的高频单字，若干高频单字组成高频单字文件。

9、根据权利要求1所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名识别包括如下步骤：

a、首先，在一段连续的中文之中查找出姓氏字；

g、否则，该姓氏字后的两个字为跟随该姓氏字后的双字名。

10、根据权利要求9所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名识别步骤还包括在上述a、b步骤之间，直接在姓名词典中查找、判断是否为姓名词典中已有的姓名，如果是，则识别出姓名；如果不是，则进行第b步骤。

11、根据权利要求10所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。

12、根据权利要求11所述的中文姓名的计算机识别及检索方法，其特征在于：所述的姓名词典是从检索学习数据源进行臻选、过滤，获得姓名词汇，高于预定阈值的姓名词汇为高频姓名，而组成的高频姓名的集合。

13、根据权利要求1所述的中文姓名的计算机识别及检索方法，其特征在于：在所述的姓名识别步骤后、创建索引前，可对识别出的姓名进行权值调整。

14、根据权利要求13所述的中文姓名的计算机识别及检索方法，其特征在于：所述的权值调整步骤为：对于每个识别出的姓名在文件中的权值乘以一个系数，将姓名的权值扩大为原有权值的若干倍；对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字，将这些双字在数据来源中的权值除以一个系数，将其权值减小为现有姓名权值的若干倍。