CN102831128B

CN102831128B - 一种对互联网上的同名人物信息进行分类的方法及装置

Info

Publication number: CN102831128B
Application number: CN201110171903.2A
Authority: CN
Inventors: 贾文杰; 张姝; 王新文; 夏迎炬; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2015-03-25
Anticipated expiration: 2031-06-15
Also published as: CN102831128A

Abstract

本发明实施例公开了一种对互联网上的同名人物信息进行分类的方法及装置，所述方法包括：针对输入的人物名称信息，检索包括所述人物名称信息的相关网页；分别抽取所述相关网页的人物属性特征和网页主题特征；利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化；按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果；融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果。通过本发明实施例，能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类，从而得到更为准确的实际人物的分类结果。

Description

一种对互联网上的同名人物信息进行分类的方法及装置

技术领域

本发明一般地涉及互联网数据处理技术领域，尤其是一种对互联网上的同名人物信息进行分类的方法及装置。

背景技术

随着互联网的发展，越来越多的人物都采用网络进行例如通信或者商业洽谈等，因此互联网上的人物信息资源极大丰富。但是因为人物名称在实际应用中存在重名现象，所以互联网上的重名现象也越来越严重。因此，在互联网上采用何种数据处理方法对这些同名的人物进行区分就变的非常重要。

目前现有技术中，人物名称信息分类的方案都是采用基于词的网页聚类的方法，即是将包含相同人物名称的相似网页进行聚类。然而，因为同一个人物可能涉及到不同的事件，而且自然语言的表达方式多样且同义词较多，导致现有技术如果单单从用词来区分人物名称，就很难将不同人物的网页内容区别开来，所以本来属于同一个人物的网页也很难聚为一类。

进一步的，如果对于人物名称信息的区别不够准确，就会使得需要获取准确的人物名称信息的人物不得不重复提交查询请求，这将会导致互联网服务器对于人物重复提交的请求需要不断地响应，从而也增加了互联网服务器的数据处理负担，降低了互联网服务器的性能。

发明内容

有鉴于此，本发明实施例提供了一种对互联网上的同名人物信息进行分类的方法及装置，能够比现有技术更为准确的区别同名的人物，进一步的，能够减轻互联网服务器的处理负担，提升互联网服务器的性能。

根据本发明实施例的一个方面，提供一种对互联网上的同名人物信息进行分类的方法，包括：针对输入的人物名称信息，检索包括所述人物名称信息的相关网页；分别抽取所述相关网页的人物属性特征和网页主题特征；利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化；按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果；融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果，其中，所述按照泛化后的网页主题特征获取初始聚类结果之前，还包括：获取所述人物名称信息的知名程度参数；则所述按照泛化后的网页主题特征获取初始聚类结果的步骤，包括：依据所述知名程度参数调整所述初始聚类结果中类别数量，并按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始聚类结果；所述调整的规则为：所述知名程度参数越大，所述初始聚类结果的类别就越少。

根据本发明实施例的另一个方面，提供一种对互联网上的同名人物信息进行分类的装置，包括：检索模块，用于针对输入的人物名称信息，检索包括所述人物名称信息的相关网页；抽取模块，用于分别抽取所述相关网页的人物属性特征和网页主题特征；泛化模块，用于利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化；关系挖掘模块，用于按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取初始聚类结果；结果融合模块，用于融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果；以及知名程度获取模块，用于获取所述人物名称信息的知名程度参数；其中所述关系挖掘模块，具体被配置为：依据所述知名程度参数调整所述初始聚类结果中类别数量，并按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始聚类结果；所述调整的规则为：所述知名程度参数越大，所述初始聚类结果的类别就越少。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述一种对互联网上的同名人物信息进行分类的方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述一种对互联网上的同名人物信息进行分类的方法。

根据本发明实施例的上述一种方法，通过同义词词典和上下位词典的引入，可以比现有技术更为准确的区别互联网上同名的不同人物，使得对于同名人物的区分效率和精确度大大提升；进一步的，还能够减轻互联网服务器的处理负担，提升互联网服务器的性能。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的第一种方法的流程图；

图2是示出作为第一种方法的步骤S102中抽取人物属性特征的流程图；

图3是示出作为第一种方法的步骤S102中抽取网页主题特征的流程图；

图4是示出作为第一种方法的步骤S103中对人物属性特征进行泛化的流程图；

图5是示出作为第一种方法的步骤S103中对网页主题特征进行泛化的流程图；

图6是示出作为第一种方法的步骤S104中按照泛化后的网页主题特征获取初始聚类结果的流程图；

图7是示出作为第一种方法的步骤S105中一种情况的流程图；

图8是示出作为第一种方法的步骤S105中另一种情况的流程图；

图9是示出作为本发明实施例提供的另一种方法的流程图；

图10是示出作为另一种方法中获取到的初始关系结果的示意图；

图11是示出作为另一种方法中利用泛化后的网页主题特征的且调整了类别数量的初始聚类结果的示意图；

图12为将图10所示的初始关系结果和图11所示的调整了类别数量的初始聚类结果进行融合之后的最终分类结果的示意图；

图13是示出作为本发明实施例提供的第一种装置的示意图；

图14是示出作为第一种装置中抽取模块1302的一种示意图；

图15是示出作为第一种装置中抽取模块1302的另一种示意图；

图16是示出作为第一种装置中泛化模块1303的一种示意图；

图17是示出作为第一种装置中泛化模块1303的另一种示意图；

图18是示出作为第一种装置中结果融合模块1305的一种示意图；

图19是示出作为本发明实施例提供的另一种装置的示意图；

图20是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。

本发明实施例针对现有技术的问题，提供了第一种对互联网上的同名人物信息进行分类的方法，参见图1，具体可以包括：

S101：针对输入的人物名称信息，检索包括所述人物名称信息的相关网页。

在本实施例中，在通过浏览器输入人物名称信息的情况下，需要以所述人物名称信息作为查询关键词通过搜索引擎进行检索，从而得到包含所述人物名称信息的相关网页。其中，搜索引擎的具体实现不影响本发明实施例的实现，例如：输入的人物名称如果为“李想”，将会得到大量包含“李想”这个名字的网页。

需要说明的是，因为这些网页中提及的“李想”可能并非实际中的同一个人，而是对应着若干个不同的人，例如泡泡网的首席执行官“李想”，天津人民广播电台的主持人“李想”，以及岑溪市计委系统党委副书记“李想”，等等；所以在本发明实施例中提供了一种人物名称的分类方法，用于更准确及精确的对上述相关网页进行分类。

S102：分别抽取所述相关网页的人物属性特征和网页主题特征。

在得到包括人物名称的相关网页之后，需要分别抽取相关网页中与人物名称相关的人物属性特征，以及与相关网页本身内容相关的网页主题特征。

参考图2所示，其中所述的抽取所述相关网页的人物属性特征的步骤，具体可以包括：

S201：分析所述相关网页的正文以得到所述相关网页中的相关词语，其中，所述分析包括：分句、分词、词性标注和/或命名实体识别。

在抽取所述相关网页的人物属性特征的过程中，首先需要对获得的网页正文进行分句、分词、词性标注和/或命名实体识别等浅层分析。其中，分句、分词、词形标注和/或命名实体识别均可采用现有技术中的工具实现，而其中的命名实体识别，即是识别出相关网页中的例如人物名称(即是人名)、机构名称和地名等实体。

为了方便本领域技术人员更好的理解本步骤，下面举出一个人物属性特征抽取的具体例子。例如，检索得到的相关网页原文包括如下内容：“李想是80后的典型代表，泡泡网(北京泡泡信息技术有限公司)首席执行官。他的泡泡网是一家从事电脑硬件、个人和办公数码产品的信息服务的网站。”

那么对上述相关网页原文经过分词和词性标注可以得到如下结果：“李想/nr是/v 80后/n的/p典型/a代表/n，/pu泡泡网/n(/pu北京/n泡泡/n信息/n技术/n有限/n公司/n)/pu首席/a执行官/n。他/pr的/p泡泡网/n是/v一/nu家/qu从事/v电脑/n硬件/n、/pu个人/v和/pr办公/n数码/n产品/n的/p信息/n服务/n的/p网站/n。/pu”。

再对上述分词和词性标注结果进行命名实体识别，可以得到如下内容：“李想/nr是/v 80后/n的/p典型/a代表/n，/pu泡泡网/n(/pu北京/n泡泡/n信息/n技术/n有限/n公司/n)/pu首席/a执行官/n。/pu他/pr的/p泡泡网/n是/v一/nu家/qu从事/v电脑/n硬件/n、/pu个人/v和/pr办公/n数码/n产品/n的/p信息/n服务/n的/p网站/n。/pu”。

其中，“李想”表示人名，“北京”表示地名，“泡泡网”和“泡泡 /n信息/n技术/n有限/n公司/”表示机构名称，而“首席/a执行官”表示职业或职位。

S202：获取所述相关词语中与人物名称信息相关的属性关键词，所述属性关键词包括下述各项中的一项或多项：职称、单位、住址、特长和专业。

而得到相关词语之后，需要从其中获取到与人物名称相关的属性关键词，该属性关键词反映人物属性，可以包括人物的职称、单位、住址、特长和/或专业等关键词，例如，可以预先选定人物的职称和单位作为人物属性。

S203：在所述属性关键词中选取与人物名称信息的出现位置的距离小于预设阈值的属性关键词，作为与相关网页对应的人物属性特征集。

根据预先选取的人物属性，可以采用人物名称就近匹配原则抽取与人物名称距离最近的职称名称和单位名称。那么基于上述属性关键词以及人物名称“李想”，在上述例子中可以抽取出如下的人物名称属性为：“职位：首席执行官；工作单位：泡泡网”。

与获取人物属性特征不同的是，网页主题特征用来反映对于一个相关网页的主题，抽取网页主题特征的目的是计算网页中每个相关词语对于本网页的表征程度，从而可以抽取出一个相关词语向量来表示此网页。参考图3所示，所述抽取所述相关网页的网页主题特征的步骤，具体可以包括：

S301：分析所述相关网页的正文以得到所述相关网页中的相关词语，其中，所述分析包括：进行分句、分词、词性标注和/或命名实体识别。

本步骤的具体实现方式可以与步骤S201相同，在此不再赘述。

S302：分别对各个相关网页的所述相关词语进行加权计算以获取各个相关词语的权重值。

在得到了相关词语之后，可以再对各个相关网页中的词语进行加权计算，得到权重值高的词语作为能够表征主题的词语。可以采用TF-IDF(Term Frequency-Inverse Document Frequency，词频-倒排网页频率)方法来计算权重值。下面简单介绍一下TF-IDF的原理，方便本领域技术人员在实际应用中的具体实施。

TF-IDF是一种统计方法，用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字或词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与人物查询之间相关程度的度量或评级。TF-DF的主要思想是：如果某个词或短语在一篇文章中出现的频率(TF)高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上可以理解为TF*IDF，TF表示词条在网页中出现的频率，而对于IDF来讲，如果包含某个词条t的网页越少，则IDF越大，因为说明该词条t具有很好的类别区分能力。

TF的计算方式可以为：一个词语出现的次数除以该文件的总词语数。例如，一篇文件的总词语数是100个，而词语“网站，，出现了3次，那么“网站”一词在该文件中的TF就是0.03(计算方式为：3/100)。而计算文件频率(DF)的方法可以是：测定在网页集合中总共有多少份文件出现过“网站”一词，然后除以文件集里包含的文件总数。所以，如果“网站”一词在10份文件出现过，而网页集合中的文件总数是10000份的话，其网页频率就是0.001(计算方式为：10/10000)。最后，TF-IDF的值就可以由计算得到的词频除以网页频率而得到。以上面的例子来说，“网站”一词在该文件集的TF-IDF分数会是30(计算方式为：0.03/0.001)。

S303：针对各个相关网页，选取权重值高于预设阈值的相关词语作为所述相关网页的网页主题特征向量。

在得到各个相关词语的权重值之后，就选取高于预设阈值的相关词语作为能够表征这个相关网页的网页主题特征向量。仍以上述相关网页原文的内容为例，经过主题特征抽取，抽取出来的网页特征向量就可以为如下内容：“＜李想/50是/0.180后/10的/0.01典型/1代表/2泡泡网/40北京/20泡泡/30信息/15技术/7有限/5公司/4首席/20执行官/30他/0.6一/1家/2从事/4电脑/8硬件/8个人/4和/0.7办公/7数码/8产品/4服务/12网站/30＞”。其中，每个相关词语后面的数字是它对应的权重值。例如，李想这个相关词语的权重值为50。

S103：利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化。

在本发明实施例中，抽取出人物属性特征和网页主题特征之后，还需要利用上下位词典和同义词词典，对于抽取出的人物属性特征和网页主题特征进行泛化扩展。例如，将相关词语＜任教＞可以泛化为＜教授，就职，教师＞，而相关词语＜北大＞可以泛化为＜北京大学，PKU＞。

其中的同义词词典可以例如：《同义词词林》、《Hownet>等，而从《Hownet》中我们可以发现例如“首席执行官”和“CEO”具有相同的意思，因此，“首席执行官”和“CEO”就是同义词。而上下位词则可以从现有的较为常见的综合词典如《中文概念词典>(参考文献：于江生，俞士汶，中文概念词典的结构，中文信息学报.2002，16(4))得到，例如：高管-首席执行官，以及北京-朝阳区，等等。

参考图4所示，所述利用上下位词典和/或同义词词典对所述人物属性特征进行泛化的步骤，具体可以包括：

S401：从所述上下位词典和/或同义词词典中获取所述人物属性特征集中属性关键词的上位词和/或同义词。

在利用上下位词典和/或同义词词典对所述人物属性特征进行泛化的过程中，需要从下位词典中获取人物属性特征集中属性关键词的上位词。需要说明的是，在利用上下位词典进行泛化时，因为上位词的数量要远小于下位词的数量，因此只需要考虑相关的上位词即可。

S402：依据所述属性关键词的上位词和/或同义词扩充所述相关网页的人物属性特征。

将从上下位词典中获取到的上位词，以及从同义词词典中获取到的同义词，全部加入原始的人物属性特征中，得到泛化后的人物属性特征。例如，步骤S203抽取得到的人物属性特征经过泛化之后的结果为：“职位：首席执行官，CEO，高管；工作单位：泡泡网”。

参考图5所示，所述利用上下位词典和/或同义词词典对所述网页主题特征进行泛化的步骤，具体可以包括：

S501：从所述上下位词典和/或所述同义词词典中获取所述网页主题特征向量中相关词语的上位词和/或同义词。

S502：依据所述网页主题特征向量中相关词语的上位词和/或同义词扩充所述相关网页的网页主题特征。

经过同义词词典和上下位词典的泛化，原始的相关词语和泛化后的相关词条的对应关系的示例可以如下所示：北京-首都，信息-IT，首席执行官-CEO、高管，电脑-计算机，个人-私人，数码-电子。

而步骤S303中抽取的网页主题特征经过泛化之后，其结果可以如下内容所示：“＜李想/50是/0.180后/10的/0.01典型/1代表/2泡泡网/40北京/20泡泡/30信息/15技术/7有限/5公司/4首席/20执行官/30他/0.6一/1家/2从事/4电脑/8硬件/8个人/4和/0.7办公/7数码/8产品/4服务/12网站/30首都/10 IT/10 CEO/15高管/1.5计算机/4私人/2电子/1＞”。

S104：按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果。

当对人物属性特征和网页主题特征进行泛化之后，可以按照泛化后的人物属性特征确定各个相关网页的直接关系，以及按照泛化后的网页主题特征对所述相关网页进行聚类。

其中，所述按照泛化后的人物属性特征获取所述相关网页的初始关系结果的实现方式，具体可以为：依据扩充后的不同的相关网页之间人物属性特征集的关系，确定不同的相关网页之间的初始关系；所述初始关系表示不同的相关网页是否属于实际中同一个人物。在确定初始关系的过程中可以采用不同的判定规则，其中一种可能的判定规则例如：如果两个相关网页的人物属性特征中具有相同或者有一定上下位关系的工作单位，则这两个相关网页表示同一个人物的概率较高；或者，如果两个相关网页的人物属性特征中包括在同一个单位具有相同或有一定上下位关系的职业或特长的属性关键词，则这两个相关网页是同一个人物的概率较高。类似地，本领域技术人员可以根据实际需求对判定规则进行适应性调整。

例如，相关网页A泛化后的人物属性特征为：“职位：首席执行官、CEO、高管；工作单位：泡泡网”，而网页B泛化后的人物属性特征为：“职位：高管、创始人，工作单位：泡泡网”。在上述两个人物属性特征中，工作单位相同，而且职位有交集，则可以确定网页A和网页B中描述的“李想”指的是同一个人物。

在步骤S104中，所述按照泛化后的网页主题特征获取初始聚类结果的实现方式，参考图6所示，可以包括：

S601：依据扩充后的相关网页的网页主题特征向量，采用层次凝聚聚类算法对所述相关网页进行分类。

在对泛化后的网页主题特征进行聚类时，可以采用传统的聚类方法对各个相关网页的相似程度进行衡量。例如，采用余弦相似度算法计算网页主题特征之间的相似度，并采用层次凝聚聚类算法(HAC)(参考文献：N.Jardine and C.J.van Rijsbergen.The use of hierarchicclustering in information retrieval.Information Storage and Retrieval.7：217-240，1971)来对所述相关网页进行聚类。

S602：将层次凝聚聚类算法的分类结果作为初始聚类结果。

将所述层次凝聚聚类算法的分类结果作为初始的聚类结果。

S105：融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果。

需要说明的是，根据人物属性特征确定的初始关系因为没有考虑网页主题特征所以可能不够精确，而根据网页主题特征进行分类的相关网页的初始聚类结果也可能不够准确，所以通过将所述初始关系结果和所述初始聚类结果进行合理的融合，从而可以得到更为准确和精确的相关网页的最终分类结果。

可以理解的是，因为根据人物属性特征确定的初始关系是基于人物属性执行的结果，所以初始关系在某种程度上更为符合实际情况。因此，在实际应用中，可以参考着初始关系结果来调整所述初始聚类结果。

在实际应用中，所述融合所述初始关系结果和所述初始聚类结果的步骤，存在两种情况，第一种情况参考图7所示，具体可以包括：

S701：在所述初始关系表示不同的相关网页属于实际中同一个人物的情况下，判断所述属于实际中同一个人物的不同的相关网页在初始聚类结果中是否为同一个类别，如果是，则不作处理，如果不是，则执行步骤S702。

在两个相关网页的初始关系表示这两个相关网页属于实际中同一个人物的情况下，需要判断属于实际中同一个人物的这两个相关网页在初始聚类结果中有没有分为同一个类别。如果已经分为一类了，则对这两个相关网页不做任何处理。

S702：将属于实际中同一个人物的不同的相关网页调整为一类。

而如果这两个表示同一个人物的相关网页没有被分为同一类，则将这两个属于同一个人物的相关网页调整为一类。按照上述融合方式对所有的相关网页进行结果融合步骤。

S703：将调整后的初始聚类结果作为所述相关网页的最终聚类结果；所述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

最后将所有相关网页融合之后的初始聚类结果，作为相关网页的最后聚类结果。而最后得到的聚类结果则更加准确和精确的反映了不同的相关网页是否属于实际中同一个人物。

另一种情况参考图8所示，所述融合所述初始关系结果和所述初始聚类结果的步骤，具体可以包括：

S801：在所述初始关系表示不同的相关网页不属于实际中同一个人物的情况下，判断所述不同的相关网页在初始聚类结果中是否为不同类别，如果是，则不作处理，如果否，则执行步骤S802。

在两个相关网页表示不属于实际中同一个人物的情况下，则判断这两个相关网页在初始聚类结果中是否分为不同类别，如果已经不在同一个类别中，则对该两个相关网页不做任何处理。

S802：将上述不属于实际中同一个人物的不同的相关网页调整为不同类别。

而如果上述两个相关网页在初始聚类结果中被分在同一个类别中，则将上述不属于实际中同一个人物的两个相关网页调整为不同类别。

S803：将调整后的初始聚类结果作为所述相关网页的最终聚类结果；所述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

通过上述第一种对互联网上的同名人物信息进行分类的方法，可以利用同义词词典和/或上下位词典对抽取得到的人物属性特征和网页主题特征进行泛化，而泛化后的人物属性特征和网页主题特征因为更能准确地反映不同的相关网页是否表示同一个人物的结果，所以本实施例也能够更为精确和准确地对包括同样的人物名称的不同的相关网页进行聚类，从而得到更为准确的实际人物的分类结果。

参见图9，本发明实施例还提供了另一种对互联网上的同名人物信息进行分类的方法，具体可以包括：

S901：针对输入的人物名称信息，检索包括所述人物名称信息的相关网页。

在本实施例中与第一种实施例的步骤相同的步骤，因为第一种实施例已经详细介绍，在此不再赘述。

S902：分别抽取所述相关网页的人物属性特征和网页主题特征。

S903：利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化。

S904：按照泛化后的人物属性特征获取所述相关网页的初始关系结果。

在实际应用中，所述获取到的初始关系结果可以如图10所示。在图10中，有连线的相关网页1和3，以及4和6所表征的是同一人物，因此，应该属于同一个类别，而没有连线的相关网页1和2，以及5和6等，所表征的是不同人物，因此不应属于同一个类别。

S905：获取所述人物名称信息的知名程度参数。

在本实施例中，在步骤S906进行初始聚类结果的分类之前，还需要利用网页检索结果或者网络百科全书等资源获取输入的人物名称的知名程度参数，例如，拥有此人物名称的名人及其属性等，知名程度参数可以辅助获得更准确的初始聚类结果，使得最终聚类结果能够达到更好的效果。

具体的在获取知名程度参数的过程中，例如通过搜索引擎获得包括人物名称“李想”的相关网页数量为3210000个。而通过常见人名表，可以得到检索人名的知名程度参数。例如，经过计算，人物名称“李想”的知名程度参数为0.6；其中，假设知名程度参数的取值范围为0-1，1表示最不知名(即是最常见到的)的人物名称，例如“张伟”，而0表示最知名(即是最不常见的)人名。

例如，预先设定的单位网页数为10000000，那么通过预先设定的单位网页数与知名程度参数的乘积则为10000000*0.6＝6000000，通过将这个结果与实际相关网页数量比较可以得知，单位网页数与知名程度参数的乘积大于实际的相关网页数量3210000，那么就可以判定“李想”为一个不太知名的人物名称(即是常见人名)。否则，就认为检索人名是一个知名的人物名称(即是非常见人名)，确认该人物名称中有名人；这里有名人的含义可以理解为：相对于这个人物名称来说，有没有少数个体的相关网页占总网页很大的比重。

S906：依据所述知名程度参数调整初始聚类结果中类别数量，并按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始聚类结果，所述调整的规则为：所述知名程度参数越大，所述初始聚类结果的类别就越少。

在得到知名程度之后，可以根据所述知名程度参数来调整初始聚类结果中类别数量。例如：在聚类过程中，对于所述人物名称包括有主要知名人物的相关网页(即为非常见人名)，其知名程度参数高，则聚类结果的类别就少；而所述人物名称不包括有主要知名人物的相关网页(即为常见人名)，其知名程度参数小，则聚类结果的类别就多。

假设使用的初始聚类方法是层次凝聚聚类算法，因为相似度阈值的设定将会影响聚类的类别数量，因此调整聚类的类别可以通过调整预先设定的相似度阈值来实现。相似度阈值越高则聚类结果中类别越少。例如原始的相似度阈值为T，相关网页数/(单位网页数*常见程度)＝a.那么新的阈值T1＝T/a。

因此在本步骤中，对于常见人名来说，相似度阈值将被调高，最终聚类结果中的类别就多；而对于有名人的非常见人名来说，阈值将被调低，最终聚类结果中类别就少。参考图11所示，为利用泛化后的网页主题特征的且调整了类别数量的初始聚类结果的示意图。在图11中，存在连线关系的相关网页1、2和3属于实际中的同一个人物，而4和5所表征的也是实际中的同一个人物。

S907：融合所述初始关系结果和所述调整了类别数量的初始聚类结果，以得到所述相关网页的最终分类结果。

在进行结果融合时，可以采用初始关系结果修改所述调整了类别数量的初始聚类结果，也可以直接将初始关系结果和所述调整了类别数量的初始聚类结果进行合并。参考图12所示，为将图10所示的初始关系结果和图11所示的调整了类别数量的初始聚类结果进行融合之后的最终分类结果。其中，1、2和3归为一类相关网页，即是1、2和3表征了实际中的同一个人物，而4、5和6归为一类相关网页，即是4、5和6表征了实际中的同一个人物。

S908：按照类别将所述最终分类结果进行展示。

在本实施例中，将阐述同一个人的网页归为一类输出，对于多个同名人物生成了多个类别。例如，根据上面步骤的融合结果，可以得出如下的聚类结果：属于人物A的相关网页包括：1、2和3；而属于人物B的相关网页包括：4、5和6。

总之，通过另外一种对互联网上的同名人物信息进行分类的方法，可以通过引入的知名程度参数，可以根据人物知名程度来对包含相同的人物名称的不同的相关网页进行分类，这样分类的最终聚类结果与具体的人物名称的知名程度或者常见程度有关，因此更符合实际中的人物名称的取名情况，从而也能够更准确和有效的对人物名称进行分类；并且，本实施例进一步还将最终聚类结果进行展示，也能够方便其他人实时通过更为准确和有效的分类结果进行后续应用。

与本发明实施例提供的第一种对互联网上的同名人物信息进行分类的方法相对应，本发明实施例还提供了第一种对互联网上的同名人物信息进行分类的装置，参见图13，该装置具体可以包括：

检索模块1301，用于针对输入的人物名称信息，检索包括所述人物名称信息的相关网页。

抽取模块1302，用于分别抽取所述相关网页的人物属性特征和网页主题特征。

其中，参考图14所示，所述抽取模块1302可以包括：

分析子模块1401，用于分析所述相关网页的正文内容以得到所述相关网页中的相关词语，其中，所述分析包括：分句、分词、词性标注和/或命名实体识别。

第一获取子模块1402，用于获取所述相关词语中与人物名称信息相关的属性关键词，所述属性关键词包括下述各项中的一项或多项：职称、单位、住址、特长和专业。

第一选取子模块1403，用于在所述属性关键词中选取与人物名称信息的出现位置的距离小于预设阈值的属性关键词，作为与相关网页对应的人物属性特征集。

参考图15所示，所述抽取模块1302具体也可以包括：

分析子模块1401，应用分析所述相关网页的正文内容以得到所述相关网页中的相关词语，其中，所述分析包括：进行分句、分词、词性标注和/或命名实体识别；

计算子模块1501，用于分别对各个相关网页的所述相关词语进行加权计算以获取各个词语的权重值；

第二选取子模块1502，用于针对各个相关网页，选取权重值高于预设阈值的相关词语作为所述相关网页的网页主题特征向量。

泛化模块1303，用于利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化。

其中，参考图16所示，所述泛化模块1303具体可以包括：

第二获取子模块1601，用于从所述上下位词典和/或同义词词典中获取所述人物属性特征集中属性关键词的上位词和/或同义词。

第一扩充子模块1602，用于依据所述属性关键词的上位词和/或同义词扩充所述相关网页的人物属性特征。

其中，参考图17所示，所述泛化模块1303包括：

第三获取子模块1701，用于从所述上下位词典和/或同义词词典中获取所述网页主题特征向量中相关词语的上位词和/或同义词。

第二扩充子模块1702，用于依据所述网页主题特征向量中相关词语的上位词和/或同义词扩充所述相关网页的网页主题特征。

关系挖掘模块1304，用于按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取初始聚类结果。

其中，所述关系挖掘模块1304可以包括：依据扩充后的不同的相关网页之间人物属性特征集的关系，确定不同的相关网页之间的初始关系；所述初始关系表示不同的相关网页是否属于实际中同一个人物。

所述关系挖掘模块1304也可以包括：依据扩充后的相关网页的网页主题特征向量，采用层次凝聚聚类算法对所述相关网页进行分类，并将分类结果作为初始聚类结果。

结果融合模块1305，用于融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果。

其中，参考图18所示，所述结果融合模块1305具体可以包括：

第一判断子模块1801，用于在所述初始关系表示不同的相关网页属于实际中同一个人物的情况下，判断所述属于实际中同一个人物的不同的相关网页在初始聚类结果中是否为同一个类别，如果不是，则将属于实际中同一个人物的不同的相关网页调整为一类；或，

第二判断子模块1802，用于在所述初始关系表示不同的相关网页不属于实际中同一个人物的情况下，判断所述不同的相关网页在初始聚类结果中是否为不同类别，如果否，则将上述不属于实际中同一个人物的不同的相关网页调整为不同类别；以及

确定子模块1803，用于将所有的相关网页的调整后的类别结果作为相关网页的最终聚类结果；所述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

通过本发明实施例提供的上述装置，因为采用了同义词词典和/或上下位词典引入的方式，可以比现有技术更为准确的区别互联网上同名的不同人物，使得对于同名人物的区分效率和精确度大大提升；进一步的，还能够减轻互联网服务器的处理负担，提升互联网服务器的性能。

与本发明实施例提供的另一种对互联网上的同名人物信息进行分类的方法相对应，本发明实施例还提供了另一种对互联网上的同名人物信息进行分类的装置，参考图19所示，具体可以包括：

知名程度获取模块1901，用于获取所述人物名称信息的知名程度参数。

关系挖掘模块1304，具体配置为：依据所述知名程度参数调整所述初始聚类结果中类别数量，并按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始聚类结果，所述调整的规则为：所述知名程度参数越大，所述初始聚类结果的类别就越少。

展示模块1902，用于按照类别将所述最终分类结果进行展示。

通过上述这种对互联网上的同名人物信息进行分类的装置，可以通过引入的知名程度参数，根据人物知名程度来对包含相同的人物名称的不同的相关网页进行分类，这样分类的最终聚类结果与具体的人物名称的知名程度或者常见程度有关，因此更符合实际中的人物名称的取名情况，从而也能够更准确和有效的对人物名称进行分类；并且，本实施例进一步还将最终聚类结果进行展示，也能够方便其他人实时通过更为准确和有效的分类结果进行后续应用。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图20所示的通用个人计算机2000安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图20中，中央处理单元(CPU)2001根据只读存储器(ROM)2002中存储的程序或从存储部分2008加载到随机存取存储器(RAM)2003的程序执行各种处理。在RAM 2003中，也根据需要存储当CPU2001执行各种处理等等时所需的数据。

CPU 2001、ROM2002和RAM 2003经由总线2004彼此连接。输入/输出接口2005也连接到总线2004。

下述部件连接到输入/输出接口2005：输入部分2006，包括键盘、鼠标等等；输出部分2007，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分2008，包括硬盘等等；和通信部分2009，包括网络接口卡比如LAN卡、调制解调器等等。通信部分2009经由网络比如因特网执行通信处理。

根据需要，驱动器2010也连接到输入/输出接口2005。可拆卸介质2011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器2010上，使得从中读出的计算机程序根据需要被安装到存储部分2008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质2011安装构成软件的程序。

本领域的技术人物员应当理解，这种存储介质不局限于图20所示的其中存储有程序、与设备相分离地分发以向人物提供程序的可拆卸介质2011。可拆卸介质2011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 2002、存储部分2008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给人物。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......，，限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

附记1、一种对互联网上的同名人物信息进行分类的方法，包括：

针对输入的人物名称信息，检索包括所述人物名称信息的相关网页；

分别抽取所述相关网页的人物属性特征和网页主题特征；

利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化；

按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取所述相关网页的初始聚类结果；

融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果。

2、根据附记1所述的方法，其中，所述抽取所述相关网页的人物属性特征的步骤，包括：

分析所述相关网页的正文以得到所述相关网页中的相关词语，其中，所述分析包括：分句、分词、词性标注和/或命名实体识别；

获取所述相关词语中与人物名称信息相关的属性关键词，所述属性关键词包括下述各项中的一项或多项：职称、单位、住址、特长和专业；以及

在所述属性关键词中选取与人物名称信息的出现位置的距离小于预设阈值的属性关键词，作为与相关网页对应的人物属性特征集。

3、根据附记2所述的方法，其中，所述利用上下位词典和/或同义词词典对所述人物属性特征进行泛化的步骤，包括：

从所述上下位词典和/或同义词词典中获取所述人物属性特征集中属性关键词的上位词和/或同义词；以及

依据所述属性关键词的上位词和/或同义词扩充所述相关网页的人物属性特征。

4、根据附记3所述的方法，其中，所述按照泛化后的人物属性特征获取所述相关网页的初始关系结果的步骤，包括：

依据扩充后的不同的相关网页之间人物属性特征集的关系，确定不同的相关网页之间的初始关系，所述初始关系表示不同的相关网页是否属于实际中同一个人物。

5、根据附记1所述的方法，其中，所述抽取所述相关网页的网页主题特征的步骤，包括：

分析所述相关网页的正文以得到所述相关网页中的相关词语，其中，所述分析包括：进行分句、分词、词性标注和/或命名实体识别；

分别对各个相关网页的所述相关词语进行加权计算以获取各个相关词语的权重值；以及

针对各个相关网页，选取权重值高于预设阈值的相关词语作为所述相关网页的网页主题特征向量。

6、根据附记5所述的方法，其中，所述利用上下位词典和/或同义词词典对所述网页主题特征进行泛化的步骤，包括：

从所述上下位词典和/或所述同义词词典中获取所述网页主题特征向量中相关词语的上位词和/或同义词；以及

依据所述网页主题特征向量中相关词语的上位词和/或同义词扩充所述相关网页的网页主题特征向量。

7、根据附记6所述的方法，其中，所述按照泛化后的网页主题特征获取初始聚类结果的步骤，包括：

依据扩充后的相关网页的网页主题特征向量，采用层次凝聚聚类算法对所述相关网页进行分类，并将分类结果作为初始聚类结果。

8、根据附记1所述的方法，其中，所述按照泛化后的网页主题特征获取初始聚类结果之前，还包括：

获取所述人物名称信息的知名程度参数；

则所述按照泛化后的网页主题特征获取初始聚类结果的步骤，包括：

依据所述知名程度参数调整所述初始聚类结果中类别数量，并按照泛化后的网页主题特征获取所述相关网页的调整了类别数量的初始聚类结果；所述调整的规则为：所述知名程度参数越大，所述初始聚类结果的类别就越少。

9、根据附记1所述的方法，其中，所述融合所述初始关系结果和所述初始聚类结果的步骤，包括：

在所述初始关系表示不同的相关网页属于实际中同一个人物的情况下，判断所述属于实际中同一个人物的不同的相关网页在初始聚类结果中是否为同一个类别，如果不是，则将属于实际中同一个人物的不同的相关网页调整为一类；或，

在所述初始关系表示不同的相关网页不属于实际中同一个人物的情况下，判断所述不同的相关网页在初始聚类结果中是否为不同类别，如果否，则将上述不属于实际中同一个人物的不同的相关网页调整为不同类别；以及

将调整后的初始聚类结果作为所述相关网页的最终聚类结果；所述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

10、根据附记1所述的方法，其中，在所述得到相关网页的最终聚类结果之后，还包括：

按照类别将所述最终分类结果进行展示。

11、一种对互联网上的同名人物信息进行分类的装置，包括：

检索模块，用于针对输入的人物名称信息，检索包括所述人物名称信息的相关网页；

抽取模块，用于分别抽取所述相关网页的人物属性特征和网页主题特征；

泛化模块，用于利用上下位词典和/或同义词词典分别对所述人物属性特征和网页主题特征进行泛化；

关系挖掘模块，用于按照泛化后的人物属性特征获取所述相关网页的初始关系结果，并按照泛化后的网页主题特征获取初始聚类结果；

结果融合模块，用于融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果。

12、根据附记11所述的装置，其中，所述抽取模块包括：

分析子模块，用于分析所述相关网页的正文内容以得到所述相关网页中的相关词语，其中，所述分析包括：分句、分词、词性标注和/或命名实体识别；

第一获取子模块，用于获取所述相关词语中与人物名称信息相关的属性关键词，所述属性关键词包括下述各项中的一项或多项：职称、单位、住址、特长和专业；以及

第一选取子模块，用于在所述属性关键词中选取与人物名称信息的出现位置的距离小于预设阈值的属性关键词，作为与相关网页对应的人物属性特征集。

13、根据附记12所述的装置，其中，所述泛化模块包括：

第二获取子模块，用于从所述上下位词典和/或同义词词典中获取所述人物属性特征集中属性关键词的上位词和/或同义词；以及

第一扩充子模块，用于依据所述属性关键词的上位词和/或同义词扩充所述相关网页的人物属性特征。

14、根据附记13所述的装置，其中，所述关系挖掘模块包括：依据扩充后的不同的相关网页之问人物属性特征集的关系，确定不同的相关网页之间的初始关系，所述初始关系表示不同的相关网页是否属于实际中同一个人物。

15、根据附记11所述的装置，所述抽取模块包括：

分析子模块，应用分析所述相关网页的正文以得到所述相关网页中的相关词语；其中，所述分析包括：进行分句、分词、词性标注和/或命名实体识别；

计算子模块，用于分别对各个相关网页的所述相关词语进行加权计算以获取各个词语的权重值；以及

第二选取子模块，用于针对各个相关网页，选取权重值高于预设阈值的相关词语作为所述相关网页的网页主题特征向量。

16、根据附记15所述的装置，所述泛化模块包括：

第三获取子模块，用于从所述上下位词典和/或所述同义词词典中获取所述网页主题特征向量中相关词语的上位词和/或同义词；以及

第二扩充子模块，用于依据所述网页主题特征向量中相关词语的上位词和/或同义词扩充所述相关网页的网页主题特征。

17、根据附记16所述的装置，所述关系挖掘模块包括：

18、根据附记11所述的装置，还包括：

知名程度获取模块，用于获取所述人物名称信息的知名程度参数；

则所述关系挖掘模块，具体配置为：

19、根据附记11所述的装置，其中，所述结果融合模块包括：

第一判断子模块，用于在所述初始关系表示不同的相关网页属于实际中同一个人物的情况下，判断所述属于实际中同一个人物的不同的相关网页在初始聚类结果中是否为同一个类别，如果不是，则将属于实际中同一个人物的不同的相关网页调整为一类；或，

第二判断子模块，用于在所述初始关系表示不同的相关网页不属于实际中同一个人物的情况下，判断所述不同的相关网页在初始聚类结果中是否为不同类别，如果否，则将上述不属于实际中同一个人物的不同的相关网页调整为不同类别；以及

确定子模块，用于将所有的相关网页的调整后的类别结果作为相关网页的最终聚类结果；所述最终聚类结果表示不同的相关网页是否属于实际中同一个人物。

20、根据附记11所述的装置，还包括：

展示模块，用于按照类别将所述最终分类结果进行展示。

Claims

1.一种对互联网上的同名人物信息进行分类的方法，包括：

分别抽取所述相关网页的人物属性特征和网页主题特征；

融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果，

其中，所述按照泛化后的网页主题特征获取初始聚类结果之前，还包括：

获取所述人物名称信息的知名程度参数；

2.根据权利要求1所述的方法，其中，所述抽取所述相关网页的人物属性特征的步骤，包括：

3.根据权利要求2所述的方法，其中，所述利用上下位词典和/或同义词词典对所述人物属性特征进行泛化的步骤，包括：

4.根据权利要求3所述的方法，其中，所述按照泛化后的人物属性特征获取所述相关网页的初始关系结果的步骤，包括：

5.根据权利要求1所述的方法，其中，所述抽取所述相关网页的网页主题特征的步骤，包括：

6.根据权利要求5所述的方法，其中，所述利用上下位词典和/或同义词词典对所述网页主题特征进行泛化的步骤，包括：

7.根据权利要求6所述的方法，其中，所述按照泛化后的网页主题特征获取初始聚类结果的步骤，包括：

8.根据权利要求1所述的方法，其中，所述融合所述初始关系结果和所述初始聚类结果的步骤，包括：

9.一种对互联网上的同名人物信息进行分类的装置，包括：

结果融合模块，用于融合所述初始关系结果和所述初始聚类结果，以得到所述相关网页的最终分类结果；以及

其中所述关系挖掘模块具体被配置为：