CN102880623B

CN102880623B - 同名人物搜索方法及系统

Info

Publication number: CN102880623B
Application number: CN201110209561.9A
Authority: CN
Inventors: 张姝; 贾文杰; 王新文; 夏迎炬; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-07-13
Filing date: 2011-07-13
Publication date: 2015-09-09
Anticipated expiration: 2031-07-13
Also published as: CN102880623A

Abstract

本发明实施例公开了一种同名人物搜索方法及装置，其中，所述方法包括：针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；分别提取各个相关文档中的人物关系特征信息，统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明，能够提高同名人物聚类的准确度，进而提高搜索结果的质量，提升搜索引擎的性能。

Description

同名人物搜索方法及系统

技术领域

本发明一般地涉及搜索技术领域，尤其是一种同名人物搜索方法及系统。

背景技术

随着网络的发展，网络上的重名信息越来越多，如何区分这些具有相同人名的人称为信息搜索过程中需要关注的问题。例如，当用户在搜索引擎中输入一个人名时，返回的结果中包含了很多同名的人的信息，需要用户逐一点击浏览以确定哪些信息才是真正所需要的，这显然会比较费时费力。当然，用户还可以通过人工添加查询词等方式来缩小搜索范围。但是，人工添加查询词，相当于对查询结果进行了过滤，也就降低了查询的覆盖率。因此，理想的解决方案是将搜索引擎返回的结果进行聚类，期望将同名的不同人物聚在不同的类别中，用户可以到自己需要的类别中去查找自己搜索结果。这样，既保证了信息的不丢失，又节约了浏览时间。

现有技术中，在对同名人物进行聚类时，大多数的方案都是采用网页聚类的方法，也即将包含相同人名的相似文档聚在一起。例如，从包含同名人物的网页文档中提取能够代表网页内容的关键词，然后通过些关键词的相似性，来进行聚类。

这种网页聚类的方法对于阐述同一个主题的文档集合而言，能够得到很好的结果。也就是说，这种方法的有效性依赖于这样一个假设的前提：同一个人物涉及到的事件是相同或相似的。但是本发明人在实现本发明的过程中发现，在实际应用中，同一个人可能涉及到不同的事件，当不同的文档是针对不同的事件对同一个人物进行报道时，文档在内容上区别是很大的，此时，就难以用网页主题之间的文档相似度，将这样的文档中的人物聚为一类。

总之，在现有技术中，依赖于文档主题之间的相似性对包含同名人物的网页进行聚类时，可能存在聚类不准确的问题，进而在依据聚类结果提供搜索结果时，也会使得搜索结果的质量不高，进而限制了搜索引擎性能的提高。

发明内容

有鉴于此，本发明实施例提供了一种同名人物搜索方法及装置，能够提高同名人物聚类的准确度，进而提高搜索结果的质量，提升搜索引擎的性能。

根据本发明实施例的一个方面，提供一种同名人物搜索方法，包括：针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息；统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

根据本发明实施例的另一个方面，提供一种同名人物搜索装置，包括：检索单元，配置为针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；人物关系提取单元，配置为分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息；统计单元，配置为统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；向量建立单元，配置为根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；人物关系聚类单元，配置为根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述同名人物搜索方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述同名人物搜索方法。

根据本发明实施例的上述方法，在得到包含目标人物名称的相关文档之后，会首先从相关文档中分析出人物关系信息，也就是说，可以统计出各个相关文档中，与目标人物名称共现过的其他人物名称，通过统计信息，可以建立起人物关系图，并计算出目标人物名称与相关文档中出现的其他各人物名称之间的关系强度，最终以此建立起各个相关文档的特征向量，并通过向量间的相似度计算等，即可实现对相关文档的聚类，进而根据聚类结果向用户提供搜索结果。可见，在本发明实施例中，在对相关文档进行聚类时，可以通过挖掘人物之间的关系来实现，这样，即使对同一人物的不同事件的报道，也可能会因为都与其他人物共现，而被聚为一类。可见，通过该方法，可以避免相关文档中的“事件内容”在聚类过程中所起的作用被放大，从而有利于提高聚类的准确度，进而提高搜索结果的质量，提升搜索引擎的性能。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的方法的流程图；

图2是示出作为本发明实施例提供的人物关系图的示意图；

图3是示出作为本发明实施例提供的第一装置的示意图；

图4是示出作为本发明实施例提供的第二装置的示意图；

图5是示出作为本发明实施例提供的第三装置的示意图；

图6是示出作为本发明实施例提供的第四装置的示意图；和

图7是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明实施例。

参见图1，本发明实施例提供的同名人物搜索方法包括以下步骤：

S101：针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档。

其中，目标人物名称可以是用户根据自己的需要在搜索引擎的搜索框输入的。例如，用户想要搜索有关“张三”的相关信息，则可以在搜索引擎的搜索框中输入“张三”作为查询词，之后可以通过按下“回车”键，或者点击“张三”按钮等方式，触发搜索引擎开始搜索。搜索引擎在接收到触发之后，就可以针对用户输入的查询词进行检索，得到包含查询词的相关文档。当然在本发明实施例中，查询词主要是指用户输入的目标人物名称，如前文所述的“张三”，则搜索引擎就可以从数据库中检索出包含有“张三”的相关文档。其中，当搜索引擎为网页搜索引擎时，这种相关文档主要是指网页文档，例如，某网页是关于一个名为“张三”的人的报道，其中出现了“张三”这样的文字，则这个网页就可能被作为“张三”的相关文档而检索出来。

S102：分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息。

在检索得到各个相关文档之后，如果确定查询词是人物名称，则在本发明实施例中，可以首先从中提取其中包含的人物关系特征，这种人物关系特征主要是根据同一相关文档中，目标人物名称与其他人物名称的共现情况来确定的。例如，仍以查询词为“李刚”为例，在某相关文档中，不仅出现了“张三”这一目标人物名称，还出现了“李四”等其他人物名称，则可以认定“张三”与“李四”之间存在某种关系，因此可以将这两者之间的人物关系作为该相关文档中包含的人物关系特征信息提取出来。此外，如果在某相关文档中，包含“张三”、“李四”、“王五”这样三个人物名称，则不仅可以提取“张三”与“李四”、“张三”与“王五”之间的关系，还可以提取“李四”与“王五”之间的关系。其他相关文档也可以做类似处理。

需要说明的是，在本发明实施例中，当用户输入的查询词为某人物名称时，才会按照后续的步骤执行，因此，在接收到用户的搜索请求之后，可以首先判断用户输入的查询词是否为人物名称，具体实现时，可以通过查询预先建立的人名词库等方式来实现。也就是说，可以预先建立人名词库，其中包含了若干个人名词条，当用户在搜索引擎的搜索框中输入查询词时，就可以首先判断该查询词是否出现在该人名词库中，如果是，则确定用户需要搜索的是与某人物名称相关的信息。其中，该人名词库也是是随时更新的，例如，随着一些新闻热点事件的发生，可以将涉及到的新的人物名称添加到该词库中，等等。当然，除了采用预先设置人名词库的方式以外，还可以采用其他的方式来判断用户输入的查询词是否为人名。例如，预先设置姓氏词库，此时，可以判断用户输入的查询词中的第一个字是否出现在姓氏词库中，如果是，证明用户输入的查询词可能是人物名称，等等。

此外，在从相关文档中提取人物关系特征信息时，会涉及到提取相关文档中存在的其他人物名称。此时，可以首先对相关文档中的文本内容进行分词处理，得到一个个的词语或短语等，然后判断各个词语或短语是否出现在预置的人名词库中，或者是否具有人物名称的特征等等，如果是，则可以确认为一个人物名称，从而将相关文档中的人物名称提取出来。

S103：统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。

在提取出各个相关文档中包含的人物关系特征信息之后，就可以将提取出的特征信息综合在一起进行统计，从而建立人物关系图。其中，人物关系图中的节点为目标人物名称，以及相关文档中与目标人物名称共现过的其他人物名称，当两个人物名称在同一相关文档中选线时，就可以在这两个人物名称对应的节点之间建立一条边，每条边还可以具有一定的权重，权重的大小代表其连接的两个节点共现的频率。例如，如图2所示，其中A、B……G代表各个节点上的人物名称，如果两个节点之间具有连线，则代表这两个节点之间在同一文档中共现过。如果节点A与节点B在两篇相关文档中共现过，则这两个节点之间的边的权重可以为2，如果节点B与节点C在四篇相关文档中共现过，则这两个节点之间的边的权重可以为4，以此类推，当然，最后还可以将各个边的权重做归一化处理。

在得到人物关系图之后，就可以在这个关系图的基础上，计算出目标人物名称与各个其他人物名称之间的关系强度，这个关系强度可以是一个量化的值，具体的计算方法可以有多种。例如，在其中一种方式下，可以根据目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到目标人物名称与人物关系图中其他人物名称之间的关系强度。此时，具体可以通过以下公式计算出该关系强度：

Relation (x, y) = αN (x, y) / \max (N (x), N (y)) + β \underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U) - - - ((1))

其中，x是目标人物名称，y是与x在相关文档中共现过的其他人物名称，z是与x在相关文档中共现过、并且与y在其他相关文档中共现过的其他人物名称，U是z的集合，L(U)是集合U中包含的元素的数目。N(x，y)是x与y共现的相关文档数目，N(x)是包含x的相关文档数目，N(y)是包含y的相关文档数目，N(x，z)是x与z共现的相关文档数目，N(y，z)是y与z共现的相关文档数目，N(z)是包含z的相关文档数目。这样，N(x，y)/max(N(x)，N(y))就可以代表x与y的直接关系强度，则可以代表x与y的间接关系强度。其中，α、β为权重因子，可以根据直接关系强度与间接关系强度的参考价值或者实际的需要，来灵活确定各自的取值。

通过上述方式计算关系强度时，相当于利用了人物关系之间具有传递性这一特点，这样可以使得计算出的关系强度能够更好地反映实际的情况。例如，某相关文档中提到了人物B和E，但是同时提到人物B和E的相关文档数目可能比较少，则通过直接关系计算得到这两者之间的关系可能比较弱；然而实际情况是，人物B与E之间的关系应该是比较密切的，可见，通过上述直接关系的计算，得到的关系强度就没有很好地体现出实际的情况。但是，当引入间接关系强度之后，就可以使得上述情况得到改善。例如，当计算得到人物B与F、E与F之间都有很强的直接关系时，就可以通过第三方F来加强人物B和E之间的关系，使得B与E之间的关系增强，从而更好地反映出实际的情况。

当然，除了上述公式(1)的方式以外，还可以通过其他方式来计算出人物之间的关系强度，例如，还可以将直接关系强度与间接关系强度相乘，将所得的积作为人物之间的关系强度，等等。此外，在计算人物之间的关系强度时，也可以不必综合考虑人物之间的直接关系强度以及间接关系强度，单独考虑人物之间的直接关系强度或者间接关系强度也是可以实现的，具体的实现过程这里不再赘述。

S104：根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量。

在得到目标人物名称与其他各人物名称之间的关系强度之后，就可以为各个相关文档建立人物关系特征向量。例如，某相关文档中除了包含目标人物名称A之外，还包括人物名称B、C、D，则针对该相关文档，可以建立一个三维向量，其中，人物名称B、C、D分别与人物名称A之间的关系强度就作为向量各个维度上的数值。例如，A与B之间的关系强度为0.5，A与C之间的关系强度为0.3，A与D之间的关系强度为0.7，则针对该相关文档建立的向量可以为(0.5，0.3，0.7)。以此类推，其他的相关文档也可以分别建立起各自的人物关系特征向量。

S105：根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

在得到各个相关文档的人物关系特征向量之后，就可以实现对各个相关文档的聚类。其中，具体在进行相关文档的聚类时，可以通过向量之间的运算来计算文档之间的相似度，进而实现聚类。向量之间的运算可以是计算向量之间的夹角，夹角越小，则证明对应的两个相关文档之间的相似度越大。关于向量之间的夹角，可以采用计算余弦值的方式实现。例如，相关文档1中包含的人物名称除了目标人物名称A以外，还有人物名称B、C、D，对应的人物关系特征向量为(B：0.5，C：0.3，D：0.7)；相关文档2中包含的人物名称除了目标人物名称A以外，还有人物名称B、C、E、F，对应的人物关系特征向量为(B：0.4，C：0.5，E：0.3，F：0.2)，在计算这两个向量之间的相似度时，可以首先将两个向量扩展为相同维度，例如，将相关文档1的向量扩展为(B：0.5，C：0.3，D：0.7，E：0，F：0)，将相关文档2的向量扩展为(B：0.4，C：0.5，D：0，E：0.3，F：0.2)，这样，可以通过以下公式计算出这两个向量之间的夹角的余弦值：

\sqrt{{(0.5 - 0.4)}^{2} + {(0.3 - 0.5)}^{2} + {(0.7 - 0)}^{2} + {(0 - 0.3)}^{2} + {(0 - 0.2)}^{2}} - - - (2)

其他相关文档之间的相似度也可以通过以上方式计算出来。最后，再根据相似度进行聚类，相当于将各个相关文档划分为多个类别，同一类别中的文档中涉及到的目标人物名称可能指代的是同一人，而不同类别的文档中涉及到的目标人物名称则可能指代的不是同一人，只是这些人物同名而已。然后就可以根据聚类的结果向用户提供搜索结果。

例如，聚类结果为相关文档1、2、4、7是一类，相关文档3、5、6、8是另一类，则证明在相关文档1、2、4、7中涉及到的目标人物名称可能指代的可以是同一个人物，而相关文档3、5、6、8中涉及到的目标人物名称可能是指代的可能是另一个人物。在向用户提供搜索结果时，就可以将相关文档1、2、4、7作为一类一起展现给用户，相关文档3、5、6、8作为另一类一起展现给用户，这样，如果用户实际需要搜索的是第一个人物，则可以直接查看第一类搜索结果中的信息，如果实际要搜索的是第二个人物，则可以直接查看第二类搜索结果中的信息，而不必再手动地筛选，或者增加查询词。

总之，在本发明实施例中，在得到包含目标人物名称的相关文档之后，会首先从相关文档中分析出人物关系信息，也就是说，可以统计出各个相关文档中，与目标人物名称共现过的其他人物名称，通过统计信息，可以建立起人物关系图，并计算出目标人物名称与相关文档中出现的其他各人物名称之间的关系强度，最终以此建立起各个相关文档的特征向量，并通过向量间的相似度计算等，即可实现对相关文档的聚类，进而根据聚类结果向用户提供搜索结果。可见，在本发明实施例中，在对相关文档进行聚类时，可以通过挖掘人物之间的关系来实现，这样，即使对同一人物的不同事件的报道，也可能会因为都与其他人物共现，而被聚为一类。可见，通过该方法，可以避免相关文档中的“事件内容”在聚类过程中所起的作用被放大，从而有利于提高聚类的准确度，进而提高搜索结果的质量，提升搜索引擎的性能。

在实际应用中，还可以综合考虑多方面的因素实现对相关文档的聚类，其中，上述人物关系特征可以作为这些因素之一，其他因素还可以是文档中的主题特征信息、人物属性信息等等。其中，主题特征信息是指相关文档中的文本内容特征，通过对文档中的文本内容进行分词，得到多个词语，然后分别统计各个词语在文档中的词频，可以建立主题特征模型，这样，通过不同文档的主题特征模型之间的相似度计算，可以得到主题聚类结果。人物属性信息是指文档中包含的与人物的职称、单位、住址、特长、爱好等属性信息，通过这些信息的提取可以建立相关文档的人物属性模型，进而通过不同文档的人物属性模型之间的相似度计算，可以得到人物属性聚类结果。

在本发明实施例中，就可以针对各个相关文档，从多个层面分别得到聚类结果，例如，可以将利用文档中存在的人物关系特征信息得到的人物关系聚类结果，利用文档中存在的主题特征信息得到主题聚类结果，利用文档中存在的人物属性特征得到人物属性聚类结果，然后再将各个层面上得到的聚类结果进行融合，得到最终的聚类结果。

具体在对各个层面上的聚类结果进行融合时，可能存在各个层面上的聚类结果矛盾的情况，此时，可以根据预先制定的策略进行融合。例如，该策略可以是人物属性聚类结果＞人物关系聚类结果＞主题特征聚类结果，也就是说，当出现矛盾时，可以优先考虑人物属性聚类结果。例如，在人物关系聚类结果中，文档1与2是一类，3与4是另一类，而在人物属性聚类结果中，文档1与3是一类，2与4是另一类，此时，融合之后的结果就可以是文档1与3是一类，2与4是另一类，相当于选择了人物属性聚类结果作为最终的聚类结果。

当然，在其他的融合策略中，也可以按照一定的比例将各种聚类结果进行量化，经加权计算得到最终的结果。或者，还可以采用投票的方式对各种聚类结果进行融合，等等。例如，对于两篇相关文档，通过前述三个层面上的聚类，存在两种结果：被聚为一类，或者没有被聚为一类，则采用投票的策略对结果进行融合时，可以有如下结果：首先对于三个层面结果一致的，将其作为最后结果；其次，对于某一层面具有强相似度的(例如大于某设定的阈值等等)，确定为最后结果；最后，在两个层面结果一致的，将其作为最后结果。总之，可以分别从多个层面来考察文档之间的相似关系，如果某一层面具有很强的相似关系，则可以被挖掘出来。

需要说明的是，在进行多个层面上的聚类时，也可以仅从人物关系特征层面及主题特征层面进行聚类，或者，仅从人物关系特征及人物属性特征层面进行聚类，等等。

另外需要说明的是，关于利用文档中存在的主题特征信息得到主题聚类结果，以及利用文档中存在的人物属性特征得到人物属性聚类结果的具体实现，可以采用已有技术中的方法来实现。其中，在利用主题特征信息计算得到主题聚类结果时，已有技术中的方法通常是直接对文档进行分词，然后统计各个词语在文档中的词频，从而建立起针对各个相关文档的主题模型，再根据主题模型之间的相似度比较，进行相关文档的聚类。例如，某相关文档中的文本内容为“李想是80后的典型代表，北京泡泡信息技术有限公司首席执行官……一家从事电脑硬件个人和办公数码产品服务网站……”，利用已有技术的方法为其建立主题模型时，可能为：

<李想/50是/0.1 80后/10的/0.01典型/1代表/2泡泡网/40北京/20泡泡/30信息/15技术/7有限/5公司/4首席/20执行官/30他/0.6一/1家/2从事/4电脑/8硬件/8个人/4和/0.7办公/7数码/8产品/4服务/12网站/30首都/10 IT/10 CEO/15高管/1.5计算机/4私人/2电子/1>，其中，“/”后显示的数字代表对应的词语在该文档中出现的词频。

利用上述已有技术在进行相关文档的聚类时，由于主题模型中可能包含了一些区分度比较低的词条，以至于最终的聚类结果可能不够准确。为此，在本发明实施例中，为了提高基于主题模型进行聚类时的准确度，可以首先通过权重计算、关键词识别等方式，从相关文档中提取能够表征该文档主要内容的词语，来刻画相关文档描述的主要内容，然后在这些词语的基础上建立其主题模型，并进一步进行聚类。

为此，可以对各个相关文档进行分词处理，然后在全部相关文档中对分词得到的词语进行综合统计，选取用于表述各个相关文档的主题词语，最后根据各个相关文档的主题词语，对各个相关文档进行聚类。也就是说，在选取某相关文档的主题词语时，不是仅考虑该相关文档本身包含的词语以及词频，而是要从整个相关文档集合进行考虑。

具体实现时，可以首先计算相关文档中各词语的权重，例如，针对某相关文档D，可以通过以下方式计算该相关文档D中各个词语t_i的权重：

-2logλ＝2[log L(p₁，o₁₁，o₁₁+o₁₂)+log L(p₂，o₂₁，o₂₁+o₂₂) (3)

-log L(p，o₁₁，o₁₁+o₁₂)-log L(p，o₂₁，o₂₁+o₂₂)]

在公式(3)中，λ表示词语t_i在相关文档D中的权重，O₁₁表示词语t_i在相关文档D中出现的词频，O₁₂表示词语t_i在相关文档D以外的其他文档中出现的词频，O₂₁表示t_i以外的其他词语在相关文档D中出现的词频，O₂₂表示t_i以外的其他词语在相关文档D以外的其他相关文档中出现的词频。L(·)是一个函数，其函数表达式为：L(p，k，n)＝P^k(1-P)^(n-k)，P₁＝O₁₁/(O₁₁+O₁₂)，P₂＝O₂₁/(O₂₁+O₂₂)，P＝(O₁₁+O₂₁)/(O₁₁+O₁₂+O₂₁+O₂₂)。

经过计算各个词语的权重，可以通过设定阈值等方式来选取词语作为文档的主题词，用来表示该相关文档的主题信息。其中，阈值可以通过统计表设定为与权重相关的某个分值，大于某分值的词语为主题词语，也可以设定为按权重降序排列，选取前N个为主题词语，等等。

例如，对于前述例子中的相关文档，使用本发明实施例的方法进行主题词语的选取之后，建立的主题模型可以为：

<泡泡，北京，信息，技术，公司，首席，执行官，电脑，硬件，办公，数码，产品，服务，网站，CEO，高管，计算机，电子>。

可见，相当于对文档中出现的词语进行了筛选，仅保留了能够表征文档主要内容的词语。需要说明的是，在根据该模型建立相关文档的向量时，可以将各个词语的权重值作为向量各个维度上的数值，进而通过向量运算的方式来计算相关文档之间的相似度即可。

另外需要说明的是，前述公式(3)仅仅是一种具体的实现方式，在实际应用中，还可以采用其他的公式来计算相关文档中词语的权重，只要通过在全部相关文档中对分词得到的词语进行综合统计的方式，来选取用于表述各个相关文档的主题词语，就都在本发明的保护范围之内。

另外，在通过提取相关文档中的人物属性特征建立人物属性模型，并得到人物属性聚类结果的过程中，由于人物属性特征相对于主题词语等特征而言，比较稀疏，因此，在本发明实施例中，人物属性的定义可以比较宽泛，只要与人物相关即可，如不仅仅可以是职称、工作单位，还可以是特长、专业、爱好等等，而不是严格限定为获取哪几种属性，这样有利于发现可能存在的具有强指示性的特征来挖掘指向同一人的相关文档。

以上对本发明实施例提供的同名人物搜索方法进行了详细地介绍，在该方法中，首先可以在相关文档中提取人物关系特征信息，根据人物关系特征信息对各个相关文档进行聚类，这样可以解决事件对聚类结果的影响被放大、以至于内容相似度较小的相关文档很难聚在一起的问题。

在此基础上，为了进一步优化聚类结果，还可以综合考虑其他方面的因素。在考虑这些因素时，本发明实施例并不是将这些因素放在一起、为相关文档建立一个大的模型(模型中包含人物关系特征、人物属性特征、主题词语等等)，而是从各个层面分别对相关文档建立不同的模型(例如，分别建立人物关系属性模型、主题模型并建立人物关系网等等)，并且分别进行聚类，最后再将各个层面上的聚类结果进行融合，得到最终的聚类结果。这样做的好处在于，能够抓住各个层面上所表述的重要信息，避免相互影响，如果某一层面具有很强的相似关系，则可以被挖掘出来，此外，也便于相似度计算方法的选择以及阈值的设定。

与该方法相对应，本发明实施例还提供可一种同名人物搜索装置，参见图3，该装置包括：

检索单元301，配置为针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；

人物关系提取单元302，配置为分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息；

统计单元303，配置为统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；

向量建立单元304，配置为根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；

人物关系聚类单元305，配置为根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

其中，统计单元303具体可以配置为根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。

具体实现时，统计单元可以采用公式(1)来计算上述关系强度，当然也可以采用其他的公式或其他方式来实现。

向量建立单元304具体可以配置为：将相关文档中包含的目标人物名称以外的其他人物名称作为向量各个维度上的参数，将目标人物名称与各其他人物名称之间的关系强度作为各个维度上的数值，建立所述人物关系特征向量。

参见图4，人物关系聚类单元305具体可以包括：

第一相似度计算子单元3051，配置为根据各个相关文档的人物关系特征向量，将各个相关文档进行相似度计算；

第一聚类子单元3052，配置为根据相关文档之间的相似度以及预设的第一阈值，对各个相关文档进行聚类。

在实际应用中，为了实现更有效的聚类，还可以从多个层面上对相关文档进行挖掘，例如，参见图5，该装置还可以包括：

主题聚类单元306，配置为根据所述相关文档中包含的主题特征信息，对各个相关文档进行聚类，得到主题聚类结果；

和/或，人物属性聚类单元307，配置为根据所述相关文档中包含的与所述目标人物名称相关的人物属性信息，对各个相关文档进行聚类，得到人物属性聚类结果；

融合单元308，配置为将所述主题聚类结果和/或人物属性聚类结果与所述人物关系聚类结果相融合，得到最终的聚类结果，以便根据所述最终的聚类结果给出搜索结果。

当然，如果仅将主题聚类结果与人物关系聚类结果相融合，或者仅将人物属性聚类结果与人物关系聚类结果相融合，也是可以的。

具体实现时，参见图6，主题聚类单元306可以包括：

主题特征提取子单元3061，配置为提取各相关文档中包含的主题特征信息；

主题特征向量建立子单元3062，配置为根据各个相关文档的主题特征信息建立各相关文档的主题特征向量；

第二相似度计算子单元3063，配置为根据所述主题特征向量对各个相关文档进行相似度计算；

第二聚类子单元3064，配置为根据相关文档之间的相似度以及预置的第二阈值，对各个相关文档进行聚类。

为了提高主题聚类结果的有效性，在进行主题特征提取时，可以对文档中的词语进行筛选，得到能够表达相关文档主要内容的词语作为相关文档的主题词，然后再建立向量，并进行相似度的计算。此时，主题特征提取子单元3061可以包括：

分词子单元30611，配置为对各个相关文档进行分词处理；

统计子单元30612，配置为在全部相关文档中对分词得到的词语进行综合统计得到各个词语的权重；

选取子单元30613，配置为根据所述权重选取用于表述各个相关文档主要内容的主题词语。

具体实现时，统计子单元30612可以利用公式(3)或其他方式实现上述统计。

此外，人物属性信息聚类单元307可以包括：

人物属性特征提取子单元3071，配置为提取各相关文档中包含的人物属性信息；

人物属性向量建立子单元3072，配置为根据各个相关文档的人物属性信息建立各相关文档的人物属性向量；

第三相似度计算子单元3073，配置为根据所述人物属性向量对各个相关文档进行相似度计算；

第三聚类子单元3074，配置为根据相关文档之间的相似度以及预置的第三阈值，对各个相关文档进行聚类。

总之，在本发明实施例提供的上述装置中，首先可以在相关文档中提取人物关系特征信息，根据人物关系特征信息对各个相关文档进行聚类，这样可以解决事件对聚类结果的影响被放大、以至于内容相似度较小的相关文档很难聚在一起的问题。

需要说明的是，上述装置实施例是与前述方法实施例相对应的，因此，装置实施例中未详述部分可以参见方法实施例部分的介绍，这里不再赘述。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用个人计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU701执行各种处理等等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分708，包括硬盘等等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

附记1、一种同名人物搜索方法，包括：

针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；

分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息；

统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；

根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；

根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

附记2、根据附记1所述的方法，所述计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度，包括：

根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度。

附记3、根据附记1所述的方法，所述根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度，包括通过如下公式计算所述关系强度：

Relation (x, y) = αN (x, y) / \max (N (x), N (y)) + β \underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U)

其中，x：目标人物名称；

y：与x在相关文档中共现过的其他人物名称；

z：与x在相关文档中共现过、并且与y在其他相关文档中共现过的其他人物名称；

U：z的集合；

L(U)：集合U中包含的元素的数目；

N(x，y)：x与y共现的相关文档数目；

N(x)：包含x的相关文档数目；

N(y)：包含y的相关文档数目；

N(x，z)：x与z共现的相关文档数目；

N(y，z)：y与z共现的相关文档数目；

N(z)：包含z的相关文档数目；

N(x，y)/max(N(x)，N(y))：x与y的直接关系强度；

\underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U) :

x与y的间接关系强度；

α、β：权重因子。

附记4、根据附记1所述的方法，对于某相关文档，通过以下方式为其建立人物关系特征向量：

将该相关文档中包含的目标人物名称以外的其他人物名称作为向量各个维度上的参数，将目标人物名称与各其他人物名称之间的关系强度作为各个维度上的数值，建立所述人物关系特征向量。

附记5、根据附记1所述的方法，所述根据所述人物关系特征向量，对各个相关文档进行聚类包括：

根据各个相关文档的人物关系特征向量，将各个相关文档进行相似度计算；

根据相关文档之间的相似度以及预设的第一阈值，对各个相关文档进行聚类。

附记6、根据附记1至5任一项所述的方法，还包括：

根据所述相关文档中包含的主题特征信息，对各个相关文档进行聚类，得到主题聚类结果；和/或，根据所述相关文档中包含的与所述目标人物名称相关的人物属性信息，对各个相关文档进行聚类，得到人物属性聚类结果；

将所述主题聚类结果和/或人物属性聚类结果与所述人物关系聚类结果相融合，得到最终的聚类结果，以便根据所述最终的聚类结果给出搜索结果。

附记7、根据附记6所述的方法，所述根据所述相关文档中包含的主题特征信息，对各个相关文档进行聚类包括：

提取各相关文档中包含的主题特征信息；

根据各个相关文档的主题特征信息建立各相关文档的主题特征向量；

根据所述主题特征向量对各个相关文档进行相似度计算；

根据相关文档之间的相似度以及预置的第二阈值，对各个相关文档进行聚类。

附记8、根据附记7所述的方法，所述获取各相关文档中包含的主题特征信息包括：

对各个相关文档进行分词处理；

在全部相关文档中对分词得到的词语进行综合统计得到各个词语的权重；

根据所述权重选取用于表述各个相关文档主要内容的主题词语。

附记9、根据附记8所述的方法，针对某相关文档D，通过以下方式计算该相关文档D中各个词语t_i的权重：

-2logλ＝2[log L(p₁，o₁₁，o₁₁+o₁₂)+log L(p₂，o₂₁，o₂₁+o₂₂)

-log L(p，o₁₁，o₁₁+o₁₂)-log L(p，o₂₁，o₂₁+o₂₂)]

其中，

λ：词语t_i在相关文档D中的权重；

O₁₁：词语t_i在相关文档D中出现的词频；

O₁₂：词语t_i在相关文档D以外的其他文档中出现的词频；

O₂₁：t_i以外的其他词语在相关文档D中出现的词频；

O₂₂：t_i以外的其他词语在相关文档D以外的其他相关文档中出现的词频；

L(p，k，n)＝P^k(1-P)^(n-k)；

P₁＝O₁₁/(O₁₁+O₁₂)；

P₂＝O₂₁/(O₂₁+O₂₂)；

P＝(O₁₁+O₂₁)/(O₁₁+O₁₂+O₂₁+O₂₂)。

附记10、根据附记6所述的方法，所述根据所述相关文档中包含的与所述目标人物名称相关的人物属性信息，对各个相关文档进行聚类包括：

提取各相关文档中包含的人物属性信息；

根据各个相关文档的人物属性信息建立各相关文档的人物属性向量；

根据所述人物属性向量对各个相关文档进行相似度计算；

根据相关文档之间的相似度以及预置的第三阈值，对各个相关文档进行聚类。

附记11、一种同名人物搜索装置，包括：

检索单元，配置为针对输入的目标人物名称，检索得到包含所述目标人物名称的相关文档；

人物关系提取单元，配置为分别提取各个相关文档中的人物关系特征信息，所述人物关系特征信息为在同一相关文档中所述目标人物名称与其他人物名称的共现信息；

统计单元，配置为统计各个相关文档中的所述人物关系特征信息，建立人物关系图，并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度；

向量建立单元，配置为根据各个相关文档各自包含的人物名称，以及所述关系强度，为各个相关文档建立人物关系特征向量；

人物关系聚类单元，配置为根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果。

附记12、根据附记11所述的装置，所述统计单元具体配置为：

附记13、根据附记11所述的装置，所述统计单元具体配置为通过如下公式计算所述关系强度：

Relation (x, y) = αN (x, y) / \max (N (x), N (y)) + β \underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U)

其中，x：目标人物名称；

y：与x在相关文档中共现过的其他人物名称；

U：z的集合；

L(U)：集合U中包含的元素的数目；

N(x，y)：x与y共现的相关文档数目；

N(x)：包含x的相关文档数目；

N(y)：包含y的相关文档数目；

N(x，z)：x与z共现的相关文档数目；

N(y，z)：y与z共现的相关文档数目；

N(z)：包含z的相关文档数目；

N(x，y)/max(N(x)，N(y))：x与y的直接关系强度；

\underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U) :

x与y的间接关系强度；

α、β：权重因子。

附记14、根据附记11所述的装置，所述向量建立单元具体配置为：将相关文档中包含的目标人物名称以外的其他人物名称作为向量各个维度上的参数，将目标人物名称与各其他人物名称之间的关系强度作为各个维度上的数值，建立所述人物关系特征向量。

附记15、根据附记11所述的装置，所述人物关系聚类单元包括：

第一相似度计算子单元，配置为根据各个相关文档的人物关系特征向量，将各个相关文档进行相似度计算；

第一聚类子单元，配置为根据相关文档之间的相似度以及预设的第一阈值，对各个相关文档进行聚类。

附记16、根据附记11至15任一项所述的装置，还包括：

主题聚类单元，配置为根据所述相关文档中包含的主题特征信息，对各个相关文档进行聚类，得到主题聚类结果；和/或，人物属性聚类单元，配置为根据所述相关文档中包含的与所述目标人物名称相关的人物属性信息，对各个相关文档进行聚类，得到人物属性聚类结果；

融合单元，配置为将所述主题聚类结果和/或人物属性聚类结果与所述人物关系聚类结果相融合，得到最终的聚类结果，以便根据所述最终的聚类结果给出搜索结果。

附记17、根据附记16所述的装置，所述主题聚类单元包括：

主题特征提取子单元，配置为提取各相关文档中包含的主题特征信息；

主题特征向量建立子单元，配置为根据各个相关文档的主题特征信息建立各相关文档的主题特征向量；

第二相似度计算子单元，配置为根据所述主题特征向量对各个相关文档进行相似度计算；

第二聚类子单元，配置为根据相关文档之间的相似度以及预置的第二阈值，对各个相关文档进行聚类。

附记18、根据附记17所述的装置，所述主题特征提取子单元包括：

分词子单元，配置为对各个相关文档进行分词处理；

统计子单元，配置为在全部相关文档中对分词得到的词语进行综合统计得到各个词语的权重；

选取子单元，配置为根据所述权重选取用于表述各个相关文档主要内容的主题词语。

附记19、根据附记18所述的装置，所述统计子单元具体配置为：针对某相关文档D，通过以下方式计算该相关文档D中各个词语t_i的权重：

-log L(p，o₁₁，o₁₁+o₁₂)-log L(p，o₂₁，o₂₁+o₂₂)]

其中，

λ：词语t_i在相关文档D中的权重；

O₁₁：词语t_i在相关文档D中出现的词频；

O₁₂：词语t_i在相关文档D以外的其他文档中出现的词频；

O₂₁：t_i以外的其他词语在相关文档D中出现的词频；

L(p，k，n)＝P^k(1-P)^(n-k)；

P₁＝O₁₁/(O₁₁+O₁₂)；

P₂＝O₂₁/(O₂₁+O₂₂)；

P＝(O₁₁+O₂₁)/(O₁₁+O₁₂+O₂₁+O₂₂)。

附记20、根据附记16所述的装置，所述人物属性信息聚类单元包括：

人物属性特征提取子单元，配置为提取各相关文档中包含的人物属性信息；

人物属性向量建立子单元，配置为根据各个相关文档的人物属性信息建立各相关文档的人物属性向量；

第三相似度计算子单元，配置为根据所述人物属性向量对各个相关文档进行相似度计算；

第三聚类子单元，配置为根据相关文档之间的相似度以及预置的第三阈值，对各个相关文档进行聚类。

Claims

1.一种同名人物搜索方法，包括：

根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果，

其中，所述计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度，包括：

根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度，并且

所述根据所述目标人物名称与其他人物名称之间的直接关系强度及间接关系强度，计算得到所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度，包括通过如下公式计算所述关系强度：

Relation (x, y) = αN (x, y) / \max (N (x), N (y)) + β \underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U)

其中，x：目标人物名称；

y：与x在相关文档中共现过的其他人物名称；

U：z的集合；

L(U)：集合U中包含的元素的数目；

N(x，y)：x与y共现的相关文档数目；

N(x)：包含x的相关文档数目；

N(y)：包含y的相关文档数目；

N(x，z)：x与z共现的相关文档数目；

N(y，z)：y与z共现的相关文档数目；

N(z)：包含z的相关文档数目；

N(x，y)/max(N(x)，N(y))：x与y的直接关系强度；

x与y的间接关系强度；

α、β：权重因子。

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，所述根据所述相关文档中包含的主题特征信息，对各个相关文档进行聚类包括：

提取各相关文档中包含的主题特征信息；

根据所述主题特征向量对各个相关文档进行相似度计算；

4.根据权利要求3所述的方法，所述提取各相关文档中包含的主题特征信息包括：

对各个相关文档进行分词处理；

5.一种同名人物搜索装置，包括：

人物关系聚类单元，配置为根据所述人物关系特征向量，对各个相关文档进行聚类，得到人物关系聚类结果，以便至少根据所述人物关系聚类结果给出搜索结果，

其中，所述统计单元具体配置为：

所述统计单元通过如下公式计算所述关系强度：

Relation (x, y) = αN (x, y) / \max (N (x), N (y)) + β \underset{z &Element; U}{Σ} \frac{N (x, z) + N (y, z)}{N (z)} / L (U)

其中，x：目标人物名称；

y：与x在相关文档中共现过的其他人物名称；

U：z的集合；

L(U)：集合U中包含的元素的数目；

N(x，y)：x与y共现的相关文档数目；

N(x)：包含x的相关文档数目；

N(y)：包含y的相关文档数目；

N(x，z)：x与z共现的相关文档数目；

N(y，z)：y与z共现的相关文档数目；

N(z)：包含z的相关文档数目；

N(x，y)/max(N(x)，N(y))：x与y的直接关系强度；

x与y的间接关系强度；

α、β：权重因子。

6.根据权利要求5所述的装置，还包括：