CN102999538B

CN102999538B - 人物搜索方法和设备

Info

Publication number: CN102999538B
Application number: CN201110279602.1A
Authority: CN
Inventors: 张姝; 孟遥; 夏迎炬; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2015-09-30
Anticipated expiration: 2031-09-08
Also published as: CN102999538A

Abstract

本发明提供了一种人物搜索方法和设备，该方法包括：文档获取步骤，以给定的人物名称作为关键词进行搜索，以获取与该人物名称相关的多个文档；预处理步骤，对所获取的多个文档进行预处理，以获得多个文档的相关信息；特征提取步骤，从所获得的相关信息中提取文档特征；特征优化步骤，针对每个特征，如果该特征在预设的禁止特征集合中，则滤除该特征；文档相似度计算步骤，利用优化后的特征，计算多个文档中每两个文档之间的相似度；以及文档聚类步骤，基于算出的相似度，对多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。根据本发明的实施例，能够提高聚类性能，并且能够提高召回率，从而改善了用户体验。

Description

人物搜索方法和设备

技术领域

本发明涉及网络服务领域，并且更具体地，涉及一种基于特征优化的人物搜索方法和设备。

背景技术

近年来，随着网络的发展，网络上的重名信息越来越多。因此，如何区分这些具有相同名称的人物已引起了研究者的兴趣。例如，当在网页的搜索引擎中输入要搜索的人物的名称时，返回的结果中可能包含许多其他同名人物的信息。这就需要再人工添加查询词或者逐一浏览以确定哪些信息是需要的。但是，由于人工添加查询词对搜索结果进行了过滤，从而降低了搜索的覆盖率；而逐一进行浏览又需要花费大量的时间和精力。因此，理想的解决方案是对搜索引擎返回的搜索结果进行聚类，从而将具有相同名称的不同人物聚在不同的类别中，既保证了信息不会丢失，又节约了时间。

为了解决上述问题，现有的大部分方案都是采用网页聚类的方法，即将包含相同人物名称的相似文档聚在一起，从而便于用户查看。但是，由于网页相对于纯文本具有噪声大、错误多的特点，因此会出现表示不同人物的文档被聚类在一起或者表示同一人物的文档未被聚类在一起的情况，从而大大降低了聚类的性能。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。

由于对于聚类任务，特征的选择是非常关键的。因此，本发明的目的是提供一种新颖且改进的人物搜索方法和设备，其能够通过对特征进行优化，滤除掉影响聚类结果的禁用特征，以保证特征的有效性，从而提高聚类的性能，并且还能够在传统的标准聚类过程之后，进一步引入检索策略以进行类别归并，从而使得被当成单独类别的单个文档归入其相应的类别中，以提高召回率。

为了实现上述目的，根据本发明的实施例的一个方面，提供了一种人物搜索方法，该方法可以包括：文档获取步骤，以给定的人物名称作为关键词进行搜索，以获取与该人物名称相关的多个文档；预处理步骤，对所获取的多个文档进行预处理，以获得多个文档的相关信息；特征提取步骤，从所获得的相关信息中提取文档特征；特征优化步骤，针对每个特征，如果该特征在预设的禁止特征集合中，则滤除该特征；文档相似度计算步骤，利用优化后的特征，计算多个文档中每两个文档之间的相似度；以及文档聚类步骤，基于算出的相似度，对多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。

根据本发明的实施例的另一方面，还提供了一种人物搜索设备，该设备可以包括：文档获取单元，以给定的人物名称作为关键词进行搜索，以获取与该人物名称相关的多个文档；预处理单元，对所获取的多个文档进行预处理，以获得多个文档的相关信息；特征提取单元，从所获得的相关信息中提取文档特征；特征优化单元，针对每个特征，如果该特征在预设的禁止特征集合中，则滤除该特征；文档相似度计算单元，利用优化后的特征，计算多个文档中每两个文档之间的相似度；以及文档聚类单元，基于算出的相似度，对多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。

另外，根据本发明的另一方面，还提供了一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行程序代码时，该程序代码使得信息处理设备执行根据本发明的人物搜索方法。

此外，根据本发明的再一方面，还提供了一种程序产品，该程序产品包括机器可执行的指令，当在信息处理设备上执行指令时，该指令使得信息处理设备执行根据本发明的上述人物搜索方法。

因此，根据本发明的实施例，能够通过对特征进行优化以保证特征的有效性从而提高聚类的性能，并且能够通过在标准聚类过程之后引入检索策略以进行类别归并，从而提高召回率。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1示出了根据本发明的实施例的人物搜索方法的流程图；

图2详细示出了根据本发明的实施例的特征优化算法的流程图；

图3示出了根据本发明的检索策略的流程图；

图4详细示出了图3所示的类别相似度计算步骤的第一示例的流程图；

图5详细示出了图3所示的类别相似度计算步骤的第二示例的流程图；

图6示出了根据本发明的实施例的人物搜索设备的配置的框图；

图7详细示出了图6中的禁止特征集合获取单元的配置的框图；

图8示出了图6中的类别相似度计算单元的第一示例的配置的框图；

图9示出了图6中的类别相似度计算单元的第二示例的配置的框图；以及

图10是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其它细节。

以下参照附图1至10来描述本发明的实施例。

首先参照图1，对根据本发明的实施例的人物搜索方法进行描述。该人名搜索方法可以包括：

文档获取步骤S101：以给定的人物名称作为关键词进行搜索，以获取与该人物名称相关的多个文档。具体地，在互联网搜索引擎中输入想要搜索的人物的名称，从而得到返回的与该人物名称相关的多个网页。

预处理步骤S102：对在步骤S101中获取的多个文档进行预处理，以获得多个文档的相关信息，该相关信息例如可包括网页的URL、标题、时间以及正文等信息。

特征提取步骤S103：从在步骤S102中获得的文档相关信息中提取文档特征。这里，文档特征提取的范围是整个文档，并且所提取的文档特征可以是对该文档具有较强指示能力的特征，例如可以包括命名实体特征、复合名词特征和超链接特征。

具体地，对于命名实体特征，这里采用斯坦福的NER(命名实体识别)来进行命名实体特征的提取。实体可以包括三种常见的类型：入名、地名以及机构名。由于地名和机构名可能具有许多与特定人物相关性较低的名词，因此与入名相比，对地名和机构名分配较低的权重值。

在通过搜索得到的多个文档中，根据WePS(网络人物搜索)2009，每个文档包含至少出现过一次的要搜索的入名。然而，由于聚类的目的是为了区分指的是同名而不同人的文档，因此所输入的查询人名属于禁用词(stop-word)，应该从所提取的特征中剔除该特征。这是因为这些禁用词不但难以缩小搜索范围，还会延误搜索结果的提供。

对于复合名词特征，它们可以包含与一个人物相关的语义信息或传记信息，这对于识别个体是非常好的指示。复合名词特征的提取是基于复合名词与其作为简单名词的构成词之间的关系的统计信息来实现的，其提取方法是本领域已知的，例如可采用Nakagawa等人在2003年发表的“AutomaticTerm Recognition based on Statistics of Compound Nouns and theirComponents”中提出的方法来提取复合名词特征。

而对于超链接特征，如果两个文档彼此链接，则其是较强的指示。然而，由于在URL中还存在大量的噪声信息，因此滤除具有较高出现频率的URL，仅选择剩余的URL作为超链接特征。

特征优化步骤S104：针对在步骤S103中提取的每个特征，如果该特征在预设的禁止特征集合中，则滤除该特征。

特征优化可以用于解决以下问题：(1)由于网页信息相对于纯文本更加的多样化和复杂化，因此引入了更多的噪声信息，从而降低了自然语言处理技术的性能；(2)在之前的特征提取步骤中，如命名实体识别以及复合名词提取等，可能引入了错误的信息；以及(3)一些特征不具有区分人物的能力。

优选地，该预设的禁止特征集合通过图2所示的特征优化算法来获得。具体地，该特征优化算法可以包括：

步骤S201：分别从给定的训练语料库T中的任意两个文档d_i和d_j中提取上述文档特征，诸如命名实体特征、复合名词特征以及超链接特征等，其中从d_i和d_j提取的特征构成的集合分别被称为F_i和F_j。

步骤S202：基于在步骤S201中提取的特征计算任意两个文档d_i和d_j之间的相似度。作为示例，这里采用重叠系数来计算两个文档之间的相似度。具体地，通过以下公式(1)来计算重叠系数：

Overlap (d_{i}, d_{j}) = \frac{| F_{i} \cap F_{j} |}{\max (\min (| F_{i} |, | F_{j} |), θ_{overlap})} \cdot \cdot \cdot (1)

这里，||是用于获得特征集合的特征数量的函数，θ_overlap是常数，此处设为4，以避免分母的值过小。这里，作为示例，我们采用分别计算不同类型特征的相似度的策略(例如，参考Minoru Yoshida等人在2010年发表的“Person Name Disambiguation by Bootstrapping”)，这意味着分别利用重叠系数来计算命名实体、复合名词以及超链接特征的相似度，然后例如选择其中的最大值作为两个文档之间的相似度。对于命名实体的相似度，也使用重叠系数来分别计算人名、地名以及机构名的相似度，并且利用不同的权重值对算出的相似度进行线性组合。

作为替选，也可采用余弦相似度替代重叠度来计算两个文档之间的相似度。

步骤S203：根据在步骤S202中算出的相似度，判断任意两个文档d_i和d_j是否被聚类为同一类别。具体地，将在步骤S202中算出的两个文档之间的相似度与预设的相似度阈值α进行比较，如果算出的相似度大于阈值α，则判断d_i和d_j被聚类为同一类别。

步骤S204：将在步骤S203中得到的判断结果与关于给定的训练语料库T的预定真值A进行匹配。

步骤S205：如果步骤S204中的匹配结果为肯定的，则增大文档d_i和d_j共有的特征的权重，否则减小该特征的权重。具体地，对于从训练语料库T提取的特征集合F中的每个特征f，最初将其权重值均设置为零。然后，对于同时属于F_i和F_j的每个特征f，如果步骤S203中的判断结果与预定真值A匹配，则判断特征f对文档聚类具有积极的影响，从而增大该特征f的权重值，否则说明该特征f对文档聚类具有负面影响，从而减小特征f的权重值。

步骤S206：重复执行上述步骤S201至S205中的处理，直至处理完训练语料库T中的所有文档，并且将权重值小于预定阈值的特征归入禁止特征集合F_bad中。

在上述步骤S205中，作为示例，对于对文档聚类具有积极影响的特征f，可以将其初始权重值0与在步骤S202中算出的文档相似度相加，而对于对文档聚类具有负面影响的特征f，可以将其初始权重值0减去在步骤S202中算出的文档相似度。在该情况下，由权重值小于0的特征构成禁止特征集合F_bad。

本领域技术人员应理解，以上示例仅是对根据本发明的特征优化算法的示例性说明，但是本发明并不限于此。例如，计算特征权重的方法可以不同于上述方法，并且权重阈值可以是除零之外的任何值。

现在返回参照图1，继续描述根据本发明的实施例的人物搜索方法。

文档相似度计算步骤S105：利用在步骤S104中优化后的特征，计算所获取的多个文档中每两个文档之间的相似度。该相似度可以通过上述等式(1)、利用重叠系数来计算，替选地，也可以利用余弦相似度来计算。

文档聚类步骤S106：基于在步骤S105中算出的相似度，采用HAC(层次凝聚聚类)聚类方法对所获取的多个文档进行聚类，并输出聚类结果，其中不同的类别代表具有相同名称的不同人物。HAC聚类是本领域中对网页进行聚类常用的方法，但是替选地，也可采用单遍法替代HAC来对所获取的多个文档进行聚类。这里，在HAC聚类中采用平均策略进行聚类，即，定义两个类别之间的相似度作为两个类别中的所有文档之间的相似度，但是替选地，也可采用最大策略、最小策略、重心策略来进行聚类。

在传统的文档聚类策略中，通常仅对文档进行一次聚类就结束聚类过程。但是，由于具有强指示能力的特征(诸如命名实体和复合名词等)在文档中较稀疏，因此仅用这些特征并不能很好地表示许多文档，从而导致出现如下情况：在上述文档聚类步骤S106的聚类结果中，许多文档应该被聚类在一起而实际未被聚类在一起，从而使得许多单个文档单独成为一个类别。上述情况对于用户来说并不是期望的，因此，根据本发明的另一实施例，通过在第一阶段聚类的基础上进一步引入检索策略，引入更丰富的词作为特征，以将散落的单个文档并入其应在的较大聚类中，从而提高召回率。以下参照图3对该检索策略进行详细描述。

具体地，在类别相似度计算步骤S301中，对于在上述步骤S106中得到的聚类结果，其中该聚类结果包括仅包含单个文档的第一类别和包含两个以上文档的第二类别，针对每个第一类别，计算该第一类别与每个第二类别之间的相似度。其中，该相似度计算方法可与上述文档相似度计算步骤S105以及步骤S202中的相似度计算方法相同，即可以采用重叠系数或余弦相似度来计算相似度。

接下来，在类别归并步骤S302中，根据在步骤S301中算出的相似度，将第一类别归并到相应的第二类别中，并输出最终的聚类结果。具体地，如果第一类别与特定第二类别之间的相似度大于预定阈值并且大于第一类别与其它第二类别之间的相似度，则将第一类别归并到该特定第二类别中。

一般地，在文档检索阶段，认为文档由词袋来表示，并且各个词特征均匀地分布在文档中。另外，对于图3所示的类别相似度计算步骤S301，可以采用两种方式来计算第一类别与第二类别之间的相似度。

首先，将参照图4描述类别相似度计算步骤S301的第一示例，其中，以基于主题的方式来计算第一类别与第二类别之间的相似度。

具体地，在步骤S401中，针对第一类别C1中的单个文档d_i中的每个词w，分别确定以下三个因素：该词用于区分人物的重要度、该词与主题词之间的关联程度以及该词与文档d_i之间的关联程度。

接下来，在步骤S402中，基于在步骤S401中确定的三个因素，计算第一类别C₁与每个第二类别C_k之间的相似度。

在这里，引入了特征加权模型，从而可将第一类别与第二类别之间的相似度表示为第一类别C₁(即单个文档d_i)属于第二类别C_k的概率。假定文档d_i可由词袋来表示，并且词袋中的词在文档中是均匀分布的，则该概率可以由以下公式(2)来表示：

P (Sp, T_{C_{k}} | d_{i}) = \underset{w &Element; d_{i}}{Σ} p (Sp, T_{C_{k}} | w) \cdot p (w | d_{i})

...(2)

= \underset{w &Element; d_{i}}{Σ} p (Sp | w) \cdot p (T_{C_{k}} | w) \cdot p (w | d_{i})

其中，Sp是变量，当d_i与C_k指的是同一个人物时被定义为1，是从第二类别C_k中提取出的主题词，p(Sp|w)、以及p(w|d_i)分别对应

于上述的三个因素。另外，在下文中，这三个因素也分别被称为词区分模

型、主题相关模型以及词生成模型。以下将详细描述各个模型的计算方法。

首先，对于词生成模型p(Sp|w)，其用来衡量词w用于描述和区分人物的能力，这可归于衡量词权重的问题。在NLP(神经语言程序学)领域中对此存在许多研究，诸如分类、聚类等。这里，采用在上述禁止特征集合的获取过程中计算词权重的方法来为每个词分配权重。区别在于，可以用利用TFIDF(词频-反文档频率)对词进行加权的余弦相似度替代上述重叠系数来计算两个文档之间的相似度。其中，TFIDF权重是在信息检索和文本挖掘中常用的权重，它是用于评估一个词在集合或语料库的文档中的重要度的统计措施。

对于主题相关模型其用来衡量第二类别C_k的主题词与文档d_i中的词w之间的关联程度。主题词的提取方法是本领域已知的，例如可采用Chin-Yew Lin等人在2000年发表的“The Automated Acquisition ofTopic Signatures for Text Summarization”中提出的方法来从第二类别C_k提取主题词具体地，通过使用关于主题的文档集作为相关集合并且使用脱离主题的文档集作为不相关集合，计算对数似然比(LLR)来识别关键的概念。这揭示了用于对多文档集合的主题词进行加权的有效性。此处，采用该方法来计算主题词与词w之间的关联程度

而对于词生成模型p(w|d_i)，其用来衡量词w与其所在的文档d_i之间的关联程度，即，词w可以生成文档d_i的概率。可采用多种方式来评估该关联程度，诸如语言模型、概率模型或者向量空间模型等。这里，作为示例，采用语言模型来进行计算，其可用以下公式(3)来表示：

LM (w, d_{i}) = \ln \frac{tf (w, d_{i}) + μ P_{ML} (w | C)}{| d_{i} | + μ} \cdot \cdot \cdot (3)

其中，tf(w，d_i)是词w在文档d_i中出现的频率，P_ML(w|C)是词w在文档集

C中出现的概率，|d_i|是文档d_i的长度，μ是调节参数，其为常数。

该语言模型的目的是建立能够描述给定词序列在语言中的出现的概率分布。一个查询词可以看作是由文档的语言模型抽样产生的一个样本，因此可以根据每个文档的语言模型抽样生成检索的概率来对其进行排序，从而概率值越大，则该文档越满足检索要求，即，词w与文档d_i之间的关联程度越高。

将上述三个模型的组合作为衡量第一类别C₁与第二类别C_k之间的相似度的指标。如果第一类别C₁中的单个文档d_i与特定第二类别C_k之间的相似度大于预定阈值并且大于该文档与其它第二类别之间的相似度，则将第一类别中的单个文档d_i归入该特定第二类别C_k中。

接下来，将参照图5描述类别相似度计算步骤S301的第二示例，其中，以基于平均策略的方式来计算第一类别与第二类别之间的相似度。

具体地，在步骤S501中，计算第一类别C₁中的单个文档d_i与第二类别C_k中的各个文档d_j之间的相似度。

接下来，在步骤S502中，将在步骤S501中算出的相似度取平均值作为第一类别C₁与第二类别C_k之间的相似度。上述过程可由以下公式(4)来表示：

S {im}_{average} (d_{i}, C_{k}) = \frac{1}{| C_{k} |} \underset{d_{j} &Element; C_{k}}{Σ} Sim (d_{i}, d_{j}) \cdot \cdot \cdot (4)

其中，Sim(d_i，d_j)可以利用余弦相似度来计算，或者也可以利用上述文档相似度计算步骤S105中的重叠系数来计算。在利用余弦相似度计算的情况下，采用TFIDF(词频-反文档频率)来计算各个词特征的权重。

综上，通过在第一阶段聚类的基础上，引入检索策略，将散落的单独成为一个类别的文档归入其应该所在的类别中，提高了召回率，从而改善了用户体验。

虽然上面结合附图1-5详细描述了根据本发明实施例的人物搜索方法，但是本领域的技术人员应当明白，附图所示的流程图仅仅是示例性的，并且可以根据实际应用和具体要求的不同，对上述方法流程进行相应的修改。例如，根据需要，可以上述方法中的某些步骤的执行顺序进行调整，或者可以省去或者添加某些处理步骤。

与根据本发明实施例的人物搜索方法相对应，本发明实施例还提供了一种人物搜索设备。

如图6所示，人物搜索设备600可以包括：文档获取单元601、预处理单元602、特征提取单元603、特征优化单元604、文档相似度计算单元605以及文档聚类单元606。优选地，人物搜索设备600还可以包括类别相似度计算单元607、类别归并单元608以及禁止特征集合获取单元609。以下将详细描述人物搜索设备600的各个构成单元的功能配置。

文档获取单元601可以被配置为以给定的人物名称作为关键词进行搜索，以获取与该人物名称相关的多个文档。具体地，在网络搜索引擎中输入想要搜索的人物的名称，从而得到返回的与该人物名称相关的多个网页。

预处理单元602可以被配置为对文档获取单元601获取的多个文档进行预处理，以获得多个文档的相关信息。优选地，该相关信息例如可以包括网页的URL、标题、时间以及正文等。

特征提取单元603可以被配置为从预处理单元602获得的相关信息中提取文档特征。优选地，文档特征可以是对所获取的文档具有强指示能力的特征，并且例如可以包括命名实体特征、复合名词特征以及超链接特征。

特征优化单元604可以被配置为针对特征提取单元603提取的每个特征，如果该特征在预设的禁止特征集合中，则滤除该特征。其中，该预设的禁止特征集合可由禁止特征集合获取单元609来获得。接下来，参照图7详细描述禁止特征集合获取单元609的功能配置。

如图7所示，禁止集合获取单元609可以包括特征提取模块701、第一文档相似度计算模块702、聚类判断模块703、结果匹配模块704以及禁止特征集合获取模块705。

具体地，特征提取模块701可以被配置为从训练语料库中的任意两个文档提取文档特征，诸如之前所述的命名实体特征、复合名词特征以及超链接特征。

第一文档相似度计算模块702可以被配置为基于特征提取模块701提取的文档特征，计算任意两个文档之间的相似度。

聚类判断模块703可以被配置为根据第一文档相似度计算模块702算出的相似度，判断任意两个文档是否被聚类在一起。

结果匹配模块704可以被配置为将聚类判断模块703的判断结果与预定真值进行匹配，如果二者匹配，则增加这两个文档共有的特征的权重，否则减小该权重。

禁止特征集合获取模块705可以被配置为以上述方式依次处理训练语料库中的所有文档，并将权重小于预定阈值的文档特征归入禁止特征集合中。

下面返回参照图6，继续描述人物搜索设备600的其它单元的功能配置。

文档相似度计算单元605可以被配置为利用特征优化单元604优化后的特征，计算所获取的多个文档中的每两个文档之间的相似度。

具体地，文档相似度计算单元605可以配置为利用上述公式(1)，通过计算重叠系数来计算两个文档之间的相似度。替选地，也可采用余弦相似度来计算两个文档之间的相似度。

文档聚类单元606可以被配置为基于文档相似度计算单元605算出的相似度，对所获取的多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。

具体地，文档聚类单元606可以被配置为利用HAC聚类方法对所获取的多个文档进行聚类。替选地，也可采用单遍法替代HAC来进行聚类。另外，此处作为示例，采用HAC的平均策略进行聚类，即将两个类别之间的相似度定义为两个类别中的所有文档之间的相似度。然而，作为替选，也可采用最大策略、最小策略以及重心策略等替代平均策略来进行聚类。

根据上述各个单元执行的功能，通过对特征进行优化，剔除了对聚类任务具有负面影响的特征，从而提高了聚类性能。接下来，将详细描述类别相似度计算单元607和类别归并单元608的功能配置。通过这两个单元执行的功能，可以在传统标准聚类过程之后进一步引入检索策略，以将散落的单个文档归入其应该所在的类别之中，从而提高了召回率。

类别相似度计算单元607可以被配置为对于上述文档聚类单元606获得的聚类结果，其中该聚类结果包括仅包含一个文档的第一类别和包含两个以上文档的第二类别，针对每个第一类别，计算该第一类别与每个第二类别之间的相似度。

图8示出了根据本发明的实施例的类别相似度计算单元607的第一示例的配置。具体地，类别相似度计算单元607可以被配置为以基于主题的方式来计算第一类别与第二类别之间的相似度，其可以包括词相关要素确定模块801和第一类别相似度计算模块802。

其中，词相关要素确定模块801可以被配置为针对第一类别中的文档的每个词，确定以下三个因素，即，该词用于区分人物的重要度、该词与主题词之间的关联程度以及该词与其所在文档之间的关联程度。

第一类别相似度计算模块802可以被配置为基于词要素确定模块801所确定的三个因素，计算第一类别与第二类别之间的相似度。

另外，图9示出了根据本发明的实施例的类别相似度计算单元607的第二示例的配置。具体地，类别相似度计算单元607还可以被配置为以基于平均策略的方式来计算第一类别与第二类别之间的相似度，其可以包括第二文档相似度计算模块901和第二类别相似度计算模块902。

其中，第二文档相似度计算模块901可以被配置为计算第一类别中的文档与第二类别中的每个文档之间的相似度。

第二类别相似度计算模块902可以被配置为将第二文档相似度计算模块901算出的相似度取平均值作为第一类别与第二类别之间的相似度。

返回参照图6，类别归并单元608可以被配置为根据类别相似度计算单元607算出的相似度，将第一类别归并到相应的第二类别中，并且输出最终聚类结果。

具体地，类别归并单元608可以被配置为如果第一类别与特定第二类别之间的相似度大于预定阈值并且大于第一类别与其它第二类别之间的相似度，则将第一类别归并到该特定的第二类别中。

需要说明的是，本发明实施例所述的设备是与前述方法实施例相对应的，因此，设备实施例中未详述部分，请参见方法实施例中相应位置的介绍，这里不再赘述。

另外，还应该指出的是，上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图10所示的通用个人计算机1000安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，也根据需要存储当CPU 1001执行各种处理等等时所需的数据。

CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件连接到输入/输出接口1005：输入部分1006，包括键盘、鼠标等等；输出部分1007，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分1008，包括硬盘等等；和通信部分1009，包括网络接口卡比如LAN卡、调制解调器等等。通信部分1009经由网络比如因特网执行通信处理。

根据需要，驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上，使得从中读出的计算机程序根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

1.一种人物搜索方法，包括：

文档获取步骤，以给定的人物名称作为关键词进行搜索，以获取与所述人物名称相关的多个文档；

预处理步骤，对所获取的多个文档进行预处理，以获得所述多个文档的相关信息；

特征提取步骤，从所获得的相关信息中提取文档特征；

特征优化步骤，针对每个所述特征，如果该特征在预设的禁止特征集合中，则滤除该特征；

文档相似度计算步骤，利用优化后的特征，计算所述多个文档中每两个文档之间的相似度；以及

文档聚类步骤，基于算出的相似度，对所述多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。

2.根据附记1所述的方法，其中，所述禁止特征集合通过以下步骤获得：

从训练语料库中的任意两个文档提取所述文档特征；

基于所提取的文档特征计算所述任意两个文档之间的相似度；

根据算出的相似度，判断所述任意两个文档是否被聚类为同一类别；

将所述判断结果与预定真值进行匹配；

如果所述判断结果与所述预定真值匹配，则增加所述任意两个文档共有的文档特征的权重，否则减小所述权重；以及

以上述方式依次处理所述训练语料库中的所有文档，并将权重小于预定阈值的文档特征归入所述禁止特征集合中。

3.根据附记1所述的方法，其中，所述聚类结果包括仅包含一个文档的第一类别和包含两个以上的文档的第二类别，所述方法还包括：

类别相似度计算步骤，针对每个第一类别，计算该第一类别与每个第二类别之间的相似度；以及

类别归并步骤，根据在所述类别相似度计算步骤中算出的相似度，将所述第一类别归并到相应的所述第二类别中，并输出最终聚类结果。

4.根据附记3所述的方法，其中，在所述类别归并步骤中，如果所述第一类别与特定第二类别之间的相似度大于预定阈值并且大于所述第一类别与其它第二类别之间的相似度，则将所述第一类别归并到所述特定第二类别中。

5.根据附记3所述的方法，其中，在所述类别相似度计算步骤中，以基于主题的方式来计算所述第一类别与所述第二类别之间的相似度，其包括以下步骤：

针对所述第一类别中的文档的每个词，确定所述词用于区分人物的重要度、所述词与主题词之间的关联程度以及所述词与所述文档之间的关联程度；以及

基于所述确定结果，计算所述第一类别与每个所述第二类别之间的相似度。

6.根据附记3所述的方法，其中，在所述类别相似度计算步骤中，以基于平均策略的方式来计算所述第一类别与所述第二类别之间的相似度，其包括以下步骤：

计算所述第一类别中的文档与所述第二类别中的每个文档之间的相似度；

将算出的相似度取平均值作为第一类别与第二类别之间的相似度。

7.一种人物搜索设备，包括：

文档获取单元，被配置成以给定的人物名称作为关键词进行搜索，以获取与所述人物名称相关的多个文档；

预处理单元，被配置成对所获取的多个文档进行预处理，以获得所述多个文档的相关信息；

特征提取单元，被配置成从所获得的相关信息中提取文档特征；

特征优化单元，被配置成针对每个所述特征，如果该特征在预设的禁止特征集合中，则滤除该特征；

文档相似度计算单元，被配置成利用优化后的特征，计算所述多个文档中每两个文档之间的相似度；以及

文档聚类单元，被配置成基于算出的相似度，对所述多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物。

8.根据附记7所述的设备，还包括禁止特征集合获取单元，其中，所述禁止特征集合获取单元进一步包括：

特征提取模块，被配置成从训练语料库中的任意两个文档提取所述文档特征；

第一文档相似度计算模块，被配置成基于所提取的文档特征计算所述任意两个文档之间的相似度；

聚类判断模块，被配置成根据算出的相似度，判断所述任意两个文档是否被聚类为同一类别；

结果匹配模块，被配置成将所述判断结果与预定真值进行匹配，如果所述判断结果与所述预定真值匹配，则增加所述任意两个文档共有的文档特征的权重，否则减小所述权重；以及

禁止特征集合获取模块，被配置成以上述方式依次处理所述训练语料库中的所有文档，并将权重小于预定阈值的文档特征归入所述禁止特征集合中。

9.根据附记7所述的设备，其中，所述聚类结果包括仅包含一个文档的第一类别和包含两个以上的文档的第二类别，所述设备还包括：

类别相似度计算单元，针对每个第一类别，计算该第一类别与每个第二类别之间的相似度；以及

类别归并单元，根据所述类别相似度计算单元算出的相似度，将所述第一类别归并到相应的所述第二类别中，并输出最终聚类结果。

10.根据附记9所述的设备，其中，所述类别归并单元具体被配置成：如果所述第一类别与特定第二类别之间的相似度大于预定阈值并且大于所述第一类别与其它第二类别之间的相似度，则将所述第一类别归并到所述特定第二类别中。

11.根据附记9所述的设备，其中，所述类别相似度计算单元被配置成以基于主题的方式来计算所述第一类别与所述第二类别之间的相似度，所述类别相似度计算单元进一步包括：

词相关要素确定模块，被配置成针对所述第一类别中的文档的每个词，确定所述词用于区分人物的重要度、所述词与主题词之间的关联程度以及所述词与所述文档之间的关联程度；以及

第一类别相似度计算模块，被配置成基于所述确定结果，计算所述第一类别与每个所述第二类别之间的相似度。

12.根据附记9所述的设备，其中，所述类别相似度计算单元被配置成以基于平均策略的方式来计算所述第一类别与所述第二类别之间的相似度，所述类别相似度计算单元进一步包括：

第二文档相似度计算模块，被配置成计算所述第一类别中的文档与所述第二类别中的每个文档之间的相似度；

第二类别相似度计算模块，被配置成将算出的相似度取平均值作为第一类别与第二类别之间的相似度。

Claims

1.一种人物搜索方法，包括：

特征提取步骤，从所获得的相关信息中提取文档特征；

文档聚类步骤，基于算出的相似度，对所述多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物，

其中，所述聚类结果包括仅包含一个文档的第一类别和包含两个以上的文档的第二类别，并且所述方法还包括：

2.根据权利要求1所述的方法，其中，所述禁止特征集合通过以下步骤获得：

从训练语料库中的任意两个文档提取所述文档特征；

将所述判断结果与预定真值进行匹配；

3.根据权利要求1所述的方法，其中，在所述类别归并步骤中，如果所述第一类别与特定第二类别之间的相似度大于预定阈值并且大于所述第一类别与其它第二类别之间的相似度，则将所述第一类别归并到所述特定第二类别中。

4.根据权利要求1所述的方法，其中，在所述类别相似度计算步骤中，以基于主题的方式来计算所述第一类别与所述第二类别之间的相似度，其包括以下步骤：

5.一种人物搜索设备，包括：

文档聚类单元，被配置成基于算出的相似度，对所述多个文档进行聚类，并输出聚类结果，其中不同类别代表具有相同名称的不同人物，

其中，所述聚类结果包括仅包含一个文档的第一类别和包含两个以上的文档的第二类别，所述设备还包括：

6.根据权利要求5所述的设备，还包括禁止特征集合获取单元，其中，所述禁止特征集合获取单元进一步包括：

7.根据权利要求5所述的设备，其中，所述类别归并单元具体被配置成：如果所述第一类别与特定第二类别之间的相似度大于预定阈值并且大于所述第一类别与其它第二类别之间的相似度，则将所述第一类别归并到所述特定第二类别中。

8.根据权利要求5所述的设备，其中，所述类别相似度计算单元被配置成以基于主题的方式来计算所述第一类别与所述第二类别之间的相似度，所述类别相似度计算单元进一步包括：