CN101408885B

CN101408885B - 利用统计分布对主题进行建模

Info

Publication number: CN101408885B
Application number: CN2008101661720A
Authority: CN
Inventors: 大卫·马尔维特; 贾瓦哈拉·贾殷; 斯特吉奥斯·斯特吉奥; 亚历克斯·吉尔曼; B·托马斯·阿德勒; 约翰·J·西多罗维奇; 雅尼斯·拉布罗
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-10-05
Filing date: 2008-10-06
Publication date: 2012-12-19
Anticipated expiration: 2028-10-06
Also published as: JP2009093651A; EP2045739A2; US20090094233A1; EP2045739A3; CN101408885A; US9317593B2

Abstract

利用统计分布对主题进行建模。在一个实施方式中，对主题进行建模的方法包括访问由包括词的文档组成的语料库。选择文档中的词作为该文档的关键词。根据关键词对文档进行聚类，以得到各个群集，其中每一群集对应于一个主题。针对一个群集，根据该群集的文档中的词生成统计分布。利用针对与一个主题相对应的群集生成的统计分布对该主题进行建模。

Description

利用统计分布对主题进行建模

技术领域

本发明总体上涉及词法分析，具体地说，涉及利用统计分布对主题进行建模。

背景技术

本申请要求2007年10月5日提交的发明人为David Marvit等、发明名称为“Techniques for Topic Modeling”的美国临时申请No.60/977,855的优先权。

一个数据库可包含大量信息，然而查找到相关信息可能比较困难。可以对文档加标签以便搜索相关信息。然而，在特定情形下，已知的文档标签技术对于信息定位不够有效。

附图说明

图1示出了利用描述主题的统计分布对主题进行建模的系统的一个实施例；

图2示出了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施例；

图3示出了记录基本亲和度的亲和度矩阵的一个示例；

图4示出了记录有向亲和度的亲和度矩阵的一个示例；

图5示出了记录平均亲和度的亲和度矩阵的一个示例；

图6示出了亲和度图的一个示例；

图7示出了可以与图1的系统一起使用的聚类模块的一个实施例；

图8示出了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施例；

图9示出了可以与图1的系统一起使用的标签模块的一个实施例；

图10示出了确定主题的统计分布的方法的一个示例；

图11示出了通过分析文档的段落来向该文档指配标签的方法的一个示例；以及

图12示出了响应于所选择的标签来指配标签的方法的一个示例。

具体实施方式

概述

在一个实施方式中，对主题进行建模包括访问由包括词的文档组成的语料库。选择文档中的词作为关键词。根据关键词对文档进行聚类，以得到各个群集(cluster)，其中每一群集对应于一个主题。针对一个群集根据该群集的文档中的词生成统计分布。利用针对与一个主题对应的群集生成的统计分布对该主题进行建模。

示例实施方式

在具体实施方式中，领域本体(domain ontology)的创建及查询包括以下步骤：

1、收集领域中的文档。在具体实施方式中，文档(document)是词条(term)的集合。文档可包括可读文本，例如，一本《新约》。文档不需要以描述形式来包括词，例如，文档可以包括一组单独和共同地描述图像的内容的用户输入标签(tag)。文档的集合可称为“领域语料库(domain corpus)”。

2、识别该领域中所关心的词条(“词典词条(dictionary term)”)。词条的示例包括词(word)(诸如“树”)、短语(phrase)(诸如“图形算法”)、命名实体(named entity)(诸如“纽约”)等。词条(或概念)可具有不同的形式。在特定情况下，不同的词用于同一概念，例如，“kidney stones(肾结石)”和“kidney calculi(肾结石)”是指同一概念，即“肾结石”。在其它情况下，词干(word stem)可具有多种词形变化，例如，词干“tree”具有词形变化“tree”和“trees”。在具体实施方式中，可将同一词条的各种形式映射为同一词条而进行处理。在文档中可出现词典词条的任意适当形式，但是特定的词典词条不必出现在任意文档中。

识别词典词条的方法的示例包括利用特定领域的人工生成的词典，例如，医学词典。在具体实施方式中，可由语料库中的文本串集自动地生成一系列词典词条。可以按照频度对这些文本串进行索引及排序，并且可选择频度在阈值以上的文本串。可使用其它适当的统计方法来确定词条。在具体实施方式中，“词”可与“词条”及“词典词条”互换。

3、计算给定的共现语境(co-occurrence context)中词典词条的共现次数。如果两个词条都在同一共现语境中至少出现一次，则这两个词条共现。共现语境的示例包括文档和段落。

4、创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点(node)的词典词条以及作为边(edge)的权重的亲和度(affinity)。“有向加权图”可以用作可由任意适当的数据结构(例如，矩阵、二值判决图、或二值判决图的集合等)代表的同一信息的实际表示。

5、应用查询该有向加权图的过程。给定一个或更多个词典词条作为输入，该过程输出与所输入的词典词条相关的一个或更多个词典词条。例如，该过程可输出相对于一个或更多个输入词条具有最高的差分有向亲和度(如下所述)的一个或更多个词条的有序列表。在这种情况下，输出包括与本体涉及的领域有关、与输入词条更加密切相关的词条。

可使用任意适当的亲和度定义。在具体实施方式中，可使用以下定义：

1、基本亲和度

a.词条A与B之间的基本亲和度(A)可定义为包含词条A和B这两者的共现语境的数量与包含词条A和B之一的共现语境的数量的比：

A(A，B)＝|AB|/|A or B|

b.词条A与B之间的基本亲和度(A)还可定义为包含词条A和B这两者的共现语境的数量与包含A的共现语境的数量和包含B的共现语境的数量中的最大值的比：

A(A，B)＝|AB|/max(|A|，|B|)

2、有向亲和度

词条A与B之间的有向亲和度(DAff)可定义为在假定在共现语境中观察到A的情况下观察到B的条件概率：

DAff(A，B)＝|AB|/|A|

也就是说，有向亲和度可以是包含词条A和B这两者的共现语境的数量与包含词条A的共现语境的数量的比值。通常，DAff(A，B)与DAff(B，A)不同。

3、差分有向亲和度

可以将词条A与B之间的差分有向亲和度(DiffDAff)定义为词条A与B之间的有向亲和度减去一个表示词条B在语料库中的普遍性的系数。词条B在语料库中的普遍性可以是词条B对于语料库中的其他词条的基本亲和度或有向亲和度值的统计值。在特定实施方式中，词条B在语料库中的普遍性可以是词条B的平均亲和度(AA)，这导致了如下的差分有向亲和度定义：

DiffDAff(A，B)＝DA(A，B)-AA(B)

词条B的平均亲和度(AA)或平均有向亲和度可定义为：

AA(B)＝AVERAGE_xDAff(x，B)

也就是说，平均亲和度可以是词条B对于共现语境中的其它词条的有向亲和度的平均值。

图1示出了利用描述主题的统计分布对主题进行建模的系统10的一个实施例。在具体实施方式中，系统10利用主题的相关词的统计分布。在具体实施方式中，系统10访问包括文档的语料库。从文档中的词中选出关键词，并根据关键词对文档进行聚类。针对各个群集，根据该群集中的文档中的词生成统计分布。利用该统计分布来对与该群集对应的主题进行建模。在具体实施方式中，系统10可利用该统计分布识别文档中所选的词具有最高出现概率的主题。可以选择所识别的主题作为该文档的标签。

在具体实施方式中，可以针对给定的词子集和词典D来对特定反向索引II计算有向亲和度，其中，索引II例如包括针对字w_i和w_j的条目I(w_i)和I(w_j)。一般来说，反向索引是存储从词条到其位置的映射(即，词条所出现的共现语境)的索引数据结构。对于D中的每一词对w_i和w_j，DA(i，j)可以被定义为II中的条目I(w_i)和I(w_j)的合取(conjunction)中的值除以I(w_i)中的值的数量。一般来说，DA(i，j)不必等于DA(j，i)。该结果可以按任何适当方式存储，例如，按行存储，其中，存储D(1，i)，接着存储D(2，j)，等等等。对于每一行i，可以存储|I(w_i)|，继之以与w_j的合取的基数(cardinality)。

在特定实施方式中，可以分三个阶段计算有向亲和度。在该实施方式中，每一个词典词条都被指配了唯一的整数标识符。反向索引的条目对应于该整数标识符。在阶段0中，读取对应于D的II条目。对于参数(s，o)来说，仅保持有具有ks+o形式的元素标识符。值ks+o定义了要检查的II条目的子集。按这种方式，可以并行计算有向亲和度。作为一个示例，由参数s得到的结果o(1，0)等同于由参数(3，0)、(3，1)(3，2)的计算的合并所得到的结果。这个步骤允许针对非常大的反向索引计算DA表。

在阶段1中，仅针对DA(i，j)按行计算合取。在阶段2中，读取计算出的上三角UT DA矩阵。由此，作为UT的转置得到下三角部分。在特定实施方式中，可以将相同维的多个DA矩阵归并成一个矩阵。较大II上的DA矩阵可以利用参数(s，j)被计算为sum_{i＝0...(s-1)}Da。可以与计算出的合取一起存储附加信息，以使可以计算有向亲和度。在特定情况下，可以存储II条目的基数。

在特定实施方式中，可以按行存储DA，这样AA条目的计算可以与DA条目的计算并行进行。具体来说，可以通过对从磁盘读出的DA的行进行累加并最后通过字典条目的数量对累加结果进行归一化来生成AA。

在所示实施方式中，系统10包括：客户端20、服务器22以及存储器24。客户端20允许用户与服务器22通信，以生成语言的本体。客户端20可以向服务器22发送用户输入，并且可以向用户提供(例如，显示或打印)服务器输出。服务器系统22管理用于生成语言的本体的应用。存储器24存储由服务器系统22使用的数据。

在所示实施方式中，存储器24存储有页面50和记录54。页面50(或文档或共现语境)可以指词的集合。页面50的示例包括：文档的一页或更多页、一个或更多个文档、一本或更多本书、一个或更多个网页、信件(例如，电子邮件或即时消息)和/或其它词的集合。可以由页面标识符来标识页面50。页面50可以以电子方式存储在一种或更多种实体计算机可读介质中。页面50可以与任何适当的内容相关联，例如，文本(如字符、词和/或数字)、图像(如图形、照片或视频)、音频(如录音或计算机生成的声音)和/或软件程序。在特定实施方式中，一组页面50可以属于一个语料库。语料库可以与特定主题、团体、组织或其它实体相关联。

记录54描述页面50。在该实施方式中，记录54包括：索引58、反向索引62、本体66、以及群集67。索引58包括索引列表，其中，页面50的索引列表表示页面50的词。反向索引62包括反向索引列表，其中，词(或词集)的反向索引列表表示包括该词(或词集)的页面50。在一个示例中，列表W_i包括含有词w_i的页面50的页面标识符。列表W_i&W_j包括含有词w_i和w_j两者的合取页面50的页面标识符。列表W_i+W_j包括含有词w_i和w_j中的任一个的析取(disjunction)页面50的页面标识符。P(W_i)是w_i的页面50的数量，即，包括字w_i的页面50的数量。

在一个实施方式中，可以将列表(如索引列表或反向索引列表)存储为二进制判决图(BDD：Binary decision diagram)。在一个示例中，集合W_i的二进制判决图BDD(W_i)表示具有词w_i的页面50。BDD(W_i)的满足指配计数Satisf(BDD(W_i))生成具有词w_i的页面50的数量P(W_i)：

P(W_i)＝Satisf(BDD(W_i))

相应地，

P(W_i&W_j)＝Satisf(BDD(W_i)AND BDD(W_j))

P(W_i+W_j)＝Satisf(BDD(W_i)OR BDD(W_j))

本体66表示语言的词和这些词之间的关系。在一个实施方式中，本体66表示词之间的亲和度。在所示实施例中，本体66包括亲和度矩阵和亲和度图。参照图3到图5，对亲和度矩阵的一个示例进行描述。参照图6，对亲和度图的一个示例进行描述。群集67记录了彼此相关的词的群集。参照图7，对群集进行更详细描述。

在所示实施方式中，服务器22包括：亲和度模块30、聚类模块31、本体特征模块32、以及标签模块37。亲和度模块30可以计算词对的亲和度，在亲和度矩阵中记录该亲和度，和/或报告该亲和度矩阵。亲和度模块30也可以生成亲和度图。参照图2，对亲和度模块30进行更详细描述。

在具体实施方式中，聚类模块31可以通过识别数据集中的相关元素的群集来发现该数据集中的模式(pattern)。在具体实施方式中，聚类模块31可以识别一组词的群集(例如，一种语言或一组页面50)。一般来说，群集的词彼此高度相关，但与该群集以外的词不相关。词的群集可以指定该组词的主题(或话题)。在具体实施方式中，聚类模块31根据词之间的亲和度来识别相关词的群集。在实施方式中，群集的词彼此高度亲和，但与该群集以外的词不亲和。参照图7，对聚类模块31进行更详细的描述。

在具体实施方式中，本体特征模块32可以确定一个或更多个词的集合(例如，特定词或包括词的文档)的一个或更多个本体特征，并接着可以在多种情形中的任一种中应用该本体特征。本体特征是可以将词集放置在语言本体空间中的词集特征。本体特征的示例包括深度和专度。在具体实施方式中，深度可以指示词集的文本复杂性(sophistication)。越深的词集可能越技术化并且专业化，而更浅的词集可能更通用。在具体实施方式中，词集的专度与词集的主题的数量相关。更专的词集可能具有更少的主题，而不太专的词集可能具有更多的主题。

本体特征模块32可以在任何适当的情形下应用本体特征。适当情形的示例包括根据本体特征搜索、排序或选择文档；报告文档的本体特征；以及确定一个或更多个用户的文档的本体特征。参照图8对本体特征模块32进行更详细的描述。

在具体实施方式中，标签模块35可以选择标签来对文档进行标记。可以以任何适当的方式选择标签。在具体实施方式中，标签模块35将主题建模为该主题的相关词的统计分布。标签模块35使用该统计分布来识别文档的所选词具有最高出现概率的主题，并且标签模块35根据识别的主题来选择该文档的标签。在其他实施方式中，标签模块35识别文档的段落的候选标签。标签模块35确定这些候选标签与该文档的其他候选标签的关联性，并根据该确定来选择该文档的标签。在再一实施方式中，标签模块35推荐文档的标签。可以基于与用户或计算机输入或选择的目标标签的亲和度(例如，有向和/或差分亲和度)来推荐标签。一旦选择了最终标签，标签器314就可以向文档指配选择的标签。参照图9对标签模块35进行更详细的描述。

系统10的组件可以包括接口、逻辑、存储器和/或其他适当元件。接口接收输入、发送输出、对输入和/或输出进行处理，和/或执行其他适当操作。接口可以包括硬件和/或软件。

逻辑执行对组件的操作，例如，执行指令以根据输入来生成输出。逻辑可以包括硬件、软件和/或其他逻辑。逻辑可以编码在一种或更多种实体介质中，并且可以在由计算机执行时执行操作。诸如处理器的特定逻辑可以管理组件的操作。处理器的示例包括一个或更多个计算机、一个或更多个微处理器、一个或更多个应用程序，和/或其他逻辑。

存储器存储信息。存储器可以包括一个或更多个实体的、计算机可读和/或计算机可执行的存储介质。存储器的示例包括计算机存储器(例如，随机存取存储器(RAM)或只读存储器(ROM))、大容量存储介质(例如，硬盘)、可移除存储介质(例如，光盘(CD)或数字视频盘(DVD))、数据库和/或网络存储器(例如，服务器)、和/或其他计算机可读介质。

在不脱离本发明的范围的情况下，可以对系统10进行改进、添加或省略。系统10的组件可以是集成或分离的。此外，可以通过更多、更少或其他组件来执行系统10的操作。例如，可以通过一个组件执行生成器42和生成器46的操作，或者可以通过一个以上的组件来执行亲和度计算器34的操作。另外，可以使用包括软件、硬件的任何适当逻辑和/或其他逻辑来执行系统10的操作。如本说明书中所使用的，“各个”指集合中各成员，或集合的子集中的各成员。

在不脱离本发明的范围的情况下，可以对矩阵的示例进行改进、添加或省略。矩阵可以包括更多、更少或其他值。另外，可以以任何适当的顺序来排列矩阵的值。

图2示出了可以与图1的系统10一起使用的亲和度模块30的一个实施例。亲和度模块30可以计算词对的亲和度、将该亲和度记录在亲和度矩阵中、和/或报告该亲和度矩阵。亲和度模块30还可以生成亲和度图。

在所示的实施方式中，亲和度模块30包括亲和度计算器34、本体生成器38以及词推荐器48。亲和度计算器34计算词w_i或包括第一词w_i和第二词w_j的词对的任何适当类型的亲和度。亲和度的示例包括基本亲和度、有向亲和度、平均亲和度、差分亲和度和/或其他亲和度。

这一个实施方式中，词推荐器48接收种子词(seed word)，并且识别与种子词之间具有比阈值亲和度大的亲和度的词。阈值亲和度可以具有任何适当值，例如大于或等于0.25、0.5、0.75或0.95。阈值亲和度可以是预先编程的或者由用户指定。

可以根据包括词w_i和/或w_j的页面50的量(例如，数量)来计算基本亲和度。合取页面量是指既包括词w_i又包括词w_j的页面50的量，而析取页面量是指包括词w_i或词w_j中的一个的页面50的量。可以由合取页面量除以析取页面量而给出基本亲和度。在一个示例中，合取页面数量指包括词w_i和词w_j的页面的数量，而析取页面数量指包括词w_i或词w_j的页面的数量。可以由合取页面数量除以析取页面数量而给出基本亲和度。

Affinity(w_i，w_j)＝P(W_i&W_j)/P(W_i+W_j)

图3示出了记录基本亲和度的亲和度矩阵110的一个示例。在所示的示例中，亲和度矩阵110记录词w₁......w₅的逐对亲和度。根据亲和度矩阵110，词w₀和w₁之间的亲和度为0.003，词w₀和w₂之间的亲和度为0.005，等等。

返回参照图1，亲和度组包括彼此具有高亲和度的词对，并且可以被用来针对页面内容来捕捉词w₁和w₂之间的关系。高亲和度可以被指定为高于亲和度组阈值的亲和度。阈值可以被设置为任何适当的值(例如，大于或等于0.50、0.60、0.75、0.90或0.95)。词可以属于一个以上的亲和度组。在一个实施方式中，亲和度组可以表示为BDD。BDD的指针与该组的各个词一起被存储在反向索引62中。

有向亲和度可以被用来测量词w_i对于词w_j的重要性。亲和度计算器34根据包括词w_i和w_j的页面50的量(例如，数量)来计算在给定词w_j的情况下词w_i的有向亲和度。词w_j页面量是指包括词w_i的页面50的量。可以由合取页面量除以词w_j页面量来给出给定词w_j的情况下的词w_i的有向亲和度。例如，词w_j页面数量指包括词w_i的页面50的数量。可以由合取页面50的数量除以词w_i的页面50的数量来提供给定词w_j的情况下的词w_i的有向亲和度：

DAffinity(w_i，w_j)＝P(W_i&W_j)/P(W_i)

DAffinity(w_i，w_j)和DAffinity(w_j，w_i)不同。词w_i和w_j之间的较高有向亲和度DAffinity(w_i，w_j)表示在页面50包括词w_j的情况下、页面50包括词w_i的概率较高。在一个示例中，页面[1 2 3 4 5 6]包括词w_i，而页面[42]包括词w_j。包括词w_j的页面也包括词w_i，因此从词w_j的观点来看，词w_i具有高重要性。仅三分之一的包括w_i的页面还包括词w_j，所以从词w_i的观点来看，词w_j具有低重要性。

图4示出了记录针对词w₀，...，w₅的有向亲和度的亲和度矩阵120的一个示例。在该示例中，词124是A词，而词128是B词。矩阵120的行记录了在给定A词的情况下B词的亲和度，而亲和度矩阵120的列记录了在给定B词的情况下A词的亲和度。

返回参照图1，针对其他词w_j计算词w_i的平均亲和度。在一个实施方式中，平均亲和度可以是词w_i和每个其他词w_j之间的亲和度的平均值。词w_i在N个词中的平均亲和度可以通过下式给出：

AveAff (w_{i}) = \frac{1}{N} Σ_{j = 1}^{N} P (w_{i} | w_{j})

图5示出了记录平均亲和度的亲和度矩阵140的一个示例。行142记录了词1到词50,000的基本亲和度。行144记录了词1到词50,000的平均亲和度。

返回参照图1，词的平均亲和度可以指示词的深度。具有较低平均亲和度的词可以被认为是较深的词，而具有较高平均亲和度的词可以被认为是较浅的词。较深的词倾向于更技术化、具体并且准确。具有较高比例的较深词的页面50可以被认为是较深页面，而具有较低比例的较深词的页面50可以被认为是较浅页面。在一个实施方式中，用户可以指定要检索的词和/或页面50的深度。

页面50的较深词可以形成高度相关词的一个或更多个群集。群集可以表示共同的观点或主题。页面50的主题的数量可以指示页面50的专度。具有较少主题的页面50可以被认为更专，而具有较多主题的页面50可以被认为不太专。

词w_i对于词w_j的差分亲和度是词w_i和w_j之间的有向亲和度减去词w_j对于所有其他词的平均亲和度。差分亲和度可以被表达为：

DiffAff(w_i，w_j)＝DAffinity(w_i，w_j)-AveAff(w_j)

差分亲和度消除了由词w_j在页面50中出现的总体倾向性而导致的偏置。在具体环境中，差分亲和度可以提供在页面包括词w_j的情况下还包括词w_i的概率的更准确的指示。

差分亲和度可以被用于各种应用中。在一个示例中，人名之间的差分亲和度可以被用来研究社会网络。在另一示例中，语素之间的差分亲和度可以被用来研究自然语言处理。在另一示例中，产品之间的差分亲和度可以被用来研究市场策略。

亲和度计算器34可以使用任何适当的技术来搜索反向索引列表以计算亲和度。例如，为了识别既包括词w_i又包括w_j的页面，亲和度计算器34可以针对公共元素(即，公共页面标识符)搜索词w_i的列表W_i和词w_j的列表W_j。

在具体实施方式中，本体生成器38生成语言的本体66(例如，亲和度矩阵或亲和度图)。可以根据诸如基本亲和度、有向亲和度、平均亲和度、差分亲和度和/或其他亲和度中的任何适当亲和度来生成本体。可以根据以任何适当的方式从语言中选择的词来生成本体66。例如，可以选择来自语言的公用部分的词或者与一个或更多个特定主题区域相关的词。

在所示的实施方式中，本体生成器38包括亲和度矩阵生成器42和亲和度图生成器46。亲和度矩阵生成器42生成记录词之间的亲和度的亲和度矩阵。亲和度图生成器46生成表示词之间的亲和度的亲和度图。在亲和度图中，节点表示词，而节点之间的有向边的权重表示由节点所表示的词之间的亲和度。亲和度图可以具有任何适当的维数。

图6示出了亲和度图150的一个示例。亲和度图150包括节点154和链路158。节点154表示词。在本示例中，节点154a表示词“binary(二进制)”。节点154之间的有向边的权重表示由节点154表示的词之间的亲和度。例如，更大的权重表示更大的亲和度。节点之间的链路158指示由节点154表示的词之间的亲和度高于亲和度阈值。亲和度阈值可以具有任何适当的值(例如，大于或等于0.25、0.5、0.75或0.95)。

图7示出了可以与图1的系统10一起使用的聚类模块31的一个实施例。在具体实施方式中，聚类模块31通过识别数据集中的相关元素的群集来发现数据集中的模式。在具体实施方式中，聚类模块31可以识别词集(例如，语言或页面50的集合)的群集。一般来说，群集的词彼此高度相关，而与群集以外的词不高度相关。词的群集可以指定词集的主题(或话题)。

在具体实施方式中，聚类模块31根据词之间的亲和度来识别相关词的群集。在这些实施方式中，群集的词彼此高度亲和，但是与群集以外的词不高度亲和。在一个实施方式中，如果词足够亲和，则可以认为它们高度亲和。如果词满足一个或更多个亲和度标准(例如，阈值)，则词足够亲和，下面提供了一些例子。

可以使用任何适当的亲和度来识别群集。在具体实施方式中，聚类模块31使用有向亲和度。一个词相对于其他词的有向亲和度表征了该词的共现(co-occurrence)。群集包括具有类似共现的词。在特定实施方式中，聚类模块31使用差分亲和度。差分亲和度倾向于消除由词在页面50中出现的总体倾向性而导致的偏置。

在所示的实施方式中，聚类模块31包括聚类引擎210和聚类分析器214。聚类引擎210根据亲和度来识别词的群集，并且聚类分析器214应用亲和度聚类以分析各种情形。

聚类引擎210可以根据亲和度以任何适当的方式来识别词的群集。提出了识别群集的方法的三个例子：根据词集构建群集、将词分类成群集，以及比较词的亲和度矢量。在一个实施方式中，聚类引擎210根据词集构建群集。在一个示例中，聚类引擎210根据具有亲和度^*Aff(w_i，w_j)的词(w_i)的集合W来构建群集S。亲和度值^*Aff(w_i，w_j)表示词w_i相对于词w_j的任何适当类型的亲和度(例如，有向亲和度DAffinity(w_i，w_j)或差分亲和度DiffAff(w_i，w_j))。这里提供的亲和度值的特定示例可以被认为是归一化值。在本例中，Aff_for(w_i，w_j)表示前向亲和度，而Aff_back(w_j，w_i)表示后向亲和度。

在本例中，群集S以种子词W_q开始。当前词w_x表示在当前迭代中群集S中的正与来自集合W的词进行比较的词。最初，将当前词w_x设为种子词w_q。

在迭代期间，把当前词w_x设为群集S的词。根据集合W的词w_i与当前词w_x的前向亲和度Aff_for(w_i，w_x)来对它们进行排序。从有序集合W的起点开始，识别满足亲和度标准的候选词w_G。亲和度标准可以包括对于当前词w_x的前向亲和度标准：

Aff_for(w_c，w_x)>Th_cf

和对于种子词w_q的后向亲和度标准：

Aff_back(w_q，w_c)>Th_cb

其中，Th_cf表示候选词的前向阈值，而Th_cb表示候选词的后向阈值。候选词{w_C}的有序集合的第一词被添加到群集S，添加的词的数量由参数Size_c给出。阈值Th_cf和Th_cb可以是具有从最小值到最大值的任何适当值的浮点参数。在特定实施例中，可以根据实际亲和度的有序列表来确定Th_cf和Th_cb的适当值。例如，可以使用列表中第200个值。参数Size_c可以是具有任何适当值的整数参数。适当值的示例包括默认值1、2、3或4。在具体实施方式中，这些参数在具体迭代中可以不同。

可以执行任何适当次数的迭代。在一个示例中，可以在开始执行该方法之前指定迭代次数。在另一示例中，可以在方法执行期间计算该次数。例如，可以根据群集S的大小增长率来计算该次数。

在另一实施方式中，聚类引擎210通过将词集的词归类成群集来识别群集。在一个示例中，根据亲和度^*Aff(w_i，w_j)(例如，差分亲和度或有向亲和度)来对集合W的词(w_i)进行归类。在另一例中，根据词w_i与不同词集Q的各成员的亲和度的累积函数(例如，求和)来对词{w_i}进行归类。可以以任何适当方式选择集合W。例如，集合W可以是与查询最相关的X个词，其中X可以具有任何适当值(例如，从10到100、100到200或者200以上范围中的值)。

在本例中，群集初始为空。把来自集合W的第一词w_i置入群集中。在每次迭代中，从集合W选择当前词w_x。如果^*Aff(w_x，w_f)满足亲和度阈值Th给出的亲和度标准，则把当前词w_x置入群集中，其中w_f表示该群集中置入的第一词。阈值Th可以具有任何适当值(例如，对于最小值0.0和最大值1.0来说，具有范围在0.1到0.5的值)。如果^*Aff(w_x，w_f)不满足阈值Th，则把当前词w_x置入空群集中。针对集合W的各词重复这些迭代。

在处理了集合W的词之后，可以消除小群集。例如，可以消除具有少于Y个词的群集。Y可以是任何适当值(例如范围在3到5、5到10、10到25、25到50或者50以上的值)。

如果群集的数量不在满意范围内，则可以利用导致更严格或更宽松的群集置入标准的不同阈值Th来重复该处理。可以通过具有任何适当值的群集数量最小值和群集数量最大值给出该满意范围。适当值的示例包括最小值在1到5、5到10或者10以上范围中的值，以及最大值在10到15、15到20或者20以上范围中的值。可以增加阈值Th的值，以增加群集的数量，并且可以减小阈值Th的值以减小群集的数量。

在另一实施方式中，聚类引擎210通过比较词的亲和度矢量来识别群集。在具体实施方式中，亲和度矩阵的行和列可以产生亲和度矢量<w_i，^*Aff(w_i，w₁)，...，^*Aff(w_i，w_j)，...，^*Aff(w_i，w_n)>，该亲和度矢量表示词w_i相对于词w_j(j＝1，...，n)的亲和度。亲和度值^*Aff(w_i，w_j)表示词w_i相对于词w_j的任何适当类型的亲和度(例如，有向亲和度或差分亲和度)。

在具体实施方式中，具有相似亲和度值的亲和度矢量可以表示一个群集。仅出于描述性目的，可以将亲和度矢量看作是词的亲和度在亲和度空间中的坐标。即，每个亲和度值^*Aff(w_i，w_j)可以被认为是特定维的坐标。具有相似亲和度值的亲和度矢量表示与这些矢量相关联的词在亲和度空间中彼此接近。即，这些矢量指示这些词具有与其他词相似的亲和度关系，并因此适于作为同一群集中的成员。

如果通过适当的距离函数确定一个亲和度矢量近似于另一亲和度矢量，则这些亲和度矢量相似。可以把亲和度矢量的距离函数定义为例如给定大小的矢量的标准欧几里得距离，或者定义为给定大小的矢量的余弦。该距离函数还可以由聚类引擎210或者由用户指定。

在具体实施方式中，聚类引擎210应用聚类算法来识别具有彼此近似的值的亲和度矢量。群集算法的示例包括直接、重复二分(bisection)、凝聚(agglomerative)、偏置凝聚(biased agglomerative)、和/或其它适当算法。在一个示例中，聚类引擎210可以包括诸如CLUTO的聚类软件。

聚类分析器214可以在任何适当的应用中使用亲和度聚类来进行分析。在一个实施方式中，聚类分析器214可以使用亲和度聚类来对页面50进行分类。类别可以与群集标识符或者群集的一个或更多个成员相关联。在一个示例中，可以识别页面50的群集，并且接着可以根据该群集对页面50进行归类。在另一例中，可以选择页面50的重要词，并且接着确定包括这些词的群集。接着可以根据所确定的群集对页面50归类。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来分析页面50的语料库。语料库可以与特定主题、一个或更多个个体的集合(community)、组织或其他实体相关联。在一个示例中，聚类分析器214可以识别语料库的群集，并根据该群集确定语料库的库属性。库属性可以指示与和该语料库相关联的实体相关的词。如果一个或更多个页面50具有库属性的群集，则页面50与该实体相关。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来搜索查询解疑和查询扩展。在本实施方式中，聚类分析器214识别包括给定搜索查询的搜索词条的群集。群集提供与给定搜索查询相关的可替换词和/或类别。在一个示例中，来自群集的词可以被报告给搜索者，以帮助下一搜索查询。在另一例中，聚类分析器214可以从群集中选择词，并自动形成一个或更多个新的搜索查询。聚类分析器214可以串行或并行运行新的查询。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来研究社会网络。在一个示例中，页面50可以让人看到社会网络。这些页面的示例包括信件(例如信函、电子邮件以及即时消息)、便笺、文章以及会议记录。这些页面50可以包括含有社会网络的人员的用户标识符(例如，姓名)的词。可以识别姓名的群集，以分析网络的人员之间的关系。在一个示例中，差分亲和度聚类可以被用来在不提供诸如系统管理员的姓名的信息的情况下滤除页面50中出现最多的名称。

在具体实施方式中，聚类分析器214可以通过组合和/或比较数据集的群集来分析数据集。在一个实施方式中，对重叠的数据集的群集进行比较。来自一个数据集的群集可以被映射到另一数据集的群集上，这样可以看出这些数据集之间的关系。例如，该数据集可以来自对一组同事的文档的分析和来自对该组的社会网络研究。可以将社会网络群集映射至文档主题群集，来分析社会网络与该主题之间的关系。

图8示出了本体特征模块32的一个实施例。本体特征模块32可以确定一个或更多个词(例如，特定的词或包括词的文档)的集合的一个或更多个本体特征，并且接着可以在任何不同情形中应用该本体特征。一个或更多个词的集合可以包括文档的关键词条。如果与词条t相关的前k个词条中的至少一个也呈现在该文档中，则词条t可以是关键词条。否则，该词条对于该文档可能不是必不可少的。

本体特征是沿一个或更多个特征轴表征文档的可量化度量，所述特征轴可以在给定区域中从语义上对该文档与其他文档进行区分。例如，文档的深度可以针对它的可理解性来区分文档、文档的专度可以针对它的关注点来区分文档，而文档的主题可以针对其关注的主题范围来区分文档。可以以任何适当方式定义本体特征。例如，计算机语言中的独立算法可以被用来表征文档的可读性或深度。

在所示的实施方式中，本体特征模块32包括深度引擎230、主题引擎240、专度引擎244以及本体特征(OF：ontology feature)应用引擎250。深度引擎230可以确定一个或更多个词(例如，特定的词或包括词的文档)的深度。一般来说，深度可以指示词的文本复杂性。越深的词可以是更加技术化的并且更专业的，而越浅的词可以是更通用的。在具体实施方式中，深度模块32可以计算文档的词的深度，并接着根据词的深度来计算文档的深度。在具体实施方式中，深度引擎230可以为文档和/或词指配深度值和/或深度级别。越深的文档或词可以被指配越高的深度值或级别，而越浅的文档或词可以被指配越低的深度值或级别。

深度引擎230可以以任何适当的方式计算词深度。在具体实施方式中，深度引擎230根据平均亲和度来计算词深度。在这些实施方式中，词的深度是词的平均亲和度的函数。越深的词可以具有越低的平均亲和度，而越浅的词可以具有越高的平均亲和度。在具体实施例中，深度引擎230可以通过根据词的平均亲和度对它们进行排位，从而计算词的深度。对具有较低平均亲和度的词给予高的深度排位，而对具有较高平均亲和度的词给予低的深度排位。

在具体实施方式中，深度引擎230可以使用聚类分析来计算词深度。在这些实施方式中，群集的词相互高度亲和，而与群集以外的词不高度亲和。可以根据能够作为深度指示的亲和度来测量群集空间中的距离。在具体实施方式中，属于更少数群集或者属于更小群集和/或离其他群集更远的群集的词可以被认为更深，而属于更多数群集或者属于更大群集和/或离其他群集更近的群集的词被认为更浅。

在其他具体实施方式中，深度引擎230可以通过对亲和度图150应用链路分析来计算词深度。可以通过任何适当的链路分析算法(例如，PAGERANK)来执行该链路分析。仅出于描述性目的，图6的亲和度图150可以被用来计算词深度。亲和度图150包括节点154和链路158。节点154表示词。节点154之间的链路158指示由节点154表示的词之间的亲和度高于亲和度阈值，即，这些词令人满意地亲和。

在具体实施方式中，深度引擎230计算节点154的通用性。越通用的节点154可以表示较浅的词，而不太通用的节点154可以表示较深的词。从第一节点154到第二节点154的链路136被认为是第一节点154对第二节点154的通用性投票。另外，来自更通用节点154的投票可以比来自不太通用节点154的投票具有更大的权重。此外，第一节点154到第二节点154的亲和度对投票进行加权。深度引擎230根据节点154的加权投票来计算节点154的通用性。不太通用的词被认为是深词，而更通用的词可以被认为是浅词。

深度引擎230可以以任何适当方式来计算文档深度。在具体实施方式中，深度引擎230根据文档中的至少一个、一些或所有词的深度来计算文档的深度。在具体实施方式中，由平均亲和度给出词深度，因此可以根据文档的词的平均亲和度来计算文档深度。例如，文档的浅度可以是文档的词的平均亲和度的平均值(即，文档中各词的平均亲和度的和除以文档中的词的总数)。接着，文档的深度可以被计算为文档的浅度的倒数。

在具体实施方式中，可以根据文档的所选词集的平均深度来计算深度。所选的词集可以包括文档的关键的词(例如，前(最深)X％的词，其中X可以小于10、10到20、20到30、30到40、40到50、50到60、60到70，或者大于100)。所选的集合可以排除P％的标准语法词和/或Q％的结束词，其中P和Q具有任何适当值(例如小于10、10到20、20到30、30到40、40到50、50到60、60到70，或者大于100)。

在具体实施方式中，深度引擎230根据文档中词深度的分布来计算文档的深度。在具体实施方式中，越深的文档可以具有越高比例的深词。

在具体实施方式中，深度引擎230根据文档亲和度来计算文档的深度。文档之间的亲和度描述文档之间的关系。在具体实施方式中，平均文档亲和度可以按与平均词亲和度可以指示词深度的方式相似的方式来指示文档深度。可以以任何适当方式来定义文档亲和度。在一个示例中，公共词数量P(D₁&D₂)指示既存在于文档D₁中又存在于文档D₂中的词的数量，而不同词数量P(D₁+D₂)指示存在于文档D₁或D₂中词的数量。文档D₁和D₂之间的文档亲和度DocAff可以被定义为：

DocAff(D₁，D₂)＝P(D₁&D₂)/P(D₁+D₂)

深度引擎230可以以与计算平均词亲和度相似的方式来计算平均文档亲和度。具有较低平均亲和度的文档被认为较深，而具有较高平均亲和度的文档被认为较浅。

在具体实施方式中，深度引擎230可以通过对文档亲和度图应用链路分析来计算文档深度。除文档亲和度图的节点表示文档而不是词之外，文档亲和度图可以与亲和度图150类似。深度引擎230利用给定第一文档的情况下第二文档的文档亲和度来对从表示第一文档的第一节点到表示第二文档的第二节点的链路进行加权。接着，可以对外向链路的权重进行归一化。

在具体实施方式中，可以在用户接口上显示深度图以示出文档的深度。也可以显示可以用来选择深度等级的深度滑块。在具体实施方式中，如果文档包括较大文档的多个部分，则深度图可以指示各部分的深度。

在具体实施方式中，深度引擎230可以以任何其他适当方式来计算文档深度(例如，处理文档的亲和度直方图，和/或基于深度截短不同词的比例，接着处理直方图)。其他方法包括Gunning-Fog、Flesch或Fry方法。

在具体实施方式中，深度引擎230可以通过将深度值映射为特定深度等级来标定深度。在具体实施方式中，范围R_i中的深度值可以被映射到等级L_i。例如，R₀＝{r₀∶r₀<c₀}可以被映射到等级L₀、R₁＝{r₁∶c₀<r₁<c₁}可以被映射到等级L₁，...，以及R_n＝{r_n∶c_n<r_n}可以被映射到等级L_n。该范围可以包括任何适当深度值并且不需要具有相同大小。可以存在任何适当数量的等级(例如小于5、5到7、7或8、8到10、10到20、20到50、50到100，或者大于100)。

主题引擎240可以确定文档的主题(或话题)。在具体实施方式中，主题引擎240根据由聚类模块31识别的、文档中词的群集来确定主题。如上面所讨论的，词的群集可以指定词集的主题(或话题)。文档的主题可以提供关于文档的内容的有用信息。例如，包括群集(肾脏的(renal)、肾(kidney)、蛋白质、问题)的文档可能关于由于肾功能衰退而导致的蛋白质流失，而不是芸豆的蛋白质含量。

在具体实施方式中，主题引擎240根据主题图(theme map)来确定主题。在这些实施方式中，使用任何适当技术(例如，词条频度-逆文档频度(TF-IDF：term frequency-inverse document frequency)技术)从文档中提取关键词。关键词被用来从主题图中选择候选主题。候选主题与文档进行比较，以确定该主题多大程度上与文档匹配。在具体实施例中，候选主题的直方图可以与文档的直方图进行比较。如果候选主题与文档匹配，则这些主题可以提供文档的主题的类型估计和数量估计。

专度引擎240可以计算文档的专度。在具体实施方式中，专度引擎240可以对文档指配专度值和/或专度等级。更专的文档可以被指配更高的专度值或等级，而不太专的文档可以被指配更低的专度值或等级。

在具体实施方式中，专度引擎240根据文档的主题数量来计算专度。在具体实施例中，更专的文档可以具有更少的主题，而不太专的文档可以具有更多主题。在具体实施方式中，专度引擎240根据文档的主题数量和这些主题之间的亲和度来计算专度。在具体实施例中，更专的文档可以具有更少的主题，且这些主题之间具有更高的亲和度，而不太专的文档可以具有更多的主题，且这些主题之间具有更低的亲和度。

在具体实施方式中，主题数量可以取决于深度(或等级)。例如，较浅深度处的单个主题可以表示较大深度处的多个主题。在具体实施方式中，可以通过用户使用深度滑块来选择深度，或者深度可以是预先确定的。在具体实施方式中，等级可以由用户选择或者可以被预先确定。例如，可以定义任何适当数量的等级，并且可以针对该等级计算深度。例如，等级可以基于领域(例如，工程、医学、新闻、体育或金融领域)；基于专业(例如、心脏病学、眼科学或者肾脏专业)；基于主题(例如，高血压、胆固醇、搭桥手术或动脉阻塞主题)；基于细节(例如，体位性低血压、慢性高血压或者急性高血压)；基于解决方案(例如，老年人病理、药物或者遗传学解决方案)；基于人(例如，用户查询等级)。

本体特征应用引擎250可以应用本体特征(例如深度、主题或专度)，来在任何适当情形中执行本体特征分析。适当情形的示例包括：根据本体特征来搜索、排序、推荐或选择文档；报告文档的本体特征；以及确定一个或更多个用户的文档(或文档集)的本体特征。在具体实施方式中，本体特征应用引擎250可以使用包括关于本体特征的信息的索引。在一个示例中，本体特征应用引擎250使用根据深度等级生成和/或维护的文档深度(DD：document depth)反向索引62。DD反向索引62包括DD反向索引列表，其中词的DD反向索引列表列出了包括该词的文档(或页面50)的文档标识符。文档的文档标识符可以指示文档的深度。例如，用来编码文档标识符的二进制编码可以指示深度。在一些情况下，DD反向索引列表可以仅列出具有令人满意的深度的文档。在另一例中，除反向索引62之外，本体特征应用引擎250还使用等级表和深度表。该深度表可以指示文档的深度。

在具体实施方式中，本体特征应用引擎250搜索具有本体特征的指定值(例如，文档深度或专度的指定值)的文档。该指定值可以由用户预先确定、计算或者选择。在具体实施方式中，可以使用深度滑块和/或专度滑块来选择这些值。

在具体实施方式中，本体特征应用引擎250可以将本体特征用作排序标准来对文档进行排序。例如，本体特征应用引擎250可以针对主题以及其它排序标准，根据文档深度和/或专度来对文档进行排序。在具体实施例中，本体特征应用引擎250搜索DD反向索引62以获得根据文档深度排序的文档。在一些实施例中，本体特征应用引擎250使用非DD反向索引62来搜索文档，并接着根据深度对这些文档排序。

在具体实施方式中，本体特征应用引擎250可以向客户端20以图形方式显示本体特征的值。可以为一些或所有文档(例如，为来自搜索结果的前X％的文档)提供图形显示。该本体特征值可以以任何适当方式呈现。在一些实施例中，图形指示符(例如，数量、词或图标)可以指示该值。例如，图形指示符可以例如位于搜索结果列表中的项目、在线报纸的标题或者文档图标的旁边。在一些实施例中，对已有插图的修改可以指示该值。例如，文本的尺寸、字体、风格、颜色或图形指示符可以指示值。在另一例中，图形可以指示这些值。本体特征直方图可以包括文档量轴和本体特征轴，并且可以指示具体本体特征值的文档量。例如，包括文档量轴和文档深度轴的文档深度直方图可以指示特定文档深度的文档量。

在具体实施方式中，本体特征应用引擎250可以允许用户请求搜索具有特定本体特征值的文档。用户可以被允许为查询的不同词指定值。在具体实施例中，本体特征应用引擎250可以为用户提供选项来选择深度，并接着用户可以输入该选择的深度。这些选项可以以任何适当方式呈现，例如：(i)绝对项(例如，表示深度的数量或者数量范围)；(ii)相对项(例如，针对深度的一部分搜索结果，例如“最深的X％”)；(iii)语义项(例如，“介绍”、“浅”、“深”、“非常深”和/或“高技术的”)；(iv)图形项(例如，滑块、按钮和/或其他图形元素)；或者(v)任何适当的组合项(例如，具有语义标签的滑块)。在一些情况下，滑块可以包括浅端和深端。用户可以将滑块移向一端或另一端，以指示选择的深度。当提供搜索结果时，可以通过该滑块显现文档深度直方图，并且可以将该滑块用作文档深度轴。

在具体实施方式中，本体特征应用引擎250可以计算一个或更多个用户的集合的本体特征属性。本体特征属性可以包括主题上下文中的用户深度和用户专度。本体特征属性描述了文档的与用户集相关联的本体特征。例如，科学家可以使用比三年级学生更深的文档。可以针对一个或更多个主题给出本体特征属性。例如，遗传学家可以在遗传学领域中使用比他在诗歌领域中使用的文档更深的文档。本体特征属性可以被用来确定用户的专长、为用户自动构建简历，以及分析用户的社会网络。

可以分析与用户相关联的任何适当的文档，以估计本体特征属性，例如，信件(例如，电子邮件和即时消息)、网页、以及搜索历史(例如搜索查询和选择的页面)。在具体实施方式中，本体特征应用引擎250可以随着时间跟踪本体特征属性，并且可以使用过去的属性来预测未来的属性。在具体实施例中，本体特征应用引擎250可以假设用户深度和/或专度总体上随时间和/或区域中的活动而增加。

在具体实施方式中，本体特征应用引擎250可以组合某些操作。例如，本体特征应用引擎250可以监控用户的深度，并且接着根据该用户深度来搜索文档。在一个示例中，监控用户深度，并且接着根据该深度向用户提供新闻。预测未来的用户深度，并且提供适合该预测用户深度的新闻。

图9示出了可以选择标签来标记文档的标签模块35的一个实施例。可以以任何适当的方式来选择标签。在具体实施方式中，标签模块35将主题建模为主题的相关词的统计分布。标签模块35使用统计分布来识别文档的高排位词具有最高出现概率的主题，并且根据识别的主题来选择文档的标签。在所示的实施方式中，标签模块35包括主题建模器310和文档标签器314。在具体实施方式中，主题建模器310生成对主题进行建模的统计分布，而文档标签器314基于该统计分布选择标签。主题建模器310和文档标签器314可以利用任何适当方法来进行主题建模和选择标签。参照图10来描述方法的一个示例。

在其他实施方式中，标签模块35通过分析文档的段落来指配标签。在这些实施方式中，标签模块35识别文档的段落的候选标签。标签模块35确定候选标签与文档的其他候选标签的关联性，并根据该关联性来选择该文档的标签。参照图11对通过分析文档的段落来指配标签的方法的一个示例进行更详细的说明。

在再一实施方式中，标签模块35可以基于由用户或计算机选择的推荐标签来指配标签。在这些实施方式中，标签模块35推荐文档的标签。推荐词条可以与目标标签具有较高的亲和度，而彼此之间具有较低的亲和度，以减小文档的本体空间。标签模块35可以响应于选择的标签来继续推荐标签。一旦已经选择了最终标签，标签模块35就可以对文档指配所选择的标签。参照图12对指配标签的方法的一个示例进行更详细的说明。

图10示出了根据主题的统计分布来指配标签的方法的一个示例。可以根据词的总体来生成统计分布。可以使用任何适当的总体(例如语言或语料库(例如，因特网)的词)。相对于其他词，适合于主题的词可以具有相对较高的出现概率。例如，对于主题“自行车”，相对于“砖块”、“桶”以及“披萨”等词的出现概率来说，“轮胎”、“链条”、以及“骑乘”等词可以具有更高的出现概率。

在步骤410处开始该方法，其中使用任何适当的排位技术来为语料库的文档的词条进行排位。在排位技术的一个示例中，根据频度(例如词条频度或者词条频度-逆文档频度(TF-IDF))对词条进行排位。较高的频度可以产生较高的排位。在排位技术的另一例中，根据词条与其它词条的共现超过随机机会(random chance)的标准偏差次数来对词条进行排位。较高的标准偏差次数可以产生较高的排位。

在步骤414，将一个或更多个高排位词条选择为文档的关键词。在一些实施例中，可以使用排在前N位的词条，其中N可以是1到5、5到10或者10以上。在其他实施例中，可以使用比文档的平均排位高预定距离(例如一个标准偏差)的词条。

在步骤418，根据文档的关键词来对文档进行聚类，其中群集与关键词相关联。针对群集定义的关键词是该群集的主题。如果文档具有N个关键词，则将在N个群集中呈现表示该文档。在步骤422去除小群集。小群集可以是未满足大小阈值的群集(例如，代表低于M个文档的群集，其中M可以是在范围0到50、50到100，或者200以上的范围内的值)。在一些实施例中，可以根据语料库的大小来计算M。例如，M可以是在范围0％到3％、3％到5％或者5％以上的范围中的值。

在步骤426收集群集的统计，并在步骤428根据该统计来生成该群集的统计分布。可以收集任何适当的统计来生成任何适当的统计分布(例如频度分布和/或概率分布)。在具体实施例中，针对群集的各词计算指示群集中的词频度的词条频度。可以根据群集中词出现的次数或者根据群集中包含该词的文档的数量来计算词条频度。根据该词条频度来生成词条分布。在其他实施例中，针对各其他群集计算指示群集的主题与另一群集的主题的共现的共现值。根据该共现值来生成共现分布。如果在步骤430存在下一群集，则方法返回到步骤426来收集下一群集的统计。如果在步骤430不存在下一群集，则方法前进到步骤434。

在步骤434处合并具有相似统计分布的群集。可以对统计分布进行比较，并且可以把相似的统计分布合并成单个频度分布。例如，主题“轿车”和“汽车”的群集可以具有相似统计分布，因此将它们合并位单个群集。如果分布之间的差异小于差异阈值，则可以认为统计分布是相似的。差异阈值可以具有任何适当值(例如，小于或等于1％、5％到10％或者10％以上的范围中的值)。可以选择较大群集的主题作为合并群集的主题。

在步骤438，基于所得到的群集将主题重新指配为文档的标签。因为一些群集已经被合并，而其他群集已经被去除，所以指配给文档的主题可能改变。重新指配的主题可以用作文档的信息量更大、重复性更少的标签。接着该方法结束。可以在更新了语料库的文档时执行该方法。

在步骤422，向文档指配标签。文档标签器314可以根据统计分布以任何适当方式为文档指配标签。在一些实施例中，文档标签器314可以根据在步骤438处执行的主题重新指配来为语料库中的文档指配标签。

在其他实施例中，文档标签器314可以为未必在语料库中的文档指配标签。可以使用统计分布来识别文档的所选词具有较高出现概率的主题，并且可以把识别的主题选为标签。在这些实施例中，文档标签器314根据任何适当的排位技术(例如上面所讨论的技术)来对文档的词排位。从最高排位的词开始，文档标签器314根据主题的统计分布来确定该词针对各主题的频度。文档标签器314接着可以从词最频繁出现的主题到词最少出现的主题对主题进行排位。可以生成该词针对这些主题的统计分布。

在这些实施例中，文档标签器314接着可以针对文档的一个或更多个其他高排位词以类似方式生成统计分布。在具体实施例中，可以例如等同地或者根据词的排位来为词的统计分布进行加权。例如，更高排位的词可以具有权重更大的统计分布。统计分布可以被合并，以产生合并统计分布。在具体实施方式中，可以对加权后的统计分布求和。例如，对与特定主题相关联的值求和以产生一值，该值指示给出文档的高排位词的主题的可能性。文档标签器314可以将一个或更多个可能的主题指配为文档的标签。

图11示出了通过分析文档的段落来为文档指配标签的方法的一个示例。该方法可以被用于包括微要旨(micro-idea)、要旨(idea)以及论点(hypothesis)的文档。在具体实施方式中，微要旨包括独立、完整的表达单元。一个或更多个相关微要旨可以形成要旨。一个或更多个相关要旨可以形成论点。在具体实施例中，语句表达微要旨、段落表达要旨，而一系列相关段落表达论点。在这些实施例中，段落是相关的，所以段落的核心词条可以具有相对高的有向亲和度。多个核心词条的一些交集可以被用作标签。

在步骤506开始该方法，其中文档的段落P_i被识别为用于分析的文本单元。段落可以指以任何适当方式(例如，通过固定数量或可变数量的词、通过段落标志或通过聚类)指定的字符、词和/或语句的任何适当集合。段落可以被定义为例如包括足够数量的足够复杂的词。

在步骤510选择段落P_i。在步骤514处，针对段落P_i建立标签t_k的候选标签集S_i＝<t₁，t₂，...，t_m>。在具体实施方式中，更高排位的词可以被选择为候选标签。(可以根据任何适当的排位技术对词排位。)在具体实施方式中，可以根据期望产生的候选标签的数量来选择候选标签的初始数量。例如，如果期望产生的数量为k，则初始数量可以为c*k，其中c>1。参数c可以具有任何适当值(例如，c＝2、3、4或5)。最高排位的候选标签可以被选择为集合S_i的根r_i。

在步骤518，根据任何适当的关联性技术来确定候选标签彼此间的关联性。一般来说，可以以任何适当方式(例如，使用任何适当亲和度)来测量关联性。例如，与目标标签更亲和的标签可以被认为更相关，而与目标标签不太亲和的标签可以被认为较不相关。在具体实施方式中，可以(例如，使用有向亲和度和/或差分亲和度)对标签进行聚类，并且认为群集的标签是相关的。

在步骤520为候选标签指配偏好权重。可以根据任何适当排位技术指配偏好权重。例如，更大的偏好权重可以被给予在段落中具有较高频度和/或在文档中具有较大平均亲和度的倒数的候选标签。在步骤524，从候选标签集中去除与其他候选标签不够相关的候选标签。任何适当关联性阈值可以指明标签是否与其他标签足够相关。在步骤530，确定是否存在下一段落。如果存在下一段落，则方法返回到步骤510以选择下一段落。如果不存在下一段落，则方法前进到步骤534。

在步骤534确定不同段落的候选标记集的关联性。可以根据任何适当关联性技术来确定关联性。在具体实施方式中，与段内分析的情况类似，可以对候选标记进行聚类，并且可以认为群集中的候选标记足够相关。在其他实施方式中，可以针对各候选标记生成互相关概要(profile)。互相关概要指示候选标记与其他候选标记(例如，其他候选标记集的标记)的互关联度。较大的互关联度表示较大的关联性。

可以以任何适当方式计算互相关概要。在一些实施例中，根据包括候选标签的候选标签集的数量生成候选标签的互相关概要，并且候选标签的互相关概要可以考虑候选标签集中的候选标签的频度。以更大的频度出现在更多候选标签集中的候选标签可以具有更高的互关联度。

在其他实施例中，可以根据根r_i和根r_j的有向亲和度来确定集合S_i(具有根r_i)的候选标签相对于其它集合S_j(具有根r_j)的互相关概要。在这些实施例中，可以通过将候选标签的偏好权重与集合S_j上的根r_i

r_j的有向亲和度相乘来计算集合S_i和特定集合S_j的候选标签的互相关值。可以通过合并(例如，求和)特定集合的互相关值来计算候选标签集S_j的互关联度。

在再一实施例中，可以根据单独标签t_i和t_j的有向亲和度来确定集合S_i的候选标签t_i相对于其他集合S_j(具有标签t_j)的互相关概要。在这些实施例中，通过确定集合S_j上的标签t_i t_j的有向亲和度并对这些有向亲和度求和来计算集合S_i和特定集合S_j的候选标签的互相关值。可以通过合并特定集合的互相关值来计算候选标签和集合S_j的互关联度。

在步骤538，从候选标签中选择标签。在具体实施方式中，选择与其他候选标签最高度相关的候选标签。在一些实施例中，可以选择群集的最高排位的候选标签。在其他实施例中，可以选择根据互相关概要具有最高互关联度的候选标签。选择的标签的数量k可以是预定常数，或者可以是根据查询词条的深度确定的值。例如，对于具有较深词条的查询，可以使用更小或更大的k。接着该方法结束。

图12例示了响应于选择的标签指配标签的方法的实施例。该方法在步骤450处的初始阶段启动。在初始阶段，文档标签器314接收初始标签作为文档的目标标签。初始标签可以来自任何适当源。例如，可以由用户或逻辑(例如，计算机)输入初始标签。逻辑可以输入通过文档的分析产生的标签、与用户相关联的其他文档，或者针对文档选择的其他标签。文档标签器314可以记录标签的源。

在具体实施方式中，文档标签器314可以在客户端20处启动图形用户接口的初始显示，该图形用户接口允许用户与文档标签器314交互。在一些实施例中，接口可以允许用户请求添加或删除标签。在其他实施例中，接口可以包括图形要素，该图形要素允许用户对特定的词条指示标签应该具有的期望关联度。例如，接口可以包括滑块，该滑块可以靠近词条以指示更高的关联度，或者远离词条以指示更低的关联度。

在步骤454处的候选阶段，文档标签器314响应于输入的标签来推荐词条。可以选择所推荐的词条以将文档与最小本体空间量相关联。例如，所推荐的词条可以与输入标签具有较高的亲和度，而彼此间具有较低的亲和度。例如，如果输入标签为“树”，则推荐标签可以为“植物”、“族”或者“计算机科学”。

推荐词条可以避免过描述和欠描述。过描述是由于提供了未提供很多额外信息的本质上是本体冗余标签而引起的。例如，如果文档具有标签“树”和“树林”，则添加“森林”就没有提供很多额外信息。欠描述是由于提供了无法消除文档不明确性的标签而引起的。例如，文档的标签“bank(银行、河堤、台边)”无法指明该文档是涉及金融机构、河流还是台球桌的边沿。

在步骤458处的测试阶段中，文档标签器314监控(例如，由用户)选择的推荐词条，和未选择或淘汰的词条。例如，文档标签器314接收“流体”，并推荐“可适应的”、“灵活的”、“液体”、“溶液”以及“融化的”。文档标签器314注意到“液体”和“融化的”被淘汰，因此文档标签器314不推荐“溶液”。把所选词条添加到目标标签的集合中。

在具体实施方式中，文档标签器314可以记录标签的源(例如，用户或逻辑(例如计算机))。源可以具有任何适当的应用。例如，源可以被用来对搜索结果进行排位。在一个实施例中，具有由用户选择的标签的搜索结果与具有由逻辑生成的标签的搜索结果相比排位更高。

在步骤462的演化阶段，文档标签器314评估推荐词条和选择词条之间的差异，以推荐新的词条。文档标签器314可以推荐与选择词条具有较高亲和度(例如有向亲和度和/或差分亲和度)和/或与淘汰词条具有较低亲和度的词条，并且可以避免推荐与淘汰词条具有较高亲和度和/或与选择词条具有较低亲和度的词条。在具体实施方式中，文档标签器314可以移除一个或更多个本体冗余标签。可以针对任何适当数量的迭代(例如1到5、6到10或者10次以上的迭代)推荐和选择标签。

在步骤466处的指配阶段，文档标签器314向文档指配一个或更多个标签。在具体实施方式中，文档标签器314可以响应于测试阶段指配标签，或者与测试阶段无关地响应于一个或更多个初始标签而指配标签。接着该方法结束。

在不脱离本发明的范围的情况下，可以对这些方法进行修改、添加或省略。这些方法可以包括更多、更少或其他步骤。另外，可以以任何适当顺序来执行这些步骤。

在具体实施方式中，这些方法可以被执行以选择搜索词条而不是标签。可以在本说明书中包括的说明(具体地说，与指配标签的方法相关联的说明)中通过用“搜索词条”替换“标签”来描述这些实施方式。

例如，方法可以在初始阶段启动。在初始阶段，接收初始搜索词条作为搜索的目标搜索词条。初始搜索词条可以来自任何适当的源，例如可以由用户或逻辑(例如计算机)输入。在候选阶段，可以响应于输入的搜索词条来推荐词条。可以选择推荐词条以将搜索与最小本体空间量关联起来。在测试阶段，可以监控(例如由用户)选择的推荐词条和未被选择或被淘汰的词条。在演进阶段，可以评估推荐词条和选择词条之间的差异，以推荐新的词条。可以针对任何适当次数的迭代(例如1到5、6到10或者10次以上的迭代)来推荐和选择搜索词条。可以响应于已选择的搜索词条来选择搜索词条。

本发明的特定实施方式可提供一个或更多个技术优点。一个实施方式的技术优点可以在于主题的相关词的统计分布用于对该主题进行建模。统计分布可以用于针对文档来选择标签。例如，统计分布可用于识别文档中所选的词的出现概率最高的主题。可以选择所识别出的主题作为该文档的标签。

虽然以特定实施方式描述了本发明，实施方式的替代和变更对于本领域技术人员将是明显的。因此，实施方式的以上描述并不限制本发明。在不脱离所附权利要求限定的本发明的精神和范围的前提下，可以有其它的改变、置换和替代。

Claims

1.一种根据主题的统计分布来指配标签以便搜索的方法，该方法包括以下步骤：

访问存储在一个或更多个实体介质中的语料库，该语料库包括多个文档，各个文档包括多个词；

选择各个文档中的一个或更多个词作为该文档的一个或更多个关键词；

根据所述关键词对所述文档进行聚类，以得到多个群集，各个群集对应于一个主题；

针对各个群集，根据所述各个群集的文档中的词的子集生成统计分布，以得到多个统计分布，针对各个群集生成统计分布进一步包括以下步骤：

确定指示所述各个群集的主题与其他群集的主题的共现的共

现值；以及

根据所述共现值生成共现分布；并且

在生成所述统计分布之后，

根据所述统计分布组织所述群集；

向所述组织群集中的文档指配所述组织群集的主题；以及

根据主题的重新指配来为所述语料库中的文档指配标签。

2.如权利要求1所述的方法，其中所述的选择各个文档中的一个或更多个词的步骤进一步包括以下步骤：

根据排位技术对各个文档中的词进行排位；以及

选择一个或更多个高排位的词作为所述一个或更多个关键词。

3.如权利要求1所述的方法，其中所述的根据所述关键词对所述文档进行聚类以得到多个群集的步骤进一步包括以下步骤：

去除一个或更多个不满足大小阈值的群集。

4.如权利要求1所述的方法，该方法进一步包括以下步骤：

识别具有相似统计分布的至少两个群集，其中，如果分布之间的差别小于差别阈值，则确定统计分布为相似的；以及

合并所述至少两个群集。

5.一种根据主题的统计分布来指配标签以便搜索的系统，该系统包括：

用于访问存储在一个或更多个实体介质中的语料库的装置，该语料库包括多个文档，各个文档包括多个词；

用于选择各个文档中的一个或更多个词作为该文档的一个或更多个关键词的装置；

用于根据所述关键词对所述文档进行聚类以得到多个群集的装置，各个群集对应于一个主题；

用于针对各个群集根据所述各个群集的文档中的词的子集生成统计分布以得到多个统计分布的装置，针对各个群集生成统计分布进一步包括：

确定指示所述各个群集的主题与其他群集的主题的共现的共

现值；以及

根据所述共现值生成共现分布；以及

用于在生成所述统计分布之后根据所述统计分布组织所述群集、向所述组织群集中的文档指配所述组织群集的主题；并根据主题的重新指配来为所述语料库中的文档指配标签的装置。