CN101566997A

CN101566997A - 确定与给定的词集相关的词

Info

Publication number: CN101566997A
Application number: CNA2009100071612A
Authority: CN
Inventors: 雅尼斯·拉布罗; B·托马斯·阿德勒; 斯特吉奥斯·斯特吉奥; 艾伯特·莱因哈德; 大卫·马尔维特
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-13
Filing date: 2009-02-13
Publication date: 2009-10-28
Anticipated expiration: 2029-02-13
Also published as: US8280886B2; CN101566997B; JP2009193584A; JP5423030B2; US20090204609A1

Abstract

确定与给定的词集相关的词。在一个实施方式中，启动图形用户界面的用户输入窗口的显示。接收被输入到用户输入窗口以启动第一搜索的搜索词条。根据搜索词条来确定来自文档语料库的一个或更多个第一搜索结果。在图形用户界面的当前搜索词条窗口处启动搜索词条的显示。在图形用户界面的搜索结果窗口处启动第一搜索结果的显示。在图形用户界面的搜索建议窗口处启动第一搜索建议的显示。

Description

确定与给定的词集相关的词

技术领域

本发明大体涉及词法(lexigraphical)分析，更具体地说，涉及确定与给定的词集相关的词。

背景技术

本申请要求由Bo Adler等人于2008年2月13日提交的发明名称为“Techniques and Architecture for Research Searching”的美国临时专利申请61/028,233的优先权。

数据的语料库(corpus)可以保持大量信息，然而，找寻相关信息可能很难。用户可以通过搜索查询来搜索信息。然而，在特定情况下，已知的搜索技术可能还不够。

附图说明

图1示出了利用描述主题的统计分布对主题进行建模的系统的一个实施例；

图2示出了可以与图1的系统一起使用的亲和度(affinity)模块的一个实施例；

图3示出了记录基本亲和度的亲和度矩阵的一个示例；

图4示出了记录有向亲和度的亲和度矩阵的一个示例；

图5示出了记录平均亲和度的亲和度矩阵的一个示例；

图6示出了亲和度图的一个示例；

图7示出了可以与图1的系统一起使用的聚类模块的一个实施例；

图8示出了可以与图1的系统一起使用的本体(ontology)特征模块的一个实施例；

图9示出了可以与图1的系统一起使用的标签模块的一个实施例；

图10示出了确定重要词条的方法的一个示例；

图11示出了确定与给定的词条集相关的词条的Taggr法的一个示例；

图12A到12H示出了可用于进行搜索的图形用户界面(GUI)的示例；以及

图13A到13E示出了可用于利用所选择的搜索结果来精炼搜索的图形用户界面的示例。

具体实施方式

概述

在一个实施方式中，接收查询的初始词条集。对候选词条集进行初始化。对以下操作执行预定次数的迭代：针对候选词条集的各候选词条获取预定数量的临时词条，该预定数量的临时词条对于各候选词条具有较高的差分亲和度；将各临时词条和相关联的较高差分亲和度放置到临时词条集中，如果从多于一个候选词条中获得了临时词条，则临时词条的差分亲和度与对于所述多于一个候选词条的差分亲和度相关；计算临时词条集中的各临时词条的平均差分亲和度，该平均差分亲和度代表从各临时词条到初始词条集中的每个词条的差分亲和度的平均值；从临时集中移除具有不满足预定阈值的平均差分亲和度的一个或更多个词条；以及将临时集中的具有较高差分亲和度的一个或更多个词条放到候选词条集中。选择候选词条集中的一个或更多个词条。返回所选择的词条。

在一个实施方式中，针对文档的词条集中的各个词条确定词条频度-逆文档频度(term frequency-inverse document frequency，TF-IDF)值。根据TF-IDF值对词条进行排序以产生有序列表，具有最高TF-IDF值的第一词条位于有序列表的顶部，具有最低TF-IDF值的第二词条位于该有序列表的底部。对于有序列表中的各个连续词条计算连续词条的TF-IDF值的差以产生多个差。计算该差的标准偏差。根据该标准偏差从有序列表中移除一个或更多个词条，并且输出剩余的词条。

在一个实施方式中，启动图形用户界面的用户输入窗口的显示。接收被输入到用户输入窗口以启动第一搜索的搜索词条。根据该搜索词条来确定来自文档语料库的一个或更多个第一搜索结果。启动在图形用户界面的当前搜索词条窗口处的搜索词条的显示。启动在图形用户界面的搜索结果窗口处的第一搜索结果的显示。启动在图形用户界面的搜索建议窗口处的第一搜索建议的显示。

示例实施方式

在具体实施方式中，领域本体(domain ontology)的创建及查询包括以下步骤：

1、收集领域中的文档。在具体实施方式中，文档(document)是词条(term)的集合。文档可包括可读文本，例如，一本《新约》。文档不需要以描述形式来包括词，例如，文档可以包括一组单独和共同地描述图像的内容的用户输入标签(tag)。文档的集合可称为“领域语料库(domain corpus)”。

2、识别该领域中所关心的词条(“词典词条(dictionary term)”)。词条的示例包括词(word)(诸如“树”)、短语(phrase)(诸如“图形算法”)、命名实体(named entity)(诸如“纽约”)等。词条(或概念)可具有不同的形式。在特定情况下，不同的词用于同一概念，例如，“kidney stones(肾结石)”和“kidney calculi(肾结石)”是指同一概念，即“肾结石”。在其它情况下，词干(word stem)可具有多种词形变化，例如，词干“tree”具有词形变化“tree”和“trees”。在具体实施方式中，可将同一词条的各种形式映射为同一词条而进行处理。在文档中可出现词典词条的任意适当形式，但是特定的词典词条不必出现在任意文档中。

识别词典词条的方法的示例包括利用特定领域的人工生成的词典，例如，医学词典。在具体实施方式中，可由语料库中的文本串集自动地生成一系列词典词条。可以按照频度对这些文本串进行索引及排序，并且可选择频度在阈值以上的文本串。可使用其它适当的统计方法来确定词条。在具体实施方式中，“词”可与“词条”、“词典词条”及“n-gram”互换。

3、计算给定的共现语境(co-occurrence context)中词典词条的共现次数。如果两个词条都在同一共现语境中至少出现一次，则这两个词条共现。共现语境的示例包括文档和段落。

4、创建包括该领域本体的有向加权图(directed weighted graph)。该有向加权图包括作为节点(node)的词典词条以及作为边(edge)的权重的亲和度(affinity)。“有向加权图”可以用作可由任意适当的数据结构(例如，矩阵、二值判决图、或二值判决图的集合等)代表的同一信息的实际表示。

5、应用查询该有向加权图的过程。给定一个或更多个词典词条作为输入，该过程输出与所输入的词典词条相关的一个或更多个词典词条。例如，该过程可输出相对于一个或更多个输入词条具有最高的差分有向亲和度(如下所述)的一个或更多个词条的有序列表。在这种情况下，输出包括与本体涉及的领域有关、与输入词条更加密切相关的词条。

可使用任意适当的亲和度定义。在具体实施方式中，可使用以下定义：

1、基本亲和度

a.词条A与B之间的基本亲和度(A)可定义为包含词条A和B这两者的共现语境的数量与包含词条A和B之一的共现语境的数量的比：

A(A，B)＝|AB|/|A or B|

b.词条A与B之间的基本亲和度(A)还可定义为包含词条A和B这两者的共现语境的数量与包含A的共现语境的数量和包含B的共现语境的数量中的最大值的比：

A(A，B)＝|AB|/max(|A|，|B|)

2、有向亲和度

词条A与B之间的有向亲和度(DAff)可定义为在假定在共现语境中观察到A的情况下观察到B的条件概率：

DAff(A，B)＝|AB|/|A|

也就是说，有向亲和度可以是包含词条A和B这两者的共现语境的数量与包含词条A的共现语境的数量的比值。通常，DAff(A，B)与DAff(B，A)不同。

3、差分有向亲和度

可以将词条A与B之间的差分有向亲和度(DiffDAff)定义为词条A与B之间的有向亲和度减去一个表示词条B在语料库中的普遍性的系数。词条B在语料库中的普遍性可以是词条B对于语料库中的其他词条的基本亲和度或有向亲和度值的统计值。在特定实施方式中，词条B在语料库中的普遍性可以是词条B的平均亲和度(AA)，这导致了如下的差分有向亲和度定义：

DiffDAff(A，B)＝DA(A，B)-AA(B)

词条B的平均亲和度(AA)或平均有向亲和度可定义为：

AA(B)＝AVERAGE_x DAff(x，B)

也就是说，平均亲和度可以是词条B对于共现语境中的其它词条的有向亲和度的平均值。

图1示出了可用于执行搜索的系统10的一个实施方式。在具体实施方式中，系统10可用于精炼搜索。用户可以通过选择先前搜索的搜索结果或通过对搜索词条取消选定来精炼搜索。在具体实施方式中，系统10可以推荐词条作为搜索建议。可以利用相关性方法来生成搜索建议。用户可以选择搜索建议以精炼搜索。

在具体实施方式中，可以针对给定的词子集和词典D来对特定反向索引II计算有向亲和度，其中，索引II例如包括针对字wi和wj的条目I(wi)和I(wj)。一般来说，反向索引是存储从词条到其位置的映射(即，词条所出现的共现语境)的索引数据结构。对于D中的每一词对wi和wj，DA(i，j)可以被定义为II中的条目I(wi)和I(wj)的合取(conjunction)中的值除以I(wi)中的值的数量。一般来说，DA(i，j)不必等于DA(j，i)。该结果可以按任何适当方式存储，例如，按行存储，其中，存储D(1，i)，接着存储D(2，j)，等等等。对于每一行i，可以存储|I(wi)|，继之以与wj的合取的基数(cardinality)。

在特定实施方式中，可以分三个阶段计算有向亲和度。在该实施方式中，每一个词典词条都被指配了唯一的整数标识符。反向索引的条目对应于该整数标识符。在阶段0中，读取对应于D的II条目。对于参数(s，o)来说，仅保持有具有ks+o形式的元素标识符。值ks+o定义了要检查的II条目的子集。按这种方式，可以并行计算有向亲和度。作为一个示例，由参数s得到的结果o(1，0)等同于由参数(3，0)、(3，1)(3，2)的计算的合并所得到的结果。这个步骤允许针对非常大的反向索引计算DA表。

在阶段1中，仅针对DA(i，j)按行计算合取。在阶段2中，读取计算出的上三角UT DA矩阵。由此，作为UT的转置得到下三角部分。在特定实施方式中，可以将相同维的多个DA矩阵归并成一个矩阵。较大II上的DA矩阵可以利用参数(s，j)被计算为sumi＝0...(s-1)Da。可以与计算出的合取一起存储附加信息，以使可以计算有向亲和度。在特定情况下，可以存储II条目的基数。

在特定实施方式中，可以按行存储DA，这样AA条目的计算可以与DA条目的计算并行进行。具体来说，可以通过对从磁盘读出的DA的行进行累加并最后通过字典条目的数量对累加结果进行归一化来生成AA。

在所示实施方式中，系统10包括：客户端20、服务器22以及存储器24。客户端20允许用户与服务器22通信，以生成语言的本体。客户端20可以向服务器22发送用户输入，并且可以向用户提供(例如，显示或打印)服务器输出。服务器系统22管理用于生成语言的本体的应用。存储器24存储由服务器系统22使用的数据。

在所示实施方式中，存储器24存储有页面50和记录54。页面50(或文档或共现语境)可以指词的集合。页面50的示例包括：文档的一页或更多页、一个或更多个文档、一本或更多本书、一个或更多个网页、信件(例如，电子邮件或即时消息)和/或其它词的集合。可以由页面标识符来标识页面50。页面50可以以电子方式存储在一种或更多种实体计算机可读介质中。页面50可以与任何适当的内容相关联，例如，文本(如字符、词和/或数字)、图像(如图形、照片或视频)、音频(如录音或计算机生成的声音)和/或软件程序。在特定实施方式中，一组页面50可以属于一个语料库。语料库可以与特定主题、团体、组织或其它实体相关联。

记录54描述页面50。在该实施方式中，记录54包括：索引58、反向索引62、本体66、以及群集67。索引58包括索引列表，其中，页面50的索引列表表示页面50的词。反向索引62包括反向索引列表，其中，词(或词集)的反向索引列表表示包括该词(或词集)的页面50。在一个示例中，列表Wi包括含有词wi的页面50的页面标识符。列表Wi&Wj包括含有词wi和wj两者的合取页面50的页面标识符。列表Wi+Wj包括含有词wi和wj中的任一个的析取(disjunction)页面50的页面标识符。P(Wi)是wi的页面50的数量，即，包括字wi的页面50的数量。

在一个实施方式中，可以将列表(如索引列表或反向索引列表)存储为二进制判决图(BDD：Binary decision diagram)。在一个示例中，集合Wi的二进制判决图BDD(Wi)表示具有词wi的页面50。BDD(Wi)的满足指配计数Satisf(BDD(Wi))生成具有词wi的页面50的数量P(Wi)：

P(Wi)＝Satisf(BDD(Wi))

相应地，

P(Wi&Wj)＝Satisf(BDD(Wi)AND BDD(Wj))

P(Wi+Wj)＝Satisf(BDD(Wi)OR BDD(Wj))

本体66表示语言的词和这些词之间的关系。在一个实施方式中，本体66表示词之间的亲和度。在所示实施例中，本体66包括亲和度矩阵和亲和度图。参照图3到图5，对亲和度矩阵的一个示例进行描述。参照图6，对亲和度图的一个示例进行描述。群集67记录了彼此相关的词的群集。参照图7，对群集进行更详细描述。

在所示实施方式中，服务器22包括：亲和度模块30、聚类模块31、本体特征模块32、标签模块35以及搜索引擎37。亲和度模块30可以计算词对的亲和度，在亲和度矩阵中记录该亲和度，和/或报告该亲和度矩阵。亲和度模块30也可以生成亲和度图。参照图2，对亲和度模块30进行更详细描述。

在具体实施方式中，聚类模块31可以通过识别数据集中的相关元素的群集来发现该数据集中的模式(pattern)。在具体实施方式中，聚类模块31可以识别一组词的群集(例如，一种语言或一组页面50)。一般来说，群集的词彼此高度相关，但与该群集以外的词不相关。词的群集可以指定该组词的主题(或话题)。在具体实施方式中，聚类模块31根据词之间的亲和度来识别相关词的群集。在实施方式中，群集的词彼此高度亲和，但与该群集以外的词不亲和。参照图7，对聚类模块31进行更详细的描述。

在具体实施方式中，本体特征模块32可以确定一个或更多个词的集合(例如，特定词或包括词的文档)的一个或更多个本体特征，并接着可以在多种情形中的任一种中应用该本体特征。本体特征是可以将词集放置在语言本体空间中的词集特征。本体特征的示例包括深度和专度。在具体实施方式中，深度可以指示词集的文本复杂性(sophistication)。越深的词集可能越技术化并且专业化，而更浅的词集可能更通用。在具体实施方式中，词集的专度与词集的主题的数量相关。更专的词集可能具有更少的主题，而不太专的词集可能具有更多的主题。

本体特征模块32可以在任何适当的情形下应用本体特征。适当情形的示例包括根据本体特征搜索、排序或选择文档；报告文档的本体特征；以及确定一个或更多个用户的文档的本体特征。参照图8对本体特征模块32进行更详细的描述。

在具体实施方式中，标签模块35可以选择标签来对文档进行标记。可以以任何适当的方式选择标签。在具体实施方式中，标签模块35将主题建模为该主题的相关词的统计分布。标签模块35使用该统计分布来识别文档的所选词具有最高出现概率的主题，并且标签模块35根据识别的主题来选择该文档的标签。在其他实施方式中，标签模块35识别文档的段落的候选标签。标签模块35确定这些候选标签与该文档的其他候选标签的关联性，并根据该确定来选择该文档的标签。在再一实施方式中，标签模块35推荐文档的标签。可以基于与用户或计算机输入或选择的目标标签的亲和度(例如，有向和/或差分亲和度)来推荐标签。一旦选择了最终标签，标签器314就可以向文档指配选择的标签。参照图9对标签模块35进行更详细的描述。

在具体实施方式中，搜索引擎37根据搜索查询搜索信息以生成搜索结果。搜索引擎37可以利用任何合适的搜索算法或技术以检索搜索结果。参照图10到13E来描述可以由搜索引擎37利用的方法和用户界面。

系统10的组件可以包括接口、逻辑、存储器和/或其他适当元件。接口接收输入、发送输出、对输入和/或输出进行处理，和/或执行其他适当操作。接口可以包括硬件和/或软件。

逻辑执行对组件的操作，例如，执行指令以根据输入来生成输出。逻辑可以包括硬件、软件和/或其他逻辑。逻辑可以编码在一种或更多种实体介质中，并且可以在由计算机执行时执行操作。诸如处理器的特定逻辑可以管理组件的操作。处理器的示例包括一个或更多个计算机、一个或更多个微处理器、一个或更多个应用程序，和/或其他逻辑。

在具体实施方式中，可以通过编码了计算机程序、软件、计算机可执行指令和/或能够由计算机执行的指令的一种或更多种计算机可读介质来执行实施方式的操作。在具体实施方式中，可以通过存储、包含和/或编码了计算机程序、并且/或者具有存储的和/或编码的计算机程序的一种或更多种计算机可读介质来执行实施方式的操作。

存储器存储信息。存储器可以包括一个或更多个实体的、计算机可读和/或计算机可执行的存储介质。存储器的示例包括计算机存储器(例如，随机存取存储器(RAM)或只读存储器(ROM))、大容量存储介质(例如，硬盘)、可移除存储介质(例如，光盘(CD)或数字视频盘(DVD))、数据库和/或网络存储器(例如，服务器)、和/或其他计算机可读介质。

在不脱离本发明的范围的情况下，可以对系统10进行改进、添加或省略。系统10的组件可以是集成或分离的。此外，可以通过更多、更少或其他组件来执行系统10的操作。例如，可以通过一个组件执行生成器42和生成器46的操作，或者可以通过一个以上的组件来执行亲和度计算器34的操作。另外，可以使用包括软件、硬件的任何适当逻辑和/或其他逻辑来执行系统10的操作。如本说明书中所使用的，“各个”指集合中各成员，或集合的子集中的各成员。

在不脱离本发明的范围的情况下，可以对矩阵的示例进行改进、添加或省略。矩阵可以包括更多、更少或其他值。另外，可以以任何适当的顺序来排列矩阵的值。

图2示出了可以与图1的系统10一起使用的亲和度模块30的一个实施例。亲和度模块30可以计算词对的亲和度、将该亲和度记录在亲和度矩阵中、和/或报告该亲和度矩阵。亲和度模块30还可以生成亲和度图。

在所示的实施方式中，亲和度模块30包括亲和度计算器34、本体生成器38以及词推荐器48。亲和度计算器34计算词wi或包括第一词wi和第二词wj的词对的任何适当类型的亲和度。亲和度的示例包括基本亲和度、有向亲和度、平均亲和度、差分亲和度和/或其他亲和度。

这一个实施方式中，词推荐器48接收种子词(seed word)，并且识别与种子词之间具有比阈值亲和度大的亲和度的词。阈值亲和度可以具有任何适当值，例如大于或等于0.25、0.5、0.75或0.95。阈值亲和度可以是预先编程的或者由用户指定。

可以根据包括词wi和/或wj的页面50的量(例如，数量)来计算基本亲和度。合取页面量是指既包括词wi又包括词wj的页面50的量，而析取页面量是指包括词wi或词wj中的一个的页面50的量。可以由合取页面量除以析取页面量而给出基本亲和度。在一个示例中，合取页面数量指包括词wi和词wj的页面的数量，而析取页面数量指包括词wi或词wj的页面的数量。可以由合取页面数量除以析取页面数量而给出基本亲和度。

Affinity(wi，wj)＝P(Wi&Wj)/P(Wi+Wj)

图3示出了记录基本亲和度的亲和度矩阵110的一个示例。在所示的示例中，亲和度矩阵110记录词w1......w5的逐对亲和度。根据亲和度矩阵110，词w0和w1之间的亲和度为0.003，词w0和w2之间的亲和度为0.005，等等。

返回参照图1，亲和度组包括彼此具有高亲和度的词对，并且可以被用来针对页面内容来捕捉词w1和w2之间的关系。高亲和度可以被指定为高于亲和度组阈值的亲和度。阈值可以被设置为任何适当的值(例如，大于或等于0.50、0.60、0.75、0.90或0.95)。词可以属于一个以上的亲和度组。在一个实施方式中，亲和度组可以表示为BDD。BDD的指针与该组的各个词一起被存储在反向索引62中。

有向亲和度可以被用来测量词wi对于词wj的重要性。亲和度计算器34根据包括词wi和wj的页面50的量(例如，数量)来计算在给定词wj的情况下词wi的有向亲和度。词wj页面量是指包括词wi的页面50的量。可以由合取页面量除以词wj页面量来给出给定词wj的情况下的词wi的有向亲和度。例如，词wj页面数量指包括词wi的页面50的数量。可以由合取页面50的数量除以词wi的页面50的数量来提供给定词wj的情况下的词wi的有向亲和度：

DAffinity(wi，wj)＝P(Wi&Wj)/P(Wi)

DAffinity(wi，wj)和DAffinity(wj，wi)不同。词wi和wj之间的较高有向亲和度DAffinity(wi，wj)表示在页面50包括词wj的情况下、页面50包括词wi的概率较高。在一个示例中，页面[1 2 3 4 5 6]包括词wi，而页面[4 2]包括词wj。包括词wj的页面也包括词wi，因此从词wj的观点来看，词wi具有高重要性。仅三分之一的包括wi的页面还包括词wj，所以从词wi的观点来看，词wj具有低重要性。

图4示出了记录针对词w0，...，w5的有向亲和度的亲和度矩阵120的一个示例。在该示例中，词124是A词，而词128是B词。矩阵120的行记录了在给定A词的情况下B词的亲和度，而亲和度矩阵120的列记录了在给定B词的情况下A词的亲和度。

返回参照图1，针对其他词wj计算词wi的平均亲和度。在一个实施方式中，平均亲和度可以是词wi和每个其他词wj之间的亲和度的平均值。词wi在N个词中的平均亲和度可以通过下式给出：

AveAff (wi) = \frac{1}{N} Σ_{j = 1}^{N} P (w_{i} | w_{j})

图5示出了记录平均亲和度的亲和度矩阵140的一个示例。行142记录了词1到词50,000的基本亲和度。行144记录了词1到词50,000的平均亲和度。

返回参照图1，词的平均亲和度可以指示词的深度。具有较低平均亲和度的词可以被认为是较深的词，而具有较高平均亲和度的词可以被认为是较浅的词。较深的词倾向于更技术化、具体并且准确。具有较高比例的较深词的页面50可以被认为是较深页面，而具有较低比例的较深词的页面50可以被认为是较浅页面。在一个实施方式中，用户可以指定要检索的词和/或页面50的深度。

页面50的较深词可以形成高度相关词的一个或更多个群集。群集可以表示共同的观点或主题。页面50的主题的数量可以指示页面50的专度。具有较少主题的页面50可以被认为更专，而具有较多主题的页面50可以被认为不太专。

词wi对于词wj的差分亲和度是词wi和wj之间的有向亲和度减去词wj对于所有其他词的平均亲和度。差分亲和度可以被表达为：

DiffAff(wi，wj)＝DAffinity(wi，wj)-AveAff(wj)

差分亲和度消除了由词wj在页面50中出现的总体倾向性而导致的偏置。在具体环境中，差分亲和度可以提供在页面包括词wj的情况下还包括词wi的概率的更准确的指示。

差分亲和度可以被用于各种应用中。在一个示例中，人名之间的差分亲和度可以被用来研究社会网络。在另一示例中，语素之间的差分亲和度可以被用来研究自然语言处理。在另一示例中，产品之间的差分亲和度可以被用来研究市场策略。

亲和度计算器34可以使用任何适当的技术来搜索反向索引列表以计算亲和度。例如，为了识别既包括词wi又包括wj的页面，亲和度计算器34可以针对公共元素(即，公共页面标识符)搜索词wi的列表Wi和词wj的列表Wj。

在具体实施方式中，本体生成器38生成语言的本体66(例如，亲和度矩阵或亲和度图)。可以根据诸如基本亲和度、有向亲和度、平均亲和度、差分亲和度和/或其他亲和度中的任何适当亲和度来生成本体。可以根据以任何适当的方式从语言中选择的词来生成本体66。例如，可以选择来自语言的公用部分的词或者与一个或更多个特定主题区域相关的词。

在所示的实施方式中，本体生成器38包括亲和度矩阵生成器42和亲和度图生成器46。亲和度矩阵生成器42生成记录词之间的亲和度的亲和度矩阵。亲和度图生成器46生成表示词之间的亲和度的亲和度图。在亲和度图中，节点表示词，而节点之间的有向边的权重表示由节点所表示的词之间的亲和度。亲和度图可以具有任何适当的维数。

图6示出了亲和度图150的一个示例。亲和度图150包括节点154和链路158。节点154表示词。在本示例中，节点154a表示词“binary(二进制)”。节点154之间的有向边的权重表示由节点154表示的词之间的亲和度。例如，更大的权重表示更大的亲和度。节点之间的链路158指示由节点154表示的词之间的亲和度高于亲和度阈值。亲和度阈值可以具有任何适当的值(例如，大于或等于0.25、0.5、0.75或0.95)。

图7示出了可以与图1的系统10一起使用的聚类模块31的一个实施例。在具体实施方式中，聚类模块31通过识别数据集中的相关元素的群集来发现数据集中的模式。在具体实施方式中，聚类模块31可以识别词集(例如，语言或页面50的集合)的群集。一般来说，群集的词彼此高度相关，而与群集以外的词不高度相关。词的群集可以指定词集的主题(或话题)。

在具体实施方式中，聚类模块31根据词之间的亲和度来识别相关词的群集。在这些实施方式中，群集的词彼此高度亲和，但是与群集以外的词不高度亲和。在一个实施方式中，如果词足够亲和，则可以认为它们高度亲和。如果词满足一个或更多个亲和度标准(例如，阈值)，则词足够亲和，下面提供了一些例子。

可以使用任何适当的亲和度来识别群集。在具体实施方式中，聚类模块31使用有向亲和度。一个词相对于其他词的有向亲和度表征了该词的共现(co-occurrence)。群集包括具有类似共现的词。在特定实施方式中，聚类模块31使用差分亲和度。差分亲和度倾向于消除由词在页面50中出现的总体倾向性而导致的偏置。

在所示的实施方式中，聚类模块31包括聚类引擎210和聚类分析器214。聚类引擎210根据亲和度来识别词的群集，并且聚类分析器214应用亲和度聚类以分析各种情形。

聚类引擎210可以根据亲和度以任何适当的方式来识别词的群集。提出了识别群集的方法的三个例子：根据词集构建群集、将词分类成群集，以及比较词的亲和度矢量。在一个实施方式中，聚类引擎210根据词集构建群集。在一个示例中，聚类引擎210根据具有亲和度*Aff(wi，wj)的词(wi)的集合W来构建群集S。亲和度值*Aff(wi，wj)表示词wi相对于词wj的任何适当类型的亲和度(例如，有向亲和度DAffinity(wi，wj)或差分亲和度DiffAff(wi，wj))。这里提供的亲和度值的特定示例可以被认为是归一化值。在本例中，Afffor(wi，wj)表示前向亲和度，而Affback(wj，wi)表示后向亲和度。

在本例中，群集S以种子词Wq开始。当前词wx表示在当前迭代中群集S中的正与来自集合W的词进行比较的词。最初，将当前词wx设为种子词wq。

在迭代期间，把当前词wx设为群集S的词。根据集合W的词wi与当前词wx的前向亲和度Afffor(wi，wx)来对它们进行排序。从有序集合W的起点开始，识别满足亲和度标准的候选词wG。亲和度标准可以包括对于当前词wx的前向亲和度标准：

Afffor(wc，wx)＞Thcf

和对于种子词wq的后向亲和度标准：

Affback(wq，wc)＞Thcb

其中，Thcf表示候选词的前向阈值，而Thcb表示候选词的后向阈值。候选词{wC}的有序集合的第一词被添加到群集S，添加的词的数量由参数Sizec给出。阈值Thcf和Thcb可以是具有从最小值到最大值的任何适当值的浮点参数。在特定实施例中，可以根据实际亲和度的有序列表来确定Thcf和Thcb的适当值。例如，可以使用列表中第200个值。参数Sizec可以是具有任何适当值的整数参数。适当值的示例包括默认值1、2、3或4。在具体实施方式中，这些参数在具体迭代中可以不同。

可以执行任何适当次数的迭代。在一个示例中，可以在开始执行该方法之前指定迭代次数。在另一示例中，可以在方法执行期间计算该次数。例如，可以根据群集S的大小增长率来计算该次数。

在另一实施方式中，聚类引擎210通过将词集的词归类成群集来识别群集。在一个示例中，根据亲和度*Aff(wi，wj)(例如，差分亲和度或有向亲和度)来对集合W的词(wi)进行归类。在另一例中，根据词wi与不同词集Q的各成员的亲和度的累积函数(例如，求和)来对词{wi}进行归类。可以以任何适当方式选择集合W。例如，集合W可以是与查询最相关的X个词，其中X可以具有任何适当值(例如，从10到100、100到200或者200以上范围中的值)。

在本例中，群集初始为空。把来自集合W的第一词wi置入群集中。在每次迭代中，从集合W选择当前词wx。如果*Aff(wx，wf)满足亲和度阈值Th给出的亲和度标准，则把当前词wx置入群集中，其中wf表示该群集中置入的第一词。阈值Th可以具有任何适当值(例如，对于最小值0.0和最大值1.0来说，具有范围在0.1到0.5的值)。如果*Aff(wx，wf)不满足阈值Th，则把当前词wx置入空群集中。针对集合W的各词重复这些迭代。

在处理了集合W的词之后，可以消除小群集。例如，可以消除具有少于Y个词的群集。Y可以是任何适当值(例如范围在3到5、5到10、10到25、25到50或者50以上的值)。

如果群集的数量不在满意范围内，则可以利用导致更严格或更宽松的群集置入标准的不同阈值Th来重复该处理。可以通过具有任何适当值的群集数量最小值和群集数量最大值给出该满意范围。适当值的示例包括最小值在1到5、5到10或者10以上范围中的值，以及最大值在10到15、15到20或者20以上范围中的值。可以增加阈值Th的值，以增加群集的数量，并且可以减小阈值Th的值以减小群集的数量。

在另一实施方式中，聚类引擎210通过比较词的亲和度矢量来识别群集。在具体实施方式中，亲和度矩阵的行和列可以产生亲和度矢量<wi，*Aff(wi，w1)，...，*Aff(wi，wj)，...，*Aff(wi，wn)>，该亲和度矢量表示词wi相对于词wj(j＝1，...，n)的亲和度。亲和度值*Aff(wi，wj)表示词wi相对于词wj的任何适当类型的亲和度(例如，有向亲和度或差分亲和度)。

在具体实施方式中，具有相似亲和度值的亲和度矢量可以表示一个群集。仅出于描述性目的，可以将亲和度矢量看作是词的亲和度在亲和度空间中的坐标。即，每个亲和度值*Aff(wi，wj)可以被认为是特定维的坐标。具有相似亲和度值的亲和度矢量表示与这些矢量相关联的词在亲和度空间中彼此接近。即，这些矢量指示这些词具有与其他词相似的亲和度关系，并因此适于作为同一群集中的成员。

如果通过适当的距离函数确定一个亲和度矢量近似于另一亲和度矢量，则这些亲和度矢量相似。可以把亲和度矢量的距离函数定义为例如给定大小的矢量的标准欧几里得距离，或者定义为给定大小的矢量的余弦。该距离函数还可以由聚类引擎210或者由用户指定。

在具体实施方式中，聚类引擎210应用聚类算法来识别具有彼此近似的值的亲和度矢量。群集算法的示例包括直接、重复二分(bisection)、凝聚(agglomerative)、偏置凝聚(biased agglomerative)、和/或其它适当算法。在一个示例中，聚类引擎210可以包括诸如CLUTO的聚类软件。

聚类分析器214可以在任何适当的应用中使用亲和度聚类来进行分析。在一个实施方式中，聚类分析器214可以使用亲和度聚类来对页面50进行分类。类别可以与群集标识符或者群集的一个或更多个成员相关联。在一个示例中，可以识别页面50的群集，并且接着可以根据该群集对页面50进行归类。在另一例中，可以选择页面50的重要词，并且接着确定包括这些词的群集。接着可以根据所确定的群集对页面50归类。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来分析页面50的语料库。语料库可以与特定主题、一个或更多个个体的集合(community)、组织或其他实体相关联。在一个示例中，聚类分析器214可以识别语料库的群集，并根据该群集确定语料库的库属性。库属性可以指示与和该语料库相关联的实体相关的词。如果一个或更多个页面50具有库属性的群集，则页面50与该实体相关。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来搜索查询解疑和查询扩展。在本实施方式中，聚类分析器214识别包括给定搜索查询的搜索词条的群集。群集提供与给定搜索查询相关的可替换词和/或类别。在一个示例中，来自群集的词可以被报告给搜索者，以帮助下一搜索查询。在另一例中，聚类分析器214可以从群集中选择词，并自动形成一个或更多个新的搜索查询。聚类分析器214可以串行或并行运行新的查询。

在一个实施方式中，聚类分析器214可以使用亲和度聚类来研究社会网络。在一个示例中，页面50可以让人看到社会网络。这些页面的示例包括信件(例如信函、电子邮件以及即时消息)、便笺、文章以及会议记录。这些页面50可以包括含有社会网络的人员的用户标识符(例如，姓名)的词。可以识别姓名的群集，以分析网络的人员之间的关系。在一个示例中，差分亲和度聚类可以被用来在不提供诸如系统管理员的姓名的信息的情况下滤除页面50中出现最多的名称。

在具体实施方式中，聚类分析器214可以通过组合和/或比较数据集的群集来分析数据集。在一个实施方式中，对重叠的数据集的群集进行比较。来自一个数据集的群集可以被映射到另一数据集的群集上，这样可以看出这些数据集之间的关系。例如，该数据集可以来自对一组同事的文档的分析和来自对该组的社会网络研究。可以将社会网络群集映射至文档主题群集，来分析社会网络与该主题之间的关系。

图8示出了本体特征模块32的一个实施例。本体特征模块32可以确定一个或更多个词(例如，特定的词或包括词的文档)的集合的一个或更多个本体特征，并且接着可以在任何不同情形中应用该本体特征。一个或更多个词的集合可以包括文档的关键词条。如果与词条t相关的前k个词条中的至少一个也呈现在该文档中，则词条t可以是关键词条。否则，该词条对于该文档可能不是必不可少的。

本体特征是沿一个或更多个特征轴表征文档的可量化度量，所述特征轴可以在给定区域中从语义上对该文档与其他文档进行区分。例如，文档的深度可以针对它的可理解性来区分文档、文档的专度可以针对它的关注点来区分文档，而文档的主题可以针对其关注的主题范围来区分文档。可以以任何适当方式定义本体特征。例如，计算机语言中的独立算法可以被用来表征文档的可读性或深度。

在所示的实施方式中，本体特征模块32包括深度引擎230、主题引擎240、专度引擎244以及本体特征(OF：ontology feature)应用引擎250。深度引擎230可以确定一个或更多个词(例如，特定的词或包括词的文档)的深度。一般来说，深度可以指示词的文本复杂性。越深的词可以是更加技术化的并且更专业的，而越浅的词可以是更通用的。在具体实施方式中，深度模块32可以计算文档的词的深度，并接着根据词的深度来计算文档的深度。在具体实施方式中，深度引擎230可以为文档和/或词指配深度值和/或深度级别。越深的文档或词可以被指配越高的深度值或级别，而越浅的文档或词可以被指配越低的深度值或级别。

深度引擎230可以以任何适当的方式计算词深度。在具体实施方式中，深度引擎230根据平均亲和度来计算词深度。在这些实施方式中，词的深度是词的平均亲和度的函数。越深的词可以具有越低的平均亲和度，而越浅的词可以具有越高的平均亲和度。在具体实施例中，深度引擎230可以通过根据词的平均亲和度对它们进行排位，从而计算词的深度。对具有较低平均亲和度的词给予高的深度排位，而对具有较高平均亲和度的词给予低的深度排位。

在具体实施方式中，深度引擎230可以使用聚类分析来计算词深度。在这些实施方式中，群集的词相互高度亲和，而与群集以外的词不高度亲和。可以根据能够作为深度指示的亲和度来测量群集空间中的距离。在具体实施方式中，属于更少数群集或者属于更小群集和/或离其他群集更远的群集的词可以被认为更深，而属于更多数群集或者属于更大群集和/或离其他群集更近的群集的词被认为更浅。

在其他具体实施方式中，深度引擎230可以通过对亲和度图150应用链路分析来计算词深度。可以通过任何适当的链路分析算法(例如，PAGERANK)来执行该链路分析。仅出于描述性目的，图6的亲和度图150可以被用来计算词深度。亲和度图150包括节点154和链路158。节点154表示词。节点154之间的链路158指示由节点154表示的词之间的亲和度高于亲和度阈值，即，这些词令人满意地亲和。

在具体实施方式中，深度引擎230计算节点154的通用性。越通用的节点154可以表示较浅的词，而不太通用的节点154可以表示较深的词。从第一节点154到第二节点154的链路136被认为是第一节点154对第二节点154的通用性投票。另外，来自更通用节点154的投票可以比来自不太通用节点154的投票具有更大的权重。此外，第一节点154到第二节点154的亲和度对投票进行加权。深度引擎230根据节点154的加权投票来计算节点154的通用性。不太通用的词被认为是深词，而更通用的词可以被认为是浅词。

深度引擎230可以以任何适当方式来计算文档深度。在具体实施方式中，深度引擎230根据文档中的至少一个、一些或所有词的深度来计算文档的深度。在具体实施方式中，由平均亲和度给出词深度，因此可以根据文档的词的平均亲和度来计算文档深度。例如，文档的浅度可以是文档的词的平均亲和度的平均值(即，文档中各词的平均亲和度的和除以文档中的词的总数)。接着，文档的深度可以被计算为文档的浅度的倒数。

在具体实施方式中，可以根据文档的所选词集的平均深度来计算深度。所选的词集可以包括文档的关键的词(例如，前(最深)X％的词，其中X可以小于10、10到20、20到30、30到40、40到50、50到60、60到70，或者大于100)。所选的集合可以排除P％的标准语法词和/或Q％的结束词，其中P和Q具有任何适当值(例如小于10、10到20、20到30、30到40、40到50、50到60、60到70，或者大于100)。

在具体实施方式中，深度引擎230根据文档中词深度的分布来计算文档的深度。在具体实施方式中，越深的文档可以具有越高比例的深词。

在具体实施方式中，深度引擎230根据文档亲和度来计算文档的深度。文档之间的亲和度描述文档之间的关系。在具体实施方式中，平均文档亲和度可以按与平均词亲和度可以指示词深度的方式相似的方式来指示文档深度。可以以任何适当方式来定义文档亲和度。在一个示例中，公共词数量P(D1&D2)指示既存在于文档D1中又存在于文档D2中的词的数量，而不同词数量P(D1+D2)指示存在于文档D1或D2中词的数量。文档D1和D2之间的文档亲和度DocAff可以被定义为：

DocAff(D1，D2)＝P(D1&D2)/P(D1+D2)

深度引擎230可以以与计算平均词亲和度相似的方式来计算平均文档亲和度。具有较低平均亲和度的文档被认为较深，而具有较高平均亲和度的文档被认为较浅。

在具体实施方式中，深度引擎230可以通过对文档亲和度图应用链路分析来计算文档深度。除文档亲和度图的节点表示文档而不是词之外，文档亲和度图可以与亲和度图150类似。深度引擎230利用给定第一文档的情况下第二文档的文档亲和度来对从表示第一文档的第一节点到表示第二文档的第二节点的链路进行加权。接着，可以对外向链路的权重进行归一化。

在具体实施方式中，可以在用户接口上显示深度图以示出文档的深度。也可以显示可以用来选择深度等级的深度滑块。在具体实施方式中，如果文档包括较大文档的多个部分，则深度图可以指示各部分的深度。

在具体实施方式中，深度引擎230可以以任何其他适当方式来计算文档深度(例如，处理文档的亲和度直方图，和/或基于深度截短不同词的比例，接着处理直方图)。其他方法包括Gunning-Fog、Flesch或Fry方法。

在具体实施方式中，深度引擎230可以通过将深度值映射为特定深度等级来标定深度。在具体实施方式中，范围Ri中的深度值可以被映射到等级Li。例如，R0＝{r0：r0＜c0}可以被映射到等级L0、R1＝{r1：c0＜r1＜c1}可以被映射到等级L1，...，以及Rn＝{rn：cn＜rn}可以被映射到等级Ln。该范围可以包括任何适当深度值并且不需要具有相同大小。可以存在任何适当数量的等级(例如小于5、5到7、7或8、8到10、10到20、20到50、50到100，或者大于100)。

主题引擎240可以确定文档的主题(或话题)。在具体实施方式中，主题引擎240根据由聚类模块31识别的、文档中词的群集来确定主题。如上面所讨论的，词的群集可以指定词集的主题(或话题)。文档的主题可以提供关于文档的内容的有用信息。例如，包括群集(肾脏的(renal)、肾(kidney)、蛋白质、问题)的文档可能关于由于肾功能衰退而导致的蛋白质流失，而不是芸豆的蛋白质含量。

在具体实施方式中，主题引擎240根据主题图(theme map)来确定主题。在这些实施方式中，使用任何适当技术(例如，词条频度-逆文档频度(TF-IDF：term frequency-inverse document frequency)技术)从文档中提取关键词。关键词被用来从主题图中选择候选主题。候选主题与文档进行比较，以确定该主题多大程度上与文档匹配。在具体实施例中，候选主题的直方图可以与文档的直方图进行比较。如果候选主题与文档匹配，则这些主题可以提供文档的主题的类型估计和数量估计。

专度引擎240可以计算文档的专度。在具体实施方式中，专度引擎240可以对文档指配专度值和/或专度等级。更专的文档可以被指配更高的专度值或等级，而不太专的文档可以被指配更低的专度值或等级。

在具体实施方式中，专度引擎240根据文档的主题数量来计算专度。在具体实施例中，更专的文档可以具有更少的主题，而不太专的文档可以具有更多主题。在具体实施方式中，专度引擎240根据文档的主题数量和这些主题之间的亲和度来计算专度。在具体实施例中，更专的文档可以具有更少的主题，且这些主题之间具有更高的亲和度，而不太专的文档可以具有更多的主题，且这些主题之间具有更低的亲和度。

在具体实施方式中，主题数量可以取决于深度(或等级)。例如，较浅深度处的单个主题可以表示较大深度处的多个主题。在具体实施方式中，可以通过用户使用深度滑块来选择深度，或者深度可以是预先确定的。在具体实施方式中，等级可以由用户选择或者可以被预先确定。例如，可以定义任何适当数量的等级，并且可以针对该等级计算深度。例如，等级可以基于领域(例如，工程、医学、新闻、体育或金融领域)；基于专业(例如、心脏病学、眼科学或者肾脏专业)；基于主题(例如，高血压、胆固醇、搭桥手术或动脉阻塞主题)；基于细节(例如，体位性低血压、慢性高血压或者急性高血压)；基于解决方案(例如，老年人病理、药物或者遗传学解决方案)；基于人(例如，用户查询等级)。

本体特征应用引擎250可以应用本体特征(例如深度、主题或专度)，来在任何适当情形中执行本体特征分析。适当情形的示例包括：根据本体特征来搜索、排序、推荐或选择文档；报告文档的本体特征；以及确定一个或更多个用户的文档(或文档集)的本体特征。在具体实施方式中，本体特征应用引擎250可以使用包括关于本体特征的信息的索引。在一个示例中，本体特征应用引擎250使用根据深度等级生成和/或维护的文档深度(DD：document depth)反向索引62。DD反向索引62包括DD反向索引列表，其中词的DD反向索引列表列出了包括该词的文档(或页面50)的文档标识符。文档的文档标识符可以指示文档的深度。例如，用来编码文档标识符的二进制编码可以指示深度。在一些情况下，DD反向索引列表可以仅列出具有令人满意的深度的文档。在另一例中，除反向索引62之外，本体特征应用引擎250还使用等级表和深度表。该深度表可以指示文档的深度。

在具体实施方式中，本体特征应用引擎250搜索具有本体特征的指定值(例如，文档深度或专度的指定值)的文档。该指定值可以由用户预先确定、计算或者选择。在具体实施方式中，可以使用深度滑块和/或专度滑块来选择这些值。

在具体实施方式中，本体特征应用引擎250可以将本体特征用作排序标准来对文档进行排序。例如，本体特征应用引擎250可以针对主题以及其它排序标准，根据文档深度和/或专度来对文档进行排序。在具体实施例中，本体特征应用引擎250搜索DD反向索引62以获得根据文档深度排序的文档。在一些实施例中，本体特征应用引擎250使用非DD反向索引62来搜索文档，并接着根据深度对这些文档排序。

在具体实施方式中，本体特征应用引擎250可以向客户端20以图形方式显示本体特征的值。可以为一些或所有文档(例如，为来自搜索结果的前X％的文档)提供图形显示。该本体特征值可以以任何适当方式呈现。在一些实施例中，图形指示符(例如，数量、词或图标)可以指示该值。例如，图形指示符可以例如位于搜索结果列表中的项目、在线报纸的标题或者文档图标的旁边。在一些实施例中，对已有插图的修改可以指示该值。例如，文本的尺寸、字体、风格、颜色或图形指示符可以指示值。在另一例中，图形可以指示这些值。本体特征直方图可以包括文档量轴和本体特征轴，并且可以指示具体本体特征值的文档量。例如，包括文档量轴和文档深度轴的文档深度直方图可以指示特定文档深度的文档量。

在具体实施方式中，本体特征应用引擎250可以允许用户请求搜索具有特定本体特征值的文档。用户可以被允许为查询的不同词指定值。在具体实施例中，本体特征应用引擎250可以为用户提供选项来选择深度，并接着用户可以输入该选择的深度。这些选项可以以任何适当方式呈现，例如：(i)绝对项(例如，表示深度的数量或者数量范围)；(ii)相对项(例如，针对深度的一部分搜索结果，例如“最深的X％”)；(iii)语义项(例如，“介绍”、“浅”、“深”、“非常深”和/或“高技术的”)；(iv)图形项(例如，滑块、按钮和/或其他图形元素)；或者(v)任何适当的组合项(例如，具有语义标签的滑块)。在一些情况下，滑块可以包括浅端和深端。用户可以将滑块移向一端或另一端，以指示选择的深度。当提供搜索结果时，可以通过该滑块显现文档深度直方图，并且可以将该滑块用作文档深度轴。

在具体实施方式中，本体特征应用引擎250可以计算一个或更多个用户的集合的本体特征属性。本体特征属性可以包括主题上下文中的用户深度和用户专度。本体特征属性描述了文档的与用户集相关联的本体特征。例如，科学家可以使用比三年级学生更深的文档。可以针对一个或更多个主题给出本体特征属性。例如，遗传学家可以在遗传学领域中使用比他在诗歌领域中使用的文档更深的文档。本体特征属性可以被用来确定用户的专长、为用户自动构建简历，以及分析用户的社会网络。

可以分析与用户相关联的任何适当的文档，以估计本体特征属性，例如，信件(例如，电子邮件和即时消息)、网页、以及搜索历史(例如搜索查询和选择的页面)。在具体实施方式中，本体特征应用引擎250可以随着时间跟踪本体特征属性，并且可以使用过去的属性来预测未来的属性。在具体实施例中，本体特征应用引擎250可以假设用户深度和/或专度总体上随时间和/或区域中的活动而增加。

在具体实施方式中，本体特征应用引擎250可以组合某些操作。例如，本体特征应用引擎250可以监控用户的深度，并且接着根据该用户深度来搜索文档。在一个示例中，监控用户深度，并且接着根据该深度向用户提供新闻。预测未来的用户深度，并且提供适合该预测用户深度的新闻。

图9示出了可以选择标签来标记文档的标签模块35的一个实施例。可以以任何适当的方式来选择标签。在具体实施方式中，标签模块35将主题建模为主题的相关词的统计分布。标签模块35使用统计分布来识别文档的高排位词具有最高出现概率的主题，并且根据识别的主题来选择文档的标签。在所示的实施方式中，标签模块35包括主题建模器310和文档标签器314。在具体实施方式中，主题建模器310生成对主题进行建模的统计分布，而文档标签器314基于该统计分布选择标签。主题建模器310和文档标签器314可以利用任何适当方法来进行主题建模和选择标签。

在其他实施方式中，标签模块35通过分析文档的段落来指配标签。在这些实施方式中，标签模块35识别文档的段落的候选标签。标签模块35确定候选标签与文档的其他候选标签的关联性，并根据该关联性来选择该文档的标签。

在再一实施方式中，标签模块35可以基于由用户或计算机选择的推荐标签来指配标签。在这些实施方式中，标签模块35推荐文档的标签。推荐词条可以与目标标签具有较高的亲和度，而彼此之间具有较低的亲和度，以减小文档的本体空间。标签模块35可以响应于选择的标签来继续推荐标签。一旦已经选择了最终标签，标签模块35就可以对文档指配所选择的标签。

图10示出了用于确定文档的重要词条的方法的一个示例，该方法可由图1的系统10的标签模块35来执行。在特定实施方式中，该方法可以将文档缩减到其最重要的词条，该词条被认为是总结了该文档的关键词。该方法随后可以执行正常n-gram共现以确定语料库中文档的关键词之间的关联强度。

在示出的示例中，该方法可以对语料库的各个文档执行以下操作。该方法从步骤410开始，其中抛弃不频繁出现的文档的n-gram。在一些示例中，非频繁出现的n-gram可以是在文档中不频繁出现的n-gram，例如出现少于三次。在其他示例中，可以利用在整个语料库中词条的频度分布来识别非频繁出现的n-gram。

在步骤414针对各个n-gram计算TF-IDF值。在一些示例中，基于文档语料库的词条频度来计算IDF值。在其他示例中，针对基准语料库来计算IDF值，该基准语料库无需包括检查中的当前文档。

在步骤418，根据得到的TF-IDF值对文档n-gram进行排序以产生n-gram的有序列表。有序列表可以根据最大TF-IDF值到最小TF-IDF值对n-gram进行排序，使得具有最大TF-IDF值的n-gram位于列表顶部而具有最小TF-IDF值的n-gram位于列表底部。在步骤422针对n-gram计算有序列表的连续n-gram之间的TF-IDF值的差。在步骤424计算该差的均值和标准偏差。

在步骤426，从列表中移除低于百分比阈值的n-gram。例如，可以移除下50％的n-gram。在一些示例中，百分比阈值可以与阈值以上的所需最小词条数量一起使用。

步骤428到434描述了使用在步骤422和步骤424处计算出的值，以动态确定剩余n-gram的下一TF-IDF阈值。在步骤428从列表底部向列表顶部(即，向较高的TF-IDF值)对有序列表进行扫描。在步骤430可能遇到高于标准偏差阈值(例如一个或两个标准偏差)的TF-IDF值差。

如果在步骤430遇到这种差，则方法前进到步骤434。在步骤434较高TF-IDF用作下一TF-IDF阈值，以移除较低值的n-gram。然后该方法前进到步骤436。如果在步骤430没有遇到这种差，则该方法前进到步骤432。如果在步骤432未扫描到列表顶部，则方法返回到步骤428以继续扫描列表。如果在步骤432扫描到了列表顶部，则方法前进到步骤436。在步骤436，将列表中剩余的n-gram输出作为文档的重要关键词。通过例如在图形用户界面上启动词条的显示来输出(返回)词条。然后，该方法结束。

Taggr法可以应用于任何加权有向图。在这种环境下，每个词条都是节点，并且从词条A到词条B的有向(或差分)亲和度等于从节点A到节点B的边的权重。词条B的平均亲和度被定义为输入边到节点B的所有权重的平均值。利用有向亲和度(或差分亲和度)和平均亲和度的概念，如前面一样定义差分亲和度。

图11示出了确定与给定的词条集相关的词条的Taggr法的一个示例，该方法可以由图1的系统10的搜索引擎37执行。在特定实施方式中，Taggr法通过检查DA阵列来接收初始的词条集，并且建议与初始的词条集相关的词条集。在该示例中，使用了下述参数：

k1：词能够建议的候选词的数量的上限；

k2：平均差分亲和度阈值；

k3：每次迭代的结果数量的上限；

k4：迭代次数的上限；以及

k5：返回的结果的数量的上限。

参数的示例范围是：k_1为[5，20]，k_2为[-0.1，0.1]，k_3为[5，20]，k_4为[1，3]，k_5为[5，20]。

该方法从步骤506开始，其中接收一个或更多个词条的集S。在步骤510初始化要从S获得的候选词条的集Q。初始时，集Q可以等于集S。在步骤514针对集Q的各个词条收集具有最高差分亲和度的至多k_1个词条，并且与其差分亲和度一起放置到临时集R中。即，集Q的各个词条产生与该集的源发词条(originating term)具有最高差分亲和度的至多k_1个词条。如果从集Q的多个词条获得同一词条，则词条的差分亲和度是相应差分亲和度的和。

对于集R的各词条，在步骤516计算从该词条到集S的每个词条的差分亲和度的平均值，即词条的“平均差分亲和度”。在步骤518从集R中移除平均差分亲和度低于平均差分亲和度阈值k_2的词条。在步骤522向集Q添加集R的具有最高差分亲和度的k_3个词条。步骤514到522可以反复进行k_4次。

在k_4次迭代之后，该方法前进到步骤526，其中对集Q的词条进行排序。可以基于词条例如向集Q的其他词条的平均亲和度或差分亲和度的平均值来对词条进行排序，使得具有较高平均亲和度或较高平均差分亲和度的词条位于列表顶部。在步骤530输出集Q的最上面k_5个词条。可以通过启动位于例如图形用户界面处的词条的显示来输出词条。然后该方法终止。

图12A到12H示出了可用于利用例如Taggr法用搜索引擎37执行搜索的图形用户界面的示例。在图12A中，搜索引擎37接收输入到用户输入窗口的第一搜索词条510以启动第一搜索522。在该示例中，用户输入了“lava”。在图12B中给出了基于第一搜索522(在当前搜索词条窗口中示出)的搜索结果514(在搜索结果窗口中示出)和搜索建议518(在搜索建议窗口中示出)。在该示例中，给出了lava的图像和与lava相关的搜索建议。在这些示例中，用户可以按任何合适的方式(例如，点击项目、双击项目、或突出显示项目)来选择项目(例如，搜索词条、搜索结果或搜索建议)。

接收由用户作出的搜索建议选择以启动第二搜索522，并且在图12C中给出了基于第二搜索522的搜索结果514和搜索建议518。在该示例中，由用户选择的搜索建议是“hawaii”，并且搜索结果和搜索建议的根据是第二搜索“lava”和“hawaii”。

接收由用户作出的搜索建议选择以启动第三搜索522，并且在图12D中给出了基于第三搜索522的搜索结果514和搜索建议518。在该示例中，用户选择的搜索建议是“flow”，并且搜索结果和搜索建议的根据是第三搜索“lava”、“hawaii”和“flow”。

在图12E中接收用户作出的图像选择。搜索引擎37进入标签模式并给出建议标签的列表以对图像进行注释。用户可以通过点击图像或标签来选择图像或标签。接收用户作出的标签选择，并且搜索引擎37用图12F中所选择的标签对图像进行注释。在该示例中，所选择的标签是“rock”。搜索引擎37也可以通过将所选择的标签添加到搜索词条中来用所选择的标签更新搜索。搜索引擎37可以将所选择的标签添加到搜索建议中。

在图12G中接收到返回到搜索模式的请求。用户可以通过点击图1 2F中的图像来请求返回到搜索模式。接收从搜索522中移除词条的请求以启动第四搜索522。用户可以通过在当前搜索窗口中点击词条来移除词条。在该示例中，选择移除“hawaii”。在图12H中给出了第四搜索522的搜索结果514和搜索建议518。

图13A到13E示出了可用于利用所选择的搜索结果来精炼搜索的图形用户界面的示例。在图13A中，接收由用户输入的第一搜索词条以启动第一搜索522。在该示例中，用户输入了“dslr”(代表数字单镜头反光照相机)。在图13B中提供了基于第一搜索522的搜索结果514和搜索建议518。在该示例中，提供了数字SLR照相机的图像和与数字SLR照相机相关的搜索建议。

接收由用户作出的图像选择以启动第二搜索522。用户可以选择图像以启动具有与该图像相似的结果的搜索522。可以通过点击图像来选择图像。基于所选择的图像，搜索引擎37自动地确定新搜索词条，该新搜索词条被添加到现有搜索词条中以产生第二搜索522。在图13C中给出了基于第二搜索522的搜索结果514和搜索建议518，并且在搜索窗口中显示了当前搜索522的搜索词条。接收由用户作出的图像选择以启动图13D中的第三搜索522。基于当前选择的图像，搜索引擎37自动地确定新搜索词条，该新搜索词条被添加到现有搜索词条中以产生第三搜索522。在图13E中给出了基于第三搜索522的搜索结果514和搜索建议518，并且在搜索窗口中显示了当前搜索522的搜索词条。

在特定示例中，搜索引擎37可以通过以下操作来基于用户选择图像自动地确定新搜索词条：

(1)按照平均亲和度对与图像关联并属于关联领域词典的词条进行排序。选择最上面的k个词条(例如，最上面的三个词条)。

(2)按照平均亲和度对与图像关联并出现在当前搜索建议中的词条进行排序。选择最上面的k个词条(例如，最上面的三个词条)。

在不脱离本发明的范围的情况下，可以对这些方法进行修改、添加或省略。这些方法可以包括更多、更少或其他步骤。另外，可以以任何适当顺序来执行这些步骤。

本发明的特定实施方式可提供一个或更多个技术优点。一个实施方式的技术优点可以在于通过点击搜索结果、搜索建议或搜索词条，以选择搜索结果或搜索建议或者取消选定搜索词条，来容易地精炼搜索。一个实施方式的技术优点可以在于可以利用相关性方法来生成搜索建议。

虽然以特定实施方式描述了本发明，实施方式的替代和变更对于本领域技术人员将是明显的。因此，实施方式的以上描述并不限制本发明。在不脱离所附权利要求限定的本发明的精神和范围的前提下，可以有其它的改变、置换和替代。

Claims

1、一种装置，该装置包括：

被配置为接收查询的初始词条集的界面；以及

被配置为执行这样的方法的处理器，该方法包括下述步骤：

对候选词条集进行初始化；

对下述操作执行预定次数的迭代：

针对所述候选词条集的各候选词条获取预定数量的临时词条，该预定数量的临时词条与所述各候选词条具有较高的差分亲和度；

将各临时词条和相关联的较高差分亲和度放置到临时词条集中，如果从多于一个候选词条中获得了临时词条，则该临时词条的差分亲和度与对于所述多于一个候选词条的差分亲和度相关；

计算所述临时词条集的各临时词条的平均差分亲和度，该平均差分亲和度代表从所述各临时词条到所述初始词条集的每个词条的差分亲和度的平均值；

从所述临时集中移除具有不满足预定阈值的平均差分亲和度的一个或更多个词条；以及

将临时集中的具有较高差分亲和度的一个或更多个词条放到所述候选词条集中；

从所述候选词条集中选择一个或更多个词条；以及

返回一个或更多个所选择的词条。

2、根据权利要求1所述的装置，所述处理器被配置为通过下述操作来从所述候选词条集中选择所述一个或更多个词条：

确定所述候选词条集的各词条的平均亲和度；以及

选择具有较高平均亲和度的一个或更多个词条。

3、根据权利要求1所述的装置，所述处理器被配置为通过下述操作来从所述候选词条集中选择所述一个或更多个词条：

确定所述一个或更多个词条中的各个词条的第二平均差分亲和度，该第二平均差分亲和度代表从所述各个词条到所述候选词条集的每个词条的差分亲和度的平均值；以及

选择具有较高的第二平均差分亲和度的一个或更多个词条。

4、根据权利要求1所述的装置，所述处理器被配置为通过下述操作对所述候选词条集进行初始化：

对所述候选词条集进行初始化以包括所述初始词条集。

5、根据权利要求1所述的装置，所述处理器被配置为进行下述操作：

接收包括多个节点和多个具有权重的有向边的加权有向图，其中节点与词条相对应，有向边的权重与从第一词条到第二词条的有向亲和度相对应，输入边对节点的权重的平均值与该节点的平均亲和度相对应；以及

对所述加权有向图上执行所述方法。

6、根据权利要求1所述的装置，该装置包括被配置为执行所述方法的搜索引擎。

7、一种方法，该方法包括下述步骤：

接收查询的初始词条集；

对候选词条集进行初始化；

对下述操作执行预定次数的迭代：

对于所述候选词条集的各个候选词条获取预定数量的临时词条，该预定数量的临时词条与各个候选词条具有较高的差分亲和度；

计算针对所述临时词条集的各临时词条的平均差分亲和度，该平均差分亲和度代表从所述各临时词条到所述初始词条集的每个词条的差分亲和度的平均值；

从所述临时集中移除具有不能满足预定阈值的平均差分亲和度的一个或更多个词条；以及

将所述临时集中具有较高差分亲和度的一个或更多个词条放置到所述候选词条集中；

从所述候选词条集中选择一个或更多个词条；以及

返回一个或更多个所选择的词条。

8、根据权利要求7所述的方法，其中从所述候选词条集中选择所述一个或更多个词条的步骤进一步包括下述步骤：

确定所述候选词条集中的各词条的平均亲和度；以及

选择具有较高平均亲和度的一个或更多个词条。

9、根据权利要求7所述的方法，其中从所述候选词条集中选择所述一个或更多个词条的步骤进一步包括下述步骤：

确定所述一个或更多个词条中的各词条的第二平均差分亲和度，该第二平均差分亲和度代表从所述各词条到所述候选词条集中的每个词条的差分亲和度的平均值；以及

选择具有较高的第二平均差分亲和度的一个或更多个词条。

10、根据权利要求7所述的方法，其中对所述候选词条集进行初始化的步骤进一步包括下述步骤：

对所述候选词条集进行初始化以包括初始词条集。

11、根据权利要求7所述的方法，该方法进一步包括下述步骤：

接收包括多个节点和多个具有权重的有向边的加权有向图，其中节点与词条相对应，有向边的权重与从第一词条到第二词条的有向亲和度相对应，输入边对于节点的权重的平均值与该节点的平均亲和度相对应；以及

对所述加权有向图上执行所述方法。

12、根据权利要求7所述的方法，该方法由搜索引擎来执行。

13、一种装置，该装置包括：

被配置为存储词条集的有形计算机可读介质；以及

被配置为进行下述操作的处理器：

针对文档的所述词条集中的各词条确定词条频度-逆文档频度(TF-IDF)值；

根据所述TF-IDF值对所述词条进行排序以产生有序列表，其中具有最高TF-IDF值的第一词条位于有序列表的顶部，具有最低TF-IDF值的第二词条位于有序列表的底部；

针对所述有序列表中的各连续词条计算连续词条的TF-IDF值的差以产生多个差；

计算该差的标准偏差；

根据该标准偏差从所述有序列表中移除一个或更多个词条；以及

输出剩余的词条。

14、根据权利要求13所述的装置，其中所述处理器被配置为进行下述操作：

从所述有序列表中移除低于百分比阈值的词条。

15、根据权利要求13所述的装置，其中所述处理器被配置为通过反复进行下述操作一次或更多次而确定下一TF-IDF阈值，来根据所述标准偏差从所述有序列表中移除所述一个或更多个词条：

从底部向顶部对所述有序列表进行扫描，直至遇到大于标准偏差阈值的TF-IDF值差，该差处于高TF-IDF值和低TF-IDF值之间；

将所述高TF-IDF值指定为下一TF-IDF阈值；以及

从所述有序列表中移除具有不满足所述下一TF-IDF阈值的TF-IDF值的一个或更多个词条。

16、根据权利要求13所述的装置，其中所述处理器被配置为进行下述操作：

从所述有序列表中移除具有不满足TF-IDF阈值的TF-IDF值的一个或更多个词条，同时在所述有序列表中保持所需最小数量的词条。

17、根据权利要求13所述的装置，其中所述处理器被配置为进行下述操作：

从所述词条集中移除一个或更多个非频繁出现的词条。

18、根据权利要求17所述的装置，其中所述一个或更多个非频繁出现的词条包括在文档中出现少于预定次数的一个或更多个词条。

19、根据权利要求17所述的装置，其中利用词条在语料库中的频度分布来识别所述一个或更多个非频繁出现的词条。

20、根据权利要求13所述的装置，其中所述处理器被配置为通过下述操作来确定所述词条集中的各词条的词条频度-逆文档频度(TF-IDF)值：

根据包括多个文档的语料库来计算TF-IDF值。

21、一种方法，该方法包括下述步骤：

针对文档的词条集中的各词条确定词条频度-逆文档频度(TF-IDF)值；

计算该差的标准偏差；

输出剩余的词条。

22、根据权利要求21所述的方法，该方法进一步包括下述步骤：

从所述有序列表中移除低于百分比阈值的词条。

23、根据权利要求21所述的方法，其中根据所述标准偏差从所述有序列表中移除所述一个或更多个词条的步骤进一步包括通过反复进行下述操作一次或更多次而确定下一TF-IDF阈值：

从底部向顶部对有序列表进行扫描，直至遇到大于标准偏差阈值的TF-IDF值差，该差处于高TF-IDF值和低TF-IDF值之间；

将所述高TF-IDF值指定为下一TF-IDF阈值；以及

24、根据权利要求21所述的方法，该方法进一步包括下述步骤：

25、根据权利要求21所述的方法，该方法进一步包括下述步骤：

从所述词条集中移除一个或更多个非频繁出现的词条。

26、根据权利要求25所述的方法，其中所述一个或更多个非频繁出现的词条包括在文档中出现少于预定次数的一个或更多个词条。

27、根据权利要求25所述的方法，其中利用词条在语料库中的频度分布来识别所述一个或更多个非频繁出现的词条。

28、根据权利要求21所述的方法，该方法进一步包括通过下述操作来确定所述词条集中的各词条的词条频度-逆文档频度(TF-IDF)值：

根据包括多个文档的语料库来计算所述TF-IDF值。

29、一种装置，该装置包括：

被配置为存储文档语料库的有形计算机可读介质；以及

被配置为进行下述操作的处理器：

启动图形用户界面的用户输入窗口的显示；

接收被输入到用户输入窗口以启动第一搜索的多个搜索词条；

根据所述搜索词条而由所述语料库确定一个或更多个第一搜索结果；

在所述图形用户界面的当前搜索词条窗口处启动所述搜索词条的显示；

在所述图形用户界面的搜索结果窗口处启动所述一个或更多个第一搜索结果的显示；以及

在所述图形用户界面的搜索建议窗口处启动所述一个或更多个第一搜索建议的显示。

30、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索词条的选择以移除所述搜索词条，通过点击所述搜索词条来作出所述选择；以及

从所述多个搜索词条中移除所选择的搜索词条以进行第二搜索。

31、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索建议的选择以添加所述搜索建议，通过点击所述搜索建议来作出所述选择；以及

将所选择的搜索建议添加到多个搜索词条中以进行第三搜索。

32、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索结果的选择，通过点击所述搜索结果来作出所述选择；

返回与所选择的搜索结果相似的一个或更多个搜索结果；

识别与所选择的搜索结果相关的一个或更多个附加搜索词条；

将所述一个或更多个附加搜索词条添加到所述第一搜索的搜索词条中以启动下一搜索；以及

返回下一搜索的一个或更多个搜索结果，该搜索结果与所选择的搜索结果相似。

33、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索结果的选择；

识别与所选择的搜索结果相关并属于相关联领域的词典的多个词条；

按平均亲和度对词条进行排序；

选择具有较高平均亲和度的预定数量的词条；以及

将所选择的词条添加到所述第一搜索的搜索词条中以启动下一搜索。

34、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索结果的选择；

识别与所选择的搜索结果相关并且是当前搜索建议的多个词条；

按平均亲和度对所述词条进行排序；

选择具有较高平均亲和度的预定数量的词条；以及

35、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

接收搜索结果的选择以启动标签模式，通过点击所述搜索结果来作出所述选择；以及

进入标签模式。

36、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

针对搜索结果生成多个建议标签；

在所述搜索建议窗口处启动所述建议标签的显示；

接收建议标签的选择，通过点击所述建议标签来作出所述选择；以及

用所选择的标签对搜索结果加标签。

37、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

将所述建议标签添加到所述搜索词条中以启动下一搜索。

38、根据权利要求29所述的装置，所述处理器进一步被配置为进行下述操作：

将所选择的搜索结果添加到所述搜索词条中以启动下一搜索；以及

返回下一搜索的一个或更多个搜索结果。

39、根据权利要求29所述的装置，其中所述搜索结果包括图像或视频。

40、一种方法，该方法包括下述步骤：

启动图形用户界面的用户输入窗口的显示；

接收被输入到所述用户输入窗口的多个搜索词条以启动第一搜索；

根据所述搜索词条来由文档语料库确定一个或更多个第一搜索结果；

在图形用户界面的搜索结果窗口处启动所述一个或更多个第一搜索结果的显示；以及

在图形用户界面的搜索建议窗口处启动所述一个或更多个第一搜索建议的显示。

41、根据权利要求40所述的方法，该方法进一步包括下述步骤：

42、根据权利要求40所述的方法，该方法进一步包括下述步骤：

将所选择的搜索建议添加到所述多个搜索词条中以进行第三搜索。

43、根据权利要求40所述的方法，该方法进一步包括下述步骤：

返回与所选择的搜索结果相似的一个或更多个搜索结果；

44、根据权利要求40所述的方法，该方法进一步包括下述步骤：

接收搜索结果的选择；

按平均亲和度对词条进行排序；

选择具有较高平均亲和度的预定数量的词条；以及

45、根据权利要求40所述的方法，该方法进一步包括下述步骤：

接收搜索结果的选择；

按平均亲和度对所述词条进行排序；

选择具有较高平均亲和度的预定数量的词条；以及

46、根据权利要求40所述的方法，该方法进一步包括下述步骤：

进入标签模式。

47、根据权利要求40所述的方法，该方法进一步包括下述步骤：

针对搜索结果生成多个建议标签；

在所述搜索建议窗口处启动所述建议标签的显示；

用所选择的标签对搜索结果加标签。

48、根据权利要求40所述的方法，该方法进一步包括下述步骤：

将所述建议标签添加到所述搜索词条中以启动下一搜索。

49、根据权利要求40所述的方法，该方法进一步包括下述步骤：

返回下一搜索的一个或更多个搜索结果。

50、根据权利要求40所述的方法，其中搜索结果包括图像或视频。