CN1694101A

CN1694101A - 用于搜索术语建议的多种类型数据的加强群集

Info

Publication number: CN1694101A
Application number: CNA200510078810XA
Authority: CN
Inventors: B·张; H-J·曾; L·李; T·纳吉姆; 马维英; Y·李; 陈正
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-04-15
Filing date: 2005-04-13
Publication date: 2005-11-09
Anticipated expiration: 2025-04-13
Also published as: EP1587012A3; EP1587012A2; CN100465954C; US7689585B2; KR101043523B1; JP4838529B2; US20050234972A1; KR20060045782A; JP2005302043A

Abstract

用于相关的术语建议的系统和方法被描述。一方面，在两个或多个多种类型数据对象的单个个体中的关系被鉴别。多种类型数据对象的单个个体包括至少一个第一种类型的一个对象和一个与该第一种类型不同的一个第二种类型的一个对象。该多种类型数据对象由于这些关系的单个个体而反复地被群集化以生成加强群集体。

Description

用于搜索术语建议的多种类型数据的加强群集

相关申请

本申请涉及下列专利申请，它们中的每一个都受让于本申请的受让人，在此合并引为参考：

·申请号10/427,548，标题为“使用中间链接层的对象群集”，在2003年5月1日公开的美国专利申请；以及

申请号为<要被受让的>，标题为″用于多感觉查询的相关术语建议″，在2004年4月15日公开的美国专利申请。

技术领域

本公开文献涉及一种数据采集，更特别地，涉及不同对象的群集以改善用于搜索术语建议的系统和方法。

一个关键词或短语是当网络冲浪者在万维网(WWW)上搜索一相关网页/网站通过搜索引擎时提交的一个词语或术语集。搜索引擎基于出现在网页/网站上的关键字和关键字短语决定一个网站的依赖性。由于使用搜索引擎导致的网站流量的重要百分比，网站发起者知道选择合适的关键词/短语对于提高网站流量以获得所需要的公开是至关重要的。用于搜索引擎结果最优化的用来鉴别依赖于一网站的关键词的技术包括，例如，利用对一个人网站的内容和目的的评估以鉴别相关关键词。该评估可以包括一关键词通用工具的使用。该工具决定多少人提交了一特定的关键词或者包括该关键词的短语给一搜索引擎。依赖于网站的和被决定要被经常用在生成搜索查询的关键词一般被选为与该网站相关的搜索引擎结果最优化。

在鉴别一组用于该网站的搜索引擎结果最优化的关键词之后，一发起者可能期望在搜索引擎的结果中提高一网站至一个更高位置(与所显示的其他网站搜索引擎结果的位置相比)。为此目的，发起者查询关键词以指示发起者每次一网上冲浪者点击与该关键词相关的发起者的列表将花费多少时间。换句话说，关键词查询是对每次点击付费。对于相同的关键词与其他查询相比，该关键词查询的量越大，利用搜索引擎基于该关键词的搜索结果显示的相关网站就越高(在相关重要性上更显著)。

用来鉴别查询术语与网站内容相关的传统的系统和技术典型地使用群集算法以将一个对象集合分成一些组或簇，通过这样一种方式，来自相同的簇中的对象是相似的而来自不同簇中的对象是不相似的。这种群集方式假设要被群集的数据对象是独立的并且是鉴别级的，并且经常被特征和属性值的固定长度的矢量所塑造。从数据采集搜索的最近的急剧上升来看，这个古典的问题被在大型数据库的上下文中重新检测了一遍。然而，所提议的挑战对于这种假设，即使一些应用出现，例如网络采集和合作过滤，要被群集的同种的数据对象看起来仍然是基本的假设。在这样的应用中，数据对象是不同类型的并且相互之间是高度联系的。不幸的是，即使分布在不同对象类型上的对象相互间可以高度联系，典型地传统的群集操作独立地分别群集对象类型，并且不用考虑任何不同对象类型的相互联系的方面。

它的其中一个原因就是因为不同类型的数据对象之间是经常很稀疏的并且难以鉴别。另一个原因是因为任何这种具有一个静态的固定长度值矢量的关系的代表分别附于各自的对象，其中该矢量代表对象属性和相联系的不同类型的对象的属性，会创建具有很高维数的(特征空间)对象属性/特征矢量。这种高维数不是所需要的，因为该数据在特征空间里会彼此远离，并且有效的模型不能利用小范围的少量数据而被有效地训练。

因此，用来鉴别和组成在通过不同数据对象的关系的相关对象(例如，术语)的更好的群集技术将会很有用。这些群集技术将会被使用，例如，来提供鉴别用于搜索引擎最优化和术语查询的系统和方法，以及还提供具有持续高可能性的相关术语的鉴别。

概述

用于相关术语建议的方法和系统已经描述了。在一个方面，在两个或多个多类型数据对象中的每一个的内层和/或中间层的关系被鉴别。多类型数据对象中的每一个包括至少一个第一类型的对象和与该第一类型不同的至少一个第二类型的对象。多类型数据对象在单个的关系来看被重述为群集以生成加强群集。

附图的简要描述

在这些图形中，元件参考编号的最左边的数字表示在该图形中该元件第一次出现。

图1示出了一多层框架图形100，其中的图形包括不同数据对象/节点的多个层102和相关中间层和中间层数据对象连接/关系。

图2说明了一用于搜索术语建议的多种类型数据对象的加强群集的典型系统。

图3说明了一用于搜索术语建议的多种类型数据对象的加强群集的典型过程。

图4是图3中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续部分。

图5是图3和4中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续部分。

图6说明了图3中块312的加强群集操作的典型细节。

图7说明了图3和6的块312的加强群集操作的典型的后续部分。

图8示出了在其中后续的用于搜索术语建议的多种类型数据的加强群集的描述系统，设备和方法可以被全部或部分执行的典型的合适的计算环境。

详细描述

概况

图1示出了一其中包括相关的不同对象数据类型的典型的多层框架100。框架100包括不同数据对象/节点的多个层102和相关中间层和中间层数据对象连接/关系。每层从102-1到102-N分别包括一个相同类型(不同)数据对象或节点的集合。也就是节点集P包括每个都是相同数据类型的一个或多个数据对象p1到pj，节点集U包括每个都是相同数据类型的一个或多个数据对象u1到uk，等等。因此，在不同的每个层102中的数据对象的类型与相关的另一个是不同的。

在这个执行过程中，例如：

●层102-1是一包括搜索查询数据对象/节点p₁到p_j的已采集的搜索查询。搜索查询对象包括查询术语和单个的采集来自一查询日记的历史查询的代表。

●层102-2是一包括网页对象/节点u₁到u_k的已采集的网页层。

●层102-3是一已采集的用户层并且包括用户信息对象/节点w₁到w_m。

●层102-N被示出用来说明其可以表示为分别组成不同数据对象x₁到x_o的任何编号。

在一对数据对象之间延伸的线/连接分别代表决定在每个单个数据对象之间的已采集的关系。在群集的某些实施例中，线/连接被称为“边缘”。广义化的术语线或连接被用在本公开文献中来描述连接，边缘，或一个对象与另一个对象的描述这两个对象之间一种关系的任何连接。连接方向(如由指示的在数据对象之间的关系箭头提供的)可以作为参与对象属性的功能而指向任何一个方向。这些连接被认为仅仅是示例性的而并不是在范围上的限定。在网站环境中的某些连接例如由框架100所代表的可以更适当地指向一个方向，并且箭头的方向典型地不会影响下面将要描述的加强群集操作。

在对象对之间的连接可以被分类为内部层或中间层连接。一内部层连接是在相同类型的不同对象之间的一种鉴别关系的说明。因此内部层连接104与其中具有一相同层102的对象相连。例如，在一单独的数据对象对之间的实线104代表一内部层连接。在这个例子中，一内部层连接自一网页对象u₂延伸至另一网页对象u₃，并且代表了不同网页之间的关系。

一中间层连接描述了不同类型数据对象之间的关系。由于中间层连接在一对不同对象的各自之间延伸，每个参与的数据对象对被展示在一不同的单个数据对象/节点集层102上。如图1所示，任何与一对象对相连的线不是一实线的线就是一中间层连接。例如，连接106是自一个第一个对象对到一第二个对象对的一个索引的指示(例如，一超级连接)，连接/线108是一自一个第一个对象对到一第二个对象对的问题共享/参考(例如，主题)的指示，连接/线110是自一个第一个对象对到一第二个对象对的浏览器连接的指示。在另一个例子中，一个连接可以自一用户对象w₄延伸至一搜索查询对象p₅以及一网页对象u₅，并且代表用户提交一返回一由该用户选定的相关的网页的查询。

在图1的例子中，以及如单个的内部和中间层连接所示，不同的对象类型(p，u，w，...)是相关的。例如，一个用户(由一对象w表示)进行一个查询(对象p)；该用户浏览通过一响应于所进行的查询的接收而返回的搜索引擎网页(对象u)；并且每个搜索查询(对象p)与一个或多个单独的网页(对象u)相关。这样看来，当网站用户信息被群集，一用户已浏览的网页和用来得到这些单独的网页的查询会拥有更多的相似性并且将会在群集处理中被群集在一起。相似地，当群集化网页时，它也应该被考虑到这些网页如何通过用户而被使用以及通过分别的搜索查询而被引用。为了访问这个，如下所述，一加强群集算法群集化这种不同数据对象并作为在这些数据对象之间已采集的关系的一个功能。

本公开文献一方面是基于内在的共有关系，其中被群集的对象被提供并具有到其他对象的连接。每个对象彼此相连的这些连接中的一些(以及与那些连接相连的对象)可以被测出不同的重要性以反映它们与该对象的依赖程度。例如，如与那些被群集的是相同类型的对象可以被提供具有比一不同类型的对象更大的重要性。这个对于不同对象的重要性级别的分类(或者对象的不同类型)在此被称为具有重要性的群集。不同对象的重要性的不同级别经常导致提高群集结果和效率。现在描述了这些和另外一些用于搜索术语建议的多种类型数据对象的加强群集的方面。

与一网站相关并且被决定要经常通过最终用户用在生成搜索查询的术语/关键词，一般由用于与该网站相关的搜索引擎结果最优化的网站发起者/广告商来选定。考虑到这些，下面揭露的系统和方法采集以确定与该即将到来的任务相关的多种类型的数据对象，在这个执行过程中，是搜索术语建议。这种多种类型数据对象包括采集已经被加强的具有采集自包括通过提交历史查询到一搜索引擎而获得的语义上下文的(例如，文本，URL，结果主题，和每个结果的简短描述，等等)历史搜索查询的术语，通过一响应于一特定历史搜索查询的用户而选定的一组网页，对该用户(例如，该用户的网站访问信息，用来生成搜索查询的机器的IP地址，等等)的特定信息，和/或相关数据对象的类型。

在这些多种类型数据对象之间的相似性是决定一已鉴别的和加权的内容相似性以及已计算的对象间和对象内关系相似性的线性。数据对象通过分析衍生自对象间和类型内的关系的连接结构而被分配为不同的权。因此，在单个的数据对象之间的相似性不仅包括它们自己属性的相似性还包括它们的关系的相似性。

在这些已计算的多种类型对象关系来看，一加强群集算法反复地群集该多类型数据对象作为每个对象的已鉴别的中间和内部对象关系属性的功能。在这个执行过程中，一修改的直k型方式的群集算法通过在该群集体中使用对象的加权总数被用来决定群集体的矩心。通过更新它们单个的关系属性来向所有相关数据对象宣传群集结果是一个重复的过程。也就是说，来自一个新特征空间的对象的一种类型的群集结果，其后将被设计并宣传给其他相关但不同类型的对象。然后在对象的相关类型上的群集被执行并具有该更新的特征空间。这个重复的加强过程是在每个对象类型上执行以充分地合并相关群集体节点以减少特征空间的维数，并且持续直到群集结果贯穿整个已集中的多种类型对象之中。在充分地被加强的群集体中的这个结果与多种类型数据对象的高度相关。

响应于从一最终用户接收的一个术语，该系统和方法将在基于一术语/查询对象的类型来比较加强群集中的那些单个的术语。由于加强术语群集体包括那些与彼此文本相关的术语，当提交的查询已经与其中有群集体的术语比较时，该术语短语是在任何多种相关的上下文，或者“感觉”的方面来进行估计的。此外，由于每个加强术语群集体都是衍生自高度相关的多种类型对象的集合，因此该算法可以克服纯粹的基于文本的方法的缺陷，也就是说有效地加强在查询术语之间的语义关系和抑制在术语上下文中的噪声的影响。响应于所接收的对于在加强群集体中的对象的特征空间的术语的比较，一个或多个搜索术语建议被鉴别。这些搜索术语建议被传达给最终用户。

一典型实施例

即使不需要，本发明在可以被一台个人计算机执行的计算机可执行指令(程序模块)的普通文本中仍然被描述。程序模块一般包括例程，程序，对象，组件，数据结构，等等，它们执行详细的任务或执行详细的抽象数据类型。然而系统和方法在前述文本中已经描述了，后面将被描述的行为和操作也可以在硬件中被执行。

图2示出了一用于术语搜索建议的多种类型数据对象的加强群集典型的系统200。在这个执行过程中，系统200包括跨过一网络204与一客户端计算设备206相连的编辑确认服务器(EVS)202。响应于接收术语208，例如从客户端计算设备206或者另外的执行于EVS202上的应用(未给出)，EVS202生成并传达所建议的术语列表210至客户端计算设备206以允许一最终用户去在实际查询这些术语之前估计语义的和/或与该术语208相关的文本的一组术语。网络204可以包括任何本地网络(LAN)和普通广域网(WAN)通信环境的结合，例如通常在办公室，企业范围的计算机网络，内部网，和互联网的网络。当系统200包括一客户端计算设备206时，该客户端计算设备是例如一台个人计算机、一膝上电脑、一服务器、一移动通信设备(例如，一手机，个人数字助理，或掌上电脑)等等这样任何一种计算设备。

EVS202包括多个用来生成建议术语列表210的计算机程序模块的编号。该计算机程序模块包括，例如，搜索术语建议(STS)模块212。在这个执行过程中，以及作为讨论的目的和可仿效的说明，该STS模块212被描述为进行多种功能，例如历史查询术语采集的，网页检索，特征提取，特征空间维数减少和正常化，多种类型数据对象的加强群集，匹配用户查询术语至进行搜索术语建议的加强群集体的内容，和术语分类。可以理解的是单个的这些操作可以通过与STS模块212通信的一个或多个其他计算机程序模块(未给出)来进行。

加强具有语义上下文的已采集的历史搜索查询

STS模块212采集决定与即将进行的任务相关的多种类型数据对象(MDOs)214，在这个执行过程中，它是搜索术语建议。这种多种类型的数据对象214包括已采集的历史搜索查询216的术语，它将会通过具有语义上下文(例如，文本，URL，结果主题，以及每个结果的简短描述等等)的STS模块212，以及“其他MDOs”218例如由响应于一详细历史查询的用户所选定的一组网页，对于该用户(例如，该用户的网站访问信息，用来生成该搜索查询的机器的'地址，等等)的具体信息，和/或相关多种类型数据对象的类型而被加强，该语义上下文是采集自通过提交单个的历史查询216到一搜索引擎而得到的搜索结果。

特别地，STS模块212从查询记录220中检索到一历史查询216的集合。该历史查询216包括前面由一个或多个用户提交到一搜索引擎的查询术语。STS模块212评估历史查询216作为出现频率的一个功能以鉴别搜索术语222的高的出现频率(FOO)和搜索术语224的更低的出现频率。在这个执行过程中，一可配置的阈值被用来决定一历史查询是否具有一相对更高或低的出现频率。例如，在至少出现一个阈值数目的次数的历史查询216中的搜索查询术语被说成具有一高出现频率。类似地，在历史查询216中的出现少一于个阈值数目的次数的搜索查询术语被说成具有一低出现频率。出于说明的目的，这样一个阈值被作为“其他数据”226的单个部分展示。

STS模块212通过提交每一个查询采集表示查询术语222高频出现的语义/上下文，一个接一个地(搜索查询227)，至搜索引擎228。响应于接收搜索查询227，搜索引擎228，返回一个在搜索结果230中已排序的列表(它的编号是可配置的)至STS模块212。已排序的列表包括URL，结果主题，和简短描述和/或与所提交的搜索查询227相关的查询术语的上下文。已排序的列表存储在搜索结果230中。这样搜索结果检索对于每个搜索查询227来说就完成了。

STS模块212分析网页超文本标记语言(HTML)以提取来自已检索的搜索结果230的URL、结果主题和简短描述和/或用于每个查询术语222的查询术语的上下文。该URL、结果主题、简短描述和/或用于查询术语的上下文，以及用于获得该已检索的搜索结果230的搜索查询227通过在一个所提取的特征232的单独的记录中的STS模块212来存储。

在分析用于查询术语222的高频出现的搜索结果230之后，STS模块212在所提取的特征232上执行文本处理操作以生成来自所提取的特征的语言上的令牌(凭证化)到单独的关键词。为了减少令牌的大小，STS模块212移除任何结束词(例如，“the”，“a”，“is”，等等)并移除一般的后缀以将关键词一般化，例如，使用已知的看守填塞算法。STS模块212安排该合成的提取特征232到一个或多个基于多种类型数据对象(MDO)矢量234的术语之中。

每个基于多种类型数据对象矢量234的术语都具有基于术语频率和转化文献频率(TFIDF)记数的大小。一用于该i^th矢量的j^th关键词的权是如下计算的：

w_ij＝T_Fijxlog(N/DF_j)

其中TF_ij代表术语频率(在i^th记录中关键词j的出现数目)，N是查询术语的总数，而DF_j是获得关键词j的记录的数目。

给定每个查询术语的矢量表示，一余弦函数被用来测量在一对术语(取消已经被正常化的矢量)之间的相似性：

sim (q_{j}, q_{k}) = Σ_{i = 1}^{d} w_{ij} \cdot w_{ij}

因此，在两个术语之间的距离(一种相似性测试)被定义为：

dist(q_j，q_k)＝1-sim(q_j，q_k)

这种相似性测试被作为“其他数据”226的单个的部分来显示。典型地这种相似性值是在一典型的如下所述的表1的建议术语列表210中示出的。

采集用户选定的网页和用户信息

为了鉴别一个用于网站(搜索术语建议)的搜索引擎结果最优化的充分最相关的术语集合，STS模块212采集与历史查询216相比不同/相异的多种类型数据对象214。出于讨论的目的，这些已采集的对象被表示为“其他MDOs”218。在一个执行过程中，“其他MDOs”218包括，例如，选定网页和/或用户特定信息的最终用户，其中该用户是一个与提交一历史查询216至一搜索引擎218的相关的用户。STS模块212从查询记录220中提取最终用户所选定的网页。最终用户选定的网页可以或可以不是稀少的，其中稀少的平均值，例如，每条历史查询216中的(2)至(3)个网页。STS模块212从查询记录220中，或者从其他数据源中提取用户特定信息。用户特定信息包括，例如，用来提交单个历史查询216的机器的互联网协议(IP)地址，引导，和/或网站访问信息(例如，微软的.net执照信息)。

加强的多种类型数据对象群集

STS模块212完全探测用于群集分析的多种类型数据对象(MDOs214)之间的关系。多种类型数据对象214包括对象X₁，X₂，...，X_N(例如，历史查询216和“其他MDOs”218)中的n种不同类型。数据对象X_i的每种类型是通过一特征集F_i来描述的，具有该相同类型的数据对象与内部类型的关系用R_iX_i×X_i关联。来自两种不同类型的数据对象是通过类型间的关系R_ijX_i×X_I来相关的。为了从这些关系中区别开来，F_i被称作数据对象的内容特征。对于一个特定对象x∈X_i，我们使用x.F_i来代表它的内容特征，而使用x.R_iX_I和x.R_ijX_I来表示在X_i和X_j之中的对象与其分别相关。群集多种类型互相关联的数据对象的问题是去区分对象X_i到K_i的群集体的每种类型以致于在每个群集体中的该数据对象具有高度相似性，并且来自不同群集体的对象是不相似的。

考虑到多种类型数据对象214的一个对象不光具有内容特征还具有与在多种类型数据对象214中的其他对象之间的关系，在两个对象之间的相似性是根据下面来决定的：

S＝α·s_f+β·s_intra+γ·s_inter (1)

其中s_f是内容相似性，s_intra和s_inter分别是类型内部和类型间的相似性，α，β和γ是根据α+β+γ＝1的不同相似性的权。

从(1)中，在两个对象之间的相似性是内容相似性和关系相似性的一线性组合。通过分配不同的值到α，β和γ，STS模块212可以调整/配置在整个相似性中的不同相似性的权。例如，如果α＝1，β＝γ＝0，在内容特征之间的相似性也就被考虑到了。通过设定β＝0，STS模块212绕过了类型内部相似性的影响。

在等式1中的相似性可以被定义为使用不同的函数，通常由对象和应用的类型来决定。例如，在两个网页之间的内容相似性可以被定义为从它们的内容衍生出来的两个关键词矢量的余弦函数x∈Xy_i∈x.R_Y。

一个具体对象的一关系特征是通过一MDO矢量234来表示的，该MDO矢量234的记录相应于它的相关对象。在一个执行过程中，每条记录是一个相应于关系的权的数字值。例如，给定两个对象类型X＝{x₁，x₂，Lx_m}，和Y＝{y₁，y₂，Ly_n}，对象的类型间的关系矢量被定义为Vx＝[v₁，v₂，Lv_n]^T其中要么Vi≠0，要么Vi＝0。然后在X中的两个对象的类型间关系R_xy的相似性S_inter-XY也可以被定义为该两个矢量的余弦函数。

如果在Xi中的对象与多种类型数据对象之间具有类型间的关系，最终类型间的关系相似性可以是所有类型间相似性的线性之和。

在该已定义的相似性函数中，STS模块212鉴别层内关系/连接以及层间的在历史查询216和“其他MDOs”218中的连接。在群集中的层间关系的使用辨别对象的一种类型的群集可以通过对象的另一种类型来影响。例如，网页对象的群集可以通过用户对象配置、状态以及特征来影响。因此，这些已采集的内部和层间关系如下所述，被用来提高相互关联的数据对象的群集体质量。已采集的层间和层内数据对象关系是存储在每个对象的各自的MDO矢量234中。

在一个执行过程中，已鉴别的层间连接/关系表示，例如，以下的一个或多个：

●与信息相关的内容，例如，其中有一历史查询216的连接和相应于用户选定(通过点击)网页中的一个。

●在一相关主题上的用户兴趣，如所决定的，例如，通过具有一历史查询216的连接和该用户的特定信息。

●在一选定网页上的用户兴趣，如所决定的，例如，通过在用户特定信息和一选定网页之间的连接。

在一个执行过程中，已鉴别的层内连接/关系(在一相同数据类型的对象之间的关系)表示，例如一个或多个的：

●其中具有查询的连接，下面将做更为详细的描述。

●通过指示其中具有用户选定网页的进/出超级链接来指示推荐的网页。

●人事关系，例如，通过在单个的用户之间已鉴别的关系/连接来指示的。在一个执行过程中，关系信息的这种类型是采集自已计算的用户轮廓的相似性。用户轮廓包括，例如，人口统计学的，地理位置，兴趣，等等。在一个执行过程中，用户轮廓通过由各自的用户提供的网站访问信息而被访问。

相关于具有查询的连接，由具有查询的连接所指示的层内关系代表在一初始历史查询216和/或充分查询提炼(也通过历史查询记录216的单个记录来表示)之间的连接。在一个执行过程中，这种信息是从通过点击来自从查询记录220的检索的网页信息中提取的。更特别的，基于决定该初始搜索查询结果是不令人满意的，估计该用户将提交一或多个已提炼的查询至一具有一可配置数量的时间的搜索引擎228，从该初始查询已被提交开始。该可配置的时间的数量表示一查询会话。在一个或多个这种搜索查询术语提炼之后，该用户可以获得令人满意的搜索结果。例如，考虑到用户访问一产品支持网站并提交一“cookie”的初始查询。根据对该搜索结果所进行的决定是不令人满意的(例如，太宽)，该用户可以改变/提炼查询的术语以“激活cookie”来获得一更令人满意的搜索结果。

在一个执行过程中，STS模块212鉴别其中具有通过将一个或多个查询记录220的部分分割成单个的查询会话的查询的连接。每个查询会话可以包括一个初始查询，一个或多个查询提炼，可能还有一个或多个通过点击的指示的网页。为了分类一初始查询和一个或多个相关查询的提炼，STS模块212计算在每个查询会话的查询之间的术语相似性。遇到一个或多个相似性的阈值标准的搜索查询被选定用于生成其中具有查询的连接和相应的查询提炼。在一个执行过程中，查询相似性被决定，例如，通过使用该典型的如在上面段落[0038]中所描述的操作。

在映射多种类型数据对象214中的关系作为模仿在相应的MDO矢量中的一些个体的关系特征之后，数据对象的每种类型都可以被单独地群集并具有传统群集技术(也就是说，不是使用在本这里公开的加强群集操作)。然而，即使群集数据对象可以分别可行地首次出现，这个技术也是十分受限制并且有疑问的。一个理由就是因为对象的数量变得很大，同时作为关系的特征矢量的维数也将会很大。并且在关系特征上定义的相似性，它是基于相关对象的匹配提取的，将会遇到很稀少的非零记录。另一个原因是因为传统的群集技术没有考虑到在数据对象之中的关系可以不完全地反射在分配给数据对象的特征上，但是可以仅仅被发现在其自身的群集过程中。也就是说，执行群集技术没有考虑到依次的群集操作可以提供在充分的分析/群集操作中的加强数据中有用的结构化的信息。

STS模块212至少通过宣传一种数据对象类型的结果至所有它的相关数据对象类型来寻址传统群集技术的这些问题/限制，其中这种宣传是通过更新它们单个的关系特征来进行的。也就是说，STS模块212通过合计所指示的数据对象关系至单独的基于该加强的群集体236的内容的多种类型数据对象214来生成加强群集体236。例如，如果两个候选的节点存在于下面的群集中，最近的两个候选节点可以被合并，例如，通过取该两个候选节点的矢量值的平均值。这个合并允许单独的节点被合并以减少那些要被考虑到的节点的数量，同样地，MDO矢量234的维数被减少。然后，STS模块212群集化该MDO矢量234。这个过程被重复地进行直到在所有对象类型中的群集结果会聚。

该重复的群集设计技术依赖于从单独的被安排在单独的层中的对象类型获得的群集信息，其中每层包含有一对象的不同类型。与连接信息结合的节点信息被用来重复地设计和宣传该已群集的结果(该群集算法是在层和层之间提供的)直到该群集会聚。也就是说，节点和连接的不同类型的每种类型被检测以得到可以被用来群集的结构信息。结构信息，例如，可以考虑可观的与不同数据对象(例如，是否一连接是一层间连接或一层内连接)相连的连接的类型而获得。对象的一种类型重复地群集的结果到另一种对象类型的群集结果可以减少与数据分析相关的群集挑战。伴随着这种重复设计，在一层群集中的相似性测量是在群集体上计算的而不是另一种类型的群集体的单独的分组中。

例如，从两个对象类型X＝{x₁，x₂，Lx_m}，和Y＝{y₁，y₂，Ly_n}来说明该过程。STS模块212首先在Y中群集这些对象到k群集体中，通过{C₁，C₂，...，C_k}使用任何传统群集方法来指示。回调一MDO矢量234，它包括一个x∈X的关系特征矢量，被最初定义为具有每个相应于在Y中的对象的V_x＝[v₁，v₂，...，L，v_n]^T。利用Y中的群集体，我们通过V_x’＝[v₁’，v₂’，...，L，v_k’]^T取代V_x其中具有相应于Y的一个群集体而v₁’是非零的如果x.R_Y∩C_i≠φ。v₁’的数字值可以设定|x.R_Y∩C_i|，它代表从对象x到在群集体C_i中的对象的关系数量，或者其他值例如相关对象的重要性(对象的重要性将在后面描述)。然后在X中的对象群集是基于在该新的层间关系特征的。该过程将通过重复设计一种类型的该群集结果至另一个结果来持续，通过它们的层间关系直到会聚。

上述加强群集算法的优点是群集结果不仅反映在内容的数据分布上，而且也反映在具有其他数据类型的关系上。也可以解决一些在范围上的数据分析问题。相比较现存的群集方法，它在固定的特征空间上定义了相似性，所描述的用于多种类型数据对象的加强群集系统和方法在群集过程中更新了两个对象的相似性以适应该新发现的关系特征空间。而且，在一个执行过程中，任何传统的群集算法都可以被嵌入到这种所提议的框架中以改善群集性能。

连接分析和对象的重要性

对于一些数据对象和应用来说，在同一种类型中的多种类型数据对象214在群集过程中可以具有不同的重要性。典型的例子包括网页/用户群集其中某些网页由于它们是来源可靠的页面因此更重要，以及用于合作过滤的项目/用户群集，等等。其中在决定项目的从属性时一些用户可以是来源更可靠的，。如果我们视对象为节点而视在对象之间的关系为连接的话，一种传统的连接分析方法，例如HITS算法，被用来计算每个数据对象的本征值。然而，当数据对象的多种类型都涉及到的时候，这个方法将不会有效因为对象的不同类型的重要性是不可比的。

为了解决这个问题，所描述的用于多种类型数据对象的加强群集系统和方法如下被扩展到该HITS算法。我们不仅考虑该共有的具有一种类型的对象重要性的加强而且还有在这些类型之间的共有的加强。每个节点被分配了一个网络集线器记录和一认证记录。

为了简单起见，我们继续使用其中包括两种类型的相关对象作为例子来说明我们提议的算法。给定对象的两种类型X＝{x₁，x₂，Lx_m}，和Y＝{y₁，y₂，Ly_n}和关系R_X、R_Y、Rx和R_YX，如果方向也被考虑进去的话。邻近的矩阵被用来表示连接信息，L_X和L_Y分别代表存在与集合X和Y中的连接结构的相邻的矩阵。L_XY和L_YX代表从在X中的对象到在Y中的对象的连接的邻近矩阵。例如，如果从节点x_i到节点yx有一个连接，则L_XY(i，j)＝1。

有两个计算级别：一个是该网络集线器的值和从相同类型通过类型内部关系来彼此加强的对象的认证值；而另一个是通过类型间关系来彼此加强重要性的不同类型的节点。在这种方法中是用下述方法来进行计算的：

\{\begin{matrix} α (X) = {βL}_{X}^{T} h (X) + (1 - β) L_{XY} i (γ) \\ h (X) = {βL}_{X}^{α} (X) + (1 - β) L_{XY} i (γ) \\ i (X) = α (X) + h (X) \\ α (Y) = {γL}_{Y}^{T} h (Y) + (1 - γ) L_{YX} i (X) γ \\ h (Y) = {γL}_{Y}^{α} (Y) + (1 - γ) L_{YX} i (X) \\ i (Y) = α (Y) + h (Y) \end{matrix}

其中，α(X)和h(X)分别X中的节点的认证记录和网络集线器的记录(hubscore)。相似地，α(Y)和h(Y)代表在Y中节点的认证记录和网络集线器的记录；i(X)和i(Y)分别代表在X和Y中的节点的重要性。β和γ是用来调整从不同关系衍生出来的连接的影响的权参数。

在计算的起点，所有的矢量，α(X)，h(X)，α(Y)和h(Y)被初始化为1。该网络集线器记录和认证记录通过使用等式(2)在每次反复计算中被更新。在每次反复计算的终点，这些矢量将被正常化以用于下一个重复计算。该算法提供存在于每一种对象类型中的一种规格化和统一化的重要性，并且通过考虑通过类型间关系的其他类型的相关对象的重要性来得到更合理的结果。

给定对象的重要性记录，所描述的加强群集过程被修改以反映对象的重要性。在这个执行过程中，k方式群集算法被修改成加权的k方式算法。也就是说，当计算群集体中心时，我们使用加权的群集体成员总数作为新的中心以至于一个群集体对于那些重要对象来说是有偏差的。

从上述观点来看，STS模块212区分不光基于类型间还有类型内的在多种类型数据对象214中的关联的多种类型数据对象的重要性。这个重要性被合并到该群集过程中。

一个查询术语的典型处理

响应于从一最终用户(例如，一广告商，网站开发商，等等)接收该术语208，STS模块212将该术语208与在加强的术语群集体236中的术语/短语的个体进行比较。由于加强的术语群集体236包括那些不仅彼此文本相关的术语，还包括从它们的相互关系到网页和用户衍生的语义相关的术语，该术语208从多种相关的和历史的上下文或者“感觉”的观点上被评估。

在一个执行过程中，如果STS模块212决定术语208与一来自一加强的群集体236的术语匹配，搜索术语建议模块212生成来自加强群集体236的建议的术语列表210。在这个执行过程中，一个匹配可以是一精确的匹配或一具有一少量变化例如单数/复数形式、拼写错误、标点符号标记等等的匹配。所返回的列表通过一FOO和置信度值的和来排序。

在一个执行过程中，如果一术语与一来自一群集体的术语匹配，该群集体在一个建议的术语列表中被返回到最终用户。该建议的术语列表210包括被决定与/或该这些术语语义和/或文本相关的术语/短语，对于术语相似性测试是单个的术语的(可配置值)，和单个术语出现的频率(FOO)。该返回的列表210通过FOO和置信度值的和来排序。

如果STS模块212决定术语208与在多种加强的术语群集体236中的术语匹配，搜索术语建议模块212生成来自加强术语群集体236的多个术语中的术语的多个建议的术语列表210。该列表是通过该群集体的维数来排序的；并且其中具有每个列表的这些术语是通过FOO和置信度值来排序的。

如果没有匹配的群集体被鉴别，该查询术语进一步与扩大的从具有低FOO的查询术语中生成的群集体来进行匹配。在一个执行过程中，具有低FOO的查询术语通过训练一用于该加强的群集体236的分类器(例如，一个k最近相邻分类器)来群集，该术语群集体236是从高出现频率的历史查询记录术语中生成的。被决定具有低出现频率的历史查询术语被一个一个地提交到该搜索引擎。然后特征被从选择所返回的搜索结果的个体中提取(例如，一排在前列的第一网页，和或其他等等)。该查询术语然后被分成现存的群集体以生成扩大的基于所训练的分类器的群集体。该最终用户提交的术语然后在这些扩大的群集体的观点上被评估以鉴别并返回一建议的术语列表到最终用户。

低FOO术语的分类

当从高频出现(FOO)的查询术语222中生成的加强的术语群集体236不包括与最终用户输入的术语208相同的术语，STS模块212从高频出现(FOO)的查询记录术语222中生成的加强的术语群集体236中生成已训练的分类器238。在加强的术语群集体236中的术语已经与在一适于分类操作的矢量空间模型中的关键词矢量相对应。另外，结束词移除和字符填塞(后缀移除)减少了术语矢量234的维数(根据群集体236的基础)。在一个执行过程中，额外的维数减少技术，例如，特征选择或再参数化，可以被使用。

在这个执行过程中，为了给一未知分类查询术语222分类，STS模块212使用k最近相邻分类器算法来寻找在所有已知分类查询术语222中与k最相似的邻居，依靠它们的相应特征矢量，并且使用该加权的邻居的分类标签中的大多数以预测该新查询术语的分类。这里每个在加强的术语群集体236中的查询术语已经被分配给一个与它们相应的群集体标签相同的标签，而每个加强的群集体236通过单序列数字进行标记。这些邻居通过使用每个邻居的相似性来对X加权，其中相似性通过欧几里德距离或在两矢量间余弦值来进行测量。该余弦相似性是如下计算的：

sim (X, D_{j}) = \frac{\underset{li &Element; (xI D_{j})}{Σ x_{i \cdot} d_{if}}}{{| | X | |}_{2} \cdot {| | D_{j} | |}_{j}}

其中X是该测试术语，也就是说，要被分类的该查询术语，表示为一矢量；D_j是第j个训练术语；t_i是一由X和D_j共享的字；x_i是关键词t_i在X中的权；d_ij是关键词t_i在D_j中的权；

{| | X | |}_{2} = \sqrt{x_{1}^{2} + x_{2}^{2} + x_{3}^{2}}

是X的范数，而||D_j||₂是D_j的范数。因此，该测试术语X的分类标签是所有邻居的分类标签的大多数加权的：

label (X) = \underset{li}{\arg \max} (\underset{All D_{j} wherelable (Dj) = li}{Σ} \sin (X, D_{i}))

在另一个执行过程中，一不同的统计分类和机器学习技术(例如，包括衰退模型，贝叶斯分类法，决策图表，神经网络，和支持矢量机器)而不是一最邻近的分类技术，被用来生成受训练的分类器238。

STS模块212将低频出现(FOO)的查询术语224一个一个地提交(通过一单个的搜索查询227)到搜索引擎228。响应于接收与一具体搜索查询227相关的搜索结果230，以及使用前面已经描述的技术，STS模块212从一或多个已检索的搜索结果230中提取由搜索结果230鉴别的特征(已提取的特征232)。在这个执行过程中，特征是从一排在前列的第一搜索结果230中提取的。对于每个已检索的和已分析的搜索结果230来说，STS模块212在所提取的特征232的一单个的记录中存储之后的信息：URL，结果主题，简短描述和/或该查询术语的上下文，以及用来获得该已检索的搜索结果230的搜索查询227。接下来，STS模块212象征化，减少维数，并且正常化所提取的来自FOO查询术语224的特征232以生成术语矢量234。然后，STS模块212群集该查询术语到一术语群集体236的单个的组之中。这个群集操作是使用已训练的分类器238(从高FOO查询术语222中生成的)来进行的。

STS模块212从这些扩大的术语群集体的方面来(基于低FOO查询术语224生成的)评估提交术语208的最终用户以鉴别和返回一或多个所建议的术语列表210至该最终用户。一典型的这种程序是如在上面段落[0063]和[0066]以及下面部分中所描述的。

一典型搜索术语建议列表

一建议的术语列表210包括，例如，决定要与术语208相关的术语，对于术语208的相似性测量(置信度值)个别的术语，和在历史查询记录中的出现频率(FOO)的频率的个别的术语。用于鉴别相关术语、生成相似性测量和生成FOO值的技术已经在前面描述了。

表1示出了一决定要与“邮件”术语208相关的术语的典型建议的术语列表210。与术语208相关的术语在这个例子中被展示在列1中，标题为“建议的术语”。

表1

一典型的用于查询术语“邮件”建议的术语列表

建议的术语	相似性	频率	<上下文>
建议的术语	相似性	频率	<上下文>	hotmail	0.246142	93161	相关的在线email
yahoo	0.0719463	165722		hotmail	0.246142	93161
yahoo	0.0719463	165722	mail.com	0.352664	1455
yahoo mail	0.0720606	39376	mail.com	0.352664	1455
yahoo mail	0.0720606	39376	www.mail.com	0.35367	711
email.com	0.484197	225	www.mail.com	0.35367	711
email.com	0.484197	225	www.hot	0.186565	1579
www.msn.com	0.189117	1069	www.hot	0.186565	1579
www.msn.com	0.189117	1069	mail.yahoo.com	0.0962268	4481
free email	0.230611	1189	mail.yahoo.com	0.0962268	4481
free email	0.230611	1189	www.aolmail.com	0.150844	654
check mail	0.221989	66	www.aolmail.com	0.150844	654
check mail	0.221989	66	check email	0.184565	59
msn passport	0.12222	55	check email	0.184565	59
msn passport	0.12222	55	www.webmail.aol.com	0.0200538	108
webmail.yahoo.com	0.08789	71	www.webmail.aol.com	0.0200538	108
webmail.yahoo.com	0.08789	71	free email account	0.0234481	65
建议的术语	相似性	频率	free email account	0.0234481	65		相关的传统邮件
建议的术语	相似性	频率	邮件	1	2191
usps	0.205141	4316	邮件	1	2191
usps	0.205141	4316	usps.com	0.173754	779
联合包裹服务	0.120837	941	usps.com	0.173754	779
联合包裹服务	0.120837	941	邮政比率	0.250423	76
邮票	0.156702	202	邮政比率	0.250423	76
邮票	0.156702	202	邮票收集	0.143618	152
国家缩写	0.104614	300	邮票收集	0.143618	152
国家缩写	0.104614	300	邮政	0.185255	66
邮资	0.180112	55	邮政	0.185255	66
邮资	0.180112	55	邮资比率	0.172722	51
美国邮政管理局邮政编码	0.138821	78	邮资比率	0.172722	51
美国邮政管理局邮政编码	0.138821	78	美国邮政局长	0.109844	58

见标题为“相似性”的第1列)和出现记录的频率(参见标题为“频率”的第3列)。被计算为如下标题为“术语群集”的部分所述的每个术语相似性值，提供在相应建议的术语(列1)和术语208之间的相似性测量，在这个例子中它是“邮件”。每个频率值，或记录，指示该建议的术语出现在该历史查询记录中的次数的数量。该建议的术语列表被存储为一术语相似性的函数，和/或出现记录的频率作为一事务目的的函数。

任何给定的术语208(例如，邮件，等等)都可以具有超过一个单独的具有其中可以使用查询术语的上下文。为了说明这一点，STS模块21提供一个在建议相应于术语208的该多种上下文的建议的术语列表210中的指示。例如，参照表1，“邮件”的术语208具有两个上下文：(1)传统的不在线的邮件和(2)在线的e-mail。注意到相关术语的一个单个的列表示出为这两个查询术语上下文中的每一个。

另外，用于任何术语208的建议的术语可以超出该查询术语的同义词。例如，参照表1，该建议的术语“usps”是一个用于一处理邮件的机构的首字母缩写，而不是用于查询“邮件”的首字母缩写。然而，“usps”也是一与“邮件”查询术语十分相关的术语，并且因此，在该建议的术语列表210中被示出。在一个执行过程中，STS模块212决定一相关术语R(例如，“usps”)和一目的术语T(例如，，“mail”)之间的关系为下列关系规则的函数：itr(T)→itr(R)，其中的“itr”代表“兴趣所在”。如果一个用户(广告商，网站开发商，和/或其他类似)对R感兴趣，该用户也将对T感兴趣。

一典型过程

图3说明了一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300。出于讨论的目的，该程序的操作与图2的特征相关进行讨论(所有的引用的编号开始于其中组件被第一次介绍的附图的编号)。在块302中，搜索术语建议(STS)模块212(图2)从查询记录220中收集历史查询术语216。STS模块212将该历史查询216组织为一出现频率的函数。在块304中，STS模块212发送高出现频率的查询术语222至搜索引擎28并接收相应的搜索结果230。在块306中，STS模块212从每个搜索结果230中提取摘录的描述并将该摘录的描述(提取特征232)合并以形成基于矢量234的术语。一个单个的术语矢量被生成以用于每个单个的高频出现查询术语222。

在块308中，STS模块212采集“其他MDOs”218，例如，从查询记录220、网站访问信息中，等等。STS模块212生成单个的MDO矢量234以表示该已采集的“其他MDOs”218的特征空间。在块310中，STS模块212鉴别在该MDO214的单个个体之间的对象内和对象间关系/连接。在块312中，STS模块212执行基于它们的单个MDO矢量234的MDO214的加强群集以生成加强群集体236。块312的不同数据对象的加强群集的细节在下面相关的图5中被描述。程序300在图4中的块402中继续通过在页面上的引用“A”示出。

图4是图3和4中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续部分。出于讨论的目的，该程序的操作与图2相关的特征一起讨论。在块402中，响应于从一最终用户接收术语208(图2)，STS模块212从决定要充分地与该术语208相似并相关的加强术语群集体236的任何术语中生成一个建议的术语列表210。我们使用在不同对象类型之间的相互关系来改善该群集。在块404中，STS模块212决定从关键词群集体236中的任何术语是否被决定与术语208充分相似和相关。如果是这样，该程序在块406中持续，其中STS模块212发送一相应的建议术语列表至该最终用户。否则，该程序如在图5的块502所示的页面上的索引“B”中持续。

图5是图3和4中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续图。出于讨论的目的，程序的操作与图2的相关特征部分一起进行讨论。(所有引用的编号始于与其中组件被第一次介绍的附图中的编号)。在块502中，STS模块212从加强的术语群集体236中生成一分类器238(已训练的分类器)，在这个时候它是基于高频出现术语222的。在块504中，STS模块212一个一个地发送低频出现查询术语224到搜索引擎并接收相应的搜索结果230。在块506中，STS模块212从该搜索结果230中提取摘录的描述(提取的特征232)，并且从中生成术语矢量。

在块508中，STS模块212将从低频出现查询术语224中生成的术语矢量，由于该受训练的分类器238而进行分类，以生成基于该低频出现的查询术语224的单个加强的术语群集体236。在块510中，STS模块212从基于该低频出现的查询术语224的加强的术语群集体236的关键词/关键短语中生成一建议的术语列表210，该查询术语224被认为与该术语208十分相似。在块512中，STS模块212发送该建议的术语列表210到最终用户。

图6说明了图3中块312的加强群集操作的典型细节。出于讨论的目的，，块310的操作与图1和2中的特征相关联进行讨论。输入到通过STS模块212执行的该加强的群集算法包括一多层的框架图形例如图形100，它包括相应节点fi和gi的内容特征，包括已鉴别的和加权的对象间和对象内部的关系。这个群集算法的输出包括反映该多种类型数据对象的加强的群集的一个新的框架图形。在该新的框架图形的某个执行过程中，每个已经被改变成为它的新节点和/或与另一个节点合并以减少图形100维数的旧节点的变化可以得到说明。

在块602中，该初始框架图形(比每个群集重复优先)被输出。在块604中，被考虑到的每个节点都通过使用等式(2)来决定或计算。在块606中，一任意层被选定用于群集。在块608中，在被选定的层中的节点是以适当的方式(例如，根据内容特征)进行计算以生成加强的群集体236。在某个执行过程中，这些节点可以通过使用一需要的过滤算法(未给出)来过滤以改善群集。在块610中，每个群集体的这些节点都被合并成一个节点。例如，如果两个候选节点存在于下面的过滤中，最邻近的两个候选节点可以被合并，例如，通过将这两个候选节点的矢量值平均化。这个合并允许单独的节点被结合以减少那些必须考虑到的节点的数量。因此，合并操作可以被用来减少副本或接近的副本的出现。在块612中，该相应连接是基于在610中的合并而被更新的。在块614中，该群集算法切换到第二个(从该任何被选定的层中)用于群集的层(从该任何被选定的层中)。块312的操作持续到图7的块702，如图所示的页面上的索引“C”。

参照图6的这些操作，注意到在初始群集途径中，只有特征内容被利用。因为在大部分的例子中对于群集有用的连接的特征在开始时都很稀少。在后面的群集途径中，参照图7如下所述，内容特征和连接特征被合并在一起以提高群集的效率。通过合并内容特征和连接特征，权被指定具有不同的值和结果可以被比较，并且可以提供具有一提高的准确度的群集。

图7说明了图3和6的块312的加强群集操作的典型的后续部分。在块702中，第二层的节点根据它们的内容特征和更新的连接特征被群集。在块704中，每个群集体的节点被合并成一个节点。在块706中，初始连接结构和其他层的初始节点被恢复。在块708中，该第二层的每个群集体的节点都被合并，并且相应的连接被更新。在块710中，这个反复的群集过程在一计算机环境中持续。在块712中，一框架图形100的修改版本被输出。

一典型的操作环境

图8说明了一合适的计算环境800的例子，在其上有图2的系统200和图3到6的用于用于搜索术语建议的多种类型数据的加强群集的全部或部分执行的方法论。典型的计算环境800仅仅是一合适的计算环境的例子并且并不表示对此处描述的系统和方法的使用或功能的范围的任何限制。计算环境800也不会被解释为具有任何依赖性或任何在计算环境800中说明的一个或多个组件的结合的需要。

此处描述的系统和方法利用具有许多其他普通目的或特殊目的的计算系统环境或配置是可操作的。熟知的计算系统、环境和/或适于使用的配置的例子包括，但不限于，个人计算机，服务器计算机，多处理器系统，基于微机的处理器系统，网络PC，微型计算机，大型计算机，包括任何上述系统或设备的分布式计算环境，等等。该框架的压缩的或者子集版本也可以在受限资源的客户端中执行，例如手提计算机，或其他计算设备。本发明实用于一分布式计算环境中，在该环境中，任务是通过网络通信与相连接的远程处理设备来执行的。在一分布式计算环境中，程序模块不光可以位于本地也可以位于远程存储器设备中。

参照图8，一典型的用于搜索术语建议的多种类型数据对象的加强的群集包括一在一计算机810的形式中的通用计算设备。计算机810的下列描述方面是客户端计算设备PSS服务器202(图2)和/或客户端计算设备206的典型实现。计算机810的组件可以包括，但不仅限于，处理单元820，一系统存储器830，和一将不同系统组件包括系统存储器与处理单元820耦合连接的系统总线821。系统总线821可以是几种总线类型中的任何一种，包括一存储总线或存储控制器、一外设总线、和一使用与总线结构有任何变化的本地总线。通过例子的方式而不是限制，这种结构可以包括工业标准结构(ISA)总线，微通道结构(MCA)总线，改善的ISA(EISA)总线，视频电子标准协会(VESA)本地总线，以及外设组件互联(PCI)总线也被称为中层总线。

一计算机810典型地包括一可变的计算机可读的媒体。计算机可读媒体可以是任何可以被计算机810访问的可用媒体并且包括所有的易失和非易失媒体，可移动和不可移动媒体。举个例子，但不仅限于，计算机可读媒体可以包括计算机存储媒体和通信媒体。计算机存储媒体包括用于信息存储例如计算机可读指令、数据结构、程序模块和其他数据的易失的和非易失的、移动的和不可移动的以任何方法或技术执行的媒体。计算机存储媒体包括，但不仅限于，RAM，ROM，EEPROM，闪存或其他存储技术，CD-ROM，数字通用磁盘(DVD)或其他光学磁盘存储器，磁带盒，磁带，磁盘存储器或其他磁存储设备，或任何其他可以被用来存储所需要的信息并且该信息能被计算机810访问的介质。

通信媒体典型地包括计算机可读指令，数据结构，程序模块或其他在一调制数据信号例如载波信号或其他传送机制中的数据，还包括传递到媒体的任何信息。术语“调制的数据信号”意思是具有一或多个它的特征集或在这样一种方式中被改变以在该信号中编码的的信号。举个例子而并不是限制，通信媒体包括有线媒体例如有线网络或一有方向的有线连接，以及无线媒体例如声学的，RF，红外或其他无线媒体。任何上述的结合也应包括在计算机可读媒体的范围之内。

通讯媒体典型地体现为计算机可读指令，数据结构，程序模块或其他存储在调制信号中的数据，例如一个载波或者其他的传输装置，和包括任何信息传送介质。该术语“调制数据信号”意味着一个具有一个或者多个它自己的特征设置或者以在信号中的解码信息的方式而被改变的信号。作为例子而并不是局限，通讯媒体包括无线媒体，例如，声波，RF，红外线的或者其他的无线媒体。上述的任意的组合也包含在计算机可读媒体的范围内。

系统存储器830包括以易失和/或非易失存储器的形式存在的计算机存储媒体，例如只读存储器(ROM)831和随机存储器(RAM)832。一基本输入/输出系统833(BIOS)，包括帮助在计算机810中的元件之间转化信息的基本例程，例如在启动中，被典型的存储在ROM831中。RAM832典型地包括通过处理单元820可以被立即访问的和/或目前可被操作的数据和/或程序模块。通过例子而并不是限制的方式，图8说明了操作系统834，应用程序835，其他程序模块836，和程序数据838。在一个执行过程中，其中计算机810是一个PSS服务器202。在这个场景中，应用程序835包括搜索术语建议模块212。在这个相同的场景中，程序数据838包括多种类型数据对象214，搜索结果230，提取的特征233，MDO矢量234，加强的群集体236，训练的分类器238，和其他数据226。

该计算机810也可以包括其他可移动/不可移动，易失的/非易失的计算机存储媒体。仅仅通过例子可以说明，图8说明了一个从不可移动的、非易失的磁性媒体读取/写入的磁盘驱动器841，一个从可移动的、非易失的磁盘852读取/写入的磁盘851，以及一个从可移动、非易失的光盘856例如CD-ROM或其他光学媒体读取/写入的光盘驱动器855。其他可移动/不可移动、易失/非易失的可以在本典型操作系统中使用的计算机存储媒体包括，但不仅限于，磁带盒，闪存卡，数字通用磁盘，数字视频磁带，固态RAM，液态ROM，以及其类似。典型地该硬磁盘驱动器841通过一个不可移动的存储器接口例如接口840与系统总线821相连，而磁盘驱动器851和光盘驱动器855通过一个可移动存储器接口例如接口850与系统总线821相连。

在前面讨论过并在图8中被说明的的这些驱动器和它们相关的计算机存储媒体，提供用于计算机810的计算机可读指令、数据结构、程序模块和其他数据的存储，在图8中，例如，硬磁盘驱动器841被作为一存储操作系统844、应用程序845、其他程序模块846以及程序数据848来说明。注意到这些组件与操作系统834、应用程序835、其他程序模块836以及程序数据838可以相同或者不同。操作系统844，应用程序845，其他程序模块846以及程序数据848在这里被给定以不同的编号以说明它们至少是不同的复本。

一个用户也可以通过输入设备例如一键盘862或一通常被称为鼠标、轨迹球或触摸垫的定位设备861来输入命令或信息到计算机810中。其他输入设备(未给出)可以包括一麦克风，游戏手柄，游戏垫，圆盘式卫星电视接收天线，扫描仪，或者其类似。这些和其他输入设备经常通过一个与系统总线821耦合的用户输入接口860与处理单元820相连，但是也可以通过其他接口或总线结构例如一个并行端口、游戏端口或一个通用串行总线(USB)与其相连。

一监视器891或其他类型的显示设备也通过一个接口例如一个视频接口890与系统总线821相连。除了显示器之外，计算机也可以包括其他外部输出设备例如扬声器898和打印机896，它们可以通过一个输出外设接口895相连。

计算机810通过使用与一个或多个远程计算机例如远程计算机880的逻辑连接来在一个网络化的环境中进行操作。该远程计算机880可以是一台个人计算机，一服务器，一路由器，一网络PC，一同级设备或其他通用网络节点，和作为它的一个执行的功能，可以包括许多或所有与计算机810相关的上述的组件，即使仅仅是在图8中说明的存储设备881。在图8中描述的逻辑连接包括一本地网络(LAN)881和一广域网(WAN)883，但是也可以包括其他网络。这种联网环境在办公室、企业范围的计算机网络、内部网和互联网是平常的事。

当在一个LAN联网环境中使用时，计算机810与LAN881通过一网络接口或适配器880相连。当在一个WAN联网环境中使用时，计算机810典型地包括一调制解调器882或其他用于与该WAN883例如互联网建立通信的装置。该调制解调器882，可以是内部的或外部的，可以通过用户输入接口860或其他适当机制与系统总线821相连。在一联网的环境中，与计算机810相关的被描述的程序模块，或者其一些部分，可以被存储在远程存储设备中。通过例子而并不是限制，图8说明了存在于存储设备881的远程应用程序885。所示的网络连接器是典型的，并且在计算机之间建立一通信连接的其他手段也可以被采用。

总结

即使用于搜索术语建议的多种类型数据对象的加强群集的系统和方法已经用具体的语言描述了其结构化特点和/或方法论操作或步骤，应该明白的是在所附的权利要求书中定义的执行并不限制所述的具体特征或步骤。例如，即使多种类型数据对象的加强群集被描述成与搜索术语建议的应用相关，然后多种类型数据对象的加强群集仍然可以被应用到许多其他类型的利用群集的类型中。因此，这些具体的特征和步骤被以典型的执行所声明的主题的形式公开。

Claims

1.一种方法包括：

鉴别在两个或多个多种类型数据对象中各个对象之间的关系，其中所述各个对象包括至少一个第一类型的对象和至少一个与该第一类型不同的第二类型的对象；以及

考虑到这些关系中的各种关系，反复地群集所述多种类型数据对象以生成加强的群集体。

2.如权利要求1所述的一种方法，其中这些关系包括层间关系，所述层间关系包括下述一个或多个项：内容相关的信息、在一相关主题上的用户兴趣以及在一相关网页上的用户兴趣。

3.如权利要求1所述的一种方法，其中这些关系包括层内关系，所述层内关系包括下述一个或多个项：查询提炼、推荐的网页以及在各个用户之间的关系。

4.如权利要求1所述的一种方法，其中多种类型数据对象的每个都与一个搜索查询数据对象类型、一个选定的网页类型和一个用户信息类型的一个或多个相关。

5.如权利要求1所述的一种方法，其中这些关系中的各种关系被加权以表示与多种类型数据对象的相关的对象的重要性。

6.如权利要求1所述的一种方法，其中鉴别和反复群集被执行用于搜索术语建议。

7.如权利要求1所述的一种方法，其中反复群集进一步包括向所述多种类型数据对象中所有相关的对象传达第一次重复的群集结果，至少有两个所述相关的数据对象是不同数据类型，该传达被用来在加强群集操作的第二次重复中增强对所述多种类型数据对象的各个对象进行的群集。

8.如权利要求1所述的一种方法，其中反复的群集进一步包括决定在所述多种类型数据对象的独立对象之间的相似性，相似性是一个或多个对象间和对象内内容相似性和在这些关系的各种关系之间的相似性的函数。

9.如权利要求1所述的一种方法，其中反复的群集进一步包括合并在多种类型数据对象中相关的对象以减少相关对象的特征空间的维度。

10.如权利要求1所述的一种方法，其中该方法进一步包括对多种类型数据对象中的单独对象在一对象类型和不同对象类型之间互相加强重要性。

11.如权利要求10所述的一种方法，其中进一步包括多种类型数据对象的单独对象在一个对象类型和不同对象类型之间互相加强重要性是以下面的公式为基础的：

\{\begin{matrix} α (X) = β L_{X}^{T} h (X) + (1 - β) L_{XY} i (Y) \\ h (X) = β L_{X} α (X) + (1 - β) L_{XY} i (Y) \\ i (X) = α (X) + h (X) \\ α (Y) = γ L_{Y}^{T} h (Y) + (1 - γ) L_{YX} i (X) \\ h (Y) = γ L_{Y} α (Y) + (1 - γ) L_{YXY} i (X) \\ i (Y) = α (Y) + h (Y) \end{matrix}

其中，X＝{x₁，x₂，Lx_m}和Y＝{y₁，y₂，Ly_n}代表不同类型数据对象中的各个对象集，R_X、R_Y、R_XY和R_YX代表在多种类型数据对象中的各个对象之间的关系，L_X和L_Y代表分别具有集合X和Y的连接/关系结构的邻接矩阵，L_XY和L_YX代表从在X中的对象到在Y中的对象的连接/关系的邻接矩阵，α(X)和h(X)是/分别是X中节点的认证记录和网络集线器的记录，α(Y)和h(Y)代表在Y中的节点的认证记录和网络集线器的记录；i(X)和i(Y)分别代表在X和Y中的节点的重要性；β和γ是用来调整从不同关系衍生出来的连接的影响的权参数。

12.一种如权利要求1所述的方法，并且进一步包括：

响应于从一用户接收一术语，在加强的群集体中将术语与对象的特征空间相比较；

响应于比较，鉴别一个或多个搜索术语建议；

并且将该搜索术语建议传达给该用户。

13.一种计算设备包括：

一处理器；和

一与该处理器耦合的存储器，该存储器包括由该处理器执行的计算机程序指令以：

鉴别在两个或多个多种类型数据对象的各个对象中的关系，其中所述各个对象包括至少一个第一种类型的对象和一个与该第一种类型不同的第二种类型的对象；

考虑到这些关系的各种关系，反复地群集该多种类型数据对象以生成加强的群集体；以及

其中所述关系的各种关系被加权以表示多种类型数据对象中的相关对象的重要性。

14.如权利要求13所述的一种计算设备，其中这些关系包括层间关系，所述层间关系包括下述一个或多个项：内容相关的信息、在一相关主题上的用户兴趣和在一相关网页上的用户兴趣组成。

15.如权利要求13所述的一种计算设备，其中这些关系包括层内关系，所述层内关系包括下述一个或多个项：查询提炼、推荐的网页以及在各个用户之间的关系。

16.如权利要求13所述的一种计算设备，其中鉴别和反复地群集被执行用于搜索术语建议。

17.如权利要求13所述的一种计算设备，其中用于反复群集的指令进一步包括用于基于该加强群集体的内容，聚集所指示的数据对象关系给所述多种类型数据对象中相关的对象的指令。

18.如权利要求13所述的一种计算设备，其中用于反复群集的指令进一步包括用于决定在多种类型数据对象的单独对象之间的相似性的指令，该相似性是一个或多个对象间和对象内内容相似性和在这些关系中各种关系之间的相似性的函数。

19.如权利要求13所述的一种计算设备，其中用于反复群集的指令进一步包括用于合并多种类型数据对象的相关对象以减少这些相关对象的特征空间维度的指令。

20.如权利要求13所述的一种计算设备，其中用于反复群集的指令进一步包括用于反复地群集直到所有对象类型由多种类型数据对象会聚来表示的指令。

21.如权利要求13所述的一种计算设备，以及进一步包括指令用于：

响应于比较，鉴别一个或多个搜索术语建议；

并且将该搜索术语建议传达给该用户。

22.一种包括由一处理器执行的包括计算机可读指令的计算机可读介质用于：

鉴别在两个或多个多种类型数据对象的各个对象中的关系，其中这些各个对象包括至少一个第一种类型的对象和一个与该第一种类型不同的第二种类型的对象；

考虑到这些关系中的各种关系，反复地群集该多种类型数据对象以生成加强的群集体。

23.如权利要求22所述的一种计算机可读介质，其中该层间关系包括下述一个或多个项：内容相关的信息、在一相关主题上的用户兴趣和在一相关网页上的用户兴趣。

24.如权利要求22所述的一种计算机可读介质，其中该层内关系包括查询提炼、推荐网页和在各个用户之间的关系中的至少一个。

25.如权利要求22所述的一种计算机可读介质，其中多种类型数据对象中的每个都与一搜索查询对象类型、一选定的网页类型和一用户信息类型中的至少一个相关。

26.如权利要求22所述的一种计算机可读介质，其中这些关系的各种关系被加权以表示该多种类型数据对象的相关对象的重要性。

27.如权利要求22所述的一种计算机可读介质，其中鉴别和反复群集被执行用于搜索术语建议。

28.如权利要求22所述的一种计算机可读介质，其中反复地群集进一步包括传达一个第一次重复的群集结果至所述多种类型数据对象中所有相关的数据对象，至少有两个所述相关类型数据对象是不同的数据类型，该传达用来改善在一个第二次重复加强群集操作中对所述多种类型数据对象的各个对象进行的群集。

29.如权利要求22所述的一种计算机可读介质，其中用于反复群集的指令进一步包括用于决定在多种类型数据对象中的单独对象之间的相似性的指令，该相似性是一个或多个对象间和对象内内容相似性和在这些关系的各种关系之间的相似性的函数。

30.如权利要求22所述的一种计算机可读介质，其中用于反复群集的指令进一步包括用于合并多种类型数据对象的相关对象以减少这些相关个体的特征空间维度的指令。

31.如权利要求22所述的一种计算机可读介质，其中该指令进一步包括用于在一种对象类型中和在不同对象类型之间的该多种类型数据对象的单独对象的相互的加强重要性的指令。

32.如权利要求31所述的一种计算机可读介质，其中用于在一种对象类型中和在不同对象类型之间的该多种类型数据对象的单独对象的相互的加强重要性是基于下面的公式来计算的：

\{\begin{matrix} α (X) = β L_{X}^{T} h (X) + (1 - β) L_{XY} i (Y) \\ h (X) = β L_{X} α (X) + (1 - β) L_{XY} i (Y) \\ i (X) = α (X) + h (X) \\ α (Y) = γ L_{Y}^{T} h (Y) + (1 - γ) L_{YX} i (X) \\ h (Y) = γ L_{Y} α (Y) + (1 - γ) L_{YX} i (X) \\ i (Y) = α (Y) + h (Y) \end{matrix}

其中，X＝{x₁，x₂，Lx_m}和Y＝{y₁，y₂，Ly_n}代表不同类型数据对象的各个对象集，R_X、R_Y、R_XY和R_YX代表在多种类型数据对象的各个对象之间的关系，L_X和L_Y代表分别具有集合X和Y的连接/关系结构的邻接矩阵，L_XY和L_YX代表从在X中的对象到在Y中的对象的连接/关系的邻接矩阵，α(X)和h(X)是/分别是在X中的节点的认证记录和网络集线器的记录，α(Y)和h(Y)代表在Y中的节点的认证记录和网络集线器的记录；i(X)和i(Y)分别代表在X和Y中的节点的重要性；β和γ是用来调整从不同关系衍生出来的连接的影响的权参数。

33.如权利要求31所述的一种计算机可读介质，并且进一步包括指令用于：

响应于比较，鉴别一个或多个搜索术语建议；

并且将该搜索术语建议传达给该用户。

34.一种计算设备包括：

用于鉴别在两个或多个多种类型数据对象的各个对象中的关系的鉴别装置，其中所述各个对象包括至少一个第一种类型的对象和一个与该第一种类型不同的第二种类型的对象；

考虑到这些关系中的各种关系，用于反复地群集该多种类型数据对象以生成加强的群集体的重复群集装置。

35.如权利要求34所述的一种计算设备，其中该计算设备进一步包括用于为这些关系的各种关系加权以表示该多种类型数据对象的相关对象的重要性的加权装置。

36.如权利要求34所述的一种计算设备，其中该计算设备进一步包括用于响应于一个查询术语的接收从加强群集体中定位搜索术语建议的决定装置，该搜索术语建议与一个或多个所述多种类型数据对象充分匹配或相关。

37.如权利要求34所述的一种计算设备，其中该重复群集装置进一步包括传达指示的数据对象关系到基于该加强群集体的多种类型数据对象的相关对象的会聚装置。

38.如权利要求34所述的一种计算设备，其中该重复群集装置进一步包括用于决定在多种类型数据对象的单独对象之间的相似性的决定装置，该相似性是一个或多个对象间和对象内的内容相似性和在这些关系的各种关系之间的相似性的函数。

39.如权利要求34所述的一种计算设备，其中该重复群集装置进一步包括用于合并多种类型数据对象的相关对象以减少这些相关对象的特征空间维度的合并装置。

40.如权利要求34所述的一种计算设备，并且进一步包括：

响应于从一用户接收一术语，以比较在该加强群集体中的术语的对象的特征空间的比较装置；以及

响应于比较，用于鉴别一个或多个搜索术语建议的鉴别装置。