CN1869978A

CN1869978A - 用于链接文档的方法、设备和系统

Info

Publication number: CN1869978A
Application number: CNA2005100738064A
Authority: CN
Inventors: 张俐; 杨力平; 刘世霞
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-05-24
Filing date: 2005-05-24
Publication date: 2006-11-29
Anticipated expiration: 2025-05-24
Also published as: US7499934B2; CN100470544C; US8938451B2; US20060271536A1; US20080288535A1

Abstract

一种链接文档的方法、设备和系统，所述方法包括步骤：在企业内部网中提供多个聚类集合，其中每个聚类集合由一个或多个文档组成；为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；以及根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接。本发明有助于自动建立各个独立文档之间的链接，以及可以将链接分析算法应用于对这些文档进行的搜索，以在企业内部网中实现更好的搜索性能。

Description

用于链接文档的方法、设备和系统

技术领域

本发明涉及一种文档链接的方法、设备和系统，特别涉及一种用于在企业内部网中将企业文档链接为虚拟万维网的、基于聚类集合的方法、设备和系统。

背景技术

进行搜索是从万维网以及企业网络获得有用信息的最普遍的方式。对于网页搜索来说，最知名且有效的方法就是Google的PageRank(网页级别)方法，其在万维网的大量网页中，通过超级链接来计算网页的重要性。网页级别算法的主要原理是，如果许多网页指向同一个网页，则表示这个网页是好网页；另一方面，如果一个重要的网页引用另一个网页，则所述另一个网页也是重要的。在Google搜索引擎中已经使用了PageRank方法，而且已经证明Google搜索引擎是目前最好的搜索引擎。PageRank方法是由Google的创始人LarryPage和Sergey Brin于1998年在斯坦福大学时发明的，并且已经获得了美国专利No.6,285,999。

PageRank算法的一个替换方法是由Jon Kleinberg提出的HITS算法。HITS提出了两种类型的网页，一是目录型网页(hub page)，指包含大量同一主题链接的网页；二是权威型网页(authority page)，指其内容对应于相关主题的网页。HITS算法假定好的目录型网页指向许多好的权威型网页，而好的权威型网页是被许多其它网页指向的网页。目录型网页和权威型网页显示了它们之间相互加强的关系，即，比较好的目录型网页指向许多好的权威型网页，而比较好的权威型网页被许多好的目录型网页所指向。

应用上述这些算法的关键因素是网页之间的超级链接，但是对于企业内部搜索来说，就存在很大的问题。我们知道，与基于万维网的文档不同，很多文档，如企业内部的文档，通常不被相互链接，因此基于链接分析的搜索引擎技术不能应用。这就是企业内部文档搜索效率低下的原因之一。

因此，需要一种高效率地进行文档搜索的方法和系统，尤其是用于企业内部文档搜索的方法和系统。

发明内容

本发明的目的是提供一种高效率地进行文档搜索的方法和系统，尤其适用于企业内部文档搜索。本发明的方法和系统自动将文档之间的链接构建为类似于万维网的虚拟网络，使得用于网页的链接分析方法也可以有效地应用在企业内部的文档搜索中。

本发明提出了用于将企业文档链接为类似于万维网的虚拟网络的基于聚类集合的方法和系统。类似于网络上的目录型网页和权威型网页，通过使用许多不同的方法将多个文档分为多个聚类集合(cluster)，将各个聚类集合构建为类似目录型网页的聚类列表页，每个聚类列表页由对应聚类集合中的文档列表来表示，而每个文档被视为权威型网页。然后，可以基于对聚类列表页和文档的内容的分析，自动建立聚类列表页和文档之间的链接。这样，原来独立的文档就被链接在一起，形成了如同万维网的虚拟网络。

根据上述思想，本发明提供一种用于链接文档的方法，包括步骤：形成多个聚类集合，其中每个聚类集合由一个或多个文档组成；为每个聚类集合创建聚类列表页(cluster page)，以表示该聚类集合中的文档；以及根据对所述聚类集合和文档内容的分析来构建链接。

本发明还提供一种用于链接文档的设备，包括：存储装置，用于存储多个聚类集合，其中每个聚类集合由一个或多个文档组成；处理装置，用于为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；和链接建立装置，用于根据对所述聚类集合和文档内容的分析来构建链接。

本发明还提供一种用于文档链接的系统，包括：第一设备，所述第一设备包括：存储装置，用于保存数据库，在所述数据库中存储多个聚类集合，其中每个聚类集合由一个或多个文档组成；处理装置，为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；和链接建立装置，用于根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接；以及第二设备，所述第二设备包括：搜索引擎，根据所建立的链接，在所述数据库中搜索需要的文档。

本发明可以实现如下优点：有助于自动建立各个独立文档之间的链接；以及可以将链接分析算法应用于对这些文档进行的搜索，以实现更好的搜索性能。

附图说明

通过结合附图对本发明优选实施例的详细描述，本发明的上述和其它特征及优点将变得更加清楚，其中：

图1是本发明概念的示意图，其中示出了本发明构建链接的整个过程；

图2是示出应用本发明的实施例的系统方框图的一个示例；

图3是本发明的实施例中的链接建立装置的构成方框图；

图4是本发明的实施例中构建聚类列表页之间的链接的方法流程图；

图5是本发明的实施例中构建从文档到聚类列表页的链接的方法流程图；以及

图6是示出本发明的实施例中构建文档之间的链接的方法流程图。

具体实施方式

首先将给出本发明中使用的部分术语的定义。

聚类集合(cluster)：是指一组文档。在本发明中，聚类集合可以是文件系统中的文件夹、或分类学中的类别，其可以通过任何传统划分聚类集合的方法来创建。一个文档可以属于一个或多个聚类集合。

聚类列表页(cluster page)：是指虚拟网页，它包括聚类集合中的文档的列表。

链接：聚类列表页和原始文档之间的指针(anchor)。在本发明中，链接可以从聚类列表页指向另一个聚类列表页，或从聚类列表页指向文档，或从文档指向聚类列表页，或从文档指向另一个文档。

下面将结合附图来具体说明本发明的优选实施例。

图1是本发明概念的示意图，其中示出了本发明构建链接的整个过程。如图1所示，首先，将多个未链接的文档划分为若干个聚类集合，对每个聚类集合创建聚类列表页，该聚类列表页上具有文档列表，以表示该聚类集合中的所有文档。接下来，基于对聚类集合和其中的文档的内容分析，自动构建链接(将在后面进行详细地描述)。

在本发明中，也可以直接提供该若干个聚类集合，其中包括一个或多个文档，而无需对文档进行划分的过程。对文档进行划分的过程可以独立于本发明而另外进行。

图2是示出应用本发明的企业内部网系统的方框图的一个示例。如图2所示，其中简要地示出了服务器100，以及通过企业内部网与服务器100相连接的客户机A 102至客户机N 108(为清楚起见，只示出了两个客户机，但是其可以为该网络所能容纳的任何数量)。

服务器100包括：控制器116，用于控制服务器100及其中的各个组成部件的操作；处理装置112，用于将多个未链接的文档划分为多个不同的聚类集合，并创建每个聚类集合的聚类列表页，以表示该聚类集合中的文档；链接建立装置114，用于建立从聚类列表页到另一个聚类列表页、或从聚类列表页到文档、或从文档到聚类列表页、或从文档到另一个文档的链接；以及数据库118，用于存储各种文档和数据(包括未链接的文档、经链接的文档、以及所建立的链接等)。

上述处理装置112还可以包括单独的聚类集合形成装置(未示出)，用于形成多个聚类集合，其中每个聚类集合由一个或多个文档组成。

在对各个文档及聚类列表页建立了相应的链接后，用户可以通过在客户机A或客户机N等之上运行的搜索引擎，在服务器100中的控制器116等的控制下，在数据库118中进行搜索，以查找所需要的文档。

当然，在本发明中，也可以不使用处理装置112，而直接利用链接建立装置114对数据库118中预先提供的聚类列表页及其中的各个文档建立适当的链接。

如同计算机或其它计算设备一样，本发明的服务器100以及客户机A和客户机N都具有CPU(中央处理单元)、ROM(只读存储器)、RAM(随机存取存储器)等必要的基本元件，以及诸如键盘、鼠标等的输入装置和诸如显示器及扬声器等的输出装置，为简单起见，这里将不再进行详细的描述。

另外，本发明的企业内部网系统不限于上述示例(即服务器-客户机模式)，只要能够实现本发明的方法，其可以为任何形式，如客户机-客户机的对等连接等，其中被搜索的数据库可以位于包括客户机的任何设备上。

图3是构成本发明链接建立装置114的功能方框图。

如图3所示，本发明的链接建立装置114包括4个用来构建链接的部件，它们分别是：聚类列表页链接部件12，用于构建聚类列表页之间的链接；聚类集合文档链接部件14，用于构建从聚类列表页到文档的链接；文档聚类集合链接部件18，用于构建从文档到聚类列表页的链接；和文档链接部件16，用于构建文档之间的链接。

本发明中，在控制器的控制下，通过这4个部件12、14、16和18的处理，可以对未链接的企业文档和聚类列表页自动生成链接。一旦在这些文档和聚类列表页之间建立了链接，就可以将各种链接分析算法(本领域技术人员所知道的各种链接分析算法)应用于搜索引擎，以改善对企业文档的搜索性能。

●下面将描述实现本发明的将多个文档划分为各个聚类集合的一些示例性方法：(1)在文件系统中，可以将文件夹作为聚类集合，一个文件夹下的文档属于相应的聚类集合；(2)可以将分类学中的类别看作是聚类集合，该类别中的文档也属于相应的聚类集合；(3)选择一个划分集合的聚类算法，将文档集合分为m个聚类集合，这里，m可以改变多次；(4)固定聚类集合数量，对文档集合应用n个不同的聚类算法形成聚类集合；以及(5)使用上述各种方法的任意组合。本发明的处理装置(或其中的聚类集合形成装置)，可以被配置为通过上述一种或多种方式来形成聚类，例如将不同方法形成的聚类集合组合为新的聚类集合，或者用一种方法形成聚类集合，而用另一种方法来进行修正。

通过使用各种方法将多个文档划分为多种聚类集合与下列事实是一致的，即，文档的组织实际上是基于不同观点进行的，其模拟了网页多样化的特性。现有技术中划分聚类集合的方法是本领域的技术人员所公知的，这里不再进行详细地描述。

另外，如前所述，本发明也可以不包括将多个文档划分为若干个聚类集合的方法，而是在服务器(在其它环境中可以是客户机等)或其数据库中预先提供已经被划分为各个聚类集合的文档，并由此直接对各个聚类集合及其中的多个文档建立链接。

●下面将详细说明构建各种链接的示例性方法。

假设使用上述各种方法将M个文档分组为N个聚类集合，则文档表示为D＝{d₁，...，d_M}，聚类列表页表示为C＝{c₁，...，c_N}，其中M和N可以是任意的正整数。

(i)构建聚类列表页之间的链接

下面根据图4的流程图描述本发明中构建聚类列表页之间的链接的方法，即聚类列表页链接部件12所执行的操作。本方法的主要思想是在具有足够数量相同文档的两个聚类列表页之间建立链接，如同万维网中的目录型网页之间的链接。

在步骤S101，假设有两个聚类列表页c_i和c_j(其中i和j＝1，...，N)，聚类列表页c_i包含m个文档{d_i，1，...，d_i，m}，而聚类列表页c_j包含n个文档{d_j，1，...，d_j，n}。接下来，在步骤S102，对每一对聚类列表页c_i和c_j，执行计算c_i∩c_j＝{d|d∈c_i，ANDd∈C_j，d∈D}，这里，c_i∩c_j是既属于聚类列表页c_i也属于聚类列表页c_j的文档的集合，该集合中的文档数量为|c_i∩c_j|＝k，其中0≤k≤m和n中较小的值。

在步骤S103，设定阈值θ，并判断是否k大于或等于θ。如果k≥θ，则执行步骤S104至S106，即在这两个聚类列表页c_i和c_j之间建立链接，否则，如果k＜θ，执行步骤S107，不在聚类列表页c_i和c_j之间建立链接。

也就是说，如果c_i和c_j之间共同拥有的文档的数量超过了阈值θ，就在聚类列表页c_i和c_j之间建立链接。

接下来，在步骤S104，判断

是否

\frac{| c_{i} \cap c_{j} |}{| c_{i} |} &GreaterEqual; \frac{| c_{i} \cap c_{j} |}{| c_{j} |}

成立。

即，被共同拥有的文档的数量k在聚类集合c_i中所占的比率是否大于其在c_j中所占的比率。如果该判断结果为“是”，则执行步骤S105，即产生从聚类列表页c_j到聚类列表页c_i的链接，否则，如果该判断结果为“否”，就执行步骤S106，产生从聚类列表页c_i到聚类列表页c_j的链接。

这样，通过反复应用上述算法，就建立了各个聚类列表页之间的链接。

(ii)构建从聚类列表页到文档的链接

从聚类列表页到文档的链接是从聚类列表页中的每一项到文档中的适当内容的链接，这种类型的链接模拟万维网中从目录型网页到权威型网页的链接。

具体方法为，给定聚类列表页c_i，其包含m个文档{d_i，1，...，d_i，m}。由于每个文档d_i，j∈c_i(其中j＝1，...，m)，在本发明中，可以通过聚类集合文档链接部件14所执行的操作直接产生从聚类列表页c_i到文档d_i，j的链接。即，在任何情况下，都存在从聚类列表页c_i到其中的每一个文档d_i，j的链接。

这样，通过对每个聚类列表页及其中的各个文档应用上述算法，就建立了从聚类列表页到文档的链接。

(iii)构建从文档到聚类列表页的链接

下面结合图5说明本发明中构建从文档到聚类列表页的链接的方法，即文档聚类集合链接部件18所执行的操作。对于每个文档，只要它是聚类集合中的代表文档，即该文档按照某种相似度策略靠近该聚类集合的质心(centroid of the cluster)，那么就建立从该文档到其聚类列表页的链接。这种类型的链接类似于万维网上权威型网页具有到不同目录型网页的若干个链接的情况。

在步骤S201，给定聚类列表页c_i，其包含m个文档{d_i，1，...，d_i，m}，假设该聚类集合的质心向量为 W_cent＝{w₁，...，w_T}。将其中的每个权重初始化为0，即w_t＝0.0(其中t＝1，...，T)，这里w_t∈ W_cent，T为文档集合中关键词的数量。

对于每个文档d_i，j∈c_i(其中j＝1，...，m)，将该文档分为多个关键词(token)，假设文档d_i，j的文档向量为：

W_i，j＝{w_j，1，...，w_j，T} ...(1)

其中，w_j，t为第t个关键词的权重，t＝1，...，T。也就是说，文档d_i，j的文档向量是该文档中的关键词的权重构成的向量。

在步骤S202，第t个关键词的权重计算如下：

w_j，t＝tf_j，t*idf(t) ...(2)

这里，tf_j，t表示聚类集合c_i中的第j个文档d_i，j中的第t个关键词出现的频率，即词频；而

idf (t) = \log \frac{N}{N_{t}},

其中，N表示文档集合中文档的数量，N_t表示文档集合中含关键词t的文档数，idf(t)称为逆文档频率(inverse documentfrequency)，它随着N_t的增加而降低。重复上述等式，可以计算出文档d_i，j中所有关键词的权重。上述计算关键词权重的等式是本领域技术人员所熟知的，在此不再进行详细的描述。

在步骤S203中，将方程(2)代入方程(1)，则可以得到文档d_i，j的文档向量W_i，j的值。

在步骤S204中，通过对m个文档向量 W_i，j进行算数平均，就可以计算该聚类集合的质心为：

{\overset{&OverBar;}{W}}_{cent} = \frac{1}{m} Σ_{j = 1}^{m} {\overset{&OverBar;}{W}}_{i, j} - - - (3)

在步骤S205，对于每个文档d_i，j∈c_i，计算该文档向量与其聚类集合质心的向量的相似度为：

Sim(d_i，j，c_i)＝cos( W_i，j， W_cent) ...(4)

在步骤S206，判断Sim(d_i，j，c_i)≥σ是否成立，其中σ为该文档向量与其聚类集合质心向量的相似度的阈值。如果步骤S206的判断结果为“是”，则执行步骤S207，在步骤S207中产生从文档d_i，j到聚类列表页c_i的链接。

这样，通过对文档d_i，j和聚类列表页c_i反复应用上述算法，就建立了从各个文档到它们所属的聚类列表页的链接。

这里需要说明的是，等式(4)中的函数cos( W_i，j， W_cent)是本领域技术人员公知的，在此不需进行更加详细的描述。

(iv)构建文档之间的链接

下面结合图6描述本发明中构建文档之间的链接的方法，即文档链接部件16所执行的操作。如果一个文档用一些主题词或关键字引用了另一个文档，则创建从该文档到被引用文档的链接。例如，如果在一个文档中提到了作者的名字和书的名称，则该文档可以引用对该作者的书的介绍文档。另一方面，如果两个文档在内容上很相似，则可以建立从一个文档到另一个文档的链接。这种类型的链接反映了万维网上权威型网页之间的链接。

下面描述本发明中建立这种链接的方法。

图6是示出本发明中构建文档之间的链接的方法的流程图。

如图6所示，在步骤S301，给定多个文档D＝{d₁，...，d_M}，其中有任意两个文档d_i和d_j(其中i，j＝1，...，M)。

在步骤S302，判断在文档d_i中是否存在对文档d_j的引用。

如果步骤S302的判断结果为“是”，则执行步骤S303，其中产生从文档d_i到文档d_j的链接。否则，如果在文档d_i中不存在对文档d_j的引用，即步骤S302的判断结果为“否”，则执行步骤S304。

在步骤S304中，采用步骤S202和S203所述的方法分别计算文档d_i的向量 W_di和文档d_j的向量 W_dj。并且，对文档d_i的每个关键词按照权重由大到小排序，设定主题词个数1，选出前1个关键词作为主题词，构成主题T_i，相应的主题向量为 W_Ti。在主题向量 W_Ti中，每个主题词的权重等于其在文档向量 W_di中的权重，其他关键词的权重等于0。

在步骤S305中，用下面的等式(5)计算主题T_i与文档d_j的相似度Sim(T_i，d_j)。

Sim (T_{i}, d_{j}) = \cos ({\overset{&OverBar;}{W}}_{T_{i}}, {\overset{&OverBar;}{W}}_{d_{j}}) - - - (5)

在步骤S306，判断Sim(T_i，d_j)≥α是否成立，其中α是主题T_i与文档d_j的相似度的阈值。

如果Sim(T_i，d_j)≥α成立，即步骤S306的判断结果为“是”，则返回执行步骤S303。即，在步骤S303中建立从文档d_i到文档d_j的链接。也就是说，如果文档d_i中的主题与文档d_j的相似程度大于某一阈值，则建立从文档d_i到文档d_j链接。

如果步骤S306中的判断结果为“否”，或执行完步骤S303后，处理结束。

这样，通过上述方式，就建立了文档d_i和d_j之间的链接。

上述方法的特点在于，对于两篇文档，由于它们的主题向量不会完全一致，所以根椐上述方法计算所得的相似度值不是对称的，这样可以避免在两个文档之间建立不必要的互指(对称)链接。

在本发明中，既可以通过在计算机等计算设备中运行软件来实现上述方法，也可以将相应的软件固化在诸如CPU、DSP等硬件单元中，通过用所形成的硬件单元构建本发明的设备和系统等，来实现本发明的方法。

本领域的技术人员容易理解，本发明不仅适用于服务器、计算机，还适用于其它类型的计算装置。而且，本发明还适用于各种网络、非网络环境应用，如一计算装置中的文档数据库应用等。

由于通过使用本发明的上述这些方法，在企业内部网中的文档和聚类列表页之间建立了链接，因此可以将各种链接分析算法应用于企业内部的搜索引擎，改善了对企业文档的搜索性能。

尽管以上通过结合具体实施例描述了本发明，但是本领域技术人员知道，在不脱离本发明的精神和范围的情况下，可以对本发明的实施例进行各种修改和变化。

Claims

1.一种用于链接文档的方法，包括步骤：

形成多个聚类集合，其中每个聚类集合由一个或多个文档组成；

为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；以及

根据对所述聚类集合和文档内容的分析来构建链接。

2.根据权利要求1所述的方法，其特征在于，所述构建链接的步骤包括以下各步骤中的一个或多个：

构建聚类列表页之间的链接；

构建从聚类列表页到文档的链接；

构建从文档到聚类列表页的链接；和

构建文档之间的链接。

3.根据权利要求2所述的方法，其特征在于，如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值，则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。

4.根据权利要求3所述的方法，其特征在于，如果所述共有文档的数量在所述第一聚类集合中所占的比率大于其在所述第二聚类集合中所占的比率，则产生从所述第二聚类集合的聚类列表页到所述第一聚类集合的聚类列表页的链接，否则，就产生从所述第一聚类集合的聚类列表页到所述第二聚类集合的聚类列表页的链接。

5.根据权利要求2所述的方法，其特征在于，构建从聚类列表页到其中每一个文档的链接。

6.根据权利要求2所述的方法，其特征在于，如果文档与其聚类集合的相似度大于一阈值，则产生从所述文档到所述聚类集合的聚类列表页的链接，其中所述相似度是所述文档的文档向量和所述聚类集合的质心向量的夹角的余弦函数，并且所述质心向量是所述文档向量的算数平均值。

7.根据权利要求6所述的方法，其特征在于，所述文档向量是所述文档中的多个关键词的权重构成的向量，其中所述关键词的权重是所述关键词在所述文档中的频率以及文档集合中包含所述关键词的文档数的函数。

8.根据权利要求2所述的方法，其特征在于，如果第一文档中存在对第二文档的引用，则建立从第一文档到第二文档的链接。

9.根据权利要求2所述的方法，其特征在于，如果第一文档中的主题与第二文档的相似程度大于一阈值，则建立从第一文档到第二文档的链接。

10.根据权利要求1所述的方法，其特征在于，通过在企业内部网中将多个未链接的文档划分为不同的集合来提供所述多个聚类集合。

11.根据权利要求1所述的方法，其特征在于，形成多个聚类集合的步骤包括以下各步骤中的一个或多个：

将一文件系统中的文件夹作为聚类集合，一个文件夹下的文档属于相应的聚类集合；

将分类学中的类别作为聚类集合，所述类别中的文档属于相应的聚类集合；

选择一个划分集合的聚类算法，将文档集合分为m个聚类集合，其中，m可以改变多次；以及

固定聚类集合数量，对文档集合应用n个不同的聚类算法以形成聚类集合。

12.一种用于链接文档的设备，包括：

存储装置，用于存储多个聚类集合，其中每个聚类集合由一个或多个文档组成；

处理装置，用于为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；和

链接建立装置，用于根据对所述聚类集合和文档内容的分析来构建链接。

13.根据权利要求12所述的设备，其特征在于，所述链接建立装置包括以下部件中的一个或多个：

聚类列表页链接部件，用于构建聚类列表页之间的链接；

聚类集合文档链接部件，用于构建从聚类列表页到文档的链接；

文档聚类集合链接部件，用于构建从文档到聚类列表页的链接；和

文档链接部件，用于构建文档之间的链接。

14.根据权利要求12所述的设备，其中所述处理装置包括聚类集合形成装置，用于形成多个聚类集合，其中每个聚类集合由一个或多个文档组成。

15.根据权利要求12所述的设备，其中聚类集合形成装置进一步配置为通过以下一种或多种方式来形成聚类集合：

16.一种用于链接文档的系统，包括：

第一设备，所述第一设备包括：

存储装置，用于保存数据库，在所述数据库中存储多个聚类集合，其中每个聚类集合由一个或多个文档组成；

处理装置，为每个聚类集合创建聚类列表页，以表示该聚类集合中的文档；和

链接建立装置，用于根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和/或聚类列表页与文档之间的链接；以及

第二设备，所述第二设备包括：

搜索引擎，根据所建立的链接，在所述数据库中搜索需要的文档。