CN100470544C - 用于链接文档的方法、设备和系统 - Google Patents

用于链接文档的方法、设备和系统 Download PDF

Info

Publication number
CN100470544C
CN100470544C CNB2005100738064A CN200510073806A CN100470544C CN 100470544 C CN100470544 C CN 100470544C CN B2005100738064 A CNB2005100738064 A CN B2005100738064A CN 200510073806 A CN200510073806 A CN 200510073806A CN 100470544 C CN100470544 C CN 100470544C
Authority
CN
China
Prior art keywords
cluster
document
link
list page
cluster set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100738064A
Other languages
English (en)
Other versions
CN1869978A (zh
Inventor
张俐
杨力平
刘世霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB2005100738064A priority Critical patent/CN100470544C/zh
Priority to US11/439,055 priority patent/US7499934B2/en
Publication of CN1869978A publication Critical patent/CN1869978A/zh
Priority to US12/133,766 priority patent/US8938451B2/en
Application granted granted Critical
Publication of CN100470544C publication Critical patent/CN100470544C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种链接文档的方法、设备和系统,所述方法包括步骤:在企业内部网中提供多个聚类集合,其中每个聚类集合由一个或多个文档组成;为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;以及根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接。本发明有助于自动建立各个独立文档之间的链接,以及可以将链接分析算法应用于对这些文档进行的搜索,以在企业内部网中实现更好的搜索性能。

Description

用于链接文档的方法、设备和系统
技术领域
本发明涉及一种文档链接的方法、设备和系统,特别涉及一种用于在企业内部网中将企业文档链接为虚拟万维网的、基于聚类集合的方法、设备和系统。
背景技术
进行搜索是从万维网以及企业网络获得有用信息的最普遍的方式。对于网页搜索来说,最知名且有效的方法就是Google的PageRank(网页级别)方法,其在万维网的大量网页中,通过超级链接来计算网页的重要性。网页级别算法的主要原理是,如果许多网页指向同一个网页,则表示这个网页是好网页;另一方面,如果一个重要的网页引用另一个网页,则所述另一个网页也是重要的。在Google搜索引擎中已经使用了PageRank方法,而且已经证明Google搜索引擎是目前最好的搜索引擎。PageRank方法是由Google的创始人LarryPage和Sergey Brin于1998年在斯坦福大学时发明的,并且已经获得了美国专利No.6,285,999。
PageRank算法的一个替换方法是由Jon Kleinberg提出的HITS算法。HITS提出了两种类型的网页,一是目录型网页(hub page),指包含大量同一主题链接的网页;二是权威型网页(authority page),指其内容对应于相关主题的网页。HITS算法假定好的目录型网页指向许多好的权威型网页,而好的权威型网页是被许多其它网页指向的网页。目录型网页和权威型网页显示了它们之间相互加强的关系,即,比较好的目录型网页指向许多好的权威型网页,而比较好的权威型网页被许多好的目录型网页所指向。
应用上述这些算法的关键因素是网页之间的超级链接,但是对于企业内部搜索来说,就存在很大的问题。我们知道,与基于万维网的文档不同,很多文档,如企业内部的文档,通常不被相互链接,因此基于链接分析的搜索引擎技术不能应用。这就是企业内部文档搜索效率低下的原因之一。
因此,需要一种高效率地进行文档搜索的方法和系统,尤其是用于企业内部文档搜索的方法和系统。
发明内容
本发明的目的是提供一种高效率地进行文档搜索的方法和系统,尤其适用于企业内部文档搜索。本发明的方法和系统自动将文档之间的链接构建为类似于万维网的虚拟网络,使得用于网页的链接分析方法也可以有效地应用在企业内部的文档搜索中。
本发明提出了用于将企业文档链接为类似于万维网的虚拟网络的基于聚类集合的方法和系统。类似于网络上的目录型网页和权威型网页,通过使用许多不同的方法将多个文档分为多个聚类集合(cluster),将各个聚类集合构建为类似目录型网页的聚类列表页,每个聚类列表页由对应聚类集合中的文档列表来表示,而每个文档被视为权威型网页。然后,可以基于对聚类列表页和文档的内容的分析,自动建立聚类列表页和文档之间的链接。这样,原来独立的文档就被链接在一起,形成了如同万维网的虚拟网络。
根据上述思想,本发明提供一种用于链接文档的方法,包括步骤:形成多个聚类集合,其中每个聚类集合由一个或多个文档组成;为每个聚类集合创建聚类列表页(cluster page),以表示该聚类集合中的文档;以及根据对所述聚类集合和文档内容的分析来构建链接。其中,构建链接的步骤进一步包括构建聚类列表页之间的链接;其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。
本发明还提供一种用于链接文档的设备,包括:存储装置,用于存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;处理装置,用于为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建链接。其中,所述链接建立装置包括聚类列表页链接部件,用于构建聚类列表页之间的链接;其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。
本发明还提供一种用于文档链接的系统,包括:第一设备,所述第一设备包括:存储装置,用于保存数据库,在所述数据库中存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;处理装置,为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和聚类列表页与文档之间的链接;以及第二设备,所述第二设备包括:搜索引擎,根据所建立的链接,在所述数据库中搜索需要的文档。其中,所述链接建立装置包括聚类列表页链接部件,用于构建聚类列表页之间的链接;其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。
本发明可以实现如下优点:有助于自动建立各个独立文档之间的链接;以及可以将链接分析算法应用于对这些文档进行的搜索,以实现更好的搜索性能。
附图说明
通过结合附图对本发明优选实施例的详细描述,本发明的上述和其它特征及优点将变得更加清楚,其中:
图1是本发明概念的示意图,其中示出了本发明构建链接的整个过程;
图2是示出应用本发明的实施例的系统方框图的一个示例;
图3是本发明的实施例中的链接建立装置的构成方框图;
图4是本发明的实施例中构建聚类列表页之间的链接的方法流程图;
图5是本发明的实施例中构建从文档到聚类列表页的链接的方法流程图;以及
图6是示出本发明的实施例中构建文档之间的链接的方法流程图。
具体实施方式
首先将给出本发明中使用的部分术语的定义。
聚类集合(cluster):是指一组文档。在本发明中,聚类集合可以是文件系统中的文件夹、或分类学中的类别,其可以通过任何传统划分聚类集合的方法来创建。一个文档可以属于一个或多个聚类集合。
聚类列表页(cluster page):是指虚拟网页,它包括聚类集合中的文档的列表。
链接:聚类列表页和原始文档之间的指针(anchor)。在本发明中,链接可以从聚类列表页指向另一个聚类列表页,或从聚类列表页指向文档,或从文档指向聚类列表页,或从文档指向另一个文档。
下面将结合附图来具体说明本发明的优选实施例。
图1是本发明概念的示意图,其中示出了本发明构建链接的整个过程。如图1所示,首先,将多个未链接的文档划分为若干个聚类集合,对每个聚类集合创建聚类列表页,该聚类列表页上具有文档列表,以表示该聚类集合中的所有文档。接下来,基于对聚类集合和其中的文档的内容分析,自动构建链接(将在后面进行详细地描述)。
在本发明中,也可以直接提供该若干个聚类集合,其中包括一个或多个文档,而无需对文档进行划分的过程。对文档进行划分的过程可以独立于本发明而另外进行。
图2是示出应用本发明的企业内部网系统的方框图的一个示例。如图2所示,其中简要地示出了服务器100,以及通过企业内部网与服务器100相连接的客户机A 102至客户机N 108(为清楚起见,只示出了两个客户机,但是其可以为该网络所能容纳的任何数量)。
服务器100包括:控制器116,用于控制服务器100及其中的各个组成部件的操作;处理装置112,用于将多个未链接的文档划分为多个不同的聚类集合,并创建每个聚类集合的聚类列表页,以表示该聚类集合中的文档;链接建立装置114,用于建立从聚类列表页到另一个聚类列表页、或从聚类列表页到文档、或从文档到聚类列表页、或从文档到另一个文档的链接;以及数据库118,用于存储各种文档和数据(包括未链接的文档、经链接的文档、以及所建立的链接等)。
上述处理装置112还可以包括单独的聚类集合形成装置(未示出),用于形成多个聚类集合,其中每个聚类集合由一个或多个文档组成。
在对各个文档及聚类列表页建立了相应的链接后,用户可以通过在客户机A或客户机N等之上运行的搜索引擎,在服务器100中的控制器116等的控制下,在数据库118中进行搜索,以查找所需要的文档。
当然,在本发明中,也可以不使用处理装置112,而直接利用链接建立装置114对数据库118中预先提供的聚类列表页及其中的各个文档建立适当的链接。
如同计算机或其它计算设备一样,本发明的服务器100以及客户机A和客户机N都具有CPU(中央处理单元)、ROM(只读存储器)、RAM(随机存取存储器)等必要的基本元件,以及诸如键盘、鼠标等的输入装置和诸如显示器及扬声器等的输出装置,为简单起见,这里将不再进行详细的描述。
另外,本发明的企业内部网系统不限于上述示例(即服务器-客户机模式),只要能够实现本发明的方法,其可以为任何形式,如客户机-客户机的对等连接等,其中被搜索的数据库可以位于包括客户机的任何设备上。
图3是构成本发明链接建立装置114的功能方框图。
如图3所示,本发明的链接建立装置114包括4个用来构建链接的部件,它们分别是:聚类列表页链接部件12,用于构建聚类列表页之间的链接;聚类集合文档链接部件14,用于构建从聚类列表页到文档的链接;文档聚类集合链接部件18,用于构建从文档到聚类列表页的链接;和文档链接部件16,用于构建文档之间的链接。
本发明中,在控制器的控制下,通过这4个部件12、14、16和18的处理,可以对未链接的企业文档和聚类列表页自动生成链接。一旦在这些文档和聚类列表页之间建立了链接,就可以将各种链接分析算法(本领域技术人员所知道的各种链接分析算法)应用于搜索引擎,以改善对企业文档的搜索性能。
●下面将描述实现本发明的将多个文档划分为各个聚类集合的一些示例性方法:(1)在文件系统中,可以将文件夹作为聚类集合,一个文件夹下的文档属于相应的聚类集合;(2)可以将分类学中的类别看作是聚类集合,该类别中的文档也属于相应的聚类集合;(3)选择一个划分集合的聚类算法,将文档集合分为m个聚类集合,这里,m可以改变多次;(4)固定聚类集合数量,对文档集合应用n个不同的聚类算法形成聚类集合;以及(5)使用上述各种方法的任意组合。本发明的处理装置(或其中的聚类集合形成装置),可以被配置为通过上述一种或多种方式来形成聚类,例如将不同方法形成的聚类集合组合为新的聚类集合,或者用一种方法形成聚类集合,而用另一种方法来进行修正。
通过使用各种方法将多个文档划分为多种聚类集合与下列事实是一致的,即,文档的组织实际上是基于不同观点进行的,其模拟了网页多样化的特性。现有技术中划分聚类集合的方法是本领域的技术人员所公知的,这里不再进行详细地描述。
另外,如前所述,本发明也可以不包括将多个文档划分为若干个聚类集合的方法,而是在服务器(在其它环境中可以是客户机等)或其数据库中预先提供已经被划分为各个聚类集合的文档,并由此直接对各个聚类集合及其中的多个文档建立链接。
●下面将详细说明构建各种链接的示例性方法。
假设使用上述各种方法将M个文档分组为N个聚类集合,则文档表示为D={d1,...,dM},聚类列表页表示为C={c1,...,cN},其中M和N可以是任意的正整数。
(i)构建聚类列表页之间的链接
下面根据图4的流程图描述本发明中构建聚类列表页之间的链接的方法,即聚类列表页链接部件12所执行的操作。本方法的主要思想是在具有足够数量相同文档的两个聚类列表页之间建立链接,如同万维网中的目录型网页之间的链接。
在步骤S101,假设有两个聚类列表页ci和cj(其中i和j=1,...,N),聚类列表页ci包含m个文档{di,1,...,di,m},而聚类列表页cj包含n个文档{dj,1,...,dj,n}。接下来,在步骤S102,对每一对聚类列表页ci和cj,执行计算ci∩cj={d|d∈ci,ANDd∈Cj,d∈D},这里,ci∩cj是既属于聚类列表页ci也属于聚类列表页cj的文档的集合,该集合中的文档数量为|ci∩cj|=k,其中0≤k≤m和n中较小的值。
在步骤S103,设定阈值θ,并判断是否k大于或等于θ。如果k≥θ,则执行步骤S104至S106,即在这两个聚类列表页ci和cj之间建立链接,否则,如果k<θ,执行步骤S107,不在聚类列表页ci和cj之间建立链接。
也就是说,如果ci和cj之间共同拥有的文档的数量超过了阈值θ,就在聚类列表页ci和cj之间建立链接。
接下来,在步骤S104,判断
是否 | c i &cap; c j | | c i | &GreaterEqual; | c i &cap; c j | | c j | 成立。
即,被共同拥有的文档的数量k在聚类集合ci中所占的比率是否大于其在cj中所占的比率。如果该判断结果为“是”,则执行步骤S105,即产生从聚类列表页cj到聚类列表页ci的链接,否则,如果该判断结果为“否”,就执行步骤S106,产生从聚类列表页ci到聚类列表页cj的链接。
这样,通过反复应用上述算法,就建立了各个聚类列表页之间的链接。
(ii)构建从聚类列表页到文档的链接
从聚类列表页到文档的链接是从聚类列表页中的每一项到文档中的适当内容的链接,这种类型的链接模拟万维网中从目录型网页到权威型网页的链接。
具体方法为,给定聚类列表页ci,其包含m个文档{di,1,...,di,m}。由于每个文档di,j∈ci(其中j=1,...,m),在本发明中,可以通过聚类集合文档链接部件14所执行的操作直接产生从聚类列表页ci到文档di,j的链接。即,在任何情况下,都存在从聚类列表页ci到其中的每一个文档di,j的链接。
这样,通过对每个聚类列表页及其中的各个文档应用上述算法,就建立了从聚类列表页到文档的链接。
(iii)构建从文档到聚类列表页的链接
下面结合图5说明本发明中构建从文档到聚类列表页的链接的方法,即文档聚类集合链接部件18所执行的操作。对于每个文档,只要它是聚类集合中的代表文档,即该文档按照某种相似度策略靠近该聚类集合的质心(centroid of the cluster),那么就建立从该文档到其聚类列表页的链接。这种类型的链接类似于万维网上权威型网页具有到不同目录型网页的若干个链接的情况。
在步骤S201,给定聚类列表页ci,其包含m个文档{di,1,...,di,m},假设该聚类集合的质心向量为Wcent={w1,...,wT}。将其中的每个权重初始化为0,即wt=0.0(其中t=1,...,T),这里wt∈Wcent,T为文档集合中关键词的数量。
对于每个文档di,j∈ci(其中j=1,...,m),将该文档分为多个关键词(token),假设文档di,j的文档向量为:
Wi,j={wj,1,...,wj,T}  ...  (1)
其中,wj,t为第t个关键词的权重,t=1,...,T。也就是说,文档di,j的文档向量是该文档中的关键词的权重构成的向量。
在步骤S202,第t个关键词的权重计算如下:
wj,t=tfj,t*idf(t)  ...  (2)
这里,tfj,t表示聚类集合ci中的第j个文档di,j中的第t个关键词出现的频率,即词频;而 idf ( t ) = log N N t , 其中,N表示文档集合中文档的数量,Nt表示文档集合中包含关键词t的文档数,idf(t)称为逆文档频率(inverse documentfrequency),它随着Nt的增加而降低。重复上述等式,可以计算出文档di,j中所有关键词的权重。上述计算关键词权重的等式是本领域技术人员所熟知的,在此不再进行详细的描述。
在步骤S203中,将方程(2)代入方程(1),则可以得到文档di,j的文档向量Wi,j的值。
在步骤S204中,通过对m个文档向量Wi,j进行算数平均,就可以计算该聚类集合的质心为:
W &OverBar; cent = 1 m &Sigma; j = 1 m W &OverBar; i , j &CenterDot; &CenterDot; &CenterDot; ( 3 )
在步骤S205,对于每个文档di,j∈ci,计算该文档向量与其聚类集合质心的向量的相似度为:
Sim(di,j,ci)=cos(Wi,j,Wcent)  ...  (4)
在步骤S206,判断Sim(di,j,ci)≥σ是否成立,其中σ为该文档向量与其聚类集合质心向量的相似度的阈值。如果步骤S206的判断结果为“是”,则执行步骤S207,在步骤S207中产生从文档di,j到聚类列表页ci的链接。
这样,通过对文档di,j和聚类列表页ci反复应用上述算法,就建立了从各个文档到它们所属的聚类列表页的链接。
这里需要说明的是,等式(4)中的函数cos(Wi,j,Wcent)是本领域技术人员公知的,在此不需进行更加详细的描述。
(iv)构建文档之间的链接
下面结合图6描述本发明中构建文档之间的链接的方法,即文档链接部件16所执行的操作。如果一个文档用一些主题词或关键字引用了另一个文档,则创建从该文档到被引用文档的链接。例如,如果在一个文档中提到了作者的名字和书的名称,则该文档可以引用对该作者的书的介绍文档。另一方面,如果两个文档在内容上很相似,则可以建立从一个文档到另一个文档的链接。这种类型的链接反映了万维网上权威型网页之间的链接。
下面描述本发明中建立这种链接的方法。
图6是示出本发明中构建文档之间的链接的方法的流程图。
如图6所示,在步骤S301,给定多个文档D={d1,...,dM},其中有任意两个文档di和dj(其中i,j=1,...,M)。
在步骤S302,判断在文档di中是否存在对文档dj的引用。
如果步骤S302的判断结果为“是”,则执行步骤S303,其中产生从文档di到文档dj的链接。否则,如果在文档di中不存在对文档dj的引用,即步骤S302的判断结果为“否”,则执行步骤S304。
在步骤S304中,采用步骤S202和S203所述的方法分别计算文档di的向量Wdi和文档dj的向量Wdj。并且,对文档di的每个关键词按照权重由大到小排序,设定主题词个数1,选出前1个关键词作为主题词,构成主题Ti,相应的主题向量为。在主题向量
Figure C200510073806D0013181756QIETU
中,每个主题词的权重等于其在文档向量Wdi中的权重,其他关键词的权重等于0。
在步骤S305中,用下面的等式(5)计算主题Ti与文档dj的相似度Sim(Ti,dj)。
Sim ( T i , d j ) = cos ( W &OverBar; T i , W &OverBar; d j ) &CenterDot; &CenterDot; &CenterDot; ( 5 )
在步骤S306,判断Sim(Ti,dj)≥α是否成立,其中α是主题Ti与文档dj的相似度的阈值。
如果Sim(Ti,dj)≥α成立,即步骤S306的判断结果为“是”,则返回执行步骤S303。即,在步骤S303中建立从文档di到文档dj的链接。也就是说,如果文档di中的主题与文档dj的相似程度大于某一阈值,则建立从文档di到文档dj链接。
如果步骤S306中的判断结果为“否”,或执行完步骤S303后,处理结束。
这样,通过上述方式,就建立了文档di和dj之间的链接。
上述方法的特点在于,对于两篇文档,由于它们的主题向量不会完全一致,所以根椐上述方法计算所得的相似度值不是对称的,这样可以避免在两个文档之间建立不必要的互指(对称)链接。
在本发明中,既可以通过在计算机等计算设备中运行软件来实现上述方法,也可以将相应的软件固化在诸如CPU、DSP等硬件单元中,通过用所形成的硬件单元构建本发明的设备和系统等,来实现本发明的方法。
本领域的技术人员容易理解,本发明不仅适用于服务器、计算机,还适用于其它类型的计算装置。而且,本发明还适用于各种网络、非网络环境应用,如一计算装置中的文档数据库应用等。
由于通过使用本发明的上述这些方法,在企业内部网中的文档和聚类列表页之间建立了链接,因此可以将各种链接分析算法应用于企业内部的搜索引擎,改善了对企业文档的搜索性能。
尽管以上通过结合具体实施例描述了本发明,但是本领域技术人员知道,在不脱离本发明的精神和范围的情况下,可以对本发明的实施例进行各种修改和变化。

Claims (15)

1.一种用于链接文档的方法,包括步骤:
形成多个聚类集合,其中每个聚类集合由一个或多个文档组成;
为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;以及
根据对所述聚类集合和文档内容的分析来构建链接;
其中,构建链接的步骤进一步包括构建聚类列表页之间的链接,其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。
2.根据权利要求1所述的方法,其特征在于,所述构建链接的步骤进一步包括以下各步骤中的一个或多个:
构建从聚类列表页到文档的链接;
构建从文档到聚类列表页的链接;和
构建文档之间的链接。
3.根据权利要求2所述的方法,其特征在于,如果所述共有文档的数量在所述第一聚类集合中所占的比率大于其在所述第二聚类集合中所占的比率,则产生从所述第二聚类集合的聚类列表页到所述第一聚类集合的聚类列表页的链接,否则,就产生从所述第一聚类集合的聚类列表页到所述第二聚类集合的聚类列表页的链接。
4.根据权利要求2所述的方法,其特征在于,构建从聚类列表页到其中每一个文档的链接。
5.根据权利要求2所述的方法,其特征在于,如果文档与其聚类集合的相似度大于一阈值,则产生从所述文档到所述聚类集合的聚类列表页的链接,其中所述相似度是所述文档的文档向量和所述聚类集合的质心向量的夹角的余弦函数,并且所述质心向量是所述文档向量的算数平均值。
6.根据权利要求5所述的方法,其特征在于,所述文档向量是所述文档中的多个关键词的权重构成的向量,其中所述关键词的权重是所述关键词在所述文档中的频率以及文档集合中包含所述关键词的文档数的函数。
7.根据权利要求2所述的方法,其特征在于,如果第一文档中存在对第二文档的引用,则建立从第一文档到第二文档的链接。
8.根据权利要求2所述的方法,其特征在于,如果第一文档中的主题与第二文档的相似程度大于一阈值,则建立从第一文档到第二文档的链接。
9.根据权利要求1所述的方法,其特征在于,通过在企业内部网中将多个未链接的文档划分为不同的集合来提供所述多个聚类集合。
10.根据权利要求1所述的方法,其特征在于,形成多个聚类集合的步骤包括以下各步骤中的一个或多个:
将一文件系统中的文件夹作为聚类集合,一个文件夹下的文档属于相应的聚类集合;
将分类学中的类别作为聚类集合,所述类别中的文档属于相应的聚类集合;
选择一个划分集合的聚类算法,将文档集合分为m个聚类集合,其中,m可以改变多次;以及
固定聚类集合数量,对文档集合应用n个不同的聚类算法以形成聚类集合。
11.一种用于链接文档的设备,包括:
存储装置,用于存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;
处理装置,用于为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和
链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建链接;
其中,所述链接建立装置包括聚类列表页链接部件,用于构建聚类列表页之间的链接,其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接。
12.根据权利要求11所述的设备,其特征在于,所述链接建立装置包括以下部件中的一个或多个:
聚类集合文档链接部件,用于构建从聚类列表页到文档的链接;
文档聚类集合链接部件,用于构建从文档到聚类列表页的链接;和
文档链接部件,用于构建文档之间的链接。
13.根据权利要求11所述的设备,其中所述处理装置包括聚类集合形成装置,用于形成多个聚类集合,其中每个聚类集合由一个或多个文档组成。
14.根据权利要求11所述的设备,其中聚类集合形成装置进一步配置为通过以下一种或多种方式来形成聚类集合:
将一文件系统中的文件夹作为聚类集合,一个文件夹下的文档属于相应的聚类集合;
将分类学中的类别作为聚类集合,所述类别中的文档属于相应的聚类集合;
选择一个划分集合的聚类算法,将文档集合分为m个聚类集合,其中,m可以改变多次;以及
固定聚类集合数量,对文档集合应用n个不同的聚类算法以形成聚类集合。
15.一种用于链接文档的系统,包括:
第一设备,所述第一设备包括:
存储装置,用于保存数据库,在所述数据库中存储多个聚类集合,其中每个聚类集合由一个或多个文档组成;
处理装置,为每个聚类集合创建聚类列表页,以表示该聚类集合中的文档;和
链接建立装置,用于根据对所述聚类集合和文档内容的分析来构建聚类列表页之间、文档之间和/或聚类列表页与文档之间的链接;
其中,所述链接建立装置包括聚类列表页链接部件,用于构建聚类列表页之间的链接,其中,如果第一聚类集合和第二聚类集合之间共有文档的数量大于或等于一阈值,则构建所述第一聚类集合的聚类列表页与所述第二聚类集合的聚类列表页之间的链接;以及
第二设备,所述第二设备包括:
搜索引擎,根据所建立的链接,在所述数据库中搜索需要的文档。
CNB2005100738064A 2005-05-24 2005-05-24 用于链接文档的方法、设备和系统 Active CN100470544C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB2005100738064A CN100470544C (zh) 2005-05-24 2005-05-24 用于链接文档的方法、设备和系统
US11/439,055 US7499934B2 (en) 2005-05-24 2006-05-23 Method for linking documents
US12/133,766 US8938451B2 (en) 2005-05-24 2008-06-05 Method, apparatus and system for linking documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100738064A CN100470544C (zh) 2005-05-24 2005-05-24 用于链接文档的方法、设备和系统

Publications (2)

Publication Number Publication Date
CN1869978A CN1869978A (zh) 2006-11-29
CN100470544C true CN100470544C (zh) 2009-03-18

Family

ID=37443644

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100738064A Active CN100470544C (zh) 2005-05-24 2005-05-24 用于链接文档的方法、设备和系统

Country Status (2)

Country Link
US (2) US7499934B2 (zh)
CN (1) CN100470544C (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100483408C (zh) * 2005-07-29 2009-04-29 国际商业机器公司 在多个文档之间建立链接结构的方法和装置
US7720870B2 (en) * 2007-12-18 2010-05-18 Yahoo! Inc. Method and system for quantifying the quality of search results based on cohesion
US7958125B2 (en) * 2008-06-26 2011-06-07 Microsoft Corporation Clustering aggregator for RSS feeds
US8095545B2 (en) 2008-10-14 2012-01-10 Yahoo! Inc. System and methodology for a multi-site search engine
CN101876982B (zh) * 2009-04-30 2012-08-15 国际商业机器公司 动态非连通网络在显示区域内的布局方法和系统
US8543381B2 (en) 2010-01-25 2013-09-24 Holovisions LLC Morphing text by splicing end-compatible segments
US8161073B2 (en) 2010-05-05 2012-04-17 Holovisions, LLC Context-driven search
US9582575B2 (en) 2010-07-09 2017-02-28 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for linking items to a matter
CN103092881B (zh) * 2011-10-31 2015-12-16 国际商业机器公司 内联网搜索方法和装置、搜索引擎及终端设备
US10268761B2 (en) * 2011-12-21 2019-04-23 The Boeing Company Panoptic visualization document collection
WO2013095724A1 (en) * 2011-12-21 2013-06-27 The Boeing Company Panoptic visualization document layout
US9589051B2 (en) * 2012-02-01 2017-03-07 University Of Washington Through Its Center For Commercialization Systems and methods for data analysis
CN102819605A (zh) * 2012-08-17 2012-12-12 东方钢铁电子商务有限公司 适应性匹配方法
US9104710B2 (en) 2013-03-15 2015-08-11 Src, Inc. Method for cross-domain feature correlation
CN105630748A (zh) * 2014-10-31 2016-06-01 富士通株式会社 信息处理设备和信息处理方法
WO2016122512A1 (en) * 2015-01-29 2016-08-04 Hewlett-Packard Development Company, L.P. Segmentation based on clustering engines applied to summaries
US10127268B2 (en) * 2016-10-07 2018-11-13 Microsoft Technology Licensing, Llc Repairing data through domain knowledge
CN106528861A (zh) * 2016-11-30 2017-03-22 福建中金在线信息科技有限公司 一种添加内链的方法及装置
US10826985B2 (en) 2017-08-04 2020-11-03 Oracle International Corporation System and method for content tethering in an enterprise content management system
CN109086348B (zh) * 2018-07-13 2023-04-18 腾讯科技(深圳)有限公司 超链接的处理方法和装置及存储介质
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6078913A (en) 1997-02-12 2000-06-20 Kokusai Denshin Denwa Co., Ltd. Document retrieval apparatus
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
TW371736B (en) 1997-10-08 1999-10-11 Yen-Yuan Chianh Virtual IP gate and its IP construction
US6078924A (en) 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
AU4954200A (en) * 1999-06-04 2000-12-28 Seiko Epson Corporation Document sorting method, document sorter, and recorded medium on which document sorting program is recorded
US7103625B1 (en) 1999-10-05 2006-09-05 Veritas Operating Corporation Virtual resource ID mapping
EP3367268A1 (en) 2000-02-22 2018-08-29 Nokia Technologies Oy Spatially coding and displaying information
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
GB0024000D0 (en) 2000-09-30 2000-11-15 Pace Micro Tech Plc Electronic document filing system
US7260648B2 (en) 2001-01-25 2007-08-21 Ericsson, Inc. Extension of address resolution protocol (ARP) for internet protocol (IP) virtual networks
WO2002082318A2 (en) 2001-02-22 2002-10-17 Volantia Holdings Limited System and method for extracting information
US6609124B2 (en) 2001-08-13 2003-08-19 International Business Machines Corporation Hub for strategic intelligence
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US20020156779A1 (en) 2001-09-28 2002-10-24 Elliott Margaret E. Internet search engine
WO2003098466A1 (en) 2002-05-14 2003-11-27 Verity, Inc. Apparatus and method for region sensitive dynamically configurable document relevance ranking
US7231393B1 (en) * 2003-09-30 2007-06-12 Google, Inc. Method and apparatus for learning a probabilistic generative model for text
US7383258B2 (en) 2002-10-03 2008-06-03 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words
US7958074B2 (en) 2002-12-23 2011-06-07 International Business Machines Corporation Method and structure for domain-independent modular reasoning and relation representation for entity-relation based information structures
US20040139042A1 (en) 2002-12-31 2004-07-15 Schirmer Andrew L. System and method for improving data analysis through data grouping
US20040187075A1 (en) 2003-01-08 2004-09-23 Maxham Jason G. Document management apparatus, system and method
US7890633B2 (en) 2003-02-13 2011-02-15 Oracle America, Inc. System and method of extending virtual address resolution for mapping networks
US20050076000A1 (en) * 2003-03-21 2005-04-07 Xerox Corporation Determination of table of content links for a hyperlinked document
US7146356B2 (en) 2003-03-21 2006-12-05 International Business Machines Corporation Real-time aggregation of unstructured data into structured data for SQL processing by a relational database engine

Also Published As

Publication number Publication date
CN1869978A (zh) 2006-11-29
US8938451B2 (en) 2015-01-20
US7499934B2 (en) 2009-03-03
US20080288535A1 (en) 2008-11-20
US20060271536A1 (en) 2006-11-30

Similar Documents

Publication Publication Date Title
CN100470544C (zh) 用于链接文档的方法、设备和系统
CN100573513C (zh) 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统
Adar et al. Implicit+ Structure+ and+ the+ Dynamics+ of+ Blogspace
Qu et al. Efficient topological OLAP on information networks
Wang et al. Using evidence based content trust model for spam detection
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
US6968331B2 (en) Method and system for improving data quality in large hyperlinked text databases using pagelets and templates
CN107391659A (zh) 一种基于信誉度的引文网络学术影响力评价排序方法
CN103914490B (zh) 网页运行方法和系统
Prakash et al. Web crawling through shark-search using PageRank
CN103440308A (zh) 一种基于形式概念分析的数字论文检索方法
Lee et al. Perturbation of the hyper-linked environment
Fan et al. Genetic-based approaches in ranking function discovery and optimization in information retrieval—a framework
Yang et al. On characterizing and computing the diversity of hyperlinks for anti-spamming page ranking
Shaffi et al. Weighted PageRank Algorithm Search Engine Ranking Model for Web Pages.
Nithya Link Analysis Algorithm for Web Structure Mining
CN104391982A (zh) 信息推荐方法和信息推荐系统
Gündüz et al. Recommendation models for user accesses to web pages
Luo et al. Generation of similarity knowledge flow for intelligent browsing based on semantic link networks
Xu et al. Query recommendation based on improved query flow graph
Poblete et al. Dr. searcher and mr. browser: a unified hyperlink-click graph
Lambhate et al. Hybrid algorithm on semantic web crawler for search engine to improve memory space and time
Du et al. A novel page ranking algorithm based on triadic closure and hyperlink-induced topic search
Yaltaghian et al. Re-ranking search results using network analysis: a case study with Google
Signorini A survey of Ranking Algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant