CN1904886A - 在多个文档之间建立链接结构的方法和装置 - Google Patents

在多个文档之间建立链接结构的方法和装置 Download PDF

Info

Publication number
CN1904886A
CN1904886A CNA2005100888254A CN200510088825A CN1904886A CN 1904886 A CN1904886 A CN 1904886A CN A2005100888254 A CNA2005100888254 A CN A2005100888254A CN 200510088825 A CN200510088825 A CN 200510088825A CN 1904886 A CN1904886 A CN 1904886A
Authority
CN
China
Prior art keywords
link structure
document
documents
initial
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100888254A
Other languages
English (en)
Other versions
CN100483408C (zh
Inventor
刘世霞
杨力平
张俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB2005100888254A priority Critical patent/CN100483408C/zh
Priority to US11/996,108 priority patent/US7895195B2/en
Priority to PCT/EP2006/063876 priority patent/WO2007012550A1/en
Priority to EP06777569A priority patent/EP1910943A1/en
Publication of CN1904886A publication Critical patent/CN1904886A/zh
Application granted granted Critical
Publication of CN100483408C publication Critical patent/CN100483408C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明提供了一种在多个文档之间建立链接结构的方法,包括:在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;针对至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;输出修改后的链接结构G1。

Description

在多个文档之间建立链接结构的方法和装置
技术领域
本发明涉及文档信息管理的技术,尤其涉及在在多个文档之间建立链接结构的方法和装置。
背景技术
在很多情况下,信息之间是相互关联的。信息之间可以通过链接相互关联而形成一定的链接拓扑结构,而该链接拓扑结构可以作为信息分析的重要资源。WWW系统是信息之间相互链接的一种典型的系统。WWW系统包括超链接的集合。除了网页的文本内容本身外,类似WWW系统的链接结构,可以作为重要信息用于帮助用户搜索所需信息。例如,网页p上由p指向q的链接,该链接建议网页p的读者跟随该链接访问q。
利用链接分析算法,可以根据链接结构获取有用的信息并改进搜索引擎的性能。利用万维网的链接结构,可以为每个网页在网络信息中的重要性赋予一个排序值(rank)。
然而,很多企业的文档之间缺乏链接,或者没有链接。这使得企业内部的信息搜索变得困难。
发明内容
鉴于已有技术的不足,本发明所要解决的问题之一是提供一种在多个文档之间建立链接结构的方法,尤其是在非HTML文档之间建立链接结构的方法。
本发明的另一个目的是提供一种文档搜索方法,其中在多个文档之间建立链接结构,然后利用该链接结构进行文档搜索。这样,搜索引擎的等级排序可以得到有效的改善。
本发明提供了一种在多个文档之间建立链接结构的方法,包括:
a)在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;b)针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;c)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;d)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;e)输出修改后的链接结构G1。
本发明还提供了一种修改多个文档之间的链接结构的方法,其中所述多个文档之间具有包括多个链接的初始链接结构G0,所述方法包括:a)针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;b)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;c)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤a)-b),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;d)输出修改后的链接结构G1。
本发明还提供了一种用于在多个文档之间建立链接结构的装置,包括:初始链接建立装置,用于在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;搜索引擎,配置为针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;链接结构修改装置,配置为根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;判断装置,用于判断修改后的链接结构G1与初始链接结构G0之间的差别是否小于一预定的阈值或修改所述链接结构的次数达到预定的次数,如果否,则将修改后的链接结构G1作为初始链接结构G0,重新利用搜索引擎和链接结构修改装置来修改链接结构,如果是,则利用一输出装置输出修改后的链接结构G1。
本领域的技术人员容易理解,在本发明的上述方法或装置中,针对所述多个文档(例如文档1、2、3、4、5、6、7、8、9、10、11和12)的至少部分文档(例如文档1、2、3、4和12)中的每个文档d(文档d为文档1、2、3、4或12),根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档(如当文档d为文档4时,所述多个文档中的其它文档为文档1、2、3、5、6、7、8、9、10、11和12)进行等级排序,以获得等级排序结果,可以包括但不限于下述技术方案中的一个或多种:
针对所述多个文档的至少部分文档中的每个文档,根据其每个检索词利用一搜索引擎分别对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。
针对所述多个文档的至少部分文档中的每个文档,在每一次等级排序中,根据其多个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。
对于所述每个文档,根据其多个检索词可以分别根据其多个检索词进行等级排序或同时根据其多个检索词进行等级排序。
针对所述多个文档的至少部分文档中的每个文档,在每一次等级排序中,对于有的文档根据其多个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;而对于有的文档仅根据其一个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。
本发明提供了一种迭代方法,用于将多个已有文档,尤其是将多个非HTML文档链接起来。根据该方法,可以在企业的文档之间建立类似于万维网中的链接结构。使用该链接结构进行搜索,可以提高搜索的效能。
根据本发明,对于每个非HTML文档A,查找一些与其相关的文档,生成文档A与这些相关的文档之间的链接。这样,就在企业的文档之间建立了类似于万维网中的链接结构。基于该链接结构,可以利用一搜索引擎对具有链接结构的多个文档进行等级排序,以获得等级排序结果。然后根据等级排序结果,修改该链接结构。重复进行上两个步骤就可以改进该链接结构。该改进的链接结构,更有利于文档搜索。
根据本发明的方法,可以在非HTML文档之间建立虚拟网络,该虚拟网络的结构类似于万维网的结构。根据本发明建立的链接结构还可用于搜索引擎,来改进搜索的准确度(recall and precision)。根据本发明的企业搜索引擎还可以帮助企业文档的用户找到其所需要的信息。
附图说明
图1示出了根据本发明一实施例的方法的流程图。
图2是根据本发明的一实施例的装置的框图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
图1示出了根据本发明一实施例的方法的流程图。该流程图示出了一种在多个文档之间建立链接结构的方法。其中,该多个文档之间可以完全没有链接,也可以有部分链接。该已有的部分链接可以作为下文所述的初始链接的一部分。
本领域的技术人员容易理解,该方法还可用于修改多个文档之间已经建立的链接结构。
在图1中的步骤S110,首先在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0。在所述多个文档之间建立多个初始链接可以通过多种已有的方式来进行。如可以根据一篇文档中的检索词(如关键词、主题词或根据文档的文档片段得到的其它检索词)与其它文档的相关程度关系,来建立初始链接;还可以根据一篇文档对其它文档的引用来建立初始链接,也可以根据文档之间的存储目录关系等等来建立初始链接。
在步骤S120,针对具有一个或多个检索词的、所述多个文档的至少部分或全部文档中的每个文档d,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。也可以针对所述多个文档的每个文档,在同一次等级排序中,根据其多个检索词利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果。
其中,检索词可以包括关键词或主题词,或者根据文档内容获得的其它检索词。对网页进行等级排序,是本领域中的一项众所周知的技术,如目前著名的搜索网站 http:∥www.google.com所采用的网页等级排序。在本发明中,把一个文档作为一个网页来看待进行文档等级排序。
在步骤S130,根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1。修改可以但不限于通过以下方式进行。对于每篇文档的每个检索词,利用一搜索引擎分别对具有初始链接结构G0的所述多个文档进行文档等级排序后,选择所述其它文档在所述等级排序结果中的前N个文档。保持或创建所述文档d到该前N个文档的链接,并删除所述文档d到未选定的文档的链接,其中N是自然数。也可以针对文档等级排序结果,通过加权选择的方法选择其中的文档和/或链接。
在步骤S140,比较修改后的链接结构G1与初始链接结构G0之间的差别。该差别可以用相应的差别链接的数量来表述,也可以用其它链接结构差别的表述方法。差别链接的数量,例如,修改后的链接结构G1与初始链接结构G0之间不同的链接的数量为K,即修改链接结构G0的K个链接可以得到链接结构G1。如果修改后的链接结构G1与初始链接结构G0之间的差别大于给定的阈值,则在步骤S150将G1作为G0,并返回到步骤S120。
重复执行步骤S120-S140,直到修改后的链接结构G1与初始链接结构G0之间的差别小于给定的阈值,或迭代次数达到给定的次数M。然后,在步骤S160将最终得到的修改后的链接结构G1输出,作为所述多个文档之间的链接结构。
多年以来,企业已逐渐善于从数据库中提取信息。不幸的是,尽管企业的大量信息存储在备忘录、文章和电子邮件中,直到最近企业才开始发掘其所拥有的非结构性数据。而从这些非结构性数据中提取信息,效率远远低于从数据库中提取信息。关键词可以被用于搜索信息,但是无法得知与关键词匹配的多个文档之中,哪一个是最重要的。这种在搜索时受挫败的结果,现在逐渐成为了企业所遇到的一种危机—因为企业继续提高其效率,就需要重新组织他们已经拥有的信息,而不能将这些信息忽略。因此,企业需要一种有效的搜索引擎来在企业内部进行信息搜索。
在上文所述的迭代方法中,将已有的非HTML文档链接起来,可以采用下述方法。
在非HTML文档之中创建与万维网类似的初始链接结构G0。
该方法的基本思想是为每个文档找到一些与其建立链接的候选文档。例如,可以通过如下方法找到这些候选文档。
1)如果一篇文档明确地引用了另一篇文档,则被引用的文档就可作为候选文档。
2)根据该文档中的专有命名实体(named entities)创建链接,该链接可以是超链接或虚拟超链接(virtual hyperlinks)。
例如,如果给定文档A的一个或多个段落描述的核心是一特定的专有命名实体,而该专有命名实体是另一文档B的代表性专有命名实体(representative named entity),则创建从文档A到文档B的链接。
3)通过检索词(query)创建链接
在该方法中,从一给定的文档A中提取一些检索词。利用每个检索词,使用当前的搜索引擎从企业的其它文档中找出相关的文档。然后,从这些相关的文档中选择一些候选文档,以便创建与这些候选文档的链接。
在该方法中,可以通过以下方法来生成检索词。首先,将文档分成几个文本片段。然后为每个文本片段生成一个检索词。
可以使用以下本领域已有的历史算法(history algorithm)来生成所要处理的文本片段;并进而利用当前文本片段前面的文本片段来辅助生成当前文本片段的检索词。对于生成文本片段,还可以通过简单地将文档划分为几段来得到,如将文档的自然段作为文本片段,或者将文档中与某一主题相关的段落作为一文本片段。
历史算法主要使用以下文档特性:引导到当前文本片段的上下文可能包含用于为当前文本片段生成检索词有用的术语。
目前,在信息处理方向上,文本的表示主要采用向量空间模型。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3.....Wn),其中Wi为第i个特征项的权重。一般选择字、词或词组作为特征项。一般地,选取词作为特征项优于字和词组。因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的向量表示完全是0、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用tf-idf公式。
在历史算法中,选择用于生成查询的一个文本片段(或文本流)。在本发明的电子文档的处理方法中,可以从文档中选择一部分作为一个文本片段,也可以根据文档利用算法自动生成一个文本片段。其中,对文档首先进行预处理,根据现有技术的对文档的处理方式,所述的预处理包括:从文档中提取文本片段的操作,以及对提取出的文本片段去除停用词(stopword)的操作。如果是自动生成文本片段,则可以通过历史算法来生成一个与文档内容相关的、待处理的文本片段。该方法主要是基于这一性质:与当前文本片段相连接的先前的文本片段内容与当前待处理的文本片段的内容有可能相关,其对当前文本片段查询信息的生成仍然有所帮助。此处,历史算法使用先前相关联的文本片段中的词来辅助生成关于当前文本片段的查询,即利用当前文本片段之前的文本片段S的向量表示(旧文本片段,可用向量v1表示)与当前文本片段的向量表示的相关程度来决定相应文本片段的合并,进而生成文本片段,即,历史算法是将以前相关联的文本片段与新的文本片段合并来生成需要处理的文本片段。具体来说,对文本片段来说,其向量表示保存了文本片段中除停用词之外的每一个词在文本片段中的重要性(权重)。所述方法包括:
i)计算先前相关联的文本片段中每个词(不包括停用词)的重要性(权重),例如使用tf-idf方法,如公式(1)
wj=tf*idf    (1)
在公式1中,tf是该词在文本片段S中出现的频率(次数),idf=all_segments/term_segments;其中,all_segments是整个文档中独立文本片段的数量,term_segments是其中包含该词的独立文本片段的数量。此处,独立文本片段是用来生成查询的相关联的若干文本片段构成。可知,在现有搜索技术中,一个查询对应的是一些关键词、或是关键词词语串,或是一些简单的问题。
ii)根据每个词在文本片段中的重要性,计算当前文本片段与在前的多个文本片段S之间的相似程度。具体地,当接收到一个新的文本片段T后,使用tf-idf方法来构造该新的文本片段的向量表示v2。计算新文本片段T的向量表示v2与旧文本片段S的向量表示v1之间的相似性得分来检查文本片段T与旧文本片段S之间的相似程度。
iii)将当前文本片段T与先前相关联的文本片段S之间的相似性程度与一个给定的阈值进行比较。如果相似性得分高出给定的阈值,则可以得出,当前文本片段T与之前的文本相似;否则,T与之前的文本不相似。
如果T与位于其之前的文本相似,则将向量v1的每个分量乘以衰减因子α(0<α<1),然后合并向量v1和v2得到向量v3,用v3替代v1。合并S和T得到候选文本片段ST,并用ST替代T,继续接受新的文本片段。如果T与之前的文本不相似,文本片段T就是当前所要处理的候选文本片段。此外,用向量v2代替向量v1,S代替T,为下一个文本片段的生成作好准。
在下文中,将为文本片段T、S或ST生成检索词。下一步,为这些文本片段生成检索词。对于本领域的技术人员来说,对于一个给定的文本片段,有多种方法来生成检索词。首先,文档的作者可以输入其所认为的与文本片段最相近的检索词。第二,可以利用已有的多种算法来生成检索词。例如,可以利用tf-idf算法来从给定的文本片段选择关键词。在此,可以根据合并的术语向量来选择关键词。
最后,将检索词提交给当前的搜索引擎。从搜索结果中选择最相关的文档,作为给定文档的候选文档。在此可以利用搜索引擎,对文档进行等级排序方法,然后选择前几个文档作为候选文档。也可以通过以下方法选定最相关的文档。在搜索结果中选择前100篇文档作为文档集合D。然后计算文档集合的向量表示VD。例如,可以通过计算一个词汇在文档集合中出现的次数来创建向量VD。每个集合中的文档j也以一向量Vdj来表示。然后,利用Sim(D,dj)=cos(VD,Vdj)计算每个文档与文档集合之间的相似性。具有最大相似性值的文档作为候选文档。
在上述步骤创建的多个初始链接形成初始链接结构G0。针对至少部分或全部文档中的每个文档d,使用为其产生的每一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档进行等级排序,以获得等级排序结果。在此,将每个文档作为一个网页来进行因特网等级排序。然后,根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1。例如,对于进行等级排序后的多个文档,取前N个(N为一自然数)文档,保留或创建上述文档d到该N个文档的链接。删除上述文档d到其它文档的链接。
作为另一种选择,对于给定的上述文档d,也可以利用上文步骤中的方法,从等级排序后的文档中选择多个候选文档,例如3个、4个、5个或6个。然后,保留或创建上述文档d到多个候选文档的链接。而删除上述文档d到其它文档的链接。
将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述修改链接结构的步骤,直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数M。
在上述迭代次数达到预定的次数M的情况下,最多有M个万维网状链接结构,在此表示为G1,G2,...,Gi,...,GM。最终的链接结构G可以通过下述方法得到:最终的链接结构G的节点是在每个链接结构Gi中都包括的那些节点,最终的链接结构G的页节点(edge)是在多个链接结构Gi中包括的那些页节点。例如,如果页节点eij在M个Gi中至少M/3个Gi中的页节点,则将页节点eij包括在最终的链接结构中。
图2示出了根据本发明另一实施例的用于在多个文档之间建立链接结构的装置200。该用于在多个文档之间建立链接结构的装置200用于执行本发明的上述方法,其包括:初始链接建立装置210,用于在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;搜索引擎220,配置为针对至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;链接结构修改装置230,配置为根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;判断装置240,用于判断修改后的链接结构G1与初始链接结构G0之间的差别是否小于一预定的阈值或修改所述链接结构的次数达到预定的次数,如果否,则将修改后的链接结构G1作为初始链接结构G0,重新利用搜索引擎和链接结构修改装置来修改链接结构,如果是,则利用一输出装置250输出修改后的链接结构G1。
本发明还提供了一种搜索方法,包括根据本发明的上述的方法,在多个文档之间建立链接结构;以及利用该链接结构在所述文档中进行搜索。该搜索可以根据关键词、文件的类型或时间等进行。
本发明还提供了一种存储介质或信号载体,其中包括用于执行根据本发明的方法的指令。
以上结合优选法方案对本发明进行了详细的描述,但是可以理解,以上实施例仅用于说明而非限定本发明。本领域的技术人员可以对本发明的所示方案进行修改而不脱离本发明精神。

Claims (13)

1.一种在多个文档之间建立链接结构的方法,包括:
a)在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;
b)针对所述多个文档中的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;
c)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;
d)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤b)-c),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;
e)输出修改后的链接结构G1。
2.根据权利要求1所述的在多个文档之间建立链接结构的方法,其中在步骤b)中所述的检索词包括文档的关键词、主题词或根据文档的文档片段得到的其它检索词。
3.根据权利要求1所述的在多个文档之间建立链接结构的方法,其中在步骤c)中进一步包括:选择所述其它文档在所述等级排序结果中的前N个文档,保持或创建所述文档d到该前N个文档的链接,并删除所述文档d到未选定的文档的链接,其中N是自然数。
4.根据权利要求1所述的在多个文档之间建立链接结构的方法,其中在步骤a)中进一步包括:根据所述多个文档中每个文档的检索词,从其它文档中选择候选文档,创建每个文档与候选文档的初始链接。
5.根据权利要求1所述的在多个文档之间建立链接结构的方法,其中所述的初始链接结构和修改后的链接结构是网状的链接结构。
6.一种修改多个文档之间的链接结构的方法,其中所述多个文档之间具有包括多个链接的初始链接结构G0,所述方法包括:
a)针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;
b)根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;
c)将修改后的链接结构G1作为初始链接结构G0,以迭代的方式执行上述步骤a)-b),直至修改后的链接结构G1与初始链接结构G0之间的差别小于一预定的阈值或上述迭代的次数达到预定的次数;
d)输出修改后的链接结构G1。
7.一种用于在多个文档之间建立链接结构的装置,包括:
初始链接建立装置,用于在所述多个文档之间建立多个初始链接,以形成所述多个文档之间的初始链接结构G0;
搜索引擎,配置为针对所述多个文档的至少部分文档中的每个文档d,根据其一个或多个检索词,利用一搜索引擎对具有初始链接结构G0的所述多个文档中的其它文档进行等级排序,以获得等级排序结果;
链接结构修改装置,配置为根据所述等级排序结果修改所述初始链接结构G0,以获得修改后的链接结构G1;
判断装置,用于判断修改后的链接结构G1与初始链接结构G0之间的差别是否小于一预定的阈值或修改所述链接结构的次数达到预定的次数,如果否,则将修改后的链接结构G1作为初始链接结构G0,重新利用搜索引擎和链接结构修改装置来修改链接结构,如果是,则利用一输出装置输出修改后的链接结构G1。
8.根据权利要求7所述的用于在多个文档之间建立链接结构的装置,其中所述的检索词包括文档的关键词、主题词或根据文档的文档片段得到的其它检索词。
9.根据权利要求7所述的用于在多个文档之间建立链接结构的装置,其中所述链接结构修改装置进一步配置为:选择所述其它文档在所述等级排序结果中的前N个文档,保持或创建所述文档d到该前N个文档的链接,并删除所述文档d到未选定的文档的链接,其中N是自然数。
10.根据权利要求7所述的用于在多个文档之间建立链接结构的装置,其中所述初始链接建立装置进一步配置为:根据所述多个文档中每个文档的检索词,从其它文档中选择候选文档,创建每个文档与候选文档的初始链接。
11.根据权利要求7所述的用于在多个文档之间建立链接结构的装置,其中所述的初始链接结构和修改后的链接结构是网状的链接结构。
12.一种搜索方法,包括根据权利要求1-6中的任一种方法,在多个文档之间建立链接结构;以及利用该链接结构在所述文档中进行搜索。
13.一种存储介质或信号载体,其中包括用于执行根据权利要求1-6所述方法的指令。
CNB2005100888254A 2005-07-29 2005-07-29 在多个文档之间建立链接结构的方法和装置 Expired - Fee Related CN100483408C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB2005100888254A CN100483408C (zh) 2005-07-29 2005-07-29 在多个文档之间建立链接结构的方法和装置
US11/996,108 US7895195B2 (en) 2005-07-29 2006-07-04 Method and apparatus for constructing a link structure between documents
PCT/EP2006/063876 WO2007012550A1 (en) 2005-07-29 2006-07-04 Method and apparatus for constructing a link structure between documents
EP06777569A EP1910943A1 (en) 2005-07-29 2006-07-04 Method and apparatus for constructing a link structure between documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100888254A CN100483408C (zh) 2005-07-29 2005-07-29 在多个文档之间建立链接结构的方法和装置

Publications (2)

Publication Number Publication Date
CN1904886A true CN1904886A (zh) 2007-01-31
CN100483408C CN100483408C (zh) 2009-04-29

Family

ID=36997854

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100888254A Expired - Fee Related CN100483408C (zh) 2005-07-29 2005-07-29 在多个文档之间建立链接结构的方法和装置

Country Status (4)

Country Link
US (1) US7895195B2 (zh)
EP (1) EP1910943A1 (zh)
CN (1) CN100483408C (zh)
WO (1) WO2007012550A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674082A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868540B2 (en) 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US8707451B2 (en) 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US8027982B2 (en) 2006-03-01 2011-09-27 Oracle International Corporation Self-service sources for secure search
US8214394B2 (en) 2006-03-01 2012-07-03 Oracle International Corporation Propagating user identities in a secure federated search system
US9177124B2 (en) 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US8875249B2 (en) 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US8332430B2 (en) 2006-03-01 2012-12-11 Oracle International Corporation Secure search performance improvement
US8005816B2 (en) * 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US8433712B2 (en) 2006-03-01 2013-04-30 Oracle International Corporation Link analysis for enterprise environment
US7996392B2 (en) * 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8179915B2 (en) * 2007-06-28 2012-05-15 Lantiq Deutschland Gmbh System and method for transmitting and retransmitting data
US8316007B2 (en) 2007-06-28 2012-11-20 Oracle International Corporation Automatically finding acronyms and synonyms in a corpus
US8078613B2 (en) * 2007-11-28 2011-12-13 Red Hat, Inc. Method for removing network effects from search engine results
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
CN103365831B (zh) * 2012-03-29 2017-07-21 深圳市世纪光速信息技术有限公司 一种为文本添加超级链接的方法和装置
US20150073958A1 (en) * 2013-09-12 2015-03-12 Bank Of America Corporation RESEARCH REPORT RECOMMENDATION ENGINE ("R+hu 3 +lE")

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5745360A (en) * 1995-08-14 1998-04-28 International Business Machines Corp. Dynamic hypertext link converter system and process
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6049799A (en) * 1997-05-12 2000-04-11 Novell, Inc. Document link management using directory services
US6449640B1 (en) * 1997-06-19 2002-09-10 International Business Machines Corporation Web server with unique identification of linked objects
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US6574644B2 (en) 1997-11-26 2003-06-03 Siemens Corporate Research, Inc Automatic capturing of hyperlink specifications for multimedia documents
US6138129A (en) * 1997-12-16 2000-10-24 World One Telecom, Ltd. Method and apparatus for providing automated searching and linking of electronic documents
US6457028B1 (en) * 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
US6377259B2 (en) * 1998-07-29 2002-04-23 Inxight Software, Inc. Presenting node-link structures with modification
JP2001132482A (ja) * 1999-11-01 2001-05-15 Unisia Jecs Corp 内燃機関のバルブタイミング制御装置
US6654739B1 (en) * 2000-01-31 2003-11-25 International Business Machines Corporation Lightweight document clustering
EP1267280A3 (en) 2000-05-31 2003-03-19 Samsung Electronics Co., Ltd. Method and apparatus for populating, indexing and searching a non-html web content database
US6691112B1 (en) * 2000-08-01 2004-02-10 Darren Michael Siegal Method for indexing and managing a searchable community of non-HTML information
US7010527B2 (en) 2001-08-13 2006-03-07 Oracle International Corp. Linguistically aware link analysis method and system
US7231393B1 (en) * 2003-09-30 2007-06-12 Google, Inc. Method and apparatus for learning a probabilistic generative model for text
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
JP2005190124A (ja) * 2003-12-25 2005-07-14 Fujitsu Ltd 文献分析プログラムおよびその記録媒体、文献分析装置ならびに文献分析方法
JP2008525896A (ja) * 2004-12-23 2008-07-17 ビカム, インコーポレイテッド リンクされた文書の集合に相対的品質スコアを割り当てるための方法
CN100470544C (zh) * 2005-05-24 2009-03-18 国际商业机器公司 用于链接文档的方法、设备和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674082A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质
CN110674082B (zh) * 2019-09-24 2023-03-14 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
US7895195B2 (en) 2011-02-22
EP1910943A1 (en) 2008-04-16
CN100483408C (zh) 2009-04-29
WO2007012550A1 (en) 2007-02-01
US20080222138A1 (en) 2008-09-11

Similar Documents

Publication Publication Date Title
CN1904886A (zh) 在多个文档之间建立链接结构的方法和装置
US9069857B2 (en) Per-document index for semantic searching
US7644069B2 (en) Search ranking method for file system and related search engine
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
US8166021B1 (en) Query phrasification
US7565350B2 (en) Identifying a web page as belonging to a blog
CN104199965B (zh) 一种语义信息检索方法
US20030221163A1 (en) Using web structure for classifying and describing web pages
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US20100023508A1 (en) Search engine enhancement using mined implicit links
US20040236725A1 (en) Disambiguation of term occurrences
CN101036143A (zh) 用于记号空间资料库的多级查询处理系统与方法
CN1839386A (zh) 使用语义歧义消除与扩展的因特网搜索
JP2020537268A (ja) 大規模なデータベースにおけるセマンティック検索のための方法及びシステム
CN1750002A (zh) 提供搜索结果的方法
WO2007089289A2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
CN1687925A (zh) 一种实现双语网页搜索的方法
CN1869978A (zh) 用于链接文档的方法、设备和系统
US7765204B2 (en) Method of finding candidate sub-queries from longer queries
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
US8949254B1 (en) Enhancing the content and structure of a corpus of content
CN103226601B (zh) 一种图片搜索的方法和装置
US7680760B2 (en) System and method for labeling a document
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090429

Termination date: 20200729

CF01 Termination of patent right due to non-payment of annual fee