CN101308499A

CN101308499A - 一种基于关联分析的文献检索方法

Info

Publication number: CN101308499A
Application number: CNA2008100482757A
Authority: CN
Inventors: 金海�; 宁小敏; 袁平鹏; 余一娇; 黄莉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2008-07-04
Filing date: 2008-07-04
Publication date: 2008-11-19
Anticipated expiration: 2028-07-04
Also published as: CN100573531C

Abstract

本发明公开了一种基于关联分析的文献检索方法。步骤为：①以文献的信息单元为节点、以信息单元之间的关联为边，建立网络图；②对于检索请求Q＝{k₁，k₂，...，k_n}，每个关键字确定一个包含该关键字节点集合，共有n个集合，表示为V₁，V₂，...，V_n；③将检索请求的答案R初始化为集合V₁中的任意一个节点；④对于剩余的其它集合，均构建一条到当前答案R的最短路径，并将该路径加入到R中，作为当前新的答案R，并输出R；⑤判断集合V₁中是否包含未被选择的其它节点，如果有，则将答案R重新初始化为该节点，并重复执行步骤④。本发明的检索结果为包含检索关键字的连通子图；同时，检索方式使用普通用户所熟悉的关键字接口，用户不需理解文献库后台隐含的数据结构。

Description

一种基于关联分析的文献检索方法

技术领域

本发明属于计算机领域的分布式计算和信息检索，具体涉及一种基于关联分析(Relationship Analysis)的文献检索方法。

背景技术

当前的文献检索系统(如中国学术期刊网CNKI、计算机ACM数据库、IEEE电子图书馆等)，主要采用关键字方式检索到满足用户查询请求的结果列表(如学术论文列表、作者列表、学术会议列表等)。但是不同于普通的文档集合，文献包含更加丰富的信息单元(如作者Author、学术会议Conference、期刊杂志Journal、论文Publication、论文标题、论文发表日期等)，信息单元之间存在着异构的关联，例如，某篇学术论文由某作者撰写(written-by)、或者被其它的论文引用(cited-by)、或者同其它论文在全文内容上相似(similar-to)、或者被学术会议录用(published-in)等，这些关联具有不同的含义。如果以文献的信息单元为节点、以信息单元之间的关联为边，则可以将文献库看成巨大的网络图，而不是简单的线性列表。所以可以采用图中的关联分析方法(Relationship Analysis)进行文献的检索，检索的结果是包含检索关键字的连通子图，该连通子图表示关键字之间的关联。例如，用户检索请求为Q＝{Bob，Algorithm}，期望检索到与这两个关键字相关联的文献信息，可能存在如下两个满足请求的结果：(1)某篇论文的作者为Bob，其全文包含关键字Algorithm；(2)某篇论文的标题包含关键字Algorithm，该论文被作者Bob所写的论文引用。

关联分析的方法被广泛应用在万维网Web搜索引擎中，如Google、Yahoo！、百度Baidu等。著名的Google PageRank算法利用网页超级链接分析，以网页为节点、网页之间的超级链接为边，将Web看成巨大的有向图，基于网页如果被其它重要网页链接则其重要性增加的原理，计算网页的PageRank值。但是，以上Web搜索引擎的检索结果仍然是简单的网页列表。

文献引用分析(Citation Analysis)属于关联分析中的一种，主要是根据论文被引用的次数多少评估该论文的价值，例如美国《科学引文索引》(Science Citation Index-SCI)，根据每种期刊发表论文的被引用次数以及发表的论文总数计算出该期刊的影响因子(Impact Factor)。引用分析提供了一种新的文献检索方法，即从某篇论文可以检索到所有引用过该论文的其它论文，然后以这些引用论文为新的检索起点，检索到更多的被引论文。但是这种检索方法功能单一，只能根据简单的引用关系(cited-by)检索文献，而不能提供功能更加丰富的基于关联分析的文献检索。

发明内容

本发明的目的在于提供一种基于关联分析的文献检索方法。该方法实现基于关联分析的文献检索，能检索到与检索关键字相关联的连通图，而不是传统的简单文献信息列表。

本发明提供的基于关联分析的文献检索方法，其步骤包括：

(1)以文献数据库中所有文献的信息单元为节点、以信息单元之间的关联为边，建立文献网络图；

(2)对于有n个关键字的用户检索请求Q＝{k₁，k₂，…，k_n}，n为正整数，每个关键字都确定一个节点集合，该集合包括所有包含该关键字的节点，则总共有n个集合，分别表示为V₁，V₂，…，V_n；

(3)将检索请求的答案R初始化为集合V₁中的任意一个节点；

(4)对于剩余的n-1个集合中的每个集合，都构建一条到当前答案R的最短路径，并将该最短路径加入到R中，作为当前新的答案R；

(5)输出答案R；

(6)判断集合V₁中是否包含未被选择的其它节点，如果有，则将答案R重新初始化为该节点，并进入步骤(4)；否则，进入步骤(7)；

(7)检索结束。

本发明提供一种基于关联分析的文献检索方法，能检索到与用户检索请求相关联的文献信息。具体而言，本发明具有以下特点：

(1)检索的结果是包含检索关键字的连通子图，该连通子图表示关键字之间的关联，具有明确的含义。传统的文献检索方法采用简单的文献信息列表方式，主要是检索与关键字匹配的文献信息，如标题、作者、全文、摘要等，而不能检索更加复杂的关联图。

(2)检索的方式使用普通用户所熟悉的关键字接口，用户不需要理解文献库后台隐含的数据结构。文献库属于半结构化的数据，通常的检索方式是数据库结构化查询语言SQL，但是要求用户熟悉SQL查询语言并理解后台的数据组织结构。

附图说明

图1是本发明基于关联分析的文献检索方法流程图。

图2为满足检索请求的答案R生成过程的实例图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

如图1所示，本发明方法包括以下几个步骤：

(1)获取文献数据库中所有文献的信息单元，包括文献的作者Author、学术会议Conference、期刊杂志Journal、论文标题title、论文发表年份year、论文摘要abstract、论文全文fulltext，并获取信息单元之间的关联，包括某篇文献由某作者撰写(written-by)、或者被其它的文献引用(cited-by)、或者同其它文献在全文内容上相似(similar-to)、或者被学术会议或期刊录用(published-in)。然后，以所有文献的信息单元为节点、以信息单元之间的关联为边，建立文献网络图。

(2)对于有n个关键字的用户检索请求Q＝{k₁，k₂，…，k_n}，确定每个关键字对应的节点集合，集合中的每个节点都包含该关键字，则总共有n个集合，分别表示为V₁，V₂，…，V_n。

用户通过界面输入包含n个关键字的检索请求Q＝{k₁，k₂，…，k_n}，其中1≤i≤n，k_i表示集合中的第i个关键字，对于每个关键字都确定一个节点集合，该集合包括所有包含该关键字的节点，从而得到n个集合，分别表示为V₁，V₂，…，V_n。

(3)将检索请求的答案R初始化为集合V₁中的任意一个节点。

满足检索请求的答案R必须包含检索请求中的每个关键字。首先，答案R初始化为集合V₁中的任意一个节点，所以当前初始的R包含集合V₁对应的关键字k₁。

(4)对于剩余的n-1个集合中的每个集合，都构建一条到当前答案R的最短路径，并将该最短路径加入到R中，作为当前新的答案R。

由于答案R目前只包含关键字k₁，所以必须包括另外其它n-1个关键字k₂，…，k_n。对于剩余的n-1个集合V₂，…，V_n中的每个集合，都构建一条到当前答案R的最短路径，并将该最短路径加入到R中，作为当前新的答案R。该步骤完成后，当前的答案R包含所有的k个集合对应的关键字。

(5)输出答案R；

因为目前答案R包含检索请求中的每个关键字，所以满足用户的检索请求Q，作为结果输出。

在步骤(3)中，答案R被初始化为集合V₁中的任意一个节点，如果|V₁|＞1，其中|V₁|表示该集合中所有节点的个数，则将答案R重新初始化为其它未被选择的节点，并重复步骤(3)-(4)，得到新的满足用户检索请求的其它答案。如果集合V₁仅包含一个节点，则输出唯一的答案R后，退出检索。

(7)检索结束。

应当理解的是，对本发明技术所在领域的普通技术人员来说，可以根据本发明的技术方案及其构思进行相应的等同改变或替换，而所有这些改变或替换，都应属于本发明所附权利要求的保护范围。

实例：

图2为满足检索请求的答案R生成过程的实例图，包括4个子图，即子图(a)、(b)、(c)和(d)。图中所有的三角形节点表示包含关键字的节点，圆形的表示其它不包括关键字的中间节点。

其中子图(a)为将文献库中的文献信息单元表示成节点、以信息单元之间的关联表示成边的文献网络图，用户的检索请求为Q＝{Bob，CPU，SIGCOMM}。首先确定以上三个关键字分别对应的集合V₁、V₂和V₃。例如，集合V₁包括两个节点，这两个节点都包含关键字Bob。

如子图(b)所示，首先将答案R初始化为集合V₁中的任意一个节点，此时答案R将包含关键字Bob。

如子图(c)所示，构建一条从集合V₂到当前答案R的最短路径，并将该最短路径加入到R中，作为当前新的答案R，此时答案R包含关键字Bob和CPU。

如子图(d)所示，最后构建一条从集合V₃到子图(c)中答案R的最短路径，并将该最短路径加入到R中，作为当前新的答案R，此时答案R包含所有的关键字Bob、CPU和SIGCOMM，所以作为满足用户检索请求Q的答案输出，该答案总共包含7条边。

Claims

1、一种基于关联分析的文献检索方法，包括如下步骤：

(2)对于有n个关键字的用户检索请求Q＝{k₁，k₂，...，k_n}，n为正整数，每个关键字都确定一个节点集合，该集合包括所有包含该关键字的节点，则总共有n个集合，分别表示为V₁，V₂，...，V_n；

(3)将检索请求的答案R初始化为集合V₁中的任意一个节点；

(5)输出答案R；

(7)检索结束。