CN101308499A - 一种基于关联分析的文献检索方法 - Google Patents
一种基于关联分析的文献检索方法 Download PDFInfo
- Publication number
- CN101308499A CN101308499A CNA2008100482757A CN200810048275A CN101308499A CN 101308499 A CN101308499 A CN 101308499A CN A2008100482757 A CNA2008100482757 A CN A2008100482757A CN 200810048275 A CN200810048275 A CN 200810048275A CN 101308499 A CN101308499 A CN 101308499A
- Authority
- CN
- China
- Prior art keywords
- answer
- node
- retrieval
- document
- key word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关联分析的文献检索方法。步骤为:①以文献的信息单元为节点、以信息单元之间的关联为边,建立网络图;②对于检索请求Q={k1,k2,...,kn},每个关键字确定一个包含该关键字节点集合,共有n个集合,表示为V1,V2,...,Vn;③将检索请求的答案R初始化为集合V1中的任意一个节点;④对于剩余的其它集合,均构建一条到当前答案R的最短路径,并将该路径加入到R中,作为当前新的答案R,并输出R;⑤判断集合V1中是否包含未被选择的其它节点,如果有,则将答案R重新初始化为该节点,并重复执行步骤④。本发明的检索结果为包含检索关键字的连通子图;同时,检索方式使用普通用户所熟悉的关键字接口,用户不需理解文献库后台隐含的数据结构。
Description
技术领域
本发明属于计算机领域的分布式计算和信息检索,具体涉及一种基于关联分析(Relationship Analysis)的文献检索方法。
背景技术
当前的文献检索系统(如中国学术期刊网CNKI、计算机ACM数据库、IEEE电子图书馆等),主要采用关键字方式检索到满足用户查询请求的结果列表(如学术论文列表、作者列表、学术会议列表等)。但是不同于普通的文档集合,文献包含更加丰富的信息单元(如作者Author、学术会议Conference、期刊杂志Journal、论文Publication、论文标题、论文发表日期等),信息单元之间存在着异构的关联,例如,某篇学术论文由某作者撰写(written-by)、或者被其它的论文引用(cited-by)、或者同其它论文在全文内容上相似(similar-to)、或者被学术会议录用(published-in)等,这些关联具有不同的含义。如果以文献的信息单元为节点、以信息单元之间的关联为边,则可以将文献库看成巨大的网络图,而不是简单的线性列表。所以可以采用图中的关联分析方法(Relationship Analysis)进行文献的检索,检索的结果是包含检索关键字的连通子图,该连通子图表示关键字之间的关联。例如,用户检索请求为Q={Bob,Algorithm},期望检索到与这两个关键字相关联的文献信息,可能存在如下两个满足请求的结果:(1)某篇论文的作者为Bob,其全文包含关键字Algorithm;(2)某篇论文的标题包含关键字Algorithm,该论文被作者Bob所写的论文引用。
关联分析的方法被广泛应用在万维网Web搜索引擎中,如Google、Yahoo!、百度Baidu等。著名的Google PageRank算法利用网页超级链接分析,以网页为节点、网页之间的超级链接为边,将Web看成巨大的有向图,基于网页如果被其它重要网页链接则其重要性增加的原理,计算网页的PageRank值。但是,以上Web搜索引擎的检索结果仍然是简单的网页列表。
文献引用分析(Citation Analysis)属于关联分析中的一种,主要是根据论文被引用的次数多少评估该论文的价值,例如美国《科学引文索引》(Science Citation Index-SCI),根据每种期刊发表论文的被引用次数以及发表的论文总数计算出该期刊的影响因子(Impact Factor)。引用分析提供了一种新的文献检索方法,即从某篇论文可以检索到所有引用过该论文的其它论文,然后以这些引用论文为新的检索起点,检索到更多的被引论文。但是这种检索方法功能单一,只能根据简单的引用关系(cited-by)检索文献,而不能提供功能更加丰富的基于关联分析的文献检索。
发明内容
本发明的目的在于提供一种基于关联分析的文献检索方法。该方法实现基于关联分析的文献检索,能检索到与检索关键字相关联的连通图,而不是传统的简单文献信息列表。
本发明提供的基于关联分析的文献检索方法,其步骤包括:
(1)以文献数据库中所有文献的信息单元为节点、以信息单元之间的关联为边,建立文献网络图;
(2)对于有n个关键字的用户检索请求Q={k1,k2,…,kn},n为正整数,每个关键字都确定一个节点集合,该集合包括所有包含该关键字的节点,则总共有n个集合,分别表示为V1,V2,…,Vn;
(3)将检索请求的答案R初始化为集合V1中的任意一个节点;
(4)对于剩余的n-1个集合中的每个集合,都构建一条到当前答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R;
(5)输出答案R;
(6)判断集合V1中是否包含未被选择的其它节点,如果有,则将答案R重新初始化为该节点,并进入步骤(4);否则,进入步骤(7);
(7)检索结束。
本发明提供一种基于关联分析的文献检索方法,能检索到与用户检索请求相关联的文献信息。具体而言,本发明具有以下特点:
(1)检索的结果是包含检索关键字的连通子图,该连通子图表示关键字之间的关联,具有明确的含义。传统的文献检索方法采用简单的文献信息列表方式,主要是检索与关键字匹配的文献信息,如标题、作者、全文、摘要等,而不能检索更加复杂的关联图。
(2)检索的方式使用普通用户所熟悉的关键字接口,用户不需要理解文献库后台隐含的数据结构。文献库属于半结构化的数据,通常的检索方式是数据库结构化查询语言SQL,但是要求用户熟悉SQL查询语言并理解后台的数据组织结构。
附图说明
图1是本发明基于关联分析的文献检索方法流程图。
图2为满足检索请求的答案R生成过程的实例图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。
如图1所示,本发明方法包括以下几个步骤:
(1)获取文献数据库中所有文献的信息单元,包括文献的作者Author、学术会议Conference、期刊杂志Journal、论文标题title、论文发表年份year、论文摘要abstract、论文全文fulltext,并获取信息单元之间的关联,包括某篇文献由某作者撰写(written-by)、或者被其它的文献引用(cited-by)、或者同其它文献在全文内容上相似(similar-to)、或者被学术会议或期刊录用(published-in)。然后,以所有文献的信息单元为节点、以信息单元之间的关联为边,建立文献网络图。
(2)对于有n个关键字的用户检索请求Q={k1,k2,…,kn},确定每个关键字对应的节点集合,集合中的每个节点都包含该关键字,则总共有n个集合,分别表示为V1,V2,…,Vn。
用户通过界面输入包含n个关键字的检索请求Q={k1,k2,…,kn},其中1≤i≤n,ki表示集合中的第i个关键字,对于每个关键字都确定一个节点集合,该集合包括所有包含该关键字的节点,从而得到n个集合,分别表示为V1,V2,…,Vn。
(3)将检索请求的答案R初始化为集合V1中的任意一个节点。
满足检索请求的答案R必须包含检索请求中的每个关键字。首先,答案R初始化为集合V1中的任意一个节点,所以当前初始的R包含集合V1对应的关键字k1。
(4)对于剩余的n-1个集合中的每个集合,都构建一条到当前答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R。
由于答案R目前只包含关键字k1,所以必须包括另外其它n-1个关键字k2,…,kn。对于剩余的n-1个集合V2,…,Vn中的每个集合,都构建一条到当前答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R。该步骤完成后,当前的答案R包含所有的k个集合对应的关键字。
(5)输出答案R;
因为目前答案R包含检索请求中的每个关键字,所以满足用户的检索请求Q,作为结果输出。
(6)判断集合V1中是否包含未被选择的其它节点,如果有,则将答案R重新初始化为该节点,并进入步骤(4);否则,进入步骤(7);
在步骤(3)中,答案R被初始化为集合V1中的任意一个节点,如果|V1|>1,其中|V1|表示该集合中所有节点的个数,则将答案R重新初始化为其它未被选择的节点,并重复步骤(3)-(4),得到新的满足用户检索请求的其它答案。如果集合V1仅包含一个节点,则输出唯一的答案R后,退出检索。
(7)检索结束。
应当理解的是,对本发明技术所在领域的普通技术人员来说,可以根据本发明的技术方案及其构思进行相应的等同改变或替换,而所有这些改变或替换,都应属于本发明所附权利要求的保护范围。
实例:
图2为满足检索请求的答案R生成过程的实例图,包括4个子图,即子图(a)、(b)、(c)和(d)。图中所有的三角形节点表示包含关键字的节点,圆形的表示其它不包括关键字的中间节点。
其中子图(a)为将文献库中的文献信息单元表示成节点、以信息单元之间的关联表示成边的文献网络图,用户的检索请求为Q={Bob,CPU,SIGCOMM}。首先确定以上三个关键字分别对应的集合V1、V2和V3。例如,集合V1包括两个节点,这两个节点都包含关键字Bob。
如子图(b)所示,首先将答案R初始化为集合V1中的任意一个节点,此时答案R将包含关键字Bob。
如子图(c)所示,构建一条从集合V2到当前答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R,此时答案R包含关键字Bob和CPU。
如子图(d)所示,最后构建一条从集合V3到子图(c)中答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R,此时答案R包含所有的关键字Bob、CPU和SIGCOMM,所以作为满足用户检索请求Q的答案输出,该答案总共包含7条边。
Claims (1)
1、一种基于关联分析的文献检索方法,包括如下步骤:
(1)以文献数据库中所有文献的信息单元为节点、以信息单元之间的关联为边,建立文献网络图;
(2)对于有n个关键字的用户检索请求Q={k1,k2,...,kn},n为正整数,每个关键字都确定一个节点集合,该集合包括所有包含该关键字的节点,则总共有n个集合,分别表示为V1,V2,...,Vn;
(3)将检索请求的答案R初始化为集合V1中的任意一个节点;
(4)对于剩余的n-1个集合中的每个集合,都构建一条到当前答案R的最短路径,并将该最短路径加入到R中,作为当前新的答案R;
(5)输出答案R;
(6)判断集合V1中是否包含未被选择的其它节点,如果有,则将答案R重新初始化为该节点,并进入步骤(4);否则,进入步骤(7);
(7)检索结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2008100482757A CN100573531C (zh) | 2008-07-04 | 2008-07-04 | 一种基于关联分析的文献检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2008100482757A CN100573531C (zh) | 2008-07-04 | 2008-07-04 | 一种基于关联分析的文献检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101308499A true CN101308499A (zh) | 2008-11-19 |
CN100573531C CN100573531C (zh) | 2009-12-23 |
Family
ID=40124957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2008100482757A Expired - Fee Related CN100573531C (zh) | 2008-07-04 | 2008-07-04 | 一种基于关联分析的文献检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100573531C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976245A (zh) * | 2010-10-09 | 2011-02-16 | 吕琳媛 | 网络中节点重要性的排序方法 |
CN103324644A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种查询结果多样化方法及装置 |
CN104346446A (zh) * | 2014-10-27 | 2015-02-11 | 百度在线网络技术(北京)有限公司 | 一种基于知识图谱的论文关联信息推荐方法及装置 |
CN104537063A (zh) * | 2014-12-29 | 2015-04-22 | 北京理工大学 | 一种基于论文引用网络的知识脉络图构建系统和方法 |
CN105740246A (zh) * | 2014-12-08 | 2016-07-06 | 北京邮电大学 | 基于图数据的集合关键字查询方法 |
CN110209779A (zh) * | 2018-02-05 | 2019-09-06 | 索意互动(北京)信息技术有限公司 | 一种客户端、服务器、检索方法及其系统 |
-
2008
- 2008-07-04 CN CNB2008100482757A patent/CN100573531C/zh not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976245A (zh) * | 2010-10-09 | 2011-02-16 | 吕琳媛 | 网络中节点重要性的排序方法 |
CN103324644A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种查询结果多样化方法及装置 |
CN103324644B (zh) * | 2012-03-23 | 2016-05-11 | 日电(中国)有限公司 | 一种查询结果多样化方法及装置 |
CN104346446A (zh) * | 2014-10-27 | 2015-02-11 | 百度在线网络技术(北京)有限公司 | 一种基于知识图谱的论文关联信息推荐方法及装置 |
CN105740246A (zh) * | 2014-12-08 | 2016-07-06 | 北京邮电大学 | 基于图数据的集合关键字查询方法 |
CN105740246B (zh) * | 2014-12-08 | 2019-08-06 | 北京邮电大学 | 基于图数据的集合关键字查询方法 |
CN104537063A (zh) * | 2014-12-29 | 2015-04-22 | 北京理工大学 | 一种基于论文引用网络的知识脉络图构建系统和方法 |
CN104537063B (zh) * | 2014-12-29 | 2017-10-13 | 北京理工大学 | 一种基于论文引用网络的知识脉络图构建系统和方法 |
CN110209779A (zh) * | 2018-02-05 | 2019-09-06 | 索意互动(北京)信息技术有限公司 | 一种客户端、服务器、检索方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN100573531C (zh) | 2009-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Collabseer: a search engine for collaboration discovery | |
CN100573531C (zh) | 一种基于关联分析的文献检索方法 | |
Lahiri et al. | Keyword extraction from emails | |
Lou et al. | Semantic information retrieval research based on co-occurrence analysis | |
Tuan et al. | Cate: context-aware timeline for entity illustration | |
CN107391690B (zh) | 一种处理文献信息的方法 | |
Bayomi et al. | ADAPT_TCD: An Ontology-Based Context Aware Approach for Contextual Suggestion. | |
Verlic | LODGrefine-LOD-enabled Google Refine in Action. | |
Brochier et al. | New datasets and a benchmark of document network embedding methods for scientific expert finding | |
Kalloubi et al. | Graph based tweet entity linking using DBpedia | |
Nešic et al. | Concept-based semantic annotation, indexing and retrieval of office-like document units | |
CN103886049A (zh) | 数据空间中异质异构相关数据集合挖掘方法 | |
Cozza | Towards a framework for graph-based keyword search over relational data | |
Cozza | Implementation of a framework for graph-based keyword search over relational data | |
Benna et al. | Building a social network, based on collaborative tagging, to enhance social information retrieval | |
Qureshi et al. | Exploiting Wikipedia to Identify Domain-Specific Key Terms/Phrases from a Short-Text Collection. | |
Wang et al. | Summarizing personal dataspace based on user interests | |
Sharma et al. | RDF link generation by exploring related links on the Web of data | |
Lin et al. | Design and implementation of vertical search engine based on hadoop | |
López-Veyna et al. | A Virtual Document Approach for Keyword Search in Databases. | |
Gao et al. | A multi-agent improved semantic similarity matching algorithm based on ontology tree | |
Wang et al. | Research and design of education vertical search engine based on Ontology | |
Kaczmarek et al. | Information extraction from web pages for the needs of expert finding | |
Pfeffer | Automatic creation of mappings between classification systems for bibliographic data | |
Shao et al. | The Disambiguation Strategy of Knowledge Fusion for Domain Knowledge Graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091223 Termination date: 20120704 |