CN106557506A - 一种文献搜索结果处理方法及系统 - Google Patents

一种文献搜索结果处理方法及系统 Download PDF

Info

Publication number
CN106557506A
CN106557506A CN201510628170.9A CN201510628170A CN106557506A CN 106557506 A CN106557506 A CN 106557506A CN 201510628170 A CN201510628170 A CN 201510628170A CN 106557506 A CN106557506 A CN 106557506A
Authority
CN
China
Prior art keywords
characteristic attribute
document
characteristic
attribute value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510628170.9A
Other languages
English (en)
Other versions
CN106557506B (zh
Inventor
耿亦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Original Assignee
SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd filed Critical SHANGHAI BANPO NETWORK TECHNOLOGIES Ltd
Priority to CN201510628170.9A priority Critical patent/CN106557506B/zh
Publication of CN106557506A publication Critical patent/CN106557506A/zh
Application granted granted Critical
Publication of CN106557506B publication Critical patent/CN106557506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文献搜索结果处理方法及系统。其中,文献搜索结果处理方法包括:获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性;设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联;根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。本发明的技术方案能够为用户提供一个启发式发散思维特性的知识关联矩阵,以帮助用户更好地区分和识别相关兴趣文献。

Description

一种文献搜索结果处理方法及系统
技术领域
本发明涉及一种计算机技术,特别是涉及一种文献搜索结果处理方法及系统。
背景技术
在文献检索系统中,主要是由文献的物理特征和文献的内容特征作为决定一篇文献不同于其他文献的区别特征。文献的物理特征包括:文献来源(期刊、年、卷、期、起止页);文献类型:学位论文、期刊论文、综述等;文献的语言种类:中文、英文等。文献的内容特征是对文献内容的进一步揭示,包括关键词、主题词、篇名、摘要、全文、作者、参考文献等等。其中,文献的内容特征是人们(包括计算机搜索系统)决策一篇文献与搜索词是否相关的主要依据。就搜索结果的呈现而言,搜索引擎通常将检出文献按相关度降序列表输出。
为辅助用户研判一篇文献的相关性,也有检索系统会进一步针对某一种文献内容特征进行单一维度的文献聚类呈现。例如:提取检出文献中关键词,依关键词对检出文献进行再聚类细分,显示给用户的是关键词列表及其对应的相关文献。对于检索用户而言,有时,用户可能更加关心与多个文献特征之间的相互关联,例如想了解某位作者所有文献可能涉及的相关主题;想了解某个主题可能涉及的其他热点文本自由词等等。而当下,用户想要藉此发现新的相关主题和新的热点自由词,乃至发现新的相关文献,往往需要进行反复多次多角度检索和深度浏览才能找到自己真正感兴趣的文献。
鉴于此,如何找到一种更方便用户区分和识别相关兴趣文献的技术方案成为了本领域技术人员亟待解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种文献搜索结果处理方法及系统,用于解决现有技术中用户需要进行多次反复检索才能找到自己真正感兴趣的文献的问题。
为实现上述目的及其他相关目的,本发明提供一种文献搜索结果处理方法,所述文献搜索结果处理方法包括:获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性;设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联;根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。
可选地,所述文献特征信息包括多种特征属性有:主要关键词、作者、次要关键词、标题词、摘要词。
可选地,所述文献特征信息包括多种特征属性有:关键词、作者、作者单位、文本自由词、期刊出处、出版年月等。其中有些文献特征属性可以进一步层次化细分,例如:关键词可以层次化细分为主要关键词和次要关键词两种特征属性;作者细分为主要作者(第一作者)和次要作者;文本自由词细分为标题词和文摘词等等。
可选地,所述文献搜索结果处理方法还包括:显示每一种特征属性的每一个特征属性值所关联的文献数目。
可选地,所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。
可选地,所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献信息。
可选地,所述文献搜索结果处理方法还包括:针对每一种特征属性值所关联的文献建立所述特征属性值与不相邻的特征属性的特征属性值之间的关联。
可选地,所述文献搜索结果处理方法还包括:根据每一种特征属性,根据所述特征属性中的每一个特征属性值与其他特征属性的特征属性值之间的关联,建立所述特征属性与其他特征属性之间的关联矩阵。
可选地,所述文献搜索结果处理方法还包括:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。
可选地,所述共同关联的文献信息包括共同关联的文献数目。
可选地,所选取的任意两个特征属性值属于同一特征属性,或者所述任意两个特征属性值为分别属于两个不同特征属性。
可选地,所述文献搜索结果处理方法还包括:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关;将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。
可选地,所述特征属性值的权重还与所述特征属性值在文献中的位序相关。
本发明提供一种文献搜索结果处理系统,所述文献搜索结果处理系统包括:文献特征属性获取模块,用于获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性;特征属性关联建立模块,用于设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联;特征属性显示模块,用于根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。
可选地,所述文献特征信息包括多种特征属性有:主要关键词、作者、次要关键词、标题词、摘要词。
可选地,所述文献特征信息包括多种特征属性有:关键词、作者、作者单位、文本自由词、期刊出处、出版年月等。其中有些文献特征属性可以进一步层次化细分,例如:关键词可以层次化细分为主要关键词和次要关键词两种特征属性;作者细分为主要作者(第一作者)和次要作者;文本自由词细分为标题词和文摘词等等。
可选地,所述特征属性显示模块还用于:显示每一种特征属性的每一个特征属性值所关联的文献数目。
可选地,所述特征属性显示模块还用于:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。
可选地,所述特征属性显示模块还用于:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献信息。
可选地,所述特征属性关联建立模块还用于:针对每一种特征属性值所关联的文献建立所述特征属性值与不相邻的特征属性的特征属性值之间的关联。
可选地,所述特征属性关联建立模块还用于:根据每一种特征属性,根据所述特征属性中的每一个特征属性值与其他特征属性的特征属性值之间的关联,建立所述特征属性与其他特征属性之间的关联矩阵。
可选地,所述特征属性显示模块还用于:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。
可选地,所述共同关联的文献信息包括共同关联的文献数目。
可选地,特征属性显示模块中所选取的任意两个特征属性值属于同一特征属性,或者所述任意两个特征属性值为分别属于两个不同特征属性。
可选地,所述特征属性关联建立模块还用于:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关;所述特征属性显示模块还用于:将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。
可选地,所述特征属性值的权重还与所述特征属性值在文献中的位序相关。
如上所述,本发明的一种文献搜索结果处理方法及系统,具有以下有益效果:通过对实时搜索检出文献的多维度聚类细分及其特征属性值相互之间知识关联揭示,将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维特性的知识关联矩阵(也可以称作知识关联脑图),以帮助用户更好地区分和识别相关兴趣文献。本发明的技术方案通过多维度分层级的有序节点以关联矩阵模式体现了文献之间内在的特征词之间的网状语义关联,以启发读者发散式思维阅读。
附图说明
图1显示为本发明的文献搜索结果处理方法的一实施例的流程示意图。
图2显示为本发明的文献搜索结果处理系统的一实施例的模块示意图。
图3显示为本发明的文献搜索结果处理系统的一实施例的处理结果示意图。
图4显示为本发明的文献搜索结果处理系统的一实施例的对特征属性值进行第一操作的处理结果示意图。
图5显示为本发明的文献搜索结果处理系统的一实施例的对特征属性值进行第二操作的处理结果示意图。
图6显示为本发明的文献搜索结果处理系统的一实施例的选择任意两个特征属性值的处理结果示意图。
元件标号说明
1 文献搜索结果处理系统
11 文献特征属性获取模块
12 特征属性关联建立模块
13 特征属性显示模块
S1~S3 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明提供一种文献搜索结果处理方法。在一个实施例中,如图1所示,所述文献搜索结果处理方法包括:
步骤S1,获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性。在一个实施例中,从现有的搜索引擎中获取搜索结果,所述文献特征信息所包括的特征属性可以由搜索引擎中获取的文献搜索结果确定。例如,该搜索结果为通过Google Chrome浏览器在PubMed医学文摘数据库进行搜索获得的搜索结果。此时所述文献特征信息包括多种特征属性有:主要关键词、作者、次要关键词、标题词、摘要词等。在一个实施例中,为了提高处理速度,对搜索得到的文献进行了进一步的选择,所述多篇文献包括在PubMed医学文摘数据库进行搜索获得的搜索结果中TOP-N篇相关文献(即搜索得到的前N篇文献),例如前400篇相关文献。同时,针对每一个所选定的相关文献,获取该文献的特征属性。在不同的搜索引擎中,所得到的搜索结果中所确定的文献特征信息所包括的特征属性可能并不相同。设定检出文献中拟处理的两种以上文献特征属性:不同的搜索引擎所得到的搜索结果中文献的特征属性可能并不相同。通常,搜索结果中所确定的文献的特征属性包括以下种类:1,文献来源(期刊、年、卷、期、起止页)。2,文献类型:学位论文、期刊论文、综述等。3,文献的语言种类:中文、英文等。4,对文献内容的揭示:包括关键词、主题词、文献篇名、摘要、文献全文、作者、参考文献等等。在一个实施例中,选定PubMed搜索引擎所包含的主题词、作者、文本自由词作为主要特征属性。并由其中的主题词层次化细分为主要主题词和次要主题词;文本自由词层次化细分为标题词和文摘词等共计5个文献特征属性。
在一个实施例中,所确定的特征属性包括关键词、标题词等。文献的特征属性提取过程包括:顺序解析Top-N(前N项)返回结果中的每一篇文献,构建截获文献的顺排文档(向量Docs[])。通过一篇文献的顺排文档来组织该文献所包括的多种特征属性,也可以用其他方式组织该文献的所包括的多种特征属性。例如,向量Docs[]的节点信息可能包含:DocID:文献ID;Title:文献篇名(可从中确定标题词);Keywords:关键词(在有些搜索结果中具体可进一步细分为主要关键词、次要关键词);Author:文献作者(包括第一作者、最后一位作者信息标识);Source:文献出处(包括文献日期);Abstracts:文摘(确定文摘词);Linker:原始搜索引擎的文献详情指引链接等。
例如有两篇文献,其顺排文献向量Docs[]的关键词特征属性的提取分别是:
Docs[1].keyword:[中成药,感冒,时间序列]
Docs[2].keyword:[季节效应,感冒,温湿度]
步骤S2,设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的每一个特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联。所述设定包括预先设定。在一个实施例中,所选择的特征属性以及所述特征属性间的关联位序都是预设的。所选择的特征属性包括:主要关键词、作者、次要关键词、标题词、摘要词。所述关联关系依次为:次要关键词-主要关键词-作者-标题词-摘要词。也可以根据不同的需要,设定为选择其他特征属性以及设定其他关联关系。针对每一种特征属性确定所述特征属性的每一个特征属性值所关联的文献,在一个实施例中,通过针对文献特征属性字段进行相关数据分析并构建该特征属性字段的倒排文档来记录每一个特征属性值所关联的文献。例如,对于作者字段,解析所有文献的所有作者,构建作者-文献倒排文档(向量AuthorInverted[]):
向量AuthorInverted[]的节点信息包含:Author(作者名称);DocID[](包含该作者的文献ID枚举)。
一个所述AuthorInverted[]的节点信息存储了特征属性为作者,特征属性值为Author值的特征属性值所链接的相关文献(即作者为Author值的文献)。同样的,继续分别构建关键词、标题词等文献内容特征向量。
例如,针对特征属性关键词确定所述关键词的每一个特征属性值(如中成药、感冒等)所关联的文献,则根据两个文献特征信息Docs[1]和Docs[2]确定的每一个关键词值所关联的文献,当确定所有关键词所关联的文献后,可以获得由多个特征属性值节点(每个记录就是一个节点)构成的特征属性关键词的倒排文档为:
然后,建立所述特征属性值与相邻的特征属性的关联。在一个实施例中,依据特征向量(特征属性)里某一信息节点(信息节点中保存着某一个特征属性值的关联信息)中的倒排信息(DocID枚举),凡是具有相同DocID的,可以推导出该信息节点在其他特征向量中相对应的关联信息节点。需要说明的是:针对特定文献特征向量(文本自由词)进行特征细分后,在标题词特征向量和文摘词特征向量之间的相互关联,是由DocID-SentenceID构建关联关系的。文献标题词节点凡与文摘词节点具有相同DocID-SentenceID的,可以推导出该标题词信息节点具有对应的摘要词扩展关联信息节点。例如,关键词Keyword-1(对应着特征属性关键词的一个值为Keywork-1的特征属性值的信息节点)可以推导出关联的作者Author-1、Author-2、Author-3。同理,作者Author-1可以推导出关联关键词Keyword-1、Keyword-6和Keyword-20。在一个实施例中,还可以建立所述特征属性与相邻的特征属性之间的关联矩阵。在一个实施例中,还可以针对每一种特征属性值所关联的文献建立所述特征属性值与不相邻的特征属性的特征属性值之间的关联。在一个实施例中,所述文献搜索结果处理方法还包括:根据每一种特征属性,根据所述特征属性中的每一个特征属性值与其他特征属性的特征属性值之间的关联,建立所述特征属性与其他特征属性之间的关联矩阵。在一个实施例中,通过建立不同特征属性之间的关联矩阵,可以更快捷的获取不同特征属性值之间所共同关联的文献。
在一个实施例中,所述作者向量AuthorInverted[]的节点信息还包括:Weight(即根据统计该作者存现的频次、以及该作者在文献中的次序,如第一作者或第二作者采用预设算法获得的权重)。在一个实施例中,节点的权重又由该节点的语义权重和文献检出时序权重等要素根据预设算法计算获得。信息节点的语义权重包含出现的频度(例如某一主题词的出现词频)、在文献中的位序(例如第一作者和其他位序作者的区别)等等。文献检出时序是指:在文献搜索结果中文献的排列顺序,也就是该信息节点所属文献在检出结果中的位序。位序越小则权重越大。在一篇文献内容特征向量中,信息节点依节点权重降序排列,即所述特征属性的特征信息值将按照所述特征信息值的权重降序显示。
步骤S3,根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。在一个实施例中,同一特征属性向量中信息节点(对应不同的特征属性值)的先后排列顺序是由该节点的权重所决定。在一个实施例中,所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。例如,所述第一操作为鼠标左键点,则鼠标左键点击任一个特征属性值时,显示所述特征属性特征值与相邻的特征属性的关联。所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献。例如,所述第二操作为鼠标右键点击,则当鼠标右键点击任一个特征属性值时,显示所述特征属性值所关联的文献。得到的显示结果我们可以称之为启发式发散思维特性的知识关联矩阵(简称知识关联矩阵)。本发明方案将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维特性的知识关联矩阵,以帮助用户更好地区分和识别相关兴趣文献。
在一个实施例中,所述文献搜索结果处理方法还包括:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。所选取的任意两个特征属性值属于同一特征属性,或者所述任意两个特征属性值为分别属于两个不同特征属性。所述共同关联的文献信息包括共同关联的文献数目。所述共同关联的文献信息还包括获取共同关联的文献的链接路径或其他获取任一个共同关联文献的途径。在一个实施例中,可以通过建立特征属性之间的关联矩阵,可以更快捷的获取不同特征属性值之间所共同关联的文献信息,从而提供选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息的处理速度。如果不能直接从特征属性值之间的关联中获取所选取的两个特征属性值之间共同关联的文献信息,则可以分别从所选取的两个特征属性值中获取所关联的所有文献,再找到所选取的两个特征属性值都关联的文献。通过本方案得到的知识关联矩阵可以大大提高使用者区分和识别感兴趣文献的效率,为用户节省时间。同时也方便了用户的联想,启发读者的发散式思维阅读,从而让用户能够在庞大繁多的文献搜索结果中快速找到真正需要的文献。
在一个实施例中,所述文献搜索结果处理方法还包括:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关;将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。在一个实施例中,所述特征属性值的权重还与所述特征属性值在文献中的位序相关。例如,一个特征属性值频度越高,则该特征属性值的权重越大;当两个特征属性值的频度相同时,则根据特征信息在文献中的排列位序来确定,例如,如果两个作者所关联的文献数目(频度)相同,则考察这两个作者作为第一作者、第二作者出现的频次,以作为第一作者出现的频次高的作者的权重大。所述特征属性值的显示还包括显示特征属性值出现的频度(也可称为频次),所述第二操作为鼠标右键点击频度,则当鼠标右键点击任一个特征属性值中的频度时,显示所述特征属性值所关联的文献。
在一个实施例中,所述文献搜索结果处理方法还包括:当检索用户登录PubMed搜索引擎,在搜索界面的输入窗口输入检索词。PubMed搜索引擎返回检索用户搜索结果(例如,输入“parkinson ceruloplasmin mutation”,命中6篇文献)。从PubMed搜索引擎返回检索用户搜索结果中获得搜索得到的这6篇文献。在PubMed搜索引擎的搜索结果中可以获得这6篇文献的正文以及文献特征信息,所述文献特征信息包括主要主题词、次要主题词、文献作者、标题词以及摘要词等。PubMed搜索引擎的搜索结果获取每一篇文献的文献特征信息构成一个文献节点,文献节点的节点信息可能包含:DocID:原始数据库文献ID;Title:文献篇名;Major Keywords:主要关键词;Minor Keywords:次要关键词;Author:文献作者(包括第一作者、最后一位作者和其他作者标识);Source:文献出处(包括文献日期);Abstracts:文摘;Linker:原始搜索引擎的文献详情指引链接等。提取每一篇文献的下列特征属性内容,包括主要主题词、次要主题词、文献作者、标题词以及摘要词。其中,标题词从文献篇名中提取,摘要词从文摘中提取。
然后对每一个特征属性的每一个特征属性值进行处理及其根据设定的特征属性间的关联位序进行特征属性间的关联处理,分别得到各个特征属性以及特征属性间的关联。首先,构建特征属性字段的倒排文档记录。然后,设定所提取的特征属性间的相邻关联位序:针对选定的每一种特征属性,确定其左右相邻的特征属性关联位序。在本实施例中,PubMed搜索引擎的文献特征属性相邻位序为:次要关键词、主要关键词、作者、标题词和摘要词。其含义是:次要关键词右邻主要关键词直接关联;主要关键词左邻次要关键词右邻作者;作者左邻主要关键词右邻标题词、标题词左邻作者右邻摘要词;摘要词左邻标题词。接着,建立所述特征属性值与相邻的特征属性的关联:在设定的特征属性相邻关联位序中,任意两两的相邻特征属性均可由某一特征属性值所关联的文献确定所述特征属性值所关联的相邻的特征属性中不同特征属性值之间的关联。接着,建立所述不同特征属性之间的多维关联矩阵。通过所述多维关联矩阵,可以快捷计算获的不相邻特征属性中的任意两个特征属性值之间所共同关联的文献。可以快捷计算获的同一特征属性中的任意两个特征属性值之间所共同关联的文献。
最后,所述文献搜索结果处理方法根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。其中特征属性值右上角的数字为所述特征属性值所关联的文献数目,也可以认为是该特征属性值的文献频次,例如,次要主题词transferrin右上角的数字为4,表明transferrin作为次要主题词在本次搜索结果中的4篇文献中出现。同一特征属性下的不同特征属性值是根据所述特征属性值对应的权重按从大到小的顺序显示的。所述特征属性值的权重。特征属性值在特征属性中出现的频度部分决定该特征属性值的权重;一个特征属性值频度越高,则该特征属性值的权重越大。所述特征属性值的权重还与所述特征属性值在文献中的位序相关。例如,第一作者、第二作者分别出现的位序,以作为第一作者出现的频次高的作者的权重大;文献检出时的时序等要素同样部分决定某个特征属性值的权重。文献检出时序是指:在文献搜索结果中文献的排列顺序,也就是该信息节点所属文献在检出结果中的位序。位序越小则权重越大。根据同一特征属性下的不同特征属性值的权重确定特征属性值的显示顺序的过程也称为特征属性中的特征属性值的有序化。
当鼠标点击其中的一个特征属性值(例如作者:Walter U)时,以连线和节点加亮方式显示Walter U及其相关联的主要主题词和标题词。这些关联词可以在右上角附加数字显示,附加的数字表示作者Walter U和当前关联节点所共有的文献数。例如节点Iron Metabolism的数字显示2,表示本次结果中共有两篇文献,其作者是Walter U,其文献篇名中有文本自由词Iron Metabolism。鼠标点击任意节点中的数字显示,将会在右侧的小窗口中显示当前节点的所关联的具体文献;鼠标移动到某一篇文献,显示该文献的详情。
在本实施例中,任意选取两个特征信息节点(可以任意文献特征属性列或者是在同一特征属性列内),如nuclear proteins AND protein isoforms,将显示当前搜索结果中同时具有这两个特征属性值的相关文献数,也可以进一步得到相关文献。
本发明提供一种文献搜索结果处理系统。所述文献搜索结果处理系统可以采用如上所述的文献搜索结果处理方法对文献搜索结果进行处理。在一个实施例中,如图2所示,所述文献搜索结果处理系统1包括文献特征属性获取模块11、特征属性关联建立模块12以及特征属性显示模块13。其中:
文献特征属性获取模块11用于获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性。在一个实施例中,文献特征属性获取模块11从现有的搜索引擎中获取搜索结果,所述文献特征信息所包括的特征属性可以由搜索引擎中获取的文献搜索结果确定。例如,该搜索结果为通过Google Chrome浏览器在PubMed医学文摘数据库进行搜索获得的搜索结果。此时所述文献特征信息包括多种特征属性有:主要关键词、作者、次要关键词、标题词、摘要词等。在一个实施例中,为了提高处理速度,对搜索得到的文献进行了进一步的选择,所述多篇文献包括在PubMed医学文摘数据库进行搜索获得的搜索结果中TOP-N篇相关文献(即搜索得到的前N篇文献),例如前400篇相关文献。同时,针对每一个所选定的相关文献,获取该文献的特征属性。在不同的搜索引擎中,所得到的搜索结果中所确定的文献特征信息所包括的特征属性可能并不相同。通常,搜索结果中所确定的文献的特征属性包括以下种类:1,文献来源(期刊、年、卷、期、起止页)。2,文献类型:学位论文、期刊论文、综述等。,3,文献的语言种类:中文、英文等。4,对文献内容的揭示:包括主要关键词、次要关键词,主题词、文献篇名、摘要、文献全文、作者、参考文献等等。可以根据预设的策略,例如获取其中的主要关键词、作者、次要关键词、标题词、摘要词中的至少两种。在一个实施例中,所获取的特征属性包括:主要关键词、作者、次要关键词、标题词、摘要词。在一个实施例中,所确定的特征属性包括关键词、标题词等。文献的特征属性提取过程包括:顺序解析Top-N(前N项)返回结果中的每一篇文献,构建截获文献的顺排文档(向量Docs[])。通过一篇文献的顺排文档来组织该文献所包括的多种特征属性,也可以用其他方式组织该文献的所包括的多种特征属性。例如,向量Docs[]的节点信息可能包含:DocID:文献ID;Title:文献篇名(可从中确定标题词);Keywords:关键词(在有些搜索结果中具体可进一步细分为主要关键词、次要关键词);Author:文献作者(包括第一作者、最后一位作者信息标识);Source:文献出处(包括文献日期);Abstracts:文摘(确定文摘词);Linker:原始搜索引擎的文献详情指引链接等。
例如有两篇文献,其顺排文献向量Docs[]的关键词特征属性的提取分别是:
Docs[1].keyword:[中成药,感冒,时间序列]
Docs[2].keyword:[季节效应,感冒,温湿度]
特征属性关联建立模块12与文献特征属性获取模块11相连,用于设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的每一个特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联。所述设定包括预先设定。在一个实施例中,特征属性关联建立模块12所选择的特征属性以及所述特征属性间的关联位序都是预设的。所选择的特征属性包括:主要关键词、作者、次要关键词、标题词、摘要词。所述关联关系依次为:次要关键词-主要关键词-作者-标题词-摘要词。也可以根据不同的需要,设定为选择其他特征属性以及设定其他关联关系。特征属性关联建立模块12针对每一种特征属性确定所述特征属性的每一个特征属性值所关联的文献,在一个实施例中,通过针对文献特征属性字段进行相关数据分析并构建该特征属性字段的倒排文档来记录每一个特征属性值所关联的文献。例如,对于作者字段,解析所有文献的所有作者,构建作者-文献倒排文档(向量AuthorInverted[]):
向量AuthorInverted[]的节点信息包含:Author(作者名称);DocID[](包含该作者的文献ID枚举)。
一个所述AuthorInverted[]的节点信息存储了特征属性为作者,特征属性值为Author值的特征属性值所链接的相关文献(即作者为Author值的文献)。同样的,继续分别构建关键词、标题词等文献内容特征向量。
例如,针对特征属性关键词确定所述关键词的每一个特征属性值(如中成药、感冒等)所关联的文献,则根据两个文献特征信息Docs[1]和Docs[2]确定的每一个关键词值所关联的文献,当确定所有关键词所关联的文献后,可以获得由多个特征属性值节点(每个记录就是一个节点)构成的特征属性关键词的倒排文档为:
然后,特征属性关联建立模块12建立所述特征属性值与相邻的特征属性的关联。在一个实施例中,依据特征向量(特征属性)里某一信息节点(信息节点中保存着某一个特征属性值的关联信息)中的倒排信息(DocID枚举),凡是具有相同DocID的,可以推导出该信息节点在其他特征向量中相对应的关联信息节点。针对特定文献特征向量(文本自由词)进行特征细分后,在标题词特征向量和文摘词特征向量之间的相互关联,是由DocID-SentenceID构建关联关系的。文献标题词节点凡与文摘词节点具有相同DocID-SentenceID的,可以推导出该标题词信息节点具有对应的摘要词扩展关联信息节点。例如,关键词Keyword-1(对应着特征属性关键词的一个值为Keywork-1的特征属性值的信息节点)可以推导出关联的作者Author-1、Author-2、Author-3。同理,作者Author-1可以推导出关联关键词Keyword-1、Keyword-6和Keyword-20。在一个实施例中,特征属性关联建立模块12还可以建立所述特征属性与相邻的特征属性之间的关联矩阵。在一个实施例中,还可以针对每一种特征属性值所关联的文献建立所述特征属性值与不相邻的特征属性的特征属性值之间的关联。在一个实施例中,所述特征属性关联建立模块12还用于:根据每一种特征属性,根据所述特征属性中的每一个特征属性值与其他特征属性的特征属性值之间的关联,建立所述特征属性与其他特征属性之间的关联矩阵。在一个实施例中,通过建立不同特征属性之间的关联矩阵,可以更快捷的获取不同特征属性值之间所共同关联的文献。
在一个实施例中,所述作者向量AuthorInverted[]的节点信息还包括:Weight(即根据统计该作者存现的频次、以及该作者在文献中的次序,如第一作者或第二作者采用预设算法获得的权重)。在一个实施例中,节点的权重又由该节点的语义权重和文献检出时序权重等要素根据预设算法计算获得。信息节点的语义权重包含出现的频度(例如某一主题词的出现词频)、在文献中的位序(例如第一作者和其他位序作者的区别)等等。文献检出时序是指:在文献搜索结果中文献的排列顺序,也就是该信息节点所属文献在检出结果中的位序。位序越小则权重越大。在一篇文献内容特征向量中,信息节点依节点权重降序排列,即所述特征属性的特征信息值将按照所述特征信息值的权重降序显示。
特征属性显示模块13与特征属性关联建立模块12相连,用于根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。在一个实施例中,同一特征属性向量中信息节点(对应不同的特征属性值)的先后排列顺序是由该节点的权重所决定。在一个实施例中,所述特征属性显示模块13还用于:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。例如,所述第一操作为鼠标左键点击,则鼠标左键点击任一个特征属性值时,显示所述特征属性特征值与相邻的特征属性的关联。所述特征属性显示模块13还用于:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献。例如,所述第二操作为鼠标右键点击,则当鼠标右键点击任一个特征属性值时,显示所述特征属性值所关联的文献。又如,所述第二操作为左键单击任一个特征属性值右上角数字(关联文献数)时,显示所述特征属性值所关联的文献。得到的显示结果我们可以称之为启发式发散思维特性的知识关联矩阵(简称知识关联矩阵)。本发明方案将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维特性的知识关联矩阵,以帮助用户更好地区分和识别相关兴趣文献。
在一个实施例中,所述特征属性显示模块13还用于:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。所选取的任意两个特征属性值属于同一特征属性,或者所述任意两个特征属性值为分别属于两个不同特征属性。所述共同关联的文献信息包括共同关联的文献数目。所述共同关联的文献信息还包括获取共同关联的文献的链接路径或其他获取任一个共同关联文献的途径。在一个实施例中,所述特征属性显示模块13可以通过建立特征属性之间的关联矩阵,可以更快捷的获取不同特征属性值之间所共同关联的文献信息,从而提供选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息的处理速度。如果不能直接从特征属性值之间的关联中获取所选取的两个特征属性值之间共同关联的文献信息,则可以分别从所选取的两个特征属性值中获取所关联的所有文献,再找到所选取的两个特征属性值都关联的文献。通过本方案得到的知识关联矩阵可以大大提高使用者区分和识别感兴趣文献的效率,为用户节省时间。同时也方便了用户的联想,启发读者的发散式思维阅读,从而让用户能够在庞大繁多的文献搜索结果中快速找到真正需要的文献。
在一个实施例中,所述特征属性关联建立模块12还用于:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关。所述特征属性显示模块13还用于将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。在一个实施例中,所述特征属性值的权重还与所述特征属性值在文献中的位序相关。例如,一个特征属性值频度越高,则该特征属性值的权重越大;当两个特征属性值的频度相同时,则根据特征信息在文献中的排列位序来确定,例如,如果两个作者所关联的文献数目(频度)相同,则考察这两个作者作为第一作者、第二作者出现的频次,以作为第一作者出现的频次高的作者的权重大。在一个实施例中,所述特征属性显示模块13中所述特征属性值的显示还包括显示特征属性值出现的频度(也可称为频次),所述第二操作为鼠标右键点击频度,则当鼠标右键点击任一个特征属性值中的频度时,显示所述特征属性值所关联的文献。
在一个实施例中,所述文献搜索结果处理系统1可以以插件的方式接入到浏览器中。以PubMed搜索引擎,当启动插件相应的按钮(知识关联矩阵按钮)后,文献搜索结果处理系统1按照上述文献搜索结果处理方法进行处理。在一个实施例中,原始的PubMed搜索引擎选用关键词搜索得到一个搜索结果(共6篇文献),从搜索结果的6篇文献中提取每一篇文献的下列特征属性内容,包括主要主题词、次要主题词、文献作者、以及主题词、摘要词。然后对每一个特征属性的每一个特征属性值进行处理及其进行特征属性间的关联处理,分别得到各个特征属性以及特征属性间的关联。最后文献搜索结果处理系统1将知识关联矩阵(文献搜索结果处理系统1得到的结果)以图3方式弹出显示界面,其中特征属性值右上角的数字为所述特征属性值所关联的文献数目,也可以认为是该特征属性值的频次,例如,次要主题词transferrin右上角的数字为4,表明transferrin作为次要主题词在4篇文献中出现。在一个实施例中,当点击其中的作者的一个特征属性值(Walter U)时,以图4的方式显示Walter U相关信息点及其关联的界面。当点击其中的一个特征信息值(tyrosine 3-monoc)时,将显示tyrosine 3-monoc相关信息点及其关联的界面。此时,点击特征信息值(tyrosine 3-monoc)右上角上的数字2,将显示该特征信息值(tyrosine 3-monoc)所关联的两个文献的列表,当鼠标移动到列表中的一个文献上时,如图5所示,将进一步显示该文献的内容。在一个实施例中,任意选取两个特征信息节点(本例中:nuclear proteins AND protein isoforms),以图6的显示界面方式当前搜索结果中相关文献数2。此时,点击该数字2,将显示特征信息值nuclear proteins和特征信息值protein isoforms所共同关联的两个文献的列表。
综上所述,本发明的一种文献搜索结果处理方法及系统通过对实时搜索检出文献的多维度聚类细分及其相互知识关联揭示,将突破搜索引擎现有的搜索结果呈现模式,为用户提供一个启发式发散思维特性的知识关联矩阵,以帮助用户更好地区分和识别相关兴趣文献。本发明的技术方案通过多维度分层级的有序节点以关联矩阵模式体现了文献之间内在的特征词之间的网状语义关联,以启发读者发散式思维阅读。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种文献搜索结果处理方法,其特征在于,所述文献搜索结果处理方法包括:
获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性;
设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的每一个特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联;
根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。
2.根据权利要求1所述的文献搜索结果处理方法,其特征在于:所述文献搜索结果处理方法还包括:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关;将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。
3.根据权利要求1所述的文献搜索结果处理方法,其特征在于:所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。
4.根据权利要求1所述的文献搜索结果处理方法,其特征在于:所述文献搜索结果处理方法还包括:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献信息。
5.根据权利要求1所述的文献搜索结果处理方法,其特征在于:所述文献搜索结果处理方法还包括:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。
6.一种文献搜索结果处理系统,其特征在于:所述文献搜索结果处理系统包括:
文献特征属性获取模块,用于获得搜索得到的多篇文献,所述文献包括文献特征信息,所述文献特征信息包括多种特征属性;针对每一篇文献提取所述文献的至少两种特征属性;
特征属性关联建立模块,用于设定所提取的特征属性间的关联位序,针对每一种特征属性确定所述特征属性的特征属性值所关联的文献,并根据所述特征属性值所关联的文献建立所述特征属性值与相邻的特征属性的特征属性值之间的关联;
特征属性显示模块,用于根据所述特征属性间的关联位序显示每一种特征属性的特征属性值。
7.根据权利要求6述的文献搜索结果处理系统,其特征在于:所述特征属性显示模块还用于:当对任一个特征属性值进行第一操作时,显示所述特征属性特征值与相邻的特征属性的关联。
8.根据权利要求6述的文献搜索结果处理系统,其特征在于:所述特征属性显示模块还用于:当对任一个特征属性值进行第二操作时,显示所述特征属性值所关联的文献信息。
9.根据权利要求6述的文献搜索结果处理系统,其特征在于:所述特征属性显示模块还用于:选取任意两个特征属性值,显示所选取的两个特征属性值之间共同关联的文献信息。
10.根据权利要求6述的文献搜索结果处理系统,其特征在于:所述特征属性关联建立模块还用于:针对每一种特征属性统计所述特征属性的特征属性值出现的频度;针对每一种特征属性计算所述特征属性的每一个特征属性值的权重;所述特征属性值的权重与所述特征属性值出现的频度相关;所述特征属性显示模块还用于:将所述特征属性的特征属性值按照所述特征属性值的权重降序显示。
CN201510628170.9A 2015-09-28 2015-09-28 一种文献搜索结果处理方法及系统 Active CN106557506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510628170.9A CN106557506B (zh) 2015-09-28 2015-09-28 一种文献搜索结果处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510628170.9A CN106557506B (zh) 2015-09-28 2015-09-28 一种文献搜索结果处理方法及系统

Publications (2)

Publication Number Publication Date
CN106557506A true CN106557506A (zh) 2017-04-05
CN106557506B CN106557506B (zh) 2019-09-13

Family

ID=58415871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510628170.9A Active CN106557506B (zh) 2015-09-28 2015-09-28 一种文献搜索结果处理方法及系统

Country Status (1)

Country Link
CN (1) CN106557506B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN102779143A (zh) * 2012-01-31 2012-11-14 中国科学院自动化研究所 知识谱系的可视化方法
CN104636424A (zh) * 2014-12-02 2015-05-20 南昌大学 一种基于图谱分析构建文献综述框架的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN102779143A (zh) * 2012-01-31 2012-11-14 中国科学院自动化研究所 知识谱系的可视化方法
CN104636424A (zh) * 2014-12-02 2015-05-20 南昌大学 一种基于图谱分析构建文献综述框架的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄微 等: "基于概念格的Web学术信息搜索结果的二次组织", 《现代图书情报技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN114511027B (zh) * 2022-01-29 2022-11-11 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法

Also Published As

Publication number Publication date
CN106557506B (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
US10997678B2 (en) Systems and methods for image searching of patent-related documents
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN102651022B (zh) 一种搜索方法和装置
US20140040225A1 (en) Displaying browse sequence with search results
JP2011154668A (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN105975584B (zh) 一种数学表达式相似距离测量方法
CN105975547B (zh) 基于内容与位置特征的近似web文档检测方法
KR20160117678A (ko) 큐레이션 커머스에서 상품 등록 및 추천 방법
TWI674511B (zh) 商品資訊顯示系統、商品資訊顯示方法、及程式產品
Ajoudanian et al. Deep web content mining
CN106557506A (zh) 一种文献搜索结果处理方法及系统
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Yoon et al. A conference paper exploring system based on citing motivation and topic
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
EP2026216A1 (en) Data processing method, computer program product and data processing system
Keller et al. GRABEX: A graph-based method for web site block classification and its application on mining breadcrumb trails
JP2009032180A (ja) テキストマイニング装置及びテキストマイニング方法
JP2004192368A (ja) 関連分類抽出方法及び装置
CN109684474B (zh) 用于提供写作话题的方法、装置、设备和存储介质
WO2017134760A1 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
Manna et al. Information retrieval-based question answering system on foods and recipes
JP4876706B2 (ja) イメージ検索システム
Gaur Data mining and visualization on legal documents
TWI423053B (zh) Domain Interpretation Data Retrieval Method and Its System
Ferrez et al. Mining product features from the web: a self-supervised approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhao Tao

Inventor after: Geng Yibing

Inventor before: Geng Yibing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant