CN103729432B - 一种引文数据库中主题文献学术影响力的分析与排序方法 - Google Patents

一种引文数据库中主题文献学术影响力的分析与排序方法 Download PDF

Info

Publication number
CN103729432B
CN103729432B CN201310732480.6A CN201310732480A CN103729432B CN 103729432 B CN103729432 B CN 103729432B CN 201310732480 A CN201310732480 A CN 201310732480A CN 103729432 B CN103729432 B CN 103729432B
Authority
CN
China
Prior art keywords
document
factor
academic
motif
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310732480.6A
Other languages
English (en)
Other versions
CN103729432A (zh
Inventor
许卓明
林莉莉
庄远航
王骏华
卫洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201310732480.6A priority Critical patent/CN103729432B/zh
Publication of CN103729432A publication Critical patent/CN103729432A/zh
Application granted granted Critical
Publication of CN103729432B publication Critical patent/CN103729432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种引文数据库中主题文献学术影响力的分析与排序方法,包括:在引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;根据获取的主题文献元数据信息及主题文献间引用关系构建主题引文网络;基于主题引文网络构建包含文献学术影响力多因素的因子图模型;使用循环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序。本发明公开的引文数据库中主题文献学术影响力的分析与排序方法,能够实现用户给定主题的文献学术影响力排序。

Description

一种引文数据库中主题文献学术影响力的分析与排序方法
技术领域
本发明涉及引文分析技术领域,尤其涉及一种引文数据库中主题文献学术影响力的分析与排序方法。
背景技术
对科技文献的学术影响力(academic influence)进行排序或排名(ranking),有利于科技工作者选读高质量文献、获取权威知识、提高科技工作效率和科研成果质量。文献学术影响力分析与评价属于文献计量学(Bibliometrics)中的引文分析(citationanalysis)技术领域,在图书馆与信息科学等领域有着广泛的应用。科技工作者(或称为“用户”)检索文献并期待获得高学术影响力文献的需求往往从该用户的兴趣主题(interestedtopic)出发。因此,在用户兴趣主题上的学术期刊文章(journal articles)或会议论文(conference papers)即主题文献(topical literature)的学术影响力排名对用户更有意义。
引文分析的基本方法是建立引文索引(citation index),并根据被引次数(citation counts)对文献、作者、出版物进行评价。引文分析方法源于Garfield的相关理论(参见“Garfield E.Citation indexes for science:a new dimension indocumentation through association of ideas[J].Science,1955,122(3159):108-111.”、“Garfield E,Merton R K.Citation indexing:Its theory and application inscience,technology,and humanities[M].New York:Wiley,1979.”)。基于Garfield的理论,大量引文数据库(citation database)得以建立,并已提供了Web检索平台,如:ThomsonReuters(原ISI)Web of Science(WOS),Google Scholar,Elsevier Scopus,以及中国科学引文数据库(Chinese Science Citation Database,CSCD)等。
当前,尽管引文数据库能向用户提供文献的主题检索(topical search)功能,即当用户使用兴趣主题进行检索时,系统给用户返回与检索主题相关的文献(即主题文献),并能按相关性(relevance)、被引次数、出版日期、来源出版物等对检索到的主题文献进行排序。然而,存在的问题是:1、文献与检索主题之间的相关性不能完全反映文献的学术影响力;2、被引次数也无法完全体现文献学术影响力,这是因为各个被引文献的诸多施引文献并不能认为具有同等的质量或影响力,而且发表时间长的文献更容易获得高被引次数,被引次数尤其不能衡量文献在特定主题上的学术影响力,因为统计被引次数时文献引用并未区分主题;3、文献来源出版物的影响力(例如,期刊影响因子等)也无法简单地用于评价单个文献的影响力。为建立更为有效的文献学术影响力分析与评价方法,许多研究以文献引用与被引次数为基础,提出了一系列改进方法。
与引文数据库中主题检索相类似的是万维网上网页的主题搜索,Web用户在搜索引擎(如Google)中输入感兴趣的主题检索词后,搜索引擎给用户返回该主题上的相关网页。Sergey Brin和Lawrence Page提出了用于Google搜索引擎的PageRank方法。该PageRank方法通过对万维网上相互链接的网页进行链接分析(link analysis),计算出各网页的权重(weighting),以度量网页的相对重要性。科技文献之间的引用关系类似于网页间的链接关系,因此,理论上讲,PageRank方法或其思想可运用于文献的重要性或影响力排序。许多改进方法都运用了PageRank方法或借鉴其思想,大体可分为以下三类。
第一类方法:采用仅依赖于链接分析的技术方案,主要包括:
Ma等人公开了一种直接使用PageRank方法来对科技文献学术影响力进行排序的方法(参见“Ma N,Guan J,Zhao Y.Bringing PageRank to the citation analysis[J].Information Processing&Management,2008,44(2):800-810.”),主要思想是:一篇文献的重要程度取决于它被多少施引文献所引用及这些施引文献的质量,在随机游走时以同等概率从施引文献游走到所有被引文献。然而,其主要不足是:1、文献学术影响力排序与用户的兴趣主题无关;2、仅考虑文献引用关系的纯链接分析并不能合理评价文献的学术影响力。
Zhou等人公开了一种利用作者与文献关系、文献间引用关系、作者合著关系三种不同类型的链接,采用PageRank方法思想同时对文献及作者的重要性进行排序的方法(参见“Zhou D,Orshanskiy S A,Zha H,et al.Co-ranking authors and documents in aheterogeneous network[C]//Seventh IEEE International Conference on DataMining(ICDM2007),IEEE,2007:739-744.”)。然而,其主要不足是:不支持给定用户查询主题的重要性排序,考虑的文献学术影响力因素较为简单。
Yan等人公开了一种利用作者与文献关系、文献间引用关系,文献与期刊关系三种不同类型的链接,采用PageRank方法思想同时对文献、作者、期刊的学术威望进行排序的方法(参见“Yan E,Ding Y,Sugimoto C R.P-Rank:An indicator measuring prestige inheterogeneous scholarly networks[J].Journal of the American Society forInformation Science and Technology,2011,62(3):467-477.”)。然而,其主要不足是:不支持给定用户查询主题的重要性排序,考虑的文献学术影响力因素较为简单。
中国专利公开号CN102298579A,公开日2011年12月28日,名称为“面向科技文献的论文、作者和期刊排序模型及排序方法”,公开了一种包含论文(P)、作者(A)、会议或期刊(J)三种结点及相互间五种关系的有向图模型——PAJ模型,以及基于PAJ模型的排序方法,基本原理是根据五种链接关系生成转移概率矩阵,利用矩阵迭代计算结果作为排序的依据。然而,其主要不足是:1、没有提供用户兴趣主题上的主题文献排序方法;2、论文排序是仅基于链接分析的所谓“热门”度排序,而非综合考虑多种影响力因素的主题文献学术影响力排序。
第二类方法:采用在链接分析中加入其他因素的技术方案,主要包括:
Krapivin等人公开了一种称为Focused Page Rank(FPR)的基于PageRank的文献排序方法(参见“KrapivinM,Marchese M.Focused page rank in scientific papersranking[C]//Proceedings of the11th International Conference on Asian DigitalLibraries:Universal and Ubiquitous Access to Information,2008:122-153.”),基本思想是:具有较高被引次数的文献更容易被人发现从而被人引用,在随机游走时以更高概率游走到被引次数高的文献。但其主要不足是:1、文献排序与用户兴趣主题无关;2、仅考虑被引次数不能产生合理的文献学术影响力排序。
Walker等人公开了一种文献排序的CiteRank方法(参见“Walker D,Xie H,Yan KK,et al.Ranking scientific publications using a model of network traffic[J].Journal of Statistical Mechanics:Theory and Experiment,2007,DOI10.1088/1742-5468/2007/06/P06010.”);Li等人公开了一种文献排序的TS-Rank方法(参见“Li X,Liu B,Philip S Y.Time sensitive ranking with application to publication search[M]//Link Mining:Models,Algorithms,and Applications.Springer New York,2010:187209.”)。这两种方法的共同思想是:引入一个关于文献出版年的时间衰变因素,在引文网络上随机游走时以更大概率游走到较近出版的文献。然而,这两种排序方法的共同缺陷在于:1、文献排序与用户兴趣主题不相关;2、在文献引用关系的基础上,仅考虑了文献出版时间因素,是一种理想化的随机游走模型,但实际中,科技工作者在选择文献时还会同时考虑其他多种因素,如:文献来源出版物的影响力、文献的被引次数等。因此,这类文献排序方法难以产生合理的文献学术影响力排序。
Hwang等人和Yan等人分别提出了同时将文献的出版年、来源出版物两个因素融合到PageRank方法中,以实现一种更精准的文献权威性排序的方法(参见“Hwang W S,Chae SM,Kim S W,et al.Yet another paper ranking algorithm advocating recentpublications[C]//Proceedings of the19th International Conference on WorldWide Web,ACM,2010:11171118.”、“Yan E,Ding Y.Weighted citation:An indicator ofan article's prestige[J].Journal of the American Society for InformationScience and Technology,2010,61(8):1635-1643.”)。这类方法的主要思想是:在随机游走时以更大概率游走到来源出版物学术影响力大且出版年份近的文献。然而,这类改进方法的主要不足是:未考虑文献引用的主题相关性,而且不支持用户指定主题的文献学术影响力排序。
Wang等人公开了综合利用作者与文献关系、文献间引用关系、文献与期刊关系三种不同类型的链接以及文献的作者、来源出版物、出版年因素,实现一种将PageRank方法与HITS方法相结合的文献排序方法(参见“Wang Y,Tong Y,Zeng M.Ranking scientificarticles by exploiting citations,authors,journals,and time information[C]//Twenty-Seventh AAAI Conference on Artificial Intelligence.2013.”)。然而,其不足之处是:未考虑文献引用的主题相关性,也不支持用户指定主题的文献学术影响力排序。
第三类方法:采用概率主题建模与链接分析相结合的技术方案,主要包括:
Wu等人公开了一种基于PageRank思想的主题层特征向量(Topic-leveleigenfactor,TEF)方法(参见“Wu H,He J,Pei Y.Scientific impact at the topiclevel:A case study in computational linguistics[J].Journal of the AmericanSociety for Information Science and Technology,2010,61(11):2274-2287.”)。该TEF方法的基本思想是:首先根据LDA概率主题模型自动抽取隐含在文献集里的所有主题并确定所有文献的主题概率分布,在随机游走时优先游走到主题概率高的文献结点。然而,其不足之处是:1、只能在概率主题建模分析得出的主题上进行文献相对重要性排序,无法实现用户给定兴趣主题的文献学术影响力排序;2、概率主题建模采用文本分析技术,所生成的主题太多(几百甚至几千个)且主题往往不合理或不符合实际,难以实用;3、文献重要性排序只考虑了主题相关度因素,因此排序结果不够合理。
Nallapati等人公开了一种称为TopicFlow的文献影响力分析方法(参见“Nallapati R,Mcfarland D A,Manning C D.Topicflow model:Unsupervised learningof topic-specific influences of hyperlinked documents[C]//InternationalConference on Artificial Intelligence and Statistics.2011:543-551.”),基本思想是:结合概率主题模型(topic model)及网络流(network flow)思想推理出文献集中隐含的主题,同时通过非监督学习出文献在隐含主题上的影响力。然而,该方法的主要缺陷是:1、只能在概率主题建模分析得到的主题上进行文献影响力排序,无法实现用户给定兴趣主题的文献学术影响力排序;2、所考虑的影响力因素仅为文献间引用关系。
除了各自的不足之处外,以上列出的所有方法还有一个共同缺陷:未能充分利用现有引文数据库的主题检索功能去收集用户兴趣主题上的相关文献及多种影响力因素数据,并对诸多因素进行系统建模与科学分析。
因此,有必要提出一种更为有效的主题文献学术影响力的分析与排序方法,以充分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种影响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素进行系统建模与科学分析,从而克服现有文献学术影响力排序方法不能针对用户兴趣主题产生排序结果或者因未综合考虑多种学术影响力因素而产生不合理与不准确排序结果的缺陷,以提高用户的科技工作效率和科研成果质量。
发明内容
本发明的目的旨在提供一种引文数据库中主题文献学术影响力的分析与排序方法,能够提高用户给定主题上文献学术影响力排序的有效性、准确率,以提高用户的科技工作效率和科研成果质量。
本发明提供一种引文数据库中主题文献学术影响力的分析与排序方法,包括:在引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络;基于主题引文网络构建一个包含文献学术影响力多因素的因子图(factor graph)模型;使用循环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序。
本发明提出的一种引文数据库中主题文献学术影响力的分析与排序方法,能够充分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种学术影响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素进行系统建模与科学分析,从而可以实现用户给定主题的文献学术影响力排序。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了根据本发明技术方案的引文数据库中主题文献学术影响力的分析与排序方法的流程示意图;
图2示出了根据本发明技术方案的不同范围的文献、文献间引用关系及主题引文网络示意图;
图3示出了根据本发明技术方案的主题引文网络中文献结点的标示信息的示意图;
图4示出了根据本发明技术方案的引文数据库中主题文献学术影响力分析过程中的因子图建模的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的概念、对象、要素等或具有相同或类似功能的概念、对象、要素等。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提出的改进现有技术的基本方案是:1、充分利用引文数据库的主题检索功能及检索结果;2、引入能对诸多因素进行综合建模与分析的模型。优选地,本发明采用因子图(factor graph)模型对引文数据库中主题文献学术影响力排序进行综合建模与分析。
因子图作为一种新型的概率图模型(probabilistic graphical model),已成为机器学习(machine learning)的新方法,适合于建模现实世界的复杂系统并导出相关识别与估算问题的消息传递(message passing)方法。例如,因子图可应用于概率建模,并可简化贝叶斯网络(Bayesian networks)、马尔可夫随机场(Markov random fields)等传统概率图模型的推理。
数学上,因子图是描述定义在某个变量集上的一个全局函数被因式分解为定义在该变量集的若干变量子集上的局部函数的乘积,即公式(1)表示的因式分解。
h ( x 1 , . . . , x n ) = Π j ∈ J f j ( X j ) - - - ( 1 )
其中:h(x1,...,xn)是定义在变量集{x1,...,xn}上的全局函数;J是离散索引集;Xj是{x1,...,xn}的子集,即fj(Xj)是以Xj中元素为自变量的局部函数(也称因子)。
因子图是由两类结点构成的二部图(bipartite graph):每个变量xi对应一个变量结点(用小圆圈表示),每个局部函数fj(Xj)对应一个因子结点(用小矩形表示),当且仅当xi是函数fj(Xj)的自变量时,相应变量结点与相应因子结点之间才有一条无向边相连。
因子图是一种通用模型框架,在运用因子图时,需根据特定的实际问题来确定合适的变量集、局部函数、全局函数及其因式分解,并根据因子图中是否有环(cycles或loops)来设计合适的精确推理(exact inference)或近似推理(approximate inference)方法,尤其是确定推理方法中合适的消息传递规则与调度策略等。
图1示出了根据本发明一实施方式的引文数据库中主题文献学术影响力的分析与排序方法的流程示意图。如图1所示,本发明公开一种引文数据库中主题文献学术影响力的分析与排序方法,包括:步骤S1,在引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;步骤S2,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络;步骤S3,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型;步骤S4,使用循环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;步骤S5,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序。
进一步地,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引用关系,包括:在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结果按主题相关性降序排序;从检索结果中获取主题文献元数据信息及主题文献间引用关系。
进一步地,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络,包括:基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向边的有向无环图(directed acyclic graph);基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结点标示的有向无环图作为主题引文网络。
进一步地,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型,包括:确定因子图的变量集;确定定义在因子图变量集的子集上的局部函数,其中:所述局部函数包括:文献特征局部函数和文献间引用特征局部函数;用获得的局部函数来确定因子图全局函数的因式分解。
进一步地,确定因子图的局部函数中的文献特征局部函数,包括:将文献的主题相关性降序排序序号通过线性变换映射为实数闭区间上的主题相关性因素的取值;将文献来源期刊的学术影响力通过线性变换映射为实数闭区间上的来源出版物学术影响力因素的取值;将文献来源会议论文集的学术影响力通过线性变换映射为实数闭区间上的来源出版物学术影响力因素的取值;将文献在引文数据库内的被引次数通过线性变换映射为实数闭区间上的被引次数因素的取值;为每个文献引入一个年龄阻尼系数因素;综合考虑以上四个因素,确定文献特征局部函数。
进一步地,确定因子图的局部函数中的文献间引用特征局部函数,包括:根据施引文献与被引文献的相关性降序排序序号线性变换映射值,确定主题上引用因素的取值;根据施引文献与被引文献的出版年份差进行线性变换后映射为实数闭区间上的出版年份差因素的取值;综合考虑以上两个因素,确定因子图中文献间引用特征局部函数。
进一步地,用获得的局部函数来确定因子图全局函数的因式分解,包括:使用马尔可夫随机场中联合分布的计算方法来确定因子图全局函数被因式分解为局部函数乘积的方法。
进一步地,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有变量的边缘概率值,包括:在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛;找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置;计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘概率值。
进一步地,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序,包括:获得已确定的因子图变量集特定配置下的所有变量的边缘概率值,将各边缘概率值进行降序排序;排序好的因子图变量所分别对应的全部主题文献构成了主题文献的学术影响力排名榜,将其作为结果输出。
本发明提出的一种引文数据库中主题文献学术影响力的分析与排序方法,能够充分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种学术影响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素进行系统建模与科学分析,从而可以实现用户给定主题的文献学术影响力排序。
下文将对上述各步骤具体展开描述。为便于理解,如下表1中列出了各步骤统一使用的主要数学符号及其含义:
表1:主要数学符号及其含义一览表
步骤S1,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引用关系,具体包括:
步骤S1-1,在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结果按主题相关性(topic relevance)降序排序,具体如下:
如图2所示,图中三个椭圆分别表示了不同范围的文献、文献间引用关系的集合,包括:虚线椭圆表示的所有文献及其引用关系、细实线椭圆表示的引文数据库内文献及其引用关系、粗实线椭圆表示的主题引文网络内文献及其引用关系。本发明的技术方案仅需要粗实线椭圆表示的主题引文网络内文献及其引用关系,其中的文献(即主题文献)来自主题检索的结果(图中d1,…,d7),其中的引用关系是主题文献之间的引用关系(图中d2引用d1,d2引用d3,d2引用d4,d1引用d3,d5引用d6),而不需要引文数据库中的非主题文献(图中d8,…,d11)以及主题文献与非主题文献之间的引用关系(图中d8引用d1,d2引用d9,d7引用d11)和非主题文献之间的引用关系(d9引用d10)。引文数据库不对图中虚线表示的文献及文献间引用关系建立索引。
步骤S1-2,从检索结果中获取主题文献元数据信息及主题文献间引用关系,具体包括:
(1)主题文献集{dn|n=1,…,N},其中,dn是任一主题文献的标识符,N是主题文献总篇数;
(2)主题文献的主题相关性值(如果引文数据库向用户提供相关性值的话)或相关性降序排序序号(如果引文数据库不向用户提供相关性值的话)构成的集合{rn|n=1,…,N};
(3)主题文献的来源出版物(期刊或会议论文集)学术影响力构成的集合{in|n=1,…,N};
(4)主题文献在引文数据库内的被引次数构成的集合{cn|n=1,…,N};
(5)主题文献出版年构成的集合{tn|n=1,…,N};
(6)主题文献间引用关系构成的集合{eij|i,j=1,…,N且di引用dj}。
步骤S2,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络,具体包括:
步骤S2-1,基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向边的有向无环图(directed acyclic graph),如图2(其中的粗轮廓线内部分)所示,具体如下:
有向无环图G=(D,E),其中,D={dn|n=1,…,N}是主题文献集,E={eij|i,j=1,…,N且di引用dj}是主题文献间引用关系集,N是图中结点个数(即主题文献总篇数)。
步骤S2-2,基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结点标示的有向无环图即主题引文网络(topical citation network),具体如下:
主题引文网络是一个结点标示的(node-labeled)有向无环图Gl=(D,E,R,I,C,T),标示信息如图3所示,其中,D={dn|n=1,…,N},E={enm|n,m=1,…,N且dn引用dm},R={rn|n=1,…,N}是主题文献的主题相关性值或相关性降序排序序号,I={in|n=1,…,N}是主题文献的来源出版物(期刊或会议论文集)学术影响力,C={cn|n=1,…,N}是主题文献在引文数据库内的被引次数,T={tn|n=1,…,N}是主题文献出版年,rn,in,cn,tn用于标示dn,n=1,…,N,N是图中结点个数(即主题文献总篇数)。
步骤S3,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型,如图4所示,具体包括:
步骤S3-1,确定因子图的变量集,具体如下:
为每篇主题文献定义一个隐含变量,即为标识全部主题文献的观察变量集{dn|n=1,…,N}定义相应的隐含变量集{xn|xn=0或1,且n=1,…,N},作为因子图的变量集,当xn=0时表示文献dn不是主题上的有学术影响力论文,当xn=1时表示文献dn是主题上的有学术影响力论文。
步骤S3-2,确定定义在因子图变量集的子集上的局部函数,具体包括:
步骤S3-2-1,确定因子图的局部函数中的文献特征局部函数,具体如下:
由于文献与检索主题的相关性越高就越有可能在给定主题上具有较高学术影响力,因此需要考虑文献的主题相关性因素。具体计算方法是,将主题文献的主题相关性值(如果引文数据库向用户提供相关性值的话)或相关性降序排序序号(如果引文数据库不向用户提供相关性值的话)r1,…,rN按公式(2)通过线性变换映射为实数闭区间[αrr]上的取值称主题相关性因素,其中,常量αr和βr分别取信息检索(informationretrieval)领域的搜索引擎排序算法中相关性的最小值(也称阈值(threshold))和最大值(如:αr=0.5,βr=0.8)。
由于文献来源出版物(包括期刊或会议论文集)的学术影响力可以在一定程度上反映所刊发文献的(平均)学术影响力,因此需要考虑文献来源出版物影响力因素。当前的引文数据库均提供了期刊学术影响力的评价指标,例如,WOS采用期刊影响因子(impactfactor),Google Scholar采用期刊的h5指数(h5-index),Scopus采用SJR(SCImagoJournal Rank)指标。对于学术会议,国际学术界针对不同学科领域提供了会议学术影响力排名,例如,Microsoft Academic Search:http://academic.research.microsoft.com/和Academic Influence Ranking:http://137.189.97.151/。这样,我们就可以利用期刊学术影响力评价指标值和会议学术影响力排名来衡量文献来源出版物学术影响力因素。具体计算方法是,首先,文献来源期刊的学术影响力评价指标值im,m∈{1,…,N}(注:dm的来源出版物是期刊)按公式(3a)通过线性变换映射为实数闭区间[αii]上的取值m∈{1,…,N},称来源出版物学术影响力因素,其中,常量αi和βi应分别取变换映射后的最小值和最大值(如:αi=0.001,βi=1.0)。
式中:dm的来源出版物是期刊。
其次,文献来源会议论文集学术影响力排名ik,k∈{1,…,N}(注:dk的来源出版物是会议论文集)按公式(3b)通过线性变换映射为实数闭区间[αii]上的取值称来源出版物学术影响力因素,其中,常量αi和βi应分别取变换映射后的最小值和最大值(如:αi=0.001,βi=1.0)。
式中:dk的来源出版物是会议论文集。
一篇文献的来源出版物要么是期刊,要么是会议论文集。当文献来源于期刊时,来源出版物学术影响力因素按公式(3a)计算而得;当文献来源于会议论文集时,来源出版物学术影响力因素按公式(3b)计算而得。这样,公式(3a)和(3b)的计算结果正好确定了全部的即:
由于文献被引次数是衡量文献学术影响力的常用指标,引文数据库都提供这种文献评价指标,因此需要考虑文献在引文数据库内的被引次数因素。具体计算方法是,将文献在引文数据库内的被引次数c1,…,cN按公式(4)通过线性变换映射为实数闭区间[αcc]上的取值称被引次数因素,其中,常量αc和βc应分别取变换映射后的最小值和最大值(如:αc=0.001,βc=1.0)。
由于发表年代久远的文献往往比新近发表的文献更有机会被别的文献引用,也就是说,仅用文献被引次数来衡量其学术影响力对新近发表的文献很不“公平”,因此需要为每个文献引入一个年龄阻尼系数(age damping factor)因素a1,…,aN,其计算公式(5)如下:
an=exp(-agen/τ),n=1,…,N (5)
式中:agen是文献dn已发表的年数,即主题检索的当年年份减去该文献的出版年份tn;τ是衰变时间(decay time),通常根据不同学科领域或主题的不同技术发展(或老化)速度取不同的常数,例如,计算机科学学科可以取τ=4,物理学科可以取τ=8,文献计量学界有大量相应研究成果,可借鉴已有研究成果选取合适的τ值。
综合考虑以上四个因素,文献特征局部函数定义公式(6)如下:
式中:是归一化常数(normalization constant)。
步骤S3-2-2,确定因子图的局部函数中的文献间引用特征局部函数,具体如下:
由于对于主题引文网络中的每个文献引用关系,当施引文献与被引文献的主题相关性差异较小且两篇文献的主题相关性均较大时,表明被引文献很可能是给定主题上有影响力的文献,反之,当两篇文献的主题相关性差异较大或它们的主题相关性均较小时,表明被引文献不太可能是给定主题上有影响力的文献,因此需要引入一个主题上引用因素qnm,n,m∈{1,…,N},且enm∈E,其计算公式(7)如下:
由于对于主题引文网络中的每个文献引用关系,当施引文献与被引文献的出版年份差较大时,表明被引文献的学术影响力较为持久,因此需要引入一个出版年份差因素且enm∈E。具体计算方式是:对两篇文献的出版年份差snm=tn-tm按公式(8)进行线性变换后映射为实数闭区间[αss]上的取值,称出版年份差因素,其中,常量αs和βs分别取变换映射后的最小值和最大值(如:αs=0.001,βs=1.0)。
综合考虑以上两个因素,文献间引用特征局部函数定义公式(9)如下:
式中:是归一化常数。
步骤S3-3,用获得的局部函数来确定因子图全局函数的因式分解,具体如下:
本发明的因子图模型所表示的是一种称为马尔可夫随机场的概率图模型,因子图的全局函数就是马尔可夫随机场中的联合分布(joint distribution)。根据马尔科夫随机场中联合分布的计算方法,联合分布是图中所有最大团(maximal clique)上势函数(potential function)相乘后进行归一化;而最大团上的势函数可定义为该团所包含的全部局部函数的乘积。因此,因子图全局函数即联合分布p(x1,…,xN)的因式分解公式(10)如下:
p ( x 1 , . . . , x N ) = 1 Δ Π n = 1 N f ( x n ) Π e nm ∈ E , n , m ∈ { 1 , . . . , N } g ( x n , x m )
式中:是归一化常数,亦称配分函数(partition function);常数可看成是定义在变量空集上的一个局部函数。
步骤S4,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有变量的边缘概率值,具体包括:
本发明的因子图是有环因子图,这种因子图上只能进行近似推理(approximateinference),最适合使用循环最大和(loopy max-sum)推理算法。
因子图上进行循环最大和推理的计算任务是:在因子图的变量集配置空间(configuration space)中找到全部变量(x1,…,xN)的一个特定配置,使得公式(10)所定义的联合分布值达到最大,并计算此时因子图变量集中所有变量在所获得的特定配置下的边缘概率值(marginal probability)。推理计算的步骤包括:
步骤S4-1,在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛,具体如下:
首先,定义因子图中变量结点与因子结点之间的消息传递规则(message passingrules):
从变量结点到因子结点的边上传递的消息由公式(11)及(12)定义:
μ x n → f ( x n ) = Σ h ∈ ne ( x n ) \ { f } μ h → x n ( x n ) , n ∈ { 1 , . . . , N } - - - ( 11 )
式中:ne(xn)\{f}表示变量结点xn的相邻因子结点集去除因子f后的因子结点集;
μ x n → g ( x n ) = Σ h ∈ ne ( x n ) \ { g } μ h → x n ( x n ) , n ∈ { 1 , . . . , N } - - - ( 12 )
式中:ne(xn)\{g}表示变量结点xn的相邻因子结点集去除因子g后的因子结点集。
从因子结点到变量结点的边上传递的消息由公式(13)及(14)定义:
μ f → x n ( x n ) = ln f ( x n ) , n ∈ { 1 , . . . , N } - - - ( 13 )
μ g → x n ( x n ) = max x m ∈ ne ( g ) \ { x n } [ ln g ( x n , x m ) + μ x m → g ( x m ) ] , n , m ∈ { 1 , . . . , N } - - - ( 14 )
式中:ne(g)\{xn}表示因子结点g的相邻变量集去除变量xn后的变量集(对于本因子图,只剩一个变量)。
从(变量或因子)叶子结点传递出的初始消息由公式(15)及(16)定义:
μ x n → f ( x n ) = 0 - - - ( 15 )
μ f → x n ( x n ) = ln f ( x n ) - - - ( 16 )
然后,按串行调度(serial schedule)方式迭代传递消息,选择因子图中的任一变量结点xn作为根结点,利用公式(11)、(12)、(13)、(14)定义的消息传递规则,反复从叶子结点到根结点进行消息传递,并按照公式(17)计算联合分布的最大值,直到前后两次迭代过程中所有因子图边上传递的新旧消息差均小于事先设定的很小的收敛公差(convergencetolerance)值为止(当新旧消息差均为0时,迭代收敛;否则,迭代近似收敛)。
p max = max x n [ Σ h ∈ ne ( x n ) μ h → x n ( x n ) ] , n ∈ { 1 , . . . , N } - - - ( 17 )
步骤S4-2,找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置,具体如下:
当推理算法(近似)收敛时,可得根结点xn在联合分布达到最大值pmax时的一个特定配置如公式(18)所示:
x n max = arg max x n [ Σ h ∈ ne ( x n ) μ h → x n ( x n ) ] , n ∈ { 1 , . . . , N } - - - ( 18 )
式中:ne(xn)表示变量结点xn的所有相邻因子结点集。
当根结点xn的特定配置确定后,将公式(18)运用于因子图变量集中的剩余变量,以确定它们在联合分布达到最大值pmax时的特定配置。
步骤S4-3,计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘概率值,具体如下:
对每个变量xn,将其所有相邻的因子结点最新传递到该变量上的所有消息进行相乘,即可计算出该变量的边缘概率值,由公式(19)定义:
p ( x n ) = Π h ∈ ne ( x n ) μ h → x n ( x n ) , n = 1 , . . . , N - - - ( 19 )
步骤S5,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序,具体如下:
获得已确定的因子图变量集特定配置中所有xn=1,n∈{1,…,N}的变量边缘概率值p(xn=1),将各边缘概率值进行降序排序;排序好的因子图变量所分别对应的全部主题文献构成了主题文献的学术影响力排名榜,将其作为结果输出。
由于因子图方法具有可扩展性,因此因子数量可以根据实际需要进行增加或减少。本发明实施例中提出的因子及其数量基本囊括了本领域目前涉及的主要因素,但本发明实施例中的因子及其数量并不以此为限。
下文将以汤森路透集团(Thomson Reuters)的著名引文数据库Web of Science(WOS)为实例,以当前热门研究“大数据(big data)”为检索主题进行举例说明。需说明是,本发明的技术方案同样也可用其他引文数据库(如Google Scholar、Elsevier Scopus等)或其他用户兴趣主题来实施。
图1为本发明技术方案的流程图,具体实施步骤如下:
步骤S1,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引用关系,具体包括:
步骤S1-1,在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结果按主题相关性降序排序,具体实施方式如下:
在引文数据库WOS的“基本检索”服务中设定检索范围为“主题”,在检索式中输入“big data”(带引号)字符串,限制引文索引数据库为Science Citation Index Expanded(SCI-EXPANDED)和Conference Proceedings Citation Index-Science(CPCI-S),限制时间跨度为“从1996至2013”,在检索结果设置中选择排序方式为“相关性”。
步骤S1-2,从检索结果中获取主题文献元数据信息及主题文献间引用关系,具体实施方式如下:
在以上检索结果中下载全部608篇文献的全记录与引用的参考文献(注:本实施例的检索时间为北京时间2013年12月5日20:01),并保存为ISI格式的纯文本文件作为检索结果集文件,加上引文数据库提供的其他必要信息以及其他必要的来源信息(见下),可提取出如下信息:
(1)主题文献集:直接从检索结果集文件中提取;
(2)主题文献的相关性降序排序序号构成的集合:由于文献与检索主题的相关性值不能直接从WOS检索结果中获得,因此需要手工从检索结果中获取文献的主题相关性降序排序序号;
(3)主题文献的来源出版物(期刊或会议论文集)学术影响力构成的集合:从检索结果集文件中获取文献的来源出版物名称与类型;若来源出版物类型为期刊,则从WOS数据库提供的《期刊引证报告(Journal Citation Reports,JCR)》中获取相关期刊的影响因子(Impact Factor)作为主题文献来源出版物的学术影响力(注:其他引文数据库也提供了相应的期刊学术影响力的评价指标),若来源出版物类型为会议论文集,则从MicrosoftAcademic Search(http://academic.research.microsoft.com/)提供的计算机科学领域的3521个学术会议排名中获取相关会议的领域评价分(Field Rating)作为主题文献来源出版物的学术影响力(注:其他评价系统也提供了各个学科领域的会议学术影响力排名);
(4)主题文献在引文数据库内的被引次数构成的集合:直接从检索结果集文件中提取;
(5)主题文献出版年构成的集合:直接从检索结果集文件中提取;
(6)主题文献间引用关系构成的集合:直接从检索结果集文件中提取。
步骤S2,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络,具体包括:
步骤S2-1,基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向边的有向无环图,具体实施方式如下:
首先,将所保存的ISI格式纯文本文件导入到美国Indiana大学Katy团队开发的Sci2工具(参见“Sci2Team:Science of Science(Sci2)Tool[EB/OL].IndianaUniversity and SciTech Strategies,http://sci2.cns.iu.edu,2009.”)中,生成一个以以上608篇主题文献以及这些文献所引用的WOS数据库内的参考文献为结点、以结点文献之间的引用关系为边的有向无环图;然后,再从该图中删除非主题文献结点以及主题文献与非主题文献之间的引用关系,得到一个以608篇主题文献为结点,以这些文献之间的97个引用关系为边的有向无环图(注:其他构建引文网络的类似软件工具也可用于实施本步骤)。
步骤S2-2,基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结点标示的有向无环图即主题引文网络,具体实施方式如下:
用步骤S1-2获取的主题文献元数据信息及主题文献间引用关系对步骤S2-1构建的有向无环图的结点进行标示(结点标示信息的示意见图2所示),形成“big data”主题引文网络。
步骤S3,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型,具体包括:
步骤S3-1,确定因子图的变量集,具体实施方式如下:
为步骤S2-2形成的主题引文网络中608篇主题文献结点定义相应的608个隐含变量,作为因子图的变量集。
步骤S3-2,确定定义在因子图变量集的子集上的局部函数,具体包括:
步骤S3-2-1,确定因子图的局部函数中的文献特征局部函数,具体实施方式如下:
将文献的主题相关性降序排序序号按公式(2)通过线性变换映射为实数闭区间[0.5,0.8]上的主题相关性因素的取值。
将文献来源期刊的学术影响力按公式(3a)通过线性变换映射为实数闭区间[0.001,1.0]上的来源出版物学术影响力因素的取值;将文献来源会议论文集的学术影响力按公式(3b)通过线性变换映射为实数闭区间[0.001,1.0]上的来源出版物学术影响力因素的取值。
将文献在引文数据库WOS内的被引次数按公式(4)通过线性变换映射为实数闭区间[0.001,1.0]上的被引次数因素的取值。
设置衰变时间τ=4,计算agen=2013-文献出版年份,n=1,…,608,按公式(5)计算文献的年龄阻尼系数因素。
综合考虑以上四个因素,按公式(6)确定因子图中608个文献特征局部函数。
步骤S3-2-2,确定因子图的局部函数中的文献间引用特征局部函数,具体实施方式如下:
根据施引文献与被引文献的相关性降序排序序号线性变换映射值,按公式(7)计算主题上引用因素的取值。
根据施引文献与被引文献的出版年份差,按公式(8)计算出版年份差因素的取值。
综合考虑以上两个因素,按公式(9)确定因子图中97个文献间引用特征局部函数。
步骤S3-3,用获得的局部函数来确定因子图全局函数的因式分解,具体实施方式如下:
按公式(10)确定联合分布即因子图全局函数的因式分解。
步骤S4,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有变量的边缘概率值,具体包括:
本发明的因子图是有环因子图,使用循环最大和(loopy max-sum)算法进行近似推理。因子图上近似推理及因子图变量的边缘概率值计算(即以下步骤S4-1、4-2、4-3)可全部借助libDAI软件包(参见“Mooij J M:libDAI:A free and open source C++libraryfor discrete approximate inference in graphical models[J].The Journal ofMachine Learning Research,2010,11:2169–2173.”)来实现(注:其他能进行因子图上循环最大和推理的软件包也可实施本步骤)。
步骤S4-1,在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛,具体实施方式如下:
首先,准备满足libDAI软件包格式的因子图文件输入,设置libDAI软件包中的迭代传递消息方式为串行调度,迭代收敛公差为1E-9;然后,运行libDAI软件包中的循环最大和近似推理模块。
该libDAI推理模块能根据已输入因子图文件自动按公式(15)、(16)进行消息初始化,并按公式(11)、(12)、(13)、(14)定义的消息传递规则在因子图的边上进行迭代式消息传递,同时按公式(17)计算联合分布的最大值,直至迭代收敛。
步骤S4-2,找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置,具体实施方式如下:
以上libDAI推理模块能自动按公式(18)找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置。
步骤S4-3,计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘概率值,具体实施方式如下:
以上libDAI推理模块能自动按公式(19)计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘概率值。
步骤S5,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序,具体实施方式如下:
从以上libDAI推理模块的运行结果中获得已确定的因子图变量集配置中取值为1的所有变量的边缘概率值,将这些变量的边缘概率值进行降序排序;根据步骤S3-1中定义的因子图变量与文献的对应关系以及步骤S1-2中获得的检索结果集文件,生成“big data”主题文献的学术影响力排名榜,将其作为结果输出。表2为从输出结果中选取的“big data”主题文献学术影响力排序前15的文献清单(限于篇幅,这里仅给出排序位于前15位的文献)。
本实施例的输出结果表明,本发明的技术方案是可实施的;从表2给出的实施结果中可看出,本发明的方法显著改进了WOS中仅以“被引次数”来衡量主题文献学术影响力的不合理结果。
表2:产生的“big data”主题文献学术影响力排序(前15)
本发明充分利用了现有引文数据库提供的主题检索功能及检索结果,能方便有效地收集用户兴趣主题上的相关科技文献、文献间引用关系、以及多种学术影响力因素数据进行分析,从而提高了主题文献学术影响力的排序方法的有效性与实用性。进一步地,本发明通过构建一种结点标示有向无环图的主题引文网络,并据此采用因子图对文献的主题相关性、文献来源出版物学术影响力、文献被引次数、文献年龄阻尼系数、施引文献与被引文献的主题相关性关系以及出版年份差等反映文献学术影响力的诸多因素及其复杂关系进行综合建模,并发挥因子图简化概率建模及推理求解的优势,从而增强了主题文献学术影响力排序结果的客观性与合理性。
本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,包括:
在引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;
根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络;
基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型;
使用循环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;
根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序;
其中,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型,包括:
确定因子图的变量集;
确定定义在因子图变量集的子集上的局部函数,其中:所述局部函数包括:文献特征局部函数和文献间引用特征局部函数;
用获得的局部函数来确定因子图全局函数的因式分解;
确定因子图的局部函数中的文献特征局部函数,包括:
将文献的主题相关性降序排序序号通过线性变换映射为实数闭区间上的主题相关性因素的取值;
将文献来源期刊的学术影响力通过线性变换映射为实数闭区间上的来源出版物学术影响力因素的取值;
将文献来源会议论文集的学术影响力通过线性变换映射为实数闭区间上的来源出版物学术影响力因素的取值;
将文献在引文数据库内的被引次数通过线性变换映射为实数闭区间上的被引次数因素的取值;
为每个文献引入一个年龄阻尼系数因素;
综合考虑以上四个因素,确定文献特征局部函数。
2.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引用关系,包括:
在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结果按主题相关性降序排序;
从检索结果中获取主题文献元数据信息及主题文献间引用关系。
3.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络,包括:
基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向边的有向无环图;
基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结点标示的有向无环图作为主题引文网络。
4.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,确定因子图的局部函数中的文献间引用特征局部函数,包括:
根据施引文献与被引文献的相关性降序排序序号线性变换映射值,确定主题上引用因素的取值;
根据施引文献与被引文献的出版年份差进行线性变换后映射为实数闭区间上的出版年份差因素的取值;
综合考虑以上两个因素,确定因子图中文献间引用特征局部函数。
5.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,用获得的局部函数来确定因子图全局函数的因式分解,包括:使用马尔可夫随机场中联合分布的计算方法来确定因子图全局函数被因式分解为局部函数乘积的方法。
6.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有变量的边缘概率值,包括:
在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛;
找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置;
计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘概率值。
7.如权利要求1所述的引文数据库中主题文献学术影响力的分析与排序方法,其特征在于,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序,包括:
获得已确定的因子图变量集特定配置下的所有变量的边缘概率值,将各边缘概率值进行降序排序;
排序好的因子图变量所分别对应的全部主题文献构成了主题文献的学术影响力排名榜,将其作为结果输出。
CN201310732480.6A 2013-12-27 2013-12-27 一种引文数据库中主题文献学术影响力的分析与排序方法 Active CN103729432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310732480.6A CN103729432B (zh) 2013-12-27 2013-12-27 一种引文数据库中主题文献学术影响力的分析与排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310732480.6A CN103729432B (zh) 2013-12-27 2013-12-27 一种引文数据库中主题文献学术影响力的分析与排序方法

Publications (2)

Publication Number Publication Date
CN103729432A CN103729432A (zh) 2014-04-16
CN103729432B true CN103729432B (zh) 2017-01-25

Family

ID=50453506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310732480.6A Active CN103729432B (zh) 2013-12-27 2013-12-27 一种引文数据库中主题文献学术影响力的分析与排序方法

Country Status (1)

Country Link
CN (1) CN103729432B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462215B (zh) * 2014-11-05 2017-07-11 大连理工大学 一种基于时间序列的科技文献被引用数目预测方法
CN104537495A (zh) * 2014-12-31 2015-04-22 浙江大学 一种学者能力的计算方法和计算系统
CN104657488B (zh) * 2015-03-05 2016-03-02 中南大学 一种基于引用传播网络的作者影响力计算方法
CN106156067B (zh) * 2015-03-30 2019-11-01 日本电气株式会社 用于为关系数据创建数据模型的方法和系统
CN105740386B (zh) * 2016-01-27 2020-07-21 北京航空航天大学 基于排序集成的论文搜索方法及装置
CN105956130B (zh) * 2016-05-09 2019-04-09 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106446570B (zh) * 2016-10-08 2018-10-16 大连理工大学 一种基于学术大数据的会议影响力评估方法
CN106485613A (zh) * 2016-10-21 2017-03-08 长沙市麓智信息科技有限公司 专利被引用数量统计系统及其统计方法
CN107391921B (zh) * 2017-07-13 2021-01-01 武汉科技大学 一种科学文献中参考文献影响力评估方法
CN108846019B (zh) * 2018-05-08 2019-05-21 北京市科学技术情报研究所 一种基于黄金引用算法的论文排序方法
CN109063023B (zh) * 2018-07-13 2019-06-11 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者发现方法
CN109002524B (zh) * 2018-07-13 2019-06-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法
CN110659768B (zh) * 2019-08-14 2023-01-17 中国科学院计算机网络信息中心 一种数据出版物学术影响力评价预测方法
CN110851659B (zh) * 2019-10-23 2021-06-29 清华大学 基于学者论文关系网络的学者学术影响力计算方法及系统
CN111460324B (zh) * 2020-06-18 2020-11-06 杭州灿八科技有限公司 一种基于链接分析的引文推荐方法及系统
CN114691814B (zh) * 2022-04-15 2023-11-10 北京工业大学 信息处理方法、装置、电子设备及存储介质
CN115686432B (zh) * 2022-12-30 2023-04-07 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端
CN117076495B (zh) * 2023-10-16 2024-02-13 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120088171A (ko) * 2011-01-31 2012-08-08 한양대학교 산학협력단 검색을 위한 논문 랭킹 방법 및 장치
KR20120088170A (ko) * 2011-01-31 2012-08-08 한양대학교 산학협력단 논문 랭킹 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133476A1 (en) * 2006-12-05 2008-06-05 Ivo Welch Automated peer performance measurement system for academic citation databases

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120088171A (ko) * 2011-01-31 2012-08-08 한양대학교 산학협력단 검색을 위한 논문 랭킹 방법 및 장치
KR20120088170A (ko) * 2011-01-31 2012-08-08 한양대학교 산학협력단 논문 랭킹 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Yet Another Paper Ranking Algorithm Advocating Recent Publications;Won-Seok Hwang等;《WWW 2010》;20100430;第1117-1118页 *
一种文献推荐的因子图方法;许卓明等;《河海大学学报(自然科学版)》;20130531;第271-277页 *
基于引用分析的学术检索系统改进研究;吴夙慧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121015;I143-73第25、51页 *

Also Published As

Publication number Publication date
CN103729432A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN103729432B (zh) 一种引文数据库中主题文献学术影响力的分析与排序方法
Afsordegan et al. Decision making under uncertainty using a qualitative TOPSIS method for selecting sustainable energy alternatives
CN105740401B (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
Zhao et al. Ranking themes on co-word networks: Exploring the relationships among different metrics
Yin et al. Building taxonomy of web search intents for name entity queries
CN104636426A (zh) 科研机构学术影响力的多因素综合定量分析与排序方法
Dermouche et al. A joint model for topic-sentiment evolution over time
CN105975984B (zh) 基于证据理论的网络质量评价方法
CN101694652A (zh) 一种基于极速神经网络的网络资源个性化推荐方法
CN106250438A (zh) 基于随机游走模型的零引用文章推荐方法及系统
CN106844665A (zh) 一种基于引用关系分布式表达的论文推荐方法
Li An exploration to visualise the emerging trends of technology foresight based on an improved technique of co-word analysis and relevant literature data of WOS
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
Roozbahani et al. A systematic survey on multi-relational community detection
Wu et al. Tourism forecasting research: a bibliometric visualization review (1999–2022)
CN106055596A (zh) 一种多标签在线新闻读者情绪预测方法
Chi et al. Expert identification based on dynamic LDA topic model
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
Miller et al. Unsupervised classification and visualization of unstructured text for the support of interdisciplinary collaboration
Bensman Eugene Garfield, Francis Narin, and Pagerank: The theoretical bases of the Google search engine
Wu et al. An integrated scientometric and SNA approach to explore the classics in CEM research
Song et al. A study on performance evaluation model of individual knowledge-sharing
Rashidi et al. A deep-belief network approach for course scheduling
Liu et al. A semantic and intelligent focused crawler based on semantic vector space model and membrane computing optimization algorithm
Zhang et al. Cext-N index: a network node centrality measure for collaborative relationship distribution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant