CN102298579A - 面向科技文献的论文、作者和期刊排序模型及排序方法 - Google Patents
面向科技文献的论文、作者和期刊排序模型及排序方法 Download PDFInfo
- Publication number
- CN102298579A CN102298579A CN2010102046764A CN201010204676A CN102298579A CN 102298579 A CN102298579 A CN 102298579A CN 2010102046764 A CN2010102046764 A CN 2010102046764A CN 201010204676 A CN201010204676 A CN 201010204676A CN 102298579 A CN102298579 A CN 102298579A
- Authority
- CN
- China
- Prior art keywords
- article
- author
- limit
- scientific research
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公布了一种面向科技文献的论文、作者和期刊排序模型及排序方法,属于数字图书馆领域。本发明根据科研文献网的特点,提出了PAJ模型,该模型是一个有向图,包括论文、作者、期刊或会议三种结点以及这三种结点间的五种关系。本发明同时提出了一种基于PAJ模型的排序方法,包括:抽取科研文献实体;建立PAJ模型;生成转移概率矩阵;对矩阵进行计算并生成结果。该算法利用矩阵迭代计算,达到收敛结果,以此作为排序的依据,能够充分挖掘科研文献网的内在联系,对各个实体的排名结果准确可信。
Description
技术领域
本发明提供了一种科技文献的排序模型及排序方法,属于数字图书馆领域。
背景技术
科研文献网是一个包含作者、论文和期刊或会议的网络如图1所示,在这个网络中,作者撰写文章,而文章在相应的期刊或会议上发表,同时,文章之间还有相互引用的关系。
科研工作者为了进行研究工作需要查阅大量的论文。如何选择重要的期刊或会议,以及重要作者的有影响力的论文进行研读,是科研工作的一个重要环节。
目前为止,关于科研文献网的现有技术包括:
1.清华大学的唐杰等人开发的ArnetMiner原型系统(http://www.arnetminer.org/)。在他的系统中,利用条件随机场CRF(Conditional Random Fields)来对网络信息进行提取,利用EM(Expectation Maximization)方法对同名作者进行了区分,最后利用ACT模型(Author-Conference-Topic Model)对科研文献网进行建模,为用户提供查询。
2.UIUC的Yizhou Sun,Jiawei Han等人针对科研文献网提出的聚类排序算法RankClus以及NetClus。该方法把基于结点的分类聚类和结点的组内的排序,综合起来,首先对所有的结点进行一个初步的分类和聚类,然后再利用一些Ranking(排序)的算法来计算每一个结点在相应聚类中的排名,然后这个排名反过来对聚类的结果也有一定的帮助,最后反复迭代,达到一个稳定的值。
现有技术主要针对的是对科研文献网中科研文献实体信息的抽取以及对相关信息的分类以及聚类,针对排名做的工作比较少。在Yizhou Sun等人的RankClus方法有对相应实体信息的排名。但是一方面,其工作的重点在于对文章的聚类和分类,其排名也仅仅是对会议和作者的排名,没有对论文进行排名。另一方面,它的排名的信息并没有用到文章之间相互引用的关系。而众所周知,被其他文章引用是判断一篇论文是否重要的一个十分关键的因素。
发明内容
本发明针对目前科研文献网排序模型存在的问题,根据科研文献网的特点,提出了一种新的排序模型:PAJ模型,该模型充分利用科研文献网中实体的相互联系,对科研文献网中的科研文献实体(期刊或会议,作者,论文)进行排序。
本发明的具体技术方案如下:
本发明提出的PAJ模型如图3所示。该模型是一个有向权重图,该图包括三种结点,结点A代表作者集合,结点P代表论文集合,结点J代表期刊或会议的集合。这三种结点之间总共有5种边,其权值如下:
1)作者与文章之间的边
其中sp,a表示作者a在文章p中的排名;表示该文章的所有作者的排名的倒数之和。
2)作者与期刊或会议之间的边
其中p∈P(j)表示文章p在期刊或会议j上发表;a∈A(p)表示作者a是文章p的作者之一。
3)文章与期刊或会议之间的边
即:如果论文p在期刊或会议j上发表,那么他们之间的边的权重为1,否则为0。
4)文章与文章之间的边
即:如果文章p1引用了文章p2,那么e(p1,p2)的值为1,否则为0。
本发明提出的基于PAJ模型的排序方法如图2所示,包括如下步骤:
A.抽取科研文献实体
从科研文献网络或现有科研文献数据库中获得相应的论文,论文所属期刊或会议,论文作者,以及论文之间的相互引用关系。
B.建立PAJ模型并计算各条边的权值
C.生成转移概率矩阵,方法如下:
C1.定义从点i到点j的转移概率
其中ε是从本结点随机游走的概率(0<ε<1),|V|代表的是图中所有结点的个数。
C2.生成转移概率矩阵
所有的转移概率Pri→j构成的矩阵,构成了一个转移概率矩阵WPr。假设图中有n个结点,那么
D.对转移概率矩阵进行运算,得出最终的概率分布。方法如下:
D1.结点概率分布K={k1,k2,L,kn}代表PAJ图中所有结点的访问概率分布。其中
D2.初始化概率分布。假定任意的一个概率分布K0,
D3.由旧的结点概率分布计算新的结点概率分布Kt=Kt-1*WPr,Kt为经过t次迭代后得到的概率分布。
D4.计算终止条件。事先假定一个误差阈值δ,当||Kt-Kt-1||2≤δ时,算法终止。
D5.得出结果。算法终止时的Kt即为最终的概率分布。
本发明根据科研文献网的特点,提出了新的排序模型和排序算法,该算法利用矩阵迭代计算,达到收敛结果,以此作为排序的依据,能够充分挖掘科研文献网的内在联系,对各个实体的排名结果准确可信。
附图说明
图1:普通科研文献网模型图;
图2:本发明提出的排序模型执行流程图;
图3:本发明提出的PAJ模型图;
图4:对科研网进行处理的流程示意图;
图5:科研信息网实例;
图6:科研网PAJ模型实例;
图7:转移概率矩阵实例;
图8:矩阵迭代计算示意图;
具体实施方式
下面通过实例对本发明做进一步的说明,但是需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
如图4所示,一个基于本发明技术方案的实施步骤包括以下几个部分:论文的收集,论文内容的提取,对内容的进一步分析,存储以及接口设计,建模以及排序算法,对外搜索服务:
其中,在论文的收集可以从网上的一些资源比如ACM,DBLP和万方下载论文信息。
论文内容的提取主要是需要从下载的文章中提取标题,作者,会议或期刊名字,引用,摘要,关键字等信息。提取这些信息是为了构建相应的科研文献网的各个实体。同时,有一些辅助信息有助于对于搜集到的文献的理解以及进一步的分析。
在对内容的进一步的分析阶段,主要需要做的是同名作者区分以及挖掘文章之间的引用关系。同名作者区分可以采用一些现有方法。而为了挖掘文章之间的引用关系,由于各个文章其引用信息不一定规范,可以采用字符串匹配的方法,如果某篇文章A的引用信息包含了另一篇文章B的标题,就可以认为文章A引用了文章B。
在第四部分,存储与接口部分,主要是需要把前面所提取的文献实体信息存储到相应的数据库中。以便进一步的分析。
第五部分,建模以及排序算法,是本发明的核心部分。主要就是基于提取到的文献实体信息,编程实现PAJ模型及其排序算法,并且运算出相应的结果。
最后一部分,就是把在第五部分所计算得出的排序结果,以比较友好的用户界面的方式展示出去。
下面用一个具体的例子来对本发明做进一步的说明。
图5表示一个虚拟的科研文献网实例。在这个图中,A1和A2是两个作者,P1和P2是两篇论文,J1是期刊。他们之间的关系如下:
●A1以第一作者发表论文P1。
●A2,A1分别以第一和第二作者的身份发表了论文P2。
●论文P1引用了论文P2。
●论文P1与P2均发表在期刊J1上。
首先,把这个原始的科研文献网,转化到相应的PAJ模型中。
图6即为该科研文献网转化成的PAJ模型实例。其中的各条边的权值就是由2.1节的定义计算得出的,下面以几条边为例子做简要的说明。
e(A1,A2)代表的是A1与A2之间的合作关系边,由于他们在这个图中只合作发表了一篇文章,并且他们在这篇文章中分别是第一作者和第二作者,因此,
e(P1,P2)代表的是文章P1与P2之间的引用关系边,由于文章P1引用了文章P2,那么e(P1,P2)=1。而由于文章P2没有引用文章P1,因此e(P2,P1)=0。
e(A1,P2)代表的是作者A1与文章P2之间的写作关系边。由于文章P2总共由两个作者,并且A1在其中是第二作者,则
e(A1,J1)代表的是作者A1与期刊J1之间的发表关系边。由于A1在期刊J1上发表了两篇文章,那么则有
e(A1,J1)=e(J1,A1)=1+0.33=1.33。
在得到基本的PAJ模型之后,下一步就是要从这个PAJ模型构造出相应的转移概率矩阵。
图7就是由前面的PAJ模型构造出的响应的转移概率矩阵。下面以其中两个点为例,来说明这个转移概率矩阵是如何构造的。
第一部分是随机游走的概率。由于随机游走概率是0.2,并且这个图中总的结点数是5,因此0.2/5=0.04。
第二部分是从P1到P2的边所直接产生的转移的概率。由于从P1出发的总的边的权重是3,而从P1到P2的边的权重是1。因此有0.8/3*1=0.27。
综上所述,可得
第一部分是随机游走的概率。由于随机游走概率是0.2,并且这个图中总的结点数是5,因此0.2/5=0.04。
第二部分是从A2到J1的边所直接产生的转移的概率。由于从A2出发的总的边的权重是2.37,而从A2到J1的边的权重是0.67。因此0.8/2.37*0.67=0.23。
综上所述,可得
其他点的计算也用类似的方法完成。完成所有的点的计算之后,就形成了这个转移概率矩阵。
在得到转移概率矩阵之后,首先任意给出一个初始的概率分布K,然后通过Kt=Kt-1*WPr反复迭代。如图8所示,经过45次迭代之后,算法终止。在这里设定的阈值为0,也即Kt=Kt-1时算法终止。
通过对结果的分析可知,对于作者A1和A2来说,作者A1的权值大于A2的权值。这是因为在这个图中A1发表了两篇文章而A2只发表了一篇文章,这个是符合人们一般的经验的。
另一方面,对于文章P1和P2来说,文章P2的权值要大于文章P1的权值,这是因为文章P2被文章P1引用了。这个结果也是符合客观规律的。
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种面向科研文献的排序模型,取名为PAJ模型,该模型为一个有向图,包含三种结点,分别是作者集合结点A、论文集合结点P、期刊或会议集合结点J,其特征在于,该模型还包括五种有向边,各边的权值定义如下:
即:如果论文p在期刊或会议j上发表,那么他们之间的边的权重为1,否则为0;
即:如果文章p1引用了文章p2,那么e(p1,p2)的值为1,否则为0;
2.一种面向科研文献的排序方法,该方法基于如权利要求1所述的PAJ排序模型,其特征在于,该方法包含如下步骤:
D1.抽取科研文献实体
D2.建立PAJ模型并计算各条边的权值;
D3.生成转移概率矩阵;
D4.对转移概率矩阵进行运算,得出最终的概率分布。
3.如权利要求2所述的排序方法,其特征在于,所述抽取科研文献实体是从科研文献网或者包含科研文献的数据库中抽取;所述科研文献实体包括论文、论文所述期刊或会议、论文作者、论文之间的引用关系。
5.如权利要求4所述的排序方法,其特征在于,步骤D的实现方法如下:
D1.结点概率分布K={k1,k2,L,kn}代表PAJ图中所有结点的访问概率分布,其中
D2.初始化概率分布,假定任意的一个概率分布K0,
D3.由旧的结点概率分布计算新的结点概率分布Kt=Kt-1*WPr,Kt为经过t次迭代后得到的概率分布;
D4.计算终止条件,事先假定一个误差阈值δ,当||Kt-Kt-1||2≤δ时,算法终止;
D5.得出结果,算法终止时的Kt即为最终的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102046764A CN102298579A (zh) | 2010-06-22 | 2010-06-22 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102046764A CN102298579A (zh) | 2010-06-22 | 2010-06-22 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102298579A true CN102298579A (zh) | 2011-12-28 |
Family
ID=45359002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102046764A Pending CN102298579A (zh) | 2010-06-22 | 2010-06-22 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102298579A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737090A (zh) * | 2012-03-21 | 2012-10-17 | 袁行远 | 网页搜索结果排序方法及装置 |
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN104133843A (zh) * | 2014-06-25 | 2014-11-05 | 福州大学 | 科技文献异构网络中节点的学术影响力协同排序方法 |
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN105740452A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 基于PageRank和时间衰减的科技文献重要度评价方法 |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
CN106250438A (zh) * | 2016-07-26 | 2016-12-21 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106484839A (zh) * | 2016-10-08 | 2017-03-08 | 大连理工大学 | 一种基于学术大数据的期刊影响力评估方法 |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
CN108304531A (zh) * | 2018-01-26 | 2018-07-20 | 北京泰尔英福网络科技有限责任公司 | 一种数字对象标识符引用关系的可视化方法及装置 |
CN108920692A (zh) * | 2018-07-13 | 2018-11-30 | 北京市科学技术情报研究所 | 一种基于论文引用关系的作者排序方法 |
CN109002524A (zh) * | 2018-07-13 | 2018-12-14 | 北京市科学技术情报研究所 | 一种基于论文引用关系的黄金引用作者排序方法 |
CN109063023A (zh) * | 2018-07-13 | 2018-12-21 | 北京市科学技术情报研究所 | 一种基于论文引用关系的黄金引用作者发现方法 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
WO2020042501A1 (zh) * | 2018-08-27 | 2020-03-05 | 平安科技(深圳)有限公司 | 基金经理社团划分方法、系统、计算机设备和存储介质 |
CN112766218A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于非对称联合教学网络的跨域行人重识别方法和装置 |
-
2010
- 2010-06-22 CN CN2010102046764A patent/CN102298579A/zh active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737090B (zh) * | 2012-03-21 | 2014-12-03 | 袁行远 | 网页搜索结果排序方法及装置 |
CN102737090A (zh) * | 2012-03-21 | 2012-10-17 | 袁行远 | 网页搜索结果排序方法及装置 |
CN103020302B (zh) * | 2012-12-31 | 2016-03-02 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN104133843A (zh) * | 2014-06-25 | 2014-11-05 | 福州大学 | 科技文献异构网络中节点的学术影响力协同排序方法 |
CN104133843B (zh) * | 2014-06-25 | 2017-07-04 | 福州大学 | 科技文献异构网络中节点的学术影响力协同排序方法 |
CN104573103B (zh) * | 2015-01-30 | 2017-11-17 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
CN105740452A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 基于PageRank和时间衰减的科技文献重要度评价方法 |
CN105740452B (zh) * | 2016-02-03 | 2019-04-19 | 北京工业大学 | 基于PageRank和时间衰减的科技文献重要度评价方法 |
CN106250438A (zh) * | 2016-07-26 | 2016-12-21 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106250438B (zh) * | 2016-07-26 | 2020-07-14 | 上海交通大学 | 基于随机游走模型的零引用文章推荐方法及系统 |
CN106484839A (zh) * | 2016-10-08 | 2017-03-08 | 大连理工大学 | 一种基于学术大数据的期刊影响力评估方法 |
CN107391659A (zh) * | 2017-07-18 | 2017-11-24 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
CN107391659B (zh) * | 2017-07-18 | 2020-05-22 | 北京工业大学 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
CN108304531A (zh) * | 2018-01-26 | 2018-07-20 | 北京泰尔英福网络科技有限责任公司 | 一种数字对象标识符引用关系的可视化方法及装置 |
CN108304531B (zh) * | 2018-01-26 | 2020-11-03 | 中国信息通信研究院 | 一种数字对象标识符引用关系的可视化方法及装置 |
CN109063023A (zh) * | 2018-07-13 | 2018-12-21 | 北京市科学技术情报研究所 | 一种基于论文引用关系的黄金引用作者发现方法 |
CN108920692B (zh) * | 2018-07-13 | 2019-06-21 | 北京市科学技术情报研究所 | 一种基于论文引用关系的作者排序方法 |
CN109002524A (zh) * | 2018-07-13 | 2018-12-14 | 北京市科学技术情报研究所 | 一种基于论文引用关系的黄金引用作者排序方法 |
CN108920692A (zh) * | 2018-07-13 | 2018-11-30 | 北京市科学技术情报研究所 | 一种基于论文引用关系的作者排序方法 |
WO2020042501A1 (zh) * | 2018-08-27 | 2020-03-05 | 平安科技(深圳)有限公司 | 基金经理社团划分方法、系统、计算机设备和存储介质 |
CN109272228A (zh) * | 2018-09-12 | 2019-01-25 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN109272228B (zh) * | 2018-09-12 | 2022-03-15 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN112766218A (zh) * | 2021-01-30 | 2021-05-07 | 上海工程技术大学 | 基于非对称联合教学网络的跨域行人重识别方法和装置 |
CN112766218B (zh) * | 2021-01-30 | 2023-05-30 | 上海工程技术大学 | 基于非对称联合教学网络的跨域行人重识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102298579A (zh) | 面向科技文献的论文、作者和期刊排序模型及排序方法 | |
CN103729432B (zh) | 一种引文数据库中主题文献学术影响力的分析与排序方法 | |
US9864807B2 (en) | Identifying influencers for topics in social media | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
CN102609528B (zh) | 基于概率图模型的频繁模式关联分类方法 | |
CN101694652A (zh) | 一种基于极速神经网络的网络资源个性化推荐方法 | |
CN101887460A (zh) | 一种文献质量评估方法及应用 | |
CN105868281A (zh) | 基于非支配排序多目标方法的位置感知推荐系统 | |
CN103593425A (zh) | 基于偏好的智能检索方法及系统 | |
CN107273934A (zh) | 一种基于属性融合的图聚类方法 | |
CN105512242A (zh) | 一种基于社会网络结构的并行推荐方法 | |
CN102456064B (zh) | 在社会网络中实现社区发现的方法 | |
Tan et al. | Object-oriented travel package recommendation | |
Liu et al. | GNNRec: gated graph neural network for session-based social recommendation model | |
CN109410001A (zh) | 一种商品推荐方法、系统、电子设备和存储介质 | |
CN103095849B (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
CN106649731A (zh) | 一种基于大规模属性网络的节点相似性搜索方法 | |
CN104598599B (zh) | 命名排歧方法及系统 | |
Wu et al. | Retrospective higher-order markov processes for user trails | |
CN102982101B (zh) | 基于用户情境本体的网络社区用户推送服务的方法 | |
CN105205075A (zh) | 基于协同自扩展的命名实体集合扩展方法及查询推荐方法 | |
CN105787072A (zh) | 一种面向流程的领域知识抽取与推送方法 | |
CN106169085A (zh) | 基于信息度量的特征选择方法 | |
CN105761152A (zh) | 社交网络中一种基于三元组的参与话题预测方法 | |
Li et al. | Modeling relationship strength for link prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111228 |