CN107038211B - 一种基于量子游走的论文影响力评估方法 - Google Patents

一种基于量子游走的论文影响力评估方法 Download PDF

Info

Publication number
CN107038211B
CN107038211B CN201710105364.XA CN201710105364A CN107038211B CN 107038211 B CN107038211 B CN 107038211B CN 201710105364 A CN201710105364 A CN 201710105364A CN 107038211 B CN107038211 B CN 107038211B
Authority
CN
China
Prior art keywords
node
order
probability
represent
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710105364.XA
Other languages
English (en)
Other versions
CN107038211A (zh
Inventor
夏锋
侯杰
彭众
白晓梅
宁兆龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710105364.XA priority Critical patent/CN107038211B/zh
Publication of CN107038211A publication Critical patent/CN107038211A/zh
Application granted granted Critical
Publication of CN107038211B publication Critical patent/CN107038211B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种基于量子游走的论文影响力评估方法,将论文的访问概率作为衡量论文重要性的关键,利用论文之间的引用关系,首次使用高阶马尔可夫模型对会议进行评估。该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度,并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性,当前节点向邻接节点转移的概率受前序节点的影响,但又不同于固定阶的马尔科夫模型,节点的阶数是依靠具体情况确定的。同时,本发明给出了相应的量子化实现方法,具有很强的前瞻性,为论文影响力的评估提供一种新方法,也提供了一种随机游走的并行化解决方案。

Description

一种基于量子游走的论文影响力评估方法
技术领域
本发明涉及学术领域中基于量子游走对论文影响力进行评估的方法,尤其涉及一种基于高阶量子化马尔可夫模型的论文影响力评估方法。
背景技术
科研领域的高速发展使得论文的数量不断增加,而论文质量则良莠不齐,在海量论文中检索一篇高质量文献愈发艰难。因此一种有效的论文影响力评估方法对学习和研究都有很大的帮助。但是至今为止所提出的如PageRank排序、HITS排序都存在一些已知的问题,不能满足对准确度的要求,准确度、稳定性更高的评估方法有待于研究人员的进一步探索。同时,量子计算作为未来计算机的一个发展方向,其超强的存储能力和并行计算能力将很好的解决目前计算机发展的瓶颈问题,有着巨大的价值潜力,因此量子算法的研究也将很有意义。
发明内容
本发明的目的主要针对现有研究的一些不足之处,提出基于量子游走的论文影响力评估方法,将论文的访问概率作为衡量论文重要性的关键,利用论文之间的引用关系,首次使用高阶马尔可夫模型对会议进行评估,并给出了相应的量子化实现方法,具有很强的前瞻性,为论文影响力的评估提供一种新方法,也提供了一种随机游走的并行化解决方案。
本发明的技术方案:
一种基于量子游走的论文影响力评估方法,步骤如下:
1)通过统计真实的论文引用网络中论文引用的高阶依赖关系给出高阶化规则;
2)结合随机游走模型,根据1)中的高阶化规则,建立高阶化的引用流模型;
3)根据2)中的引用流模型计算对应的转移概率矩阵;
4)应用3)中得到的转移概率矩阵量子化随机游走过程,并计算每篇论文在引用网络中被访问的概率,进而评估出论文的影响力。
步骤1)包括以下三个步骤:
1.1)根据论文之间的引用关系构建引用链。
1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。基于小世界原理和数据的实际情况,引用关系的最高阶数定为4到6阶为宜。
1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:
Step 1:记论文总数为M,亦即引用关系图中有M个节点。用i|k表示节点i的k阶引用关系,并记最大阶数为order,可得k阶化后节点i转移到其邻居节点j的概率为:
其中Ni|k→j表示节点i引用节点j的次数,k∈[2,order],表示节点i引用其他文章的总次数。
Step 2:使用高阶节点向邻居节点的转移概率Pi|k→j和零阶节点向邻居节点的转移概率Pi→j之间的K-L距离来度量高阶化对转移概率的影响程度,即:
其中,K-LDivergence即K-L距离,描述了节点i到所有邻接节点上的转移概率差异的总体水平,表示节点i到某一个邻接节点的转移概率在高阶化后的变化,是对以2为底取对数。将该值与比较,其中,k为当前高阶化节点的阶数,表示节点i引用其他文章的总次数的以2为底的对数。若K-LDivergence较大则认为高阶化对转移概率有影响,保留这条高阶规则。
步骤2):根据步骤1)中得到的高阶引用规则构建高阶化的引用网络。具体做法为:先用高阶化的节点取代原节点在引用网络中的位置,再将指向原节点的边指向高阶化的节点,并将转移概率记为Pi|k→j。同时,为了保证高阶引用的完整性,高阶节点的前序节点也应存在高阶引用。即若节点i存在高阶引用i|k→j,则也应将i|(k-1)→i|k加入高阶引用网络中,其中k∈[2,order],同时将转移概率记为Pi|k→j
步骤3):根据步骤2)中得到的引用网络,写出引文网络的邻接矩阵G,其中,Gi|k,j=αPi|k→j+(1-α),α=0.85,G是一个方阵,记G的维数为N。
步骤4):利用步骤3)中的邻接矩阵,量子化随机游走的过程,包括以下个步骤:
Step 1:将邻接矩阵G中的节点以0到N-1重新编号,以右矢|i>和|j>表示图中的节点i和j,以张量积|i>|j>表示节点i指向节点j的有向边,Gi,j表示节点i到节点j的转移概率,则对于每一个节点j,其初始状态向量可按下式计算:
随机游走的初始状态为各个节点初始状态的叠加态,即 是一个N×N维列向量。
Step 2:按下式计算变换矩阵π:
其中,的共轭向量,E为同阶单位矩阵。矩阵π的作用是将输入的向量作关于初始向量的对称变换。
再计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点。
最终的迭代矩阵U=πS。
Step 3:使用矩阵U做迭代计算,第m次迭代后的向量的内积表示节点j在第m次随机游走过程后被访问到的概率,由下式计算:
为保证转移的方向性,每一次迭代都乘U2而不是U,其中,表示U的转置。最终的节点的访问概率用M次迭代的访问概率的均值表示,该均值是收敛的,计算方法如下:
最终的节点排名标准即为访问概率Pj
Step 4:由于量子游走的直接输出结果中含有同一节点的不同阶表示,应对结果做进一步处理。即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。
本发明的有益效果:本发明主要使用了高价马尔科夫模型,该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度,并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性,当前节点向邻接节点转移的概率受前序节点的影响,但又不同于固定阶的马尔科夫模型,节点的阶数是依靠具体情况确定的。因为对于不同的节点,其向邻接节点转移的概率可能不仅受一阶前序节点影响,也可能在考虑更长的前序链时产生的结果更稳定,该模型的目的就是寻找这种更稳定的高阶关系。
在实际应用中,高阶模型表现为剔除了一部分引用关系稀疏的论文对主干网络的影响。考虑到这些论文本身影响力很低,而有的作者存在通过发表一些低影响力的论文并引用自己的论文,以提高自身影响力的情况,在计算中排除这部分论文的影响是有益的;并且相较于完全的排除自引,该方法保留了有价值的自引。我们认为,作者后续发表的论文具有很高的影响力,则他对自己之前的论文的引用是有价值的。
附图说明
图1和图2为本发明结的高阶化结果,针对不同的引用关系状态,高阶化将对转移概率产生不同的影响。
图3为最终排序的部分结果,由于节点数量庞大,只截取了部分结果展示。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。
本发明实例提供了一种基于量子游走的会议影响力评估方法,该方法包括:
步骤1:通过统计真实的论文引用网络中论文引用的高阶依赖关系,给出高阶化规则。
1.1)选择APS数据集中的PRC数据集,并从中筛选出参考文献和被引文章都在PRC中的论文,并从APS数据集提供的文章引用关系表中筛选出所选文章间的引用关系。根据论文之间的引用关系,采用随机游走的方法尽可能遍历引用网络,构建引用链。这里,我们共保留了30,856篇文章和它们之间的212,412对引用关系。之所以选择参考文献和被引文章都在PRC数据集之中的文章,是为了保证引用网络的完整性,尽量避免孤立节点的存在。
1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。考虑到数据量很大,这里我们取D=50,即出现次数小于50次的引用关系都将被忽略。基于小世界原理和数据的实际情况,引用关系的最高阶数定为5阶。
1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:
Step 1:记论文总数为M,亦即引用关系图中有M个节点。用i|k表示节点i的k阶引用关系,最大阶数为5,可得k阶化后节点i转移到其邻居节点j的概率为:
其中Ni|k→j表示节点i引用节点j的次数,k∈[2,5],表示节点i引用其他文章的总次数。
Step 2:使用高阶节点向邻居节点的转移概率Pi|k→j和零阶节点向邻居节点的转移概率Pi→j之间的K-L距离来度量高阶化对转移概率的影响程度,即:
将该值与比较,若K-LDivergence较大则认为高阶化对转移概率有影响,保留这条高阶规则。
步骤2):根据步骤1)中得到的高阶引用规则构建高阶化的引用网络。具体做法为:先用高阶化的节点取代原节点在引用网络中的位置,再将指向原节点的边指向高阶化的节点,并将转移概率记为Pi|k→j。同时,为了保证高阶引用的完整性,高阶节点的前序节点也应存在高阶引用。即若节点i存在高阶引用i|k→j,则也应将i|(k-1)→i|k加入高阶引用网络中,其中k∈[2,5],同时将转移概率记为Pi|k→j。图1和图2中展示了两种高阶化的结果。在图1中,P2→P0→P1是步骤1)中发现的二阶引用关系,而P2→P0是自引关系。图中可见,由于P2被引十次,相较于其它引用P0的文章其被引量更多,故我们认为P2→P0是有价值的自引,因此二阶引用P0|P2→P1的概率较零阶情况下有所提升。而在图2中,P5→P3→P4是步骤1)中发现的二阶引用关系,P5→P3是自引关系。由于P5没有被引用,故我们认为这种自引是无价值的,而最终结果显示二阶引用P3|P5→P4的概率降低了。
步骤3):根据步骤2)中得到的引用网络,写出引文网络的邻接矩阵G,其中,Gi|k,j=αPi|k→j+(1-α),α=0.85,G是一个方阵,记G的维数为N。
步骤4):利用步骤3)中的邻接矩阵,量子化随机游走的过程,包括以下个步骤:
Step 1:将邻接矩阵G中的节点以0到N-1重新编号,在实际实验中,N=37008,是包括原有的论文节点及所有高阶关系节点的总和。以右矢|i>和|j>表示图中的节点i和j,以张量积|i>|j>表示节点i指向节点j的有向边,Gi,j表示节点i到节点j的转移概率,则对于每一个节点j,其初始状态向量可按下式计算:
随机游走的初始状态为各个节点初始状态的叠加态,即 是一个N×N维列向量。
Step 2:按下式计算变换矩阵π:
其中,的共轭向量,E为同阶单位矩阵。矩阵π的作用是将输入的向量作关于初始向量的对称变换。
再计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点。
最终的迭代矩阵U=πS。
Step 3:使用矩阵U做迭代计算,第m次迭代后的向量的内积表示节点j在第m次随机游走过程后被访问到的概率,由下式计算:
为保证转移的方向性,每一次迭代都乘U2而不是U,其中,表示U的转置。最终的节点的访问概率用M次迭代的访问概率的均值表示,该均值是收敛的,计算方法如下:
最终的节点排名标准即为访问概率Pj
Step 4:由于量子游走的直接输出结果中含有同一节点的不同阶表示,应对结果做进一步处理。即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。最终排名的部分结果如图3所示。
本发明中提出的方法能较好的区别引用的重要度,更能突出引用网络中边密度大的区域对文章排名的影响,自然排除了一些恶意增加引用量的情况,理论上具有更好的可信度。同时使用量子化方法,使该方法存在很强的并行计算潜力,有很强的前瞻性。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (1)

1.一种基于量子游走的论文影响力评估方法,其特征在于,步骤如下:
步骤1)包括以下三个步骤:
1.1)根据论文之间的引用关系构建引用链;
1.2)遍历所有引用链,统计各阶引用关系出现的次数,并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中;基于小世界原理和数据的实际情况,引用关系的最高阶数定为4-6阶;小世界原理即六度分隔,网络中任何两个节点建立联系所间隔的节点不超过六个;
1.3)考察所有的高阶关系,筛选出其中改变了节点转移概率的高阶规则,具体做法:
Step 1:记论文总数为M,亦即引用关系图中有M个节点;用i|k表示节点i的k阶引用关系,并记最大阶数为order,得k阶化后节点i转移到其邻居节点j的概率为:
其中,Ni|k→j表示节点i引用节点j的次数,k∈[2,order];表示节点i引用其他文章的总次数;
Step 2:使用k阶节点向邻居节点的转移概率Pi|k→j和零阶节点向邻居节点的转移概率Pi→j之间的K-L距离来度量高阶化对转移概率的影响程度,即:
其中,K-LDivergence即K-L距离,描述了节点i到所有邻接节点上的转移概率差异的总体水平,表示节点i到某一个邻接节点的转移概率在高阶化后的变化,是对以2为底取对数;将K-LDivergence与比较,其中,k为当前高阶化节点的阶数,表示节点i引用其他文章的总次数的以2为底的对数;若K-LDivergence大于则认为高阶化对转移概率有影响,保留这条高阶规则;
步骤2):根据步骤1)中得到的高阶引用规则构建高阶化的引用网络;
先用高阶化的节点取代原节点在引用网络中的位置,再将指向原节点的边指向高阶化的节点,并将转移概率记为Pi|k→j;同时,为了保证高阶引用的完整性,高阶节点的前序节点也应存在高阶引用;即若节点i存在高阶引用i|k→j,则也将i|(k-1)→i|k加入高阶引用网络中,其中k∈[2,order],同时将转移概率记为Pi|k→j
步骤3):根据步骤2)中得到的引用网络,写出引用网络的邻接矩阵G,其中,Gi|k,j=αPi|k→j+(1-α),阻尼系数α=0.85,G是一个方阵,记G的维数为N;
步骤4):利用步骤3)中的邻接矩阵G,量子化随机游走的过程,包括以下个步骤:
Step 1:将邻接矩阵G中的节点以0到N-1重新编号,以右矢|i>和|j>表示图中的节点i和j,以张量积|i>|j>表示节点i指向节点j的有向边,Gi,j表示节点i到节点j的转移概率,则对于每一个节点j,其初始状态向量按下式计算:
随机游走的初始状态为各个节点初始状态的叠加态,即 为某个节点j的初始状态,所有节点初始状态在N×N空间中的叠加表示游走的初始状态,是一个N×N维列向量;
Step 2:按下式计算变换矩阵π:
其中,的共轭向量,E为同阶单位矩阵;矩阵π的作用是将输入的向量作关于初始状态向量的对称变换;
接着计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点;
最终的迭代矩阵U=πS;
Step 3:使用矩阵U做迭代计算,第m次迭代后的向量的内积表示节点j在第m次随机游走过程后被访问到的概率,由下式计算:
为保证转移的方向性,每一次迭代都乘U2而不是U,其中,表示U的转置;最终的节点的访问概率用M次迭代的访问概率的均值表示,该均值是收敛的,计算方法如下:
最终的节点排名标准即为访问概率Pj
Step 4:由于量子游走的直接输出结果中含有同一节点的不同阶表示,应对结果做进一步处理;即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。
CN201710105364.XA 2017-02-28 2017-02-28 一种基于量子游走的论文影响力评估方法 Expired - Fee Related CN107038211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710105364.XA CN107038211B (zh) 2017-02-28 2017-02-28 一种基于量子游走的论文影响力评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710105364.XA CN107038211B (zh) 2017-02-28 2017-02-28 一种基于量子游走的论文影响力评估方法

Publications (2)

Publication Number Publication Date
CN107038211A CN107038211A (zh) 2017-08-11
CN107038211B true CN107038211B (zh) 2018-07-06

Family

ID=59533689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710105364.XA Expired - Fee Related CN107038211B (zh) 2017-02-28 2017-02-28 一种基于量子游走的论文影响力评估方法

Country Status (1)

Country Link
CN (1) CN107038211B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209840A (zh) * 2019-06-06 2019-09-06 北京百奥知信息科技有限公司 一种基于多维特征的论文影响力评估方法
CN112182059B (zh) * 2020-08-20 2022-05-27 北京航空航天大学 一种航班延误特性的高阶分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538916B1 (en) * 2010-04-09 2013-09-17 Google Inc. Extracting instance attributes from text
CN106250438B (zh) * 2016-07-26 2020-07-14 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106446570B (zh) * 2016-10-08 2018-10-16 大连理工大学 一种基于学术大数据的会议影响力评估方法

Also Published As

Publication number Publication date
CN107038211A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
Ghareb et al. Hybrid feature selection based on enhanced genetic algorithm for text categorization
Li et al. Key word extraction for short text via word2vec, doc2vec, and textrank
CN108595517B (zh) 一种大规模文档相似性检测方法
Yang et al. Identifying influential spreaders in complex networks based on network embedding and node local centrality
CN107835113A (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN110705260A (zh) 一种基于无监督图神经网络结构的文本向量生成方法
Derr et al. Epidemic graph convolutional network
CN103530402A (zh) 一种基于改进的PageRank的微博关键用户识别方法
Colliander et al. Experimental comparison of first and second-order similarities in a scientometric context
CN107038211B (zh) 一种基于量子游走的论文影响力评估方法
Shi et al. Transformer-based machine learning for fast sat solvers and logic synthesis
Fairbanks et al. Behavioral clusters in dynamic graphs
Sun et al. Graph force learning
Stobbs et al. Phishing web page detection using optimised machine learning
Polovnikov et al. Non-backtracking walks reveal compartments in sparse chromatin interaction networks
Vafaei et al. Influence Maximization in social media: network embedding for extracting structural feature vector
Qiao et al. Improving stochastic block models by incorporating power-law degree characteristic
Pita et al. Strategies for short text representation in the word vector space
CN104331483B (zh) 基于短文本数据的区域事件检测方法和设备
CN114492651A (zh) 一种基于个性化网页排位的半监督图节点分类方法
Woodruff et al. Optimal query complexities for dynamic trace estimation
Yang et al. Cellular automata networks
Vatutin et al. On polynomial reduction of problems based on diagonal Latin squares to the exact cover problem.
MISHRA et al. STUDY AND ANALYSIS OF PENALTY BASED PAGERANK METHOD
Iguchi et al. Rugged fitness landscapes of Kauffman models with a scale-free network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180706

Termination date: 20210228