CN107038211B

CN107038211B - 一种基于量子游走的论文影响力评估方法

Info

Publication number: CN107038211B
Application number: CN201710105364.XA
Authority: CN
Inventors: 夏锋; 侯杰; 彭众; 白晓梅; 宁兆龙
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2018-07-06
Anticipated expiration: 2037-02-28
Also published as: CN107038211A

Abstract

本发明提出了一种基于量子游走的论文影响力评估方法，将论文的访问概率作为衡量论文重要性的关键，利用论文之间的引用关系，首次使用高阶马尔可夫模型对会议进行评估。该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度，并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性，当前节点向邻接节点转移的概率受前序节点的影响，但又不同于固定阶的马尔科夫模型，节点的阶数是依靠具体情况确定的。同时，本发明给出了相应的量子化实现方法，具有很强的前瞻性，为论文影响力的评估提供一种新方法，也提供了一种随机游走的并行化解决方案。

Description

一种基于量子游走的论文影响力评估方法

技术领域

本发明涉及学术领域中基于量子游走对论文影响力进行评估的方法，尤其涉及一种基于高阶量子化马尔可夫模型的论文影响力评估方法。

背景技术

科研领域的高速发展使得论文的数量不断增加，而论文质量则良莠不齐，在海量论文中检索一篇高质量文献愈发艰难。因此一种有效的论文影响力评估方法对学习和研究都有很大的帮助。但是至今为止所提出的如PageRank排序、HITS排序都存在一些已知的问题，不能满足对准确度的要求，准确度、稳定性更高的评估方法有待于研究人员的进一步探索。同时，量子计算作为未来计算机的一个发展方向，其超强的存储能力和并行计算能力将很好的解决目前计算机发展的瓶颈问题，有着巨大的价值潜力，因此量子算法的研究也将很有意义。

发明内容

本发明的目的主要针对现有研究的一些不足之处，提出基于量子游走的论文影响力评估方法，将论文的访问概率作为衡量论文重要性的关键，利用论文之间的引用关系，首次使用高阶马尔可夫模型对会议进行评估，并给出了相应的量子化实现方法，具有很强的前瞻性，为论文影响力的评估提供一种新方法，也提供了一种随机游走的并行化解决方案。

本发明的技术方案：

一种基于量子游走的论文影响力评估方法，步骤如下：

1)通过统计真实的论文引用网络中论文引用的高阶依赖关系给出高阶化规则；

2)结合随机游走模型，根据1)中的高阶化规则，建立高阶化的引用流模型；

3)根据2)中的引用流模型计算对应的转移概率矩阵；

4)应用3)中得到的转移概率矩阵量子化随机游走过程，并计算每篇论文在引用网络中被访问的概率，进而评估出论文的影响力。

步骤1)包括以下三个步骤：

1.1)根据论文之间的引用关系构建引用链。

1.2)遍历所有引用链，统计各阶引用关系出现的次数，并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。基于小世界原理和数据的实际情况，引用关系的最高阶数定为4到6阶为宜。

1.3)考察所有的高阶关系，筛选出其中改变了节点转移概率的高阶规则，具体做法：

Step 1：记论文总数为M，亦即引用关系图中有M个节点。用i|k表示节点i的k阶引用关系，并记最大阶数为order，可得k阶化后节点i转移到其邻居节点j的概率为：

其中N_i|k→j表示节点i引用节点j的次数，k∈[2,order]，表示节点i引用其他文章的总次数。

Step 2：使用高阶节点向邻居节点的转移概率P_i|k→j和零阶节点向邻居节点的转移概率P_i→j之间的K-L距离来度量高阶化对转移概率的影响程度，即：

其中，K-LDivergence即K-L距离，描述了节点i到所有邻接节点上的转移概率差异的总体水平，表示节点i到某一个邻接节点的转移概率在高阶化后的变化，是对以2为底取对数。将该值与比较，其中，k为当前高阶化节点的阶数，表示节点i引用其他文章的总次数的以2为底的对数。若K-LDivergence较大则认为高阶化对转移概率有影响，保留这条高阶规则。

步骤3)：根据步骤2)中得到的引用网络，写出引文网络的邻接矩阵G，其中，G_i|k,j＝αP_i|k→j+(1-α)，α＝0.85，G是一个方阵，记G的维数为N。

步骤4)：利用步骤3)中的邻接矩阵，量子化随机游走的过程，包括以下个步骤：

Step 1：将邻接矩阵G中的节点以0到N-1重新编号，以右矢|i>和|j>表示图中的节点i和j，以张量积|i>|j>表示节点i指向节点j的有向边，G_i,j表示节点i到节点j的转移概率，则对于每一个节点j，其初始状态向量可按下式计算：

随机游走的初始状态为各个节点初始状态的叠加态，即是一个N×N维列向量。

Step 2：按下式计算变换矩阵π：

其中，为的共轭向量，E为同阶单位矩阵。矩阵π的作用是将输入的向量作关于初始向量的对称变换。

再计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点。

最终的迭代矩阵U＝πS。

Step 3：使用矩阵U做迭代计算，第m次迭代后的向量的内积表示节点j在第m次随机游走过程后被访问到的概率，由下式计算：

为保证转移的方向性，每一次迭代都乘U²而不是U，其中，表示U的转置。最终的节点的访问概率用M次迭代的访问概率的均值表示，该均值是收敛的，计算方法如下：

最终的节点排名标准即为访问概率P_j。

Step 4：由于量子游走的直接输出结果中含有同一节点的不同阶表示，应对结果做进一步处理。即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。

本发明的有益效果：本发明主要使用了高价马尔科夫模型，该模型较零阶和某一固定阶的马尔科夫模型有更高的准确度，并且较某一固定阶模型有较高的效率。高阶马尔科夫模型考虑了随机游走的记忆性，当前节点向邻接节点转移的概率受前序节点的影响，但又不同于固定阶的马尔科夫模型，节点的阶数是依靠具体情况确定的。因为对于不同的节点，其向邻接节点转移的概率可能不仅受一阶前序节点影响，也可能在考虑更长的前序链时产生的结果更稳定，该模型的目的就是寻找这种更稳定的高阶关系。

在实际应用中，高阶模型表现为剔除了一部分引用关系稀疏的论文对主干网络的影响。考虑到这些论文本身影响力很低，而有的作者存在通过发表一些低影响力的论文并引用自己的论文，以提高自身影响力的情况，在计算中排除这部分论文的影响是有益的；并且相较于完全的排除自引，该方法保留了有价值的自引。我们认为，作者后续发表的论文具有很高的影响力，则他对自己之前的论文的引用是有价值的。

附图说明

图1和图2为本发明结的高阶化结果，针对不同的引用关系状态，高阶化将对转移概率产生不同的影响。

图3为最终排序的部分结果，由于节点数量庞大，只截取了部分结果展示。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明实例提供了一种基于量子游走的会议影响力评估方法，该方法包括：

步骤1：通过统计真实的论文引用网络中论文引用的高阶依赖关系，给出高阶化规则。

1.1)选择APS数据集中的PRC数据集，并从中筛选出参考文献和被引文章都在PRC中的论文，并从APS数据集提供的文章引用关系表中筛选出所选文章间的引用关系。根据论文之间的引用关系，采用随机游走的方法尽可能遍历引用网络，构建引用链。这里，我们共保留了30,856篇文章和它们之间的212,412对引用关系。之所以选择参考文献和被引文章都在PRC数据集之中的文章，是为了保证引用网络的完整性，尽量避免孤立节点的存在。

1.2)遍历所有引用链，统计各阶引用关系出现的次数，并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中。考虑到数据量很大，这里我们取D＝50，即出现次数小于50次的引用关系都将被忽略。基于小世界原理和数据的实际情况，引用关系的最高阶数定为5阶。

Step 1：记论文总数为M，亦即引用关系图中有M个节点。用i|k表示节点i的k阶引用关系，最大阶数为5，可得k阶化后节点i转移到其邻居节点j的概率为：

其中N_i|k→j表示节点i引用节点j的次数，k∈[2,5]，表示节点i引用其他文章的总次数。

将该值与比较，若K-LDivergence较大则认为高阶化对转移概率有影响，保留这条高阶规则。

步骤2)：根据步骤1)中得到的高阶引用规则构建高阶化的引用网络。具体做法为：先用高阶化的节点取代原节点在引用网络中的位置，再将指向原节点的边指向高阶化的节点，并将转移概率记为P_i|k→j。同时，为了保证高阶引用的完整性，高阶节点的前序节点也应存在高阶引用。即若节点i存在高阶引用i|k→j,则也应将i|(k-1)→i|k加入高阶引用网络中，其中k∈[2,5]，同时将转移概率记为P_i|k→j。图1和图2中展示了两种高阶化的结果。在图1中，P₂→P₀→P₁是步骤1)中发现的二阶引用关系，而P₂→P₀是自引关系。图中可见，由于P₂被引十次，相较于其它引用P₀的文章其被引量更多，故我们认为P₂→P₀是有价值的自引，因此二阶引用P₀|P₂→P₁的概率较零阶情况下有所提升。而在图2中，P₅→P₃→P₄是步骤1)中发现的二阶引用关系，P₅→P₃是自引关系。由于P₅没有被引用，故我们认为这种自引是无价值的，而最终结果显示二阶引用P₃|P₅→P₄的概率降低了。

Step 1：将邻接矩阵G中的节点以0到N-1重新编号，在实际实验中，N＝37008，是包括原有的论文节点及所有高阶关系节点的总和。以右矢|i>和|j>表示图中的节点i和j，以张量积|i>|j>表示节点i指向节点j的有向边，G_i,j表示节点i到节点j的转移概率，则对于每一个节点j，其初始状态向量可按下式计算：

Step 2：按下式计算变换矩阵π：

最终的迭代矩阵U＝πS。

最终的节点排名标准即为访问概率P_j。

Step 4：由于量子游走的直接输出结果中含有同一节点的不同阶表示，应对结果做进一步处理。即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。最终排名的部分结果如图3所示。

本发明中提出的方法能较好的区别引用的重要度，更能突出引用网络中边密度大的区域对文章排名的影响，自然排除了一些恶意增加引用量的情况，理论上具有更好的可信度。同时使用量子化方法，使该方法存在很强的并行计算潜力，有很强的前瞻性。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于量子游走的论文影响力评估方法，其特征在于，步骤如下：

步骤1)包括以下三个步骤：

1.1)根据论文之间的引用关系构建引用链；

1.2)遍历所有引用链，统计各阶引用关系出现的次数，并将出现次数高于给定的阈值D的高阶引用关系加入高阶引用规则中；基于小世界原理和数据的实际情况，引用关系的最高阶数定为4-6阶；小世界原理即六度分隔，网络中任何两个节点建立联系所间隔的节点不超过六个；

Step 1：记论文总数为M，亦即引用关系图中有M个节点；用i|k表示节点i的k阶引用关系，并记最大阶数为order，得k阶化后节点i转移到其邻居节点j的概率为：

其中，N_i|k→j表示节点i引用节点j的次数，k∈[2,order]；表示节点i引用其他文章的总次数；

Step 2：使用k阶节点向邻居节点的转移概率P_i|k→j和零阶节点向邻居节点的转移概率P_i→j之间的K-L距离来度量高阶化对转移概率的影响程度，即：

其中，K-LDivergence即K-L距离，描述了节点i到所有邻接节点上的转移概率差异的总体水平，表示节点i到某一个邻接节点的转移概率在高阶化后的变化，是对以2为底取对数；将K-LDivergence与比较，其中，k为当前高阶化节点的阶数，表示节点i引用其他文章的总次数的以2为底的对数；若K-LDivergence大于则认为高阶化对转移概率有影响，保留这条高阶规则；

步骤2)：根据步骤1)中得到的高阶引用规则构建高阶化的引用网络；

步骤3)：根据步骤2)中得到的引用网络，写出引用网络的邻接矩阵G，其中，G_i|k,j＝αP_i|k→j+(1-α)，阻尼系数α＝0.85，G是一个方阵，记G的维数为N；

步骤4)：利用步骤3)中的邻接矩阵G，量子化随机游走的过程，包括以下个步骤：

Step 1：将邻接矩阵G中的节点以0到N-1重新编号，以右矢|i>和|j>表示图中的节点i和j，以张量积|i>|j>表示节点i指向节点j的有向边，G_i,j表示节点i到节点j的转移概率，则对于每一个节点j，其初始状态向量按下式计算：

随机游走的初始状态为各个节点初始状态的叠加态，即为某个节点j的初始状态，所有节点初始状态在N×N空间中的叠加表示游走的初始状态，是一个N×N维列向量；

Step 2：按下式计算变换矩阵π：

其中，为的共轭向量，E为同阶单位矩阵；矩阵π的作用是将输入的向量作关于初始状态向量的对称变换；

接着计算转移矩阵它的作用是将变换后的节点的访问概率按邻接关系转移到该节点的后序节点；

最终的迭代矩阵U＝πS；

为保证转移的方向性，每一次迭代都乘U²而不是U，其中，表示U的转置；最终的节点的访问概率用M次迭代的访问概率的均值表示，该均值是收敛的，计算方法如下：

最终的节点排名标准即为访问概率P_j；

Step 4：由于量子游走的直接输出结果中含有同一节点的不同阶表示，应对结果做进一步处理；即将所有表示同一节点的访问概率相加得到该节点的最终访问概率。