CN108897736B

CN108897736B - 基于Paper Rank算法的文献排序方法及装置

Info

Publication number: CN108897736B
Application number: CN201810636672.XA
Authority: CN
Inventors: 王则远; 周旻; 毕莹; 孙佳星
Original assignee: Dalian Medicinovo Cognitive Medical Technology Co ltd
Current assignee: Dalian Medicinovo Cognitive Medical Technology Co ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2022-04-12
Anticipated expiration: 2038-06-20
Also published as: CN108897736A

Abstract

本发明实施例公开一种基于Paper Rank算法的文献排序方法及装置，能够克服传统文献排序方法具有单一性和不准确性的缺陷。方法包括：S1、对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；S2、对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

Description

基于Paper Rank算法的文献排序方法及装置

技术领域

本发明实施例涉及信息技术领域，具体涉及一种基于Paper Rank算法的文献排序方法及装置。

背景技术

随着互联网的高速发展，越来越多的信息以电子形态存储和交换，于是信息检索技术应运而生，并且仍在不断地发展和完善。文献作为记录、保存和传播已有知识成果的载体，是人类文明和社会进步的基石，也是科研工作者最重要的思想工具。那么如何在短时间内准确地检索出有价值的文献就具有非常重要的意义。传统文献检索大多按照被引次数、发表时间、搜索词出现频次等条件之一对结果进行排序。自从E.Garfield等提出引文分析以来，以引文为基础而衍生的各种科学评价指标和评价工具迅速成为科学计量学研究的热点。以SCI，EI等为代表的各种科学引文索引，建立在包含海量科技数据的引文数据库基础上，为大规模的科学评价提供了相对低成本、高效的方法。科学文献之间不是孤立的，由文献引用而形成的复杂网络中蕴含节点之间的相互关系，一篇文献的相对重要性也包含其中。因此，从网络的视角分析评价对象的重要性，可以反映其学术水平或价值，是科学评价的一种有效途径。

常见的引文分析方法有共引分析(Co-citation)、引文耦合分析(BibliographicCoupling)，借助多维数据处理方法(如MDS)、知识图谱的绘制方法、计算机可视化技术、计算机图形聚类算法等，来映射和描绘学科的知识结构关系。此外，还有作者共引分析(ACA)、共词分析，虽然研究对象关系不相同，但在研究范式和方法上存在相通之处。

引文和链接具有本质上的相近之处，体现了网络模型中从一个元素到另一个元素的指向和影响作用关系。以PageRank，HITS算法为代表的基于网络结构的排序方法，在互联网络环境中取得成功的同时，也为引文网络分析带来了有益的启示。如Bergstorm提出Eigenfactor方法，采纳PageRank算法原理，并应用于期刊的排序评价。Zhou Ding等提出混合异质网络中的排序方法，并将HITS，PageRank算法的思想应用到不同类型网络节点权值的传递过程中，扩展了引文网络的模型结构。

传统文献检索存在很多不足，大多按照被引次数、发表时间、搜索词出现频次等条件之一对结果进行排序，角度单一且忽略了文献相互引用带来的价值流动，往往会出现部分文献排名过高或过低的现象，导致经常会出现排名靠前的文献利用价值不高而有价值的文献很难找的问题。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种基于Paper Rank算法的文献排序方法及装置。

一方面，本发明实施例提出一种基于Paper Rank算法的文献排序方法，包括：

S1、对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；

S2、对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

另一方面，本发明实施例提出一种基于Paper Rank算法的文献排序装置，包括：

选取单元，用于对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；

排序单元，用于对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的基于Paper Rank算法的文献排序方法及装置，借鉴Goole网页排名的Page Rank算法，采用基于数理统计的论文重要性研究方法——Paper Rank算法：首先枚举所有分词方案，对所有分词方案进行评分，选取最优分词方案；然后将最优分词方案代入Paper Rank算法中计算文献重要性，考虑文献的不同属性对于文献的重要性有很大差异，采用加权平均的方式赋予不同属性不同的权重；最终，按照文献重要性进行排序，相较于现有技术，本发明实施例能够克服传统文献排序方法具有单一性和不准确性的缺陷，有效识别科学文献的价值，为科学评价提供参考，主要用于科研学术界能够快速有效评判学术论文的重要性，为科研节省时间，使得科研方向集中有效，避免阅读大量学术水平较低的文献。

附图说明

图1为本发明基于Paper Rank算法的文献排序方法一实施例的流程示意图；

图2为本发明基于Paper Rank算法的文献排序方法另一实施例的流程示意图；

图3为本发明基于Paper Rank算法的文献排序装置一实施例的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种基于Paper Rank算法的文献排序方法，包括：

本实施例中，枚举分词方案时可以使用现有的分词算法。

本实施例中，在对待排序的所有文献进行排序时，可以按照文献重要性由大到小的顺序排序。

本发明实施例提供的基于Paper Rank算法的文献排序方法，借鉴Goole网页排名的Page Rank算法，采用基于数理统计的论文重要性研究方法——Paper Rank算法：首先枚举所有分词方案，对所有分词方案进行评分，选取最优分词方案；然后将最优分词方案代入Paper Rank算法中计算文献重要性，考虑文献的不同属性对于文献的重要性有很大差异，采用加权平均的方式赋予不同属性不同的权重；最终，按照文献重要性进行排序，相较于现有技术，本发明实施例能够克服传统文献排序方法具有单一性和不准确性的缺陷，有效识别科学文献的价值，为科学评价提供参考，主要用于科研学术界能够快速有效评判学术论文的重要性，为科研节省时间，使得科研方向集中有效，避免阅读大量学术水平较低的文献。

在前述方法实施例的基础上，所述从该句子的所有分词方案中选取最优分词方案，可以包括：

对该句子的所有分词方案进行评分，并选取得分最高的分词方案作为最优分词方案，其中，分词方案S的得分P(S)的计算公式为P(S)＝P(w₁)×P(w₂|w₁)×P(w₃|w₂)×…×P(w_n|w_n-1)，P(w_i|w_i-1)＝P(w_i,w_i-1)/P(w_i-1)，P(w_i-1)为第i-1个词w_i-1出现的概率，P(w_i,w_i-1)为第i-1个词w_i-1出现以及第i个词w_i出现的概率，i∈(2,3,…,n)，n为分词方案S包含的分词数量。

本实施例中，表示在已知w_i-1的前提下，w_i出现的概率。

在前述方法实施例的基础上，第i篇文献P_i的重要性PR(P_i)的计算公式可以为

其中，N为待排序的所有文献的数量，d为阻尼系数，K是属性的总数，L(P_j)为第j篇文献P_j的链出文献的数量，li(P_i,P_j,k)为第i篇文献P_i与第j篇文

献P_j在第k个属性上相同的词条数，LI(P_j,k)为第j篇文献P_j在第k个属性上所分割的所有词条数。

图2为本发明基于Paper Rank算法的文献排序方法另一实施例的流程示意图，参看图2，在前述方法实施例的基础上，在所述S2之前，还可以包括：

通过提取待排序的所有文献的主要相关信息，生成属性标签及其对应的属性内容；

统一所述属性标签的名称；

根据插入排序算法整理所述待排序的每一篇文献的属性标签；

将所述待排序的每一篇文献的属性标签及其对应的属性内容进行结构化存储。

本实施例中，提取的文献的主要相关信息如图2所示，可以包括文献来源、标题、作者、作者单位、发表时间、关键字、摘要等等。

以中文文献为例，属性标签的名称统一后的形式可以如下表1所示。

表1

上表1中每一行的含义相同，属于同一种属性标签，将属性标签名称统一为％*的形式。

以中文文献为例，在整理属性标签时，从第一篇文献开始，以属性标签在文献中出现的顺序依次排列属性标签，比如：％A——％+——％T——％K，接着阅读第二篇文献，同样按照出现顺序排列属性标签为：％A——％J——％K，两篇文献的属性标签取并集，将第二篇的％J插入到第一篇文献的属性标签序列的％A之后，合并之后即：％A——％J——％+——％T——％K。

在存储属性标签及其对应的属性内容时，根据整理的文献属性标签，分条录入相应的属性内容，允许存在缺失值，存储形式如下表2所述的示例(行为属性标签，列为文献)：

表2

参看图3，本实施例公开一种基于Paper Rank算法的文献排序装置，包括：

选取单元1，用于对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；

排序单元2，用于对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

具体地，所述选取单元1对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；所述排序单元2对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

本发明实施例提供的基于Paper Rank算法的文献排序装置，借鉴Goole网页排名的Page Rank算法，采用基于数理统计的论文重要性研究方法——Paper Rank算法：首先枚举所有分词方案，对所有分词方案进行评分，选取最优分词方案；然后将最优分词方案代入Paper Rank算法中计算文献重要性，考虑文献的不同属性对于文献的重要性有很大差异，采用加权平均的方式赋予不同属性不同的权重；最终，按照文献重要性进行排序，相较于现有技术，本发明实施例能够克服传统文献排序方法具有单一性和不准确性的缺陷，有效识别科学文献的价值，为科学评价提供参考，主要用于科研学术界能够快速有效评判学术论文的重要性，为科研节省时间，使得科研方向集中有效，避免阅读大量学术水平较低的文献。

在前述装置实施例的基础上，所述选取单元，具体可以用于：

在前述装置实施例的基础上，第i篇文献P_i的重要性PR(P_i)的计算公式可以为

其中，N为待排序的所有文献的数量，d为阻尼系数，K是属性的总数，L(P_j)为第j篇文献P_j的链出文献的数量，li(P_i,P_j,k)为第i篇文献P_i与第j篇文献P_j在第k个属性上相同的词条数，LI(P_j,k)为第j篇文献P_j在第k个属性上所分割的所有词条数。

在前述装置实施例的基础上，所述装置还可以包括：

存储单元，具体用于在所述排序单元工作之前之前，通过提取待排序的所有文献的主要相关信息，生成属性标签及其对应的属性内容，统一所述属性标签的名称，根据插入排序算法整理所述待排序的每一篇文献的属性标签，将所述待排序的每一篇文献的属性标签及其对应的属性内容进行结构化存储。

图4示出了本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：对于待排序的每一篇文献的每一条句子，针对该句子枚举所有分词方案，从该句子的所有分词方案中选取最优分词方案；对于所述待排序的每一篇文献，通过将该篇文献对应的所有最优分词方案代入Paper Rank算法中计算该篇文献的重要性，并按照文献的重要性对所述待排序的文献进行排序，其中，在文献的重要性的计算过程中采用加权平均的方式赋予不同属性不同的权重。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。