CN108804496A

CN108804496A - 一种基于PageRank算法的医院重要性排名方法

Info

Publication number: CN108804496A
Application number: CN201810283655.2A
Authority: CN
Inventors: 宣琦; 李永苗; 虞烨炜; 郑钧; 俞山青; 阮中远; 徐东伟; 许荣华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-11-13

Abstract

一种基于PageRank算法的医院重要性排名方法，包括以下步骤：步骤1：收集关于医生多点执业的行为数据，构建医院关联网络；步骤2：根据医院关联网络生成概率转移矩阵；步骤3：采用PageRank算法对医院重要性进行排名；步骤4：采用Spearman秩相关系数与医院的网上排名进行相关性分析。本发明通过构建医院关联网络，使用PageRank算法实现对一线和新一线城市的医院关联网络中的医院进行重要性排名，最后使用Spearman秩相关系数与医院的网上排名进行相关性分析；后续能够实现对一线和新一线城市的医院重要性排名情况与各城市实施的政策、交通状况等相结合进行分析。

Description

一种基于PageRank算法的医院重要性排名方法

技术领域

本发明涉及数据挖掘、网络科学技术，特别是涉及一种基于PageRank算法的医院重要性排名方法。

背景技术

伴随着信息技术的迅猛发展，人类的社会活动日趋网络化。我们的生活被各种网络包围着，例如与他人交流的在线社交网络、通信网络、科研合作网络；与生活密切相关的因特网、交通网络、电力网络；与人自身相关的新陈代谢网络、神经网络、基因调控网络等等。随着网络科学的蓬勃发展，节点重要性的研究进一步受到人们的关注。如何正确评价节点的重要性已成为复杂网络研究中的一项具有重要意义的课题。

基于随机游走的节点重要性排序方法主要用于网页排序。由于网页之间的链接关系可以解释为网页之间的相互关联，该方法基于此区分网页的重要程度。这类典型的方法有PageRank算法，LeaderRank算法和HITS算法等。PageRank算法是用于搜索引擎中网页排序的经典算法。该算法基于“从优质网页链接而来的网页必定还是优质网页”的回归关系，其基本思想是：当网页A有一个连接指向网页B，就认为B获得了A对它贡献的分值，该值的多少取决于网络A本身的重要程度，即网页A的重要性越大，网页B获得的贡献值就越高。由于网络中网页连接的相互指向，该分值的计算为一个迭代过程，最终网页根据所得分值进行检索排序。PageRank的使用基于两个前提，一是指向一个网页的超链接数越多，表明这个网页越重要；二是指向网页的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重，所以越是质量高的页面指向的页面重要性也越高。

发明内容

为了克服现有技术中无法实现医院重要性排名方法的不足，研究一线城市与新一线城市的医生行为对医院重要性排名的影响。本发明提出一种基于PageRank算法的医院重要性排名方法，构建医院关联网络，通过PageRank算法根据一线城市与新一线城市的医院关联网络对各城市的医院进行排名，最后使用Spearman秩相关系数与医院的网上排名进行相关性分析。

本发明解决其技术问题所采用的技术方案如下：

一种基于PageRank算法的医院重要性排名方法，包括以下步骤：

步骤1：收集关于医生多点执业的行为数据，构建医院关联网络；

步骤2：根据医院关联网络生成概率转移矩阵；

步骤3：采用PageRank算法对医院重要性进行排名；

步骤4：采用Spearman秩相关系数与医院的网上排名进行相关性分析。

进一步，所述步骤1中，收集关于医生多点执业的行为数据，构建医院关联网络。所述医院关联网络为一个由集合V、E和W组成的图，记为G＝(V,E,W)，其中V＝{v₁,v₂,…,v_N}是节点集合，每个节点表示一个医院；是无向连边集合，表示医院之间的关系；W＝(w_ij)_N×N是连边权重集合，表示两个医院共享医生的人数。

再进一步，所述步骤2中，根据医院关联网络生成概率转移矩阵，同时我们增加随机跳转，引入阻尼系数p。概率转移矩阵A′，计算如下：

其中，阻尼系数p＝0.85,E为全是1的矩阵，N表示网络中节点的总数。

更进一步，所述步骤3中，采用PageRank算法对医院重要性进行排名，处理过程如下：考虑医院关联网络连边的权值大小，借鉴搜索引擎中PageRank排名算法思想，医院关联网络中节点v_i的PageRank值，计算如下：

其中，k_j表示节点v_j的度。

所述步骤4中，采用Spearman秩相关系数与医院的网上排名进行相关性分析，处理过程如下：Spearman秩相关系数用来估计两个变量X、Y之间的相关性，其中变量间的相关性可以使用单调函数来描述；如果两个变量取值的两个集合中均不存在相同的两个元素，那么，当其中一个变量表示为另一个变量的很好的单调函数时，即两个变量的变化趋势相同，两个变量之间的ρ达到+1或-1，计算如下：

其中，N表示网络中节点的总数，d_i表示两个变量的等级的差值。

本发明的有益效果为：基于PageRank算法的医院重要性排名方法，通过构建医院关联网络，使用PageRank算法实现对一线和新一线城市的医院关联网络中的医院进行重要性排名，最后使用Spearman秩相关系数与医院的网上排名进行相关性分析。后续能够实现对一线和新一线城市的医院重要性排名情况与各城市实施的政策、交通状况等相结合进行分析。

附图说明

图1为本发明中程序设计流程图；

图2为本发明中医院关联网络图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。

参照图1～图2，一种基于PageRank算法的医院重要性排名方法，本发明使用的数据记录了多点执业的医生姓名，医院名称，医院地址等信息。

本发明具体分为以下四个步骤：

步骤2：根据医院关联网络生成概率转移矩阵；

步骤3：采用PageRank算法对医院重要性进行排名；

所述步骤1中，收集关于医生多点执业的行为数据，构建医院关联网络。所述医院关联网络为一个由集合V、E和W组成的图，记为G＝(V,E,W)，其中V＝{v₁,v₂,…,v_N}是节点集合，每个节点表示一个医院；是无向连边集合，表示医院之间的关系；W＝(w_ij)_N×N是连边权重集合，表示两个医院共享医生的人数。

所述步骤2中，根据医院关联网络生成概率转移矩阵，考虑随机跳转，引入阻尼系数p。概率转移矩阵A′，计算如下：

所述步骤3中，采用PageRank算法对医院重要性进行排名，处理过程如下：综合考虑医院关联网络连边的权值大小，借鉴搜索引擎中PageRank排名算法思想，旨在提出医院关联网络节点重要性评估的新指标及具体方法，从而能准确、有效地给出医院排名；医院关联网络中节点v_i的PageRank值，计算如下：

其中，k_j表示节点v_j的度。

本发明以重庆市为例，列举了PageRank值排名前十的医院，最后的医院重要性排名结果见表1。

表1

Spearman秩相关系数，表明PageRank排名与医院的网上排名具有显著的相关性。

如上所述为本发明使用收集的数据，通过构建医院关联网络，使用PageRank算法实现对一线和新一线城市的医院关联网络中的医院进行重要性排名，最后使用Spearman秩相关系数与医院的网上排名进行相关性分析。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于PageRank算法的医院重要性排名方法，其特征在于，所述方法包括以下步骤：

步骤2：根据医院关联网络生成概率转移矩阵；

步骤3：采用PageRank算法对医院重要性进行排名；

2.如权利要求1所述的一种基于PageRank算法的医院重要性排名方法，其特征在于：所述步骤1中，收集关于医生多点执业的行为数据，构建医院关联网络。所述医院关联网络为一个由集合V、E和W组成的图，记为G＝(V,E,W)，其中V＝{v₁,v₂,…,v_N}是节点集合，每个节点表示一个医院；是无向连边集合，表示医院之间的关系；W＝(w_ij)_N×N是连边权重集合，表示两个医院共享医生的人数。

3.如权利要求2所述的一种基于PageRank算法的医院重要性排名方法，其特征在于：所述步骤2中，根据医院关联网络生成概率转移矩阵，考虑随机跳转，引入阻尼系数p，概率转移矩阵A＇，计算如下：

4.如权利要求1～3之一所述的一种基于PageRank算法的医院重要性排名方法，其特征在于：所述步骤3中，采用PageRank算法对医院重要性进行排名，处理过程如下：考虑医院关联网络连边的权值大小，借鉴搜索引擎中PageRank排名算法思想，医院关联网络中节点v_i的PageRank值，计算如下：

其中，k_j表示节点v_j的度。

5.如权利要求4所述的一种基于PageRank算法的医院重要性排名方法，其特征在于：所述步骤4中，采用Spearman秩相关系数与医院的网上排名进行相关性分析，处理过程如下：Spearman秩相关系数用来估计两个变量X、Y之间的相关性，其中变量间的相关性使用单调函数来描述；如果两个变量取值的两个集合中均不存在相同的两个元素，那么，当其中一个变量表示为另一个变量的很好的单调函数时，即两个变量的变化趋势相同，两个变量之间的ρ达到+1或-1，计算如下：