CN108511078A

CN108511078A - 基于社区发现的医疗团队组成方法

Info

Publication number: CN108511078A
Application number: CN201810276035.6A
Authority: CN
Inventors: 毛璐; 金博
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-07

Abstract

本发明公开了一种基于社区发现的医疗团队组成方法，包括如下步骤：通过网络爬虫，从万方医学网中抓取的关于医生合作论文信息，从挂号网中采集的全国三甲医院中医生团队信息，使用并查集重新划分合并医生的ID集合，并构造关系图；选用SC，GN，FN，Walk Trap任一方法，用于发觉数据中的社区结构，并对社区进行划分；在划分的每个社区满足五度分割理论的前提下，对每一次的迭代应选择使得迭代划分后的社区更稳定的结果，最后用Gephi将最终结果可视化。本发明是使用计算机软件分析完成的，对构建医疗团队具有有益的科学指导作用，有利于解决当前国内存在看病难等问题，优化医疗资源配置，提高就医及诊疗效率。

Description

基于社区发现的医疗团队组成方法

技术领域

本发明涉及机器学习；人工智能；社区发现；数据挖掘；社交网络，更具体地说，涉及一种基于社区发现的医疗团队组成。

背景技术

FN(FastNewman)是目前使用最广泛的社区发现算法之一。FN可以解决关系网络子图划分问题。它的根本思想是基于模块度进行社区划分使得同一社区内部的连边尽量多，不同社区之间的连边尽量少。这样，基于最大模块度，就可以取得整体最好的子图划分效果。但这一特征也容易造成过度重视模块度而忽略了将节点单独划分而造成出现许多散点的情况，而显然这种结果对于关系网络子图的划分并不是有代表性的理想的结果。但是已有技术中还存在的一些缺陷或问题，比如说算法复杂度比较大，只能对中小规模的关系网络进行社区划分，不适用于大规模关系网络的社区发现。社区发现算法是无监督的，所以终止条件成为一个重要的课题。而仅以模块度作为终止条件不仅容易产生散点问题，也不符合许多实际的应用需求。

发明内容

本发明给出一种基于社区发现的医疗团队组成建议。

为了达到上述目的，本发明提供一种基于社区发现的医疗团队组成方法，包括如下步骤：

S1、数据采集与预处理

通过网络爬虫，初步抓取两个数据集：

数据集A是从万方医学网中抓取的关于医生合作论文信息，主要包括医生id、合作者id以及合作论文数；

数据集B是从挂号网中采集的全国三甲医院中医生团队信息，主要包括医生名、医院名、团队名；

数据预处理

根据数据集A中的医生id从万方医学数据库中医生信息表获取医生姓名和所在医院，将信息保存，得到数据集C，其主要包括医生id、合作者id、合作论文数、医生姓名以及医院名；

将数据集B和数据集C进行关联，关联规则包括两个：一是两个数据集医生姓名相同，二是两个数据集医院名相同，根据上述规则，可将医生合作论文信息和医生团队信息整合在一起，将信息保存，最终得到包括医生ID，姓名，所在医院，合作论文篇数的医生合作数据对；

最后使用并查集重新划分合并医生的ID集合，使得每个集合包含两个ID号，表示两个相互协作的医生；

S2、构造关系图

基于上述最终数据，以医生的ID作为结点；以医生是否有合作论文的关系作为边关系，即有论文合作，则两个节点之间有一条边，无论文合作则无边；以医生合作论文的数量作为边的权重构造基本关系图；

S3、社区划分方法

选用SC，GN，FN，Walk Trap任一方法，用于发觉数据中的社区结构，并对社区进行划分；

S4、社区划分结果及应用

在划分的每个社区满足五度分割理论的前提下，对每一次的迭代应选择使得迭代划分后的社区更稳定的结果，最后用Gephi将最终结果可视化。

优选方式下，步骤S3中，基于谱聚类SC的社区发现算法将社区中的元素看作是图的节点集V，元素之间的互连可以看作是连接图的节点的边集E；通过以下具体步骤进行社区发现：

步骤1：将社区划分为有权无向图G(V，E)；

步骤2：计算相似矩阵W和拉普拉斯矩阵L；

步骤3：对拉普拉斯矩阵进行特征分解，得到特征值和特征向量；

步骤4：用K-means或其他经典聚类算法进行特征向量空间中的特征向量的聚类，以检测最终的社区。

本发明是使用计算机软件分析完成的，对构建医疗团队具有有益的科学指导作用，有利于解决当前国内存在看病难等问题，优化医疗资源配置，提高就医及诊疗效率。同时推动医生间团队合作还利于提升国内整体的医疗水平，促进医生间交流学习，利于推动更多医疗成果的产出。于患者，医生，社会，国家具有极大的积极意义与效果。同时，本技术方法可以进一步推广，不仅局限于医疗，在任何需要团队合作的场合，如高校，公司等均可以对其团队的构成及人员选择提供科学有益的借鉴。

附图说明

图1基于社区发现的医疗团队组成建议方法流程图；

图2四种社区发现算法模块度比较；

图3最终效果图。

具体实施方式

如图1所示本发明方法的流程，包括如下步骤：

一、数据采集与预处理

1.1分布式网络爬虫

分布式网络爬虫系统是由传统的集中式网络爬虫改进而来的，其工作原理与集中式网络爬虫相似，将分布式网络爬虫系统看成是几个集中式网络爬虫以一定的通信和组织方式连接在一起协调进行网络爬虫的系统。通过网络爬虫，初步抓取两个数据集：

(1)数据集A是从万方医学网中抓取的关于医生合作论文信息(Paper_Doctor_CoAuthor.txt)，主要包括医生id、合作者id以及合作论文数等；

(2)数据集B是从挂号网中采集的全国三甲医院中医生团队信息(source.xls)，主要包括医生名、医院名、团队名等。

1.2数据预处理

根据数据集A中的医生id从万方医学数据库(XMasterData)中医生信息表(Physician_All)获取医生姓名和所在医院，将信息保存到Doctor_CoAuthor_info.txt文件中，得到数据集C，其主要包括医生id、合作者id、合作论文数、医生姓名以及医院名等。

将数据集B和数据集C进行关联，关联规则包括两个：一是两个数据集医生姓名相同，二是两个数据集医院名相同，根据上述规则，可将医生合作论文信息和医生团队信息整合在一起，将信息保存在Final_Doctor_CoAuthor_Info.xlsx文件中，最终得到共31744对包括医生ID，姓名，所在医院，合作论文篇数等的医生合作数据对。

最后使用并查集重新划分合并医生的ID集合，使得每个集合包含两个ID号，表示两个相互协作的医生。此中每个ID表示关系图中每个节点，而包含两个ID号的集合表示一条连边关系，运行并查集还会使每个连通子图的ID对集合最终在各自联通子图的大集合中，为接下来进行的社区发现与子图划分做准备。

二构造关系图

基于上述最终数据，以医生的ID作为结点；以医生是否有合作论文的关系作为边关系，即有论文合作，则两个节点之间有一条边，无论文合作则无边；以医生合作论文的数量作为边的权重构造基本关系图。

三社区划分方法

3.1模块度

模块度也称模块化度量值，是目前常用的一种衡量网络社区结构强度的方法，最早由Mark NewMan提出。模块度的定义为：

模块度值的大小主要取决于网络中结点的社区分配C，即网络的社区划分情况，可以用来定量的衡量网络社区划分质量，其值越接近1，表示网络划分出的社区结构的强度越强，也就是划分质量越好。因此可以通过最大化模块度Q来获得最优的网络社区划分。

3.2五度分割理论

随着网络的发展，人与人之间的关系越来越密切，社交网络巨头脸书网和米兰大学联合宣布了他们在六度分离理论基础上的最新研究成果：在世界上任意两个独立的人与人之间要取得联系，相间的平均人数是4.74人。这相对于米尔格拉姆通过类似实验获得并于1967年提出的六度分隔理论减少了1.26度。因此，在建立一个人物关系网络时，只需要收集核心人物以下五层内即与核心人物相距路径长度大于等于5的人物，并认为这些人之间的关系是紧密有效且值得挖掘与推荐的。这不仅减少了关系网络的深度，还使划分后的关系网络更加实用。因此，如果分类即进行社区划分后的子关系图的关系网络中核心人物以下的最长路径的长度大于五或没有一个核心人物，将迭代地进行社区划分直至各个子关系图满足五度分割理论。五度分割理论也被作为社区发现的终止条件之一。

3.3社区发现算法对比

不同的数据具有不同的特点，算法也应基于数据进行选择。对本数据，选择基于分割理论的GN算法，基于模块度理论的FN算法，基于信息论的walktrap算法与基于谱理论的谱聚类分别运行数据进行社区划分并以模块度为最终算法选择评价指标。

(1) GN(Grivan–Newman)

GN算法利用社区内高内聚的特性和社区之间的低内聚特性，逐渐消除社区之间的边缘，形成一个相对内聚的社区结构。该算法采用边介数的概念来检测待删除边位置。边的边介数定义为通过该边的所有节点之间的最短路径数。根据定义，如果一个边连接两个社区，那么通过该边的最短路径的数量将可能是最大的。对于位于两个社区边缘的节点之间的连边，边缘的两个社区的节点之间，相应的边介数将是最大的。如果这些边被删除，那么两个社区将被分开。基于这一思想，GN算法多次计算当前网络的最短路径和每条边的边介数，并删除边介数最大的边。当满足一定条件时，可以通过停止算法得到网络的社区结构。

(2) FN(Fast Newman)

FN算法是一种基于模块度的快速挖掘算法并使用了一种凝聚的方法，而这是一种贪婪的方法。通过使用模块度Q，遍历两个连通的社区来寻找q的最大或最小增量的组合，并将它们合并到一个新的社区中，构造一个层次树。该算法使用如下方法计算：

δQ＝e_ij+e_ji-2a_ia_j＝2(e_ij-a_ia_j) (3.2)

每次重组后，对于新社区，对称矩阵e就会被更新，此算法最大的链接步骤数目是n-1，由此构造了层次树，然后利用模块度q选择最优截断曲面来发现社区。

(3) Walk Trap

Walk Trap算法模型的基本思想是从一个或一系列节点遍历关系图网，在任何一个节点，遍历算法都会以概率为1-α的概率到达它旁边的节点，随机跳转到图中的任何节点，其概率为α，其中α被称为跳转发生的概率，每一步都有一个概率分布，这个概率分布表征了每个节点被访问的概率，这种概率分布被用作下一次Walk Trap的输入，当然这是迭代的。当满足一定的前提条件时，概率分布趋于收敛。收敛后，可以得到稳定的概率分布，即得到社区结构。

(4) SC(Spectral Clustering)

SC也称为谱聚类，是一种基于图论的聚类算法，其原理是对样本数据的拉普拉斯矩阵的特征向量进行聚类。

图由节点和它们之间的边组成。一个节点代表一个事物，一条边也可以有一个权重，它代表了两个节点之间的一种关系。图被划分为若干子图，每个子图间没有交集，被删除的子图之间的边的权重的总和称为损失。SC通过最小化这种损失来划分一个图。如G(V，E)代表图，V(v₁，v₂，……，v_n)代表节点集合，E是边的集合。此外，w_ij代表v₁与v₂之间变得权重。假设G(V，E)被划分为两个子图G₁，G₂，定义q＝[q₁，q₂，q₃，……，q_n]是一个n维向量，用于表示该分区方案。

损失函数可以定义为：

其中W是权重矩阵，D是对角矩阵。

定义了拉普拉斯矩阵L＝D-W，将损失最小化问题转化为qTLq。

基于SC的社区发现算法将社区中的元素看作是图的节点集V，元素之间的互连可以看作是连接图的节点的边集E。利用节点间的相关性，构造了一个有权无向图G(V，E)。因此，聚类问题可以转化为图的划分问题。基于图理论的最优划分的标准是，在子图内部的相似性最大化的同时子图之间的相似性会最小化。使用这种方法，可以通过以下具体步骤进行社区发现：

步骤1：将社区划分为有权无向图G(V，E)。

步骤2：计算相似矩阵W和拉普拉斯矩阵L。

步骤3：对拉普拉斯矩阵进行特征分解，得到特征值和特征向量。

抽取原始数据集的连通子图中的数据量最大的连通子图作为测试数据集，测试数据集的实验结果表明，当网络划分为30个社区时，每个算法都能在其中的迭代划分过程中获得最大模块度。因此，对此数据集划分30个社区，每次社区划分，分别计算SC，GN，FN，WalkTrap的模块度。结果如表1所示：

表1四种算法的模块度数值对比

如图2所示，这组数据中，当社区数目从2变化到11，GN和Walktrap的模块度数值均比SC稍高。当社区数从20变到30，GN也获得比SC稍好的结果，但在社区数从12到19区间，SC总是得到最好的结果，并取得了最高0.88的模块度峰值。通常会选择具有最高模块度的社区结构。而且，这个测试集包含23172对医生合作数据，具有相当代表性。因此，应选择SC来发觉此数据中的社区结构。

四社区划分结果及应用

4.1最终结果展示

本数据经过并查集得到了885个连通子图，对每一个连通子图迭代使用SC进行社区划分，直到划分的每个社区满足五度分割理论。而对每一次的迭代应选择使得迭代划分后的社区更稳定的结果，即当模块度取得最大时的结果；最后用Gephi将最终结果可视化，如图3所示。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于社区发现的医疗团队组成方法，其特征在于，包括如下步骤：