CN108511078A - 基于社区发现的医疗团队组成方法 - Google Patents

基于社区发现的医疗团队组成方法 Download PDF

Info

Publication number
CN108511078A
CN108511078A CN201810276035.6A CN201810276035A CN108511078A CN 108511078 A CN108511078 A CN 108511078A CN 201810276035 A CN201810276035 A CN 201810276035A CN 108511078 A CN108511078 A CN 108511078A
Authority
CN
China
Prior art keywords
community
doctor
cooperation
data
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810276035.6A
Other languages
English (en)
Inventor
毛璐
金博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810276035.6A priority Critical patent/CN108511078A/zh
Publication of CN108511078A publication Critical patent/CN108511078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社区发现的医疗团队组成方法,包括如下步骤:通过网络爬虫,从万方医学网中抓取的关于医生合作论文信息,从挂号网中采集的全国三甲医院中医生团队信息,使用并查集重新划分合并医生的ID集合,并构造关系图;选用SC,GN,FN,Walk Trap任一方法,用于发觉数据中的社区结构,并对社区进行划分;在划分的每个社区满足五度分割理论的前提下,对每一次的迭代应选择使得迭代划分后的社区更稳定的结果,最后用Gephi将最终结果可视化。本发明是使用计算机软件分析完成的,对构建医疗团队具有有益的科学指导作用,有利于解决当前国内存在看病难等问题,优化医疗资源配置,提高就医及诊疗效率。

Description

基于社区发现的医疗团队组成方法
技术领域
本发明涉及机器学习;人工智能;社区发现;数据挖掘;社交网络,更具体地说,涉及一种基于社区发现的医疗团队组成。
背景技术
FN(FastNewman)是目前使用最广泛的社区发现算法之一。FN可以解决关系网络子图划分问题。它的根本思想是基于模块度进行社区划分使得同一社区内部的连边尽量多,不同社区之间的连边尽量少。这样,基于最大模块度,就可以取得整体最好的子图划分效果。但这一特征也容易造成过度重视模块度而忽略了将节点单独划分而造成出现许多散点的情况,而显然这种结果对于关系网络子图的划分并不是有代表性的理想的结果。但是已有技术中还存在的一些缺陷或问题,比如说算法复杂度比较大,只能对中小规模的关系网络进行社区划分,不适用于大规模关系网络的社区发现。社区发现算法是无监督的,所以终止条件成为一个重要的课题。而仅以模块度作为终止条件不仅容易产生散点问题,也不符合许多实际的应用需求。
发明内容
本发明给出一种基于社区发现的医疗团队组成建议。
为了达到上述目的,本发明提供一种基于社区发现的医疗团队组成方法,包括如下步骤:
S1、数据采集与预处理
通过网络爬虫,初步抓取两个数据集:
数据集A是从万方医学网中抓取的关于医生合作论文信息,主要包括医生id、合作者id以及合作论文数;
数据集B是从挂号网中采集的全国三甲医院中医生团队信息,主要包括医生名、医院名、团队名;
数据预处理
根据数据集A中的医生id从万方医学数据库中医生信息表获取医生姓名和所在医院,将信息保存,得到数据集C,其主要包括医生id、合作者id、合作论文数、医生姓名以及医院名;
将数据集B和数据集C进行关联,关联规则包括两个:一是两个数据集医生姓名相同,二是两个数据集医院名相同,根据上述规则,可将医生合作论文信息和医生团队信息整合在一起,将信息保存,最终得到包括医生ID,姓名,所在医院,合作论文篇数的医生合作数据对;
最后使用并查集重新划分合并医生的ID集合,使得每个集合包含两个ID号,表示两个相互协作的医生;
S2、构造关系图
基于上述最终数据,以医生的ID作为结点;以医生是否有合作论文的关系作为边关系,即有论文合作,则两个节点之间有一条边,无论文合作则无边;以医生合作论文的数量作为边的权重构造基本关系图;
S3、社区划分方法
选用SC,GN,FN,Walk Trap任一方法,用于发觉数据中的社区结构,并对社区进行划分;
S4、社区划分结果及应用
在划分的每个社区满足五度分割理论的前提下,对每一次的迭代应选择使得迭代划分后的社区更稳定的结果,最后用Gephi将最终结果可视化。
优选方式下,步骤S3中,基于谱聚类SC的社区发现算法将社区中的元素看作是图的节点集V,元素之间的互连可以看作是连接图的节点的边集E;通过以下具体步骤进行社区发现:
步骤1:将社区划分为有权无向图G(V,E);
步骤2:计算相似矩阵W和拉普拉斯矩阵L;
步骤3:对拉普拉斯矩阵进行特征分解,得到特征值和特征向量;
步骤4:用K-means或其他经典聚类算法进行特征向量空间中的特征向量的聚类,以检测最终的社区。
本发明是使用计算机软件分析完成的,对构建医疗团队具有有益的科学指导作用,有利于解决当前国内存在看病难等问题,优化医疗资源配置,提高就医及诊疗效率。同时推动医生间团队合作还利于提升国内整体的医疗水平,促进医生间交流学习,利于推动更多医疗成果的产出。于患者,医生,社会,国家具有极大的积极意义与效果。同时,本技术方法可以进一步推广,不仅局限于医疗,在任何需要团队合作的场合,如高校,公司等均可以对其团队的构成及人员选择提供科学有益的借鉴。
附图说明
图1基于社区发现的医疗团队组成建议方法流程图;
图2四种社区发现算法模块度比较;
图3最终效果图。
具体实施方式
如图1所示本发明方法的流程,包括如下步骤:
一、数据采集与预处理
1.1分布式网络爬虫
分布式网络爬虫系统是由传统的集中式网络爬虫改进而来的,其工作原理与集中式网络爬虫相似,将分布式网络爬虫系统看成是几个集中式网络爬虫以一定的通信和组织方式连接在一起协调进行网络爬虫的系统。通过网络爬虫,初步抓取两个数据集:
(1)数据集A是从万方医学网中抓取的关于医生合作论文信息(Paper_Doctor_CoAuthor.txt),主要包括医生id、合作者id以及合作论文数等;
(2)数据集B是从挂号网中采集的全国三甲医院中医生团队信息(source.xls),主要包括医生名、医院名、团队名等。
1.2数据预处理
根据数据集A中的医生id从万方医学数据库(XMasterData)中医生信息表(Physician_All)获取医生姓名和所在医院,将信息保存到Doctor_CoAuthor_info.txt文件中,得到数据集C,其主要包括医生id、合作者id、合作论文数、医生姓名以及医院名等。
将数据集B和数据集C进行关联,关联规则包括两个:一是两个数据集医生姓名相同,二是两个数据集医院名相同,根据上述规则,可将医生合作论文信息和医生团队信息整合在一起,将信息保存在Final_Doctor_CoAuthor_Info.xlsx文件中,最终得到共31744对包括医生ID,姓名,所在医院,合作论文篇数等的医生合作数据对。
最后使用并查集重新划分合并医生的ID集合,使得每个集合包含两个ID号,表示两个相互协作的医生。此中每个ID表示关系图中每个节点,而包含两个ID号的集合表示一条连边关系,运行并查集还会使每个连通子图的ID对集合最终在各自联通子图的大集合中,为接下来进行的社区发现与子图划分做准备。
二构造关系图
基于上述最终数据,以医生的ID作为结点;以医生是否有合作论文的关系作为边关系,即有论文合作,则两个节点之间有一条边,无论文合作则无边;以医生合作论文的数量作为边的权重构造基本关系图。
三社区划分方法
3.1模块度
模块度也称模块化度量值,是目前常用的一种衡量网络社区结构强度的方法,最早由Mark NewMan提出。模块度的定义为:
模块度值的大小主要取决于网络中结点的社区分配C,即网络的社区划分情况,可以用来定量的衡量网络社区划分质量,其值越接近1,表示网络划分出的社区结构的强度越强,也就是划分质量越好。因此可以通过最大化模块度Q来获得最优的网络社区划分。
3.2五度分割理论
随着网络的发展,人与人之间的关系越来越密切,社交网络巨头脸书网和米兰大学联合宣布了他们在六度分离理论基础上的最新研究成果:在世界上任意两个独立的人与人之间要取得联系,相间的平均人数是4.74人。这相对于米尔格拉姆通过类似实验获得并于1967年提出的六度分隔理论减少了1.26度。因此,在建立一个人物关系网络时,只需要收集核心人物以下五层内即与核心人物相距路径长度大于等于5的人物,并认为这些人之间的关系是紧密有效且值得挖掘与推荐的。这不仅减少了关系网络的深度,还使划分后的关系网络更加实用。因此,如果分类即进行社区划分后的子关系图的关系网络中核心人物以下的最长路径的长度大于五或没有一个核心人物,将迭代地进行社区划分直至各个子关系图满足五度分割理论。五度分割理论也被作为社区发现的终止条件之一。
3.3社区发现算法对比
不同的数据具有不同的特点,算法也应基于数据进行选择。对本数据,选择基于分割理论的GN算法,基于模块度理论的FN算法,基于信息论的walktrap算法与基于谱理论的谱聚类分别运行数据进行社区划分并以模块度为最终算法选择评价指标。
(1) GN(Grivan–Newman)
GN算法利用社区内高内聚的特性和社区之间的低内聚特性,逐渐消除社区之间的边缘,形成一个相对内聚的社区结构。该算法采用边介数的概念来检测待删除边位置。边的边介数定义为通过该边的所有节点之间的最短路径数。根据定义,如果一个边连接两个社区,那么通过该边的最短路径的数量将可能是最大的。对于位于两个社区边缘的节点之间的连边,边缘的两个社区的节点之间,相应的边介数将是最大的。如果这些边被删除,那么两个社区将被分开。基于这一思想,GN算法多次计算当前网络的最短路径和每条边的边介数,并删除边介数最大的边。当满足一定条件时,可以通过停止算法得到网络的社区结构。
(2) FN(Fast Newman)
FN算法是一种基于模块度的快速挖掘算法并使用了一种凝聚的方法,而这是一种贪婪的方法。通过使用模块度Q,遍历两个连通的社区来寻找q的最大或最小增量的组合,并将它们合并到一个新的社区中,构造一个层次树。该算法使用如下方法计算:
δQ=eij+eji-2aiaj=2(eij-aiaj) (3.2)
每次重组后,对于新社区,对称矩阵e就会被更新,此算法最大的链接步骤数目是n-1,由此构造了层次树,然后利用模块度q选择最优截断曲面来发现社区。
(3) Walk Trap
Walk Trap算法模型的基本思想是从一个或一系列节点遍历关系图网,在任何一个节点,遍历算法都会以概率为1-α的概率到达它旁边的节点,随机跳转到图中的任何节点,其概率为α,其中α被称为跳转发生的概率,每一步都有一个概率分布,这个概率分布表征了每个节点被访问的概率,这种概率分布被用作下一次Walk Trap的输入,当然这是迭代的。当满足一定的前提条件时,概率分布趋于收敛。收敛后,可以得到稳定的概率分布,即得到社区结构。
(4) SC(Spectral Clustering)
SC也称为谱聚类,是一种基于图论的聚类算法,其原理是对样本数据的拉普拉斯矩阵的特征向量进行聚类。
图由节点和它们之间的边组成。一个节点代表一个事物,一条边也可以有一个权重,它代表了两个节点之间的一种关系。图被划分为若干子图,每个子图间没有交集,被删除的子图之间的边的权重的总和称为损失。SC通过最小化这种损失来划分一个图。如G(V,E)代表图,V(v1,v2,……,vn)代表节点集合,E是边的集合。此外,wij代表v1与v2之间变得权重。假设G(V,E)被划分为两个子图G1,G2,定义q=[q1,q2,q3,……,qn]是一个n维向量,用于表示该分区方案。
损失函数可以定义为:
其中W是权重矩阵,D是对角矩阵。
定义了拉普拉斯矩阵L=D-W,将损失最小化问题转化为qTLq。
基于SC的社区发现算法将社区中的元素看作是图的节点集V,元素之间的互连可以看作是连接图的节点的边集E。利用节点间的相关性,构造了一个有权无向图G(V,E)。因此,聚类问题可以转化为图的划分问题。基于图理论的最优划分的标准是,在子图内部的相似性最大化的同时子图之间的相似性会最小化。使用这种方法,可以通过以下具体步骤进行社区发现:
步骤1:将社区划分为有权无向图G(V,E)。
步骤2:计算相似矩阵W和拉普拉斯矩阵L。
步骤3:对拉普拉斯矩阵进行特征分解,得到特征值和特征向量。
步骤4:用K-means或其他经典聚类算法进行特征向量空间中的特征向量的聚类,以检测最终的社区。
抽取原始数据集的连通子图中的数据量最大的连通子图作为测试数据集,测试数据集的实验结果表明,当网络划分为30个社区时,每个算法都能在其中的迭代划分过程中获得最大模块度。因此,对此数据集划分30个社区,每次社区划分,分别计算SC,GN,FN,WalkTrap的模块度。结果如表1所示:
表1四种算法的模块度数值对比
如图2所示,这组数据中,当社区数目从2变化到11,GN和Walktrap的模块度数值均比SC稍高。当社区数从20变到30,GN也获得比SC稍好的结果,但在社区数从12到19区间,SC总是得到最好的结果,并取得了最高0.88的模块度峰值。通常会选择具有最高模块度的社区结构。而且,这个测试集包含23172对医生合作数据,具有相当代表性。因此,应选择SC来发觉此数据中的社区结构。
四社区划分结果及应用
4.1最终结果展示
本数据经过并查集得到了885个连通子图,对每一个连通子图迭代使用SC进行社区划分,直到划分的每个社区满足五度分割理论。而对每一次的迭代应选择使得迭代划分后的社区更稳定的结果,即当模块度取得最大时的结果;最后用Gephi将最终结果可视化,如图3所示。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于社区发现的医疗团队组成方法,其特征在于,包括如下步骤:
S1、数据采集与预处理
通过网络爬虫,初步抓取两个数据集:
数据集A是从万方医学网中抓取的关于医生合作论文信息,主要包括医生id、合作者id以及合作论文数;
数据集B是从挂号网中采集的全国三甲医院中医生团队信息,主要包括医生名、医院名、团队名;
数据预处理
根据数据集A中的医生id从万方医学数据库中医生信息表获取医生姓名和所在医院,将信息保存,得到数据集C,其主要包括医生id、合作者id、合作论文数、医生姓名以及医院名;
将数据集B和数据集C进行关联,关联规则包括两个:一是两个数据集医生姓名相同,二是两个数据集医院名相同,根据上述规则,可将医生合作论文信息和医生团队信息整合在一起,将信息保存,最终得到包括医生ID,姓名,所在医院,合作论文篇数的医生合作数据对;
最后使用并查集重新划分合并医生的ID集合,使得每个集合包含两个ID号,表示两个相互协作的医生;
S2、构造关系图
基于上述最终数据,以医生的ID作为结点;以医生是否有合作论文的关系作为边关系,即有论文合作,则两个节点之间有一条边,无论文合作则无边;以医生合作论文的数量作为边的权重构造基本关系图;
S3、社区划分方法
选用SC,GN,FN,Walk Trap任一方法,用于发觉数据中的社区结构,并对社区进行划分;
S4、社区划分结果及应用
在划分的每个社区满足五度分割理论的前提下,对每一次的迭代应选择使得迭代划分后的社区更稳定的结果,最后用Gephi将最终结果可视化。
2.根据权利要求1所述基于社区发现的医疗团队组成方法,其特征在于,步骤S3中,基于谱聚类SC的社区发现算法将社区中的元素看作是图的节点集V,元素之间的互连可以看作是连接图的节点的边集E;通过以下具体步骤进行社区发现:
步骤1:将社区划分为有权无向图G(V,E);
步骤2:计算相似矩阵W和拉普拉斯矩阵L;
步骤3:对拉普拉斯矩阵进行特征分解,得到特征值和特征向量;
步骤4:用K-means或其他经典聚类算法进行特征向量空间中的特征向量的聚类,以检测最终的社区。
CN201810276035.6A 2018-03-30 2018-03-30 基于社区发现的医疗团队组成方法 Pending CN108511078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810276035.6A CN108511078A (zh) 2018-03-30 2018-03-30 基于社区发现的医疗团队组成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810276035.6A CN108511078A (zh) 2018-03-30 2018-03-30 基于社区发现的医疗团队组成方法

Publications (1)

Publication Number Publication Date
CN108511078A true CN108511078A (zh) 2018-09-07

Family

ID=63379571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810276035.6A Pending CN108511078A (zh) 2018-03-30 2018-03-30 基于社区发现的医疗团队组成方法

Country Status (1)

Country Link
CN (1) CN108511078A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241280A (zh) * 2018-07-30 2019-01-18 大连理工大学 一种基于学术网络的团队构建方法
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法
CN110851541A (zh) * 2019-10-30 2020-02-28 支付宝(杭州)信息技术有限公司 用于基于关系图生成风险特征的方法及装置
CN111028092A (zh) * 2020-03-06 2020-04-17 中邮消费金融有限公司 基于Louvain算法的社区发现方法、计算机设备及其可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241280A (zh) * 2018-07-30 2019-01-18 大连理工大学 一种基于学术网络的团队构建方法
CN109829634A (zh) * 2019-01-18 2019-05-31 北京工业大学 一种自适应的高校专利科研团队识别方法
CN109829634B (zh) * 2019-01-18 2021-02-26 北京工业大学 一种自适应的高校专利科研团队识别方法
CN110851541A (zh) * 2019-10-30 2020-02-28 支付宝(杭州)信息技术有限公司 用于基于关系图生成风险特征的方法及装置
CN111028092A (zh) * 2020-03-06 2020-04-17 中邮消费金融有限公司 基于Louvain算法的社区发现方法、计算机设备及其可读存储介质

Similar Documents

Publication Publication Date Title
CN108511078A (zh) 基于社区发现的医疗团队组成方法
Liu et al. Detecting the evolving community structure in dynamic social networks
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Michalski et al. Automated construction of classifications: Conceptual clustering versus numerical taxonomy
Amelio et al. Community detection in multidimensional networks
Aujla et al. DLRS: deep learning-based recommender system for smart healthcare ecosystem
Li et al. On team formation with expertise query in collaborative social networks
CN106709037B (zh) 一种基于异构信息网络的电影推荐方法
CN108334580A (zh) 一种结合链接和属性信息的社区发现方法
CN109063094A (zh) 一种建立中医药知识图谱的方法
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN112036445A (zh) 基于神经张量网络的跨社交网络用户身份识别方法
CN113505239B (zh) 一种结合图注意力和属性聚类的实体对齐方法
CN107784327A (zh) 一种基于gn的个性化社区发现方法
CN107770783A (zh) 一种基站扩容改造方案设计方法及相关设备
Banait et al. An efficient clustering technique for big data mining
Chui et al. Representation of functions on big data associated with directed graphs
CN107016260B (zh) 一种基于跨平台基因表达数据的基因调控网络重建方法
Li et al. Research on massive ECG data in XGBoost
Hegde et al. Symmetrized Feature Selection with Stacked Generalization based Machine Learning Algorithm for the Early Diagnosis of Chronic Diseases
Zec et al. Specialized federated learning using a mixture of experts
CN109949010A (zh) 基于信息系统整合的大数据的医院高层次人才测评系统
Bhardwaj Data Mining Clustering Techniques-A Review
CN103034728A (zh) 利用社会化网络学术资源交互平台进行信息交互的方法
Baudin et al. Lscpm: communities in massive real-world link streams by clique percolation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180907

WD01 Invention patent application deemed withdrawn after publication