CN108763271A

CN108763271A - 一种结合二分网络和文本的医院科室相似性分析方法

Info

Publication number: CN108763271A
Application number: CN201810304697.XA
Authority: CN
Inventors: 宣琦; 李永苗; 郑钧; 虞烨炜; 许荣华; 徐东伟; 俞山青; 阮中远
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-11-06
Anticipated expiration: 2038-04-08
Also published as: CN108763271B

Abstract

一种结合二分网络和文本的医院科室相似性分析方法，包括以下步骤：步骤1：收集关于医生多点执业的行为数据，构建医生‑科室二分网络；步骤2：根据医生‑科室二分网络，计算科室与科室之间的网络相似性；步骤3：基于ratio文本相似性算法，计算科室与科室之间的文本相似性；步骤4：将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。本发明构建医生‑科室二分网络，计算科室与科室之间的网络相似性，基于ratio文本相似性算法，计算科室与科室之间的文本相似性，将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。

Description

一种结合二分网络和文本的医院科室相似性分析方法

技术领域

本发明涉及数据挖掘、网络科学技术，特别是涉及一种结合二分网络和文本的医院科室相似性分析方法。

背景技术

现实世界中的数据大体上都是不完整，不一致的，无法直接进行数据挖掘，或挖掘结果差强人意。数据预处理是提高数据挖掘质量的关键技术之一。数据预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。数据预处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。

在数据处理过程中，经常会涉及到如何度量两个文本之间的相似性。文本属于一种高维的语义空间，如何对其进行抽象分解，用数学去量化其相似性对于文本分析至关重要。有了文本之间相似性度量，便可以利用K-means、DBSCAN等方法对文本进行聚类分析；另一方面，我们也可以利用文本之间的相似性度量对大规模语料进行去重预处理，或者找寻某一实体名称的相关名称(模糊匹配)。衡量两个字符串的相似性有很多种方法，如最直接的利用hashcode，以及经典的主题模型或者利用词向量将文本抽象为向量表示，再通过特征向量之间的欧式距离或者皮尔森距离进行度量等。

医院科室最基本是按照治疗手段分内科和外科，以及与之平行的针对特定人群的妇产科和儿科，但此分类不涵盖所有科室。更多医院更主要的是按照系统及部位划分科室，外科偏重以部位划分，内科偏重以系统划分。不同医院有不同的擅长专科及主题，即便都是综合医院，也有差别，这与医院的理念有关，也和其学科带头人的分布有关。弄清医院所分科室与各科室职责，有助于病人顺利看病。

发明内容

为了克服现有技术中无法实现科室相似性分析方法的不足对研究医生行为对科室相似性的影响。本发明提出一种结合二分网络和文本的医院科室相似性分析方法，构建医生-科室二分网络，根据医生-科室二分网络，计算科室与科室之间的网络相似性，基于ratio算法，计算科室与科室之间的文本相似性，将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。

本发明解决其技术问题所采用的技术方案如下：

一种结合二分网络和文本的医院科室相似性分析方法，包括以下步骤：

步骤1：收集关于医生多点执业的行为数据，构建医生-科室二分网络；

步骤2：根据医生-科室二分网络，计算科室与科室之间的网络相似性；

步骤3：基于ratio文本相似性算法，计算科室与科室之间的文本相似性；

步骤4：将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。

进一步，所述步骤1中，收集关于医生多点执业的行为数据，构建医生-科室二分网络，二分网络中包含两组不同的节点，分别表示医生和科室，每组节点内部没有连接；二分网络的连边表示医生在对应的科室执业。

再进一步，所述步骤2中，根据医生-科室二分网络，计算科室与科室之间的网络相似性。网络相似性s_ij，计算如下：

其中，n_i表示科室i的坐诊医生数。

更进一步，所述步骤3中，基于ratio文本相似性算法，计算科室与科室之间的文本相似性，处理过程如下：编辑距离(也称为Levenshtein距离)是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换，每个操作都为一次操作；类编辑距离，删除与插入为一次操作，替换为两次操作，文本相似性r_ij，计算如下：

其中，sum表示科室i与科室j的字符串长度之和，ldist是科室i与科室j的类编辑距离。

所述步骤4中，将科室与科室之间的网络相似性与文本相似性相结合，计算相似值，进行科室相似性分析，相似值S_ij，计算如下：

S_ij＝0.1×s_ij+0.9×r_ij (3)

其中，文本相似性r_ij在科室相似性分析中的重要性要高于网络相似性s_ij，所以文本相似性r_ij的系数要高于网络相似性s_ij的系数。

本发明的有益效果为：一种结合二分网络和文本的医院科室相似性分析方法，构建医生-科室二分网络，根据医生-科室二分网络，计算科室与科室之间的网络相似性，基于ratio文本相似性算法，计算科室与科室之间的文本相似性，将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。

附图说明

图1为本发明中程序设计流程图；

图2为本发明中医生-科室二分网络图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。

参照图1和图2，一种结合二分网络和文本的医院科室相似性分析方法，本发明使用的数据记录了多点执业的医生姓名，科室名称，医院名称等信息。

本发明分为以下四个步骤：

再进一步，所述步骤2中，根据医生-科室二分网络，计算科室与科室之间的网络相似性，网络相似性s_ij，计算如下：

其中，n_i表示科室i的坐诊医生数。

S_ij＝0.1×s_ij+0.9×r_ij (3)

本发明我们将相似值大于0.5的认为是相似文本作为匹配项，最后的相似性分析结果见表1。

表1

如上所述为本发明使用收集的数据，构建医生-科室二分网络，根据医生-科室二分网络，计算科室与科室之间的网络相似性，基于ratio文本相似性算法，计算科室与科室之间的文本相似性，将科室与科室之间的网络相似性与文本相似性相结合，进行科室相似性分析。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种结合二分网络和文本的医院科室相似性分析方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种结合二分网络和文本的医院科室相似性分析方法，其特征在于：所述步骤1中，收集关于医生多点执业的行为数据，构建医生-科室二分网络，二分网络中包含两组不同的节点，分别表示医生和科室，每组节点内部没有连接；二分网络的连边表示医生在对应的科室执业。

3.如权利要求2所述的一种结合二分网络和文本的医院科室相似性分析方法，其特征在于：所述步骤2中，根据医生-科室二分网络，计算科室与科室之间的网络相似性，网络相似性s_ij，计算如下：

其中，n_i表示科室i的坐诊医生数。

4.如权利要求1～3之一所述的一种结合二分网络和文本的医院科室相似性分析方法，其特征在于：所述步骤3中，基于ratio文本相似性算法，计算科室与科室之间的文本相似性，处理过程如下：编辑距离是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换，每个操作都为一次操作；类编辑距离，删除与插入为一次操作，替换为两次操作，文本相似性r_ij，计算如下：

5.如权利要求4所述的一种结合二分网络和文本的医院科室相似性分析方法，其特征在于：所述步骤4中，将科室与科室之间的网络相似性与文本相似性相结合，计算相似值，进行科室相似性分析，相似值S_ij，计算如下：

S_ij＝0.1×s_ij+0.9×r_ij (3)