CN108763271A - 一种结合二分网络和文本的医院科室相似性分析方法 - Google Patents

一种结合二分网络和文本的医院科室相似性分析方法 Download PDF

Info

Publication number
CN108763271A
CN108763271A CN201810304697.XA CN201810304697A CN108763271A CN 108763271 A CN108763271 A CN 108763271A CN 201810304697 A CN201810304697 A CN 201810304697A CN 108763271 A CN108763271 A CN 108763271A
Authority
CN
China
Prior art keywords
section office
text
subnetwork
doctor
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810304697.XA
Other languages
English (en)
Other versions
CN108763271B (zh
Inventor
宣琦
李永苗
郑钧
虞烨炜
许荣华
徐东伟
俞山青
阮中远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810304697.XA priority Critical patent/CN108763271B/zh
Publication of CN108763271A publication Critical patent/CN108763271A/zh
Application granted granted Critical
Publication of CN108763271B publication Critical patent/CN108763271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种结合二分网络和文本的医院科室相似性分析方法,包括以下步骤:步骤1:收集关于医生多点执业的行为数据,构建医生‑科室二分网络;步骤2:根据医生‑科室二分网络,计算科室与科室之间的网络相似性;步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。本发明构建医生‑科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。

Description

一种结合二分网络和文本的医院科室相似性分析方法
技术领域
本发明涉及数据挖掘、网络科学技术,特别是涉及一种结合二分网络和文本的医院科室相似性分析方法。
背景技术
现实世界中的数据大体上都是不完整,不一致的,无法直接进行数据挖掘,或挖掘结果差强人意。数据预处理是提高数据挖掘质量的关键技术之一。数据预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。数据预处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
在数据处理过程中,经常会涉及到如何度量两个文本之间的相似性。文本属于一种高维的语义空间,如何对其进行抽象分解,用数学去量化其相似性对于文本分析至关重要。有了文本之间相似性度量,便可以利用K-means、DBSCAN等方法对文本进行聚类分析;另一方面,我们也可以利用文本之间的相似性度量对大规模语料进行去重预处理,或者找寻某一实体名称的相关名称(模糊匹配)。衡量两个字符串的相似性有很多种方法,如最直接的利用hashcode,以及经典的主题模型或者利用词向量将文本抽象为向量表示,再通过特征向量之间的欧式距离或者皮尔森距离进行度量等。
医院科室最基本是按照治疗手段分内科和外科,以及与之平行的针对特定人群的妇产科和儿科,但此分类不涵盖所有科室。更多医院更主要的是按照系统及部位划分科室,外科偏重以部位划分,内科偏重以系统划分。不同医院有不同的擅长专科及主题,即便都是综合医院,也有差别,这与医院的理念有关,也和其学科带头人的分布有关。弄清医院所分科室与各科室职责,有助于病人顺利看病。
发明内容
为了克服现有技术中无法实现科室相似性分析方法的不足对研究医生行为对科室相似性的影响。本发明提出一种结合二分网络和文本的医院科室相似性分析方法,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
本发明解决其技术问题所采用的技术方案如下:
一种结合二分网络和文本的医院科室相似性分析方法,包括以下步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
进一步,所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
再进一步,所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性。网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
更进一步,所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离(也称为Levenshtein距离)是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
本发明的有益效果为:一种结合二分网络和文本的医院科室相似性分析方法,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。
附图说明
图1为本发明中程序设计流程图;
图2为本发明中医生-科室二分网络图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1和图2,一种结合二分网络和文本的医院科室相似性分析方法,本发明使用的数据记录了多点执业的医生姓名,科室名称,医院名称等信息。
本发明分为以下四个步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
进一步,所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
再进一步,所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性,网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
更进一步,所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离(也称为Levenshtein距离)是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
本发明我们将相似值大于0.5的认为是相似文本作为匹配项,最后的相似性分析结果见表1。
表1
如上所述为本发明使用收集的数据,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (5)

1.一种结合二分网络和文本的医院科室相似性分析方法,其特征在于,包括以下步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
2.如权利要求1所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
3.如权利要求2所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性,网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
4.如权利要求1~3之一所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
5.如权利要求4所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
CN201810304697.XA 2018-04-08 2018-04-08 一种结合二分网络和文本的医院科室相似性分析方法 Active CN108763271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810304697.XA CN108763271B (zh) 2018-04-08 2018-04-08 一种结合二分网络和文本的医院科室相似性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810304697.XA CN108763271B (zh) 2018-04-08 2018-04-08 一种结合二分网络和文本的医院科室相似性分析方法

Publications (2)

Publication Number Publication Date
CN108763271A true CN108763271A (zh) 2018-11-06
CN108763271B CN108763271B (zh) 2022-09-23

Family

ID=63981084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810304697.XA Active CN108763271B (zh) 2018-04-08 2018-04-08 一种结合二分网络和文本的医院科室相似性分析方法

Country Status (1)

Country Link
CN (1) CN108763271B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831159A (zh) * 2012-07-16 2012-12-19 上海大学 一种基于专家投票的文本相似网络构建方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
US20160294852A1 (en) * 2015-04-06 2016-10-06 Trend Micro Incorporated Determining string similarity using syntactic edit distance
WO2016201737A1 (zh) * 2015-06-13 2016-12-22 深圳市共创百业科技开发有限公司 基于网络医院平台的就诊提示方法和网络医院平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831159A (zh) * 2012-07-16 2012-12-19 上海大学 一种基于专家投票的文本相似网络构建方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
US20160294852A1 (en) * 2015-04-06 2016-10-06 Trend Micro Incorporated Determining string similarity using syntactic edit distance
WO2016201737A1 (zh) * 2015-06-13 2016-12-22 深圳市共创百业科技开发有限公司 基于网络医院平台的就诊提示方法和网络医院平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜方等: "基于相似度传播的复杂网络间节点匹配算法", 《信息与控制》 *

Also Published As

Publication number Publication date
CN108763271B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN109189942A (zh) 一种专利数据知识图谱的构建方法及装置
CN108628970A (zh) 一种基于新标记模式的生物医学事件联合抽取方法
Ghosh et al. A tutorial review on Text Mining Algorithms
US20040243388A1 (en) System amd method of analyzing text using dynamic centering resonance analysis
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108132927A (zh) 一种融合图结构与节点关联的关键词提取方法
Chanda et al. An efficient approach to mine flexible periodic patterns in time series databases
Link et al. Recover and RELAX: concern-oriented software architecture recovery for systems development and maintenance
Wang et al. Exploring all-author tripartite citation networks: A case study of gene editing
Bhopale et al. Swarm optimized cluster based framework for information retrieval
CN106503247A (zh) 一种基于知识发现技术的古籍文献管理系统及方法
CN109271484A (zh) 一种基于语义本体的档案数据智能推理方法
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
Memon et al. Harvesting covert networks: a case study of the iMiner database
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
Tandjung et al. Topic modeling with latent-dirichlet allocation for the discovery of state-of-the-art in research: A literature review
Adhikari et al. Generating a representative keyword subset pertaining to an academic conference series
Tang et al. Sketch the storyline with charcoal: a non-parametric approach
Wang et al. Concept annotation for intelligent textbooks
CN108763271A (zh) 一种结合二分网络和文本的医院科室相似性分析方法
CN110060749A (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
Fiallos et al. Scientific communities detection and analysis in the bibliographic database: SCOPUS
Simoff et al. MDM/KDD2002: multimedia data mining between promises and problems
Sharmila et al. Non-Class Element based Iterative Text Clustering Algorithm for Improved Clustering Accuracy using Semantic Ontology
Karim et al. A biomedical knowledge graph for biomarker discovery in cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant