CN108763271A - 一种结合二分网络和文本的医院科室相似性分析方法 - Google Patents
一种结合二分网络和文本的医院科室相似性分析方法 Download PDFInfo
- Publication number
- CN108763271A CN108763271A CN201810304697.XA CN201810304697A CN108763271A CN 108763271 A CN108763271 A CN 108763271A CN 201810304697 A CN201810304697 A CN 201810304697A CN 108763271 A CN108763271 A CN 108763271A
- Authority
- CN
- China
- Prior art keywords
- section office
- text
- subnetwork
- doctor
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种结合二分网络和文本的医院科室相似性分析方法,包括以下步骤:步骤1:收集关于医生多点执业的行为数据,构建医生‑科室二分网络;步骤2:根据医生‑科室二分网络,计算科室与科室之间的网络相似性;步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。本发明构建医生‑科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。
Description
技术领域
本发明涉及数据挖掘、网络科学技术,特别是涉及一种结合二分网络和文本的医院科室相似性分析方法。
背景技术
现实世界中的数据大体上都是不完整,不一致的,无法直接进行数据挖掘,或挖掘结果差强人意。数据预处理是提高数据挖掘质量的关键技术之一。数据预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。数据预处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
在数据处理过程中,经常会涉及到如何度量两个文本之间的相似性。文本属于一种高维的语义空间,如何对其进行抽象分解,用数学去量化其相似性对于文本分析至关重要。有了文本之间相似性度量,便可以利用K-means、DBSCAN等方法对文本进行聚类分析;另一方面,我们也可以利用文本之间的相似性度量对大规模语料进行去重预处理,或者找寻某一实体名称的相关名称(模糊匹配)。衡量两个字符串的相似性有很多种方法,如最直接的利用hashcode,以及经典的主题模型或者利用词向量将文本抽象为向量表示,再通过特征向量之间的欧式距离或者皮尔森距离进行度量等。
医院科室最基本是按照治疗手段分内科和外科,以及与之平行的针对特定人群的妇产科和儿科,但此分类不涵盖所有科室。更多医院更主要的是按照系统及部位划分科室,外科偏重以部位划分,内科偏重以系统划分。不同医院有不同的擅长专科及主题,即便都是综合医院,也有差别,这与医院的理念有关,也和其学科带头人的分布有关。弄清医院所分科室与各科室职责,有助于病人顺利看病。
发明内容
为了克服现有技术中无法实现科室相似性分析方法的不足对研究医生行为对科室相似性的影响。本发明提出一种结合二分网络和文本的医院科室相似性分析方法,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
本发明解决其技术问题所采用的技术方案如下:
一种结合二分网络和文本的医院科室相似性分析方法,包括以下步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
进一步,所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
再进一步,所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性。网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
更进一步,所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离(也称为Levenshtein距离)是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
本发明的有益效果为:一种结合二分网络和文本的医院科室相似性分析方法,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。后续能够实现根据科室相似性情况对各城市的科室排名情况等进行分析。
附图说明
图1为本发明中程序设计流程图;
图2为本发明中医生-科室二分网络图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1和图2,一种结合二分网络和文本的医院科室相似性分析方法,本发明使用的数据记录了多点执业的医生姓名,科室名称,医院名称等信息。
本发明分为以下四个步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
进一步,所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
再进一步,所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性,网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
更进一步,所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离(也称为Levenshtein距离)是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
本发明我们将相似值大于0.5的认为是相似文本作为匹配项,最后的相似性分析结果见表1。
表1
如上所述为本发明使用收集的数据,构建医生-科室二分网络,根据医生-科室二分网络,计算科室与科室之间的网络相似性,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (5)
1.一种结合二分网络和文本的医院科室相似性分析方法,其特征在于,包括以下步骤:
步骤1:收集关于医生多点执业的行为数据,构建医生-科室二分网络;
步骤2:根据医生-科室二分网络,计算科室与科室之间的网络相似性;
步骤3:基于ratio文本相似性算法,计算科室与科室之间的文本相似性;
步骤4:将科室与科室之间的网络相似性与文本相似性相结合,进行科室相似性分析。
2.如权利要求1所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤1中,收集关于医生多点执业的行为数据,构建医生-科室二分网络,二分网络中包含两组不同的节点,分别表示医生和科室,每组节点内部没有连接;二分网络的连边表示医生在对应的科室执业。
3.如权利要求2所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤2中,根据医生-科室二分网络,计算科室与科室之间的网络相似性,网络相似性sij,计算如下:
其中,ni表示科室i的坐诊医生数。
4.如权利要求1~3之一所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤3中,基于ratio文本相似性算法,计算科室与科室之间的文本相似性,处理过程如下:编辑距离是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换,每个操作都为一次操作;类编辑距离,删除与插入为一次操作,替换为两次操作,文本相似性rij,计算如下:
其中,sum表示科室i与科室j的字符串长度之和,ldist是科室i与科室j的类编辑距离。
5.如权利要求4所述的一种结合二分网络和文本的医院科室相似性分析方法,其特征在于:所述步骤4中,将科室与科室之间的网络相似性与文本相似性相结合,计算相似值,进行科室相似性分析,相似值Sij,计算如下:
Sij=0.1×sij+0.9×rij (3)
其中,文本相似性rij在科室相似性分析中的重要性要高于网络相似性sij,所以文本相似性rij的系数要高于网络相似性sij的系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810304697.XA CN108763271B (zh) | 2018-04-08 | 2018-04-08 | 一种结合二分网络和文本的医院科室相似性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810304697.XA CN108763271B (zh) | 2018-04-08 | 2018-04-08 | 一种结合二分网络和文本的医院科室相似性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763271A true CN108763271A (zh) | 2018-11-06 |
CN108763271B CN108763271B (zh) | 2022-09-23 |
Family
ID=63981084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810304697.XA Active CN108763271B (zh) | 2018-04-08 | 2018-04-08 | 一种结合二分网络和文本的医院科室相似性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763271B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831159A (zh) * | 2012-07-16 | 2012-12-19 | 上海大学 | 一种基于专家投票的文本相似网络构建方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
WO2016201737A1 (zh) * | 2015-06-13 | 2016-12-22 | 深圳市共创百业科技开发有限公司 | 基于网络医院平台的就诊提示方法和网络医院平台 |
-
2018
- 2018-04-08 CN CN201810304697.XA patent/CN108763271B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831159A (zh) * | 2012-07-16 | 2012-12-19 | 上海大学 | 一种基于专家投票的文本相似网络构建方法 |
CN103092828A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 基于语义分析和语义关系网络的文本相似度度量方法 |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
WO2016201737A1 (zh) * | 2015-06-13 | 2016-12-22 | 深圳市共创百业科技开发有限公司 | 基于网络医院平台的就诊提示方法和网络医院平台 |
Non-Patent Citations (1)
Title |
---|
杜方等: "基于相似度传播的复杂网络间节点匹配算法", 《信息与控制》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763271B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942A (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN108628970A (zh) | 一种基于新标记模式的生物医学事件联合抽取方法 | |
Ghosh et al. | A tutorial review on Text Mining Algorithms | |
US20040243388A1 (en) | System amd method of analyzing text using dynamic centering resonance analysis | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN108132927A (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
Chanda et al. | An efficient approach to mine flexible periodic patterns in time series databases | |
Link et al. | Recover and RELAX: concern-oriented software architecture recovery for systems development and maintenance | |
Wang et al. | Exploring all-author tripartite citation networks: A case study of gene editing | |
Bhopale et al. | Swarm optimized cluster based framework for information retrieval | |
CN106503247A (zh) | 一种基于知识发现技术的古籍文献管理系统及方法 | |
CN109271484A (zh) | 一种基于语义本体的档案数据智能推理方法 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Memon et al. | Harvesting covert networks: a case study of the iMiner database | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
Tandjung et al. | Topic modeling with latent-dirichlet allocation for the discovery of state-of-the-art in research: A literature review | |
Adhikari et al. | Generating a representative keyword subset pertaining to an academic conference series | |
Tang et al. | Sketch the storyline with charcoal: a non-parametric approach | |
Wang et al. | Concept annotation for intelligent textbooks | |
CN108763271A (zh) | 一种结合二分网络和文本的医院科室相似性分析方法 | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
Fiallos et al. | Scientific communities detection and analysis in the bibliographic database: SCOPUS | |
Simoff et al. | MDM/KDD2002: multimedia data mining between promises and problems | |
Sharmila et al. | Non-Class Element based Iterative Text Clustering Algorithm for Improved Clustering Accuracy using Semantic Ontology | |
Karim et al. | A biomedical knowledge graph for biomarker discovery in cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |