CN108877946A - 一种基于网络特征的医生专家推荐方法 - Google Patents
一种基于网络特征的医生专家推荐方法 Download PDFInfo
- Publication number
- CN108877946A CN108877946A CN201810419312.4A CN201810419312A CN108877946A CN 108877946 A CN108877946 A CN 108877946A CN 201810419312 A CN201810419312 A CN 201810419312A CN 108877946 A CN108877946 A CN 108877946A
- Authority
- CN
- China
- Prior art keywords
- doctor
- vector
- disease
- network
- good
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种基于网络特征的医生专家推荐方法,包括以下步骤:步骤1:获取上海市医院医生公开数据,包含所在医院和擅长疾病属性,并对其进行数据清洗;步骤2:提取医生擅长项属性构建特征网络;步骤3:利用node2vec将特征网络中的特征映射到高维空间向量化表示,并累加相关特征向量得到医生病人向量;步骤4:利用余弦相似度将病人向量与医生向量进行匹配进而推荐最匹配医生。本发明考虑特征之间关联性,通过属性特征结合网络特征来对医生,病人属性进行定位,对于相似属性具有较高的精度的定义。有利于更精确更可信的找到相似属性进而找到与病人所患疾病匹配的医生专家。
Description
技术领域
本发明涉及数据挖掘、网络科学、机器学习技术,特别是涉及一种基于网络特征的医生专家推荐方法。
背景技术
健康是人类生存和繁衍的基本条件,而疾病是威胁人类健康的最大隐患,当人类的健康受到威胁,医疗却得不到保障时,将危及整个社会的安全和发展。医疗卫生是伴随人类存在的永恒话题,任何一个国家都在为制定合适的医疗制度而努力。
目前我国医疗制度已经比较完善,但还存在着不少的改进空间,主要体现在以下几点:首先就医难,包括医疗费用较高,不能或者无法找到对应疾病适合的主治医生等问题;其次医疗资源分配不均,影响力较大的医院,著名的主治医生相对比较集中,但患者相对分散,这就造成了不能及时或方便就医的问题,尤其一些地方医院其实医生水平足以应付当前疾病,但患者不明就里,这也是患者就医过程中不可忽视的一个问题,直接导致就医效率及时效性上大打折扣;最后,医生专家定义不够精准,现有大多医院多以职称来评定医生专家,考虑擅长项因素比较模糊,这一点可以采用数据挖掘技术更好的改进。
发明内容
为了更好的解决就医效率,就医扎堆,均衡医院热度(少数被大量关注,多数关注量较少),定义更加权威、精确的医生专家等问题,本发明提出一种有效提升就医效率、提升就医体验的基于网络特征的医生专家推荐方法。。
本发明解决其技术问题所采用的技术方案如下:
一种基于网络特征的医生专家推荐方法,包括如下步骤:
步骤1:获取医院医生公开数据,包括所在医院和擅长疾病属性,并对其进
行数据清洗;
步骤2:提取医生擅长项属性构建特征网络;
步骤3:利用node2vec将特征网络中的特征映射到高维空间向量化表示,并
累加相关特征向量得到医生与疾病的向量;
步骤4:利用余弦相似度将病人向量与医生向量进行匹配进而推荐最匹配医生。
进一步,所述步骤1中,获取途径为网络爬虫爬取,该方法得到的数据是半结构化的,需要经过数据格式化并且清洗不必要及无意义词,方法为使用结巴分词工具将格式化数据中的不必要和无意义的停止词放入构造字典,数据中存在这些词就剔除掉,并且得到相对准确代表疾病名词。
所述步骤2中,根据步骤1所得数据,以人为单位,个人擅长项中的疾病两两关联,最终就得到一个关于疾病的全局特征网络,记为G(d1,d2,w),连边权重为两个关联词出现频率,d1,d2分别表示一个关联词,w表示d1,d2之间的权重。
再进一步,所述步骤3中,以特征邻边以及权重即G(d1,d2,w)为输入,利用node2vec方法,将特征映射到一个高维空间V,在此空间中,每个特征表示为一个向量v={v1,v2,…,vN},理解为该词在特征网络中的位置,在此基础上以人(医生/疾病簇)为单位聚合特征的向量,为体现医生不同擅长疾病重要程度,聚合时赋予每个疾病出现在医生擅长项中的频次,最终得到医生和疾病向量
所述步骤4中,利用余弦相似性去衡量医生向量与疾病簇向量的匹配程度,这里涉及余弦相似度的计算,余弦相似度定义如下:
疾病簇向量及医生标签向量分别为:
至此,计算疾病簇与医生两个向量的相似度,然后对相似度降序进行排列,取前k个最匹配的医院科室医生作为合适专家推荐给该疾病簇即可。
因此,为了让病人解决以上问题,使病人拥有更好的就医体验。本发明提出一种基于网络特征的医生专家推荐方法解决以下两个基本问题:(1)提取医生与疾病属性信息形成初期的网络特征和相关属性特征对医生和疾病的刻画;(2)匹配症状与相关擅长项的医生,完成推荐。
本发明将医生属性信息(如擅长项,职称等)通过特定网络特征提取方法映射到网络中,形成特征网络,利用该网络对疾病与医生擅长疾病属性进行匹配,挑选最匹配的几位主治医生推荐给病人,完成对指定病人的医生专家的推荐。
本发明的有益效果为:考虑特征之间关联性,通过属性特征结合网络特征来对医生,病人属性进行定位,对于相似属性具有较高的精度的定义。有利于更精确更可信的找到相似属性进而找到与病人所患疾病匹配的医生专家。
附图说明
图1为本发明实施方法的流程图;
图2为本发明实施中的标签向量化到用户向量化的过程。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1和图2,本一种基于网络特征的医生专家推荐方法,,基于真实医疗数据,其中图1其整个方法框架。图2为利用真实数据利用node2vec方法提取网络特征的过程。本发明在通过在网络爬虫爬取的真实数据集上进行实例分析,原始数据中包含但不限于医生,职称,就职医院,擅长项,所属门诊。
本发明具体分为以下五个步骤:
步骤1:数据集筛选及预处理;
步骤2:构建医生擅长项全局网络;
步骤3:利用node2vec方法基于步骤2将医生与疾病簇向量化表示;
步骤4:计算向量化后的疾病簇与医生相似度,得到推荐列表。
所述步骤1中,具体操作过程如下:使用结巴分词工具将格式化数据中的不必要和无意义的停止词如“研究,的,等,合理,应用,部分,介入”等放入一个字典,数据中存在这些词就剔除掉,并且得到相对准确代表疾病名词。
所述步骤2中,根据步骤1所得数据以人为单位,每个人擅长项中的疾病两两关联,最终就得到一个关于疾病的全局特征网络,连边权重为两个关联词出现频率。
所述步骤3中,以特征邻边以及权重为输入,利用node2vec方法,将特征映射到一个高维空间V,在此空间中,每个特征表示为一个向量v={v1,v2,…,vN},可以理解为该词在特征网络中的位置,在此基础上以人(医生/疾病簇(患有一类并不一定唯一的疾病种类簇))为单位聚合特征的向量,为体现医生不同擅长疾病重要程度,聚合时赋予每个疾病出现在医生擅长项中的频次,最终得到医生(疾病簇)向量。此处说明两个关联单位只要有连边就可以(这里的连边即标签共同出现次数),整个网络不必要全联通。
所述步骤4中,利用余弦相似性去衡量医生向量与疾病簇向量的匹配程度,这里涉及余弦相似度的计算,余弦相似度定义如下:
疾病簇向量及医生标签向量分别为:
至此,只要需要计算疾病簇与医生两个向量的相似度,然后对相似度降序进行排列,取前k个最匹配的医院科室医生作为合适专家推荐给该疾病簇即可。因为本方法将用户特征描述构建网络,极大限度的减少了“字同意不同”之类问题的发生,并且提出不必要甚至干扰文本的词使相似性更加精准可靠,相较以往定义医生专家的方法更为科学合理。
对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (5)
1.一种基于网络特征的医生专家推荐方法,其特征在于,所述方法包括如下步骤:
步骤1:获取医院医生公开数据,包括所在医院和擅长疾病属性,并对其进行数据清洗;
步骤2:提取医生擅长项属性构建特征网络;
步骤3:利用node2vec将特征网络中的特征映射到高维空间向量化表示,并累加相关特征向量得到医生与疾病的向量;
步骤4:利用余弦相似度将病人向量与医生向量进行匹配进而推荐最匹配医生。
2.如权利要求1所述的一种基于网络特征的医生专家推荐方法,其特征在于,所述步骤1中,获取途径为网络爬虫爬取,该方法得到的数据是半结构化的,需要经过数据格式化并且清洗不必要及无意义词,方法为使用结巴分词工具将格式化数据中的不必要和无意义的停止词放入构造字典,数据中存在这些词就剔除掉,并且得到相对准确代表疾病名词。
3.如权利要求1或2所述的一种基于网络特征的医生专家推荐方法,其特征在于,所述步骤2中,根据步骤1所得数据,以人为单位,个人擅长项中的疾病两两关联,最终就得到一个关于疾病的全局特征网络,记为G(d1,d2,w),连边权重为两个关联词出现频率,d1,d2分别表示一个关联词,w表示d1,d2之间的权重。
4.如权利要求3所述的一种基于网络特征的医生专家推荐方法,其特征在于,所述步骤3中,以特征邻边以及权重即G(d1,d2,w)为输入,利用node2vec方法,将特征映射到一个高维空间V,在此空间中,每个特征表示为一个向量v={v1,v2,…,vN},理解为该词在特征网络中的位置,在此基础上以人(医生/疾病簇)为单位聚合特征的向量,为体现医生不同擅长疾病重要程度,聚合时赋予每个疾病出现在医生擅长项中的频次,最终得到医生和疾病向量
5.如权利要求1或2所述的一种基于网络特征的医生专家推荐方法,其特征在于,所述步骤4中,利用余弦相似性去衡量医生向量与疾病簇向量的匹配程度,这里涉及余弦相似度的计算,余弦相似度定义如下:
疾病簇向量及医生标签向量分别为:
至此,计算疾病簇与医生两个向量的相似度,然后对相似度降序进行排列,取前k个最匹配的医院科室医生作为合适专家推荐给该疾病簇即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810419312.4A CN108877946A (zh) | 2018-05-04 | 2018-05-04 | 一种基于网络特征的医生专家推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810419312.4A CN108877946A (zh) | 2018-05-04 | 2018-05-04 | 一种基于网络特征的医生专家推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108877946A true CN108877946A (zh) | 2018-11-23 |
Family
ID=64327553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810419312.4A Pending CN108877946A (zh) | 2018-05-04 | 2018-05-04 | 一种基于网络特征的医生专家推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108877946A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210018A (zh) * | 2019-05-14 | 2019-09-06 | 北京百度网讯科技有限公司 | 挂号科室的匹配方法和装置 |
CN111554387A (zh) * | 2020-04-26 | 2020-08-18 | 医渡云(北京)技术有限公司 | 医生信息推荐的方法、装置、存储介质及电子设备 |
CN112597373A (zh) * | 2020-12-29 | 2021-04-02 | 科技谷(厦门)信息技术有限公司 | 一种基于分布式爬虫引擎的数据采集方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
CN107103057A (zh) * | 2017-04-13 | 2017-08-29 | 腾讯科技(深圳)有限公司 | 一种资源推送方法及装置 |
CN107122455A (zh) * | 2017-04-26 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 一种基于微博的网络用户增强表示方法 |
CN107391542A (zh) * | 2017-05-16 | 2017-11-24 | 浙江工业大学 | 一种基于文件知识图谱的开源软件社区专家推荐方法 |
US20170364802A1 (en) * | 2016-06-20 | 2017-12-21 | International Business Machines Corporation | System, method, and recording medium for expert recommendation while composing messages |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
-
2018
- 2018-05-04 CN CN201810419312.4A patent/CN108877946A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364802A1 (en) * | 2016-06-20 | 2017-12-21 | International Business Machines Corporation | System, method, and recording medium for expert recommendation while composing messages |
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
CN107103057A (zh) * | 2017-04-13 | 2017-08-29 | 腾讯科技(深圳)有限公司 | 一种资源推送方法及装置 |
CN107122455A (zh) * | 2017-04-26 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 一种基于微博的网络用户增强表示方法 |
CN107391542A (zh) * | 2017-05-16 | 2017-11-24 | 浙江工业大学 | 一种基于文件知识图谱的开源软件社区专家推荐方法 |
Non-Patent Citations (7)
Title |
---|
ADITYA GROVER ET.AL: "node2vec: Scalable Feature Learning for Networks", 《KDD"16》 * |
CHEN JINYIN ET.AL: "Improved spectral clustering collaborative filtering with Node2vec technology", 《2017 INTERNATIONAL WORKSHOP ON COMPLEX SYSTEMS AND NETWORKS(IWCSN)》 * |
CHENBO FU ET.AL: "Expert Recommendation in OSS Projects Based on Knowledge Embedding", 《2017 INTERNATIONAL WORKSHOP ON COMPLEX SYSTEMS AND NETWORKS(IWCSN)》 * |
ENRICO PALUMBO ET.AL: "entity2rec: Learning User-Item Relatedness from Knowledge Graphs for Top-N Item Recommendation", 《THE ELEVENTH ACM CONFERENCE》 * |
吴笛: "《基于语义网的个性化网络学习服务》", 30 April 2017, 武汉大学出版社 * |
李嘉,张朋柱: "《群体研讨支持系统及其文本分析方法》", 31 December 2015, 上海交通大学出版社 * |
裔隽,张怿檬,张目清等: "《Python机器学习实战》", 28 February 2018, 科学技术文献出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210018A (zh) * | 2019-05-14 | 2019-09-06 | 北京百度网讯科技有限公司 | 挂号科室的匹配方法和装置 |
CN110210018B (zh) * | 2019-05-14 | 2023-07-11 | 北京百度网讯科技有限公司 | 挂号科室的匹配方法和装置 |
CN111554387A (zh) * | 2020-04-26 | 2020-08-18 | 医渡云(北京)技术有限公司 | 医生信息推荐的方法、装置、存储介质及电子设备 |
CN112597373A (zh) * | 2020-12-29 | 2021-04-02 | 科技谷(厦门)信息技术有限公司 | 一种基于分布式爬虫引擎的数据采集方法 |
CN112597373B (zh) * | 2020-12-29 | 2023-09-15 | 科技谷(厦门)信息技术有限公司 | 一种基于分布式爬虫引擎的数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tseng et al. | Designing an intelligent health monitoring system and exploring user acceptance for the elderly | |
Haley et al. | Interpreting change scores of tests and measures used in physical therapy | |
Chattopadhyay et al. | A Case‐Based Reasoning system for complex medical diagnosis | |
Neiberg et al. | Occurrence and co-occurrence of types of complementary and alternative medicine use by age, gender, ethnicity, and education among adults in the United States: the 2002 National Health Interview Survey (NHIS) | |
CN108877946A (zh) | 一种基于网络特征的医生专家推荐方法 | |
Lin et al. | Abnormal diagnosis of Emergency Department triage explored with data mining technology: An Emergency Department at a Medical Center in Taiwan taken as an example | |
Kaur et al. | Food image-based nutritional management system to overcome polycystic Ovary Syndrome using DeepLearning: A systematic review | |
Jung et al. | Decision supporting method for chronic disease patients based on mining frequent pattern tree | |
WO2023155441A1 (zh) | 医疗资源推荐方法、装置、设备及存储介质 | |
CN103761437A (zh) | 一种基于临床数据的科研数据自动生成系统 | |
Talozzi et al. | Latent disconnectome prediction of long-term cognitive-behavioural symptoms in stroke | |
Fan et al. | Federated learning driven secure internet of medical things | |
JP2016018224A (ja) | 健康状態予測診断利用サービスシステム | |
Gu et al. | Discovering and visualizing knowledge evolution of chronic disease research driven by emerging technologies | |
Choi et al. | An exploratory study of the research on caregiver depression: using bibliometrics and LDA topic modeling | |
JP2018014058A (ja) | 医療情報処理システム、医療情報処理装置及び医療情報処理方法 | |
Fränti et al. | Clustering diagnoses from 58 million patient visits in Finland between 2015 and 2018 | |
Shanbehzadeh et al. | Improving hypertension surveillance from a data management prospective: Data requirements for implementation of population-based registry | |
Liang et al. | Construction of emotional intelligent service system for the aged based on Internet of things | |
Sudarto et al. | Developing of Indonesian intelligent e-health model | |
Tang et al. | Developing a regional classifier to track patient needs in medical literature using spiral timelines on a geographical map | |
Huang et al. | RETRACTED: A Global Optimal Mapping Method of Network based on Discrete Optimization Firefly Algorithm | |
Shi et al. | Mapping the hyperlink structure of diabetes online communities | |
Rigolin | Automated cardiac volumetric analysis: one step closer to incorporating 3D TTE into routine daily workflow | |
Lin et al. | A framework for personalized diet and exercise guideline recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |
|
RJ01 | Rejection of invention patent application after publication |