CN109686445A - 一种基于自动标签和多模型融合的智能导诊算法 - Google Patents

一种基于自动标签和多模型融合的智能导诊算法 Download PDF

Info

Publication number
CN109686445A
CN109686445A CN201811639947.1A CN201811639947A CN109686445A CN 109686445 A CN109686445 A CN 109686445A CN 201811639947 A CN201811639947 A CN 201811639947A CN 109686445 A CN109686445 A CN 109686445A
Authority
CN
China
Prior art keywords
data
model
label
data source
automated tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811639947.1A
Other languages
English (en)
Other versions
CN109686445B (zh
Inventor
高登科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Digital Peak Technology Co Ltd
Chengdu Rui Code Technology Co Ltd
Original Assignee
Hangzhou Digital Peak Technology Co Ltd
Chengdu Rui Code Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Digital Peak Technology Co Ltd, Chengdu Rui Code Technology Co Ltd filed Critical Hangzhou Digital Peak Technology Co Ltd
Priority to CN201811639947.1A priority Critical patent/CN109686445B/zh
Publication of CN109686445A publication Critical patent/CN109686445A/zh
Application granted granted Critical
Publication of CN109686445B publication Critical patent/CN109686445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于自动标签和多模型融合的智能导诊算法,包括步骤S200:数据标签增强和S300:多模型预测融合的步骤。所述步骤S200中从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。所述步骤300中首先进行单数据源内模型融合,而后进行跨数据源模型融合,本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。

Description

一种基于自动标签和多模型融合的智能导诊算法
技术领域
本发明属于多模型融合的技术领域,具体涉及一种基于自动标签和多模型融合的智能导诊算法。
背景技术
在就诊过程中,许多患者经常遇到选择科室的困惑;医疗知识过于专业,疾病临床表现复杂,存在大量疾病具有相似症状的情况,从而造成患者在选择科室时的困惑甚至错误;目前,人工导诊,不仅耗时耗力,且大大影响医疗服务效率和患者就医体验;而现有的机器导诊,大多基于有监督算法,其过于依赖海量的高质量医疗标注数据。为此我们设计一种无需人工标注的智能导诊算法,其基于自动标签和多模型融合技术,解决了该问题。使得医疗资源与医疗需求高效匹配,节省人力物力,大大提高诊疗效率和就医体验。
发明内容
本发明的目的在于提供一种基于自动标签和多模型融合的智能导诊算法,本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
本发明主要通过以下技术方案实现:一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:
步骤S200:数据标签增强:每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签
步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
为了更好的实现本发明,进一步的,所述步骤S200中基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。
为了更好的实现本发明,进一步的,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。
为了更好的实现本发明,进一步的,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。
为了更好的实现本发明,进一步的,所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。
为了更好的实现本发明,进一步的,所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
本发明的目的在于解决人工导诊耗时耗力及机器导诊对海量标注数据的依赖,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
本发明技术流程可分为三个方面:自动标签、数据标签增强、多模型预测融合。
1)自动标签
a)爬取医疗领域相关网站海量数据,构建基础数据集;
b)爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据,包括(患者问题描述、患者个人信息、所属科室),作为预标注的训练数据;
c)针对不同数据源,进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合上述的预标注数据。
2)数据标签增强
a)基于医疗基础数据集,训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源内,基于语义向量,计算患者信息相似度;选择相似度大于一定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。如图1。
b)每个数据源分别训练textcnn、lstm、dpcnn模型,共12个模型;针对每个数据源样本,利用其它数据源的9个模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于一定阈值,且与原标签不一致时,纠正原标签为最大概率标签。如图2。
3)多模型预测融合
a)针对上述结果,每个数据源重新训练textcnn、lstm、dpcnn模型;针对每个数据源,在三个模型基础上添加线性加权层,并从剩余数据源中随机筛选其它9个模型预测较为一致的样本,用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。如图3。
b)针对四个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。如图4。
本发明的有益效果:
(1)本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
(2)本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
(3)步骤S100:自动标签:从网络医疗网站,爬取公开数据;无需人工标注数据,全量数据用于训练语义向量,网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据,作为预标注数据,无需人工标注数据,实现自动标签,具有较好的实用性。
(4)步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。
(5)步骤S300首先进行单数据源内模型融合,而后进行跨数据源模型融合。本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
附图说明
图1为本发明的单数据源内标签增强流程图;
图2为本发明的跨数据源标签增强流程图;
图3为本发明的单数据源内模型融合流程图;
图4为本发明的跨数据源模型融合流程图。
具体实施方式
实施例1:
一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:
步骤S200:数据标签增强:如图1所示,基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;如图2所示,每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;所述步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。
步骤S300:多模型预测融合:如图3所示,针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
实施例2:
本实施例是在实施例1的基础上进行优化,如图4所示,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。步骤S300首先进行单数据源内模型融合,而后进行跨数据源模型融合。本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
步骤S100:自动标签:从网络医疗网站,爬取公开数据;无需人工标注数据,全量数据用于训练语义向量,网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据,作为预标注数据,无需人工标注数据,实现自动标签,具有较好的实用性。
本发明无需人工标注样本,从网络公开数据出发实现自动标签,利用标签增强技术提高数据质量,并采用多模型融合技术保证导诊效果的准确性和鲁棒性。本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (5)

1.一种基于自动标签和多模型融合的智能导诊算法,其特征在于,主要包括以下步骤:
步骤S200:数据标签增强:基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;
步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
2.根据权利要求1所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。
3.根据权利要求1或2所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。
4.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。
5.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
CN201811639947.1A 2018-12-29 2018-12-29 一种基于自动标签和多模型融合的智能导诊算法 Active CN109686445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811639947.1A CN109686445B (zh) 2018-12-29 2018-12-29 一种基于自动标签和多模型融合的智能导诊算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811639947.1A CN109686445B (zh) 2018-12-29 2018-12-29 一种基于自动标签和多模型融合的智能导诊算法

Publications (2)

Publication Number Publication Date
CN109686445A true CN109686445A (zh) 2019-04-26
CN109686445B CN109686445B (zh) 2023-07-21

Family

ID=66191267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811639947.1A Active CN109686445B (zh) 2018-12-29 2018-12-29 一种基于自动标签和多模型融合的智能导诊算法

Country Status (1)

Country Link
CN (1) CN109686445B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914983A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN111968740A (zh) * 2020-09-03 2020-11-20 卫宁健康科技集团股份有限公司 一种诊断标签推荐方法、装置、存储介质及电子设备
CN112685561A (zh) * 2020-12-26 2021-04-20 广州知汇云科技有限公司 一种跨病种的小样本临床医疗文本后结构化处理方法
CN113704469A (zh) * 2021-08-18 2021-11-26 百融至信(北京)征信有限公司 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统
CN117370525A (zh) * 2023-10-20 2024-01-09 厦门狄耐克物联智慧科技有限公司 一种基于微调大模型的智能导诊方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092911A (zh) * 2012-11-20 2013-05-08 北京航空航天大学 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092911A (zh) * 2012-11-20 2013-05-08 北京航空航天大学 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于悦: ""基于多视角社区发现的实体聚类算法"", 《硕士电子期刊》, no. 4, pages 1 - 70 *
赵宇: ""基于多任务融合模型的用户属性推断"", 《硕士电子期刊》, no. 10, pages 1 - 70 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914983A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN111914983B (zh) * 2019-05-07 2023-10-24 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN111968740A (zh) * 2020-09-03 2020-11-20 卫宁健康科技集团股份有限公司 一种诊断标签推荐方法、装置、存储介质及电子设备
CN112685561A (zh) * 2020-12-26 2021-04-20 广州知汇云科技有限公司 一种跨病种的小样本临床医疗文本后结构化处理方法
CN113704469A (zh) * 2021-08-18 2021-11-26 百融至信(北京)征信有限公司 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统
CN117370525A (zh) * 2023-10-20 2024-01-09 厦门狄耐克物联智慧科技有限公司 一种基于微调大模型的智能导诊方法

Also Published As

Publication number Publication date
CN109686445B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN109686445A (zh) 一种基于自动标签和多模型融合的智能导诊算法
Lee et al. Personalized mortality prediction driven by electronic medical data and a patient similarity metric
CN106934235B (zh) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN109741806B (zh) 一种医学影像诊断报告辅助生成方法及其装置
García-Escudero et al. Robust clusterwise linear regression through trimming
WO2021120934A1 (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN109801705A (zh) 治疗推荐方法、系统、装置及存储介质
CN110010248B (zh) 一种基于代价敏感集成学习模型的再入院风险预测方法
CN110516161A (zh) 一种推荐方法及装置
WO2020248847A1 (zh) 智能心脏疾病检测方法、装置及计算机可读存储介质
CN106446575B (zh) 智能推送医疗资源的方法及系统
Voukantsis et al. Analysis and forecasting of airborne pollen–induced symptoms with the aid of computational intelligence methods
CN112365939A (zh) 一种基于医疗健康大数据的数据治理方法及系统
CN116910172A (zh) 基于人工智能的随访量表生成方法及系统
Dalmia et al. Pest management in cotton farms: an AI-system case study from the global south
CN109034238A (zh) 一种基于信息熵的聚类划分方法
US20100063947A1 (en) System and Method for Dynamically Adaptable Learning Medical Diagnosis System
Panicacci et al. Population health management exploiting machine learning algorithms to identify high-risk patients
CN115985503B (zh) 基于集成学习的癌症预测系统
CN115796306B (zh) 一种恒牙成熟度分级模型的训练及恒牙成熟度分级方法
CN116469534A (zh) 医院叫号管理系统及其方法
CN111081325A (zh) 医疗数据处理方法与装置
CN113257391B (zh) 一种皮肤病的病程管理系统
Valverde-Albacete et al. A framework for supervised classification performance analysis with information-theoretic methods
CN114613465A (zh) 一种脑卒中患病风险预测和个性化治疗推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant