CN109686445A - 一种基于自动标签和多模型融合的智能导诊算法 - Google Patents
一种基于自动标签和多模型融合的智能导诊算法 Download PDFInfo
- Publication number
- CN109686445A CN109686445A CN201811639947.1A CN201811639947A CN109686445A CN 109686445 A CN109686445 A CN 109686445A CN 201811639947 A CN201811639947 A CN 201811639947A CN 109686445 A CN109686445 A CN 109686445A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- label
- data source
- automated tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于自动标签和多模型融合的智能导诊算法,包括步骤S200:数据标签增强和S300:多模型预测融合的步骤。所述步骤S200中从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。所述步骤300中首先进行单数据源内模型融合,而后进行跨数据源模型融合,本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
Description
技术领域
本发明属于多模型融合的技术领域,具体涉及一种基于自动标签和多模型融合的智能导诊算法。
背景技术
在就诊过程中,许多患者经常遇到选择科室的困惑;医疗知识过于专业,疾病临床表现复杂,存在大量疾病具有相似症状的情况,从而造成患者在选择科室时的困惑甚至错误;目前,人工导诊,不仅耗时耗力,且大大影响医疗服务效率和患者就医体验;而现有的机器导诊,大多基于有监督算法,其过于依赖海量的高质量医疗标注数据。为此我们设计一种无需人工标注的智能导诊算法,其基于自动标签和多模型融合技术,解决了该问题。使得医疗资源与医疗需求高效匹配,节省人力物力,大大提高诊疗效率和就医体验。
发明内容
本发明的目的在于提供一种基于自动标签和多模型融合的智能导诊算法,本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
本发明主要通过以下技术方案实现:一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:
步骤S200:数据标签增强:每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签
步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
为了更好的实现本发明,进一步的,所述步骤S200中基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。
为了更好的实现本发明,进一步的,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。
为了更好的实现本发明,进一步的,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。
为了更好的实现本发明,进一步的,所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。
为了更好的实现本发明,进一步的,所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
本发明的目的在于解决人工导诊耗时耗力及机器导诊对海量标注数据的依赖,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
本发明技术流程可分为三个方面:自动标签、数据标签增强、多模型预测融合。
1)自动标签
a)爬取医疗领域相关网站海量数据,构建基础数据集;
b)爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据,包括(患者问题描述、患者个人信息、所属科室),作为预标注的训练数据;
c)针对不同数据源,进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合上述的预标注数据。
2)数据标签增强
a)基于医疗基础数据集,训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源内,基于语义向量,计算患者信息相似度;选择相似度大于一定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签。如图1。
b)每个数据源分别训练textcnn、lstm、dpcnn模型,共12个模型;针对每个数据源样本,利用其它数据源的9个模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于一定阈值,且与原标签不一致时,纠正原标签为最大概率标签。如图2。
3)多模型预测融合
a)针对上述结果,每个数据源重新训练textcnn、lstm、dpcnn模型;针对每个数据源,在三个模型基础上添加线性加权层,并从剩余数据源中随机筛选其它9个模型预测较为一致的样本,用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。如图3。
b)针对四个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。如图4。
本发明的有益效果:
(1)本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
(2)本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
(3)步骤S100:自动标签:从网络医疗网站,爬取公开数据;无需人工标注数据,全量数据用于训练语义向量,网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据,作为预标注数据,无需人工标注数据,实现自动标签,具有较好的实用性。
(4)步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。
(5)步骤S300首先进行单数据源内模型融合,而后进行跨数据源模型融合。本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
附图说明
图1为本发明的单数据源内标签增强流程图;
图2为本发明的跨数据源标签增强流程图;
图3为本发明的单数据源内模型融合流程图;
图4为本发明的跨数据源模型融合流程图。
具体实施方式
实施例1:
一种基于自动标签和多模型融合的智能导诊算法,主要包括以下步骤:
步骤S200:数据标签增强:如图1所示,基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;如图2所示,每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;所述步骤S200从语义向量角度,进行单数据源内标签校正增强;从多数据源差异角度,进行跨数据源标签增强;本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证。
步骤S300:多模型预测融合:如图3所示,针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
实施例2:
本实施例是在实施例1的基础上进行优化,如图4所示,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。步骤S300首先进行单数据源内模型融合,而后进行跨数据源模型融合。本发明采用单数据源、跨数据源标签增强技术,大幅度校正预标注数据,使标签准确率得到保证;本发明采用多模型融合技术,大幅度提高模型预测准确性、鲁棒性。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
步骤S100:自动标签:从网络医疗网站,爬取公开数据;无需人工标注数据,全量数据用于训练语义向量,网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据,作为预标注数据,无需人工标注数据,实现自动标签,具有较好的实用性。
本发明无需人工标注样本,从网络公开数据出发实现自动标签,利用标签增强技术提高数据质量,并采用多模型融合技术保证导诊效果的准确性和鲁棒性。本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题,构建无需人工标注的智能导诊算法,核心基于自动标签技术和多模型融合技术,可根据患者症状描述及个人信息,智能推荐科室。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (5)
1.一种基于自动标签和多模型融合的智能导诊算法,其特征在于,主要包括以下步骤:
步骤S200:数据标签增强:基于医疗基础数据集训练语义向量word2vec,并在网络咨询数据上微调语义向量;针对每个数据源,基于语义向量,计算患者信息相似度;选择相似度大于设定阈值的样本聚簇,并在每个簇内进行标签投票;当指定簇内最大标签比例大于指定阈值时,将该簇内样本均赋为其最大概率标签;每个数据源分别训练textcnn、dppcnn、dpcnn模型;针对每个数据源样本,利用其它数据源的模型进行预测,并合并统计预测标签概率分布;当最大概率与第二大概率差值大于设定阈值,且与原标签不一致时,则纠正原标签为最大概率标签;
步骤S300:多模型预测融合:针对步骤S200中的结果,每个数据源重新训练textcnn、dppcnn、dpcnn模型;针对每个数据源,在三个模型的基础上添加线性加权层,并从剩余数据源中随机筛选其他模型预测较为一致的样本,并用这些样本训练线性加权层;每个数据源得到一个融合的预测模型。
2.根据权利要求1所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述步骤S300中针对多个数据源的预测模型进行概率投票,获取最大概率结果即为最终结果。
3.根据权利要求1或2所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,还包括以下步骤:
步骤S100:自动标签:爬取医疗领域网站的数据库,构建基础数据库,爬取网络咨询数据并作为训练数据;针对不同数据源进行科室分类体系的融合,构建统一的科室分类体系,在此基础上整合预标注数据。
4.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。
5.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法,其特征在于,所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811639947.1A CN109686445B (zh) | 2018-12-29 | 2018-12-29 | 一种基于自动标签和多模型融合的智能导诊算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811639947.1A CN109686445B (zh) | 2018-12-29 | 2018-12-29 | 一种基于自动标签和多模型融合的智能导诊算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109686445A true CN109686445A (zh) | 2019-04-26 |
CN109686445B CN109686445B (zh) | 2023-07-21 |
Family
ID=66191267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811639947.1A Active CN109686445B (zh) | 2018-12-29 | 2018-12-29 | 一种基于自动标签和多模型融合的智能导诊算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109686445B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914983A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 交互方法及装置、音箱、电子设备和存储介质 |
CN111968740A (zh) * | 2020-09-03 | 2020-11-20 | 卫宁健康科技集团股份有限公司 | 一种诊断标签推荐方法、装置、存储介质及电子设备 |
CN112685561A (zh) * | 2020-12-26 | 2021-04-20 | 广州知汇云科技有限公司 | 一种跨病种的小样本临床医疗文本后结构化处理方法 |
CN113704469A (zh) * | 2021-08-18 | 2021-11-26 | 百融至信(北京)征信有限公司 | 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统 |
CN117370525A (zh) * | 2023-10-20 | 2024-01-09 | 厦门狄耐克物联智慧科技有限公司 | 一种基于微调大模型的智能导诊方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092911A (zh) * | 2012-11-20 | 2013-05-08 | 北京航空航天大学 | 一种融合社会标签相似度基于k近邻的协同过滤推荐系统 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107451597A (zh) * | 2016-06-01 | 2017-12-08 | 腾讯科技(深圳)有限公司 | 一种样本类别标签纠正方法及装置 |
-
2018
- 2018-12-29 CN CN201811639947.1A patent/CN109686445B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092911A (zh) * | 2012-11-20 | 2013-05-08 | 北京航空航天大学 | 一种融合社会标签相似度基于k近邻的协同过滤推荐系统 |
CN107451597A (zh) * | 2016-06-01 | 2017-12-08 | 腾讯科技(深圳)有限公司 | 一种样本类别标签纠正方法及装置 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
Non-Patent Citations (2)
Title |
---|
于悦: ""基于多视角社区发现的实体聚类算法"", 《硕士电子期刊》, no. 4, pages 1 - 70 * |
赵宇: ""基于多任务融合模型的用户属性推断"", 《硕士电子期刊》, no. 10, pages 1 - 70 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914983A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 交互方法及装置、音箱、电子设备和存储介质 |
CN111914983B (zh) * | 2019-05-07 | 2023-10-24 | 阿里巴巴集团控股有限公司 | 交互方法及装置、音箱、电子设备和存储介质 |
CN111968740A (zh) * | 2020-09-03 | 2020-11-20 | 卫宁健康科技集团股份有限公司 | 一种诊断标签推荐方法、装置、存储介质及电子设备 |
CN112685561A (zh) * | 2020-12-26 | 2021-04-20 | 广州知汇云科技有限公司 | 一种跨病种的小样本临床医疗文本后结构化处理方法 |
CN113704469A (zh) * | 2021-08-18 | 2021-11-26 | 百融至信(北京)征信有限公司 | 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统 |
CN117370525A (zh) * | 2023-10-20 | 2024-01-09 | 厦门狄耐克物联智慧科技有限公司 | 一种基于微调大模型的智能导诊方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109686445B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109686445A (zh) | 一种基于自动标签和多模型融合的智能导诊算法 | |
Lee et al. | Personalized mortality prediction driven by electronic medical data and a patient similarity metric | |
CN106934235B (zh) | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 | |
CN109741806B (zh) | 一种医学影像诊断报告辅助生成方法及其装置 | |
García-Escudero et al. | Robust clusterwise linear regression through trimming | |
WO2021120934A1 (zh) | 一种基于卷积神经网络的DRGs自动分组方法 | |
CN109801705A (zh) | 治疗推荐方法、系统、装置及存储介质 | |
CN110010248B (zh) | 一种基于代价敏感集成学习模型的再入院风险预测方法 | |
CN110516161A (zh) | 一种推荐方法及装置 | |
WO2020248847A1 (zh) | 智能心脏疾病检测方法、装置及计算机可读存储介质 | |
CN106446575B (zh) | 智能推送医疗资源的方法及系统 | |
Voukantsis et al. | Analysis and forecasting of airborne pollen–induced symptoms with the aid of computational intelligence methods | |
CN112365939A (zh) | 一种基于医疗健康大数据的数据治理方法及系统 | |
CN116910172A (zh) | 基于人工智能的随访量表生成方法及系统 | |
Dalmia et al. | Pest management in cotton farms: an AI-system case study from the global south | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
US20100063947A1 (en) | System and Method for Dynamically Adaptable Learning Medical Diagnosis System | |
Panicacci et al. | Population health management exploiting machine learning algorithms to identify high-risk patients | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN115796306B (zh) | 一种恒牙成熟度分级模型的训练及恒牙成熟度分级方法 | |
CN116469534A (zh) | 医院叫号管理系统及其方法 | |
CN111081325A (zh) | 医疗数据处理方法与装置 | |
CN113257391B (zh) | 一种皮肤病的病程管理系统 | |
Valverde-Albacete et al. | A framework for supervised classification performance analysis with information-theoretic methods | |
CN114613465A (zh) | 一种脑卒中患病风险预测和个性化治疗推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |