CN109686445A

CN109686445A - 一种基于自动标签和多模型融合的智能导诊算法

Info

Publication number: CN109686445A
Application number: CN201811639947.1A
Authority: CN
Inventors: 高登科
Original assignee: Hangzhou Digital Peak Technology Co Ltd; Chengdu Rui Code Technology Co Ltd
Current assignee: Hangzhou Digital Peak Technology Co Ltd; Chengdu Rui Code Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-26
Anticipated expiration: 2038-12-29
Also published as: CN109686445B

Abstract

本发明公开了一种基于自动标签和多模型融合的智能导诊算法，包括步骤S200：数据标签增强和S300：多模型预测融合的步骤。所述步骤S200中从语义向量角度，进行单数据源内标签校正增强；从多数据源差异角度，进行跨数据源标签增强；本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证。所述步骤300中首先进行单数据源内模型融合，而后进行跨数据源模型融合，本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

Description

一种基于自动标签和多模型融合的智能导诊算法

技术领域

本发明属于多模型融合的技术领域，具体涉及一种基于自动标签和多模型融合的智能导诊算法。

背景技术

在就诊过程中，许多患者经常遇到选择科室的困惑；医疗知识过于专业，疾病临床表现复杂，存在大量疾病具有相似症状的情况，从而造成患者在选择科室时的困惑甚至错误；目前，人工导诊，不仅耗时耗力，且大大影响医疗服务效率和患者就医体验；而现有的机器导诊，大多基于有监督算法，其过于依赖海量的高质量医疗标注数据。为此我们设计一种无需人工标注的智能导诊算法，其基于自动标签和多模型融合技术，解决了该问题。使得医疗资源与医疗需求高效匹配，节省人力物力，大大提高诊疗效率和就医体验。

发明内容

本发明的目的在于提供一种基于自动标签和多模型融合的智能导诊算法，本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证；本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

本发明主要通过以下技术方案实现：一种基于自动标签和多模型融合的智能导诊算法，主要包括以下步骤：

步骤S200：数据标签增强：每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签

步骤S300：多模型预测融合：针对步骤S200中的结果，每个数据源重新训练textcnn、dppcnn、dpcnn模型；针对每个数据源，在三个模型的基础上添加线性加权层，并从剩余数据源中随机筛选其他模型预测较为一致的样本，并用这些样本训练线性加权层；每个数据源得到一个融合的预测模型。

为了更好的实现本发明，进一步的，所述步骤S200中基于医疗基础数据集训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源，基于语义向量，计算患者信息相似度；选择相似度大于设定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签。

为了更好的实现本发明，进一步的，所述步骤S300中针对多个数据源的预测模型进行概率投票，获取最大概率结果即为最终结果。

为了更好的实现本发明，进一步的，还包括以下步骤：

步骤S100：自动标签：爬取医疗领域网站的数据库，构建基础数据库，爬取网络咨询数据并作为训练数据；针对不同数据源进行科室分类体系的融合，构建统一的科室分类体系，在此基础上整合预标注数据。

为了更好的实现本发明，进一步的，所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。

为了更好的实现本发明，进一步的，所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。

本发明的目的在于解决人工导诊耗时耗力及机器导诊对海量标注数据的依赖，构建无需人工标注的智能导诊算法，核心基于自动标签技术和多模型融合技术，可根据患者症状描述及个人信息，智能推荐科室。

本发明技术流程可分为三个方面：自动标签、数据标签增强、多模型预测融合。

1）自动标签

a)爬取医疗领域相关网站海量数据，构建基础数据集；

b)爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据，包括（患者问题描述、患者个人信息、所属科室），作为预标注的训练数据；

c)针对不同数据源，进行科室分类体系的融合，构建统一的科室分类体系，在此基础上整合上述的预标注数据。

2）数据标签增强

a)基于医疗基础数据集，训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源内，基于语义向量，计算患者信息相似度；选择相似度大于一定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签。如图1。

b)每个数据源分别训练textcnn、lstm、dpcnn模型，共12个模型；针对每个数据源样本，利用其它数据源的9个模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于一定阈值，且与原标签不一致时，纠正原标签为最大概率标签。如图2。

3）多模型预测融合

a)针对上述结果，每个数据源重新训练textcnn、lstm、dpcnn模型；针对每个数据源，在三个模型基础上添加线性加权层，并从剩余数据源中随机筛选其它9个模型预测较为一致的样本，用这些样本训练线性加权层；每个数据源得到一个融合的预测模型。如图3。

b)针对四个数据源的预测模型进行概率投票，获取最大概率结果即为最终结果。如图4。

本发明的有益效果：

（1）本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证；本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

（2）本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题，构建无需人工标注的智能导诊算法，核心基于自动标签技术和多模型融合技术，可根据患者症状描述及个人信息，智能推荐科室。

（3）步骤S100：自动标签：从网络医疗网站，爬取公开数据；无需人工标注数据，全量数据用于训练语义向量，网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据，作为预标注数据，无需人工标注数据，实现自动标签，具有较好的实用性。

（4）步骤S200从语义向量角度，进行单数据源内标签校正增强；从多数据源差异角度，进行跨数据源标签增强；本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证。

（5）步骤S300首先进行单数据源内模型融合，而后进行跨数据源模型融合。本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

附图说明

图1为本发明的单数据源内标签增强流程图；

图2为本发明的跨数据源标签增强流程图；

图3为本发明的单数据源内模型融合流程图；

图4为本发明的跨数据源模型融合流程图。

具体实施方式

实施例1：

一种基于自动标签和多模型融合的智能导诊算法，主要包括以下步骤：

步骤S200：数据标签增强：如图1所示，基于医疗基础数据集训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源，基于语义向量，计算患者信息相似度；选择相似度大于设定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签；如图2所示，每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签；所述步骤S200从语义向量角度，进行单数据源内标签校正增强；从多数据源差异角度，进行跨数据源标签增强；本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证。

步骤S300：多模型预测融合：如图3所示，针对步骤S200中的结果，每个数据源重新训练textcnn、dppcnn、dpcnn模型；针对每个数据源，在三个模型的基础上添加线性加权层，并从剩余数据源中随机筛选其他模型预测较为一致的样本，并用这些样本训练线性加权层；每个数据源得到一个融合的预测模型。

本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证；本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

实施例2：

本实施例是在实施例1的基础上进行优化，如图4所示，所述步骤S300中针对多个数据源的预测模型进行概率投票，获取最大概率结果即为最终结果。步骤S300首先进行单数据源内模型融合，而后进行跨数据源模型融合。本发明采用单数据源、跨数据源标签增强技术，大幅度校正预标注数据，使标签准确率得到保证；本发明采用多模型融合技术，大幅度提高模型预测准确性、鲁棒性。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，还包括以下步骤：

步骤S100：自动标签：爬取医疗领域网站的数据库，构建基础数据库，爬取网络咨询数据并作为训练数据；针对不同数据源进行科室分类体系的融合，构建统一的科室分类体系，在此基础上整合预标注数据。所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。

步骤S100：自动标签：从网络医疗网站，爬取公开数据；无需人工标注数据，全量数据用于训练语义向量，网络咨询数据作为预标注数据。本发明爬取医疗网站咨询数据，作为预标注数据，无需人工标注数据，实现自动标签，具有较好的实用性。

本发明无需人工标注样本，从网络公开数据出发实现自动标签，利用标签增强技术提高数据质量，并采用多模型融合技术保证导诊效果的准确性和鲁棒性。本发明解决了人工导诊耗时耗力及机器导诊对海量标注数据的依赖的问题，构建无需人工标注的智能导诊算法，核心基于自动标签技术和多模型融合技术，可根据患者症状描述及个人信息，智能推荐科室。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于自动标签和多模型融合的智能导诊算法，其特征在于，主要包括以下步骤：

步骤S200：数据标签增强：基于医疗基础数据集训练语义向量word2vec，并在网络咨询数据上微调语义向量；针对每个数据源，基于语义向量，计算患者信息相似度；选择相似度大于设定阈值的样本聚簇，并在每个簇内进行标签投票；当指定簇内最大标签比例大于指定阈值时，将该簇内样本均赋为其最大概率标签；每个数据源分别训练textcnn、dppcnn、dpcnn模型；针对每个数据源样本，利用其它数据源的模型进行预测，并合并统计预测标签概率分布；当最大概率与第二大概率差值大于设定阈值，且与原标签不一致时，则纠正原标签为最大概率标签；

2.根据权利要求1所述的一种基于自动标签和多模型融合的智能导诊算法，其特征在于，所述步骤S300中针对多个数据源的预测模型进行概率投票，获取最大概率结果即为最终结果。

3.根据权利要求1或2所述的一种基于自动标签和多模型融合的智能导诊算法，其特征在于，还包括以下步骤：

4.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法，其特征在于，所述网络咨询数据包括患者问题描述、患者个人信息、所属科室的数据。

5.根据权利要求3所述的一种基于自动标签和多模型融合的智能导诊算法，其特征在于，所述步骤S100中爬取120ask、丁香园、春雨医生、好大夫的网络咨询数据。