CN109065171B - 基于集成学习的川崎病风险评估模型的构建方法及系统 - Google Patents

基于集成学习的川崎病风险评估模型的构建方法及系统 Download PDF

Info

Publication number
CN109065171B
CN109065171B CN201811306908.XA CN201811306908A CN109065171B CN 109065171 B CN109065171 B CN 109065171B CN 201811306908 A CN201811306908 A CN 201811306908A CN 109065171 B CN109065171 B CN 109065171B
Authority
CN
China
Prior art keywords
model
data
kawasaki disease
prediction
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811306908.XA
Other languages
English (en)
Other versions
CN109065171A (zh
Inventor
丁国徽
贾佳
李光
徐重飞
周珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daozhi precision medicine technology (Shanghai) Co.,Ltd.
Original Assignee
Daozhi Precision Medicine Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daozhi Precision Medicine Technology Shanghai Co ltd filed Critical Daozhi Precision Medicine Technology Shanghai Co ltd
Priority to CN201811306908.XA priority Critical patent/CN109065171B/zh
Publication of CN109065171A publication Critical patent/CN109065171A/zh
Application granted granted Critical
Publication of CN109065171B publication Critical patent/CN109065171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于集成学习的川崎病风险评估模型的构建方法及系统,先从样本数据集中提取可用于建模及模型评估的有效样本,然后从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征,分别采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;采用朴素贝叶斯算法进行整合根据二类后验概率的比较结果评估川崎病风险的风险大小。本发明的方法有效的解决了大多数分类器过拟合的问题,扬长避短,使评估模型更为精准。

Description

基于集成学习的川崎病风险评估模型的构建方法及系统
技术领域
本申请涉及医疗评估技术领域,具体来说涉及一种基于集成学习的川崎病风险评估模型的构建方法及构建系统。
背景技术
川崎病(Kawasaki disease,KD),又称皮肤黏膜淋巴结综合征,是一种以全身血管炎为主要病变的急性发热出疹性小儿疾病。其中,冠状动脉是最易受累部位。最主要的并发症是冠状动脉病变,如果不能进行及时诊断和治疗,会对心血管系统造成严重损伤,目前已成为小儿后天获得性心脏病最常见的病因之一,也是成年后缺血性心脏病发生的危险因素。因此早期诊断,早期治疗,减少心血管并发症的发生具有重要的临床意义。
根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准,川崎病主要表现为持续性发热5天以上,还包括:(1)两眼结膜出现充血症状,但未出现渗出物;(2)口唇发红,出现杨梅舌,口腔和咽部黏膜存在弥漫性充血症状;(3)皮肤出现多形性红斑和皮疹;部分患儿可出现卡介苗接种处红肿,是一种特异性表现;(4)四肢末端发生变化;若手足存在硬性肿胀,掌跖和指端充血,则为急性期;若指端甲床皮肤移行部位膜状蜕皮,则为恢复期;肛门周围也多见脱皮症状;(5)急性期表现为非化脓性颈部淋巴结肿大,普遍为单侧,直径在1.5cm以上等临床症状。以上,若患者发热≥5天,且以上主要条件中≥4项者确诊为川崎病。含有上述若发热≥5天,主要临床表现不足4项,但在超声心动图或者血管造影发现有冠状动脉病变者,也诊断为川崎病。依据上述诊断标准,患者确诊川崎病需要发热≥5天,且需要等待临床症状出现,容易使患儿错过最佳治疗时间。同时,川崎病的临床症状表现复杂多样,发病初期临床症状不明显,容易出现误诊,漏诊,在一定程度上增加了小儿川崎病的诊断难度。因此,研发灵敏度高,特异性强的诊断方式成为川崎病诊疗的中急需满足的需求。
基于医疗数据建模的川崎病患病风险评估模型可以辅助评估患者患病情况,大大降低川崎病的误诊率和漏诊率,并且能使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗,为患者达到最佳治疗效果提供帮助。本发明因此而来。
发明内容
本申请旨在提供一种基于集成学习的川崎病风险评估模型的构建方法,以解决现有技术中的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:
(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;
(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;
(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;
(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阀域t,进行新数据集的构造;
(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型。
本发明采用集成学习的方法进行川崎病风险评估模型的构建,所谓集成学习是指使用一系列基础机器学习模型进行学习,并使用某种规则把各个学习结果进行整合从而达到提升学习效果的目的一种机器学习方法。
集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。
优选的技术方案是:所述方法步骤(1)中数据样本选择步骤按照如下步骤进行:
(1.1)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;
(1.2)对重复数据进行删除处理;
(1.3)对数据量不足80%的指标进行删除处理;
(1.4)对残缺、错误数据进行中位数填充。
优选的技术方案是:所述方法步骤(2)中10项特征包括:性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。
优选的技术方案是:所述方法步骤(3)中预先将所述有效样本的不完整数据集随机分割为训练集和验证集,并以完整数据集作为测试集,训练集和验证集的分割比例为1:1~10:1。
优选的技术方案是:所述方法步骤(3)分类阀域t为患病风险临界值,高于此值初步预测为川崎病高风险;低于此值初步预测为川崎病低风险
优选的技术方案是:所述方法步骤(4)中构造新数据集步骤包括:
1)将不完整数据集中训练集和测试集分别投入到四个川崎病患病风险预测基础模型中进行预测,得到分类得分;
2)根据四个川崎病患病风险预测基础模型的分类阀域t值将预测结果进行分类,分别得到新数据集的训练集和测试集。
优选的技术方案是:所述方法步骤(5)中获得测试集中每个样本的二类后验概率,比较每个样本的二类后验概率的差值,确定测试集样本进行预测分类,当差值大于0表示川崎病,差值小于0为非川崎病。
优选的技术方案是:所述方法中所述数据样本来源于医院在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。
本发明的另一目的在于提供一种基于集成学习的川崎病风险评估模型的构建系统,其应用于所述的构建方法,其包括:
数据采集模块,至少用于数据采集,获取样本数据集;
数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;以及从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;
基础模型构建模块,至少用于采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阀域t;
整合模块,至少用于通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小。
本发明的又一目的在于提供由所述方法构建得到的基于集成学习的川崎病风险评估模型。
本发明的又一目的在于提供一种川崎病风险评估系统,其特征在于包括:
输入模块,至少用于输入待评估数据;
由所述方法构建得到的川崎病风险评估模型,至少用于对该待评估数据进行评估;
显示模块,至少用于显示评估结果,即KDx评分。
为解决川崎病患者在诊断过程中难确诊,易误诊的问题,本发明提供一种基于集成学习的川崎病风险评估模型的构建方法及构建系统。通过医疗数据建模对川崎病患病风险进行计算,将待诊断病人分为川崎病高风险患者或川崎病低风险患者,使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗,有效的避免了现有诊断方式中因没有高敏感性和特异性的诊断方案而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生。
本发明所提供的一种基于集成学习的川崎病风险评估模型的构建方法及构建系统,使用与川崎病相关的医疗数据进行系统的统计分析、建模,并给出模型评价方法,有效的避免了现有诊断方式中因没有高敏感性和特异性的诊断方案而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生,使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗。本发明采用集成学习的方法进行川崎病风险评估模型的构建,采用随机森林,boosting,线性模型和神经网络为基础分类器,再通过朴素贝叶斯算法进行整合,有效的解决了单个算法过拟合的问题,扬长避短,使评估模型更为精准。无论在理论还是实践方面,集成学习都已经被证明可以达到比单个机器学习模型更好的水平。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请一种典型实施方式提出的一种基于集成学习的川崎病风险评估模型的构建系统的工作流程示意图。
图2示出了本申请又一种典型实施方式提出的采用随机森林算法构建基础模型后进行ROC拟合的曲线图;
图3示出了本申请又一种典型实施方式提出的采用Boosting算法构建基础模型后进行ROC拟合的曲线图;
图4示出了本申请又一种典型实施方式提出的采用线性模型算法构建基础模型后进行ROC拟合的曲线图;
图5示出了本申请又一种典型实施方式提出的采用神经网络算法构建基础模型后进行ROC拟合的曲线图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的一种具体实施方式提供了一种基于集成学习的川崎病风险评估模型的构建方法及构建系统,包括以下步骤:
步骤一:数据样本选择;从样本数据集中提取可用于建模及模型评估的有效样本;
步骤二:特征筛选;从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的10项特征
步骤三:川崎病患病风险预测基础模型构建;采用随机森林、Boosting、线性模型和神经网络算法进行基础模型构建。
步骤四:根据步骤三所得基础模型,及分类阀域t,进行新数据集的构造:
步骤五:采用朴素贝叶斯算法对步骤三中的四个基础模型进行整合:
进一步,步骤一中数据样本选择过程包括:
(1.1)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;
(1.2)对重复数据进行删除处理;
(1.3)对数据量不足80%的指标进行删除处理;
(1.4)对残缺、错误数据进行中位数填充。
进一步,分类阀域t为患病风险临界。高于此值初步预测为川崎病高风险;低于此值初步预测为川崎病低风险。
进一步,步骤二中所述10项特征为:
A.性别(Sex);
B.年龄(Age);
C.C-反应蛋白(CRPmg/L);
D.纤维蛋白原(FG g/L);
E.白蛋白(ALB g/L);
F.球蛋白(GLB g/L);
G.补体C3(C3g/L);
H.免疫球蛋白G(IgG g/L);
I.前白蛋白(PAB mg/L);
J.白球比例(A/G)。
进一步,步骤四中所述二类后验概率,对样本进行KDx计算,KDx=PI-PII。KDx大于零预测为川崎病,KDx小于零为非川崎病。
以下进行详细说明:
本发明主要基于电子病例中的医疗数据进行建模,使用数据中蕴含的信息对病人是否患有川崎病进行风险评估,并将评估结果进行概率化描述。本发明包括针对医疗数据进行建模的数据处理流程和进行川崎病分类预测、分析、概率化等重要方法和结果。本发明结合了医疗数据和数据挖掘方法,是医疗数据与大数据分析方法结合的一种创新,本发明在一定程度上填补了国内医疗数据研究的空白,在利用医疗数据进行川崎病检测分析方面具有创新性。
本发明使用的医疗数据来源于医院EDC在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据、标本分子检测数据等多维数据。如图1所示,一种基于集成学习的川崎病风险评估模型的构建方法及构建系统具体步骤如下:
1、数据样本选择:从样本数据集中提取可用于建模及模型评估的有效样本;
原始数据集为dataset1,不具有明确诊断结果、重复数据、数据量不足80%的病人被从数据集中移除,此时数据集为dataset2。
2、特征筛选:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的10项特征,此时数据集为dataset3。
3、川崎病患病风险预测基础模型建构:采用随机森林、Boosting、线性模型和神经网络算法进行基础模型构建。
其步骤如下:
3.1现有不完整数据集和完整数据集:将不完整数据集随机分割为训练集Xrain、验证集Xderivation,比例为1:1~10:1,并以完整数据集作为测试集Xtest;
3.2在Xtrain数据集上进行基础模型建构。
3.2.1.使用随机森林算法拟合Xtrain数据集进行模型构建(RFM),根据袋外误差,记录最优模型参数:
3.2.1.1随机选取训练集的三分之二用于训练模型。使用随机森林方法,以不同的参数值重复建立随机森林模型;
3.2.1.2将剩余三分之一的观测值称为袋外(out-of-bag)观测值。利用袋外观测值,在步骤3.2.1.1所建立的每一个模型中,预测袋外观测值的响应值,记录预测误差;
3.2.1.3比较预测误差,记录使得预测误差最小的模型所对应的参数,最优模型参数。
3.2.2使用Boosting算法拟合Xtrain数据集进行模型构建(BSTM),采用十折交叉验证法,记录最优模型参数:
3.2.2.1将训练集数据平均分为十部分;
3.2.2.2取其中九折数据,使用Boosting的方法进行拟合,得到模型;
3.2.2.3利用步骤3.2.2.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.2.4改变参数,重复步骤3.2.2.2~3.2.2.3;
3.2.2.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数。
3.2.3使用线性模型拟合Xtrain数据集进行模型构建(GLM),采用十折交叉验证法,记录最优模型参数:
3.2.3.1将训练集数据平均分为十部分;
3.2.3.2取其中九折数据,使用logistic的方法进行拟合,得到模型:
Figure BDA0001853860610000081
其中p(X)表示事件发生概率(即患病概率),β0及β=(β12,...,βn)为模型系数,n为进入到模型中的变量个数。
3.2.3.3利用步骤3.2.3.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.3.4改变参数,重复步骤3.2.3.2~3.2.3.3;
3.2.3.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数。
3.2.4使用神经网络算法拟合Xtrain数据集进行模型构建(NNET),采用十折交叉验证法,记录最优模型参数:
3.2.4.1对整体样本离差标准化,将样本数据压缩到[0,1]区间内,并消除量纲:
Figure BDA0001853860610000091
其中,xi为第i个特征向量,maxi、mini分别为第i个特征向量的最大值、最小值,xi *代表经过变换后的特征向量i;
3.2.4.2将训练集数据平均分为十部分;
3.2.4.3取其中九折数据,使用神经网络的方法进行拟合,得到模型;
3.2.4.4利用步骤3.2.4.3所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.4.5改变参数,重复步骤3.2.4.3~3.2.4.4;
3.2.4.6比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数。
3.3根据ROC曲线使用验证集计算四个基础模型的模型分类阈值t=(tRFM,tBSTM,tGLM,tNNET):
3.3.1利用最优参数模型,在训练集上建立最优模型;
3.3.2使用验证集观测值,在模型上进行预测,得到分类得分;
3.3.3在[0,1]范围内,选取不同数值作为分类阀域值,对步骤3.3.2所得分类得分进行划分;
3.3.4计算不同分类阀域下,预测的敏感性、特异性和正确率,并绘制ROC曲线图,选择分类阀域t;
4、构造新数据集
根据步骤3得基础模型,及分类阀域t,进行新数据集的构造:
4.1构造新训练集。
4.1.1将原训练集投入到上述四个基础模型中进行预测,得到分类得分;
4.1.2根据四个基础模型的t值将预测结果进行分类,得到一组0-1数据集:
Newtrain=(KD,KDRFM,KDBSTM,KDGLM,KDNNET),
其中,每个向量分别表示原训练集中患者样本的真实分类情况,以及对应模型下的预测分类情况,1表示预测分类为患病,0表示预测分类为不患病。
4.2构造新测试集。
4.2.1将原测试集投入到上述四个基础模型中进行预测,得到分类得分;
4.2.2根据四个基础模型的t值将预测结果进行分类,得到一组0-1数据集:
Newtest=(KD,KDRFM,KDBSTM,KDGLM,KDNNET),
其中,每个向量分别表示原测试集中患者样本的真实分类情况,以及对应模型下的预测分类情况;
5、模型整合及算法的有效性
采用朴素贝叶斯算法对步骤三中的四个基础模型进行整合:
5.5.1根据新训练集,计算分类的先验概率:
5.5.1.1计算川崎病患病情况的概率
Figure BDA0001853860610000101
5.5.1.2计算预测的条件概率:
Figure BDA0001853860610000102
Figure BDA0001853860610000103
Figure BDA0001853860610000104
Figure BDA0001853860610000105
同理,其余三种模型对应求出预测的条件概率;
5.5.2根据新测试集,对每种模型的预测情况进行匹配,计算二分类的后验概率:
k=(KDRFM,KDBSTM,KDGLM,KDNNET);
PI(患病|KDRFM,KDBSTM,KDGLM,KDNNET)=P(患病)*∏kP(KDk|患病);
PII(不患病|KDRFM,KDBSTM,KDGLM,KDNNET)=P(不患病)*∏kP(KDk|不患病)
5.5.3比较测试集中,每个样本的二类后验概率PI和PII,对测试集样本进行KDx计算,KDx=PI-PII,对测试集样本进行预测分类。
5.5.4计算此整合模型在辅助川崎病诊断中的敏感性、特异性和准确性。
实施例
为了验证本发明一种基于集成学习的川崎病患病风险评估方法的有效性,本实施例选取时间范围为2008.7-2018.3电子病例中42498个病人数据。
其中敏感性、特异性和正确性的分析是基于二分类问题,定义两个分类分别为正类和负类,正类中的每一个对象成为正实例,负类中的每一个对象成为负实例。通常,在预测川崎病时,川崎病样本为正类,其他发烧患者为负类。使用分类模型对测试样本进行预测,会有四种情况,如果一个实例是正类并被预测为真正类(true positive,TP),如果实例是负类被预测为正类,称之为假正类(false positive,FP)。相应的,如果实例是负类被预测为负类,称之为真负类(true negative,TN),正实例被预测为负类则为假负类(falsenegative,FN)。
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类数目;
TN:负实例预测为负类数目;
敏感性(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN);
特异性(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP);
阳性预测值(positive predictive value,PPV):预测为正类的实例中,正实例占得比例,即TP/(TP+FP)。
正确性:在全部实例中被正确预测的实例比例,即(TP+TN)/(TP+FN+TN+FP)。
具体评估和分析预测步骤如下:
1、数据处理:
原始数据集经过删除处理之后不完整数据集包括8204个样本,完全数据集包含471个样本。根据本发明采用数据集具有形式为:每行表示为一个病人的信息,每列表示为其一特征信息,如ID,组别,性别,年龄,CRP,FG等,数据集格式如表格1。
通过数据样本选择和特征筛选,最终生成数据集包含的8675行,11列特征,如表1所示。
表1数据集样表
Figure BDA0001853860610000121
2、最优模型数据
将不完整数据集随机分为训练集(5742),验证集(2462),比例为7:3,完整数据集作为测试集(471),得到最优模型参数如表2所示。
表2四个基础模型的最优模型参数
Figure BDA0001853860610000122
Figure BDA0001853860610000131
3、选择分类阀域t
用最优参数模型预测验证集,在[0,1]范围内随机生成若干个分类阀域,计算可得对应敏感性、特异性和正确率,并绘制ROC曲线图,如图2~5所示。选取靠近曲线左上角并使得敏感性、特异性和正确率较优的分类阀域t=(0.47,0.5,0.5,0.5)。分类阀域t为患病风险临界。高于此值初步预测为川崎病高风险;低于此值初步预测为川崎病低风险。
4、对预测结果进行概率化打分并分类:
训练集结果如表3所示,本实验中,训练集包括5742人。
表3训练集分类得分和预测分类结果
Figure BDA0001853860610000132
测试集结果如表4所示,本实验中,测试集包括471人。
表4测试集分类得分和预测分类结果
Figure BDA0001853860610000133
其中,在预测分类一栏中,1表示预测为川崎病患者,0表示预测为非川崎病患者。
5、计算测试样本数据的二类后验概率,并进行预测分析
计算测试样本数据的二类后验概率,并对样本进行预测KDx,KDx=PI-PII,KDx>0为川崎病,KDx<0为非川崎病,结果参考表5、表6。
表5测样样品评估结果
ID KD ... P<sub>I</sub> P<sub>II</sub> KDx 评估结果
1 患病 ... 0.0271 0.0000 >0 川崎病
2 不患病 ... 0.0002 0.0181 <0 非川崎病
... ... ... ... ... ... ...
471 患病 ... 0.0271 0.0000 >0 川崎病
表6测样样品评估结果的敏感性、特异性和准确性结果
Figure BDA0001853860610000141
实验结果
由测试集数据的真实分类情况可知:278人患有川崎病,193为普通发热。将测试集数据运用到最终模型中,以其观测值预测其响应值的分类后验概率PI、PII(如表5所示),并对该结果进行划分,得到结果:321人被预测为患有川崎病,150人被预测为普通发热。与测试集中的真实分类比较可得:真正类(TP)为275人,真负类(TN)为147人,假正类(FP)为46人,假负类(FN)为3人(如表6所示)。
由测试分类结果可得:敏感性(sensitivity)为98.92%,特异性(specificity)为76.17%,阳性预测值(PPV)为85.67%,正确性为87.26%。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
本发明通过提供一种基于集成学习的川崎病风险评估模型的构建方法及构建系统,使用与川崎病相关的医疗数据进行系统的统计分析、建模,并给出模型评价方法,有效的避免了现有诊断方式中因没有高敏感性和特异性的诊断方案而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生,使患者发病早期就得以确诊,协助医生进行有效的预防、干预和治疗。本发明采用集成学习的方法进行川崎病风险评估模型的构建,采用随机森林,boosting,线性模型和神经网络为基础分类器,再通过朴素贝叶斯算法进行整合,有效的解决了大多数分类器过拟合的问题,扬长避短,使评估模型更为精准。无论在理论还是实践方面,集成学习都已经被证明可以达到比单个机器学习模型更好的水平。
同时,本发明数据样本量庞大,优势突出(原始数据集经过删除处理之后不完整数据集包括8204个样本,完全数据集包含471个样本)。保证了模型样本数据评估的精确性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于集成学习的川崎病风险评估模型的构建方法,其特征在于:所述方法包括以下步骤:
(1)数据样本选择步骤:从样本数据集中提取可用于建模及模型评估的有效样本;
(2)特征筛选步骤:从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;
(3)构建步骤:采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阈值t;
(4)构造新数据集步骤:根据(3)得到的川崎病患病风险预测基础模型,及分类阈值t,进行新数据集的构造;
(5)整合步骤:通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小,即获得基于集成学习的川崎病风险评估模型;
其中,构建步骤具体包括:
3.1现有不完整数据集和完整数据集:将不完整数据集随机分割为训练集、验证集,并以完整数据集作为测试集;
3.2在训练集上进行基础模型建构;
3.2.1.使用随机森林算法拟合训练集进行模型构建,根据袋外误差,记录最优模型参数:
3.2.1.1随机选取训练集的三分之二用于训练模型,使用随机森林方法,以不同的参数值重复建立随机森林模型;
3.2.1.2将剩余三分之一的观测值作为袋外观测值,利用袋外观测值,在步骤3.2.1.1所建立的每一个模型中,预测袋外观测值的响应值,记录预测误差;
3.2.1.3比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.2使用Boosting算法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.2.1将训练集数据平均分为十部分;
3.2.2.2取其中九折数据,使用Boosting的方法进行拟合,得到模型;
3.2.2.3利用步骤3.2.2.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.2.4改变参数,重复步骤3.2.2.2~3.2.2.3;
3.2.2.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.3使用线性模型拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.3.1将训练集数据平均分为十部分;
3.2.3.2取其中九折数据,使用logistic的方法进行拟合,得到模型:
Figure FDA0003354724190000021
其中p(X)表示事件发生概率,X表示样本是否发生事件,β0及β=(β1,β2,...,βn)为模型系数,n为进入到模型中的变量个数;
3.2.3.3利用步骤3.2.3.2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.3.4改变参数,重复步骤3.2.3.2~3.2.3.3;
3.2.3.5比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.2.4使用神经网络算法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数:
3.2.4.1对整体样本离差标准化,将样本数据压缩到[0,1]区间内,并消除量纲:
Figure FDA0003354724190000022
其中,xi为第i个特征向量,maxi、mini分别为第i个特征向量的最大值、最小值,xi *代表经过变换后的特征向量;
3.2.4.2将训练集数据平均分为十部分;
3.2.4.3取其中九折数据,使用神经网络的方法进行拟合,得到模型;
3.2.4.4利用步骤3.2.4.3所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
3.2.4.5改变参数,重复步骤3.2.4.3~3.2.4.4;
3.2.4.6比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数;
3.3根据ROC曲线使用验证集计算四个基础模型的模型分类阈值t=(tRFM,tBSTM,tGLM,tNNET):
3.3.1利用所述四个基础模型分别得到的最优参数模型,在训练集上建立最优模型;
3.3.2使用验证集观测值,在利用所述四个基础模型分别得到的最优参数模型上进行预测,得到分类得分;
3.3.3在[0,1]范围内,选取不同数值作为分类阈值,对步骤3.3.2所得分类得分进行划分;
3.3.4计算不同分类阈值下,预测的敏感性、特异性和正确率,并绘制ROC曲线图,选择分类阈值t;
其中,tRFM表示基于随机森林算法得到的分类阈值,tBSTM表示基于Boosting算法得到的分类阈值,tGLM表示基于线性模型算法得到的分类阈值,tNNET表示基于神经网络算法得到的分类阈值。
2.根据权利要求1所述的构建方法,其特征在于所述方法步骤(1)中数据样本选择步骤按照如下步骤进行:
(1.1)根据2017年美国心脏病协会制定的川崎病诊断标准将样本分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;
(1.2)对重复数据进行删除处理;
(1.3)对数据量不足80%的指标进行删除处理;
(1.4)对残缺、错误数据进行中位数填充。
3.根据权利要求2所述的构建方法,其特征在于
所述数据样本来源于医院在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。
4.根据权利要求1所述的构建方法,其特征在于所述方法步骤(2)中10项特征包括:性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。
5.根据权利要求1所述的构建方法,其特征在于所述方法步骤(3)中预先将所述有效样本的不完整数据集随机分割为训练集和验证集,并以完整数据集作为测试集,训练集和验证集的分割比例为1∶1~10∶1。
6.根据权利要求1所述的构建方法,其特征在于所述方法步骤(3)分类阈值t为患病风险临界值,高于此值初步预测为川崎病高风险;低于此值初步预测为川崎病低风险。
7.根据权利要求1所述的构建方法,其特征在于所述方法步骤(4)中构造新数据集步骤包括:
1)将不完整数据集中训练集和测试集分别投入到四个川崎病患病风险预测基础模型中进行预测,得到分类得分;
2)根据四个川崎病患病风险预测基础模型的分类阈值t值将预测结果进行分类,分别得到新数据集的训练集和测试集。
8.根据权利要求1所述的构建方法,其特征在于所述方法步骤(5)中获得测试集中每个样本的二类后验概率,比较每个样本的二类后验概率的差值,确定测试集样本进行预测分类,当差值大于0表示川崎病,差值小于0为非川崎病。
9.一种基于集成学习的川崎病风险评估模型的构建系统,其应用于权利要求1-8中任一项所述的构建方法,其包括:
数据采集模块,至少用于数据采集,获取样本数据集;
数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;以及从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的至少10项特征;
基础模型构建模块,至少用于采用随机森林、Boosting、线性模型和神经网络算法构建川崎病患病风险预测基础模型及分类阈值t;
整合模块,至少用于通过四个川崎病患病风险预测基础模型对新数据集采用朴素贝叶斯算法进行验证,获得分类的先验概率,以及对每种模型的预测情况进行匹配,获得二分类的后验概率;根据二类后验概率的比较结果评估川崎病风险的风险大小。
10.一种川崎病风险评估系统,其特征在于包括:
输入模块,至少用于输入待评估数据;
由权利要求1-8中任一项所述方法构建得到的川崎病风险评估模型,至少用于对该待评估数据进行评估;
显示模块,至少用于显示评估结果,即KDx评分。
CN201811306908.XA 2018-11-05 2018-11-05 基于集成学习的川崎病风险评估模型的构建方法及系统 Active CN109065171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811306908.XA CN109065171B (zh) 2018-11-05 2018-11-05 基于集成学习的川崎病风险评估模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811306908.XA CN109065171B (zh) 2018-11-05 2018-11-05 基于集成学习的川崎病风险评估模型的构建方法及系统

Publications (2)

Publication Number Publication Date
CN109065171A CN109065171A (zh) 2018-12-21
CN109065171B true CN109065171B (zh) 2022-02-08

Family

ID=64789170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811306908.XA Active CN109065171B (zh) 2018-11-05 2018-11-05 基于集成学习的川崎病风险评估模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN109065171B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354464B (zh) * 2018-12-24 2024-05-17 深圳先进技术研究院 Cad预测模型建立方法、装置以及电子设备
CN109785961A (zh) * 2018-12-29 2019-05-21 上海依智医疗技术有限公司 一种判别哮喘的设备
CN109785960A (zh) * 2018-12-29 2019-05-21 上海依智医疗技术有限公司 一种判别哮喘的方法及装置
CN109784561A (zh) * 2019-01-15 2019-05-21 北京科技大学 一种基于集成学习的浓密机底流浓度预测方法
CN110277147A (zh) * 2019-04-25 2019-09-24 胡盛寿 一种实现病案诊断智能化编目的系统及方法
CN110415824B (zh) * 2019-07-30 2023-05-09 广东工业大学 脑卒中风的患病风险评估装置和设备
CN111508603A (zh) * 2019-11-26 2020-08-07 中国科学院苏州生物医学工程技术研究所 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备
CN111524600A (zh) * 2020-04-24 2020-08-11 中国地质大学(武汉) 基于neighbor2vec的肝癌术后复发风险预测系统
CN115148319A (zh) * 2022-07-25 2022-10-04 哈尔滨理工大学 多临床分期疾病的辅助分类方法、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727537A (zh) * 2009-11-16 2010-06-09 杭州电子科技大学 基于双视角信息融合的乳腺cr图像的计算机确定方法
US10358676B2 (en) * 2015-04-03 2019-07-23 Kaohsiung Chang Gung Memorial Hospital Methods and kits for detecting Kawasaki disease
CN107194137B (zh) * 2016-01-31 2023-05-23 北京万灵盘古科技有限公司 一种基于医疗数据建模的坏死性小肠结肠炎分类预测方法
CN106339593B (zh) * 2016-08-31 2023-04-18 北京万灵盘古科技有限公司 基于医疗数据建模的川崎病分类预测方法
CN106960123A (zh) * 2017-03-17 2017-07-18 苏州大学附属儿童医院 川崎病的冠脉损伤并发症的预测方法及预测系统
US10963737B2 (en) * 2017-08-01 2021-03-30 Retina-Al Health, Inc. Systems and methods using weighted-ensemble supervised-learning for automatic detection of ophthalmic disease from images
CN107564580B (zh) * 2017-09-11 2019-02-12 合肥工业大学 基于集成学习的胃镜图像辅助处理系统及方法
CN108573753A (zh) * 2018-04-26 2018-09-25 葛晓雪 一种融合Bagging的XGboost慢性肾病分期预测算法

Also Published As

Publication number Publication date
CN109065171A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109065171B (zh) 基于集成学习的川崎病风险评估模型的构建方法及系统
Parisi et al. Feature-driven machine learning to improve early diagnosis of Parkinson's disease
Ahmadi et al. Diseases diagnosis using fuzzy logic methods: A systematic and meta-analysis review
Huang et al. An empirical evaluation of deep learning for ICD-9 code assignment using MIMIC-III clinical notes
Badnjevic et al. An expert diagnostic system to automatically identify asthma and chronic obstructive pulmonary disease in clinical settings
CN109273093B (zh) 一种川崎病风险评估模型的构建方法及构建系统
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
CN109243604B (zh) 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统
Kumar et al. A novel multimodal fusion framework for early diagnosis and accurate classification of COVID-19 patients using X-ray images and speech signal processing techniques
CN109273094B (zh) 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
Li et al. Identifying informative risk factors and predicting bone disease progression via deep belief networks
CN109215781B (zh) 一种基于logistic算法的川崎病风险评估模型的构建方法及构建系统
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
Chang et al. The study that applies artificial intelligence and logistic regression for assistance in differential diagnostic of pancreatic cancer
Thomas et al. Diabetic retinopathy diagnostics from retinal images based on deep convolutional networks
Dhindsa et al. Grading prenatal hydronephrosis from ultrasound imaging using deep convolutional neural networks
Półchłopek et al. Quantitative and temporal approach to utilising electronic medical records from general practices in mental health prediction
JP7365747B1 (ja) 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム
Nissimagoudar et al. AlertNet: Deep convolutional-recurrent neural network model for driving alertness detection
Deepa et al. Experimental evaluation of artificial intelligence assisted heart disease prediction using deep learning principle
Wang et al. Prediction of target range of intact parathyroid hormone in hemodialysis patients with artificial neural network
Mohammed et al. Corona Virus Detection and Classification with radiograph images using RNN
CN113450919A (zh) 心衰预警模型的构建方法、构建系统和心衰预警装置
Maini et al. Determination of significant features for building an efficient heart disease prediction system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181221

Assignee: Shanghai Qianbei Medical Technology Co.,Ltd.

Assignor: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

Contract record no.: X2020980002296

Denomination of invention: Kawasaki disease risk assessment model building method and system based on ensemble learning

License type: Common License

Record date: 20200518

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210706

Address after: 201600 room 406, no.6, Lane 1015, Longteng Road, Songjiang District, Shanghai

Applicant after: Daozhi precision medicine technology (Shanghai) Co.,Ltd.

Address before: Unit 426, A2 Floor, 218 Xinghu Street, Suzhou Industrial Park, Jiangsu Province

Applicant before: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Shanghai Qianbei Medical Technology Co.,Ltd.

Assignor: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

Contract record no.: X2020980002296

Date of cancellation: 20231218