CN109273094B - 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统 - Google Patents

一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统 Download PDF

Info

Publication number
CN109273094B
CN109273094B CN201811083865.3A CN201811083865A CN109273094B CN 109273094 B CN109273094 B CN 109273094B CN 201811083865 A CN201811083865 A CN 201811083865A CN 109273094 B CN109273094 B CN 109273094B
Authority
CN
China
Prior art keywords
model
data
kawasaki disease
risk assessment
boosting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811083865.3A
Other languages
English (en)
Other versions
CN109273094A (zh
Inventor
丁国徽
贾佳
李光
徐重飞
周珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daozhi precision medicine technology (Shanghai) Co.,Ltd.
Original Assignee
Daozhi Precision Medicine Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daozhi Precision Medicine Technology Shanghai Co ltd filed Critical Daozhi Precision Medicine Technology Shanghai Co ltd
Priority to CN201811083865.3A priority Critical patent/CN109273094B/zh
Publication of CN109273094A publication Critical patent/CN109273094A/zh
Application granted granted Critical
Publication of CN109273094B publication Critical patent/CN109273094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本发明公开了一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统。所述构建方法包括:从样本数据集中提取可用于建模评估的有效样本;从有效样本的特征集合中筛选出符合现场医疗辅助诊断应用的10项特征;将有效样本的不完整数据集随机分割为训练集和验证集;使用Boosting的方法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数;根据ROC曲线使用验证集计算模型分类阈值t,从而构建得到川崎病风险评估模型。本发明还构建相应的川崎病风险评估系统应用于对待评估数据进行评估,得到KDx评分。本发明有助于降低川崎病的误诊率和漏诊率,使患者在发病早期可以获得有效的预防、干预和治疗。

Description

一种基于Boosting算法的川崎病风险评估模型的构建方法及 构建系统
技术领域
本发明涉及一种模型的构建方法,具体来说涉及一种基于Boosting算法的预测川崎病风险的评估模型的构建方法、构建系统,以及评估系统,属于风险评估模型构建技术领域。
背景技术
川崎病又称小儿皮肤黏膜淋巴结综合征,是一种以全身血管炎为主要病变的急性发热出疹性疾病,高发年龄为5岁以下婴幼儿,男多于女,由于可发生严重心血管并发症而引起人们重视。川崎病以持续发热为最常见症状,临床表现与常见疾病如肺炎等相似,容易造成漏诊或误诊,可能遗留冠状动脉损害,甚至威胁生命,是儿童后天性心脏病最常见病因,也是成年后缺血性心脏病的危险因素。川崎病的治疗时机能明显影响预后,及时诊治,是避免冠状动脉病变的关键。
目前的诊断依据必须发热≥5天,且需要等待临床症状出现,辅以实验室诊断和超心电图检查,容易使患儿错过最佳治疗时间。目前尚没有特异性的诊断方法,容易造成患儿漏诊,误诊的发生,临床治疗延误,进而造成更大的危害。因此,研发灵敏度高,特异性强的诊断方式成为川崎病诊疗的中急需满足的需求。
基于医疗数据建模的川崎病患病预测模型可以辅助评估,有助于降低其漏诊率和误诊率,进一步指导其后续治疗过程。目前存在的基于数据的川崎病分类模型多采用线性方法,典型代表为逻辑回归分析方法。因其敏感性、特异性不足而造成川崎病患者漏诊、误诊情况,从而延误患者治疗。
因此,如何对现有的川崎病患病预测模型进行优化,构建一种具有高敏感性、特异性的风险评估模型,已然成为业界研究人员长期以来一直努力的方向。
发明内容
本发明的主要目的在于提供一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统,以克服现有技术中的不足。
本发明的另一目的还在于提供一种基于Boosting算法的川崎病风险评估系统。
为实现前述发明目的,本发明采用的技术方案包括:
本发明实施例提供了一种基于Boosting算法的川崎病风险评估模型的构建方法,其包括:
从样本数据集中提取可用于建模评估模型的有效样本;
从所述有效样本的特征集中筛选出符合现场医疗辅助诊断应用的10项特征;
将所述有效样本的不完整数据集随机分割为训练集和验证集;
使用Boosting的方法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数;同时,根据ROC曲线使用验证集计算模型分类阈值t,从而构建得到川崎病风险评估模型,其中,所述Boosting算法的类型包括XGBoosting、AdaBoosting或GBM。
本发明实施例还提供了一种基于Boosting算法的川崎病风险评估模型的构建系统,应用于前述的构建方法,其包括:
数据采集模块,至少用于数据采集,获取样本数据集;
数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;
模型构建模块,至少用于将所述有效样本的不完整数据集随机分割为训练集和验证集,并使用Boosting的方法拟合训练集,采用十折交叉验证法,记录最优模型参数;
阈值计算模块,至少用于根据ROC曲线使用验证集计算模型分类阈值。
本发明实施例还提供了由前述方法构建得到的基于Boosting算法的川崎病风险评估模型。
本发明实施例还提供了一种基于Boosting算法的川崎病风险评估系统,其包括:
输入模块,至少用于输入待评估数据;
由前述方法构建得到的基于Boosting算法的川崎病风险评估模型,至少用于对该待评估数据进行评估;
显示模块,至少用于显示评估结果,即KDx评分。
1)与现有技术相比,本发明提供的基于Boosting算法的川崎病风险评估模型构建方法及系统,使用与川崎病相关的医疗数据进行系统的统计分析、建模,并给出模型评价方法,Boosting克服了大多数分类器产生的过拟合问题,是一种表现极好的集成分类器,通过该模型能够基于已有的川崎病医疗数据,对疑似川崎病的患者进行科学有效的辅助评估,有助于降低其误诊率和漏诊率,使患者在发病早期可以获得有效的预防、干预,并科学可靠地指导后续治疗过程,为达到最佳治疗效果提供依据,有效地避免了现有诊断方式中因没有高敏感性和特异性的评估模型而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生;
2)出于对诊断用时的考虑,本发明所选特征项的检测用时较短,大大缩短医生诊断所用时间。并且,特征项选取较少,降低检测所用成本。
3)本发明数据样本量庞大,优势突出。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单的介绍,显而易见地,下面描述的附图仅仅作为本文发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明的一典型实施例中一种基于Boosting算法的川崎病风险评估模型的构建方法的流程示意图。
图2是本发明实施例1中基于Boosting算法的川崎病风险评估模型的ROC曲线图。
具体实施方式
如前所述,鉴于现有技术的不足,本案发明人经长期研究和大量实践,得以提出本发明的技术方案。下面结合附图以及本发明的实施例对一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统等作进一步详细的说明。本发明的保护内容包含但不局限于以下实施案例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
本发明中所使用的Boosting是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。Boosting是一种提高任意给定学习算法准确度的方法。它的思想起源于Valiant提出的PAC(ProbablyApproximatelyCorrect)学习模型。
本发明主要基于电子病例中的医疗数据进行建模,使用数据中蕴含的信息对病人患有川崎病的风险进行评估,并将评估结果进行数字化描述,即得到KDx评分。本发明包括针对医疗数据进行建模的数据处理流程和进行川崎病分类预测、分析、数字化等重要方法和结果。本发明结合了医疗数据和数据挖掘方法,是医疗数据与大数据分析方法结合的一种创新,本发明在一定程度上填补了国内医疗数据研究的空白,在利用医疗数据进行川崎病辅助检测分析方面具有创新性。
本发明实施例的一个方面提供的一种基于Boosting算法的川崎病风险评估模型的构建方法,其包括:
从样本数据集中提取可用于建模评估模型的有效样本;
从所述有效样本的特征集中筛选出符合现场医疗辅助诊断应用的10项特征;
将所述有效样本的不完整数据集随机分割为训练集和验证集;
使用Boosting的方法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数;同时,根据ROC曲线使用验证集计算模型分类阈值t,从而构建得到川崎病风险评估模型,其中,所述Boosting算法的类型包括但不限于XGBoosting、AdaBoosting或GBM等类型。
在一些实施例中,所述构建方法包括:
第一步:数据样本选择;从样本数据集中提取可用于建模及模型评估的有效样本;
第二步:特征筛选;从构建样本数据的特征集中筛选出符合现场医疗辅助诊断应用的10项特征;其具体步骤如下:
1.在训练集上计算数据集合的熵记为entropy(D):
Figure GDA0003266457830000041
其中,K为类别数,
Figure GDA0003266457830000051
为第k个类别在训练集上所占比例;
2.在训练集上,以初始参数建立Boosting模型,计算训练数据被一个特征变量划分后的熵,并将结果记录在矩阵GINI中:
Figure GDA0003266457830000052
其中,Vi表示第i个特征,K为类别数,
Figure GDA0003266457830000053
表示第i个特征向量的数据被划分后第j个部分中第k类所占比例;
3.计算训练集被每个特征变量划分后的信息增益:
Gain=entropy(D)-entropy(D|Vi);
4.根据步骤3所得结果,并结合在实际应用于现场医疗辅助诊断中,取得各项特征值所用时间较短者,进行综合比较得到符合现场医疗辅助诊断应用的10项特征。
第三步:川崎病患病风险预测模型构建;采用Boosting的方法进行模型构建,其步骤如下:
(1)现有不完整数据集和完整数据集:将不完整数据集随机分割为训练集Xrain、验证集Xderivation,比例为1:1~10:1,并以完整数据集作为测试集Xtest;
(2)使用Boosting的方法拟合Xtrain数据集进行模型构建,采用十折交叉验证法,记录最优模型参数,其具体步骤如下:
1.将训练集数据平均分为十部分其中九折数据;
2.取其中九折数据,使用Boosting的方法进行拟合,得到模型;
3.利用步骤2所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
4.改变参数,重复步骤2~3;
5.比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数。
(3)根据ROC曲线使用验证集计算模型分类阈值t,阈值t计算具体步骤如下:
1.利用最优参数模型,在训练集上建立最优模型;
2.使用验证集观测值,在模型上进行预测,得到分类得分;
3.在[0,1]范围内,选取不同数值作为分类阀阈值,对步骤2所得分类得分进行划分;
4.计算不同分类阀域下,预测的敏感度、特异度和正确率,并绘制ROC曲线图;
5.根据ROC曲线图选取使得同时满足预测的敏感度、特异度和正确率较优的分类阀域。
在一些实施例中,所述10项特征分别为:
A.性别;
B.年龄;
C.C-反应蛋白浓度(CRPg/L);
D.纤维蛋白原浓度(FGg/L);
E.白蛋白浓度(ALBg/L);
F.球蛋白浓度(GLBg/L);
G.补体C3浓度(C3g/L);
H.免疫球蛋白G浓度(IgGg/L);
I.前白蛋白PAB浓度(PABg/L);
J.白球比例(A/G)。
在一些实施例中,训练集(Xrain)与验证集(Xderivation)的分割比例为1:1~10:1。
在一些实施例中,所述构建方法包括:根据ROC曲线使用验证集计算得到模型分类阈值t,KDx评分高于此分类阈值t预测为川崎病高风险,数值越高,代表川崎病患病概率越大;低于此分类阈值t预测为川崎病低风险,数值越低,代表川崎病患病概率越小。
进一步地,所述构建方法还包括:以完整数据集作为测试集(Xtest),对构建得到的川崎病风险评估模型进行测试。根据计算所得分类阀域t,进行测试集样本的预测分析。
例如,更具体的,根据训练集构建预测模型并对测试集数据进行预测的步骤包括:
1)使用拟合训练集得到的最优Boosting预测模型,对测试集中每个病人预测其分类得分,即KDx评分。分类得分大于t为川崎病患病高风险患者,分类得分小于t为川崎病患病低风险患者;
2)根据测试集的分类得分计算此模型在辅助川崎病诊断中的敏感性、特异性和准确性。
例如,在一些更为具体的实施方案中,获得可用于构建评估模型的有效样本的过程包括:
(a)根据2017年美国心脏病协会(AHA)制定的川崎病诊断标准将样本数据分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本数据进行删除处理;
(b)对重复数据进行删除处理;
(c)对数据量不足80%的指标进行删除处理;
(d)对残缺、错误数据进行中位数填充,从而获得可用于构建评估模型的有效样本。
本发明使用的医疗数据即样本数据集,来源于医院EDC在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据、标本分子检测数据等多维数据。
在一些更为具体的实施方案中,参见图1所示,一种基于Boosting算法的川崎病风险评估模型的构建方法,具体步骤如下:
1、样本选择
原始数据集为dataset1,不具有明确诊断结果、重复数据、数据量不足80%的病人被从数据集中移除,此时数据集为dataset2。
2、特征筛选
对于dataset2进行特征筛选,通过信息增益计算浏览各特征变量的重要性,删去信息增益接近0的特征变量,同时考虑到特征项数值获得时间长短,取获得时间较短的特征项,此时数据集为dataset3。
3、川崎病分类模型构建
1)现有不完整数据集和完整数据集:将不完整数据集随机分割为训练集Xrain、验证集Xderivation,比例为1:1~10:1,并以完整数据集作为测试集Xtest;
2)使用Boosting的方法拟合Xtrain数据集进行模型构建,采用十折交叉验证法,记录最优模型参数;
3)根据ROC曲线使用验证集计算模型分类阈值t。
本发明实施例的另一个方面还提供了一种基于Boosting算法的川崎病风险评估模型的构建系统,应用于前述的构建方法,其包括:
数据采集模块,至少用于数据采集,获取样本数据集;
数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;
模型构建模块,至少用于将所述有效样本的不完整数据集随机分割为训练集和验证集,并使用Boosting的方法拟合训练集,采用十折交叉验证法,记录最优模型参数;
阈值计算模块,至少用于根据ROC曲线使用验证集计算模型分类阈值。
本发明实施例的另一个方面还提供了由前述方法构建得到的基于Boosting算法的川崎病风险评估模型。
相应的,本发明实施例的另一个方面还提供了一种基于Boosting算法的川崎病风险评估系统,其包括:
输入模块,至少用于输入待评估数据;
由前述方法构建得到的基于Boosting算法的川崎病风险评估模型,至少用于对该待评估数据进行评估;
显示模块,至少用于显示评估结果,即KDx评分。
综上所述,本发明的模型构建方法及系统,使用与川崎病相关的医疗数据进行系统的统计分析、建模,并给出模型评价方法,通过该模型能够基于已有的川崎病医疗数据,对疑似川崎病的患者进行科学有效的辅助评估,有助于降低其误诊率和漏诊率,使患者在发病早期可以获得有效的预防、干预,并科学可靠地指导后续治疗过程,为达到最佳治疗效果提供依据,有效地避免了现有诊断方式中因没有高敏感性和特异性的评估模型而造成川崎病患者漏诊、误诊情况,防止延误患者治疗情况的发生。
为使本发明的目的、技术方案和优点更加清楚,下面结合若干优选实施例对本发明的技术方案进行进一步具体描述,但本发明并不仅仅局限于下述实施例,该领域技术人员在本发明核心指导思想下做出的非本质改进和调整,仍然属于本发明的保护范围。
实施例1:
为了验证本发明一种基于Boosting算法的川崎病风险评估模型的构建系统的有效性,本实施例选取时间范围为2008.7-2018.3电子病例中42498个病人数据。本实施例采用xgboosting方法。
1、数据处理:
原始数据集经过删除处理之后不完整数据集包括8204个样本,完全数据集包含471个样本。根据本发明采用数据集具有形式为:每行表示为一个病人的信息,每列表示为其一特征信息,如ID,组别,性别,年龄,CRP,FG等,数据集格式如表格1。
通过数据样本选择和特征筛选,最终生成数据集包含的8675行,11列特征,如表1所示。
表1
Figure GDA0003266457830000091
2、最优模型数据
将不完整数据集随机分为训练集(5742),验证集(2462),比例为7:3,完整数据集作为测试集(471),得到最优模型参数如表2所示:
表2
Figure GDA0003266457830000092
3、选择分类阀域t
用最优参数模型预测验证集,在[0,1]范围内自动随机生成2109个分类阀域,计算可得对应敏感度、特异度和正确率,并绘制ROC曲线图,如图2所示。
选取靠近曲线左上角并使得敏感度、特异度和正确率较优的分类阀域t=0.5。
4、对预测结果进行数字化打分
以上模型将作为一种川崎病患病风险评估系统,将测试集中的观测值应用到该系统中进行预测。
测试集结果如表3-1和表3-2所示,本实验中,测试集包括471人。
表3-1
Figure GDA0003266457830000101
表3-2
Figure GDA0003266457830000102
附注:关于分类问题一些指标解释,对于二分类问题,定义两个分类分别为正类和负类,正类中的每一个对象成为正实例,负类中的每一个对象成为负实例。通常,在预测川崎病时,川崎病样本为正类,其他发烧患者为负类。使用分类模型对测试样本进行预测,会有四种情况,如果一个实例是正类并被预测为真正类(truepositive,TP),如果实例是负类被预测为正类,称之为假正类(falsepositive,FP)。相应的,如果实例是负类被预测为负类,称之为真负类(truenegative,TN),正实例被预测为负类则为假负类(falsenegative,FN)。
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类数目;
TN:负实例预测为负类数目;
敏感性(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN);
特异性(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP);
阳性预测值(positivepredictivevalue,PPV):预测为正类的实例中,正实例占得比例,即TP/(TP+FP)。
正确性:在全部实例中被正确预测的实例比例,即(TP+TN)/(TP+FN+TN+FP)。
实验结果
由测试集数据的真实分类情况可知:278人患有川崎病,193为普通发热。将测试集数据运用到最优Boosting模型中,以其观测值预测其响应值的分类概率KDx(如表3-1所示),并根据分类阀域t=0.5对该结果进行划分,得到结果:276人被预测为患有川崎病,195人被预测为普通发热。与测试集中的真实分类比较可得:真正类(TP)为256人,真负类(TN)为173人,假正类(FP)为20人,假负类(FN)为22人(如表3-2所示)。
由测试分类结果可得:敏感度(sensitivity)为92.09%,特异性(specificity)为89.64%,阳性预测值(PPV)为92.75%,正确性为91.08%。
综上所述,由以上数据,本发明一种川崎病患病风险评估系统,通过该模型能够基于已有的川崎病医疗数据,对疑似川崎病的患者进行科学有效的辅助评估,有助于降低其误诊率和漏诊率,使患者在发病早期可以获得有效的预防、干预,并科学可靠地指导后续治疗过程,为达到最佳治疗效果提供依据。出于对诊断用时的考虑,本发明所选特征项的检测用时较短,大大缩短医生诊断所用时间。并且,特征项选取较少,降低检测所用成本。本发明数据样本量庞大,优势突出,原始数据集经过删除处理之后不完整数据集包括8204个样本,完全数据集包含471个样本。
以上所述的实施例对本发明的技术方案进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充或类似方式替代等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于包括:
从样本数据集中提取可用于建模评估模型的有效样本;
从所述有效样本的特征集中筛选出符合现场医疗辅助诊断应用的10项特征;
将所述有效样本的不完整数据集随机分割为训练集和验证集;
使用Boosting的方法拟合训练集进行模型构建,采用十折交叉验证法,记录最优模型参数;同时,根据ROC曲线使用验证集计算模型分类阈值t,从而构建得到川崎病风险评估模型,其中,所述Boosting算法的类型包括XGBoosting、AdaBoosting或GBM;
其中,从所述有效样本的特征集中筛选出符合现场医疗辅助诊断应用的10项特征,具体包括:
步骤11.在训练集上计算数据集合的熵记为entropy(D):
Figure FDA0003266457820000011
其中,K为类别数,
Figure FDA0003266457820000012
为第k个类别在训练集上所占比例;
步骤12.在训练集上,以初始参数建立Boosting模型,计算训练数据被一个特征变量划分后的熵,并将结果记录在矩阵GINI中:
Figure FDA0003266457820000013
其中,Vi表示第i个特征,K为类别数,
Figure FDA0003266457820000014
表示第i个特征向量的数据被划分后第j个部分中第k类所占比例;
步骤13.计算训练集被每个特征变量划分后的信息增益:
Gain=entropy(D)-entropy(D|Vi);
步骤14.根据步骤13所得结果,并结合在实际应用于现场医疗辅助诊断中,取得各项特征值所用时间较短者,进行综合比较得到符合现场医疗辅助诊断应用的10项特征;
采用十折交叉验证法,记录最优模型参数,具体包括:
步骤21.将训练集数据平均分为十部分;
步骤22.取其中九折数据,使用Boosting的方法进行拟合,得到模型;
步骤23.利用步骤22所得模型,对剩余一折的数据集进行预测,并计算其预测误差;
步骤24.改变参数,重复步骤22~23;
步骤25.比较预测误差,记录使得预测误差最小的模型所对应的参数,作为最优模型参数。
2.根据权利要求1所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于:所述10项特征分别为性别、年龄、C-反应蛋白浓度、纤维蛋白原浓度、白蛋白浓度、球蛋白浓度、补体C3浓度、免疫球蛋白G浓度、前白蛋白浓度和白球比例。
3.根据权利要求1所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于:训练集与验证集的分割比例为1:1~10:1。
4.根据权利要求1所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于包括:根据ROC曲线使用验证集计算模型分类阈值t,KDx评分高于分类阈值t预测为川崎病高风险,低于分类阈值t预测为川崎病低风险。
5.根据权利要求1-4中任一项所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于还包括:以完整的数据集作为测试集,对构建得到的川崎病风险评估模型进行预测。
6.根据权利要求1所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于包括:
根据川崎病诊断标准将样本数据集分为川崎病和普通发热疾病两组,对不能明确诊断结果的样本进行删除处理;
对重复数据进行删除处理;
对数据量不足80%的指标进行删除处理;
对残缺、错误数据进行中位数填充,从而获得可用于构建评估模型的有效样本。
7.根据权利要求6所述的基于Boosting算法的川崎病风险评估模型的构建方法,其特征在于:所述样本数据集来源于医院在线电子病例录入系统,包括医嘱、检验、检查、病程、门诊病历数据、院外随访数据、多中心样本数据和标本分子检测数据。
8.一种基于Boosting算法的川崎病风险评估模型的构建系统,其应用于权利要求1-7中任一项所述的构建方法,其包括:
数据采集模块,至少用于数据采集,获取样本数据集;
数据处理模块,至少用于从样本数据集中提取可用于构建评估模型的有效样本;
模型构建模块,至少用于将所述有效样本的不完整数据集随机分割为训练集和验证集,并使用Boosting的方法拟合训练集,采用十折交叉验证法,记录最优模型参数;
阈值计算模块,至少用于根据ROC曲线使用验证集计算模型分类阈值。
9.一种基于Boosting算法的川崎病风险评估系统,其特征在于包括:
输入模块,至少用于输入待评估数据;
由权利要求1-7中任一项所述方法构建得到的基于Boosting算法的川崎病风险评估模型,至少用于对该待评估数据进行评估;
显示模块,至少用于显示评估结果,即KDx评分。
CN201811083865.3A 2018-09-14 2018-09-14 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统 Active CN109273094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811083865.3A CN109273094B (zh) 2018-09-14 2018-09-14 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811083865.3A CN109273094B (zh) 2018-09-14 2018-09-14 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统

Publications (2)

Publication Number Publication Date
CN109273094A CN109273094A (zh) 2019-01-25
CN109273094B true CN109273094B (zh) 2021-11-12

Family

ID=65189646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811083865.3A Active CN109273094B (zh) 2018-09-14 2018-09-14 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统

Country Status (1)

Country Link
CN (1) CN109273094B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
CN110246577B (zh) * 2019-05-31 2021-04-30 深圳江行联加智能科技有限公司 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN110982890B (zh) * 2019-12-20 2020-12-25 首都儿科研究所附属儿童医院 一种用于预测儿童川崎病治疗反应性的试剂及其应用
CN111341439B (zh) * 2020-02-27 2023-09-26 江苏品生医疗科技集团有限公司 一种临床预测模型决策分析方法
CN117153424B (zh) * 2023-11-01 2024-02-23 北京遥领医疗科技有限公司 中心化疗效评估方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002305174A1 (en) * 2001-04-13 2002-10-28 Johns Hopkins University School Of Medicine Methods and compositions for identifying disease genes using nonsense-mediated decay inhibition
US10358676B2 (en) * 2015-04-03 2019-07-23 Kaohsiung Chang Gung Memorial Hospital Methods and kits for detecting Kawasaki disease
CN106295229A (zh) * 2016-08-30 2017-01-04 青岛大学 一种基于医疗数据建模的川崎病分级预测方法
CN106339593B (zh) * 2016-08-31 2023-04-18 北京万灵盘古科技有限公司 基于医疗数据建模的川崎病分类预测方法
CN107230108A (zh) * 2017-06-13 2017-10-03 北京百分点信息科技有限公司 业务数据的处理方法及装置

Also Published As

Publication number Publication date
CN109273094A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109273094B (zh) 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建系统
CN109215781B (zh) 一种基于logistic算法的川崎病风险评估模型的构建方法及构建系统
CN109273093B (zh) 一种川崎病风险评估模型的构建方法及构建系统
CN109065171B (zh) 基于集成学习的川崎病风险评估模型的构建方法及系统
CN109935336B (zh) 一种儿童呼吸科疾病的智能辅助诊断系统
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
CN109243604B (zh) 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统
Chetty et al. Role of attributes selection in classification of Chronic Kidney Disease patients
WO2023078025A1 (zh) 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN112419321B (zh) X射线图像识别方法、装置、计算机设备及存储介质
Ding et al. Mortality prediction for ICU patients combining just-in-time learning and extreme learning machine
Wei et al. Risk factors predict frequent hospitalization in patients with acute exacerbation of COPD
CN111883253A (zh) 基于医学知识库的疾病数据分析方法和肺癌风险预测系统
Pavithra et al. Hybrid feature selection technique for prediction of cardiovascular diseases
Nakhashi et al. Early Prediction of Sepsis: Using state-of-the-art machine learning techniques on vital sign inputs
Sudharson et al. Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms
Li et al. Real-Time Prediction of Sepsis in Critical Trauma Patients: Machine Learning–Based Modeling Study
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
Muller et al. Outcome prediction with serial neuron-specific enolase and machine learning in anoxic-ischaemic disorders of consciousness
CN113990489A (zh) 一种中医药临床证候诊疗智能数据处理和分析挖掘系统
He et al. Advancing polytrauma care: developing and validating machine learning models for early mortality prediction
Khozama et al. Study the Effect of the Risk Factors in the Estimation of the Breast Cancer Risk Score Using Machine Learning
CN109815615A (zh) 基于LightGBM模型的慢阻肺复发预测方法、装置和计算机设备
Luciani et al. Finding the needle by modeling the haystack: Pulmonary embolism in an emergency patient with cardiorespiratory manifestations
Holt et al. A nationwide adaptive prediction tool for coronary heart disease prevention.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190125

Assignee: Shanghai Qianbei Medical Technology Co.,Ltd.

Assignor: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

Contract record no.: X2020980002296

Denomination of invention: Boosting algorithm-based construction method and construction system of Kawasaki disease risk assessment model

License type: Common License

Record date: 20200518

TA01 Transfer of patent application right

Effective date of registration: 20210712

Address after: 201600 room 406, no.6, Lane 1015, Longteng Road, Songjiang District, Shanghai

Applicant after: Daozhi precision medicine technology (Shanghai) Co.,Ltd.

Address before: Unit 426, A2 Floor, 218 Xinghu Street, Suzhou Industrial Park, Jiangsu Province

Applicant before: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Shanghai Qianbei Medical Technology Co.,Ltd.

Assignor: BASEPAIR BIOTECHNOLOGY Co.,Ltd.

Contract record no.: X2020980002296

Date of cancellation: 20231218

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A construction method and system for a risk assessment model of Kawasaki disease based on Boosting algorithm

Granted publication date: 20211112

Pledgee: The Bank of Shanghai branch Caohejing Limited by Share Ltd.

Pledgor: Daozhi precision medicine technology (Shanghai) Co.,Ltd.

Registration number: Y2024980009123