发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种筛查效率高、防控能力强的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质。
为了实现上述目的,本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质如下:
该基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其主要特点是,所述的方法包括以下步骤:
(1)根据不同类别的采集标准,从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;
(2)对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;
(3)对处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;
(4)将所述的步骤(3)中计算评估所得的数据集进行样本分类和训练,生成决策树模型;
(5)对目前已获取得到的数据集进行采集扩充处理,得到合并数据集样本。
较佳地,所述的步骤(1)中所述的不同疾病类型的数据集包括:
新型冠状病毒肺炎患者数据集,其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
较佳地,所述的步骤(1)中所述的不同采集标准包括:
根据病原学检查阳性采集标准,采集所述的新型冠状病毒肺炎患者数据集;
根据ICD9和ICD10呼吸系统疾病编码采集标准,采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
较佳地,各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表;
(1.2)根据不同的疾病类型,对采集到的各项数据集按照类别进行标注,并将该标注字段加入到对应的数据集字段列表中。
尤佳地,所述的步骤(1.2)具体为:
将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)进行特征抽取处理,即如果获取的数据集为非结构化文本数据,则通过正则表达式、自然语言处理的方法抽取患者相关数据信息;如果获取的数据集为结构化文本数据,则核查该数据是否为数值型数据,若不是,则转换为数值型数据,否则,不进行任何处理;
(2.2)进行特征完整性核查处理,即对每个特征按照标签字段分类分别计算缺失率,若任一标签字段下缺失率大于80%,则删除该特征;
(2.3)进行特征选择处理,即如果采集到的相关数据为分类特征数据,则使用Cramer V系数法进行特征筛选,以获取分类特征数据与标签数据之间的相关性;如果采集到的相关数据为连续数值特征数据,则使用相关比法进行特征筛选,以获取特征数据与标签数据之间的相关比。
较佳地,所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息,并在对应的数据集字段列表中分别用1、0代表有无该症状。
更佳地,所述的步骤(2.3)中所述的使用Cramer V系数法进行特征筛选,具体包括以下步骤:
(2.3.a-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算样本数据的度量指标χ2:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数,χ2为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标;
(2.3.a-2)将上述计算出的χ2结合下列公式,计算需要将其进行校正的φ系数:
其中,N为计算样本个数,φ为降低样本个数N不同带来的误差的矫正指标;
(2.3.a-3)结合上述步骤通过以下公式计算V系数,该值越大则表示该分类特征与类别标签之间具有更大的相关性:
其中,V表示分类特征和类别标签之间的相关性度量,min表示最小值,r为选择的特征个数,c为标签的取值个数。
较佳地,如果所述的V系数小于阈值0.25,则删除该相应的特征,否则保留该特征。
更佳地,所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤:
(2.3.b-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算同类别间特征分布离散程度的度量,即组内变异系数SS组内:
其中,k为标签的类别数,n
1为类别下样本的数量,x
ij为第i个类别下第j个样本的取值,
为第i个类别下样本的均值;
(2.3.b-2)根据以下公式计算对不同类别间特征分布离散程度的度量,即组间变异系数SS组间:
(2.3.b-3)结合上述步骤计算特征数据与标签数据之间的相关比η:
较佳地,如果所述的相关比η小于阈值0.25,则删除该相应的特征,否则保留该特征。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)将所述步骤(2)处理后得到的数据计算每一个特征类别下的样本个数ni,i=1,2,3,…;
(3.2)计算经过所述的步骤(2)处理之后,仍然保留但未被删除的所有特征,即剩余特征集合{Fi},i=1,2,...,m的特征个数m;
(3.3)若特征个数满足min(n1,n2,n3)>100且m>3,则执行所述的步骤(4);否则,执行所述的步骤(5)。
较佳地,所述的步骤(4)具体为:
将所述步骤(3)处理所得的数据随机选取80%样本作为训练数据集D,用以训练生成所述的CART决策树,得到决策树T
1;将剩余20%样本作为测试数据集,使用所述的测试数据集输入所述的决策树T
1进行预测,计算预测准确率acc;重复上述步骤10次,计算平均预测准确率
设定准确率最低接受阈值thres1;若所述的平均预测准确率
大于最低接受阈值thres1,则保存10个决策树生成决策树模型MS;否则,执行步骤(5)。
较佳地,所述的最低接受阈值thres1的取值范围为大于0,小于1。
更佳地,训练生成所述的CART决策树具体包括以下步骤:
(4.1)使用所述的训练数据集D,提取该训练集样本中每一个数据所对应的特征Ai和该特征对应的取值aij,将所述的训练数据集D划分为D1和D2两部分,计算该对应特征Ai在aij处的基尼指数,所述的基尼指数通过以下公式进行计算:
其中,Gini(p)为样本点p的基尼指数,K为分类特征类别,k为标签的类别数,pk为样本点p在K个分类特征类别中的第k类标签类别中的概率;
(4.2)针对该训练数据集所有的分类特征集{Ai}和该分类特征集所对应的所有切分点取值集{aij},选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点,从该最优切分点生成两个子节点,将划分后的所述的数据集D1和D2分别分配到生成的两个子节点中;
(4.3)将所述的步骤(4.2)中所得的两个子节点递归的调用上述步骤(4.1)和(4.2)进行相应处理,直到满足停止条件E,从而生成所述的CART决策树。
较佳地,所述的步骤(4.3)中所述的停止条件E具体为:
节点中样本个数小于所述的最低接受阈值thres1,或样本集基尼指数小于所述的最低接受阈值thres1,或者无可用特征。
较佳地,所述的步骤(5)具体为:
采用步骤(1)所述的采集标准采集其他医院包含不同疾病类型的数据集,将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并,得到所述的合并数据集样本,并依次执行后续步骤。
该基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统,其主要特点是,所述的系统包括:
数据采集模块,根据不同类别的采集标准,所述的数据采集模块从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;
特征工程处理模块,与所述的数据采集模块相连接,所述的特征工程处理模块对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;
数据计算评估模块,与所述的特征工程处理模块相连接,所述的数据计算评估模块对进行特征处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;
决策树训练模块,与所述的数据计算评估模块相连接,所述的决策树训练模块将计算评估后所得的数据集进行数据样本分类,从而生成决策树模型;
数据集扩充模块,与所述的特征工程处理模块、数据计算评估模块以及决策树训练模块均相连接,所述的数据集扩充模块采集其他医院包含不同疾病类型的数据集,并与原始数据集进行合并扩充,得到合并数据集样本;
测试者风险预测模块,与所述的决策树训练模块和数据集扩充模块相连接,用于根据特定数据集采集到的所有特征数据实现对测试者的患病概率进行预测。
较佳地,所述的数据采集模块具体进行以下操作:
根据病原学检查阳性采集标准,采集新型冠状病毒肺炎患者数据集;根据ICD9和ICD10呼吸系统疾病编码采集标准,采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集;
各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息;
通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表;
根据不同的疾病类型,对采集到的各项数据集按照类别进行标注,并将该标注字段加入到对应的数据集字段列表中;
将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。
更佳地,所述的特征工程处理模块具体进行以下操作:
进行特征抽取处理:即如果获取的数据集为非结构化文本数据,则通过正则表达式、自然语言处理的方法抽取患者相关数据信息;如果获取的数据集为结构化文本数据,则核查该数据是否为数值型数据,若不是,则转换为数值型数据,否则,不进行任何处理;
进行特征完整性核查处理:即对每个特征按照标签字段分类分别计算缺失率,若任一标签字段下缺失率大于80%,则删除该特征;
进行特征选择处理:即如果采集到的相关数据为分类特征数据,则使用Cramer V系数法筛选进行特征筛选,以获取分类特征数据与标签数据之间的相关性;如果采集到的相关数据为连续数值特征数据,则使用相关比法筛选进行特征筛选,以获取特征数据与标签数据之间的相关比;
所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息,并在对应的数据集字段列表中分别用1、0代表有无该症状;
所述的使用Cramer V系数法进行特征筛选,具体包括以下处理过程:
使用分类特征字段和标签字段两列非空数据,通过以下公式计算样本数据的度量指标χ2:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数,χ2为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标;
将上述计算出的χ2结合下列公式,计算需要将其进行校正的φ系数:
其中,N为计算样本个数,φ为降低样本个数N不同带来的误差的矫正指标;
结合上述步骤通过以下公式计算V系数,该值越大则表示该分类特征与类别标签之间具有更大的相关性:
其中,V表示分类特征和类别标签之间的相关性度量,min表示最小值,r为选择的特征个数,c为标签的取值个数;
如果所述的V系数小于阈值0.25,则删除该相应的特征,否则保留该特征;
所述的使用相关比法进行特征筛选具体包括以下处理步骤:
使用分类特征字段和标签字段两列非空数据,通过以下公式计算同类别间特征分布离散程度的度量,即组内变异系数SS组内:
其中,k为标签的类别数,n
1为类别下样本的数量,x
ij为第i个类别下第j个样本的取值,
为第i个类别下样本的均值;
根据以下公式计算对不同类别间特征分布离散程度的度量,即组间变异系数SS组间:
结合上述步骤计算特征数据与标签数据之间的相关比η:
如果所述的相关比η小于阈值0.25,则删除该相应的特征,否则保留该特征。
较佳地,所述的数据计算评估模块具体进行以下操作:
将所述特征工程处理模块处理后得到的数据计算每一个特征类别下的样本个数ni,i=1,2,3,…,并计算经过所述的步骤(2)处理之后,仍然保留但未被删除的所有特征,即剩余特征集合{Fi},i=1,2,...,m的特征个数m,若特征个数满足min(n1,n2,n3)>100且m>3,则执行所述的决策树训练模块;否则,执行所述的数据集扩充模块。
较佳地,所述的决策树训练模块具体进行以下操作:
尤佳地,将所述数据计算评估模块处理所得的数据随机选取80%样本作为训练数据集D,用以训练生成所述的CART决策树,得到决策树T
1;将剩余20%样本作为测试数据集,使用所述的测试数据集输入所述的决策树T
1进行预测,计算预测准确率acc;重复上述步骤10次,计算平均预测准确率
设定准确率最低接受阈值thres1;若所述的平均预测准确率
大于最低接受阈值thres1,则保存10个决策树生成决策树模型MS;否则,执行数据集扩充模块;
较佳地,所述的最低接受阈值thres1的取值范围为大于0,小于1;
更佳地,训练生成所述的CART决策树具体包括以下处理过程:
使用所述的训练数据集D,提取该训练集样本中每一个数据所对应的特征Ai和该特征对应的取值aij,将所述的训练数据集D划分为D1和D2两部分,计算该对应特征Ai在aij处的基尼指数,所述的基尼指数通过以下公式进行计算:
其中,Gini(p)为样本点p的基尼指数,K为分类特征类别,k为标签的类别数,pk为样本点p在K个分类特征类别中的第k类标签类别中的概率;
针对该训练数据集所有的分类特征集{Ai}和该分类特征集所对应的所有切分点取值集{aij},选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点,从该最优切分点生成两个子节点,将划分后的所述的数据集D1和D2分别分配到生成的两个子节点中;
将上述处理过程中所得的两个子节点递归的调用上述处理过程进行相应处理,直到满足停止条件E,从而生成所述的CART决策树;
较佳地,所述的停止条件E具体为:
节点中样本个数小于所述的最低接受阈值thres1,或样本集基尼指数小于所述的最低接受阈值thres1,或者无可用特征。
较佳地,所述的数据集扩充模块具体进行以下操作:
根据所述的数据采集模块的采集标准采集其他医院包含不同疾病类型的数据集,将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并,得到所述的合并数据集样本,并依次执行后续步骤。
较佳地,所述的决策树训练模块生成的决策树模型具体为:
由10个决策树{T1,...,T10}组合生成的决策树模型MS={T1,...,T10}。
较佳地,所述的测试者风险预测模块具体包括以下处理:
采集未知检测者的特征数据集{F
i}中的全部特征数据,并将其放入所述的决策树模型MS中,计算由10个模型所得的平均患病概率
其中
为该测试者的新冠肺炎预测患病风险概率,
为该测试者的非新冠其他呼吸疾病预测患病风险概率,
为该测试者未患呼吸系统疾病概率。
该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,利用上述疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。
该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,利用上述疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的各个步骤。
采用了本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,通过多流程核心算法的操作处理,能够快速提取出测试者的相关疾病数据集的特征数据,用以实现后续操作;同时,本发明还涉及一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统,采用了本发明的该智能早诊系统能够对新型冠状病毒疑似患者进行早诊,帮助医院进行大规模快速疑似患者筛查,以及互联网用户单人自测,从而提高现有疑似患者早诊效率,延缓疫情扩散。其优点在于:首先,该系统和传统的基于专家经验的筛查方式不同,而是基于大数据和人工智能技术,从呼吸科医疗信息系统中挖掘患病高相关因素,能够自动抽取高危因子;然后,该方法能够在大规模居民进行疑似病例筛查时,辅助医疗机构进行更加高效、快速的实施,且更加节省人力;最后,本系统能够随着病例采集数量的增加会更加准确,且便于在不同医疗机构以及互联网端推广使用。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
请参阅图1所示,该基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,其中,所述的方法包括以下步骤:
(1)根据不同类别的采集标准,从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;
(2)对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;
(3)对处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;
(4)将所述的步骤(3)中计算评估所得的数据集进行样本分类和训练,生成决策树模型;
(5)对目前已获取得到的数据集进行采集扩充处理,得到合并数据集样本。
作为本发明的优选实施方式,所述的步骤(1)中所述的不同疾病类型的数据集包括:
新型冠状病毒肺炎患者数据集,其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
作为本发明的优选实施方式,所述的步骤(1)中所述的不同采集标准包括:
根据病原学检查阳性采集标准,采集所述的新型冠状病毒肺炎患者数据集;
根据ICD9和ICD10呼吸系统疾病编码采集标准,采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。
作为本发明的优选实施方式,各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。
作为本发明的优选实施方式,所述的步骤(1)具体包括以下步骤:
(1.1)通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表;
(1.2)根据不同的疾病类型,对采集到的各项数据集按照类别进行标注,并将该标注字段加入到对应的数据集字段列表中。
作为本发明的优选实施方式,所述的步骤(1.2)具体为:
将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
(2.1)进行特征抽取处理,即如果获取的数据集为非结构化文本数据,则通过正则表达式、自然语言处理的方法抽取患者相关数据信息;如果获取的数据集为结构化文本数据,则核查该数据是否为数值型数据,若不是,则转换为数值型数据,否则,不进行任何处理;
(2.2)进行特征完整性核查处理,即对每个特征按照标签字段分类分别计算缺失率,若任一标签字段下缺失率大于80%,则删除该特征;
(2.3)进行特征选择处理,即如果采集到的相关数据为分类特征数据,则使用Cramer V系数法进行特征筛选,以获取分类特征数据与标签数据之间的相关性;如果采集到的相关数据为连续数值特征数据,则使用相关比法进行特征筛选,以获取特征数据与标签数据之间的相关比。
作为本发明的优选实施方式,所述的连续数值特征指在一定区间内可以任意取值,相邻的两个数值可作无限分割的特征。
作为本发明的优选实施方式,所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息,并在对应的数据集字段列表中分别用1、0代表有无该症状。
作为本发明的优选实施方式,所述的步骤(2.3)中所述的使用Cramer V系数法进行特征筛选,具体包括以下步骤:
(2.3.a-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算样本数据的度量指标χ2:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数,χ2为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标;
(2.3.a-2)将上述计算出的χ2结合下列公式,计算需要将其进行校正的φ系数:
其中,N为计算样本个数,φ为降低样本个数N不同带来的误差的矫正指标;
(2.3.a-3)结合上述步骤通过以下公式计算V系数,该值越大则表示该分类特征与类别标签之间具有更大的相关性:
其中,V表示分类特征和类别标签之间的相关性度量,min表示最小值,r为选择的特征个数,c为标签的取值个数。
作为本发明的优选实施方式,如果所述的V系数小于阈值0.25,则删除该相应的特征,否则保留该特征。
作为本发明的优选实施方式,所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤:
(2.3.b-1)使用分类特征字段和标签字段两列非空数据,通过以下公式计算同类别间特征分布离散程度的度量,即组内变异系数SS组内:
其中,k为标签的类别数,n
1为类别下样本的数量,x
ij为第i个类别下第j个样本的取值,
为第i个类别下样本的均值;
(2.3.b-2)根据以下公式计算对不同类别间特征分布离散程度的度量,即组间变异系数SS组间:
(2.3.b-3)结合上述步骤计算特征数据与标签数据之间的相关比η:
作为本发明的优选实施方式,如果所述的相关比η小于阈值0.25,则删除该相应的特征,否则保留该特征。
作为本发明的优选实施方式,所述的步骤(3)具体包括以下步骤:
(3.1)将所述步骤(2)处理后得到的数据计算每一个特征类别下的样本个数ni,i=1,2,3,;
(3.2)计算经过所述的步骤(2)处理之后,仍然保留但未被删除的所有特征,即剩余特征集合{Fi},i=1,2,...,m的特征个数m;
(3.3)若特征个数满足min(n1,n2,n3)>100且m>3,则执行所述的步骤(4);否则,执行所述的步骤(5)。
作为本发明的优选实施方式,所述的步骤(4)具体为:
将所述步骤(3)处理所得的数据随机选取80%样本作为训练数据集D,用以训练生成所述的CART决策树,得到决策树T
1;将剩余20%样本作为测试数据集,使用所述的测试数据集输入所述的决策树T
1进行预测,计算预测准确率acc;重复上述步骤10次,计算平均预测准确率
设定准确率最低接受阈值thres1;若所述的平均预测准确率
大于最低接受阈值thres1,则保存10个决策树生成决策树模型MS;否则,执行步骤(5)。
作为本发明的优选实施方式,所述的最低接受阈值thres1的取值范围为大于0,小于1。
作为本发明的优选实施方式,训练生成所述的CART决策树具体包括以下步骤:
(4.1)使用所述的训练数据集D,提取该训练集样本中每一个数据所对应的特征Ai和该特征对应的取值aij,将所述的训练数据集D划分为D1和D2两部分,计算该对应特征Ai在aij处的基尼指数,所述的基尼指数通过以下公式进行计算:
其中,Gini(p)为样本点p的基尼指数,K为分类特征类别,k为标签的类别数,pk为样本点p在K个分类特征类别中的第k类标签类别中的概率;
(4.2)针对该训练数据集所有的分类特征集{Ai}和该分类特征集所对应的所有切分点取值集{aij},选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点,从该最优切分点生成两个子节点,将划分后的所述的数据集D1和D2分别分配到生成的两个子节点中;
(4.3)将所述的步骤(4.2)中所得的两个子节点递归的调用上述步骤(4.1)和(4.2)进行相应处理,直到满足停止条件E,从而生成所述的CART决策树。
作为本发明的优选实施方式,所述的步骤(4.3)中所述的停止条件E具体为:
节点中样本个数小于所述的最低接受阈值thres1,或样本集基尼指数小于所述的最低接受阈值thres1,或者无可用特征。
作为本发明的优选实施方式,所述的步骤(5)具体为:
采用步骤(1)所述的采集标准采集其他医院包含不同疾病类型的数据集,将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并,得到所述的合并数据集样本,并依次执行后续步骤。
该基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统,其中,所述的系统包括:
数据采集模块,根据不同类别的采集标准,所述的数据采集模块从医院电子病历中采集不同疾病类型的数据集,形成针对每一位目标患者的单张数据集;
特征工程处理模块,与所述的数据采集模块相连接,所述的特征工程处理模块对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理;
数据计算评估模块,与所述的特征工程处理模块相连接,所述的数据计算评估模块对进行特征处理后的各个数据集的数据进行计算评估,以获取符合要求的数据;
决策树训练模块,与所述的数据计算评估模块相连接,所述的决策树训练模块将计算评估后所得的数据集进行数据样本分类,从而生成决策树模型;
数据集扩充模块,与所述的特征工程处理模块、数据计算评估模块以及决策树训练模块均相连接,所述的数据集扩充模块采集其他医院包含不同疾病类型的数据集,并与原始数据集进行合并扩充,得到合并数据集样本;
测试者风险预测模块,与所述的决策树训练模块和数据集扩充模块相连接,用于根据特定数据集采集到的所有特征数据实现对测试者的患病概率进行预测。
作为本发明的优选实施方式,所述的数据采集模块具体进行以下操作:
较佳地,根据病原学检查阳性采集标准,采集新型冠状病毒肺炎患者数据集;根据ICD9和ICD10呼吸系统疾病编码采集标准,采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集;
较佳地,各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息;
尤佳地,通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表;
尤佳地,根据不同的疾病类型,对采集到的各项数据集按照类别进行标注,并将该标注字段加入到对应的数据集字段列表中;
更佳地,将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。
作为本发明的优选实施方式,所述的特征工程处理模块具体进行以下操作:
较佳地,进行特征抽取处理:即如果获取的数据集为非结构化文本数据,则通过正则表达式、自然语言处理的方法抽取患者相关数据信息;如果获取的数据集为结构化文本数据,则核查该数据是否为数值型数据,若不是,则转换为数值型数据,否则,不进行任何处理;
较佳地,进行特征完整性核查处理:即对每个特征按照标签字段分类分别计算缺失率,若任一标签字段下缺失率大于80%,则删除该特征;
较佳地,进行特征选择处理:即如果采集到的相关数据为分类特征数据,则使用Cramer V系数法筛选进行特征筛选,以获取分类特征数据与标签数据之间的相关性;如果采集到的相关数据为连续数值特征数据,则使用相关比法筛选进行特征筛选,以获取特征数据与标签数据之间的相关比;
尤佳地,所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息,并在对应的数据集字段列表中分别用1、0代表有无该症状;
更佳地,所述的使用Cramer V系数法进行特征筛选,具体包括以下处理过程:
使用分类特征字段和标签字段两列非空数据,通过以下公式计算样本数据的度量指标χ2:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数,χ2为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标;
将上述计算出的χ2结合下列公式,计算需要将其进行校正的φ系数:
其中,N为计算样本个数,φ为降低样本个数N不同带来的误差的矫正指标;
结合上述步骤通过以下公式计算V系数,该值越大则表示该分类特征与类别标签之间具有更大的相关性:
其中,V表示分类特征和类别标签之间的相关性度量,min表示最小值,r为选择的特征个数,c为标签的取值个数;
较佳地,如果所述的V系数小于阈值0.25,则删除该相应的特征,否则保留该特征;
更佳地,所述的使用相关比法进行特征筛选具体包括以下处理步骤:
使用分类特征字段和标签字段两列非空数据,通过以下公式计算同类别间特征分布离散程度的度量,即组内变异系数SS组内:
其中,k为标签的类别数,n
1为类别下样本的数量,x
ij为第i个类别下第j个样本的取值,
为第i个类别下样本的均值;
根据以下公式计算对不同类别间特征分布离散程度的度量,即组间变异系数SS组间:
结合上述步骤计算特征数据与标签数据之间的相关比η:
较佳地,如果所述的相关比η小于阈值0.25,则删除该相应的特征,否则保留该特征。
作为本发明的优选实施方式,所述的数据计算评估模块具体进行以下操作:
将所述特征工程处理模块处理后得到的数据计算每一个特征类别下的样本个数ni,i=1,2,3,…,并计算经过所述的步骤(2)处理之后,仍然保留但未被删除的所有特征,即剩余特征集合{Fi},i=1,2,...,m的特征个数m,若特征个数满足min(n1,n2,n3)>100且m>3,则执行所述的决策树训练模块;否则,执行所述的数据集扩充模块。
作为本发明的优选实施方式,所述的决策树训练模块具体进行以下操作:
尤佳地,将所述数据计算评估模块处理所得的数据随机选取80%样本作为训练数据集D,用以训练生成所述的CART决策树,得到决策树T
1;将剩余20%样本作为测试数据集,使用所述的测试数据集输入所述的决策树T
1进行预测,计算预测准确率acc;重复上述步骤10次,计算平均预测准确率
设定准确率最低接受阈值thres1;若所述的平均预测准确率
大于最低接受阈值thres1,则保存10个决策树生成决策树模型MS;否则,执行数据集扩充模块;
较佳地,所述的最低接受阈值thres1的取值范围为大于0,小于1;
更佳地,训练生成所述的CART决策树具体包括以下处理过程:
使用所述的训练数据集D,提取该训练集样本中每一个数据所对应的特征Ai和该特征对应的取值aij,将所述的训练数据集D划分为D1和D2两部分,计算该对应特征Ai在aij处的基尼指数,所述的基尼指数通过以下公式进行计算:
其中,Gini(p)为样本点p的基尼指数,K为分类特征类别,k为标签的类别数,pk为样本点p在K个分类特征类别中的第k类标签类别中的概率;
针对该训练数据集所有的分类特征集{Ai}和该分类特征集所对应的所有切分点取值集{aij},选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点,从该最优切分点生成两个子节点,将划分后的所述的数据集D1和D2分别分配到生成的两个子节点中;
将上述处理过程中所得的两个子节点递归的调用上述处理过程进行相应处理,直到满足停止条件E,从而生成所述的CART决策树;
较佳地,所述的停止条件E具体为:
节点中样本个数小于所述的最低接受阈值thres1,或样本集基尼指数小于所述的最低接受阈值thres1,或者无可用特征。
作为本发明的优选实施方式,所述的数据集扩充模块具体进行以下操作:
根据所述的数据采集模块的采集标准采集其他医院包含不同疾病类型的数据集,将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并,得到所述的合并数据集样本,并依次执行后续步骤。
作为本发明的优选实施方式,所述的决策树训练模块生成的决策树模型具体为:
由10个决策树{T1,...,T10}组合生成的决策树模型MS={T1,...,T10}。
作为本发明的优选实施方式,所述的测试者风险预测模块具体包括以下处理:
采集未知检测者的特征数据集{F
i}中的全部特征数据,并将其放入所述的决策树模型MS中,计算由10个模型所得的平均患病概率
其中
为该测试者的新冠肺炎预测患病风险概率,
为该测试者的非新冠其他呼吸疾病预测患病风险概率,
为该测试者未患呼吸系统疾病概率。
该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的装置,其中,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,利用上述所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。
该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,利用上述所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的各个步骤。
请参阅图2所示,在本发明的一具体实施方式中,本发明的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统,主要包括:
1、数据采集模块:从医院电子病历中呼采集新冠肺炎患者数据集,患者判断标准为病原学检查阳性;采集其他呼吸系统疾病患者数据集,采集标准依据ICD9和ICD10呼吸系统疾病编码;采集非呼吸系统疾病患者数据集,采集标准同上。通过数据采集,获得包括新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者在内的数据集。其中,
(1)数据集字段包括但不限于患者基本信息、临床表现、实验室检查、是否密接人群等新冠肺炎相关信息;
(2)通过门诊号、EMPI等患者唯一标识将患者信息进行多表关联及样本去重形成单张数据表。
(3)根据疾病类别,对患者进行标注,将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3,将该字段作为标签字段加入数据表。
2、特征工程模块:对数据表进行特征抽取、特征完整性核查、特征选择处理。通过该步骤,将步骤1中部分特征删除,保留剩下部分特征10个,包括年龄、中性粒细胞百分比、白细胞、发热、干咳等,样本个数3000个。其中,
(1)特征抽取:对于非结构化文本信息,通过正则表达式、自然语言处理等方法抽取患者症状及临床表现等相关信息,包括但不限于发热、乏力、干咳、腹泻等特征,分别以1、0代表有或无;对于结构化数据,核查是否为数值型数据,否则转换为数值型。
(2)特征完整性核查:对每个特征按照标签分别计算缺失率,若任一标签下缺失率大于80%,则删除该特征。
(3)特征选择:对于分类特征,使用Cramer V系数法筛选特征;对于连续数值特征,使用相关比法。
Cramer V系数法计算步骤:使用特征和标签两列非空数据,首先计算χ2值:
其中,Ai为实际频数,表示标签类别下某一特征取值的计数;Ti为理论频数,表示标签类别在不同特征的比例完全相等情况下的应该出现的计数。然后计算φ系数,该指标用于后续计算V系数:
其中,N为样本个数。最后计算V系数,V系数表示分类特征和类别标签之间的相关性度量,该值越大则表示该分类特征和类别标签之间具有更大的相关性:
其中,min表示最小值,r和c分别为特征和标签的取值个数。若V系数小于阈值0.25,则删除该特征,否则保留。
相关比法计算步骤:使用特征和标签两列非空数据,首先计算组内变异SS组内:
其中,k是标签的类别数,n
1是类别下样本的数量,x
ij是第i个类别下第j个样本的取值,
是第i个类别下样本的均值。然后,计算组间变异SS
组间:
其中,
为第i个类别下样本均数,
为总均数。最后,计算相关比η:
若相关比η小于阈值0.25,则删除该特征,否则保留。
3、数据评估模块:对步骤2中处理后数据,计算每一类别下样本个数为1000,1000,1000,计算剩余特征集合{Fi},i=1,2,...,10的特征个数10,满足条件1,执行步骤4;其中条件1为min(n1,n2,n3)>100且m>3。
4、CART决策树训练模块:使用步骤3中数据随机抽取80%样本作为训练数据集D,剩余20%样本作为测试数据集,使用该训练数据集训练CART决策树,得到决策树T1,使用测试数据集输入T1进行预测,计算预测准确率acc。重复上述步骤10次,计算平均预测准确率为0.85,设定准确率最低接受阈值0.8,由于平均预测准确率大于阈值0.8,则保存10个决策树模型MS={T1,...,T10};其中,CART决策树训练步骤为:
(1)使用训练数据集D,对每一个特征Ai和该特征的每一个取值aij,将
训练数据集划分为D1和D2两部分,计算特征Ai在aij处的基尼指数。对于K个类别,样本点属于第k类的概率为pk,基尼指数计算方法为:
(2)针对所有可能的特征Ai和该特征所有可能的切分点aij,选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。从该最优切分点生成两个子节点,将划分数据集D1和D2分别分配到两个子节点。
(3)对两个子节点递归地调用步骤(1)和(2),直到满足止条件E,其中停止条件是节点中样本个数小于预定阈值,或样本集基尼指数小于预定阈值,或者无可用特征。
(4)生成CART决策树。
5、数据集扩充模块:采集其他包含新型冠状病毒患者信息医院数据,采集内容与步骤1相同,将所得扩充数据表和原数据表进行字段对齐和样本合并,得到合并数据表,之后执行步骤2。
6、测试者风险预测模块:若满足条件2,则执行该步骤。针对新的未知测试者,采集其特征集{F
i}的所有特征数据,将其输入步骤4中模型MS={T
1,...,T
10}计算10个模型的平均患病概率
其中
为该测试者的新冠肺炎预测患病风险概率,
为该测试者的非新冠其他呼吸疾病预测患病风险概率,
为该测试者未患呼吸系统疾病概率。其中,条件2为步骤4中模型
大于阈值thres1。
在本发明的一具体实施方式中,针对10例测试者进行预测,其预测测试输出结果如下表1所示。
表1 10例测试者模型风险预测结果
结合上述表一可以看出,本发明能够直接有效的对测试者的患病风险进行预测分析,便于医疗人员对疑似患者的筛查防控,极大地提升了工作效率。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”、“实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
采用了本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法,通过多流程核心算法的操作处理,能够快速提取出测试者的相关疾病数据集的特征数据,用以实现后续操作;同时,本发明还涉及一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统,该系统以医疗信息化数据为基础,基于统计学和机器学习理论技术,实现对新型冠状病毒肺炎疑似患者进行智能早诊,预测患病概率,提高医疗系统对疑似患者的筛查效率,从而更快一步进行疫情控制,减小疫情带来的危害。
采用了本发明的该智能早诊系统能够对新型冠状病毒疑似患者进行早诊,帮助医院进行大规模快速疑似患者筛查,以及互联网用户单人自测,从而提高现有疑似患者早诊效率,延缓疫情扩散。其优点在于:首先,该系统和传统的基于专家经验的筛查方式不同,而是基于大数据和人工智能技术,从呼吸科医疗信息系统中挖掘患病高相关因素,能够自动抽取高危因子;然后,该方法能够在大规模居民进行疑似病例筛查时,辅助医疗机构进行更加高效、快速的实施,且更加节省人力;最后,本系统能够随着病例采集数量的增加会更加准确,且便于在不同医疗机构以及互联网端推广使用。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。