CN113113152A

CN113113152A - 针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质

Info

Publication number: CN113113152A
Application number: CN202110395299.5A
Authority: CN
Inventors: 夏天; 冯骏; 赵丹丹; 付晨; 夏寒; 卢鹏飞; 王晔; 张鑫金; 张�诚; 道理; 王春芳; 虞慧婷; 毛丹; 林维晓; 刘星航; 钱晨嗣; 杨妹; 许锦
Original assignee: Shanghai Health Committee; WONDERS INFORMATION CO Ltd; Shanghai Municipal Center For Disease Control & Prevention
Current assignee: Shanghai Health Committee; Shanghai Institute Of Preventive Medicine; Shanghai Municipal Center For Disease Control & Prevention; WONDERS INFORMATION CO Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-13
Anticipated expiration: 2041-04-13
Also published as: CN113113152B

Abstract

本发明涉及一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，该方法包括根据不同类别的采集标准，采集不同疾病类型的数据集，形成针对每一位目标患者的单张数据集；对采集到的各个数据集进行特征工程处理；对处理后的各个数据集的数据进行计算评估，以获取符合要求的数据；将计算评估所得的数据集进行样本分类和训练，生成决策树模型；对目前已获取得到的数据集进行采集扩充处理，得到合并数据集样本。本发明还涉及一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统、装置、处理器及其存储介质。采用了本发明的相应的方法、系统、装置、处理器及其存储介质，能够在大规模居民进行疑似病例筛查时，辅助医疗机构进行更加高效、快速的实施，且更加节省人力。

Description

针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及人工智能疾病早期筛查技术领域，具体是指一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质。

背景技术

2019新型冠状病毒(2019-nCoV)是2019年底发现的一种冠状病毒，因其较强的传染性和较大的危害性受到全世界的关注。冠状病毒是一个大型病毒家族，可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等严重疾病。新型冠状病毒是2019年以前从未在人体中发现的冠状病毒新毒株，人感染了冠状病毒后可能会导致肺炎，即新型冠状病毒肺炎(简称新冠肺炎)。新冠肺炎可能导致人体出现诸多不良症状，常见体征有呼吸道症状、发热、咳嗽、气促和呼吸困难等；在较严重病例中，感染可导致严重急性呼吸综合征、肾衰竭，甚至死亡。新冠病毒因其传染性强，危害性大，自出现以来疫情迅猛发展，截止至2020年底，全球已累计确诊超过1亿患者，至今仍是危害全人类社会的一个公共卫生难题。

当前，国家卫健委已发布了关于新冠肺炎感染者的诊断标准，给出了疑似病例和确诊病例的判断依据。疑似病例的纳入标准主要依据流行病学史和临床表现，其中临床表现需要从门诊、医学影像以及实验室检查获得数据支撑。确诊病例的纳入标准则是患者需是疑似病例，同时需要病原学或血清学证据支撑，例如实时荧光RT-PCR检测新型冠状病毒核酸阳性等。新冠疫情具有很强的传染性和较长的潜伏周期，一旦区域出现确诊病例，就需要投入大量专业医师和护士对该区域的数千乃至数万居民进行筛查。在具体的新型冠状病毒感染者实施过程中，非常依赖专业医生对诊断标准的解读、理解和临床经验，因此对有限的医疗资源是巨大的负担。

近年来，随着大数据和人工智能技术的不断发展，以及医院信息系统和电子病历建设的逐步完善，利用大数据和人工智能等前沿技术对新冠肺炎疑似患者进行早诊逐步有了坚实的基础。通过构建统计学和机器学习推断方法，能够从医疗大数据中筛选出疑似感染的高相关因素，并通过模型学习形成经验模型，并对新的测试者进行预测，从而能够快速、准确筛选出疑似病例。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种筛查效率高、防控能力强的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质。

为了实现上述目的，本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、智能早诊系统、装置、处理器及其存储介质如下：

该基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其主要特点是，所述的方法包括以下步骤：

(1)根据不同类别的采集标准，从医院电子病历中采集不同疾病类型的数据集，形成针对每一位目标患者的单张数据集；

(2)对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理；

(3)对处理后的各个数据集的数据进行计算评估，以获取符合要求的数据；

(4)将所述的步骤(3)中计算评估所得的数据集进行样本分类和训练，生成决策树模型；

(5)对目前已获取得到的数据集进行采集扩充处理，得到合并数据集样本。

较佳地，所述的步骤(1)中所述的不同疾病类型的数据集包括：

新型冠状病毒肺炎患者数据集，其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。

较佳地，所述的步骤(1)中所述的不同采集标准包括：

根据病原学检查阳性采集标准，采集所述的新型冠状病毒肺炎患者数据集；

根据ICD9和ICD10呼吸系统疾病编码采集标准，采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集。

较佳地，各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。

较佳地，所述的步骤(1)具体包括以下步骤：

(1.1)通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表；

(1.2)根据不同的疾病类型，对采集到的各项数据集按照类别进行标注，并将该标注字段加入到对应的数据集字段列表中。

尤佳地，所述的步骤(1.2)具体为：

将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3，并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)进行特征抽取处理，即如果获取的数据集为非结构化文本数据，则通过正则表达式、自然语言处理的方法抽取患者相关数据信息；如果获取的数据集为结构化文本数据，则核查该数据是否为数值型数据，若不是，则转换为数值型数据，否则，不进行任何处理；

(2.2)进行特征完整性核查处理，即对每个特征按照标签字段分类分别计算缺失率，若任一标签字段下缺失率大于80％，则删除该特征；

(2.3)进行特征选择处理，即如果采集到的相关数据为分类特征数据，则使用Cramer V系数法进行特征筛选，以获取分类特征数据与标签数据之间的相关性；如果采集到的相关数据为连续数值特征数据，则使用相关比法进行特征筛选，以获取特征数据与标签数据之间的相关比。

较佳地，所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息，并在对应的数据集字段列表中分别用1、0代表有无该症状。

更佳地，所述的步骤(2.3)中所述的使用Cramer V系数法进行特征筛选，具体包括以下步骤：

(2.3.a-1)使用分类特征字段和标签字段两列非空数据，通过以下公式计算样本数据的度量指标χ²：

其中，A_i为实际频数，表示标签类别下某一特征取值的计数；T_i为理论频数，表示标签类别在不同特征的比例完全相等情况下的应该出现的计数，χ²为样本数据推断总体数据的分布与期望分布是否有显著性差异的度量指标；

(2.3.a-2)将上述计算出的χ²结合下列公式，计算需要将其进行校正的φ系数：

其中，N为计算样本个数，φ为降低样本个数N不同带来的误差的矫正指标；

(2.3.a-3)结合上述步骤通过以下公式计算V系数，该值越大则表示该分类特征与类别标签之间具有更大的相关性：

其中，V表示分类特征和类别标签之间的相关性度量，min表示最小值，r为选择的特征个数，c为标签的取值个数。

较佳地，如果所述的V系数小于阈值0.25，则删除该相应的特征，否则保留该特征。

更佳地，所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤：

(2.3.b-1)使用分类特征字段和标签字段两列非空数据，通过以下公式计算同类别间特征分布离散程度的度量，即组内变异系数SS_组内：

其中，k为标签的类别数，n₁为类别下样本的数量，x_ij为第i个类别下第j个样本的取值，

为第i个类别下样本的均值；

(2.3.b-2)根据以下公式计算对不同类别间特征分布离散程度的度量，即组间变异系数SS_组间：

其中，

为第i个类别下样本均数，

为总均数；

(2.3.b-3)结合上述步骤计算特征数据与标签数据之间的相关比η：

较佳地，如果所述的相关比η小于阈值0.25，则删除该相应的特征，否则保留该特征。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)将所述步骤(2)处理后得到的数据计算每一个特征类别下的样本个数n_i,i＝1,2,3,…；

(3.2)计算经过所述的步骤(2)处理之后，仍然保留但未被删除的所有特征，即剩余特征集合{F_i},i＝1,2,...,m的特征个数m；

(3.3)若特征个数满足min(n₁,n₂,n₃)＞100且m＞3，则执行所述的步骤(4)；否则，执行所述的步骤(5)。

较佳地，所述的步骤(4)具体为：

将所述步骤(3)处理所得的数据随机选取80％样本作为训练数据集D，用以训练生成所述的CART决策树，得到决策树T₁；将剩余20％样本作为测试数据集，使用所述的测试数据集输入所述的决策树T₁进行预测，计算预测准确率acc；重复上述步骤10次，计算平均预测准确率

设定准确率最低接受阈值thres1；若所述的平均预测准确率

大于最低接受阈值thres1，则保存10个决策树生成决策树模型MS；否则，执行步骤(5)。

较佳地，所述的最低接受阈值thres1的取值范围为大于0，小于1。

更佳地，训练生成所述的CART决策树具体包括以下步骤：

(4.1)使用所述的训练数据集D，提取该训练集样本中每一个数据所对应的特征A_i和该特征对应的取值a_ij，将所述的训练数据集D划分为D₁和D₂两部分，计算该对应特征A_i在a_ij处的基尼指数，所述的基尼指数通过以下公式进行计算：

其中，Gini(p)为样本点p的基尼指数，K为分类特征类别，k为标签的类别数，p_k为样本点p在K个分类特征类别中的第k类标签类别中的概率；

(4.2)针对该训练数据集所有的分类特征集{A_i}和该分类特征集所对应的所有切分点取值集{a_ij}，选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点，从该最优切分点生成两个子节点，将划分后的所述的数据集D₁和D₂分别分配到生成的两个子节点中；

(4.3)将所述的步骤(4.2)中所得的两个子节点递归的调用上述步骤(4.1)和(4.2)进行相应处理，直到满足停止条件E，从而生成所述的CART决策树。

较佳地，所述的步骤(4.3)中所述的停止条件E具体为：

节点中样本个数小于所述的最低接受阈值thres1，或样本集基尼指数小于所述的最低接受阈值thres1，或者无可用特征。

较佳地，所述的步骤(5)具体为：

采用步骤(1)所述的采集标准采集其他医院包含不同疾病类型的数据集，将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并，得到所述的合并数据集样本，并依次执行后续步骤。

该基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其主要特点是，所述的系统包括：

数据采集模块，根据不同类别的采集标准，所述的数据采集模块从医院电子病历中采集不同疾病类型的数据集，形成针对每一位目标患者的单张数据集；

特征工程处理模块，与所述的数据采集模块相连接，所述的特征工程处理模块对采集到的各个数据集进行特征抽取、特征完整性核查以及特征选择处理；

数据计算评估模块，与所述的特征工程处理模块相连接，所述的数据计算评估模块对进行特征处理后的各个数据集的数据进行计算评估，以获取符合要求的数据；

决策树训练模块，与所述的数据计算评估模块相连接，所述的决策树训练模块将计算评估后所得的数据集进行数据样本分类，从而生成决策树模型；

数据集扩充模块，与所述的特征工程处理模块、数据计算评估模块以及决策树训练模块均相连接，所述的数据集扩充模块采集其他医院包含不同疾病类型的数据集，并与原始数据集进行合并扩充，得到合并数据集样本；

测试者风险预测模块，与所述的决策树训练模块和数据集扩充模块相连接，用于根据特定数据集采集到的所有特征数据实现对测试者的患病概率进行预测。

较佳地，所述的数据采集模块具体进行以下操作：

根据病原学检查阳性采集标准，采集新型冠状病毒肺炎患者数据集；根据ICD9和ICD10呼吸系统疾病编码采集标准，采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集；

各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息；

通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表；

根据不同的疾病类型，对采集到的各项数据集按照类别进行标注，并将该标注字段加入到对应的数据集字段列表中；

更佳地，所述的特征工程处理模块具体进行以下操作：

进行特征抽取处理：即如果获取的数据集为非结构化文本数据，则通过正则表达式、自然语言处理的方法抽取患者相关数据信息；如果获取的数据集为结构化文本数据，则核查该数据是否为数值型数据，若不是，则转换为数值型数据，否则，不进行任何处理；

进行特征完整性核查处理：即对每个特征按照标签字段分类分别计算缺失率，若任一标签字段下缺失率大于80％，则删除该特征；

进行特征选择处理：即如果采集到的相关数据为分类特征数据，则使用Cramer V系数法筛选进行特征筛选，以获取分类特征数据与标签数据之间的相关性；如果采集到的相关数据为连续数值特征数据，则使用相关比法筛选进行特征筛选，以获取特征数据与标签数据之间的相关比；

所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息，并在对应的数据集字段列表中分别用1、0代表有无该症状；

所述的使用Cramer V系数法进行特征筛选，具体包括以下处理过程：

使用分类特征字段和标签字段两列非空数据，通过以下公式计算样本数据的度量指标χ²：

将上述计算出的χ²结合下列公式，计算需要将其进行校正的φ系数：

结合上述步骤通过以下公式计算V系数，该值越大则表示该分类特征与类别标签之间具有更大的相关性：

其中，V表示分类特征和类别标签之间的相关性度量，min表示最小值，r为选择的特征个数，c为标签的取值个数；

如果所述的V系数小于阈值0.25，则删除该相应的特征，否则保留该特征；

所述的使用相关比法进行特征筛选具体包括以下处理步骤：

使用分类特征字段和标签字段两列非空数据，通过以下公式计算同类别间特征分布离散程度的度量，即组内变异系数SS_组内：

为第i个类别下样本的均值；

根据以下公式计算对不同类别间特征分布离散程度的度量，即组间变异系数SS_组间：

其中，

为第i个类别下样本均数，

为总均数；

结合上述步骤计算特征数据与标签数据之间的相关比η：

如果所述的相关比η小于阈值0.25，则删除该相应的特征，否则保留该特征。

较佳地，所述的数据计算评估模块具体进行以下操作：

将所述特征工程处理模块处理后得到的数据计算每一个特征类别下的样本个数n_i,i＝1,2,3,…，并计算经过所述的步骤(2)处理之后，仍然保留但未被删除的所有特征，即剩余特征集合{F_i},i＝1,2,...,m的特征个数m，若特征个数满足min(n₁,n₂,n₃)＞100且m＞3，则执行所述的决策树训练模块；否则，执行所述的数据集扩充模块。

较佳地，所述的决策树训练模块具体进行以下操作：

尤佳地，将所述数据计算评估模块处理所得的数据随机选取80％样本作为训练数据集D，用以训练生成所述的CART决策树，得到决策树T₁；将剩余20％样本作为测试数据集，使用所述的测试数据集输入所述的决策树T₁进行预测，计算预测准确率acc；重复上述步骤10次，计算平均预测准确率

设定准确率最低接受阈值thres1；若所述的平均预测准确率

大于最低接受阈值thres1，则保存10个决策树生成决策树模型MS；否则，执行数据集扩充模块；

较佳地，所述的最低接受阈值thres1的取值范围为大于0，小于1；

更佳地，训练生成所述的CART决策树具体包括以下处理过程：

使用所述的训练数据集D，提取该训练集样本中每一个数据所对应的特征A_i和该特征对应的取值a_ij，将所述的训练数据集D划分为D₁和D₂两部分，计算该对应特征A_i在a_ij处的基尼指数，所述的基尼指数通过以下公式进行计算：

针对该训练数据集所有的分类特征集{A_i}和该分类特征集所对应的所有切分点取值集{a_ij}，选择基尼指数最小的特征及其对应的切分点取值作为该训练数据集的最优特征和最优切分点，从该最优切分点生成两个子节点，将划分后的所述的数据集D₁和D₂分别分配到生成的两个子节点中；

将上述处理过程中所得的两个子节点递归的调用上述处理过程进行相应处理，直到满足停止条件E，从而生成所述的CART决策树；

较佳地，所述的停止条件E具体为：

较佳地，所述的数据集扩充模块具体进行以下操作：

根据所述的数据采集模块的采集标准采集其他医院包含不同疾病类型的数据集，将采集所得的扩充数据集和原始数据集进行字段对齐和样本合并，得到所述的合并数据集样本，并依次执行后续步骤。

较佳地，所述的决策树训练模块生成的决策树模型具体为：

由10个决策树{T₁,...,T₁₀}组合生成的决策树模型MS＝{T₁,...,T₁₀}。

较佳地，所述的测试者风险预测模块具体包括以下处理：

采集未知检测者的特征数据集{F_i}中的全部特征数据，并将其放入所述的决策树模型MS中，计算由10个模型所得的平均患病概率

其中

为该测试者的新冠肺炎预测患病风险概率，

为该测试者的非新冠其他呼吸疾病预测患病风险概率，

为该测试者未患呼吸系统疾病概率。

该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，利用上述疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，利用上述疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的各个步骤。

采用了本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，通过多流程核心算法的操作处理，能够快速提取出测试者的相关疾病数据集的特征数据，用以实现后续操作；同时，本发明还涉及一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，采用了本发明的该智能早诊系统能够对新型冠状病毒疑似患者进行早诊，帮助医院进行大规模快速疑似患者筛查，以及互联网用户单人自测，从而提高现有疑似患者早诊效率，延缓疫情扩散。其优点在于：首先，该系统和传统的基于专家经验的筛查方式不同，而是基于大数据和人工智能技术，从呼吸科医疗信息系统中挖掘患病高相关因素，能够自动抽取高危因子；然后，该方法能够在大规模居民进行疑似病例筛查时，辅助医疗机构进行更加高效、快速的实施，且更加节省人力；最后，本系统能够随着病例采集数量的增加会更加准确，且便于在不同医疗机构以及互联网端推广使用。

附图说明

图1为本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的流程示意图。

图2为本发明的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统的处理过程的流程示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1所示，该基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其中，所述的方法包括以下步骤：

作为本发明的优选实施方式，所述的步骤(1)中所述的不同疾病类型的数据集包括：

作为本发明的优选实施方式，所述的步骤(1)中所述的不同采集标准包括：

作为本发明的优选实施方式，各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。

作为本发明的优选实施方式，所述的步骤(1)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(1.2)具体为：

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

作为本发明的优选实施方式，所述的连续数值特征指在一定区间内可以任意取值，相邻的两个数值可作无限分割的特征。

作为本发明的优选实施方式，所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息，并在对应的数据集字段列表中分别用1、0代表有无该症状。

作为本发明的优选实施方式，所述的步骤(2.3)中所述的使用Cramer V系数法进行特征筛选，具体包括以下步骤：

作为本发明的优选实施方式，如果所述的V系数小于阈值0.25，则删除该相应的特征，否则保留该特征。

作为本发明的优选实施方式，所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤：

为第i个类别下样本的均值；

其中，

为第i个类别下样本均数，

为总均数；

作为本发明的优选实施方式，如果所述的相关比η小于阈值0.25，则删除该相应的特征，否则保留该特征。

作为本发明的优选实施方式，所述的步骤(3)具体包括以下步骤：

(3.1)将所述步骤(2)处理后得到的数据计算每一个特征类别下的样本个数n_i,i＝1,2,3,；

作为本发明的优选实施方式，所述的步骤(4)具体为：

设定准确率最低接受阈值thres1；若所述的平均预测准确率

作为本发明的优选实施方式，所述的最低接受阈值thres1的取值范围为大于0，小于1。

作为本发明的优选实施方式，训练生成所述的CART决策树具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(4.3)中所述的停止条件E具体为：

作为本发明的优选实施方式，所述的步骤(5)具体为：

该基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其中，所述的系统包括：

作为本发明的优选实施方式，所述的数据采集模块具体进行以下操作：

较佳地，根据病原学检查阳性采集标准，采集新型冠状病毒肺炎患者数据集；根据ICD9和ICD10呼吸系统疾病编码采集标准，采集所述的其他呼吸系统疾病患者数据集以及非呼吸系统疾病患者数据集；

较佳地，各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息；

尤佳地，通过门诊号、患者主索引EMPI的唯一标识将采集到的患者的字段列表信息进行多表关联及样本去重形成单张数据表；

尤佳地，根据不同的疾病类型，对采集到的各项数据集按照类别进行标注，并将该标注字段加入到对应的数据集字段列表中；

更佳地，将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3，并将该字段信息作为标签字段加入到该患者对应的数据集字段列表中。

作为本发明的优选实施方式，所述的特征工程处理模块具体进行以下操作：

较佳地，进行特征抽取处理：即如果获取的数据集为非结构化文本数据，则通过正则表达式、自然语言处理的方法抽取患者相关数据信息；如果获取的数据集为结构化文本数据，则核查该数据是否为数值型数据，若不是，则转换为数值型数据，否则，不进行任何处理；

较佳地，进行特征完整性核查处理：即对每个特征按照标签字段分类分别计算缺失率，若任一标签字段下缺失率大于80％，则删除该特征；

较佳地，进行特征选择处理：即如果采集到的相关数据为分类特征数据，则使用Cramer V系数法筛选进行特征筛选，以获取分类特征数据与标签数据之间的相关性；如果采集到的相关数据为连续数值特征数据，则使用相关比法筛选进行特征筛选，以获取特征数据与标签数据之间的相关比；

尤佳地，所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息，并在对应的数据集字段列表中分别用1、0代表有无该症状；

更佳地，所述的使用Cramer V系数法进行特征筛选，具体包括以下处理过程：

较佳地，如果所述的V系数小于阈值0.25，则删除该相应的特征，否则保留该特征；

更佳地，所述的使用相关比法进行特征筛选具体包括以下处理步骤：

为第i个类别下样本的均值；

其中，

为第i个类别下样本均数，

为总均数；

结合上述步骤计算特征数据与标签数据之间的相关比η：

作为本发明的优选实施方式，所述的数据计算评估模块具体进行以下操作：

作为本发明的优选实施方式，所述的决策树训练模块具体进行以下操作：

设定准确率最低接受阈值thres1；若所述的平均预测准确率

更佳地，训练生成所述的CART决策树具体包括以下处理过程：

较佳地，所述的停止条件E具体为：

作为本发明的优选实施方式，所述的数据集扩充模块具体进行以下操作：

作为本发明的优选实施方式，所述的决策树训练模块生成的决策树模型具体为：

作为本发明的优选实施方式，所述的测试者风险预测模块具体包括以下处理：

其中

为该测试者的新冠肺炎预测患病风险概率，

为该测试者的非新冠其他呼吸疾病预测患病风险概率，

为该测试者未患呼吸系统疾病概率。

该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，利用上述所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

该用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，利用上述所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的各个步骤。

请参阅图2所示，在本发明的一具体实施方式中，本发明的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，主要包括：

1、数据采集模块：从医院电子病历中呼采集新冠肺炎患者数据集，患者判断标准为病原学检查阳性；采集其他呼吸系统疾病患者数据集，采集标准依据ICD9和ICD10呼吸系统疾病编码；采集非呼吸系统疾病患者数据集，采集标准同上。通过数据采集，获得包括新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者在内的数据集。其中，

(1)数据集字段包括但不限于患者基本信息、临床表现、实验室检查、是否密接人群等新冠肺炎相关信息；

(2)通过门诊号、EMPI等患者唯一标识将患者信息进行多表关联及样本去重形成单张数据表。

(3)根据疾病类别，对患者进行标注，将新冠肺炎患者、其他呼吸系统疾病患者以及非呼吸系统疾病患者分别标注为1、2、3，将该字段作为标签字段加入数据表。

2、特征工程模块：对数据表进行特征抽取、特征完整性核查、特征选择处理。通过该步骤，将步骤1中部分特征删除，保留剩下部分特征10个，包括年龄、中性粒细胞百分比、白细胞、发热、干咳等，样本个数3000个。其中，

(1)特征抽取：对于非结构化文本信息，通过正则表达式、自然语言处理等方法抽取患者症状及临床表现等相关信息，包括但不限于发热、乏力、干咳、腹泻等特征，分别以1、0代表有或无；对于结构化数据，核查是否为数值型数据，否则转换为数值型。

(2)特征完整性核查：对每个特征按照标签分别计算缺失率，若任一标签下缺失率大于80％，则删除该特征。

(3)特征选择：对于分类特征，使用Cramer V系数法筛选特征；对于连续数值特征，使用相关比法。

Cramer V系数法计算步骤：使用特征和标签两列非空数据，首先计算χ²值：

其中，A_i为实际频数，表示标签类别下某一特征取值的计数；T_i为理论频数，表示标签类别在不同特征的比例完全相等情况下的应该出现的计数。然后计算φ系数，该指标用于后续计算V系数：

其中，N为样本个数。最后计算V系数，V系数表示分类特征和类别标签之间的相关性度量，该值越大则表示该分类特征和类别标签之间具有更大的相关性：

其中，min表示最小值，r和c分别为特征和标签的取值个数。若V系数小于阈值0.25，则删除该特征，否则保留。

相关比法计算步骤：使用特征和标签两列非空数据，首先计算组内变异SS_组内：

其中，k是标签的类别数，n₁是类别下样本的数量，x_ij是第i个类别下第j个样本的取值，

是第i个类别下样本的均值。然后，计算组间变异SS_组间：

其中，

为第i个类别下样本均数，

为总均数。最后，计算相关比η：

若相关比η小于阈值0.25，则删除该特征，否则保留。

3、数据评估模块：对步骤2中处理后数据，计算每一类别下样本个数为1000，1000，1000，计算剩余特征集合{F_i},i＝1,2,...,10的特征个数10，满足条件1，执行步骤4；其中条件1为min(n₁,n₂,n₃)＞100且m＞3。

4、CART决策树训练模块：使用步骤3中数据随机抽取80％样本作为训练数据集D，剩余20％样本作为测试数据集，使用该训练数据集训练CART决策树，得到决策树T₁，使用测试数据集输入T₁进行预测，计算预测准确率acc。重复上述步骤10次，计算平均预测准确率为0.85，设定准确率最低接受阈值0.8，由于平均预测准确率大于阈值0.8，则保存10个决策树模型MS＝{T₁,...,T₁₀}；其中，CART决策树训练步骤为：

(1)使用训练数据集D，对每一个特征A_i和该特征的每一个取值a_ij，将

训练数据集划分为D₁和D₂两部分，计算特征A_i在a_ij处的基尼指数。对于K个类别，样本点属于第k类的概率为p_k，基尼指数计算方法为：

(2)针对所有可能的特征A_i和该特征所有可能的切分点a_ij，选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。从该最优切分点生成两个子节点，将划分数据集D₁和D₂分别分配到两个子节点。

(3)对两个子节点递归地调用步骤(1)和(2)，直到满足止条件E，其中停止条件是节点中样本个数小于预定阈值，或样本集基尼指数小于预定阈值，或者无可用特征。

(4)生成CART决策树。

5、数据集扩充模块：采集其他包含新型冠状病毒患者信息医院数据，采集内容与步骤1相同，将所得扩充数据表和原数据表进行字段对齐和样本合并，得到合并数据表，之后执行步骤2。

6、测试者风险预测模块：若满足条件2，则执行该步骤。针对新的未知测试者，采集其特征集{F_i}的所有特征数据，将其输入步骤4中模型MS＝{T₁,...,T₁₀}计算10个模型的平均患病概率

其中

为该测试者的新冠肺炎预测患病风险概率，

为该测试者的非新冠其他呼吸疾病预测患病风险概率，

为该测试者未患呼吸系统疾病概率。其中，条件2为步骤4中模型

大于阈值thres1。

在本发明的一具体实施方式中，针对10例测试者进行预测，其预测测试输出结果如下表1所示。

表1 10例测试者模型风险预测结果

结合上述表一可以看出，本发明能够直接有效的对测试者的患病风险进行预测分析，便于医疗人员对疑似患者的筛查防控，极大地提升了工作效率。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”、“实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

采用了本发明的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，通过多流程核心算法的操作处理，能够快速提取出测试者的相关疾病数据集的特征数据，用以实现后续操作；同时，本发明还涉及一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，该系统以医疗信息化数据为基础，基于统计学和机器学习理论技术，实现对新型冠状病毒肺炎疑似患者进行智能早诊，预测患病概率，提高医疗系统对疑似患者的筛查效率，从而更快一步进行疫情控制，减小疫情带来的危害。

采用了本发明的该智能早诊系统能够对新型冠状病毒疑似患者进行早诊，帮助医院进行大规模快速疑似患者筛查，以及互联网用户单人自测，从而提高现有疑似患者早诊效率，延缓疫情扩散。其优点在于：首先，该系统和传统的基于专家经验的筛查方式不同，而是基于大数据和人工智能技术，从呼吸科医疗信息系统中挖掘患病高相关因素，能够自动抽取高危因子；然后，该方法能够在大规模居民进行疑似病例筛查时，辅助医疗机构进行更加高效、快速的实施，且更加节省人力；最后，本系统能够随着病例采集数量的增加会更加准确，且便于在不同医疗机构以及互联网端推广使用。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(1)中所述的不同疾病类型的数据集包括：

3.根据权利要求2所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(1)中所述的不同采集标准包括：

4.根据权利要求3所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，各个所述的数据集的采集字段列表信息包括患者基本信息、临床表现信息、实验室检查信息以及是否密接人群信息。

5.根据权利要求4所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(1)具体包括以下步骤：

6.根据权利要求5所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(1.2)具体为：

7.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(2)具体包括以下步骤：

8.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(2.1)中所述的相关数据信息包括发热、乏力、干咳、腹泻的分类特征信息，并在对应的数据集字段列表中分别用1、0代表有无该症状。

9.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(2.3)中所述的使用Cramer V系数法进行特征筛选，具体包括以下步骤：

10.根据权利要求9所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，如果所述的V系数小于阈值0.25，则删除该相应的特征，否则保留该特征。

11.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(2.3)中所述的使用相关比法进行特征筛选具体包括以下步骤：

为第i个类别下样本的均值；

其中，

为第i个类别下样本均数，

为总均数；

12.根据权利要求11所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，如果所述的相关比η小于阈值0.25，则删除该相应的特征，否则保留该特征。

13.根据权利要求7所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(3)具体包括以下步骤：

14.根据权利要求13所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(4)具体为：

设定准确率最低接受阈值thres1；若所述的平均预测准确率

15.根据权利要求14所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的最低接受阈值thres1的取值范围为大于0，小于1。

16.根据权利要求14所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，训练生成所述的CART决策树具体包括以下步骤：

17.根据权利要求16所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(4.3)中所述的停止条件E具体为：

18.根据权利要求1所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法，其特征在于，所述的步骤(5)具体为：

19.一种基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的系统包括：

20.根据权利要求19所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的数据采集模块具体进行以下操作：

21.根据权利要求19所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的特征工程处理模块具体进行以下操作：

较佳地，进行特征选择处理：即如果采集到的相关数据为分类特征数据，则使用CramerV系数法筛选进行特征筛选，以获取分类特征数据与标签数据之间的相关性；如果采集到的相关数据为连续数值特征数据，则使用相关比法筛选进行特征筛选，以获取特征数据与标签数据之间的相关比；

为第i个类别下样本的均值；

其中，

为第i个类别下样本均数，

为总均数；

结合上述步骤计算特征数据与标签数据之间的相关比η：

22.根据权利要求19所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的数据计算评估模块具体进行以下操作：

23.根据权利要求19所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的决策树训练模块具体进行以下操作：

设定准确率最低接受阈值thres1；若所述的平均预测准确率

更佳地，训练生成所述的CART决策树具体包括以下处理过程：

较佳地，所述的停止条件E具体为：

24.根据权利要求19所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的数据集扩充模块具体进行以下操作：

25.根据权利要求23所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的决策树训练模块生成的决策树模型MS具体为：

26.根据权利要求25所述的基于CART决策树的实现新型冠状病毒肺炎的智能早诊的系统，其特征在于，所述的测试者风险预测模块具体包括以下处理：

其中

为该测试者的新冠肺炎预测患病风险概率，

为该测试者的非新冠其他呼吸疾病预测患病风险概率，

为该测试者未患呼吸系统疾病概率。

27.一种用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，利用权利要求1～18中任一项所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

28.一种用于实现基于CART决策树实现新型冠状病毒肺炎智能早诊的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，利用权利要求1～18中任一项所述的疾病数据集样本获取处理方法的各个步骤实现基于CART决策树的新型冠状病毒肺炎的智能早诊的功能。

29.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1～18中任一项所述的基于CART决策树实现针对新型冠状病毒肺炎的疾病数据集样本获取处理方法的各个步骤。