CN111446002A

CN111446002A - 一种基于人工智能的新型冠状病毒患者病况分类系统

Info

Publication number: CN111446002A
Application number: CN202010163049.4A
Authority: CN
Inventors: 袁烨; 孙川; 严丽; 徐卉; 王茂霖; 郭裕祺; 唐秀川; 张海涛; 肖阳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-03-07
Filing date: 2020-03-10
Publication date: 2020-07-24
Also published as: WO2021179514A1; US20220122739A1

Abstract

本发明公开了一种基于人工智能的新型冠状病毒患者病况分类系统，属于病况分类领域，包括：分类模型获取模块，用于训练一个或多个根据患者数据对患者病况进行分类的二分类模型，并从中获取准确性最高的二分类模型作为目标模型，同时确定患者数据中的可解释的特征；预处理模块，用于提取待分类患者数据中的可解释的特征后，对所提取的特征进行预处理，以填充其中的缺失值并替换其中的异常值，从而在预处理结束后得到待分类特征；病况分类模块，用于以待分类特征为目标模型的输入，利用目标模型完成对待分类患者的病况分类。本发明提出了一种稳定性、鲁棒性以及准确性均满足要求的分类系统，能够解决新型冠状病毒患者病况分类的问题。

Description

一种基于人工智能的新型冠状病毒患者病况分类系统

技术领域

本发明属于病况分类领域，更具体地，涉及一种基于人工智能的新型冠状病毒患者病况分类系统。

背景技术

新型冠状病毒是2019年12月新出现的RNA病毒，传染力强。感染病人病症多样，如何判断病人接下来的病况变化对医护人员采取进一步的治疗措施起到指导作用。目前临床采集的病人身体指标包括二聚体定量测定、甲状腺功能全套(TSH,FT3,FT4)、免疫全套(IgG.IgA.IgM.C3.C4)、白细胞介素、生化全套、糖链抗原等六十余项指标。指标的种类繁多，这给医护人员判断病人病况发展带来了巨大的困难。同时患者数量庞大，有数以万计的病人需要以周或天为粒度进行评估。目前医护人员根据指标结合对病人身体状况的主观判断来对病人病况进行评级分类，这样的分类方法给医护人员带来了沉重的负担。

基于人工智能的完成分类，是通过计算机辅助的方式帮助人类做出快速精准的判断与决策。人工智能的兴起，使这种技术手段在分类任务中占据了越来越关键的位置。然而，利用人工智能来解决新型冠状病毒感染病人病况分类问题面临着诸多困难。

首先，病人身体指标的部分缺失给计算机分类带来了挑战。如乳酸脱氢酶这一指标，在100位病人中有10位病人没有检测，这就需要分类具有很高的稳定性。其次，检测得到的指标当中存在一些异常数据，其数值严重超出了该指标的取值范围，需要分类具有很高的鲁棒性。最后，医学数据的正面样本较多，负面样本较少，类目的不均衡会影响分类的准确性。新型冠状病毒来势迅猛，但尚无针对这一问题的性能优良的分类系统，因此，为了解决新型冠状病毒患者病况的分类问题，急需提出一种稳定性、鲁棒性以及准确性均满足要求的分类系统。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于人工智能的新型冠状病毒患者病况分类系统，其目的在于，提出一种稳定性、鲁棒性以及准确性均满足要求的分类系统，以解决新型冠状病毒患者病况分类的问题。

为实现上述目的，本发明提供了一种基于人工智能的新型冠状病毒患者病况分类系统，包括：分类模型获取模块、预处理模块以及病况分类模块；

分类模型获取模块，用于训练一个或多个根据患者数据对患者病况进行分类的二分类模型，并从中获取准确性最高的二分类模型作为目标模型，同时确定患者数据中的可解释的特征；

预处理模块，用于提取待分类患者数据中的可解释的特征后，对所提取的特征进行预处理，以填充其中的缺失值并替换其中的异常值，从而在预处理结束后得到待分类特征；

病况分类模块，用于以待分类特征为目标模型的输入，利用目标模型完成对待分类患者的病况分类。

本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，通过预处理操作，填充患者特征数据中的缺失值并替换其中的异常值，保证了分类的稳定性和鲁棒性；通过训练多个分类模型，并从中选取准确性最高的模型进行病况分类，保证了分类的准确性。总的来说，本发明提供了一种具有稳定性、鲁棒性和准确性的新型冠状病毒患者病况分类系统，能够有效解决新型冠状病毒患者病况分类的问题。

本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，还会从众多的特征数据中筛选出可解释的特征，并且仅针对可解释的特征完成病况分类，由此能够提高二分类模型的可解释性，有效防止过拟合，进一步保证分类的准确性。

进一步地，分类模型获取模块包括：预处理单元、数据集划分单元、N个模型训练单元、决策单元以及模型重训练单元；

预处理单元，用于对已标注两类数据标签的医学检测数据进行预处理，以填充其中的缺失值并替换其中的异常值，从而在预处理结束后得到数据集；

数据集划分单元，用于按照预设的比例将数据集划分为训练集、验证集和测试集；

N个模型训练单元中的每一个模型训练单元，用于建立一个根据患者数据对患者病况进行分类的二分类模型，在设置类别权重后，利用训练集和验证集分别对所建立的二分类模型进行训练和验证，并利用测试集评估已训练好的二分类模型的准确性；N个模型训练单元所建立的N个二分类模型互不相同，每一个二分类模型在训练结束后，输出特征重要度；

决策单元，用于从已训练好的N个二分类模型中选取准确性最高二分类模型作为候选模型，并根据候选模型输出的特征重要度，选取特征重要度最高的前K项特征作为可解释的特征；

模型重训练单元，用于剔除训练集和验证集中可解释的特征之外的特征，并利用新的训练集和验证集对候选模型进行训练和验证，从而在训练完成后，得到最优的二分类模型，将其作为目标模型；

其中，N和K均为正整数。

本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，其中的分类模型获取模块在获取目标模型时，利用已标注两类数据标签的医学检测数据对多个二分类模型进行严格的训练、验证和测试，以从中筛选出准确性最高的模型，由此保证了分类模型的分类性能是最优的。

可解释性是AI+医疗这一交叉领域中必须要面临的重大的问题，尤其是在考虑到在现实生活的临床实践中，少数病人可能会出现异常状况，如果模型没有学习过类似病况，做出的判断将会不可靠；可解释的模型便于医护人员分析这类情况，做出更加科学合理的判断。此外，由于检测设备等缘故，检测的指标会伴随着一定的干扰和噪声，不可解释的模型即使在噪声上过拟合了，设计者也无法知道，而一个可解释的模型则可以通过分析判断是否过拟合。本发明提供的基于人工智能的新型冠状病毒患者病况分类系统，其中的分类模型获取模块通过分析特征重要度，能够提高所选取模型的可解释性，防止过拟合。

本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，其中的模型训练单元在利用训练集对二分类模型进行训练之前，会先设置类别权重，从而在模型训练过程中，给数目少的那类更大的学习权重，给数目多的那类稍小的学习权重，由此能够削弱类别不均衡带来的影响，提高分类准确性。

进一步地，各模型训练单元在训练和验证二分类模型时，采用M折交叉验证；其中，M为正整数；通过交叉验证，能够消除随机因素，提高分类结果可信度，为选取最优的二分类模型提供了可靠的依据。

进一步地，M折交叉验证为M折分层交叉验证，并且每折交叉验证中两类数据的比例是相同的，以进一步提高模型分类结果的可信度。

进一步地，准确性以准确率和F1-score为评价指标，并且准确率的优先级高于F1-score。

本发明在评价模型的准确性时，综合考虑准确率(accuracy)和F1-score，并且优先考虑准确率，能够综合反映模型的整体性能。

进一步地，N＝5，并且5个模型训练单元所建立的二分类模型分别为：XGBoost、LightGBM、随机森林、CatBoost和逻辑回归。

进一步地，分类模型获取模块还包括：特征可视化单元；

特征可视化单元用于对决策单元所选取的可解释的特征进行可视化操作。

本发明通过对可可解释的特征进行可视化操作，能够进一步提高模型的可解释性，防止过拟合。

进一步地，预处理操作包括：

使用预设的填充值x填充缺失数据；

对于每一项特征，若其值大于该项特征第H百分位或小于第L百分位数的值，则根据误差检测准则判断该特征值是否为异常值，并在判定该特征值是异常值时，使用预设的替换值y替换掉该特征值；

其中，L和H均为正整数，且0<L<H<100。

进一步地，误差检测准则为3σ法则。

进一步地，本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，还包括：交互模块；

交互模块用于输入待分类患者数据，并对病况分类结果进行可视化显示。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过预处理操作，填充患者特征数据中的缺失值并替换其中的异常值，保证了分类的稳定性和鲁棒性；通过训练多个分类模型，并从中选取准确性最高的模型进行病况分类，保证了分类的准确性。总的来说，本发明提供了一种具有稳定性、鲁棒性和准确性的新型冠状病毒患者病况分类系统，能够有效解决新型冠状病毒患者病况分类的问题。

(2)本发明从众多的特征数据中筛选出可解释的特征，并且仅针对可解释的特征完成病况分类，由此能够提高二分类模型的可解释性，有效防止过拟合，进一步保证分类的准确性；本发明通过对可解释的特征进行可视化操作，能够进一步提高模型的可解释性，防止过拟合。

(3)本发明在进行模型训练时，会进行交叉验证，由此能够消除随机因素，提高分类结果可信度，为选取最优的二分类模型提供了可靠的依据。

(4)本发明在利用训练集对二分类模型进行训练之前，会先设置类别权重，由此能够削弱类别不均衡带来的影响，提高分类准确性。

附图说明

图1为本发明实施例提供的基于人工智能的新型冠状病毒患者病况分类系统示意图；

图2为本发明实施例提供的分类模型获取模块示意图；

图3为本发明实施例提供的XGBoost在测试集上预测结果的混淆矩阵；

图4为本发明实施例提供的特征重要度示意图；

图5为本发明实施例提供的可解释的特征的三维散点图；

图6为本发明实施例提供的交互模块的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为解决新型冠状病毒患者病况分类中所存在的稳定性、鲁棒性和准确性有待提高的问题，本发明提供的基于人工智能的新型冠状病毒患者病况分类系统，如图1所示，包括：分类模型获取模块、预处理模块以及病况分类模块；

分类模型获取模块，用于训练一个或多个根据患者数据对患者病况进行分类的二分类模型，并从中获取准确性最高的二分类模型作为目标模型，同时确定患者数据中的可解释的特征；患者数据中包括多项特征，如“年龄”、“平均RBC体积”、“白蛋白”、“总蛋白”等，从医学角度来看，所有特征中仅有部分与患者病况密切相关，这些与病况密切相关的关键特征即为可解释的特征；

上述基于人工智能的新型冠状病毒患者病况分类系统，通过预处理操作，填充患者特征数据中的缺失值并替换其中的异常值，保证了分类的稳定性和鲁棒性；通过训练多个分类模型，并从中选取准确性最高的模型进行病况分类，保证了分类的准确性。总的来说，上述基于人工智能的新型冠状病毒患者病况分类系统，提供了一种具有稳定性、鲁棒性和准确性的新型冠状病毒患者病况分类系统，能够有效解决新型冠状病毒患者病况分类的问题。同时，上述基于人工智能的新型冠状病毒患者病况分类系统，还会从众多的特征数据中筛选出可解释的特征，并且仅针对可解释的特征完成病况分类，由此能够提高二分类模型的可解释性，有效防止过拟合，进一步保证分类的准确性。

在本实施例中，如图2所示，分类模型获取模块包括：预处理单元、数据集划分单元、N个模型训练单元、决策单元以及模型重训练单元；

决策单元，用于从已训练好的N个二分类模型中选取准确性最高二分类模型作为候选模型，并根据候选模型输出的特征重要度，选取特征重要度最高的前K项特征作为可解释的特征；在本实施例中，

其中，N和K均为正整数；交叉验证的折数K，应根据实际情况，综合考虑训练集样本数和训练时长确定；K设置较大，训练样本数较多，但相应的训练时长较长；反之，K设置较大，训练时长较短，但相应的训练样本数较少；通常情况下，K的取值范围为3≤K≤10；

在一种可选的实施方式中，各模型训练单元在训练和验证二分类模型时，采用M折交叉验证；其中，M为正整数；通过交叉验证，能够消除随机因素，提高分类结果可信度，为选取最优的二分类模型提供了可靠的依据；

作为进一步优选的实施方式，M折交叉验证为M折分层交叉验证，并且每折交叉验证中两类数据的比例是相同的，以进一步提高模型分类结果的可信度。

作为一种可选的实施方式，在本实施例中，N＝5，并且5个模型训练单元所建立的二分类模型分别为：XGBoost、LightGBM、随机森林、CatBoost和逻辑回归；准确性以准确率(accuracy)和F1-score为评价指标，并且准确率的优先级高于F1-score，即优先选取准确率高的模型，在模型准确率相同的情况下，则选取F1-score高的模型；准确率accuracy以及F1-score的计算公式分别如下：

其中，TP、FP、FN和TN分别表示真阳性、假阳性、假阴性和真阴性的数量；precision表示查准率，recall表示查全率，相应的计算公式分别如下：

在本实施例中，所采用的验证方式具体为4折分层交叉验证，并且每折交叉验证中两类数据的比例是相同的；

最终，本实施例中，决策单元所选取的准确性最高的二分类模型为XGBoost，其在测试集上预测结果的混淆矩阵如图3所示，其中的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目；每一列中的数值表示真实数据被预测为该类别的数目，此处，第一列代表分类结果为治愈，第二列代表分类结果为死亡，第一行代表真实标签为治愈，第二行代表真实标签为死亡；图3所示的混淆矩阵很好地反映了XGboost分类的准确性；本实施例中，XGBoost所输出的特征重要度如图4所示；决策单元根据特征重要度从所有特征中筛选出Lactate dehydrogenase、High-sensitivity C-reactive protein和Lymphocyte(&)，即“乳酸脱氢酶”、“超敏C反应蛋白”、“淋巴细胞(％)”这三个特征作为可解释的特征；

本实施例中，分类模型获取模块在获取目标模型时，利用已标注两类数据标签的医学检测数据对多个二分类模型进行严格的训练、验证和测试，以从中筛选出准确性最高的模型，由此保证了分类模型的分类性能是最优的；在本实施例中，所标注的两类数据标签分别用于表示患者治愈与死亡，其意义在于指导医护人员进行下一步的救治，患者病况分类为死亡，意味着患者病况危急，面临死亡危险；患者病况分类为治愈，则意味着病人病况朝着治愈的方向发展；通过分析特征重要度，能够提高所选取模型的可解释性，防止过拟合；在模型训练之前设置类别权重，能够削弱类别不均衡带来的影响，提高分类准确性；应当说明的是，本实施例中相关参数的设置仅为示例性描述，不应理解为对本发明的唯一限定。

如图2所示，为了进一步提高模型的可解释性，防止过拟合，在本实施例中，分类模型获取模块还包括：特征可视化单元；

特征可视化单元用于对决策单元所选取的可解释的特征进行可视化操作；

在本实施例中，具体以三维散点图的形式对所筛选出的三个可解释的特征进行可视化操作，其结果如图5所示；同样，此处的可视化操作仅为示例性描述，不应理解为对本发明的唯一限定，其他用于提高模型可解释性的可视化方法，同样可适用于本发明。

在一个可选的实施方式，预处理操作(预处理模块对待分类患者数据的预处理操作，以及预处理单元对已标注两类数据标签的医学检测数据的预处理操作)包括：

使用预设的填充值x填充缺失数据；

其中，L和H均为正整数，且0<L<H<100；L和H分别对应特征值正常取值范围的下界和上界，可根据新型冠状病毒患者特征数据的取值情况确定；在本实施例中，x＝y＝-1，L＝1，H＝99；

作为一种可选的实施方式，误差检测准则为3σ法则；具体地，3σ法则判定方法如下：

a)计算单项特征的标准差σ；

b)每一个样本的该项特征值与均值

的差的绝对值与3倍标准差σ比较，若大于3倍标准差则将其识别为异常值并剔除；

c)重复步骤b)直到此次循环无任何剔除；

其中，n表示样本总数，x_i表示该项特征在第i个样本中的特征值；应当说明的是，其他误差检测准则也可适用于本发明。

进一步地，为提高系统的可解释性，本发明所提供的基于人工智能的新型冠状病毒患者病况分类系统，如图1所示，还包括：交互模块；

交互模块用于输入待分类患者数据，并对病况分类结果进行可视化显示；

图6所示为本实施例中交互模块在软件层面的实现示意图，通过该模块，上传新型冠状病毒患者数据，即可可到病况分类结果，同时数据可以一键导出，方便医护人员之间交流。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，包括：分类模型获取模块、预处理模块以及病况分类模块；

所述分类模型获取模块，用于训练一个或多个根据患者数据对患者病况进行分类的二分类模型，并从中获取准确性最高的二分类模型作为目标模型，同时确定患者数据中的可解释的特征；

所述预处理模块，用于提取待分类患者数据中的可解释的特征后，对所提取的特征进行预处理，以填充其中的缺失值并替换其中的异常值，从而在预处理结束后得到待分类特征；

所述病况分类模块，用于以所述待分类特征为所述目标模型的输入，利用所述目标模型完成对所述待分类患者的病况分类。

2.如权利要求1所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，所述分类模型获取模块包括：预处理单元、数据集划分单元、N个模型训练单元、决策单元以及模型重训练单元；

所述预处理单元，用于对已标注两类数据标签的医学检测数据进行预处理，以填充其中的缺失值并替换其中的异常值，从而在预处理结束后得到数据集；

所述数据集划分单元，用于按照预设的比例将所述数据集划分为训练集、验证集和测试集；

所述N个模型训练单元中的每一个模型训练单元，用于建立一个根据患者数据对患者病况进行分类的二分类模型，在设置类别权重后，利用所述训练集和所述验证集分别对所建立的二分类模型进行训练和验证，并利用所述测试集评估已训练好的二分类模型的准确性；所述N个模型训练单元所建立的N个二分类模型互不相同，每一个二分类模型在训练结束后，输出特征重要度；

所述决策单元，用于从已训练好的N个二分类模型中选取准确性最高二分类模型作为候选模型，并根据所述候选模型输出的特征重要度，选取特征重要度最高的前K项特征作为可解释的特征；

所述模型重训练单元，用于剔除所述训练集和所述验证集中可解释的特征之外的特征，并利用新的训练集和验证集对所述候选模型进行训练和验证，从而在训练完成后，得到最优的二分类模型，将其作为目标模型；

其中，N和K均为正整数。

3.如权利要求2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，各模型训练单元在训练和验证二分类模型时，采用M折交叉验证；

其中，M为正整数。

4.如权利要求3所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，所述M折交叉验证为M折分层交叉验证，并且每折交叉验证中两类数据的比例是相同的。

5.如权利要求2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，准确性以准确率和F1-score为评价指标，并且准确率的优先级高于F1-score。

6.如权利要求2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，N＝5，并且5个模型训练单元所建立的二分类模型分别为：XGBoost、LightGBM、随机森林、CatBoost和逻辑回归。

7.如权利要求2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，分类模型获取模块还包括：特征可视化单元；

所述特征可视化单元用于对所述决策单元所选取的可解释的特征进行可视化操作。

8.如权利要求1或2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，预处理操作包括：

使用预设的填充值x填充缺失数据；

其中，L和H均为正整数，且0<L<H<100。

9.如权利要求1或2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，所述误差检测准则为3σ法则。

10.如权利要求1或2所述的基于人工智能的新型冠状病毒患者病况分类系统，其特征在于，还包括：交互模块；

所述交互模块用于输入待分类患者数据，并对病况分类结果进行可视化显示。