CN117612729A

CN117612729A - 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法

Info

Publication number: CN117612729A
Application number: CN202311577298.8A
Authority: CN
Inventors: 柳冰冰; 吴晨; 赫正方; 刘辉; 刘学军
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-27

Abstract

一种基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，其目的是得到由胡蜂蛰伤临床测量指标判断症状轻重的预测值。具体实现时，首先，收集一个包含相关特征和目标变量的数据集，利用每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值，将这些量值作为每个病人的一个特征集，专业医生提供轻重症标签，目标变量表示症状的严重程度，可以分为轻或重症；定义XGBoost模型和设置模型的参数，然后将XGBoost模型拟合到训练数据上，在训练过程中，模型将迭代地构建决策树以最小化指定的损失函数；接下来，使用训练好的模型对测试数据进行预测，绘制ROC曲线；进而在实际预测时，输入病人对应的特征数据后得到对应的症状预测值。

Description

基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法

技术领域

本发明涉及机器学习、生物医学领域，具体公开了一种基于机器学习分析胡蜂蛰伤病人临床测量指标预测蜇伤评价属于轻症或重症的方法。

背景技术

胡蜂蛰伤后病人出现局部和系统中毒症状，因为胡蜂的尾刺连有毒腺，蛰人时可将蜂毒注入人体皮内，尤其是被群胡蜂蛰伤后症状往往比较严重，除皮肤红肿外，还可出现头晕目眩、恶心呕吐、面部浮肿、呼吸困难、烦躁不安等症状，甚至可出现昏迷和休克。胡蜂蛰伤主要发生在我国山区夏秋季，起病急，病情进展迅速，通过病人各项检查指标来判断其胡蜂蛰伤严重性，对研究其病临床特点和为进一步规范化重症胡蜂蛰伤治疗提供依据就显得十分重要。

近年来，随着机器学习的兴起，为判断预测症状的解决提供了新的思路。机器学习作为新时代人工智能领域的必然产物，其算法拥有强大的学习能力，结合机器学习学习血检指标等特征，能准确判断症状严重性，辅助医生判断，提高医疗效率。

XBGoost(eXtreme Gradient Boosting)极致梯度提升算法，是一种基于GBDT的算法，具有高效、灵活和轻便的特点，在数据挖掘、推荐系统等领域得到广泛的应用，在预测胡蜂蛰伤严重性的过程中具有快速和准确性高的效果。

发明内容

现有技术中，未发现有将机器学习算法应用于预测胡蜂蛰伤轻重症预测的方法。本发明收集包含了胡蜂蜇伤轻重症相关的特征数据集，包括血常规，肝功，肾功和酶检验数据，并且具备专业医生提供的轻重症标签。

使用此数据集进行特征提取，利用XGBoost模型进行预测和训练。

XGBoost是一种基于梯度提升的决策树算法，擅长处理结构复杂、维度高的数据，因此对胡蜂蜇伤导致的轻重症的预测是切实可行的。

在模型训练完之后，本发明使用典型的评估指标ROC和AUC来衡量模型的预测性能，以确保其能够在实际应用中提供准确、可靠的预测结果。

针对缺少就临床测量值与胡蜂蛰伤轻重症的相关性研究问题，以及现有症状判断方法存在的预测性能不足的问题，提供一种基于XBGoost框架的胡蜂蛰伤轻重症预测方法，本方法采集每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值，将其作为每个病人的一个特征集；然后再利用特征集来训练模型得到预测模型，进而实际预测时，输入病人对应的特征数据后得到对应的症状预测值。本方法具有预测精度高、速度快的特点。

本发明的基于XBGoost框架的胡蜂蛰伤轻重症预测方法，包括如下步骤：

步骤一：获临床检测胡蜂蛰伤数据集形成原始数据集；

所述临床检测数据包括：

a、血常规临床测量指标：白细胞(10^9/L)、中性粒细胞比率(％)、淋巴细胞比率(％)、幼稚粒细胞百分比(％)、中性粒细胞计数(109/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(％)；

b、肝功临床测量指标：谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L，

c、肾功临床测量指标：肌酐umol/L、尿素mmol/L、尿酸umol/L、β 2微球蛋白mg/L；

以及d、心肌酶临床测量指标：乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/m1、肌红蛋白ng/ml。

而在实际情况中，胡蜂蛰伤患者的重症比例并不高，所以为了解决数据不平衡的问题，本发明采用SMOTE算法对数据集进行了重采样处理：SMOTE(Synthetic MinorityOver-sampling Technique)用于处理不平衡数据，它通过合成新的少数类样本来平衡数据集。这种方法通过合成新的少数类样本，可以增加少数类样本的数量，从而平衡数据集。它可以有效地提高模型对少数类的学习能力，并改善模型的性能。

对数据进行特征提取和训练，包括以下步骤：

(1)将所述原始数据集拆分为测试集与训练集，用于训练机器学习二分类模型(即XBGoost模型)；

(2)由临床医师根据蜇伤病人的临床症状，评估严重程度：

①轻度：螫伤皮损数一般小于10处，仅出现局部过敏反应，无器官功能受累表现。

②重度：螫伤皮损数一般在10～30处之间；过敏反应分级I～IV级或至少2个系统器官受累，序贯器官衰竭评分(SOFA)≥2分；早期出现肉眼酱油色或茶色尿。

把临床检测数据的量值与严重程度关联。

(3)将胡蜂蛰伤患者特征数据量值输入XBGoost模型，预测对应的症状严重性预测值。

本发明的目的是得到由胡蜂蛰伤临床测量指标判断症状轻重的预测值。具体实现时，本发明：首先，收集一个包含相关特征和目标变量的数据集，利用每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值，将这些量值作为每个病人的一个特征集，专业医生提供轻重症标签，目标变量表示症状的严重程度，可以分为不同级别(轻症和重症)；定义XGBoost模型，设置XGBoost模型的参数，然后将XGBoost模型拟合到训练数据上，在训练过程中，模型将迭代地构建决策树以最小化指定的损失函数；接下来，使用训练好的模型对测试数据进行预测，绘制ROC曲线；进而在实际预测时，输入病人对应的特征数据后得到对应的症状预测值。

XBGoost属于梯度提升算法，通过组合多个弱学习器(决策树)来创建一个强大的预测模型。XGBoost算法采用提升(Boosting)方法，逐步添加弱学习器以提高模型性能。每个弱学习器都被训练用来纠正前面弱学习器的错误。XGBoost的主要思想是通过迭代地添加弱学习器来最小化损失函数。

本发明的有益效果包括：

本发明依据病人的血常规、肝功、肾功以及心肌酶临床化验指标提取特征数据来训练机器学习的二分类预测模型，解决了就病人胡蜂蛰伤化验数据迅速预判胡蜂蛰伤病人是滞会发展为重症的问题。同时本发明基于XBGoost机器学习算法进行二分类，不论是小样本数据还是大样本数据，均可以有效地进行处理，为后续医生进行临床诊断得到可靠性高参考基础。

附图说明

图1是本发明实施例提供的供一种基于XGBoost框架的胡蜂蛰伤轻重症预测方法的流程图；

图2是本发明实例数据集提供的胡蜂蛰伤轻重症预测效果图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案做进一步地说明。

需要说明的是，若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。

对本发明进行概述。

本发明的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，本方法以胡蜂蛰伤患者的特征数据为输入，采用预测模型预测患者属于轻症或重症，并输出对应的轻/重症的预测值，用于辅助医生临床诊断；

所述预测模型的构建方法为：

一、收集胡蜂蛰伤病人的临床检测数据，把这些临床检测数据中分为训练数据和测试数据；

这些临床检测数据包括：病人的血常规、肝功、肾功以及心肌酶的关联特征的量值，将这些量值作为每个病人的一个特征集；

由医生根据临床检测数据的量值提供对应的轻/重症标签；

二、将XGBoost模型拟合到训练数据上；

在训练过程中，XGBoost模型将迭代地构建决策树以最小化指定的损失函数；

三、使用训练好的XGBoost模型对测试数据进行预测，并评估预测性能；

在步骤一中，对采用SMOTE算法对临床检测数据进行重采样预处理，步骤包括：

1.1)对于少数类样本中的每一个样本，通过计算其与其最近邻样本之间的差异，得到一系列新的合成样本；

1.2)从这些合成样本中随机选择一些样本，并添加到原始数据集中；

1.3)重复步骤1.1)和步骤1.2)，直到轻症和重症的两类样本达到均衡为止。

步骤一中，对于临床检测数据中的不完整数据进行数据填充。

在步骤二中，步骤包括：

2.1)初始化模型：对所有实例初始化一个初始预测(通常为目标变量的均值或中位数)；

2.2)计算梯度和海森矩阵：计算损失函数相对于当前模型预测值的梯度和海森矩阵；梯度表示更新模型的方向，海森矩阵测量损失函数的曲率；

2.3)构建决策树：根据梯度和海森矩阵的值构建一棵决策树；策树通过递归地基于能够最大程度地减少损失函数的特征来分割数据；

2.4)更新模型：通过将新决策树的预测值乘以学习率来更新模型的预测；学习率控制每个弱学习器对整体模型的贡献；

2.5)重复步骤2.2)～2.4)：再次使用更新后的模型的预测值计算梯度和海森矩阵，构建新的决策树并更新模型；该过程重复进行指定次数的迭代，或者直到达到停止准则；

2.6)进行预测：训练完成后的模型即用于预测。

XGBoost算法中：

损失函数：

其中：是使用的特定损失函数，本发明二分类问题使用的是对数损失。∑表示对所有实例求和。Q(fk)是对复杂模型进行惩罚的正则化项。γ是正则化参数。K是复杂度成本，用于衡量决策树中叶子节点的数量。

梯度：

其中：是损失函数相对于预测值的偏导数。

海森矩阵：

其中：是损失函数相对于预测值的二阶偏导数。

结合实施例说明本发明。

在本例中，参考图1，本实施例的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，包括如下步骤：

S1获取胡蜂蛰伤特征数据(包括血常规，肝功，肾功和酶检验数据)，作为原始数据集；

本实施例数据来源于陕西省安康市紫阳县第一人民医院提供的345个病人的胡蜂蛰伤相关数据，包括轻症313例和重症32例，下述将对关联特征的提取过程进行详细阐述：

1、血常规相关的指标：白细胞(10^9/L)、中性粒细胞比率(％)、淋巴细胞比率(％)、幼稚粒细胞百分比(％)、中性粒细胞计数(10^9/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(％)。

2、肝功指标：谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L。

3、肾功指标：肌酐umol/L、尿素mmol/L、尿酸umol/L、β2微球蛋白mg/L。

4、心肌酶数据指标：乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/ml、肌红蛋白ng/ml。

以上临床测量指标均处理为浮点型数字进行读取，对于部分病人的不完整数据也进行了对应的数据填充。

s2将所述原始数据集拆分为测试集与训练集，训练得到机器学习二分类模型；

S3将胡蜂蛰伤特征数据输入至机器学习XBGoost二分类模型，利用所述机器学习二分类模型预测胡蜂蛰伤评价属于轻症或重症；

将胡蜂蛰伤特征数据据输入至训练得到的XBGoost二分类模型，利用上述机器学习二分类模型预测胡蜂蛰伤症状严重程度。其中，胡蜂蛰伤特征数据是指包括血常规，肝功，肾功和酶检验数据在内的临床临床测量指标，胡蜂蛰伤评价属于轻症或重症的分类使用专业医生提供的标签。

s4将所述蛰伤症状严重程度预测结果输出，辅助医生临床诊断。

确定XBGoost二分类模型的各项参数后，利用测试集对得到的机器学习二分类模型进行有效性评估，以评价所获得的机器学习二分类模型的性能。如图2所示，ROC(receiveroperating characteristic)曲线的横坐标是负正类率(false postive rateFPR)特异度，划分实例中所有负例占所有负例的比例，纵坐标是真正类率(true postiverate TPR)灵敏度，Sensitivity(正类覆盖率)，ROC曲线上每个点反映着对同一信号刺激的感受性。

本实施例中，利用测试集对上述得到的机器学习二分类模型进行有效性评估，本模型能达到AUC＝0.82，预测结果具有较高的准确度，有助于辅助医生判断。

本实施例中，根据胡蜂蛰伤测量特征数据建立机器学习XGBoost二分类模型，将临床测量的特征数据输入至所述机器学习二分类模型，利用训练好的二分类模型预测蛰伤症状严重性，预测蜇伤评价属于轻症或重症，辅助医生临床诊断。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所做的等效结构或等流程变换，或直接或间接运用在相关技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，其特征在于：以胡蜂蛰伤患者的特征数据为输入，采用预测模型预测患者属于轻症或重症，并输出对应的轻/重症的预测值，用于辅助医生临床诊断；

所述预测模型的构建方法为：

由医生根据临床检测数据的量值提供对应的轻/重症标签；

二、将XGBoost模型拟合到训练数据上；

步骤一中，胡蜂蛰伤的轻症和重症的区别标准为：

①轻症：螫伤皮损数小于10处，仅出现局部过敏反应，无器官功能受累表现；

②重症：螫伤皮损数在10～30处之间；过敏反应分级Ⅰ～Ⅳ级或至少2个系统器官受累，序贯器官衰竭评分(SOFA)≥2分；早期出现肉眼酱油色或茶色尿；

把轻症和重症分别与相应的临床检测数据关联；

步骤一中，对采用SMOTE算法对临床检测数据进行重采样预处理，步骤包括：

2.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，其特征是步骤一中，对于临床检测数据中的不完整数据进行数据填充。

3.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，其特征是步骤一中，所述临床检测数据包括：

血常规临床测量指标：白细胞(10^9/L)、中性粒细胞比率(％)、淋巴细胞比率(％)、幼稚粒细胞百分比(％)、中性粒细胞计数(10^9/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(％)；

肝功临床测量指标：谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L；

肾功临床测量指标：肌酐umol/L、尿素mmol/L、尿酸umol/L、β2微球蛋白mg/L；

心肌酶临床测量指标：乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/ml和肌红蛋白ng/ml。

4.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法，其特征是所述步骤二中，步骤包括：

2.1)初始化模型：对所有实例初始化一个初始预测；

2.6)进行预测：训练完成后的模型即用于预测。