CN117612729A - 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 - Google Patents
基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 Download PDFInfo
- Publication number
- CN117612729A CN117612729A CN202311577298.8A CN202311577298A CN117612729A CN 117612729 A CN117612729 A CN 117612729A CN 202311577298 A CN202311577298 A CN 202311577298A CN 117612729 A CN117612729 A CN 117612729A
- Authority
- CN
- China
- Prior art keywords
- model
- clinical
- data
- severe
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010003402 Arthropod sting Diseases 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012360 testing method Methods 0.000 title claims abstract description 28
- 208000024891 symptom Diseases 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000003066 decision tree Methods 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 15
- 210000004369 blood Anatomy 0.000 claims abstract description 13
- 239000008280 blood Substances 0.000 claims abstract description 13
- 108090000790 Enzymes Proteins 0.000 claims abstract description 12
- 102000004190 Enzymes Human genes 0.000 claims abstract description 12
- 230000003907 kidney function Effects 0.000 claims abstract description 12
- 230000003908 liver function Effects 0.000 claims abstract description 12
- 230000002107 myocardial effect Effects 0.000 claims abstract description 9
- 201000010099 disease Diseases 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 208000003014 Bites and Stings Diseases 0.000 claims description 10
- 210000003743 erythrocyte Anatomy 0.000 claims description 9
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 6
- 210000003714 granulocyte Anatomy 0.000 claims description 6
- 210000004698 lymphocyte Anatomy 0.000 claims description 6
- 210000000440 neutrophil Anatomy 0.000 claims description 6
- 238000003759 clinical diagnosis Methods 0.000 claims description 5
- 210000000056 organ Anatomy 0.000 claims description 4
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 claims description 3
- 108010082126 Alanine transaminase Proteins 0.000 claims description 3
- 102000004420 Creatine Kinase Human genes 0.000 claims description 3
- 108010042126 Creatine kinase Proteins 0.000 claims description 3
- 238000008789 Direct Bilirubin Methods 0.000 claims description 3
- 108010044467 Isoenzymes Proteins 0.000 claims description 3
- 102000003855 L-lactate dehydrogenase Human genes 0.000 claims description 3
- 108700023483 L-lactate dehydrogenases Proteins 0.000 claims description 3
- 102000036675 Myoglobin Human genes 0.000 claims description 3
- 108010062374 Myoglobin Proteins 0.000 claims description 3
- 238000008050 Total Bilirubin Reagent Methods 0.000 claims description 3
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 claims description 3
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 3
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 3
- 102000015736 beta 2-Microglobulin Human genes 0.000 claims description 3
- 108010081355 beta 2-Microglobulin Proteins 0.000 claims description 3
- 239000004202 carbamide Substances 0.000 claims description 3
- 229940109239 creatinine Drugs 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 206010040882 skin lesion Diseases 0.000 claims description 3
- 231100000444 skin lesion Toxicity 0.000 claims description 3
- 229940116269 uric acid Drugs 0.000 claims description 3
- 206010002198 Anaphylactic reaction Diseases 0.000 claims description 2
- 206010008796 Chromaturia Diseases 0.000 claims description 2
- 206010020751 Hypersensitivity Diseases 0.000 claims description 2
- 206010053159 Organ failure Diseases 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims description 2
- 208000030961 allergic reaction Diseases 0.000 claims description 2
- 208000003455 anaphylaxis Diseases 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 235000013555 soy sauce Nutrition 0.000 claims description 2
- 108010003415 Aspartate Aminotransferases Proteins 0.000 claims 1
- 102000004625 Aspartate Aminotransferases Human genes 0.000 claims 1
- 230000009897 systematic effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 18
- 238000013145 classification model Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 241000256856 Vespidae Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 206010013954 Dysphoria Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010015150 Erythema Diseases 0.000 description 1
- 208000005374 Poisoning Diseases 0.000 description 1
- 206010053262 Skin swelling Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000011318 facial edema Diseases 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 239000002578 wasp venom Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,其目的是得到由胡蜂蛰伤临床测量指标判断症状轻重的预测值。具体实现时,首先,收集一个包含相关特征和目标变量的数据集,利用每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值,将这些量值作为每个病人的一个特征集,专业医生提供轻重症标签,目标变量表示症状的严重程度,可以分为轻或重症;定义XGBoost模型和设置模型的参数,然后将XGBoost模型拟合到训练数据上,在训练过程中,模型将迭代地构建决策树以最小化指定的损失函数;接下来,使用训练好的模型对测试数据进行预测,绘制ROC曲线;进而在实际预测时,输入病人对应的特征数据后得到对应的症状预测值。
Description
技术领域
本发明涉及机器学习、生物医学领域,具体公开了一种基于机器学习分析胡蜂蛰伤病人临床测量指标预测蜇伤评价属于轻症或重症的方法。
背景技术
胡蜂蛰伤后病人出现局部和系统中毒症状,因为胡蜂的尾刺连有毒腺,蛰人时可将蜂毒注入人体皮内,尤其是被群胡蜂蛰伤后症状往往比较严重,除皮肤红肿外,还可出现头晕目眩、恶心呕吐、面部浮肿、呼吸困难、烦躁不安等症状,甚至可出现昏迷和休克。胡蜂蛰伤主要发生在我国山区夏秋季,起病急,病情进展迅速,通过病人各项检查指标来判断其胡蜂蛰伤严重性,对研究其病临床特点和为进一步规范化重症胡蜂蛰伤治疗提供依据就显得十分重要。
近年来,随着机器学习的兴起,为判断预测症状的解决提供了新的思路。机器学习作为新时代人工智能领域的必然产物,其算法拥有强大的学习能力,结合机器学习学习血检指标等特征,能准确判断症状严重性,辅助医生判断,提高医疗效率。
XBGoost(eXtreme Gradient Boosting)极致梯度提升算法,是一种基于GBDT的算法,具有高效、灵活和轻便的特点,在数据挖掘、推荐系统等领域得到广泛的应用,在预测胡蜂蛰伤严重性的过程中具有快速和准确性高的效果。
发明内容
现有技术中,未发现有将机器学习算法应用于预测胡蜂蛰伤轻重症预测的方法。本发明收集包含了胡蜂蜇伤轻重症相关的特征数据集,包括血常规,肝功,肾功和酶检验数据,并且具备专业医生提供的轻重症标签。
使用此数据集进行特征提取,利用XGBoost模型进行预测和训练。
XGBoost是一种基于梯度提升的决策树算法,擅长处理结构复杂、维度高的数据,因此对胡蜂蜇伤导致的轻重症的预测是切实可行的。
在模型训练完之后,本发明使用典型的评估指标ROC和AUC来衡量模型的预测性能,以确保其能够在实际应用中提供准确、可靠的预测结果。
针对缺少就临床测量值与胡蜂蛰伤轻重症的相关性研究问题,以及现有症状判断方法存在的预测性能不足的问题,提供一种基于XBGoost框架的胡蜂蛰伤轻重症预测方法,本方法采集每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值,将其作为每个病人的一个特征集;然后再利用特征集来训练模型得到预测模型,进而实际预测时,输入病人对应的特征数据后得到对应的症状预测值。本方法具有预测精度高、速度快的特点。
本发明的基于XBGoost框架的胡蜂蛰伤轻重症预测方法,包括如下步骤:
步骤一:获临床检测胡蜂蛰伤数据集形成原始数据集;
所述临床检测数据包括:
a、血常规临床测量指标:白细胞(10^9/L)、中性粒细胞比率(%)、淋巴细胞比率(%)、幼稚粒细胞百分比(%)、中性粒细胞计数(109/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(%);
b、肝功临床测量指标:谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L,
c、肾功临床测量指标:肌酐umol/L、尿素mmol/L、尿酸umol/L、β 2微球蛋白mg/L;
以及d、心肌酶临床测量指标:乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/m1、肌红蛋白ng/ml。
而在实际情况中,胡蜂蛰伤患者的重症比例并不高,所以为了解决数据不平衡的问题,本发明采用SMOTE算法对数据集进行了重采样处理:SMOTE(Synthetic MinorityOver-sampling Technique)用于处理不平衡数据,它通过合成新的少数类样本来平衡数据集。这种方法通过合成新的少数类样本,可以增加少数类样本的数量,从而平衡数据集。它可以有效地提高模型对少数类的学习能力,并改善模型的性能。
对数据进行特征提取和训练,包括以下步骤:
(1)将所述原始数据集拆分为测试集与训练集,用于训练机器学习二分类模型(即XBGoost模型);
(2)由临床医师根据蜇伤病人的临床症状,评估严重程度:
①轻度:螫伤皮损数一般小于10处,仅出现局部过敏反应,无器官功能受累表现。
②重度:螫伤皮损数一般在10~30处之间;过敏反应分级I~IV级或至少2个系统器官受累,序贯器官衰竭评分(SOFA)≥2分;早期出现肉眼酱油色或茶色尿。
把临床检测数据的量值与严重程度关联。
(3)将胡蜂蛰伤患者特征数据量值输入XBGoost模型,预测对应的症状严重性预测值。
本发明的目的是得到由胡蜂蛰伤临床测量指标判断症状轻重的预测值。具体实现时,本发明:首先,收集一个包含相关特征和目标变量的数据集,利用每个病人的血常规、肝功、肾功以及心肌酶的关联特征的量值,将这些量值作为每个病人的一个特征集,专业医生提供轻重症标签,目标变量表示症状的严重程度,可以分为不同级别(轻症和重症);定义XGBoost模型,设置XGBoost模型的参数,然后将XGBoost模型拟合到训练数据上,在训练过程中,模型将迭代地构建决策树以最小化指定的损失函数;接下来,使用训练好的模型对测试数据进行预测,绘制ROC曲线;进而在实际预测时,输入病人对应的特征数据后得到对应的症状预测值。
XBGoost属于梯度提升算法,通过组合多个弱学习器(决策树)来创建一个强大的预测模型。XGBoost算法采用提升(Boosting)方法,逐步添加弱学习器以提高模型性能。每个弱学习器都被训练用来纠正前面弱学习器的错误。XGBoost的主要思想是通过迭代地添加弱学习器来最小化损失函数。
本发明的有益效果包括:
本发明依据病人的血常规、肝功、肾功以及心肌酶临床化验指标提取特征数据来训练机器学习的二分类预测模型,解决了就病人胡蜂蛰伤化验数据迅速预判胡蜂蛰伤病人是滞会发展为重症的问题。同时本发明基于XBGoost机器学习算法进行二分类,不论是小样本数据还是大样本数据,均可以有效地进行处理,为后续医生进行临床诊断得到可靠性高参考基础。
附图说明
图1是本发明实施例提供的供一种基于XGBoost框架的胡蜂蛰伤轻重症预测方法的流程图;
图2是本发明实例数据集提供的胡蜂蛰伤轻重症预测效果图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案做进一步地说明。
需要说明的是,若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。
对本发明进行概述。
本发明的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,本方法以胡蜂蛰伤患者的特征数据为输入,采用预测模型预测患者属于轻症或重症,并输出对应的轻/重症的预测值,用于辅助医生临床诊断;
所述预测模型的构建方法为:
一、收集胡蜂蛰伤病人的临床检测数据,把这些临床检测数据中分为训练数据和测试数据;
这些临床检测数据包括:病人的血常规、肝功、肾功以及心肌酶的关联特征的量值,将这些量值作为每个病人的一个特征集;
由医生根据临床检测数据的量值提供对应的轻/重症标签;
二、将XGBoost模型拟合到训练数据上;
在训练过程中,XGBoost模型将迭代地构建决策树以最小化指定的损失函数;
三、使用训练好的XGBoost模型对测试数据进行预测,并评估预测性能;
在步骤一中,对采用SMOTE算法对临床检测数据进行重采样预处理,步骤包括:
1.1)对于少数类样本中的每一个样本,通过计算其与其最近邻样本之间的差异,得到一系列新的合成样本;
1.2)从这些合成样本中随机选择一些样本,并添加到原始数据集中;
1.3)重复步骤1.1)和步骤1.2),直到轻症和重症的两类样本达到均衡为止。
步骤一中,对于临床检测数据中的不完整数据进行数据填充。
在步骤二中,步骤包括:
2.1)初始化模型:对所有实例初始化一个初始预测(通常为目标变量的均值或中位数);
2.2)计算梯度和海森矩阵:计算损失函数相对于当前模型预测值的梯度和海森矩阵;梯度表示更新模型的方向,海森矩阵测量损失函数的曲率;
2.3)构建决策树:根据梯度和海森矩阵的值构建一棵决策树;策树通过递归地基于能够最大程度地减少损失函数的特征来分割数据;
2.4)更新模型:通过将新决策树的预测值乘以学习率来更新模型的预测;学习率控制每个弱学习器对整体模型的贡献;
2.5)重复步骤2.2)~2.4):再次使用更新后的模型的预测值计算梯度和海森矩阵,构建新的决策树并更新模型;该过程重复进行指定次数的迭代,或者直到达到停止准则;
2.6)进行预测:训练完成后的模型即用于预测。
XGBoost算法中:
损失函数:
其中:是使用的特定损失函数,本发明二分类问题使用的是对数损失。∑表示对所有实例求和。Q(fk)是对复杂模型进行惩罚的正则化项。γ是正则化参数。K是复杂度成本,用于衡量决策树中叶子节点的数量。
梯度:
其中:是损失函数相对于预测值的偏导数。
海森矩阵:
其中:是损失函数相对于预测值的二阶偏导数。
结合实施例说明本发明。
在本例中,参考图1,本实施例的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,包括如下步骤:
S1获取胡蜂蛰伤特征数据(包括血常规,肝功,肾功和酶检验数据),作为原始数据集;
本实施例数据来源于陕西省安康市紫阳县第一人民医院提供的345个病人的胡蜂蛰伤相关数据,包括轻症313例和重症32例,下述将对关联特征的提取过程进行详细阐述:
1、血常规相关的指标:白细胞(10^9/L)、中性粒细胞比率(%)、淋巴细胞比率(%)、幼稚粒细胞百分比(%)、中性粒细胞计数(10^9/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(%)。
2、肝功指标:谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L。
3、肾功指标:肌酐umol/L、尿素mmol/L、尿酸umol/L、β2微球蛋白mg/L。
4、心肌酶数据指标:乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/ml、肌红蛋白ng/ml。
以上临床测量指标均处理为浮点型数字进行读取,对于部分病人的不完整数据也进行了对应的数据填充。
s2将所述原始数据集拆分为测试集与训练集,训练得到机器学习二分类模型;
S3将胡蜂蛰伤特征数据输入至机器学习XBGoost二分类模型,利用所述机器学习二分类模型预测胡蜂蛰伤评价属于轻症或重症;
将胡蜂蛰伤特征数据据输入至训练得到的XBGoost二分类模型,利用上述机器学习二分类模型预测胡蜂蛰伤症状严重程度。其中,胡蜂蛰伤特征数据是指包括血常规,肝功,肾功和酶检验数据在内的临床临床测量指标,胡蜂蛰伤评价属于轻症或重症的分类使用专业医生提供的标签。
s4将所述蛰伤症状严重程度预测结果输出,辅助医生临床诊断。
确定XBGoost二分类模型的各项参数后,利用测试集对得到的机器学习二分类模型进行有效性评估,以评价所获得的机器学习二分类模型的性能。如图2所示,ROC(receiveroperating characteristic)曲线的横坐标是负正类率(false postive rateFPR)特异度,划分实例中所有负例占所有负例的比例,纵坐标是真正类率(true postiverate TPR)灵敏度,Sensitivity(正类覆盖率),ROC曲线上每个点反映着对同一信号刺激的感受性。
本实施例中,利用测试集对上述得到的机器学习二分类模型进行有效性评估,本模型能达到AUC=0.82,预测结果具有较高的准确度,有助于辅助医生判断。
本实施例中,根据胡蜂蛰伤测量特征数据建立机器学习XGBoost二分类模型,将临床测量的特征数据输入至所述机器学习二分类模型,利用训练好的二分类模型预测蛰伤症状严重性,预测蜇伤评价属于轻症或重症,辅助医生临床诊断。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等流程变换,或直接或间接运用在相关技术领域,均同理包括在本发明的专利保护范围。
Claims (4)
1.一种基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,其特征在于:以胡蜂蛰伤患者的特征数据为输入,采用预测模型预测患者属于轻症或重症,并输出对应的轻/重症的预测值,用于辅助医生临床诊断;
所述预测模型的构建方法为:
一、收集胡蜂蛰伤病人的临床检测数据,把这些临床检测数据中分为训练数据和测试数据;
这些临床检测数据包括:病人的血常规、肝功、肾功以及心肌酶的关联特征的量值,将这些量值作为每个病人的一个特征集;
由医生根据临床检测数据的量值提供对应的轻/重症标签;
二、将XGBoost模型拟合到训练数据上;
在训练过程中,XGBoost模型将迭代地构建决策树以最小化指定的损失函数;
三、使用训练好的XGBoost模型对测试数据进行预测,并评估预测性能;
步骤一中,胡蜂蛰伤的轻症和重症的区别标准为:
①轻症:螫伤皮损数小于10处,仅出现局部过敏反应,无器官功能受累表现;
②重症:螫伤皮损数在10~30处之间;过敏反应分级Ⅰ~Ⅳ级或至少2个系统器官受累,序贯器官衰竭评分(SOFA)≥2分;早期出现肉眼酱油色或茶色尿;
把轻症和重症分别与相应的临床检测数据关联;
步骤一中,对采用SMOTE算法对临床检测数据进行重采样预处理,步骤包括:
1.1)对于少数类样本中的每一个样本,通过计算其与其最近邻样本之间的差异,得到一系列新的合成样本;
1.2)从这些合成样本中随机选择一些样本,并添加到原始数据集中;
1.3)重复步骤1.1)和步骤1.2),直到轻症和重症的两类样本达到均衡为止。
2.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,其特征是步骤一中,对于临床检测数据中的不完整数据进行数据填充。
3.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,其特征是步骤一中,所述临床检测数据包括:
血常规临床测量指标:白细胞(10^9/L)、中性粒细胞比率(%)、淋巴细胞比率(%)、幼稚粒细胞百分比(%)、中性粒细胞计数(10^9/L)、淋巴细胞计数(10^9/L)、幼稚粒细胞计数(10^9/L)、红细胞(10^12/L)、红细胞分布宽度CV、红细胞分布宽度SD、血小板(10^9/L)、血小板分布宽度(fL)、大血小板比率(%);
肝功临床测量指标:谷丙转氨酶(U/L)、谷草转氨酶(U/L)、总胆红素umol/L、直接胆红素umol/L;
肾功临床测量指标:肌酐umol/L、尿素mmol/L、尿酸umol/L、β2微球蛋白mg/L;
心肌酶临床测量指标:乳酸脱氢酶U/L、肌酸激酶U/L、肌酸激酶同工酶U/L、高敏肌钙蛋白Ing/ml和肌红蛋白ng/ml。
4.根据权利要求1所述的基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法,其特征是所述步骤二中,步骤包括:
2.1)初始化模型:对所有实例初始化一个初始预测;
2.2)计算梯度和海森矩阵:计算损失函数相对于当前模型预测值的梯度和海森矩阵;梯度表示更新模型的方向,海森矩阵测量损失函数的曲率;
2.3)构建决策树:根据梯度和海森矩阵的值构建一棵决策树;策树通过递归地基于能够最大程度地减少损失函数的特征来分割数据;
2.4)更新模型:通过将新决策树的预测值乘以学习率来更新模型的预测;学习率控制每个弱学习器对整体模型的贡献;
2.5)重复步骤2.2)~2.4):再次使用更新后的模型的预测值计算梯度和海森矩阵,构建新的决策树并更新模型;该过程重复进行指定次数的迭代,或者直到达到停止准则;
2.6)进行预测:训练完成后的模型即用于预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311577298.8A CN117612729A (zh) | 2023-11-23 | 2023-11-23 | 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311577298.8A CN117612729A (zh) | 2023-11-23 | 2023-11-23 | 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612729A true CN117612729A (zh) | 2024-02-27 |
Family
ID=89959104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311577298.8A Pending CN117612729A (zh) | 2023-11-23 | 2023-11-23 | 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612729A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809853A (zh) * | 2024-02-29 | 2024-04-02 | 首都医科大学附属北京友谊医院 | 一种肝细胞癌病理识别模型的构建方法及电子设备 |
-
2023
- 2023-11-23 CN CN202311577298.8A patent/CN117612729A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809853A (zh) * | 2024-02-29 | 2024-04-02 | 首都医科大学附属北京友谊医院 | 一种肝细胞癌病理识别模型的构建方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107730497A (zh) | 一种基于深度迁移学习的血管内斑块属性分析方法 | |
CN108700596A (zh) | 用于心血管疾病和事件的诊断和预后方法 | |
CN113327679A (zh) | 一种肺栓塞临床风险及预后评分方法与系统 | |
CN117612729A (zh) | 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法 | |
CN114292931B (zh) | 急性冠脉综合征的风险评估标志物及其应用 | |
CN114220540A (zh) | 一种糖尿病肾病风险预测模型的构建方法及应用 | |
CN112991320B (zh) | 脑出血患者血肿扩大风险预测系统及方法 | |
CN110991536A (zh) | 原发性肝癌的早期预警模型的训练方法 | |
CN114242245A (zh) | 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置 | |
CN112466402A (zh) | 一种使用血液标志物预测年龄的方法 | |
CN111413492A (zh) | 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统 | |
CN112509635A (zh) | 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置 | |
CN112509700A (zh) | 稳定型冠心病的风险预测方法及装置 | |
CN114373544A (zh) | 一种基于机器学习的预测膜性肾病的方法、系统和装置 | |
CN111175480A (zh) | 一种血液生化指标计算性别和年龄的方法 | |
CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
CN113539475A (zh) | 一种仅使用血常规检验数据的疾病筛查和诊断方法 | |
CN112837818A (zh) | 一种评估乙肝患者肝纤维化程度的模型 | |
Frossyniotis et al. | Artificial neural network selection for the detection of plant viruses | |
CN113936761A (zh) | 一种基于机器学习的预测新冠肺炎患者风险分层的方法 | |
CN113990485A (zh) | 一种基于常规检验数据与知识图谱联合诊断疾病的方法 | |
CN113096815A (zh) | 一种基于logistic回归的慢性肾病预测方法 | |
Yördan et al. | Hybrid AI-Based Chronic Kidney Disease Risk Prediction | |
CN117936068A (zh) | 智能判断模型的构建方法及系统 | |
CN113917152B (zh) | 尿蛋白标志物在制备检测糖尿病肾病的试剂盒中的应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |