CN115758155A - 一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 - Google Patents
一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 Download PDFInfo
- Publication number
- CN115758155A CN115758155A CN202211482017.6A CN202211482017A CN115758155A CN 115758155 A CN115758155 A CN 115758155A CN 202211482017 A CN202211482017 A CN 202211482017A CN 115758155 A CN115758155 A CN 115758155A
- Authority
- CN
- China
- Prior art keywords
- cerebrospinal fluid
- random forest
- bacterial meningitis
- model
- characteristic parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 96
- 206010027202 Meningitis bacterial Diseases 0.000 title claims abstract description 48
- 201000009904 bacterial meningitis Diseases 0.000 title claims abstract description 48
- 238000003745 diagnosis Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims abstract description 113
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 210000000265 leukocyte Anatomy 0.000 claims abstract description 21
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 210000004027 cell Anatomy 0.000 claims abstract description 12
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 claims abstract description 10
- 229910052801 chlorine Inorganic materials 0.000 claims abstract description 10
- 239000000460 chlorine Substances 0.000 claims abstract description 10
- 210000005087 mononuclear cell Anatomy 0.000 claims abstract description 10
- 210000000440 neutrophil Anatomy 0.000 claims abstract description 10
- 102000009265 Cerebrospinal Fluid Proteins Human genes 0.000 claims abstract description 9
- 108010073496 Cerebrospinal Fluid Proteins Proteins 0.000 claims abstract description 9
- 235000014655 lactic acid Nutrition 0.000 claims abstract description 9
- 239000004310 lactic acid Substances 0.000 claims abstract description 9
- 210000004698 lymphocyte Anatomy 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 210000005088 multinucleated cell Anatomy 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 201000009906 Meningitis Diseases 0.000 abstract description 14
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000003066 decision tree Methods 0.000 description 12
- 238000010606 normalization Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000002560 therapeutic procedure Methods 0.000 description 5
- JVTAAEKCZFNVCJ-UHFFFAOYSA-M Lactate Chemical compound CC(O)C([O-])=O JVTAAEKCZFNVCJ-UHFFFAOYSA-M 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003115 biocidal effect Effects 0.000 description 3
- 239000000306 component Substances 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 229940088710 antibiotic agent Drugs 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 150000003431 steroids Chemical class 0.000 description 2
- 206010008164 Cerebrospinal fluid leakage Diseases 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 241000186427 Cutibacterium acnes Species 0.000 description 1
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 238000003794 Gram staining Methods 0.000 description 1
- 101100380295 Mus musculus Asah1 gene Proteins 0.000 description 1
- 206010034133 Pathogen resistance Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012503 blood component Substances 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007374 clinical diagnostic method Methods 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 206010015037 epilepsy Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 231100000225 lethality Toxicity 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000009593 lumbar puncture Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 229940055019 propionibacterium acne Drugs 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011309 routine diagnosis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于随机森林算法的细菌性脑膜炎的智能诊断系统。该智能诊断系统基于随机森林模型实现,该模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸值;通过不含空值的样本数据组成的训练集对该模型训练后,该模型较其他模型能够更加准确地得出被试者是否患有细菌性脑膜炎的结论,甚至优于目前人工诊断的平均水平,从而可以辅助临床医生为脑膜炎检测提供快速和准确的判断。
Description
技术领域
本申请涉及人工智能辅助诊断技术领域,特别是涉及一种关于细菌性脑膜炎的智能诊断系统。
背景技术
脑膜炎有可能危及生命,如果不及时治疗有很高的死亡率,延误治疗可能会导致预后不佳。尤其是细菌性脑膜炎,会对患者造成不可逆转的健康损害,死亡率居高不下,已被世界卫生组织列为优先事项之一。它的致死率约为12.5%,在经治疗后幸存的人群当中大约有28.6%的人会得后遗症,如认知障碍、运动障碍、癫痫、惊厥等。根据R.等人的调查研究,对急性细菌性脑膜炎患者的正确治疗每延迟一个小时,死亡率会增加约30%。
在传统的脑膜炎临床诊断中,通常是基于脑脊液培养液的检测结果,由医生根据临床经验作出诊断结论。脑脊液乳酸值(临界值为4mmol/L)与脑脊液/血糖的比值(临界值为0.4)相比,具有更高的特异性(0.98vs.0.87)和敏感性(0.88vs.0.77),因此测定患者脑脊液的乳酸水平是检测细菌性脑膜炎的一种快速、有效和特异的方法。S.E.Straus等人在2006年再次研究证实了上述观点,并且还提出,若脑脊液乳酸含量过高或白细胞数量较高,则患者为细菌性脑膜炎的几率更大。上述几种临床诊断方法纳入的变量较少,且没有形成自动模型化诊断。2017年,O.H.H.Ortiz等人通过研究和分析从细菌性脑膜炎常规诊断的15个变量中筛选出了6个变量,提出了一个通过对这6个变量进行打分来诊断的模型——CSF乳酸盐≥4mmol/L:4分;脑脊液PMN中性粒细胞≥50%:1.5分;脑脊液漏:1.5分;aSAH诊断:1分;CRP≥6mg/dl:1分;和脑脊液/血糖比值≤0.4mmol/L:1分,以总得分为6分作为阈值(ROC值为0.94),大于该阈值表明患者得脑膜炎的概率很高,应及时治疗。
在当前的细菌性脑膜炎诊断和治疗过程中存在一些挑战性难题。第一,脑脊液细菌培养是脑膜炎诊断最重要的手段,但培养周期较长,通常需要5-7天。对于疑似感染者,若5天培养结果为阴性,则建议培养至少10天(以鉴别诸如痤疮丙酸杆菌等微生物)。第二,脑脊液培养结果假阴性较多,检测不准确。在患者接受腰椎穿刺以获取脑脊液之前,有超过50%的人接受过类固醇治疗,有超过82%的人接受过抗生素治疗,这样间接导致大约70%的脑脊液细菌培养结果呈假阴性。因此,常规的脑脊液分析(蛋白质和葡萄糖的浓度、白细胞计数和革兰氏染色)对于接受了类固醇或抗生素治疗的患者,其诊断结果是不可靠的。第三,细菌性脑膜炎是一种高危疾病,不及时治疗会增加死亡率,也会导致预后不佳。因此,当患者有脑膜炎的症状或者怀疑有脑膜炎时,就应该及时给予广谱抗生素治疗,不能为了等待化验结果而延迟给药。然而,广谱抗生素的针对性不强,不能很好地抑制脑膜炎的恶化,而且过度使用还可能对患者造成潜在的长远影响(比如细菌耐药性的形成),甚至造成不可逆转的损伤。因此,建立一种脑膜炎快速精确诊断的方法十分必要。
近年来,机器学习和临床检验相结合取得了一些进展,例如有的文献提到建立区分不同类型的脑膜炎的人工智能模型。但是样本量小和重复性差限制了机器学习在临床研究的快速进展,尤其对于细菌性脑膜炎筛查(待测对象可能并非脑膜炎患者),目前尚未见高准确率的细菌性脑膜炎诊断模型。
发明内容
基于此,本发明提供一种基于随机森林算法的细菌性脑膜炎的智能诊断系统等,旨在高准确率地辅助诊断被试者是否患有细菌性脑膜炎。
本发明具体提供以下方案:
第一方面,一种基于随机森林算法的细菌性脑膜炎的智能诊断系统,包括处理器和存储器;所述存储器存储有:
A、智能辅助诊断软件包,包括训练后的随机森林模型;所述随机森林模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度;特征参数可以不限于以上参数,根据客户端数据的完整性和个性化调整,也可以与其他数据结合进一步提高准确性和诊断性能;
B、诊断测试程序,被所述处理器执行时实现以下步骤:
1)获取待测对象的所述特征参数;
2)将所述特征参数输入所述训练后的随机森林模型;
3)根据所述训练后的随机森林模型输出的结果,生成是否患有细菌性脑膜炎的诊断结论。
优选地,上述性别和脑脊液外观均采用one-hot算法进行编码。
优选地,上述脑脊液外观分为八种特征,分别为无色、浅黄、浅橘、浅红、黄色、橘色、红色和白色。
优选地,上述训练后的随机森林模型内部超参数为:
'n_estimators':673,即基学习器个数为673个;
'min_samples_split':5,即内部结点拆分时所需的最小样本数为5个;
'min_samples_leaf':2,即在叶结点处的最小样本数为2个。
可选地,用于训练所述随机森林模型的训练集的样本数在1000个以上。
优选地,所述随机森林模型在训练时设置类别平衡,即设置:class_weight=‘balanced’。
第二方面,一种客户端设备,包括处理器、存储器、网络通信接口和人机交互界面,所述存储器存储有计算机程序;所述计算机程序被所述处理器执行时实现以下步骤:
接收通过人机交互界面输入或者通过网络通信接口传入的特征参数;所述特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度;
将所述特征参数通过所述网络通信接口发送给服务器,所述服务器包括上述的基于随机森林算法的细菌性脑膜炎的智能诊断系统;
将服务器返回的诊断结论通过所述人机交互界面呈现给用户。
可选地,若用户输入的特征参数少于所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统限定的17种特征参数或参数值异常,则通过所述人机交互界面向用户发出相应的提示。
第三方面,一种云服务器,包括上述的基于随机森林算法的细菌性脑膜炎的智能诊断系统。
可选地,所述智能辅助诊断软件包还设置有更新机制,用于根据已完成的测试样本数据和/或来自外部的调试参数,对随机森林模型及其参数定期更新和优化。
第四方面,一种计算机可读存储介质,存储有用于辅助诊断是否患有细菌性脑膜炎的软件包,包括训练后的随机森林模型;所述随机森林模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度。
本发明至少具有以下有益效果:
本发明基于临床实验室检查数据以及患者的电子病历信息数据训练和验证了一系列深度学习模型,并优选得到17项特征参数,尤其是将脑脊液外观、脑脊液氯、脑脊液多核细胞数、性别等纳入到模型的输入参数,确定了以这17项特征参数作为完整输入的随机森林模型经过训练后,能够更加准确地得出被试者是否患有细菌性脑膜炎的结论;经过训练后的该模型的诊断准确率甚至高于目前人工诊断的平均水平,从而可以辅助临床医生为脑膜炎检测提供快速和准确的判断。
附图说明
图1为模型的训练过程;图中C(Confirmed)表示确定为细菌性脑膜炎患者,P(Probable)为疑似患者,R(Reject)表示该病人未患细菌性脑膜炎。
图2为样本特征之间的相关性分析结果;图中的颜色(灰度)深浅代表相关性大小,大于0代表正相关,小于0代表负相关,在0附近代表相关性较弱。
图3为通过随机森林模型训练得出的各个特征的相对重要性统计结果;所有相对重要性之和为1。
图4为不同模型在测试集上预测结果的ROC曲线比较;图中“RF”表示不对数据标准化直接用随机森林(Random Forest)建立模型;“RFs”表示先做数据标准化后再用随机森林训练模型;“DNN”表示不对数据标准化直接用深度神经网络(Deep Neural Network)进行训练;“DNNs”表示先数据标准化后再用深度神经网络进行训练;“RF”和“RFs”的预测性能基本相同,所以ROC曲线重合区域较多,但是从它们的AUC值能看出来,“RF”的模型略优于“RFs”。
图5为训练出的RF模型对测试集的预测结果。
图6为人机比赛的测试示意图。
图7为人机比赛的RF模型判断与真实类别对比情况。
图8为人机比赛的人工判断与真实类别对比情况。
图9为RF模型判断和人工判断的ROC曲线。
图10为本发明实施例的应用场景示意图。
图11为本发明实施例的另一个应用场景示意图。
图12为本发明一个实施例中客户端设备的运行流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
发明人从北京某医院获得了自2015年到2020年间在该医院接受过脑膜炎相关检查的8876例患者的血液和脑脊液等信息的电子病历(随机入组)。其中3869例确诊不是细菌性脑膜炎,3574例怀疑是细菌性脑膜炎,1433例确定是细菌性脑膜炎。这些病历的数据不仅包含脑脊液和血液成分的数据,还包括脑脊液外观的数据(尤其这一点是通常建立模型时不容易考虑到的,但发明人经过验证,加入该数据后提高了诊断的准确率),共统计了23个参数。基于这23个参数,舍弃了4个与脑膜炎诊断无关的参数(日期、样本号、科室和其他),舍弃了1个类型太多不利于模型诊断准确率提高的参数(诊断),再舍弃了一个需要最少5天才能出检测结果的参数(脑脊液培养)。最终确定了17个参数(年龄、性别、脑脊液白细胞数、脑脊液单核细胞、脑脊液多核细胞、脑脊液潘氏试验、脑脊液外观、脑脊液细胞总数、脑脊液蛋白、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸),具体如下表所示。
为了适应于数学模型,本实施例对病历样本数据中的分类变量还进行了特征编码,例如:对脑脊液潘氏试验结果(-、±、+、++、+++、++++)用顺序编码转变成(1、2、3、4、5和6);对性别(男和女)用one-hot转变成((1,0)和(0,1));对脑脊液外观(无色、浅黄、浅橘、浅红、黄色、橘色、红色和白色)用one-hot转变为((1,0,0,0,0,0,0,0),(0,1,0,0,0,0,0,0),…,(0,0,0,0,0,0,0,1))。需要说明的是,上述特征编码还可以采用其他的编码形式或对应关系(例如,上述脑脊液潘氏结果的数字对应关系也可改为6、5、4、3、2和1)。
由于并不是每个患者的电子病历都能够完整地记录下这17个参数,为了训练的模型能够得到较高的准确率,发明人对输入模型的每个样本数据中允许的缺失值个数进行了筛选,通过训练出的模型准确率对比,发现当训练样本中这17个参数都不缺失时的模型准确率最高。因此,最终选取了不含缺失值的1692个样本数据进行模型训练。
本实施例选择的模型主要有随机森林(RF)模型和深度学习(DNN)模型。
一、关于随机森林(RF)模型
随机森林(RF)是在Bagging算法的基础上融入了随机属性选择的技术;Bagging算法是个集成学习的算法,通过对样本有放回的随机取样构建了多个决策树共同完成学习和分类;每个决策树由根节点、内部分支节点、和多个叶结点组成,是一种典型的机器学习分类学方法。
1、决策树
(1)决策树是一种的机器学习分类方法。它包含一个根节点、多个内部结点和多个叶结点。其中,根节点包含全部样本集合;叶结点对应决策的结果;每个内部结点对应一个属性的测试;各个结点对应的样本集合依据属性的信息熵增益被划分到不同的子结点中。
(2)随着决策树分支节点划分的不断进行,分支节点中包含的样本集同一类别占比越大,说明结点划分的“纯度”越高。
(3)用信息熵Ent(D)表示样本集合D的纯度,公式为:
其中,pk表示当前样本集D(共y种类别)中第k类样本的占比。由式(1.0)可见,信息熵Ent(D)的值越小,则样本集D的纯度越高。
(4)用信息增益Gain(D,α)表示使用离散属性α对样本集D进行划分所获得的纯度提升,公式为:
其中,Dv表示离散属性α(共V个取值)的第v个取值的样本集合,表示分支节点的权重。由式(1.1)可见,信息增益Gain(D,α)的值越大,则使用属性α来分支所获纯度提升就越大。因此,在决策树中,可用Gain(D,α)值进行属性选择。
(5)对于连续属性信息增益值的计算,需要将式(1.1)稍作改动,公式为:
2、基学习器
集成学习是通过多个学习器的结合来共同完成机器学习和分类任务的一种学习方式。在本研究中,采用的随机森林就是集成学习的一种,它构建并合并了多个决策树共同完成学习和分类,其中每一个决策树就是一个基学习器。
3、Bagging
Bagging是并行集成学习的典型代表。它采用有放回的采样方式,每次采样训练一个基学习器,然后再将所有基学习器结合成集成评估器。
用Hoob(x)表示Bagging对样本x的包外预测,公式为:
其中ht表示第t个基学习器,Dt表示第t个基学习器的训练集
Bagging的泛化误差包外估计为:
4、随机森林
随机森林(RF)是Bagging的扩展变体。RF是在以决策树为基学习器构建的Bagging集成学习基础上,再进一步将属性随机选择引入到决策树训练过程中的一种方法。简单来说,RF是对决策树、Bagging和随机属性集选择这三种技术或方法的融合。决策树是从当前结点的所有属性中选出最优属性用于分类,而RF是从当前结点的属性集中随机选出一个属性子集,再从子集中选出最优属性用于分类。若当前结点有d个属性,RF随机选择的属性子集元素个数为k,在本研究中k的取值为:
5、本研究的RF模型中上述公式中的一些参数设置
本研究中的每种类型的样本数量并不是一样多,所以在训练设置类别平衡,设置:class_weight=‘balanced’;
为了获得最优超参数,本研究采用了4倍交叉验证。将样本的训练集输入RF架构进行网格搜索,训练得出的RF模型最优超参数为:
'n_estimators':673,即基学习器个数为673个;
'min_samples_split':5,即内部结点拆分时所需的最小样本数为5个;
'min_samples_leaf':2,即在叶结点处的最小样本数为2个。
二、特征之间的相关性以及相对重要性
基于上述1692个不含缺失值的样本的模型训练,可以分析得出这17个特征之间的相关性和各个特征在诊断细菌性脑膜炎时的重要性。
通过图2可以看出,样本的17个特征中只有少数特征之间有较高的相关性,大多数特征之间相关性较低,即特征的冗余度低。
通过图3可以看出,17个特征在诊断细菌性脑膜炎时的相对重要性最高者为脑脊液多核细胞(C_ploy)、脑脊液白细胞数(C_wbc)和脑脊液单核细胞(C_mono),脑脊液外观(C_color)和脑脊液氯(C_cl)也较为重要。
三、不同方式训练出的模型在测试集上的表现
分别测试不进行数据标准化的RF模型、数据标准化后的RF模型、不进行数据标准化的DNN模型和数据标准化后的DNN模型,比较其精确性(precision)、灵敏度(sensitivity或recall)、F1得分(F1-score)、所用样本数(support)和准确率(accuracy)。
(1)不进行数据标准化的RF模型性能
(2)数据标准化后的RF模型性能
(3)不进行数据标准化的DNN模型性能
(4)数据标准化后的DNN模型性能
通过以上四种模型在测试集上的表现,可以看出在本研究中RF模型性能优于DNN模型,且是否对数据进行标准化对最终性能影响不大。
进一步地,对预处理后得到的数据用以上方式训练模型,并在测试集上预测结果,得到的ROC曲线如图4所示。根据AUC值可看出,不对数据进行标准化训练出的随机森林模型性能最优。
具体来说,RF性能总体上要高于DNN;数据标准化会提高DNN的模型预测性能,标准化后对RF模型的性能会略降低一点。因此,在本研究中,我们将RF模型作为最终选择的模型,并且不对数据进行标准化处理(不对参数做归一化处理)。
四、训练出的RF的模型对测试集的预测结果
如图5所示,“Reject”和“Probable”两类样本预测准确率较高,一个为100%,另一个为99%。“Confirm”样本有48%的概率正确,45%的概率预测成了“Probable”。在临床决策中,“Probable”的病人也会及时服用抗生素等药物。因此,即使“Confirm”病人被模型判断为“Probable”病人,也不会延误治疗。所以,本研究中的RF模型可以辅助临检医生做判断。
五、人机比赛
另取150例已完成细菌性脑膜炎临检的样本数据(上述1692个样本之外的其他样本数据)分别交由医生判断和机器判断,如图6所示,两位临床医生都是神经外科的资深专家,具有10年以上临检经验的副高级医生。对于150例样本数据,两位医生用了将近1个小时完成了判断,RF模型只用了2秒钟完整了数据预处理以及判断。判断的具体结果如下表和图7-图9所示。
1、机器判断和人工判断的精确性(precision)、灵敏度(sensitivity或recall)、F1得分(F1-score)、所用样本数(support)和准确率(accuracy)比较。
通过下面两个表格数的对比,RF模型对“Confirm”、“Probable”和“Reject”判断的精确性、灵敏度、F1得分和准确率基本都优于人工判断。
(1)RF模型判断
(2)人工判断
2、判断结果的混淆矩阵
通过图7、图8可看出,RF模型和人工对“Reject”的样本判断准确率都为100%;对“Probable”和“Confirm”的样本判断,RF模型比人工准确率更高。
3、RF模型判断和人工判断的ROC曲线
通过图9所示的ROC曲线可看出,RF模型判断总体上要优于人工判断。
因此,利用该RF模型进行细菌性脑膜炎检测时,只需要获取病人的血液和脑脊液检测数据,这些检测只需要几个小时便可完成,大大缩短了传统确诊需要的时间(一周左右),从而能够辅助临床医生对细菌性脑膜炎作出快速和准确的判断,也会减少病人的就诊费用。
基于上述研究内容和结果,可以至少形成以下offline、online的产品和服务:
在一个实施例中,提供了一种基于随机森林算法的细菌性脑膜炎的智能诊断系统,在硬件上可以是计算机设备(通常可作为服务器,具体可以是本地服务器,也可以是云服务器)的形式。该智能诊断系统包括处理器和存储器;其主要特点是,存储器存储有:
A、智能辅助诊断软件包,包括训练后的随机森林模型;所述随机森林模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度;
B、诊断测试程序,被处理器执行时实现以下步骤:
1)获取待测对象的上述17个特征参数;
2)将上述17个特征参数输入训练后的随机森林模型;
3)根据训练后的随机森林模型输出的结果,生成是否患有细菌性脑膜炎的诊断结论。其中,随机森林模型输出的结果是两个小数值(之和为1),分别代表“是”、“否”的概率值。
上述智能辅助诊断软件包还可设置更新机制,用于根据已完成的测试样本数据和/或来自外部的调试参数,对随机森林模型及其参数定期更新和优化。
在一个实施例中,如图10所示,还提供了一种客户端设备(例如移动终端、台式电脑以及专门设置的查询机器等),将病人脑脊液和血液临床检验数据、电子病例,送入该客户端设备,经过数据预处理后发送给云端服务器(运行训练好的RF模型),收到云端服务器返回的计算结果,做出报告;医生根据该报告做出最终诊断。
具体地,或者也可以认为是另一个应用场景,如图11所示,客户端设备可以直接对接临床检测设备或临床信息系统/网络获取电子数据(17个特征参数值),若客户端设备为移动终端、台式电脑,用户还可通过登录相应的app或者网页,输入17个特征参数值。
具体地,如图11、图12所示,该客户端设备可以包括处理器、存储器、网络通信接口和人机交互界面,存储器存储的计算机程序被处理器执行时实现以下步骤:
S1、接收临床检测设备/临床信息系统通过网络通信接口传入的上述17个特征参数;也可以是由用户通过人机交互界面输入上述17个特征参数;
S2、将特征参数通过网络接口发送给服务器,服务器将运行上述的基于随机森林算法的细菌性脑膜炎的智能诊断系统(训练后的随机森林模型);
S3、将服务器返回的诊断结论通过人机交互界面呈现给用户。
其中,若用户输入的特征参数少于所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统限定的17种特征参数或参数值异常,则通过所述人机交互界面向用户发出相应的提示。
本领域技术人员可以理解,图11中示出的示例性结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有用于辅助诊断是否患有细菌性脑膜炎的软件包,包括上述训练后的随机森林模型。
以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。
上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解,基于本申请的技术构思,还可以对这些具体实施例作出若干常规的调整或进一步的创新;但只要未脱离本申请的技术构思,这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。
Claims (11)
1.一种基于随机森林算法的细菌性脑膜炎的智能诊断系统,包括处理器和存储器;其特征在于,所述存储器存储有:
A、智能辅助诊断软件包,包括训练后的随机森林模型;所述随机森林模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度;
B、诊断测试程序,被所述处理器执行时实现以下步骤:
1)获取待测对象的所述特征参数;
2)将所述特征参数输入所述训练后的随机森林模型;
3)根据所述训练后的随机森林模型输出的结果,生成是否患有细菌性脑膜炎的诊断结论。
2.根据权利要求1所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统,其特征在于,所述性别和脑脊液外观均采用one-hot算法进行编码。
3.根据权利要求2所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统,其特征在于,所述脑脊液外观分为八种特征,分别为无色、浅黄、浅橘、浅红、黄色、橘色、红色和白色。
4.根据权利要求1所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统,其特征在于,所述训练后的随机森林模型内部超参数为:
'n_estimators':673,即基学习器个数为673个;
'min_samples_split':5,即内部结点拆分时所需的最小样本数为5个;
'min_samples_leaf':2,即在叶结点处的最小样本数为2个。
5.根据权利要求1所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统,其特征在于,用于训练所述随机森林模型的训练集的样本数在1000个以上。
6.根据权利要求5所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统,其特征在于,所述随机森林模型在训练时设置类别平衡,即设置:class_weight=‘balanced’。
7.一种客户端设备,包括处理器、存储器、网络通信接口和人机交互界面,所述存储器存储有计算机程序;其特征在于,所述计算机程序被所述处理器执行时实现以下步骤:
接收通过人机交互界面输入或者通过网络通信接口传入的特征参数;所述特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度;
将所述特征参数通过所述网络通信接口发送给服务器,所述服务器包括权利要求1所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统;
将服务器返回的诊断结论通过所述人机交互界面呈现给用户。
8.根据权利要求7所述的客户端设备,其特征在于,若用户输入的特征参数少于所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统限定的17种特征参数或参数值异常,则通过所述人机交互界面向用户发出相应的提示。
9.一种云服务器,其特征在于,包括权利要求1所述的基于随机森林算法的细菌性脑膜炎的智能诊断系统。
10.根据权利要求9所述的云服务器,其特征在于,所述智能辅助诊断软件包还设置有更新机制,用于根据已完成的测试样本数据和/或来自外部的调试参数,对随机森林模型及其参数定期更新和优化。
11.一种计算机可读存储介质,其特征在于,存储有用于辅助诊断是否患有细菌性脑膜炎的软件包,包括训练后的随机森林模型;所述随机森林模型输入的特征参数包括年龄、性别、脑脊液白细胞数、脑脊液单核细胞数、脑脊液多核细胞数、脑脊液潘氏试验结果、脑脊液外观、脑脊液细胞总数、脑脊液蛋白浓度、脑脊液氯、脑脊液糖、血糖、血液白细胞绝对值、中性粒细胞相对值、淋巴细胞群相对值、血小板绝对值和脑脊液乳酸浓度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211482017.6A CN115758155A (zh) | 2022-11-24 | 2022-11-24 | 一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211482017.6A CN115758155A (zh) | 2022-11-24 | 2022-11-24 | 一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758155A true CN115758155A (zh) | 2023-03-07 |
Family
ID=85337608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211482017.6A Pending CN115758155A (zh) | 2022-11-24 | 2022-11-24 | 一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758155A (zh) |
-
2022
- 2022-11-24 CN CN202211482017.6A patent/CN115758155A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
Gow et al. | Stability and change in intelligence from age 11 to ages 70, 79, and 87: the Lothian Birth Cohorts of 1921 and 1936. | |
Danso et al. | Developing an explainable machine learning-based personalised dementia risk prediction model: a transfer learning approach with ensemble learning algorithms | |
CN106845147B (zh) | 医学经验总结模型的建立方法、装置 | |
CN107145715B (zh) | 一种基于推举算法的临床医学智能判别装置 | |
Sankaranarayanan et al. | A predictive approach for diabetes mellitus disease through data mining technologies | |
EP3433614A1 (en) | Use of clinical parameters for the prediction of sirs | |
CN113128654A (zh) | 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 | |
Loveland et al. | Declining immune function in children and adolescents with hemophilia and HIV infection: Effects on neuropsychological performance | |
KR101255477B1 (ko) | 사상체질 분류방법 | |
CN117198532A (zh) | 一种基于机器学习的icu患者脓毒症风险预测方法及系统 | |
Chatchumni et al. | Performance of the Simple Clinical Score (SCS) and the Rapid Emergency Medicine Score (REMS) to predict severity level and mortality rate among patients with sepsis in the emergency department | |
Nakamura et al. | Potential impact of initial clinical data on adjustment of pediatric readmission rates | |
CN115758155A (zh) | 一种基于随机森林算法的细菌性脑膜炎的智能诊断系统 | |
Huang et al. | Feature selection and classification model construction on type 2 diabetic patient’s data | |
Khalaf et al. | Predicting Acute Respiratory Failure Using Fuzzy Classifier | |
Gupta et al. | Predicting chronic kidney disease using machine learning | |
CN115579147B (zh) | 一种脓毒症识别模型训练方法、脓毒症预警方法及装置 | |
Wang et al. | Prediction of sepsis from clinical data using long short-term memory and extreme gradient boosting | |
CN109841279A (zh) | 一种预测失能者日常生活功能的方法 | |
Sghaireen et al. | Machine Learning Approach for Metabolic Syndrome Diagnosis Using Explainable Data-Augmentation-Based Classification. Diagnostics. 2022; 12 (12): 3117 | |
US11581084B2 (en) | Systems and methods for generating an alimentary plan for managing skin disorders | |
He et al. | Stroke prediction model based on XGBoost algorithm | |
Mytton | Development of a hospital electronic record frailty index (HerFI): an enhanced care alert score to identify older patients likely to require enhanced care on discharge from hospital | |
Eskandari et al. | Detection of sepsis patients using biomarkers based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |