CN113128654A - 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 - Google Patents

一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 Download PDF

Info

Publication number
CN113128654A
CN113128654A CN202110488133.8A CN202110488133A CN113128654A CN 113128654 A CN113128654 A CN 113128654A CN 202110488133 A CN202110488133 A CN 202110488133A CN 113128654 A CN113128654 A CN 113128654A
Authority
CN
China
Prior art keywords
heart disease
coronary heart
feature
diagnosis
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110488133.8A
Other languages
English (en)
Other versions
CN113128654B (zh
Inventor
吴万庆
蒋明哲
张献斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110488133.8A priority Critical patent/CN113128654B/zh
Publication of CN113128654A publication Critical patent/CN113128654A/zh
Application granted granted Critical
Publication of CN113128654B publication Critical patent/CN113128654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统,基于特征选择结合统计机器学习算法,对冠心病患者临床检验中使用到的近百个指标进行筛选,建立高预测精度的模型,可作为是否进行冠脉造影的依据,且通过合并临床检验指标及图像检测结果以及患者电子病历信息计算患者目前患有冠心病的风险,以及为后续确诊提供评估依据。

Description

一种用于冠心病预诊断中的改进型随机森林模型及其预诊断 系统
技术领域
本发明属于数据训练与统计机器学习数据挖掘领域研究技术,特别涉及一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统。
技术背景
心脏类疾病是全球范围内,尤其是我国致死率最高的疾病,其致死率超过所有癌症的总和。根据2019年中国心血管健康与疾病报告中给出的数据,总体上看,中国心血管病患病率及死亡率仍处于上升阶段。推算心血管病现患人数3.30亿,其中脑卒中1300万,冠心病1100万,肺原性心脏病500万,心力衰竭890万,风湿性心脏病250万,先天性心脏病200万,下肢动脉疾病4530万,高血压2.45亿。其中,心血管病死亡占城乡居民总死亡原因的首位,农村为45.91%,城市为43.56%。中国心血管病负担日渐加重,已成为重大的公共卫生问题,防治心血管病刻不容缓。
冠心病是主要的心脏类疾病之一,其定义为冠状动脉粥样硬化造成的心脏血供不足,当病理状态到达一定程度后被确诊为冠心病。根据《中国卫生健康统计年鉴2018》,2017年城市居民冠心病死亡率为115.32/10万,农村居民冠心病死亡率为122.04/10万,农村地区高于城市地区,男性高于女性。2017年冠心病死亡率继续2012年以来的上升趋势。农村地区冠心病死亡率上升明显,到2016年已超过城市水平。
冠心病在医学领域诊断的最佳方式是通过冠脉造影技术的结果来判断。冠脉造影是一种有创的检查冠心病的方法,因其检查的准确程度高,在医学界确定为金标准。它通常将造影剂通过患者动脉注射进身体,通过造影剂流过心脏动脉时X光的呈现来观察心脏动脉中病变状况。因为冠脉造影技术是现有的诊断的技术之一,因此,作为现有技术,本领域的常规技术人员应当掌握。
确定的事实是大多数心血管疾病的死亡与人们对其自身医疗状况的认知程度相关,并且由缺乏及时治疗而导致。
常见的冠心病诊断方案及局限性:
1、冠脉造影
目前冠心病(Coronary Heart Disease,CHD)诊断的“金标准”仍然是侵入性的并伴有许多致命的副作用的冠状动脉造影,这限制了大规模的人群筛查和早期的CHD风险预测。
近年来,这项技术的操作给患者带来负面的伤害被广泛研究,其主要缺陷具体表述为:首先,造影剂注射进人体后需要通过肾脏代谢,而具有肾功能疾病或缺陷的患者,经历了此项检查后会有可能患造影剂肾病;其次,冠脉造影是一项有创手术,需要通过在患者的桡动脉及股动脉进行穿刺,穿刺造成的创口在愈合过程中,会产生一定程度的增生,因此会加重动脉官腔狭窄的程度,这对患者是很不利的。由于冠心病的本质即冠状动脉粥样硬化导致的官腔狭窄,而冠脉造影在某种程度上加重了官腔狭窄,与治疗理念相悖。最后,尤其是在我国,乡村地区的心脏类疾病患者数量远超城镇地区,众所周知,冠脉造影的诊察费用昂贵,而事实情况是,很多农村患者在确诊CHD时更依赖于医生的经验而选择放弃该诊断方式,因此金标准在社会环境和经济因素的影响下也丧失了部分现实意义。
其主要缺陷总结为:成本昂贵,术后带给人体的副作用明显。
2、基于冠心病诊断神经网络模型冠心病诊断方法及系统
已有专利研究基于中医诊断方法中“望闻问切”的流程,进行人工智能化,设计出具体的系统。系统将词输入预先训练完成的冠心病诊断神经网络模型,获得并输出患者的证候要素、证候、治法和/或药材基本要素信息。根据患者病症提供的关键词,给出可能性较大的诊断结果和治疗方案以及提供后续需要服用的药物信息等,以此实现人工智能应用于辅助诊断的效果。
其弊端可能存在为:首先,用于诊断的数据(例如:头晕,胸闷等描述症状的词汇)主观性较强,不能准确反映内在病因。其次,系统对于全部患者的诊断遵循同一套流程,未对患者其他并发症(例如:糖尿病,高尿酸血症等)进行研究,但事实上导致一种症候的原因可能有很多种,不能一概而论。技术上存在的弊端是:深度学习中常用的神经网络在应用在各具体场景下的可解释性仍然是一个“open problem”,因此,应用于实际的说服性有待商榷。
3、预测与代谢物相关的疾病(特别是冠心病)的风险的生物标志物和方法。
已有专利研究,使用随机森林模型对17种血液,血清,血浆中的生物标记物进行监督训练,提供用于评估CHD风险或CHD的诊断或早期诊断的生物标志物组合物和方法。
该方法基于代谢组学(一种创新的高通量生物分析方法),依赖特定生理状态中的小分子,较其他生物标记物体现出更高的灵敏度,更广的代谢组覆盖范围,提高的代谢物鉴定和鉴别能力,以及执行化合物类别特定分析的模块性的性质。捕捉发病前期生物体内的微观变化,因此可以为患者争取到良好的治疗时机。
该方法的局限在于:
首先,17种生物标记物的筛选条件以及在临床检测中获取的难度和成本尚未给出明确的陈述,因此应用在实际中的可能性不能保证;根据本领域的常规认知,提取物分子越小或者要求精度越高的化验的成本和设备的要求都是很高的。
其次,研究中将疾病概率的阈值限定为50%,即得到的结果非黑即白,但若诊断结果是患病,却无法提供程度的深浅和贡献程度较大的数据特征。因此诊断的结果给到患者的信息过少,无法根据个体差异提供具体的依据。另外,阈值的限定并不是业界已有的标准,是数据分析过程中的经验值设定,故参数的设计方面缺少权威性,具有主观性。
发明内容
鉴于在背景技术中所提及的现有技术中存在缺陷,本发明旨在于提供一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统,基于特征选择结合统计机器学习算法,对冠心病患者临床检验中使用到的近百个指标进行筛选,建立高预测精度的模型,可作为是否进行冠脉造影的依据。
为了实现上述目的,本发明采用的技术方案如下:
一种用于冠心病预诊断中的改进型随机森林模型,具有整体样本,所述模型的建立了首先将所述整体样本读取至内存中,然后对所述整体样本进行特征降维和特征选择,再将筛选后的数据集作为分类器的输入,通过设置12倍交叉验证对训练集进行训练,获得随机森林模型的内部参数,所获得参数设置于随机森林模型中并对整体样本进行训练,至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。
优选的,所述特征降维和特征选择包括所处理的数据均经过了归一化处理,整合了数据类型,从而提高最后分类的质量;对所述数据进行分类,按照数据类型将数据分为数值类型特征和分类属性的特征,即所有连续性属性的特征作为一个特征集(Dataset1),所有分类属性的数据作为另一个特征集(Dataset2);然后,在特征筛选过程中,将上述两个数据集分别放入设置好的特征选择模型中,通过模型的计算,分别得到每个数据集对应五个选择模型的最优特征集1(Opt_dataset1)、最优特征集2(Opt_dataset2);将最优特征集1、最优特征集2在投票模型中进行汇总,将固定的票数作为阈值,其中,因所有模型数为5,故将阈值设置为4,即统计所有票数≥4的特征合并进最终的最优特征集(Opt_Dataset)。
其中,进行特征选择的五个模型分别为皮尔逊相关系数,单变量特征选择法(启发式基于卡方分布),递归消除特征法(基模型:线性回归),LASSO(基于L1正则化),SelectFromModel(基于逻辑回归模型)。
优选的,将筛选后的数据集作为整体样本,然后将整体样本按照80%和20%的比例进行划分,分别形成训练集和测试集。
优选的,所述参数包括特征数量与流行的整数随机种子,其中,所述特征数量
Figure BDA0003051224010000061
为21个,所述流行的整数随机种子42。
本发明还提供一种实际的应用,即利用冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统,所述系统包括直接输入样本集读入内存中,然后作为输入投进改进随机森林模型,最后获得分类结果。
优选的,所述分类结果分为两类,即冠心病高患病可能性以及冠心病低患病可能性,其中,所述改进随机森林模型中“1”表示阳性,即冠心病高患病可能性,“0”表示阴性,即冠心病低患病可能性。
需要指出的是,本发明所述皮尔逊相关系数包括:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
Figure BDA0003051224010000062
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母γ代表:
Figure BDA0003051224010000071
r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:
Figure BDA0003051224010000072
其中
Figure BDA0003051224010000073
Figure BDA0003051224010000074
及σX分别对Xi样本的标准分数,样本平均值和样本标准差。
皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
需要说明的是,本发明所述线性回归包括:
线性回归可以处理结果是二分类的问题,原始问题可以等效地表示为:
Figure BDA0003051224010000075
其中损失函数使用铰链损失,对于预期的输出t=±1和分类器得分y,预测y的铰链损耗定义为:
l(y)=max(0,1-t y), (5)
其中y应该是分类器决策函数的“原始”输出,而不是预测的类标签。当t和y具有相同的符号时,并且|y|≥1,铰链损失l(y)=0。当他们有相反的迹象时,l(y)随y线性增加,如果|y|<1,即使它具有相同的符号。
需要说明的是,本发明所述Lasso包括:
最小化的目标函数是:
Figure BDA0003051224010000081
Lasso估计可解决α||w||1最小二乘罚分的最小化,其中α是常数,||w||1是l1-系数矢量的范数。
需要说明的是,本发明所述卡方分布(Chi-2)是设定的内置启发式模型,该模型被通过单变量特征选择法驱动,在训练过程中递归选择贡献值最大的集合;具体的说,卡方分布(Chi-2)是sklearn深度学习框架中的方法,用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。
需要说明的是,本发明所述逻辑回归模型包括:
作为优化问题,分类类l2惩罚逻辑回归使以下成本函数最小化:
Figure BDA0003051224010000082
相似地,l1正则逻辑回归解决了以下优化问题:
Figure BDA0003051224010000083
Elastic-Net正则化是以下各项的组合l1和l2,并最小化以下成本函数:
Figure BDA0003051224010000084
本发明有益效果在于:
1、数据采集符合自然规律,所使用到的数据都是现有临床心内科医生诊断时参考的化验指标。因此,指标的选择均基于医学论证,具有科学性。
2、精确度高:通过对2015-2018年期间具有完整病例信息的433名心脏疾病患者的共计94项检测指标进行降维,筛选,数据增强,分类,融合等方法的处理形成预测准确度较高的模型。模型可依赖部分敏感特征指标与标签之间的关联关系,计算出样本的为阳性的可能性。
3、成本低:通过对共计94项统计指标进行降维、特征筛选的方式改进分类模型的结构,筛选出具有与冠心病显著相关的特征集(即最优特征集)。
4、自助性(迁移性)强:该模型可以同时为医生和患者服务。首先,可以作为是否做冠脉造影检查的依据。其次,该模型具有很好的迁移性,可以嵌入手机,平板等移动端,患者可以通过将医院的检查结果输入到系统中,获得实时检测结果,进行有效的预后和提前治疗。针对以上两种需求人群,该方法的学习成本均很低,不需要专门的培训和练习,因此在普及应用方面具有优势。
附图说明
图1为本发明的系统流程线框示意图;
图2为是将本发明的特征降维和特征选择模块的流程示意图;
图3为本发明的生物数据特征重要程度的排序图;
图4为本发明的生物数据特征重要程度的排序图
图5为本发明的评价指标对应的结果示意图。
具体实施例
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1所示,本发明为一种用于冠心病预诊断中的改进型随机森林模型,具有整体样本,所述模型的建立了首先将所述整体样本读取至内存中,然后对所述整体样本进行特征降维和特征选择,再将筛选后的数据集作为分类器的输入,通过设置12倍交叉验证对训练集进行训练,获得随机森林模型的内部参数,所获得参数设置于随机森林模型中并对整体样本进行训练,至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。
进一步的,如图2所示,本发明的特征降维和特征选择包括所处理的数据均经过了归一化处理,整合了数据类型,从而提高最后分类的质量;对所述数据进行分类,按照数据类型将数据分为数值类型特征和分类属性的特征,即所有连续性属性的特征作为一个特征集(Dataset1),所有分类属性的数据作为另一个特征集(Dataset2);然后,在特征筛选过程中,将上述两个数据集分别放入设置好的特征选择模型中,通过模型的计算,分别得到每个数据集对应五个选择模型的最优特征集1(Opt_dataset1)、最优特征集2(Opt_dataset2);将最优特征集1、最优特征集2在投票模型中进行汇总,将固定的票数作为阈值,其中,因所有模型数为5,故将阈值设置为4,即统计所有票数≥4的特征合并进最终的最优特征集(Opt_Dataset)。
需要指出的是,进行特征选择的五个模型分别为皮尔逊相关系数,单变量特征选择法(启发式基于卡方分布),递归消除特征法(基模型:线性回归),LASSO(基于L1正则化),SelectFromModel(基于逻辑回归模型)。
优选的,将筛选后的数据集作为整体样本,然后将整体样本按照80%和20%的比例进行划分,分别形成训练集和测试集。
优选的,所述参数包括特征数量与流行的整数随机种子,其中,所述特征数量
Figure BDA0003051224010000111
为21个,所述流行的整数随机种子42。
本发明还提供一种实际的应用,即利用冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统,所述系统包括直接输入样本集读入内存中,然后作为输入投进改进随机森林模型,最后获得分类结果。
优选的,所述分类结果分为两类,即冠心病高患病可能性以及冠心病低患病可能性,其中,所述改进随机森林模型中“1”表示阳性,即冠心病高患病可能性,“0”表示阴性,即冠心病低患病可能性。
需要指出的是,本发明所述皮尔逊相关系数包括:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
Figure BDA0003051224010000112
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母γ代表:
Figure BDA0003051224010000121
r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:
Figure BDA0003051224010000122
其中
Figure BDA0003051224010000123
Figure BDA0003051224010000124
及σX分别对Xi样本的标准分数,样本平均值和样本标准差。
皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
需要说明的是,本发明所述线性回归包括:
线性回归可以处理结果是二分类的问题,原始问题可以等效地表示为:
Figure BDA0003051224010000125
其中损失函数使用铰链损失,对于预期的输出t=±1和分类器得分y,预测y的铰链损耗定义为:
l(y)=max(0,1-t y), (5)
其中y应该是分类器决策函数的“原始”输出,而不是预测的类标签。当t和y具有相同的符号时,并且|y|≥1,铰链损失l(y)=0。当他们有相反的迹象时,l(y)随y线性增加,如果|y|<1,即使它具有相同的符号。
需要说明的是,本发明所述Lasso包括:
最小化的目标函数是:
Figure BDA0003051224010000131
Lasso估计可解决α||w||1最小二乘罚分的最小化,其中α是常数,||w||1是l1-系数矢量的范数。
需要说明的是,本发明所述卡方分布(Chi-2)是设定的内置启发式模型,该模型被通过单变量特征选择法驱动,在训练过程中递归选择贡献值最大的集合;具体的说,卡方分布(Chi-2)是sklearn深度学习框架中的方法,用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。
需要说明的是,本发明所述逻辑回归模型包括:
作为优化问题,分类类l2惩罚逻辑回归使以下成本函数最小化:
Figure BDA0003051224010000132
相似地,l1正则逻辑回归解决了以下优化问题:
Figure BDA0003051224010000133
Elastic-Net正则化是以下各项的组合l1和l2,并最小化以下成本函数:
Figure BDA0003051224010000141
实施例
将以上最优特征集中筛选出的测试集放进Kbest_RandomForest模型中进行验证。
其中,评价指标至少包括:Accuracy,F1_score,ROC,AUC,P_value
Accuracy代表获得数据的准确性,具体表述为:
Figure BDA0003051224010000142
其中TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。
F1_score:f1分被定义为精密度和召回率的调和平均值。
Figure BDA0003051224010000143
其中
Figure BDA0003051224010000144
ROC指的是是反映敏感度和特异度连续变量的综合指标:本发明中总面积是1,面积越接近1说明效果越好。需要指出的是,如果数值为1,说明出现过拟合。
AUC指的是即ROC曲线下面积,AUC越大越好,提示诊断价值越高;本在发明中其数值越高越代表好,需要指出的是,如果数值为1,说明出现过拟合。此外,AUC不依赖于分类器的内部阈值,因此得到的结果更加客观。
P_value指的是元素之前的显著相关性,数值越小说明越显著相关(具体的阈值可以自行设定),说明特征本身具有价值。
实验配置:
硬件环境:CPU 4cores,RAM 32GB,GPU v100,video memory16GB,disk 100GB.
语言环境:Python versionpython3.7.
框架版本:包含并不仅限于Sklearn 0.23.2,XGBoost 1.2.1。
1、特征筛选
(1)分类数据特征选择模型分别为皮尔逊相关系数,单变量特征选择法(启发式基于卡方分布),递归消除特征法(基模型:线性回归),LASSO(基于L1正则化),SelectFromModel(基于逻辑回归模型)。
结果:按照投票数大于等于4票作为筛选阈值,结果如下表所示:
Votes
1 Af type 房颤类型 5
2 History of hypertension 高血压病史 5
3 History of diabetes 糖尿病史 5
4 Heart failure 心力衰竭 4
5 Side wall 下壁(心电图) 4
6 gender 性别 4
7 The history of drinking 饮酒 4
8 The high wall 上壁(心电图) 4
(2)连续性数据
特征选择模型分别为皮尔逊相关系数,单变量特征选择法(启发式基于卡方分布),递归消除特征法(基模型:线性回归),LASSO(基于L1正则化),SelectFromModel(基于逻辑回归模型)。
结果如下表所示:
序号 指标标记 指标标记中文 Votes
1 BUN 尿素 5
2 LAS 彩超 5
3 APTT 部分凝血活酶时间 5
4 TBil 总胆红素 5
5 TC 总胆固醇 5
6 N/L 中性/淋巴 5
7 age 年龄 5
8 Hcy 同型半胱氨酸 5
9 HB 血红蛋白 4
10 Cr 肌酐 4
11 CKMB/CK 心肌酶谱 4
12 GGT γ谷氨酰基转移酶 4
13 Fg 纤维蛋白原 4
14 IBil 间接胆红素 4
15 L 淋巴细胞绝对值 4
16 TSGF 肿瘤特异性生长因子 4
17 NT-proBNP 脑钠肽前体 4
18 FT4 游离甲状腺素 4
19 The wall 各壁总和 4
20 UA 尿酸 4
21 G 葡萄糖 4
22 Reduced 收缩运动减弱 4
23 PLT 血小板计数 4
24 LVS 彩超 4
25 Number of right 右侧斑块数 4
2、验证方法
使用Kbest_RandomForest模型对上述所有的特征,在设定好的测试集上运行,看预测的准确率。
具体的说,如图2所示,为本发明改进后的随机森林模型的流程示意图,其重点部分是嵌入至随机森林模型的特征降维和特征选择模块。
其中,本发明中的特征降维和特征选择模块如图1所示,将每个特征选择模型计算完的候选特征在投票模型中进行汇总,将得到票数作为阈值,其中,统计所有阈值的特征形成最优特征集。
具体的说,首先统计最优特征集中所有元素的贡献值(贡献值越大说明与冠心病越相关,是可以强烈预示冠心病的因素);其次,统计训练结果的评价指标,进行后续分析。
进一步的,如图3、图4所示,从重要程度排序后,得出下表:
Figure BDA0003051224010000171
Figure BDA0003051224010000181
3、评价指标对应的结果
如图5所示:
(1)acc:96.54(%训练集准确率)96.18(%测试集准确率)。
(2)f1_score:0.965(训练集分数)0.962(测试集分数)。
(3)auc:0.965(训练集分数)0.951(测试集分数)。
最后,需要指出的是,本发明的优势在于:
1、研究对象:本专利的研究数据与医院心内科医生参考的所有数据一致。即数据来源于临床化验数据库,模型计算与现实诊断过程中使用到的数据来源一致。因此不需要患者做额外的检查,不需要医生学习额外的知识,不需要医院设置专门的设备,具有便捷性。
2、特征筛选:本研究结合临床诊断需求,使用数据挖掘及统计机器学习的方法,将通常情况下患者要做的检查中的近百项指标进行整理统计,进一步做降维操作,通过多模型融合的特征筛选,选择出具有与冠心病强烈相关的指标集。这意味着,指标集中的若干指标可以代表近百项指标的检测结果。
其另一方面解决了“维度的诅咒”问题。首先传统的基于监督学习的机器学习过程中,数据集的质量决定着模型训练的质量,所以样本质量很重要。其次,样本的特征数量与样本量之间存在着“维度的诅咒”,及样本数量与特征值之间的数量如果超过了指数关系,那么不论使用何种机器学习模型,都不能得到一个好的结果。样本的训练永远是欠拟合的。众所周知,患者在确诊冠心病过程进行的全血化验指标合并心电图,彩超指标总数或超过100项,因此对于医生而言,诊断流程需要凭借一定程度的主观经验,缺乏客观性。另一方面,对于100项特征规模的样本,训练需要至少个样本,研究成本过高,且研究时长也不能确保。因此将降维和特征选择融合进随机森林模型形成融合后的随机森林模型是解决以上问题很好的一种方式。
3、可移植性:模型的服务对象可以是医生也可以是患者。移植性强,可以嵌入医院系统,手机,平板等,同步信息等。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。

Claims (7)

1.一种用于冠心病预诊断中的改进型随机森林模型,具有整体样本,其特征在于,所述模型的建立了首先将所述整体样本读取至内存中,然后对所述整体样本进行特征降维和特征选择,再将筛选后的数据集作为分类器的输入,通过设置12倍交叉验证对训练集进行训练,获得随机森林模型的内部参数,所获得参数设置于随机森林模型中并对整体样本进行训练,至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。
2.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型,其特征在于,所述特征降维和特征选择包括所处理的数据的类型是一致的,具有更好的归一化性质;对所述数据进行分类,按照数据类型将数据分为数值类型特征和分类属性的特征,即所有连续性属性的特征作为一个特征集,所有分类属性的数据作为另一个特征集;然后,特征选择部分将所有连续性属性的特征集、所有分类属性的数据集分别放在筛选好的选择器中进行计算,分别得到每个选择器下的最优特征集1、最优特征集2;将最优特征集1、最优特征集2在投票模型中进行汇总,将得到票数作为阈值,其中,统计所有阈值≥4的特征形成最优特征集;统计最优特征集中所有元素的贡献值;其次,统计训练结果的评价指标,进行后续分析。
3.根据权利要求2所述的用于冠心病预诊断中的改进型随机森林模型,其特征在于,特征选择过程中分别使用了基于过滤法的皮尔逊相关系数,启发式基于卡方分布的单变量特征选择法;包装器法中使用了基于线性回归的递归特征消除法;嵌入法中的基于L1正则化的LASSO以及SelectFromModel。
4.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型,其特征在于,将筛选后的数据集作为整体样本,然后将整体样本按照80%和20%的比例进行划分,分别形成训练集和测试集。
5.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型,其特征在于,所述参数包括特征数量与流行的整数随机种子,其中,所述特征数量
Figure FDA0003051223000000021
为21个,所述流行的整数随机种子42。
6.一种利用如权利要求所述的用于冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统,其特征在于,所述系统包括直接输入样本集读入内存中,然后作为输入投进改进随机森林模型,最后获得分类结果。
7.根据权利要求6所述的用于冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统,其特征在于,所述分类结果分为两类,即冠心病高患病可能性以及冠心病低患病可能性,其中,所述改进随机森林模型中“1”表示阳性,即冠心病高患病可能性,“0”表示阴性,即冠心病低患病可能性。
CN202110488133.8A 2021-05-06 2021-05-06 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 Active CN113128654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488133.8A CN113128654B (zh) 2021-05-06 2021-05-06 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488133.8A CN113128654B (zh) 2021-05-06 2021-05-06 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统

Publications (2)

Publication Number Publication Date
CN113128654A true CN113128654A (zh) 2021-07-16
CN113128654B CN113128654B (zh) 2023-12-19

Family

ID=76781200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488133.8A Active CN113128654B (zh) 2021-05-06 2021-05-06 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统

Country Status (1)

Country Link
CN (1) CN113128654B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113796877A (zh) * 2021-08-17 2021-12-17 昆明同心医联科技有限公司 脑卒中预测值获取方法、装置及存储介质
CN114512232A (zh) * 2022-02-16 2022-05-17 盐城吉研智能科技有限公司 基于级联机器学习模型的爱德华氏综合征筛查系统
CN117672495A (zh) * 2023-11-30 2024-03-08 北京医院 基于人工智能的房颤合并冠心病患者远期死亡率预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101421735A (zh) * 2006-03-03 2009-04-29 曼提斯库拉Ehf.公司 构建和使用参考工具以生成用于指示主体的医学状况的辨别信号的方法和设备
CN101622360A (zh) * 2005-12-15 2010-01-06 贝克顿迪金森公司 脓毒症的诊断
CN106314438A (zh) * 2016-08-15 2017-01-11 西北工业大学 一种司机驾驶轨迹中异常轨迹的检测方法和系统
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN110251122A (zh) * 2019-06-13 2019-09-20 南方医科大学顺德医院(佛山市顺德区第一人民医院) 一种冠心病风险指数的无损检测系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622360A (zh) * 2005-12-15 2010-01-06 贝克顿迪金森公司 脓毒症的诊断
CN101421735A (zh) * 2006-03-03 2009-04-29 曼提斯库拉Ehf.公司 构建和使用参考工具以生成用于指示主体的医学状况的辨别信号的方法和设备
CN106314438A (zh) * 2016-08-15 2017-01-11 西北工业大学 一种司机驾驶轨迹中异常轨迹的检测方法和系统
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN110251122A (zh) * 2019-06-13 2019-09-20 南方医科大学顺德医院(佛山市顺德区第一人民医院) 一种冠心病风险指数的无损检测系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113796877A (zh) * 2021-08-17 2021-12-17 昆明同心医联科技有限公司 脑卒中预测值获取方法、装置及存储介质
CN114512232A (zh) * 2022-02-16 2022-05-17 盐城吉研智能科技有限公司 基于级联机器学习模型的爱德华氏综合征筛查系统
CN117672495A (zh) * 2023-11-30 2024-03-08 北京医院 基于人工智能的房颤合并冠心病患者远期死亡率预测方法
CN117672495B (zh) * 2023-11-30 2024-05-14 北京医院 基于人工智能的房颤合并冠心病患者远期死亡率预测方法

Also Published As

Publication number Publication date
CN113128654B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN113128654B (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
CN114023441A (zh) 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法
Kollias et al. Ai-enabled analysis of 3-d ct scans for diagnosis of covid-19 & its severity
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN113327679A (zh) 一种肺栓塞临床风险及预后评分方法与系统
CN115099331A (zh) 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
Reddy et al. Discovering optimal algorithm to predict diabetic retinopathy using novel assessment methods
CN117238522B (zh) 一种非布司他的疗效预测系统、设备及介质
US20190221309A1 (en) Coronary Artery Disease Screening Method by Using Cardiovascular Markers and Machine Learning Algorithms
CN117198532A (zh) 一种基于机器学习的icu患者脓毒症风险预测方法及系统
Liu et al. Interpretable machine learning model for early prediction of mortality in elderly patients with multiple organ dysfunction syndrome (MODS): a multicenter retrospective study and cross validation
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
CN116453694A (zh) 基于有放回欠采样集成框架的疾病风险预测方法及系统
Ramkumar Identification and Classification of Breast Cancer using Multilayer Perceptron Techniques for Histopathological Image
Siddiqui et al. Artificial intelligence-based myocardial infarction diagnosis: a comprehensive review of modern techniques
CN114550910A (zh) 基于人工智能的射血分数保留型心衰诊断及分型系统
CN114141360A (zh) 基于惩罚cox回归的乳腺癌预测方法
Zhang et al. Clinical utility of the automatic phenotype annotation in unstructured clinical notes: ICU use cases
CN112259231A (zh) 一种高危胃肠间质瘤患者术后复发风险评估方法与系统
CN114334122A (zh) 一种适用于临床痴呆风险筛查的认知测评体系
Panigrahy et al. Predictive Modelling of Diabetes Complications: Insights from Binary Classifier on Chronic Diabetic Mellitus
CN115064267B (zh) 一种胆道闭锁风险评估系统及其建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant