CN113128654A

CN113128654A - 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统

Info

Publication number: CN113128654A
Application number: CN202110488133.8A
Authority: CN
Inventors: 吴万庆; 蒋明哲; 张献斌
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-16
Anticipated expiration: 2041-05-06
Also published as: CN113128654B

Abstract

本发明公开了一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统，基于特征选择结合统计机器学习算法，对冠心病患者临床检验中使用到的近百个指标进行筛选，建立高预测精度的模型，可作为是否进行冠脉造影的依据，且通过合并临床检验指标及图像检测结果以及患者电子病历信息计算患者目前患有冠心病的风险，以及为后续确诊提供评估依据。

Description

一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统

技术领域

本发明属于数据训练与统计机器学习数据挖掘领域研究技术，特别涉及一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统。

技术背景

心脏类疾病是全球范围内，尤其是我国致死率最高的疾病，其致死率超过所有癌症的总和。根据2019年中国心血管健康与疾病报告中给出的数据，总体上看，中国心血管病患病率及死亡率仍处于上升阶段。推算心血管病现患人数3.30亿，其中脑卒中1300万，冠心病1100万，肺原性心脏病500万，心力衰竭890万，风湿性心脏病250万，先天性心脏病200万，下肢动脉疾病4530万，高血压2.45亿。其中，心血管病死亡占城乡居民总死亡原因的首位，农村为45.91％，城市为43.56％。中国心血管病负担日渐加重，已成为重大的公共卫生问题，防治心血管病刻不容缓。

冠心病是主要的心脏类疾病之一，其定义为冠状动脉粥样硬化造成的心脏血供不足，当病理状态到达一定程度后被确诊为冠心病。根据《中国卫生健康统计年鉴2018》，2017年城市居民冠心病死亡率为115.32/10万，农村居民冠心病死亡率为122.04/10万，农村地区高于城市地区，男性高于女性。2017年冠心病死亡率继续2012年以来的上升趋势。农村地区冠心病死亡率上升明显，到2016年已超过城市水平。

冠心病在医学领域诊断的最佳方式是通过冠脉造影技术的结果来判断。冠脉造影是一种有创的检查冠心病的方法，因其检查的准确程度高，在医学界确定为金标准。它通常将造影剂通过患者动脉注射进身体，通过造影剂流过心脏动脉时X光的呈现来观察心脏动脉中病变状况。因为冠脉造影技术是现有的诊断的技术之一，因此，作为现有技术，本领域的常规技术人员应当掌握。

确定的事实是大多数心血管疾病的死亡与人们对其自身医疗状况的认知程度相关，并且由缺乏及时治疗而导致。

常见的冠心病诊断方案及局限性：

1、冠脉造影

目前冠心病(Coronary Heart Disease，CHD)诊断的“金标准”仍然是侵入性的并伴有许多致命的副作用的冠状动脉造影，这限制了大规模的人群筛查和早期的CHD风险预测。

近年来，这项技术的操作给患者带来负面的伤害被广泛研究，其主要缺陷具体表述为：首先，造影剂注射进人体后需要通过肾脏代谢，而具有肾功能疾病或缺陷的患者，经历了此项检查后会有可能患造影剂肾病；其次，冠脉造影是一项有创手术，需要通过在患者的桡动脉及股动脉进行穿刺，穿刺造成的创口在愈合过程中，会产生一定程度的增生，因此会加重动脉官腔狭窄的程度，这对患者是很不利的。由于冠心病的本质即冠状动脉粥样硬化导致的官腔狭窄，而冠脉造影在某种程度上加重了官腔狭窄，与治疗理念相悖。最后，尤其是在我国，乡村地区的心脏类疾病患者数量远超城镇地区，众所周知，冠脉造影的诊察费用昂贵，而事实情况是，很多农村患者在确诊CHD时更依赖于医生的经验而选择放弃该诊断方式，因此金标准在社会环境和经济因素的影响下也丧失了部分现实意义。

其主要缺陷总结为：成本昂贵，术后带给人体的副作用明显。

2、基于冠心病诊断神经网络模型冠心病诊断方法及系统

已有专利研究基于中医诊断方法中“望闻问切”的流程，进行人工智能化，设计出具体的系统。系统将词输入预先训练完成的冠心病诊断神经网络模型，获得并输出患者的证候要素、证候、治法和/或药材基本要素信息。根据患者病症提供的关键词，给出可能性较大的诊断结果和治疗方案以及提供后续需要服用的药物信息等，以此实现人工智能应用于辅助诊断的效果。

其弊端可能存在为：首先，用于诊断的数据(例如：头晕，胸闷等描述症状的词汇)主观性较强，不能准确反映内在病因。其次，系统对于全部患者的诊断遵循同一套流程，未对患者其他并发症(例如：糖尿病，高尿酸血症等)进行研究，但事实上导致一种症候的原因可能有很多种，不能一概而论。技术上存在的弊端是：深度学习中常用的神经网络在应用在各具体场景下的可解释性仍然是一个“open problem”,因此，应用于实际的说服性有待商榷。

3、预测与代谢物相关的疾病(特别是冠心病)的风险的生物标志物和方法。

已有专利研究，使用随机森林模型对17种血液，血清，血浆中的生物标记物进行监督训练，提供用于评估CHD风险或CHD的诊断或早期诊断的生物标志物组合物和方法。

该方法基于代谢组学(一种创新的高通量生物分析方法)，依赖特定生理状态中的小分子，较其他生物标记物体现出更高的灵敏度，更广的代谢组覆盖范围，提高的代谢物鉴定和鉴别能力，以及执行化合物类别特定分析的模块性的性质。捕捉发病前期生物体内的微观变化，因此可以为患者争取到良好的治疗时机。

该方法的局限在于：

首先，17种生物标记物的筛选条件以及在临床检测中获取的难度和成本尚未给出明确的陈述，因此应用在实际中的可能性不能保证；根据本领域的常规认知，提取物分子越小或者要求精度越高的化验的成本和设备的要求都是很高的。

其次，研究中将疾病概率的阈值限定为50％，即得到的结果非黑即白，但若诊断结果是患病，却无法提供程度的深浅和贡献程度较大的数据特征。因此诊断的结果给到患者的信息过少，无法根据个体差异提供具体的依据。另外，阈值的限定并不是业界已有的标准，是数据分析过程中的经验值设定，故参数的设计方面缺少权威性，具有主观性。

发明内容

鉴于在背景技术中所提及的现有技术中存在缺陷，本发明旨在于提供一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统，基于特征选择结合统计机器学习算法，对冠心病患者临床检验中使用到的近百个指标进行筛选，建立高预测精度的模型，可作为是否进行冠脉造影的依据。

为了实现上述目的，本发明采用的技术方案如下：

一种用于冠心病预诊断中的改进型随机森林模型，具有整体样本，所述模型的建立了首先将所述整体样本读取至内存中，然后对所述整体样本进行特征降维和特征选择，再将筛选后的数据集作为分类器的输入，通过设置12倍交叉验证对训练集进行训练，获得随机森林模型的内部参数，所获得参数设置于随机森林模型中并对整体样本进行训练，至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。

优选的，所述特征降维和特征选择包括所处理的数据均经过了归一化处理，整合了数据类型，从而提高最后分类的质量；对所述数据进行分类，按照数据类型将数据分为数值类型特征和分类属性的特征，即所有连续性属性的特征作为一个特征集(Dataset1)，所有分类属性的数据作为另一个特征集(Dataset2)；然后，在特征筛选过程中，将上述两个数据集分别放入设置好的特征选择模型中，通过模型的计算，分别得到每个数据集对应五个选择模型的最优特征集1(Opt_dataset1)、最优特征集2(Opt_dataset2)；将最优特征集1、最优特征集2在投票模型中进行汇总，将固定的票数作为阈值，其中，因所有模型数为5，故将阈值设置为4，即统计所有票数≥4的特征合并进最终的最优特征集(Opt_Dataset)。

其中，进行特征选择的五个模型分别为皮尔逊相关系数，单变量特征选择法(启发式基于卡方分布)，递归消除特征法(基模型：线性回归)，LASSO(基于L1正则化)，SelectFromModel(基于逻辑回归模型)。

优选的，将筛选后的数据集作为整体样本，然后将整体样本按照80％和20％的比例进行划分，分别形成训练集和测试集。

优选的，所述参数包括特征数量与流行的整数随机种子，其中，所述特征数量

为21个，所述流行的整数随机种子42。

本发明还提供一种实际的应用，即利用冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统，所述系统包括直接输入样本集读入内存中，然后作为输入投进改进随机森林模型，最后获得分类结果。

优选的，所述分类结果分为两类，即冠心病高患病可能性以及冠心病低患病可能性，其中，所述改进随机森林模型中“1”表示阳性，即冠心病高患病可能性，“0”表示阴性，即冠心病低患病可能性。

需要指出的是，本发明所述皮尔逊相关系数包括：两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

上式定义了总体相关系数，常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差，可得到皮尔逊相关系数，常用英文小写字母γ代表：

r亦可由(X_i,Y_i)样本点的标准分数均值估计，得到与上式等价的表达式：

其中

及σX分别对X_i样本的标准分数，样本平均值和样本标准差。

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上，且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

需要说明的是，本发明所述线性回归包括：

线性回归可以处理结果是二分类的问题，原始问题可以等效地表示为：

其中损失函数使用铰链损失，对于预期的输出t＝±1和分类器得分y，预测y的铰链损耗定义为：

l(y)＝max(0,1-t y)， (5)

其中y应该是分类器决策函数的“原始”输出，而不是预测的类标签。当t和y具有相同的符号时，并且|y|≥1，铰链损失l(y)＝0。当他们有相反的迹象时，l(y)随y线性增加，如果|y|＜1，即使它具有相同的符号。

需要说明的是，本发明所述Lasso包括：

最小化的目标函数是：

Lasso估计可解决α||w||₁最小二乘罚分的最小化，其中α是常数，||w||₁是l1-系数矢量的范数。

需要说明的是，本发明所述卡方分布(Chi-2)是设定的内置启发式模型，该模型被通过单变量特征选择法驱动，在训练过程中递归选择贡献值最大的集合；具体的说，卡方分布(Chi-2)是sklearn深度学习框架中的方法，用于样本集的特征选择/降维，以提高估计量的准确性得分或提高其在超高维数据集上的性能。

需要说明的是，本发明所述逻辑回归模型包括：

作为优化问题，分类类l₂惩罚逻辑回归使以下成本函数最小化：

相似地，l₁正则逻辑回归解决了以下优化问题：

Elastic-Net正则化是以下各项的组合l₁和l₂，并最小化以下成本函数：

本发明有益效果在于：

1、数据采集符合自然规律，所使用到的数据都是现有临床心内科医生诊断时参考的化验指标。因此，指标的选择均基于医学论证，具有科学性。

2、精确度高：通过对2015-2018年期间具有完整病例信息的433名心脏疾病患者的共计94项检测指标进行降维，筛选，数据增强，分类，融合等方法的处理形成预测准确度较高的模型。模型可依赖部分敏感特征指标与标签之间的关联关系，计算出样本的为阳性的可能性。

3、成本低：通过对共计94项统计指标进行降维、特征筛选的方式改进分类模型的结构，筛选出具有与冠心病显著相关的特征集(即最优特征集)。

4、自助性(迁移性)强：该模型可以同时为医生和患者服务。首先，可以作为是否做冠脉造影检查的依据。其次，该模型具有很好的迁移性，可以嵌入手机，平板等移动端，患者可以通过将医院的检查结果输入到系统中，获得实时检测结果，进行有效的预后和提前治疗。针对以上两种需求人群，该方法的学习成本均很低，不需要专门的培训和练习，因此在普及应用方面具有优势。

附图说明

图1为本发明的系统流程线框示意图；

图2为是将本发明的特征降维和特征选择模块的流程示意图；

图3为本发明的生物数据特征重要程度的排序图；

图4为本发明的生物数据特征重要程度的排序图

图5为本发明的评价指标对应的结果示意图。

具体实施例

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本发明为一种用于冠心病预诊断中的改进型随机森林模型，具有整体样本，所述模型的建立了首先将所述整体样本读取至内存中，然后对所述整体样本进行特征降维和特征选择，再将筛选后的数据集作为分类器的输入，通过设置12倍交叉验证对训练集进行训练，获得随机森林模型的内部参数，所获得参数设置于随机森林模型中并对整体样本进行训练，至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。

进一步的，如图2所示，本发明的特征降维和特征选择包括所处理的数据均经过了归一化处理，整合了数据类型，从而提高最后分类的质量；对所述数据进行分类，按照数据类型将数据分为数值类型特征和分类属性的特征，即所有连续性属性的特征作为一个特征集(Dataset1)，所有分类属性的数据作为另一个特征集(Dataset2)；然后，在特征筛选过程中，将上述两个数据集分别放入设置好的特征选择模型中，通过模型的计算，分别得到每个数据集对应五个选择模型的最优特征集1(Opt_dataset1)、最优特征集2(Opt_dataset2)；将最优特征集1、最优特征集2在投票模型中进行汇总，将固定的票数作为阈值，其中，因所有模型数为5，故将阈值设置为4，即统计所有票数≥4的特征合并进最终的最优特征集(Opt_Dataset)。

需要指出的是，进行特征选择的五个模型分别为皮尔逊相关系数，单变量特征选择法(启发式基于卡方分布)，递归消除特征法(基模型：线性回归)，LASSO(基于L1正则化)，SelectFromModel(基于逻辑回归模型)。

为21个，所述流行的整数随机种子42。

其中

及σX分别对X_i样本的标准分数，样本平均值和样本标准差。

需要说明的是，本发明所述线性回归包括：

l(y)＝max(0,1-t y)， (5)

需要说明的是，本发明所述Lasso包括：

最小化的目标函数是：

需要说明的是，本发明所述逻辑回归模型包括：

相似地，l₁正则逻辑回归解决了以下优化问题：

实施例

将以上最优特征集中筛选出的测试集放进Kbest_RandomForest模型中进行验证。

其中，评价指标至少包括：Accuracy，F1_score，ROC，AUC，P_value

Accuracy代表获得数据的准确性，具体表述为：

其中TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。

F1_score：f1分被定义为精密度和召回率的调和平均值。

其中

ROC指的是是反映敏感度和特异度连续变量的综合指标：本发明中总面积是1，面积越接近1说明效果越好。需要指出的是，如果数值为1，说明出现过拟合。

AUC指的是即ROC曲线下面积，AUC越大越好，提示诊断价值越高；本在发明中其数值越高越代表好，需要指出的是，如果数值为1，说明出现过拟合。此外，AUC不依赖于分类器的内部阈值，因此得到的结果更加客观。

P_value指的是元素之前的显著相关性，数值越小说明越显著相关(具体的阈值可以自行设定)，说明特征本身具有价值。

实验配置：

硬件环境:CPU 4cores,RAM 32GB,GPU v100,video memory16GB,disk 100GB.

语言环境:Python versionpython3.7.

框架版本:包含并不仅限于Sklearn 0.23.2,XGBoost 1.2.1。

1、特征筛选

(1)分类数据特征选择模型分别为皮尔逊相关系数，单变量特征选择法(启发式基于卡方分布)，递归消除特征法(基模型：线性回归)，LASSO(基于L1正则化)，SelectFromModel(基于逻辑回归模型)。

结果：按照投票数大于等于4票作为筛选阈值，结果如下表所示：

			Votes
				1	Af type	房颤类型	5
2	History of hypertension	高血压病史	5
				3	History of diabetes	糖尿病史	5
4	Heart failure	心力衰竭	4
				5	Side wall	下壁(心电图)	4
6	gender	性别	4
				7	The history of drinking	饮酒	4
8	The high wall	上壁(心电图)	4

(2)连续性数据

特征选择模型分别为皮尔逊相关系数，单变量特征选择法(启发式基于卡方分布)，递归消除特征法(基模型：线性回归)，LASSO(基于L1正则化)，SelectFromModel(基于逻辑回归模型)。

结果如下表所示：

序号	指标标记	指标标记中文	Votes
				1	BUN	尿素	5
2	LAS	彩超	5
				3	APTT	部分凝血活酶时间	5
4	TBil	总胆红素	5
				5	TC	总胆固醇	5
6	N/L	中性/淋巴	5
				7	age	年龄	5
8	Hcy	同型半胱氨酸	5
				9	HB	血红蛋白	4
10	Cr	肌酐	4
				11	CKMB/CK	心肌酶谱	4
12	GGT	γ谷氨酰基转移酶	4
				13	Fg	纤维蛋白原	4
14	IBil	间接胆红素	4
				15	L	淋巴细胞绝对值	4
16	TSGF	肿瘤特异性生长因子	4
				17	NT-proBNP	脑钠肽前体	4
18	FT4	游离甲状腺素	4
				19	The wall	各壁总和	4
20	UA	尿酸	4
				21	G	葡萄糖	4
22	Reduced	收缩运动减弱	4
				23	PLT	血小板计数	4
24	LVS	彩超	4
				25	Number of right	右侧斑块数	4

2、验证方法

使用Kbest_RandomForest模型对上述所有的特征，在设定好的测试集上运行，看预测的准确率。

具体的说，如图2所示，为本发明改进后的随机森林模型的流程示意图，其重点部分是嵌入至随机森林模型的特征降维和特征选择模块。

其中，本发明中的特征降维和特征选择模块如图1所示，将每个特征选择模型计算完的候选特征在投票模型中进行汇总，将得到票数作为阈值，其中，统计所有阈值的特征形成最优特征集。

具体的说，首先统计最优特征集中所有元素的贡献值(贡献值越大说明与冠心病越相关，是可以强烈预示冠心病的因素)；其次，统计训练结果的评价指标，进行后续分析。

进一步的，如图3、图4所示，从重要程度排序后，得出下表：

3、评价指标对应的结果

如图5所示：

(1)acc:96.54(％训练集准确率)96.18(％测试集准确率)。

(2)f1_score:0.965(训练集分数)0.962(测试集分数)。

(3)auc:0.965(训练集分数)0.951(测试集分数)。

最后，需要指出的是，本发明的优势在于：

1、研究对象：本专利的研究数据与医院心内科医生参考的所有数据一致。即数据来源于临床化验数据库，模型计算与现实诊断过程中使用到的数据来源一致。因此不需要患者做额外的检查，不需要医生学习额外的知识，不需要医院设置专门的设备，具有便捷性。

2、特征筛选：本研究结合临床诊断需求，使用数据挖掘及统计机器学习的方法，将通常情况下患者要做的检查中的近百项指标进行整理统计，进一步做降维操作，通过多模型融合的特征筛选，选择出具有与冠心病强烈相关的指标集。这意味着，指标集中的若干指标可以代表近百项指标的检测结果。

其另一方面解决了“维度的诅咒”问题。首先传统的基于监督学习的机器学习过程中，数据集的质量决定着模型训练的质量，所以样本质量很重要。其次，样本的特征数量与样本量之间存在着“维度的诅咒”，及样本数量与特征值之间的数量如果超过了指数关系，那么不论使用何种机器学习模型，都不能得到一个好的结果。样本的训练永远是欠拟合的。众所周知，患者在确诊冠心病过程进行的全血化验指标合并心电图，彩超指标总数或超过100项，因此对于医生而言，诊断流程需要凭借一定程度的主观经验，缺乏客观性。另一方面，对于100项特征规模的样本，训练需要至少个样本，研究成本过高，且研究时长也不能确保。因此将降维和特征选择融合进随机森林模型形成融合后的随机森林模型是解决以上问题很好的一种方式。

3、可移植性：模型的服务对象可以是医生也可以是患者。移植性强，可以嵌入医院系统，手机，平板等，同步信息等。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变，而所有的这些改变，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种用于冠心病预诊断中的改进型随机森林模型，具有整体样本，其特征在于，所述模型的建立了首先将所述整体样本读取至内存中，然后对所述整体样本进行特征降维和特征选择，再将筛选后的数据集作为分类器的输入，通过设置12倍交叉验证对训练集进行训练，获得随机森林模型的内部参数，所获得参数设置于随机森林模型中并对整体样本进行训练，至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。

2.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型，其特征在于，所述特征降维和特征选择包括所处理的数据的类型是一致的，具有更好的归一化性质；对所述数据进行分类，按照数据类型将数据分为数值类型特征和分类属性的特征，即所有连续性属性的特征作为一个特征集，所有分类属性的数据作为另一个特征集；然后，特征选择部分将所有连续性属性的特征集、所有分类属性的数据集分别放在筛选好的选择器中进行计算，分别得到每个选择器下的最优特征集1、最优特征集2；将最优特征集1、最优特征集2在投票模型中进行汇总，将得到票数作为阈值，其中，统计所有阈值≥4的特征形成最优特征集；统计最优特征集中所有元素的贡献值；其次，统计训练结果的评价指标，进行后续分析。

3.根据权利要求2所述的用于冠心病预诊断中的改进型随机森林模型，其特征在于，特征选择过程中分别使用了基于过滤法的皮尔逊相关系数，启发式基于卡方分布的单变量特征选择法；包装器法中使用了基于线性回归的递归特征消除法；嵌入法中的基于L1正则化的LASSO以及SelectFromModel。

4.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型，其特征在于，将筛选后的数据集作为整体样本，然后将整体样本按照80％和20％的比例进行划分，分别形成训练集和测试集。

5.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型，其特征在于，所述参数包括特征数量与流行的整数随机种子，其中，所述特征数量

为21个，所述流行的整数随机种子42。

6.一种利用如权利要求所述的用于冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统，其特征在于，所述系统包括直接输入样本集读入内存中，然后作为输入投进改进随机森林模型，最后获得分类结果。

7.根据权利要求6所述的用于冠心病预诊断中的改进型随机森林模型对冠心病进行预诊断的系统，其特征在于，所述分类结果分为两类，即冠心病高患病可能性以及冠心病低患病可能性，其中，所述改进随机森林模型中“1”表示阳性，即冠心病高患病可能性，“0”表示阴性，即冠心病低患病可能性。