CN111524606B

CN111524606B - 一种基于随机森林算法的肿瘤数据统计方法

Info

Publication number: CN111524606B
Application number: CN202010332980.0A
Authority: CN
Inventors: 赵杰; 翟运开; 马倩倩; 叶明�; 陈昊天; 何贤英; 崔芳芳; 李明原
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2024-01-30
Anticipated expiration: 2040-04-24
Also published as: CN111524606A

Abstract

本发明公开了一种基于随机森林算法的肿瘤数据统计方法，属于大数据领域，包括建立中央服务器和多个数据采集服务器，对数据进行预处理，根据随机森林算法在训练集上训练得到医疗数据拟合度模型，对医疗数据拟合度模型进行多指标评价，解决了有效的对肿瘤数据进行准确统计的问题，本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响，使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G‑mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能，提高了模型的准确度等多个指标从多个角度评价模型的分类性能，提高了模型的准确度。

Description

一种基于随机森林算法的肿瘤数据统计方法

技术领域

本发明属于大数据技术领域，涉及一种基于随机森林算法的肿瘤数据统计方法。

背景技术

肿瘤是发病率和死亡率增长最快，对人类生命健康威胁最大的恶性肿瘤之一。关于肿瘤的预测成为医疗界关注的热点。传统疾病预测耗时耗力，根据医生经验及外界环境的影响，数据统计正确率不高。

机器学习方法凭借其能对数据进行自动学习，从复杂数据中提取信息做出决策的强大能力，在生物医疗等领域得到了越来越多的关注，为这些领域中如何有效决策提供了一个新的方向。互联网医疗是时代发展的必然趋势，随着机器学习的发展，越来越多的研究学者使用机器学习方法建立模型，对已有的数据进行分析研究。基于各种机器学习算法建立的疾病数据统计模型越来越多，但是肿瘤数据复杂多样，基于传统单分类算法建立的模型不能保证做出有效的分类统计。

发明内容

本发明的目的是提供一种基于随机森林算法的肿瘤数据统计方法，解决了有效的对肿瘤数据进行准确统计的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于随机森林算法的肿瘤数据统计方法，包括如下步骤：

步骤1：建立中央服务器和多个数据采集服务器，所有数据采集服务器均与中央服务器通过互联网通信；

数据采集服务器部署在医院的各个科室内，用于采集各个科室内收集到的医疗数据；

步骤2：在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块；

步骤3：数据采集服务器向中央服务器定时发送收集到的医疗数据；

中央服务器获取到医疗数据后，通过数据预处理模块对医疗数据进行数据清洗，筛选掉缺失值和异常值，得到清洗后医疗数据；

步骤4：数据预处理模块对清洗后医疗数据进行均值方差归一化处理，得到待处理医疗数据集；

步骤5：数据库模块存储待处理医疗数据集；

步骤6：模型建立模块读取数据库模块中的待处理医疗数据集，并根据以下方法建立风险模型：

步骤S1：以是否患肿瘤作为分层，分别随机抽取2/3样本作为训练集，剩余1/3样本作为测试集；

步骤S2：从平衡训练集中，采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集，而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB)，用于评价每棵树的性能；

步骤S3：设定经过筛选后特征总数为M₀，在每一棵决策树的任一节点处随机抽取m个特征(m<<M₀)，其中m＝log2(M₀)+1或通过最小基尼增益值GiniGain作为决策树分类方案，选择一个最具有分类能力、最优特征进行节点分裂，由此构建K个分类树{C₁,C₂,…,C_K}作为弱分类器：

其中S₁、S₂为样本集S的两个样本子集，n₁、n₂为两个样本子集的数量，N为样本容量。对于样本S中的特征，计算任意可能的特征组合的GiniGain，选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。

步骤S4：使每棵树最大限度地生长，对数据进行分类；

步骤S5：对决策树进行加权处理，使用袋外数据的F1计算每个决策树的分类正确程度，根据以下公式对弱分类器赋予权重：

其中，oobF1(i)表示第i棵决策树的袋外数据的F1值，其为精度和召回率的调和平均；

步骤S6：基于步骤S4的方法加权投票法集成K棵决策树分类结果；

步骤S7：遍历决策树个数K，特征数目m组合，基于运算效率与OOB错误率最小化准则，采用网格搜索算法与十折交叉验证法，将K与m划分网格，通过搜索每个网格中的参数进行参数确定和优化；

步骤S8：向训练好的随机森林模型中导入测试集，输出测试集结果，得到混淆矩阵，通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能；

步骤7：图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。

优选的，所述医疗数据包括肿瘤数据。

优选的，在执行步骤4时，数据预处理模块将清洗后医疗数据作为样本数据，并根据以下公式对清洗后医疗数据进行均值方差归一化处理：

其中，样本数据中的最大值是xmax，样本数据中的最小值是xmin，xmax-xmin表示样本数据的极差。

本发明所述的一种基于随机森林算法的肿瘤数据统计方法，解决了有效的对肿瘤数据进行准确统计的问题，本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响，使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能，提高了模型的准确度。

附图说明

图1为本发明的非平衡数据处理的流程图；

图2是本发明的建立随机森林预测模型的流程图；

图3是本发明的步骤S7的流程图；

图4为本发明的总流程图。

具体实施方式

如图1-图4所示的一种基于随机森林算法的肿瘤数据统计方法，包括如下步骤：

肿瘤数据集来源于医院收集数据，可能只是处于统计信息的目的，直接对数据进行建模预测得不到较好的结果。本发明通过观察肿瘤数据，了解数据量、特征数和统计信息等，便于进行数据清洗。

本发明将异常数据、缺失数据、重复数据进行清洗。剔除是否患肿瘤变量存在缺失的数据。剔除重复记录的数据，将不符合逻辑的异常值，即离群值按缺失值处理，采用均值法、回归法或多重填补法填补缺失值。

均值方差归一化消除了数据集中的量纲和数据取值范围的影响，并保留了原来数据集中数据之间存在的关系，是最简单易用的方法。

数据预处理模块将清洗后医疗数据作为样本数据，并根据以下公式对清洗后医疗数据进行均值方差归一化处理：

本实施例收集到的数据中肿瘤患者所占比例远远少于非肿瘤患者，为避免分类器在非平衡数据集上分类性能表现差的问题，本发明采用基于聚类的过采样和欠采样混合采样方法，具体步骤如下：

步骤A1：将非肿瘤患者E₁与肿瘤患者E₂分别进行K-means聚类，分别划分为不同的类,类的数目分别记为M₁，M₂；

步骤A2：根据以下公式计算非肿瘤患者与肿瘤患者各类的密度指标，确定各类簇的采样倍率：

其中，D_i为第i类密度指标，n_i为该类的样本量，为该类中样本间距离的平均值；

步骤A3：根据以下公式计算非肿瘤患者与肿瘤患者各类的采样权重：

本发明根据其密集程度来确定采样权重，对密集的类采用较低的采样权重，对稀疏的类采用较高的采样权重，以保证增加的样本的多样性，避免与原始样本相似程度过高；

步骤A4：随机产生过采样因子α，从肿瘤患者中随机过采样αE₂个新患者样本，与原始E₂肿瘤患者构成(α+1)E₂个样本，根据以下公式计算肿瘤患者中每个类的采样数量：

C_i＝E₂α×W_i，i＝1,2，…,M₂；

步骤A5：在非肿瘤患者数据中，采用随机欠采样方法，随机采用(α+1)E₂个样本，根据以下公式计算非肿瘤患者每类采样数量：

C_i＝E₂(α+1)×W_i，i＝1,2，…,M₁；

步骤A6：采用bootstrap重抽样方法有放回地重复步骤A1到步骤A5，融合得到的新样本不仅可以解决非肿瘤与肿瘤患者不同类别间不平衡问题，同时更符合数据的整体分布。

如表1所示为收集数据的特征：

表1

本发明根据表1中的数据特征建立特征集，然而特征集中通常含有部分不重要或冗余的特征，在分类模型中严重影响分类性能，如在随机森林构建决策树时，造成每颗树的节点随机抽取的特征存在较多冗余，同时延长算法运算时间，另外冗余往往特征间相关性较大，为了消除特征集产生的不良影响，本发明根据以下方法对特征集进行处理：

步骤B1：选择出与“是否患肿瘤”高度相关的特征，同时特征之间互不相关；

步骤B2：通过以下公式分别计算离散型特征、连续型特征的信息熵：

H(x)＝-∑_ip(x_i)log₂p(x_i)；

H_c(x)＝-∫_Rp(x)log₂p(x)dx；

条件熵分别通过以下公式计算：

H(x|y)＝-∑_ip(y_i)∑_ip(x_i|y_i)log₂p(x_i|y_i)；

H_C(x|y)＝-∑_ip(y_i)∫_Rp(x|y_i)log₂p(x|y_i)dx；

信息增益通过以下公式计算：

g(x|y)＝H(x)-H(x|y)；

根据以下相关程度公式计算基于对比信息熵反映特征与特征之间的相关程度或特征与“是否患肿瘤”的相关程度：

其中IR(x,y)越大，说明x，y两者而相关度越大，该相关程度公式表现了特征与“是否患肿瘤”的相关程度：若IR(x_i,y)≤η₁，则认为该特征与是否患肿瘤相关度较低，将该特征剔除；

相关程度公式还表现了初步筛选后的特征两两间相关程度：若IR(x_i,x_j)≥η₂，则认为两特征间存在冗余，剔除与“是否患肿瘤”的相关程度较低的特征；

步骤B3：基于随机森林选择特征，通过平均精确度减少方法(Mean DecreaseAccuracy)评估特征重要性(variable importance measure，VIM)，本发明采用的平均精确度减少方法(Mean Decrease Accuracy)具有较好非偏倚性，其基本原理为对特征加入噪声后，预测准确率的改变即为该特征的重要性程度：

步骤B3-1：对于随机森林中的每一颗决策树,在相应的袋外数据(out-of-bag,OOB)计算袋外数据误差，设定该袋外数据误差为errOOB_k.；

步骤B3-2：随机对袋外数据集的特征X^j加入噪声干扰项,即随机改变样本在特征X^j处的值,再次计算袋外数据误差,记为errOOB_k’；

步骤B3-3：假设随机森林中有K棵树,特征X^j的重要性为:

将经过初步筛选的特征全部纳入随机森林模型，计算得到特征重要性排序，通过VIM筛选得到最小OOB误差率的最终特征子集。

步骤5：数据库模块存储待处理医疗数据集；

步骤S4：使每棵树最大限度地生长，对数据进行分类；

步骤S6：基于(4)加权投票法集成K棵决策树分类结果；

步骤S7：遍历决策树个数K，特征数目m组合，基于运算效率与OOB错误率最小化准则，采用网格搜索算法与十折交叉验证法(10-fold cross-validation)，将K与m划分网格，通过搜索每个网格中的参数进行参数确定和优化；

网格搜索算法(Grid Search)是机器学习中的一种调节参数的方法，就是在所有候选的参数组合中，去循环遍历每一种可能性，找到表现最好的参数组合，就是最终获得的结果。

步骤S8：向训练好的随机森林模型中导入测试集，输出测试集结果，得到混淆矩阵，通过敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、受试者工作特征曲线(ROC)下面积(AUC)等指标评估分类器性能；

其中n_pos为肿瘤患者数目，n_neg是非肿瘤患者数目。rank_i为概率得分由小到大排序后，第i条样本的序号，∑_i∈posClassrank_i为肿瘤患者的序号累加；

如表2所示为以上公式中TP、FN、FP和TN的含义：

表2

随机森林算法RF是Leo Breiman在2001年提出的一种基于统计学习理论的分类算法，将多个决策树分类器组合形成集成分类器。它结合自助法(Bootstrap)重采样技术和决策树算法，构建一个包含多个基本分类器的树型分类器集合，使用简单多数投票的方法进行分类和预测。随机森林算法较好地解决了过拟合问题，并且分类精度较高，学习速度较快，对不平衡数据集也有较强的适应性，在信息检索、生物信息学等领域已经有很好的应用。

优选的，所述医疗数据包括肿瘤数据。

本发明所述的一种基于随机森林算法的肿瘤数据统计方法，解决了有效的对肿瘤数据进行准确统计的问题，本发明根据肿瘤数据收集的时候数据集在分布上可能存在一定的问题，根据数据情况进行相应的处理，并通过均值方差归一化的方法对数据进行处理，消除了数据的量纲以及数据取值范围可能对实验结果造成的影响，本发明将数据集分为训练集和测试集，并通过网格搜索的方法得到最优参数组合的随机森林算法来建立预测模型，在训练集上进行学习，并通过测试集测试预测模型的性能，使用准确率ACC、精准率Precision、召回率Recall、F1分数、AUC等多个指标从多个角度评价模型的分类性能，提高了模型的准确度。

本发明采用基于聚类的过采样和欠采样混合采样方法处理非平衡数据，基于信息熵与特征重要性方法进行特征筛选，同时加权投票改进随机森林算法。

随机森林相较于具有较高分类准确率、克服了过拟合的问题、对噪声和异常值有良好的容忍性并且易并行化等特点，简单高效，容易实现，计算开销小。

本发明为避免随机森林算法处理非平衡数据时不能很好地区分正类和负类，采用基于聚类的过采样和欠采样集成的混合采样方法处理非平衡数据。相较于欠采样丢失大量的负样本特征，集成混合采样能充分学习负样本特征。过采样方法通过简单复制样本的策略增加正类样本，不仅带来噪声，同时导致合成样本与原始样本的相似性较高，虽然增加了正类样本的数量，但并没有增加样本的多样性，仍有可能造成过拟合问题。集成混合采样先通过聚类划分不同类簇，根据其密集程度来确定采样倍率，有利于避免过拟合现象，同时保证了混合采样的样本结构与原始数据结构的一致。

本发明基于信息熵与特征重要性的特征筛选法，可以全面的提取重要的影响特征，并去除冗余特征，选出更显著、更重要的特征，辅助系统的分类结果更准确。同时减少了相关度不大的特征，大大提高了运算效率。

传统的随机森林算法无法区别对待分类性能不同的决策树，采用相同的权重进行投票。但往往各个的决策树的分类性能存在一定差异，本发明依据每个决策树的分类正确程度，赋予不同的权重，降低分类性能差的决策树的负面影响，增强分类性能优秀的决策树的正面影响，以提高随机森林整体分类性能。

Claims

1.一种基于随机森林算法的肿瘤数据统计方法，其特征在于：包括如下步骤：

数据采集服务器部署在医院的各个科室内，用于采集各科室内收集到的医疗数据；

采用基于聚类的过采样和欠采样混合采样方法，具体步骤如下：

根据其密集程度来确定采样权重，对密集的类采用较低的采样权重，对稀疏的类采用较高的采样权重，以保证增加的样本的多样性，避免与原始样本相似程度过高；

C_i＝E₂α×W_i，i＝1,2，…,M₂；

步骤A5：在非肿瘤患者数据中，采用随机欠采样方法，随机采样(α+1)E₂个样本，根据以下公式计算非肿瘤患者每类采样数量：

C_i＝E₂(α+1)×W_i，i＝1,2，…,M₁；

步骤A6：采用bootstrap重抽样方法有放回地重复步骤A1到步骤A5，融合得到的新样本不仅可以解决非肿瘤与肿瘤患者不同类别间不平衡问题，同时更符合数据的整体分布；

步骤5：数据库模块存储待处理医疗数据集；

步骤S2：从平衡训练集中，采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集，而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB)，用于评价每棵决策树的性能；

步骤S3：设定经过筛选后特征总数为M₀，在每一棵决策树的任一节点处随机抽取m个特征，m<<M₀，其中m＝log2(M₀)+1或通过最小基尼增益值GiniGain作为决策树分类方案，选择一个最具有分类能力、最优特征进行节点分裂，由此构建K个分类树{C₁,C₂,…,C_K}作为弱分类器：

其中S₁、S₂为样本集S的两个样本子集，n₁、n₂为两个样本子集的数量，N为样本容量；对于样本S中的特征，计算任意可能的特征组合的GiniGain，选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案；

步骤S4：使每棵树最大限度地生长，对数据进行分类；

2.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法，其特征在于：所述医疗数据包括肿瘤数据。

3.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法，其特征在于：在执行步骤4时，数据预处理模块将清洗后医疗数据作为样本数据，并根据以下公式对清洗后医疗数据进行均值方差归一化处理：