CN111524606B - 一种基于随机森林算法的肿瘤数据统计方法 - Google Patents
一种基于随机森林算法的肿瘤数据统计方法 Download PDFInfo
- Publication number
- CN111524606B CN111524606B CN202010332980.0A CN202010332980A CN111524606B CN 111524606 B CN111524606 B CN 111524606B CN 202010332980 A CN202010332980 A CN 202010332980A CN 111524606 B CN111524606 B CN 111524606B
- Authority
- CN
- China
- Prior art keywords
- data
- tumor
- sample
- sampling
- medical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 239000000523 sample Substances 0.000 claims description 41
- 238000003066 decision tree Methods 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000059 patterning Methods 0.000 claims description 3
- 229940060587 alpha e Drugs 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 claims description 2
- 239000013610 patient sample Substances 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于随机森林算法的肿瘤数据统计方法,属于大数据领域,包括建立中央服务器和多个数据采集服务器,对数据进行预处理,根据随机森林算法在训练集上训练得到医疗数据拟合度模型,对医疗数据拟合度模型进行多指标评价,解决了有效的对肿瘤数据进行准确统计的问题,本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G‑mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能,提高了模型的准确度等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
Description
技术领域
本发明属于大数据技术领域,涉及一种基于随机森林算法的肿瘤数据统计方法。
背景技术
肿瘤是发病率和死亡率增长最快,对人类生命健康威胁最大的恶性肿瘤之一。关于肿瘤的预测成为医疗界关注的热点。传统疾病预测耗时耗力,根据医生经验及外界环境的影响,数据统计正确率不高。
机器学习方法凭借其能对数据进行自动学习,从复杂数据中提取信息做出决策的强大能力,在生物医疗等领域得到了越来越多的关注,为这些领域中如何有效决策提供了一个新的方向。互联网医疗是时代发展的必然趋势,随着机器学习的发展,越来越多的研究学者使用机器学习方法建立模型,对已有的数据进行分析研究。基于各种机器学习算法建立的疾病数据统计模型越来越多,但是肿瘤数据复杂多样,基于传统单分类算法建立的模型不能保证做出有效的分类统计。
发明内容
本发明的目的是提供一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于随机森林算法的肿瘤数据统计方法,包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各个科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(m<<M0),其中m=log2(M0)+1或通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于步骤S4的方法加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法,将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能;
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
优选的,所述医疗数据包括肿瘤数据。
优选的,在执行步骤4时,数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
本发明所述的一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题,本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
附图说明
图1为本发明的非平衡数据处理的流程图;
图2是本发明的建立随机森林预测模型的流程图;
图3是本发明的步骤S7的流程图;
图4为本发明的总流程图。
具体实施方式
如图1-图4所示的一种基于随机森林算法的肿瘤数据统计方法,包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各个科室内收集到的医疗数据;
肿瘤数据集来源于医院收集数据,可能只是处于统计信息的目的,直接对数据进行建模预测得不到较好的结果。本发明通过观察肿瘤数据,了解数据量、特征数和统计信息等,便于进行数据清洗。
本发明将异常数据、缺失数据、重复数据进行清洗。剔除是否患肿瘤变量存在缺失的数据。剔除重复记录的数据,将不符合逻辑的异常值,即离群值按缺失值处理,采用均值法、回归法或多重填补法填补缺失值。
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
均值方差归一化消除了数据集中的量纲和数据取值范围的影响,并保留了原来数据集中数据之间存在的关系,是最简单易用的方法。
数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
本实施例收集到的数据中肿瘤患者所占比例远远少于非肿瘤患者,为避免分类器在非平衡数据集上分类性能表现差的问题,本发明采用基于聚类的过采样和欠采样混合采样方法,具体步骤如下:
步骤A1:将非肿瘤患者E1与肿瘤患者E2分别进行K-means聚类,分别划分为不同的类,类的数目分别记为M1,M2;
步骤A2:根据以下公式计算非肿瘤患者与肿瘤患者各类的密度指标,确定各类簇的采样倍率:
其中,Di为第i类密度指标,ni为该类的样本量,为该类中样本间距离的平均值;
步骤A3:根据以下公式计算非肿瘤患者与肿瘤患者各类的采样权重:
本发明根据其密集程度来确定采样权重,对密集的类采用较低的采样权重,对稀疏的类采用较高的采样权重,以保证增加的样本的多样性,避免与原始样本相似程度过高;
步骤A4:随机产生过采样因子α,从肿瘤患者中随机过采样αE2个新患者样本,与原始E2肿瘤患者构成(α+1)E2个样本,根据以下公式计算肿瘤患者中每个类的采样数量:
Ci=E2α×Wi,i=1,2,…,M2;
步骤A5:在非肿瘤患者数据中,采用随机欠采样方法,随机采用(α+1)E2个样本,根据以下公式计算非肿瘤患者每类采样数量:
Ci=E2(α+1)×Wi,i=1,2,…,M1;
步骤A6:采用bootstrap重抽样方法有放回地重复步骤A1到步骤A5,融合得到的新样本不仅可以解决非肿瘤与肿瘤患者不同类别间不平衡问题,同时更符合数据的整体分布。
如表1所示为收集数据的特征:
表1
本发明根据表1中的数据特征建立特征集,然而特征集中通常含有部分不重要或冗余的特征,在分类模型中严重影响分类性能,如在随机森林构建决策树时,造成每颗树的节点随机抽取的特征存在较多冗余,同时延长算法运算时间,另外冗余往往特征间相关性较大,为了消除特征集产生的不良影响,本发明根据以下方法对特征集进行处理:
步骤B1:选择出与“是否患肿瘤”高度相关的特征,同时特征之间互不相关;
步骤B2:通过以下公式分别计算离散型特征、连续型特征的信息熵:
H(x)=-∑ip(xi)log2p(xi);
Hc(x)=-∫Rp(x)log2p(x)dx;
条件熵分别通过以下公式计算:
H(x|y)=-∑ip(yi)∑ip(xi|yi)log2p(xi|yi);
HC(x|y)=-∑ip(yi)∫Rp(x|yi)log2p(x|yi)dx;
信息增益通过以下公式计算:
g(x|y)=H(x)-H(x|y);
根据以下相关程度公式计算基于对比信息熵反映特征与特征之间的相关程度或特征与“是否患肿瘤”的相关程度:
其中IR(x,y)越大,说明x,y两者而相关度越大,该相关程度公式表现了特征与“是否患肿瘤”的相关程度:若IR(xi,y)≤η1,则认为该特征与是否患肿瘤相关度较低,将该特征剔除;
相关程度公式还表现了初步筛选后的特征两两间相关程度:若IR(xi,xj)≥η2,则认为两特征间存在冗余,剔除与“是否患肿瘤”的相关程度较低的特征;
步骤B3:基于随机森林选择特征,通过平均精确度减少方法(Mean DecreaseAccuracy)评估特征重要性(variable importance measure,VIM),本发明采用的平均精确度减少方法(Mean Decrease Accuracy)具有较好非偏倚性,其基本原理为对特征加入噪声后,预测准确率的改变即为该特征的重要性程度:
步骤B3-1:对于随机森林中的每一颗决策树,在相应的袋外数据(out-of-bag,OOB)计算袋外数据误差,设定该袋外数据误差为errOOBk.;
步骤B3-2:随机对袋外数据集的特征Xj加入噪声干扰项,即随机改变样本在特征Xj处的值,再次计算袋外数据误差,记为errOOBk’;
步骤B3-3:假设随机森林中有K棵树,特征Xj的重要性为:
将经过初步筛选的特征全部纳入随机森林模型,计算得到特征重要性排序,通过VIM筛选得到最小OOB误差率的最终特征子集。
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(m<<M0),其中m=log2(M0)+1或通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于(4)加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法(10-fold cross-validation),将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
网格搜索算法(Grid Search)是机器学习中的一种调节参数的方法,就是在所有候选的参数组合中,去循环遍历每一种可能性,找到表现最好的参数组合,就是最终获得的结果。
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、受试者工作特征曲线(ROC)下面积(AUC)等指标评估分类器性能;
其中npos为肿瘤患者数目,nneg是非肿瘤患者数目。ranki为概率得分由小到大排序后,第i条样本的序号,∑i∈posClassranki为肿瘤患者的序号累加;
如表2所示为以上公式中TP、FN、FP和TN的含义:
表2
随机森林算法RF是Leo Breiman在2001年提出的一种基于统计学习理论的分类算法,将多个决策树分类器组合形成集成分类器。它结合自助法(Bootstrap)重采样技术和决策树算法,构建一个包含多个基本分类器的树型分类器集合,使用简单多数投票的方法进行分类和预测。随机森林算法较好地解决了过拟合问题,并且分类精度较高,学习速度较快,对不平衡数据集也有较强的适应性,在信息检索、生物信息学等领域已经有很好的应用。
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
优选的,所述医疗数据包括肿瘤数据。
本发明所述的一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题,本发明根据肿瘤数据收集的时候数据集在分布上可能存在一定的问题,根据数据情况进行相应的处理,并通过均值方差归一化的方法对数据进行处理,消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,本发明将数据集分为训练集和测试集,并通过网格搜索的方法得到最优参数组合的随机森林算法来建立预测模型,在训练集上进行学习,并通过测试集测试预测模型的性能,使用准确率ACC、精准率Precision、召回率Recall、F1分数、AUC等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
本发明采用基于聚类的过采样和欠采样混合采样方法处理非平衡数据,基于信息熵与特征重要性方法进行特征筛选,同时加权投票改进随机森林算法。
随机森林相较于具有较高分类准确率、克服了过拟合的问题、对噪声和异常值有良好的容忍性并且易并行化等特点,简单高效,容易实现,计算开销小。
本发明为避免随机森林算法处理非平衡数据时不能很好地区分正类和负类,采用基于聚类的过采样和欠采样集成的混合采样方法处理非平衡数据。相较于欠采样丢失大量的负样本特征,集成混合采样能充分学习负样本特征。过采样方法通过简单复制样本的策略增加正类样本,不仅带来噪声,同时导致合成样本与原始样本的相似性较高,虽然增加了正类样本的数量,但并没有增加样本的多样性,仍有可能造成过拟合问题。集成混合采样先通过聚类划分不同类簇,根据其密集程度来确定采样倍率,有利于避免过拟合现象,同时保证了混合采样的样本结构与原始数据结构的一致。
本发明基于信息熵与特征重要性的特征筛选法,可以全面的提取重要的影响特征,并去除冗余特征,选出更显著、更重要的特征,辅助系统的分类结果更准确。同时减少了相关度不大的特征,大大提高了运算效率。
传统的随机森林算法无法区别对待分类性能不同的决策树,采用相同的权重进行投票。但往往各个的决策树的分类性能存在一定差异,本发明依据每个决策树的分类正确程度,赋予不同的权重,降低分类性能差的决策树的负面影响,增强分类性能优秀的决策树的正面影响,以提高随机森林整体分类性能。
Claims (3)
1.一种基于随机森林算法的肿瘤数据统计方法,其特征在于:包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
采用基于聚类的过采样和欠采样混合采样方法,具体步骤如下:
步骤A1:将非肿瘤患者E1与肿瘤患者E2分别进行K-means聚类,分别划分为不同的类,类的数目分别记为M1,M2;
步骤A2:根据以下公式计算非肿瘤患者与肿瘤患者各类的密度指标,确定各类簇的采样倍率:
其中,Di为第i类密度指标,ni为该类的样本量,为该类中样本间距离的平均值;
步骤A3:根据以下公式计算非肿瘤患者与肿瘤患者各类的采样权重:
根据其密集程度来确定采样权重,对密集的类采用较低的采样权重,对稀疏的类采用较高的采样权重,以保证增加的样本的多样性,避免与原始样本相似程度过高;
步骤A4:随机产生过采样因子α,从肿瘤患者中随机过采样αE2个新患者样本,与原始E2肿瘤患者构成(α+1)E2个样本,根据以下公式计算肿瘤患者中每个类的采样数量:
Ci=E2α×Wi,i=1,2,…,M2;
步骤A5:在非肿瘤患者数据中,采用随机欠采样方法,随机采样(α+1)E2个样本,根据以下公式计算非肿瘤患者每类采样数量:
Ci=E2(α+1)×Wi,i=1,2,…,M1;
步骤A6:采用bootstrap重抽样方法有放回地重复步骤A1到步骤A5,融合得到的新样本不仅可以解决非肿瘤与肿瘤患者不同类别间不平衡问题,同时更符合数据的整体分布;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵决策树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征,m<<M0,其中m=log2(M0)+1或通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量;对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案;
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于步骤S4的方法加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法,将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能;
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
2.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:所述医疗数据包括肿瘤数据。
3.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:在执行步骤4时,数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332980.0A CN111524606B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林算法的肿瘤数据统计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010332980.0A CN111524606B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林算法的肿瘤数据统计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111524606A CN111524606A (zh) | 2020-08-11 |
CN111524606B true CN111524606B (zh) | 2024-01-30 |
Family
ID=71904533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010332980.0A Active CN111524606B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林算法的肿瘤数据统计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524606B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985560B (zh) * | 2020-08-19 | 2023-05-12 | 中南大学 | 知识追踪模型的优化方法、系统及计算机存储介质 |
CN113536072A (zh) * | 2020-11-16 | 2021-10-22 | 厦门市和家健脑智能科技有限公司 | 一种认知筛查数据处理建模的模型投票组合的方法及装置 |
CN112330064A (zh) * | 2020-11-26 | 2021-02-05 | 中国石油大学(华东) | 一种基于集成学习的新钻井工作量预测方法 |
CN112633733A (zh) * | 2020-12-30 | 2021-04-09 | 武汉轻工大学 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
CN113095511A (zh) * | 2021-04-16 | 2021-07-09 | 广东电网有限责任公司 | 一种在自动化主站实现操作到位的判断方法及装置 |
CN113096814A (zh) * | 2021-05-28 | 2021-07-09 | 哈尔滨理工大学 | 一种基于多分类器融合的阿尔兹海默症分类预测方法 |
CN113342648A (zh) * | 2021-05-31 | 2021-09-03 | 中国工商银行股份有限公司 | 基于机器学习的测试结果分析方法及装置 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
CN113592058B (zh) * | 2021-07-05 | 2024-03-12 | 西安邮电大学 | 一种定量预测微博转发广度与深度的方法 |
CN113393932B (zh) * | 2021-07-06 | 2022-11-25 | 重庆大学 | 一种帕金森病语音样本段多类型重构变换方法 |
CN113240518A (zh) * | 2021-07-12 | 2021-08-10 | 广州思迈特软件有限公司 | 基于机器学习的银行对公客户流失预测方法 |
CN113539414A (zh) * | 2021-07-30 | 2021-10-22 | 中电药明数据科技(成都)有限公司 | 一种抗生素用药合理性预测方法及系统 |
CN113780351B (zh) * | 2021-08-10 | 2024-09-06 | 北京自动化控制设备研究所 | 一种基于随机森林的卫星接收机故障诊断方法 |
CN113506640B (zh) * | 2021-08-17 | 2022-05-31 | 首都医科大学附属北京友谊医院 | 脑灌注状态分类装置、方法、设备及模型训练装置 |
CN114168651B (zh) * | 2021-12-02 | 2024-01-05 | 上海泽充生物技术有限公司 | 一种利用云计算统计干眼症患者分布群的系统 |
CN114512232A (zh) * | 2022-02-16 | 2022-05-17 | 盐城吉研智能科技有限公司 | 基于级联机器学习模型的爱德华氏综合征筛查系统 |
CN114462549A (zh) * | 2022-02-23 | 2022-05-10 | 中国电力科学研究院有限公司 | 储能电站运行工况分类方法、系统、存储介质及服务器 |
CN115358351A (zh) * | 2022-10-18 | 2022-11-18 | 中国地质大学(北京) | 基于乳腺癌变量的分类模型建立方法及系统、存储介质 |
CN115993444A (zh) * | 2022-12-19 | 2023-04-21 | 郑州大学 | 一种用于人血清脑脊液gfap抗体的双色免疫荧光检测方法 |
CN115877425B (zh) * | 2022-12-22 | 2024-09-10 | 国汽大有时空科技(安庆)有限公司 | 一种基于ai模型的ssr格网主站确定方法及装置 |
CN117116477A (zh) * | 2023-07-20 | 2023-11-24 | 中国人民解放军海军军医大学第一附属医院 | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 |
CN117152353B (zh) * | 2023-08-23 | 2024-05-28 | 北京市测绘设计研究院 | 实景三维模型创建方法、装置、电子设备和可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015062209A1 (zh) * | 2013-10-29 | 2015-05-07 | 华为技术有限公司 | 随机森林分类模型的可视化优化处理方法及装置 |
CN106778836A (zh) * | 2016-11-29 | 2017-05-31 | 天津大学 | 一种基于约束条件的随机森林推荐算法 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN110825819A (zh) * | 2019-09-24 | 2020-02-21 | 昆明理工大学 | 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325774A1 (en) * | 2012-06-04 | 2013-12-05 | Brain Corporation | Learning stochastic apparatus and methods |
US10356117B2 (en) * | 2017-07-13 | 2019-07-16 | Cisco Technology, Inc. | Bayesian tree aggregation in decision forests to increase detection of rare malware |
-
2020
- 2020-04-24 CN CN202010332980.0A patent/CN111524606B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015062209A1 (zh) * | 2013-10-29 | 2015-05-07 | 华为技术有限公司 | 随机森林分类模型的可视化优化处理方法及装置 |
CN106778836A (zh) * | 2016-11-29 | 2017-05-31 | 天津大学 | 一种基于约束条件的随机森林推荐算法 |
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN110825819A (zh) * | 2019-09-24 | 2020-02-21 | 昆明理工大学 | 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法 |
Non-Patent Citations (4)
Title |
---|
A Bi-directional Sampling based on K-Means Method for Imbalance Text Classification;Jia Song等;《IEEE/ACIS 15th International Conference on Computer and Information Science 》;第2页 * |
冯开平等.基于加权KNN与随机森林的表情识别方法.《软件导刊》.2018,第第17卷卷(第第10期期),第30-33页. * |
申时凯等主编.《基于云计算的大数据处理技术发展与应用》.电子科技大学出版社,2019,(第第1版版),第59页. * |
郑树泉等主编.《工业智能技术与应用》.上海科学技术出版社,2018,(第第1版版),第134-135页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111524606A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111524606B (zh) | 一种基于随机森林算法的肿瘤数据统计方法 | |
Reddy et al. | An efficient system for heart disease prediction using hybrid OFBAT with rule-based fuzzy logic model | |
Peker et al. | Computer‐Aided Diagnosis of Parkinson’s Disease Using Complex‐Valued Neural Networks and mRMR Feature Selection Algorithm | |
CN110680326B (zh) | 基于深度卷积神经网络的尘肺病鉴别及分级判定方法 | |
Rustempasic et al. | Diagnosis of parkinson’s disease using fuzzy c-means clustering and pattern recognition | |
CN113693563B (zh) | 一种基于超图注意力网络的脑功能网络分类方法 | |
CN106202952A (zh) | 一种基于机器学习的帕金森疾病诊断方法 | |
CN107169284A (zh) | 一种生物医学关键属性选择方法 | |
CN113807299B (zh) | 基于平行频域脑电信号的睡眠阶段分期方法及系统 | |
Inan et al. | A hybrid probabilistic ensemble based extreme gradient boosting approach for breast cancer diagnosis | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
CN112926645B (zh) | 一种基于边缘计算的窃电检测方法 | |
Wang et al. | Application of fuzzy cluster analysis for medical image data mining | |
Ingle et al. | Lung cancer types prediction using machine learning approach | |
Alexos et al. | Prediction of pain in knee osteoarthritis patients using machine learning: Data from Osteoarthritis Initiative | |
Challab et al. | Ant colony optimization–rain optimization algorithm based on hybrid deep learning for diagnosis of lung involvement in coronavirus patients | |
Jiang et al. | Evolutionary multi-objective optimization for multi-view clustering | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
Hassan et al. | A hybrid data mining approach for knowledge extraction and classification in medical databases | |
CN116759067A (zh) | 一种基于重建和Tabular数据的肝病诊断方法 | |
Chen et al. | Evolving hierarchical RBF neural networks for breast cancer detection | |
CN114999628B (zh) | 一种利用机器学习寻找退行性膝骨关节炎显著性特征方法 | |
Rosly et al. | Comprehensive study on ensemble classification for medical applications | |
Hema et al. | Prediction analysis for Parkinson disease using multiple feature selection & classification methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |