CN111524606A - 一种基于随机森林算法的肿瘤数据统计方法 - Google Patents

一种基于随机森林算法的肿瘤数据统计方法 Download PDF

Info

Publication number
CN111524606A
CN111524606A CN202010332980.0A CN202010332980A CN111524606A CN 111524606 A CN111524606 A CN 111524606A CN 202010332980 A CN202010332980 A CN 202010332980A CN 111524606 A CN111524606 A CN 111524606A
Authority
CN
China
Prior art keywords
data
sample
tumor
medical data
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010332980.0A
Other languages
English (en)
Other versions
CN111524606B (zh
Inventor
赵杰
翟运开
马倩倩
叶明�
陈昊天
何贤英
崔芳芳
李明原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Zhengzhou University
Original Assignee
First Affiliated Hospital of Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Zhengzhou University filed Critical First Affiliated Hospital of Zhengzhou University
Priority to CN202010332980.0A priority Critical patent/CN111524606B/zh
Publication of CN111524606A publication Critical patent/CN111524606A/zh
Application granted granted Critical
Publication of CN111524606B publication Critical patent/CN111524606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于随机森林算法的肿瘤数据统计方法,属于大数据领域,包括建立中央服务器和多个数据采集服务器,对数据进行预处理,根据随机森林算法在训练集上训练得到医疗数据拟合度模型,对医疗数据拟合度模型进行多指标评价,解决了有效的对肿瘤数据进行准确统计的问题,本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G‑mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能,提高了模型的准确度等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。

Description

一种基于随机森林算法的肿瘤数据统计方法
技术领域
本发明属于大数据技术领域,涉及一种基于随机森林算法的肿瘤数据统计方法。
背景技术
肿瘤是发病率和死亡率增长最快,对人类生命健康威胁最大的恶性肿瘤之一。关于肿瘤的预测成为医疗界关注的热点。传统疾病预测耗时耗力,根据医生经验及外界环境的影响,数据统计正确率不高。
机器学习方法凭借其能对数据进行自动学习,从复杂数据中提取信息做出决策的强大能力,在生物医疗等领域得到了越来越多的关注,为这些领域中如何有效决策提供了一个新的方向。互联网医疗是时代发展的必然趋势,随着机器学习的发展,越来越多的研究学者使用机器学习方法建立模型,对已有的数据进行分析研究。基于各种机器学习算法建立的疾病数据统计模型越来越多,但是肿瘤数据复杂多样,基于传统单分类算法建立的模型不能保证做出有效的分类统计。
发明内容
本发明的目的是提供一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于随机森林算法的肿瘤数据统计方法,包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各个科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(m<<M0),其中m=log2(M0)+1或
Figure BDA0002465642450000021
通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
Figure BDA0002465642450000022
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
Figure BDA0002465642450000023
Figure BDA0002465642450000024
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于步骤S4的方法加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法,将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能;
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
优选的,所述医疗数据包括肿瘤数据。
优选的,在执行步骤4时,数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
Figure BDA0002465642450000031
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
本发明所述的一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题,本发明消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,使用敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、AUC等多个指标等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
附图说明
图1为本发明的非平衡数据处理的流程图;
图2是本发明的建立随机森林预测模型的流程图;
图3是本发明的步骤S7的流程图;
图4为本发明的总流程图。
具体实施方式
如图1-图4所示的一种基于随机森林算法的肿瘤数据统计方法,包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各个科室内收集到的医疗数据;
肿瘤数据集来源于医院收集数据,可能只是处于统计信息的目的,直接对数据进行建模预测得不到较好的结果。本发明通过观察肿瘤数据,了解数据量、特征数和统计信息等,便于进行数据清洗。
本发明将异常数据、缺失数据、重复数据进行清洗。剔除是否患肿瘤变量存在缺失的数据。剔除重复记录的数据,将不符合逻辑的异常值,即离群值按缺失值处理,采用均值法、回归法或多重填补法填补缺失值。
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
均值方差归一化消除了数据集中的量纲和数据取值范围的影响,并保留了原来数据集中数据之间存在的关系,是最简单易用的方法。
数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
Figure BDA0002465642450000051
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
本实施例收集到的数据中肿瘤患者所占比例远远少于非肿瘤患者,为避免分类器在非平衡数据集上分类性能表现差的问题,本发明采用基于聚类的过采样和欠采样混合采样方法,具体步骤如下:
步骤A1:将非肿瘤患者E1与肿瘤患者E2分别进行K-means聚类,分别划分为不同的类,类的数目分别记为M1,M2
步骤A2:根据以下公式计算非肿瘤患者与肿瘤患者各类的密度指标,确定各类簇的采样倍率:
Figure BDA0002465642450000052
其中,Di为第i类密度指标,ni为该类的样本量,
Figure BDA0002465642450000053
为该类中样本间距离的平均值;
步骤A3:根据以下公式计算非肿瘤患者与肿瘤患者各类的采样权重:
Figure BDA0002465642450000054
Figure BDA0002465642450000055
本发明根据其密集程度来确定采样权重,对密集的类采用较低的采样权重,对稀疏的类采用较高的采样权重,以保证增加的样本的多样性,避免与原始样本相似程度过高;
步骤A4:随机产生过采样因子α,从肿瘤患者中随机过采样αE2个新患者样本,与原始E2肿瘤患者构成(α+1)E2个样本,根据以下公式计算肿瘤患者中每个类的采样数量:
Ci=E2α×Wi,i=1,2,…,M2
步骤A5:在非肿瘤患者数据中,采用随机欠采样方法,随机采用(α+1)E2个样本,根据以下公式计算非肿瘤患者每类采样数量:
Ci=E2(α+1)×Wi,i=1,2,…,M1
步骤A6:采用bootstrap重抽样方法有放回地重复步骤A1到步骤A5,融合得到的新样本不仅可以解决非肿瘤与肿瘤患者不同类别间不平衡问题,同时更符合数据的整体分布。
如表1所示为收集数据的特征:
Figure BDA0002465642450000061
表1
本发明根据表1中的数据特征建立特征集,然而特征集中通常含有部分不重要或冗余的特征,在分类模型中严重影响分类性能,如在随机森林构建决策树时,造成每颗树的节点随机抽取的特征存在较多冗余,同时延长算法运算时间,另外冗余往往特征间相关性较大,为了消除特征集产生的不良影响,本发明根据以下方法对特征集进行处理:
步骤B1:选择出与“是否患肿瘤”高度相关的特征,同时特征之间互不相关;
步骤B2:通过以下公式分别计算离散型特征、连续型特征的信息熵:
H(x)=-∑ip(xi)log2p(xi);
Hc(x)=-∫Rp(x)log2p(x)dx;
条件熵分别通过以下公式计算:
H(x|y)=-∑ip(yi)∑ip(xi|yi)log2p(xi|yi);
HC(x|y)=-∑ip(yi)∫Rp(x|yi)log2p(x|yi)dx;
信息增益通过以下公式计算:
g(x|y)=H(x)-H(x|y);
根据以下相关程度公式计算基于对比信息熵反映特征与特征之间的相关程度或特征与“是否患肿瘤”的相关程度:
Figure BDA0002465642450000071
其中IR(x,y)越大,说明x,y两者而相关度越大,该相关程度公式表现了特征与“是否患肿瘤”的相关程度:若IR(xi,y)≤η1,则认为该特征与是否患肿瘤相关度较低,将该特征剔除;
相关程度公式还表现了初步筛选后的特征两两间相关程度:若IR(xi,xj)≥η2,则认为两特征间存在冗余,剔除与“是否患肿瘤”的相关程度较低的特征;
步骤B3:基于随机森林选择特征,通过平均精确度减少方法(Mean DecreaseAccuracy)评估特征重要性(variable importance measure,VIM),本发明采用的平均精确度减少方法(Mean Decrease Accuracy)具有较好非偏倚性,其基本原理为对特征加入噪声后,预测准确率的改变即为该特征的重要性程度:
步骤B3-1:对于随机森林中的每一颗决策树,在相应的袋外数据(out-of-bag,OOB)计算袋外数据误差,设定该袋外数据误差为errOOBk.;
步骤B3-2:随机对袋外数据集的特征Xj加入噪声干扰项,即随机改变样本在特征Xj处的值,再次计算袋外数据误差,记为errOOBk’;
步骤B3-3:假设随机森林中有K棵树,特征Xj的重要性为:
Figure BDA0002465642450000081
将经过初步筛选的特征全部纳入随机森林模型,计算得到特征重要性排序,通过VIM筛选得到最小OOB误差率的最终特征子集。
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(m<<M0),其中m=log2(M0)+1或
Figure BDA0002465642450000082
通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
Figure BDA0002465642450000083
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
Figure BDA0002465642450000084
Figure BDA0002465642450000085
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于(4)加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法(10-fold cross-validation),将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
网格搜索算法(Grid Search)是机器学习中的一种调节参数的方法,就是在所有候选的参数组合中,去循环遍历每一种可能性,找到表现最好的参数组合,就是最终获得的结果。
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度(Sensitivity)、特异性(Specificity)、准确率(Accuracy)、G-mean、受试者工作特征曲线(ROC)下面积(AUC)等指标评估分类器性能;
Figure BDA0002465642450000091
Figure BDA0002465642450000092
Figure BDA0002465642450000093
Figure BDA0002465642450000094
Figure BDA0002465642450000095
其中npos为肿瘤患者数目,nneg是非肿瘤患者数目。ranki为概率得分由小到大排序后,第i条样本的序号,∑i∈posClassranki为肿瘤患者的序号累加;
如表2所示为以上公式中TP、FN、FP和TN的含义:
Figure BDA0002465642450000101
表2
随机森林算法RF是Leo Breiman在2001年提出的一种基于统计学习理论的分类算法,将多个决策树分类器组合形成集成分类器。它结合自助法(Bootstrap)重采样技术和决策树算法,构建一个包含多个基本分类器的树型分类器集合,使用简单多数投票的方法进行分类和预测。随机森林算法较好地解决了过拟合问题,并且分类精度较高,学习速度较快,对不平衡数据集也有较强的适应性,在信息检索、生物信息学等领域已经有很好的应用。
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
优选的,所述医疗数据包括肿瘤数据。
本发明所述的一种基于随机森林算法的肿瘤数据统计方法,解决了有效的对肿瘤数据进行准确统计的问题,本发明根据肿瘤数据收集的时候数据集在分布上可能存在一定的问题,根据数据情况进行相应的处理,并通过均值方差归一化的方法对数据进行处理,消除了数据的量纲以及数据取值范围可能对实验结果造成的影响,本发明将数据集分为训练集和测试集,并通过网格搜索的方法得到最优参数组合的随机森林算法来建立预测模型,在训练集上进行学习,并通过测试集测试预测模型的性能,使用准确率ACC、精准率Precision、召回率Recall、F1分数、AUC等多个指标从多个角度评价模型的分类性能,提高了模型的准确度。
本发明采用基于聚类的过采样和欠采样混合采样方法处理非平衡数据,基于信息熵与特征重要性方法进行特征筛选,同时加权投票改进随机森林算法。
随机森林相较于具有较高分类准确率、克服了过拟合的问题、对噪声和异常值有良好的容忍性并且易并行化等特点,简单高效,容易实现,计算开销小。
本发明为避免随机森林算法处理非平衡数据时不能很好地区分正类和负类,采用基于聚类的过采样和欠采样集成的混合采样方法处理非平衡数据。相较于欠采样丢失大量的负样本特征,集成混合采样能充分学习负样本特征。过采样方法通过简单复制样本的策略增加正类样本,不仅带来噪声,同时导致合成样本与原始样本的相似性较高,虽然增加了正类样本的数量,但并没有增加样本的多样性,仍有可能造成过拟合问题。集成混合采样先通过聚类划分不同类簇,根据其密集程度来确定采样倍率,有利于避免过拟合现象,同时保证了混合采样的样本结构与原始数据结构的一致。
本发明基于信息熵与特征重要性的特征筛选法,可以全面的提取重要的影响特征,并去除冗余特征,选出更显著、更重要的特征,辅助系统的分类结果更准确。同时减少了相关度不大的特征,大大提高了运算效率。
传统的随机森林算法无法区别对待分类性能不同的决策树,采用相同的权重进行投票。但往往各个的决策树的分类性能存在一定差异,本发明依据每个决策树的分类正确程度,赋予不同的权重,降低分类性能差的决策树的负面影响,增强分类性能优秀的决策树的正面影响,以提高随机森林整体分类性能。

Claims (3)

1.一种基于随机森林算法的肿瘤数据统计方法,其特征在于:包括如下步骤:
步骤1:建立中央服务器和多个数据采集服务器,所有数据采集服务器均与中央服务器通过互联网通信;
数据采集服务器部署在医院的各个科室内,用于采集各科室内收集到的医疗数据;
步骤2:在中央服务器中建立数据预处理模块、数据库模块、模型建立模块和图形化模块;
步骤3:数据采集服务器向中央服务器定时发送收集到的医疗数据;
中央服务器获取到医疗数据后,通过数据预处理模块对医疗数据进行数据清洗,筛选掉缺失值和异常值,得到清洗后医疗数据;
步骤4:数据预处理模块对清洗后医疗数据进行均值方差归一化处理,得到待处理医疗数据集;
步骤5:数据库模块存储待处理医疗数据集;
步骤6:模型建立模块读取数据库模块中的待处理医疗数据集,并根据以下方法建立风险模型:
步骤S1:以是否患肿瘤作为分层,分别随机抽取2/3样本作为训练集,剩余1/3样本作为测试集;
步骤S2:从平衡训练集中,采用bootstrap重抽样方法有放回地随机抽取K个新的训练样本集,而每次未被抽到的观测构成了K个袋外数据(out-of-bag,OOB),用于评价每棵树的性能;
步骤S3:设定经过筛选后特征总数为M0,在每一棵决策树的任一节点处随机抽取m个特征(m<<M0),其中
Figure FDA0002465642440000011
通过最小基尼增益值GiniGain作为决策树分类方案,选择一个最具有分类能力、最优特征进行节点分裂,由此构建K个分类树{C1,C2,…,CK}作为弱分类器:
Figure FDA0002465642440000021
其中S1、S2为样本集S的两个样本子集,n1、n2为两个样本子集的数量,N为样本容量。对于样本S中的特征,计算任意可能的特征组合的GiniGain,选择GiniGain最小的特征值组合作为决策树当前节点的最优分类方案。
步骤S4:使每棵树最大限度地生长,对数据进行分类;
步骤S5:对决策树进行加权处理,使用袋外数据的F1计算每个决策树的分类正确程度,根据以下公式对弱分类器赋予权重:
Figure FDA0002465642440000022
Figure FDA0002465642440000023
其中,oobF1(i)表示第i棵决策树的袋外数据的F1值,其为精度和召回率的调和平均;
步骤S6:基于步骤S4的方法加权投票法集成K棵决策树分类结果;
步骤S7:遍历决策树个数K,特征数目m组合,基于运算效率与OOB错误率最小化准则,采用网格搜索算法与十折交叉验证法,将K与m划分网格,通过搜索每个网格中的参数进行参数确定和优化;
步骤S8:向训练好的随机森林模型中导入测试集,输出测试集结果,得到混淆矩阵,通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean和受试者工作特征曲线ROC下面积AUC指标评估分类器性能;
步骤7:图形化模块将步骤S8得出的分类器性能结果通过图形或表格的形式进行展示。
2.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:所述医疗数据包括肿瘤数据。
3.如权利要求1所述的一种基于随机森林算法的肿瘤数据统计方法,其特征在于:在执行步骤4时,数据预处理模块将清洗后医疗数据作为样本数据,并根据以下公式对清洗后医疗数据进行均值方差归一化处理:
Figure FDA0002465642440000031
其中,样本数据中的最大值是xmax,样本数据中的最小值是xmin,xmax-xmin表示样本数据的极差。
CN202010332980.0A 2020-04-24 2020-04-24 一种基于随机森林算法的肿瘤数据统计方法 Active CN111524606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332980.0A CN111524606B (zh) 2020-04-24 2020-04-24 一种基于随机森林算法的肿瘤数据统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332980.0A CN111524606B (zh) 2020-04-24 2020-04-24 一种基于随机森林算法的肿瘤数据统计方法

Publications (2)

Publication Number Publication Date
CN111524606A true CN111524606A (zh) 2020-08-11
CN111524606B CN111524606B (zh) 2024-01-30

Family

ID=71904533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332980.0A Active CN111524606B (zh) 2020-04-24 2020-04-24 一种基于随机森林算法的肿瘤数据统计方法

Country Status (1)

Country Link
CN (1) CN111524606B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985560A (zh) * 2020-08-19 2020-11-24 中南大学 知识追踪模型的优化方法、系统及计算机存储介质
CN112330064A (zh) * 2020-11-26 2021-02-05 中国石油大学(华东) 一种基于集成学习的新钻井工作量预测方法
CN112633733A (zh) * 2020-12-30 2021-04-09 武汉轻工大学 基于可信度的随机森林土壤重金属风险评价方法及系统
CN113095511A (zh) * 2021-04-16 2021-07-09 广东电网有限责任公司 一种在自动化主站实现操作到位的判断方法及装置
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113240518A (zh) * 2021-07-12 2021-08-10 广州思迈特软件有限公司 基于机器学习的银行对公客户流失预测方法
CN113342648A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 基于机器学习的测试结果分析方法及装置
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN113506640A (zh) * 2021-08-17 2021-10-15 首都医科大学附属北京友谊医院 脑灌注状态分类装置、方法、设备及模型训练装置
CN113536072A (zh) * 2020-11-16 2021-10-22 厦门市和家健脑智能科技有限公司 一种认知筛查数据处理建模的模型投票组合的方法及装置
CN113539414A (zh) * 2021-07-30 2021-10-22 中电药明数据科技(成都)有限公司 一种抗生素用药合理性预测方法及系统
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN113780351A (zh) * 2021-08-10 2021-12-10 北京自动化控制设备研究所 一种基于随机森林的卫星接收机故障诊断方法
CN114168651A (zh) * 2021-12-02 2022-03-11 上海泽充生物技术有限公司 一种利用云计算统计干眼症患者分布群的系统
CN115358351A (zh) * 2022-10-18 2022-11-18 中国地质大学(北京) 基于乳腺癌变量的分类模型建立方法及系统、存储介质
CN115993444A (zh) * 2022-12-19 2023-04-21 郑州大学 一种用于人血清脑脊液gfap抗体的双色免疫荧光检测方法
CN117152353A (zh) * 2023-08-23 2023-12-01 北京市测绘设计研究院 实景三维模型创建方法、装置、电子设备和可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325774A1 (en) * 2012-06-04 2013-12-05 Brain Corporation Learning stochastic apparatus and methods
WO2015062209A1 (zh) * 2013-10-29 2015-05-07 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN106778836A (zh) * 2016-11-29 2017-05-31 天津大学 一种基于约束条件的随机森林推荐算法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
US20190020670A1 (en) * 2017-07-13 2019-01-17 Cisco Technology, Inc. Bayesian tree aggregation in decision forests to increase detection of rare malware
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325774A1 (en) * 2012-06-04 2013-12-05 Brain Corporation Learning stochastic apparatus and methods
WO2015062209A1 (zh) * 2013-10-29 2015-05-07 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN106778836A (zh) * 2016-11-29 2017-05-31 天津大学 一种基于约束条件的随机森林推荐算法
US20190020670A1 (en) * 2017-07-13 2019-01-17 Cisco Technology, Inc. Bayesian tree aggregation in decision forests to increase detection of rare malware
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIA SONG等: "A Bi-directional Sampling based on K-Means Method for Imbalance Text Classification", 《IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE 》, pages 2 *
冯开平等: "基于加权KNN与随机森林的表情识别方法", vol. 17, no. 10, pages 134 - 135 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985560A (zh) * 2020-08-19 2020-11-24 中南大学 知识追踪模型的优化方法、系统及计算机存储介质
CN113536072A (zh) * 2020-11-16 2021-10-22 厦门市和家健脑智能科技有限公司 一种认知筛查数据处理建模的模型投票组合的方法及装置
CN112330064A (zh) * 2020-11-26 2021-02-05 中国石油大学(华东) 一种基于集成学习的新钻井工作量预测方法
CN112633733A (zh) * 2020-12-30 2021-04-09 武汉轻工大学 基于可信度的随机森林土壤重金属风险评价方法及系统
CN113095511A (zh) * 2021-04-16 2021-07-09 广东电网有限责任公司 一种在自动化主站实现操作到位的判断方法及装置
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113342648A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 基于机器学习的测试结果分析方法及装置
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN113592058B (zh) * 2021-07-05 2024-03-12 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN113240518A (zh) * 2021-07-12 2021-08-10 广州思迈特软件有限公司 基于机器学习的银行对公客户流失预测方法
CN113539414A (zh) * 2021-07-30 2021-10-22 中电药明数据科技(成都)有限公司 一种抗生素用药合理性预测方法及系统
CN113780351A (zh) * 2021-08-10 2021-12-10 北京自动化控制设备研究所 一种基于随机森林的卫星接收机故障诊断方法
CN113506640B (zh) * 2021-08-17 2022-05-31 首都医科大学附属北京友谊医院 脑灌注状态分类装置、方法、设备及模型训练装置
CN113506640A (zh) * 2021-08-17 2021-10-15 首都医科大学附属北京友谊医院 脑灌注状态分类装置、方法、设备及模型训练装置
CN114168651A (zh) * 2021-12-02 2022-03-11 上海泽充生物技术有限公司 一种利用云计算统计干眼症患者分布群的系统
CN114168651B (zh) * 2021-12-02 2024-01-05 上海泽充生物技术有限公司 一种利用云计算统计干眼症患者分布群的系统
CN115358351A (zh) * 2022-10-18 2022-11-18 中国地质大学(北京) 基于乳腺癌变量的分类模型建立方法及系统、存储介质
CN115993444A (zh) * 2022-12-19 2023-04-21 郑州大学 一种用于人血清脑脊液gfap抗体的双色免疫荧光检测方法
CN117152353A (zh) * 2023-08-23 2023-12-01 北京市测绘设计研究院 实景三维模型创建方法、装置、电子设备和可读介质
CN117152353B (zh) * 2023-08-23 2024-05-28 北京市测绘设计研究院 实景三维模型创建方法、装置、电子设备和可读介质

Also Published As

Publication number Publication date
CN111524606B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111524606B (zh) 一种基于随机森林算法的肿瘤数据统计方法
Zhou et al. Extracting symbolic rules from trained neural network ensembles
CN113693563B (zh) 一种基于超图注意力网络的脑功能网络分类方法
CN103020643A (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
Katarya et al. Comparison of different machine learning models for diabetes detection
CN113344075A (zh) 基于特征学习与集成学习的高维不平衡数据分类方法
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN113295702B (zh) 电气设备故障诊断模型训练方法和电气设备故障诊断方法
Wang et al. Application of fuzzy cluster analysis for medical image data mining
Zheng SMOTE variants for imbalanced binary classification: heart disease prediction
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
Zhang et al. An improved MAHAKIL oversampling method for imbalanced dataset classification
Bhoomika et al. Ensemble Learning Approaches for Detecting Parkinson's Disease
Wu et al. Evolutionary feature construction for ultrasound image processing and its application to automatic liver disease diagnosis
Balamurugan et al. An integrated approach to performance measurement, analysis, improvements and knowledge management in healthcare sector
Jiang et al. Evolutionary multi-objective optimization for multi-view clustering
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN116759067A (zh) 一种基于重建和Tabular数据的肝病诊断方法
CN115206539A (zh) 一种基于围术期患者风险事件数据的多标签集成分类方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN114705431A (zh) 基于多参数筛选准则与gwo-pnn的滚动轴承故障诊断方法
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Wu et al. Comparison of different machine learning models in breast cancer
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based On Data Driven Approach
Ye et al. Feature Generation Model for Imbalanced Classification Problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant