CN111860576A - 一种基于随机森林的子宫内膜肿瘤分类标记方法 - Google Patents

一种基于随机森林的子宫内膜肿瘤分类标记方法 Download PDF

Info

Publication number
CN111860576A
CN111860576A CN202010505813.1A CN202010505813A CN111860576A CN 111860576 A CN111860576 A CN 111860576A CN 202010505813 A CN202010505813 A CN 202010505813A CN 111860576 A CN111860576 A CN 111860576A
Authority
CN
China
Prior art keywords
decision tree
feature
random forest
data
endometrial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010505813.1A
Other languages
English (en)
Inventor
唐震洲
周铭琰
李方靖
林凤
金楚
许方怡
易新凯
王岩
孔令剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202010505813.1A priority Critical patent/CN111860576A/zh
Publication of CN111860576A publication Critical patent/CN111860576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于随机森林的子宫内膜肿瘤分类标记方法,包括获取子宫内膜恶性及良性肿瘤数据为样本数据并经归一化处理后,划分出测试集和多个训练集;对每一个训练集进行决策树训练,得到相应CART决策树模型;评估每个CART决策树模型的所有特征,得到相应的特征集;对每个特征集均通过基尼指数比对选出最优特征来进行分支处理,得到决策树并形成随机森林模型;采用粒子群算法对随机森林模型优化并导入测试集,得到训练好的随机森林模型;获取待测子宫内膜肿瘤数据并导入训练好的随机森林模型中,区别出良性或恶性肿瘤数据。实施本发明,可以处理连续、离散和混合的子宫内膜肿瘤数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。

Description

一种基于随机森林的子宫内膜肿瘤分类标记方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于随机森林的子宫内膜肿瘤分类标记方法。
背景技术
在高速发展的互联网时代,机器学习的出现和应用正深刻改变着医疗行业。在此之前,医学数据的收集分析是一件充满挑战和困难的事。但如今,机器学习通过对数据的分析与处理,能够准确清晰的实现设定的方案并交付结果。
目前,国内外针对子宫内膜肿瘤数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等,但这些算法的精确度不是很理想,无法处理连续、离散和混合的大数据集,尤其是在缺失数据较多的情况下,准确度会随着数据缺失而快速降低。
因此,亟需一种行之有效的算法对子宫内膜肿瘤数据进行分析,可以处理连续、离散和混合的大数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于随机森林的子宫内膜肿瘤分类标记方法,可以处理连续、离散和混合的子宫内膜肿瘤数据集,能够克服数据缺少较多的情况下,准确度快速降低的问题。
为了解决上述技术问题,本发明实施例提供了一种基于随机森林的子宫内膜肿瘤分类标记方法,包括以下步骤:
步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
步骤S2、选取决策树类型为CART,并分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标,并按照基尼指数从小到大的顺序进行排序剪枝;
步骤S5、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
步骤S6、获取待测子宫内膜肿瘤数据,并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。
其中,以所述归一化处理后的样本数据总量的约25%随机组合为一份数据集作为测试集,剩下的75%作为训练数据。从训练数据中有放回随机采样选出n个样本为一份,占数据总量的50%,形成N个不相同的训练集,用来产生N棵CART树。
其中,所述通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集的步骤具体包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,并待按照预设的特征重要性,对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的剔除比例,重复在所述特征集中以特征重要性从小到大的顺序进行特征剔除,直至所述特征集中特征数量达到阈值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
其中,所述对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理的步骤具体包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数评分,并在选出最小基尼指数评分的特征为最优特征后,将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点,且进一步将剩余的特征分配到上述两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
其中,特征Xj在某一个CART决策树模型中的基尼指数评分通过公式
Figure BDA0002526492100000031
来实现;其中,
Figure BDA0002526492100000032
k表示在具有m个节点的CART决策树模型中存在的类别个数;Pmk表示在具有m个节点的CART决策树模型中类别k所占的比例大小;GIm表示节点m的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
其中,特征Xj在随机森林模型的基尼指数评分通过公式
Figure BDA0002526492100000033
来实现;其中,
Figure BDA0002526492100000034
表示特征Xj在第i个CART决策树模型中出现的节点包含在集合M中所对应的基尼指数评分;n为CART决策树模型的总数。
其中,所述采用粒子群算法对所述随机森林模型进行优化的具体步骤包括:
第一步、对粒子群算法进行部分调整,使其适用于离散值的算法优化;
第二步、给上述随机森林模型设置代价函数或者称之为适应度函数:
prob=fitness(max_depth,n_estimators,min_samples_split);
第三步:设置最大迭代次数max_iter、目标函数的自变量个数pN、粒子的最大速度X、位置信息V作为整个搜索空间;
Figure BDA0002526492100000041
Figure BDA0002526492100000042
第四步、将粒子位置代入代价函数求出适应值,寻找个体极值为每个粒子找到的最优解,再根据这些个体极值最优解寻找到一个全局值最优解,最后将本次全局最优解与历史全局最优解比较,如果本次全局最优解结果较好则进行更新,以此寻找种群所经历过的最好位置gbest(g1,g2,g3.....gD);
第五步、更新速度和位置的公式;
Figure BDA0002526492100000043
Figure BDA0002526492100000044
第六步、重复执行第四步和第五步,直至达到设定迭代次数或者代数之间的差值满足最小界限时终止迭代,将最佳参数代入随机森林算法,得到优化后的随机森林模型。
实施本发明实施例,具有如下有益效果:
本发明基于随机森林算法来区分子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据,从而实现处理连续、离散和混合的子宫内膜肿瘤数据集的目标,克服数据缺少较多的情况下,准确度快速降低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提出的一种基于随机森林的子宫内膜肿瘤分类标记方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种基于随机森林的子宫内膜肿瘤分类标记方法,包括以下步骤:
步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
具体过程为,首先收集子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据,上述数据来源于手术过程中发现卵巢子宫内膜出现肿瘤的患者。
其次,将子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,归一化公式如下:
xk=(xk-xmin)/(xmax-xmin)
最后,将归一化处理后的样本数据划分出测试集和多个训练集;例如,使用Bootstraping方法,以归一化处理后的样本数据总量的30%随机组合为一份数据集,共计生成N份数据集;其中,取一份数据集为测试集,取剩余的N-1份数据集为对应的N-1个训练集。
步骤S2、选取决策树类型为CART分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
具体过程为,决策树类型有ID3、C4.5、C5.0和CART这四种,在模型建立过程中,选择的是CART决策树,分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型,即得到N-1个CART决策树模型。
步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
具体过程为,首先,确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;其次,计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,并待按照预设的特征重要性,对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;最后,依据预设的剔除比例,重复在特征集中以特征重要性从小到大的顺序进行特征剔除,直至特征集中特征数量达到阈值(如m)为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。其中,m可以设置为当前待评估的CART决策树模型中总特征数开平方。
应当说明的是,特征在每棵决策树的生成中都需要自助采样,这时就有1/3的数据未被选中,这部分数据就称为袋外数据。因此,可以进一步对后续分支处理的CART决策树模型通过袋外误差率来筛选,如选择袋外误差率最低的特征集,这里袋外错误率就是测试集的错误率。
在本发明实施例中,用VIM来表示特征重要性评分(即基尼指数评分),用GI来表示基尼指数,假设现在有m个特征,目标是将每个特征Xj的基尼指数评分
Figure BDA0002526492100000061
计算出来,即第j个特征在随机森林内所有决策树中节点分裂不纯度的平均改变量。
此时,特征Xj在某一个CART决策树模型中的基尼指数评分的计算公式如下:
Figure BDA0002526492100000062
其中,
Figure BDA0002526492100000063
k表示在具有m个节点的CART决策树模型中存在的类别个数;Pmk表示在具有m个节点的CART决策树模型中类别k所占的比例大小;GIm表示节点m的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标,并按照基尼指数从小到大的顺序进行排序剪枝;
具体过程为,首先,确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;其次,计算出当前待分支处理的CART决策树模型中每个特征的基尼指数评分,并在选出最小基尼指数评分的特征为最优特征后,将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点,且进一步将剩余的特征分配到上述两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长;
最后,基于基尼指数,将所有决策树形成随机森林模型。
以单个CART决策树模型为例,将训练数据的所有特征的数量记为m,每次决策树分支时就可根据基尼指数选择特征进行分支,基尼指数越低,代表特征的相关性越大,因此通过基尼指数的比对可以选出最优特征。
如果特征Xj在CART决策树模型i中出现的节点包含在集合M中,且随机森林总共n棵决策树,则特征Xj在随机森林模型的基尼指数评分的计算公式如下:
Figure BDA0002526492100000071
其中,
Figure BDA0002526492100000072
表示特征Xj在第i个CART决策树模型中出现的节点包含在集合M中所对应的基尼指数评分;n为CART决策树模型的总数。
最后,还可以对上述的基尼指数评分进行归一化处理,具体如下:
Figure BDA0002526492100000081
应当说明的是,每棵树在分支过程中都需要采取预剪枝处理,如果当该树杈上的样本小于所设定的参数,决策树就不再继续生长。
步骤S5、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
具体过程为,首先采用粒子群算法对随机森林模型进行优化,具体如下:
第一步、对粒子群算法进行部分调整,使其适用于离散值的算法优化;
第二步、给上述随机森林模型设置代价函数或者称之为适应度函数:
prob=fitness(max_depth,n_estimators,min_samples_split);
第三步:设置最大迭代次数max_iter、目标函数的自变量个数pN、粒子的最大速度X、位置信息V作为整个搜索空间;
Figure BDA0002526492100000082
Figure BDA0002526492100000083
第四步、将粒子位置代入代价函数求出适应值,寻找个体极值为每个粒子找到的最优解,再根据这些个体极值最优解寻找到一个全局值最优解,最后将本次全局最优解与历史全局最优解比较,如果本次全局最优解结果较好则进行更新,以此寻找种群所经历过的最好位置gbest(g1,g2,g3.....gD);
第五步、更新速度和位置的公式;
Figure BDA0002526492100000084
Figure BDA0002526492100000085
第六步、重复执行第四步和第五步,直至达到设定迭代次数或者代数之间的差值满足最小界限时终止迭代,将最佳参数代入随机森林算法,得到优化后的随机森林模型。
步骤S6、获取待测子宫内膜肿瘤数据,并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。
具体过程为,获取子宫内膜肿瘤数据并导入所述训练好的随机森林模型中,输出的类别若是最优特征,则说明子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据;反之,则认为子宫内膜肿瘤数据为子宫内膜良性肿瘤数据。
实施本发明实施例,具有如下有益效果:
本发明基于随机森林算法来区分子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据,从而实现处理连续、离散和混合的子宫内膜肿瘤数据集的目标,克服数据缺少较多的情况下,准确度快速降低的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,包括以下步骤:
步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据,并对所获取到的样本数据进行归一化处理,且进一步将归一化处理后的样本数据划分出测试集和多个训练集;
步骤S2、选取决策树类型为CART,并分别对每一个训练集进行决策树训练,得到每一个训练集各自训练出的相应CART决策树模型;
步骤S3、通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理,得到每一个CART决策树模型各自经分支处理后的相应决策树,并进一步形成随机森林模型;其中,所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标,并按照基尼指数从小到大的顺序进行排序剪枝;
步骤S5、采用粒子群算法对所述随机森林模型进行优化,得到优化后的随机森林模型,并将所述测试集导入所述优化后的随机森林模型中,得到训练好的随机森林模型;
步骤S6、获取待测子宫内膜肿瘤数据,并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中,区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。
2.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,以所述归一化处理后的样本数据总量的约25%随机组合为一份数据集作为测试集,剩下的75%作为训练数据。从训练数据中有放回随机采样选出n个样本为一份,占数据总量的50%,形成N个不相同的训练集,用来产生N棵CART树。
3.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,所述通过特征重要性,对每一个CART决策树模型中所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集的步骤具体包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,并待按照预设的特征重要性,对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的剔除比例,重复在所述特征集中以特征重要性从小到大的顺序进行特征剔除,直至所述特征集中特征数量达到阈值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
4.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,所述对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理的步骤具体包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中训练数据的所有特征;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数评分,并在选出最小基尼指数评分的特征为最优特征后,将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点,且进一步将剩余的特征分配到上述两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
5.如权利要求3或4所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,特征Xj在某一个CART决策树模型中的基尼指数评分通过公式
Figure FDA0002526492090000021
来实现;其中,
Figure FDA0002526492090000031
k表示在具有m个节点的CART决策树模型中存在的类别个数;Pmk表示在具有m个节点的CART决策树模型中类别k所占的比例大小;GIm表示节点m的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
6.如权利要求5所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,特征Xj在随机森林模型的基尼指数评分通过公式
Figure FDA0002526492090000032
来实现;其中,
Figure FDA0002526492090000033
Figure FDA0002526492090000034
表示特征Xj在第i个CART决策树模型中出现的节点包含在集合M中所对应的基尼指数评分;n为CART决策树模型的总数。
7.如权利要求1所述的基于随机森林的子宫内膜肿瘤分类标记方法,其特征在于,所述采用粒子群算法对所述随机森林模型进行优化的具体步骤包括:
第一步、对粒子群算法进行部分调整,使其适用于离散值的算法优化;
第二步、给上述随机森林模型设置代价函数或者称之为适应度函数:
prob=fitness(max_depth,n_estimators,min_samples_split);
第三步:设置最大迭代次数max_iter、目标函数的自变量个数pN、粒子的最大速度X、位置信息V作为整个搜索空间;
Figure FDA0002526492090000035
Figure FDA0002526492090000036
第四步、将粒子位置代入代价函数求出适应值,寻找个体极值为每个粒子找到的最优解,再根据这些个体极值最优解寻找到一个全局值最优解,最后将本次全局最优解与历史全局最优解比较,如果本次全局最优解结果较好则进行更新,以此寻找种群所经历过的最好位置gbest(g1,g2,g3.....gD);
第五步、更新速度和位置的公式;
Figure FDA0002526492090000037
Figure FDA0002526492090000041
第六步、重复执行第四步和第五步,直至达到设定迭代次数或者代数之间的差值满足最小界限时终止迭代,将最佳参数代入随机森林算法,得到优化后的随机森林模型。
CN202010505813.1A 2020-06-05 2020-06-05 一种基于随机森林的子宫内膜肿瘤分类标记方法 Pending CN111860576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010505813.1A CN111860576A (zh) 2020-06-05 2020-06-05 一种基于随机森林的子宫内膜肿瘤分类标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010505813.1A CN111860576A (zh) 2020-06-05 2020-06-05 一种基于随机森林的子宫内膜肿瘤分类标记方法

Publications (1)

Publication Number Publication Date
CN111860576A true CN111860576A (zh) 2020-10-30

Family

ID=72986059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010505813.1A Pending CN111860576A (zh) 2020-06-05 2020-06-05 一种基于随机森林的子宫内膜肿瘤分类标记方法

Country Status (1)

Country Link
CN (1) CN111860576A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819045A (zh) * 2021-01-20 2021-05-18 国家卫生健康委科学技术研究所 用于用户生理状态分类的方法、装置、电子设备及介质
CN112904818A (zh) * 2021-01-19 2021-06-04 东华大学 一种复杂结构件加工车间预测-反应式调度方法
CN113178264A (zh) * 2021-05-04 2021-07-27 温州医科大学附属第一医院 一种深肌层浸润数据预测方法及系统
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN117436569A (zh) * 2023-09-18 2024-01-23 华能核能技术研究院有限公司 基于随机森林的核电设备故障预测和智能标定方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108762A (zh) * 2017-12-22 2018-06-01 北京工业大学 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法
CN110379465A (zh) * 2019-07-19 2019-10-25 元码基因科技(北京)股份有限公司 基于rna靶向测序和机器学习的癌症组织溯源方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108762A (zh) * 2017-12-22 2018-06-01 北京工业大学 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法
CN110379465A (zh) * 2019-07-19 2019-10-25 元码基因科技(北京)股份有限公司 基于rna靶向测序和机器学习的癌症组织溯源方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI-FAN WANG等: "Mining Medical Data: A Case Study of Endometriosis", 《J MED SYST》 *
ZJUPECO: "利用随机森林对特征重要性进行评估", Retrieved from the Internet <URL:https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1> *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112904818A (zh) * 2021-01-19 2021-06-04 东华大学 一种复杂结构件加工车间预测-反应式调度方法
CN112819045A (zh) * 2021-01-20 2021-05-18 国家卫生健康委科学技术研究所 用于用户生理状态分类的方法、装置、电子设备及介质
CN113178264A (zh) * 2021-05-04 2021-07-27 温州医科大学附属第一医院 一种深肌层浸润数据预测方法及系统
CN113362888A (zh) * 2021-06-02 2021-09-07 齐鲁工业大学 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
CN117436569A (zh) * 2023-09-18 2024-01-23 华能核能技术研究院有限公司 基于随机森林的核电设备故障预测和智能标定方法及系统

Similar Documents

Publication Publication Date Title
CN111860576A (zh) 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN111816212B (zh) 基于特征集融合的语音情感识别及评价方法
CN115795361A (zh) 一种基于特征选择和模型组合优化的分类方法
CN111340125A (zh) 基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法
CN110909785A (zh) 基于语义层级的多任务Triplet损失函数学习方法
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
Agranat Bat species identification from zero crossing and full spectrum echolocation calls using Hidden Markov Models, Fisher scores, unsupervised clustering and balanced winnow pairwise classifiers
Bressan et al. A decision tree approach for the musical genres classification
CN112183598A (zh) 一种基于遗传算法的特征选择方法
CN113523904A (zh) 一种刀具磨损检测方法
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN115221949A (zh) 一种基于集成的多过滤式特征选择的网络流量分类方法
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
CN111488520B (zh) 一种农作物种植种类推荐信息处理装置、方法及存储介质
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
Li et al. Study on the Prediction of Imbalanced Bank Customer Churn Based on Generative Adversarial Network
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination