CN111860576A

CN111860576A - 一种基于随机森林的子宫内膜肿瘤分类标记方法

Info

Publication number: CN111860576A
Application number: CN202010505813.1A
Authority: CN
Inventors: 唐震洲; 周铭琰; 李方靖; 林凤; 金楚; 许方怡; 易新凯; 王岩; 孔令剑
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-30

Abstract

本发明提供一种基于随机森林的子宫内膜肿瘤分类标记方法，包括获取子宫内膜恶性及良性肿瘤数据为样本数据并经归一化处理后，划分出测试集和多个训练集；对每一个训练集进行决策树训练，得到相应CART决策树模型；评估每个CART决策树模型的所有特征，得到相应的特征集；对每个特征集均通过基尼指数比对选出最优特征来进行分支处理，得到决策树并形成随机森林模型；采用粒子群算法对随机森林模型优化并导入测试集，得到训练好的随机森林模型；获取待测子宫内膜肿瘤数据并导入训练好的随机森林模型中，区别出良性或恶性肿瘤数据。实施本发明，可以处理连续、离散和混合的子宫内膜肿瘤数据集，能够克服数据缺少较多的情况下，准确度快速降低的问题。

Description

一种基于随机森林的子宫内膜肿瘤分类标记方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于随机森林的子宫内膜肿瘤分类标记方法。

背景技术

在高速发展的互联网时代，机器学习的出现和应用正深刻改变着医疗行业。在此之前，医学数据的收集分析是一件充满挑战和困难的事。但如今，机器学习通过对数据的分析与处理，能够准确清晰的实现设定的方案并交付结果。

目前，国内外针对子宫内膜肿瘤数据的相关研究还比较少。数据预测采用的分类模型大多为KNN算法、神经网络算法、贝叶斯算法等等，但这些算法的精确度不是很理想，无法处理连续、离散和混合的大数据集，尤其是在缺失数据较多的情况下，准确度会随着数据缺失而快速降低。

因此，亟需一种行之有效的算法对子宫内膜肿瘤数据进行分析，可以处理连续、离散和混合的大数据集，能够克服数据缺少较多的情况下，准确度快速降低的问题。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于随机森林的子宫内膜肿瘤分类标记方法，可以处理连续、离散和混合的子宫内膜肿瘤数据集，能够克服数据缺少较多的情况下，准确度快速降低的问题。

为了解决上述技术问题，本发明实施例提供了一种基于随机森林的子宫内膜肿瘤分类标记方法，包括以下步骤：

步骤S1、获取子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据，并对所获取到的样本数据进行归一化处理，且进一步将归一化处理后的样本数据划分出测试集和多个训练集；

步骤S2、选取决策树类型为CART，并分别对每一个训练集进行决策树训练，得到每一个训练集各自训练出的相应CART决策树模型；

步骤S3、通过特征重要性，对每一个CART决策树模型中所有特征均进行评估，得到每一个CART决策树模型中满足预定条件的特征集；

步骤S4、对每一个CART决策树模型中满足预定条件的特征集均通过基尼指数的比对选出最优特征来进行分支处理，得到每一个CART决策树模型各自经分支处理后的相应决策树，并进一步形成随机森林模型；其中，所选最优特征为子宫内膜恶性肿瘤数据区别于子宫内膜良性肿瘤数据的关键特征指标，并按照基尼指数从小到大的顺序进行排序剪枝；

步骤S5、采用粒子群算法对所述随机森林模型进行优化，得到优化后的随机森林模型，并将所述测试集导入所述优化后的随机森林模型中，得到训练好的随机森林模型；

步骤S6、获取待测子宫内膜肿瘤数据，并将所述待测子宫内膜肿瘤数据导入所述训练好的随机森林模型中，区别出所述待测子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据。

其中，以所述归一化处理后的样本数据总量的约25％随机组合为一份数据集作为测试集，剩下的75％作为训练数据。从训练数据中有放回随机采样选出n个样本为一份，占数据总量的50％，形成N个不相同的训练集，用来产生N棵CART树。

其中，所述通过特征重要性，对每一个CART决策树模型中所有特征均进行评估，得到每一个CART决策树模型中满足预定条件的特征集的步骤具体包括：

确定当前待评估的CART决策树模型，并在当前待评估的CART决策树模型中，汇总出对应训练集中训练数据的所有特征；

计算出当前待评估的CART决策树模型中每个特征的基尼指数评分，并待按照预设的特征重要性，对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后，得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集；

依据预设的剔除比例，重复在所述特征集中以特征重要性从小到大的顺序进行特征剔除，直至所述特征集中特征数量达到阈值为止，得到当前待评估的CART决策树模型中特征剔除后的特征集。

其中，所述对每一个CART决策树模型均通过基尼指数的比对选出最优特征来进行分支处理的步骤具体包括：

确定当前待分支处理的CART决策树模型，并在当前待分支处理的CART决策树模型中，汇总出对应训练集中训练数据的所有特征；

计算出当前待分支处理的CART决策树模型中每个特征的基尼指数评分，并在选出最小基尼指数评分的特征为最优特征后，将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点，且进一步将剩余的特征分配到上述两个子节点中，实现分支处理；其中，所述分支处理的过程包括预剪枝处理，具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数，则相对应的决策树就不再继续生长。

其中，特征X_j在某一个CART决策树模型中的基尼指数评分通过公式

来实现；其中，

k表示在具有m个节点的CART决策树模型中存在的类别个数；P_mk表示在具有m个节点的CART决策树模型中类别k所占的比例大小；GI_m表示节点m的基尼指数；GI_l表示特征X_j在节点m分支前的基尼指数；GI_r表示特征X_j在节点m分支后的基尼指数。

其中，特征X_j在随机森林模型的基尼指数评分通过公式

来实现；其中，

表示特征X_j在第i个CART决策树模型中出现的节点包含在集合M中所对应的基尼指数评分；n为CART决策树模型的总数。

其中，所述采用粒子群算法对所述随机森林模型进行优化的具体步骤包括：

第一步、对粒子群算法进行部分调整，使其适用于离散值的算法优化；

第二步、给上述随机森林模型设置代价函数或者称之为适应度函数：

prob＝fitness(max_depth，n_estimators，min_samples_split)；

第三步：设置最大迭代次数max_iter、目标函数的自变量个数pN、粒子的最大速度X、位置信息V作为整个搜索空间；

第四步、将粒子位置代入代价函数求出适应值，寻找个体极值为每个粒子找到的最优解，再根据这些个体极值最优解寻找到一个全局值最优解，最后将本次全局最优解与历史全局最优解比较，如果本次全局最优解结果较好则进行更新，以此寻找种群所经历过的最好位置gbest(g1，g2，g3.....gD)；

第五步、更新速度和位置的公式；

第六步、重复执行第四步和第五步，直至达到设定迭代次数或者代数之间的差值满足最小界限时终止迭代，将最佳参数代入随机森林算法，得到优化后的随机森林模型。

实施本发明实施例，具有如下有益效果：

本发明基于随机森林算法来区分子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据或子宫内膜良性肿瘤数据，从而实现处理连续、离散和混合的子宫内膜肿瘤数据集的目标，克服数据缺少较多的情况下，准确度快速降低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提出的一种基于随机森林的子宫内膜肿瘤分类标记方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种基于随机森林的子宫内膜肿瘤分类标记方法，包括以下步骤：

具体过程为，首先收集子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据，上述数据来源于手术过程中发现卵巢子宫内膜出现肿瘤的患者。

其次，将子宫内膜恶性肿瘤数据和子宫内膜良性肿瘤数据形成样本数据，并对所获取到的样本数据进行归一化处理，归一化公式如下：

x_k＝(x_k-x_min)/(x_max-x_min)

最后，将归一化处理后的样本数据划分出测试集和多个训练集；例如，使用Bootstraping方法，以归一化处理后的样本数据总量的30％随机组合为一份数据集，共计生成N份数据集；其中，取一份数据集为测试集，取剩余的N-1份数据集为对应的N-1个训练集。

步骤S2、选取决策树类型为CART分别对每一个训练集进行决策树训练，得到每一个训练集各自训练出的相应CART决策树模型；

具体过程为，决策树类型有ID3、C4.5、C5.0和CART这四种，在模型建立过程中，选择的是CART决策树，分别对每一个训练集进行决策树训练，得到每一个训练集各自训练出的相应CART决策树模型，即得到N-1个CART决策树模型。

具体过程为，首先，确定当前待评估的CART决策树模型，并在当前待评估的CART决策树模型中，汇总出对应训练集中训练数据的所有特征；其次，计算出当前待评估的CART决策树模型中每个特征的基尼指数评分，并待按照预设的特征重要性，对当前待评估的CART决策树模型中所有计算出的基尼指数评分进行排列后，得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集；最后，依据预设的剔除比例，重复在特征集中以特征重要性从小到大的顺序进行特征剔除，直至特征集中特征数量达到阈值(如m)为止，得到当前待评估的CART决策树模型中特征剔除后的特征集。其中，m可以设置为当前待评估的CART决策树模型中总特征数开平方。

应当说明的是，特征在每棵决策树的生成中都需要自助采样，这时就有1/3的数据未被选中，这部分数据就称为袋外数据。因此，可以进一步对后续分支处理的CART决策树模型通过袋外误差率来筛选，如选择袋外误差率最低的特征集，这里袋外错误率就是测试集的错误率。

在本发明实施例中，用VIM来表示特征重要性评分(即基尼指数评分)，用GI来表示基尼指数，假设现在有m个特征，目标是将每个特征X_j的基尼指数评分

计算出来，即第j个特征在随机森林内所有决策树中节点分裂不纯度的平均改变量。

此时，特征X_j在某一个CART决策树模型中的基尼指数评分的计算公式如下：

其中，

具体过程为，首先，确定当前待分支处理的CART决策树模型，并在当前待分支处理的CART决策树模型中，汇总出对应训练集中训练数据的所有特征；其次，计算出当前待分支处理的CART决策树模型中每个特征的基尼指数评分，并在选出最小基尼指数评分的特征为最优特征后，将所选的最优特征及其对应的切分点作为根节点衍生的两个子节点，且进一步将剩余的特征分配到上述两个子节点中，实现分支处理；其中，所述分支处理的过程包括预剪枝处理，具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数，则相对应的决策树就不再继续生长；

最后，基于基尼指数，将所有决策树形成随机森林模型。

以单个CART决策树模型为例，将训练数据的所有特征的数量记为m，每次决策树分支时就可根据基尼指数选择特征进行分支，基尼指数越低，代表特征的相关性越大，因此通过基尼指数的比对可以选出最优特征。

如果特征X_j在CART决策树模型i中出现的节点包含在集合M中，且随机森林总共n棵决策树，则特征X_j在随机森林模型的基尼指数评分的计算公式如下：

其中，

最后，还可以对上述的基尼指数评分进行归一化处理，具体如下：

应当说明的是，每棵树在分支过程中都需要采取预剪枝处理，如果当该树杈上的样本小于所设定的参数，决策树就不再继续生长。

具体过程为，首先采用粒子群算法对随机森林模型进行优化，具体如下：

prob＝fitness(max_depth，n_estimators，min_samples_split)；

第五步、更新速度和位置的公式；

具体过程为，获取子宫内膜肿瘤数据并导入所述训练好的随机森林模型中，输出的类别若是最优特征，则说明子宫内膜肿瘤数据为子宫内膜恶性肿瘤数据；反之，则认为子宫内膜肿瘤数据为子宫内膜良性肿瘤数据。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。