CN110600135A

CN110600135A - 一种基于改进随机森林算法的乳腺癌预测系统

Info

Publication number: CN110600135A
Application number: CN201910880718.7A
Authority: CN
Inventors: 丁匀泰; 任涛; 商冰冰; 张妍; 田宜聪
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-20

Abstract

本发明提供一种基于改进随机森林算法的乳腺癌预测系统，涉及机器学习领域。本发明包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块；针对乳腺癌数据具有的特性，对传统随机森林模型中的每一棵决策树根据分类性能评价指标AUC值进行排序，从中选取AUC值较高的决策树，通过决策树的预测结果计算决策树之间的相似度，生成相似度矩阵，根据相似度矩阵采用一种聚类方法对决策树进行分类，从每一分类中选出AUC值最大的决策树组成新的随机森林模型，最后根据投票决定最终预测结果，从而达到提升传统随机森林分类精度的目的。

Description

一种基于改进随机森林算法的乳腺癌预测系统

技术领域

本发明涉及机器学习领域，尤其涉及一种基于改进随机森林算法的乳腺癌预测系统。

背景技术

乳腺癌是一种危及妇女健康和生命的最为高发的恶性肿瘤，发病率第一，是导致女性癌症死亡的第二大原因。乳腺癌的早期发现、早期诊断，是提高疗效的关键。随着乳腺癌发现越晚治疗的风险性会增大，治愈的可能性会降低。作为高发病率的癌症，与乳腺癌相关的数据成为检测乳腺癌的重要依据。乳腺癌的病因尚未完全清楚，乳腺癌的发病存在一定的规律性，具有乳腺癌高危因素的女性容易患乳腺癌。所以，如何利用这些大量数据并及时准确地发现乳腺癌成为亟需解决的问题。

现如今，机器学习进入研究热流，可以对大数据进行分析与挖掘。作为一门人工智能的科学，机器学习通过计算机语言对数据进行深度挖掘，对规律进行深度探索。通过构建机器学习模型来实现对乳腺癌的预测，突破传统诊断方法的缺点，实现更精确的诊断，提高工作效率和节省成本。

由于数据集的复杂性和样本抽取的随机性，建立传统随机森林模型的过程中会包含一些分类性能较差的决策树，这些决策树在最后的投票过程中对最终结果会产生一定的消极影响，同时随机化过程中随机森林模型中的决策树之间可能具有较强的相关性，从而产生歧视效果，影响整体随机森林模型的分类性能。同时传统随机森林模型在解决低维样本数据时，可能具有一定的过拟合性，表现为过分依赖于建立模型的训练集，泛化能力较差。

发明内容

针对现有技术存在的问题，本发明提供一种基于改进随机森林算法的乳腺癌预测系统，本发明从功能上更准确地根据乳腺癌数据进行预测，使用的技术主要是随机森林，并运用决策树的分类性能和相关性的知识通过聚类算法建立更好的训练模型，对乳腺癌的预测进行优化。

为解决上述技术问题，本发明所采取的技术方案是：一种基于改进随机森林算法的乳腺癌预测系统，包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块；

所述用户登录注册模块，医生通过医生注册页面进行注册后，进入登入页面进行账号登录；

所述病人数据管理模块，医生登陆后点击病人列表页面的编辑按钮进入病人详细信息页面，可以在病人列表页面添加、删除病人的详细数据，医生点击预测和参考预测按钮，可以分别用传统随机森林模型和改进的随机森林模型对病人数据进行预测；

所述乳腺癌预测模块，医生在病人详细数据页面点击设置模型按钮，进入传统随机森林模型选择页面，医生可以选择已经持久化的模型进行预测，在传统随机森林模型选择页面点击添加模型按钮，进入传统随机森林模型训练页面，医生点击选择样本集按钮选择要加载的样本集数据文件，医生可以设置模型的参数，对模型进行评估，删除模型；医生点击建模按钮对训练模型进行持久化保存，在病人详细数据页面点击参照模型设置按钮，进入改进随机森林模型设置页面；医生可以设置参照模型的参数，对模型进行评估，删除模型。

所述乳腺癌预测模块中，通过改进随机森林模型对病人数据进行预测，包括以下步骤：

步骤1：使用AUC指标对一颗决策树分类性能的好坏进行评价，通过计算每一颗决策树的AUC值，根据AUC值对决策树进行降序排序，选取一定数量AUC值相对较高的决策树；

步骤1.1：通过python中的numpy读取乳腺癌数据并进行存储，将读取到的乳腺癌数据按照4:4:2比例分为训练集、测试集1和测试集2；

步骤1.2：通过Bagging算法对训练集进行有放回的随机取样，针对训练集生成n棵单棵决策树的随机森林，通过roc_auc_score方法对训练集每一棵决策树进行AUC值计算，将决策树编号作为键，对应决策树计算得到的AUC值作为值存入字典AUC中；

步骤1.3：根据AUC值对这些决策树进行降序排序，选取排序后具有较高AUC值的决策树，按排序顺序加入到列表newrandomtree中；

步骤2：计算随机森林中决策树之间的相似值判断两棵决策树之间是否具有相关性，当决策树之间的相似值达到设置的临界值时可判断两颗决策树为相关；计算随机森林模型中决策树之间的相似值得到相似度矩阵，然后根据设置的临界值和相似度矩阵对决策树进行聚类，对分类性能高，但相关性低的决策树进行筛选，从每一个分类中选取出AUC值最高的决策树，把选取出的决策树重新组合在一起，形成改进后的随机森林模型；

步骤2.1：将步骤1.3中选取出的具有较高AUC值的决策树对测试集1进行预测，得到 count组预测结果，将两棵树的预测结果进行比较，预测结果相同的组数记为rcount组，rcount/count即为两棵树的相似度，将计算得到两棵决策树的相似值存储在m*m的二维列表 simarray中；

步骤2.2：将两棵决策树的相似度与相似临界值进行比较，如果相似度大于相似临界值则两棵决策树相似，将两棵决策树的编号以列表对的形式存储在列表list中；

步骤2.3：通过聚类方法将具有相关性的决策树划分为一类，不具相关性的树单独划分一类；

步骤2.3.1：将列表list[0]中第一组相似的决策树对加入列表list1中；

步骤2.3.2：取列表list中下一组相似的决策树对a、b，如果a出现在list1[i]中，则将b 加入到list1[i]中；如果b出现在list1[i]中，则将a加入到list1[i]中；如果a，b都不在list1[i]，则将[a,b]存入列表list1中；

步骤2.3.3：遍历list1[i]，取其中决策树编号最小值存入列表resultList中，将不具有相关性的决策树编号列表[c]加入列表resultList中；

步骤2.3.4：取列表resultList中每组最小值，即为每组分类性能最好的决策树编号；

步骤2.3.5：根据列表newrandomtree将决策树编号映射到相应的决策树，将对应决策树添加到列表real_tree中；

步骤2.4：由列表real_tree中的决策树组成新的随机森林，根据决策树的预测进行投票决定新生成学习模型的预测结果。

采用上述技术方案所产生的有益效果在于：

通过AUC指标选取到分类效果更好的决策树，同时通过聚类从相似度高的决策树中选出分类效果好的决策树代表；相较于传统的随机森林模型，改进的随机森林模型具有一定的优化效果、预测效果相对稳定、减少了过拟合性；根据AUC评估值测试，改进的随机森林模型分类性能较好且稳定。通过对患者数据进行深度挖掘，对规律进行深度探索，建立基于改进随机森林算法的乳腺癌预测系统，实现对乳腺癌的预测，突破传统诊断方法的缺点，实现更精确的诊断，提高工作效率和节省成本。

附图说明

图1为乳腺癌预测工具功能模块图；

图2为本实施例中医生系统注册界面；

图3为本实施例中医生登录系统界面；

图4为本实施例中医生对病人列表进行操作界面；

图5为本实施例中医生进入病人详细信息界面；

图6为本实施例中医生选择已经持久化的模型进行预测界面；

图7为本实施例中医生进入传统随机森林模型训练界面；

图8为本实施例中医生进入改进随机森林模型设置界面；

图9为本发明总体流程图；

图10为本发明具有相关性决策树的聚类方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施方式的软件环境为WINDOWS 10系统，开发工具为pycharm 2018.1.4，开发语言是Python。

一种基于改进随机森林算法的乳腺癌预测系统，如图1所示，包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块；

所述用户登录注册模块，如图2，图3所示，医生通过医生注册页面进行注册后，进入登入页面进行账号登录；

所述病人数据管理模块，医生登陆后点击病人列表页面的编辑按钮进入病人详细信息页面，如图4，图5所示，可以在病人列表页面添加、删除病人的详细数据，医生点击预测和参考预测按钮，如图6所示，可以分别用传统随机森林模型和改进的随机森林模型对病人数据进行预测；

所述乳腺癌预测模块，医生在病人详细数据页面点击设置模型按钮，如图7所示，进入传统随机森林模型选择页面，医生可以选择已经持久化的模型进行预测，在传统随机森林模型选择页面点击添加模型按钮，进入传统随机森林模型训练页面，医生点击选择样本集按钮选择要加载的样本集数据文件，医生可以设置模型的参数，对模型进行评估，删除模型；医生点击建模按钮对训练模型进行持久化保存，在病人详细数据页面点击参照模型设置按钮，如图8所示，进入改进随机森林模型设置页面；医生可以设置参照模型的参数，对模型进行评估，删除模型。

所述乳腺癌预测模块中，通过改进随机森林模型对病人数据进行预测，如图9所示，包括以下步骤：

步骤1.1：通过numpy的loadtxt方法读取csv文件格式的乳腺癌数据存储到列表中，将样本数据按照4:4:2比例分为训练集、测试集1测试集2；

步骤1.2：通过Bagging算法对训练集进行有放回的随机取样，针对训练集生成n棵单棵决策树的随机森林。使用训练集1对每一棵决策树进行AUC值计算，通过roc_auc_score方法计算每棵决策树的AUC值，将决策树编号作为键，对应AUC值作为值存入字典AUC中；

步骤1.3：根据AUC值对这些决策树进行降序排序，选取排序后前m棵具有较高AUC值的决策树，按排序顺序加入到列表newrandomtree中；

步骤2：计算随机森林中决策树之间的相似值判断两棵决策树之间是否具有相关性，当决策树之间的相似值达到设置的临界值时可判断两颗决策树为相关，计算随机森林模型中决策树之间的相似值得到相似度矩阵，然后根据设置的临界值和相似度矩阵对决策树进行聚类，对分类性能高，但相关性低的决策树进行筛选，从每一个分类中选取出AUC值最高的决策树，把选取出的决策树重新组合在一起，形成改进后的随机森林模型；

步骤2.1：将m棵决策树对测试集进行预测后得到count组预测结果，将两棵树的预测结果进行比较，预测结果相同的组数总计为rcount组，rcount/count即为两棵树的相似度。将计算得到两棵决策树的相似值存储在m*m的二维列表simarray中；

步骤2.3：通过聚类方法将具有相关性的决策树划分为一类，不具相关性的树单独划分一类，即从m棵决策树中提取到k棵具有相关性的决策树；

如图10所示，步骤2.3的具体步骤为：

步骤2.4：由real_tree中的k棵决策树组成新的随机森林，根据k棵决策树的预测进行投票决定新生成学习模型的预测结果。

Claims

1.一种基于改进随机森林算法的乳腺癌预测系统，其特征在于：包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块；

2.根据权利要求1所述的一种基于改进随机森林算法的乳腺癌预测系统，其特征在于：所述乳腺癌预测模块中，通过改进随机森林模型对病人数据进行预测，包括以下步骤：

步骤2.1：将步骤1.3中选取出的具有较高AUC值的决策树对测试集1进行预测，得到count组预测结果，将两棵树的预测结果进行比较，预测结果相同的组数记为rcount组，rcount/count即为两棵树的相似度，将计算得到两棵决策树的相似值存储在m*m的二维列表simarray中；

步骤2.3.2：取列表list中下一组相似的决策树对a、b，如果a出现在list1[i]中，则将b加入到list1[i]中；如果b出现在list1[i]中，则将a加入到list1[i]中；如果a，b都不在list1[i]，则将[a,b]存入列表list1中；