CN115099149A

CN115099149A - 一种基于多重特征对比和随机森林算法的结果预测方法

Info

Publication number: CN115099149A
Application number: CN202210770544.0A
Authority: CN
Inventors: 葛方丽; 姚文清; 曲鹏宇; 辜钰婷; 赵清波; 薛兵; 陈思
Original assignee: Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-23

Abstract

本发明公开了一种基于多重特征对比和随机森林算法的结果预测方法：基于诊断测量数据集成为数据源集；对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理；将处理后的数据源集存储在数据库当中；采用随机森林算法建立机器学习模型，并且通过K折交叉验证，验证随机森林模型的有效性，再通过超参数调优对模型进行参数优化；通过计算混淆矩阵和分类报告参数对模型进行评估；通过计算皮尔逊相关系数设计相关性特征热力图，寻找不同特征属性之间的相关程度；通过提取特征热力图中关系程度密切的属性，设计可视化图形并对其可视化结果进行分析；通过应用随机森林模型进行发病结果的预测。

Description

一种基于多重特征对比和随机森林算法的结果预测方法

技术领域

本发明涉及数据分析领域，更具体地，涉及一种基于多重特征对比和随机森林算法的结果预测方法。

背景技术

随着计算机技术的不断发展，大数据技术、人工智能(AI)等等成为当今世界计算机发展的潮流趋势，借助计算机，通过机器学习能够用来预测疾病的发生概率，这一重大技术的进步使得探索出治愈疾病的医疗方法成为可能。

通过对国内外疾病预测相关研究现状的调查发现，国内外专家学者对于疾病的研究具有很大程度上的相似性，都采用机器学习算法以及深度神经网络算法来预测疾病，这说明机器学习算法以及深度神经网络算法对于此类数据预测效率更高，算法适用性更强。其中，通过对采用的机器学习算法的调查发现，采用的算法总体上有逻辑回归算法、决策树算法、Boost算法、SVC算法、随机森林算法、高斯贝叶斯算法等，然而通过对于这些算法的对比研究发现，随机森林普遍适用性更好，性能效率表现更高。然而如何通过随机森林算法建立预测模型，以及如何对所建立的模型进行优化，以此来适用数据的预测，以及后期数据的可视化设计就成为了一个重要的研究问题。

发明内容

针对现有技术的缺陷，本发明提供了一种基于多重特征对比和随机森林算法的结果预测方法：

步骤1，基于诊断测量数据集成为数据源集；

步骤2，对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理，随后把数据源集划分为测试集与训练集；

步骤3，将处理后的数据源集存储在数据库当中；

步骤4，采用随机森林算法建立机器学习模型，并且验证随机森林模型的有效性，再对模型进行参数优化；

步骤5，通过计算混淆矩阵和分类报告参数对模型进行评估；

步骤6，通过计算皮尔逊相关系数设计相关性特征热力图，寻找不同特征属性之间的相关程度；

步骤7，通过提取特征热力图中关系程度密切的属性，设计可视化图形并对其可视化结果进行分析；

步骤8，通过应用随机森林模型进行发病结果的预测。

本发明的技术方案，相对于传统的语义分析方法，具有以下技术效果：

(1)能够对不同维度的属性变量进行数据可视化表现，可以快速寻找到有关影响预测结果的相关因素；

(2)本发明基于多种维度属性的数据和1种分类属性的数据作为数据研究的对象，因此对于数据的处理保证了数据一致性与真实性，可以使预测结果更加真实有效，说服力更强；

(3)采用随机森林算法建立预测模型，可以使预测效率和预测精度更高；

(4)发明中采用的可视化分析技术结构简单明了，可以更加直观细致的了解到有关预测结果信息。

附图说明

图1为本发明方法的框架图。

图2是本发明所采用的随机森林算法的工作流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1和图2所示，本实施例提供一种基于多重特征对比和随机森林算法的结果预测方法，包括以下步骤：

步骤1，基于诊断测量数据集成为数据源集。

对数据源文件进行数据处理，具体表现为：

步骤2-1，如果数据中存在异常数据，则通过直接删除的方式删除离散值较大的数据；

步骤2-2：如果数据中存在空值，用特定列的平均值或中值替换数据中存在的空值；

步骤2-3，在数据分割之前，将数据转换为使用sklearn-preprocessing方法的分位数。

步骤3，将处理后的数据源集存储在数据库当中；

步骤4具体表示为：

步骤4-1，所采用的随机森林分类是由多组决策树分类模型{h(x,θ_r),r＝1,2,…}构成的组合分类模型，其中θ_r是服从独立同分布的随机变量，其计算公式如下：

式中，F(x)表示组合分类模型，f_i(x)表示单个决策树分类模型，Y表示目标变量，I表示示性函数；

步骤4-2：通过K折交叉验证来验证随机森林模型的性能；

步骤4-3：使用网格搜索的方法对模型原始参数进行优化，通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值。

步骤5，通过计算混淆矩阵和分类报告参数对模型进行评估；

基于以上对于随机森林模型的验证与优化，为了评估随机森林模型的优劣，通过设计混淆矩阵得到模型参数数据与模型精度评分，然后通过对参数数据的计算得到分类报告参数数据评分，以此来评估随机森林模型；其中，对于混淆矩阵的设计通过把分类的结果直观的展示在一个矩阵里面，共包括真正例、假反例、假正例、真反例四种参数数据。而分类报告结果正是对于这四种数据的计算，得出准确率、召回率、综合评价指标、精确率，计算公式如下：

式中，TP表示真正例，FP表示假正例，FN表示假反例，TN表示真反例；Precision表示准确率、Recall表示召回率、F1-score表示综合评价指标、Accuracy表示精确率。

皮尔逊相关系数的计算公式如下：

式中，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

步骤8，通过应用随机森林模型进行发病结果的预测。

实施例2

本实施例提供一种基于多重特征对比和随机森林算法的糖尿病发病率预测方法，包括：

步骤1和步骤2中的数据源集来自于Kaggle上的Pima Indians(皮马印第安人)糖尿病数据集，数据集中包含葡萄糖浓度、怀孕次数、血压等诊断数据信息。

步骤2中对糖尿病数据的预处理主要包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割，具体表现为：

步骤2-1：如果数据中存在异常数据，则通过直接删除的方式删除离散值较大的数据；

步骤2-2：如果数据中存在空值，需要用特定列的平均值或中值替换数据中存在的空值；

步骤2-3：在数据分割之前，需要将数据转换为使用sklearn-preprocessing方法的分位数。

步骤4中随机森林模型的建立，以及通过10折交叉验证来验证建立的随机森林模型效率高低，随后通过超参数调优，对随机森林进行参数优化，来达到模型最佳效果。具体可表示为：

步骤4-1：随机森林分类是由多组决策树分类模型{h(x,θ_r),r＝1,2,…}构成的组合分类模型，其中θ_r是服从独立同分布的随机变量。其基本思想是：首先在所有原始样本集中，使用Bootstrapin方法以随机的方式选择r个样本，当r个样本被选择出之后，通过这r个样本来建立r个决策树模型，通过对r个决策树模型的处理会得到相对应的分类结果，最后根据这r个结果集中对所有的记录进行表决投票，以此得出最优秀的分类结果。其计算公式如下：

步骤4-2：通过10折交叉验证来验证随机森林模型的性能；

将数据预处理后的干净数据集平均分为10个区，在10个区中选择当中9个区作为训练集，而剩余的一个区作为验证集，由此得到10个训练模型；第一个训练模型中得到第1个验证分数，即为第1折，以此循环往复，直到第10个训练模型中得到第10个验证分数，即为第10折，用这10个模型所得到的10个最终验证分数取平均值作为此次10折交叉验证分类器的指标；

步骤4-3：使用网格搜索的方法对模型原始参数进行优化，通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值：先采用大的范围和大的步长来查询，判断全局最优值的大体位置，然后，逐步减少查询的步长和范围，从而查询更加精确的最优值。

步骤5中，基于以上对于随机森林模型的验证与优化，为了评估随机森林模型的优劣，通过设计混淆矩阵得到模型参数数据与模型精度评分，然后通过对参数数据的计算得到分类报告参数数据评分，以此来评估随机森林模型；

其中，对于混淆矩阵的设计通过把分类的结果直观的展示在一个矩阵里面，共包括真正例TP、假反例FN、假正例FP、真反例TN四种参数数据。而分类报告结果正是对于这四种数据的计算，得出准确率Precision、召回率Recall、F1-score综合评价指标、精确率Accuracy，计算公式如下：

式中，TP──表示真正例，FP──表示假正例，FN──表示假反例，TN──表示真反例。

步骤6中糖尿病发病率的相关性分析，是指对影响糖尿病发病概率相关因素的多个变量进行分析，由此发掘影响糖尿病发病概率的多种影响因素的属性变量之间的密切程度或者相互关系；本实施例采用的是皮尔逊相关系数，其计算公式如下：

步骤7中，基于步骤6中的特征热力图，提取热力图中具有强相关关系的属性因素，包括怀孕次数、血糖浓度、年龄、血压与结果以及BMI与血糖浓度等，对其两两之间的相关性进行可视化设计，并通过可视化设计分析两者之间相关性。

步骤8中，通过步骤4建立的随机森林模型以及对模型的优化调整，寻找到一个最佳的预测模型，其中，步骤5通过设计混淆矩阵得出计算结果表示模型评估得分达到94％，分类报告模型评估得分达到95％，因此通过应用最佳的预测模型，对步骤2中处理后的测试集进行糖尿病发病结果的预测。其中Pred一栏即为测试集预测结果，数值1表示患有糖尿病，数值0表示未患糖尿病，其余栏为人群诊断数据。

实验部分结果如下表所示：

实验结果表明，在通过设计的混淆矩阵参数表现以及分类报告参数的计算上表明，本实施例提出的方法模型性能高于其他模型，准确率Precision、精确率Accuracy均高于90％，表明了本实施例应用的模型以及预测方法在完成预测任务上的精准性。与其他机器学习算法相比，本实施例采用的随机森林算法可以处理多维度的数据，一定程度上契合了本发明研究的数据集以及对多维度属性相关关系研究的目的，并且算法在训练过程中训练速度更快，可以检测到多个属性之间的相互影响，说明基于随机森林机器学习的方法能够更好的拟合多维度多属性的糖尿病数据。本实施例提出的基于多重特征对比和随机森林算法的糖尿病发病率分析与预测方法，不仅结合了模型预测数据，而且通过对数据的可视化设计，采用可视化分析的方法对数据进一步分析，得出影响糖尿病发病概率的相关结果，因此本实施例的提出的方法可信度更高，实验结果更加精准。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多重特征对比和随机森林算法的结果预测方法，其特征在于：

步骤1，基于诊断测量数据集成为数据源集；

步骤3，将处理后的数据源集存储在数据库当中；

步骤5，通过计算混淆矩阵和分类报告参数对模型进行评估；

步骤8，通过应用随机森林模型进行发病结果的预测。

2.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法，其特征在于，步骤2中对数据源文件进行数据处理，具体表现为：

3.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法，其特征在于，步骤4具体表示为：

步骤4-2：通过10折交叉验证来验证随机森林模型的性能；

4.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法，其特征在于，步骤5对混淆矩阵的设计，通过混淆矩阵参数计算分类报告作为模型评估的指标，其计算公式如下：

5.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法，其特征在于，步骤6中皮尔逊相关系数的计算公式如下：