CN115099149A - 一种基于多重特征对比和随机森林算法的结果预测方法 - Google Patents

一种基于多重特征对比和随机森林算法的结果预测方法 Download PDF

Info

Publication number
CN115099149A
CN115099149A CN202210770544.0A CN202210770544A CN115099149A CN 115099149 A CN115099149 A CN 115099149A CN 202210770544 A CN202210770544 A CN 202210770544A CN 115099149 A CN115099149 A CN 115099149A
Authority
CN
China
Prior art keywords
data
model
random forest
result
forest algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210770544.0A
Other languages
English (en)
Inventor
葛方丽
姚文清
曲鹏宇
辜钰婷
赵清波
薛兵
陈思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Xinda Institute of Advanced Technology filed Critical Zhengzhou Xinda Institute of Advanced Technology
Priority to CN202210770544.0A priority Critical patent/CN115099149A/zh
Publication of CN115099149A publication Critical patent/CN115099149A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多重特征对比和随机森林算法的结果预测方法:基于诊断测量数据集成为数据源集;对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理;将处理后的数据源集存储在数据库当中;采用随机森林算法建立机器学习模型,并且通过K折交叉验证,验证随机森林模型的有效性,再通过超参数调优对模型进行参数优化;通过计算混淆矩阵和分类报告参数对模型进行评估;通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;通过应用随机森林模型进行发病结果的预测。

Description

一种基于多重特征对比和随机森林算法的结果预测方法
技术领域
本发明涉及数据分析领域,更具体地,涉及一种基于多重特征对比和随机森林算法的结果预测方法。
背景技术
随着计算机技术的不断发展,大数据技术、人工智能(AI)等等成为当今世界计算机发展的潮流趋势,借助计算机,通过机器学习能够用来预测疾病的发生概率,这一重大技术的进步使得探索出治愈疾病的医疗方法成为可能。
通过对国内外疾病预测相关研究现状的调查发现,国内外专家学者对于疾病的研究具有很大程度上的相似性,都采用机器学习算法以及深度神经网络算法来预测疾病,这说明机器学习算法以及深度神经网络算法对于此类数据预测效率更高,算法适用性更强。其中,通过对采用的机器学习算法的调查发现,采用的算法总体上有逻辑回归算法、决策树算法、Boost算法、SVC算法、随机森林算法、高斯贝叶斯算法等,然而通过对于这些算法的对比研究发现,随机森林普遍适用性更好,性能效率表现更高。然而如何通过随机森林算法建立预测模型,以及如何对所建立的模型进行优化,以此来适用数据的预测,以及后期数据的可视化设计就成为了一个重要的研究问题。
发明内容
针对现有技术的缺陷,本发明提供了一种基于多重特征对比和随机森林算法的结果预测方法:
步骤1,基于诊断测量数据集成为数据源集;
步骤2,对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理,随后把数据源集划分为测试集与训练集;
步骤3,将处理后的数据源集存储在数据库当中;
步骤4,采用随机森林算法建立机器学习模型,并且验证随机森林模型的有效性,再对模型进行参数优化;
步骤5,通过计算混淆矩阵和分类报告参数对模型进行评估;
步骤6,通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;
步骤7,通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;
步骤8,通过应用随机森林模型进行发病结果的预测。
本发明的技术方案,相对于传统的语义分析方法,具有以下技术效果:
(1)能够对不同维度的属性变量进行数据可视化表现,可以快速寻找到有关影响预测结果的相关因素;
(2)本发明基于多种维度属性的数据和1种分类属性的数据作为数据研究的对象,因此对于数据的处理保证了数据一致性与真实性,可以使预测结果更加真实有效,说服力更强;
(3)采用随机森林算法建立预测模型,可以使预测效率和预测精度更高;
(4)发明中采用的可视化分析技术结构简单明了,可以更加直观细致的了解到有关预测结果信息。
附图说明
图1为本发明方法的框架图。
图2是本发明所采用的随机森林算法的工作流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1和图2所示,本实施例提供一种基于多重特征对比和随机森林算法的结果预测方法,包括以下步骤:
步骤1,基于诊断测量数据集成为数据源集。
步骤2,对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理,随后把数据源集划分为测试集与训练集;
对数据源文件进行数据处理,具体表现为:
步骤2-1,如果数据中存在异常数据,则通过直接删除的方式删除离散值较大的数据;
步骤2-2:如果数据中存在空值,用特定列的平均值或中值替换数据中存在的空值;
步骤2-3,在数据分割之前,将数据转换为使用sklearn-preprocessing方法的分位数。
步骤3,将处理后的数据源集存储在数据库当中;
步骤4,采用随机森林算法建立机器学习模型,并且验证随机森林模型的有效性,再对模型进行参数优化;
步骤4具体表示为:
步骤4-1,所采用的随机森林分类是由多组决策树分类模型{h(x,θr),r=1,2,…}构成的组合分类模型,其中θr是服从独立同分布的随机变量,其计算公式如下:
Figure BDA0003723808670000031
式中,F(x)表示组合分类模型,fi(x)表示单个决策树分类模型,Y表示目标变量,I表示示性函数;
步骤4-2:通过K折交叉验证来验证随机森林模型的性能;
步骤4-3:使用网格搜索的方法对模型原始参数进行优化,通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值。
步骤5,通过计算混淆矩阵和分类报告参数对模型进行评估;
基于以上对于随机森林模型的验证与优化,为了评估随机森林模型的优劣,通过设计混淆矩阵得到模型参数数据与模型精度评分,然后通过对参数数据的计算得到分类报告参数数据评分,以此来评估随机森林模型;其中,对于混淆矩阵的设计通过把分类的结果直观的展示在一个矩阵里面,共包括真正例、假反例、假正例、真反例四种参数数据。而分类报告结果正是对于这四种数据的计算,得出准确率、召回率、综合评价指标、精确率,计算公式如下:
Figure BDA0003723808670000041
Figure BDA0003723808670000042
Figure BDA0003723808670000043
Figure BDA0003723808670000044
式中,TP表示真正例,FP表示假正例,FN表示假反例,TN表示真反例;Precision表示准确率、Recall表示召回率、F1-score表示综合评价指标、Accuracy表示精确率。
步骤6,通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;
皮尔逊相关系数的计算公式如下:
Figure BDA0003723808670000045
式中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
步骤7,通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;
步骤8,通过应用随机森林模型进行发病结果的预测。
实施例2
本实施例提供一种基于多重特征对比和随机森林算法的糖尿病发病率预测方法,包括:
步骤1和步骤2中的数据源集来自于Kaggle上的Pima Indians(皮马印第安人)糖尿病数据集,数据集中包含葡萄糖浓度、怀孕次数、血压等诊断数据信息。
步骤2中对糖尿病数据的预处理主要包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割,具体表现为:
步骤2-1:如果数据中存在异常数据,则通过直接删除的方式删除离散值较大的数据;
步骤2-2:如果数据中存在空值,需要用特定列的平均值或中值替换数据中存在的空值;
步骤2-3:在数据分割之前,需要将数据转换为使用sklearn-preprocessing方法的分位数。
步骤4中随机森林模型的建立,以及通过10折交叉验证来验证建立的随机森林模型效率高低,随后通过超参数调优,对随机森林进行参数优化,来达到模型最佳效果。具体可表示为:
步骤4-1:随机森林分类是由多组决策树分类模型{h(x,θr),r=1,2,…}构成的组合分类模型,其中θr是服从独立同分布的随机变量。其基本思想是:首先在所有原始样本集中,使用Bootstrapin方法以随机的方式选择r个样本,当r个样本被选择出之后,通过这r个样本来建立r个决策树模型,通过对r个决策树模型的处理会得到相对应的分类结果,最后根据这r个结果集中对所有的记录进行表决投票,以此得出最优秀的分类结果。其计算公式如下:
Figure BDA0003723808670000061
式中,F(x)表示组合分类模型,fi(x)表示单个决策树分类模型,Y表示目标变量,I表示示性函数;
步骤4-2:通过10折交叉验证来验证随机森林模型的性能;
将数据预处理后的干净数据集平均分为10个区,在10个区中选择当中9个区作为训练集,而剩余的一个区作为验证集,由此得到10个训练模型;第一个训练模型中得到第1个验证分数,即为第1折,以此循环往复,直到第10个训练模型中得到第10个验证分数,即为第10折,用这10个模型所得到的10个最终验证分数取平均值作为此次10折交叉验证分类器的指标;
步骤4-3:使用网格搜索的方法对模型原始参数进行优化,通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值:先采用大的范围和大的步长来查询,判断全局最优值的大体位置,然后,逐步减少查询的步长和范围,从而查询更加精确的最优值。
步骤5中,基于以上对于随机森林模型的验证与优化,为了评估随机森林模型的优劣,通过设计混淆矩阵得到模型参数数据与模型精度评分,然后通过对参数数据的计算得到分类报告参数数据评分,以此来评估随机森林模型;
其中,对于混淆矩阵的设计通过把分类的结果直观的展示在一个矩阵里面,共包括真正例TP、假反例FN、假正例FP、真反例TN四种参数数据。而分类报告结果正是对于这四种数据的计算,得出准确率Precision、召回率Recall、F1-score综合评价指标、精确率Accuracy,计算公式如下:
Figure BDA0003723808670000062
Figure BDA0003723808670000063
Figure BDA0003723808670000071
Figure BDA0003723808670000072
式中,TP──表示真正例,FP──表示假正例,FN──表示假反例,TN──表示真反例。
步骤6中糖尿病发病率的相关性分析,是指对影响糖尿病发病概率相关因素的多个变量进行分析,由此发掘影响糖尿病发病概率的多种影响因素的属性变量之间的密切程度或者相互关系;本实施例采用的是皮尔逊相关系数,其计算公式如下:
Figure BDA0003723808670000073
式中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
步骤7中,基于步骤6中的特征热力图,提取热力图中具有强相关关系的属性因素,包括怀孕次数、血糖浓度、年龄、血压与结果以及BMI与血糖浓度等,对其两两之间的相关性进行可视化设计,并通过可视化设计分析两者之间相关性。
步骤8中,通过步骤4建立的随机森林模型以及对模型的优化调整,寻找到一个最佳的预测模型,其中,步骤5通过设计混淆矩阵得出计算结果表示模型评估得分达到94%,分类报告模型评估得分达到95%,因此通过应用最佳的预测模型,对步骤2中处理后的测试集进行糖尿病发病结果的预测。其中Pred一栏即为测试集预测结果,数值1表示患有糖尿病,数值0表示未患糖尿病,其余栏为人群诊断数据。
实验部分结果如下表所示:
Figure BDA0003723808670000074
Figure BDA0003723808670000081
实验结果表明,在通过设计的混淆矩阵参数表现以及分类报告参数的计算上表明,本实施例提出的方法模型性能高于其他模型,准确率Precision、精确率Accuracy均高于90%,表明了本实施例应用的模型以及预测方法在完成预测任务上的精准性。与其他机器学习算法相比,本实施例采用的随机森林算法可以处理多维度的数据,一定程度上契合了本发明研究的数据集以及对多维度属性相关关系研究的目的,并且算法在训练过程中训练速度更快,可以检测到多个属性之间的相互影响,说明基于随机森林机器学习的方法能够更好的拟合多维度多属性的糖尿病数据。本实施例提出的基于多重特征对比和随机森林算法的糖尿病发病率分析与预测方法,不仅结合了模型预测数据,而且通过对数据的可视化设计,采用可视化分析的方法对数据进一步分析,得出影响糖尿病发病概率的相关结果,因此本实施例的提出的方法可信度更高,实验结果更加精准。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于多重特征对比和随机森林算法的结果预测方法,其特征在于:
步骤1,基于诊断测量数据集成为数据源集;
步骤2,对数据源集进行包括缺失参数数值的填充处理、异常值的检测、数据转换与数据分割的数据处理,随后把数据源集划分为测试集与训练集;
步骤3,将处理后的数据源集存储在数据库当中;
步骤4,采用随机森林算法建立机器学习模型,并且验证随机森林模型的有效性,再对模型进行参数优化;
步骤5,通过计算混淆矩阵和分类报告参数对模型进行评估;
步骤6,通过计算皮尔逊相关系数设计相关性特征热力图,寻找不同特征属性之间的相关程度;
步骤7,通过提取特征热力图中关系程度密切的属性,设计可视化图形并对其可视化结果进行分析;
步骤8,通过应用随机森林模型进行发病结果的预测。
2.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤2中对数据源文件进行数据处理,具体表现为:
步骤2-1,如果数据中存在异常数据,则通过直接删除的方式删除离散值较大的数据;
步骤2-2:如果数据中存在空值,用特定列的平均值或中值替换数据中存在的空值;
步骤2-3,在数据分割之前,将数据转换为使用sklearn-preprocessing方法的分位数。
3.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤4具体表示为:
步骤4-1,所采用的随机森林分类是由多组决策树分类模型{h(x,θr),r=1,2,…}构成的组合分类模型,其中θr是服从独立同分布的随机变量,其计算公式如下:
Figure FDA0003723808660000021
式中,F(x)表示组合分类模型,fi(x)表示单个决策树分类模型,Y表示目标变量,I表示示性函数;
步骤4-2:通过10折交叉验证来验证随机森林模型的性能;
将数据预处理后的干净数据集平均分为10个区,在10个区中选择当中9个区作为训练集,而剩余的一个区作为验证集,由此得到10个训练模型;第一个训练模型中得到第1个验证分数,即为第1折,以此循环往复,直到第10个训练模型中得到第10个验证分数,即为第10折,用这10个模型所得到的10个最终验证分数取平均值作为此次10折交叉验证分类器的指标;
步骤4-3:使用网格搜索的方法对模型原始参数进行优化,通过网格搜索方法搜索一个网格区域内所有的节点来确定最佳数值:先采用大的范围和大的步长来查询,判断全局最优值的大体位置,然后,逐步减少查询的步长和范围,从而查询更加精确的最优值。
4.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤5对混淆矩阵的设计,通过混淆矩阵参数计算分类报告作为模型评估的指标,其计算公式如下:
Figure FDA0003723808660000022
Figure FDA0003723808660000023
Figure FDA0003723808660000024
式中,TP──表示真正例,FP──表示假正例,FN──表示假反例,TN──表示真反例。
5.根据权利要求1所述的基于多重特征对比和随机森林算法的结果预测方法,其特征在于,步骤6中皮尔逊相关系数的计算公式如下:
Figure FDA0003723808660000031
式中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
CN202210770544.0A 2022-06-30 2022-06-30 一种基于多重特征对比和随机森林算法的结果预测方法 Pending CN115099149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210770544.0A CN115099149A (zh) 2022-06-30 2022-06-30 一种基于多重特征对比和随机森林算法的结果预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210770544.0A CN115099149A (zh) 2022-06-30 2022-06-30 一种基于多重特征对比和随机森林算法的结果预测方法

Publications (1)

Publication Number Publication Date
CN115099149A true CN115099149A (zh) 2022-09-23

Family

ID=83294123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210770544.0A Pending CN115099149A (zh) 2022-06-30 2022-06-30 一种基于多重特征对比和随机森林算法的结果预测方法

Country Status (1)

Country Link
CN (1) CN115099149A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246752A (zh) * 2023-03-27 2023-06-09 中国医学科学院肿瘤医院 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法
CN116469461A (zh) * 2023-06-01 2023-07-21 中国农业科学院作物科学研究所 一种基因预测过程中数据分析方法
CN116543866A (zh) * 2023-03-27 2023-08-04 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246752A (zh) * 2023-03-27 2023-06-09 中国医学科学院肿瘤医院 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法
CN116543866A (zh) * 2023-03-27 2023-08-04 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法
CN116543866B (zh) * 2023-03-27 2023-12-19 中国医学科学院肿瘤医院 一种镇痛泵止痛预测模型的生成和使用方法
CN116246752B (zh) * 2023-03-27 2024-01-16 中国医学科学院肿瘤医院 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法
CN116469461A (zh) * 2023-06-01 2023-07-21 中国农业科学院作物科学研究所 一种基因预测过程中数据分析方法

Similar Documents

Publication Publication Date Title
Chen et al. A hybrid prediction model for type 2 diabetes using K-means and decision tree
CN115099149A (zh) 一种基于多重特征对比和随机森林算法的结果预测方法
Lukmanto et al. Early detection of diabetes mellitus using feature selection and fuzzy support vector machine
Hu et al. RETRACTED ARTICLE: Application of PLS algorithm in discriminant analysis in multidimensional data mining
Wu et al. Quality estimation method for gear hobbing based on attention and adversarial transfer learning
Hossin et al. Breast cancer detection: an effective comparison of different machine learning algorithms on the Wisconsin dataset
CN116502742A (zh) 一种基于梯度提升决策树的风险行为信息预测方法及系统
CN111752995A (zh) 一种学生数据挖掘系统及方法
Chaimontree et al. Best clustering configuration metrics: Towards multiagent based clustering
Fadilah et al. Performance Comparison of K-Nearest Neighbor and Decision Tree C4. 5 by Utilizing Particle Swarm Optimization for Prediction of Liver Disease
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN117131345A (zh) 一种基于数据深度学习计算的多源数据参数评估方法
CN111797899A (zh) 一种低压台区kmeans聚类方法及系统
bin Othman et al. Neuro fuzzy classification and detection technique for bioinformatics problems
Yu et al. An automatic recognition method of journal impact factor manipulation
CN115129503A (zh) 一种设备故障数据清洗方法及系统
CN114520031A (zh) 一种基于机器学习的化合物胎盘膜透过性的预测方法
CN115374687A (zh) 数形结合的油井工况智能诊断方法
Wu et al. Comparison of different machine learning models in breast cancer
Farahdiba et al. Backward elimination for feature selection on breast cancer classification using logistic regression and support vector machine algorithms
He et al. An effective clustering scheme for high-dimensional data
CN112926442B (zh) 一种图像目标数据集均衡完备的构建方法
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Marasco et al. Demographic-Adapted ROC Curve for Assessing Automated Matching of Latent Fingerprints
Pan et al. Knowledge discovery in sociological databases: An application on general society survey dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination