CN117894481A - 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 - Google Patents
基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 Download PDFInfo
- Publication number
- CN117894481A CN117894481A CN202410294511.2A CN202410294511A CN117894481A CN 117894481 A CN117894481 A CN 117894481A CN 202410294511 A CN202410294511 A CN 202410294511A CN 117894481 A CN117894481 A CN 117894481A
- Authority
- CN
- China
- Prior art keywords
- data set
- parameter
- heart disease
- bayesian
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000019622 heart disease Diseases 0.000 title claims abstract description 73
- 238000005457 optimization Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000002790 cross-validation Methods 0.000 claims abstract description 9
- 238000003066 decision tree Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012549 training Methods 0.000 description 9
- 206010002383 Angina Pectoris Diseases 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 206010008479 Chest Pain Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置,涉及心脏病预测领域。解决了现有技术中心脏病预测算法主要针对一种数据集进行预测,采用的算法缺乏泛化能力且预测准确率不够高的问题。本发明提供以下方案,所述预测方法包括:对UCI心脏病数据集采用KNN算法进行缺失值填补;进行Min‑Max标准化和One‑Hot编码处理;采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。还适用于心脏病预测的数据处理领域中。
Description
技术领域
本发明涉及心脏病预测技术领域。
背景技术
传统的心脏病预测算法通常基于统计学和机器学习技术。主要包括以下部分:
1.特征选择:在预测心脏病时,选择合适的特征对于算法的准确性至关重要。常用的特征包括年龄、性别、血压、胆固醇水平、血糖水平等。
2.数据预处理:在应用算法之前,需要对原始数据进行预处理。这包括数据清洗、缺失值处理、异常值检测和处理等。
3.统计学方法:传统的心脏病预测算法通常使用统计学方法,如逻辑回归、决策树、朴素贝叶斯等。这些方法可以根据已知的特征和标签数据建立数学模型,并用于预测新的样本。
4.机器学习方法:除了统计学方法,传统的心脏病预测算法还可以使用机器学习方法,如支持向量机、随机森林、神经网络等。这些方法可以通过学习大量的训练数据来建立模型,并用于预测新的样本。
5.交叉验证:为了评估预测模型的性能,常常使用交叉验证技术。交叉验证将数据集划分为训练集和测试集,通过在训练集上训练模型,并在测试集上评估模型的性能来进行模型选择和调优。
6.性能评估指标:为了评估预测模型的性能,常常使用一些指标,如准确率、精确率、召回率、F1值等。
综上所述,传统的心脏病预测算法主要依赖于特征选择、数据预处理、统计学方法、机器学习方法、交叉验证和性能评估指标等实现准确的预测;且传统的心脏病预测算法主要是针对一种数据集进行预测,算法缺乏泛化能力且预测准确率不够高的问题。
发明内容
本发明针对现有技术中心脏病预测算法主要还是针对一种数据集进行预测,现有技术中采用的算法缺乏泛化能力且预测准确率不够高的问题,为解决上述技术问题本发明是通过以下技术方案实现的:
本发明提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测方法,所述预测方法包括以下步骤:
步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补;
步骤二、将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
步骤三、基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
进一步的,提供一种优选实施方式,步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为:先将UCI心脏病数据集初始化,对缺失值的数据点做k邻近填充,计算含缺失值的数据点与不含缺失值的数据点的距离矩阵,选出欧氏距离最近的k个数据点,用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。
方案二、基于贝叶斯超参数优化梯度提升树心脏病预测装置,所述装置包括:
缺失值填补模块,用于对UCI心脏病数据集采用KNN算法进行缺失值填补;
数据处理模块,用于将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
优化模块,基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
验证模块,用于在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
方案三、电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
方案四、计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
方案五、计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
本发明的有益之处在于:
本发明提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置,且本发明针对两种数据集进行预测,采用在能够针对不同的数据集寻找各自最优的超参数组合,分别带入到算法中进行预测,具有较好的泛化能力,并且优化后的模型与现有技术算法相比,在Cleveland数据集上预测的准确率提升了5.6%,在Hungarian数据集上预测准确率提升了8.4%,提高了算法的准确率。
本发明为了提高算法的稳定性和准确,对获取的数据集进行Min-Max标准化处理,由于数据集中存在大量离散值特征,采用One-Hot编码将原来的离散型特征转换,通过实验证明处理后的预测准确率得到进一步提升。
本发明还适用于心脏病预测的数据处理领域中。
附图说明
图1为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的流程图。
图2为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的One-Hot编码处理胸痛类型特征示意图。
图3为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的参数范围示意图。
图4为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的在Cleveland利夫兰数据集上不同预测算法的对比示意图。
图5为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的在Hungarian数据集上不同预测算法的对比示意图。
具体实施方式
为使本申请实施方式的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部实施方式。
实施方式一、本实施方式提供了基于贝叶斯超参数优化梯度提升树心脏病预测方法,所述预测方法包括以下步骤:
步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补;
步骤二、将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
步骤三、基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
步骤四、在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
参见图1至图3说明本实施方式,其中,Hungarian数据集和Cleveland数据集分别表示克利夫兰数据集和匈牙利数据集,在步骤一中由于获取到的数据集含有缺失值,首先对获取的数据集采用KNN算法进行缺失值填补,先将数据初始化,然后对缺失值的数据点做k邻近填充,计算含缺失值的数据点与其他不含缺失值的数据点的距离矩阵,选出欧氏距离最近的k个数据点,用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。
步骤二、对UCI心脏病数据集分析,UCI心脏病数据集中各特征属性的尺度不同,因此将数据进行Min-Max标准化,将数据压缩为 0~1 范围,来提高模型分类的准确度。
步骤三、在UCI心脏病数据集中,cp,restecg,slope,thal等特征都是离散值,为了适应模型训练,将这些特征进行One-Hot编码处理。通过对各离散特征进行One-Hot编码处理,数据集由原来的14个特征变为27个特征,对处理后的数据集重新进行训练,得到的预测准确度进一步提升。例如图2中对胸痛类型(cp) ,其中0代表典型心绞痛(typicalangina),1代表非典型心绞痛(atypical angina),2代表非心绞痛(non-anginal pain),3代表无症状(asymptomatic)进行One-Hot编码处理。处理过程参见图1所示。
步骤四、对梯度提升树算法进行贝叶斯超参数优化,提出了KNN-GBDT模型,通过设置迭代次数、学习率、决策树的最大深度等参数参数范围,使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数,采用十倍交叉验证的方式进行评估,多轮寻优最终得到最佳超参数组合带入算法中进行预测。
本实施方式与现有技术相比,能够针对不同的数据集寻找各自最优的超参数组合,分别带入到算法中进行预测,具有较好的泛化能力,并且优化后的模型与原有算法相比,在Cleveland数据集上预测的准确率提升了5.6%,在Hungarian数据集上预测准确率提升了8.4%,提高了算法的准确率。
实施方式二、本实施方式是对实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的进一步限定,步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为:先将UCI心脏病数据集初始化,对缺失值的数据点做k邻近填充,计算含缺失值的数据点与不含缺失值的数据点的距离矩阵,选出欧氏距离最近的k个数据点,用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。
步骤一中由于获取到的数据集含有缺失值,首先对获取的数据集采用KNN算法进行缺失值填补,先将数据初始化,然后对缺失值的数据点做k邻近填充,计算含缺失值的数据点与其他不含缺失值的数据点的距离矩阵,选出欧氏距离最近的k个数据点,用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。
本实施方式提出了KNN-GBDT模型,优化后的梯度提升树模型和传统的算法进行比较,准确率得到了提升。为了提高算法的泛化能力,又将模型应用到Hungarian数据集,分别使用优化模型和传统算法进行预测,得出优化模型准确率也的到了提高。优化方式如下:由于不同的参数组合对梯度提升树的预测结果有着很大的影响,因此,对模型的迭代次数、学习率、决策树的最大深度等参数进行贝叶斯优化,各参数设置范围如图3所示。
本实施方式优化过程使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数,在设置的参数范围内进行寻优,采用十倍交叉验证的方式进行评估,多轮寻优最终得到最佳超参数组合,并将参数带入算法中分别对Cleveland数据集和Hungarian数据集两个数据集进行的预测。
实施方式三、本实施方式提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测装置,所述装置包括:
缺失值填补模块,用于对UCI心脏病数据集采用KNN算法进行缺失值填补;
数据处理模块,用于将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
优化模块,基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
验证模块,用于在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
实施方式四、本实施方式提出了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施方式一至四任一项所述基于贝叶斯超参数优化梯度提升树的心脏病预测方法。
实施方式五、本实施方式提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施方式一至二任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
实施方式六、本实施方式提出了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如实施方式一至二任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
实施方式七、本实施方式提供以下实施例,用于解释上述实施方式,
实施例1、在选取心脏病预测模型时,首先采用决策树(DT)、KNN、SVM、梯度提升树(GBDT)等传统的机器学习算法,分别对Cleveland数据集进行预测,测试完成后为了进一步提高预测的准确率,又对梯度提升树算法进行贝叶斯超参数优化,提出了KNN-GBDT模型,优化后的梯度提升树模型和传统的算法进行比较,准确率得到了提升。为了提高算法的泛化能力,又将模型应用到Hungarian数据集,分别使用优化模型和传统算法进行预测,得出优化模型准确率也的到了提高。优化方式如下:由于不同的参数组合对梯度提升树的预测结果有着很大的影响,因此,对模型的迭代次数、学习率、决策树的最大深度等参数进行贝叶斯优化,各参数设置范围如图3所示,优化过程使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数,在设置的参数范围内进行寻优,采用十倍交叉验证的方式进行评估,多轮寻优最终得到最佳超参数组合,并将参数带入算法中分别对Cleveland数据集和Hungarian数据集两个数据集进行的预测。
决策树(DT)、KNN、SVM、梯度提升树(GBDT)几种常见的机器学习算法在做分类预测中应用的比较多,为了验证KNN-GBDT模型的有效性,在Cleveland数据集将它和四种算法进行对比,对比结果参见图4所示,本实施方式所采用的KNN-GBDT模型在Cleveland数据集进行训练的准确率、召回率、精准率和AUC分别为0.901、0.875、0.933、0.94,高于现有技术中DT、KNN、SVM和GBDT准确率、召回率、精准率和AUC。
为了进一步验证KNN-GBDT算法的泛化能力,使用Hungarian数据集进行训练,训练后预测结果也有明显的提升,对比结果参见图5所示,同理本实施方式所采用的KNN-GBDT模型在Hungarian数据集进行训练的准确率、召回率、精准率和AUC分别为0.814、0.714、0.750、0.92,高于现有技术中DT、KNN、SVM和GBDT模型准确率、召回率、精准率和AUC。即本实施方式相对于传统算法而言,KNN_GBDT模型各评价指标都得到提升,最终选取贝叶斯超参数优化梯度提升树模型为该方法的预测模型。
为了提高算法的稳定性和准确,对获取的数据集进行Min-Max标准化处理,由于数据集中存在大量离散值特征,采用One-Hot编码将原来的离散型特征转换,通过实验,处理后的预测准确率得到进一步提升。
在本说明书的描述中,仅为本发明的较佳实施例,不能以此限定本发明之权利范围;另外,参考术语“一个实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和可以进行多种组合。所有这些组合均落入本公开的范围。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念, 则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例 以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改 动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.基于贝叶斯超参数优化梯度提升树心脏病预测方法,其特征在于,所述预测方法包括以下步骤:
步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补;
步骤二、将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
步骤三、基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
步骤四、在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
2.根据权利要求1所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法,其特征在于,步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为:先将UCI心脏病数据集初始化,对缺失值的数据点做k邻近填充,计算含缺失值的数据点与不含缺失值的数据点的距离矩阵,选出欧氏距离最近的k个数据点,用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。
3.基于贝叶斯超参数优化梯度提升树心脏病预测装置,其特征在于,所述装置包括:
缺失值填补模块,用于对UCI心脏病数据集采用KNN算法进行缺失值填补;
数据处理模块,用于将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理;
优化模块,基于步骤二处理后的UCI心脏病数据集,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化;其中,采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现,通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化;所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到;
其中,迭代次数的参数范围在大于50且小于250的范围内,学习率的参数范围在大于0.01且小于0.1的范围内,决策树的最大深度参数范围在大于5且小于12的范围内;
验证模块,用于在贝叶斯超参数优化过程中进行寻优,采用十倍交叉验证的方式进行评估,至少一轮寻优后得到最佳超参数组合,将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。
4.电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
5.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
6.计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410294511.2A CN117894481A (zh) | 2024-03-15 | 2024-03-15 | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410294511.2A CN117894481A (zh) | 2024-03-15 | 2024-03-15 | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117894481A true CN117894481A (zh) | 2024-04-16 |
Family
ID=90647619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410294511.2A Pending CN117894481A (zh) | 2024-03-15 | 2024-03-15 | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117894481A (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091396A (zh) * | 2017-12-25 | 2018-05-29 | 中山大学 | 一种心脏病智能预测和心脏保健信息推荐系统及其方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN110265146A (zh) * | 2019-06-17 | 2019-09-20 | 东北大学秦皇岛分校 | 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法 |
CN110379521A (zh) * | 2019-06-24 | 2019-10-25 | 南京理工大学 | 基于信息论的医疗数据集特征选择方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111444657A (zh) * | 2020-03-10 | 2020-07-24 | 五邑大学 | 一种疲劳驾驶预测模型的构建方法、装置及存储介质 |
CN112365943A (zh) * | 2020-10-22 | 2021-02-12 | 杭州未名信科科技有限公司 | 患者住院时长的预测方法、装置、电子设备及存储介质 |
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113807900A (zh) * | 2021-10-14 | 2021-12-17 | 华东理工大学 | 一种基于贝叶斯优化的rf订单需求预测方法 |
CN114169542A (zh) * | 2021-11-17 | 2022-03-11 | 西安理工大学 | 用于不完整数据分类的集成学习树构建方法 |
CN114722945A (zh) * | 2022-04-12 | 2022-07-08 | 慧择保险经纪有限公司 | 一种存量客户投保意向预测方法及装置 |
CN114974581A (zh) * | 2022-04-26 | 2022-08-30 | 重庆市急救医疗中心(重庆市第四人民医院、重庆市急救医学研究所) | 高血糖危象长期死亡风险预测与评估方法 |
CN115050477A (zh) * | 2022-06-21 | 2022-09-13 | 河南科技大学 | 一种贝叶斯优化的RF与LightGBM疾病预测方法 |
CN115206527A (zh) * | 2022-06-30 | 2022-10-18 | 四川大学 | 一种基于机器学习的脑梗手术患者存活风险分类方法 |
CN116090596A (zh) * | 2022-11-25 | 2023-05-09 | 中国科学院深圳先进技术研究院 | 一种台风强度预测方法、装置、设备及存储介质 |
CN116403700A (zh) * | 2023-03-07 | 2023-07-07 | 西安交通大学 | 一种基于联邦学习的心脏病辅助诊断系统 |
CN116484299A (zh) * | 2023-03-14 | 2023-07-25 | 天津平高易电科技有限公司 | 基于梯度提升树与多层感知机融合的充电桩故障诊断方法 |
CN116796646A (zh) * | 2023-07-13 | 2023-09-22 | 太原科技大学 | 一种热连轧机振动预测方法 |
-
2024
- 2024-03-15 CN CN202410294511.2A patent/CN117894481A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091396A (zh) * | 2017-12-25 | 2018-05-29 | 中山大学 | 一种心脏病智能预测和心脏保健信息推荐系统及其方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN110265146A (zh) * | 2019-06-17 | 2019-09-20 | 东北大学秦皇岛分校 | 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法 |
CN110379521A (zh) * | 2019-06-24 | 2019-10-25 | 南京理工大学 | 基于信息论的医疗数据集特征选择方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111444657A (zh) * | 2020-03-10 | 2020-07-24 | 五邑大学 | 一种疲劳驾驶预测模型的构建方法、装置及存储介质 |
CN112365943A (zh) * | 2020-10-22 | 2021-02-12 | 杭州未名信科科技有限公司 | 患者住院时长的预测方法、装置、电子设备及存储介质 |
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113807900A (zh) * | 2021-10-14 | 2021-12-17 | 华东理工大学 | 一种基于贝叶斯优化的rf订单需求预测方法 |
CN114169542A (zh) * | 2021-11-17 | 2022-03-11 | 西安理工大学 | 用于不完整数据分类的集成学习树构建方法 |
CN114722945A (zh) * | 2022-04-12 | 2022-07-08 | 慧择保险经纪有限公司 | 一种存量客户投保意向预测方法及装置 |
CN114974581A (zh) * | 2022-04-26 | 2022-08-30 | 重庆市急救医疗中心(重庆市第四人民医院、重庆市急救医学研究所) | 高血糖危象长期死亡风险预测与评估方法 |
CN115050477A (zh) * | 2022-06-21 | 2022-09-13 | 河南科技大学 | 一种贝叶斯优化的RF与LightGBM疾病预测方法 |
CN115206527A (zh) * | 2022-06-30 | 2022-10-18 | 四川大学 | 一种基于机器学习的脑梗手术患者存活风险分类方法 |
CN116090596A (zh) * | 2022-11-25 | 2023-05-09 | 中国科学院深圳先进技术研究院 | 一种台风强度预测方法、装置、设备及存储介质 |
CN116403700A (zh) * | 2023-03-07 | 2023-07-07 | 西安交通大学 | 一种基于联邦学习的心脏病辅助诊断系统 |
CN116484299A (zh) * | 2023-03-14 | 2023-07-25 | 天津平高易电科技有限公司 | 基于梯度提升树与多层感知机融合的充电桩故障诊断方法 |
CN116796646A (zh) * | 2023-07-13 | 2023-09-22 | 太原科技大学 | 一种热连轧机振动预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230186476A1 (en) | Object detection and instance segmentation of 3d point clouds based on deep learning | |
US20190378017A1 (en) | System and method for implementing a neural network | |
US11334791B2 (en) | Learning to search deep network architectures | |
CN112085157B (zh) | 基于神经网络和树模型的疾病预测方法及其装置 | |
CN112164427A (zh) | 基于深度学习的药物小分子靶点活性预测方法和装置 | |
CN112164426A (zh) | 基于TextCNN的药物小分子靶点活性预测方法和装置 | |
Vieira et al. | Main concepts in machine learning | |
KR20220099409A (ko) | 딥러닝 모델을 사용한 분류 방법 | |
KR20220107940A (ko) | 의료 영상의 병변 평가 방법 | |
CN111160459A (zh) | 超参数的优化装置和方法 | |
CN114444668A (zh) | 网络量化方法及系统及装置及介质及图像处理方法 | |
CN114637620B (zh) | 一种基于svm算法的数据库系统异常分类预测方法 | |
KR101955526B1 (ko) | 혈액종합검사 소견 생성 방법 및 시스템 | |
Liu et al. | Product Processing Quality Classification Model for Small‐Sample and Imbalanced Data Environment | |
Rao et al. | Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach. | |
CN117894481A (zh) | 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置 | |
CN116701873A (zh) | 基于主客观信息融合表示的行为危险倾向预测方法及系统 | |
CN115937568B (zh) | 一种玄武岩构造背景分类方法、系统、装置及存储介质 | |
US20230161653A1 (en) | Method of managing system health | |
CN116522070A (zh) | 一种机械零部件无监督智能故障诊断方法及系统 | |
Busi et al. | A Hybrid Deep Learning Technique for Feature Selection and Classification of Chronic Kidney Disease. | |
Kusumadewi et al. | Performance of Fuzzy C-Means (FCM) and Fuzzy Subtractive Clustering (FSC) on Medical Data Imputation | |
Yang et al. | Multi-Strategy Assisted Multi-Objective Whale Optimization Algorithm for Feature Selection. | |
KR102556235B1 (ko) | 컨텐츠 기반 영상 검색 방법 및 장치 | |
CN118116585B (zh) | 通过dnn判定癌症良恶性的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |