CN117894481A

CN117894481A - 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置

Info

Publication number: CN117894481A
Application number: CN202410294511.2A
Authority: CN
Inventors: 王海燕; 焦增晨; 刘国晖; 邓广超; 史丽娟; 赵剑; 谭璐; 宿少煊
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-04-16

Abstract

本发明提供了基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置，涉及心脏病预测领域。解决了现有技术中心脏病预测算法主要针对一种数据集进行预测，采用的算法缺乏泛化能力且预测准确率不够高的问题。本发明提供以下方案，所述预测方法包括：对UCI心脏病数据集采用KNN算法进行缺失值填补；进行Min‑Max标准化和One‑Hot编码处理；采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化；在贝叶斯超参数优化过程中进行寻优，采用十倍交叉验证的方式进行评估，至少一轮寻优后得到最佳超参数组合，将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。还适用于心脏病预测的数据处理领域中。

Description

基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置

技术领域

本发明涉及心脏病预测技术领域。

背景技术

传统的心脏病预测算法通常基于统计学和机器学习技术。主要包括以下部分：

1.特征选择：在预测心脏病时，选择合适的特征对于算法的准确性至关重要。常用的特征包括年龄、性别、血压、胆固醇水平、血糖水平等。

2.数据预处理：在应用算法之前，需要对原始数据进行预处理。这包括数据清洗、缺失值处理、异常值检测和处理等。

3.统计学方法：传统的心脏病预测算法通常使用统计学方法，如逻辑回归、决策树、朴素贝叶斯等。这些方法可以根据已知的特征和标签数据建立数学模型，并用于预测新的样本。

4.机器学习方法：除了统计学方法，传统的心脏病预测算法还可以使用机器学习方法，如支持向量机、随机森林、神经网络等。这些方法可以通过学习大量的训练数据来建立模型，并用于预测新的样本。

5.交叉验证：为了评估预测模型的性能，常常使用交叉验证技术。交叉验证将数据集划分为训练集和测试集，通过在训练集上训练模型，并在测试集上评估模型的性能来进行模型选择和调优。

6.性能评估指标：为了评估预测模型的性能，常常使用一些指标，如准确率、精确率、召回率、F1值等。

综上所述，传统的心脏病预测算法主要依赖于特征选择、数据预处理、统计学方法、机器学习方法、交叉验证和性能评估指标等实现准确的预测；且传统的心脏病预测算法主要是针对一种数据集进行预测，算法缺乏泛化能力且预测准确率不够高的问题。

发明内容

本发明针对现有技术中心脏病预测算法主要还是针对一种数据集进行预测，现有技术中采用的算法缺乏泛化能力且预测准确率不够高的问题，为解决上述技术问题本发明是通过以下技术方案实现的：

本发明提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测方法，所述预测方法包括以下步骤：

步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补；

步骤二、将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理；

步骤三、基于步骤二处理后的UCI心脏病数据集，采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化；其中，采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现，通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化；所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到；

其中，迭代次数的参数范围在大于50且小于250的范围内，学习率的参数范围在大于0.01且小于0.1的范围内，决策树的最大深度参数范围在大于5且小于12的范围内；

在贝叶斯超参数优化过程中进行寻优，采用十倍交叉验证的方式进行评估，至少一轮寻优后得到最佳超参数组合，将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。

进一步的，提供一种优选实施方式，步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为：先将UCI心脏病数据集初始化，对缺失值的数据点做k邻近填充，计算含缺失值的数据点与不含缺失值的数据点的距离矩阵，选出欧氏距离最近的k个数据点，用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。

方案二、基于贝叶斯超参数优化梯度提升树心脏病预测装置，所述装置包括：

缺失值填补模块，用于对UCI心脏病数据集采用KNN算法进行缺失值填补；

数据处理模块，用于将填补后的UCI心脏病数据集进行Min-Max标准化和One-Hot编码处理；

优化模块，基于步骤二处理后的UCI心脏病数据集，采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化；其中，采用梯度提升树算法对Cleveland数据集和Hungarian数据集两个数据集进行贝叶斯超参数优化的过程中采用KNN-GBDT模型实现，通过设置迭代次数、学习率、决策树的最大深度参数范围完成优化；所述参数范围使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整得到；

验证模块，用于在贝叶斯超参数优化过程中进行寻优，采用十倍交叉验证的方式进行评估，至少一轮寻优后得到最佳超参数组合，将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。

方案三、电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

方案四、计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

方案五、计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如方案一中任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

本发明的有益之处在于：

本发明提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置，且本发明针对两种数据集进行预测，采用在能够针对不同的数据集寻找各自最优的超参数组合，分别带入到算法中进行预测，具有较好的泛化能力，并且优化后的模型与现有技术算法相比，在Cleveland数据集上预测的准确率提升了5.6%，在Hungarian数据集上预测准确率提升了8.4%，提高了算法的准确率。

本发明为了提高算法的稳定性和准确，对获取的数据集进行Min-Max标准化处理，由于数据集中存在大量离散值特征，采用One-Hot编码将原来的离散型特征转换，通过实验证明处理后的预测准确率得到进一步提升。

本发明还适用于心脏病预测的数据处理领域中。

附图说明

图1为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的流程图。

图2为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的One-Hot编码处理胸痛类型特征示意图。

图3为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的参数范围示意图。

图4为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的在Cleveland利夫兰数据集上不同预测算法的对比示意图。

图5为实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的在Hungarian数据集上不同预测算法的对比示意图。

具体实施方式

为使本申请实施方式的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部实施方式。

实施方式一、本实施方式提供了基于贝叶斯超参数优化梯度提升树心脏病预测方法，所述预测方法包括以下步骤：

步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补；

步骤四、在贝叶斯超参数优化过程中进行寻优，采用十倍交叉验证的方式进行评估，至少一轮寻优后得到最佳超参数组合，将所述最佳超参数组合带入梯度提升树算法中分别对Cleveland数据集和Hungarian数据集两个数据集中完成对心脏病预测。

参见图1至图3说明本实施方式，其中，Hungarian数据集和Cleveland数据集分别表示克利夫兰数据集和匈牙利数据集，在步骤一中由于获取到的数据集含有缺失值，首先对获取的数据集采用KNN算法进行缺失值填补，先将数据初始化，然后对缺失值的数据点做k邻近填充，计算含缺失值的数据点与其他不含缺失值的数据点的距离矩阵，选出欧氏距离最近的k个数据点，用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。

步骤二、对UCI心脏病数据集分析，UCI心脏病数据集中各特征属性的尺度不同，因此将数据进行Min-Max标准化，将数据压缩为 0～1 范围，来提高模型分类的准确度。

步骤三、在UCI心脏病数据集中，cp，restecg，slope，thal等特征都是离散值，为了适应模型训练，将这些特征进行One-Hot编码处理。通过对各离散特征进行One-Hot编码处理，数据集由原来的14个特征变为27个特征，对处理后的数据集重新进行训练，得到的预测准确度进一步提升。例如图2中对胸痛类型(cp) ，其中0代表典型心绞痛（typicalangina），1代表非典型心绞痛（atypical angina），2代表非心绞痛（non-anginal pain），3代表无症状（asymptomatic）进行One-Hot编码处理。处理过程参见图1所示。

步骤四、对梯度提升树算法进行贝叶斯超参数优化，提出了KNN-GBDT模型，通过设置迭代次数、学习率、决策树的最大深度等参数参数范围，使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数，采用十倍交叉验证的方式进行评估，多轮寻优最终得到最佳超参数组合带入算法中进行预测。

本实施方式与现有技术相比，能够针对不同的数据集寻找各自最优的超参数组合，分别带入到算法中进行预测，具有较好的泛化能力，并且优化后的模型与原有算法相比，在Cleveland数据集上预测的准确率提升了5.6%，在Hungarian数据集上预测准确率提升了8.4%，提高了算法的准确率。

实施方式二、本实施方式是对实施方式一所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法的进一步限定，步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为：先将UCI心脏病数据集初始化，对缺失值的数据点做k邻近填充，计算含缺失值的数据点与不含缺失值的数据点的距离矩阵，选出欧氏距离最近的k个数据点，用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。

步骤一中由于获取到的数据集含有缺失值，首先对获取的数据集采用KNN算法进行缺失值填补，先将数据初始化，然后对缺失值的数据点做k邻近填充，计算含缺失值的数据点与其他不含缺失值的数据点的距离矩阵，选出欧氏距离最近的k个数据点，用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。

本实施方式提出了KNN-GBDT模型，优化后的梯度提升树模型和传统的算法进行比较，准确率得到了提升。为了提高算法的泛化能力，又将模型应用到Hungarian数据集，分别使用优化模型和传统算法进行预测，得出优化模型准确率也的到了提高。优化方式如下：由于不同的参数组合对梯度提升树的预测结果有着很大的影响，因此，对模型的迭代次数、学习率、决策树的最大深度等参数进行贝叶斯优化，各参数设置范围如图3所示。

本实施方式优化过程使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数，在设置的参数范围内进行寻优，采用十倍交叉验证的方式进行评估，多轮寻优最终得到最佳超参数组合，并将参数带入算法中分别对Cleveland数据集和Hungarian数据集两个数据集进行的预测。

实施方式三、本实施方式提出了一种基于贝叶斯超参数优化梯度提升树心脏病预测装置，所述装置包括：

实施方式四、本实施方式提出了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施方式一至四任一项所述基于贝叶斯超参数优化梯度提升树的心脏病预测方法。

实施方式五、本实施方式提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施方式一至二任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

实施方式六、本实施方式提出了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如实施方式一至二任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

实施方式七、本实施方式提供以下实施例，用于解释上述实施方式，

实施例1、在选取心脏病预测模型时，首先采用决策树(DT)、KNN、SVM、梯度提升树(GBDT)等传统的机器学习算法，分别对Cleveland数据集进行预测，测试完成后为了进一步提高预测的准确率，又对梯度提升树算法进行贝叶斯超参数优化，提出了KNN-GBDT模型，优化后的梯度提升树模型和传统的算法进行比较，准确率得到了提升。为了提高算法的泛化能力，又将模型应用到Hungarian数据集，分别使用优化模型和传统算法进行预测，得出优化模型准确率也的到了提高。优化方式如下：由于不同的参数组合对梯度提升树的预测结果有着很大的影响，因此，对模型的迭代次数、学习率、决策树的最大深度等参数进行贝叶斯优化，各参数设置范围如图3所示，优化过程使用Python中的bayes_opt.BayesianOptimization函数通过步长来调整参数，在设置的参数范围内进行寻优，采用十倍交叉验证的方式进行评估，多轮寻优最终得到最佳超参数组合，并将参数带入算法中分别对Cleveland数据集和Hungarian数据集两个数据集进行的预测。

决策树(DT)、KNN、SVM、梯度提升树(GBDT)几种常见的机器学习算法在做分类预测中应用的比较多，为了验证KNN-GBDT模型的有效性，在Cleveland数据集将它和四种算法进行对比，对比结果参见图4所示，本实施方式所采用的KNN-GBDT模型在Cleveland数据集进行训练的准确率、召回率、精准率和AUC分别为0.901、0.875、0.933、0.94，高于现有技术中DT、KNN、SVM和GBDT准确率、召回率、精准率和AUC。

为了进一步验证KNN-GBDT算法的泛化能力，使用Hungarian数据集进行训练，训练后预测结果也有明显的提升，对比结果参见图5所示，同理本实施方式所采用的KNN-GBDT模型在Hungarian数据集进行训练的准确率、召回率、精准率和AUC分别为0.814、0.714、0.750、0.92，高于现有技术中DT、KNN、SVM和GBDT模型准确率、召回率、精准率和AUC。即本实施方式相对于传统算法而言，KNN_GBDT模型各评价指标都得到提升，最终选取贝叶斯超参数优化梯度提升树模型为该方法的预测模型。

为了提高算法的稳定性和准确，对获取的数据集进行Min-Max标准化处理，由于数据集中存在大量离散值特征，采用One-Hot编码将原来的离散型特征转换，通过实验，处理后的预测准确率得到进一步提升。

在本说明书的描述中，仅为本发明的较佳实施例，不能以此限定本发明之权利范围；另外，参考术语“一个实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或N个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和可以进行多种组合。所有这些组合均落入本公开的范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于贝叶斯超参数优化梯度提升树心脏病预测方法，其特征在于，所述预测方法包括以下步骤：

步骤一、对UCI心脏病数据集采用KNN算法进行缺失值填补；

2.根据权利要求1所述的基于贝叶斯超参数优化梯度提升树心脏病预测方法，其特征在于，步骤一中对UCI心脏病数据集采用KNN算法进行缺失值填补的方法为：先将UCI心脏病数据集初始化，对缺失值的数据点做k邻近填充，计算含缺失值的数据点与不含缺失值的数据点的距离矩阵，选出欧氏距离最近的k个数据点，用选中的k个近邻的数据点对应的字段均值来填充数据中的空缺值。

3.基于贝叶斯超参数优化梯度提升树心脏病预测装置，其特征在于，所述装置包括：

4.电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

5.计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。

6.计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述基于贝叶斯超参数优化梯度提升树心脏病预测方法。