CN112766356A

CN112766356A - 一种基于动态权重D-XGBoost模型的预测方法及系统

Info

Publication number: CN112766356A
Application number: CN202110047429.6A
Authority: CN
Inventors: 卢宇彤; 蓝嘉璐; 陈志广
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-07

Abstract

本发明公开了一种基于动态权重D‑XGBoost模型的预测方法及系统，该方法包括：获取数据集并对数据集中的数据进行格式统一，得到统一的数据；对统一的数据进行数据降维、数据清洗和过采样处理，得到预处理后的数据集；基于动态权重策略的D‑XGBoost模型对预处理后的数据集进行参数预测。该系统包括：数据预处理模块和参数预测模块。通过使用本发明，避免了少数类样本容易与周围的多数类样本产生重叠难以分类的问题。本发明作为一种基于动态权重D‑XGBoost模型的预测方法及系统，可广泛应用于数据预测领域。

Description

一种基于动态权重D-XGBoost模型的预测方法及系统

技术领域

本发明涉及数据预测领域，尤其涉及一种基于动态权重D-XGBoost模型的预测方法及系统。

背景技术

随着互联网的普及，各种数据的积累，大数据技术的兴起以及机器学习算法的飞速发展，使用机器学习的方法实现多来源、多种类数据的识别与预测越来越普遍。目前部分方法对数据预处理无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题，这种边界模糊性,虽然使数据集的平衡性得到了改善，但加大了后续分类算法进行分类的难度；还有的方法采用的是距离优先的算法，在面临均匀分布的数据集时具有较好的聚类性能，但是面对非均匀数据集时，其聚类性能有所损失。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于动态权重D-XGBoost模型的预测方法及系统，避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题。

本发明所采用的第一技术方案是：一种基于动态权重D-XGBoost模型的预测方法，包括以下步骤：

获取数据集并对数据集中的数据进行格式统一，得到统一的数据；

对统一的数据进行数据降维、数据清洗和过采样处理，得到预处理后的数据集；

基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。

进一步，所述对统一的数据进行数据降维、数据清洗和过采样处理，得到预处理后的数据集这一步骤，其具体包括：

基于主成分分析法对统一的数据进行数据降维，得到降维后的数据；

基于最邻近规则算法对降维后的数据进行数据清洗，得到少数类样本集；

基于合成少数类过采样技术对少数类样本集进行过采样处理，得到预处理后的数据集。

进一步，所述基于主成分分析法对统一的数据进行数据降维，得到降维后的数据这一步骤，其具体包括：

从统一的数据中采集出维随机向量，并构造样本矩阵；

对样本矩阵进行均值归零化处理，得到标准化矩阵；

计算标准化矩阵的自相关矩阵；

计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分，得到降维后的数据。

进一步，所述基于合成少数类过采样技术对少数类样本集进行过采样处理，得到预处理后的数据集这一步骤，其具体包括：

对少数类样本集中的少数类样本x，以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离，得到对应的n个近邻；

根据样本不平衡比例设置采样比例并确定采样倍率；

对于少数类样本，基于采样倍率从对应的n个近邻中随机选择若干个样本，得到对应选择的近邻x_n；

对于近邻x_n，分别与原样本集合构建新样本，得到预处理后的数据集。

进一步，所述对于近邻x_n，分别与原样本集合构建新样本这一步骤的具体计算公式如下：

上式中，x_new为新样本的坐标值，

为所有样本均值，x为当前样本坐标值，rand(0，1)为范围为0到1的随机数。

进一步，所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤，其具体包括：

基于DBSCAN算法将预处理后的数据集划分为具有共同特征的多个数据簇；

对于数据簇建立XGBoost树模型进行参数预测，得到对应的预测结果和样本权重；

根据预测结果迭代更新样本权重；

判断到迭代次数大于预设值，得到最终预测结果。

进一步，所述对于数据簇建立XGBoost树模型进行参数预测，得到对应的预测结果和样本权重这一步骤，其具体包括：

对于数据簇建立XGBoost树模型进行参数预测；

循环添加树并拟合上一颗树的预测残差，得到对应树的预测结果；

在XGBoost模型中引入自定义的动态权重策略，得到对应轮次的样本权重。

进一步，所述对应树的预测结果的计算公式如下：

上式中，t表示树的轮次，

为第t棵树的预测结果，

为第t-1棵树的预测结果，f_t(x_i)为上一颗树的预测残差。

进一步，所述对应轮次的样本权重的计算公式如下：

上式中，l_i为第i轮的残差，a、b为常数参数，|Ser|为当前样本的残差，

为所有样本残差的均值，exp为以自然常数e为底的指数函数，

为上一轮的样本权重。

本发明所采用的第二技术方案是：一种基于动态权重D-XGBoost模型的预测系统，包括：

数据预处理模块，用于获取数据集并对数据集中的数据进行格式统一，对统一的数据进行数据降维、数据清洗和过采样处理，得到预处理后的数据；

参数预测模块，基于动态权重策略的D-XGBoost模型对预处理后的数据进行参数预测。

本发明方法及系统的有益效果是：本发明在数据预处理部分引入了ENN+SMOTE的数据处理方案，在进行数据过采样前，实现ENN算法数据清理，避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题，在参数预测方面，本发明引入DBSCAN+XGBoost，以DBSCAN的密度优先聚类方案，满足实际场景中非均匀分布数据的聚类要求，同时通过DBSCAN随机选取核心对象，避免了遍历所有数据集的问题，且DBSCAN可拓展到并行运算，简化了计算复杂度。

附图说明

图1是本发明具体实施例方法的步骤流程图；

图2是本发明具体实施例主成分分析法的步骤流程图；

图3是本发明具体实施例划分数据簇的步骤流程图；

图4是本发明具体实施例系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了一种基于动态权重D-XGBoost模型的预测方法，该方法包括以下步骤：

进一步作为本方法的优选实施例，所述对统一的数据进行数据降维、数据清洗和过采样处理，得到预处理后的数据集这一步骤，其具体包括：

具体地，对降维后的数据使用最邻近规则做数据清洗，即计算每一个多数类样本的个最邻近样本点，如果这个最邻近样本点属于多数类，则删除该点，否则保留。

具体地，由于实际临床数据往往数据量小，难以满足训练集对数据量的需求，需要对数据做过采样。

进一步作为本方法的优选实施例，参照图2，所述基于主成分分析法对统一的数据进行数据降维，得到降维后的数据这一步骤，其具体包括：

从统一的数据中采集出p维随机向量X＝(X₁，X₂，...，X_p)^T，并构造样本矩阵；

其中，X_i＝(x_i1，x_i2，...，x_ip)T，i＝1，2，..，n n＞p；

对样本矩阵进行均值归零化处理，得到标准化矩阵；

其中，

为第j行的均值，

为第j行的均方误差，i表示矩阵中的第i行，j表示矩阵中的第j列，x_ij为上述样本中的元素。

计算标准化矩阵的自相关矩阵R_ij；

其中，

具体地，解样本相关矩阵R的特征方程|R-λI_p|＝0，得到p个特征根，确定主成分，即按照

确定m值，其中该公式确定了其信息利用率大于α％，对每个λ_j，j＝1，2，...，m，解方程组Rb＝λ_jb得到单位特征向量

转换主成分的公式如下：

其中，U₁称为第一主成分，U₂称为第二主成分，...，U_p称为第p主成分。

由此将p维数据降维成m个主成分，同时去除了高维数据中的噪声。此处由于XGBoost自身贪心算法的复杂度，一般选取4-6个主成分数据。

进一步作为本方法的优选实施例，所述基于合成少数类过采样技术对少数类样本集进行过采样处理，得到预处理后的数据集这一步骤，其具体包括：

对少数类样本集中的少数类样本，以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离，得到对应的近邻；

根据样本不平衡比例设置采样比例并确定采样倍率；

对于少数类样本，基于采样倍率从对应的近邻中随机选择若干个样本，得到对应选择的近邻；

对于近邻，分别与原样本集合构建新样本，得到预处理后的数据集。

进一步作为本方法优选实施例，所述对于近邻x_n，分别与原样本集合构建新样本这一步骤的具体计算公式如下：

上式中，x_new为新样本的坐标值，

为所有样本均值，x为当前样本坐标值，rand(0，1)为范围为0到1的随机数，上述样本的参数均是针对对应的近邻x_n。

进一步作为本方法优选实施例，所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤，其具体包括：

具体地，参照图3，使用DBSCAN算法将数据分为具有共同特征的多个数据簇，假设样本集D＝(x₁，x₂，..，x_m)，邻域参数(∈，MinPts)，输出簇划分C＝{C₁，C₂，...，C_k}。

A.初始化核心对象集合Ω＝φ，初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分C＝φ，其中φ表示空集；

B.对于j＝1，2，...m，按下面的步骤找出所有的核心对象：B1通过距离度量方式，找到样本x_j的∈-邻域子样本集N∈(x_j)；B2如果子样本集样本个数满足|N∈(x_j)|≥MinPts，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

C.如果核心对象集合Ω＝φ，则算法结束，否则转入步骤d；

D.在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}。

E.如果当前簇核心对象队列Ω_cur＝φ，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁，C₂，...，C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤c。否则更新核心对象集合Ω＝Ω-C_k。

F.在当前簇核心对象队列Ω_cur中取出一个核心对象o′，通过邻域距离阈值∈找出所有的∈-邻域子样本集N_∈(o′)，令Δ＝N_∈(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o′，其中∩表示两个集合的交集，∪表示两个集合的并集，集合之间的“-”运算符表示从前一个集合中剔除后一个集合中的元素。之后转入步骤E。

根据预测结果迭代更新样本权重；

判断到迭代次数大于预设值，得到最终预测结果。

进一步作为本方法优选实施例，所述对于数据簇建立XGBoost树模型进行参数预测，得到对应的预测结果和样本权重这一步骤，其具体包括：

对于数据簇建立XGBoost树模型进行参数预测；

具体地，针对随机森林中每棵树都是孤立的特点进行提升，每棵树以上一棵树的残差为学习目标去拟合。

进一步作为本方法优选实施例，所述对应树的预测结果的计算公式如下：

上式中，t表示树的轮次，

为第t棵树的预测结果，

为第t-1棵树的预测结果，f_t(x_i)为上一颗树的预测残差。

进一步作为本方法的优选实施例，所述对应轮次的样本权重的计算公式如下：

为所有样本残差的均值，exp为以自然常数e为底的指数函数，

为上一轮的样本权重。

具体地，a和b都是参数，可用于影响系数的上限以及分布，并乘以当前样本的残差与所有样本残差的均值作为影响因子来变更下一轮该样本的权重，由此残差较大的训练样本将会获得更大的权重，目的是让拟合效果较差的样本在下一轮的训练中能得到更多的侧重。

如图4所示，一种基于动态权重D-XGBoost模型的预测系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。