CN112766356A - 一种基于动态权重D-XGBoost模型的预测方法及系统 - Google Patents
一种基于动态权重D-XGBoost模型的预测方法及系统 Download PDFInfo
- Publication number
- CN112766356A CN112766356A CN202110047429.6A CN202110047429A CN112766356A CN 112766356 A CN112766356 A CN 112766356A CN 202110047429 A CN202110047429 A CN 202110047429A CN 112766356 A CN112766356 A CN 112766356A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- prediction
- dynamic weight
- xgboost model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012847 principal component analysis method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于动态权重D‑XGBoost模型的预测方法及系统,该方法包括:获取数据集并对数据集中的数据进行格式统一,得到统一的数据;对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;基于动态权重策略的D‑XGBoost模型对预处理后的数据集进行参数预测。该系统包括:数据预处理模块和参数预测模块。通过使用本发明,避免了少数类样本容易与周围的多数类样本产生重叠难以分类的问题。本发明作为一种基于动态权重D‑XGBoost模型的预测方法及系统,可广泛应用于数据预测领域。
Description
技术领域
本发明涉及数据预测领域,尤其涉及一种基于动态权重D-XGBoost模型的预测方法及系统。
背景技术
随着互联网的普及,各种数据的积累,大数据技术的兴起以及机器学习算法的飞速发展,使用机器学习的方法实现多来源、多种类数据的识别与预测越来越普遍。目前部分方法对数据预处理无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题,这种边界模糊性,虽然使数据集的平衡性得到了改善,但加大了后续分类算法进行分类的难度;还有的方法采用的是距离优先的算法,在面临均匀分布的数据集时具有较好的聚类性能,但是面对非均匀数据集时,其聚类性能有所损失。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于动态权重D-XGBoost模型的预测方法及系统,避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题。
本发明所采用的第一技术方案是:一种基于动态权重D-XGBoost模型的预测方法,包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。
进一步,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。
进一步,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出维随机向量,并构造样本矩阵;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。
进一步,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本x,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的n个近邻;
根据样本不平衡比例设置采样比例并确定采样倍率;
对于少数类样本,基于采样倍率从对应的n个近邻中随机选择若干个样本,得到对应选择的近邻xn;
对于近邻xn,分别与原样本集合构建新样本,得到预处理后的数据集。
进一步,所述对于近邻xn,分别与原样本集合构建新样本这一步骤的具体计算公式如下:
进一步,所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤,其具体包括:
基于DBSCAN算法将预处理后的数据集划分为具有共同特征的多个数据簇;
对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重;
根据预测结果迭代更新样本权重;
判断到迭代次数大于预设值,得到最终预测结果。
进一步,所述对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重这一步骤,其具体包括:
对于数据簇建立XGBoost树模型进行参数预测;
循环添加树并拟合上一颗树的预测残差,得到对应树的预测结果;
在XGBoost模型中引入自定义的动态权重策略,得到对应轮次的样本权重。
进一步,所述对应树的预测结果的计算公式如下:
进一步,所述对应轮次的样本权重的计算公式如下:
本发明所采用的第二技术方案是:一种基于动态权重D-XGBoost模型的预测系统,包括:
数据预处理模块,用于获取数据集并对数据集中的数据进行格式统一,对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据;
参数预测模块,基于动态权重策略的D-XGBoost模型对预处理后的数据进行参数预测。
本发明方法及系统的有益效果是:本发明在数据预处理部分引入了ENN+SMOTE的数据处理方案,在进行数据过采样前,实现ENN算法数据清理,避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题,在参数预测方面,本发明引入DBSCAN+XGBoost,以DBSCAN的密度优先聚类方案,满足实际场景中非均匀分布数据的聚类要求,同时通过DBSCAN随机选取核心对象,避免了遍历所有数据集的问题,且DBSCAN可拓展到并行运算,简化了计算复杂度。
附图说明
图1是本发明具体实施例方法的步骤流程图;
图2是本发明具体实施例主成分分析法的步骤流程图;
图3是本发明具体实施例划分数据簇的步骤流程图;
图4是本发明具体实施例系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种基于动态权重D-XGBoost模型的预测方法,该方法包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。
进一步作为本方法的优选实施例,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
具体地,对降维后的数据使用最邻近规则做数据清洗,即计算每一个多数类样本的个最邻近样本点,如果这个最邻近样本点属于多数类,则删除该点,否则保留。
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。
具体地,由于实际临床数据往往数据量小,难以满足训练集对数据量的需求,需要对数据做过采样。
进一步作为本方法的优选实施例,参照图2,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出p维随机向量X=(X1,X2,...,Xp)T,并构造样本矩阵;
其中,Xi=(xi1,xi2,...,xip)T,i=1,2,..,n n>p;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵Rij;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。
具体地,解样本相关矩阵R的特征方程|R-λIp|=0,得到p个特征根,确定主成分,即按照确定m值,其中该公式确定了其信息利用率大于α%,对每个λj,j=1,2,...,m,解方程组Rb=λjb得到单位特征向量
转换主成分的公式如下:
其中,U1称为第一主成分,U2称为第二主成分,...,Up称为第p主成分。
由此将p维数据降维成m个主成分,同时去除了高维数据中的噪声。此处由于XGBoost自身贪心算法的复杂度,一般选取4-6个主成分数据。
进一步作为本方法的优选实施例,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的近邻;
根据样本不平衡比例设置采样比例并确定采样倍率;
对于少数类样本,基于采样倍率从对应的近邻中随机选择若干个样本,得到对应选择的近邻;
对于近邻,分别与原样本集合构建新样本,得到预处理后的数据集。
进一步作为本方法优选实施例,所述对于近邻xn,分别与原样本集合构建新样本这一步骤的具体计算公式如下:
进一步作为本方法优选实施例,所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤,其具体包括:
基于DBSCAN算法将预处理后的数据集划分为具有共同特征的多个数据簇;
具体地,参照图3,使用DBSCAN算法将数据分为具有共同特征的多个数据簇,假设样本集D=(x1,x2,..,xm),邻域参数(∈,MinPts),输出簇划分C={C1,C2,...,Ck}。
A.初始化核心对象集合Ω=φ,初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分C=φ,其中φ表示空集;
B.对于j=1,2,...m,按下面的步骤找出所有的核心对象:B1通过距离度量方式,找到样本xj的∈-邻域子样本集N∈(xj);B2如果子样本集样本个数满足|N∈(xj)|≥MinPts,将样本xj加入核心对象样本集合:Ω=Ω∪{xj};
C.如果核心对象集合Ω=φ,则算法结束,否则转入步骤d;
D.在核心对象集合Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o}。
E.如果当前簇核心对象队列Ωcur=φ,则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,...,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤c。否则更新核心对象集合Ω=Ω-Ck。
F.在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′),令Δ=N∈(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,其中∩表示两个集合的交集,∪表示两个集合的并集,集合之间的“-”运算符表示从前一个集合中剔除后一个集合中的元素。之后转入步骤E。
对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重;
根据预测结果迭代更新样本权重;
判断到迭代次数大于预设值,得到最终预测结果。
进一步作为本方法优选实施例,所述对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重这一步骤,其具体包括:
对于数据簇建立XGBoost树模型进行参数预测;
循环添加树并拟合上一颗树的预测残差,得到对应树的预测结果;
具体地,针对随机森林中每棵树都是孤立的特点进行提升,每棵树以上一棵树的残差为学习目标去拟合。
在XGBoost模型中引入自定义的动态权重策略,得到对应轮次的样本权重。
进一步作为本方法优选实施例,所述对应树的预测结果的计算公式如下:
进一步作为本方法的优选实施例,所述对应轮次的样本权重的计算公式如下:
具体地,a和b都是参数,可用于影响系数的上限以及分布,并乘以当前样本的残差与所有样本残差的均值作为影响因子来变更下一轮该样本的权重,由此残差较大的训练样本将会获得更大的权重,目的是让拟合效果较差的样本在下一轮的训练中能得到更多的侧重。
如图4所示,一种基于动态权重D-XGBoost模型的预测系统,包括:
数据预处理模块,用于获取数据集并对数据集中的数据进行格式统一,对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据;
参数预测模块,基于动态权重策略的D-XGBoost模型对预处理后的数据进行参数预测。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于动态权重D-XGBoost模型的预测方法,其特征在于,包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。
2.根据权利要求1所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。
3.根据权利要求2所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出p维随机向量X=(X1,X2,...,Xp)T,并构造样本矩阵;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。
4.根据权利要求3所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本x,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的n个近邻;
根据样本不平衡比例设置采样比例并确定采样倍率N;
对于少数类样本x,基于采样倍率从对应的n个近邻中随机选择若干个样本,得到对应选择的近邻xn;
对于近邻xn,分别与原样本集合构建新样本,得到预处理后的数据集。
6.根据权利要求5所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤,其具体包括:
基于DBSCAN算法将预处理后的数据集划分为具有共同特征的多个数据簇;
对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重;
根据预测结果迭代更新样本权重;
判断到迭代次数大于预设值,得到最终预测结果。
7.根据权利要求6所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重这一步骤,其具体包括:
对于数据簇建立XGBoost树模型进行参数预测;
循环添加树并拟合上一颗树的预测残差,得到对应树的预测结果;
在XGBoost模型中引入自定义的动态权重策略,得到对应轮次的样本权重。
10.一种基于动态权重D-XGBoost模型的预测系统,其特征在于,包括以下模块:
数据预处理模块,用于获取数据集并对数据集中的数据进行格式统一,对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据;
参数预测模块,基于动态权重策略的D-XGBoost模型对预处理后的数据进行参数预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110047429.6A CN112766356A (zh) | 2021-01-14 | 2021-01-14 | 一种基于动态权重D-XGBoost模型的预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110047429.6A CN112766356A (zh) | 2021-01-14 | 2021-01-14 | 一种基于动态权重D-XGBoost模型的预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766356A true CN112766356A (zh) | 2021-05-07 |
Family
ID=75700452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110047429.6A Pending CN112766356A (zh) | 2021-01-14 | 2021-01-14 | 一种基于动态权重D-XGBoost模型的预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707706A (zh) * | 2022-03-17 | 2022-07-05 | 广西科学院 | 一种基于不均衡数据的柴油发动机故障诊断方法 |
-
2021
- 2021-01-14 CN CN202110047429.6A patent/CN112766356A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707706A (zh) * | 2022-03-17 | 2022-07-05 | 广西科学院 | 一种基于不均衡数据的柴油发动机故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4123515A1 (en) | Data processing method and data processing device | |
US20190279088A1 (en) | Training method, apparatus, chip, and system for neural network model | |
CN111368254B (zh) | 多流形正则化非负矩阵分解的多视角数据缺失补全方法 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN103838803A (zh) | 一种基于节点Jaccard相似度的社交网络社团发现方法 | |
CN111127364A (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN113344128B (zh) | 一种基于微簇的工业物联网自适应流聚类方法及装置 | |
TWI812888B (zh) | 影像辨識方法及影像辨識系統 | |
CN111950620A (zh) | 基于DBSCAN和K-means算法的用户筛选方法 | |
CN115510981A (zh) | 一种决策树模型特征重要性计算方法、装置及存储介质 | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN113704565B (zh) | 基于全局区间误差的学习型时空索引方法、装置及介质 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN113066528B (zh) | 基于主动半监督图神经网络的蛋白质分类方法 | |
CN112766356A (zh) | 一种基于动态权重D-XGBoost模型的预测方法及系统 | |
CN114510871A (zh) | 基于思维进化和lstm的云服务器性能衰退预测方法 | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN113127469A (zh) | 一种三相不平衡数据的缺失值的填补方法及系统 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN111046958A (zh) | 基于数据依赖的核学习和字典学习的图像分类及识别方法 | |
CN115168326A (zh) | Hadoop大数据平台分布式能源数据清洗方法及系统 | |
AU2020103440A4 (en) | A method for optimizing the convergence performance of data learning with minimal computational steps | |
CN110415006B (zh) | 广告点击率预估方法和装置 | |
CN109472319B (zh) | 一种三维模型分类方法以及检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |