CN109086412A - 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法 - Google Patents

一种基于自适应加权Bagging-GBDT的不平衡数据分类方法 Download PDF

Info

Publication number
CN109086412A
CN109086412A CN201810876006.3A CN201810876006A CN109086412A CN 109086412 A CN109086412 A CN 109086412A CN 201810876006 A CN201810876006 A CN 201810876006A CN 109086412 A CN109086412 A CN 109086412A
Authority
CN
China
Prior art keywords
sample
samples
training
class
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810876006.3A
Other languages
English (en)
Inventor
高欣
何杨
李新鹏
阎博
井潇
李军良
徐建航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Beijing Kedong Electric Power Control System Co Ltd, State Grid Jibei Electric Power Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810876006.3A priority Critical patent/CN109086412A/zh
Publication of CN109086412A publication Critical patent/CN109086412A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出了一种基于自适应加权Bagging‑GBDT的不平衡数据分类方法,包括:根据k‑means算法将多数类样本聚成多个簇,对每个簇样本进行多次分层欠采样;将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型;根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型。本发明实施例提供的技术方案,可以有效解决正负样本不平衡的分类问题,能针对每一个数据样本实现分类模型的自适应加权集成,提高分类模型的综合指标。

Description

一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
【技术领域】
本发明涉及机器学习领域分类方法,尤其涉及一种基于自适应加权Bagging-GBDT的不平衡数据分类方法。
【背景技术】
在利用机器学习方法解决分类问题时,存在正负样本数目不平衡的现象。根据合适的分类算法解决数据不平衡分类问题,以提高模型对正负样本整体的识别率,是当今研究的热点之一。解决目前对于不平衡数据的分类问题,常用技术主要分为数据层面和算法层面。数据层面主要包括重采样,重采样是一种数据预处理方法,而不是分类方法。重采样技术分为对数目较少类别的过抽样与对数目较多类别的欠抽样。过抽样中经典的方法是SMOTE算法,该算法从每个少数类样本的最近邻中随机挑选一个样本,然后在这两个样本之间的连线上随机选择一点作为新合成的少数类样本。过抽样具有的缺点是增加少数样本,可能会造成过拟合,而且样本的增加也会影响计算效率。欠抽样中主要有随机欠采样,该算法可以减少运行时间,尤其当训练数据数目很大时,可以通过减少多数类样本数量来提高模型效率。但是随机欠采样具有一定的盲目性,会导致部分多数类样本信息的丢失。算法层面主要包括代价敏感学习,该方法为少数类样本分配的错误分类代价成本高于多数类样本,优化目标是使分类器的分类结果对应总代价成本最低,如何确定合适的代价成本是这类方法需要考虑的问题,同时也是难以解决的问题。将采样技术与集成学习方法相结合也是处理不平衡数据集分类问题的有效手段,这样不仅能够充分利用采样技术平衡数据集,还可以通过集成学习得到强分类器以提高学习准确率。主要分为基于Bagging和基于Boosting的方法,前者继承bagging思想的优点,即减少了方差,但是缺点在于降低偏差方面的效果不如基于Boosting的方法,有效地组合两种方法可以提高对不平衡数据的分类效果。
【发明内容】
有鉴于此,本发明实施例提出了一种基于自适应加权Bagging-GBDT的不平衡数据分类方法,以提高分类模型对正负样本整体的识别率。
本发明实施例提出的一种基于自适应加权Bagging-GBDT的不平衡数据分类方法,包括:
根据k-means算法将多数类样本聚成多个簇,对每个簇样本进行多次分层欠采样;
将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型;
根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型。
上述方法中,根据k-means聚类算法对多数类样本进行多次分层欠采样,解决随机欠采样方法易丢弃潜在有用样本的问题的方法为:假定数据集中正负样本的不平衡比率为Ratio,设定聚类中心点个数k为{Ratio,3,5,10}中的某个值,训练集少数类样本总数为num,根据k-means算法将多数类训练样本聚成k簇,对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num,重复不放回抽样T次;
上述方法中,将每次采样后的多数类样本与全部少数类训练样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型的方法为:通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集,假定表示第t份训练子集,其中,t=1:T,(xi,yi)表示该子集中的第i个样本,xi为样本输入特征,yi为样本真实类别,yi∈(0,1),N为训练集样本总数,初始化对应的子模型h0(x),如下所示:
其中,表示当h0(x)为最小时,叶结点输出值c的取值,L(yi,c)表示样本i对应的损失函数,当迭代次数为m时,对中所有的训练样本(xi,yi)计算负梯度rmi
其中,m=1:M,M为总迭代次数,δ表示求偏导,hm-1(xi)表示样本i在第m-1次迭代对应子模型上的预测值,根据(xi,rmi)拟合第m棵子树,得到该树的叶结点区Rmj,其中,j=1,2,...,J,j代表第j个叶节点,J为叶节点总数,对j=1,2,...,J,计算最优拟合值cmj
cmj代表第m棵子树中第j个叶节点输出值,更新子模型hm(x):
其中,I为指示函数,若样本属于叶节点Rmj则I取值1,不属于则I为0,重复迭代,直到m=M,得到最终子模型hM(x);
上述方法中,根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型的方法为:当测试样本xte进入分类模型时,计算欧氏距离dist:
其中,b代表样本特征总数,xtea与xtra分别为测试点与训练集内某一样本点在属性a上的取值,统计在训练样本集内最近n个邻居点少数类样本的数目count,计算少数类权重系数w+=count×1/n+1,多数类权重系数w-默认设置为1;分别通过各个子分类模型进行测试得到预测样本类别;根据加权投票法得到最终的分类模型H(x):
其中,w∈(w+,w-),表示H(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个子模型,据此得出测试样本的实际预测类别。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的流程示意图;
图2是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法模型训练阶段与测试阶段算法框架流程图;
图3是本发明实施例应用于10例公开不平衡数据集解决二分类任务时,Bagging-GBDT方法与典型不平衡分类方法ModifiedBagging的G-mean值的对比示意图,G-mean指的是多数类与少数类查全率乘积平方根;
图4是本发明实施例应用于10例公开不平衡数据集解决分类任务时,Bagging-GBDT方法与典型不平衡分类方法ModifiedBagging的F1-measure值的对比示意图,F1-measure指的是少数类查全率与查准率调和平均值。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法,请参考图1,其为本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101,根据k-means算法将多数类样本聚成多个簇,对每个簇样本进行多次分层欠采样。
具体的,假定数据集中正负样本的不平衡比率为Ratio,设定聚类中心点个数k为{Ratio,3,5,10}中的某个值,训练集少数类样本总数为num,根据k-means算法将多数类训练样本聚成k簇,对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num,重复不放回抽样T次。
步骤102,将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型。
具体的,通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集,假定表示第t份训练子集,其中,t=1:T,(xi,yi)表示该子集中的第i个样本,xi为样本输入特征,yi为样本真实类别,yi∈(0,1),N为训练集样本总数,初始化对应的子模型h0(x),如下所示:
其中,表示当h0(x)为最小时,叶结点输出值c的取值,L(yi,c)表示样本i对应的损失函数,当迭代次数为m时,对中所有的训练样本(xi,yi)计算负梯度rmi
其中,m=1:M,M为总迭代次数,δ表示求偏导,hm-1(xi)表示样本i在第m-1次迭代对应子模型上的预测值,根据(xi,rmi)拟合第m棵子树,得到该树的叶结点区Rmj,其中,j=1,2,...,J,j代表第j个叶节点,J为叶节点总数,对j=1,2,...,J,计算最优拟合值cmj
cmj代表第m棵子树中第j个叶节点输出值,更新子模型hm(x):
其中,I为指示函数,若样本属于叶节点Rmj则I取值1,不属于则I为0,重复迭代,直到m=M,得到最终子模型hM(x)。
步骤103,根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型。
具体的,当测试样本xte进入分类模型时,计算欧氏距离dist:
其中,b代表样本特征总数,xtea与xtra分别为测试点与训练集内某一样本点在属性a上的取值,统计在训练样本集内最近n个邻居点少数类样本的数目count,计算少数类权重系数w+=count×1/n+1,多数类权重系数w-默认设置为1;分别通过各个子分类模型进行测试得到预测样本类别;根据加权投票法得到最终的分类模型H(x):
其中,w∈(w+,w-),表示H(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个子模型,据此得出测试样本的实际预测类别。
算法1为本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法的伪代码:
图2是本发明实施例所提出的基于自适应加权Bagging-GBDT的不平衡数据分类方法训练阶段与测试阶段算法框架流程图,提出的方法主要包括训练阶段与测试阶段。在训练阶段,首先将训练数据集划分为多数类与少数类,对多数类样本进行k-means聚类,得到k个样本簇。根据分层抽样法从k个样本簇中随机抽取与少数类样本相同数量的多数类样本,重复抽样T次。将T份多数类样本集分别与全部少数类样本组合得到T份训练样本子集,对全部子集进行训练建立T个GBDT分类子模型。在测试阶段,在训练集中选取离测试点最近的n个点,统计n个点中属于少数类的样本个数count,根据count计算权重系数w+、w-,根据权重系数对各个子模型进行加权投票集成最终的分类模型。
表一是本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法解决10例公开数据集分类任务时,G-mean值(各类查全率乘积平方根)的对比实验结果,其中,本发明实施例中对比方法是典型解决不平衡分类问题的ModifiedBagging方法。由表一可以得出,本发明所提出的方法在公开数据集中相比于对比方法在G-mean值均有所提高。特别的,提出方法在糖尿病数据集上的提升值最高,达到7.94%。本发明实施例所提出的方法在不平衡数据分类整体查全率取得了一定突破。
表一
图3是本发明实施例应用于10例公开数据集解决分类任务时,与ModifiedBagging方法的G-mean值对比示意图。
表二是本发明实施例给出基于自适应加权Bagging-GBDT的不平衡数据分类方法解决10例公开数据集分类任务时,F1-measure值(少数类查全率与查准率调和平均值)的对比实验结果,其中,本发明实施例中对比方法是典型解决不平衡分类问题的ModifiedBagging方法。由表二可以得出,本发明所提出的方法在公开数据集中相比于对比方法在F1-measure值均有所提高。特别的,提出方法在心脏病数据集上的提升值最高,达到12.2%。本发明实施例所提出的方法在对少数类别样本的分类取得了一定突破。
表二
图4是本发明实施例应用于10例公开数据集解决分类任务时,与ModifiedBagging方法的F1-measure值对比示意图。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,根据k-means聚类算法对多数类样本进行多次欠采样,解决随机欠采样方法易丢弃潜在有用样本的问题;将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型;根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型。根据本发明实施例提供的技术方案,可以有效解决正负样本不平衡的分类问题,能针对每一个数据样本实现分类模型的自适应加权集成,提高分类模型的综合指标。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.一种基于自适应加权Bagging-GBDT的不平衡数据分类方法,其特征在于,所述方法步骤包括:
(1)根据k-means算法将多数类样本聚成多个簇,对每个簇样本进行多次分层欠采样;
(2)将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型;
(3)根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型。
2.根据权利要求1所述的方法,其特征在于,根据k-means算法将多数类样本聚成多个簇,对每个簇样本进行多次分层欠采样,具体说明如下:假定数据集中正负样本的不平衡比率为Ratio,设定聚类中心点个数k为{Ratio,3,5,10}中的某个值,训练集少数类样本总数为num,根据k-means算法将多数类训练样本聚成k簇,对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num,重复不放回抽样T次。
3.根据权利要求1所述的方法,其特征在于,将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集,根据这些子集训练多个预测精度较高的GBDT子分类模型,具体说明为:通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集,假定表示第t份训练子集,其中,t=1:T,(xi,yi)表示该子集中的第i个样本,xi为样本输入特征,yi为样本真实类别,yi∈(0,1),N为训练集样本总数,初始化对应的子模型h0(x),如下所示:
其中,argmcin表示当h0(x)为最小时,叶结点输出值c的取值,L(yi,c)表示样本i对应的损失函数,当迭代次数为m时,对中所有的训练样本(xi,yi)计算负梯度rmi
其中,m=1:M,M为总迭代次数,δ表示求偏导,hm-1(xi)表示样本i在第m-1次迭代对应子模型上的预测值,根据(xi,rmi)拟合第m棵子树,得到该树的叶结点区Rmj,其中,j=1,2,...,J,j代表第j个叶节点,J为叶节点总数,对j=1,2,...,J,计算最优拟合值cmj
cmj代表第m棵子树中第j个叶节点输出值,更新子模型hm(x):
其中,I为指示函数,若样本属于叶节点Rmj则I取值1,不属于则I为0,重复迭代,直到m=M,得到最终子模型hM(x)。
4.根据权利要求1所述的方法,其特征在于,根据测试点邻域样本类别自适应地确定各子模型权重,据此通过加权硬投票方式集成最终的分类模型,具体说明为:当测试样本xte进入分类模型时,计算欧氏距离dist:
其中,b代表样本特征总数,xtea与xtra分别为测试点与训练集内某一样本点在属性a上的取值,统计在训练样本集内最近n个邻居点少数类样本的数目count,计算少数类权重系数w+=count×1/n+1,多数类权重系数w-默认设置为1;分别通过各个子分类模型进行测试得到预测样本类别;根据加权投票法得到最终的分类模型H(x):
其中,w∈(w+,w-),表示H(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个子模型,据此得出测试样本的实际预测类别。
CN201810876006.3A 2018-08-03 2018-08-03 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法 Pending CN109086412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810876006.3A CN109086412A (zh) 2018-08-03 2018-08-03 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810876006.3A CN109086412A (zh) 2018-08-03 2018-08-03 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN109086412A true CN109086412A (zh) 2018-12-25

Family

ID=64833420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810876006.3A Pending CN109086412A (zh) 2018-08-03 2018-08-03 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN109086412A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816028A (zh) * 2019-01-18 2019-05-28 创新奇智(南京)科技有限公司 一种部分特征迁移的非平衡数据集分类模型融合方法
CN109839917A (zh) * 2019-01-08 2019-06-04 浙江大学 一种自适应校正的采煤机故障诊断系统
CN110265146A (zh) * 2019-06-17 2019-09-20 东北大学秦皇岛分校 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN112364706A (zh) * 2020-10-19 2021-02-12 燕山大学 一种基于类不平衡的小样本轴承故障诊断方法
CN113052198A (zh) * 2019-12-28 2021-06-29 中移信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN113095403A (zh) * 2021-04-13 2021-07-09 北京工业大学 一种基于分级采样的不平衡数据再平衡处理方法
CN113128623A (zh) * 2021-05-13 2021-07-16 重庆理工大学 一种用于地震相分析的鲁棒K-means算法
CN113361591A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于类别组合和样本采样的类别不平衡处理方法
CN113609843A (zh) * 2021-10-12 2021-11-05 京华信息科技股份有限公司 一种基于梯度提升决策树的句词概率计算方法及系统
CN113632112A (zh) * 2019-04-11 2021-11-09 国际商业机器公司 增强的集成模型多样性和学习
CN114444576A (zh) * 2021-12-30 2022-05-06 北京达佳互联信息技术有限公司 一种数据采样方法、装置、电子设备及存储介质
CN114638983A (zh) * 2021-12-18 2022-06-17 海南大学 一种不平衡学习动态恢复大类重要性的损失函数计算方法
WO2024179574A1 (zh) * 2023-03-02 2024-09-06 北京字跳网络技术有限公司 样本数据类别的识别方法、识别模型及其训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN107239789A (zh) * 2017-05-09 2017-10-10 浙江大学 一种基于k‑means的不平衡数据工业故障分类方法
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN107944460A (zh) * 2016-10-12 2018-04-20 甘肃农业大学 一种应用于生物信息学中类别不平衡分类方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN107239789A (zh) * 2017-05-09 2017-10-10 浙江大学 一种基于k‑means的不平衡数据工业故障分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李金孟 等: "基于Hubness与类加权的k最近邻分类算法", 《计算机工程》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839917A (zh) * 2019-01-08 2019-06-04 浙江大学 一种自适应校正的采煤机故障诊断系统
CN109839917B (zh) * 2019-01-08 2020-10-20 浙江大学 一种自适应校正的采煤机故障诊断系统
CN109816028A (zh) * 2019-01-18 2019-05-28 创新奇智(南京)科技有限公司 一种部分特征迁移的非平衡数据集分类模型融合方法
CN113632112A (zh) * 2019-04-11 2021-11-09 国际商业机器公司 增强的集成模型多样性和学习
CN110265146A (zh) * 2019-06-17 2019-09-20 东北大学秦皇岛分校 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN113052198A (zh) * 2019-12-28 2021-06-29 中移信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN112364706A (zh) * 2020-10-19 2021-02-12 燕山大学 一种基于类不平衡的小样本轴承故障诊断方法
CN113095403A (zh) * 2021-04-13 2021-07-09 北京工业大学 一种基于分级采样的不平衡数据再平衡处理方法
CN113095403B (zh) * 2021-04-13 2024-04-09 北京工业大学 一种基于分级采样的不平衡数据再平衡处理方法
CN113128623A (zh) * 2021-05-13 2021-07-16 重庆理工大学 一种用于地震相分析的鲁棒K-means算法
CN113128623B (zh) * 2021-05-13 2022-04-15 重庆理工大学 一种用于地震相分析的鲁棒K-means算法
CN113361591A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于类别组合和样本采样的类别不平衡处理方法
CN113609843A (zh) * 2021-10-12 2021-11-05 京华信息科技股份有限公司 一种基于梯度提升决策树的句词概率计算方法及系统
CN113609843B (zh) * 2021-10-12 2022-02-01 京华信息科技股份有限公司 一种基于梯度提升决策树的句词概率计算方法及系统
CN114638983A (zh) * 2021-12-18 2022-06-17 海南大学 一种不平衡学习动态恢复大类重要性的损失函数计算方法
CN114444576A (zh) * 2021-12-30 2022-05-06 北京达佳互联信息技术有限公司 一种数据采样方法、装置、电子设备及存储介质
WO2024179574A1 (zh) * 2023-03-02 2024-09-06 北京字跳网络技术有限公司 样本数据类别的识别方法、识别模型及其训练方法

Similar Documents

Publication Publication Date Title
CN109086412A (zh) 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN108228716B (zh) 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
CN106599935B (zh) 基于Spark大数据平台的三支决策不平衡数据过采样方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN105320961A (zh) 基于卷积神经网络和支持向量机的手写数字识别方法
CN110533112A (zh) 车联网大数据跨域分析融合方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN111738303A (zh) 一种基于层次学习的长尾分布图像识别方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN109257383A (zh) 一种bgp异常检测方法及系统
CN110567721A (zh) 一种滚动轴承故障诊断方法及系统
CN110929761A (zh) 智能系统安全体系态势感知构架中采集样本的平衡方法
CN114708479A (zh) 一种基于图结构和特征的自适应防御方法
CN117076871B (zh) 一种基于不平衡半监督对抗训练框架的电池故障分类方法
CN117290673A (zh) 一种基于多模型融合的船舶能耗高精度预测系统
Arkok et al. Classification of Quranic Topics Using SMOTE Technique
Zhang et al. Kd-tree based efficient ensemble classification algorithm for imbalanced learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181225

WD01 Invention patent application deemed withdrawn after publication