CN105373606A - 一种改进c4.5决策树算法下的不平衡数据抽样方法 - Google Patents

一种改进c4.5决策树算法下的不平衡数据抽样方法 Download PDF

Info

Publication number
CN105373606A
CN105373606A CN201510772750.5A CN201510772750A CN105373606A CN 105373606 A CN105373606 A CN 105373606A CN 201510772750 A CN201510772750 A CN 201510772750A CN 105373606 A CN105373606 A CN 105373606A
Authority
CN
China
Prior art keywords
sample
class
weight
samples
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510772750.5A
Other languages
English (en)
Inventor
邓维斌
刘进
熊冰妍
何菲菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201510772750.5A priority Critical patent/CN105373606A/zh
Publication of CN105373606A publication Critical patent/CN105373606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种改进C4.5决策树算法下的不平衡数据抽样方法,首先根据各类样本数量确定各个样本的初始权重,然后每轮通过改进C4.5决策树算法的训练结果对各样本的权重进行修改,改进的C4.5算法的分裂标准兼顾信息增益率和误分样本权重,经过T轮迭代后得到各样本的最终权重,最后根据样本权重找出位于少数类边界区域与多数类中心区域的样本,并使用SMOTE算法对少数类边界区域的样本进行过抽样,按权重抽样方法对多数类样本进行欠抽样,使中心区域的样本更易被选中,以改善不同类数据的平衡度,提高少数类和数据集整体的识别率。本发明通过改进的C4.5决策树算法进行权重修改,并根据样本权重有针对性地进行过抽样和欠抽样处理,有效地避免了分类器过拟合和丢失多数类有用信息等现象。

Description

一种改进C4.5决策树算法下的不平衡数据抽样方法
技术领域
本发明属于数据处理技术领域,涉及一种改进C4.5决策树算法下的不平衡数据抽样方法。
背景技术
不平衡数据集是指在数据集中,某一类的样本数量远远少于其它类的样本数量,其中数量占多数的类称为多数类,而占少数的类称为少数类。不平衡数据集的分类问题大量存在于人们的现实生活和工业生产之中,如客户流失预测、DNA微阵列数据分析、软件缺陷预测、垃圾邮件过滤、文本分类、医疗诊断等,在这些应用中,少数类分类精度往往更为重要。因此,提高少数类的分类精度成为不平衡数据集中的一个研究重点。
解决不平衡分类问题的策略可以分为两大类:一类是从训练集入手,通过改变训练集样本分布,降低不平衡程度。常用的方法有随机过抽样、随机欠抽样、SMOTE、Borderline-SMOTE、进化算法、基于聚类的过抽样算法(Under-samplingbasedonclustering,SBC)、基于局部聚类的过抽样方法等。但是欠抽样容易导致重要样本信息的丢失,过抽样会引起分类器过学习的问题。另一类是从学习算法入手,根据算法在解决不平衡问题时的缺陷,适当地修改算法使之适应不平衡分类问题。常用策略有:代价敏感方法,在传统的分类算法的基础上引人代价敏感因子,设计出代价敏感的分类算法,如代价敏感决策树、代价敏感支持向量机等,这些算法的关键都在于误分代价的确定,而在多数情况下,真实的误分代价很难被准确地估计。
发明内容
有鉴于此,本发明的目的在于提供一种改进C4.5决策树算法下的不平衡数据抽样方法,能够有针对性地进行过抽样和欠抽样处理,提高少数类和数据集整体的分类性能。
为达到上述目的,本发明提供如下技术方案:
一种改进C4.5决策树算法下的不平衡数据抽样方法,包括以下步骤:
1)根据训练集中各类样本的数量初始化各个样本的权重,作为该样本的误分权重;设迭代总次数为T,从1到T每轮迭代训练依次完成步骤2)~3);
2)利用改进的C4.5决策树算法对训练集进行学习,得到一套规则;
3)根据步骤2)所得规则修改训练集各个样本的权重,分类错误的样本权重增大,分类正确的样本权重减小,且变化幅度与其原始权重成正比;
4)设定过抽样率,并根据样本权重找出位于少数类边界区域的样本,利用SMOTE算法对此区域的样本进行过抽样,并将所有的少数类样本及过抽样所得样本添加到NewData数据集中;
5)设定欠抽样率,按照样本权重对多数类进行欠抽样,使位于多数类中心区域的样本更容易被选中,将选中的样本添加到NewData数据集中;
6)使用决策树算法对抽样得到的数据集NewData进行训练,得到规则并对测试集进行分类处理。
进一步,在步骤1)中,所述初始化各个样本的权重具体包括:设多数类样本数量为m,少数类样本数量为n,则所有多数类样本的权重为1/2m,少数类样本的权重为1/2n,这样既体现了多数类样本与少数类样本之间的差异,又保证了所有样本权重和为1。
进一步,在步骤2)中,改进的C4.5决策树算法的构建要点如下:
a)分裂属性的选择:分裂标准需要兼顾属性信息增益率和误分样本权重。设S表示样本集合,属性Ai将当前样本集合分为v个不相交的子集{S1,S2,...,Sv},则选择标准的计算公式为:f(S,Ai)=GainRatio(S,Ai)×ReduMc(S,Ai),选择使f取最大值的属性作为分裂属性;
GainRatio(S,Ai)为以Ai作为分裂属性时的信息增益率,值越大说明属性的分类性能越好,其计算公式为:其中Gain(S,Ai)=I(S)-I(S,Ai),I(S)表示分裂前S的信息熵,I(S,Ai)表示按属性Ai分裂之后各子集的信息熵加权和,计算公式为:
I ( S ) = Σ i = 1 C - p i × log p i , I ( S , A i ) = Σ i = 1 v | S i | | S | × I ( S i ) , pi是S中样本属于类别i的概率,C是类别数量;
ReduMc(S,Ai)为以Ai作为分裂属性时的误分权重减少量,其计算公式为:其中Mc(S)为分裂前的误分权重,设S中有p个少数类样本和n个多数类样本,记p个少数类样本的权重和为pw,n个多数类样本的权重和为nw,则Mc(S)=Min(pw,nw),为v个子集的误分权重和;
b)分裂点的选择:若分裂属性为离散型,直接将各个离散值作为当前节点的分支;若分裂属性为连续型,首先将样本中分裂属性的所有取值进行排序,并将相邻值的平均值作为候选分裂点,其次计算各个候选分裂点分裂的f值,f值最大的候选分裂点作为分裂点,将当前节点分裂为两颗子树;
c)叶子节点类标记的确定:当一个分类节点中所有样本的类型标记都相同或者样本数量小于给定值时,将当前节点标记为叶子节点;如果所有样本的类型相同,那么直接将当前节点的类型标记为该类型;如果样本数量少于给定的数量,计算各类样本的权重总和,设当前节点包含p个少数类样本和n个多数类样本,p个少数类样本权重记为pw,n个多数类样本权重记为nw,若pw>nw,则将当前节点的类型标记为少数类,否则标记为多数类;
d)决策树的剪枝:以悲观剪枝算法PEP为基础,对其进行改进使其能够适应不平衡数据;在PEP算法中认为如果:
e'(t)≤e'(Tt)+Se(e'(Tt))成立,则Tt应被剪裁,其中 e(t)为节点t处误差,i为覆盖Tt的叶子,Nt为子树Tt的叶子数,n(t)为在节点t处训样本的数目;
对此算法进行改进之处在于少数类的计数方式,使少数类样本和多数类样本具有同等的重要性,设训练样本中具有m个多数类样本和n个少数类样本,节点t处包含p个少数类样本和q个多数类样本,pw为节点t处p个少数类样本权重和,nw为节点t处q个多数类样本权重和,则e(t)的计算公式为: e ( t ) = p × m n , i f n w > p w q , i f n w ≤ p w , n(t)的计算公式为: n ( t ) = p × m n + q .
进一步,在步骤3)中,样本权重的修改公式为:其中,Dt(i)表示第t轮迭代中第i个样本的权重,xi表示训练集中第i个样本,yi∈{-1,1}表示第i个样本的类别标识,h(xi)∈{-1,1}表示第i个样本的预测分类,权重调整因子at计算公式为:r=ΣDt(i)(h(xi)≠yi),β(i)为代价调整函数,定义为: β ( i ) = - 0.5 D t ( i ) + 0.5 , i f h ( x i ) = y i 0.5 D t ( i ) + 0.5 , i f h ( x i ) ≠ y i , Zt为归一化参数,定义为: Z t = Σ i = 1 n D ( t + 1 ) ( i ) , 用于确保更新后的权重取值在[0,1]区间内。
进一步,在步骤4)中,具体包括:
首先设定少数类边界区域的权重阈值,样本权重大于阈值的少数类样本即位于少数类的边界区域;然后利用SMOTE算法对边界区域的样本进行过抽样处理,生成新的合成样本;最后将所有的少数类样本及合成样本添加到数据集NewData中。
进一步,在步骤5)中,具体包括:
首先对所有多数类样本的权重求倒数,这是因为样本权重越小,说明其所处的区域越趋于中心;然后按照权重大小对所有的多数类样本进行欠抽样,使权重大的样本被选中的概率大;最后将所有选中的多数类样本添加到数据集NewData中。
本发明的有益效果在于:
1)本发明引入了误分权重来作为决策树分裂标准的一部分,与传统的代价敏感策略人为去设定代价矩阵不同,这点充分考虑了现实情况,因为在现实生活中,真实的误分代价是很难估计得到。而且在每轮决策树训练完成后会对样本权重进行修改,可以更好地体现出样本分布的情况,而代价矩阵是不会发生变化的,它是把同一类的所有样本进行同等处理,没有体现出样本间的差异情况。
2)本发明根据样本所处区域进行有针对性地抽样处理,充分利用了样本的分布信息,使抽样得到的样本更具有代表性,从而避免过拟合和有用信息丢失的现象,提高了分类器对不平衡数据的分类性能。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为改进的C4.5决策树建立过程示意图;
图2为改进C4.5决策树算法下的不平衡数据抽样方法流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
图2为改进C4.5决策树算法下的不平衡数据抽样方法流程图,如图所示,本方法具体包括以下步骤:
1)初始化数据集的各样本权重及迭代次数T。设多数类样本数量为m,少数类样本数量为n,则所有多数类样本的权重为1/2m,少数类样本的权重为1/2n。
2)使用图1所示的改进的C4.5决策树算法对数据集进行训练,算法的个核心点在于分裂属性及分裂点的确定,叶子节点的类标记,剪枝,具体计算方式描述如下:
(1)分裂属性的选择:分裂标准需要兼顾属性的信息增益率和误分权重。设S表示样本集合,属性Ai将当前样本几个分为v个不相交的子集{S1,S2,...,Sv},则选择标准的计算公式为:f(S,Ai)=GainRatio(S,Ai)×ReduMc(S,Ai),选择使f取最大值的属性作为分裂属性。
GainRatio(S,Ai)为以Ai作为分裂属性时的信息增益率,值越大说明属性的分类性能越好,其计算公式为:其中Gain(S,Ai)=I(S)-I(S,Ai),I(S)表示分裂前S的信息熵,I(S,Ai)表示按属性Ai分裂之后各子集的信息熵加权和,计算公式为: pi是S中样本属于类别i的概率,C是类别数量。
ReduMc(S,Ai)为以Ai作为分裂属性时的误分权重减少量,其计算公式为:其中Mc(S)为分裂前的误分权重,设S中有p个少数类样本和n个多数类样本,记p个少数类样本的权重和为pw,n个多数类样本的权重和为nw,则:
Mc(S)=Min(pw,nw),为v个子集的误分权重和。
(2)分裂点的选择:若分裂属性为离散型,直接将各个离散值作为当前节点的分支;若分裂属性为连续型,首先将样本中分裂属性的所有取值进行排序,并将相邻值的平均值作为候选分裂点,其次计算各个候选分裂点分裂的f值,f值最大的候选分裂点作为分裂点,将当前节点分裂为两颗子树。
(3)叶子节点类标记的确定:当一个分类节点中所有样本的类型标记都相同或者样本数量小于给定值时,将当前节点标记为叶子节点。如果所有样本的类型相同,那么直接将当前节点的类型标记为该类型;如果样本数量少于给定的数量,计算各类样本的权重总和,设当前节点包含p个少数类样本和n个多数类样本,p个少数类样本权重记为pw,n个多数类样本权重记为nw,若pw>nw,则将当前节点的类型标记为少数类,否则标记为多数类。
(4)决策树的剪枝:以悲观剪枝算法PEP为基础,对其进行改进使其能够适应不平衡数据。在PEP算法中认为如果e'(t)≤e'(Tt)+Se(e'(Tt))成立,则Tt应被剪裁。其中 e ′ ( t ) = [ e ( t ) + 1 2 ] , e ′ = Σ e ( i ) + N t 2 , e(t)为节点t处误差,i为覆盖Tt的叶子,Nt为子树Tt的叶子数,n(t)为在节点t处训样本的数目。
对此算法进行改进之处在于少数类的计数方式,使少数类样本和多数类样本具有同等的重要性,设训练样本中具有m个多数类样本和n个少数类样本,节点t处包含p个少数类样本和q个多数类样本,pw为节点t处p个少数类样本权重和,nw为节点t处q个多数类样本权重和,则e(t)的计算公式为: e ( t ) = p × m n , i f n w > p w q , i f n w ≤ p w , n(t)的计算公式为:
3)修改数据集中各样本的权重:
样本权重的修改公式为:其中,Dt(i)表示第t轮迭代中第i个样本的权重,xi表示训练集中第i个样本,yi∈{-1,1}表示第i个样本的类别标识,h(xi)∈{-1,1}表示第i个样本的预测分类,权重调整因子at计算公式为:r=ΣDt(i)(h(xi)≠yi),β(i)为代价调整函数,定义为: β ( i ) = - 0.5 D t ( i ) + 0.5 , i f h ( x i ) = y i 0.5 D t ( i ) + 0.5 , i f h ( x i ) ≠ y i , Zt为归一化参数,定义为: Z t = Σ i = 1 n D ( t + 1 ) ( i ) , 用于确保更新后的权重取值在[0,1]区间内。
4)若迭代次数小于T则返回至步骤2)。
5)过抽样:首先设定过抽样率和少数类边界区域的权重阈值,样本权重大于阈值的少数类样本即位于少数类的边界区域;然后利用SMOTE算法对边界区域的样本进行过抽样处理,生成新的合成样本;最后将所有的少数类样本及合成样本添加到数据集NewData中。
6)欠抽样:首先设定欠抽样率,然后对所有多数类样本的权重求倒数,并按照权重大小对所有的多数类样本进行欠抽样,使权重大的样本被选中的概率大;最后将所有选中的多数类样本添加到数据集NewData中。
7)使用决策树算法对抽样得到的数据集NewData进行训练,得到规则并对测试集进行分类处理。
实施例:
采用某运营商两个月用户换机数据集作为研究对象,每个月换机用户要远少于非换机用户,有效预测出换机用户并采取相应的营销措施,就可以为公司带来非常可观的利润。学习集为某电信运营商4月20万按自然比例(非换机:换机=27:1)分布的数据记录,测试集为5月40万按1:1分布的数据记录。通过特征选取和专家经验相结合,选择了19个属性作为预测模型的输入特征,此外,鉴于在学习过程中各属性之间相互独立,但在实际情况中用户近三个月的贡献收入、通话时间及流量联系紧密,所以人为添加了9个属性,来衡量三个月间属性的变化情况,具体描述如表1。
表1用户数据属性描述
为了说明本发明的有效性,采用相同的学习集和测试集,将本发明与随机欠抽样算法进行对比,选用F-measure和G-mean作为评价指标,其计算公式如下:
F - m e a s u r e = ( 1 + β 2 ) × Re c a l l × Pr e c i s i o n β 2 × Re c a l l + Pr e c i s i o n , G - m e a n = P A × N A ,
其中, Re c a l l = T P T P + F N , Pr e c i s i o n = T P T P + F P , P A = Re c a l l = T P T P + F N , N A = T N T N + F P , TP和TN分别表示正确分类的换机样本和非换机样本的数量,FP和FN分别表示误分类的换机样本和非换机样本的数量。
本发明与随机欠抽样算法的实验结果对比如表2所示。
表2实验对比结果
评价指标 随机欠抽样 本发明
F-measure 56.35 59.42
G-mean 56.34 59.27
由表2可以看出,本发明较随机欠抽样方法在两项指标上有明显的提高,能有效识别出换机用户,并降低非换机用户的误分率,特别对具有大量样本的数据集来说,一个百分点的提高会带来非常可观的收益。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (6)

1.一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:包括以下步骤:
1)根据训练集中各类样本的数量初始化各个样本的权重,作为该样本的误分权重;设迭代总次数为T,从1到T每轮迭代训练依次完成步骤2)~3);
2)利用改进的C4.5决策树算法对训练集进行学习,得到一套规则;
3)根据步骤2)所得规则修改训练集各个样本的权重,分类错误的样本权重增大,分类正确的样本权重减小,且变化幅度与其原始权重成正比;
4)设定过抽样率,并根据样本权重找出位于少数类边界区域的样本,利用SMOTE算法对此区域的样本进行过抽样,并将所有的少数类样本及过抽样所得样本添加到NewData数据集中;
5)设定欠抽样率,按照样本权重对多数类进行欠抽样,使位于多数类中心区域的样本更容易被选中,将选中的样本添加到NewData数据集中;
6)使用决策树算法对抽样得到的数据集NewData进行训练,得到规则并对测试集进行分类处理。
2.根据权利要求1所述的一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:在步骤1)中,所述初始化各个样本的权重具体包括:设多数类样本数量为m,少数类样本数量为n,则所有多数类样本的权重为1/2m,少数类样本的权重为1/2n,这样既体现了多数类样本与少数类样本之间的差异,又保证了所有样本权重和为1。
3.根据权利要求2所述的一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:在步骤2)中,改进的C4.5决策树算法的构建要点如下:
a)分裂属性的选择:设S表示样本集合,属性Ai将当前样本集合分为v个不相交的子集{S1,S2,...,Sv},则选择标准的计算公式为:f(S,Ai)=GainRatio(S,Ai)×ReduMc(S,Ai),选择使f取最大值的属性作为分裂属性;
GainRatio(S,Ai)为以Ai作为分裂属性时的信息增益率,值越大说明属性的分类性能越好,其计算公式为:其中Gain(S,Ai)=I(S)-I(S,Ai),I(S)表示分裂前S的信息熵,I(S,Ai)表示按属性Ai分裂之后各子集的信息熵加权和,计算公式为:
pi是S中样本属于类别i的概率,C是类别数量;
ReduMc(S,Ai)为以Ai作为分裂属性时的误分权重减少量,其计算公式为:其中Mc(S)为分裂前的误分权重,设S中有p个少数类样本和n个多数类样本,记p个少数类样本的权重和为pw,n个多数类样本的权重和为nw,则Mc(S)=Min(pw,nw),为v个子集的误分权重和;
b)分裂点的选择:若分裂属性为离散型,直接将各个离散值作为当前节点的分支;若分裂属性为连续型,首先将样本中分裂属性的所有取值进行排序,并将相邻值的平均值作为候选分裂点,其次计算各个候选分裂点分裂的f值,f值最大的候选分裂点作为分裂点,将当前节点分裂为两颗子树;
c)叶子节点类标记的确定:当一个分类节点中所有样本的类型标记都相同或者样本数量小于给定值时,将当前节点标记为叶子节点;如果所有样本的类型相同,那么直接将当前节点的类型标记为该类型;如果样本数量少于给定的数量,计算各类样本的权重总和,设当前节点包含p个少数类样本和n个多数类样本,p个少数类样本权重记为pw,n个多数类样本权重记为nw,若pw>nw,则将当前节点的类型标记为少数类,否则标记为多数类;
d)决策树的剪枝:以悲观剪枝算法PEP为基础,对其进行改进使其能够适应不平衡数据;在PEP算法中认为如果:
e'(t)≤e'(Tt)+Se(e'(Tt))成立,则Tt应被剪裁,其中 e(t)为节点t处误差,i为覆盖Tt的叶子,Nt为子树Tt的叶子数,n(t)为在节点t处训样本的数目;
对此算法进行改进之处在于少数类的计数方式,使少数类样本和多数类样本具有同等的重要性,设训练样本中具有m个多数类样本和n个少数类样本,节点t处包含p个少数类样本和q个多数类样本,pw为节点t处p个少数类样本权重和,nw为节点t处q个多数类样本权重和,则e(t)的计算公式为: e ( t ) = p × m n , i f n w > p w q , i f n w ≤ p w , n(t)的计算公式为: n ( t ) = p × m n + q .
4.根据权利要求3所述的一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:在步骤3)中,样本权重的修改公式为:其中,Dt(i)表示第t轮迭代中第i个样本的权重,xi表示训练集中第i个样本,yi∈{-1,1}表示第i个样本的类别标识,h(xi)∈{-1,1}表示第i个样本的预测分类,权重调整因子at计算公式为:r=ΣDt(i)(h(xi)≠yi),β(i)为代价调整函数,定义为: β ( i ) = - 0.5 D t ( i ) + 0.5 , i f h ( x i ) = y i 0.5 D t ( i ) + 0.5 , i f h ( x i ) ≠ y i , Zt为归一化参数,定义为: Z t = Σ i = 1 n D ( t + 1 ) ( i ) , 用于确保更新后的权重取值在[0,1]区间内。
5.根据权利要求4所述的一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:在步骤4)中,具体包括:
首先设定少数类边界区域的权重阈值,样本权重大于阈值的少数类样本即位于少数类的边界区域;然后利用SMOTE算法对边界区域的样本进行过抽样处理,生成新的合成样本;最后将所有的少数类样本及合成样本添加到数据集NewData中。
6.根据权利要求5所述的一种改进C4.5决策树算法下的不平衡数据抽样方法,其特征在于:在步骤5)中,具体包括:
首先对所有多数类样本的权重求倒数,这是因为样本权重越小,说明其所处的区域越趋于中心;然后按照权重大小对所有的多数类样本进行欠抽样,使权重大的样本被选中的概率大;最后将所有选中的多数类样本添加到数据集NewData中。
CN201510772750.5A 2015-11-11 2015-11-11 一种改进c4.5决策树算法下的不平衡数据抽样方法 Pending CN105373606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510772750.5A CN105373606A (zh) 2015-11-11 2015-11-11 一种改进c4.5决策树算法下的不平衡数据抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510772750.5A CN105373606A (zh) 2015-11-11 2015-11-11 一种改进c4.5决策树算法下的不平衡数据抽样方法

Publications (1)

Publication Number Publication Date
CN105373606A true CN105373606A (zh) 2016-03-02

Family

ID=55375805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510772750.5A Pending CN105373606A (zh) 2015-11-11 2015-11-11 一种改进c4.5决策树算法下的不平衡数据抽样方法

Country Status (1)

Country Link
CN (1) CN105373606A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808718A (zh) * 2016-03-07 2016-07-27 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN106203519A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 基于分类聚类的故障预警算法
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107463784A (zh) * 2017-08-16 2017-12-12 华东理工大学 一种苯乙烯设备选型规则生成方法
CN107610771A (zh) * 2017-08-23 2018-01-19 上海电力学院 一种基于决策树的医学检测指标筛选方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN108280289A (zh) * 2018-01-22 2018-07-13 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108334859A (zh) * 2018-02-28 2018-07-27 上海海洋大学 一种基于细粒度特征的光学遥感舰船型号识别众包系统
CN108449342A (zh) * 2018-03-20 2018-08-24 北京搜狐互联网信息服务有限公司 恶意请求检测方法及装置
CN108564380A (zh) * 2018-04-11 2018-09-21 重庆大学 一种基于迭代决策树的电信用户分类方法
CN108629675A (zh) * 2018-04-27 2018-10-09 信阳师范学院 一种多决策树财务预警方法
CN109347691A (zh) * 2018-08-01 2019-02-15 温州大学苍南研究院 一种用于Web服务的数据采样方法、装置及设备
CN110457365A (zh) * 2019-07-15 2019-11-15 中国平安人寿保险股份有限公司 基于时序并行的决策树生成方法及装置、电子设备
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN110717524A (zh) * 2019-09-20 2020-01-21 浙江工业大学 一种老年人热舒适预测方法
CN110880117A (zh) * 2019-10-31 2020-03-13 北京三快在线科技有限公司 虚假业务识别方法、装置、设备和存储介质
CN111046891A (zh) * 2018-10-11 2020-04-21 杭州海康威视数字技术股份有限公司 车牌识别模型的训练方法、车牌识别方法和装置
CN112052900A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN113869342A (zh) * 2020-06-30 2021-12-31 微软技术许可有限责任公司 预估性建模中的标记偏移检测和调整
CN114969669A (zh) * 2022-07-27 2022-08-30 深圳前海环融联易信息科技服务有限公司 数据平衡度处理方法、联合建模系统、设备和介质
US20220358397A1 (en) * 2021-05-05 2022-11-10 International Business Machines Corporation Moving decision boundaries in machine learning models
CN118173271A (zh) * 2024-05-14 2024-06-11 青岛益生康健科技股份有限公司 一种健康管理在线咨询方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558764B2 (en) * 2004-06-28 2009-07-07 International Business Machines Corporation Methods for multi-class cost-sensitive learning
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558764B2 (en) * 2004-06-28 2009-07-07 International Business Machines Corporation Methods for multi-class cost-sensitive learning
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NATHALIE JAPKOWICZ等: ""The class imbalance problem: A systematic study"", 《IOS PRESS》 *
李克文等: ""基于RSBoost算法的不平衡数据分类方法"", 《计算机科学》 *
郭鹏等: ""基于不平衡数据集的级联决策树改进算法"", 《计算机工程》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808718A (zh) * 2016-03-07 2016-07-27 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN105808718B (zh) * 2016-03-07 2019-02-01 浙江工业大学 一种基于不平衡数据集的文本特征选择方法
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107292186B (zh) * 2016-03-31 2021-01-12 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
US11276013B2 (en) 2016-03-31 2022-03-15 Alibaba Group Holding Limited Method and apparatus for training model based on random forest
CN106203519A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 基于分类聚类的故障预警算法
CN107463784A (zh) * 2017-08-16 2017-12-12 华东理工大学 一种苯乙烯设备选型规则生成方法
CN107463784B (zh) * 2017-08-16 2020-12-08 华东理工大学 一种苯乙烯设备选型规则生成方法
CN107610771A (zh) * 2017-08-23 2018-01-19 上海电力学院 一种基于决策树的医学检测指标筛选方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107766875B (zh) * 2017-09-14 2020-09-08 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN108280289A (zh) * 2018-01-22 2018-07-13 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN108304974A (zh) * 2018-02-26 2018-07-20 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108304974B (zh) * 2018-02-26 2022-02-08 中国民航信息网络股份有限公司 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN108334859A (zh) * 2018-02-28 2018-07-27 上海海洋大学 一种基于细粒度特征的光学遥感舰船型号识别众包系统
CN108334859B (zh) * 2018-02-28 2022-07-08 上海海洋大学 一种基于细粒度特征的光学遥感舰船型号识别众包系统
CN108449342A (zh) * 2018-03-20 2018-08-24 北京搜狐互联网信息服务有限公司 恶意请求检测方法及装置
CN108449342B (zh) * 2018-03-20 2020-11-27 北京云站科技有限公司 恶意请求检测方法及装置
CN108564380A (zh) * 2018-04-11 2018-09-21 重庆大学 一种基于迭代决策树的电信用户分类方法
CN108564380B (zh) * 2018-04-11 2021-07-20 重庆大学 一种基于迭代决策树的电信用户分类方法
CN108629675A (zh) * 2018-04-27 2018-10-09 信阳师范学院 一种多决策树财务预警方法
CN109347691B (zh) * 2018-08-01 2020-09-01 温州大学苍南研究院 一种用于Web服务的数据采样方法、装置及设备
CN109347691A (zh) * 2018-08-01 2019-02-15 温州大学苍南研究院 一种用于Web服务的数据采样方法、装置及设备
CN111046891A (zh) * 2018-10-11 2020-04-21 杭州海康威视数字技术股份有限公司 车牌识别模型的训练方法、车牌识别方法和装置
CN110457365A (zh) * 2019-07-15 2019-11-15 中国平安人寿保险股份有限公司 基于时序并行的决策树生成方法及装置、电子设备
CN110457365B (zh) * 2019-07-15 2023-10-27 中国平安人寿保险股份有限公司 基于时序并行的决策树生成方法及装置、电子设备
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN110717524A (zh) * 2019-09-20 2020-01-21 浙江工业大学 一种老年人热舒适预测方法
CN110880117A (zh) * 2019-10-31 2020-03-13 北京三快在线科技有限公司 虚假业务识别方法、装置、设备和存储介质
CN113869342A (zh) * 2020-06-30 2021-12-31 微软技术许可有限责任公司 预估性建模中的标记偏移检测和调整
CN112052900A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112052900B (zh) * 2020-09-04 2024-05-24 京东科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
US20220358397A1 (en) * 2021-05-05 2022-11-10 International Business Machines Corporation Moving decision boundaries in machine learning models
CN114969669A (zh) * 2022-07-27 2022-08-30 深圳前海环融联易信息科技服务有限公司 数据平衡度处理方法、联合建模系统、设备和介质
CN118173271A (zh) * 2024-05-14 2024-06-11 青岛益生康健科技股份有限公司 一种健康管理在线咨询方法及系统

Similar Documents

Publication Publication Date Title
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN104391835B (zh) 文本中特征词选择方法及装置
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN107766929B (zh) 模型分析方法及装置
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN108628971A (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108763237A (zh) 一种基于注意力机制的知识图谱嵌入方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN107169059A (zh) 一种基于相似变精度粗糙集模型的知识推送规则提取方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN108470022A (zh) 一种基于运维管理的智能工单质检方法
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN105975518A (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
Gu et al. [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN106156163A (zh) 文本分类方法以及装置
CN109886755A (zh) 一种基于进化算法的通讯用户流失预测方法及系统
CN106056164A (zh) 一种基于贝叶斯网络的分类预测方法
CN103268346A (zh) 半监督分类方法及系统
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160302

RJ01 Rejection of invention patent application after publication