CN111310860B - 改进梯度提升决策树性能的方法及计算机可读存储介质 - Google Patents
改进梯度提升决策树性能的方法及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111310860B CN111310860B CN202010224284.8A CN202010224284A CN111310860B CN 111310860 B CN111310860 B CN 111310860B CN 202010224284 A CN202010224284 A CN 202010224284A CN 111310860 B CN111310860 B CN 111310860B
- Authority
- CN
- China
- Prior art keywords
- data set
- training data
- label
- training
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003066 decision tree Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 144
- 238000005516 engineering process Methods 0.000 claims abstract description 25
- 230000007306 turnover Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 description 39
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种改进梯度提升决策树性能的方法及计算机可读存储介质,方法包括:训练基于梯度提升决策树的集成分类器,包括:构建训练数据和训练参数,训练数据包括带有标签的训练数据集和数据的特征集合,训练参数包括集成梯度提升决策树的数量和标签的翻转率;利用标签翻转率,采用标签翻转技术对训练数据集进行预处理得到预处理后的训练数据集;根据数据的特征集合和预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;采用加和的方式将基学习器进行组合得到基于梯度提升决策树的集成分类器;利用集成分类器对新的分类样本进行分类并给出新样本的预测标签。在提升对标签噪声的鲁棒性能的同时保证训练效率。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种改进梯度提升决策树性能的方法及计算机可读存储介质。
背景技术
在机器学习和数据挖掘领域,分类是一种常见的机器学习任务,而基于人工标注数据集的监督学习又是分类任务中的一种常见方法。监督学习方法性能优良的关键点在于数据集标注准确,但面对海量的数据,人工标注由于时间、精力、领域知识有限等原因不可避免地会出现错误,而一些自动标注的数据集标注不准确的现象更为常见,所以监督学习算法如何减少甚至避免标签噪声的影响非常重要。
梯度提升决策树GBDT作为一种应用非常广泛的监督学习算法,可以灵活地处理各种类型的数据和异常值,预测的准确率很高,采用不同的损失函数时可以用于不同的任务(分类或回归)。
用于分类任务的GBDT通过多轮迭代,每轮迭代产生一个决策树作为弱分类器,每个分类器会拟合上一轮分类器与样本真实值的残差。由于GBDT基于残差训练的特点,若训练数据集的标签不准确,将会严重影响GBDT的泛化性能,即GBDT对数据中的标签噪声不具有鲁棒性。另一方面,尽管GBDT已经得到广泛使用,但其性能也还有进一步提升的空间。
针对标签噪声问题,传统机器学习领域目前有三类常见的处理方法:
第一类是预先添加标签噪声过滤器模块,以检测那些最可能的噪声样本,例如最近邻准则和累积信息准则,在集成学习中也有类似方法。那些被识别为错误标签或离群点的样本将在训练后面的分类器模型时被去除或者赋予很小的权重。
第二类是先识别出训练数据集中的错误标签并对其纠正,然后再将纠正标签后的样本用于训练模型,比如使用概率模型对标签噪声进行建模并加以纠正。
第三类是直接改进分类器本身,使其对标签噪声更鲁棒。常见的策略包括在损失函数中添加惩罚项或引入一些训练技巧。
现有技术中所采用的容忍标签噪声的方法也采用了上面提到的第二类方法。
第一类过滤器方法简单且易于实现,但是其中一些方法可能会删除大量数据,带来训练数据不足的问题;第二类识别并纠正标签噪声的方法可能需要噪声的先验知识,而且会增加模型难度;第三类方法添加惩罚项也需要先验知识,而引入训练技巧则需要对不同数据和模型有针对性的引入。
虽然上述应对标签噪声的方法都取得了一定的效果,但是基于GBDT这一特定结构用于分类任务的标签噪声处理方法,尤其是采用集成的方法来提升GBDT对标签噪声的鲁棒性的研究仍然是空白的且存在以下两个问题:
(1)GBDT本身作为一种集成学习算法,已经是一种强学习器,若直接对GBDT采用Bagging集成方法来提高其对标签噪声的鲁棒性,则由于基学习器性能很强且差异性太小而不能充分发挥集成学习的优势;
(2)GBDT作为一种串行的集成学习方法,其时间复杂度尚可以接受,但若再直接对其进行集成,则其对计算资源和时间的消耗将随着集成GBDT的数量成倍增长,尤其将不适用于处理高维数据.
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有技术中用于分类任务的GBDT对训练数据集中的标签噪声不鲁棒及对GBDT进行集成带来的训练效率问题,提供一种改进梯度提升决策树性能的方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种改进梯度提升决策树性能的方法,包括如下步骤:S1:训练基于梯度提升决策树的集成分类器,包括:构建训练数据和训练参数,所述训练数据包括带有标签的训练数据集和数据的特征集合,所述训练参数包括集成梯度提升决策树的数量和标签的翻转率;利用所述标签翻转率,采用标签翻转技术对所述训练数据集进行预处理得到预处理后的训练数据集;根据所述数据的特征集合和所述预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;采用加和的方式将所述基学习器进行组合得到基于梯度提升决策树的集成分类器;S2:利用所述集成分类器对新的分类样本进行分类并给出所述新样本的预测标签。
优选地,采用标签翻转技术对所述训练数据集进行预处理包括:利用所述标签翻转率计算所述训练数据集的标签的概率转移矩阵;根据所述带标签的训练数据集得到新的训练数据集;利用所述概率转移矩阵对所述新的训练数据集进行标签翻转得到所述预处理后的训练数据集。
优选地,采用非对称方式计算所述训练数据集的概率转移矩阵。
优选地,得到所述训练数据集的概率转移矩阵的公式如下:
Pi←i=1-fr
其中,K是标签类别的数目,i是样本在训练数据集中的类别标签,j是该样本翻转后的类别标签,Pj←i是将i的类别标签翻转到标签j的概率,fr是标签翻转率。
优选地,根据所述带标签的训练数据集得到新的训练数据集包括:复制所述训练数据集得到所述新的训练数据集;或,使用抽样方法从所述训练数据集得到所述新的训练数据集。
优选地,得到作为基学习器的梯度提升决策树包括:每一个结点分裂时,从所述结点的可选特征集合中随机保留一定数量的特征组成特征子集;从所述特征子集中选取最优特征和值进行结点分裂。
优选地,若分裂结点的可选特征集合中包括d个特征,选择k个特征组成所述特征子集,k的取值为:
k=log2d
或,
优选地,采用并行的方式训练得到作为基学习器的梯度提升决策树。
优选地,由多数投票法给出所述样本的预测标签。
本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种改进梯度提升决策树性能的方法及计算机可读存储介质,通过采用标签翻转技术对训练数据集进行预处理,然后对训练得到的GBDT进一步集成;使得训练每一个作为基学习器的GBDT时所采用的数据集带有不同的标签噪声,就单个GBDT来讲,其性能是有所下降的,但同时也增大了作为基学习器的GBDT之间的差异,通过对GBDT进一步集成,就可以降低方差,集成后的分类器可以对抗不同的标签噪声;进一步的,通过在训练过程中引入随机特征子空间技术,有效解决了基础集成方案带来的训练效率降低的问题,达到在提升对标签噪声的鲁棒性能的同时保证训练效率的效果;由于采用了标签翻转技术和随机特征子空间技术,基学习器的多样性增加,使得集成后的分类器泛化性能有所提升。
附图说明
图1是本发明实施例中一种改进梯度提升决策树性能的方法的示意图。
图2是本发明实施例中一种改进梯度提升决策树性能的流程的示意图。
图3是本发明实施例中一种采用标签翻转技术对训练数据集进行预处理的方法示意图。
图4是本发明实施例中又一种改进梯度提升决策树性能的流程的示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
英文缩写和基本术语定义:
GBDT:梯度提升决策树(Gradient Boosting Decision Tree);
学习器:算法在给定数据和参数空间上学习得到的实例化的模型;
泛化能力:学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力;
集成学习:通过构建并结合多个个体学习器来完成学习任务的方法,有时也被称为多分类器系统、基于委员会的学习等;
同质集成:只包含同种类型的个体学习器的集成称为同质集成;
基学习器:同质集成中的个体学习器也称为基学习器;
基学习算法:同质集成中用于从训练数据中学习得到基学习器的现有的算法称为基学习算法;
Boosting:串行式集成学习方法的代表,其个体学习器间存在强依赖关系、必须串行生成;
Bagging:并行式集成学习方法的代表,其个体学习器间不存在强依赖关系,可同时生成;
自助采样:是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中;
监督学习:利用有标签的训练数据进行学习,得到一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测;
分类:在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题;
回归:在监督学习中,当输出变量Y取连续值时,预测问题便成为回归问题。
如图1所示,本发明提供一种改进梯度提升决策树性能的方法,包括如下步骤:
S1:训练基于梯度提升决策树的集成分类器,包括:
构建训练数据和训练参数,所述训练数据包括带有标签的训练数据集和数据的特征集合,所述训练参数包括集成梯度提升决策树的数量和标签的翻转率;
利用所述标签翻转率,采用标签翻转技术对所述训练数据集进行预处理得到预处理后的训练数据集;
根据所述数据的特征集合和所述预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;
采用加和的方式将所述基学习器进行组合得到基于梯度提升决策树的集成分类器;
S2:利用所述集成分类器对新的分类样本进行分类并给出所述新样本的预测标签。
在本发明的一种实施例中,每一个基学习器GBDT的训练是独立的,可以采用并行的方式进行训练。
现有技术中标签翻转技术是用来对数据进行扰动,以提升集成效果。标签翻转技术用于集成算法中,但它是用于并行集成模型中,不能用于串行的集成模型中。而GBDT作为一种串行的集成模型,只有训练第一棵决策树时直接用到了数据的标签,可以使用标签翻转技术,后面训练的决策树拟合的是梯度,无法直接运用标签翻转技术对数据进行扰动,而只对集成模型中的一个基学习器运用标签翻转技术是达不到这个技术所应有的技术效果的。所以一直以来,没有工作将标签翻转技术运用到GBDT中去。在本发明的方法中,标签翻转技术除了起到提升集成效果的作用外,主要是起到了增强模型对标签噪声的抵抗能力的作用。对GBDT进一步加以集成和标签翻转技术发挥新的作用,是相辅相成的,通过结合这两者来解决GBDT对标签噪声不鲁棒的问题。
在本发明的方法中,首先采用标签翻转技术对训练数据集进行预处理,然后对训练得到的GBDT进一步集成。标签翻转技术使得训练每一个作为基学习器的GBDT时所采用的数据集带有不同的标签噪声,就单个GBDT来讲,其性能是有所下降的,但同时也增大了作为基学习器的GBDT之间的差异,通过对GBDT进一步集成,就可以降低方差,使得集成后的分类器可以对抗不同的标签噪声。
如图2所示,本发明提供一种改进梯度提升决策树性能的流程示意图。具体包括:
1.输入训练数据和训练参数,所述训练数据包括带有标签的训练数据集和数据的特征集合,所述训练参数包括集成梯度提升决策树的数量和标签的翻转率;
2.利用标签翻转率计算数据标签的概率转移矩阵;
3.初始化循环变量;
4.判断是否未达到最大循环次数(即集成GBDT的数量),若是则来到步骤5,否则跳转到步骤10;
5.复制输入的数据集得到一个相同的数据集;
6.根据步骤2得到的概率转移矩阵对复制得到的数据集中的样本进行标签翻转;
7.使用已有的GBDT算法、数据的特征集合和经过标签翻转后的数据集进行训练,得到一个作为基学习器的GBDT;
8.循环变量的值加1;
9.重复执行步骤4-8;
10.采用加和的方式将在步骤7训练得到的基学习器进行组合,得到完整的集成分类器;
11.输入新的测试样本;
12.采用集成分类器对测试样本进行分类,并由多数投票法给出测试样本的预测标签;
13.输出集成分类器和测试样本的预测标签。
如上步骤中1-10是训练基于梯度提升决策树的集成分类器,11-13是用训练好的集成分类器进行预测。步骤4-8是对GBDT进行集成,对GBDT进一步进行集成可以提升模型分类性能,而其中的6对数据的预处理步骤一方面增加了集成的多样性,可以提升性能,另一方面又使GBDT在训练中接触到了带有噪声标签的数据,然后通过7的集成使得GBDT减小数据噪声带来的方差,步骤6、7结合起来使得GBDT可以抵抗数据中的标签噪声,获得更好的泛化性能。
如图3所示,考虑数据集中实际存在的标签噪声的情况,在本发明的一种实施例中,采用标签翻转技术对所述训练数据集进行预处理包括:
利用所述标签翻转率计算所述训练数据集的标签的概率转移矩阵;
根据所述带标签的训练数据集得到新的训练数据集;
利用所述概率转移矩阵对所述新的训练数据集进行标签翻转得到所述预处理后的训练数据集。
在本发明的一种实施例中,根据所述带标签的训练数据集得到新的训练数据集包括:
复制所述训练数据集得到所述新的训练数据集;
或,使用抽样方法从所述训练数据集得到所述新的训练数据集。
针对每个新的数据集D,用户可以自己决定集成的规模,即集成GBDT的数量M,在一种具体的实验中设置M=11,推荐这个集成数量,但用户也可根据自己对性能和训练效率的需求对集成GBDT的数量进行调整,若更注重性能,可以增大M,若更注重效率,可以减小M,M最小可取1,并输入标签的翻转率fr和数据的特征集合A,然后按照上述的步骤进行训练得到集成分类器Hm。对于新的测试样本x,则可以由集成分类器Hm给出其预测类别标签y。
根据标签翻转后训练数据集中的类别比例是否发生改变,可以将标签翻转分为两大类,对称的和非对称的。与对称标签翻转相比,当翻转率fr相对较小时,非对称标签翻转对数据分布的影响很小,同时类别比例基本保持不变。考虑到现实世界的数据集中标签的错误是随机的,提出采用非对称方式对训练数据集的标签进行随机翻转,更加符合实际数据集中标签噪声的情况。
在一种具体的实施例中,得到所述训练数据集的概率转移矩阵的公式如下:
Pi←i=1-fr
其中,K是标签类别的数目,i是样本在训练数据集中的类别标签,j是该样本翻转后的类别标签,Pj←i是将i的类别标签翻转到标签j的概率,fr是标签翻转率。
如上计算可以使得添加的噪声更加符合实际噪声情况,从而使经该数据训练出来的模型对真实的噪声也更加鲁棒。
直接采用上述方案会带来计算资源和时间消耗的成倍增长,而GBDT又常用于处理高维数据,在构建决策树的过程中,每次分裂时选择最优特征及值对结点进行分裂的操作称为特征选择或属性选择,当数据维度较高时,从所有特征中选择最优特征进行分裂的计算量是巨大的。而已有的GBDT算法在训练时,每棵决策树选择分裂特征时都是从当前结点的所有可选特征中进行选择。
在本发明的一种实施例中,得到作为基学习器的梯度提升决策树包括:
每一个结点分裂时,从所述结点的可选特征集合中随机保留一定数量的特征组成特征子集;
从所述特征子集中选取最优特征和值进行结点分裂。
随机特征子空间是指决策树选择划分特征时不再从当前结点的所有可选特征集合中选择,而是先随机从当前结点的所有可选特征中(假定有d个特征)选择k个特征组成一个特征子空间,推荐值k=log2d或然后再从这个特征子空间中选择最优特征进行分裂。
随机特征子空间技术在集成学习算法随机森林中的实践证明其一方面可以提升训练效率,另一方面还可以增大基学习器的差异性,降低方差。于是,提出将随机特征子空间技术应用到本发明中,以提高运算效率,节省计算资源,同时也可以增大GBDT的多样性,进一步提升集成效果。
随机特征子空间方法用于GBDT的集成方案中,不需要考虑特征与具体任务的相关性,故组成特征子空间的特征的选取是随机的,不需要额外的计算。随机特征子空间技术在本发明中的主要目的是为了减少计算量,提升训练效率,从而达到性能和效率的平衡;次要目的才是通过增加基学习器的多样性来提高分类准确率。本发明是在得到集成分类器的基础上对集成方法的进一步集成,也就是说是双重集成,主要需要解决第二重集成带来的训练时间成倍增长的问题,这个问题成为能不能在实际任务中采用双重集成的关键,所以本发明在双重集成中使用随机特征子空间技术,有效解决了双重集成的难题。
图4是改进后的方法的流程图。只有对应图2中步骤7的步骤有所不同。在图4中,在训练作为基学习器的GBDT时,在决策树进行结点分裂时引入了随机特征子空间的技术,即先从分裂结点的可选特征集合中随机保留一定数量的特征组成特征子集,再从特征子集中选取最优特征和值进行结点分裂。
在决策树训练过程中引入了随机特征子空间技术,解决直接集成GBDT所带来的训练效率问题,且通过增大集成多样性进一步提升性能。
在本发明的一种实施例中,主要在11个UCI数据集上进行,所选取的UCI数据集基本情况如表1所示。表1中第一列表示数据集的名称,第二列表示对应数据集的样本数量,第三列表示对应数据集的特征维度,第四列表示对应数据集的标签种类数。UCI是机器学习算法常用的基准性数据集,而我们选取的这11个数据集的样本数量、特征维度和标签数量都覆盖了较广的范围,足以用来评估我们的方法。本实验中,集成GBDT的数量设置为11,标签翻转率设置为0.1。
表1实验所采用数据集的基本情况
表2展示了在带有标签噪声的训练数据上训练三种模型后,三种模型在测试集上的平均分类准确率对比情况,其中第一列表示各数据集的名称,第二列GBDT表示对应数据集运用传统的GBDT方法训练后的测试准确率,第三列是仅采用标签翻转技术的基本集成方案的测试准确率,第四列则是同时采用了标签翻转技术和随机特征子空间技术的改进集成方案的测试准确率。在所有方法中,准确率最高的数据加粗表示。
由表2可以发现当训练数据带有标签噪声时,相对于GBDT,基本集成方案在所有数据集上的分类准确率都提升了1个百分点以上,在Isolet数据集上甚至提升了4.1个百分点;而改进集成方案,则在11个数据集中的10个中都取得了最高的分类准确率,在多数数据集上也能比基本集成方案更高出1-3个百分点。表2说明两种集成方案能有效的提升GBDT对数据集中的标签噪声的抵抗能力,保证分类准确率。
表2在带有标签噪声的训练数据上训练时的平均分类准确率(%)对比
数据维度越高,训练速度越慢,所以在几组高维的数据集上测试了改进集成方案的训练时间,结果呈现在表3中。表3第一列是数据集名称,第二列是对应数据集的特征维度,第三列是GBDT的训练时间,第四列则是改进集成方案的训练时间,时间的单位都是秒。实验是在相同的设备上运行的。由于基本集成方案的训练时间肯定比单个GBDT长,这里没有列出来,直接对比改进集成方案与单个GBDT的效率。可以看到在高维数据集上,改进集成方案甚至在5个数据集的3个中达到了比单个GBDT更短的训练时间,在剩余两个数据集上的训练时间也远小于GBDT训练时间的11倍(11是实验中所采用的集成GBDT的数量)。表3证明了所提出的改进集成方案的高效率。
表3在高维数据集上的训练时间对比
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (5)
1.一种改进梯度提升决策树性能的方法,其特征在于,包括如下步骤:
S1:训练基于梯度提升决策树的集成分类器,包括:
构建训练数据和训练参数,所述训练数据包括带有标签的训练数据集和数据的特征集合,所述训练参数包括集成梯度提升决策树的数量和标签的翻转率;
利用所述标签翻转率,采用标签翻转技术对所述训练数据集进行预处理得到预处理后的训练数据集;采用标签翻转技术对所述训练数据集进行预处理,包括:
利用所述标签翻转率计算所述训练数据集的标签的概率转移矩阵;
根据所述带标签的训练数据集得到新的训练数据集;
利用所述概率转移矩阵对所述新的训练数据集进行标签翻转得到所述预处理后的训练数据集;
采用非对称方式计算所述训练数据集的概率转移矩阵;
得到所述训练数据集的概率转移矩阵的公式如下:
Pi←i=1-fr
其中,K是标签类别的数目,i是样本在训练数据集中的类别标签,j是该样本翻转后的类别标签,Pj←i是将i的类别标签翻转到标签j的概率,fr是标签翻转率,Pi←i是i的类别标签翻转到标签i的概率;
根据所述数据的特征集合和所述预处理后的训练数据集训练得到作为基学习器的梯度提升决策树;得到作为基学习器的梯度提升决策树包括:
每一个结点分裂时,从所述结点的可选特征集合中随机保留一定数量的特征组成特征子集;
从所述特征子集中选取最优特征和值进行结点分裂;
所述结点的可选特征集合中包括d个特征,选择k个特征组成所述特征子集,k的取值为:
k=log2d
或,
采用加和的方式将所述基学习器进行组合得到基于梯度提升决策树的集成分类器;
S2:利用所述集成分类器对新的分类样本进行分类并给出新样本的预测标签。
2.如权利要求1所述的改进梯度提升决策树性能的方法,其特征在于,根据所述带标签的训练数据集得到新的训练数据集包括:
复制所述训练数据集得到所述新的训练数据集;
或,使用抽样方法从所述训练数据集得到所述新的训练数据集。
3.如权利要求1-2任一所述的改进梯度提升决策树性能的方法,其特征在于,采用并行的方式训练得到作为基学习器的梯度提升决策树。
4.如权利要求1-2任一所述的改进梯度提升决策树性能的方法,其特征在于,由多数投票法给出所述样本的预测标签。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010224284.8A CN111310860B (zh) | 2020-03-26 | 2020-03-26 | 改进梯度提升决策树性能的方法及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010224284.8A CN111310860B (zh) | 2020-03-26 | 2020-03-26 | 改进梯度提升决策树性能的方法及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310860A CN111310860A (zh) | 2020-06-19 |
CN111310860B true CN111310860B (zh) | 2023-04-18 |
Family
ID=71162529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010224284.8A Active CN111310860B (zh) | 2020-03-26 | 2020-03-26 | 改进梯度提升决策树性能的方法及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310860B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526700B2 (en) * | 2020-06-29 | 2022-12-13 | International Business Machines Corporation | Annotating unlabeled data using classifier error rates |
CN111681059B (zh) * | 2020-08-14 | 2020-11-13 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
CN112001305B (zh) * | 2020-08-21 | 2022-08-05 | 西安交通大学 | 基于梯度提升决策树的特征优化ssvep异步识别方法 |
CN112380875B (zh) * | 2020-11-18 | 2024-07-16 | 杭州大搜车汽车服务有限公司 | 对话标签跟踪方法、装置、电子装置及存储介质 |
CN114219602A (zh) * | 2022-01-11 | 2022-03-22 | 平安科技(深圳)有限公司 | 违约预测模型的生成方法、装置、设备及存储介质 |
CN117763356A (zh) * | 2023-12-26 | 2024-03-26 | 中国地质科学院地质力学研究所 | 一种基于LightGBM算法的地震相快速识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105745659A (zh) * | 2013-09-16 | 2016-07-06 | 佰欧迪塞克斯公司 | 利用借助正则化组合多个微型分类器的分类器生成方法及其应用 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
-
2020
- 2020-03-26 CN CN202010224284.8A patent/CN111310860B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105745659A (zh) * | 2013-09-16 | 2016-07-06 | 佰欧迪塞克斯公司 | 利用借助正则化组合多个微型分类器的分类器生成方法及其应用 |
CN110348580A (zh) * | 2019-06-18 | 2019-10-18 | 第四范式(北京)技术有限公司 | 构建gbdt模型的方法、装置及预测方法、装置 |
Non-Patent Citations (1)
Title |
---|
Qin Zou.DeepCrack: Learning Hierarchical Convolutional Features for Crack Detection.《IEEE》.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111310860A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310860B (zh) | 改进梯度提升决策树性能的方法及计算机可读存储介质 | |
Xia et al. | A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring | |
US11416867B2 (en) | Machine learning system for transaction reconciliation | |
Yakout et al. | Don't be scared: use scalable automatic repairing with maximal likelihood and bounded changes | |
Bautista et al. | Minimal design of error-correcting output codes | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
AU2017251771B2 (en) | Statistical self learning archival system | |
CN112288337B (zh) | 行为推荐方法、装置、设备及介质 | |
CN111783873A (zh) | 基于增量朴素贝叶斯模型的用户画像方法及装置 | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
Bonaccorso | Hands-on unsupervised learning with Python: implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
CN113554184A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
Camargo et al. | Learning business process simulation models: A Hybrid process mining and deep learning approach | |
CN112598089B (zh) | 图像样本的筛选方法、装置、设备及介质 | |
US11809980B1 (en) | Automatic classification of data sensitivity through machine learning | |
Wang et al. | A novel trace clustering technique based on constrained trace alignment | |
JP2005222445A (ja) | データマイニングにおける情報処理方法及び解析装置 | |
KR102441442B1 (ko) | 그래프 컨볼루션 네트워크 학습 방법 및 장치 | |
Sanchez | Reconstructing our past˸ deep learning for population genetics | |
CN113469819A (zh) | 基金产品的推荐方法、相关装置及计算机存储介质 | |
CN113704519A (zh) | 一种数据集的确定方法、装置、计算机设备以及存储介质 | |
Erdogan et al. | A weighted ensemble learning by SVM for longitudinal data: Turkish Bank bankruptcy | |
US20140067446A1 (en) | Training decision support systems for business process execution traces that contain repeated tasks | |
CN116228484B (zh) | 基于量子聚类算法的课程组合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |