CN108920477A - 一种基于二叉树结构的不平衡数据处理方法 - Google Patents
一种基于二叉树结构的不平衡数据处理方法 Download PDFInfo
- Publication number
- CN108920477A CN108920477A CN201810320811.8A CN201810320811A CN108920477A CN 108920477 A CN108920477 A CN 108920477A CN 201810320811 A CN201810320811 A CN 201810320811A CN 108920477 A CN108920477 A CN 108920477A
- Authority
- CN
- China
- Prior art keywords
- negative sample
- negative
- sample set
- sample
- binary tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000002474 experimental method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 6
- 238000004220 aggregation Methods 0.000 abstract 2
- 230000002776 aggregation Effects 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于二叉树结构的不平衡数据处理方法,具体包括:(1)将原始数据集Ω划分为正样本空间集合ΩP和负样本空间集合ΩN,创建ΩN的副本CN;(2)选择正负样本比r、树的深度D、叶子节点的最少样本数量LeafMin以及基聚类算法;(3)将CN划分为2个不相交的簇;(4)根据分裂准则,判断ΩN是否继续分裂,形成二叉树;(5)进行归一化处理,求取特征差异度方差和特征极差程度;重复上述步骤,挑选出最佳的负样本集合;(6)对最佳负样本集合进行抽样;(7)原始空间中的正样本集合与最佳负样本集合构成一个平衡样本集合。本发明解决了正负样本不平衡的问题,降低了数据集的噪声,提高训练速度,而且能够提高每个基分类器的泛化能力。
Description
技术领域
本发明属于数据挖掘领域,特别涉及一种基于二叉树结构的不平衡数据处理方法。
背景技术
在数据挖掘领域中,大量的场景中会出现数据集不平衡的问题,如搜索引擎的点击预测(点击的网页往往占据很小的比例)、电子商务领域的商品推荐(推荐的商品被购买的比例很低)、信用卡欺诈检测、网络攻击识别等等。在二分类问题中具体表现为正样本数量相对负样本数量要少很多。即正样本少,负样本多。这样在分类问题上往往会导致分类结果偏向于负样本。现有的数据集不平衡处理方法主要有:收集更多的正样本数据、欠采样过采样、样本权重赋值。收集更多的正样本数据可以很好地解决数据不平衡问题,但是往往很多数据的获得都是非常困难的,单纯依靠增加数据量来解决不平衡数据集的方法是不现实的。在欠采样中,通过随机抽取部分负样本,从而减少负样本的数量,使得正负样本比得到改善。但是欠采样会导致部分重要的负样本的信息丢失,使得数据不能得到充分的使用。在过采样中,例如著名的SMOTE算法,就是通过人为的按照某种准则添加正样本数量,但如果对正样本拟合得不好,这个过程实际上是人为引入噪声。在样本权重赋值中,需要人为设定每个正、负样本的权重,由于实际中,很难衡量某个正、负样本的质量。因此若赋予的权重不适合,同样也会加大数据集的噪声。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于二叉树结构的不平衡数据处理方法。本发明一方面能够利用多次聚类算法来分裂出同类数据,使得相近的数据无需多次学习,仅学习一定量具有代表性的数据,从而减少负样本数量,实现数据的充分利用。另一方面,本发明通过调整树的深度以及叶子节点最少样本数量来调整平衡样本集合的质量,提高学习器的泛化能力。利用特征差异程度方差、特征极差程度两个指标来准确、客观地挑选出合适的样本平衡比、树的深度以及叶子节点最少样本数量,大大提高训练样本的质量,从而提高不平衡数据处理方法的有效性。
本发明的目的能够通过以下技术方案实现:
一种基于二叉树结构的不平衡数据处理方法,具体包括以下步骤:
(1)将原始数据集Ω按标签划分为正样本空间集合ΩP和负样本空间集合ΩN,同时创建负样本空间集合的副本CN;
(2)选择每个平衡样本集合的样本平衡比r、选择树的深度D、叶子节点的最少样本数量LeafMin以及基于原型聚类的基聚类算法Γ;
(3)采用步骤(2)中所选择的基聚类算法Γ将负样本集合CN划分为2个不相交的簇Ci,i=1,2;
(4)根据分裂准则,判断步骤(3)中所划分的簇,即CN←Ci,i=1,2是否满足分裂准则;若满足分裂准则,则对负样本集合CN重复步骤(3)和步骤(4)直至当前负样本集合CN不再满足分裂准则;递归完毕后,形成二叉树Τ;
(5)对步骤(4)得到的二叉树的叶子节点上的每个负样本集合Θj进行所有特征xnm (j)的归一化处理,归一化后求解特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k)两个参数;重复步骤(5)多次,根据特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k),挑选出最佳的负样本集合
(6)对步骤(5)得到的最佳负样本集合按照一定比例进行抽样,得到平衡负样本集合Ψ;
(7)将原始空间中的正样本集合ΩP与步骤(6)得到的平衡负样本集合Ψ构成一个平衡样本集合Ωbalance。
具体地,在步骤(1)中,划分后的正样本空间集合大小为|ΩP|,负样本空间集合大小为|ΩN|,且正、负样本空间集合有如下关系:
具体地,所述步骤(1)中所创建的负样本空间集合的副本CN为一个变量,用于表示处于当前树节点的负样本集合,其数量随着二叉树中节点数量的变化而变化。
具体地,步骤(2)中的样本平衡比r的范围为0<r<1;通过修改样本平衡比,能够改变每个平衡样本集合的大小。不同样本平衡比值对模型的泛化能力有巨大的影响。针对不同的应用场景,一般通过多次实验得到最佳的样本平衡比值。
具体地,在步骤(2)的选择过程中,树的深度D与叶子节点的最少样本数量LeafMin需同时满足D>0,LeafMin≥2。通过树的深度D与叶子节点的最少样本数量LeafMin来确定分裂准则:当当前树的深度以及叶子节点最少样本数量满足分裂准则D'<D,|CN|>=LeafMin时,继续对节点进行分裂;其中,D’表示当前树的深度,D表示设定的树的目标深度。
更进一步地,树的深度D一般依据样本数量来确定,样本数量越多,树的深度应该越深,这样才能够让样本空间得到充分的划分。叶子节点的最少样本个数LeafMin划分得越少,树的复杂度就越高,最终得到的平衡集合的质量就越高。
具体地,基聚类算法用于对二叉树节点的分裂。不同的基聚类算法因数据集的分布产生不同的分裂效果,同时对整个分裂过程的所需要时间产生很大的影响。
具体地,步骤(3)得到的2个不相交的簇,表示为:{Cl|l=1,2};两者满足如下关系:
其中,C1、C2是对当前节点处的负样本集合CN的二簇聚类结果。
具体地,所述步骤(4)的具体过程为:
将步骤(3)得到的2个不相交的簇Ci,i=1,2先后记为CN,即CN←Ci,i=1,2;上述2个不相交的簇根据分裂准则判断是否继续分裂:若满足分裂准则,则对负样本集合CN重复步骤(3)和(4),直至当前负样本集合CN不再满足分裂准则。
更进一步地,当前负样本集合CN根据分裂准则结束递归后,形成二叉树Τ;
其中,Θj,j=1,2,.....S表示为二叉树Τ上的叶子节点上的负样本集合,m表示叶子节点个数,且m满足:0<m≤2D。
具体地,在所述步骤(5)中,由于每一次实验得到的S个负样本集合Θj的质量都不一样,因此,需要通过一些指标来筛选出最佳负样本集合在进行计算指标之前,由于各特征的量纲不一致,因此直接计算指标可能会带来一些由于量纲所带来的误差,因此,对步骤(4)得到的每个负样本集合Θj进行所有特征xnm (j)的归一化处理,具体方法为:
其中,N(j)表示第j个负样本集合Θj中样本的个数,M表示原始样本空间的特征维度;j表示第j个负样本集合Θj,n表示负样本集合Θj中第n个样本,m表示负样本集合Θj中第m个维度;代表第j个负样本集合Θj上第n个样本在第m个维度上元素的取值。是第j个负样本集合Θj上第m个维度上所有元素的取值情况。
更进一步地,通过求取特征差异度方差FeatureVar和特征极差程度
(k)
FeatureRange(k),能够计算集合的质量,具体计算公式为:
其中,S表示负样本集合的个数;
其中,k表示第k次实验。
更进一步地,式中的都是已经经过归一化处理后的新数值,特征差异度方差反映的是负样本集合每一维度特征的离散程度,该指标越小表示集合内的某一维度上的特征越相似。特征极差程度是反映某一维度上特征的两极情况,如果两极相差较大,表明该集合中存在一些簇外的样本,此时应当将树的深度提高以便更好地区分不同类别的样本。
更进一步地,重复步骤(5)多次,挑选出或者当两者取不同的k值时,可以利用指标所述指标是一个启发式的准则。一般情况下,挑选出的特征差异度方差和特征极差程度的乘积为最小值时,能够获得一个质量比较好的负样本集合。按照所述准则来选取k值,挑选出最佳的负样本集合
具体地,步骤(6)中对得到的最佳负样本集合按照一定比例进行抽样,具体过程为:
根据步骤(2)中设定的样本平衡比r,则一个平衡样本集合Ωbalance需要的负样本个数为对最佳负样本集合进行等比抽样,所采用的抽样比具体为其中,α表示原始样本集合的不平衡比。即对最佳负样本集合进行等比抽样的抽样比为:原始样本集合的不平衡比α与平衡样本集合的样本平衡比r的比值,即等比抽样后得到一个平衡负样本集合Ψ。
具体地,原始空间中的正样本集合ΩP与步骤(7)得到的平衡负样本集合Ψ构成一个平衡样本集合Ωbalance。此时平衡样本集合Ωbalance的正负比转化为r,最终得到的平衡样本集合Ωbalance中包含原始负样本空间集合ΩN的大部分信息,即ΩN与Ωbalance的分布相似。
本发明与现有技术相比,具有如下优点和有益效果:
1、在改善正负样本比例的通式,不是随机抽取原始样本空间中的样本,而是先利用二叉树的结构进行多次二簇聚类。在重复次实验后得到k棵二叉树。对每一棵树的叶子节点利用特征差异度方差和特征极差程度进行评价每个叶子节点的质量,从而挑选出k棵树中最佳一棵树,把这棵树的叶子节点上的负样本集合作为最佳的负样本集合在改善正负样本比的同时又不会丢失太多原始样本空间的信息。
2、利用本发明生成的平衡样本集合非常有利于后续的集成学习,把每一个平衡样本集合作为一个训练集,训练多个弱分类器,一方面由于每个训练集的规模远远小于原始样本空间的规模,因此训练的速度非常快,易于集成;另一方面由于平衡样本集合与原始样本空间分布相似,同时不同的平衡样本集合都具有差异性,可以看作是在原始样本空间上进行样本扰动,能够提高训练器的泛化性能。
附图说明
图1为本发明的基本流程图;
图2为本实施例中对k组若干负样本集合中通过两个重要指标选出最佳负样本集合的流程图;
图3为本实施例中对平衡样本集合Ωbalance的构成过程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所述为本发明的基本流程图。在本实施例中,一种基于二叉树结构的不平衡数据处理方法,具体包括以下步骤:
(1)将原始数据集Ω按标签划分为正样本空间集合ΩP和负样本空间集合ΩN,同时创建负样本空间集合的副本CN。
具体地,划分后的正样本空间集合大小为|ΩP|,负样本空间集合大小为|ΩN|,且正、负样本空间集合有如下关系:
(2)选择每个平衡样本集合的样本平衡比r、选择树的深度D、叶子节点的最少样本数量LeafMin以及基于原型聚类的基聚类算法Γ。具体地,步骤(2)中的样本平衡比r的范围为0<r<1;通过修改样本平衡比,能够改变每个平衡样本集合的大小。不同样本平衡比值对模型的泛化能力有巨大的影响。针对不同的应用场景,通过多次实验得到最佳的样本平衡比值。
具体地,步骤(2)中的树的深度D与叶子节点的最少样本数量LeafMin需同时满足D>0,LeafMin≥2。通过树的深度D与叶子节点的最少样本数量LeafMin来确定分裂准则:当当前树的深度和叶子节点的最少样本数量满足D'<D,|CN|>=LeafMin时,继续对节点进行分裂;其中,D'表示当前树的深度,D表示设定的树的目标深度。
在本实施例中,r=0.25。在步骤(2)中选择整个树节点分裂的时候所使用的基聚类算法为K-Means算法,所述聚类算法中K取2。
(3)采用步骤(2)中所选择的基聚类算法Γ将负样本集合CN划分为2个不相交的簇Ci,i=1,2;
具体地,步骤(3)得到的2个不相交的簇,表示为:{Cl|l=1,2};两者满足如下关系:
C1、C2是对当前节点处的负样本集合CN的二簇聚类结果。
(4)根据分裂准则,判断步骤(3)中所划分的簇,即CN←Ci,i=1,2是否满足分裂准则;若满足分裂准则,则对负样本集合CN重复步骤(3)和步骤(4)直至当前负样本集合CN不再满足分裂准则;递归完毕后,形成二叉树Τ;
具体地,所述步骤(4)的具体过程为:
将步骤(3)得到的2个不相交的簇Ci,i=1,2先后记为CN,即CN←Ci,i=1,2;上述2个不相交的簇根据分裂准则判断是否继续分裂:若满足分裂准则,则对负样本集合CN重复步骤(3)和(4),直至当前负样本集合CN不再满足分裂准则。
更进一步地,当前负样本集合根据分裂准则结束递归后,形成二叉树Τ;其中,Θj,j=1,2,.....S表示为二叉树Τ上的叶子节点上的负样本集合,m表示叶子节点个数,且m满足:0<m≤2D。
在本实施例中,上述步骤(3)和(4)是通过判断是否满足分裂准则来对当前所在叶子节点的负样本集合CN进行二簇聚类。在步骤(3)和(4)中,需要计算当前叶子节点负样本集合CN的大小。若不满足分裂准则,则停止分裂,此时的CN为其中一个Θj。此时树的节点变为叶子节点,保存处于当前叶子节点的负样本集合CN。若满足分裂准则,则继续对处于叶子节点的负样本集合CN进行聚类,再次产生左、右叶子节点。重复上述步骤,直至所有节点处均不满足分裂准则。
(5)对步骤(4)得到的二叉树叶子节点上的每个负样本集合Θj进行所有特征xnm (j)的归一化处理,归一化后求解特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k)两个参数;重复步骤(5)多次,根据特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k),挑选出最佳的负样本集合
具体地,在所述步骤(5)中,对步骤(4)得到的每个负样本集合Θj进行所有特征xnm (j)的归一化处理,具体方法为:
其中,N(j)表示第j个负样本集合Θj中样本的个数,M表示原始样本空间的特征维度;j表示第j个负样本集合Θj,n表示负样本集合Θj中第n个样本,m表示负样本集合Θj中第m个维度;代表第j个负样本集合Θj上第n个样本在第m个维度上元素的取值。是第j个负样本集合Θj上第m个维度上所有元素的取值情况。
更进一步地,通过求取特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k),能够计算集合的质量,具体计算公式为:
其中,S表示负样本集合的个数;
其中,k表示第k次实验。
更进一步地,式中的都是已经经过归一化处理后的新数值,特征差异度方差反映的是负样本集合每一维度特征的离散程度,该指标越小表示集合内的某一维度上的特征越相似。特征极差程度是反映某一维度上特征的两极情况,如果两极相差较大,表明该集合中存在一些簇外的样本,此时应当将树的深度提高以便更好地区分不同类别的样本。
更进一步地,重复步骤(5)多次,挑选出或者当两者取不同的k值时,可以利用指标来选取k值,挑选出最佳的负样本集合
所述重复多次在一般程序中默认为5次,但在大多数情况下需要根据实验结果以及应用场景来确定。
具体地,由于每一次实验得到的S个负样本集合Θj的质量都不一样,因此,需要通过一些指标来筛选出最佳负样本集合。在进行计算指标之前,由于各特征的量纲不一致,因此直接计算指标可能会带来一些由于量纲所带来的误差。由于只产生一组的负样本集合一般不是最优的分裂方式,因此,需要重复多次,得到k组实验结果进行比较,比较时每个特征的量纲不一致,因此需要对数据进行归一化处理。归一化处理后计算特征差异程度方差、特征极差的程度。通过比较每一组的这两个指标,取这两个指标同时取得的最小的k值作为最佳的分裂。当两个指标取得最小值时k值不一致,则利用I值来判断。
(6)对步骤(5)得到的最佳负样本集合按照一定比例进行抽样,得到平衡负样本集合Ψ;
具体地,在步骤(6)中对得到的最佳负样本集合按照一定比例进行抽样,具体过程为:
根据步骤(2)中设定的样本平衡比r,则一个平衡样本集合Ωbalance需要的负样本个数为对最佳负样本集合进行等比抽样,所采用的抽样比具体为其中,α表示原始样本集合的不平衡比。即对最佳负样本集合进行等比抽样的抽样比为:原始样本集合的不平衡比α与平衡样本集合的样本平衡比r的比值,即等比抽样后得到一个平衡负样本集合Ψ。
(7)将原始空间中的正样本集合ΩP与步骤(6)得到的平衡负样本集合Ψ构成一个平衡样本集合Ωbalance。
具体地,原始空间中的正样本集合ΩP与步骤(7)得到的平衡负样本集合Ψ构成一个平衡样本集合Ωbalance。此时平衡样本集合Ωbalance的正负比转化为r,最终得到的平衡样本集合Ωbalance中包含原始负样本空间集合ΩN的大部分信息,即ΩN与Ωbalance的分布相似。
在本发明的实施例中,基于二叉树结构的不平衡数据集的处理方法,一方面能够利用多次聚类算法来分裂同类数据,使得相近的数据无需多次学习,仅学习一定量具有代表性的数据,从而减少负样本数量,能够充分地利用数据。另一方面通过调整树的深度以及叶子节点最少样本数量来调节平衡样本集合的质量,提高学习器的泛化能力。利用特征差异程度方差、特征极差程度两个指标,能够准确、客观地挑选出合适的平衡比、树的深度以及叶子节点最少样本数量,大大提高训练样本的质量,从而提高不平衡数据处理方法的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于二叉树结构的不平衡数据集的处理方法,其特征在于,具体步骤包括:
(1)将原始数据集Ω按标签划分为正样本空间集合ΩP和负样本空间集合ΩN,同时创建负样本空间集合的副本CN;
(2)选择每个平衡样本集合的样本平衡比r、选择树的深度D、叶子节点的最少样本数量LeafMin以及基于原型聚类的基聚类算法Γ;
(3)采用步骤(2)中所选择的基聚类算法Γ将负样本集合CN划分为2个不相交的簇Ci,i=1,2;
(4)根据分裂准则,判断步骤(3)中所划分的簇,即CN←Ci,i=1,2是否满足分裂准则;若满足分裂准则,则对负样本集合CN重复步骤(3)和步骤(4)直至当前负样本集合CN不再满足分裂准则;递归完毕后,形成二叉树Τ;
(5)对步骤(4)得到的二叉树叶子节点上的每个负样本集合Θj进行所有特征xnm (j)的归一化处理,归一化后求解特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k)两个参数;重复步骤(5)多次,根据特征差异度方差FeatureVar(k)和特征极差程度FeatureRange(k),挑选出最佳的负样本集合
(6)对步骤(5)得到的最佳负样本集合按照一定比例进行抽样,得到平衡负样本集合Ψ;
(7)将原始空间中的正样本集合ΩP与步骤(6)得到的平衡负样本集合Ψ构成一个平衡样本集合Ωbalance。
2.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,步骤(1)中划分后的正样本空间集合大小为|ΩP|,负样本空间集合大小为|ΩN|,且正、负样本空间集合有如下关系:
3.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,在步骤(2)的选择过程中,树的深度和叶子节点的最少样本数量须同时满足D>0,LeafMin≥2;通过树的深度D以及叶子节点最少样本数量LeafMin来确定分裂准则;当当前树的深度以及叶子节点的最少样本数量满足D>0,LeafMin≥2时,继续对节点进行分裂。
4.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,步骤(4)中,形成二叉树具体方法为:
将步骤(3)中得到的Ci,i=1,2先后记为CN,即CN←Ci,i=1,2;再根据分裂准则D'<D,|CN|>=LeafMin判断是否继续分裂;若满足分裂准则,则对负样本集合CN重复步骤(3)和步骤(4),直到当前负样本集合不再满足分裂准则;递归完毕后,最终所形成二叉树为Τ,记二叉树Τ上的叶子节点上的负样本集合为Θj,j=1,2,.....S;叶子节点个数满足0<m≤2D。
5.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,步骤(5)中进行归一化处理,具体为:
对每一个负样本集合Θj进行所有特征xnm (j)的归一化处理,其中,j表示第j个负样本集合,n表示负样本集合中第n个样本,m表示负样本集合中第m个特征;
对于每个负样本集合中的元素按照
其中,N(j)表示第j个负样本集合Θj中样本的个数,M表示原始样本空间的特征维度。
6.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,步骤(5)中求取特征差异度方差,计算公式为:
其中,S表示负样本集合的个数j表示第j个负样本集合,n表示负样本集合中第n个样本,m表示负样本集合中第m个特征,N(j)表示第j个负样本集合Θj中样本的个数;
其中,k表示第k次实验,M表示原始样本空间的特征维度。
7.根据权利要求1所述的一种基于二叉树结构的不平衡数据处理方法,其特征在于,步骤(6)中最佳负样本集合按一定比例进行抽样,抽样比具体为:
其中,NegNum表示负样本个数,r表示样本平衡比,|ΩP|表示正样本集合大小,|ΩN|表示负样本集合大小,α表示原始样本集合的不平衡比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320811.8A CN108920477A (zh) | 2018-04-11 | 2018-04-11 | 一种基于二叉树结构的不平衡数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320811.8A CN108920477A (zh) | 2018-04-11 | 2018-04-11 | 一种基于二叉树结构的不平衡数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108920477A true CN108920477A (zh) | 2018-11-30 |
Family
ID=64404113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810320811.8A Pending CN108920477A (zh) | 2018-04-11 | 2018-04-11 | 一种基于二叉树结构的不平衡数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920477A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740750A (zh) * | 2018-12-17 | 2019-05-10 | 北京深极智能科技有限公司 | 数据收集方法及装置 |
CN111666997A (zh) * | 2020-06-01 | 2020-09-15 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN112101614A (zh) * | 2020-08-07 | 2020-12-18 | 贵州电网有限责任公司 | 一种基于重抽样的配变重过载预测方法 |
CN117786538A (zh) * | 2023-12-06 | 2024-03-29 | 国网上海市电力公司 | 基于代价敏感改进的CsAdaBoost集成学习算法 |
-
2018
- 2018-04-11 CN CN201810320811.8A patent/CN108920477A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740750A (zh) * | 2018-12-17 | 2019-05-10 | 北京深极智能科技有限公司 | 数据收集方法及装置 |
CN111666997A (zh) * | 2020-06-01 | 2020-09-15 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN111666997B (zh) * | 2020-06-01 | 2023-10-27 | 安徽紫薇帝星数字科技有限公司 | 一种样本平衡方法及目标器官分割模型构建方法 |
CN112101614A (zh) * | 2020-08-07 | 2020-12-18 | 贵州电网有限责任公司 | 一种基于重抽样的配变重过载预测方法 |
CN117786538A (zh) * | 2023-12-06 | 2024-03-29 | 国网上海市电力公司 | 基于代价敏感改进的CsAdaBoost集成学习算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199548B (zh) | 一种基于卷积循环神经网络的音乐音频分类方法 | |
TWI689871B (zh) | 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
US7362892B2 (en) | Self-optimizing classifier | |
CN108920477A (zh) | 一种基于二叉树结构的不平衡数据处理方法 | |
CN108647736B (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN107644057B (zh) | 一种基于迁移学习的绝对不平衡文本分类方法 | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN107392241B (zh) | 一种基于加权列抽样XGBoost的图像目标分类方法 | |
CN108491864B (zh) | 基于自动确定卷积核大小卷积神经网络的高光谱图像分类 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN108877947B (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN108846048A (zh) | 基于循环神经网络和注意力机制的音乐流派分类方法 | |
CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN106934410A (zh) | 数据的分类方法及系统 | |
CN114387473A (zh) | 一种基于基类样本特征合成的小样本图像分类方法 | |
CN110321437A (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN113420870A (zh) | 用于水声目标识别的U-Net结构生成对抗网络及方法 | |
CN113344031B (zh) | 一种文本分类方法 | |
CN110009024A (zh) | 一种基于id3算法的数据分类方法 | |
CN115935257A (zh) | 分类识别方法、计算机设备和存储介质 | |
CN115758222A (zh) | 信号类别识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181130 |