CN107341497A

CN107341497A - 结合选择性升采样的不均衡数据流加权集成分类预测方法

Info

Publication number: CN107341497A
Application number: CN201611038696.2A
Authority: CN
Inventors: 曹鹏; 刘筱力; 单宣峰; 刘爽; 栗伟; 覃文军; 冯朝路; 杨金柱
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2017-11-10

Abstract

本发明涉及数据挖掘技术领域，提出结合选择性升采样的不均衡数据流加权集成分类预测方法，包括根据相似度对历史数据块的少数类样本进行筛选，选择与当前训练数据块概念最相近的样本；对选择的样本通过在决策边界区域合成新样本以达到选择地实施升采样；采用基于概率分布相关度的权重分配策略对新样本进行加权集成分类处理。通过选择相似度高的历史数据和合成边界区域的新数据来有效增加少数类样本信息，扩大少数类的决策域；同时为了适应存在概念漂移的动态数据，使用集成分类思想，设计一种基于概率分布相关度的权重分配策略，提升整体分类精度。实验结果表明该算法有效地提高了少数类的识别率以及整体的分类性能，具有更好的处理不均衡数据流的优势。

Description

结合选择性升采样的不均衡数据流加权集成分类预测方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及结合选择性升采样的不均衡数据流加权集成分类预测方法。

背景技术

随着通信技术的飞速发展，许多应用领域出现了海量的动态的数据，如商业交易分析，入侵检测和工业控制等。由于数据流中的数据呈现大量、连续到来的特点，不能被一次性装入内存，使得传统的挖掘方法难以有效地进行应用。数据流的分类问题一直是数据流挖掘领域的重要研究课题之一，对数据流学习分类具有两个难点：第一，由于数据随时间的持续变化,因此必然会导致数据中所蕴含的概念随着时间而发生着变化的，即概念漂移(concept drift)，如何有效地适应漂移变化，已成为近年来数据挖掘中的一个热点和难点，第二，动态数据经常伴随着类别分布不均衡的情况，例如商业交易数据中诈骗交易可能只占1％甚至更少的比例，由于多数类的信息占据了主要地位，传统的分类器在训练和预测过程中往往向多数类倾斜，从而无法有效地对少数类样本进行学习，而在很多领域中往往少数类的识别率更为重要，所以传统分类器的性能往往不尽如人意。

目前多数的数据流学习算法都是基于类别分布均衡的假设，不均衡数据分布使得概念漂移数据流问题更加复杂，因此直到最近学术界才开始关注这方面的研究，如Gao等提出一种方法SE(Sampling+Ensemble)，对最新的数据块中多数类样本采用多轮降采样，并与之前收集的所有少数类样本合并，形成多个较为均衡的数据子集，并分别构建分类器，以实现对最新数据块的集成学习。但是由于概念漂移的存在，之前少数类的样本可能与当前的概念发生了改变，导致对当前训练数据块的学习无法提供有效的信息，而且只对当前训练数据块构建了分类器，不能保持已经学习过的概念。Hoens等提出基于朴素贝叶斯模型的升采样算法IS(Instance Selecting)，根据贝叶斯模型生成的样本后验概率来选择与当前数据概念相似的历史样本。但是由于朴素贝叶斯基于所有特征独立，没有相互依赖的假设，在分布复杂的数据中，其后验概率无法准确度量历史样本与当前概念的相关程度。另外，这两种算法都只是使用历史数据进行少数类升采样，并没有生成新的样本信息，导致采样效果有限。

发明内容

为了能有效处理具有概念漂移的不平衡数据流挖掘分类问题，本发明提出结合选择性升采样的加权集成分类预测方法，有效地补充少数类的数据信息，扩展潜在的决策空间；另外，在提升少数类分类精度的同时，也能很好地适应动态数据流中的概念漂移问题。

一种结合选择性升采样的不均衡数据流加权集成分类预测方法,包括：

步骤一：根据相似度对历史训练数据块的少数类样本进行筛选，选择与当前训练数据块概念最相近的样本；

步骤二：对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本；

步骤三：根据步骤一筛选的样本和步骤二合成的新样本形成均衡的训练数据块，利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器，并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布；

步骤四：利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度，进行确定每个训练数据块对应的分类器的相关度权重；

步骤五：采用步骤三中训练得到的基分类器和步骤四中基于概率分布的相关度权重，对待预测数据块中的新样本进行加权集成分类预测。

进一步地，步骤一中包括：

选择与当前训练数据块B_T概念最相近的样本,计算当前训练数据块中少数类样本的中心其中n为B_T中少数类样本数量；

收集0<t<T-1所有训练数据块的少数类样本，生成数据集合Set_min，计算Set_min中每个样本x_j与C_T的距离Dis(x_j,C_T)＝||x_j-C_T||，并计算最大距离D_max＝max(Dis(x_j,C_T))；

采用公式计算每个样本的相似度conf，并根据相似度进行排序，选择大于某阈值threshold的样本加入到当前数据集B_T中。

进一步地，步骤二中包括：

计算每个少数类样本x_i与其K₁个相邻异类(多数类)样本的距离其中E(x_i)为x_i的K₁个相邻多数类样本集合；

根据d_i计算x_i的采样权重r_i＝1/d_i,；

对r_i进行归一化：并根据归一化的采样权重，计算每个样本x_i的实际采样数量n_i，其中N_os为合成样本的数量；

再根据SMOTE插值原，对每个少数类样本，随机选出其K₂个同类的邻近样本，并且在该样本与这些邻近的样本的连线上随机取点，利用公式生成无重复的新的少数类样本x_new，其中为x_i的一个相邻少数类样本，0＜λ＜1。

进一步地，步骤三包括：

利用决策树C4.5分类器对均衡训练数据块构建分类模型C_t；

利用高斯混合模型对均衡的训练数据块估计概率分布：

进一步地，步骤四包括：

根据数据块B_t(0<t<T)与B_T+1之间的概率分布相关度，即KL散度对数据分布进行度量:

来确定分类器M_t的相关度权值w_t，

进一步地，步骤四包括：

对w_t进行归一化，得到

利用分类模型对待预测数据块中的样本x_j进行预测，预测结果为y_tj；

汇总即得到预测结果：

本发明针对类别不均衡数据分布的数据流分类问题，提出一种结合选择性升采样的加权集成分类算法。为了消除或减少数据的不均衡性，采用选择性升采样算法从两个方面有效增加了少数类样本信息；同时为了提高分类器在概念漂移的动态数据分类性能，使用数据概率分布相关度策略确定各个分类器的权重，可以很好地反映各个基分类器的真实权重分布。通过实验验证表明该算法能够明显提高了少数类的识别率以及整体的分类性能，具有很好的动态数据学习适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于SOS方法在每个数据块的性能对比图；

图2为本发明提供的在多种采样率下基于SOS方法的性能变化对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种结合选择性升采样的不均衡数据流加权集成分类预测方法,包括：根据相似度对历史数据块的少数类样本进行筛选，选择与当前训练数据块概念最相近的样本；对选择的样本通过在决策边界区域合成新样本以达到选择地实施升采样；采用基于概率分布相关度的权重分配策略对新样本进行加权集成分类处理。

数据流分类的任务是：对持续不断的动态数据，利用有限的内存构造一个分类模型以获取数据流中随时间推移的趋势和模式。数据流是以大小固定的分块形式(Batch)逐次到达的，B₁,..,B_t,..,B_T，共T个数据块，t代表时间戳，B_t表示在时间戳t到达的数据块，其中B_T为当前的数据块，下一时刻到来的数据块为B_T+1。在每个数据块中两个类别样本经常呈不均衡分布，并且数据包含的概念会发生改变。

具体实施时，包括：

第一阶段、选择性升采样算法

每个数据块中少数类样本稀少，类内部的规律无法通过训练样本充分表现出来，数据采样是最为简单有效解决不均衡问题的技术手段。从两方面入手对少数类进行升采样，来增加该数据块的少数类样本信息。第一，考虑数据流概念“周期性”出现的特点，即历史数据中可能包含与新概念相近的少数类样本，所以通过相似度距离，从历史数据中选择并引入与当前训练数据块少数类样本相似度较高的样本，第二通过在决策边界区域合成新样本，进而扩大了少数类潜在的决策域，均衡化数据分布。

Step 1：根据相似度对历史训练数据块的少数类样本进行筛选，选择与当前训练数据块概念最相近的样本；

根据相似度来对历史数据块的少数类样本进行筛选，选择与当前训练数据块B_T概念最相近的样本。首先计算当前训练数据块中少数类样本的中心：

其中n为B_T中少数类样本数量。

收集0<t<T-1所有训练数据块的少数类样本，生成数据集合Set_min，计算Set_min中每个样本x_j与C_T的距离Dis(x_j,C_T)＝||x_j-C_T||，并计算最大距离D_max＝max(Dis(x_j,C_T))。之后根据式(2)计算每个样本的相似度conf，并根据相似度进行排序，选择满足条件(大于某阈值threshold)的样本加入到当前数据集B_T中。

Step 2：对当前少数类训练数据块样本再在决策边界区域通过SMOTE插值原则合成新样本；

增添少数类的历史数据可以一定程度上补充少数类的信息，但没有对少数类注入新的知识，所以还需要通过样本合成技术来增加新的样本。由于边界数据对少数类的识别作用较大，所以为了扩展少数类的决策空间，应对少数类样本有选择地实施升采样，即重点对在决策边界区域的少数类样本进行采样。

计算每个少数类样本x_i与其K₁个相邻异类(多数类)样本的距离:

其中E(x_i)为x_i的K₁个相邻多数类样本集合。

根据d_i计算x_i的采样权重r_i＝1/d_i,d_i越小说明该样本是边界样本的可能性更大，从而采样权重r_i越大。对r_i进行归一化：并根据归一化的采样权重，计算每个样本x_i的实际采样数量n_i，其中N_os为合成样本的数量。

再根据SMOTE插值原则，对每个少数类样本，随机选出其K₂个同类(少数类)的邻近样本，并且在该样本与这些邻近的样本的连线上随机取点，利用公式(4)生成无重复的新的少数类样本x_new，从而均衡化类别的数据分布，并扩大了少数类的决策空间。

其中为x_i的一个相邻少数类样本，0＜λ＜1。

通过以上两步选择性采样算法的操作之后，在新的较为均衡的数据集balB_T上构建分类模型M_T。选择性升采样算法流程如算法1所示：

第二阶段：基于概率分布相关度的加权集成分类算法；

由于单分类器处理概念漂移数据流时需要不断更新分类模型且分类器泛化能力不高，基于集成的方法通过组合多个分类器，既可以保留过去学到的概念，又可以及时对模型进行更新，从而可以提高分类器泛化能力。如何确定集成分类器中的各个基分类器的权重，是数据流集成学习的关键。通常的做法是根据每个基分类器在当前训练数据块的分类性能作为确定权重的依据，即0<t<T-1数据块对应的分类器权重是根据其在B_T数据块上的性能进行确定的，之后加权集成分类应用到B_T+1数据块的数据预测中，所以权重的确定都要滞后一个数据块，无法及时准确地适应动态概念的变化。如果B_T和B_T+1之间发生突发性的概念漂移，根据其在B_T上的性能确定的权值应用到B_T+1上会得到不准确的预测结果，甚至可能比没有权重的普通集成方法性能更差。

本发明提出一种基于概率分布相关度的加权集成分类算法，通过数据分布的空间距离来度量两个数据块分布的相关程度，进而可以准确且及时地调整各个基分类器的权重，增强自适应能力，以减少集成分类器在未来数据块上的预测错误率。

Step 3：根据Step 1筛选的样本和Step 2合成的新样本形成均衡的训练数据块，利用决策树C4.5分类模型进行对所述均衡的训练数据块训练得到基分类器，并利用高斯混合模型对所述均衡的训练数据块进行估计概率分布；

高斯混合分布(Gaussian mixture distribution,GMM)是一种对数据的真实分布进行模拟和逼近的半参数表达模型，可以近似任意数据分布，所以假定每个时序数据块中的数据遵从具有某种参数的高斯混合分布，从而使用高斯混合分布对每个数据块进行建模，并对进行参数估计。

高斯混合模型可视为多个高斯分布以一定比例混合而成，假定一组观测值由混合分布p产生，该分布由K个单一高斯分布混合而成，即有K个子高斯分布，如公式(4)所示。

在GMM中，每个高斯成分用均值μ和协方差矩阵∑来决定其几何特征。高斯混合模型中共有3个参数向量μ_k,π_k和∑_k(k＝1,…,K)，它将数据的概率密度函数用多个高斯函数的线性组合来表示。

其中：N(x|μ_k,Σ_k)为高斯分布密度函数，

对高斯混合模型进行参数估计的常用方法是EM，但由于其需要人工指定K值，并且其对初始值点敏感，所以在本发明中使用Figueiredo-Jain解法来对参数进行估计，该算法可以自动确定高斯混合模型中K值，从而更加准确地计算出模型中的参数。

Step 4：利用KL散度来度量每个均衡的训练数据块与预测数据块的分布相关度，进行确定每个训练数据块对应的分类器的相关度权重；

信息论中的KL-divergence(又称KL散度，或KL距离)是衡量两个概率分布相似程度的最佳度量方式，可以很好地表示数据分布之间的关系。用KL散度来度量两个数据块概率分布之间的差异。设p₁(x)和p₂(x)是两个概率密度函数，则两者之间的KL散度表达式为：

由于高斯混合分布的KL散度没有闭式解，根据论文提出的一种针对高斯混合分布的KL度量公式，可直接通过GMM估计的参数向量进行计算：

其中

d为x的特征维度。

根据数据块B_t(0<t<T)与B_T+1之间的概率分布相关度，即KL散度，来确定分类器M_t的权值w_t，如下：

对w_t进行归一化，得到KL值越小说明两个数据块分布越相似，对应的基分类器对当前的数据块具有更好的预测能力，应赋予更高的权值。

Step 5：采用Step 3中训练得到的基分类器和Step 4中基于概率分布的相关度权重，对待预测数据块中的新样本进行加权集成分类预测；

通过直接比较概率分布相关度，可以准确检测出概念漂移，并度量其对每个分类器的影响，进而提高算法对概念漂移的反应速度。

算法2描述了基于概率分布相关度的加权集成分类流程，其中每个分类模型M_t是基于算法1进行构建获得的。

申请人对上述方法进行了实验验证，实验设置如下：

根据多组实验，对算法中选择性采样的参数设置为threshold＝0.8,K₁＝10，K₂＝5，N_os＝|newMin_T|。为了对本发明提出的算法性能进行验证和评估，本发明选择三组具有概念漂移且类别分布失衡的数据集进行测试，数据集信息如表1。

其中数据集的背景说明如下：Compustat数据集描述的是某公司几年财务监控状况，Football数据集记录2003-2008年度ESPN中的足球比赛统计，而Ozone-8h是对休斯顿、加尔维斯顿等地区每8小时的臭氧浓度的测量数据。所有数据来源于Lichtenwalter提供的公开数据集。

分类性能的评测指标直接影响着分类器的整体性能，由于以准确率为评测指标的分类器会忽略少数类的分类准确率，为此针对不均衡数据，使用常用的不均衡分类评测指标F-measure，G-mean和AUC。

表1数据集信息

数据集	样本总数	少数类数量	特征维数	不均衡比例
					Compust	13,657	520	20	1:25
Football	4,288	1,597	11	1:2
					Ozone-8h	2,534	160	72	1:15

表2混淆矩阵

为了定义G-mean和F-measure，需要用到混淆矩阵的概念，如表2。G-mean是综合考虑两类的准确率，而F-measure是只针对少数类，即查全率和查准率的调和均值，如公式(9)-(10)所示：

其中：

AUC(Area Under the ROC Curve)是另一个有效的不均衡数据分类性能评价手段。由于ROC曲线作为分类器评估的可视化技术得到了广泛应用，AUC能以定量的方式表示ROC曲线对应的分类器性能。

实验结果如下：

(1)验证SOS-PDRWE算法性能

为了测试结合选择性采样的加权集成算法性能，通过实验比较只对当前训练数据块进行训练学习的单分类器算法BL(Baseline)，只对当前训练数据块采样和学习的SOS算法，无升采样的加权集成分类算法PDRWE，和本发明的算法SOS-PDRWE。另外，也对根据分类性能来设置权重的方法SOS-IWE进行测试。基分类器使用决策树C4.5算法，实验结果如表3-5所示。所有结果都是每个数据集所有训练数据块上性能的均值。

通过三种指标性能的比较可以发现SOS-PDRWE能够很好地处理不均衡分布的数据流问题，具有较高的分类精度和适应性。特别是对概念漂移和不均衡程度均较为严重的Compustat数据集，有效的升采样和加权集成分类策略可以保证较高的分类性能。

表3F-measure实验结果

分类方法	Compustat	Football	Ozone-8h
				BL	0.554	0.834	0.733
SOS	0.626	0.842	0.759
				PDRWE	0.607	0.869	0.752
SOS-IWE	0.674	0.865	0.796
				SOS-PDRWE	0.706	0.879	0.823

表4G-mean实验结果

分类方法	Compustat	Football	Ozone-8h
				BL	0.414	0.707	0.712
SOS	0.467	0.726	0.765
				PDRWE	0.460	0.755	0.730
SOS-IWE	0.483	0.751	0.787
				SOS-PDRWE	0.529	0.782	0.806

表5AUC实验结果

分类方法	Compustat	Football	Ozone-8h
				BL	0.658	0.843	0.786
SOS	0.658	0.866	0.808
				PDRWE	0.710	0.925	0.797
SOS-IWE	0.721	0.872	0.842
				SOS-PDRW	0.784	0.925	0.861

为了更深入观察PDRWE集成学习在具有概念漂移的数据流下的分类性能，使用Compustat数据集对每个数据块的分类性能F-measure进行对比，如图1所示。Compustat数据中每个数据块记录了不同时期的财务状况，所以存在着不同程度的概念漂移，尤其是第13个数据块发生较为明显的概念变化。由于更加关注少数类识别性能，所以只用F-measure对三种算法进行评估。通过图2可以发现，三种方法在当出现概念漂移时，其F-measure值都出现不同程度的下降。基于PDRWE集成分类算法根据数据分布相关度来调节基分类器的权重，可以有效地克服潜在概念漂移的问题，能很好地及时适应目标概念的改变。

最后应说明的是以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，包括：

2.根据权利要求1所述的结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，步骤一中包括：

选择与当前训练数据块B_T概念最相近的样本，计算当前训练数据块中少数类样本的中心其中n为B_T中少数类样本数量；

3.根据权利要求2所述的结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，步骤二中包括：

计算每个少数类样本x_i与其K₁个相邻异类样本的距离其中E(x_i)为x_i的K₁个相邻多数类样本集合；

根据d_i计算x_i的采样权重r_i＝1/d_i,；

对每个少数类样本，随机选出其K₂个同类的邻近样本，并且在该样本与这些邻近的样本的连线上随机取点，利用公式生成无重复的新样本x_new，其中为x_i的一个相邻少数类样本，0＜λ＜1。

4.根据权利要求3所述的结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，步骤三包括：

利用决策树C4.5分类器对均衡的训练数据块构建分类模型C_t；

利用高斯混合模型对均衡的训练数据块估计概率分布：

<mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.根据权利要求4所述的结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，步骤四包括：

<mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mrow> <mi>T</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>&Integral;</mo> <msub> <mi>p</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>n</mi> <mfrac> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>p</mi> <mrow> <mi>T</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mi>d</mi> <mi>x</mi> </mrow>

来确定分类器M_t的相关度权值w_t，

6.根据权利要求5所述的结合选择性升采样的不均衡数据流加权集成分类预测方法，其特征在于，步骤四包括：

对w_t进行归一化，得到

利用分类模型C_t对待预测数据块中的样本x_j进行预测，预测结果为y_tj；

汇总即得到预测结果