CN104102718A

CN104102718A - 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法

Info

Publication number: CN104102718A
Application number: CN201410342032.XA
Authority: CN
Inventors: 李鹏; 张楷卉
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2014-07-17
Filing date: 2014-07-17
Publication date: 2014-10-15

Abstract

面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，属于失衡数据分类领域。为了解决目前失衡数据分类方法分类效果不好的问题。它包括：步骤一：对失衡数据集D基于密度聚类进行簇边界采样，获取重采样后的失衡数据集B；步骤二：对重采样后的失衡数据集B基于KNN动态阈值进行剪枝，获取剪枝后的失衡数据集T；步骤三：对剪枝后的失衡数据集T采用SVM分类器进行分类，获取分类后的失衡数据集。它应用于医疗诊断、癌症检测、蛋白质的检测、故障检测、客户流失预测等领域。

Description

面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法

技术领域

本发明属于失衡数据分类领域。

背景技术

失衡数据集分类的应用领域很多。例如，医疗诊断、癌症检测、信用卡、保险等欺诈检测方面，生物信息学领域，如蛋白质的检测、企业破产、故障检测、客户流失预测等等。

由于失衡数据集本身特性，失衡数据的分类问题不同于传统分类问题，它具有很多传统分类策略和分类方法中没有考虑到的因素，如数据海量问题、数据条件属性缺失问题、数据集失衡、数据淹没现象、标注瓶颈以及数据的混叠性和复杂性等均影响着分类器的分类效果。

目前，解决失衡数据集分类问题主要采取两种策略：一是重采样，该方法即可以适当屏蔽大类样本的信息量或提高小类样本的错分代价；二是探索更适合失衡数据的分类模型，针对失衡数据的特点对分类算法进行改进以提高其分类能力。无论数据集是否失衡，数据集的重叠都会对分类的准确度产生很大影响。选择性删除数据的目地是找出数据集重叠的区域，并将该区域的样本删除，而利用特征提取算法处理重叠问题目前还只停留在理论阶段。要是解决数据分类问题，就必须考虑数据存在的混叠现象与复杂性。样本在样本空间上的数据混叠现象和复杂性现象，这种数据是影响分类准确度不高导致分类器分类效果不好的原因之一。

目前采用的过采样实现动态采样速率调整的方法对待测信号进行高速率的采样，结合采样需求，从过采样所采得的信号进行抽取有效的数据。其采样点需求应包括标准周期下的采样速率和在采样信号频率发生变化时的频率跟踪所对应的采样速率。本发明的有益效果在于，既减轻数字信号处理器的运行负担，亦可方便将采样模块应用于其他场合。该方法中数字信号的处理方法只是从过采样后的数字信号中抽取有效的信号。但是，由于数据集中的每个数据元素都描述了该类事物的基本特征，重采样方法必定会造成一定的信息损失，为了尽可能的减小数据集中的信息损失使得保留的数据具有代表性，我们提出了一个适用于失衡数据集分类问题的簇边界采样方法。

采用多媒体数据高维索引及KNN检索方法构建多个多媒体数据的高维索引，高维索引包括多个节点和多个多媒体数据的数据数据对象，每个节点包括节点的节点中心到节点对应的子节点的节点中心或数据对象的距离；根据KNN检索算法，在高维索引中确定出待检索数据的检索范围及候选检索引节点集合；根据检索范围及候选索引节点集合内各节点包括的距离，对候选索引节点集合进行剪枝处理得出待检索数据的检索结果。通过在构建多媒体数据的高维索引时存入每个节点的节点中心到节点对应的子节点的节点中心或数据对象的距离，并依据该存储的距离，对得到的候选索引节点集合进行剪枝处理，得出所述待检索数据的检索结果。

采用一种在线升级主样本模型的KNN故障检测方法将主样本空间的数据作为建模数据的训练集，利用KNN检测方法进行建模和故障检测，在主样本空间中找到每个样本的k个最近邻，对每个样本计算k个最近邻距离的平方和，将所有样本的k近邻平方和按序列确定故障检测的阈值；对于新来的一个待检测样本x，从主样本空间中找到x的k个最近邻，计算样本x的k个最近邻距离平方和并将其与阈值进行比较，如果小于阈值则样本x是正常的，否则样本是故障的；通过主样本模型的选取可以是各工况的数据结构得到优化，提高故障检测模型的精确度。

上述有两种方法使用KNN方法设置了固定的值，检测样本与该值进行比较。然而，在失衡数据集中存在着正负例的高失衡比及数据的混叠的现象，在数据处理时正负例应该采用不同的控制阈值对样本进行剪枝。

发明内容

本发明的目的是为了解决目前失衡数据分类方法分类效果不好的问题，本发明提供一种面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法。

本发明的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，

它包括如下步骤：

步骤一：对失衡数据集D基于密度聚类进行簇边界采样，获取重采样后的失衡数据集B；

步骤二：对重采样后的失衡数据集B基于KNN动态阈值进行剪枝，获取剪枝后的失衡数据集T；

步骤三：对剪枝后的失衡数据集T采用SVM分类器进行分类，获取分类后的失衡数据集。

步骤一中，对失衡数据集D基于密度聚类进行簇边界采样，获取重采样后的失衡数据集E的方法包括：

步骤一一：遍历失衡数据集D中的数据元素，计算失衡数据集D中的数据元素与数据元素之间的欧几里得距离；

步骤一二：根据失衡数据集D的特征和步骤一一得到的数据元素与数据元素之间的欧几里得距离，计算聚类密度阈值MINP₁；

步骤一三：利用第一组密度阈值对失衡数据集D进行聚类，划分成n+1个簇，失衡数据集D＝{C₁,C₂,C₃,...,C_n,C_noise}，n为正整数，C_noise表示噪声的簇，所述第一组密度阈值包括聚类密度阈值MINP₁和数据元素的邻域EPS₁；

步骤一四：对失衡数据集D中的数据元素进行相应的标记，标记为簇C_i或噪声C_noise，i＝1,2,3,...,n；

步骤一五：对于簇C_i，计算相应簇中的数据元素的个数N_ci，根据所述N_ci计算相应簇C_i的边界密度阈值MINP_ci；

步骤一六：计算每一个数据元素在设定的邻域内与其属于同一簇的数据元素的个数EPS_ci；

步骤一七：根据第二组密度阈值，从簇C_i中提取边界元素B_i，所述第二组密度阈值包括MINP_ci和EPS_ci；

步骤一八：转入步骤一四，直到失衡数据集D中所有非噪声的数据元素所在的簇都被遍历时，得到重采样之后获取的失衡数据集B＝{B₁,B₂,B₃,...,B_n}，结束。

步骤二中，对重采样后的失衡数据集B基于KNN动态阈值进行剪枝，获取剪枝后的失衡数据集T的方法包括：

步骤二一：在重采样后的失衡数据集B中选择一个未计算的边界元素作为查询点x_q，找出所述查询点x_q的K个近邻点，K为正整数；

步骤二二：通过公式计算查询点的属性预测值ψ(x_q)；如果f(x_q)＝1且ψ(x_q)≤θ⁺，则删除当前查询点x_q，如果f(x_q)＝﹣1且ψ(x_q)≥θ^-，则删除当前查询点x_q，否则，查询点x_q存入剪枝后的失衡数据集T，f(x_i)∈{1,-1}，转入步骤二三；θ⁺为正例的控制阈值，θ^-为反例的控制阈值；

步骤二三：判断重采样后的失衡数据集B中的边界元素是否全部计算，若是，结束，若否，转入步骤二一。

本发明的有益效果在于，本发明采用聚类方法进行采样取得了较好的效果。由于失衡数据集中正例和反例分布不平衡，高失衡比的数据集中，正例和反例的个数往往差距巨大，所以在对失衡数据进行聚类提取簇边界环时，要保证占少数的正例信息尽可能的完整，而占绝大多数的反例信息尽可能的具有代表性，因此，保留正例信息，对负例采用簇边界采样的方法对数据进行重采样。本发明针对正负例的高失衡比及数据的混叠的现象，采用KNN近邻剪枝方法对样本集中的正负例样本采用不同的控制阈值进行剪枝。这两种方法经实验证明均降低了数据的失衡比、数据复杂性和混叠性对分类器分类效果地影响，提高了分类器的分类效果。

附图说明

图1为具体实施方式一所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的原理示意图。

图2为具体实施方式一所述的原理示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，它包括如下步骤：

具体实施方式二：结合图2说明本实施方式，本实施方式是对具体实施方式一所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的进一步限定，步骤一中，对失衡数据集D基于密度聚类进行簇边界采样，获取重采样后的失衡数据集E的方法包括：

基于密度聚类的方法主要是选择一个对象作为核心对象，查询该核心对象的邻近区域，只要邻近区域的密度超过某个阈值，就在临近区域内选择除核心对象意外的任一对象作为核心对象继续聚类，最终相对高密度的区域被相对低密度的区域分割开来并形成聚类簇。

通过密度聚类得到的相同簇中的数据元素在向量空间上的分布较为密集，数据蕴含内容的相似度高，提取簇边界的数据元素可以有效的代表整个聚类簇中数据对象的特征。对于数据空间中的元素，都可以对应到二维维空间中的点。更精确地讲，可以把任意的数据元素表示为下面这种特征向量的形式，并且采用标准的欧几里得距离作为两个向量之间的距离。

<α₁(x),α₂(x),...,α_n(x)> (1)

其中，α_k(x)表示实例x的第k个属性。那么两个实例x_i和x_j间的欧几里得距离定义为：

d (x_{i}, x_{j}) = \sqrt{Σ_{k = 1}^{n} {(α_{k} (x_{i}) - α_{k} (x_{j}))}^{2}} - - - (2)

在数据集D中，实例x的邻域可以定义为：

EPS(x)＝{y∈D|d(x,y)≤EPS} (3)

本实施方式是基于邻域的定义来确定聚类簇的边界点，在同一个聚类簇中的元素，如果某个元素的邻域内所包含的元素个数越多，说明该元素所处的区域越接近聚类簇的中心；如果某个元素的邻域内所包含的元素个数越少，说明该元素所处的区域越接近聚类簇的边界。我们可以使用|EPS(x)|代表数据元素x所在邻域内数据元素的个数。

为了能够更加准确的找到聚类簇的边界，我们选取了2组密度阈值，其中第一组密度阈值为聚类密度阈值，是根据整体数据集的特征和平均距离来估算，用来将整个数据集划分成若干个簇；另外一组密度阈值为边界密度阈值，通过每个簇的规模来估计，用来寻找所得到簇的边界数据对象。使用第一组聚类密度阈值EPS₁和MINP₁来寻找数据集中相似的数据元素，将数据集中的数据元素划分成若干个簇。对每个簇C_i使用第二组边界密度阈值EPS_ci和MINP_ci来寻找簇的边界环，边界密度阈值的确定取决于簇C_i的规模。C_i代表失衡数据集D中划分出的第i个簇，B_i代表簇C_i的边界环，则有：

D＝{C₁,C₂,C₃,...,C_n,C_noise} (4)

C_i＝{x∈D||EPS(x)|≥MINP₁} (5)

B_i＝{x∈C_i||EPS(x)|≥MINP_ci} (6)

本实施方式克服了传统采样方法存在的随机性强，人为主观性干扰，信息损失等不足显著提高了后续SVM分类器的泛化性能。

具体实施方式三：本实施方式是对具体实施方式一或二所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的进一步限定，步骤二中，对重采样后的失衡数据集B基于KNN动态阈值进行剪枝，获取剪枝后的失衡数据集T的方法包括：

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。K近邻算法的基本思想样本集合中的每个样本点预测值是根据与其最近的K个近邻样本的类别属性确定，通过计算当前查询样本点的预测值来判断查询样本的预测类别与本身真实类别是否一致。

从真实的失衡数据集中，通过自组织映射聚类样本选取算法得到的新样本集合会存在数据混叠的情况。前面提到，这种数据混叠在增大训练难度的同时还会造成过学习，使得SVM的泛化能力大大降低，分类性能明显下降。当数据混叠情况比较严重的情况下，噪声数据通常相互伴生存在。在这种情况下，K近邻的思想就完全失效了。

KNN算法假设所有样本映射到多维空间Rⁿ中，在多维空间中找到与预测样本最近邻的k个点，并根据这k个点的类别来判断预测样本的类别。更精确地讲，把任意的实例x表示为下面的特征向量，并采用标准欧氏距离作为两个向量之间的距离。

<α₁(x),α₂(x),...,α_n(x)> (7)

其中，α_k(x)表示实例x的第k个属性。那么两个实例x_i和x_j间的距离定义为

d (x_{i}, x_{j}) = \sqrt{Σ_{k = 1}^{n} {(α_{k} (x_{i}) - α_{k} (x_{j}))}^{2}} - - - (8)

在KNN算法中使用的是一般数据集，对于失衡数据这个特殊的数据集来说，失衡数据中正例样本与反例样本的比例失衡，正例样本比较匮乏，因此正例样本信息比反例样本信息更珍贵，并且由于数据的失衡，混杂在正例样本中的反例样本远比混杂在反例中的正例多。因此，正、反例的预测值采用不同的控制阈值，采用动态的控制阈值使修剪更倾向于删除反例混杂点，其中包括在上面提出的伴生存在的反例混杂点，而保证稀有的正例信息尽可能不受损失。当正例资源极其匮乏时，甚至可以不剪枝正例，而只对反例进行剪枝。

定义样本的类别属性值为f(x_i)∈{1,-1}，查询点的属性预测值阈值ψ(x_q)由下面的公式计算得出：

ψ (x_{q}) = \frac{Σ_{i = 1}^{K} f (x_{i})}{K} - - - (9)

本实施方式根据正例样本与负例样本的不同的阈值来对训练样本进行取舍，对数据中存在的混叠现象予以很好的解决，提高了SVM分类器的分类效果。

失衡数据集具有两个内在因素，即失衡比与信息匮乏。失衡比是指大类别与小类别的比值，它代表了数据失衡的程度。信息匮乏是指小类别样本的数据量，它表示了数据集中小类别的信息量。为了验证本发明的性能，实验选取了4组UCI公共数据平台的公开数据集作为实验数据，表1列出了4个数据集的基本信息，分别代表了失衡数据可能出现的四种情况。使用这些数据集可以从各个方面来体现失衡数据集的特征，可以更好的验证实验方法的有效性和可行性。表2和表3验证簇边界采样和剪枝的可行性，提高了分类器的分类效果。

表1 4个UCI数据集基本信息

数据集	反例样本数	正例样本数	失衡比	数据描述
					Shuttle	57829	171	338:1	高失衡比高信息量
Abalone	4145	32	130:1	高失衡比低信息量
					Yeast	1433	51	28:1	低失衡比低信息量
Churn	4293	707	6:1	低失衡比高信息量

表2：对采样前后的AUC性能对比

AUC	Shuttle	Abalone	Yeast	Churn
					采样前	0.4792	0.5503	0.6223	0.9013
采样后	0.7670	0.7004	0.8687	0.9053

表3：对剪枝前后的AUC性能对比

AUC	Shuttle	Abalone	Yeast	Churn
					剪枝前	0.4792	0.5503	0.6223	0.9013
剪枝后	0.7948	0.7154	0.9023	0.9143

Claims

1.面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，其特征在于，它包括如下步骤：

2.根据权利要求1所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，其特征在于，步骤一中，对失衡数据集D基于密度聚类进行簇边界采样，获取重采样后的失衡数据集E的方法包括：

3.根据权利要求1所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法，其特征在于，步骤二中，对重采样后的失衡数据集B基于KNN动态阈值进行剪枝，获取剪枝后的失衡数据集T的方法包括：