CN105894023A

CN105894023A - 基于聚簇的支持向量数据描述改进算法

Info

Publication number: CN105894023A
Application number: CN201610194147.8A
Authority: CN
Inventors: 王喆; 李冬冬; 刘宇; 高大启
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-24

Abstract

本发明提供一种基于聚簇的支持向量数据描述改进算法，首先利用核函数计算训练样本在核空间中相互之间的距离，接着通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重，然后设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界，之后对测试样本进行判别，若测试样本位于超球体之内则判为目标类样本，反之则判为异常类样本。相较于传统的支持向量数据描述算法，本发明的基于聚簇的支持向量数据描述改进算法通过该权重因子引入了基于样本分布信息的簇中心算法，根据样本到簇中心的距离计算得到权重因子，实现了对原始支持向量数据描述方法决策边界优化的改进，能够有效地对单类的数据集有更加准确的数据分类描述。

Description

基于聚簇的支持向量数据描述改进算法

技术领域

本发明属于机器学习领域，特别涉及一种基于聚簇的支持向量数据描述改进算法。

背景技术

支持向量数据描述（Support Vector Data Description，SVDD）是由Tax在2001年提出的一种基于边界的单类分类算法，其应用领域在不断被推广，单类分类能够区分异常样本的情况，故此SVDD比较适合异常检测的问题，其在各种异常检测应用中有着非常显著地效果。

SVDD算法在对目标数据进行描述时，首先将样本通过核函数映射到和空间中，然后用一个超球体去包含尽量多的目标数据，并要求最终的超球体半径尽可能小。在进行分类判断时，若测试数据点位于超球体外，则此数据点视做异常点，反之，则为目标数据。

SVDD分类器是一种广泛使用的单类分类分类器。SVDD利用样本在核空间中样本到球形边界的距离，而没有考虑样本的分布密度信息，这有可能会导致聚簇中心附近的样本没有包含于超球体的情况，即出现较低分类精度的情况。为了解决这个缺陷，我们提出了一种基于聚簇的加权SVDD算法，该算法在原始的SVDD训练过程中考虑样本的分布密度，并利用聚簇中心对样本进行加权处理，提高了原始的SVDD算法的分类精度。

发明内容

本发明要解决的技术问题在于针对SVDD算法没有充分利用样本信息的特点而提出的一种基于聚簇的支持向量数据描述算法。

本算法的目标是尽量在原有的支持向量数据描述方法中提高对样本信息的利用从而达到提高分类精度的目的，主要步骤是：

步骤1：利用样本之间的相互距离计算训练样本在核空间中的聚簇中心样本；

步骤2：根据样本到聚簇中心样本的距离对训练样本进行加权处理；

步骤3：对原始的支持向量数据描述方法进行加权设计，利用步骤2所得样本权重计算得到支持向量的决策边界，即一个封闭的超球体；

步骤4：对测试样本进行目标类的判别，若测试样本位于超球体之内则判为目标类样本，反之则判为异常类样本。

本发明解决的技术问题所采用的技术方案还可以进一步完善。本方法中所提出的利用全局的密度信息方法得到的聚簇中心，而在考虑密度的情况时可以进一步引入局部的密度信息，得到某一局部的聚簇中心点，在利用各个局部聚簇中心对样本进行加权处理，从而有效的加入局部密度信息。

本发明的有益效果是：利用原始训练样本的密度信息所得到的聚簇中心样本对每个训练样本进行加权处理，并且对原始支持向量数据描述方法进行引入权重因子的改进，使用该方法能在不影响训练时空复杂度的情况下提高算法的分类准确度，使得原始的SVDD算法能在机器学习的实际应用中有进一步的提高。

附图说明

图1 是本发明的基于聚簇的支持向量数据描述改进算法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分为四大步骤。

第一步：计算训练样本相互之间的空间距离和聚簇中心样本。

1）根据支持向量数据描述算法，样本通过核函数映射到高维的特征空间（也称作核空间）来对数据进行更好的描述，为保证算法的时间复杂度不会有太大改变，计算训练样本相互之间的空间距离在核空间中进行，核函数有多种选择，例如高斯核函数，

设训练样本的数据集为{}(n为训练样本数目)，则第i个样本与第j个样本在核空间中的距离的计算公式如下

(1)

其中dis_ij为样本i和样本j通过核映射之后相互之间的距离矩阵。

2）计算每个样本的局部密度值第i个样本的密度值为

(2),

(3),

为样本到样本之间的距离的平均值，即通过所有样本到某个样本的距离小于的样本数目表示该个样本的密度值，通过密度值得最大的样本为聚簇的中心样本点。

第二步：计算每个训练样本的权重。

本发明为每个数据样本赋予不同的权重，权重大小取值范围为[0,1]，第i个样本的权重公式计算如下：

(4)

该权重等于1减去到中心样本点的距离减去离中心样本点最近的样本的距离之差除以离中心样本点最远的样本距离减去离中心样本点最近的样本的距离之差的商。

第三步：基于对原始SVDD进行加权改进。

1）对惩罚因子进行改进的SVDD目标函数如下

(5)

其中C代表可接受的野值点在目标数据中的比值。

2）通过在松弛变量乘以权重因子，使得权重作用于每一个样本，改变正则化参数C对每一个样本的作用，引入拉格朗日因子，构造拉格朗日函数：

(6)

上式中拉格朗日因子，。

3）通过拉格朗日求解方法，即使得对变量、和R的偏微分为零，得

(7)。

4）通过（7）式的结果，带入拉格朗日函数可得下面的对偶规划函数

）

(8)

通过如上的对偶规划可以得到拉格朗日因子的值。

第四步：对测试样本进行判别。

判断样本z是否属于目标类样本可由以下决策函数判断，若样本z到球心的距离小于球半径，样本z判为目标类

决策函数 (9)

上式中超球体的球心可以通过（8）式所得的值来确定，超球体半径

R=，其中i满足=0。

实验结果

为了验证我们所提方法的有效性，实验选取UCI 数据集进行试验。实验环境为：CPU1.80GHZ，8GRAM，Intel(R) Xeon(R),WIN7,Matlab2010b。试验中，选择高斯核函数，其中取值为原始训练集中所有样本空间距离(即)的均值。每次的试验中依次讨论了值取值来自集合[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]，依次带入取其中每个值的情况。SVDD的目标函数中参数C从[10^-3, 10^-2,10^-1,10^0,10^1,10^2,10^3]中选择。

利用UCI数据集进行比较，数据集可以从http://archive.ics.uci.edu/ml/ index.html网站中下载获得，表1给出了实验数据特征属性。

表1 UCI实验数据集特征

表2 UCI数据集实验结果

其中TPR为目标类准确率，TNR表示非目标类准确率，()中为五次交叉验证的平方差，G-Mean是一种不平衡数据集的判断标准。

实验结果表明，本方法能够相对于原始的支持向量数据描述方法能够使得识别率升高，表明了该方法有效性。

Claims

1.基于聚簇的支持向量数据描述改进算法，其特征在于，包括以下步骤：

利用核函数计算训练样本在核空间中相互之间的距离，通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重，设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界，之后对测试样本进行判别，若测试样本位于超球体之内则判为目标类样本，反之则判为异常类样本。

2.权利要求1种所描述的训练样本在核空间中相互之间的距离，其特征在于是指训练样本在通过核函数进行映射之后的空间中计算样本之间的距离，其特征在于通过核函数求得样本间的相互距离。

3.权利要求1所述的一种基于聚簇的样本加权方法，其特征在于计算样本相互之间的距离，通过相互之间的距离得到所有样本的局部密度，最后计算每个样本局部密度与其到大于其密度的所有样本中的最小距离的乘积，通过最后的乘积判断是否为聚簇中心样本。

4.权利要求3所述的局部密度，其特征在于通过利用所有样本到某个样本的距离小于样本到样本之间的距离的平均值的样本数目代表该个样本的密度值。

5.权利要求1所述的一种加权支持向量数据描述方法，其特征在于增加权重因子w对原始支持向量数据描述算法进行改进。

6.权利要求1所述的一种对样本进行加权的方法，其特征在于利用样本到聚簇中心样本的距离进行权重设计。