CN105894023A - 基于聚簇的支持向量数据描述改进算法 - Google Patents
基于聚簇的支持向量数据描述改进算法 Download PDFInfo
- Publication number
- CN105894023A CN105894023A CN201610194147.8A CN201610194147A CN105894023A CN 105894023 A CN105894023 A CN 105894023A CN 201610194147 A CN201610194147 A CN 201610194147A CN 105894023 A CN105894023 A CN 105894023A
- Authority
- CN
- China
- Prior art keywords
- sample
- distance
- support vector
- vector data
- data description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于聚簇的支持向量数据描述改进算法,首先利用核函数计算训练样本在核空间中相互之间的距离,接着通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重,然后设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。相较于传统的支持向量数据描述算法,本发明的基于聚簇的支持向量数据描述改进算法通过该权重因子引入了基于样本分布信息的簇中心算法,根据样本到簇中心的距离计算得到权重因子,实现了对原始支持向量数据描述方法决策边界优化的改进,能够有效地对单类的数据集有更加准确的数据分类描述。
Description
技术领域
本发明属于机器学习领域,特别涉及一种基于聚簇的支持向量数据描述改进算法。
背景技术
支持向量数据描述(Support Vector Data Description,SVDD)是由Tax在2001年提出的一种基于边界的单类分类算法,其应用领域在不断被推广,单类分类能够区分异常样本的情况,故此SVDD比较适合异常检测的问题,其在各种异常检测应用中有着非常显著地效果。
SVDD算法在对目标数据进行描述时,首先将样本通过核函数映射到和空间中,然后用一个超球体去包含尽量多的目标数据,并要求最终的超球体半径尽可能小。在进行分类判断时,若测试数据点位于超球体外,则此数据点视做异常点,反之,则为目标数据。
SVDD分类器是一种广泛使用的单类分类分类器。SVDD利用样本在核空间中样本到球形边界的距离,而没有考虑样本的分布密度信息,这有可能会导致聚簇中心附近的样本没有包含于超球体的情况,即出现较低分类精度的情况。为了解决这个缺陷,我们提出了一种基于聚簇的加权SVDD算法,该算法在原始的SVDD训练过程中考虑样本的分布密度,并利用聚簇中心对样本进行加权处理,提高了原始的SVDD算法的分类精度。
发明内容
本发明要解决的技术问题在于针对SVDD算法没有充分利用样本信息的特点而提出的一种基于聚簇的支持向量数据描述算法。
本算法的目标是尽量在原有的支持向量数据描述方法中提高对样本信息的利用从而达到提高分类精度的目的,主要步骤是:
步骤1:利用样本之间的相互距离计算训练样本在核空间中的聚簇中心样本;
步骤2:根据样本到聚簇中心样本的距离对训练样本进行加权处理;
步骤3:对原始的支持向量数据描述方法进行加权设计,利用步骤2所得样本权重计算得到支持向量的决策边界,即一个封闭的超球体;
步骤4:对测试样本进行目标类的判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。
本发明解决的技术问题所采用的技术方案还可以进一步完善。本方法中所提出的利用全局的密度信息方法得到的聚簇中心,而在考虑密度的情况时可以进一步引入局部的密度信息,得到某一局部的聚簇中心点,在利用各个局部聚簇中心对样本进行加权处理,从而有效的加入局部密度信息。
本发明的有益效果是:利用原始训练样本的密度信息所得到的聚簇中心样本对每个训练样本进行加权处理,并且对原始支持向量数据描述方法进行引入权重因子的改进,使用该方法能在不影响训练时空复杂度的情况下提高算法的分类准确度,使得原始的SVDD算法能在机器学习的实际应用中有进一步的提高。
附图说明
图1 是本发明的基于聚簇的支持向量数据描述改进算法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分为四大步骤。
第一步:计算训练样本相互之间的空间距离和聚簇中心样本。
1)根据支持向量数据描述算法,样本通过核函数映射到高维的特征空间(也称作核空间)来对数据进行更好的描述,为保证算法的时间复杂度不会有太大改变,计算训练样本相互之间的空间距离在核空间中进行,核函数有多种选择,例如高斯核函数,
设训练样本的数据集为{}(n为训练样本数目),则 第i个样本与第j个样本在核空间中的距离的计算公式如下
(1)
其中disij为样本i和样本j通过核映射之后相互之间的距离矩阵。
2)计算每个样本的局部密度值第i个样本的密度值为
(2),
(3),
为样本到样本之间的距离的平均值,即通过所有样本到某个样本的距离小于的样本数目表示该个样本的密度值,通过密度值得最大的样本为聚簇的中心样本点。
第二步:计算每个训练样本的权重。
本发明为每个数据样本赋予不同的权重,权重大小取值范围为[0,1],第i个样本的权重公式计算如下:
(4)
该权重等于1减去到中心样本点的距离减去离中心样本点最近的样本的距离之差除以离中心样本点最远的样本距离减去离中心样本点最近的样本的距离之差的商。
第三步:基于对原始SVDD进行加权改进。
1)对惩罚因子进行改进的SVDD目标函数如下
(5)
其中C代表可接受的野值点在目标数据中的比值。
2)通过在松弛变量乘以权重因子,使得权重作用于每一个样本,改变正则化参数C对每一个样本的作用,引入拉格朗日因子,构造拉格朗日函数:
(6)
上式中拉格朗日因子,。
3)通过拉格朗日求解方法,即使得对变量、和R的偏微分为零,得
(7)。
4) 通过(7)式的结果,带入拉格朗日函数可得下面的对偶规划函数
)
(8)
通过如上的对偶规划可以得到拉格朗日因子的值。
第四步:对测试样本进行判别。
判断样本z是否属于目标类样本可由以下决策函数判断,若样本z到球心的距离小于球半径,样本z判为目标类
决策函数 (9)
上式中超球体的球心可以通过(8)式所得的值来确定,超球体半径
R=,其中i满足=0。
实验结果
为了验证我们所提方法的有效性,实验选取UCI 数据集进行试验。实验环境为:CPU1.80GHZ,8GRAM,Intel(R) Xeon(R),WIN7,Matlab2010b。试验中,选择高斯核函数,其中取值为原始训练集中所有样本空间距离(即)的均值。每次的试验中依次讨论了值取值来自集合[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9],依次带入取其中每个值的情况。SVDD的目标函数中参数C从[10^-3, 10^-2,10^-1,10^0,10^1,10^2,10^3]中选择。
利用UCI数据集进行比较,数据集可以从http://archive.ics.uci.edu/ml/ index.html网站中下载获得,表1给出了实验数据特征属性。
表1 UCI实验数据集特征
表2 UCI数据集实验结果
其中TPR为目标类准确率,TNR表示非目标类准确率,()中为五次交叉验证的平方差,G-Mean是一种不平衡数据集的判断标准。
实验结果表明,本方法能够相对于原始的支持向量数据描述方法能够使得识别率升高,表明了该方法有效性。
Claims (6)
1.基于聚簇的支持向量数据描述改进算法,其特征在于,包括以下步骤:
利用核函数计算训练样本在核空间中相互之间的距离,通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重,设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。
2.权利要求1种所描述的训练样本在核空间中相互之间的距离,其特征在于是指训练样本在通过核函数进行映射之后的空间中计算样本之间的距离,其特征在于通过核函数求得样本间的相互距离。
3.权利要求1所述的一种基于聚簇的样本加权方法,其特征在于计算样本相互之间的距离,通过相互之间的距离得到所有样本的局部密度,最后计算每个样本局部密度与其到大于其密度的所有样本中的最小距离的乘积,通过最后的乘积判断是否为聚簇中心样本。
4.权利要求3所述的局部密度,其特征在于通过利用所有样本到某个样本的距离小于样本到样本之间的距离的平均值的样本数目代表该个样本的密度值。
5.权利要求1所述的一种加权支持向量数据描述方法,其特征在于增加权重因子w对原始支持向量数据描述算法进行改进。
6.权利要求1所述的一种对样本进行加权的方法,其特征在于利用样本到聚簇中心样本的距离进行权重设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610194147.8A CN105894023A (zh) | 2016-03-31 | 2016-03-31 | 基于聚簇的支持向量数据描述改进算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610194147.8A CN105894023A (zh) | 2016-03-31 | 2016-03-31 | 基于聚簇的支持向量数据描述改进算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105894023A true CN105894023A (zh) | 2016-08-24 |
Family
ID=57014095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610194147.8A Pending CN105894023A (zh) | 2016-03-31 | 2016-03-31 | 基于聚簇的支持向量数据描述改进算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105894023A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670676A (zh) * | 2018-11-26 | 2019-04-23 | 安徽继远软件有限公司 | 基于支持向量数据描述的配网台区风险预警方法及系统 |
CN109901557A (zh) * | 2019-03-28 | 2019-06-18 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
-
2016
- 2016-03-31 CN CN201610194147.8A patent/CN105894023A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670676A (zh) * | 2018-11-26 | 2019-04-23 | 安徽继远软件有限公司 | 基于支持向量数据描述的配网台区风险预警方法及系统 |
CN109901557A (zh) * | 2019-03-28 | 2019-06-18 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
CN109901557B (zh) * | 2019-03-28 | 2021-06-22 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
CN113849653A (zh) * | 2021-10-14 | 2021-12-28 | 鼎富智能科技有限公司 | 一种文本分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Local density adaptive similarity measurement for spectral clustering | |
CN110163261A (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN109118013A (zh) | 一种基于神经网络的经营数据预测方法、可读存储介质和预测系统 | |
CN105894023A (zh) | 基于聚簇的支持向量数据描述改进算法 | |
CN106778853A (zh) | 基于权重聚类和欠抽样的不平衡数据分类方法 | |
CN106537422A (zh) | 用于捕获信息内的关系的系统和方法 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN109255363A (zh) | 一种基于加权卡方距离度量的模糊k近邻分类方法及系统 | |
CN108197636A (zh) | 一种基于深度多视点特征的稻谷检测和分类方法 | |
CN107330781A (zh) | 一种基于ifoa‑svm的个人信用风险评估方法 | |
CN108460213A (zh) | 基于多聚类原型的t-s模型对炉腹煤气量的预测方法及程序 | |
CN107633455A (zh) | 基于数据模型的信用评估方法及装置 | |
CN102254020A (zh) | 基于特征权重的全局k-均值聚类方法 | |
CN104463673A (zh) | 一种基于支持向量机的p2p网络贷款风险评估模型 | |
CN102254033A (zh) | 基于熵权重的全局k-均值聚类方法 | |
CN108877947A (zh) | 基于迭代均值聚类的深度样本学习方法 | |
Ng et al. | LG-Trader: Stock trading decision support based on feature selection by weighted localized generalization error model | |
CN111274887A (zh) | 基于机器学习的农作物识别方法、装置、存储介质及终端 | |
CN111062425A (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
Da Silva et al. | PCA and Gaussian noise in MLP neural network training improve generalization in problems with small and unbalanced data sets | |
CN110210974A (zh) | 一种基于粒子群优化增量支持向量机的内幕交易辨别方法 | |
CN109871869A (zh) | 一种肺结节分类方法及其装置 | |
CN108197431A (zh) | 染色质相互作用差异的分析方法和系统 | |
CN103489007B (zh) | 基于样本先验信息的支持向量机核函数选择方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |