CN103870682B - 一种局部分块的一类支持向量数据描述方法 - Google Patents

一种局部分块的一类支持向量数据描述方法 Download PDF

Info

Publication number
CN103870682B
CN103870682B CN201410071393.5A CN201410071393A CN103870682B CN 103870682 B CN103870682 B CN 103870682B CN 201410071393 A CN201410071393 A CN 201410071393A CN 103870682 B CN103870682 B CN 103870682B
Authority
CN
China
Prior art keywords
sample
local block
data
support vector
vector data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410071393.5A
Other languages
English (en)
Other versions
CN103870682A (zh
Inventor
蒋云良
胡文军
王培良
陶剑文
楼俊钢
皋军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou University
Original Assignee
Huzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huzhou University filed Critical Huzhou University
Priority to CN201410071393.5A priority Critical patent/CN103870682B/zh
Publication of CN103870682A publication Critical patent/CN103870682A/zh
Application granted granted Critical
Publication of CN103870682B publication Critical patent/CN103870682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

一种局部分块的一类支持向量数据描述方法,通过局部分块和局部样本重构,使异常数据检测方法能够捕捉数据的全局几何结构,而且具备揭示数据局部几何结构信息的能力,具有较好监测异常数据的性能优势。

Description

一种局部分块的一类支持向量数据描述方法
技术领域
本发明涉及数据异常检测领域,尤其涉及一种局部分块的一类支持向量数据描述方法。
背景技术
现有通过对正常样本数据的学习进而获得其特征属性的过程称为异常检测,隶属于一类分类问题。在许多应用领域,如假币识别,医疗诊断,机器故障诊断,生物发酵过程异常监测,通信领域辐射源个体识别等,获得异常数据的可能性很小,且获取的过程需要花费大量的人力和物力。因此,异常检测在近几十年里得到了广泛关注。
一类支持向量数据描述的异常检测方法一直得到较大关注。许多学者提出了诸多改进版本,如小球体大间隔方法、多球支持向量数据描述方法等。上述异常检测方法在构建数学模型时,仅仅考虑到数据的全局几何结构,而忽略了数据的局部几何结构,导致隐藏在局部结构中的信息丢失,降低了上述方法在异常数据检测中的识别精度。
发明内容
本发明为了解决现有技术问题,既考虑到数据的全局几何结构,也考虑到数据的局部几何结构,设计一种实现有效的异常数据检测的局部分块的一类支持向量数据描述方法。
本发明的技术方案是:一种局部分块的一类支持向量数据描述方法,包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
步骤2:计算重构系数其中,xi的局部重构系数h为热核参数,得到重构系数矩阵W=(W1,…WN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
步骤3:通过核函数计算核矩阵K,其中k(·,·)为核函数;
步骤4:设定核化模型:
其中通过拉格朗日获得所述核化模型的对偶形式:
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T
步骤6:根据决策函数
f(x)=R2+2[k(x,x1),…,k(x,xN)]Wα-k(x,x)-αT(WTKW)α对未知样本x进行决策,其中核化后的球心:W是拉格朗日乘子αs满足0<αs<C条件所对应样本点xs的重构系数向量,若f(x)≥0,则x为正常样本,否则为异常样本。
作为一种优选,步骤2中的近邻个数K从网格{2,3,…,14}中选择。
作为一种优选,步骤2中的热核参数h从网格表{2-14,2-13,…,213,214}中选择。
作为一种优选,步骤3中的核函数k(·,·)选为高斯核函数:
k(xi,xj)=exp(-||xi-x||2/2σ2);
其中核带宽参数σ=2mσ0,m={-4.5,-4.0,…,4.0,4.5};
σ0是样本数据平均2范数的平方根。
综上所述,本发明的有益效果是:提出的一类支持向量数据描述方法具有捕捉数据局部几何结构能力,从而使得构建的数据模型具有更好异常数据检测能力。
附图说明
图1为现有原始一类支持向量数据描述方法对半月形数据集的识别效图;
图2为本发明方法对半月形数据集的识别效图;
具体实施方式
利用本发明进行异常数据检测任务。本发明包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
此时xi可根据如下进行重构:其中是只与局部分块Pi内样本相关的重构系数,是xi根据局部分块Pi和重构系数重构后的新样本数据。
步骤2:计算重构系数其中,xi的局部重构系数h为热核参数,因为热核函数可以反映出样本的几何分布,从而得到重构系数矩阵W=(W1,…WN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
步骤3:通过核函数计算核矩阵K,其中k(·,·)为核函数;
根据原始一类支持向量数据描述方法(OCSVDD)中思想是在特征空间中找到一个超球,且要求该超球体积尽可能小,利用超球球面将正常样本和异常样本分离开,超球内(含超球面)样本为正常样本,而超球外样本为异常样本。我们将局部分块和重构函数引入后,设定步骤4的新核化模型:
其中通过拉格朗日获得所述核化模型的对偶形式:
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T
步骤6:根据决策函数:
f(x)=R2+2[k(x,x1),…,k(x,xN)]Wα-k(x,x)-αT(WTKW)α对未知样本x进行决策,其中核化后的球心:Ws是拉格朗日乘子αs满足0<αs<C条件所对应样本点xs的重构系数向量,若f(x)≥0,则x为正常样本,否则为异常样本。
实验1:利用人造半月形数据比较原始一类支持向量数据描述方法(OCSVDD)和本发明(OCSVDDLP)两种算法的识别效果:
实验环境:CPU2.30GHz,8G RAM,Intel Core(TM),WIN7OS,Matlab2011b。实验中,算法选择高斯核函数k(xi,xj)=exp(-||xi-xj||2/2σ2),其中σ是带宽参数.重构系数则采用热核函数计算。
本节实验的识别效果如图1和图2:其中半月形数据包含200个样本点。实验时,两种算法的核带宽参数σ均以样本数据平均2范数的平方根σ0为基准,并取σ=2mσ0,其中m={-4.5,-4.0,…,4.0,4.5},惩罚系数C均从网格表{1,3,5,7,9}×10n中选择,其中n={-1,-2,-3};OCSVDDLP中的热核参数h从网格表{2-14,2-13,…,213,214}中选择,局部分块时的最近邻个数K则从网格{2,3,…,14}中选择。图中线条为超球面,线条中的数字为超球半径,此图中的参数信息如下:图1:σ=20.5σ0,C=0.05;图2:σ=2-1.5σ0,C=0.03,h=26,K=3。
从图上可以看出:1、两种方法得到的超球面都能捕获数据的全局几何结构(半月形结构),这说明了本方法适用于数据的异常检测;2、OCSVDD超球面比较平滑,而OCSVDDLP超球面比较粗超,这说明了本发明提出的通过局部分块及其对应样本点的贡献程度来重构数据的OCSVDDLP方法能够捕获数据的局部几何结构。
实验2:利用OCC数据集比较OCSVDDLP,OCSVDD,该数据集常被用于异常数据检测,可从http://homepage.tudelft.nl/n9d04/occ/index.html网站下载得到,表1给出了4类9种OCC数据集的特征属性。
表1OCC数据集
数据集 维数 样本数 正常数据 异常数据
Iris(Setosa) 4 150 50 100
Iris(Versicolor) 4 150 50 100
Iris(Virginica) 4 150 50 100
Wine(1) 13 178 59 119
Wine(2) 13 178 71 107
Wine(3) 13 178 48 130
Biomed(Healthy) 5 194 127 67
Biomed(Diseased) 5 194 67 127
Ecoli(Periplasm) 7 336 52 284
同时,为了避免计算时出现数据过大或过小,数据进行了归一化处理。训练样本:从正常数据中随机抽取70%数据构成训练样本。测试样本:剩余30%的正常数据和异常数据一起构成测试样本。参数选择:对于OCSVDDLP和OCSVDD算法,核带宽参数σ、惩罚系数C、热核参数h和最近邻个数K等参数的选择方法同实验1,表2给出了实验结果。
参阅表2,由于本发明利用局部分块和样本重构实现了数据的局部几何结构信息,结果OCSVDDLP获得了最好检测结果,且标准差也较小,这在一定程度上说明了本文提出的基于局部分块和样本数据重构方法提高了对异常数据检测的能力。
表2在OCC的几何精度比较
数据集 OCSVDDLP OCSVDD
Iris(Setosa) 100.00±0.00 96.15±4.82
Iris(Versicolor) 89.684±2.60 89.08±3.08
Iris(Virginica) 92.73±2.68 91.34±6.23
Wine(1) 94.17±3.80 93.73±3.07
Wine(2) 88.36±3.17 91.02±3.46
Wine(3) 97.77±2.62 95.15±5.22
Biomed(Healthy) 76.73±2.37 75.92±1.77
Biomed(Diseased) 47.66±7.53 46.64±6.31
Ecoli(Periplasm) 89.84±3.27 86.66±5.04
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种局部分块的一类支持向量数据描述方法,其特征在于:包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
步骤2:计算重构系数其中,xi的局部重构系数h为热核参数,得到重构系数矩阵W=(w1,…wN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
步骤3:通过核函数计算核矩阵K,其中k(·,·)为核函数,其中就是将类似原始一类支持向量的数据原本不可分的状态映射到高维的希尔伯特空间中进行可分化;
步骤4:设定核化模型:
min R 2 + C Σ i = 1 N ξ i
其中通过拉格朗日获得所述核化模型的对偶形式:C为惩罚系数;
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T
步骤6:根据决策函数
f(x)=R2+2[k(x,x1),…,k(x,xN)]Wα-k(x,x)-αT(WTKW)α对未知样本x进行决策,其中核化后的球心:ws是拉格朗日乘子αs满足0<αs<C条件所对应样本点xs的重构系数向量,若f(x)≥0,则x为正常样本,否则为异常样本。
2.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤1中的最近邻个数K从网格{2,3,…,14}中选择。
3.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤2中的热核参数h从网格表{2-14,2-13,…,213,214}中选择。
4.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤3中的核函数k(·,·)选为高斯核函数
k(xi,xj)=exp(-||xi-xj||2/2σ2)
其中核带宽参数σ=2mσ0,m={-4.5,-4.0,…,4.0,4.5},
σ0是样本数据平均2范数的平方根。
CN201410071393.5A 2014-02-28 2014-02-28 一种局部分块的一类支持向量数据描述方法 Active CN103870682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410071393.5A CN103870682B (zh) 2014-02-28 2014-02-28 一种局部分块的一类支持向量数据描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410071393.5A CN103870682B (zh) 2014-02-28 2014-02-28 一种局部分块的一类支持向量数据描述方法

Publications (2)

Publication Number Publication Date
CN103870682A CN103870682A (zh) 2014-06-18
CN103870682B true CN103870682B (zh) 2017-04-19

Family

ID=50909207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410071393.5A Active CN103870682B (zh) 2014-02-28 2014-02-28 一种局部分块的一类支持向量数据描述方法

Country Status (1)

Country Link
CN (1) CN103870682B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109901557B (zh) * 2019-03-28 2021-06-22 山东科技大学 一种基于数据域描述的可变控制限故障检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101036146A (zh) * 2004-10-05 2007-09-12 X-Fab半导体制造股份公司 用于通过预确定的部分块的组合构造具有不同功率的垂直的功率晶体管的方法
US7596256B1 (en) * 2001-09-14 2009-09-29 The Research Foundation For The State University Of New York Computer assisted detection of lesions in volumetric medical images
US8478954B2 (en) * 2009-12-18 2013-07-02 International Business Machines Corporation Prioritizing subgroups in a consistency group

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596256B1 (en) * 2001-09-14 2009-09-29 The Research Foundation For The State University Of New York Computer assisted detection of lesions in volumetric medical images
CN101036146A (zh) * 2004-10-05 2007-09-12 X-Fab半导体制造股份公司 用于通过预确定的部分块的组合构造具有不同功率的垂直的功率晶体管的方法
US8478954B2 (en) * 2009-12-18 2013-07-02 International Business Machines Corporation Prioritizing subgroups in a consistency group

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Cong, Y et al.,.Sparse Reconstruction Cost for Abnormal Event Detection.《2011 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》.2011,3449-3456. *
Multi-sphere Support Vector Data Description for Outliers Detection on Multi-Distribution Data;Y Xiao,et al.,;《IEEE International Conference on Data Mining WorkShops》;20091231;82-87 *
T Le,et al.,.Multiple distribution data description learning method for novelty detection.《International Joint Conference on Neural Networks》.2011,第3卷(第14期),2321-2326. *
一种基于局部加权均值的领域适应学习框架;皋军,等;《自动化学报》;20130731;第39卷(第7期);1037-1052 *
一般化最小包含球的大样本快速学习方法;胡文军等;《自动化学报》;20121130;第38卷(第11期);1831-1840 *
基于局部加权的非线性特征提取方法;黄丽莉等;《华中科技大学学报(自然科学版)》;20131031;第41卷(第增期);153-156 *
最大局部加权均值差异嵌入;皋军等;《电子学报》;20130831(第8期);1462~1468 *
胡文军等.SVDD的快速实时决策方法.《自动化学报》.2011,第37卷(第5期),1085~1094页. *

Also Published As

Publication number Publication date
CN103870682A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
Xie et al. A decomposition-ensemble approach for tourism forecasting
CN109508644A (zh) 基于深度视频数据分析的面瘫等级评估系统
Verma et al. Cardiac Arrhythmia Detection from Single-lead ECG using CNN and LSTM assisted by Oversampling
CN101625755A (zh) 基于分水岭-量子进化聚类算法的图像分割方法
CN104143165A (zh) 面向抑郁情绪的心理干预方案个性化推荐方法
CN109376859A (zh) 一种基于菱形卷积的神经网络剪枝方法
CN108920446A (zh) 一种工程文本的处理方法
Maqlin et al. Automated nuclear pleomorphism scoring in breast cancer histopathology images using deep neural networks
CN113762265A (zh) 肺炎的分类分割方法及系统
CN105678395A (zh) 神经网络的建立方法及系统和神经网络的应用方法及系统
CN103870682B (zh) 一种局部分块的一类支持向量数据描述方法
Kyselý et al. Evaluating heat‐related mortality in Korea by objective classifications of ‘air masses’
Bal et al. A novel deep learning-based hybrid method for the determination of productivity of agricultural products: Apple case study
CN107796766A (zh) 一种臭脚盐产地鉴别方法、装置及计算机可读存储介质
Kiang et al. Selecting the right MBA schools–An application of self-organizing map networks
Sacchelli et al. Climate change, wine and sustainability: a quantitative discourse analysis of the international scientific literature
Nugroho et al. The Impact of Oil Palm Plantations on The Achievement of Sustainability Development Goals From An Islamic Economic Perspective
Siricharoen et al. Texture and shape attribute selection for plant disease monitoring in a mobile cloud-based environment
CN109272397A (zh) 一种基于层次分析的个人评分方法
Mahmood et al. Artificial intelligence-based classification of pollen grains using attention-guided pollen features aggregation network
CN106855863A (zh) 一种新的大数据分析算法
Iliyas et al. Prediction of heart disease using decision tree
CN109978675A (zh) 一种税务监控方法和装置
Jadwiszczak et al. An integrative insight into the synsacral canal of fossil and extant Antarctic penguins
Liao et al. Cluster analysis of citrus genotypes using near-infrared spectroscopy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant