CN103870682A - 一种局部分块的一类支持向量数据描述方法 - Google Patents
一种局部分块的一类支持向量数据描述方法 Download PDFInfo
- Publication number
- CN103870682A CN103870682A CN201410071393.5A CN201410071393A CN103870682A CN 103870682 A CN103870682 A CN 103870682A CN 201410071393 A CN201410071393 A CN 201410071393A CN 103870682 A CN103870682 A CN 103870682A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- local
- support vector
- alpha
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Investigating Or Analyzing Materials Using Thermal Means (AREA)
Abstract
一种局部分块的一类支持向量数据描述方法,通过局部分块和局部样本重构,使异常数据检测方法能够捕捉数据的全局几何结构,而且具备揭示数据局部几何结构信息的能力,具有较好监测异常数据的性能优势。
Description
技术领域
本发明涉及数据异常检测领域,尤其涉及一种局部分块的一类支持向量数据描述方法。
背景技术
现有通过对正常样本数据的学习进而获得其特征属性的过程称为异常检测,隶属于一类分类问题。在许多应用领域,如假币识别,医疗诊断,机器故障诊断,生物发酵过程异常监测,通信领域辐射源个体识别等,获得异常数据的可能性很小,且获取的过程需要花费大量的人力和物力。因此,异常检测在近几十年里得到了广泛关注。
一类支持向量数据描述的异常检测方法一直得到较大关注。许多学者提出了诸多改进版本,如小球体大间隔方法、多球支持向量数据描述方法等。上述异常检测方法在构建数学模型时,仅仅考虑到数据的全局几何结构,而忽略了数据的局部几何结构,导致隐藏在局部结构中的信息丢失,降低了上述方法在异常数据检测中的识别精度。
发明内容
本发明为了解决现有技术问题,既考虑到数据的全局几何结构,也考虑到数据的局部几何结构,设计一种实现有效的异常数据检测的局部分块的一类支持向量数据描述方法。
本发明的技术方案是:一种局部分块的一类支持向量数据描述方法,包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
步骤2:计算重构系数 其中,xi的局部重构系数 h为热核参数,得到重构系数矩阵W=(W1,…WN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
步骤4:设定核化模型:
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T;
步骤6:根据决策函数
f(x)=R2+2[k(x,x1),…,k(x,xN)]Wα-k(x,x)-αT(WTKW)α对未知样本x进行决策,其中核化后的球心:W是拉格朗日乘子αs满足0<αs<C条件所对应样本点xs的重构系数向量,若f(x)≥0,则x为正常样本,否则为异常样本。
作为一种优选,步骤2中的近邻个数K从网格{2,3,…,14}中选择。
作为一种优选,步骤2中的热核参数h从网格表{2-14,2-13,…,213,214}中选择。
作为一种优选,步骤3中的核函数k(·,·)选为高斯核函数:
k(xi,xj)=exp(-||xi-x ||2/2σ2);
其中核带宽参数σ=2mσ0,m={-4.5,-4.0,…,4.0,4.5};
σ0是样本数据平均2范数的平方根。
综上所述,本发明的有益效果是:提出的一类支持向量数据描述方法具有捕捉数据局部几何结构能力,从而使得构建的数据模型具有更好异常数据检测能力。
附图说明
图1为现有原始一类支持向量数据描述方法对半月形数据集的识别效图;
图2为本发明方法对半月形数据集的识别效图;
具体实施方式
利用本发明进行异常数据检测任务。本发明包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
步骤2:计算重构系数 其中,xi的局部重构系数 h为热核参数,因为热核函数可以反映出样本的几何分布,从而得到重构系数矩阵W=(W1,…WN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
根据原始一类支持向量数据描述方法(OCSVDD)中思想是在特征空间中找到一个超球,且要求该超球体积尽可能小,利用超球球面将正常样本和异常样本分离开,超球内(含超球面)样本为正常样本,而超球外样本为异常样本。我们将局部分块和重构函数引入后,设定步骤4的新核化模型:
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T;
步骤6:根据决策函数:
f(x)=R2+2[k(x,x1),…,k(x,xN)]Wα-k(x,x)-αT(WTKW)α对未知样本x进行决策,其中核化后的球心:Ws是拉格朗日乘子αs满足0<αs<C条件所对应样本点xs的重构系数向量,若f(x)≥0,则x为正常样本,否则为异常样本。
实验1:利用人造半月形数据比较原始一类支持向量数据描述方法(OCSVDD)和本发明(OCSVDDLP)两种算法的识别效果:
实验环境:CPU2.30GHz,8G RAM,Intel Core(TM),WIN7OS,Matlab2011b。实验中,算法选择高斯核函数k(xi,xj)=exp(-||xi-xj||2/2σ2),其中σ是带宽参数.重构系数则采用热核函数计算。
本节实验的识别效果如图1和图2:其中半月形数据包含200个样本点。实验时,两种算法的核带宽参数σ均以样本数据平均2范数的平方根σ0为基准,并取σ=2mσ0,其中m={-4.5,-4.0,…,4.0,4.5},惩罚系数C均从网格表{1,3,5,7,9}×10n中选择,其中n={-1,-2,-3};OCSVDDLP中的热核参数h从网格表{2-14,2-13,…,213,214}中选择,局部分块时的最近邻个数K则从网格{2,3,…,14}中选择。图中线条为超球面,线条中的数字为超球半径,此图中的参数信息如下:图1:σ=20.5σ0,C=0.05;图2:σ=2-1.5σ0,C=0.03,h=26,K=3。
从图上可以看出:1、两种方法得到的超球面都能捕获数据的全局几何结构(半月形结构),这说明了本方法适用于数据的异常检测;2、OCSVDD超球面比较平滑,而OCSVDDLP超球面比较粗超,这说明了本发明提出的通过局部分块及其对应样本点的贡献程度来重构数据的OCSVDDLP方法能够捕获数据的局部几何结构。
实验2:利用OCC数据集比较OCSVDDLP,OCSVDD,该数据集常被用于异常数据检测,可从http://homepage.tudelft.nl/n9d04/occ/index.html网站下载得到,表1给出了4类9种OCC数据集的特征属性。
表1OCC数据集
数据集 | 维数 | 样本数 | 正常数据 | 异常数据 |
Iris(Setosa) | 4 | 150 | 50 | 100 |
Iris(Versicolor) | 4 | 150 | 50 | 100 |
Iris(Virginica) | 4 | 150 | 50 | 100 |
Wine(1) | 13 | 178 | 59 | 119 |
Wine(2) | 13 | 178 | 71 | 107 |
Wine(3) | 13 | 178 | 48 | 130 |
Biomed(Healthy) | 5 | 194 | 127 | 67 |
Biomed(Diseased) | 5 | 194 | 67 | 127 |
Ecoli(Periplasm) | 7 | 336 | 52 | 284 |
同时,为了避免计算时出现数据过大或过小,数据进行了归一化处理。训练样本:从正常数据中随机抽取70%数据构成训练样本。测试样本:剩余30%的正常数据和异常数据一起构成测试样本。参数选择:对于OCSVDDLP和OCSVDD算法,核带宽参数σ、惩罚系数C、热核参数h和最近邻个数K等参数的选择方法同实验1,表2给出了实验结果。
参阅表2,由于本发明利用局部分块和样本重构实现了数据的局部几何结构信息,结果OCSVDDLP获得了最好检测结果,且标准差也较小,这在一定程度上说明了本文提出的基于局部分块和样本数据重构方法提高了对异常数据检测的能力。
表2在OCC的几何精度比较
数据集 | OCSVDDLP | OCSVDD |
Iris(Setosa) | 100.00±0.00 | 96.15±4.82 |
Iris(Versicolor) | 89.684±2.60 | 89.08±3.08 |
Iris(Virginica) | 92.73±2.68 | 91.34±6.23 |
Wine(1) | 94.17±3.80 | 93.73±3.07 |
Wine(2) | 88.36±3.17 | 91.02±3.46 |
Wine(3) | 97.77±2.62 | 95.15±5.22 |
Biomed(Healthy) | 76.73±2.37 | 75.92±1.77 |
Biomed(Diseased) | 47.66±7.53 | 46.64±6.31 |
Ecoli(Periplasm) | 89.84±3.27 | 86.66±5.04 |
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.一种局部分块的一类支持向量数据描述方法,其特征在于:包括如下步骤:
步骤1:对样本集X=(x1,…,xN)进行局部分块,得到各个局部分块Pi(i=1,…,N),具体方法为:把xi对应最近邻个数K的最近邻样本集所构成的局部区域称为xi在样本集X上的一个局部分块,其中,表示xi的第p个最近邻样本点;
步骤2:计算重构系数 其中,xi的局部重构系数 h为热核参数,得到重构系数矩阵W=(W1,…WN),用来权衡局部分块内不同样本对该局部区域内在几何结构的贡献程度;
步骤4:设定核化模型:
步骤5:将步骤2得到的重构系数矩阵和步骤3得到的核矩阵代入步骤4的对偶形式,得到拉格朗日乘子向量α:α=(α1,…,αN)T;
步骤6:根据决策函数
2.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤1中的最近邻个数K从网格{2,3,…,14}中选择。
3.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤2中的热核参数h从网格表{2-14,2-13,…,213,214}中选择。
4.根据权利要求1所述的一种局部分块的一类支持向量数据描述方法,其特征在于:步骤3中的核函数k(·,·)选为高斯核函数
k(xi,xj)=exp(-||xi-xj||2/2σ2)
其中核带宽参数σ=2mσ0,m={-4.5,-4.0,…,4.0,4.5},
σ0是样本数据平均2范数的平方根。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410071393.5A CN103870682B (zh) | 2014-02-28 | 2014-02-28 | 一种局部分块的一类支持向量数据描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410071393.5A CN103870682B (zh) | 2014-02-28 | 2014-02-28 | 一种局部分块的一类支持向量数据描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103870682A true CN103870682A (zh) | 2014-06-18 |
CN103870682B CN103870682B (zh) | 2017-04-19 |
Family
ID=50909207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410071393.5A Active CN103870682B (zh) | 2014-02-28 | 2014-02-28 | 一种局部分块的一类支持向量数据描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870682B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109901557A (zh) * | 2019-03-28 | 2019-06-18 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101036146A (zh) * | 2004-10-05 | 2007-09-12 | X-Fab半导体制造股份公司 | 用于通过预确定的部分块的组合构造具有不同功率的垂直的功率晶体管的方法 |
US7596256B1 (en) * | 2001-09-14 | 2009-09-29 | The Research Foundation For The State University Of New York | Computer assisted detection of lesions in volumetric medical images |
US8478954B2 (en) * | 2009-12-18 | 2013-07-02 | International Business Machines Corporation | Prioritizing subgroups in a consistency group |
-
2014
- 2014-02-28 CN CN201410071393.5A patent/CN103870682B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596256B1 (en) * | 2001-09-14 | 2009-09-29 | The Research Foundation For The State University Of New York | Computer assisted detection of lesions in volumetric medical images |
CN101036146A (zh) * | 2004-10-05 | 2007-09-12 | X-Fab半导体制造股份公司 | 用于通过预确定的部分块的组合构造具有不同功率的垂直的功率晶体管的方法 |
US8478954B2 (en) * | 2009-12-18 | 2013-07-02 | International Business Machines Corporation | Prioritizing subgroups in a consistency group |
Non-Patent Citations (8)
Title |
---|
CONG, Y ET AL.,: "Sparse Reconstruction Cost for Abnormal Event Detection", 《2011 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
T LE,ET AL.,: "Multiple distribution data description learning method for novelty detection", 《INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 * |
Y XIAO,ET AL.,: "Multi-sphere Support Vector Data Description for Outliers Detection on Multi-Distribution Data", 《IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS》 * |
皋军,等: "一种基于局部加权均值的领域适应学习框架", 《自动化学报》 * |
皋军等: "最大局部加权均值差异嵌入", 《电子学报》 * |
胡文军等: "SVDD的快速实时决策方法", 《自动化学报》 * |
胡文军等: "一般化最小包含球的大样本快速学习方法", 《自动化学报》 * |
黄丽莉等: "基于局部加权的非线性特征提取方法", 《华中科技大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109901557A (zh) * | 2019-03-28 | 2019-06-18 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
CN109901557B (zh) * | 2019-03-28 | 2021-06-22 | 山东科技大学 | 一种基于数据域描述的可变控制限故障检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103870682B (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529503B (zh) | 一种集成卷积神经网络人脸情感识别方法 | |
Yao et al. | Triplet graph convolutional network for multi-scale analysis of functional connectivity using functional MRI | |
Zhang | Community structure detection in complex networks with partial background information | |
CN109410185A (zh) | 一种图像分割方法、装置和存储介质 | |
Kuminski et al. | Combining human and machine learning for morphological analysis of galaxy images | |
McDermott et al. | Multi-frequency symmetry difference electrical impedance tomography with machine learning for human stroke diagnosis | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN106909572A (zh) | 一种问答知识库的构建方法和装置 | |
CN104063399A (zh) | 一种自动识别文本所承载的情感概率的方法及系统 | |
Liu et al. | Breast cancer recognition by support vector machine combined with daubechies wavelet transform and principal component analysis | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN109254959A (zh) | 一种数据评价方法、装置、终端设备及可读存储介质 | |
KR20190084764A (ko) | 화장품 관련 리뷰 데이터 기반 화장품 추천 시스템 및 화장품 추천 방법 | |
Rubin et al. | Time, frequency & complexity analysis for recognizing panic states from physiologic time-series. | |
CN110599195B (zh) | 一种识别刷单的方法 | |
CN103345623B (zh) | 一种基于鲁棒相对属性的行为识别方法 | |
Harguem et al. | Machine Learning Based Prediction of Stock Exchange on NASDAQ 100: A Twitter Mining Approach | |
CN112017784B (zh) | 一种基于多模态数据的冠心病风险预测方法及相关设备 | |
CN103870682A (zh) | 一种局部分块的一类支持向量数据描述方法 | |
CN107122394A (zh) | 异常数据检测方法和装置 | |
Liang et al. | Variance characteristic preserving common spatial pattern for motor imagery BCI | |
Shim et al. | Massive gravity wrapped in the cosmic web | |
Kim et al. | Self health diagnosis system for Korean traditional medicine with enhanced ART2 | |
Geronimo et al. | Academic Stress of Students in Higher Education using Machine Learning: A Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |