CN103577589A - 一种基于支持张量数据描述的离群数据检测方法 - Google Patents

一种基于支持张量数据描述的离群数据检测方法 Download PDF

Info

Publication number
CN103577589A
CN103577589A CN201310558174.5A CN201310558174A CN103577589A CN 103577589 A CN103577589 A CN 103577589A CN 201310558174 A CN201310558174 A CN 201310558174A CN 103577589 A CN103577589 A CN 103577589A
Authority
CN
China
Prior art keywords
data
alpha
outlier
sigma
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310558174.5A
Other languages
English (en)
Inventor
罗利佳
包士毅
高增梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201310558174.5A priority Critical patent/CN103577589A/zh
Publication of CN103577589A publication Critical patent/CN103577589A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

一种基于支持张量数据描述的离群数据检测方法,包括以下步骤:1)获取由n个二阶张量数据对象Xi构成的数据集X={X1,X2,…,Xi,…,Xn};2)选取惩罚因子C,建立优化问题;3)利用拉格朗日乘子法将优化问题转化为其对偶问题,求解得到最优解所对应的一组拉格朗日乘子αi,然后分别计算超球体的中心A和半径R;4)根据每个数据对象所对应的拉格朗日乘子αi的取值判断各数据对象所处的位置,将位于超球体边界外的数据对象标记为离群点。本发明针对二阶张量数据的离群检测问题,提供了一种检测效率较高、可避免信息损失、通用性良好的基于支持张量数据描述的离群数据检测方法。

Description

一种基于支持张量数据描述的离群数据检测方法
技术领域
本发明涉及数据挖掘领域,特别是一种基于支持张量数据描述的离群数据检测方法。
背景技术
当今信息社会,数据已成为一种宝贵的资源,在人们生产生活的各个领域无不存储着海量的数据。对海量、复杂、丰富的数据进行深入分析,挖掘其蕴含的重要知识和信息,已经成为商业、科学和工程领域共同的一种需求。因此,数据挖掘技术应运而生,并在许多领域得到了广泛的研究和关注。离群检测作为数据挖掘的一个重要分支,其目的是从大量数据中发现极少数与常规数据有着显著区别的数据,即离群点,也称作新奇点、异常点、偏离点等。这些离群数据可能蕴含着重要的信息,往往比正常数据更有价值。预测和发现此类离群数据,具有十分重要的意义。近年来,离群检测已成功地应用于气象预测、过程监控、金融欺诈检测以及网络入侵检测等诸多领域。
离群检测方法大体上可分为六类:基于统计、基于距离、基于深度、基于偏离、基于密度、基于聚类。基于统计的方法根据假定的数据分布去识别离群点。由于该方法要预先假定数据集满足某种分布,在许多实际情况中并不适用。基于距离的方法首先计算数据对象之间的距离,然后通过考察数据对象与其近邻之间的差异程度来标记离群点。基于深度的方法用凸壳层组织数据点,将具有较浅深度值的数据点识别为离群点,其缺点是在高维数据中应用较困难。基于偏离的方法通过将数据进行分组,将那些显著偏离组内数据点特征的数据对象看作是离群点。基于密度的方法用于检测数据的局部离群,根据数据点所在区域的局部密度判断数据是否离群。基于聚类的方法通过对数据集聚类发现常规模式(也就是类),将不属于任何一类或属于某个类程度很低的数据作为离群点。
虽然离群检测方法的种类很多,但基本上都是针对由零阶张量(标量)或一阶张量(向量)数据对象组成的数据集提出的。目前还很少有可以直接对由二阶张量(矩阵)数据对象构成的数据集进行离群检测的方法。传统的做法是先对二阶张量数据对象进行数据展开将其降至一阶,然后再利用一阶张量数据的离群检测方法进行分析。但数据展开往往会破坏原数据对象的空间结构,造成信息损失,直接影响离群检测的效果。此外,数据展开还容易引起维数灾难和小样本等问题,影响离群检测方法的有效实施。近年来,随着二阶张量数据在图像识别、计算机视觉、信号处理和间歇过程监控等领域的大量涌现,迫切需要有一种能够更加直接有效地对二阶张量数据进行离群检测的方法。
发明内容
为了克服现有的离群检测方法在对二阶张量数据进行离群检测时存在检测效率较低、易造成信息损失以及通用性较差的不足,本发明提供了一种检测效率较高、可避免信息损失并且通用性良好的基于支持张量数据描述的离群数据检测方法。该方法首先通过求解优化问题得到包含绝大多数数据对象在内的最优超球体边界,然后利用该边界进行离群检测,将位于边界内和边界上的数据对象视为常规数据,而将位于边界外的数据对象标记为离群点。
本发明所采用的技术方案为:
一种基于支持张量数据描述的离群数据检测方法,包括以下步骤:
1)获取由n个二阶张量数据对象Xi构成的数据集X={X1,X2,…,Xi,…,Xn};
2)选取惩罚因子C,建立如下优化问题:
min R , A , ξ R 2 + C Σ i ξ i s . t . | | X i - A | | 2 ≤ R + ξ i , ξ i ≥ 0 - - - ( 1 )
式中‖·‖表示矩阵的Frobenius范数,A和R分别是超球体的中心和半径,ξi是松弛因子;
3)利用拉格朗日乘子法将优化问题(1)转化为其对偶问题,求解得到最优解所对应的一组拉格朗日乘子αi,然后分别计算超球体的中心A和半径R,具体过程如下:
首先利用拉格朗日乘子法得到优化问题(1)的拉格朗日函数L(·):
L(R,A,αiii)=R2+CΣiξiiαi{R2i-‖Xi-A‖2}-Σiγiξi   (2)
式中αi≥0和γi≥0都是拉格朗日乘子,令L(·)对R、A和ξi的偏导为0,得:
∂ L ∂ R = 0 : Σ i α i = 1 - - - ( 3 )
∂ L ∂ A = 0 : A = Σ i α i X i - - - ( 4 )
∂ L ∂ ξ i = 0 : C - α i - γ i = 0 - - - ( 5 )
代入式(2),将求解式(2)相对于A、R和ξi的最小化问题转化为求解其对偶最大化问题,有:
L = Σ i α i tr ( X i X i T ) - Σ ij α i α j tr ( X i X j T ) s . t . Σ i α i = 1,0 ≤ α i ≤ C
求解该问题可得到最优解所对应的一组拉格朗日乘子αi,然后,利用如下两式分别计算超球体的球心和半径:
A=ΣiαiXi   (6)
R 2 = tr ( X k X k T ) - 2 Σ i α i tr ( X k X i T ) + Σ ij α i α j tr ( X i X j T ) - - - ( 7 )
其中Xk是对应于0<αi<C的任一数据对象,即支持张量;
4)根据每个数据对象所对应的拉格朗日乘子αi的取值判断各数据对象所处的位置,将位于超球体边界外的数据对象标记为离群点。
进一步,所述步骤1)中,每个数据对象具有二阶张量的结构形式。
更进一步,所述步骤2)中,惩罚因子C为正实数。惩罚因子C用于控制超球体的大小和离群点的数目,具体数值可凭经验选取。
再进一步,所述步骤4)中,根据格朗日乘子αi确定离群点的具体方法为:将对应于αi=0和0<αi<C的数据对象标记为常规数据,将对应于αi=C的数据对象标记为离群点。
本发明的有益效果在于:1)可直接对由二阶张量数据对象构成的数据集进行离群检测,无需通过数据展开将二阶张量数据对象降至一阶,提高了离群检测的效率;2)维持了数据对象原始的二阶张量结构形式,避免了由于数据展开引起的数据结构破坏、维数灾难和小样本等问题;3)通过求解包含绝大多数数据对象在内的最优超球体边界来描述数据的常规模式,而将边界外的数据对象视为离群点,无需事先知道数据集的分布、类别数等先验知识,实施简单、通用性强。
附图说明
图1是基于支持张量数据描述的离群数据检测方法的实施流程图;
图2是青霉素发酵过程各批次距超球体中心的距离。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1和图2,一种基于支持张量数据描述的离群数据检测方法包括如下步骤:
1)获取由n个二阶张量数据对象Xi构成的数据集X={X1,X2,…,Xi,…,Xn};
2)选取惩罚因子C,建立如下优化问题:
min R , A , &xi; R 2 + C &Sigma; i &xi; i s . t . | | X i - A | | 2 &le; R + &xi; i , &xi; i &GreaterEqual; 0 - - - ( 1 )
式中,‖·‖表示矩阵的Frobenius范数,A和R分别是超球体的中心和半径,ξi是松弛因子。惩罚因子C用于控制超球体的大小和离群点的数目,必须是正实数,具体数值可凭经验选取。一般C取值越大,超球体越大,离群点的数目越少;C取值越小,超球体越小,离群点的数目越多。
3)利用拉格朗日乘子法将优化问题(1)转化为其对偶问题,求解得到最优解所对应的一组拉格朗日乘子αi,然后分别计算超球体的中心A和半径R,具体过程如下:首先利用拉格朗日乘子法得到优化问题(1)的拉格朗日函数L(·):
L(R,A,αiii)=R2+CΣiξiiαi{R2i-‖Xi-A‖2}-Σiγiξi   (2)
式中αi≥0和γi≥0都是拉格朗日乘子。令L(·)对R、A和ξi的偏导为0,可得:
&PartialD; L &PartialD; R = 0 : &Sigma; i &alpha; i = 1 - - - ( 3 )
&PartialD; L &PartialD; A = 0 : A = &Sigma; i &alpha; i X i - - - ( 4 )
&PartialD; L &PartialD; &xi; i = 0 : C - &alpha; i - &gamma; i = 0 - - - ( 5 )
代入式(2),将求解式(2)相对于A、R和ξi的最小化问题转化为求解其对偶最大化问题,有:
L = &Sigma; i &alpha; i tr ( X i X i T ) - &Sigma; ij &alpha; i &alpha; j tr ( X i X j T ) s . t . &Sigma; i &alpha; i = 1,0 &le; &alpha; i &le; C
求解该问题可得到最优解所对应的一组拉格朗日乘子αi。然后,利用如下两式分别计算超球体的球心和半径:
A=ΣiαiXi   (6)
R 2 = tr ( X k X k T ) - 2 &Sigma; i &alpha; i tr ( X k X i T ) + &Sigma; ij &alpha; i &alpha; j tr ( X i X j T ) - - - ( 7 )
其中Xk是对应于0<αi<C的任一数据对象,即支持张量。
4)根据每个数据对象所对应的拉格朗日乘子αi的取值判断各数据对象所处的位置,将位于超球体边界外的数据对象标记为离群点。具体为:对应于αi=0和0<αi<C的数据对象分别位于超球体的内部和边界上,可将它们看作是常规数据,而对应于αi=C的数据对象位于超球体的边界外,可标记为离群点。
实例:以青霉素发酵过程的异常批次检测为例进行实施。在不同的初始条件下,利用美国伊利诺斯理工大学Ali Cinar教授开发的青霉素发酵仿真平台Pensim2.0生成40个批次的仿真数据,其中每个批次包含17个监控变量,发酵周期为400小时,采样间隔为1小时。将每个批次的数据表示成二阶张量的形式:
Figure BDA0000411863230000065
其中K=400,J=17,并建立数据集X={X1,X2,…,Xi,…,X40}。选取惩罚因子C=0.3,按照本发明的实施步骤,利用基于支持张量数据描述的离群数据检测方法对数据集X进行离群检测,经计算得到超球体的半径R为110.3。表1列出了各批次所对应的拉格朗日乘子αi,从中可知,批次20和批次38所对应的拉格朗日乘子在数值上等于惩罚因子,因此可将这两个批次标记为异常批次。
Figure BDA0000411863230000071
表1
图2显示了各批次距超球体中心的距离,其中虚线为超球体的半径。从中可见,批次20和批次38距超球体中心的距离明显大于其它批次,且超出了超球体的边界。

Claims (4)

1.一种基于支持张量数据描述的离群数据检测方法,其特征在于:包括以下步骤:
1)获取由n个二阶张量数据对象Xi构成的数据集X={X1,X2,…,Xi,…,Xn};
2)选取惩罚因子C,建立如下优化问题:
min R , A , &xi; R 2 + C &Sigma; i &xi; i s . t . | | X i - A | | 2 &le; R + &xi; i , &xi; i &GreaterEqual; 0 - - - ( 1 )
式中‖·‖表示矩阵的Frobenius范数,A和R分别是超球体的中心和半径,ξi是松弛因子;
3)利用拉格朗日乘子法将优化问题(1)转化为其对偶问题,求解得到最优解所对应的一组拉格朗日乘子αi,然后分别计算超球体的中心A和半径R,具体过程如下:
首先利用拉格朗日乘子法得到优化问题(1)的拉格朗日函数L(·):
L(R,A,αiii)=R2+CΣiξiiαi{R2i-‖Xi-A‖2}-Σiγiξi   (2)
式中αi≥0和γi≥0都是拉格朗日乘子,令L(·)对R、A和ξi的偏导为0,得:
&PartialD; L &PartialD; R = 0 : &Sigma; i &alpha; i = 1 - - - ( 3 )
&PartialD; L &PartialD; A = 0 : A = &Sigma; i &alpha; i X i - - - ( 4 )
&PartialD; L &PartialD; &xi; i = 0 : C - &alpha; i - &gamma; i = 0 - - - ( 5 )
代入式(2),将求解式(2)相对于A、R和ξi的最小化问题转化为求解其对偶最大化问题,有:
L = &Sigma; i &alpha; i tr ( X i X i T ) - &Sigma; ij &alpha; i &alpha; j tr ( X i X j T ) s . t . &Sigma; i &alpha; i = 1,0 &le; &alpha; i &le; C
求解该问题可得到最优解所对应的一组拉格朗日乘子αi,然后,利用如下两式分别计算超球体的球心和半径:
A=ΣiαiXi   (6)
R 2 = tr ( X k X k T ) - 2 &Sigma; i &alpha; i tr ( X k X i T ) + &Sigma; ij &alpha; i &alpha; j tr ( X i X j T ) - - - ( 7 )
其中Xk是对应于0<αi<C的任一数据对象,即支持张量;
4)根据每个数据对象所对应的拉格朗日乘子αi的取值判断各数据对象所处的位置,将位于超球体边界外的数据对象标记为离群点。
2.如权利要求1所述的一种基于支持张量数据描述的离群数据检测方法,其特征在于:所述步骤1)中,每个数据对象具有二阶张量的结构形式。
3.如权利要求1或2所述的一种基于支持张量数据描述的离群数据检测方法,其特征在于:所述步骤2)中,惩罚因子C为正实数。
4.如权利要求1或2所述的一种基于支持张量数据描述的离群数据检测方法,其特征在于:所述步骤4)中,根据格朗日乘子αi确定离群点的具体方法为:将对应于αi=0和0<αi<C的数据对象标记为常规数据,将对应于αi=C的数据对象标记为离群点。
CN201310558174.5A 2013-11-11 2013-11-11 一种基于支持张量数据描述的离群数据检测方法 Pending CN103577589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310558174.5A CN103577589A (zh) 2013-11-11 2013-11-11 一种基于支持张量数据描述的离群数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310558174.5A CN103577589A (zh) 2013-11-11 2013-11-11 一种基于支持张量数据描述的离群数据检测方法

Publications (1)

Publication Number Publication Date
CN103577589A true CN103577589A (zh) 2014-02-12

Family

ID=50049365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310558174.5A Pending CN103577589A (zh) 2013-11-11 2013-11-11 一种基于支持张量数据描述的离群数据检测方法

Country Status (1)

Country Link
CN (1) CN103577589A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105278526A (zh) * 2015-11-19 2016-01-27 东北大学 一种基于正则化架构的工业过程故障分离方法
CN106054840A (zh) * 2016-06-29 2016-10-26 北京科技大学 一种全流程产品质量在线管控系统
WO2017185296A1 (zh) * 2016-04-28 2017-11-02 深圳大学 一种基于多支撑点索引的离群检测方法及其系统
CN107480258A (zh) * 2017-08-15 2017-12-15 佛山科学技术学院 一种基于多种支撑点的度量空间离群检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘毅等: "改进支持向量回归及其在铁水硅含量预报的应用", 《第二十二届中国过程控制会议论文集》 *
刘毅等: "用于高炉铁水质量预报的改进支持向量回归", 《浙江大学学报(工学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105278526A (zh) * 2015-11-19 2016-01-27 东北大学 一种基于正则化架构的工业过程故障分离方法
CN105278526B (zh) * 2015-11-19 2017-12-01 东北大学 一种基于正则化架构的工业过程故障分离方法
WO2017185296A1 (zh) * 2016-04-28 2017-11-02 深圳大学 一种基于多支撑点索引的离群检测方法及其系统
CN106054840A (zh) * 2016-06-29 2016-10-26 北京科技大学 一种全流程产品质量在线管控系统
CN106054840B (zh) * 2016-06-29 2018-06-19 北京科技大学 一种全流程产品质量在线管控系统
CN107480258A (zh) * 2017-08-15 2017-12-15 佛山科学技术学院 一种基于多种支撑点的度量空间离群检测方法

Similar Documents

Publication Publication Date Title
CN103577589A (zh) 一种基于支持张量数据描述的离群数据检测方法
CN105184772A (zh) 一种基于超像素的自适应彩色图像分割方法
Wei et al. Deep learning with quantized neural networks for gravitational-wave forecasting of eccentric compact binary coalescence
CN103648106A (zh) 一种基于类别匹配的半监督流形学习的WiFi室内定位方法
Liu et al. A joint-L2, 1-norm-constraint-based semi-supervised feature extraction for RNA-Seq data analysis
Liu et al. Learning temporal causal graphs for relational time-series analysis
Lin et al. GLR-SEI: green and low resource specific emitter identification based on complex networks and fisher pruning
CN104809475A (zh) 基于增量线性判别分析的多类标场景分类方法
Liu et al. Unveiling patterns: A study on semi-supervised classification of strip surface defects
CN104360910B (zh) 基于粒子群算法的探测设备网的设备分配方法
Zhao et al. Unbalanced fault diagnosis of rolling bearings using transfer adaptive boosting with squeeze-and-excitation attention convolutional neural network
Flores-Garrido et al. Mining maximal frequent patterns in a single graph using inexact matching
CN109933040A (zh) 基于层次密度峰值聚类和最相似模态的故障监测方法
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
Wong et al. An Optimized Multi-Task Learning Model for Disaster Classification and Victim Detection in Federated Learning Environments
CN112927266B (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
CN103942779A (zh) 一种基于图论和半监督学习相结合的图像分割方法
CN104597523B (zh) 一种日冕物质抛射多伴随现象的检测方法
CN103605631A (zh) 一种基于支持向量几何意义的增量学习方法
Liu et al. Adversary helps: Gradient-based device-free domain-independent gesture recognition
Wu et al. An MCMC based EM algorithm for mixtures of Gaussian processes
CN105404892A (zh) 一种用于序列数据分割的有序模糊c均值聚类方法
Pan et al. A modified neighborhood mutual information and light gradient boosting machine-based long-term prediction approach for anode effect
CN112418309A (zh) 一种基于机器学习的电磁兼容管控方法预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140212

RJ01 Rejection of invention patent application after publication