CN103577589A

CN103577589A - 一种基于支持张量数据描述的离群数据检测方法

Info

Publication number: CN103577589A
Application number: CN201310558174.5A
Authority: CN
Inventors: 罗利佳; 包士毅; 高增梁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2014-02-12

Abstract

一种基于支持张量数据描述的离群数据检测方法，包括以下步骤：1）获取由n个二阶张量数据对象X_i构成的数据集X={X₁,X₂,…,X_i,…,X_n}；2）选取惩罚因子C，建立优化问题；3）利用拉格朗日乘子法将优化问题转化为其对偶问题，求解得到最优解所对应的一组拉格朗日乘子α_i，然后分别计算超球体的中心A和半径R；4）根据每个数据对象所对应的拉格朗日乘子α_i的取值判断各数据对象所处的位置，将位于超球体边界外的数据对象标记为离群点。本发明针对二阶张量数据的离群检测问题，提供了一种检测效率较高、可避免信息损失、通用性良好的基于支持张量数据描述的离群数据检测方法。

Description

一种基于支持张量数据描述的离群数据检测方法

技术领域

本发明涉及数据挖掘领域，特别是一种基于支持张量数据描述的离群数据检测方法。

背景技术

当今信息社会，数据已成为一种宝贵的资源，在人们生产生活的各个领域无不存储着海量的数据。对海量、复杂、丰富的数据进行深入分析，挖掘其蕴含的重要知识和信息，已经成为商业、科学和工程领域共同的一种需求。因此，数据挖掘技术应运而生，并在许多领域得到了广泛的研究和关注。离群检测作为数据挖掘的一个重要分支，其目的是从大量数据中发现极少数与常规数据有着显著区别的数据，即离群点，也称作新奇点、异常点、偏离点等。这些离群数据可能蕴含着重要的信息，往往比正常数据更有价值。预测和发现此类离群数据，具有十分重要的意义。近年来，离群检测已成功地应用于气象预测、过程监控、金融欺诈检测以及网络入侵检测等诸多领域。

离群检测方法大体上可分为六类：基于统计、基于距离、基于深度、基于偏离、基于密度、基于聚类。基于统计的方法根据假定的数据分布去识别离群点。由于该方法要预先假定数据集满足某种分布，在许多实际情况中并不适用。基于距离的方法首先计算数据对象之间的距离，然后通过考察数据对象与其近邻之间的差异程度来标记离群点。基于深度的方法用凸壳层组织数据点，将具有较浅深度值的数据点识别为离群点，其缺点是在高维数据中应用较困难。基于偏离的方法通过将数据进行分组，将那些显著偏离组内数据点特征的数据对象看作是离群点。基于密度的方法用于检测数据的局部离群，根据数据点所在区域的局部密度判断数据是否离群。基于聚类的方法通过对数据集聚类发现常规模式（也就是类），将不属于任何一类或属于某个类程度很低的数据作为离群点。

虽然离群检测方法的种类很多，但基本上都是针对由零阶张量（标量）或一阶张量（向量）数据对象组成的数据集提出的。目前还很少有可以直接对由二阶张量（矩阵）数据对象构成的数据集进行离群检测的方法。传统的做法是先对二阶张量数据对象进行数据展开将其降至一阶，然后再利用一阶张量数据的离群检测方法进行分析。但数据展开往往会破坏原数据对象的空间结构，造成信息损失，直接影响离群检测的效果。此外，数据展开还容易引起维数灾难和小样本等问题，影响离群检测方法的有效实施。近年来，随着二阶张量数据在图像识别、计算机视觉、信号处理和间歇过程监控等领域的大量涌现，迫切需要有一种能够更加直接有效地对二阶张量数据进行离群检测的方法。

发明内容

为了克服现有的离群检测方法在对二阶张量数据进行离群检测时存在检测效率较低、易造成信息损失以及通用性较差的不足，本发明提供了一种检测效率较高、可避免信息损失并且通用性良好的基于支持张量数据描述的离群数据检测方法。该方法首先通过求解优化问题得到包含绝大多数数据对象在内的最优超球体边界，然后利用该边界进行离群检测，将位于边界内和边界上的数据对象视为常规数据，而将位于边界外的数据对象标记为离群点。

本发明所采用的技术方案为：

一种基于支持张量数据描述的离群数据检测方法，包括以下步骤：

1）获取由n个二阶张量数据对象X_i构成的数据集X={X₁,X₂,…,X_i,…,X_n}；

2）选取惩罚因子C，建立如下优化问题：

\begin{matrix} \min_{R, A, ξ} R^{2} + C Σ_{i} ξ_{i} \\ s . t . {| | X_{i} - A | |}^{2} \leq R + ξ_{i}, ξ_{i} &GreaterEqual; 0 \end{matrix} - - - (1)

式中‖·‖表示矩阵的Frobenius范数，A和R分别是超球体的中心和半径，ξ_i是松弛因子；

3）利用拉格朗日乘子法将优化问题（1）转化为其对偶问题，求解得到最优解所对应的一组拉格朗日乘子α_i，然后分别计算超球体的中心A和半径R，具体过程如下：

首先利用拉格朗日乘子法得到优化问题（1）的拉格朗日函数L(·)：

L(R,A,α_i,γ_i,ξ_i)＝R²+CΣ_iξ_i-Σ_iα_i{R²+ξ_i-‖X_i-A‖²}-Σ_iγ_iξ_i （2）

式中α_i≥0和γ_i≥0都是拉格朗日乘子，令L(·)对R、A和ξ_i的偏导为0，得：

\frac{&PartialD; L}{&PartialD; R} = 0 : Σ_{i} α_{i} = 1 - - - (3)

\frac{&PartialD; L}{&PartialD; A} = 0 : A = Σ_{i} α_{i} X_{i} - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 : C - α_{i} - γ_{i} = 0 - - - (5)

代入式（2），将求解式（2）相对于A、R和ξ_i的最小化问题转化为求解其对偶最大化问题，有：

\begin{matrix} L = Σ_{i} α_{i} tr (X_{i} X_{i}^{T}) - Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) \\ s . t . Σ_{i} α_{i} = 1,0 \leq α_{i} \leq C \end{matrix}

求解该问题可得到最优解所对应的一组拉格朗日乘子α_i，然后，利用如下两式分别计算超球体的球心和半径：

A＝Σ_iα_iX_i （6）

R^{2} = tr (X_{k} X_{k}^{T}) - 2 Σ_{i} α_{i} tr (X_{k} X_{i}^{T}) + Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) - - - (7)

其中X_k是对应于0<α_i<C的任一数据对象，即支持张量；

4）根据每个数据对象所对应的拉格朗日乘子α_i的取值判断各数据对象所处的位置，将位于超球体边界外的数据对象标记为离群点。

进一步，所述步骤1）中，每个数据对象具有二阶张量的结构形式。

更进一步，所述步骤2）中，惩罚因子C为正实数。惩罚因子C用于控制超球体的大小和离群点的数目，具体数值可凭经验选取。

再进一步，所述步骤4）中，根据格朗日乘子α_i确定离群点的具体方法为：将对应于α_i=0和0<α_i<C的数据对象标记为常规数据，将对应于α_i=C的数据对象标记为离群点。

本发明的有益效果在于：1）可直接对由二阶张量数据对象构成的数据集进行离群检测，无需通过数据展开将二阶张量数据对象降至一阶，提高了离群检测的效率；2）维持了数据对象原始的二阶张量结构形式，避免了由于数据展开引起的数据结构破坏、维数灾难和小样本等问题；3）通过求解包含绝大多数数据对象在内的最优超球体边界来描述数据的常规模式，而将边界外的数据对象视为离群点，无需事先知道数据集的分布、类别数等先验知识，实施简单、通用性强。

附图说明

图1是基于支持张量数据描述的离群数据检测方法的实施流程图；

图2是青霉素发酵过程各批次距超球体中心的距离。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1和图2，一种基于支持张量数据描述的离群数据检测方法包括如下步骤：

2）选取惩罚因子C，建立如下优化问题：

\begin{matrix} \min_{R, A, ξ} R^{2} + C Σ_{i} ξ_{i} \\ s . t . {| | X_{i} - A | |}^{2} \leq R + ξ_{i}, ξ_{i} &GreaterEqual; 0 \end{matrix} - - - (1)

式中，‖·‖表示矩阵的Frobenius范数，A和R分别是超球体的中心和半径，ξ_i是松弛因子。惩罚因子C用于控制超球体的大小和离群点的数目，必须是正实数，具体数值可凭经验选取。一般C取值越大，超球体越大，离群点的数目越少；C取值越小，超球体越小，离群点的数目越多。

3）利用拉格朗日乘子法将优化问题（1）转化为其对偶问题，求解得到最优解所对应的一组拉格朗日乘子α_i，然后分别计算超球体的中心A和半径R，具体过程如下：首先利用拉格朗日乘子法得到优化问题（1）的拉格朗日函数L(·)：

式中α_i≥0和γ_i≥0都是拉格朗日乘子。令L(·)对R、A和ξ_i的偏导为0，可得：

\frac{&PartialD; L}{&PartialD; R} = 0 : Σ_{i} α_{i} = 1 - - - (3)

\frac{&PartialD; L}{&PartialD; A} = 0 : A = Σ_{i} α_{i} X_{i} - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 : C - α_{i} - γ_{i} = 0 - - - (5)

\begin{matrix} L = Σ_{i} α_{i} tr (X_{i} X_{i}^{T}) - Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) \\ s . t . Σ_{i} α_{i} = 1,0 \leq α_{i} \leq C \end{matrix}

求解该问题可得到最优解所对应的一组拉格朗日乘子α_i。然后，利用如下两式分别计算超球体的球心和半径：

A＝Σ_iα_iX_i （6）

R^{2} = tr (X_{k} X_{k}^{T}) - 2 Σ_{i} α_{i} tr (X_{k} X_{i}^{T}) + Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) - - - (7)

其中X_k是对应于0<α_i<C的任一数据对象，即支持张量。

4）根据每个数据对象所对应的拉格朗日乘子α_i的取值判断各数据对象所处的位置，将位于超球体边界外的数据对象标记为离群点。具体为：对应于α_i=0和0<α_i<C的数据对象分别位于超球体的内部和边界上，可将它们看作是常规数据，而对应于α_i=C的数据对象位于超球体的边界外，可标记为离群点。

实例：以青霉素发酵过程的异常批次检测为例进行实施。在不同的初始条件下，利用美国伊利诺斯理工大学Ali Cinar教授开发的青霉素发酵仿真平台Pensim2.0生成40个批次的仿真数据，其中每个批次包含17个监控变量，发酵周期为400小时，采样间隔为1小时。将每个批次的数据表示成二阶张量的形式：

其中K=400，J=17，并建立数据集X={X₁,X₂,…,X_i,…,X₄₀}。选取惩罚因子C=0.3，按照本发明的实施步骤，利用基于支持张量数据描述的离群数据检测方法对数据集X进行离群检测，经计算得到超球体的半径R为110.3。表1列出了各批次所对应的拉格朗日乘子α_i，从中可知，批次20和批次38所对应的拉格朗日乘子在数值上等于惩罚因子，因此可将这两个批次标记为异常批次。

表1

图2显示了各批次距超球体中心的距离，其中虚线为超球体的半径。从中可见，批次20和批次38距超球体中心的距离明显大于其它批次，且超出了超球体的边界。

Claims

1.一种基于支持张量数据描述的离群数据检测方法，其特征在于：包括以下步骤：

2）选取惩罚因子C，建立如下优化问题：

\begin{matrix} \min_{R, A, ξ} R^{2} + C Σ_{i} ξ_{i} \\ s . t . {| | X_{i} - A | |}^{2} \leq R + ξ_{i}, ξ_{i} &GreaterEqual; 0 \end{matrix} - - - (1)

L(R，A,α_i,γ_i,ξ_i)＝R²+CΣ_iξ_i-Σ_iα_i{R²+ξ_i-‖X_i-A‖²}-Σ_iγ_iξ_i （2）

\frac{&PartialD; L}{&PartialD; R} = 0 : Σ_{i} α_{i} = 1 - - - (3)

\frac{&PartialD; L}{&PartialD; A} = 0 : A = Σ_{i} α_{i} X_{i} - - - (4)

\frac{&PartialD; L}{&PartialD; ξ_{i}} = 0 : C - α_{i} - γ_{i} = 0 - - - (5)

\begin{matrix} L = Σ_{i} α_{i} tr (X_{i} X_{i}^{T}) - Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) \\ s . t . Σ_{i} α_{i} = 1,0 \leq α_{i} \leq C \end{matrix}

A＝Σ_iα_iX_i （6）

R^{2} = tr (X_{k} X_{k}^{T}) - 2 Σ_{i} α_{i} tr (X_{k} X_{i}^{T}) + Σ_{ij} α_{i} α_{j} tr (X_{i} X_{j}^{T}) - - - (7)

其中X_k是对应于0<α_i<C的任一数据对象，即支持张量；

2.如权利要求1所述的一种基于支持张量数据描述的离群数据检测方法，其特征在于：所述步骤1）中，每个数据对象具有二阶张量的结构形式。

3.如权利要求1或2所述的一种基于支持张量数据描述的离群数据检测方法，其特征在于：所述步骤2）中，惩罚因子C为正实数。

4.如权利要求1或2所述的一种基于支持张量数据描述的离群数据检测方法，其特征在于：所述步骤4）中，根据格朗日乘子α_i确定离群点的具体方法为：将对应于α_i=0和0<α_i<C的数据对象标记为常规数据，将对应于α_i=C的数据对象标记为离群点。