CN105046275A - 基于角度方差的大规模高维离群数据检测方法 - Google Patents
基于角度方差的大规模高维离群数据检测方法 Download PDFInfo
- Publication number
- CN105046275A CN105046275A CN201510409206.4A CN201510409206A CN105046275A CN 105046275 A CN105046275 A CN 105046275A CN 201510409206 A CN201510409206 A CN 201510409206A CN 105046275 A CN105046275 A CN 105046275A
- Authority
- CN
- China
- Prior art keywords
- data
- overbar
- point
- phi
- outlier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Abstract
本发明公开了一种基于角度方差的大规模高维离群数据检测方法,属于离群数据挖掘技术领域,包括以下步骤:(1)数据点集投影到与随机向量正交的超平面上;(2)计算投影后的数据点的角度方差无偏期望值;(3)计算各数据点的角度方差;(4)确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点。本发明可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据。
Description
技术领域
本发明涉及一种基于角度方差的大规模高维离群数据检测方法,属于离群数据挖掘技术领域。
背景技术
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,广泛应用于网络流量入侵检测、交通事故检测、科学数据测量异常检测等领域。目前已有的离群数据挖掘主要基于距离或最近邻概念进行离群挖掘,在高维数据中,高维空间距离和最近邻已经不再具有欧式空间的特性,就会出现距离维度灾难的情况。在高维数据中,由于离群点远离其它数据点,离群点与其它点组成的向量的夹角变化不大,而非离群点被包围在数据点中,非离群点与其它点组成的向量的夹角变化较大,因此根据夹角变化的方差可以发现隐藏在高维数据中的离群数据。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于角度方差的大规模高维离群数据检测方法,可以高效快速地从大规模高维数据中发现隐藏在其中的离群数据。
为达到上述目的,本发明所采用的技术方案是:基于角度方差的大规模高维离群数据检测方法,包括如下步骤:
步骤一:数据点集投影到与随机向量正交的超平面上;
步骤二:计算投影后的数据点的角度方差无偏期望值;
步骤三:计算各数据点的角度方差;
步骤四:确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点,其中n为高维离群数据中点的个数。
所述步骤一包括如下步骤:
步骤1-1)形式化数据集:大规模高维离群数据可形式化为:
给定的数据集点P∈D,点A∈D\{P},点B∈D\{P,A},表示向量表示向量表示向量和向量角度;
步骤1-2)定义基于角度的离群因子OF(P),即角度方差形式化为:
大规模高维离群数据集D,|D|=n,点P∈D,点A∈D\{P},点B∈D\{P,A},点P的离群因子OF(P)定义为的方差,一阶矩为二阶矩为即:
步骤1-3)数据点集投影到与随机向量正交的超平面上,其中向量坐标从标准正态分布N(0,1)中随机选择:
依据投影之后的数据,估计每个点的角度无偏期望值,其中随机向量取v1,v2,…,vi∈Rd,各向量坐标从标准正态分布N(0,1)中独立选取,选取独立随机向量对于向量vi,只有当向量和位于与vi正交的超平面不同侧时,这种情况的概率与角度成正比,采用如下选取方式:
对于点A,B,P,的概率存在如下关系:
同样,由于对称性,也存在以下关系:
所述步骤二是根据随机超平面投影来估计个数据点的角度方差,包括一阶矩估计和二阶矩估计,具体包括如下步骤:
步骤2-1)一阶矩估计:对于向量v∈Rd和点P,
其中,表示由随机投影时,P点左侧的点组成的集合;表示由随机投影时,P点右侧的点组成的集合,即为P点和其它点的角度期望无偏估计值;
步骤2-2)二阶矩估计:对于点P,随机确定集合D\{P}的次序为xi(i=1,2…n),对于使用向量vi后的每一个投影取两个向量Xi,Yi∈{0,1},因此有第k个投影坐标与集合D\{P}第k个点对应;如果集合的第k个点位于分区的左边则向量Xi或Yi第k个坐标为1,如果集合的第k个点位于分区的右边则向量Xi或Yi第k个坐标为0;
其中(XiYi)为向量Xi,Yi的外积,且P的对角线元素为0,因此,就是t次投影后A位于分区左边,B位于分区右边的次数,可以根据矩阵P的元素估计点P与点A,B的角度的平方
所述步骤四中确定离群数据的具体方法如下:
步骤4-1)将步骤三中所有数据点的角度方差按照大小进行排序,得到角度方差数列L;
步骤4-2)划分角度方差序列L为2类:CA和CB,CA为数值较小的一类,CB为数值较大的一类;
分类算法步骤为:依次比较数据序列L中的前后数据,如果数值变化大于某一阈值ε,则该数据及其后面所有的数据都划分为类CB,其中ε由用户确定,即
CA=Φ,CB=L
如果d=|li+1-li|<ε,则CA=CA∪{li}
否则,CB=CB\{li}
4-3)确定离群点,具体方法为:
获得的类别CA,如果CA的数据个数大于某一阈值δ,则没有检测到离群点,否则CA中所有数据对应的点为离群点,其中δ由用户设定。
与现有技术相比,本发明所达到的有益效果是:本发明提供的基于角度方差的大规模高维离群数据检测方法,能有效克服基于高维距离和最近邻等离群检测方法的“维度灾难”问题,利用本发明可以广泛应用于信用卡欺诈检测、交通事故检测、科学数据测量异常检测等高维数据中。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,基于角度方差的大规模高维离群数据检测方法,包括如下步骤:
步骤一:数据点集投影到与随机向量正交的超平面上;
步骤1-1)形式化数据集:大规模高维离群数据可形式化为:
给定的数据集点P∈D,点A∈D\{P},点B∈D\{P,A},表示向量表示向量表示向量和向量角度;
步骤1-2)定义基于角度的离群因子OF(P),即角度方差形式化为:
大规模高维离群数据集D,|D|=n,点P∈D,点A∈D\{P},点B∈D\{P,A},点P的离群因子OF(P)定义为的方差,一阶矩为二阶矩为即:
步骤1-3)数据点集投影到与随机向量正交的超平面上,其中向量坐标从标准正态分布N(0,1)中随机选择:
依据投影之后的数据,估计每个点的角度无偏期望值,其中随机向量取v1,v2,…,vi∈Rd,各向量坐标从标准正态分布N(0,1)中独立选取,选取独立随机向量对于向量vi,只有当向量和位于与vi正交的超平面不同侧时,这种情况的概率与角度成正比,采用如下选取方式:
对于点A,B,P,的概率存在如下关系:
同样,由于对称性,也存在以下关系:
步骤二:计算投影后的数据点的角度方差无偏期望值,即根据随机超平面投影来估计个数据点的角度方差,包括一阶矩估计和二阶矩估计,具体包括如下步骤:
步骤2-1)一阶矩估计:对于向量v∈Rd和点P,
其中,表示由随机投影时,P点左侧的点组成的集合;表示由随机投影时,P点右侧的点组成的集合,即为P点和其它点的角度期望无偏估计值;
步骤2-2)二阶矩估计:对于点P,随机确定集合D\{P}的次序为xi(i=1,2…n),对于使用向量vi后的每一个投影取两个向量Xi,Yi∈{0,1},因此有第k个投影坐标与集合D\{P}第k个点对应;如果集合的第k个点位于分区的左边则向量Xi或Yi第k个坐标为1,如果集合的第k个点位于分区的右边则向量Xi或Yi第k个坐标为0;
其中(XiYi)为向量Xi,Yi的外积,且的对角线元素为0,因此,就是t次投影后A位于分区左边,B位于分区右边的次数,可以根据矩阵P的元素估计点P与点A,B的角度的平方
步骤三:计算各数据点的角度方差,即各数据点P的离群因子OF(P),
其中,k表示对于点P有第k个投影坐标与集合D\{P}中第k个点对应;是由构成的矩阵,元素表示t次投影后任意点A位于分区左边,点B位于分区右边的次数。
步骤四:确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点,其中n为高维离群数据中点的个数,具体方法如下:
步骤4-1)将步骤三中所有数据点的角度方差按照大小进行排序,得到角度方差数列L;
步骤4-2)划分角度方差序列L为2类:CA和CB,CA为数值较小的一类,CB为数值较大的一类;
分类算法步骤为:依次比较数据序列L中的前后数据,如果数值变化大于某一阈值ε,则该数据及其后面所有的数据都划分为类CB,其中ε由用户确定,即
CA=Φ,CB=L
如果d=|li+1-li|<ε,则CA=CA∪{li}
否则,CB=CB\{li}
4-3)确定离群点,具体方法为:
获得的类别CA,如果CA的数据个数大于某一阈值δ,则没有检测到离群点,否则CA中所有数据对应的点为离群点,其中δ由用户设定。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (4)
1.基于角度方差的大规模高维离群数据检测方法,其特征在于,包括如下步骤:
步骤一:数据点集投影到与随机向量正交的超平面上;
步骤二:计算投影后的数据点的角度方差无偏期望值;
步骤三:计算各数据点的角度方差;
步骤四:确定离群数据:角度方差最小的n个点为数据集离群度最大的离群点,其中n为高维离群数据中点的个数。
2.根据权利要求1所述的基于角度方差的大规模高维离群数据检测方法,其特征在于,所述步骤一包括如下步骤:
步骤1-1)形式化数据集:大规模高维离群数据可形式化为:
给定的数据集|D|=n,点P∈D,点A∈D\{P},点B∈D\{P,A},表示向量 表示向量 表示向量和向量角度;
步骤1-2)定义基于角度的离群因子OF(P),即角度方差形式化为:
大规模高维离群数据集D,|D|=n,点P∈D,点A∈D\{P},点B∈D\{P,A},点P的离群因子OF(P)定义为的方差,一阶矩为二阶矩为即:
步骤1-3)数据点集投影到与随机向量正交的超平面上,其中向量坐标从标准正态分布N(0,1)中随机选择:
依据投影之后的数据,估计每个点的角度无偏期望值,其中随机向量取v1,v2,…,vi∈Rd,各向量坐标从标准正态分布N(0,1)中独立选取,选取独立随机向量对于向量vi,只有当向量和位于与vi正交的超平面不同侧时,这种情况的概率与角度成正比,采用如下选取方式:
对于点A,B,P,的概率存在如下关系:
同样,由于对称性,也存在以下关系:
3.根据权利要求2所述的基于角度方差的大规模高维离群数据检测方法,其特征在于,所述步骤二是根据随机超平面投影来估计个数据点的角度方差,包括一阶矩估计和二阶矩估计,具体包括如下步骤:
步骤2-1)一阶矩估计:对于向量v∈Rd和点P,
其中,表示由随机投影时,P点左侧的点组成的集合;表示由随机投影时,P点右侧的点组成的集合,即为P点和其它点的角度期望无偏估计值;
步骤2-2)二阶矩估计:对于点P,随机确定集合D\{P}的次序为xi(i=1,2…n),对于使用向量vi后的每一个投影取两个向量Xi,Yi∈{0,1},因此有第k个投影坐标与集合D\{P}第k个点对应;如果集合的第k个点位于分区的左边则向量Xi或Yi第k个坐标为1,如果集合的第k个点位于分区的右边则向量Xi或Yi第k个坐标为0;
其中(XiYi)为向量Xi,Yi的外积,且的对角线元素为0,因此,就是t次投影后A位于分区左边,B位于分区右边的次数,可以根据矩阵的元素估计点P与点A,B的角度的平方
4.根据权利要求3所述的基于角度方差的大规模高维离群数据检测方法,其特征在于,所述步骤四中确定离群数据的具体方法如下:
步骤4-1)将步骤三中所有数据点的角度方差按照大小进行排序,得到角度方差数列L;
步骤4-2)划分角度方差序列L为2类:CA和CB,CA为数值较小的一类,CB为数值较大的一类;
分类算法步骤为:依次比较数据序列L中的前后数据,如果数值变化大于某一阈值ε,则该数据及其后面所有的数据都划分为类CB,其中ε由用户确定,即
CA=Φ,CB=L
如果d=|li+1-li|<ε,则CA=CA∪{li}
否则,CB=CB\{li}
4-3)确定离群点,具体方法为:
获得的类别CA,如果CA的数据个数大于某一阈值δ,则没有检测到离群点,否则CA中所有数据对应的点为离群点,其中δ由用户设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510409206.4A CN105046275A (zh) | 2015-07-13 | 2015-07-13 | 基于角度方差的大规模高维离群数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510409206.4A CN105046275A (zh) | 2015-07-13 | 2015-07-13 | 基于角度方差的大规模高维离群数据检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105046275A true CN105046275A (zh) | 2015-11-11 |
Family
ID=54452804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510409206.4A Pending CN105046275A (zh) | 2015-07-13 | 2015-07-13 | 基于角度方差的大规模高维离群数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105046275A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107786368A (zh) * | 2016-08-31 | 2018-03-09 | 华为技术有限公司 | 异常节点检测方法以及相关装置 |
CN109902704A (zh) * | 2018-10-11 | 2019-06-18 | 华为技术有限公司 | 一种异常样本的识别方法、装置及存储介质 |
CN110311879A (zh) * | 2018-03-20 | 2019-10-08 | 重庆邮电大学 | 一种基于随机投影角度分布的数据流异常识别方法 |
CN110378843A (zh) * | 2018-11-13 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 数据滤波方法和装置 |
CN117171677A (zh) * | 2023-11-02 | 2023-12-05 | 北京建工环境修复股份有限公司 | 基于决策树模型的微生物修复效果评价方法、系统及介质 |
-
2015
- 2015-07-13 CN CN201510409206.4A patent/CN105046275A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107786368A (zh) * | 2016-08-31 | 2018-03-09 | 华为技术有限公司 | 异常节点检测方法以及相关装置 |
CN110311879A (zh) * | 2018-03-20 | 2019-10-08 | 重庆邮电大学 | 一种基于随机投影角度分布的数据流异常识别方法 |
CN110311879B (zh) * | 2018-03-20 | 2022-02-22 | 重庆邮电大学 | 一种基于随机投影角度分布的数据流异常识别方法 |
CN109902704A (zh) * | 2018-10-11 | 2019-06-18 | 华为技术有限公司 | 一种异常样本的识别方法、装置及存储介质 |
CN110378843A (zh) * | 2018-11-13 | 2019-10-25 | 北京京东尚科信息技术有限公司 | 数据滤波方法和装置 |
CN117171677A (zh) * | 2023-11-02 | 2023-12-05 | 北京建工环境修复股份有限公司 | 基于决策树模型的微生物修复效果评价方法、系统及介质 |
CN117171677B (zh) * | 2023-11-02 | 2024-02-02 | 北京建工环境修复股份有限公司 | 基于决策树模型的微生物修复效果评价方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105046275A (zh) | 基于角度方差的大规模高维离群数据检测方法 | |
CN103020423B (zh) | 基于copula函数获取风电场出力相关特性的方法 | |
CN107423769A (zh) | 基于形态特征的电力负荷曲线自适应聚类方法 | |
CN103136239B (zh) | 一种基于张量重建的交通数据丢失恢复方法 | |
CN105376260A (zh) | 一种基于密度峰值聚类的网络异常流量监测系统 | |
CN102938151A (zh) | 一种高光谱图像异常检测的方法 | |
CN102945551B (zh) | 一种基于图论的三维点云数据平面提取方法 | |
CN104933624A (zh) | 复杂网络的社团发现方法及社团重要节点发现方法 | |
CN103218617B (zh) | 一种多线性大间距的特征提取方法 | |
CN102842043B (zh) | 基于自动聚类的粒子群优化分类方法 | |
CN104535960A (zh) | 一种基于rfid的室内快速定位方法 | |
CN103199983A (zh) | 侧信道能量分析中的n阶局域能量模型及其应用 | |
CN102801629A (zh) | 一种流量矩阵的估计方法 | |
Lee et al. | Collapse transition of a square-lattice polymer with next nearest-neighbor interaction | |
CN105139031A (zh) | 一种基于子空间聚类的数据处理方法 | |
CN106503846A (zh) | 一种电力设备巡检路线计算方法 | |
Hajek et al. | Community recovery in a preferential attachment graph | |
CN105138641A (zh) | 一种基于角度的高维数据离群检测方法 | |
CN108228442A (zh) | 一种异常节点的检测方法及装置 | |
CN110020598B (zh) | 一种基于深度学习检测电线杆上异物的方法及装置 | |
Neale et al. | Discriminant analysis classification of residential electricity smart meter data | |
CN109840558B (zh) | 基于密度峰值-核心融合的自适应聚类方法 | |
CN104732547A (zh) | 一种基于高次幂邻接矩阵hash比对的图同构判定方法 | |
CN102799891A (zh) | 基于地标点表示的谱聚类方法 | |
CN103268611A (zh) | 一种复杂场景中精确的实时曲线检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151111 |