CN110377798A - 基于角度熵的离群点检测方法 - Google Patents

基于角度熵的离群点检测方法 Download PDF

Info

Publication number
CN110377798A
CN110377798A CN201910504607.6A CN201910504607A CN110377798A CN 110377798 A CN110377798 A CN 110377798A CN 201910504607 A CN201910504607 A CN 201910504607A CN 110377798 A CN110377798 A CN 110377798A
Authority
CN
China
Prior art keywords
angle
entropy
value
data
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910504607.6A
Other languages
English (en)
Other versions
CN110377798B (zh
Inventor
何建军
文青勇
汪泽睿
裴雨听
齐文琴
郝思宇
何广平
廖敏
王艺蓉
王丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN201910504607.6A priority Critical patent/CN110377798B/zh
Publication of CN110377798A publication Critical patent/CN110377798A/zh
Application granted granted Critical
Publication of CN110377798B publication Critical patent/CN110377798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于角度熵的离群点检测方法,本发明首先求取每一个数据点与其他任意两个不同数据点的夹角余弦值,其次根据每一个数据的夹角余弦值求取角度熵作为该数据的离群因子,再次利用角度熵的差值来获得阈值,最后根据离群因子与阈值进行对比,来判断离群因子对应的数据点是否为离群点。该方法利用不同数据构成的角度分布求取角度熵以解决数据集在高维情况下检测离群点的问题,提出了角度熵为基础进行高维数据集中离群点的检测。在处理多维数据集,尤其是高维数据集中离群点的判断准确性明显优于传统算法。

Description

基于角度熵的离群点检测方法
技术领域
本发明涉及一种离群点检测的方法,尤其涉及一种基于角度熵的离群点检测方法。
背景技术
随着互联网的广泛应用,人们生活中产生了大量的信息资源,如何从大量的信息中挖掘出有用的信息或舍弃无用的信息是一个重要的研究方向。离群点检测是数据挖掘技术中的一个分支。离群点检测的目的是将某个对象或者某几个对象从大部分相似对象中分离出来,使新的数据在之后的运用上拥有更好的表现。正常数据一般表现出一定程度上的相似性,正常对象都是聚集在一起,离群对象通常偏离于正常对象,且离群点的数量越小于正常点数量。
现有的离群点检测方法主要是:基于统计的、基于深度的、基于聚类的、基于密度的、基于距离的方法。局部离群因子算法(简称LOF)是一种基于密度的方法,其目的是为每一个数据对象计算局部离群系数,局部离群系数是数据集中所有对象的局部可达密度与单个数据对象的局部可达密度的比值,LOF值越大,越有可能是离群点,LOF值较小有可能是边界点,LOF的值比1小很多就是聚类簇内的点。因此,通过阈值的设定可以判断一个数据对象是否为离群点。但这些传统离群点检测高维数据时存在着检测结果不准确的问题。
本发明是基于角度方差的离群点检测方法,是计算每个数据对象与任意其他两个不同的数据对象的夹角余弦值,若一个数据对象所形成的夹角余弦值的方差较小,则说明该数据对象的夹角余弦值的变化较小,判断为离群点的可能性越大。结合LOF算法局部离群因子和计算每个数据对象的角度方差以及熵的概念,提出角度熵运用于离群点的检测。
发明内容
本发明的目的就在于提供一种解决上述问题,解决数据高维情况下离群点检测的问题,改善传统离群点检测高维数据时不准确的问题,提出了以角度熵为基础来解决高维数据离群点检测不准确的问题的基于角度熵的离群点检测方法。
为了实现上述目的,本发明采用的技术方案是这样的:一种基于角度熵的离群点检测方法,包括以下步骤:
(1)获取一数据集其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为计算间的向量差为欧式距离为点积
(22)根据下式计算构成的夹角余弦值:
(23)再根据上式计算与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;
(25)根据下式计算数据点的角度熵entA,公式为:
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
作为优选:所述M的取值为10或20。
与现有技术相比,本发明的优点在于:针对传统离群点检测高维数据时不准确的问题,提出了一种新的基于角度熵概念的离群点检测方法,从而将影响离群系数的主要因素——数据对象之间的距离,变成了次要因素;再结合角度熵的概念来计算阈值,用阈值对数据点进行区分,使得离群点与正常点的界限分明,易于区分。
本发明整体思路是:首先求取每一个数据点与其他任意两个不同数据点的夹角余弦值,其次根据每一个数据的夹角余弦值求取角度熵作为该数据的离群因子,再次、将角度熵排序后根据最大的差值来求阈值,最后将离群因子与阈值进行比较,判断该离群因子对应的数据点是否为离群点。
这里所说的离群因子,实际就是每个数据点对应的角度熵,将角度熵与阈值对比,将所有角度熵分为大于阈值的部分和小于阈值的部分,大于阈值的角度熵所对应的数据点,是正常点,其余为离群点。
本方法相较于传统离群点检测方法的准确率、效率都明显提升,从而可以进行高维数据的离群点检测。
附图说明
图1为离群点与正常点分布示例图;
图2为本发明流程图;
图3为实施例2中N=500,d=25条件下基于角度熵高维检测过程图;
图4为实施例3中N=300,d=25条件下基于角度熵高维检测结果;
图5为实施例3中N=600,d=50条件下基于角度熵高维检测结果。
具体实施方式
下面将结合附图对本发明作进一步说明。
实施例1:参见图1,图1展示了一个离群点与正常点分布示例图,该图中,数据点个数为100,其中离群点个数为10,维度是二维。图中空心圆为离群点,我们将α视为离群点形成的角度,其角度余弦值的大小较集中,而右侧在簇内的为正常点,β视为簇内正常点形成的角度,其角度余弦值的大小较分散。基于这个原理,我们提出了利用夹角余弦值计算角度熵的方法,并基于角度熵来进行离群点检测。
实施例2:参见图2,一种基于角度熵的离群点检测方法,包括以下步骤:
(1)获取一数据集其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为计算间的向量差为欧式距离为点积
(22)根据下式计算构成的夹角余弦值:
(23)再根据上式计算与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;所述M的取值为10或20;
(25)根据下式计算数据点的角度熵entA,公式为:
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
本实施例的步骤(24)中,由于夹角余弦值的取值范围[-1,1],所以长度为2,等份切割后的长度为2/M,假设M=10,则切割为10等份。每一段长度0.2,第一段的取值范围为[-1,-0.8],第二段的取值范围为[-0.8,-0.6],依次类推,可以得到10段的取值范围。假设一个夹角余弦值为-0.9774,则落入第一段的范围,夹角余弦值为-0.7623,则落入第二段的范围。最终按此方法将所有夹角余弦值对应到每一段上,再统计每段上夹角余弦值的数量。由于实验时数据精确度高,不会出现等于临界值如0.8、0.6的情况。
图2给出了一种具体步骤(6)的流程,步骤(6)为将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点,本实施例中,从排序后的第一个角度熵开始与阈值对比,若是,将其录入离群点集中,再判定下一个点直到结束。
本实施例中,步骤(4)将角度熵集中的角度熵按升序排序,排序后的分布见图3。步骤(5)中需要确定阈值,从图3中可知,假设我们角度熵排序后找到差值最大的两个角度熵对应的数据点为点A和点B,计算这两个角度熵的均值,将这两个角度熵的均值作为离群点与正常点划分的阈值,见图3中点横线。步骤(6)是需要将每个角度熵与阈值比较,参见图3,圆圈线中的点均小于阈值的点,为离群点。
本发明中,一般情况下,M的取值为10或者20,以保证不同夹角余值数量的正常分布。
实施例3:参见图3到图5,本实施例对传统LOF算法和本文提出的基于角度熵的离群点检测方法进行了模拟实验对比,采用控制变量法,在保证数据不变、参数不变的情况下进行实验对比。包括实验一和实验二。
实验一为传统LOF离群点检测方法。
实验二为本发明提出的基于角度熵的离群点检测方法。实验数据使用的是pyod库提供的用于离群点检测的高斯分布数据,共测试了两个数据集,第一个数据集一共300个数据,数据维度为25,其中离群点个数为30;第二个数据集一共600个数据,数据维度为50,其中离群点个数为60。
本实施例中,夹角余弦值的取值范围[-1,1],所以其距离固定是2,将其切割为20等份。离群点检测的评价主要观察准确率和召回率。实验结果如表1、图4和图5所示。
表1不同离群点检测效果对比表
通过比较分析,本文所提出算法的准确率和召回率在相同条件下有明显的提升,实验一召回率提升60%,准确率提升94.6%,实验二召回率提升46.7%,准确率提升93%。基于角度熵的离群点检测方法准确率和召回率同时达到了100%。图4、图5结果表明离群点与正常点有较明显的差值距离,将求取的角度熵集经过升序排序,对应的离群点熵值明显小于正常点熵值,由实验结果表明本文的方法对于检测高维数据中的离群点有极高的精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于角度熵的离群点检测方法,其特征在于:包括以下步骤:
(1)获取一数据集其中R为实数,d为维度,数据点个数为N;
(2)计算一个数据点的角度熵;
(21)在数据集D中任取3个数据点分别为计算间的向量差为欧式距离为点积
(22)根据下式计算构成的夹角余弦值:
(23)再根据上式计算与其余任意两个数据点之间的夹角余弦值,夹角余弦值个数为N×(N-1)×(N-2),夹角余弦值的取值范围为[-1,1];
(24)将夹角余弦值的取值范围[-1,1],等份切割为M段,每段的长度为2/M,将所有夹角余弦值按数值对应到M段内,统计每段上对应的夹角余弦值数量nj(0≤nj≤N),得到一组与数据点对应的概率pj=nj/N,式中,j为M段中的第j段,j=1,2,……,M;
(25)根据下式计算数据点的角度熵entA,公式为:
(3)根据步骤(2)计算其余所有数据点的角度熵,得到数据集D的角度熵集:enti={ent1,ent2,…,entN};
(4)将角度熵集中的角度熵按升序排序;
(5)比较相邻两个角度熵之间的差值,找到差值最大的两个角度熵,将这两个角度熵的均值作为阈值;
(6)将每个角度熵与阈值比较,小于阈值的角度熵所对应的数据点,即为离群点。
2.根据权利要求1所述的一种基于角度熵的离群点检测方法,其特征在于:所述M的取值为10或20。
CN201910504607.6A 2019-06-12 2019-06-12 基于角度熵的离群点检测方法 Active CN110377798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910504607.6A CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910504607.6A CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Publications (2)

Publication Number Publication Date
CN110377798A true CN110377798A (zh) 2019-10-25
CN110377798B CN110377798B (zh) 2022-10-21

Family

ID=68250028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910504607.6A Active CN110377798B (zh) 2019-06-12 2019-06-12 基于角度熵的离群点检测方法

Country Status (1)

Country Link
CN (1) CN110377798B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392404A (zh) * 2022-10-27 2022-11-25 清华大学 一种离群点检测模型训练、离群点检测方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US20120075440A1 (en) * 2010-09-28 2012-03-29 Qualcomm Incorporated Entropy based image separation
US20120140981A1 (en) * 2008-07-17 2012-06-07 Chemlmage Corporation System and Method for Combining Visible and Hyperspectral Imaging with Pattern Recognition Techniques for Improved Detection of Threats
CN102890092A (zh) * 2012-10-12 2013-01-23 浙江大学 用于水蜜桃褐腐病缺陷检测的特征角余弦值方法
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
US20160300252A1 (en) * 2015-01-29 2016-10-13 Affectomatics Ltd. Collection of Measurements of Affective Response for Generation of Crowd-Based Results
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
CN107247954A (zh) * 2017-06-16 2017-10-13 山东省计算中心(国家超级计算济南中心) 一种基于深度神经网络的图像离群点检测方法
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法
CN108280561A (zh) * 2017-01-06 2018-07-13 重庆邮电大学 一种基于信息熵和加权距离的离散制造机械产品质量溯源方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US20120140981A1 (en) * 2008-07-17 2012-06-07 Chemlmage Corporation System and Method for Combining Visible and Hyperspectral Imaging with Pattern Recognition Techniques for Improved Detection of Threats
US20120075440A1 (en) * 2010-09-28 2012-03-29 Qualcomm Incorporated Entropy based image separation
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
CN102890092A (zh) * 2012-10-12 2013-01-23 浙江大学 用于水蜜桃褐腐病缺陷检测的特征角余弦值方法
US20160300252A1 (en) * 2015-01-29 2016-10-13 Affectomatics Ltd. Collection of Measurements of Affective Response for Generation of Crowd-Based Results
CN105160347A (zh) * 2015-07-07 2015-12-16 河海大学 一种大规模高维数据中离群数据的检测方法
CN108280561A (zh) * 2017-01-06 2018-07-13 重庆邮电大学 一种基于信息熵和加权距离的离散制造机械产品质量溯源方法
CN107247954A (zh) * 2017-06-16 2017-10-13 山东省计算中心(国家超级计算济南中心) 一种基于深度神经网络的图像离群点检测方法
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
D. DRMANAC, B. BOLIN, L. -C. WANG AND M. S. ABADIR: "Minimizing outlier delay test cost in the presence of systematic variability", 《2009 INTERNATIONAL TEST CONFERENCE》 *
HANS-PETER KRIEGEL,ET AL.: "Angle-based outlier detection in high-dimensional data", 《KNOWLEDGE DISCOVERY AND DATA MINING》 *
LI X , LV J C , CHENG D: "Angle-Based Outlier Detection Algorithm with More Stable", 《PROCEEDINGS OF THE 18TH ASIA PACIFIC SYMPOSIUM ON INTELLIGENT AND》 *
PHAM N: "L1-Depth Revisited: A Robust Angle-Based Outlier Factor in High-Dimensional", 《JOINT EUROPEAN CONFERENCE ON MACHINE LEARNING AND KNOWLEDGE DISCOVERY IN》 *
S. RADY, A. WAGNER AND E. BADREDDIN: "Hierarchical localization using entropy-based feature map and triangulation techniques", 《2010 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS》 *
刘爱琴,荀亚玲: "基于属性熵和加权余弦相似度的离群算法", 《太原科技大学学报》 *
张净等: "基于信息论的高维海量数据离群点挖掘", 《计算机科学》 *
朴昌浩等: "基于角度分布的高维数据流异常点检测算法", 《上海交通大学学报》 *
李慧等: "教学评价数据的离群点检测算法研究[J].软件", 《软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392404A (zh) * 2022-10-27 2022-11-25 清华大学 一种离群点检测模型训练、离群点检测方法及装置

Also Published As

Publication number Publication date
CN110377798B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108667684B (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN109508733A (zh) 一种基于分布概率相似度度量的异常检测方法
CN108304851A (zh) 一种高维数据流异常点识别方法
CN111046968B (zh) 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN105844102A (zh) 一种自适应无参空间离群点检测算法
CN112732748A (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN110348488A (zh) 一种基于局部密度峰值聚类的模态辨识方法
CN109840558B (zh) 基于密度峰值-核心融合的自适应聚类方法
CN106599924A (zh) 一种基于三支决策的分类器构建方法
CN115841491A (zh) 一种多孔金属材料的质量检测方法
CN110377798A (zh) 基于角度熵的离群点检测方法
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
CN109389172B (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN110445654A (zh) 一种基于社区划分的社交网络多源谣言溯源方法及系统
CN104346411A (zh) 对多个稿件进行聚类的方法和设备
CN105824853A (zh) 聚类设备和方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN107169522A (zh) 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法
CN106980872A (zh) 基于投票委员会的k最近邻分类方法
CN109063733A (zh) 一种基于双参数离群因子的离群点检测方法
CN109344729A (zh) 一种识别道路中人员运动的方法
CN109035258A (zh) 一种基于有向交叉遗传算法和二维最大熵阈值分割算法的图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant