CN108667684A - 一种基于局部向量点积密度的数据流异常检测方法 - Google Patents

一种基于局部向量点积密度的数据流异常检测方法 Download PDF

Info

Publication number
CN108667684A
CN108667684A CN201810293188.1A CN201810293188A CN108667684A CN 108667684 A CN108667684 A CN 108667684A CN 201810293188 A CN201810293188 A CN 201810293188A CN 108667684 A CN108667684 A CN 108667684A
Authority
CN
China
Prior art keywords
point
data
sliding window
dot product
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810293188.1A
Other languages
English (en)
Other versions
CN108667684B (zh
Inventor
首照宇
邹风波
�田�浩
文辉
张彤
赵晖
莫建文
程夏威
汪延国
曾情
卢先英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd
Guilin University of Electronic Technology
Original Assignee
GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd, Guilin University of Electronic Technology filed Critical GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201810293188.1A priority Critical patent/CN108667684B/zh
Publication of CN108667684A publication Critical patent/CN108667684A/zh
Application granted granted Critical
Publication of CN108667684B publication Critical patent/CN108667684B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于局部向量点积密度的数据流异常检测方法,其特征是,包括如下步骤:1)对实时数据流进行处理;2)设置滑动窗口W中数据集Sm并初始化参数n,ε,λ;3)获取向量点积均值MVP;4)确定当前滑动窗口W中数据集Sm的最佳邻域半径r及r邻域;5)获取各数据点的局部向量点积密度LDVP;6)确定当前滑动窗口中的候选异常点;7)多重验证得到确定异常点。这种方法在高维空间和异常分布不均匀的数据集上,能准确有效的检测出当前实时、快速和多变的复杂数据流环境下隐藏的异常点,这种方法在无需聚类的情况下,能高效完成数据集的异常检测,且人为预设参数少,在不同异常占比和不同维数的情况下具有更高的鲁棒性和更强的自适应性。

Description

一种基于局部向量点积密度的数据流异常检测方法
技术领域
本发明涉及数据流异常检测,尤其涉及一种基于局部向量点积密度的数据流异常检测方法。
背景技术
网络技术的飞速发展和社会信息化的不断提高,引发了信息量的爆炸式增长,使得各行各业产生了海量、高速、动态的流数据,如网络入侵监测、商业交易管理和分析、视频监控、传感网络监控等。由于动态数据流的实时无限等特点,传统的静态数据异常检测方法已不能准确有效的分析和处理如此大规模动态增长的流数据,因此构建一种适用于数据流的实时有效异常检测方法变得尤其重要。
现有的数据流异常检测算法大致可分为基于距离的数据流的异常检测算法、基于密度的数据流异常检测算法、基于角度的数据流异常检测算法、基于聚类的数据流异常检测算法。基于距离的异常检测算法是将点与点间的距离作为最基本的异常度量方式,P.Angelov提出了TEDA算法(typicality-and eccentricity-based data analytics),用某数据点与其它数据点的距离和同所有数据点对的距离和的比值来刻画异常;基于密度的数据流异常检测算法运用密度来度量数据的异常程度,Pokrajac等人将静态数据异常检测算法LOF引用到数据流中,研究出增量式局部异常检测算法INCLOF,随着新数据的插入和过期数据的删除,动态更新各数据点的异常因子,为了减少对常规点的误判,Karimian S H等人提出了I-IncLOF算法,引入滑动窗口和多重验证的思想,只有在窗口的整个滑动过程中始终表现为异常的数据对象才判定为异常,大大降低了误判率;为了解决距离、密度等相似度度量方式在高维数据空间中有效性降低的问题,一些科学研究者提出了基于角度的相似度度量方式,HP Kriegel等人提出了基于角度的异常检测算法ABOD,将角度的方差作为度量数据异常程度的异常因子,基于这种思想,Ye H提出基于角度的数据流异常检测算法DSABOD,随着数据点的到来,动态更新每个数据对象相对于其邻域的异常因子,该方法为高维数据流中的异常检测提出了一种新的思路;在基于聚类的异常检测算法中,异常点就是那些不属于任何一个簇或是簇中偏离常规对象较远的点,ManzoorElahi等人提出了一种基于聚类的数据流异常检测算法,将聚类算法K-Means和基于距离的异常检测算法相结合,将数据流封装成一个个数据块,对每个数据块运用K-Means算法进行聚类,删除簇中正常的数据对象,以节省内存,同时对每个簇中的候选异常点采用多重验证的方式,降低误判率;Elahi M等人提出了一种新的改进算法,将K-Means和LOF相结合,并分区域定义异常因子,提高了检测的准确率,Thakran Y等人提出了将DBSCAN算法与W-K-Means算法相结合,对候选异常点采用多重验证,动态调整DBSCAN算法所需要的参量MinPts和Epsilon,以及W-K-Means算法的属性权重,但该算法需要人为设定的参量过多,而且算法的复杂度较高。
以上传统算法存在复杂度高、人为预设参数多、多维数据环境下有效性较低等问题。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于局部向量点积密度的数据流异常检测方法。这种方法在高维空间和异常分布不均匀的数据集上,能准确有效的检测出当前实时、快速和多变的复杂数据流环境下隐藏的异常点,这种方法在无需聚类的情况下,能高效完成数据集的异常检测,且人为预设参数少,在不同异常占比和不同维数的情况下具有更高的鲁棒性和更强的自适应性。
实现本发明目的的技术方案是:
一种基于局部向量点积密度的数据流异常检测方法,与现有技术不同的是,包括如下步骤:
1)对实时数据流进行处理:对数据采集终端采集的各式各样的实时数据流进行处理,数据采集终端采集的数据以流的形式缓存,并将缓存的数据划分成大小均为n的数据块E0,E1,E2,......,每一个数据块代表一个基础窗口,每个滑动窗口W包含2个基础窗口,采用基础窗口和滑动窗口W相结合,实现数据的插入和删除;
2)设置滑动窗口W中数据集Sm并初始化参数n,ε,λ:利用步骤1)获取的数据块,得到当前滑动窗口W中数据集Sm:设Sm={X1,X2,...,XN},由ε个数据块组成,总共包含N个数据点,N=ε·n,每个数据点根据其属性表示为其中n表示每个数据块包含的数据点数,ε表示每个滑动窗口W包含的数据块个数,λ表示多重验证次数;
3)获取向量点积均值MVP:根据步骤2)中得到的m维数据集Sm={X1,X2,...,XN},其中共有N个数据点,假设数据集中任意三个点A,B,C∈Sm(A=(XA1,…,XAm),B=(XB1,…,XBm),C=(XC1,…,XCm)),以A为起始点,构成向量 则点A关于数据集Sm的向量点积均值表示为MVP(A),当前滑动窗口W中每个数据点相对于该窗口中所有数据点的向量点积均值MVP,计算公式为公式(1):
其中,表示点A与数据集中其它数据点之间所构成不重叠向量点积的总数,由公式(1)可知,A与数据集中任意两点之间构成的向量点积由两个向量所成余弦值和模的乘积两部分构成,若A点越异常(即偏离常规簇越远),其与其它点所成的夹角越小,对应的余弦值越大,且呈单调递减的趋势,同时,两点越远模长越大,模的乘积越大,使得向量点积也越大,考虑到数据集整体,利用数据集中各数据点向量点积均值来反映数据点的异常程度,能有效提高异常检测精度;
4)确定当前滑动窗口W中数据集Sm的最佳邻域半径r及r邻域:最佳邻域半径r是由有序4-dist曲线图中的谷底点对应的4-dist值,即在4-dist曲线图中找出“谷底点”,并把“谷底点”与其第4最近邻点之间的距离确定为当前滑动窗口W中数据集的最佳邻域半径r,r邻域是指在维度为m的数据集Sm中的某点p的r邻域,其由与该点p之间的距离小于最佳邻域半径r的数据点组成,r邻域可用Nr(p)表示,r邻域计算公式为公式(2):
Nr(p)={q∈Sm|dist(p,q)≤r} (2);
5)获取各数据点的局部向量点积密度LDVP:根据步骤3)中所得的向量点积均值和步骤4)中所得的r邻域计算当前滑动窗口W中每个数据点p的局部向量点积密度LDVP,计算公式为公式(3):
公式(3)能刻画数据点p在其所处空间环境中的异常情况,如果局部向量点积密度越大,则数据点离常规簇越近,且邻域点数越多,所处区域的数据分布越密集;相反,对于局部向量点积密度越小的数据点离常规簇越远,邻域点数越少,即越异常;
6)确定当前滑动窗口中的候选异常点:对步骤5)得到的各数据点的局部向量点积密度LDVP进行降序排序,并采用基于最大斜率的异常判决准则,先确定出临界候选异常点,然后将当前滑动窗口W中所有局部向量点积密度小于该临界候选异常点LDVP值的数据点确定为候选异常点;
7)多重验证得到确定异常点:对步骤6)中得到的所有候选异常点进行多重验证,并将经过3次验证仍表现为异常的候选异常点判决为确定异常点并输出保存。
步骤1)中所述的基础窗口和滑动窗口W相结合的过程为:终端采集的数据流在Ti时刻过渡到Ti+1时刻,滑动窗口W由Wi滑到Wi+1,伴随着新基础窗口Ei+1的并入和历史基础窗口Ei-1的移除,同时,将Ti时刻Wi检测的候选异常点并入到Wi+1中进行多重验证。
步骤4)中所述的在4-dist曲线图中找出“谷底点”的过程为:在4-dist曲线图中,用直线连接4-dist曲线的最高点和最低点,计算每个4-dist点与该直线的垂直距离,将拥有最大垂直距离的4-dist点确定为“谷底点”。
步骤6)中所述的基于最大斜率的异常判决准则为:将LDVP降序分布图中LDVP值最大的点分别与LDVP值排在20%之后的所有点进行连接,再把连接线中斜率绝对值最大的点确定为常规点与异常点的分界点,即临界候选异常点的判决准则。
步骤7)中所述的多重验证为:结合步骤1)中滑动窗口实现确定异常点的检测,若ni为当前滑动窗口中某个数据块中的数据点代表,则有:
①当数据点ni表现为正常,且为当前滑动窗口中最原始流入数据块中的数据点时,则将该数据块中所有与ni一样表现为正常的数据点一起从滑动窗口中清除;
②当数据点ni表现为正常,且不为当前滑动窗口中最原始流入数据块中的数据点时,则仍保留ni,作为下一时刻滑动窗口中常规点的参考点;
③当数据点ni表现为异常,且τ<λ时,则仍保留ni,并将其放在下一时刻的滑动窗口中进行再次验证;
④当数据点ni表现为异常,且τ=λ时,则将ni确定为真实异常点,并将ni保留在确定异常数据点集O中。
这种数据流异常检测方法,引入了滑动窗口和多重验证的思想,提出一种新型的局部向量点积密度方法,提高了在高维复杂数据空间中进行异常检测的准确度,同时也保证了整个检测的实时性和高效性,在本技术方案中,采用了在4-dist曲线图中找出“谷底点”,以确定最佳邻域半径r的方法,该方法能动态的确定每一时刻滑动窗口中数据集的最佳邻域半径r,增强了本技术方案的自适应能力;同时,本技术方案提出的基于最大斜率的异常判决准则,能实时确定当前滑动窗口中的临界候选异常点,进一步提高了异常检测的准确度。
这种方法运用了滑动窗口和基础窗口技术,构造了高效的数据流处理模型,新型的基于局部向量点积密度的方法,是在原有基于角度的方法基础上提出的,拥有比原有方法更简洁的表现形式,不仅加强了各异常数据点的异常程度,而且更有利于新异常判决准则的运用,两者结合提高了异常检测的准确率。
这种方法在高维空间和异常分布不均匀的数据集上,能准确有效的检测出当前实时、快速和多变的复杂数据流环境下隐藏的异常点,这种方法在无需聚类的情况下,能高效完成数据集的异常检测,且人为预设参数少,在不同异常占比和不同维数的情况下具有更高的鲁棒性和更强的自适应性。
附图说明
图1为实施例中方法流程示意图;
图2为实施例中滑动窗口和基础窗口结合处理实时数据流及多重验证过程示意图;
图3为实施例中数据点4-dist降序分布示意图;
图4a为实施例中某时刻滑动窗口中数据点分布示意图;
图4b为实施例中某时刻滑动窗口中数据点LDVP降序分布示意图;
图5为实施例中人工数据集1在不同异常点占比下AUC结果对比示意图;
图6为实施例中人工数据集2在不同维数下AUC结果对比示意图;
图7为实施例中KDD1999网络连接数据集在不同阶段异常检测准确率测试示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的阐述,但不是对本发明的限定。
参照图1,一种基于局部向量点积密度的数据流异常检测方法,包括如下步骤:
1)对实时数据流进行处理:对数据采集终端采集的各式各样的实时数据流进行处理,数据采集终端采集的数据以流的形式缓存,并将缓存的数据划分成大小均为n的数据块E0,E1,E2,......,每一个数据块代表一个基础窗口,每个滑动窗口W包含2个基础窗口,采用基础窗口和滑动窗口W相结合,实现数据的插入和删除;
2)设置滑动窗口W中数据集Sm并初始化参数n,ε,λ:利用步骤1)获取的数据块,得到当前滑动窗口W中数据集Sm:设Sm={X1,X2,...,XN},由ε个数据块组成,总共包含N个数据点,N=ε·n,每个数据点根据其属性表示为其中n表示每个数据块包含的数据点数,ε表示每个滑动窗口W包含的数据块个数,λ表示多重验证次数;
3)获取向量点积均值MVP:根据步骤2)中得到的m维数据集Sm={X1,X2,...,XN},其中共有N个数据点,假设数据集中任意三个点A,B,C∈Sm(A=(XA1,…,XAm),B=(XB1,…,XBm),C=(XC1,…,XCm)),以A为起始点,构成向量 则点A关于数据集Sm的向量点积均值表示为MVP(A),当前滑动窗口W中每个数据点相对于该窗口中所有数据点的向量点积均值MVP,计算公式为公式(1):
其中,表示点A与数据集中其它数据点之间所构成不重叠向量点积的总数,由公式(1)可知,A与数据集中任意两点之间构成的向量点积由两个向量所成余弦值和模的乘积两部分构成,若A点越异常(即偏离常规簇越远),其与其它点所成的夹角越小,对应的余弦值越大,且呈单调递减的趋势,同时,两点越远模长越大,模的乘积越大,使得向量点积也越大,考虑到数据集整体,利用数据集中各数据点向量点积均值来反映数据点的异常程度,能有效提高异常检测精度;
4)确定当前滑动窗口W中数据集Sm的最佳邻域半径r及r邻域:最佳邻域半径r是由有序4-dist曲线图中的谷底点对应的4-dist值,即在4-dist曲线图中找出“谷底点”,并把“谷底点”与其第4最近邻点之间的距离确定为当前滑动窗口W中数据集的最佳邻域半径r,r邻域是指在维度为m的数据集Sm中的某点p的r邻域,其由与该点p之间的距离小于最佳邻域半径r的数据点组成,r邻域可用Nr(p)表示,r邻域计算公式为公式(2):
Nr(p)={q∈Sm|dist(p,q)≤r} (2);
5)获取各数据点的局部向量点积密度LDVP:根据步骤3)中所得的向量点积均值和步骤4)中所得的r邻域计算当前滑动窗口W中每个数据点p的局部向量点积密度LDVP,计算公式为公式(3):
公式(3)能刻画数据点p在其所处空间环境中的异常情况,如果局部向量点积密度越大,则数据点离常规簇越近,且邻域点数越多,所处区域的数据分布越密集;相反,对于局部向量点积密度越小的数据点离常规簇越远,邻域点数越少,即越异常;
6)确定当前滑动窗口中的候选异常点:对步骤5)得到的各数据点的局部向量点积密度LDVP进行降序排序,并采用基于最大斜率的异常判决准则,先确定出临界候选异常点,再将LDVP值不大于该临界候选异常点LDVP值的所有点确定为候选异常点,其中,基于最大斜率异常判决准则是指在图4b中将LDVP值最大的点分别与数据集中LDVP值排在20%之后的所有点(即图4b中编号为1-8的点)进行连接,把连接线中斜率绝对值最大的点确定为常规点与异常点的分界点,即临界候选异常点,从图4b中可以看出,此时最大斜率为图中实线,临界候选异常点为数据点3,从图4b中可知,通过将LDVP值不大于该临界候选异常点LDVP值的所有点确定为候选异常点,可得候选异常点分别为数据点1,数据点2和数据点3,结合图4a和图4b可知,两者候选异常点一一对应,基于最大斜率异常判决准则较传统的异常判决准则灵活性更好,适应性更强,无需预先确定异常点数,且能同时适用于静态数据集和动态数据流;
7)多重验证得到确定异常点:对步骤6)中得到的所有候选异常点进行多重验证,并将经过3次验证仍表现为异常的候选异常点判决为确定异常点并输出保存。
步骤1)中所述的基础窗口和滑动窗口W相结合的过程为:终端采集的数据流在Ti时刻过渡到Ti+1时刻,滑动窗口W由Wi滑到Wi+1,伴随着新基础窗口Ei+1的并入和历史基础窗口Ei-1的移除,同时,将Ti时刻Wi检测的候选异常点并入到Wi+1中进行多重验证。
步骤4)中所述的在4-dist曲线图中找出“谷底点”的过程为:在4-dist曲线图中,用直线连接4-dist曲线的最高点和最低点,计算每个4-dist点与该直线的垂直距离,将拥有最大垂直距离的4-dist点确定为“谷底点”,有序4-dist曲线图如图3所示。
步骤6)中所述的基于最大斜率的异常判决准则为:将LDVP降序分布图中LDVP值最大的点分别与LDVP值排在20%之后的所有点进行连接,再把连接线中斜率绝对值最大的点确定为常规点与异常点的分界点,即临界候选异常点的判决准则。
步骤7)中所述的多重验证为:结合步骤1)中滑动窗口实现确定异常点的检测,若ni为当前滑动窗口中某个数据块中的数据点代表,则有:
①当数据点ni表现为正常,且为当前滑动窗口中最原始流入数据块中的数据点时,则将该数据块中所有与ni一样表现为正常的数据点一起从滑动窗口中清除;
②当数据点ni表现为正常,且不为当前滑动窗口中最原始流入数据块中的数据点时,则仍保留ni,作为下一时刻滑动窗口中常规点的参考点;
③当数据点ni表现为异常,且τ<λ时,则仍保留ni,并将其放在下一时刻的滑动窗口中进行再次验证;
④当数据点ni表现为异常,且τ=λ时,则将ni确定为真实异常点,并将ni保留在确定异常数据点集O中。
本实施例方法在传统基于角度的方法上进行简化和改进,提出了将局部向量点积密度作为异常检测的新方法,该方法不仅保留了对高维空间数据处理的有效性,且能更准确地刻画数据点的异常情况,同时,该方法采用新的异常判决准则,即基于最大斜率的异常判决准则,该准则能更加有效识别出异常,同时,多重验证的引入有效的降低方法的误判率,保证了方法在实时数据流中异常检测的高准确率。
为了验证本实施例方法的有效性,将通过实验结果对比进一步说明:
本实施例在人工生成的数据集和真实数据集中均进行了验证,并与DSABOD和I-IncLOF方法进行了对比,实验结果选用AUC(Area Under the ROC curve(false positiverate vs.true positive rate))进行评价,AUC能测试实验方法整体性能,本实施例实验参数设置如下:n=50,ε=2,λ=3;
本实施例中选取了两组人工数据集:人工数据集1和人工数据集2,分别用于测试本实施例方法在不同异常占比和不同维度下的鲁棒性,并与DSABOD和I-IncLOF方法进行了对比,人工数据集1的维度为2,共有1500个数据点,包含3个高斯分布常规簇,用于验证在不同异常比例下本实施例方法的鲁棒性,其中采用依次加入异常数据点占比值,分别为2%、4%、6%、…、20%进行测试,对比于DSABOD和I-IncLOF方法,测试结果如图5所示,人工数据集2,共有1544个数据点,包含4%的固定异常点,用于验证在不同维数下本方法的鲁棒性,通过逐渐改变数据维度,分别为5维、10维、15维、…、50维进行测试,对比于DSABOD和I-IncLOF方法,测试结果如图6所示。
从图5可以看出,人工数据集1在不同的异常点占比的情况下,各方法的异常检测效果都随着异常点占比的增加而呈现下降趋势,但本方法的下降趋势最慢,且检测效果最好,可见本实施例方法在应对异常点占比不同的数据流时鲁棒性较好,本实施例实验只选取异常点占比不大于20%的情况进行测试,这是因为当异常点所占比例过大时,不符合异常点所表现的稀疏离群特性,从而导致异常检测的效果急剧下降;
从图6可以看出,人工数据集2在不同维数的情况下,随着数据集维数的逐渐增加,基于角度的DSABOD方法和本实施例方法均表现出较好的稳定性,且本实施例方法的异常检测效果优于另外两个方法,对于I-IncLOF方法,本质上是基于距离和密度的方法,易受到维数灾难的影响,因此随着维数的逐渐增加,其表现出了检测效果急剧下降的趋势。
通过将本实施例方法在不同异常占比和不同维数情况下的实验测试以及与传统方法的对比,可见,本实施例提出的基于局部向量点积密度的数据流异常检测方法具有更好的鲁棒性和检测效率;
同时,为了验证本实施例方法的可行性,选取了KDD1999中前七周网络连接数据集作为真实数据集进行测试,该数据集维数为41,共包含972781条正常记录,其中由于原始数据集中的异常入侵记录远远多于正常连接的记录,因此在本实施例实验中只选取了U2R和R2L这两类异常入侵的记录(约占1.2%)。由于采集的数据源源不断流入,本实施例方法采用每经过3000个数据点便统计一次检测结果的形式,并与DSABOD和I-IncLOF方法进行对比,检测结果采用准确率(precision)进行对比验证,即precision=TP/TP+FP,其中TP为检测到的确定异常点数,FP为被误判为异常点的常规点,实验结果如图7所示,从图7中可以看出,在真实数据集KDD1999的检测中,基于局部异常点积密度的数据流异常检测方法效果比DSABOD和I-IncLOF方法好,在数据流流入初期,由于异常数据较少,基于向量点积密度的数据流异常检测方法与DSABOD和I-IncLOF方法相比,优势并不明显,然而随着后续数据点的不断到来,各算法的检测准确率都在提高,其中基于局部向量点积密度的数据流异常检测方法体现出明显的异常检测优势,可见,基于局部向量点积密度的数据流异常检测方法即本实施例采用的方法,在高维空间和异常分布不均匀的数据集上,都具有较好的异常检测效果和可行性。

Claims (5)

1.一种基于局部向量点积密度的数据流异常检测方法,其特征是,包括如下步骤:
1)对实时数据流进行处理:对数据采集终端采集的各式各样的实时数据流进行处理,数据采集终端采集的数据以流的形式缓存,并将缓存的数据划分成大小均为n的数据块E0,E1,E2,.....,.每一个数据块代表一个基础窗口,每个滑动窗口W包含2个基础窗口,采用基础窗口和滑动窗口W相结合,实现数据的插入和删除;
2)设置滑动窗口W中数据集Sm并初始化参数n,ε,λ:利用步骤1)获取的数据块,得到当前滑动窗口W中数据集Sm:设Sm={X1,X2,...,XN},由ε个数据块组成,总共包含N个数据点,N=ε·n,每个数据点根据其属性表示为其中n表示每个数据块包含的数据点数,ε表示每个滑动窗口W包含的数据块个数,λ表示多重验证次数;
3)获取向量点积均值MVP:根据步骤2)中得到的m维数据集Sm={X1,X2,...,XN},其中共有N个数据点,假设数据集中任意三个点A,B,C∈Sm(A=(XA1,…,XAm),B=(XB1,…,XBm),C=(XC1,…,XCm)),以A为起始点,构成向量则点A关于数据集Sm的向量点积均值表示为MVP(A),当前滑动窗口W中每个数据点相对于该窗口中所有数据点的向量点积均值MVP,计算公式为公式(1):
其中,表示点A与数据集中其它数据点之间所构成不重叠向量点积的总数;
4)确定当前滑动窗口W中数据集Sm的最佳邻域半径r及r邻域:最佳邻域半径r是由有序4-dist曲线图中的谷底点对应的4-dist值,即在4-dist曲线图中找出“谷底点”,并把“谷底点”与其第4最近邻点之间的距离确定为当前滑动窗口W中数据集的最佳邻域半径r,r邻域是指在维度为m的数据集Sm中的某点p的r邻域,其由与该点p之间的距离小于最佳邻域半径r的数据点组成,r邻域可用Nr(p)表示,r邻域计算公式为公式(2):
Nr(p)={q∈Sm|dist(p,q)≤r} (2);
5)获取各数据点的局部向量点积密度LDVP:根据步骤3)中所得的向量点积均值和步骤4)中所得的r邻域计算当前滑动窗口W中每个数据点p的局部向量点积密度LDVP,计算公式为公式(3):
6)确定当前滑动窗口中的候选异常点:对步骤5)得到的各数据点的局部向量点积密度LDVP进行降序排序,并采用基于最大斜率的异常判决准则,先确定出临界候选异常点,然后将当前滑动窗口W中所有局部向量点积密度小于该临界候选异常点LDVP值的数据点确定为候选异常点;
7)多重验证得到确定异常点:对步骤6)中得到的所有候选异常点进行多重验证,并将经过3次验证仍表现为异常的候选异常点判决为确定异常点并输出保存。
2.根据权利要求1所述的基于局部向量点积密度的数据流异常检测方法,其特征是,步骤1)中所述的基础窗口和滑动窗口W相结合的过程为:终端采集的数据流在Ti时刻过渡到Ti+1时刻,滑动窗口W由Wi滑到Wi+1,伴随着新基础窗口Ei+1的并入和历史基础窗口Ei-1的移除,同时,将Ti时刻Wi检测的候选异常点并入到Wi+1中进行多重验证。
3.根据权利要求1所述的基于局部向量点积密度的数据流异常检测方法,其特征是,步骤4)中所述的在4-dist曲线图中找出“谷底点”的过程为:在4-dist曲线图中,用直线连接4-dist曲线的最高点和最低点,计算每个4-dist点与该直线的垂直距离,将拥有最大垂直距离的4-dist点确定为“谷底点”。
4.根据权利要求1所述的基于局部向量点积密度的数据流异常检测方法,其特征是,步骤6)中所述的基于最大斜率的异常判决准则为:将LDVP降序分布图中LDVP值最大的点分别与LDVP值排在20%之后的所有点进行连接,再把连接线中斜率绝对值最大的点确定为常规点与异常点的分界点(即临界候选异常点)的判决准则。
5.根据权利要求1所述的基于局部向量点积密度的数据流异常检测方法,其特征是,步骤7)中所述的多重验证为:结合步骤1)中滑动窗口实现确定异常点的检测,若ni为当前滑动窗口中某个数据块中的数据点代表,则有:
①当数据点ni表现为正常,且为当前滑动窗口中最原始流入数据块中的数据点时,则将该数据块中所有与ni一样表现为正常的数据点一起从滑动窗口中清除;
②当数据点ni表现为正常,且不为当前滑动窗口中最原始流入数据块中的数据点时,则仍保留ni,作为下一时刻滑动窗口中常规点的参考点;
③当数据点ni表现为异常,且τ<λ时,则仍保留ni,并将其放在下一时刻的滑动窗口中进行再次验证;
④当数据点ni表现为异常,且τ=λ时,则将ni确定为真实异常点,并将ni保留在确定异常数据点集O中。
CN201810293188.1A 2018-03-30 2018-03-30 一种基于局部向量点积密度的数据流异常检测方法 Expired - Fee Related CN108667684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810293188.1A CN108667684B (zh) 2018-03-30 2018-03-30 一种基于局部向量点积密度的数据流异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810293188.1A CN108667684B (zh) 2018-03-30 2018-03-30 一种基于局部向量点积密度的数据流异常检测方法

Publications (2)

Publication Number Publication Date
CN108667684A true CN108667684A (zh) 2018-10-16
CN108667684B CN108667684B (zh) 2021-04-30

Family

ID=63783036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810293188.1A Expired - Fee Related CN108667684B (zh) 2018-03-30 2018-03-30 一种基于局部向量点积密度的数据流异常检测方法

Country Status (1)

Country Link
CN (1) CN108667684B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159172A (zh) * 2019-12-31 2020-05-15 北京蛙鸣华清环保科技有限公司 一种数据处理方法、装置及电子设备
CN112164081A (zh) * 2020-09-30 2021-01-01 西南交通大学 一种车载LiDAR点云铁路横断面轮廓提取方法
CN112506908A (zh) * 2020-12-10 2021-03-16 云南电网有限责任公司玉溪供电局 一种电能计量数据清洗方法和系统
CN112699113A (zh) * 2021-01-12 2021-04-23 上海交通大学 时序数据流驱动的工业制造流程运行监测系统
US20220038482A1 (en) * 2020-01-31 2022-02-03 Panasonic Intellectual Property Corporation Of America Anomaly detection method and anomaly detection device
CN115238223A (zh) * 2022-09-23 2022-10-25 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统
CN116644373A (zh) * 2023-07-27 2023-08-25 深圳恒邦新创科技有限公司 基于人工智能的汽车流量数据分析管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286897A (zh) * 2008-05-16 2008-10-15 华中科技大学 一种基于超统计理论的网络流量异常检测方法
CN102014031A (zh) * 2010-12-31 2011-04-13 湖南神州祥网科技有限公司 一种网络流量异常检测方法及系统
CN106973047A (zh) * 2017-03-16 2017-07-21 北京匡恩网络科技有限责任公司 一种异常流量检测方法和装置
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286897A (zh) * 2008-05-16 2008-10-15 华中科技大学 一种基于超统计理论的网络流量异常检测方法
CN102014031A (zh) * 2010-12-31 2011-04-13 湖南神州祥网科技有限公司 一种网络流量异常检测方法及系统
CN106973047A (zh) * 2017-03-16 2017-07-21 北京匡恩网络科技有限责任公司 一种异常流量检测方法和装置
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159172A (zh) * 2019-12-31 2020-05-15 北京蛙鸣华清环保科技有限公司 一种数据处理方法、装置及电子设备
CN111159172B (zh) * 2019-12-31 2023-10-03 北京蛙鸣华清环保科技有限公司 一种数据处理方法、装置及电子设备
US20220038482A1 (en) * 2020-01-31 2022-02-03 Panasonic Intellectual Property Corporation Of America Anomaly detection method and anomaly detection device
US11876818B2 (en) * 2020-01-31 2024-01-16 Panasonic Intellectual Property Corporation Of America Anomaly detection method and anomaly detection device
CN112164081A (zh) * 2020-09-30 2021-01-01 西南交通大学 一种车载LiDAR点云铁路横断面轮廓提取方法
CN112164081B (zh) * 2020-09-30 2023-04-21 西南交通大学 一种车载LiDAR点云铁路横断面轮廓提取方法
CN112506908A (zh) * 2020-12-10 2021-03-16 云南电网有限责任公司玉溪供电局 一种电能计量数据清洗方法和系统
CN112699113A (zh) * 2021-01-12 2021-04-23 上海交通大学 时序数据流驱动的工业制造流程运行监测系统
CN115238223A (zh) * 2022-09-23 2022-10-25 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统
CN115238223B (zh) * 2022-09-23 2022-12-23 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统
CN116644373A (zh) * 2023-07-27 2023-08-25 深圳恒邦新创科技有限公司 基于人工智能的汽车流量数据分析管理系统
CN116644373B (zh) * 2023-07-27 2023-10-31 广东小途汽车科技有限公司 基于人工智能的汽车流量数据分析管理系统

Also Published As

Publication number Publication date
CN108667684B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN108667684A (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN111475596B (zh) 一种基于多层级轨迹编码树的子段相似性匹配方法
CN109000645A (zh) 复杂环境目标经典航迹提取方法
CN111046968B (zh) 一种基于改进dpc算法的道路网络轨迹聚类分析方法
CN110263712A (zh) 一种基于区域候选的粗精行人检测方法
CN110942099A (zh) 一种基于核心点保留的dbscan的异常数据识别检测方法
CN113920400A (zh) 一种基于改进YOLOv3的金属表面缺陷检测方法
CN109102538B (zh) 利用等值线数据提取槽脊特征点与槽脊特征线的方法、天气图分析方法
CN112085072A (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN108304851A (zh) 一种高维数据流异常点识别方法
CN115964662A (zh) 基于改进密度峰值聚类的复杂装备参数异常检测方法
CN111046532A (zh) 一种基于肘形判据的同调机群聚类识别方法
CN115830010B (zh) 输电导线交叉跨越距离检测方法、装置和计算机设备
CN113592862A (zh) 钢板表面缺陷的点云数据分割方法、系统、设备、介质
Zhao et al. Abnormal trajectory detection based on a sparse subgraph
CN108804635A (zh) 一种基于属性选择的相似性度量方法
CN116432052B (zh) 一种新能源汽车模具用夹具质量检测方法
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
CN112633389A (zh) 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法
CN108376266A (zh) 基于样本边缘点内部点的单类支持向量机核参数优化方法
CN104715160A (zh) 基于kmdb的软测量建模数据异常点检测方法
Xin et al. Accurate and complete line segment extraction for large-scale point clouds
CN112765219B (zh) 一种跳过平稳区域的流数据异常检测方法
CN113852629B (zh) 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210430