CN110647899A - 基于多层邻域划分的异常检验方法和装置 - Google Patents

基于多层邻域划分的异常检验方法和装置 Download PDF

Info

Publication number
CN110647899A
CN110647899A CN201810682469.6A CN201810682469A CN110647899A CN 110647899 A CN110647899 A CN 110647899A CN 201810682469 A CN201810682469 A CN 201810682469A CN 110647899 A CN110647899 A CN 110647899A
Authority
CN
China
Prior art keywords
sequence
distance
neighborhood
data
multilayer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810682469.6A
Other languages
English (en)
Inventor
闫壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangdong Shenma Search Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shenma Search Technology Co Ltd filed Critical Guangdong Shenma Search Technology Co Ltd
Priority to CN201810682469.6A priority Critical patent/CN110647899A/zh
Publication of CN110647899A publication Critical patent/CN110647899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种基于多层邻域划分的异常检验方法和装置,方法包括:获取待检测数据集中的多个数据点;根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列;根据多层邻域序列对数据点进行异常检验。本发明通过对每个数据点构建有序距离序列,利用自动化划分多层邻域的方式,得到表征数据点异常度的多层邻域序列,并根据多层邻域序列即可实现对数据点的异常检验,有效地解决了现有技术中存在的难以找到群体异常点、参数敏感的问题,可以有效地找到全局中规模小、密度大、远离多数点的群体异常点。

Description

基于多层邻域划分的异常检验方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多层邻域划分的异常检验方法和装置。
背景技术
异常检测是数据挖掘的一个重要方向,目标是找出数据中“非预期”的模式。例如,在信用卡交易数据中找到欺诈交易,在网络流量中找到攻击流量,内容社区中找出垃圾内容等,都需要异常检测的技术。导致异常的原因有很多,其中,最常见的是异常点与其他个体来自不同的数据源,如网络中非法入侵的流量与正常流量就是两类;盗刷信用卡的用户与正常使用的用户也是两类人;此外,正态分布也会导致异常点出现,如正态分布下会有少数点偏离均值过远。
另外,根据数据类型和解决问题的不同,异常检测使用的方法和针对的对象也不同。有些问题中,需要找出单个个体在全局中的异常,如信用卡欺诈问题中,找出单个欺诈用户;有些问题中,需要找出异常的群体,如网络流量分布式攻击时,找出一批攻击的源IP;有的问题涉及情景和上下文,需要根据不同的条件、时间、空间等,找出异常的点,如找出股票价格序列中异常的时间点,或者,在地理勘测时,根据不同的气候水文条件判断环境变异等。
对于上述前两类问题,现有技术中常用的思路是先计算距离和密度,而后找出“稀疏”和“远”的点,其中,最常用的算法是局部离群因子(Local Outlier Factor,简称LOF)算法,它是一种基于密度的异常检验算法,具体的,首先,通过定义邻域距离k、两点间可达距离,而后,比较点p的密度与它的邻域的密度,计算出一个点的“局部可达密度”,该值可以表示点p的异常程度。
然而,上述类似于LOF的基于距离和密度的方法具有一定的局限性,具体的,1)难以找到群体异常点,因为LOF等算法需要初始化指定一个圈定邻域的参数k和ε,而群体的大小是无法确定的,参数k和ε固定会使得群体异常被漏掉;2)参数敏感,参数k和ε直接影响异常度的计算,当数据分布改变,旧的参数会使异常检测迅速变得不准,需要人工不断的调参,增加了用户操作的复杂程度。
发明内容
本发明实施例提供了一种基于多层邻域划分的异常检验方法和装置,用以解决现有技术中存在的难以找到群体异常点、参数敏感的问题。
本发明实施例第一方面提供了一种基于多层邻域划分的异常检验方法,包括:
获取待检测数据集中的多个数据点;
根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列;
根据所述多层邻域序列对所述数据点进行异常检验。
如上所述的方法,根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列,包括:
获得所述有序距离序列中的多个距离转折点;
根据所述距离转折点确定所述多层邻域以及所述多层邻域序列。
如上所述的方法,根据所述距离转折点确定所述多层邻域序列,包括:
获取所述距离转折点的序列位置和转折距离;
根据所述序列位置和转折距离确定所述多层邻域序列。
如上所述的方法,根据所述多层邻域序列对所述数据点进行异常检验,包括:
将所述多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;
若所述序列位置小于所述序列阈值位置,且所述转折距离大于所述转折阈值距离,则确定所述数据点为异常数据点;或者,
若所述序列位置大于或等于所述序列阈值位置,和/或,所述转折距离小于或等于所述转折阈值距离,则确定所述数据点为正常数据点。
如上所述的方法,所述根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列,包括:
获取所述数据点的数据类型;
根据所述数据类型确定所述数据点与所述待检测数据集中的其他数据点之间的距离类型;
根据所述距离类型确定所述数据点的有序距离序列。
如上所述的方法,所述数据类型包括以下至少之一:多维连续数值型、离散型、定长序列;
所述距离类型包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
如上所述的方法,所述有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,所述预设规则包括:从大到小规则、从小到大规则。
本发明实施例第二方面提供了一种基于多层邻域划分的异常检验装置,包括:
获取模块,用于获取待检测数据集中的多个数据点;
确定模块,用于根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
处理模块,用于根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列;
检验模块,用于根据所述多层邻域序列对所述数据点进行异常检验。
如上所述的装置,所述处理模块,用于:
获得所述有序距离序列中的多个距离转折点;
根据所述距离转折点确定所述多层邻域以及所述多层邻域序列。
如上所述的装置,所述处理模块,用于:
获取所述距离转折点的序列位置和转折距离;
根据所述序列位置和转折距离确定所述多层邻域序列。
如上所述的装置,所述检验模块,用于:
将所述多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;
若所述序列位置小于所述序列阈值位置,且所述转折距离大于所述转折阈值距离,则确定所述数据点为异常数据点;或者,
若所述序列位置大于或等于所述序列阈值位置,和/或,所述转折距离小于或等于所述转折阈值距离,则确定所述数据点为正常数据点。
如上所述的装置,所述确定模块,用于:
获取所述数据点的数据类型;
根据所述数据类型确定所述数据点与所述待检测数据集中的其他数据点之间的距离类型;
根据所述距离类型确定所述数据点的有序距离序列。
如上所述的装置,所述数据类型包括以下至少之一:多维连续数值型、离散型、定长序列;
所述距离类型包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
如上所述的装置,所述有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,所述预设规则包括:从大到小规则、从小到大规则。
本发明实施例第三方面提供了一种基于多层邻域划分的异常检验终端,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一方面所述的一种基于多层邻域划分的异常检验方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行以实现如上述第一方面所述的一种基于多层邻域划分的异常检验方法。
本发明实施例提供的基于多层邻域划分的异常检验方法和装置,通过对每个数据点构建有序距离序列,利用一种自动化划分多层邻域的方式,得到表征数据点异常度的多层邻域序列,并根据多层邻域序列即可实现对数据点的异常检验,有效地解决了现有技术中存在的难以找到群体异常点、参数敏感的问题,可以有效地找到全局中规模小、密度大、远离多数点的群体异常点,进而保证了该异常检验方法使用的稳定可靠性,有利于市场的推广与应用。
附图说明
图1是本发明实施例提供的一种基于多层邻域划分的异常检验方法的流程示意图;
图2为本发明实施例提供的根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列的流程示意图;
图3为本发明实施例提供的根据所述距离转折点确定所述多层邻域序列的流程示意图;
图4为本发明实施例提供的根据所述多层邻域序列对所述数据点进行异常检验的流程示意图;
图5为本发明实施例提供的根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列的流程示意图;
图6为本发明具体应用实施例提供的利用LOF算法进行异常检验的效果示意图;
图7为本发明具体应用实施例提供的利用本申请中的异常检验方法进行异常检验的效果示意图;
图8为本发明实施例提供的一种基于多层邻域划分的异常检验装置的结构示意图;
图9为本发明实施例提供的一种基于多层邻域划分的异常检验终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1是本发明实施例提供的一种基于多层邻域划分的异常检验方法的流程示意图;参考附图1所示,本实施例提供了一种基于多层邻域划分的异常检验方法,该方法可以找到一批数据或者数据集合中的个体异常点和群体异常点,具体的,该方法可以包括:
S101:获取待检测数据集中的多个数据点;
其中,多个数据点是指至少两个以上的数据点,而该数据点包括正常数据点和异常数据点;另外,本实施例对于多个数据点的具体获取方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:待检测数据集中的数据点可以通过用户输入或者直接采集的方式来获取,只要能够保证能够准确地获取数据点即可,在此不再赘述。
S102:根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,预设规则包括:从大到小规则、从小到大规则;其中,距离是指两个向量之间的距离,其具有多种定义方式,在此不再说明。
需要说明的是,本实施例中对于预设规则的具体形式并不限于以上所例举的两种方式,本领域技术人员还可以根据设计需求将预设规则设置为其他形式,例如:预设规则还可以包括:从大到小再到大规则,或者从小到大再到小规则等等,只要能够不影响对数据点的分析处理,且所形成的距离序列为有序距离序列即可,在此不再赘述。
S103:根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列;
在获取到有序距离序列之后,可以对有序距离序列进行分析处理,例如,可以获取都有序距离序列的转折点,根据转折点将有序距离序列划分为多层邻域,并确定多层邻域相对应的多层邻域序列,其中,邻域是指与一个向量距离较近的其他向量所构成的空间。当然的,本领域技术人员也可以采用其他的分析处理方式来确定多层邻域和多层邻域序列,例如,可以将有序距离序列划分为不同的距离等级,根据所划分的距离等级来确定多层邻域和多层邻域序列等等。
S104:根据多层邻域序列对数据点进行异常检验。
在获取到多层邻域序列之后,可以对多层邻域序列进行分析处理,具体的,可以将多层邻域序列与预先设置的阈值进行分析比较,根据比较结果即可判断出数据点是否为异常点,从而实现了对数据点进行异常检测的功能。
本实施例提供的基于多层邻域划分的异常检验方法,通过对每个数据点构建有序距离序列,利用一种自动化划分多层邻域的方式,得到表征数据点异常度的多层邻域序列,并根据多层邻域序列即可实现对数据点的异常检验,有效地解决了现有技术中存在的难以找到群体异常点、参数敏感的问题,可以有效地找到全局中规模小、密度大、远离多数点的群体异常点,进而保证了该异常检验方法使用的稳定可靠性,有利于市场的推广与应用。
图2为本发明实施例提供的根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列的流程示意图;图3为本发明实施例提供的根据距离转折点确定多层邻域序列的流程示意图;在上述实施例的基础上,继续参考附图2-3可知,本实施例对于确定多层邻域序列的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列可以包括:
S1031:获得有序距离序列中的多个距离转折点;
其中,距离转折点是指与数据点的距离发生转折的其他数据点,而有序距离序列中可以包括两个及两个以上的距离转折点。
S1032:根据距离转折点确定多层邻域以及多层邻域序列。
在确定距离转折点之后,可以根据距离转折点将有序距离序列进行划分,进而可以得到多层邻域;另外,本实施例对于确定多层邻域序列的具体实现过程不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,根据距离转折点确定多层邻域序列可以包括:
S10321:获取距离转折点的序列位置和转折距离;
S10322:根据序列位置和转折距离确定多层邻域序列。
在获取到距离转折点(邻域划分点)的序列位置和转折距离之后,可以将序列位置和转折距离进行组合,构成一个数据点近似唯一的编码序列二元组,该编码序列二元组即为多层邻域序列。
通过上述方式获取到多层邻域序列,有效地保证了多层邻域序列获取的精准可靠性,并且该多层邻域序列的获取过程中的参数较为固定,有效地解决了现有技术中因参数敏感而导致的异常检测不准确的问题,进一步提高了该异常检验方法使用的准确可靠性。
图4为本发明实施例提供的根据多层邻域序列对数据点进行异常检验的流程示意图,在上述实施例的基础上,继续参考附图4可知,本实施例对于根据多层邻域序列对数据点进行异常检验的具体实现过程不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的根据多层邻域序列对数据点进行异常检验可以包括:
S1041:将多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;
S1042:若序列位置小于序列阈值位置,且转折距离大于转折阈值距离,则确定数据点为异常数据点;或者,
S1043:若序列位置大于或等于序列阈值位置,和/或,转折距离小于或等于转折阈值距离,则确定数据点为正常数据点。
具体的,多层邻域序列中可以包括序列位置s和转折距离d两个指标,在获取到s和d之后,可以分别对s和d进行分析处理,具体的,将s与序列阈值位置S进行分析比较,将d与转折阈值距离D进行分析比较,当s<S,确d>D时,判断数据点为异常数据点,否则,数据点即为正常数据点。
其中,序列阈值位置和转折阈值距离为预先设置的,本实施例对于具体的数值范围不做限定,本领域技术人员可以根据多层邻域序列的情况以及所选择的距离函数来确定具体的序列阈值位置和转折阈值距离。
通过上述方式实现数据点的异常检验,有效地保证了检验的灵活可靠性,进一步提高了该方法使用的精确程度。
图5为本发明实施例提供的根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列的流程示意图;在上述实施例的基础上,继续参考附图5可知,本实施例对于确定有序距离序列的具体实现过程不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列可以包括:
S1021:获取数据点的数据类型;
其中,数据类型可以包括以下至少之一:多维连续数值型、离散型、定长序列。
S1022:根据数据类型确定数据点与待检测数据集中的其他数据点之间的距离类型;
其中,距离类型可以包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
S1023:根据距离类型确定数据点的有序距离序列。
在获取到距离类型之后,可以根据数据点与待检测数据集中的其他数据点之间的位置来确定该数据点的有序距离序列,从而有效地保证了有序距离序列确定的准确性,并且还拓展了该方法的适用范围。
具体应用时,为了找出一批数据中的个体异常和群体异常点,需要通过计算数据点的距离和密度,得到异常度。本具体应用实施例提供的异常检验方法,通过对每个数据点构建有序距离序列,并利用一种自动化划分多层邻域的方法,得到表征数据点异常度的多层邻域编码结构(多层邻域序列),然后将该编码结构转换成带置信度的异常度,通过阈值的方式控制异常点的规模。
具体的步骤如下:
步骤1:每个数据点的有序距离序列计算
多层邻域划分针对的计算对象是每个数据点的有序距离序列,即对于一个待检测数据集(样本集),数据点p与样本集中其他点的距离从小到大排列,其中,距离可以是欧氏距离、余弦距离等,也可以自定义距离,具体的数据类型可以取决于数据的形式。通常情况下:若数据是多维连续数值型,一般使用欧氏距离或余弦距离;若是离散型,一般使用杰卡德jaccard距离;若是定长序列,一般使用海明距离。
步骤2:距离转折点检测
步骤1得到样本集中每个数据点p的有序距离序列后,需要对该有序距离序列进行划分,得到多层邻域。划分的方法是寻找距离转折点,即与数据点p的距离发生转折的点,可以认为该点以内是数据点的一个邻域。
假设每个数据点的有序距离序列有多个距离转折点,找到之后即可划分出多层邻域。取每个距离转折点(邻域划分点)的序列位置和转折距离,即可得到一个样本点近似唯一的编码,即获取到了多层邻域序列;设每个有序距离序列为y1n=(y1,y2,…yn),其中,有m个距离转折点T1m=(T1,T2…Tm),则距离转折点检测的具体步骤如下:
步骤2.1:检测问题定义
为了确定距离转折点,采用假设检验的方法,对有序距离序列中每一个点,假设该点前后的两个子序列的统计量(均值、方差)未发生显著改变,作为原假设。构造检验统计量T,按照一定的置信度α,计算检验统计量是否超过预设临界值,从而决定接受或拒绝原假设。其中,定义的检验条件如下:
C(y1:t)+C(y(t+1):n)+B<C(y1:n);
其中,C(y1:t)是对序列1:t的统计量函数,B是惩罚项,用于控制模型的复杂度。
上述过程是判断单个点是否为转折点的检验条件,在采用上述方式来获取距离转折点时,实现的效果全局最优;然而,当需要找m个点,如果逐个检验的话,需要做
Figure BDA0001710924290000117
次,在大数据量上几乎不可完成,需要暴力搜索,效率很低,现实中不可用。所以将问题定义为:
找到m个距离转折点,使得
Figure BDA0001710924290000111
最小,其中,βf(m)是正则项,f(m)是关于转折点个数m的一个惩罚函数,用来控制m的大小,m越大,损失就越大,这样能确保m尽可能少;β是正则化系数,是用户指定的超参数,用来控制正则化的力度,通过上述公式,可以将假设检验的问题转换为最优化问题。
步骤2.2:损失函数定义
根据步骤2.1,需要定义损失统计量函数
Figure BDA0001710924290000112
根据检测的转折统计量(均值、方差)的不同,也不一样。对于检测距离序列转折,需要检测的是均值转折,所以
Figure BDA0001710924290000114
定义如下:
Figure BDA0001710924290000115
其中,yi是指子序列,t1是指子序列的起始位置,t2是指子序列的停止位置,std是整个序列的方差。
步骤2.3:最优化
为了找到使得步骤2.1中的损失函数最小,需要在1:n个数据点中搜索出m个数据点。如果要实现全局最优,暴力搜索需要
Figure BDA0001710924290000116
次,复杂度过高,采用优化划分的思路,求出近似最优。
从最后一个点开始,向前搜索做最优化。具体步骤如下:
对于数据y1:s,令F(s)为损失函数最小化,可能的转折点序列为Ts{t:0=t0<t1<t2<…tm<tm+1=s},F(s)可推导如下:
Figure BDA0001710924290000121
以上过程是一个递推式,可以逐步向前递推,从而求解。
步骤2.4:生成多层邻域序列
通过步骤2.3,可以得到近似最优的转折点位置序列T1:m=(T1,T2…Tm),将该序列整合成一定的规范,消除样本集大小造成的量纲偏差。消除方式是将点位置除以样本集大小n,做一个简单的归一化。
得到的多层邻域序列如下:
Figure BDA0001710924290000122
步骤3:异常判定
按照一定的阈值(预设阈值)去扫描每个点的多层邻域序列。根据选择的距离函数不同,判定阈值有不同的规则。判定规则组合了序列位置s和转折距离d两个指标,取s小于某个序列阈值位置,d大于某个转折阈值距离的数据点,判定为异常点。
需要注意的是,还可以根据置信度,选择全局k%,如0.5%,1%,5%等,作为s的序列阈值位置,然后计算该置信度下,所有转折距离d的top k%作为d的转折阈值距离。
用二维仿真数据来评估,利用LOF算法实现的异常检验效果如图6所示,使用本实施例中的方法实现的异常检验效果如图7所示,其中,附图中的“+”为待检测数据集中的多个数据点,附图中的“◇”为异常数据点,由图6可知,经过LOF算法所检测出的异常数据点较为集中,基本分布在同一个小区域范围内,并且该区域范围距离待检测数据集中的集中区域较远,无法确定群体异常点;而由图7可知,经过本申请中的异常检验算法所检测出的异常数据点较为分散,可以将群体异常点和个体异常点均检测出来,从而可知,在异常群体挖掘的效果上,本申请提供的异常检验方法要好于LOF算法。
本实施例提供的异常检验方法,能够有效地解决传统算法不能很好的发现群体异常的问题,可以很好的找到全局中规模小、密度大、远离多数点的群体异常点,能够推动很多问题的解决,进而保证了该异常检验方法的实用性,有利于市场的推广与应用。
图8为本发明实施例提供的一种基于多层邻域划分的异常检验装置的结构示意图,参考附图8所示,本实施例的另一方面提供了一种基于多层邻域划分的异常检验装置,该异常检验装置可以执行上述的异常检验方法,具体的,该装置可以包括:
获取模块1,用于获取待检测数据集中的多个数据点;
确定模块2,用于根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
其中,有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,预设规则包括:从大到小规则、从小到大规则。
处理模块3,用于根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列;
检验模块4,用于根据多层邻域序列对数据点进行异常检验。
本实施例对于获取模块1、确定模块2、处理模块3以及检验模块4的具体形状结构不做限定,本领域技术人员可以根据其实现的功能作用对其进行任意设置,在此不再赘述;另外,本实施例中获取模块1、确定模块2、处理模块3以及检验模块4所实现的操作步骤的具体实现过程以及实现效果与上述实施例中步骤S101-S104的具体实现过程以及实现效果相同,具体可参考上述陈述内容,在此不再赘述。
本实施例提供的基于多层邻域划分的异常检验装置,通过确定模块2对每个数据点构建有序距离序列,处理模块3利用一种自动化划分多层邻域的方式,得到表征数据点异常度的多层邻域序列,检验模块4根据多层邻域序列即可实现对数据点的异常检验,有效地解决了现有技术中存在的难以找到群体异常点、参数敏感的问题,可以有效地找到全局中规模小、密度大、远离多数点的群体异常点,进而保证了该异常检验装置使用的稳定可靠性,有利于市场的推广与应用。
在上述实施例的基础上,继续参考附图8可知,本实施例对于确定多层邻域序列的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,在处理模块3根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列时,该处理模块3可以用于执行以下步骤:
获得有序距离序列中的多个距离转折点;根据距离转折点确定多层邻域以及多层邻域序列。
其中,在处理模块3根据距离转折点确定多层邻域序列时,该处理模块3可以具体用于执行:获取距离转折点的序列位置和转折距离;根据序列位置和转折距离确定多层邻域序列。
在上述实施例的基础上,继续参考附图8可知,本实施例对于根据多层邻域序列对数据点进行异常检验的具体实现过程不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,在检验模块4根据多层邻域序列对数据点进行异常检验时,该检验模块4可以用于执行:将多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;若序列位置小于序列阈值位置,且转折距离大于转折阈值距离,则确定数据点为异常数据点;或者,若序列位置大于或等于序列阈值位置,和/或,转折距离小于或等于转折阈值距离,则确定数据点为正常数据点。
进一步的,在确定模块2根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列时,该确定模块2可以用于执行:获取数据点的数据类型;根据数据类型确定数据点与待检测数据集中的其他数据点之间的距离类型;根据距离类型确定数据点的有序距离序列。
其中,数据类型包括以下至少之一:多维连续数值型、离散型、定长序列;距离类型包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
本实施例提供的基于多层邻域划分的异常检验装置能够用于执行图2-图7实施例所对应的方法,其具体执行方式和有益效果类似,在这里不再赘述。
本实施例的另一方面提供了一种基于多层邻域划分的异常检验终端,包括:
存储器;
处理器;以及
计算机程序;
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如上述的一种基于多层邻域划分的异常检验方法。
具体的,图9为本发明实施例提供的一种基于多层邻域划分的异常检验终端的结构示意图。
如图9所示,异常检验终端800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制异常检验终端800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在异常检验终端800的操作。这些数据的示例包括用于在异常检验终端800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为异常检验终端800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为异常检验终端800生成、管理和分配电力相关联的组件。
多媒体组件808包括在异常检验终端800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当异常检验终端800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为异常检验终端800提供各个方面的状态评估。例如,传感器组件814可以检测到异常检验终端800的打开/关闭状态,组件的相对定位,例如组件为异常检验终端800的显示器和小键盘,传感器组件814还可以检测异常检验终端800或异常检验终端800一个组件的位置改变,用户与异常检验终端800接触的存在或不存在,异常检验终端800方位或加速/减速和异常检验终端800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括摄像头组件,摄像头可采用如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于异常检验终端800和其他设备之间有线或无线方式的通信。异常检验终端800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,异常检验终端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
本发明实施例另一方面提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现上述的一种基于多层邻域划分的异常检验终端方法。
最后需要说明的是,本领域普通技术人员可以理解上述实施例方法中的全部或者部分流程,是可以通过计算机程序来指令相关的硬件完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可以为磁盘、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
本发明实施例中的各个功能单元可以集成在一个处理模块中,也可以是各个单元单独的物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。上述提到的存储介质可以是只读存储器、磁盘或光盘等。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种基于多层邻域划分的异常检验方法,其特征在于,包括:
获取待检测数据集中的多个数据点;
根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列;
根据所述多层邻域序列对所述数据点进行异常检验。
2.根据权利要求1所述的方法,其特征在于,根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列,包括:
获得所述有序距离序列中的多个距离转折点;
根据所述距离转折点确定所述多层邻域以及所述多层邻域序列。
3.根据权利要求2所述的方法,其特征在于,根据所述距离转折点确定所述多层邻域序列,包括:
获取所述距离转折点的序列位置和转折距离;
根据所述序列位置和转折距离确定所述多层邻域序列。
4.根据权利要求3所述的方法,其特征在于,根据所述多层邻域序列对所述数据点进行异常检验,包括:
将所述多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;
若所述序列位置小于所述序列阈值位置,且所述转折距离大于所述转折阈值距离,则确定所述数据点为异常数据点;或者,
若所述序列位置大于或等于所述序列阈值位置,和/或,所述转折距离小于或等于所述转折阈值距离,则确定所述数据点为正常数据点。
5.根据权利要求1所述的方法,其特征在于,所述根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列,包括:
获取所述数据点的数据类型;
根据所述数据类型确定所述数据点与所述待检测数据集中的其他数据点之间的距离类型;
根据所述距离类型确定所述数据点的有序距离序列。
6.根据权利要求5所述的方法,其特征在于,
所述数据类型包括以下至少之一:多维连续数值型、离散型、定长序列;
所述距离类型包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
7.根据权利要求1-6中任意一项所述的方法,其特征在于,所述有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,所述预设规则包括:从大到小规则、从小到大规则。
8.一种基于多层邻域划分的异常检验装置,其特征在于,包括:
获取模块,用于获取待检测数据集中的多个数据点;
确定模块,用于根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;
处理模块,用于根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列;
检验模块,用于根据所述多层邻域序列对所述数据点进行异常检验。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,用于:
获得所述有序距离序列中的多个距离转折点;
根据所述距离转折点确定所述多层邻域以及所述多层邻域序列。
10.根据权利要求9所述的装置,其特征在于,所述处理模块,用于:
获取所述距离转折点的序列位置和转折距离;
根据所述序列位置和转折距离确定所述多层邻域序列。
11.根据权利要求10所述的装置,其特征在于,所述检验模块,用于:
将所述多层邻域序列中的序列位置和转折距离分别与预先设置的序列阈值位置和转折阈值距离进行分析比较;
若所述序列位置小于所述序列阈值位置,且所述转折距离大于所述转折阈值距离,则确定所述数据点为异常数据点;或者,
若所述序列位置大于或等于所述序列阈值位置,和/或,所述转折距离小于或等于所述转折阈值距离,则确定所述数据点为正常数据点。
12.根据权利要求8所述的装置,其特征在于,所述确定模块,用于:
获取所述数据点的数据类型;
根据所述数据类型确定所述数据点与所述待检测数据集中的其他数据点之间的距离类型;
根据所述距离类型确定所述数据点的有序距离序列。
13.根据权利要求12所述的装置,其特征在于,
所述数据类型包括以下至少之一:多维连续数值型、离散型、定长序列;
所述距离类型包括以下至少之一:欧氏距离、余弦距离、杰卡德距离、海明距离、自定义距离。
14.根据权利要求8-13中任意一项所述的装置,其特征在于,所述有序距离序列为待检测数据集中的数据点与其他数据点的距离按照预设规则进行排列的序列,所述预设规则包括:从大到小规则、从小到大规则。
CN201810682469.6A 2018-06-27 2018-06-27 基于多层邻域划分的异常检验方法和装置 Pending CN110647899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810682469.6A CN110647899A (zh) 2018-06-27 2018-06-27 基于多层邻域划分的异常检验方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810682469.6A CN110647899A (zh) 2018-06-27 2018-06-27 基于多层邻域划分的异常检验方法和装置

Publications (1)

Publication Number Publication Date
CN110647899A true CN110647899A (zh) 2020-01-03

Family

ID=68988891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810682469.6A Pending CN110647899A (zh) 2018-06-27 2018-06-27 基于多层邻域划分的异常检验方法和装置

Country Status (1)

Country Link
CN (1) CN110647899A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置
CN115238223A (zh) * 2022-09-23 2022-10-25 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置
CN115238223A (zh) * 2022-09-23 2022-10-25 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统
CN115238223B (zh) * 2022-09-23 2022-12-23 江苏泰恩特环境技术有限公司 一种风冷模块机的健康检测方法及系统

Similar Documents

Publication Publication Date Title
US20210012143A1 (en) Key Point Detection Method and Apparatus, and Storage Medium
CN108629354B (zh) 目标检测方法及装置
US20150242699A1 (en) Method and device for detecting straight line
US8879803B2 (en) Method, apparatus, and computer program product for image clustering
US11455491B2 (en) Method and device for training image recognition model, and storage medium
EP2960823A1 (en) Method, device and system for managing authority
KR20150117202A (ko) 클러스터링 방법, 관련 장치, 프로그램 및 기록매체
US9633444B2 (en) Method and device for image segmentation
CN105335684B (zh) 人脸检测方法及装置
CN109522937B (zh) 图像处理方法及装置、电子设备和存储介质
US20150373024A1 (en) Methods, devices and systems for managing authority
CN113569992B (zh) 异常数据识别方法及装置、电子设备和存储介质
EP2919136A1 (en) Method and device for clustering
CN110647899A (zh) 基于多层邻域划分的异常检验方法和装置
CN112884040B (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN107423757B (zh) 聚类处理方法及装置
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN111797746A (zh) 人脸识别方法、装置及计算机可读存储介质
CN113590605B (zh) 数据处理方法、装置、电子设备及存储介质
CN115565103A (zh) 一种动态目标检测方法、装置、计算机设备及存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN114008658A (zh) K线形态的识别方法及电子设备
US20150262033A1 (en) Method and terminal device for clustering
CN112749668A (zh) 目标图像的聚类方法、装置、电子设备和计算机可读介质
CN115984783B (zh) 人群计数方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200417

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01

Applicant before: Guangdong Shenma Search Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103