CN107292350A - 大规模数据的异常检测方法 - Google Patents

大规模数据的异常检测方法 Download PDF

Info

Publication number
CN107292350A
CN107292350A CN201710660033.2A CN201710660033A CN107292350A CN 107292350 A CN107292350 A CN 107292350A CN 201710660033 A CN201710660033 A CN 201710660033A CN 107292350 A CN107292350 A CN 107292350A
Authority
CN
China
Prior art keywords
data
hyperplane
isolation
twin
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710660033.2A
Other languages
English (en)
Inventor
罗光春
殷光强
田玲
闫科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710660033.2A priority Critical patent/CN107292350A/zh
Publication of CN107292350A publication Critical patent/CN107292350A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大规模数据的异常检测方法,包括:A.数据预处理和特征提取;B.基于孪生支持向量机的超平面计算,构造出划分数据空间的超平面标准函数;C.形成隔离树:通过孪生支持向量机的超平面的划分标准,建立一棵隔离树;D.形成隔离森林:重复步骤C,构建多个隔离树形成隔离森林;E.遍历隔离森林计算异常得分:通过待异常检测的数据对隔离森林的遍历,计算出异常得分作为评判异常程度的标准,并根据所述标准判断原始数据中是否存在异常数据。本发明能够有效减少检测的数据量,降低了其计算的工作量,并且在提高异常检测准确率的同时没有显著增加时间消耗,大幅度提高了对高维数据时候的异常检测性能。

Description

大规模数据的异常检测方法
技术领域
本发明涉及数据挖掘的方法,具体的讲是大规模数据的异常检测方法。
背景技术
异常检测指的是通过相应的技术手段发现与寻找那些明显有别于其他大多数数据的数据对象。通常而言,这些数据相比于正常数据都非常少。异常检测的对象被称为异常点,或者孤立点、离群点。虽然这些数据往往藏匿于正常数据之间,不能直接发现,但是这些数据背后可能隐藏着很重要的信息,有着很大的研究价值。1980年Hawkins首次将异常点定义成一种明显异于其他值而使人质疑它是否因不同的、未知的机制而产生。从此异常点不再是数据挖掘领域的噪声,不再是预处理阶段需要抛弃的数据。随着近三十年的发展,异常检测领域涌现出了各种不同的、基于不同机制的检测算法。
根据数据输入的类型可以分为点数据检测,时空数据检测;根据监督性可以分为有监督、无监督和半监督算法;根据异常点类型可以分为点异常、簇异常、上下文异常检测算法;根据异常得分输出类型可以分为数值型和标签型。根据算法不同,现有的最常用的异常检测算法主要分为四大类,分别是基于统计的、基于聚类的、基于距离和基于密度的异常检测算法。
近几年有学者提出了基于隔离的异常检测算法IFOREST,这种算法基于重心估计理论,主要思想是通过随机选择特征来划分数据空间,最终训练出一棵二叉树作为基分类器,之后引入了集成学习的方法将弱分类器升级为强分类器。在异常检测的过程中,测试数据遍历基分类器将数据落点离根节点的距离作为路径长度,通常来说路径长度越短数据越异常。之后又有学者提出了基于IFOREST算法的异常检测算法SCIFOREST,这种算法提出了一种划分数据的随机超平面函数作为数据空间划分标准。但是由于SCIFOREST算法仅仅考虑和测试了实验数据,在实际工作当中,在面对不平衡、混合、高维的大规模数据环境下算法检测性能不佳,容易受到复杂数据的影响。
发明内容
本发明提供了一种大规模数据的异常检测方法,以提高异常检测的准确率,以及提高在对高维数据时候的异常检测性能。
本发明的大规模数据的异常检测方法,包括:
A.数据预处理和特征提取:对原始数据进行必要的数据预处理,得到预处理后的数据集和样本子集,对预处理过后的数据进行特征提取;
B.基于孪生支持向量机(TWSVM)的超平面计算,构造出划分数据空间的超平面标准函数,根据所述的超平面标准函数进行超平面选择;
C.形成隔离树:通过孪生支持向量机的超平面的划分标准,建立一棵隔离树;
D.形成隔离森林:重复执行步骤C,构建多个隔离树形成隔离森林;
E.遍历隔离森林计算异常得分:通过待异常检测的数据对隔离森林的遍历,计算出异常得分作为评判异常程度的标准,并根据所述标准判断原始数据中是否存在异常数据。
具体的,步骤A中所述的数据预处理包括数据集成,数据归约和数据清洗,所述的特征提取包括:
A1.数据重采样:通过预先设定的正负类比例将预处理后的数据的样本平衡化,降低负类样本对特征提取的影响;
A2.信息增益率的计算:通过多个样本子集的数据计算特征的信息增益率,将计算结果排序形成多个特征集合;
A3.特征子空间选择:通过将上述多个特征集合进行汇总形成特征总集,并根据预设的特征数量选择出信息增益率最大的特征。
具体的步骤B包括:
B1.随机无放回采样:根据预设的特征数量和预处理后的数据的样本子集的大小,对预处理后的数据和特征进行随机无放回采样形成多个不同特征子空间下的样本子集;
B2.数据归一化:通过Z-score(Z分数)表转化方法,利用原始数据的均值和标准差进行数据归一化,使处理后的数据属于标准正态分布;
B3.孪生支持向量机的参数优化:采用遗传算法对孪生支持向量机算法进行参数优化;
B4.计算孪生超平面:基于孪生支持向量机,计算出两个非平行的超平面函数;
B5.选择超平面:在孪生非平行超平面函数中选择角平分面作为新的超平面。
在此基础上,步骤B3中所述的对孪生支持向量机算法进行参数优化包括:种群初始化、设置适应度函数和设置算法终止条件。
具体的,步骤C包括:
C1.随机无放回采样:通过对步骤A中经过数据预处理但是未经过特征提取的待测试数据进行无放回采样,形成多个样本子集;
C2.初始化隔离树;
C3.随机选择特征:根据预设的数量值随机选择特征,并在这些特征子空间下根据步骤B计算出基于孪生支持向量机的超平面作为划分数据空间的超平面标准函数;
C4.划分数据空间:将步骤C1得到的样本子集分别代入所述的超平面函数中,根据计算结果分别判断各数据点属于左子树或右子树;
C5.返回节点信息:循环步骤C3和C4,直到数据划分结束,使所有的训练数据都分布在隔离树中,完成隔离树的构建。
具体的,步骤D包括:
D1.随机无放回采样:根据预设的森林规模和步骤A得到的样本子集的规模,对数据集进行随机无放回采样;
D2.构建隔离森林:通过对不同样本集采用相同的隔离树构建方法,形成具有多样性的隔离森林。
具体的,步骤E包括:
E1.遍历隔离树:通过待异常检测的数据对所有隔离树进行遍历,得到各测试数据在隔离树中的位置,计算出测试数据的路径长度;
E2.路径长度归一化:通过归一化公式将计算出的路径长度归一化;
E3.判断异常数据:将测试数据遍历整个森林后得到的所有异常得分做均值,通过直接投票模型计算出所述均值的异常得分,根据异常得分判断出原始数据中是否有异常点。
本发明的大规模数据的异常检测方法,有效减少了检测的数据量,降低了其计算的工作量,并且在提高异常检测准确率的同时没有显著增加时间消耗,大幅度提高了对高维数据时候的异常检测性能。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明大规模数据的异常检测方法的流程图。
具体实施方式
如图1所示本发明大规模数据的异常检测方法,包括:
A.数据预处理和特征提取:对原始数据进行必要的数据预处理,包括数据集成,数据归约和数据清洗,进而得到预处理后的数据集和样本子集。然后对预处理过后的数据进行特征提取,包括:
A1.数据重采样:通过预先设定的正负类比例将预处理后的数据的样本平衡化,降低负类样本对特征提取的影响;
A2.信息增益率的计算:通过多个样本子集的数据计算特征的信息增益率,将计算结果排序形成多个特征集合;其中计算特征的信息增益率的方法为:
假设数据集为D,特征为Ai(i=1,...,k),首先计算计算D的墒H(D),其计算公式为:其中训练数据集总个数是|D|,某个特征分类的个数为|Ck|,则某个分类的概率为|Ck|/|D|,特征为Ai(i=1,...,k),K表示了不同的特征,K的取值范围为1到k。然后根据古典概率算法计算选定的特征Ai的条件墒表示选定的特征Ai的条件墒H(D|Ai),其中根据特征Ai将D划分为n个子集D1,D2...Dn。记Di中属于Ck的样本集合为Dik,即交集。n的大小取决于数据集,对于连续数据,n的大小为样本总数N-1,对于分类数据,n的大小为样本的类别多少。最后计算特征的信息增益率:其中分母表示分裂信息度量,计算公式为:公式表示分裂信息度量,其中|S|表示数据样本总数,|Si|表示了特征A的第i个分类下的样本数量,c表示了特征A的不同取值(对于连续数据)或不同分类(对于分类数据),c的大小范围为特征A下的分类数量。重复计算得到所有特征的信息增益率。
A3.特征子空间选择:通过将上述多个特征集合进行汇总形成特征总集,并根据预设的特征数量选择出信息增益率最大的特征。
B.基于孪生支持向量机(TWSVM)的超平面计算,构造出划分数据空间的超平面标准函数,根据所述的超平面标准函数进行超平面选择。孪生支持向量机(TWSVM)的核心思想是通过构造两个超平面来进行分类,两个超平面分别代表两类样本,一类极大限度地远离另一类样本。由于它将传统的一个大规模二次规划问题转化为两个小规模的二次规划问题,因此在训练速度方面比传统支持向量机有了很大改善。而两个不平行的超平面的这种设计极有利于算法对异或问题进行处理,使其在识别率上比之前的传统支持向量机更具优势。同时孪生支持向量机拥有更快的处理时间,具有较强的鲁棒性和容错性,并且具有自学习、自适应性以及自组织性的特性。但是在面对高维数据下,其处理速度和准确率仍受较大影响。因此本发明采用了基于重采样的方式来计算特征子空间下的孪生支持向量机。
具体步骤包括:
B1.随机无放回采样:根据预设的特征数量和预处理后的数据的样本子集的大小,对预处理后的数据和特征进行随机无放回采样形成多个不同特征子空间下的样本子集;
B2.数据归一化:通过Z-score(Z分数)表转化方法,利用原始数据的均值和标准差进行数据归一化,使处理后的数据属于标准正态分布。
具体的归一化公式函数为x*=(x-μ)/σ,其中μ为未归一化数据的均值,σ为未归一化数据的标准差,x表示了一个待归一化的数据。
B3.孪生支持向量机的参数优化:采用遗传算法对孪生支持向量机算法进行参数优化,包括种群初始化、设置适应度函数和设置算法终止条件。具体的参数优化过程为:
B31.种群初始化:将遗传算法中的最大迭代次数设置为50,种群的数量设置为10,将选择概率和编译概率分别设置为0.8和0.7,将TWSVM的参数c的检索空间设置为[0,500],将高斯核函数的搜索空间设置为[0,200]。
B32.设置适应度函数:设置交叉验证分类准确率作为遗传算法的适应度函数,交叉验证折数设置为5。
B33.设置算法终止条件:本实施例中只用两种终止条件,第一种是适应度函数的值达到95%的预定值;第二种是迭代次数达到最大的50次。
B4.计算孪生超平面:基于孪生支持向量机,计算出两个非平行的超平面函数。由于异常检测是一个二分类问题,假设在Rn这样的空间中有l+个训练数据集的样本属于正类,用矩阵来表示,而有l-个训练数据集的样本属于负类,用矩阵来表示,孪生支持向量机在这两类样本上寻找两个不平行的孪生超平面f+(x)=k(x,X)w++b+=0和f-(x)=k(x,X)w-+b-=0。其中+和-分别表示了正类超平面和负类超平面。本实施例中,负类指的是异常数据。公式中,w表示超平面的法向量,x表示空间的任意向量,b表示实数。每个超平面需要本类的样本距离本类的超平面极大可能的近,而极大可能地远离它类的样本点。判断一个新的输入x∈Rn的类别需要根据这个输入与两个超平面距离的远近来断定。为了获得这两个不平行的分类超平面,通过TWSVM建立了以下最优化问题原始优化模型:
s.t-(k(X-,X)w++e-b+)+ξ-≥e-,
ξ-≥0
s.t(k(X+,X)w-+e+b-)+ξ+≥e+,
ξ+≥0
其中c1,c2>0是惩罚参数,ξ+,ξ-是松弛变量,e+,e-是分别为l+,l-维数的单位的列向量。X+表示正类数据在空间上任意向量,X-表示负类数据在空间上任意向量,X是数据在空间上任意向量。引入拉格朗日乘子向量可以获得TWSVM原始优化的对偶表达式:
s.t 0≤α≤c1e-
s.t 0≤β≤c2e+
其中H=[k(X+,X),e+],G=[k(X-,X),e-]。为了避免矩阵HTH、GTG不可逆,通常人为的将λE(λ>0)添加到TWSVM的参数中。其中E表示了单位矩阵,λ是常数。将对偶表达式中的矩阵HTH、GTG被替换为HTH+λE、GTG+λE。因此TWSVM的对偶表达式被修正为:
s.t 0≤α≤c1e-
s.t 0≤β≤c2e+
由KKT条件(Karush-Kuhn-Tucker Conditions)得出u+=-(HTH+λE)-1GTα和u-=(GTG+λE)-1HTβ。KKT条件能够保证在满足不等式约束的条件下,所优化的问题能
有最优解法。
至此,得到了两个非平行超平面函数。孪生支持向量机与本发明的关系是通过孪生支持向量机计算得到的两个非平行超平面函数,随机生成一个夹在二者之间的随机超平面作为后续算法数据划分的分割标准函数。
B5.选择超平面:在孪生非平行超平面函数中选择角平分面作为新的超平面。
C.形成隔离树:通过孪生支持向量机的超平面的划分标准,建立一棵隔离树,具体为:
C1.随机无放回采样:通过对步骤A中经过数据预处理但是未经过特征提取的待测试数据进行无放回采样,形成多个样本子集,本实施例中采样大小和集群大小两个参数分别定为256和150。
C2.初始化隔离树:隔离树是一棵满二叉树,其定义为假定T是隔离树的一个节点,那么T满足且仅能满足下面两个条件的一条:(1)T是一个叶子节点;(2)T是非叶子节点且有2个子节点(Tl,Tr)。
C3.随机选择特征:根据预设的数量值随机选择特征,并在这些特征子空间下根据步骤B计算出基于孪生支持向量机的超平面作为划分数据空间的超平面标准函数。
C4.划分数据空间:将步骤C1得到的样本子集分别代入所述的超平面函数中,如果超平面函数的计算结果小于0那么该数据点分为左子树,反之划分到右子树。如果数据空间可以划分,则根据数据将超平面函数的计算结果划分到不同的子节点中,若小于0,该数据划分到左子节点;反之,该数据划分到右子节点。划分完毕后再随机选择q个特征计算子节点的随机超平面,直到数据空间无法划分。
C5.返回节点信息:循环步骤C3和C4,直到数据划分结束,使所有的训练数据都分布在隔离树中,完成隔离树的构建。
D.形成隔离森林:重复执行步骤C,构建多个隔离树形成隔离森林,具体为:
D1.随机无放回采样:根据预设的森林规模和步骤A得到的样本子集的规模,对数据集进行随机无放回采样;
D2.构建隔离森林:通过对不同样本集采用相同的隔离树构建方法,形成具有多样性的隔离森林。
E.遍历隔离森林计算异常得分:通过测试数据对隔离森林的遍历,计算出异常得分作为评判异常程度的标准,并根据所述标准判断原始数据中是否存在异常数据。具体为:
E1.遍历隔离树:通过待异常检测的数据对所有隔离树进行遍历,得到各测试数据在隔离树中的位置,计算出测试数据的路径长度;
E2.路径长度归一化:通过归一化公式将计算出的路径长度归一化。
E3.判断异常数据:将测试数据遍历整个森林后得到的所有异常得分做均值,通过直接投票模型计算出所述均值的异常得分,如果异常得分越接近于1,那么原始数据越存在异常;反之,异常得分越接近于0,那么原始数据越不异常;如果所有数据的异常得分都在0.5附近,那么整个原始数据无异常点。

Claims (7)

1.大规模数据的异常检测方法,其特征包括:
A.数据预处理和特征提取:对原始数据进行必要的数据预处理,得到预处理后的数据集和样本子集,对预处理过后的数据进行特征提取;
B.基于孪生支持向量机的超平面计算,构造出划分数据空间的超平面标准函数,根据所述的超平面标准函数进行超平面选择;
C.形成隔离树:通过孪生支持向量机的超平面的划分标准,建立一棵隔离树;
D.形成隔离森林:重复执行步骤C,构建多个隔离树形成隔离森林;
E.遍历隔离森林计算异常得分:通过待异常检测的数据对隔离森林的遍历,计算出异常得分作为评判异常程度的标准,并根据所述标准判断原始数据中是否存在异常数据。
2.如权利要求1所述的大规模数据的异常检测方法,其特征为:步骤A中所述的数据预处理包括数据集成,数据归约和数据清洗,所述的特征提取包括:
A1.数据重采样:通过预先设定的正负类比例将预处理后的数据的样本平衡化,降低负类样本对特征提取的影响;
A2.信息增益率的计算:通过多个样本子集的数据计算特征的信息增益率,将计算结果排序形成多个特征集合;
A3.特征子空间选择:通过将上述多个特征集合进行汇总形成特征总集,并根据预设的特征数量选择出信息增益率最大的特征。
3.如权利要求1所述的大规模数据的异常检测方法,其特征为:步骤B包括:
B1.随机无放回采样:根据预设的特征数量和预处理后的数据的样本子集的大小,对预处理后的数据和特征进行随机无放回采样形成多个不同特征子空间下的样本子集;
B2.数据归一化:通过Z-score表转化方法,利用原始数据的均值和标准差进行数据归一化,使处理后的数据属于标准正态分布;
B3.孪生支持向量机的参数优化:采用遗传算法对孪生支持向量机算法进行参数优化;
B4.计算孪生超平面:基于孪生支持向量机,计算出两个非平行的超平面函数;
B5.选择超平面:在孪生非平行超平面函数中选择角平分面作为新的超平面。
4.如权利要求3所述的大规模数据的异常检测方法,其特征为:步骤B3中所述的对孪生支持向量机算法进行参数优化包括:种群初始化、设置适应度函数和设置算法终止条件。
5.如权利要求1所述的大规模数据的异常检测方法,其特征为:步骤C包括:
C1.随机无放回采样:通过对步骤A中经过数据预处理但是未经过特征提取的待测试数据进行无放回采样,形成多个样本子集;
C2.初始化隔离树;
C3.随机选择特征:根据预设的数量值随机选择特征,并在这些特征子空间下根据步骤B计算出基于孪生支持向量机的超平面作为划分数据空间的超平面标准函数;
C4.划分数据空间:将步骤C1得到的样本子集分别代入所述的超平面函数中,根据计算结果分别判断各数据点属于左子树或右子树;
C5.返回节点信息:循环步骤C3和C4,直到数据划分结束,使所有的训练数据都分布在隔离树中,完成隔离树的构建。
6.如权利要求1所述的大规模数据的异常检测方法,其特征为:步骤D包括:
D1.随机无放回采样:根据预设的森林规模和步骤A得到的样本子集的规模,对数据集进行随机无放回采样;
D2.构建隔离森林:通过对不同样本集采用相同的隔离树构建方法,形成具有多样性的隔离森林。
7.如权利要求1所述的大规模数据的异常检测方法,其特征为:步骤E包括:
E1.遍历隔离树:通过待异常检测的数据对所有隔离树进行遍历,得到各测试数据在隔离树中的位置,计算出测试数据的路径长度;
E2.路径长度归一化:通过归一化公式将计算出的路径长度归一化;
E3.判断异常数据:将测试数据遍历整个森林后得到的所有异常得分做均值,通过直接投票模型计算出所述均值的异常得分,根据异常得分判断出原始数据中是否有异常点。
CN201710660033.2A 2017-08-04 2017-08-04 大规模数据的异常检测方法 Pending CN107292350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710660033.2A CN107292350A (zh) 2017-08-04 2017-08-04 大规模数据的异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710660033.2A CN107292350A (zh) 2017-08-04 2017-08-04 大规模数据的异常检测方法

Publications (1)

Publication Number Publication Date
CN107292350A true CN107292350A (zh) 2017-10-24

Family

ID=60104445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710660033.2A Pending CN107292350A (zh) 2017-08-04 2017-08-04 大规模数据的异常检测方法

Country Status (1)

Country Link
CN (1) CN107292350A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376254A (zh) * 2018-03-21 2018-08-07 北京理工大学 融合多源特征的内部威胁人物检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109118376A (zh) * 2018-08-14 2019-01-01 平安医疗健康管理股份有限公司 医疗保险保费定价方法、装置、计算机设备和存储介质
CN109168168A (zh) * 2018-07-09 2019-01-08 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN109376381A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN109948738A (zh) * 2019-04-11 2019-06-28 合肥工业大学 涂装烘干室的能耗异常检测方法、装置及系统
CN110297469A (zh) * 2019-05-17 2019-10-01 同济大学 基于重采样的集成特征选择算法的生产线故障判断方法
CN110472188A (zh) * 2019-08-01 2019-11-19 北方工业大学 一种面向传感数据的异常模式检测方法
CN110516733A (zh) * 2019-08-23 2019-11-29 西南石油大学 一种基于改进多分类孪生支持向量机的测井岩性识别方法
WO2020010701A1 (zh) * 2018-07-11 2020-01-16 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN111046892A (zh) * 2018-10-12 2020-04-21 北京京东尚科信息技术有限公司 异常识别方法和装置
CN111125197A (zh) * 2019-12-27 2020-05-08 成都康赛信息技术有限公司 基于mic和mp的数据集异常数据处理方法
CN111563521A (zh) * 2019-02-14 2020-08-21 埃森哲环球解决方案有限公司 特定于场所的异常检测
CN111654463A (zh) * 2020-03-18 2020-09-11 中国南方电网有限责任公司 基于特征选择的支持向量机电网入侵检测系统及方法
CN111666316A (zh) * 2020-06-19 2020-09-15 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置
CN111767803A (zh) * 2020-06-08 2020-10-13 北京理工大学 合成极窄脉冲雷达抗目标姿态敏感的鉴别方法
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN112399819A (zh) * 2018-07-02 2021-02-23 3M创新有限公司 用于监测时间相关过程的传感系统和方法
CN112562771A (zh) * 2020-12-25 2021-03-26 北京邮电大学 一种基于邻域分区与隔离重构的磁盘异常检测方法
CN113033673A (zh) * 2021-03-24 2021-06-25 河南中烟工业有限责任公司 电机工况异常检测模型的训练方法及系统
CN113140054A (zh) * 2020-01-02 2021-07-20 株洲中车时代电气股份有限公司 一种列车冷却系统的异常检测方法及装置
CN113255731A (zh) * 2021-04-28 2021-08-13 枣庄学院 基于空间域转换独立树的可控中高压光机异常检测方法
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法
CN113420825A (zh) * 2021-07-07 2021-09-21 国能龙源蓝天节能技术有限公司 一种基于支持向量机的异常数据检测方法及电子设备
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376254A (zh) * 2018-03-21 2018-08-07 北京理工大学 融合多源特征的内部威胁人物检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN112399819A (zh) * 2018-07-02 2021-02-23 3M创新有限公司 用于监测时间相关过程的传感系统和方法
CN109168168A (zh) * 2018-07-09 2019-01-08 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN109168168B (zh) * 2018-07-09 2021-11-30 上海欣方智能系统有限公司 一种检测国际盗打的方法
WO2020010701A1 (zh) * 2018-07-11 2020-01-16 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN109118376A (zh) * 2018-08-14 2019-01-01 平安医疗健康管理股份有限公司 医疗保险保费定价方法、装置、计算机设备和存储介质
CN109376381A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN111046892A (zh) * 2018-10-12 2020-04-21 北京京东尚科信息技术有限公司 异常识别方法和装置
CN111563521A (zh) * 2019-02-14 2020-08-21 埃森哲环球解决方案有限公司 特定于场所的异常检测
CN111563521B (zh) * 2019-02-14 2023-10-17 埃森哲环球解决方案有限公司 特定于场所的异常检测
CN109948738A (zh) * 2019-04-11 2019-06-28 合肥工业大学 涂装烘干室的能耗异常检测方法、装置及系统
CN110297469A (zh) * 2019-05-17 2019-10-01 同济大学 基于重采样的集成特征选择算法的生产线故障判断方法
CN110472188A (zh) * 2019-08-01 2019-11-19 北方工业大学 一种面向传感数据的异常模式检测方法
CN110516733A (zh) * 2019-08-23 2019-11-29 西南石油大学 一种基于改进多分类孪生支持向量机的测井岩性识别方法
CN111125197A (zh) * 2019-12-27 2020-05-08 成都康赛信息技术有限公司 基于mic和mp的数据集异常数据处理方法
CN113140054A (zh) * 2020-01-02 2021-07-20 株洲中车时代电气股份有限公司 一种列车冷却系统的异常检测方法及装置
CN111654463A (zh) * 2020-03-18 2020-09-11 中国南方电网有限责任公司 基于特征选择的支持向量机电网入侵检测系统及方法
CN111767803A (zh) * 2020-06-08 2020-10-13 北京理工大学 合成极窄脉冲雷达抗目标姿态敏感的鉴别方法
CN111767803B (zh) * 2020-06-08 2022-02-08 北京理工大学 合成极窄脉冲雷达抗目标姿态敏感的鉴别方法
CN111666316A (zh) * 2020-06-19 2020-09-15 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置
CN111666316B (zh) * 2020-06-19 2023-09-15 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置
WO2021254413A1 (zh) * 2020-06-19 2021-12-23 南京大学 一种隔离分布核构建方法、异常数据检测方法及装置
CN112181706A (zh) * 2020-10-23 2021-01-05 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN112181706B (zh) * 2020-10-23 2023-09-22 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN112562771B (zh) * 2020-12-25 2022-07-26 北京邮电大学 一种基于邻域分区与隔离重构的磁盘异常检测方法
CN112562771A (zh) * 2020-12-25 2021-03-26 北京邮电大学 一种基于邻域分区与隔离重构的磁盘异常检测方法
CN113033673A (zh) * 2021-03-24 2021-06-25 河南中烟工业有限责任公司 电机工况异常检测模型的训练方法及系统
CN113255731A (zh) * 2021-04-28 2021-08-13 枣庄学院 基于空间域转换独立树的可控中高压光机异常检测方法
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法
CN113420825A (zh) * 2021-07-07 2021-09-21 国能龙源蓝天节能技术有限公司 一种基于支持向量机的异常数据检测方法及电子设备
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统

Similar Documents

Publication Publication Date Title
CN107292350A (zh) 大规模数据的异常检测方法
Ru et al. Interpretable neural architecture search via bayesian optimisation with weisfeiler-lehman kernels
Arbin et al. Comparative analysis between k-means and k-medoids for statistical clustering
CN110266672B (zh) 基于信息熵和置信度下采样的网络入侵检测方法
CN107292097B (zh) 基于特征组的中医主症选择方法
CN106599913A (zh) 一种基于聚类的多标签不平衡生物医学数据分类方法
CN103258147B (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN112613536A (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN108171012A (zh) 一种基因分类方法与装置
Untoro et al. Evaluation of decision tree, k-NN, Naive Bayes and SVM with MWMOTE on UCI dataset
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
Devlin et al. Disentangled attribution curves for interpreting random forests and boosted trees
Yang et al. ISBFK-means: A new clustering algorithm based on influence space
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
Ourabah Large scale data using K-means
US7272583B2 (en) Using supervised classifiers with unsupervised data
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
CN111127184B (zh) 一种分布式组合信用评估方法
Zhou et al. Imbalanced Multi-Fault Diagnosis via Improved Localized Feature Selection
Devanta Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification
Togatoropa et al. Optimizing Random Forest using Genetic Algorithm for Heart Disease Classification
CN114124437A (zh) 基于原型卷积网络的加密流量识别方法
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024