CN116561689B - 一种高维数据异常检测方法 - Google Patents
一种高维数据异常检测方法 Download PDFInfo
- Publication number
- CN116561689B CN116561689B CN202310520347.8A CN202310520347A CN116561689B CN 116561689 B CN116561689 B CN 116561689B CN 202310520347 A CN202310520347 A CN 202310520347A CN 116561689 B CN116561689 B CN 116561689B
- Authority
- CN
- China
- Prior art keywords
- record
- sample
- records
- data
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000002159 abnormal effect Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 17
- 230000005856 abnormality Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims 3
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract 1
- 238000005192 partition Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种适用于高维数据异常检测的方法,在原始数据集上随机抽取一部分属性,分别在抽取的数值属性和非数字属性上进行异常检测,最后根据抽取属性上的检测结果判定原始数据集中的记录是否属于异常值;在数值属性上采用每个划分中包含记录个数的倒数作为异常打分值,在非数字属性上采用各簇的熵作为异常打分值,最后根据数值属性和非数字属性的异常打分值判定原始数据集中哪些记录属于异常值;本发明克服了高维数据异常检测计算代价大的缺点,能够大大提高异常检测的效率和精度。
Description
技术领域
本发明属于数据处理技术领域,主要涉及一种数据集中异常数据检测方法,该方法根据数据集本身的特点,检测出数据集中异常的数据记录。异常检测可应用于银行欺诈检测、结构缺陷检测、系统健康检测、文本错误检测等很多领域。
背景技术
目前,异常检测方法主要包括:通过概率分布进行异常检测,通过聚类进行异常检测,通过深度学习进行异常检测。
通过概率分布进行检测的理论基础是正常的数据分布是具有一定特点的,如果某个数据与正常的分布偏离较大,我们认为该数据很可能是不正常的,很可能就是异常值。这种方法能够很好利用数据的统计特性,在一定的领域表现较好,但该类方法需要对数据集进行统计分析,获取正常数据的分布特征,这个过程往往较困难,特别是对于数据量较大,数据维度较高的情况下,其运算代价较大。
通过聚类进行异常检测,首先对原始数据集进行聚类,然后根据每条记录距离聚类中心的距离来判断哪些数据是异常值,一般认为距离聚类中心较远的记录就是异常值。这种方法需要进行聚类,聚类的过程是比较耗时,且聚类数的多少对检测效果影响较大,目前对聚类数的确定没有统一的方法。
通过深度学习进行异常检测,主要通过训练一个深度神经网络来检测数据集中的异常值。就目前情况来看,这种方法多数情况下表现较好,但是,训练的神经网络高度依赖于样本数据集,对于不同类别的数据集上,很难训练出比较理想的网络模型,且训练网络的过程往往比较耗时。
综上所述,现存技术的主要问题是:计算量比较大,效率比较低。无论是采用统计、聚类还是深度学习的方法,进行异常检测时,计算量都比较大,尤其是对于高维数据,现有检测方法很难高效的进行异常检测。高维数据结构比较复杂,采用现有方法很难取得比较好的效果。
本发明基于随机抽样公开了以一种适用于高维数据的异常检测方法,该方法能够大大提高异常检测的效率。随机抽样大大提高了异常检测的效率,提高了异常检测的精度。
发明内容
针对现有技术存在的问题,本发明公开了一种新的适用于高维数据的异常检测方法。
本发明:一种高维数据的异常检测方法,所述异常检测方法包括:
在高维数据上随机选择属性:随机在高维数据集上选择一个或多个属性(列),作为原始数据集的一次抽样,第i次抽样记为si,每个si称为原始数据集的一个样本,每个样本中可以包含原始数据集中的一个属性或多个属性的组合;
在每个样本上进行异常检测:若样本si抽取的数值属性,则对该样本中的数据进行排序,求得si中记录2范数的最大值maxi和最小值mini,把区间[mini,maxi]平均分成kn个子区间,kn是随机从区间[|si|/20,|si|/10]随机选择的整数,|si|表示样本中记录的个数。统计2范数落在kn个子区间的记录数 做为该区间内包含记录的异常值打分;
若样本si抽取的非数值属性,则首先随机选择一个记录作为基准记录r0,计算所有记录到该基准记录的距离,dmax表示距离样本si中记录距离r0的最大距离,kc是从区间[|si|/20,|si|/10]随机选择的整数,把区间[0,dmax]平均分成kc个子区间,根据记录与r0的距离所在的子区间,把样本si划分成kc个子类,计算每个子类的信息熵,作为该子类中包含元素的异常值打分;
由不同的样本,得数据集中每条记录的多个异常值打分,求解异常值打分的加权和,作为判定数据集中每条记录是不是异常值的依据。
进一步,在高维数据上随机选择属性,具体包括:
输入:原始数据集r是数据集D中记录,r包含a1,a2,…,am个属性
输出:抽样样本集
算法:
(1)S为空集
(2)fori=1toNs其中Ns表示需要产生的样本数
(3)对数据集D中每记录r,随机选择a1,a2,…,am中一个或多个属性作为该记录的抽样记录
(4)把所有抽样记录放入si
(5)把si放入S
(6)Endfor
(7)返回S
进一步,样本si抽取的数值属性,在每个样本上进行异常检测,具体包括:
输入:样本si
输出:数据集中每条记录的异常值打分
算法:
(1)计算si中每条记录的2范数,2范数的最大值和最小值分别记为maxi,mini
(2)Fori=1toN
(3)随机从区间[|si|/20,|si|/10]随机选择的整数kn
(4)把区间[mini,maxi]平均分成kn个子区间
(5)根据每条记录的2范数所在的子区间,把记录分开成kn个簇
(6)计算每个簇中记录的个数ci,1/ci为该簇中每条记录的异常打分值
(7)Endfor
(8)计算每个记录的∑1/ci作为记录的异常值最终打分
进一步,样本si抽取的非数值属性,在每个样本上进行异常检测,具体包括:
输入:样本si
输出:数据集中每条记录的异常值打分
算法:
(1)Fori=1toN
(2)随机选择si中一条记录ri 0
(3)计算其他记录与ri 0的距离
(4)kc是从区间[|si|/20,|si|/10]随机选择的整数
(5)根据其他记录与ri 0的距离,把si中数据划分成kc簇
(6)计算各簇的信息熵entri,
(7)Endfor
(8)计算各记录对应的entr=∑entri
(9)每条记录的entr即为异常打分值
进一步,在不同的样本上,在得数据集中每条记录的多个异常值打分,求解异常值打分的加权和,作为最终确定每条记录是否为异常值的依据。这里的权值可以是专家指定,也可以利用带标签的样本学习获得。
本发明的另一目的在于提供一种高维数据异常检测实现方法的计算机程序。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的异常检测实现方法。
本发明的另一目的在于提供一种实现所述新的异常检测实现方法的新的异常检测实现控制系统。
综上所述,本发明的优点及效果为:
本方法有别于传统方法,首先在高维数据集上抽取一部分属性作为一个样本,在多个样本上进行异常检测,最后计算不同样本上的检测结果的加权和,并作为最终判断异常数据的依据;本方案最大特点是更适用于高维数据的异常检测,能够大大降低高维数据异常检测的运算代价;通过多次随机采样,在数值属性和非数值属性上多次运行相应的检测方法,能够大大提高异常检测的精度。
附图说明
图1是本发明实施例提供的异常检测方法的流程图。
图2非数字属性泛化树结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的具体实施过程总体上分三个步骤:首先在原始数据集上进行抽样,然后再抽取的数据集上进行异常检测,最后把得到的异常检测值进行汇总得到最终异常检测的结果。下面结合实例对本发明的每个步骤做进一步的说明。
本发明的随机抽样过程包括:
本发明中的随机抽样有别于其他随机抽样,多数随机抽样为在数据集中抽取部分记录组成新的数据集,本方案中的随机抽样,是抽数据集中所有记录的部分属性。如某数据集中有10万条记录,每条记录有100个属性,本发明的随机抽样将抽取10万条记录,可能只抽取100个属性的5个属性,这样抽样后得到的数据集将包含10万条记录,每条记录包含5个属性,通过抽样大大降低了数据的维度,所得的数据为原始数据集的一个样本。本抽样方法等同于原始数据集的记录在部分维度上的投影,每次投影类等同于一次特征提取,通过投影压缩了原始数据集的维度。每个随机抽样产生的样本均从不同角度反映了原始数据的部分特征,在不同的样本上异常检测值均在一定程度上反应原始数据集中部分记录偏离正常值的情况,最后根据各个样本上的异常检测结果,得出最终异常检测结果。
本发明的异常检测方法包括适用于数值属性的异常检测方法和适用于非数字属性的异常检测方法,具体内容包括:
对于数值属性异常检测方法具体内容包括:
首先计算样本中每条记录的二范数,对于样本中的某条记录r,a1,a2,…,am为r的属性,则r的二范数为:
样本si中每条记录的2范数的最大值和最小值分别记为maxi和mini,把区间[mini,maxi]平均分成kn个子区间,其中kn值的确定取决于数据集的大小,如数据集中记录较多,kn值可以适当增大,依据样本中每条记录的2范数,把所有记录划分成kn类,如:把记录的2范数均落在第一个小区间的所有记录归为一个簇,这样若簇中记录说多,说明簇中的记录多,记录接近于正常值;若初中包含记录少,说明这些记录与正常数据记录偏离较大,更可能是异常值。运用每个簇记录数的倒数作为该簇中每条记录的异常值打分;打分值越高意味着该记录与正常记录偏离较大,更可能是异常值;打分值越低,说明该记录与数据集中的多数记录更接近,更可能是正常值。
对于非数值属性异常检测方法具体内容包括:
首先在数据集中随机选择一个记录作为基准值,然后计算各元素距离该基准值的距离,这里可以采用但不局限于基于泛化树的距离。
含有非数值属性的记录e1与e2之间距离定义为:
其中表示属性Ai的泛化树,如图2泛化树中其叶子节点该属性可能的取值,根据语义关系可以逐层向上泛化为唯一的根节点。/>表示泛化树的高度,如下图2中/> 表示属性Ai的权重,e'是e1、e2的第一个共同泛化祖先。如e1、e2在该属性Ai上取值分别为“个人企业”与“地方政府”,e'是e1、e2向上泛化的第一个共同祖先,即“有报酬”,那么e1、e2之间的距离计算公式方法为:
把各个样本上得到的对应记录的异常打分值进行汇总得到最终异常检测的结果,具体包括:
设r是原始数据集D中的一条记录,则r的最终异常值打分为:
其中:为元素记录r在样本si上的异常值打分,ωi为权。权值的确定可以有专家指定,也可以通过带标签的样本数据集进行训练获得。
最终根据vr的值及设定的阈值判定r是否为异常值。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种用于文本错误检测的高维数据异常检测方法,其特征在于,在高维数据上随机选择单个或多个属性,选择的单个属性或多个属性的组合作为异常点检测的特征,在每个特征上运行异常检测方法,得到每个数据点的异常值打分,运用各个数据点的异常值打分的和作为判断异常数据的标准;
具体包括:
随机在高维数据集上选择一个或多个属性,作为原始数据集的一次抽样,第i次抽样记为si,每个si称为原始数据集的一个样本,每个样本中包含原始数据集中的一个属性或多个属性的组合;
在每个样本上进行异常检测:若样本si抽取的数值属性,则对该样本中的数据进行排序,求得si中记录2范数的最大值maxi和最小值mini,把区间[mini,maxi]平均分成kn个子区间,kn是随机从区间[|si|/20,|si|/10]随机选择的整数,|si|表示样本中记录的个数;统计2范数落在kn个子区间的记录数 作为该区间内包含记录的异常值打分;
若样本si抽取的非数值属性,则首先随机选择一个记录作为基准记录r0,计算所有记录到该基准记录的距离,dmax表示距离样本si中记录距离r0的最大距离,kc是从区间[|si|/20,|si|/10]随机选择的整数,把区间[0,dmax]平均分成kc个子区间,根据记录与r0的距离所在的子区间,把样本si划分成kc个子类,计算每个子类的信息熵,作为该子类中包含元素的异常值打分;
由不同的样本,得到数据集中每条记录的多个异常值打分,求解异常值打分的加权和,作为判定数据集中每条记录是不是异常值的依据;
进一步,在高维数据上随机选择属性,具体包括:
输入:原始数据集r是数据集D中记录,r包含a1,a2,…,am个属性输出:抽样样本集
算法:
(1)S为空集
(2)for i=1to Ns其中Ns表示需要产生的样本数
(3)对数据集D中每记录r,随机选择a1,a2,…,am中一个或多个属性作为该记录的抽样记录
(4)把所有抽样记录放入si
(5)把si放入S
(6)Endfor
(7)返回S
进一步,样本si抽取的数值属性,在每个样本上进行异常检测,具体包括:
输入:样本si
输出:数据集中每条记录的异常值打分
算法:
(1)计算si中每条记录的2范数,2范数的最大值和最小值分别记为maxi,mini
(2)For i=1to N
(3)随机从区间[|si|/20,|si|/10]随机选择的整数kn
(4)把区间[mini,maxi]平均分成kn个子区间
(5)根据每条记录的2范数所在的子区间,把记录分开成kn个簇
(6)计算每个簇中记录的个数ci,1/ci为该簇中每条记录的异常打分值
(7)Endfor
(8)计算每个记录的∑1/ci作为记录的异常值最终打分;
进一步,样本si抽取的非数值属性,在每个样本上进行异常检测,具体包括:
输入:样本si
输出:数据集中每条记录的异常值打分
算法:
(1) For i=1 to N
(2)随机选择si中一条记录ri 0
(3)计算其他记录与ri 0的距离
(4)kc是从区间[|si|/20,|si|/10]随机选择的整数
(5)根据其他记录与ri 0的距离,把si中数据划分成kc簇
(6)计算各簇的信息熵entri,
(7)Endfor
(8)计算各记录对应的entr=∑entri
(9)每条记录的entr即为异常打分值
进一步,在不同的样本上,在得到数据集中每条记录的多个异常值打分后,求解异常值打分的加权和,作为最终确定每条记录是否为异常值的依据;这里权值的确定有两种方法,一种是由专家设定,另一种是利用带标签的样本学习获得。
2.根据权利要求1所述的一种用于文本错误检测的高维数据异常检测方法,其特征在于,对于数值属性,以概率P1t选取第t个数值属性,对于非数值属性,以概率P2j选取第j个非数值属性,P1t的值与对应数值属性的方差和极差正相关,P2j的值与对应非数值属性的信息熵正相关,选择的单个属性或多个属性的组合称为该数据集的一个特征,在各个特征上运行异常检测方法。
3.根据权利要求1所述的一种用于文本错误检测的高维数据异常检测方法,其特征在于,对于数值属性和数值属性的组合,把最小值到最大值之间,均匀的划分成几个区间,每个区间中包含数据记录数的倒数作为该区间内的每条记录的异常值打分;对于非数值属性和包含非数字属性的组合,把所有记录均匀的划分成几组,计算每个分组中数据的熵,熵的值作为该组数据中各个记录的异常值打分。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的一种用于文本错误检测的高维数据异常检测方法。
5.一种实现权利要求1所述的一种用于文本错误检测的高维数据异常检测方法的高维数据异常检测实现控制系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520347.8A CN116561689B (zh) | 2023-05-10 | 2023-05-10 | 一种高维数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310520347.8A CN116561689B (zh) | 2023-05-10 | 2023-05-10 | 一种高维数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561689A CN116561689A (zh) | 2023-08-08 |
CN116561689B true CN116561689B (zh) | 2023-11-14 |
Family
ID=87495952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310520347.8A Active CN116561689B (zh) | 2023-05-10 | 2023-05-10 | 一种高维数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561689B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7395250B1 (en) * | 2000-10-11 | 2008-07-01 | International Business Machines Corporation | Methods and apparatus for outlier detection for high dimensional data sets |
CN104462184A (zh) * | 2014-10-13 | 2015-03-25 | 北京系统工程研究所 | 一种基于双向抽样组合的大规模数据异常识别方法 |
CN110225037A (zh) * | 2019-06-12 | 2019-09-10 | 广东工业大学 | 一种DDoS攻击检测方法和装置 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
CN111555895A (zh) * | 2019-02-12 | 2020-08-18 | 北京数安鑫云信息技术有限公司 | 一种分析网站故障的方法、装置、存储介质及计算机设备 |
CN111738412A (zh) * | 2020-05-28 | 2020-10-02 | 江门职业技术学院 | 一种不完全网络的大数据异常挖掘方法、系统及存储介质 |
CN112287036A (zh) * | 2020-10-19 | 2021-01-29 | 西安交通大学 | 一种基于谱聚类的离群点检测方法 |
CN112398779A (zh) * | 2019-08-12 | 2021-02-23 | 中国科学院国家空间科学中心 | 一种网络流量数据分析方法及系统 |
CN112418355A (zh) * | 2020-12-16 | 2021-02-26 | 上海观安信息技术股份有限公司 | 基于孤立森林算法对异常点进行特征分析的方法及系统 |
CN114239807A (zh) * | 2021-12-17 | 2022-03-25 | 山东省计算中心(国家超级计算济南中心) | 基于rfe-dagmm的高维数据异常检测方法 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN114896559A (zh) * | 2022-04-29 | 2022-08-12 | 盐城工学院 | 一种基于排列熵的自适应噪声完备集合经验模式分解方法 |
CN114896735A (zh) * | 2022-05-25 | 2022-08-12 | 北京科技大学 | 改进偏最小二乘的热轧带钢头部浪形缺陷原因识别方法 |
CN115865412A (zh) * | 2022-11-01 | 2023-03-28 | 中国农业银行股份有限公司 | 入侵检测模型的训练方法、入侵检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI543102B (zh) * | 2014-10-22 | 2016-07-21 | 財團法人工業技術研究院 | 異因分析與校正方法與系統 |
-
2023
- 2023-05-10 CN CN202310520347.8A patent/CN116561689B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7395250B1 (en) * | 2000-10-11 | 2008-07-01 | International Business Machines Corporation | Methods and apparatus for outlier detection for high dimensional data sets |
CN104462184A (zh) * | 2014-10-13 | 2015-03-25 | 北京系统工程研究所 | 一种基于双向抽样组合的大规模数据异常识别方法 |
CN111555895A (zh) * | 2019-02-12 | 2020-08-18 | 北京数安鑫云信息技术有限公司 | 一种分析网站故障的方法、装置、存储介质及计算机设备 |
CN110225037A (zh) * | 2019-06-12 | 2019-09-10 | 广东工业大学 | 一种DDoS攻击检测方法和装置 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
CN112398779A (zh) * | 2019-08-12 | 2021-02-23 | 中国科学院国家空间科学中心 | 一种网络流量数据分析方法及系统 |
CN111738412A (zh) * | 2020-05-28 | 2020-10-02 | 江门职业技术学院 | 一种不完全网络的大数据异常挖掘方法、系统及存储介质 |
CN112287036A (zh) * | 2020-10-19 | 2021-01-29 | 西安交通大学 | 一种基于谱聚类的离群点检测方法 |
CN112418355A (zh) * | 2020-12-16 | 2021-02-26 | 上海观安信息技术股份有限公司 | 基于孤立森林算法对异常点进行特征分析的方法及系统 |
CN114239807A (zh) * | 2021-12-17 | 2022-03-25 | 山东省计算中心(国家超级计算济南中心) | 基于rfe-dagmm的高维数据异常检测方法 |
CN114492423A (zh) * | 2021-12-28 | 2022-05-13 | 广州大学 | 基于特征融合及筛选的虚假评论检测方法、系统及介质 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN114896559A (zh) * | 2022-04-29 | 2022-08-12 | 盐城工学院 | 一种基于排列熵的自适应噪声完备集合经验模式分解方法 |
CN114896735A (zh) * | 2022-05-25 | 2022-08-12 | 北京科技大学 | 改进偏最小二乘的热轧带钢头部浪形缺陷原因识别方法 |
CN115865412A (zh) * | 2022-11-01 | 2023-03-28 | 中国农业银行股份有限公司 | 入侵检测模型的训练方法、入侵检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
An Effcient Alert Aggregation Method Based on Conditional Rough Entropy and Knowledge Granularity;Jiaxuan Sund等;《entropy》;第22卷;1-23 * |
一种基于属性的异常点检测算法;刘洪涛等;《计算机科学》;第32卷(第5期);165-166 * |
多层次序列集成的高维数值型异常检测;李科心等;《计算机与现代化》(第6期);73-82 * |
子空间聚类算法在高维数据异常检测中的应用;周冬等;《信息技术》(第3期);168-171 * |
Also Published As
Publication number | Publication date |
---|---|
CN116561689A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020192401A1 (en) | System and method for generating answer based on clustering and sentence similarity | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN112434208A (zh) | 一种孤立森林的训练及其网络爬虫的识别方法与相关装置 | |
CN101639859A (zh) | 表分类装置、表分类方法以及表分类程序 | |
CN112951311B (zh) | 一种基于变权重随机森林的硬盘故障预测方法及系统 | |
CN114090402A (zh) | 一种基于孤立森林的用户异常访问行为检测方法 | |
CN104598632A (zh) | 热点事件检测方法和装置 | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
Chen et al. | Event popularity prediction using influential hashtags from social media | |
CN113315851A (zh) | 域名检测方法、装置及存储介质 | |
CN105589935A (zh) | 社交群组识别方法 | |
CN118052408A (zh) | 一种用于企业外包的智能化管理系统 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN114528909A (zh) | 一种基于流量日志特征提取的无监督异常检测方法 | |
CN116662671B (zh) | 一种基于用户偏好的数字图书馆数据推送方法 | |
CN116561689B (zh) | 一种高维数据异常检测方法 | |
US20230326185A1 (en) | Object recognition method and apparatus, device, and storage medium | |
CN105930358B (zh) | 基于关联度的案例检索方法及其系统 | |
CN111860299A (zh) | 目标对象的等级确定方法、装置、电子设备及存储介质 | |
CN115905572A (zh) | 一种对于推特用户的社交机器人检测方法及存储介质 | |
CN113157788B (zh) | 大数据挖掘方法及系统 | |
CN115348190A (zh) | 一种物联网设备检测方法、系统和设备 | |
CN103955526A (zh) | 数据存储方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |