CN116226777A - 基于等差距离重构时间序列的异常值检测方法和装置 - Google Patents
基于等差距离重构时间序列的异常值检测方法和装置 Download PDFInfo
- Publication number
- CN116226777A CN116226777A CN202310506486.5A CN202310506486A CN116226777A CN 116226777 A CN116226777 A CN 116226777A CN 202310506486 A CN202310506486 A CN 202310506486A CN 116226777 A CN116226777 A CN 116226777A
- Authority
- CN
- China
- Prior art keywords
- distance
- time sequence
- arithmetic
- detected
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013450 outlier detection Methods 0.000 title claims abstract description 52
- 230000002159 abnormal effect Effects 0.000 claims abstract description 79
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000013486 operation strategy Methods 0.000 abstract description 5
- 238000009826 distribution Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 241001123248 Arma Species 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及数据处理技术领域的一种基于等差距离重构时间序列的异常值检测方法和装置。所述方法包括:获取待检测单变量时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于等差距离重构时间序列的异常值检测方法和装置。
背景技术
销量异常值分析作为商家重要的运营策略验证以及参考,从而使得商家在海量销量数据中发现或者检测异常值变得极为重要。
商品日销量序列属于整型时间序列以及泊松分布的一种,因此不宜采用Box-plot、Grubbs、方法,ARMA、ARIMA模型等检测异常值。其次,序列的结构:/>,导致商品日销量序列不能使用LOF、DBSCAN等高维算法进行异常值检测。
因此迫切需要研究能够有效的解决泊松分布日销量序列的异常值检测的方法。
发明内容
基于此,有必要针对上述技术问题,提供一种基于等差距离重构时间序列的异常值检测方法和装置。
一种基于等差距离重构时间序列的异常值检测方法,所述方法包括:
获取待检测时间序列,所述待检测时间序列是单变量时间序列。
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法。
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列,包括:
判断所述待检测时间序列是否为归一化处理后的序列。
如果是,则采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列。
如果否,则采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:
采用归一等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述归一等差距离公式为:
将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
在其中一个实施例中,采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:
采用最值等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述最值等差距离公式为:
将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,所述归一等差距离时间序列的矩阵为:
在其中一个实施例中,所述最值等差距离时间序列的矩阵为:
在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
一种基于等差距离重构时间序列的异常值检测装置,所述装置包括:
时间序列获取模块,用于获取待检测时间序列,所述待检测时间序列是单变量时间序列。
等差距离时间序列重构模块,用于根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
异常值检测模块,用于根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括:获取单变量的待检测时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
附图说明
图1为一个实施例中基于等差距离重构时间序列的异常值检测方法的流程示意图;
图2为另一个实施例中商品日销量序列;
图3为另一个实施例中基于等差距离异常值检测流程示意图;
图4为另一个实施例中NAD-DBSCAN异常值检测结果;
图5为另一个实施例中MAD-DBSCAN异常值检测结果;
图6为另一个实施例中NAD-LOF异常值检测结果;
图7为另一个实施例中MAD-LOF异常值检测结果;
图9为一个实施例中基于等差距离重构时间序列的异常值检测装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于等差距离重构时间序列的异常值检测方法,该方法包括以下步骤:
步骤100:获取待检测时间序列,待检测时间序列是单变量时间序列。
具体的,待检测时间序列为单变量时间序列,时间序列可以符合泊松分布,也可以符合正态分布。
待检测时间序列可以为但不限于跨境平台的商品销售序列。
步骤102:根据待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;等差距离算法用于给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
具体的,作为优选,待检测时间序列为跨境平台的商品销售序列。
其次,序列为单变量时间序列,导致不能使用局部离群因子检测算法(LocalOutlier Factor,简称:LOF)、DBSCAN等高维算法进行异常值检测。
要解决这两个问题,一是可以选择基于密度或者距离而非特定分布的异常值检测算法(作为条件A);二是给序列增加一定的合理的数据距离,满足所选算法LOF、DBSCAN的计算要求,即满足条件A(作为条件B)。
距离亦可无限大,则:
在无限小和无限大的距离值中选择合理的距离值,重构单变量序列为二元变量即可满足上述条件B。当满足条件B时,即可满足条件A。
基于上述问题和思路,本发明提出了等差距离算法,给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。等差距离时间序列中的和增加的等差距离属性可参与异常值检测计算。
基于上述问题和思路,本发明提出了等差距离(Arithmetic Distance,简写为AD或ad)算法,给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
等差距离算法可分为归一等差距离(Normalization Arithmetic Distance,简写为NAD或nad)和最值等差距离(Maximum Arithmetic Distance,简写为MAD或mad)。
步骤104:根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
具体的,针对异常值(又称为离群值)的定义以及选择的检测算法在不同的文献中存在分歧,因此要按实际项目需求进行区分。JIANG等以平均值与之和为界限值检测异常值。GRUBBS等以平均值与/>之和为界限值检测异常值。TIETJEN等进行多组异常值检测实验,结果证实以平均值与/>之和为界限值检测异常值方法的可行性。HAWKINS指出当某个数据点/>与其他数据群/>存在的差异足以引起观察者的怀疑,以至于认为是由不同的机制产生的,则被定义为异常值。Hample则认为10%左右的异常值存在于实际的数据集中是常规事件。
所述等差距离时间序列为二元变量序列结构,可以采用局部离群因子检测算法或DBSCAN异常检测方法进行异常值检测,输出待检测时间序列的异常值检测结果。
上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括:获取单变量的待检测时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法;步骤102包括:判断待检测时间序列是否为归一化处理后的序列;如果是,则采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;如果否,则采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:采用归一等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,归一等差距离公式为:
将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
假设一元离散时间序列长度为n,则
公式(6)也可表示为公式(7)
下述证明公式(7)的是否能满足设计等差距离算法的三个基本要求:
至此,归一化等差距离的计算公式为公式(4)所示。
此实施例中,归一等差距离时间序列的矩阵为:
其中,为归一等差距离时间序列的矩阵,/>表示时间序列的时间属性,;/>表示依据归一等距离算法生成的距离属性;/>表示依附/>产生的其他属性,这里特指商品销量。除/>外,/>和/>可参与异常值检测计算。/>
在其中一个实施例中,采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:采用最值等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,最值等差距离公式为:
将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
此实施例中,最值等差距离时间序列的矩阵为:
其中,为最值等差距离时间序列的矩阵,/>表示时间序列的时间属性,;/>表示依据最值等距离算法生成的距离属性;/>表示依附/>产生的其他属性,这里特指商品销量。除/>外,/>和/>可参与异常值检测计算。
在其中一个实施例中,步骤104包括:根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
具体的,DBSCAN(Density-Based Spatial Clustering of Applications withNoise)是众多经典的聚类算法中优点比较突出的一种基于密度聚类算法,它属于无监督算法,相比于K-mean聚类,DBSCAN在执行算法时无需指定聚类的个数也可发现不同形状的数据簇,对于噪声点能够有效地识别,因此可用来检测异常值。
在其中一个实施例中,步骤104包括:根据等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
具体的,局部离群因子检测算法(Local Outlier Factor,简称:LOF)是一种基于密度,且无监督的异常值检测算法。与DBSCAN采用密度可达相连算法思想不同,LOF是采用数据点的所在的密度与邻近点的密度计算值是否相近,来衡量是否为离群因子。其前提假设是:认为数据集中的非离群数据点/>与其邻域点/>的密度是相近的,离群数据点则反之。因此,算法的核心计算逻辑:数据点/>与其邻域点/>的平均密度比上数据点/>的密度。比值越大于1,则数据点/>邻域的密度越小于其周围数据点/>邻域的密度就说明数据点/>则是异常值。
等差距离算法一般用于重构单变量序列使其变为二元变量序列结构,其分为归一等差距离(NAD)和最值等差距离(MAD)。
(1)基于AD算法重构的序列且采用LOF算法进行异常值检测这一过程,称为AD-LOF方法。其分为NAD-LOF和MAD-LOF,分别表示基于NAD、MAD重构的序列且采用LOF算法进行异常值检测的过程。
(2)基于AD算法重构的序列且采用DBSCAN算法进行异常值检测这一过程,称为AD-DBSCAN方法。其分为NAD-DBSCAN和MAD-DBSCAN,分别表示基于NAD、MAD重构的序列且采用DBSCAN算法进行异常值检测的过程。
(3)基于AD-LOF或者AD-DBSCAN处理过的序列定义为等差距离序列(ArithmeticDistance Time Series,简写为ADTS)。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个验证性实施例中,以某跨境电商公司的每日销量序列为研究对象,数据集时间段为2017-10-23至2022-05-16。将数据预处理以及作可视化处理之后,如图2所示日销量序列,依据HAWKINS的异常值定义可直观的判断a、b、c、d、e、f为异常子序列。
(1)序列等差距离处理
据上可知,日销量序列不符合正态分布,因此不可采用基于高斯框架内的异常值检测方法。但DBSCAN和LOF算法无需验证序列是否符合正态分布或某种特定数据分布,是基于数据密度进行异常值检测,其计算条件是数据集存在二维以上的可计算距离的特征值即可进行异常值识别。
此流程要注意技术点在于归一等差距离用于重构已执行数据归一化预处理的序列,最值等差距离用于重构未执行数据归一化预处理的序列。因此对序列添加等差距离之后,不能再对ADTS进行数据归一化处理,否则会破坏距离的等差性质导致不成立,进而使用DBSCAN和LOF异常值检测方法效果不理想。
(2)异常值检测
实验验证等差距离方法的有效性,本实施例采用DBSCAN和LOF异常值检测方法。异常值检测环境以及工具:Win10、Python3.7、Anaconda3为64位。
1)基于AD-DBSCAN的泊松分布的序列异常值检测对比分析
图4和图5是分别采用NAD-DBSCAN、MAD-DBSCAN异常值检测的可视化结果,图中eps和minPts分别表示密度邻域半径以及邻域中最少的数据点的个数,NAD-DBSCAN、MAD-DBSCAN的参数eps分别设置为0.06和600,而参数minPts都设置为5。通过观察两图五角星形点(五角星形点为异常点)可判断出NAD-DBSCAN和MAD-DBSCAN效果相同,识别的异常值数量一致,共识别16个异常点。
2)基于AD-LOF的泊松分布的序列异常值检测对比分析
图6和图7是分别采用NAD-LOF、MAD-LOF异常值检测的可视化结果,图中参数K表示产生密度邻域给定的数据点的个数,NAD-LOF、MAD-LOF的参数K都设置为19。通过观察两图中两个同心圆标记的点(两个同心圆标记的点为异常点)可判断出NAD-LOF和MAD-LOF效果相同,识别的异常值数量一致,共识别15个异常点。
3)正态分布的异常值检测
图8中(a)是采用进行异常值检测共发现两个异常数据点(两个同心圆标记的点为异常数据点),大于/>的151.8,小于/>的-44.5。图8中(b)和(c)分别展示为基于NAD-LOF、 NAD-DBSCAN异常值检测效果,所检测的异常值数量与图8(a)采用/>方法相等。
AD-LOF和AD-DBSCAN方法研究结果以及公司项目实践结果表明该方法用于跨境电商以及BI系统检测销量数据异常值检测具有重要的价值,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。该方法兼容泊松分布和高斯分布异常值检测且在平台应用效果良好,因此具备通用化市场推广应用价值。
在一个实施例中,如图9所示,提供了一种基于等差距离重构时间序列的异常值检测装置,包括:时间序列获取模块、等差距离时间序列重构模块和异常值检测模块,其中:
时间序列获取模块,用于获取待检测时间序列,待检测时间序列是单变量时间序列。
等差距离时间序列重构模块,用于根据待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;等差距离算法用于给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
异常值检测模块,用于根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法;等差距离时间序列重构模块,还用于判断待检测时间序列是否为归一化处理后的序列;如果是,则采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;如果否,则采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块,还用于采用归一等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,归一等差距离公式如式(4)所示;将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块,还用于采用最值等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,最值等差距离公式如式(10)所示;将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块中等差距离时间序列的矩阵表示形式如式(12)所示。
在其中一个实施例中,异常值检测模块,还用于根据等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,异常值检测模块,还用于根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
关于基于等差距离重构时间序列的异常值检测装置的具体限定可以参见上文中对于基于等差距离重构时间序列的异常值检测方法的限定,在此不再赘述。上述基于等差距离重构时间序列的异常值检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于等差距离重构时间序列的异常值检测方法,其特征在于,所述方法包括:
获取待检测时间序列,所述待检测时间序列是单变量时间序列;
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列;
根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
2.根据权利要求1所述的方法,其特征在于,等差距离算法包括:归一等差距离算法和最值等差距离算法;
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列,包括:
判断所述待检测时间序列是否为归一化处理后的序列;
如果是,则采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;
如果否,则采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
7.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
8.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
9.一种基于等差距离重构时间序列的异常值检测装置,其特征在于,所述装置包括:
时间序列获取模块,用于获取待检测时间序列,所述待检测时间序列是单变量时间序列;
等差距离时间序列重构模块,用于根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列;
异常值检测模块,用于根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506486.5A CN116226777B (zh) | 2023-05-08 | 2023-05-08 | 基于等差距离重构时间序列的异常值检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506486.5A CN116226777B (zh) | 2023-05-08 | 2023-05-08 | 基于等差距离重构时间序列的异常值检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226777A true CN116226777A (zh) | 2023-06-06 |
CN116226777B CN116226777B (zh) | 2023-08-01 |
Family
ID=86584681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310506486.5A Active CN116226777B (zh) | 2023-05-08 | 2023-05-08 | 基于等差距离重构时间序列的异常值检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226777B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273234A (zh) * | 2017-05-26 | 2017-10-20 | 中国航天系统科学与工程研究院 | 一种基于eemd的时间序列数据异常值检测和校正方法 |
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN110826648A (zh) * | 2020-01-09 | 2020-02-21 | 浙江鹏信信息科技股份有限公司 | 一种利用时序聚类算法实现故障检测的方法 |
US20210349897A1 (en) * | 2020-05-05 | 2021-11-11 | International Business Machines Corporation | Anomaly detection system |
CN114153888A (zh) * | 2020-09-08 | 2022-03-08 | 大连理工大学 | 一种时间序列数据的异常值检测方法和装置 |
CN115713670A (zh) * | 2022-11-04 | 2023-02-24 | 南京邮电大学 | 基于图预测网络和自动编码器的异常检测方法及系统 |
-
2023
- 2023-05-08 CN CN202310506486.5A patent/CN116226777B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273234A (zh) * | 2017-05-26 | 2017-10-20 | 中国航天系统科学与工程研究院 | 一种基于eemd的时间序列数据异常值检测和校正方法 |
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN110826648A (zh) * | 2020-01-09 | 2020-02-21 | 浙江鹏信信息科技股份有限公司 | 一种利用时序聚类算法实现故障检测的方法 |
US20210349897A1 (en) * | 2020-05-05 | 2021-11-11 | International Business Machines Corporation | Anomaly detection system |
CN114153888A (zh) * | 2020-09-08 | 2022-03-08 | 大连理工大学 | 一种时间序列数据的异常值检测方法和装置 |
CN115713670A (zh) * | 2022-11-04 | 2023-02-24 | 南京邮电大学 | 基于图预测网络和自动编码器的异常检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116226777B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taheri et al. | Learning to represent the evolution of dynamic graphs with recurrent models | |
Bindu et al. | Mining social networks for anomalies: Methods and challenges | |
Yu et al. | An integrated data preparation scheme for neural network data analysis | |
US7613851B2 (en) | Apparatus, method, and product of manufacture for transforming supply chain networks using pair-wise nodal analysis | |
US20070055558A1 (en) | Method and apparatus for probabilistic workflow mining | |
Tuerhong et al. | Gower distance-based multivariate control charts for a mixture of continuous and categorical variables | |
Bae et al. | Process mining by measuring process block similarity | |
Curry | Practical application of chaos theory to systems engineering | |
Revin et al. | Automated machine learning approach for time series classification pipelines using evolutionary optimization | |
Chang et al. | A hybrid genetic-immune algorithm with improved lifespan and elite antigen for flow-shop scheduling problems | |
Shim et al. | Active cluster annotation for wafer map pattern classification in semiconductor manufacturing | |
CN116226777B (zh) | 基于等差距离重构时间序列的异常值检测方法和装置 | |
Ryu et al. | Quantile autoencoder with abnormality accumulation for anomaly detection of multivariate sensor data | |
Aebtarm et al. | An optimal bivariate Poisson field chart for controlling high-quality manufacturing processes | |
Tinawi | Machine learning for time series anomaly detection | |
Zhang et al. | Cascading edge failures: A dynamic network process | |
Arya et al. | Balanced and unbalanced triangle count in signed networks | |
Mauritsius et al. | Customer churn prediction models for PT. XYZ insurance | |
Mirtaheri et al. | Tensor-based method for temporal geopolitical event forecasting | |
Kumar | High Dimensional Time Series Anomaly Detection | |
Raza et al. | Introduction to feature selection | |
Saraswat et al. | Data pre-processing techniques in data mining: A Review | |
Yao et al. | SVD-AE: An asymmetric autoencoder with SVD regularization for multivariate time series anomaly detection | |
Yang et al. | GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers | |
Mallak et al. | Unsupervised feature selection using recursive K-means silhouette elimination (RkSE): A two-scenario case study for fault classification of high-dimensional sensor data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |