CN116226777A - 基于等差距离重构时间序列的异常值检测方法和装置 - Google Patents

基于等差距离重构时间序列的异常值检测方法和装置 Download PDF

Info

Publication number
CN116226777A
CN116226777A CN202310506486.5A CN202310506486A CN116226777A CN 116226777 A CN116226777 A CN 116226777A CN 202310506486 A CN202310506486 A CN 202310506486A CN 116226777 A CN116226777 A CN 116226777A
Authority
CN
China
Prior art keywords
distance
time sequence
arithmetic
detected
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310506486.5A
Other languages
English (en)
Other versions
CN116226777B (zh
Inventor
李东晖
宁志雄
蔡知岂
杨柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Agricultural University
Original Assignee
Hunan Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Agricultural University filed Critical Hunan Agricultural University
Priority to CN202310506486.5A priority Critical patent/CN116226777B/zh
Publication of CN116226777A publication Critical patent/CN116226777A/zh
Application granted granted Critical
Publication of CN116226777B publication Critical patent/CN116226777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及数据处理技术领域的一种基于等差距离重构时间序列的异常值检测方法和装置。所述方法包括:获取待检测单变量时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。

Description

基于等差距离重构时间序列的异常值检测方法和装置
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于等差距离重构时间序列的异常值检测方法和装置。
背景技术
销量异常值分析作为商家重要的运营策略验证以及参考,从而使得商家在海量销量数据中发现或者检测异常值变得极为重要。
商品日销量序列属于整型时间序列以及泊松分布的一种,因此不宜采用Box-plot、Grubbs、
Figure SMS_1
方法,ARMA、ARIMA模型等检测异常值。其次,序列的结构:/>
Figure SMS_2
,导致商品日销量序列不能使用LOF、DBSCAN等高维算法进行异常值检测。
因此迫切需要研究能够有效的解决泊松分布日销量序列的异常值检测的方法。
发明内容
基于此,有必要针对上述技术问题,提供一种基于等差距离重构时间序列的异常值检测方法和装置。
一种基于等差距离重构时间序列的异常值检测方法,所述方法包括:
获取待检测时间序列,所述待检测时间序列是单变量时间序列。
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法。
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列,包括:
判断所述待检测时间序列是否为归一化处理后的序列。
如果是,则采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列。
如果否,则采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:
采用归一等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述归一等差距离公式为:
Figure SMS_3
其中,
Figure SMS_4
为第/>
Figure SMS_5
条记录的归一等差距离/>
Figure SMS_6
为待检测时间序列中记录的顺序号,
Figure SMS_7
,/>
Figure SMS_8
为待检测待重构时间序列的总记录数。
将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
在其中一个实施例中,采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:
采用最值等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述最值等差距离公式为:
Figure SMS_9
其中,
Figure SMS_10
为第/>
Figure SMS_11
条记录的最值等差距离,/>
Figure SMS_12
为待检测时间序列中记录的顺序号,
Figure SMS_13
,/>
Figure SMS_14
为待检测时间序列的总记录数,/>
Figure SMS_15
为依附时间/>
Figure SMS_16
产生的其他属性。
将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,所述归一等差距离时间序列的矩阵为:
Figure SMS_17
其中,
Figure SMS_18
为归一等差距离时间序列的矩阵,/>
Figure SMS_19
表示时间序列的时间属性,
Figure SMS_20
;/>
Figure SMS_21
表示依据归一等差距离算法生成的距离属性;/>
Figure SMS_22
表示依附/>
Figure SMS_23
产生的其他属性。
在其中一个实施例中,所述最值等差距离时间序列的矩阵为:
Figure SMS_24
其中,
Figure SMS_25
为最值等差距离时间序列的矩阵,/>
Figure SMS_26
表示时间序列的时间属性,
Figure SMS_27
;/>
Figure SMS_28
表示依据最值等差距离算法生成的距离属性;/>
Figure SMS_29
表示依附/>
Figure SMS_30
产生的其他属性。
在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
一种基于等差距离重构时间序列的异常值检测装置,所述装置包括:
时间序列获取模块,用于获取待检测时间序列,所述待检测时间序列是单变量时间序列。
等差距离时间序列重构模块,用于根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
异常值检测模块,用于根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括:获取单变量的待检测时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
附图说明
图1为一个实施例中基于等差距离重构时间序列的异常值检测方法的流程示意图;
图2为另一个实施例中商品日销量序列;
图3为另一个实施例中基于等差距离异常值检测流程示意图;
图4为另一个实施例中NAD-DBSCAN异常值检测结果;
图5为另一个实施例中MAD-DBSCAN异常值检测结果;
图6为另一个实施例中NAD-LOF异常值检测结果;
图7为另一个实施例中MAD-LOF异常值检测结果;
图8为另一个实施例中采用
Figure SMS_31
、NAD-LOF和NAD-BACAN异常值检测效果对比,其中,(a)、(b)和(c)分别为采用/>
Figure SMS_32
、NAD-LOF、 NAD-DBSCAN进行异常值检测的结果;
图9为一个实施例中基于等差距离重构时间序列的异常值检测装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于等差距离重构时间序列的异常值检测方法,该方法包括以下步骤:
步骤100:获取待检测时间序列,待检测时间序列是单变量时间序列。
具体的,待检测时间序列为单变量时间序列,时间序列可以符合泊松分布,也可以符合正态分布。
待检测时间序列可以为但不限于跨境平台的商品销售序列。
步骤102:根据待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;等差距离算法用于给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
具体的,作为优选,待检测时间序列为跨境平台的商品销售序列。
首先,商品销售序列属于泊松分布,因此不宜采用Box-plot、Grubbs、
Figure SMS_33
方法,ARMA、ARIMA模型等检测异常值。其次,序列的结构为:
Figure SMS_34
(1)
其中,X表示序列集;
Figure SMS_35
表示序列集中/>
Figure SMS_36
发生的时间,此处特指日期;/>
Figure SMS_37
表示/>
Figure SMS_38
的每个时间点发生的记录次数,此处特指商品销量。
其次,序列为单变量时间序列,导致不能使用局部离群因子检测算法(LocalOutlier Factor,简称:LOF)、DBSCAN等高维算法进行异常值检测。
要解决这两个问题,一是可以选择基于密度或者距离而非特定分布的异常值检测算法(作为条件A);二是给序列增加一定的合理的数据距离,满足所选算法LOF、DBSCAN的计算要求,即满足条件A(作为条件B)。
因序列
Figure SMS_41
中的/>
Figure SMS_43
不可作为/>
Figure SMS_46
的距离值计算,设/>
Figure SMS_40
作为/>
Figure SMS_44
的距离值。因/>
Figure SMS_47
与/>
Figure SMS_49
的间隔时间是相等,所以/>
Figure SMS_39
与/>
Figure SMS_42
之间的差相等。若只考虑距离相等原则,那么/>
Figure SMS_45
与/>
Figure SMS_48
之间的距离可无限小,则:
Figure SMS_50
(2)
距离亦可无限大,则:
Figure SMS_51
(3)
在无限小和无限大的距离值中选择合理的距离值,重构单变量序列为二元变量即可满足上述条件B。当满足条件B时,即可满足条件A。
基于上述问题和思路,本发明提出了等差距离算法,给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。等差距离时间序列中的
Figure SMS_52
和增加的等差距离属性可参与异常值检测计算。
基于上述问题和思路,本发明提出了等差距离(Arithmetic Distance,简写为AD或ad)算法,给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
等差距离算法可分为归一等差距离(Normalization Arithmetic Distance,简写为NAD或nad)和最值等差距离(Maximum Arithmetic Distance,简写为MAD或mad)。
步骤104:根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
具体的,针对异常值(又称为离群值)的定义以及选择的检测算法在不同的文献中存在分歧,因此要按实际项目需求进行区分。JIANG等以平均值与
Figure SMS_53
之和为界限值检测异常值。GRUBBS等以平均值与/>
Figure SMS_54
之和为界限值检测异常值。TIETJEN等进行多组异常值检测实验,结果证实以平均值与/>
Figure SMS_55
之和为界限值检测异常值方法的可行性。HAWKINS指出当某个数据点/>
Figure SMS_56
与其他数据群/>
Figure SMS_57
存在的差异足以引起观察者的怀疑,以至于认为是由不同的机制产生的,则被定义为异常值。Hample则认为10%左右的异常值存在于实际的数据集中是常规事件。
所述等差距离时间序列为二元变量序列结构,可以采用局部离群因子检测算法或DBSCAN异常检测方法进行异常值检测,输出待检测时间序列的异常值检测结果。
上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括:获取单变量的待检测时间序列,采用等差距离算法对待检测时间序列进行重构,得到二元变量等差距离时间序列;等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构;根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集,该方法可应用于跨境电商以及BI系统检测销量数据异常值检测,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法;步骤102包括:判断待检测时间序列是否为归一化处理后的序列;如果是,则采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;如果否,则采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:采用归一等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,归一等差距离公式为:
Figure SMS_58
(4)
其中,
Figure SMS_59
为第/>
Figure SMS_60
条记录的归一等差距离,/>
Figure SMS_61
为待检测时间序列中记录的顺序号
Figure SMS_62
,/>
Figure SMS_63
为待检测待重构时间序列的总记录数。
将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
具体的,设计归一等差距离算法要满足三个基本的条件:①序列
Figure SMS_64
中的距离属性是递增,则有/>
Figure SMS_65
,②序列/>
Figure SMS_66
中邻近的两个数据点距离的差相等,则有
Figure SMS_67
。③序列/>
Figure SMS_68
中累计最大距离为1,则/>
Figure SMS_69
假设一元离散时间序列长度为n,则
Figure SMS_70
(5)/>
其中,
Figure SMS_71
表示整个时间序列;/>
Figure SMS_72
表示/>
Figure SMS_73
的每个时间点发生的记录次数;/>
Figure SMS_74
表示时间序列的时间属性;/>
Figure SMS_75
表示依附/>
Figure SMS_76
产生的其他属性,此处特指跨境电商每日商品的销量。
假设距离nad作为
Figure SMS_77
序列的新增属性,则:
Figure SMS_78
(6)
公式(6)也可表示为公式(7)
Figure SMS_79
(7)
假设
Figure SMS_80
数据集的距离属性/>
Figure SMS_81
,则:
Figure SMS_82
(8)
其中
Figure SMS_83
表示时间序列中最大顺序号的距离值,分子/>
Figure SMS_84
表示时间序列中最大顺序号,分母/>
Figure SMS_85
表示时间序列中的总记录数。
下述证明公式(7)的是否能满足设计等差距离算法的三个基本要求:
1) 一般地,第1条记录的距离值为
Figure SMS_86
;第2条记录的距离值为
Figure SMS_87
;第3条记录的距离值为/>
Figure SMS_88
;第4条记录的距离值为
Figure SMS_89
;上述的/>
Figure SMS_90
也可以表示为:
Figure SMS_91
(9)
2) 将
Figure SMS_92
中的4代替为/>
Figure SMS_93
,表示第/>
Figure SMS_94
条记录的距离值,则得到公式(4)。
3) 使序列
Figure SMS_95
的/>
Figure SMS_96
距离值等于1,则得到公式(8)。
4) 根据公式(4)和(9),有
Figure SMS_97
Figure SMS_98
,所以/>
Figure SMS_99
,所以
Figure SMS_100
。根据公式(8),则/>
Figure SMS_101
,所以/>
Figure SMS_102
至此,归一化等差距离的计算公式为公式(4)所示。
此实施例中,归一等差距离时间序列的矩阵为:
Figure SMS_103
其中,
Figure SMS_105
为归一等差距离时间序列的矩阵,/>
Figure SMS_108
表示时间序列的时间属性,
Figure SMS_110
;/>
Figure SMS_106
表示依据归一等距离算法生成的距离属性;/>
Figure SMS_109
表示依附/>
Figure SMS_111
产生的其他属性,这里特指商品销量。除/>
Figure SMS_112
外,/>
Figure SMS_104
和/>
Figure SMS_107
可参与异常值检测计算。/>
在其中一个实施例中,采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:采用最值等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,最值等差距离公式为:
Figure SMS_113
(10)
其中,
Figure SMS_114
为第/>
Figure SMS_115
条记录的最值等差距离,/>
Figure SMS_116
为待检测时间序列中记录的顺序号,
Figure SMS_117
,/>
Figure SMS_118
为待检测时间序列的总记录数,/>
Figure SMS_119
为依附时间/>
Figure SMS_120
产生的其他属性。
将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
具体的,最值等差距离算法的逻辑和归一等差距离算法的差别在于,①在分子部分增加了公式(11),②
Figure SMS_121
1)找到
Figure SMS_122
中/>
Figure SMS_123
的最大值,则:
Figure SMS_124
(11)
2) 使
Figure SMS_125
,则有公式(4)、公式(9)。
3) 使
Figure SMS_126
数据集的/>
Figure SMS_127
距离值等于/>
Figure SMS_128
,结合公式(4)、公式(9),则得到如式(10)所示的最值等差距离公式。
此实施例中,最值等差距离时间序列的矩阵为:
Figure SMS_129
(12)
其中,
Figure SMS_132
为最值等差距离时间序列的矩阵,/>
Figure SMS_135
表示时间序列的时间属性,
Figure SMS_137
;/>
Figure SMS_131
表示依据最值等距离算法生成的距离属性;/>
Figure SMS_134
表示依附/>
Figure SMS_136
产生的其他属性,这里特指商品销量。除/>
Figure SMS_138
外,/>
Figure SMS_130
和/>
Figure SMS_133
可参与异常值检测计算。
在其中一个实施例中,步骤104包括:根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
具体的,DBSCAN(Density-Based Spatial Clustering of Applications withNoise)是众多经典的聚类算法中优点比较突出的一种基于密度聚类算法,它属于无监督算法,相比于K-mean聚类,DBSCAN在执行算法时无需指定聚类的个数也可发现不同形状的数据簇,对于噪声点能够有效地识别,因此可用来检测异常值。
在其中一个实施例中,步骤104包括:根据等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
具体的,局部离群因子检测算法(Local Outlier Factor,简称:LOF)是一种基于密度,且无监督的异常值检测算法。与DBSCAN采用密度可达相连算法思想不同,LOF是采用数据点的所在的密度与邻近点的密度计算值是否相近,来衡量是否为离群因子。其前提假设是:认为数据集
Figure SMS_140
中的非离群数据点/>
Figure SMS_144
与其邻域点/>
Figure SMS_146
的密度是相近的,离群数据点则反之。因此,算法的核心计算逻辑:数据点/>
Figure SMS_141
与其邻域点/>
Figure SMS_143
的平均密度比上数据点/>
Figure SMS_145
的密度。比值越大于1,则数据点/>
Figure SMS_147
邻域的密度越小于其周围数据点/>
Figure SMS_139
邻域的密度就说明数据点/>
Figure SMS_142
则是异常值。
等差距离算法一般用于重构单变量序列使其变为二元变量序列结构,其分为归一等差距离(NAD)和最值等差距离(MAD)。
(1)基于AD算法重构的序列且采用LOF算法进行异常值检测这一过程,称为AD-LOF方法。其分为NAD-LOF和MAD-LOF,分别表示基于NAD、MAD重构的序列且采用LOF算法进行异常值检测的过程。
(2)基于AD算法重构的序列且采用DBSCAN算法进行异常值检测这一过程,称为AD-DBSCAN方法。其分为NAD-DBSCAN和MAD-DBSCAN,分别表示基于NAD、MAD重构的序列且采用DBSCAN算法进行异常值检测的过程。
(3)基于AD-LOF或者AD-DBSCAN处理过的序列定义为等差距离序列(ArithmeticDistance Time Series,简写为ADTS)。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个验证性实施例中,以某跨境电商公司的每日销量序列为研究对象,数据集时间段为2017-10-23至2022-05-16。将数据预处理以及作可视化处理之后,如图2所示日销量序列,依据HAWKINS的异常值定义可直观的判断a、b、c、d、e、f为异常子序列。
(1)序列等差距离处理
据上可知,日销量序列不符合正态分布,因此不可采用基于高斯框架内的异常值检测方法。但DBSCAN和LOF算法无需验证序列是否符合正态分布或某种特定数据分布,是基于数据密度进行异常值检测,其计算条件是数据集存在二维以上的可计算距离的特征值即可进行异常值识别。
现基于等差距离算法将日销量序列添加一列距离属性
Figure SMS_148
(等差距离)。基于等差距离异常值检测流程如图3所示:
此流程要注意技术点在于归一等差距离用于重构已执行数据归一化预处理的序列,最值等差距离用于重构未执行数据归一化预处理的序列。因此对序列添加等差距离之后,不能再对ADTS进行数据归一化处理,否则会破坏距离的等差性质导致
Figure SMS_149
不成立,进而使用DBSCAN和LOF异常值检测方法效果不理想。
(2)异常值检测
实验验证等差距离方法的有效性,本实施例采用DBSCAN和LOF异常值检测方法。异常值检测环境以及工具:Win10、Python3.7、Anaconda3为64位。
1)基于AD-DBSCAN的泊松分布的序列异常值检测对比分析
图4和图5是分别采用NAD-DBSCAN、MAD-DBSCAN异常值检测的可视化结果,图中eps和minPts分别表示密度邻域半径以及邻域中最少的数据点的个数,NAD-DBSCAN、MAD-DBSCAN的参数eps分别设置为0.06和600,而参数minPts都设置为5。通过观察两图五角星形点(五角星形点为异常点)可判断出NAD-DBSCAN和MAD-DBSCAN效果相同,识别的异常值数量一致,共识别16个异常点。
2)基于AD-LOF的泊松分布的序列异常值检测对比分析
图6和图7是分别采用NAD-LOF、MAD-LOF异常值检测的可视化结果,图中参数K表示产生密度邻域给定的数据点的个数,NAD-LOF、MAD-LOF的参数K都设置为19。通过观察两图中两个同心圆标记的点(两个同心圆标记的点为异常点)可判断出NAD-LOF和MAD-LOF效果相同,识别的异常值数量一致,共识别15个异常点。
3)正态分布的异常值检测
将符合正态分布的数据集验证AD-LOF、AD-DBSCAN和
Figure SMS_150
异常值检测对比效果,数据集来源是基于/>
Figure SMS_151
、/>
Figure SMS_152
随机生成1000个变量。
图8中(a)是采用
Figure SMS_153
进行异常值检测共发现两个异常数据点(两个同心圆标记的点为异常数据点),大于/>
Figure SMS_154
的151.8,小于/>
Figure SMS_155
的-44.5。图8中(b)和(c)分别展示为基于NAD-LOF、 NAD-DBSCAN异常值检测效果,所检测的异常值数量与图8(a)采用/>
Figure SMS_156
方法相等。
AD-LOF和AD-DBSCAN方法研究结果以及公司项目实践结果表明该方法用于跨境电商以及BI系统检测销量数据异常值检测具有重要的价值,其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。该方法兼容泊松分布和高斯分布异常值检测且在平台应用效果良好,因此具备通用化市场推广应用价值。
在一个实施例中,如图9所示,提供了一种基于等差距离重构时间序列的异常值检测装置,包括:时间序列获取模块、等差距离时间序列重构模块和异常值检测模块,其中:
时间序列获取模块,用于获取待检测时间序列,待检测时间序列是单变量时间序列。
等差距离时间序列重构模块,用于根据待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;等差距离算法用于给待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列。
异常值检测模块,用于根据等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,等差距离算法包括:归一等差距离算法和最值等差距离算法;等差距离时间序列重构模块,还用于判断待检测时间序列是否为归一化处理后的序列;如果是,则采用归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;如果否,则采用最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块,还用于采用归一等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,归一等差距离公式如式(4)所示;将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块,还用于采用最值等差距离公式计算待检测时间序列的每一条记录的距离值,得到增加距离值的记录,最值等差距离公式如式(10)所示;将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
在其中一个实施例中,等差距离时间序列重构模块中等差距离时间序列的矩阵表示形式如式(12)所示。
在其中一个实施例中,异常值检测模块,还用于根据等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
在其中一个实施例中,异常值检测模块,还用于根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
关于基于等差距离重构时间序列的异常值检测装置的具体限定可以参见上文中对于基于等差距离重构时间序列的异常值检测方法的限定,在此不再赘述。上述基于等差距离重构时间序列的异常值检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于等差距离重构时间序列的异常值检测方法,其特征在于,所述方法包括:
获取待检测时间序列,所述待检测时间序列是单变量时间序列;
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列;
根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
2.根据权利要求1所述的方法,其特征在于,等差距离算法包括:归一等差距离算法和最值等差距离算法;
根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列,包括:
判断所述待检测时间序列是否为归一化处理后的序列;
如果是,则采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列;
如果否,则采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列。
3.根据权利要求2所述的方法,其特征在于,采用所述归一等差距离算法对待检测时间序列进行重构,得到二元变量归一等差距离时间序列,包括:
采用归一等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述归一等差距离公式为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为第/>
Figure QLYQS_3
条记录的归一等差距离, />
Figure QLYQS_4
为待检测时间序列中记录的顺序号,
Figure QLYQS_5
,/>
Figure QLYQS_6
为待检测待重构时间序列的总记录数;
将增加距离值后的所有记录进行重构,得到二元变量归一等差距离时间序列。
4.根据权利要求2所述的方法,其特征在于,采用所述最值等差距离算法对待检测时间序列进行重构,得到二元变量最值等差距离时间序列,包括:
采用最值等差距离公式计算所述待检测时间序列的每一条记录的距离值,得到增加距离值的记录,所述最值等差距离公式为:
Figure QLYQS_7
其中,
Figure QLYQS_8
为第/>
Figure QLYQS_9
条记录的最值等差距离,/>
Figure QLYQS_10
为待检测时间序列中记录的顺序号,
Figure QLYQS_11
,/>
Figure QLYQS_12
为待检测时间序列的总记录数,/>
Figure QLYQS_13
为依附时间/>
Figure QLYQS_14
产生的其他属性;
将增加距离值后的所有记录进行重构,得到二元变量最值等差距离时间序列。
5.根据权利要求3所述的方法,其特征在于,所述归一等差距离时间序列的矩阵为:
Figure QLYQS_15
其中,
Figure QLYQS_16
为等差距离时间序列的矩阵,/>
Figure QLYQS_17
表示时间序列的时间属性,/>
Figure QLYQS_18
Figure QLYQS_19
表示依据归一等距离算法生成的距离属性;/>
Figure QLYQS_20
表示依附/>
Figure QLYQS_21
产生的其他属性。
6.根据权利要求4所述的方法,其特征在于,所述最值等差距离时间序列的矩阵为:
Figure QLYQS_22
其中,
Figure QLYQS_23
为最值等差距离时间序列的矩阵,/>
Figure QLYQS_24
表示时间序列的时间属性,/>
Figure QLYQS_25
;/>
Figure QLYQS_26
表示依据最值等差距离算法生成的距离属性;/>
Figure QLYQS_27
表示依附/>
Figure QLYQS_28
产生的其他属性。
7.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
8.根据权利要求1所述的方法,其特征在于,根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果,包括:
根据所述等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检,输出待检测时间序列的异常值检测结果。
9.一种基于等差距离重构时间序列的异常值检测装置,其特征在于,所述装置包括:
时间序列获取模块,用于获取待检测时间序列,所述待检测时间序列是单变量时间序列;
等差距离时间序列重构模块,用于根据所述待检测时间序列采用等差距离算法进行重构,得到二元变量等差距离时间序列;所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性,然后根据增加等差距离属性的记录进行重构,得到等差距离时间序列;
异常值检测模块,用于根据所述等差距离时间序列,采用基于密度且无监督的异常值检测算法进行异常值检测,输出待检测时间序列的异常值检测结果。
CN202310506486.5A 2023-05-08 2023-05-08 基于等差距离重构时间序列的异常值检测方法和装置 Active CN116226777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310506486.5A CN116226777B (zh) 2023-05-08 2023-05-08 基于等差距离重构时间序列的异常值检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310506486.5A CN116226777B (zh) 2023-05-08 2023-05-08 基于等差距离重构时间序列的异常值检测方法和装置

Publications (2)

Publication Number Publication Date
CN116226777A true CN116226777A (zh) 2023-06-06
CN116226777B CN116226777B (zh) 2023-08-01

Family

ID=86584681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310506486.5A Active CN116226777B (zh) 2023-05-08 2023-05-08 基于等差距离重构时间序列的异常值检测方法和装置

Country Status (1)

Country Link
CN (1) CN116226777B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110826648A (zh) * 2020-01-09 2020-02-21 浙江鹏信信息科技股份有限公司 一种利用时序聚类算法实现故障检测的方法
US20210349897A1 (en) * 2020-05-05 2021-11-11 International Business Machines Corporation Anomaly detection system
CN114153888A (zh) * 2020-09-08 2022-03-08 大连理工大学 一种时间序列数据的异常值检测方法和装置
CN115713670A (zh) * 2022-11-04 2023-02-24 南京邮电大学 基于图预测网络和自动编码器的异常检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273234A (zh) * 2017-05-26 2017-10-20 中国航天系统科学与工程研究院 一种基于eemd的时间序列数据异常值检测和校正方法
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110826648A (zh) * 2020-01-09 2020-02-21 浙江鹏信信息科技股份有限公司 一种利用时序聚类算法实现故障检测的方法
US20210349897A1 (en) * 2020-05-05 2021-11-11 International Business Machines Corporation Anomaly detection system
CN114153888A (zh) * 2020-09-08 2022-03-08 大连理工大学 一种时间序列数据的异常值检测方法和装置
CN115713670A (zh) * 2022-11-04 2023-02-24 南京邮电大学 基于图预测网络和自动编码器的异常检测方法及系统

Also Published As

Publication number Publication date
CN116226777B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Taheri et al. Learning to represent the evolution of dynamic graphs with recurrent models
Bindu et al. Mining social networks for anomalies: Methods and challenges
Yu et al. An integrated data preparation scheme for neural network data analysis
US7613851B2 (en) Apparatus, method, and product of manufacture for transforming supply chain networks using pair-wise nodal analysis
US20070055558A1 (en) Method and apparatus for probabilistic workflow mining
Tuerhong et al. Gower distance-based multivariate control charts for a mixture of continuous and categorical variables
Bae et al. Process mining by measuring process block similarity
Curry Practical application of chaos theory to systems engineering
Revin et al. Automated machine learning approach for time series classification pipelines using evolutionary optimization
Chang et al. A hybrid genetic-immune algorithm with improved lifespan and elite antigen for flow-shop scheduling problems
Shim et al. Active cluster annotation for wafer map pattern classification in semiconductor manufacturing
CN116226777B (zh) 基于等差距离重构时间序列的异常值检测方法和装置
Ryu et al. Quantile autoencoder with abnormality accumulation for anomaly detection of multivariate sensor data
Aebtarm et al. An optimal bivariate Poisson field chart for controlling high-quality manufacturing processes
Tinawi Machine learning for time series anomaly detection
Zhang et al. Cascading edge failures: A dynamic network process
Arya et al. Balanced and unbalanced triangle count in signed networks
Mauritsius et al. Customer churn prediction models for PT. XYZ insurance
Mirtaheri et al. Tensor-based method for temporal geopolitical event forecasting
Kumar High Dimensional Time Series Anomaly Detection
Raza et al. Introduction to feature selection
Saraswat et al. Data pre-processing techniques in data mining: A Review
Yao et al. SVD-AE: An asymmetric autoencoder with SVD regularization for multivariate time series anomaly detection
Yang et al. GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers
Mallak et al. Unsupervised feature selection using recursive K-means silhouette elimination (RkSE): A two-scenario case study for fault classification of high-dimensional sensor data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant