CN116226777A

CN116226777A - 基于等差距离重构时间序列的异常值检测方法和装置

Info

Publication number: CN116226777A
Application number: CN202310506486.5A
Authority: CN
Inventors: 李东晖; 宁志雄; 蔡知岂; 杨柳
Original assignee: Hunan Agricultural University
Current assignee: Hunan Agricultural University
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-06-06
Anticipated expiration: 2043-05-08
Also published as: CN116226777B

Abstract

本申请涉及数据处理技术领域的一种基于等差距离重构时间序列的异常值检测方法和装置。所述方法包括：获取待检测单变量时间序列，采用等差距离算法对待检测时间序列进行重构，得到二元变量等差距离时间序列；等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构；根据等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集，该方法可应用于跨境电商以及BI系统检测销量数据异常值检测，其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。

Description

基于等差距离重构时间序列的异常值检测方法和装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于等差距离重构时间序列的异常值检测方法和装置。

背景技术

销量异常值分析作为商家重要的运营策略验证以及参考，从而使得商家在海量销量数据中发现或者检测异常值变得极为重要。

商品日销量序列属于整型时间序列以及泊松分布的一种，因此不宜采用Box-plot、Grubbs、

方法，ARMA、ARIMA模型等检测异常值。其次，序列的结构：/>

，导致商品日销量序列不能使用LOF、DBSCAN等高维算法进行异常值检测。

因此迫切需要研究能够有效的解决泊松分布日销量序列的异常值检测的方法。

发明内容

基于此，有必要针对上述技术问题，提供一种基于等差距离重构时间序列的异常值检测方法和装置。

一种基于等差距离重构时间序列的异常值检测方法，所述方法包括：

获取待检测时间序列，所述待检测时间序列是单变量时间序列。

根据所述待检测时间序列采用等差距离算法进行重构，得到二元变量等差距离时间序列；所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。

根据所述等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

在其中一个实施例中，等差距离算法包括：归一等差距离算法和最值等差距离算法。

根据所述待检测时间序列采用等差距离算法进行重构，得到二元变量等差距离时间序列，包括：

判断所述待检测时间序列是否为归一化处理后的序列。

如果是，则采用所述归一等差距离算法对待检测时间序列进行重构，得到二元变量归一等差距离时间序列。

如果否，则采用所述最值等差距离算法对待检测时间序列进行重构，得到二元变量最值等差距离时间序列。

在其中一个实施例中，采用所述归一等差距离算法对待检测时间序列进行重构，得到二元变量归一等差距离时间序列，包括：

采用归一等差距离公式计算所述待检测时间序列的每一条记录的距离值，得到增加距离值的记录，所述归一等差距离公式为：

；

其中,

为第/>

条记录的归一等差距离/>

为待检测时间序列中记录的顺序号，

，/>

为待检测待重构时间序列的总记录数。

将增加距离值后的所有记录进行重构，得到二元变量归一等差距离时间序列。

在其中一个实施例中，采用所述最值等差距离算法对待检测时间序列进行重构，得到二元变量最值等差距离时间序列，包括：

采用最值等差距离公式计算所述待检测时间序列的每一条记录的距离值，得到增加距离值的记录，所述最值等差距离公式为：

；

其中，

为第/>

条记录的最值等差距离，/>

为待检测时间序列中记录的顺序号，

，/>

为待检测时间序列的总记录数，/>

为依附时间/>

产生的其他属性。

将增加距离值后的所有记录进行重构，得到二元变量最值等差距离时间序列。

在其中一个实施例中，所述归一等差距离时间序列的矩阵为：

；

其中，

为归一等差距离时间序列的矩阵，/>

表示时间序列的时间属性，

；/>

表示依据归一等差距离算法生成的距离属性；/>

表示依附/>

产生的其他属性。

在其中一个实施例中，所述最值等差距离时间序列的矩阵为：

；

其中，

为最值等差距离时间序列的矩阵，/>

表示时间序列的时间属性，

；/>

表示依据最值等差距离算法生成的距离属性；/>

表示依附/>

产生的其他属性。

在其中一个实施例中，根据所述等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出待检测时间序列的异常值检测结果，包括：

根据所述等差距离时间序列采用局部离群因子检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

根据所述等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检，输出待检测时间序列的异常值检测结果。

一种基于等差距离重构时间序列的异常值检测装置，所述装置包括：

时间序列获取模块，用于获取待检测时间序列，所述待检测时间序列是单变量时间序列。

等差距离时间序列重构模块，用于根据所述待检测时间序列采用等差距离算法进行重构，得到二元变量等差距离时间序列；所述等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。

异常值检测模块，用于根据所述等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

上述基于等差距离重构时间序列的异常值检测和装置。所述方法包括：获取单变量的待检测时间序列，采用等差距离算法对待检测时间序列进行重构，得到二元变量等差距离时间序列；等差距离算法用于给所述待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构；根据等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出异常值检测结果。该方法拓展了单变量时间序列的异常值检测方法集，该方法可应用于跨境电商以及BI系统检测销量数据异常值检测，其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。

附图说明

图1为一个实施例中基于等差距离重构时间序列的异常值检测方法的流程示意图；

图2为另一个实施例中商品日销量序列；

图3为另一个实施例中基于等差距离异常值检测流程示意图；

图4为另一个实施例中NAD-DBSCAN异常值检测结果；

图5为另一个实施例中MAD-DBSCAN异常值检测结果；

图6为另一个实施例中NAD-LOF异常值检测结果；

图7为另一个实施例中MAD-LOF异常值检测结果；

图8为另一个实施例中采用

、NAD-LOF和NAD-BACAN异常值检测效果对比，其中，(a)、(b)和(c)分别为采用/>

、NAD-LOF、 NAD-DBSCAN进行异常值检测的结果；

图9为一个实施例中基于等差距离重构时间序列的异常值检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于等差距离重构时间序列的异常值检测方法，该方法包括以下步骤：

步骤100：获取待检测时间序列，待检测时间序列是单变量时间序列。

具体的，待检测时间序列为单变量时间序列，时间序列可以符合泊松分布，也可以符合正态分布。

待检测时间序列可以为但不限于跨境平台的商品销售序列。

步骤102：根据待检测时间序列采用等差距离算法进行重构，得到二元变量等差距离时间序列；等差距离算法用于给待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。

具体的，作为优选，待检测时间序列为跨境平台的商品销售序列。

首先，商品销售序列属于泊松分布，因此不宜采用Box-plot、Grubbs、

方法，ARMA、ARIMA模型等检测异常值。其次，序列的结构为：

(1)

其中，X表示序列集；

表示序列集中/>

发生的时间，此处特指日期；/>

表示/>

的每个时间点发生的记录次数，此处特指商品销量。

其次，序列为单变量时间序列，导致不能使用局部离群因子检测算法（LocalOutlier Factor，简称：LOF）、DBSCAN等高维算法进行异常值检测。

要解决这两个问题，一是可以选择基于密度或者距离而非特定分布的异常值检测算法（作为条件A）；二是给序列增加一定的合理的数据距离，满足所选算法LOF、DBSCAN的计算要求，即满足条件A（作为条件B）。

因序列

中的/>

不可作为/>

的距离值计算，设/>

作为/>

的距离值。因/>

与/>

的间隔时间是相等，所以/>

与/>

之间的差相等。若只考虑距离相等原则，那么/>

与/>

之间的距离可无限小，则：

(2)

距离亦可无限大，则：

(3)

在无限小和无限大的距离值中选择合理的距离值，重构单变量序列为二元变量即可满足上述条件B。当满足条件B时，即可满足条件A。

基于上述问题和思路，本发明提出了等差距离算法，给待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。等差距离时间序列中的

和增加的等差距离属性可参与异常值检测计算。

基于上述问题和思路，本发明提出了等差距离(Arithmetic Distance，简写为AD或ad)算法，给待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。

等差距离算法可分为归一等差距离(Normalization Arithmetic Distance，简写为NAD或nad)和最值等差距离(Maximum Arithmetic Distance，简写为MAD或mad)。

步骤104：根据等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

具体的，针对异常值（又称为离群值）的定义以及选择的检测算法在不同的文献中存在分歧，因此要按实际项目需求进行区分。JIANG等以平均值与

之和为界限值检测异常值。GRUBBS等以平均值与/>

之和为界限值检测异常值。TIETJEN等进行多组异常值检测实验，结果证实以平均值与/>

之和为界限值检测异常值方法的可行性。HAWKINS指出当某个数据点/>

与其他数据群/>

存在的差异足以引起观察者的怀疑，以至于认为是由不同的机制产生的，则被定义为异常值。Hample则认为10%左右的异常值存在于实际的数据集中是常规事件。

所述等差距离时间序列为二元变量序列结构，可以采用局部离群因子检测算法或DBSCAN异常检测方法进行异常值检测，输出待检测时间序列的异常值检测结果。

在其中一个实施例中，等差距离算法包括：归一等差距离算法和最值等差距离算法；步骤102包括：判断待检测时间序列是否为归一化处理后的序列；如果是，则采用归一等差距离算法对待检测时间序列进行重构，得到二元变量归一等差距离时间序列；如果否，则采用最值等差距离算法对待检测时间序列进行重构，得到二元变量最值等差距离时间序列。

在其中一个实施例中，采用归一等差距离算法对待检测时间序列进行重构，得到二元变量归一等差距离时间序列，包括：采用归一等差距离公式计算待检测时间序列的每一条记录的距离值，得到增加距离值的记录，归一等差距离公式为：

(4)

其中,

为第/>

条记录的归一等差距离,/>

为待检测时间序列中记录的顺序号

，/>

为待检测待重构时间序列的总记录数。

具体的，设计归一等差距离算法要满足三个基本的条件：①序列

中的距离属性是递增，则有/>

，②序列/>

中邻近的两个数据点距离的差相等，则有

。③序列/>

中累计最大距离为1，则/>

。

假设一元离散时间序列长度为n，则

(5)/>

其中，

表示整个时间序列；/>

表示/>

的每个时间点发生的记录次数；/>

表示时间序列的时间属性；/>

表示依附/>

产生的其他属性，此处特指跨境电商每日商品的销量。

假设距离nad作为

序列的新增属性，则：

(6)

公式(6)也可表示为公式(7)

(7)

假设

数据集的距离属性/>

，则：

(8)

其中

表示时间序列中最大顺序号的距离值，分子/>

表示时间序列中最大顺序号，分母/>

表示时间序列中的总记录数。

下述证明公式(7)的是否能满足设计等差距离算法的三个基本要求：

1) 一般地，第1条记录的距离值为

；第2条记录的距离值为

；第3条记录的距离值为/>

；第4条记录的距离值为

；上述的/>

也可以表示为：

(9)

2) 将

中的4代替为/>

，表示第/>

条记录的距离值，则得到公式(4)。

3) 使序列

的/>

距离值等于1，则得到公式(8)。

4) 根据公式(4)和(9)，有

，

，所以/>

，所以

。根据公式(8)，则/>

，所以/>

。

至此，归一化等差距离的计算公式为公式(4)所示。

此实施例中，归一等差距离时间序列的矩阵为：

；

其中，

为归一等差距离时间序列的矩阵，/>

表示时间序列的时间属性，

；/>

表示依据归一等距离算法生成的距离属性；/>

表示依附/>

产生的其他属性，这里特指商品销量。除/>

外，/>

和/>

可参与异常值检测计算。/>

在其中一个实施例中，采用最值等差距离算法对待检测时间序列进行重构，得到二元变量最值等差距离时间序列，包括：采用最值等差距离公式计算待检测时间序列的每一条记录的距离值，得到增加距离值的记录，最值等差距离公式为：

(10)

其中,

为第/>

条记录的最值等差距离，/>

为待检测时间序列中记录的顺序号，

，/>

为待检测时间序列的总记录数，/>

为依附时间/>

产生的其他属性。

具体的，最值等差距离算法的逻辑和归一等差距离算法的差别在于，①在分子部分增加了公式(11)，②

。

1）找到

中/>

的最大值，则：

(11)

2）使

，则有公式(4)、公式（9）。

3) 使

数据集的/>

距离值等于/>

，结合公式(4)、公式（9），则得到如式（10）所示的最值等差距离公式。

此实施例中，最值等差距离时间序列的矩阵为：

（12）

其中，

为最值等差距离时间序列的矩阵，/>

表示时间序列的时间属性，

；/>

表示依据最值等距离算法生成的距离属性；/>

表示依附/>

产生的其他属性,这里特指商品销量。除/>

外，/>

和/>

可参与异常值检测计算。

在其中一个实施例中，步骤104包括：根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检，输出待检测时间序列的异常值检测结果。

具体的，DBSCAN(Density-Based Spatial Clustering of Applications withNoise)是众多经典的聚类算法中优点比较突出的一种基于密度聚类算法，它属于无监督算法，相比于K-mean聚类，DBSCAN在执行算法时无需指定聚类的个数也可发现不同形状的数据簇，对于噪声点能够有效地识别，因此可用来检测异常值。

在其中一个实施例中，步骤104包括：根据等差距离时间序列采用局部离群因子检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

具体的，局部离群因子检测算法（Local Outlier Factor，简称：LOF）是一种基于密度，且无监督的异常值检测算法。与DBSCAN采用密度可达相连算法思想不同，LOF是采用数据点的所在的密度与邻近点的密度计算值是否相近，来衡量是否为离群因子。其前提假设是：认为数据集

中的非离群数据点/>

与其邻域点/>

的密度是相近的，离群数据点则反之。因此，算法的核心计算逻辑：数据点/>

与其邻域点/>

的平均密度比上数据点/>

的密度。比值越大于1，则数据点/>

邻域的密度越小于其周围数据点/>

邻域的密度就说明数据点/>

则是异常值。

等差距离算法一般用于重构单变量序列使其变为二元变量序列结构，其分为归一等差距离(NAD)和最值等差距离(MAD)。

(1)基于AD算法重构的序列且采用LOF算法进行异常值检测这一过程，称为AD-LOF方法。其分为NAD-LOF和MAD-LOF，分别表示基于NAD、MAD重构的序列且采用LOF算法进行异常值检测的过程。

(2)基于AD算法重构的序列且采用DBSCAN算法进行异常值检测这一过程，称为AD-DBSCAN方法。其分为NAD-DBSCAN和MAD-DBSCAN，分别表示基于NAD、MAD重构的序列且采用DBSCAN算法进行异常值检测的过程。

(3)基于AD-LOF或者AD-DBSCAN处理过的序列定义为等差距离序列(ArithmeticDistance Time Series,简写为ADTS)。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个验证性实施例中，以某跨境电商公司的每日销量序列为研究对象，数据集时间段为2017-10-23至2022-05-16。将数据预处理以及作可视化处理之后，如图2所示日销量序列，依据HAWKINS的异常值定义可直观的判断a、b、c、d、e、f为异常子序列。

（1）序列等差距离处理

据上可知，日销量序列不符合正态分布，因此不可采用基于高斯框架内的异常值检测方法。但DBSCAN和LOF算法无需验证序列是否符合正态分布或某种特定数据分布，是基于数据密度进行异常值检测，其计算条件是数据集存在二维以上的可计算距离的特征值即可进行异常值识别。

现基于等差距离算法将日销量序列添加一列距离属性

(等差距离)。基于等差距离异常值检测流程如图3所示：

此流程要注意技术点在于归一等差距离用于重构已执行数据归一化预处理的序列，最值等差距离用于重构未执行数据归一化预处理的序列。因此对序列添加等差距离之后，不能再对ADTS进行数据归一化处理，否则会破坏距离的等差性质导致

不成立，进而使用DBSCAN和LOF异常值检测方法效果不理想。

（2）异常值检测

实验验证等差距离方法的有效性，本实施例采用DBSCAN和LOF异常值检测方法。异常值检测环境以及工具：Win10、Python3.7、Anaconda3为64位。

1）基于AD-DBSCAN的泊松分布的序列异常值检测对比分析

图4和图5是分别采用NAD-DBSCAN、MAD-DBSCAN异常值检测的可视化结果，图中eps和minPts分别表示密度邻域半径以及邻域中最少的数据点的个数，NAD-DBSCAN、MAD-DBSCAN的参数eps分别设置为0.06和600，而参数minPts都设置为5。通过观察两图五角星形点（五角星形点为异常点）可判断出NAD-DBSCAN和MAD-DBSCAN效果相同，识别的异常值数量一致,共识别16个异常点。

2）基于AD-LOF的泊松分布的序列异常值检测对比分析

图6和图7是分别采用NAD-LOF、MAD-LOF异常值检测的可视化结果，图中参数K表示产生密度邻域给定的数据点的个数，NAD-LOF、MAD-LOF的参数K都设置为19。通过观察两图中两个同心圆标记的点（两个同心圆标记的点为异常点）可判断出NAD-LOF和MAD-LOF效果相同，识别的异常值数量一致，共识别15个异常点。

3）正态分布的异常值检测

将符合正态分布的数据集验证AD-LOF、AD-DBSCAN和

异常值检测对比效果，数据集来源是基于/>

、/>

随机生成1000个变量。

图8中(a)是采用

进行异常值检测共发现两个异常数据点（两个同心圆标记的点为异常数据点），大于/>

的151.8，小于/>

的-44.5。图8中(b)和(c)分别展示为基于NAD-LOF、 NAD-DBSCAN异常值检测效果，所检测的异常值数量与图8(a)采用/>

方法相等。

AD-LOF和AD-DBSCAN方法研究结果以及公司项目实践结果表明该方法用于跨境电商以及BI系统检测销量数据异常值检测具有重要的价值，其自动化及时性检测异常值的机制满足商家及时分析异常值进而调整运营策略达到策略最优状态的需求。该方法兼容泊松分布和高斯分布异常值检测且在平台应用效果良好，因此具备通用化市场推广应用价值。

在一个实施例中，如图9所示，提供了一种基于等差距离重构时间序列的异常值检测装置，包括：时间序列获取模块、等差距离时间序列重构模块和异常值检测模块，其中：

时间序列获取模块，用于获取待检测时间序列，待检测时间序列是单变量时间序列。

等差距离时间序列重构模块，用于根据待检测时间序列采用等差距离算法进行重构，得到二元变量等差距离时间序列；等差距离算法用于给待检测时间序列的每条记录增加等差距离属性，然后根据增加等差距离属性的记录进行重构，得到等差距离时间序列。

异常值检测模块，用于根据等差距离时间序列，采用基于密度且无监督的异常值检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

在其中一个实施例中，等差距离算法包括：归一等差距离算法和最值等差距离算法；等差距离时间序列重构模块，还用于判断待检测时间序列是否为归一化处理后的序列；如果是，则采用归一等差距离算法对待检测时间序列进行重构，得到二元变量归一等差距离时间序列；如果否，则采用最值等差距离算法对待检测时间序列进行重构，得到二元变量最值等差距离时间序列。

在其中一个实施例中，等差距离时间序列重构模块，还用于采用归一等差距离公式计算待检测时间序列的每一条记录的距离值，得到增加距离值的记录，归一等差距离公式如式（4）所示；将增加距离值后的所有记录进行重构，得到二元变量归一等差距离时间序列。

在其中一个实施例中，等差距离时间序列重构模块，还用于采用最值等差距离公式计算待检测时间序列的每一条记录的距离值，得到增加距离值的记录，最值等差距离公式如式（10）所示；将增加距离值后的所有记录进行重构，得到二元变量最值等差距离时间序列。

在其中一个实施例中，等差距离时间序列重构模块中等差距离时间序列的矩阵表示形式如式（12）所示。

在其中一个实施例中，异常值检测模块，还用于根据等差距离时间序列采用局部离群因子检测算法进行异常值检测，输出待检测时间序列的异常值检测结果。

在其中一个实施例中，异常值检测模块，还用于根据等差距离时间序列采用局部离群因子检测算法或DBSCAN算法进行异常值检，输出待检测时间序列的异常值检测结果。

关于基于等差距离重构时间序列的异常值检测装置的具体限定可以参见上文中对于基于等差距离重构时间序列的异常值检测方法的限定，在此不再赘述。上述基于等差距离重构时间序列的异常值检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。