CN104462217B

CN104462217B - 一种基于分段统计近似表示的时间序列相似性度量方法

Info

Publication number: CN104462217B
Application number: CN201410626154.1A
Authority: CN
Inventors: 蔡青林; 陈岭; 孙建伶; 陈蕾英
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-11-09
Filing date: 2014-11-09
Publication date: 2017-09-29
Anticipated expiration: 2034-11-09
Also published as: CN104462217A

Abstract

本发明公开了一种基于分段统计近似表示的时间序列相似性度量方法，包括特征提取和动态模式匹配步骤。首先对时间序列切分子序列，依次提取每条子序列的多种统计特征，构造局部模式特征向量；然后利用加权欧氏距离计算局部模式特征向量之间的距离，实现局部模式匹配，并以此作为动态规划算法的子程序，实现全局模式匹配。本发明在度量精度和计算效率方面都以较大的程度优于其他度量方法，在人们的日常活动和工业生产中可发挥重要作用，如在金融交易、交通监管、空气质量和温度监测、工业流程监控、医疗诊断等应用中，对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理。

Description

一种基于分段统计近似表示的时间序列相似性度量方法

技术领域

本发明涉及数据库、数据挖掘、机器学习、信息检索等领域，尤其涉及一种基于分段统计近似表示的时间序列相似性度量方法。

背景技术

时间序列广泛存在于人们的日常生活及工业生产中，如基金或股票的实时交易数据，零售市场的日销量数据，流程工业的传感器监测数据，天文观测数据，航空航天雷达、卫星监测数据，实时天气温度及空气质量指数等。工业界迄今提出了许多时间序列分析方法，包括相似性查询方法、分类方法、聚类方法、预测方法、异常检测方法等。其中，许多方法都需要对时间序列进行相似性判断，比如kNN分类器、k-means聚类方法等，因此，时间序列相似性度量方法在工业界有着广泛的应用需求。

目前工业界最常用的时间序列相似性度量方法可分为锁步度量方法和弹性度量方法。前者采用了一对一的度量方式，即时间序列T₁和T₂之间的距离是通过严格比较T₁和T₂在各自第i个位置的点对，再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离，其都是L_p-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参等优点；但是，其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感，并且只能用于度量等长的时间序列。弹性度量方法采用了一对多的度量方式，即时间序列T₁的一个点可以与T₂的多个连续点相对应，通过动态规划方法遍历T₁和T₂的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比，弹性度量能够实现两条时间序列的最佳对齐匹配，可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化，对噪声和异常点具有鲁棒性，因此，弹性度量具有较高的度量精度。但是，该类方法具有较高的计算复杂度，当用于度量高维的时间序列时会导致高昂的时间开销，难以在工业生产中处理大规模的时间序列或高速的动态数据流。

基于时间序列的特征计算弹性度量是改进其高计算复杂度的一种有效方法，即首先采用数据表示方法将原始时间序列映射到低维的特征空间，然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者，变换参数不受单独的时间序列影响，而始终保持不变；该类表示大多基于频谱分解实现，如离散傅里叶变换、离散小波变换、离散余弦变换，其主要通过对原始时间序列做相应的频域变换，提取主要的频谱系数作为特征；该类方法各有缺陷，如离散傅里叶变换只能提取总体形态特征而忽略了局部特征，离散小波变换只能处理长度为2的指数次的时间序列，离散余弦变换的信息丢失较多，对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身；通过增加数据敏感的选择处理过程，可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等，前三种都需要先对原始时间序列进行分段，然后对每一子段单独处理(分段聚集近似是对各段求平均值，分段线性近似是对各段做线段拟合，符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号)，由于其所提取的特征较为单一，使其对时间序列波动模式的表达能力较弱。奇异值分解和主成分分析通过对所有时间序列做统一的特征矩阵分解实现，这两类方法的典型缺陷是计算复杂度高，而且分解过程只能在内存完成，数据规模的可扩展性很低。

发明内容

本发明要解决的问题是如何高效及高精度地度量时间序列之间的相似性。为了解决该问题，本发明提出了一种基于分段统计近似表示的时间序列相似性度量方法。

本发明的目的是通过以下技术方案来实现的：一种基于分段统计近似表示的时间序列相似性度量方法，包括以下步骤：

(1)特征提取，具体包括以下子步骤：

(1.1)读取原始时间序列T和Q；

(1.2)对T和Q做Z-规范化处理，得到规范化的时间序列T'和Q'；

(1.3)采用长度为l的窗口将T'和Q'分别切分为M和N条子序列；

(1.4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q)，并初始化为空集；依次对T'和Q'的每条子序列计算平均值μ、标准差σ、离散系数CV、偏态SK、峰态K，构造局部模式特征向量LPV＝[μ,σ,CV,SK,K]；将T的M个局部模式特征向量插入PSA(T)，将Q的N个局部模式特征向量插入PSA(Q)；

(2)动态模式匹配，具体包括以下子步骤：

(2.1)构建动态规划表Table(M,N)，并进行初始化；

(2.2)依次计算PSA(T)的第1个局部模式特征向量LPV₁与PSA(Q)的N个局部模式特征向量LPV'₁～LPV'_N之间的加权欧氏距离{dist(LPV₁,LPV'₁),...,dist(LPV₁,LPV'_N)}，并存入Table的第1行Table(1,1:N)；

(2.3)依次计算PSA(Q)的第1个局部模式特征向量LPV'₁与PSA(T)的M个局部模式特征向量LPV₁～LPV_M之间的加权欧氏距离{dist(LPV₁,LPV'₁),...,dist(LPV_M,LPV'₁)}，并存入Table的第1列Table(1:M,1)；

(2.4)利用动态规划方法，依次扫描PSA(T)的第2到第M个局部模式特征向量LPV₂～LPV_M和PSA(Q)的第2到第N个局部模式特征向量LPV'₂～LPV'_N，基于加权欧氏距离计算Table(2:M,2:N)的每个单元值；

(2.5)返回动态规划表的第M行第N列单元值作为最终的度量结果，实现时间序列相似性度量。

本发明的有益效果是：

1、在特征提取阶段，采用了分段表示方法，对每个子段提取多种统计特征，从多方面反映了时间序列的波动特性，可全面捕捉时间序列的局部波动模式，实现了较高的时间序列局部模式匹配精度。

2、在动态模式匹配阶段，基于局部模式层次的动态规划计算，克服了时间弯曲造成的局部模式之间的相位偏移问题，实现了较高的时间序列全局模式匹配精度。

3、在度量精度和计算效率两个方面，本发明都在较大程度上超越了现有弹性度量方法。

附图说明

图1为基于分段统计近似表示的时间序列相似性度量方法流程图；

图2为采用分段统计近似表示时间序列的流程图；

图3为时间序列相似性计算的动态模式匹配过程。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明一种基于分段统计近似表示的时间序列相似性度量方法，包括以下步骤：

(1)特征提取，如图2所示，具体包括以下子步骤：

(1.1)读取原始时间序列T＝{t₁,t₂,…,t_i,…,t_n}和Q＝{q₁,q₂,…,q_i,…,q_n}；

(1.2)对于时间序列T和Q，分别计算T的采样点的平均值m'和标准差σ'，Q的采样点的平均值m'和标准差σ'，根据公式(1)对T和Q做Z-规范化处理，得到规范化的时间序列T'＝{t'₁,t'₂,…,t'_i,…,t'_n}和Q'＝{q'₁,q'₂,…,q'_i,…,q'_n}；

(1.3)采用长度为l的窗口，对步骤1.2处理得到的T'和Q'分别切分为M和N条不重叠的子序列，S_T'＝{S₁,S₂,...,S_i,...,S_M}，S_Q'＝{S'₁,S'₂,,...,S'_i,...,S'_N}，其中S_i＝{s₁,s₂,…,s_i,…,s_l}，S'_i＝{s'₁,s'₂,…,s'_i,…,s'_l}；

(1.4)依次对T'和Q'的每条子序列S_i和S'_i计算多种统计特征，构造局部模式特征向量LPV_i和LPV'_i，得到T和Q的分段统计近似表示PSA(T)和PSA(Q)，该过程包括以下子步骤：

(1.4.1)初始化T和Q的分段统计近似表示PSA(T)和PSA(Q)为空集；

(1.4.2)依次扫描S_T'和S_Q'，根据公式(2)，计算每条子序列S_i和S'_i的平均值μ_i和μ'_i；

(1.4.3)依次扫描S_T'和S_Q'，依次根据公式(3)～(7)，计算每条子序列S_i和S'_i的方差D、标准差σ、离散系数CV、偏态SK、峰态K，分别构造局部模式特征向量LPV_i＝[μ_i,D_i,σ_i,CV_i,SK_i,K_i]和LPV'_i＝[μ'_i,D'_i,σ'_i,CV'_i,SK'_i,K'_i]，并分别插入PSA(T)和PSA(Q)；

(1.4.4)扫描完毕，返回T和Q的分段统计近似表示PSA(T)和PSA(Q)。

(2)动态模式匹配，如图3所示，具体包括以下子步骤：

(2.1)构建动态规划表Table(M,N)，并初始化；

(2.2)根据公式(8)，依次计算PSA(T)的第1个局部模式特征向量LPV₁与PSA(Q)的N个局部模式特征向量LPV'₁～LPV'_N之间的加权欧氏距离{dist(LPV₁,LPV'₁),...,dist(LPV₁,LPV'_N)}，并依次存入Table的第1行Table(1,1:N)；

其中，a_k表示局部模式特征向量第k个特征的权重系数，v_k和v'_k分别表示LPV和LPV'的第k个元素。

(2.3)根据公式(8)，依次计算PSA(Q)的第1个局部模式特征向量LPV'₁与PSA(T)的M个局部模式特征向量LPV₁～LPV_M之间的加权欧氏距离{dist(LPV₁,LPV'₁),...,dist(LPV_M,LPV'₁)}，并依次存入Table的第1列Table(1:M,1)；

(2.4)利用动态规划方法，基于公式(8)计算Table(2:M,2:N)的每个单元值，该过程包括以下子步骤：

(2.4.1)顺序扫描LPV₂～LPV_M，对于PSA(T)的第i个局部模式特征向量LPV_i，依次计算其与LPV'₂～LPV'_N之间的加权欧氏距离{dist(LPV_i,LPV'₂),...,dist(LPV_i,LPV'_N)}；

(2.4.2)当扫描LPV_i与LPV'_j时，首先比较Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小，选择最小值记为min，然后计算dist(LPV_i,LPV'_j)+min的值赋予Table(i,j)。

(2.5)返回动态规划表的第M行第N列单元值作为最终的度量结果。

时间序列相似性度量，在人们的日常活动及工业生产中可发挥重要作用，有着广泛的应用需求。本发明针对工业界当前提出的众多时间序列分析方法，提出了一种基于分段统计近似表示的时间序列相似性度量方法，可以对时间序列实现高效及高精度地相似性度量，由此实现对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理，以满足工业生产的应用需求。

Claims

1.一种基于分段统计近似表示的时间序列相似性度量方法，其特征在于，包括以下步骤：

(1)特征提取，具体包括以下子步骤：

(1.1)读取原始时间序列T和Q；

(1.2)对T和Q做Z-规范化处理，得到规范化的时间序列T'和Q'；

(1.3)采用长度为l的窗口将T'和Q'分别切分为M和N条子序列；

(1.4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q)，并将PSA(T)和PSA(Q)初始化为空集；依次对T'和Q'的每条子序列计算平均值μ、标准差σ、离散系数CV、偏态SK、峰态K，构造局部模式特征向量LPV＝[μ,σ,CV,SK,K]；将T的M个局部模式特征向量插入PSA(T)，将Q的N个局部模式特征向量插入PSA(Q)；

(2)动态模式匹配，具体包括以下子步骤：

(2.1)构建动态规划表Table(M,N)，并进行初始化；

(2.4)利用动态规划方法，依次扫描PSA(T)的第2到第M个局部模式特征向量LPV₂～LPV_M和PSA(Q)的第2到第N个局部模式特征向量LPV'₂～LPV'_N，基于加权欧氏距离计算Table(2:M,2:N)的每个单元值；该步骤包括以下子步骤：

(2.4.1)顺序扫描LPV₂～LPV_M，对于第i个局部模式特征向量LPV_i，依次计算其与LPV'₂～LPV'_N之间的加权欧氏距离{dist(LPV_i,LPV'₂),...,dist(LPV_i,LPV'_N)}；

(2.4.2)根据先行后列的顺序扫描Table(2:M,2:N)，在每个单元Table(i,j)中，首先比较Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小，选择最小值记为min，然后计算dist(LPV_i,LPV'_j)+min的值赋予Table(i,j)；