CN104850740A

CN104850740A - 基于动态时间弯曲的数据流模式匹配方法

Info

Publication number: CN104850740A
Application number: CN201510226281.7A
Authority: CN
Inventors: 蔡青林; 梅寒蕾; 陈岭; 孙建伶
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2015-08-19

Abstract

本发明公开了一种基于动态时间弯曲的数据流模式匹配方法。首先，通过编码识别数据流转折模式，将数据流分割为包含完整波动趋势的子段；然后，利用第一类切比雪夫多项式分解子段，提取切比雪夫系数作为子段特征；最后，在数据流上基于局部模式匹配进行增量式的动态规划计算，实现快速的数据流模式匹配。本发明在匹配精度和计算效率方面都以较大的程度优于现有的方法，在人们的日常活动和工业生产中可发挥重要作用，如在金融交易、交通管理、气象观测、工业流程监控、医疗诊断等应用中，对大规模采样数据或高速动态数据流进行异常检测、风险监控、自动应答等。

Description

基于动态时间弯曲的数据流模式匹配方法

技术领域

本发明涉及数据库、数据挖掘、信息检索等领域，尤其涉及数据流管理和模式匹配。

背景技术

数据流广泛存在于人们的日常生活及工业生产中，如基金或股票的实时交易数据，零售市场的日销量数据，流程工业的传感器监测数据，天文观测数据，航空航天雷达、卫星监测数据，实时天气温度及空气质量指数等。对数据流的模式匹配，在工业界和金融界有着广泛的应用需求。比如，在股票市场的实时交易中，交易员想要从高速流来的实时股票价格数据中，查询出与特定波动模式最相似的价格子序列作为参考，从中获取有价值的知识和启发，完成交易行为。影响模式匹配精度和效率的关键因素是衡量子序列相似性的距离度量方法。

目前工业界最常用的序列相似性度量方法可分为锁步度量和弹性度量。前者采用了一对一的度量方式，即序列T₁和T₂之间的距离是通过严格比较T₁和T₂在各自第i个位置的点对，再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离，它们都是L_p-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参数等优点；但是，其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感，并且只能用于度量等长的序列。弹性度量方法采用了一对多的度量方式，即序列T₁的一个点可以与T₂的多个连续点相对应，通过动态规划方法遍历T₁和T₂的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比，弹性度量能够实现两条序列的最佳对齐匹配，可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化，对噪声和异常点具有鲁棒性，因此，弹性度量具有较高的度量精度。但是，该类方法具有较高的计算复杂度，当度量高维序列时会导致高昂的时间开销，难以在工业生产中处理高速的动态数据流。

基于序列特征计算弹性度量是改进其高计算复杂度的一种有效方法，即首先采用数据表示方法将原始序列映射到低维的特征空间，然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者，变换参数不受单独的序列影响，而始终保持不变；该类表示大多基于频谱分解实现，如离散傅里叶变换、离散小波变换、离散余弦变换，它们主要通过对原始序列做相应的频域变换，提取主要的频谱系数作为特征；该类方法各有缺陷，如离散傅里叶变换只能提取总体形态特征而忽略了局部特征，离散小波变换只能处理长度为2的指数次的序列，离散余弦变换的信息丢失较多，对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身；通过增加数据敏感的选择处理过程，可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等，前三种都需要先对原始序列进行分段，然后对每一子段单独处理：分段聚集近似是对各段求平均值；分段线性近似是对各段做线段拟合；符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号；由于它们所提取的特征较为单一，使其对序列波动模式的表达能力较弱。奇异值分解和主成分分析是通过对所有序列做统一的特征矩阵分解实现的；这两类方法的典型缺陷是，它们具有很高的计算复杂度，而且分解过程只能在内存完成，数据规模的可扩展性很低。

发明内容

本发明要解决的问题是如何实现在高速动态数据流中实时匹配预设的波动模式，以获取最相似的子序列。为了解决该问题，本发明提出了基于动态时间弯曲的数据流模式匹配方法。

本发明的目的是通过以下技术方案实现的：一种基于动态时间弯曲的数据流模式匹配方法，包括以下步骤：

(1)分段特征抽取，具体包括以下子步骤：

(1.1)对数据流T做移动平滑处理，得到平滑数据流T'；

(1.2)基于滑动窗口依次截取T'的相邻3点，并计算平均值，通过判断各点与平均值的大小关系对其编码，得到T的编码序列C_T，并定义转折模式表TP_table；

(1.3)顺序扫描C_T，对每对相邻编码组合查询TP_table中的转折模式，如果模式匹配，则将该编码组合所在位置作为T的分段点，得到子段S_i；

(1.4)对S_i做Z-规范化处理，得到规范化的子段S_i'；

(1.5)采用第一类切比雪夫多项式分解S'_i，计算前a个多项式系数c_i作为子段特征，构造子段特征向量V'_i＝[c₁,c₂,...,c_a]；

(1.6)扫描完毕，将现有的T切分为X条子段，保存它的分段切比雪夫近似表示PCHA(T)＝{V'₁,...,V'_X}；

(2)在线模式匹配，具体包括以下子步骤：

(2.1)根据步骤(1)对查询序列Q做相同处理，将其切分为M条子段，得到Q的分段切比雪夫近似表示PCHA(Q)＝{V₁,...,V_M}；

(2.2)根据实际应用需求设定模式匹配阈值ε，初始化动态规划表

(2.3)计算V₁与V'₁的距离dist(V₁,V'₁)，记入Table的单元格cell(1,1)，作为动态规划最优路径ξ的起始路径点p_1,1；

(2.4)计算{dist(V₂,V'₁),dist(V₂,V'₂),dist(V₁,V'₂)}，通过比较得到三者的最小值min，将min+dist(V₁,V'₁)记入{cell(2,1)，cell(2,2)，cell(1,2)}中的相应单元格，作为ξ的第二个路径点；

(2.5)假设ξ的当前路径点是p_i,j，则计算{dist(V_i+1,V'_j),dist(V_i+1,V'_j+1),dist(V_i,V'_j+1)}，并筛选其中最小值min，将min+dist(V_i,V'_j)记入{cell(i+1,j)，cell(i+1,j+1)，cell(i,j+1)}中的相应单元格，作为ξ的最新路径点；

(2.6)循环执行步骤(2.5)，直至PCHA(Q)完全匹配，得到最优路径ξ＝{p_1,1,…,p_M-1,j,p_M,N}，N表示与Q匹配的子序列长度；

(2.7)比较cell(M,N)与ε的大小，若cell(M,N)≤ε，则将ξ所对应的数据流子序列加入模式匹配结果集R，并以cell(V₁,V'_N+1)作为下一条最优路径ξ'的起点；若cell(M,N)>ε,则以dist(V₁,V'₂)作为下一条最优路径ξ'的起点；

(2.8)重复执行步骤(2.3)～(2.7)计算ξ'，匹配下一条子序列；

(2.9)扫描数据流完毕，返回结果集R。

本发明的有益效果是：

1、对数据流的分段采用了简单有效的编码方法和转折模式识别方法，可高效识别转折点，保证了切分出的子序列具有完整的波动趋势。

2、对数据流局部特征的抽取采用了切比雪夫多项式分解方法，对原始数据具有更小的拟合误差，并且可捕捉数据流的主要波动成分，滤除噪声，从而保证较高的匹配精度。

3、在模式匹配阶段，对数据流实现了增量式的动态时间弯曲距离计算，保证了较高的模式匹配效率。

附图说明

图1为基于动态时间弯曲的数据流模式匹配方法流程图；

图2为分段特征抽取流程图；

图3为在线模式匹配流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明基于动态时间弯曲的数据流模式匹配方法，包括以下步骤：

(1)分段特征抽取，如图2所示，具体包括以下子步骤：

(1.1)依次计算数据流T＝{t₁,t₂,…,t_i,…,t_n}的相邻3点的平均值，对其做移动平滑处理，得到平滑数据流T'＝{t'₁,t'₂,…,t'_i,…,t'_n}；

(1.2)基于滑动窗口依次截取T'的相邻3点并计算平均值，通过判断各点与平均值的大小关系对其编码，得到T的编码序列C_T，并定义转折模式表TP_table，该过程包括以下子步骤：

(1.2.1)采用滑动窗口W，依次截取T'的相邻3点<t'_i-1,t'_i,t'_i+1>，并计算平均值m^t _i；

(1.2.2)判断<t'_i-1,t'_i,t'_i+1>的各点与平均值m^t _i的关系，若t'_i>m^t _i，则将其编码为1，表示为code(t'_i)＝1；否则code(t'_i)＝0，由此将<t'_i-1,t'_i,t'_i+1>编码为d^t _i＝<c^t _i-1,c^t _i,c^t _i+1>，得到T的编码序列C_T＝{d^t ₁,d^t ₂,...,d^t _n}；

(1.2.3)根据编码定义所有转折模式TP，得到转折模式表TP_table＝{上升-下降：001-100,001-110,011-100,011-110,001/011-010-100/110；下降-上升：100-001,100-011,110-001,110-011,100/110-101-001/011}；

(1.3)顺序扫描C_T，对每对相邻编码组合<d^t _i,d^t _i+1>查询TP_table，如果模式匹配，则将i作为分段点，得到T的子序列S_i＝{s₁,s₂,…,s_j,…,s_x}，x表示S_i的长度；

(1.4)计算S_i的采样点的平均值m^s _i和标准差σ^s _i，根据公式(1)对S_i做Z-规范化处理，得到规范化的子序列S_i'＝{s'₁,s'₂,…,s'_j,…,s'_x}；

{s^{'}}_{j} = \frac{s_{j} - m_{i}^{s}}{σ_{i}^{s}} - - - (1)

(1.5)根据公式(2)～(4)，对S_i'做切比雪夫因式分解，提取前a个切比雪夫系数c_i作为特征，构造S_i'的子序列特征向量V'_i＝[c₁,c₂,...,c_a]；

F_δ(cos(t))＝cos(δ·t) (2)

S_{i} (t) &cong; Σ_{i = 0}^{δ} c_{i} F_{i} (t) - - - (3)

c_{i} = \frac{k}{δ} Σ_{j = 1}^{δ} S_{i} (t_{j}) F_{i} (t_{j}) - - - (4)

其中，δ表示切比雪夫多项式的阶数，当δ＝0时，k＝1，否则，k＝2；

(2)在线模式匹配，如图3所示，具体包括以下子步骤：

(2.1)根据步骤(1)对长度为m的查询序列Q＝{q₁,q₂,…,q_i,…,q_m}做相同处理，将其切分为M条子段，得到Q的分段切比雪夫近似表示PCHA(Q)＝{V₁,...,V_M}；

(2.3)根据公式(5)计算V₁与V'₁的距离dist(V₁,V'₁)，记入Table的单元格cell(1,1)，作为动态规划最优路径ξ的起始路径点p_1,1；

dist (V, V^{'}) = Σ_{i = 1}^{a} \frac{| c_{i} | - | {c^{'}}_{i} |}{| c_{i} + {c^{'}}_{i} |} - - - (5)

(2.7)比较cell(M,N)与ε的大小，若cell(M,N)≤ε，则将ξ所对应的数据流子序列S_ξ加入模式匹配结果集R，并以cell(V₁,V'_N+1)作为下一条最优路径ξ'的起点；若cell(M,N)>ε,则以dist(V₁,V'₂)作为下一条最优路径ξ'的起点；

(2.8)重复执行步骤(2.3)～(2.7)计算ξ'，匹配下一条子序列；

(2.9)扫描数据流完毕，输出结果集R。

本发明针对工业界所面临的高速数据流上的模式匹配问题，提出了基于动态时间弯曲的数据流模式匹配方法，可实现对高速动态数据流的实时分段，并且能够提取数据流的局部波动成份用于动态时间弯曲距离度量，保证了较高的模式匹配精度。同时，高效的增量式计算方法保证了基于动态时间弯曲距离进行模式匹配的高效性。本发明在对数据流进行异常检测、风险监控、自动应答等任务中可发挥重要作用，极大的满足了工业生产的应用需求。

Claims

1.一种基于动态时间弯曲的数据流模式匹配方法，其特征在于，包括以下步骤：

(1)分段特征抽取，具体包括以下子步骤：

(1.1)对数据流T做移动平滑处理，得到平滑数据流T'；

(1.4)对S_i做Z-规范化处理，得到规范化的子段S_i'；

(2)在线模式匹配，具体包括以下子步骤：

(2.8)重复执行步骤(2.3)～(2.7)计算ξ'，匹配下一条子序列；

(2.9)扫描数据流完毕，返回结果集R。