CN104850740A - 基于动态时间弯曲的数据流模式匹配方法 - Google Patents

基于动态时间弯曲的数据流模式匹配方法 Download PDF

Info

Publication number
CN104850740A
CN104850740A CN201510226281.7A CN201510226281A CN104850740A CN 104850740 A CN104850740 A CN 104850740A CN 201510226281 A CN201510226281 A CN 201510226281A CN 104850740 A CN104850740 A CN 104850740A
Authority
CN
China
Prior art keywords
cell
dist
data flow
subsegment
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510226281.7A
Other languages
English (en)
Inventor
蔡青林
梅寒蕾
陈岭
孙建伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510226281.7A priority Critical patent/CN104850740A/zh
Publication of CN104850740A publication Critical patent/CN104850740A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态时间弯曲的数据流模式匹配方法。首先,通过编码识别数据流转折模式,将数据流分割为包含完整波动趋势的子段;然后,利用第一类切比雪夫多项式分解子段,提取切比雪夫系数作为子段特征;最后,在数据流上基于局部模式匹配进行增量式的动态规划计算,实现快速的数据流模式匹配。本发明在匹配精度和计算效率方面都以较大的程度优于现有的方法,在人们的日常活动和工业生产中可发挥重要作用,如在金融交易、交通管理、气象观测、工业流程监控、医疗诊断等应用中,对大规模采样数据或高速动态数据流进行异常检测、风险监控、自动应答等。

Description

基于动态时间弯曲的数据流模式匹配方法
技术领域
本发明涉及数据库、数据挖掘、信息检索等领域,尤其涉及数据流管理和模式匹配。
背景技术
数据流广泛存在于人们的日常生活及工业生产中,如基金或股票的实时交易数据,零售市场的日销量数据,流程工业的传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据,实时天气温度及空气质量指数等。对数据流的模式匹配,在工业界和金融界有着广泛的应用需求。比如,在股票市场的实时交易中,交易员想要从高速流来的实时股票价格数据中,查询出与特定波动模式最相似的价格子序列作为参考,从中获取有价值的知识和启发,完成交易行为。影响模式匹配精度和效率的关键因素是衡量子序列相似性的距离度量方法。
目前工业界最常用的序列相似性度量方法可分为锁步度量和弹性度量。前者采用了一对一的度量方式,即序列T1和T2之间的距离是通过严格比较T1和T2在各自第i个位置的点对,再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离,它们都是Lp-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参数等优点;但是,其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感,并且只能用于度量等长的序列。弹性度量方法采用了一对多的度量方式,即序列T1的一个点可以与T2的多个连续点相对应,通过动态规划方法遍历T1和T2的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比,弹性度量能够实现两条序列的最佳对齐匹配,可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化,对噪声和异常点具有鲁棒性,因此,弹性度量具有较高的度量精度。但是,该类方法具有较高的计算复杂度,当度量高维序列时会导致高昂的时间开销,难以在工业生产中处理高速的动态数据流。
基于序列特征计算弹性度量是改进其高计算复杂度的一种有效方法,即首先采用数据表示方法将原始序列映射到低维的特征空间,然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者,变换参数不受单独的序列影响,而始终保持不变;该类表示大多基于频谱分解实现,如离散傅里叶变换、离散小波变换、离散余弦变换,它们主要通过对原始序列做相应的频域变换,提取主要的频谱系数作为特征;该类方法各有缺陷,如离散傅里叶变换只能提取总体形态特征而忽略了局部特征,离散小波变换只能处理长度为2的指数次的序列,离散余弦变换的信息丢失较多,对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身;通过增加数据敏感的选择处理过程,可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等,前三种都需要先对原始序列进行分段,然后对每一子段单独处理:分段聚集近似是对各段求平均值;分段线性近似是对各段做线段拟合;符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号;由于它们所提取的特征较为单一,使其对序列波动模式的表达能力较弱。奇异值分解和主成分分析是通过对所有序列做统一的特征矩阵分解实现的;这两类方法的典型缺陷是,它们具有很高的计算复杂度,而且分解过程只能在内存完成,数据规模的可扩展性很低。
发明内容
本发明要解决的问题是如何实现在高速动态数据流中实时匹配预设的波动模式,以获取最相似的子序列。为了解决该问题,本发明提出了基于动态时间弯曲的数据流模式匹配方法。
本发明的目的是通过以下技术方案实现的:一种基于动态时间弯曲的数据流模式匹配方法,包括以下步骤:
(1)分段特征抽取,具体包括以下子步骤:
(1.1)对数据流T做移动平滑处理,得到平滑数据流T';
(1.2)基于滑动窗口依次截取T'的相邻3点,并计算平均值,通过判断各点与平均值的大小关系对其编码,得到T的编码序列CT,并定义转折模式表TP_table;
(1.3)顺序扫描CT,对每对相邻编码组合查询TP_table中的转折模式,如果模式匹配,则将该编码组合所在位置作为T的分段点,得到子段Si
(1.4)对Si做Z-规范化处理,得到规范化的子段Si';
(1.5)采用第一类切比雪夫多项式分解S'i,计算前a个多项式系数ci作为子段特征,构造子段特征向量V'i=[c1,c2,...,ca];
(1.6)扫描完毕,将现有的T切分为X条子段,保存它的分段切比雪夫近似表示PCHA(T)={V'1,...,V'X};
(2)在线模式匹配,具体包括以下子步骤:
(2.1)根据步骤(1)对查询序列Q做相同处理,将其切分为M条子段,得到Q的分段切比雪夫近似表示PCHA(Q)={V1,...,VM};
(2.2)根据实际应用需求设定模式匹配阈值ε,初始化动态规划表
(2.3)计算V1与V'1的距离dist(V1,V'1),记入Table的单元格cell(1,1),作为动态规划最优路径ξ的起始路径点p1,1
(2.4)计算{dist(V2,V'1),dist(V2,V'2),dist(V1,V'2)},通过比较得到三者的最小值min,将min+dist(V1,V'1)记入{cell(2,1),cell(2,2),cell(1,2)}中的相应单元格,作为ξ的第二个路径点;
(2.5)假设ξ的当前路径点是pi,j,则计算{dist(Vi+1,V'j),dist(Vi+1,V'j+1),dist(Vi,V'j+1)},并筛选其中最小值min,将min+dist(Vi,V'j)记入{cell(i+1,j),cell(i+1,j+1),cell(i,j+1)}中的相应单元格,作为ξ的最新路径点;
(2.6)循环执行步骤(2.5),直至PCHA(Q)完全匹配,得到最优路径ξ={p1,1,…,pM-1,j,pM,N},N表示与Q匹配的子序列长度;
(2.7)比较cell(M,N)与ε的大小,若cell(M,N)≤ε,则将ξ所对应的数据流子序列加入模式匹配结果集R,并以cell(V1,V'N+1)作为下一条最优路径ξ'的起点;若cell(M,N)>ε,则以dist(V1,V'2)作为下一条最优路径ξ'的起点;
(2.8)重复执行步骤(2.3)~(2.7)计算ξ',匹配下一条子序列;
(2.9)扫描数据流完毕,返回结果集R。
本发明的有益效果是:
1、对数据流的分段采用了简单有效的编码方法和转折模式识别方法,可高效识别转折点,保证了切分出的子序列具有完整的波动趋势。
2、对数据流局部特征的抽取采用了切比雪夫多项式分解方法,对原始数据具有更小的拟合误差,并且可捕捉数据流的主要波动成分,滤除噪声,从而保证较高的匹配精度。
3、在模式匹配阶段,对数据流实现了增量式的动态时间弯曲距离计算,保证了较高的模式匹配效率。
附图说明
图1为基于动态时间弯曲的数据流模式匹配方法流程图;
图2为分段特征抽取流程图;
图3为在线模式匹配流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明基于动态时间弯曲的数据流模式匹配方法,包括以下步骤:
(1)分段特征抽取,如图2所示,具体包括以下子步骤:
(1.1)依次计算数据流T={t1,t2,…,ti,…,tn}的相邻3点的平均值,对其做移动平滑处理,得到平滑数据流T'={t'1,t'2,…,t'i,…,t'n};
(1.2)基于滑动窗口依次截取T'的相邻3点并计算平均值,通过判断各点与平均值的大小关系对其编码,得到T的编码序列CT,并定义转折模式表TP_table,该过程包括以下子步骤:
(1.2.1)采用滑动窗口W,依次截取T'的相邻3点<t'i-1,t'i,t'i+1>,并计算平均值mt i
(1.2.2)判断<t'i-1,t'i,t'i+1>的各点与平均值mt i的关系,若t'i>mt i,则将其编码为1,表示为code(t'i)=1;否则code(t'i)=0,由此将<t'i-1,t'i,t'i+1>编码为dt i=<ct i-1,ct i,ct i+1>,得到T的编码序列CT={dt 1,dt 2,...,dt n};
(1.2.3)根据编码定义所有转折模式TP,得到转折模式表TP_table={上升-下降:001-100,001-110,011-100,011-110,001/011-010-100/110;下降-上升:100-001,100-011,110-001,110-011,100/110-101-001/011};
(1.3)顺序扫描CT,对每对相邻编码组合<dt i,dt i+1>查询TP_table,如果模式匹配,则将i作为分段点,得到T的子序列Si={s1,s2,…,sj,…,sx},x表示Si的长度;
(1.4)计算Si的采样点的平均值ms i和标准差σs i,根据公式(1)对Si做Z-规范化处理,得到规范化的子序列Si'={s'1,s'2,…,s'j,…,s'x};
s &prime; j = s j - m i s &sigma; i s - - - ( 1 )
(1.5)根据公式(2)~(4),对Si'做切比雪夫因式分解,提取前a个切比雪夫系数ci作为特征,构造Si'的子序列特征向量V'i=[c1,c2,...,ca];
Fδ(cos(t))=cos(δ·t)        (2)
S i ( t ) &cong; &Sigma; i = 0 &delta; c i F i ( t ) - - - ( 3 )
c i = k &delta; &Sigma; j = 1 &delta; S i ( t j ) F i ( t j ) - - - ( 4 )
其中,δ表示切比雪夫多项式的阶数,当δ=0时,k=1,否则,k=2;
(1.6)扫描完毕,将现有的T切分为X条子段,保存它的分段切比雪夫近似表示PCHA(T)={V'1,...,V'X};
(2)在线模式匹配,如图3所示,具体包括以下子步骤:
(2.1)根据步骤(1)对长度为m的查询序列Q={q1,q2,…,qi,…,qm}做相同处理,将其切分为M条子段,得到Q的分段切比雪夫近似表示PCHA(Q)={V1,...,VM};
(2.2)根据实际应用需求设定模式匹配阈值ε,初始化动态规划表
(2.3)根据公式(5)计算V1与V'1的距离dist(V1,V'1),记入Table的单元格cell(1,1),作为动态规划最优路径ξ的起始路径点p1,1
dist ( V , V &prime; ) = &Sigma; i = 1 a | c i | - | c &prime; i | | c i + c &prime; i | - - - ( 5 )
(2.4)计算{dist(V2,V'1),dist(V2,V'2),dist(V1,V'2)},通过比较得到三者的最小值min,将min+dist(V1,V'1)记入{cell(2,1),cell(2,2),cell(1,2)}中的相应单元格,作为ξ的第二个路径点;
(2.5)假设ξ的当前路径点是pi,j,则计算{dist(Vi+1,V'j),dist(Vi+1,V'j+1),dist(Vi,V'j+1)},并筛选其中最小值min,将min+dist(Vi,V'j)记入{cell(i+1,j),cell(i+1,j+1),cell(i,j+1)}中的相应单元格,作为ξ的最新路径点;
(2.6)循环执行步骤(2.5),直至PCHA(Q)完全匹配,得到最优路径ξ={p1,1,…,pM-1,j,pM,N},N表示与Q匹配的子序列长度;
(2.7)比较cell(M,N)与ε的大小,若cell(M,N)≤ε,则将ξ所对应的数据流子序列Sξ加入模式匹配结果集R,并以cell(V1,V'N+1)作为下一条最优路径ξ'的起点;若cell(M,N)>ε,则以dist(V1,V'2)作为下一条最优路径ξ'的起点;
(2.8)重复执行步骤(2.3)~(2.7)计算ξ',匹配下一条子序列;
(2.9)扫描数据流完毕,输出结果集R。
本发明针对工业界所面临的高速数据流上的模式匹配问题,提出了基于动态时间弯曲的数据流模式匹配方法,可实现对高速动态数据流的实时分段,并且能够提取数据流的局部波动成份用于动态时间弯曲距离度量,保证了较高的模式匹配精度。同时,高效的增量式计算方法保证了基于动态时间弯曲距离进行模式匹配的高效性。本发明在对数据流进行异常检测、风险监控、自动应答等任务中可发挥重要作用,极大的满足了工业生产的应用需求。

Claims (1)

1.一种基于动态时间弯曲的数据流模式匹配方法,其特征在于,包括以下步骤:
(1)分段特征抽取,具体包括以下子步骤:
(1.1)对数据流T做移动平滑处理,得到平滑数据流T';
(1.2)基于滑动窗口依次截取T'的相邻3点,并计算平均值,通过判断各点与平均值的大小关系对其编码,得到T的编码序列CT,并定义转折模式表TP_table;
(1.3)顺序扫描CT,对每对相邻编码组合查询TP_table中的转折模式,如果模式匹配,则将该编码组合所在位置作为T的分段点,得到子段Si
(1.4)对Si做Z-规范化处理,得到规范化的子段Si';
(1.5)采用第一类切比雪夫多项式分解S'i,计算前a个多项式系数ci作为子段特征,构造子段特征向量V'i=[c1,c2,...,ca];
(1.6)扫描完毕,将现有的T切分为X条子段,保存它的分段切比雪夫近似表示PCHA(T)={V'1,...,V'X};
(2)在线模式匹配,具体包括以下子步骤:
(2.1)根据步骤(1)对查询序列Q做相同处理,将其切分为M条子段,得到Q的分段切比雪夫近似表示PCHA(Q)={V1,...,VM};
(2.2)根据实际应用需求设定模式匹配阈值ε,初始化动态规划表
(2.3)计算V1与V'1的距离dist(V1,V'1),记入Table的单元格cell(1,1),作为动态规划最优路径ξ的起始路径点p1,1
(2.4)计算{dist(V2,V'1),dist(V2,V'2),dist(V1,V'2)},通过比较得到三者的最小值min,将min+dist(V1,V'1)记入{cell(2,1),cell(2,2),cell(1,2)}中的相应单元格,作为ξ的第二个路径点;
(2.5)假设ξ的当前路径点是pi,j,则计算{dist(Vi+1,V'j),dist(Vi+1,V'j+1),dist(Vi,V'j+1)},并筛选其中最小值min,将min+dist(Vi,V'j)记入{cell(i+1,j),cell(i+1,j+1),cell(i,j+1)}中的相应单元格,作为ξ的最新路径点;
(2.6)循环执行步骤(2.5),直至PCHA(Q)完全匹配,得到最优路径ξ={p1,1,…,pM-1,j,pM,N},N表示与Q匹配的子序列长度;
(2.7)比较cell(M,N)与ε的大小,若cell(M,N)≤ε,则将ξ所对应的数据流子序列加入模式匹配结果集R,并以cell(V1,V'N+1)作为下一条最优路径ξ'的起点;若cell(M,N)>ε,则以dist(V1,V'2)作为下一条最优路径ξ'的起点;
(2.8)重复执行步骤(2.3)~(2.7)计算ξ',匹配下一条子序列;
(2.9)扫描数据流完毕,返回结果集R。
CN201510226281.7A 2015-05-06 2015-05-06 基于动态时间弯曲的数据流模式匹配方法 Pending CN104850740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510226281.7A CN104850740A (zh) 2015-05-06 2015-05-06 基于动态时间弯曲的数据流模式匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510226281.7A CN104850740A (zh) 2015-05-06 2015-05-06 基于动态时间弯曲的数据流模式匹配方法

Publications (1)

Publication Number Publication Date
CN104850740A true CN104850740A (zh) 2015-08-19

Family

ID=53850381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510226281.7A Pending CN104850740A (zh) 2015-05-06 2015-05-06 基于动态时间弯曲的数据流模式匹配方法

Country Status (1)

Country Link
CN (1) CN104850740A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944146A (zh) * 2017-11-28 2018-04-20 河海大学 基于主成分分析的多元水文时间序列匹配模型构建方法
US10168449B2 (en) * 2016-08-15 2019-01-01 International Business Machines Corporation Correcting computer model weather forecasts using a hybrid analog method with dynamic time warping
WO2019018380A1 (en) * 2017-07-18 2019-01-24 Satori Worldwide, Llc DETECTION OF ANOMALY ON LIVE DATA STREAMS COMPRISING EXTREMELY LOW LATENCES

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10168449B2 (en) * 2016-08-15 2019-01-01 International Business Machines Corporation Correcting computer model weather forecasts using a hybrid analog method with dynamic time warping
WO2019018380A1 (en) * 2017-07-18 2019-01-24 Satori Worldwide, Llc DETECTION OF ANOMALY ON LIVE DATA STREAMS COMPRISING EXTREMELY LOW LATENCES
CN107944146A (zh) * 2017-11-28 2018-04-20 河海大学 基于主成分分析的多元水文时间序列匹配模型构建方法

Similar Documents

Publication Publication Date Title
CN104462217B (zh) 一种基于分段统计近似表示的时间序列相似性度量方法
CN104794484B (zh) 基于分段正交多项式分解的时序数据最近邻分类方法
CN104820673B (zh) 基于自适应性分段统计近似的时间序列相似性度量方法
CN104572886B (zh) 基于k线图表示的金融时间序列相似性查询方法
Lin et al. Multidimensional KNN algorithm based on EEMD and complexity measures in financial time series forecasting
CN110232483B (zh) 深度学习负荷预测方法、装置及终端设备
US10496730B2 (en) Factor analysis device, factor analysis method, and factor analysis program
EP3193227B1 (en) Entropy-based validation of sensor measurements
CN110444011B (zh) 交通流高峰识别方法、装置、电子设备及存储介质
CN105989597B (zh) 基于像素选择过程的高光谱图像异常目标检测方法
CN116842326B (zh) 一种基于光学手段的畜牧养殖水质监测系统
CN104850740A (zh) 基于动态时间弯曲的数据流模式匹配方法
US20230243744A1 (en) Method and system for automatically detecting and reconstructing spectrum peaks in near infrared spectrum analysis of tea
CN115329895A (zh) 多源异构数据降噪分析处理方法
Li Piecewise aggregate representations and lower-bound distance functions for multivariate time series
CN111177216A (zh) 综合能源消费者行为特征的关联规则生成方法及装置
CN103310463A (zh) 基于概率主成分分析和压缩感知的在线目标跟踪方法
Zhou et al. Anomaly detection via a combination model in time series data
CN101799865B (zh) 基于椭圆傅立叶分解的行人时空轮廓表示方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN117094451A (zh) 一种耗电量的预测方法、装置及终端
Reddy et al. A feature fusion technique for improved non-intrusive load monitoring
Kaya et al. SAGA: A novel signal alignment method based on genetic algorithm
CN114325081A (zh) 一种基于多模态特征的非侵入式负荷识别方法
Zhang et al. Corner detection based on tangent-to-point distance accumulation technique

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150819