CN104462217B - 一种基于分段统计近似表示的时间序列相似性度量方法 - Google Patents

一种基于分段统计近似表示的时间序列相似性度量方法 Download PDF

Info

Publication number
CN104462217B
CN104462217B CN201410626154.1A CN201410626154A CN104462217B CN 104462217 B CN104462217 B CN 104462217B CN 201410626154 A CN201410626154 A CN 201410626154A CN 104462217 B CN104462217 B CN 104462217B
Authority
CN
China
Prior art keywords
lpv
psa
local mode
time series
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410626154.1A
Other languages
English (en)
Other versions
CN104462217A (zh
Inventor
蔡青林
陈岭
孙建伶
陈蕾英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410626154.1A priority Critical patent/CN104462217B/zh
Publication of CN104462217A publication Critical patent/CN104462217A/zh
Application granted granted Critical
Publication of CN104462217B publication Critical patent/CN104462217B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于分段统计近似表示的时间序列相似性度量方法,包括特征提取和动态模式匹配步骤。首先对时间序列切分子序列,依次提取每条子序列的多种统计特征,构造局部模式特征向量;然后利用加权欧氏距离计算局部模式特征向量之间的距离,实现局部模式匹配,并以此作为动态规划算法的子程序,实现全局模式匹配。本发明在度量精度和计算效率方面都以较大的程度优于其他度量方法,在人们的日常活动和工业生产中可发挥重要作用,如在金融交易、交通监管、空气质量和温度监测、工业流程监控、医疗诊断等应用中,对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理。

Description

一种基于分段统计近似表示的时间序列相似性度量方法
技术领域
本发明涉及数据库、数据挖掘、机器学习、信息检索等领域,尤其涉及一种基于分段统计近似表示的时间序列相似性度量方法。
背景技术
时间序列广泛存在于人们的日常生活及工业生产中,如基金或股票的实时交易数据,零售市场的日销量数据,流程工业的传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据,实时天气温度及空气质量指数等。工业界迄今提出了许多时间序列分析方法,包括相似性查询方法、分类方法、聚类方法、预测方法、异常检测方法等。其中,许多方法都需要对时间序列进行相似性判断,比如kNN分类器、k-means聚类方法等,因此,时间序列相似性度量方法在工业界有着广泛的应用需求。
目前工业界最常用的时间序列相似性度量方法可分为锁步度量方法和弹性度量方法。前者采用了一对一的度量方式,即时间序列T1和T2之间的距离是通过严格比较T1和T2在各自第i个位置的点对,再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离,其都是Lp-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参等优点;但是,其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感,并且只能用于度量等长的时间序列。弹性度量方法采用了一对多的度量方式,即时间序列T1的一个点可以与T2的多个连续点相对应,通过动态规划方法遍历T1和T2的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比,弹性度量能够实现两条时间序列的最佳对齐匹配,可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化,对噪声和异常点具有鲁棒性,因此,弹性度量具有较高的度量精度。但是,该类方法具有较高的计算复杂度,当用于度量高维的时间序列时会导致高昂的时间开销,难以在工业生产中处理大规模的时间序列或高速的动态数据流。
基于时间序列的特征计算弹性度量是改进其高计算复杂度的一种有效方法,即首先采用数据表示方法将原始时间序列映射到低维的特征空间,然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者,变换参数不受单独的时间序列影响,而始终保持不变;该类表示大多基于频谱分解实现,如离散傅里叶变换、离散小波变换、离散余弦变换,其主要通过对原始时间序列做相应的频域变换,提取主要的频谱系数作为特征;该类方法各有缺陷,如离散傅里叶变换只能提取总体形态特征而忽略了局部特征,离散小波变换只能处理长度为2的指数次的时间序列,离散余弦变换的信息丢失较多,对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身;通过增加数据敏感的选择处理过程,可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等,前三种都需要先对原始时间序列进行分段,然后对每一子段单独处理(分段聚集近似是对各段求平均值,分段线性近似是对各段做线段拟合,符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号),由于其所提取的特征较为单一,使其对时间序列波动模式的表达能力较弱。奇异值分解和主成分分析通过对所有时间序列做统一的特征矩阵分解实现,这两类方法的典型缺陷是计算复杂度高,而且分解过程只能在内存完成,数据规模的可扩展性很低。
发明内容
本发明要解决的问题是如何高效及高精度地度量时间序列之间的相似性。为了解决该问题,本发明提出了一种基于分段统计近似表示的时间序列相似性度量方法。
本发明的目的是通过以下技术方案来实现的:一种基于分段统计近似表示的时间序列相似性度量方法,包括以下步骤:
(1)特征提取,具体包括以下子步骤:
(1.1)读取原始时间序列T和Q;
(1.2)对T和Q做Z-规范化处理,得到规范化的时间序列T'和Q';
(1.3)采用长度为l的窗口将T'和Q'分别切分为M和N条子序列;
(1.4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q),并初始化为空集;依次对T'和Q'的每条子序列计算平均值μ、标准差σ、离散系数CV、偏态SK、峰态K,构造局部模式特征向量LPV=[μ,σ,CV,SK,K];将T的M个局部模式特征向量插入PSA(T),将Q的N个局部模式特征向量插入PSA(Q);
(2)动态模式匹配,具体包括以下子步骤:
(2.1)构建动态规划表Table(M,N),并进行初始化;
(2.2)依次计算PSA(T)的第1个局部模式特征向量LPV1与PSA(Q)的N个局部模式特征向量LPV'1~LPV'N之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPV1,LPV'N)},并存入Table的第1行Table(1,1:N);
(2.3)依次计算PSA(Q)的第1个局部模式特征向量LPV'1与PSA(T)的M个局部模式特征向量LPV1~LPVM之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPVM,LPV'1)},并存入Table的第1列Table(1:M,1);
(2.4)利用动态规划方法,依次扫描PSA(T)的第2到第M个局部模式特征向量LPV2~LPVM和PSA(Q)的第2到第N个局部模式特征向量LPV'2~LPV'N,基于加权欧氏距离计算Table(2:M,2:N)的每个单元值;
(2.5)返回动态规划表的第M行第N列单元值作为最终的度量结果,实现时间序列相似性度量。
本发明的有益效果是:
1、在特征提取阶段,采用了分段表示方法,对每个子段提取多种统计特征,从多方面反映了时间序列的波动特性,可全面捕捉时间序列的局部波动模式,实现了较高的时间序列局部模式匹配精度。
2、在动态模式匹配阶段,基于局部模式层次的动态规划计算,克服了时间弯曲造成的局部模式之间的相位偏移问题,实现了较高的时间序列全局模式匹配精度。
3、在度量精度和计算效率两个方面,本发明都在较大程度上超越了现有弹性度量方法。
附图说明
图1为基于分段统计近似表示的时间序列相似性度量方法流程图;
图2为采用分段统计近似表示时间序列的流程图;
图3为时间序列相似性计算的动态模式匹配过程。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明一种基于分段统计近似表示的时间序列相似性度量方法,包括以下步骤:
(1)特征提取,如图2所示,具体包括以下子步骤:
(1.1)读取原始时间序列T={t1,t2,…,ti,…,tn}和Q={q1,q2,…,qi,…,qn};
(1.2)对于时间序列T和Q,分别计算T的采样点的平均值m'和标准差σ',Q的采样点的平均值m'和标准差σ',根据公式(1)对T和Q做Z-规范化处理,得到规范化的时间序列T'={t'1,t'2,…,t'i,…,t'n}和Q'={q'1,q'2,…,q'i,…,q'n};
(1.3)采用长度为l的窗口,对步骤1.2处理得到的T'和Q'分别切分为M和N条不重叠的子序列,ST'={S1,S2,...,Si,...,SM},SQ'={S'1,S'2,,...,S'i,...,S'N},其中Si={s1,s2,…,si,…,sl},S'i={s'1,s'2,…,s'i,…,s'l};
(1.4)依次对T'和Q'的每条子序列Si和S'i计算多种统计特征,构造局部模式特征向量LPVi和LPV'i,得到T和Q的分段统计近似表示PSA(T)和PSA(Q),该过程包括以下子步骤:
(1.4.1)初始化T和Q的分段统计近似表示PSA(T)和PSA(Q)为空集;
(1.4.2)依次扫描ST'和SQ',根据公式(2),计算每条子序列Si和S'i的平均值μi和μ'i
(1.4.3)依次扫描ST'和SQ',依次根据公式(3)~(7),计算每条子序列Si和S'i的方差D、标准差σ、离散系数CV、偏态SK、峰态K,分别构造局部模式特征向量LPVi=[μi,Dii,CVi,SKi,Ki]和LPV'i=[μ'i,D'i,σ'i,CV'i,SK'i,K'i],并分别插入PSA(T)和PSA(Q);
(1.4.4)扫描完毕,返回T和Q的分段统计近似表示PSA(T)和PSA(Q)。
(2)动态模式匹配,如图3所示,具体包括以下子步骤:
(2.1)构建动态规划表Table(M,N),并初始化;
(2.2)根据公式(8),依次计算PSA(T)的第1个局部模式特征向量LPV1与PSA(Q)的N个局部模式特征向量LPV'1~LPV'N之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPV1,LPV'N)},并依次存入Table的第1行Table(1,1:N);
其中,ak表示局部模式特征向量第k个特征的权重系数,vk和v'k分别表示LPV和LPV'的第k个元素。
(2.3)根据公式(8),依次计算PSA(Q)的第1个局部模式特征向量LPV'1与PSA(T)的M个局部模式特征向量LPV1~LPVM之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPVM,LPV'1)},并依次存入Table的第1列Table(1:M,1);
(2.4)利用动态规划方法,基于公式(8)计算Table(2:M,2:N)的每个单元值,该过程包括以下子步骤:
(2.4.1)顺序扫描LPV2~LPVM,对于PSA(T)的第i个局部模式特征向量LPVi,依次计算其与LPV'2~LPV'N之间的加权欧氏距离{dist(LPVi,LPV'2),...,dist(LPVi,LPV'N)};
(2.4.2)当扫描LPVi与LPV'j时,首先比较Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小,选择最小值记为min,然后计算dist(LPVi,LPV'j)+min的值赋予Table(i,j)。
(2.5)返回动态规划表的第M行第N列单元值作为最终的度量结果。
时间序列相似性度量,在人们的日常活动及工业生产中可发挥重要作用,有着广泛的应用需求。本发明针对工业界当前提出的众多时间序列分析方法,提出了一种基于分段统计近似表示的时间序列相似性度量方法,可以对时间序列实现高效及高精度地相似性度量,由此实现对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理,以满足工业生产的应用需求。

Claims (1)

1.一种基于分段统计近似表示的时间序列相似性度量方法,其特征在于,包括以下步骤:
(1)特征提取,具体包括以下子步骤:
(1.1)读取原始时间序列T和Q;
(1.2)对T和Q做Z-规范化处理,得到规范化的时间序列T'和Q';
(1.3)采用长度为l的窗口将T'和Q'分别切分为M和N条子序列;
(1.4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q),并将PSA(T)和PSA(Q)初始化为空集;依次对T'和Q'的每条子序列计算平均值μ、标准差σ、离散系数CV、偏态SK、峰态K,构造局部模式特征向量LPV=[μ,σ,CV,SK,K];将T的M个局部模式特征向量插入PSA(T),将Q的N个局部模式特征向量插入PSA(Q);
(2)动态模式匹配,具体包括以下子步骤:
(2.1)构建动态规划表Table(M,N),并进行初始化;
(2.2)依次计算PSA(T)的第1个局部模式特征向量LPV1与PSA(Q)的N个局部模式特征向量LPV'1~LPV'N之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPV1,LPV'N)},并存入Table的第1行Table(1,1:N);
(2.3)依次计算PSA(Q)的第1个局部模式特征向量LPV'1与PSA(T)的M个局部模式特征向量LPV1~LPVM之间的加权欧氏距离{dist(LPV1,LPV'1),...,dist(LPVM,LPV'1)},并存入Table的第1列Table(1:M,1);
(2.4)利用动态规划方法,依次扫描PSA(T)的第2到第M个局部模式特征向量LPV2~LPVM和PSA(Q)的第2到第N个局部模式特征向量LPV'2~LPV'N,基于加权欧氏距离计算Table(2:M,2:N)的每个单元值;该步骤包括以下子步骤:
(2.4.1)顺序扫描LPV2~LPVM,对于第i个局部模式特征向量LPVi,依次计算其与LPV'2~LPV'N之间的加权欧氏距离{dist(LPVi,LPV'2),...,dist(LPVi,LPV'N)};
(2.4.2)根据先行后列的顺序扫描Table(2:M,2:N),在每个单元Table(i,j)中,首先比较Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小,选择最小值记为min,然后计算dist(LPVi,LPV'j)+min的值赋予Table(i,j);
(2.5)返回动态规划表的第M行第N列单元值作为最终的度量结果,实现时间序列相似性度量。
CN201410626154.1A 2014-11-09 2014-11-09 一种基于分段统计近似表示的时间序列相似性度量方法 Expired - Fee Related CN104462217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410626154.1A CN104462217B (zh) 2014-11-09 2014-11-09 一种基于分段统计近似表示的时间序列相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410626154.1A CN104462217B (zh) 2014-11-09 2014-11-09 一种基于分段统计近似表示的时间序列相似性度量方法

Publications (2)

Publication Number Publication Date
CN104462217A CN104462217A (zh) 2015-03-25
CN104462217B true CN104462217B (zh) 2017-09-29

Family

ID=52908253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410626154.1A Expired - Fee Related CN104462217B (zh) 2014-11-09 2014-11-09 一种基于分段统计近似表示的时间序列相似性度量方法

Country Status (1)

Country Link
CN (1) CN104462217B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820673B (zh) * 2015-03-27 2018-03-06 浙江大学 基于自适应性分段统计近似的时间序列相似性度量方法
CN104794484B (zh) * 2015-04-07 2018-03-06 浙江大学 基于分段正交多项式分解的时序数据最近邻分类方法
CN104731972A (zh) * 2015-04-13 2015-06-24 苏州大学张家港工业技术研究院 一种时间序列分类方法和装置
CN104850998B (zh) * 2015-04-15 2018-11-02 浙江大学 一种基于聚类的移动应用下载量预测方法
CN105046203B (zh) * 2015-06-24 2018-03-30 哈尔滨工业大学 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法
NL2015680B1 (en) * 2015-10-29 2017-05-31 Opt/Net Consulting B V Anomaly detection in a data stream.
CN105513431B (zh) * 2015-11-30 2017-12-26 中国民用航空厦门空中交通管理站 空中交通流量管理实操标准的动态定值方法及系统
WO2018066108A1 (ja) * 2016-10-06 2018-04-12 三菱電機株式会社 時系列データ処理装置
CN107194184B (zh) * 2017-05-31 2020-11-17 成都数联易康科技有限公司 基于时间序列相似性分析的在院人次异常检测方法及系统
CN107944146A (zh) * 2017-11-28 2018-04-20 河海大学 基于主成分分析的多元水文时间序列匹配模型构建方法
CN109325060B (zh) * 2018-07-27 2021-10-12 山东大学 一种基于数据特征的时间序列流数据快速搜索方法
JP6929260B2 (ja) * 2018-11-01 2021-09-01 株式会社東芝 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
CN109829487B (zh) * 2019-01-16 2021-05-14 上海上塔软件开发有限公司 一种基于分段统计特征距离的聚类方法
CN112446399A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 标签确定方法、装置和系统
CN110647647B (zh) * 2019-09-03 2022-02-08 西安外事学院 一种基于时间序列复杂度差异性的封闭图形相似性搜索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103676645A (zh) * 2013-12-11 2014-03-26 广东电网公司电力科学研究院 一种时间序列数据流中的关联规则的挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966327B2 (en) * 2004-11-08 2011-06-21 The Trustees Of Princeton University Similarity search system with compact data structures

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103676645A (zh) * 2013-12-11 2014-03-26 广东电网公司电力科学研究院 一种时间序列数据流中的关联规则的挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于适应性分段估计的数据流相似性搜索;吴枫 等;《软件学报》;20091031;第20卷(第10期);第2867-2883页 *
面向相似性查询的时间序列距离度量方法述评;毛红保 等;《计算机工程与设计》;20101031;第31卷(第19期);第4221-4224页 *

Also Published As

Publication number Publication date
CN104462217A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462217B (zh) 一种基于分段统计近似表示的时间序列相似性度量方法
CN104820673B (zh) 基于自适应性分段统计近似的时间序列相似性度量方法
CN104794484B (zh) 基于分段正交多项式分解的时序数据最近邻分类方法
US10496730B2 (en) Factor analysis device, factor analysis method, and factor analysis program
EP3193227B1 (en) Entropy-based validation of sensor measurements
Zhang et al. Robust image corner detection based on scale evolution difference of planar curves
Frei et al. FibeR-CNN: Expanding Mask R-CNN to improve image-based fiber analysis
Chen et al. Invariant leaf image recognition with histogram of Gaussian convolution vectors
CN113537252B (zh) 基于空间谱群协方差特征的高光谱图像识别方法及装置
Chen et al. Weighted multiscale Rényi permutation entropy of nonlinear time series
CN105531934B (zh) 用于流式传输数据的压缩感测的方法和用于执行所述方法的设备
CN104850740A (zh) 基于动态时间弯曲的数据流模式匹配方法
CN109034179B (zh) 一种基于马氏距离idtw的岩层分类方法
US20240062514A1 (en) Diversity quantification
CN113486917A (zh) 一种基于度量学习的雷达hrrp小样本目标识别方法
CN101667253B (zh) 一种高光谱遥感数据多类别监督分类方法
Michis Wavelet multidimensional scaling analysis of European economic sentiment indicators
Gao et al. Study on fruit recognition methods based on compressed sensing
CN106803255A (zh) 一种基于多锚点跟踪的目标检测和定位的方法
Zhang et al. Corner detection based on tangent-to-point distance accumulation technique
Costa Topological data analysis and applications
CN117290742B (zh) 一种基于动态聚类的信号时序数据故障诊断方法及系统
Teng et al. The calculation of similarity and its application in data mining
Steland Vertically weighted averages in Hilbert spaces and applications to imaging: fixed-sample asymptotics and efficient sequential two-stage estimation
Sheu et al. A study on species identification based on leaf contours of Taiwan Lauraceae and Fagaceae plants

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170929

Termination date: 20201109

CF01 Termination of patent right due to non-payment of annual fee