CN101826070A - 一种基于关键点的数据序列线性拟合方法 - Google Patents

一种基于关键点的数据序列线性拟合方法 Download PDF

Info

Publication number
CN101826070A
CN101826070A CN201010157968A CN201010157968A CN101826070A CN 101826070 A CN101826070 A CN 101826070A CN 201010157968 A CN201010157968 A CN 201010157968A CN 201010157968 A CN201010157968 A CN 201010157968A CN 101826070 A CN101826070 A CN 101826070A
Authority
CN
China
Prior art keywords
point
data
extreme
sequence
data sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010157968A
Other languages
English (en)
Inventor
杜奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Polytechnic University
Original Assignee
Shanghai Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Polytechnic University filed Critical Shanghai Polytechnic University
Priority to CN201010157968A priority Critical patent/CN101826070A/zh
Publication of CN101826070A publication Critical patent/CN101826070A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于关键点的数据序列线性拟合方法,利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,仅需一次扫描序列数据集,就可以保留非单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点;在方法实现过程中仅保留反映数据序列变化模式的主要关键点,极大减少了数据存储量,提高了计算速度;理论分析与实验结果表明,与以往方法相比较,本发明提供的方法能够更加高效选择关键点,在较高压缩率的情况下仍能保持原数据序列的变化趋势,精确定位序列中的突变点。

Description

一种基于关键点的数据序列线性拟合方法
技术领域
本发明涉及一种基于关键点的数据序列线性拟合方法。
背景技术
时间序列作为一种重要的按照时间先后顺序排列的数据对象,广泛存在于经济、科学、工业等众多领域。如何分析和处理这些海量的时间序列数据,并从中发现一些事先未知的、有价值的信息,正受到越来越多研究者的关注和重视。由于这些海量数据序列具有短期波动频繁、大量噪声干扰以及非稳态等特点,直接在原始时间序列上进行相似性查询、分类和聚类、模式挖掘等工作不但存储和计算效率低下,而且影响了方法的准确性和可靠性,难以获得满意结果。
关于数据序列分段线性表示方法是一种简单直观的序列模式表示方法,采用首尾相邻的一系列线段近似表示时间序列,压缩原始序列,换取更小的存储和计算代价,在保留时间序列主要形态的同时去除了细节干扰,更能反映时间序列的变化模式。一种方法是通过抽取非单调序列中的极值点划分数据序列,但保留了大量未过滤的细节变化,降低了压缩精度。另一种方法尽管在选择极值点的过程中考虑了噪音处理,但无法及时捕获单调序列中的变化转折点,不能有效发现尖峰子序列,然而这些往往是序列分段拟合的关键。
极值点拟合法(IPSegmentation)是一种常用的非单调序列极值点选择方法。该方法利用序列数据的单调变化属性抽取其中重要的特征数据,实现序列的线性分段拟合。对于数据序列
X=<x1,x2,...,xi-1,xi,xi+1,...,xn>(0<i≤n),
如果X满足条件x1≤x2≤...≤xi-1≤xi且xi≥xi+1≥...≥xn-1≥xn,或者x1≥x2≥...≥xi-1≥xi且xi≤xi+1≤...≤xn-1≤xn
即数据序列集X的单调性在数据点xi发生变化,则xi作为极值点保留。例如:给定一个数据序列X=<4,5,8,8,8,8,9,11,8,4,3,7,10>,根据极值点拟合法,可用XS=<<4,5,8,8,8,8,9,11>,<8,4,3>,<7,10>>分段线性表示。
这种线性的极值点拟合方法尽管方法简单,运算效率高,较好地保留了原始时间序列的变化模式,但不能有效地去除噪音,保留了大量未过滤的细节变化,从而降低了压缩精度。
而夹角法则是利用阈值ε作为选择转折点的判断依据,当数据序列中的某个数据点xi与前后数据xi-1、xi+1平均值的距离
| x i - x i + 1 + x i - 1 2 | > &epsiv; 时,
则可确定xi为转折点,式中,ε>0为可调节的自定义中线距离阈值。
如图1和图2所示,图1和图2是三个连续数据点形成的数据子序列为单调的突变序列时的示意图及其拟合效果图。当三个连续数据点形成的数据子序列为单调的突变序列时(如图1所示),夹角法的拟合效果优于极值法:根据自定义的中线距离阈值,夹角法能够及时准确地发现转折点xi;但由于数据序列xi-1,xi,xi+1为单调序列(这里xi-1=xi<xi+1),因此极值法无法发现序列中的转折点xi,因此序列拟合结果为图2中的线段xi-1xi+1,过滤了转折点xi。而在实际应用中,突变序列中的转折点往往是数据分析处理的关键所在,如数据序列中的异常检测,石油工业领域的地层序列精确划分等。
发明内容
本发明的目的是提供一种基于关键点的数据序列线性拟合方法(KPSegmentation,key points segmentation),是将极值法与夹角法进行结合而得到的一种方法,该方法能够在较高压缩率的情况下更好地线性拟合数据序列,利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,保留非单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点。
为了实现上述目的,本发明提供一种基于关键点的数据序列线性拟合方法,包含以下步骤:
步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C=1,2,...,n);
数据序列集为:X=<x1,x2,...,xi,...,xn>(0<i<n),
所述的中线距离阈值ε>0,其为用户可调节的自定义距离阈值;
步骤2、对各数据点进行极值点与转折点的判别,保存数据序列中的各极值点与各转折点;
步骤2.1、定义极值点初始集合XIE和转折点集合XT,将数据序列集X的第一个数据点x1放入极值点初始集合XIE
步骤2.2、取i=2;
步骤2.3、i++,0<i<n;
步骤2.4、判断i是否在闭区间[2,n-1]内,若是,则跳转到步骤2.4,若否,则跳转到步骤2.2;
步骤2.5、判断数据点xi是否满足极值点和转折点条件:
条件一:xi>xi-1且xi>xi+1
条件二:xi<xi-1且xi<xi+1
条件三:数据点xi与前后数据xi-1、xi+1平均值的距离
| x i - x i + 1 + x i - 1 2 | > &epsiv; ;
若满足条件一或条件二,则将该数据点xi放入极值点初始集合XIE,即保存该极值点,并跳转到步骤2.3;
若满足条件三,则将该数据点xi放入转折点集合XT,即保存该转折点,并跳转到步骤2.3;
若都不满足条件一、条件二和条件三,则跳转到步骤2.3;
步骤2.6、将数据序列集X的最后一个数据点xn放入极值点初始集合XIE,并记录放入极值点初始集合XIE内的数据点的个数m;
步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰;
步骤3.1、定义极值点集合XE,将极值点初始集合XIE的第一个数据点x1放入极值点集合XE
步骤3.2、取i=2;
步骤3.3、i++,0<i<m;
步骤3.4、判断i是否在闭区间[2,m-1]内,若是,则跳转到步骤3.5,若否,则跳转到步骤3.3;
步骤3.5、判断极值点初始集合XIE中的数据点xi保持的时间段Txi是否小于极值点保持时间段阈值C,若是,则将该数据点xi放入极值点集合XE,并跳转到步骤3.3;若否,则视该数据点xi为噪音干扰,将其过滤,并跳转到步骤3.3;
步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出,输出的作为序列分段拟合的关键点序列定义为XK,其为过滤后的极值点集合XE和转折点集合XT拟合后得到的,即
XK←XT∪XE
本发明与现有技术相比,其优点在于:本发明利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,仅需一次扫描序列数据集,就可以保留非单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点;在方法实现过程中仅保留反映数据序列变化模式的主要关键点,极大减少了数据存储量,提高了计算速度;理论分析与实验结果表明,与以往方法相比较,本发明提供的方法能够更加高效选择关键点,在较高压缩率的情况下仍能保持原数据序列的变化趋势,精确定位序列中的突变点。
附图说明
图1是三个连续数据点形成的数据子序列为单调的突变序列时的示意图;
图2是过滤了转折点的单调的突变序列的拟合效果示意图;
图3是本发明拟合方法的拟合效果示意图。
具体实施方式
以下结合图3,详细说明本发明一个优选的实施例。
一种基于关键点的数据序列线性拟合方法,包含以下步骤:
步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C=1,2,...,n);
数据序列集为:X=<x1,x2,...,xi,...,xn>(0<i<n),
所述的中线距离阈值ε>0,其为用户可调节的自定义距离阈值;
步骤2、对各数据点进行极值点与转折点的判别,保存数据序列中的各极值点与各转折点;
步骤2.1、定义极值点初始集合XIE和转折点集合XT,将数据序列集X的第一个数据点x1放入极值点初始集合XIE
步骤2.2、取i=2;
步骤2.3、i++,0<i<n;
步骤2.4、判断i是否在闭区间[2,n-1]内,若是,则跳转到步骤2.4,若否,则跳转到步骤2.2;
步骤2.5、判断数据点xi是否满足极值点和转折点条件:
条件一:xi>xi-1且xi>xi+1
条件二:xi<xi-1且xi<xi+1
条件三:数据点xi与前后数据xi-1、xi+1平均值的距离
| x i - x i + 1 + x i - 1 2 | > &epsiv; ;
若满足条件一或条件二,则将该数据点xi放入极值点初始集合XIE,即保存该极值点,并跳转到步骤2.3;
若满足条件三,则将该数据点xi放入转折点集合XT,即保存该转折点,并跳转到步骤2.3;
若都不满足条件一、条件二和条件三,则跳转到步骤2.3;
步骤2.6、将数据序列集X的最后一个数据点xn放入极值点初始集合XIE,并记录放入极值点初始集合XIE内的数据点的个数m;
步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰;
步骤3.1、定义极值点集合XE,将极值点初始集合XIE的第一个数据点x1放入极值点集合XE
步骤3.2、取i=2;
步骤3.3、i++,0<i<m;
步骤3.4、判断i是否在闭区间[2,m-1]内,若是,则跳转到步骤3.5,若否,则跳转到步骤3.3;
步骤3.5、判断极值点初始集合XIE中的数据点xi保持的时间段Txi是否小于极值点保持时间段阈值C,若是,则将该数据点xi放入极值点集合XE,并跳转到步骤3.3;若否,则视该数据点xi为噪音干扰,将其过滤,并跳转到步骤3.3;
步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出,输出的作为序列分段拟合的关键点序列定义为XK,其为过滤后的极值点集合XE和转折点集合XT拟合后得到的,即
XK←XT∪XE
本发明详细分析了如何抽取单调序列中的转折点,提出一种新的关键点选择方法KPSegmentation利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件,KPSegmentation方法仅需一次扫描序列数据集,就可以保留非单调序列中重要的极值点,并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点。在方法实现过程中仅保留反映数据序列变化模式的主要关键点,极大减少了数据存储量,提高了计算速度。理论分析与实验结果表明,与以往方法相比较,KPSegmentation方法能够更加高效选择关键点,在较高压缩率的情况下仍能保持原数据序列的变化趋势,精确定位序列中的突变点。
如图3所示,图3是本发明拟合方法的拟合效果示意图。极值点为(x″i+1,ti+1)和(xi+1,ti+1),转折点为(xi-1,ti)、(xi,ti)和(c,ti),由于x″i+1>c值,故保留为极值点,由于xi+1<c值,点(xi+1,ti+1)作为噪音干扰而剔除,故最后得到的关键点为(x″i+1,ti+1)、(xi-1,ti)、(xi,ti)和(c,ti)。
本发明提供的基于关键点的时间序列分段拟合方法,通过一次扫描数据,该方法依次利用三个连续数据形成的夹角和非单调序列中的极值点,选择反映序列趋势变化的关键点,实现时间序列的线性拟合的同时剔除了噪音干扰,能精确定位单调序列中的突变转折点,发现序列中的尖峰状态,实验结果表明该方法具有良好的分段拟合性能。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (6)

1.一种基于关键点的数据序列线性拟合方法,其特征在于,包含以下步骤:
步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C=1,2,...,n);
步骤2、对各数据点进行极值点与转折点的判别,保存数据序列中的各极值点与各转折点;
步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰;
步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出。
2.如权利要求1所述的基于关键点的数据序列线性拟合方法,其特征在于,所述的步骤1中,输入的数据序列集为:
X=<x1,x2,...,xi,...,xn>(0<i<n)。
3.如权利要求2所述的基于关键点的数据序列线性拟合方法,其特征在于,所述的中线距离阈值ε>0,其为用户可调节的自定义距离阈值。
4.如权利要求3所述的基于关键点的数据序列线性拟合方法,其特征在于,所述的步骤2包含以下步骤:
步骤2.1、定义极值点初始集合XIE和转折点集合XT,将数据序列集X的第一个数据点x1放入极值点初始集合XIE
步骤2.2、取i=2;
步骤2.3、i++,0<i<n;
步骤2.4、判断i是否在闭区间[2,n-1]内,若是,则跳转到步骤2.4,若否,则跳转到步骤2.2;
步骤2.5、判断数据点xi是否满足极值点和转折点条件:
条件一:xi>xi-1且xi>xi+1
条件二:xi<xi-1且xi<xi+1
条件三:数据点xi与前后数据xi-1、xi+1平均值的距离
| x i - x i + 1 + x i - 1 2 | > &epsiv; ;
若满足条件一或条件二,则将该数据点xi放入极值点初始集合XIE,即保存该极值点,并跳转到步骤2.3;
若满足条件三,则将该数据点xi放入转折点集合XT,即保存该转折点,并跳转到步骤2.3;
若都不满足条件一、条件二和条件三,则跳转到步骤2.3;
步骤2.6、将数据序列集X的最后一个数据点xn放入极值点初始集合XIE,并记录放入极值点初始集合XIE内的数据点的个数m。
5.如权利要求4所述的基于关键点的数据序列线性拟合方法,其特征在于,所述的步骤3包含以下步骤:
步骤3.1、步骤3.1、定义极值点集合XE,将极值点初始集合XIE的第一个数据点x1放入极值点集合XE
步骤3.2、取i=2;
步骤3.3、i++,0<i<m;
步骤3.4、判断i是否在闭区间[2,m-1]内,若是,则跳转到步骤3.5,若否,则跳转到步骤3.3;
步骤3.5、判断极值点初始集合XIE中的数据点xi保持的时间段Txi是否小于极值点保持时间段阈值C,若是,则将该数据点xi放入极值点集合XE,并跳转到步骤3.3;若否,则视该数据点xi为噪音干扰,将其过滤,并跳转到步骤3.3。
6.如权利要求5所述的基于关键点的数据序列线性拟合方法,其特征在于,所述的步骤4中,输出的作为序列分段拟合的关键点序列定义为XK,其为过滤后的极值点集合XE和转折点集合XT拟合后得到的,即
XK←XT∪XE
CN201010157968A 2010-04-27 2010-04-27 一种基于关键点的数据序列线性拟合方法 Pending CN101826070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010157968A CN101826070A (zh) 2010-04-27 2010-04-27 一种基于关键点的数据序列线性拟合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010157968A CN101826070A (zh) 2010-04-27 2010-04-27 一种基于关键点的数据序列线性拟合方法

Publications (1)

Publication Number Publication Date
CN101826070A true CN101826070A (zh) 2010-09-08

Family

ID=42689991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010157968A Pending CN101826070A (zh) 2010-04-27 2010-04-27 一种基于关键点的数据序列线性拟合方法

Country Status (1)

Country Link
CN (1) CN101826070A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102650936A (zh) * 2011-02-23 2012-08-29 蓝盾信息安全技术股份有限公司 一种展示历史曲线的方法及系统
CN104820779A (zh) * 2015-04-28 2015-08-05 电子科技大学 一种基于极值点和转折点的时间序列降维方法
CN105913062A (zh) * 2016-04-26 2016-08-31 深圳前海云汉金融科技有限公司 一种基于大数据的趋势曲线局部特征的匹配方法及终端
CN106778839A (zh) * 2016-11-30 2017-05-31 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN115086551A (zh) * 2022-05-19 2022-09-20 上海艾为电子技术股份有限公司 对应关系、马达位移获取方法和系统、马达驱动芯片

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102650936A (zh) * 2011-02-23 2012-08-29 蓝盾信息安全技术股份有限公司 一种展示历史曲线的方法及系统
CN102650936B (zh) * 2011-02-23 2015-05-20 蓝盾信息安全技术股份有限公司 一种展示历史曲线的方法及系统
CN104820779A (zh) * 2015-04-28 2015-08-05 电子科技大学 一种基于极值点和转折点的时间序列降维方法
CN105913062A (zh) * 2016-04-26 2016-08-31 深圳前海云汉金融科技有限公司 一种基于大数据的趋势曲线局部特征的匹配方法及终端
WO2017185963A1 (zh) * 2016-04-26 2017-11-02 深圳前海云汉金融科技有限公司 一种基于大数据的趋势曲线局部特征的匹配方法及终端
CN106778839A (zh) * 2016-11-30 2017-05-31 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN106778839B (zh) * 2016-11-30 2021-02-26 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN110071913B (zh) * 2019-03-26 2020-10-02 同济大学 一种基于无监督学习的时间序列异常检测方法
CN115086551A (zh) * 2022-05-19 2022-09-20 上海艾为电子技术股份有限公司 对应关系、马达位移获取方法和系统、马达驱动芯片

Similar Documents

Publication Publication Date Title
CN101826070A (zh) 一种基于关键点的数据序列线性拟合方法
JP4686505B2 (ja) 時系列データ分類装置、時系列データ分類方法および時系列データ処理装置
US8832139B2 (en) Associative memory and data searching system and method
CN109727446A (zh) 一种用电数据异常值的识别与处理方法
EP1999663A2 (en) Methods and systems for identification of dna patterns through spectral analysis
CN110588658B (zh) 一种基于综合模型检测驾驶员风险等级的方法
CN112732748B (zh) 一种基于自适应特征选择的非侵入式家电负荷识别方法
EP4280088A1 (en) Time series data trend feature extraction method based on dynamic grid division
CN108549078B (zh) 一种雷达脉冲信号跨信道合并及检测方法
CN110288003B (zh) 数据变化识别方法及设备
CN104820779A (zh) 一种基于极值点和转折点的时间序列降维方法
CN113052265B (zh) 基于特征选择的移动对象轨迹简化方法
CN102693361A (zh) 一种大数据量的趋势曲线绘制方法
CN103942425A (zh) 一种数据处理方法和装置
CN110532297A (zh) 一种基于层次聚类的符号化水文时间序列异常模式检测方法
CN117540238A (zh) 一种工业数字化信息采集装置用数据安全管理方法
CN110956155B (zh) 基于co数据的综采工作面作业工序模糊聚类识别方法
El-Badawy et al. On the use of pseudo-EIIP mapping scheme for identifying exons locations in DNA sequences
CN106251004B (zh) 基于改进空间距离划分的目标分群方法
CN109389172B (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN112800590B (zh) 一种机器学习辅助的两相流油藏随机建模的网格粗化方法
CN103136515B (zh) 基于草图行为序列的创意拐点识别方法及系统
CN102262679A (zh) 一种水文时间序列模体挖掘方法
CN116628620A (zh) 一种非侵入式负荷识别计算方法
CN104516914A (zh) 识别时间序列模式的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100908