CN101826070A

CN101826070A - 一种基于关键点的数据序列线性拟合方法

Info

Publication number: CN101826070A
Application number: CN201010157968A
Authority: CN
Inventors: 杜奕
Original assignee: Shanghai Polytechnic University
Current assignee: Shanghai Polytechnic University
Priority date: 2010-04-27
Filing date: 2010-04-27
Publication date: 2010-09-08

Abstract

一种基于关键点的数据序列线性拟合方法，利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件，仅需一次扫描序列数据集，就可以保留非单调序列中重要的极值点，并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点；在方法实现过程中仅保留反映数据序列变化模式的主要关键点，极大减少了数据存储量，提高了计算速度；理论分析与实验结果表明，与以往方法相比较，本发明提供的方法能够更加高效选择关键点，在较高压缩率的情况下仍能保持原数据序列的变化趋势，精确定位序列中的突变点。

Description

一种基于关键点的数据序列线性拟合方法

技术领域

本发明涉及一种基于关键点的数据序列线性拟合方法。

背景技术

时间序列作为一种重要的按照时间先后顺序排列的数据对象，广泛存在于经济、科学、工业等众多领域。如何分析和处理这些海量的时间序列数据，并从中发现一些事先未知的、有价值的信息，正受到越来越多研究者的关注和重视。由于这些海量数据序列具有短期波动频繁、大量噪声干扰以及非稳态等特点，直接在原始时间序列上进行相似性查询、分类和聚类、模式挖掘等工作不但存储和计算效率低下，而且影响了方法的准确性和可靠性，难以获得满意结果。

关于数据序列分段线性表示方法是一种简单直观的序列模式表示方法，采用首尾相邻的一系列线段近似表示时间序列，压缩原始序列，换取更小的存储和计算代价，在保留时间序列主要形态的同时去除了细节干扰，更能反映时间序列的变化模式。一种方法是通过抽取非单调序列中的极值点划分数据序列，但保留了大量未过滤的细节变化，降低了压缩精度。另一种方法尽管在选择极值点的过程中考虑了噪音处理，但无法及时捕获单调序列中的变化转折点，不能有效发现尖峰子序列，然而这些往往是序列分段拟合的关键。

极值点拟合法(IPSegmentation)是一种常用的非单调序列极值点选择方法。该方法利用序列数据的单调变化属性抽取其中重要的特征数据，实现序列的线性分段拟合。对于数据序列

X＝<x₁，x₂，...，x_i-1，x_i，x_i+1，...，x_n>(0＜i≤n)，

如果X满足条件x₁≤x₂≤...≤x_i-1≤x_i且x_i≥x_i+1≥...≥x_n-1≥x_n，或者x₁≥x₂≥...≥x_i-1≥x_i且x_i≤x_i+1≤...≤x_n-1≤x_n，

即数据序列集X的单调性在数据点x_i发生变化，则x_i作为极值点保留。例如：给定一个数据序列X＝<4，5，8，8，8，8，9，11，8，4，3，7，10>，根据极值点拟合法，可用X^S＝<<4，5，8，8，8，8，9，11>，<8，4，3>，<7，10>>分段线性表示。

这种线性的极值点拟合方法尽管方法简单，运算效率高，较好地保留了原始时间序列的变化模式，但不能有效地去除噪音，保留了大量未过滤的细节变化，从而降低了压缩精度。

而夹角法则是利用阈值ε作为选择转折点的判断依据，当数据序列中的某个数据点x_i与前后数据x_i-1、x_i+1平均值的距离

| x_{i} - \frac{x_{i + 1} + x_{i - 1}}{2} | > ϵ

时，

则可确定x_i为转折点，式中，ε＞0为可调节的自定义中线距离阈值。

如图1和图2所示，图1和图2是三个连续数据点形成的数据子序列为单调的突变序列时的示意图及其拟合效果图。当三个连续数据点形成的数据子序列为单调的突变序列时(如图1所示)，夹角法的拟合效果优于极值法：根据自定义的中线距离阈值，夹角法能够及时准确地发现转折点x_i；但由于数据序列x_i-1，x_i，x_i+1为单调序列(这里x_i-1＝x_i＜x_i+1)，因此极值法无法发现序列中的转折点x_i，因此序列拟合结果为图2中的线段x_i-1x_i+1，过滤了转折点x_i。而在实际应用中，突变序列中的转折点往往是数据分析处理的关键所在，如数据序列中的异常检测，石油工业领域的地层序列精确划分等。

发明内容

本发明的目的是提供一种基于关键点的数据序列线性拟合方法(KPSegmentation，key points segmentation)，是将极值法与夹角法进行结合而得到的一种方法，该方法能够在较高压缩率的情况下更好地线性拟合数据序列，利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件，保留非单调序列中重要的极值点，并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点。

为了实现上述目的，本发明提供一种基于关键点的数据序列线性拟合方法，包含以下步骤：

步骤1、定义数据序列集X及参数中线距离阈值ε和极值点保持时间段阈值C(C＝1，2，...，n)；

数据序列集为：X＝<x₁，x₂，...，x_i，...，x_n>(0＜i＜n)，

所述的中线距离阈值ε＞0，其为用户可调节的自定义距离阈值；

步骤2、对各数据点进行极值点与转折点的判别，保存数据序列中的各极值点与各转折点；

步骤2.1、定义极值点初始集合X^IE和转折点集合X^T，将数据序列集X的第一个数据点x₁放入极值点初始集合X^IE；

步骤2.2、取i＝2；

步骤2.3、i++，0＜i＜n；

步骤2.4、判断i是否在闭区间[2，n-1]内，若是，则跳转到步骤2.4，若否，则跳转到步骤2.2；

步骤2.5、判断数据点x_i是否满足极值点和转折点条件：

条件一：x_i＞x_i-1且x_i＞x_i+1；

条件二：x_i＜x_i-1且x_i＜x_i+1；

条件三：数据点x_i与前后数据x_i-1、x_i+1平均值的距离

| x_{i} - \frac{x_{i + 1} + x_{i - 1}}{2} | > ϵ;

若满足条件一或条件二，则将该数据点x_i放入极值点初始集合X^IE，即保存该极值点，并跳转到步骤2.3；

若满足条件三，则将该数据点x_i放入转折点集合X^T，即保存该转折点，并跳转到步骤2.3；

若都不满足条件一、条件二和条件三，则跳转到步骤2.3；

步骤2.6、将数据序列集X的最后一个数据点x_n放入极值点初始集合X^IE，并记录放入极值点初始集合X^IE内的数据点的个数m；

步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰；

步骤3.1、定义极值点集合X^E，将极值点初始集合X^IE的第一个数据点x₁放入极值点集合X^E；

步骤3.2、取i＝2；

步骤3.3、i++，0＜i＜m；

步骤3.4、判断i是否在闭区间[2，m-1]内，若是，则跳转到步骤3.5，若否，则跳转到步骤3.3；

步骤3.5、判断极值点初始集合X^IE中的数据点x_i保持的时间段Tx_i是否小于极值点保持时间段阈值C，若是，则将该数据点x_i放入极值点集合X^E，并跳转到步骤3.3；若否，则视该数据点x_i为噪音干扰，将其过滤，并跳转到步骤3.3；

步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出，输出的作为序列分段拟合的关键点序列定义为X^K，其为过滤后的极值点集合X^E和转折点集合X^T拟合后得到的，即

X^K←X^T∪X^E

本发明与现有技术相比，其优点在于：本发明利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件，仅需一次扫描序列数据集，就可以保留非单调序列中重要的极值点，并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点；在方法实现过程中仅保留反映数据序列变化模式的主要关键点，极大减少了数据存储量，提高了计算速度；理论分析与实验结果表明，与以往方法相比较，本发明提供的方法能够更加高效选择关键点，在较高压缩率的情况下仍能保持原数据序列的变化趋势，精确定位序列中的突变点。

附图说明

图1是三个连续数据点形成的数据子序列为单调的突变序列时的示意图；

图2是过滤了转折点的单调的突变序列的拟合效果示意图；

图3是本发明拟合方法的拟合效果示意图。

具体实施方式

以下结合图3，详细说明本发明一个优选的实施例。

一种基于关键点的数据序列线性拟合方法，包含以下步骤：

数据序列集为：X＝<x₁，x₂，...，x_i，...，x_n>(0＜i＜n)，

步骤2.2、取i＝2；

步骤2.3、i++，0＜i＜n；

步骤2.5、判断数据点x_i是否满足极值点和转折点条件：

条件一：x_i＞x_i-1且x_i＞x_i+1；

条件二：x_i＜x_i-1且x_i＜xi₊₁；

条件三：数据点x_i与前后数据x_i-1、x_i+1平均值的距离

| x_{i} - \frac{x_{i + 1} + x_{i - 1}}{2} | > ϵ;

若都不满足条件一、条件二和条件三，则跳转到步骤2.3；

步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰；

步骤3.2、取i＝2；

步骤3.3、i++，0＜i＜m；

X^K←X^T∪X^E

本发明详细分析了如何抽取单调序列中的转折点，提出一种新的关键点选择方法KPSegmentation利用自定义的中线距离阈值和非单调序列中极值点保持时间段阈值两个约束条件，KPSegmentation方法仅需一次扫描序列数据集，就可以保留非单调序列中重要的极值点，并根据单调序列中三个连续数据点形成的三角形中线长度判断中间数据点是否为需要保留的关键点。在方法实现过程中仅保留反映数据序列变化模式的主要关键点，极大减少了数据存储量，提高了计算速度。理论分析与实验结果表明，与以往方法相比较，KPSegmentation方法能够更加高效选择关键点，在较高压缩率的情况下仍能保持原数据序列的变化趋势，精确定位序列中的突变点。

如图3所示，图3是本发明拟合方法的拟合效果示意图。极值点为(x″_i+1，t_i+1)和(x_i+1，t_i+1)，转折点为(x_i-1，t_i)、(x_i，t_i)和(c，t_i)，由于x″_i+1＞c值，故保留为极值点，由于x_i+1＜c值，点(x_i+1，t_i+1)作为噪音干扰而剔除，故最后得到的关键点为(x″_i+1，t_i+1)、(x_i-1，t_i)、(x_i，t_i)和(c，t_i)。

本发明提供的基于关键点的时间序列分段拟合方法，通过一次扫描数据，该方法依次利用三个连续数据形成的夹角和非单调序列中的极值点，选择反映序列趋势变化的关键点，实现时间序列的线性拟合的同时剔除了噪音干扰，能精确定位单调序列中的突变转折点，发现序列中的尖峰状态，实验结果表明该方法具有良好的分段拟合性能。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于关键点的数据序列线性拟合方法，其特征在于，包含以下步骤：

步骤3、扫描整个数据序列集并过滤数据序列中的噪音干扰；

步骤4、将过滤后的极值点与转折点拟合得到该数据序列的关键点输出。

2.如权利要求1所述的基于关键点的数据序列线性拟合方法，其特征在于，所述的步骤1中，输入的数据序列集为：

X＝＜x₁，x₂，...，x_i，...，x_n＞(0＜i＜n)。

3.如权利要求2所述的基于关键点的数据序列线性拟合方法，其特征在于，所述的中线距离阈值ε＞0，其为用户可调节的自定义距离阈值。

4.如权利要求3所述的基于关键点的数据序列线性拟合方法，其特征在于，所述的步骤2包含以下步骤：

步骤2.2、取i＝2；

步骤2.3、i++，0＜i＜n；

步骤2.5、判断数据点x_i是否满足极值点和转折点条件：

条件一：x_i＞x_i-1且x_i＞x_i+1；

条件二：x_i＜x_i-1且x_i＜x_i+1；

条件三：数据点x_i与前后数据x_i-1、x_i+1平均值的距离

| x_{i} - \frac{x_{i + 1} + x_{i - 1}}{2} | > ϵ;

若都不满足条件一、条件二和条件三，则跳转到步骤2.3；

步骤2.6、将数据序列集X的最后一个数据点x_n放入极值点初始集合X^IE，并记录放入极值点初始集合X^IE内的数据点的个数m。

5.如权利要求4所述的基于关键点的数据序列线性拟合方法，其特征在于，所述的步骤3包含以下步骤：

步骤3.1、步骤3.1、定义极值点集合X^E，将极值点初始集合X^IE的第一个数据点x₁放入极值点集合X^E；

步骤3.2、取i＝2；

步骤3.3、i++，0＜i＜m；

步骤3.5、判断极值点初始集合X^IE中的数据点x_i保持的时间段Tx_i是否小于极值点保持时间段阈值C，若是，则将该数据点x_i放入极值点集合X^E，并跳转到步骤3.3；若否，则视该数据点x_i为噪音干扰，将其过滤，并跳转到步骤3.3。

6.如权利要求5所述的基于关键点的数据序列线性拟合方法，其特征在于，所述的步骤4中，输出的作为序列分段拟合的关键点序列定义为X^K，其为过滤后的极值点集合X^E和转折点集合X^T拟合后得到的，即

X^K←X^T∪X^E。