CN110162552B

CN110162552B - 基于置信区间的时间序列特征提取方法及系统

Info

Publication number: CN110162552B
Application number: CN201910385159.2A
Authority: CN
Inventors: 王建东; 张超; 王振; 杨子江
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2020-05-12
Anticipated expiration: 2039-05-09
Also published as: CN110162552A

Abstract

本公开公开了基于置信区间的时间序列特征提取方法及系统，包括：对历史时间序列数据确定分段数的取值范围；数据段分割步骤：确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段；权重均值计算步骤：计算分割后每个数据段的平行四边形置信空间与离散信号凸包交集的面积，计算每个交集的面积占平行四边形面积的权重，以及权重的均值；分段数K的取值加1，重复数据段分割步骤和权重均值计算步骤，得到不同分段数下权重的均值；直至分段数K大于最大分段数，结束；选择权重均值最大值所对应的分段数为最优的分段数；利用最优的分段数将历史时间序列数据分割，得到历史时间序列数据特征提取的结果。

Description

基于置信区间的时间序列特征提取方法及系统

技术领域

本公开涉及基于置信区间的时间序列特征提取方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

现代工业过程的安全高效运行通常需要对生产过程变量的时间序列进行监测、分析和控制。这些时间序列的数据量大、维度高、结构复杂，直接在原始数据进行数据挖掘十分困难。因此，通过分段线性(PLR：piece-wise linear representation)表示提取时间序列的主要特征，将时间序列从高维变换到低维特征空间，用新的形式来表示时间序列，有利于提高数据挖掘算法的效率与准确性。

目前常用三种方法来确定分段数：

第一种常用方法是用一种所谓的“L”法来确定分段数，基于损失函数的L型曲线确定拐点的位置，以此拐点确定分段数。

第二种常用方法是选择使得由近似误差确定的函数达到最大值的段数作为分段数。

第三种方法是在三个相邻近似误差中寻找使得调谐角达到最大的拐点，以此拐点确定分段数。

但现有的三种方法都存在一定的局限性：

第一，上述三种该方法均基于损失函数，由于计算转角差，使得分段数的计算结果受噪声影响较大；

第二，对于只有一个数据段的时间序列无法正确确定最优分段数；

第三，无法较好的捕捉数据的变化且对变化率无法准确估计。。

发明内容

为了解决现有技术的不足，本公开提供了基于置信区间的时间序列特征提取方法及系统，本公开不需要计算转角差并且不基于损失函数，通过两种平衡效果确定分段数，使得置信区间包含尽可能多的数据点，同时最小化近似误差，克服了噪声对分段数的影响及无法准确捕捉数据的变化的问题。

第一方面，本公开提供了基于置信区间的时间序列特征提取方法；

基于置信区间的时间序列特征提取方法，包括：

对历史时间序列数据确定分段数的取值范围；

数据段分割步骤：确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段；

权重均值计算步骤：计算分割后每个数据段的平行四边形置信空间与离散信号凸包交集的面积，计算每个交集的面积占平行四边形面积的权重，以及权重的均值；

分段数K的取值加1，重复数据段分割步骤和权重均值计算步骤，得到不同分段数下权重的均值；直至分段数K大于最大分段数，结束；

选择权重均值最大值所对应的分段数为最优的分段数；

利用最优的分段数将历史时间序列数据分割，得到历史时间序列数据特征提取的结果。

第二方面，本公开还提供了基于置信区间的时间序列特征提取系统；

基于置信区间的时间序列特征提取系统，包括：

分段数取值范围确定模块，其被配置为：对历史时间序列数据确定分段数的取值范围；

数据段分割模块，其被配置为：确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段；

权重均值计算模块，其被配置为：计算分割后每个数据段的平行四边形置信空间与离散信号凸包交集的面积，计算每个交集的面积占平行四边形面积的权重，以及权重的均值；

最优分段数选择模块，其被配置为：分段数K的取值加1，重复数据段分割步骤和权重均值计算步骤，得到不同分段数下权重的均值；直至分段数K大于最大分段数，结束；选择权重均值最大值所对应的分段数为最优的分段数；

特征提取模块，其被配置为：利用最优的分段数将历史时间序列数据分割，得到历史时间序列数据特征提取的结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

本公开提出了一种基于置信区间的时间序列分段线性表达(PLR)的分段数确定方法，基于拟合直线置信区间两种平衡效应确定置信空间，根据数据段中数据点占据置信空间的加权百分比确定最优分段数。一方面，如果通过增加数据段的数量来减少近似误差，则数据点近似值的置信区间更窄，另一方面，如果通过增加数据段的数量来减少每个段中的数据点的数量，则置信区间会变宽，基于此种平衡效果，确定离散时间信号分段线性表示的分段数，使得置信区间包含尽可能多的数据点，同时最小化近似误差。

本公开通过可视化的方法对基于置信区间的PLR分段数确定进行有效的验证，克服了噪声对分段数的影响及小幅度的数据的变化无法准确捕捉的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开中平行四边形置信空间与凸包的关系示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于置信区间的时间序列特征提取方法；

基于置信区间的时间序列特征提取方法，包括：

S1：对历史时间序列数据确定分段数的取值范围；

S2：数据段分割步骤：确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段；

S3：权重均值计算步骤：计算分割后每个数据段的平行四边形置信空间与离散信号凸包交集的面积，计算每个交集的面积占平行四边形面积的权重，以及权重的均值；

S4：分段数K的取值加1，重复数据段分割步骤和权重均值计算步骤，得到不同分段数下权重的均值；直至分段数K大于最大分段数，结束；

选择权重均值最大值所对应的分段数为最优的分段数；

S5：利用最优的分段数将历史时间序列数据分割，得到历史时间序列数据特征提取的结果。

作为一个或多个实施例，对历史时间序列数据确定分段数的取值范围，包括：

对历史时间序列数据设定每一数据段的最小采样点数，根据整个历史时间序列数据的总数据长度和最小采样点数，得到最大分段数；确定分段数的取值范围是从1到最大分段数，分段数为正整数。

作为一个或多个实施例，确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段，是：

确定分段数K，采用自底向上的分段线性表示方式，将历史时间序列数据分割为K个连续的非重叠数据段。

作为一个或多个实施例，所述数据段分割步骤，包括：

如果是首次执行当前步骤，则确定分段数K为最小值，采用自底向上的分段线性表示方式，将历史时间序列数据分割为K个连续的非重叠数据段；

如果不是首次执行当前步骤，则根据分段数K的取值，采用自底向上的分段线性表示方式，将历史时间序列数据分割为K个连续的非重叠数据段。

作为一个或多个实施例，所述采用自底向上的分段线性表示方式，将历史时间序列数据分割为K个连续的非重叠数据段的具体步骤，包括：

将历史时间序列数据两两进行连接；

合并步骤：计算连接后，每对相邻数据段合并的拟合误差，将具有最小拟合误差的相邻两段合并为一段；

重复合并步骤，直到数据段的数量等于K。

应理解的，数据段持续一段时间才能提取数据特征，因此，数据段的每段中被采样的点的个数存在最小值。

应理解的，最小采样点数为每个数据段的采样数值。

应理解的，数据段分割步骤，采用自底向上的分段线性表示方式将历史数据样本中的长连续时间序列分割成多个短数据段，每个短数据段用直线表示。

作为一个或多个实施例，所述权重的均值计算步骤，具体步骤包括：

S3.1：通过回归模型，得到每个数据段的线性表示；

S3.2：用最小二乘法计算每个数据段线性表示的估计参数，并根据估计参数计算方差的无偏估计；

S3.3：确定每个数据段设定点处对应的线性表示及方差的无偏估计；根据设定点处对应的线性表示及方差的无偏估计，确定该数据段的置信区间的上下限值，根据置信区间的上下限值以及该数据段对应的起始点和终止点的值，构成平行四边形的置信空间；

S3.4：将用于描述每个时间序列数据段轮廓的轮廓点按顺时针方向连接，构成包含该数据段所有点的最小凸包，并计算该数据段平行四边形置信空间的面积以及凸包的面积；

S3.5：计算该分段数下各数据段中平行四边形置信空间与离散时间信号凸包交集的面积占平行四边形面积的比重以及权重的均值。

作为一个或多个实施例，所述S1的具体步骤，包括：

定义x(t)表示离散时间连续值信号，此处t∈Z⁺(正整数集)为抽样指数，则时间序列

N为整个离散时间连续值信号的时间序列的总数据长度，数据段持续一段时间才能提取数据特征，因此，数据段中每段的采样点数存在下限值N_min，此处设置N_min的默认值为60s，因此在时间序列

中，分段数的上限为

为向下取整函数，即将小于操作数的最大整数作为输出，从而确定分段数的取值是从1到K_max。

作为一个或多个实施例，所述S2的具体步骤，包括：

设定分段数从最小值，即K＝1开始采用自底向上的分段线性表示的方法从历史数据样本中将长度为N的时间序列

分割为K个连续的非重叠数据段

此处t_i与(t_i+1-1)分别是第i个数据段

的第一个和最后一个数据点，每一个数据段近似为一条直线。

自底向上分段表示的算法首先从最优的分段线性表示开始，将{x(1),x(2),…,x(N)}两两进行连接，即为{x(1),x(2)}，{x(3),x(4)}，…{x(N-1),x(N)}。其次，计算每对相邻段合并的拟合误差，将具有最小拟合误差的相邻两段合并为一段。最后重复进行合并直到数据段的数量等于K。

作为一个或多个实施例，所述S3的具体步骤，包括：

S3.1：通过回归模型，得到每个数据段的模型表示x(t)＝a+bt+e(t)，其中，参数a、b分别为数据段的截距与斜率，模型误差e(t)由中心极限定理假定为均值为零、方差为σ_e ²的高斯白噪声。

S3.2：用最小二乘法估计分段线性表示的

段的未知参数a和b，

其中，

并根据估计参数计算方差的无偏估计σ_e ²，即为：

S3.3：设定点t₀处对应的估计值

则模型的估计误差为：

则方差的估计值：

其中，

可得x(t₀)的置信区间的上下限值为[x_L(t₀),x_H(t₀)]；

此处α∈(0,1)是很小的数(α＝0.05)，t_α/2是具有m＝t_i+1-t_i-2个自由度的t分布的α/2临界值，此处基于置信区间的变化K存在两种平衡效应。

当K值增加时，第i数据段直线拟合x(t)＝a+bt+e(t)的效果更好，方差

减小，因此置信区间

变窄，然而当K增加时，第i个数据段中数据的个数(t_i+1-t_i)减少，

中的第二项与(t_i+1-t_i)成反比，当数据点个数减少时

中的第三项通常会产生很大的值，因此置信区间

变宽，基于此平衡效果会确定出最优的分段数。

S3.4：图1表示平行四边形置信空间与凸包的关系示例图，如图1所示，A是内部空间，以

为上边框，

为下边框，[t_i,x_L(t_i)]到[t_i,x_H(t_i)]的垂直线为左边框，[t_i+1,x_L(t_i+1)]到[t_i+1,x_H(t_i+1)]的垂直线为右边框，平行四边形A以及二维凸包B是可用顶点顺时针表示的多边形，多边形A与B分别表示为A＝{a₁,a₂,…a_g}以及B＝{b₁,b₂,…b_h}，图1表示的示例中A＝{a₁,a₂,…a₄}(虚线)，B＝{b₁,b₂,…b₆}(实线)，最重要的是计算相交区域|A∩B|，具体的，由以下步骤组成：

S3.41：创建空集R；

S3.42：将A在B中的所有顶点以及B在A中的所有顶点添加到空集R中；

S3.43：对于A中的每一条边

以及B中的每一条边

如果边

与边

相交，将其交点添加到空集R中；

S3.44：将空集R＝A∩B中的点按顺时针排列，表示为R＝{r₁,r₂,…r_v}，图1中R＝{r₁,r₂,…r₇}，定义第i个向量r_i＝[x_i,y_i],计算区域R为

其中v是A∩B的向量数，同时可求出|A|，

S3.5：为描述上述平衡效应，定义η_i为第i个数据段中由数据点

组成的凸包B占据的平行四边形空间A的百分比，即

|.|为二维空间的面积，计算出

定义η_k为{η₁,η₂,…η_i}的权重的均值，即

此处权重为第i段数据点的个数(t_i+1-t_i)与整个数据长度N的比值。

作为一个或多个实施例，S4：依次增加分段数直到达到取值上限，重复S2和S3，计算出所有分段数K(K∈[1,K_max])下的η(k),由于平衡效应的存在，最大值η(k)会产生最优的数据段K，即

确定的分段数

使得置信区间包含尽可能多的数据点，同时最小化近似误差。

针对背景技术中所述的确定分段数方面存在的三个主要问题，通过应用本公开所述技术，基于拟合直线置信区间两种平衡效应确定置信空间，根据数据段中数据点占据置信空间的加权百分比确定最优分段数，使得置信区间包含尽可能多的数据点，同时最小化近似误差,最后通过可视化的方法来对离散时间信号分段线性表示的分段数的确定进行有效的验证，克服了噪声对分段数的影响及小幅度的数据的变化无法准确捕捉的问题。

实施例二，本实施例提供了基于置信区间的时间序列特征提取系统；

基于置信区间的时间序列特征提取系统，包括：

实施例三：

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于置信区间的时间序列特征提取方法，其特征是，包括：

对历史时间序列数据确定分段数的取值范围；

选择权重均值最大值所对应的分段数为最优的分段数；

2.如权利要求1所述的方法，其特征是，对历史时间序列数据确定分段数的取值范围，包括：

3.如权利要求1所述的方法，其特征是，确定分段数K，将历史时间序列数据分割为K个连续的非重叠数据段，是：

4.如权利要求1所述的方法，其特征是，所述数据段分割步骤，包括：

5.如权利要求4所述的方法，其特征是，所述采用自底向上的分段线性表示方式，将历史时间序列数据分割为K个连续的非重叠数据段的具体步骤，包括：

将历史时间序列数据两两进行连接；

重复合并步骤，直到数据段的数量等于K。

6.如权利要求4所述的方法，其特征是，权重的均值计算步骤，具体步骤包括：

S3.1：通过回归模型，得到每个数据段的线性表示；

7.基于置信区间的时间序列特征提取系统，其特征是，包括：

8.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项方法所述的步骤。