CN112699608A

CN112699608A - 适用于传感器掉电导致数据缺失的时间序列修复方法

Info

Publication number: CN112699608A
Application number: CN202011626058.9A
Authority: CN
Inventors: 张海军; 苗东菁; 张开旗; 高宏
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-23
Anticipated expiration: 2040-12-31
Also published as: CN112699608B

Abstract

本发明涉及一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质，该方法包括：获取传感器测量所得的多元时间序列矩阵，确定传感器掉电导致数据缺失片段的长度及位置；对多元时间序列矩阵进行张量汉克尔化，将多元时间序列矩阵映射到三维张量，三维张量的三个维度分别为多元变量、时延、时序；基于随机梯度下降的机器学习方法，对三维张量进行张量分解，分解为多元变量嵌入、时延嵌入和时序嵌入；将求解得到的多元变量嵌入、时延嵌入和时序嵌入以张量积的形式重构为三维张量的估计张量；利用重构得到的估计张量，填补多元时间序列矩阵中的数据缺失片段。本发明能够更为准确修复传感器掉电导致的数据缺失。

Description

适用于传感器掉电导致数据缺失的时间序列修复方法

技术领域

本发明涉及传感器测量及计算机处理技术领域，尤其涉及一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质。

背景技术

随着大数据技术不断发展，多元传感器连续测量得到的时间序列数据越来越常见，应用也越来越广泛，使得关于传感器时间序列数据的分析、挖掘和预测成为当下的热点。时间序列数据的分析与挖掘需要以序列的完整性为前提，但是实际生产生活中可能遇到各种故障，例如网络瘫痪、记录设备异常和存储设备故障等情况，会导致部分测量数据丢失。因此，如何修复时间序列中存在的缺失片段成为亟待解决的问题。

修复时间序列缺失数据的难点在于时间序列特征的复杂性和缺失的多样性。目前，国内外采用的时间序列修复方法大致可以分为基于模型的方法和基于序列相似性的方法两大类。

基于模型的方法通常使用先验知识将数据的产生过程用一个模型表示，比如线性动态系统，深度神经网络等，然后利用机器学习、最优化等理论方法求得模型的参数，进而从模型中推导缺失的数据值。基于序列相似性的方法则是出于相似的模式语义在时间序列中反复出现的认知，在时间序列的完整片段上抽取与缺失片段的上下文片段相似的部分，用完整片段上相应位置的数据值的语义填充缺失位置。

但这两类方法均有其局限性。对于基于模型的方法，其修复效果受限于模型的表达能力和求解模型参数的方法对数据的要求。比如线性动态系统模型对于修复非线性时间序列的效果比较糟糕；基于深度神经网络模型的方法中，由于机器学习过程的梯度下降方法固有的梯度消失问题，对数据的缺失程度有较高的要求。而对于基于序列相似性的方法，由于传感器测量的数据序列不一定具有很强的周期性，例如空气质量、城市用电、天然气开采平台记录数据等，使得基于缺失片段上下文抽取的相似序列匹配并不能很好地反映数据缺失片段上的特征与模式，进而对于数据缺失片段周围产生较大的偏移。尤其是当缺失片段长度较大时，这一现象尤为明显。

传感器掉电(blackout)导致数据缺失会使得一段时间内所有传感器的记录数据全部丢失，即，使传感器测量得到的多元时间序列矩阵中存在整段的数据缺失片段。现有的工作在这种情况下，对缺失值的恢复效果不好，难以满足对时间序列的分析与挖掘的要求。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是解决现有技术在传感器掉电导致数据缺失的情况下，对时间序列缺失值修复效果不佳、准确度差的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种适用于传感器掉电导致数据缺失的时间序列修复方法，该方法包括如下步骤：

S1、获取传感器测量所得的多元时间序列矩阵，确定传感器掉电导致数据缺失片段的长度及位置；

S2、对所述多元时间序列矩阵进行张量汉克尔化，将所述多元时间序列矩阵映射到三维张量，所述三维张量的三个维度分别为多元变量、时延、时序；

S3、基于随机梯度下降的机器学习方法，对所述三维张量进行张量分解，分解为多元变量嵌入、时延嵌入和时序嵌入；

S4、将机器学习方法求解得到的多元变量嵌入、时延嵌入和时序嵌入以张量积的形式重构为所述三维张量的估计张量；

S5、利用重构得到的所述估计张量确定相应的缺失填充值，填补所述多元时间序列矩阵中的数据缺失片段。

优选地，所述多元时间序列矩阵X＝<x₁,x₂,...,x_T〉，

为t时刻的D维列向量，t＝1,...,T，T表示时刻数，D表示多元变量数；

所述步骤S1中，确定传感器掉电导致数据缺失片段的长度及位置时，采用指示掩码矩阵W∈{0,1}^D×T，所述指示掩码矩阵W＝{W_d,t}中的元素W_d,t＝0表示t时刻的第d维变量缺失，W_d,t＝1表示t时刻的第d维变量存在；

对于传感器掉电导致数据缺失的所述多元时间序列矩阵X，有

其中a时刻对应数据缺失片段的起始位置，(a+l_M-1)时刻对应数据缺失片段的终止位置，l_M表示数据缺失片段的长度。

优选地，所述步骤S2中，将所述多元时间序列矩阵X映射到三维张量H_K(X)时，表达式为：

其中，时延维度为K，时序维度为L，K+L-1＝T且K≥l_M+1；

所述三维张量H_K(X)中的元素H_K(X)_i,j,k表示为：

其中，X_i,j+k-1表示所述多元时间序列矩阵X中第(j+k-1)时刻的第i维变量，j＝1,...,K，k＝1,...,L。

优选地，所述步骤S3中，基于随机梯度下降的机器学习方法，对所述三维张量H_K(X)进行张量分解时，定义机器学习的损失函数表达式为：

其中，H_K(X)＝Y，Y_i,j,k＝H_K(X)_i,j,k，Ω表示三维张量H_K(X)中所有元素的索引组成的集合，多元变量嵌入A＝{A_i,r}^D×R，时延嵌入B＝{B_j,r}^K×R，时序嵌入C＝{C_j,r}^L×R，R表示低维嵌入空间的维度，且R＜min(D，K，L)；

其中，λ_s、λ_r为超参数，λ_s用于表示满足时间序列的平稳性

的程度，λ_r用于表示满足弗罗贝尼乌斯范数R_R(A,B,C)的程度。

优选地，所述步骤S3中，基于随机梯度下降的机器学习方法，对所述三维张量H_K(X)进行张量分解时，使用如下的基于随机梯度下降的更新规则求解A、B、C：

Δ＝B_j,:-B_j-1,:

Γ＝A_i,:(Δ⊙C_k,:)

Δ′＝B_j+1,:-B_j,:

Γ′＝A_i,:(Δ′⊙C_k,:)

其中，

η表示随机梯度下降过程的步长，A_i,:表示多元变量嵌入A的第i行，

表示更新的A_i,:，B_j,:表示时延嵌入B的第j行，

表示更新的B_j,:，C_k,:表示时序嵌入C的第k行，

表示更新的C_k,:。

优选地，所述步骤S4中，重构估计张量

时，表达式为：

其中，A_:,r表示多元变量嵌入A的第r列，B_:,r表示时延嵌入B的第r列，C_:,r表示时序嵌入C的第r列。

优选地，所述步骤S5中，利用重构得到的所述估计张量确定相应的缺失填充值时，对于所述多元时间序列矩阵X中每个缺失的元素，将所述估计张量

中所有对应该元素的数据求平均，作为该元素的缺失填充值。

优选地，所述步骤S5中，利用重构得到的所述估计张量确定相应的缺失填充值时，将估计张量

映射回所述多元时间序列矩阵X，若W_i,j＝0，则对于所述多元时间序列矩阵X中的元素X_i,j，将根据所述估计张量

映射得到的所有对应元素构成一个集合X′_i,j：

以||X′_i,j||表示集合X′_i,j的元素个数，得到元素X_i,j的缺失填充值表达式为：

其中，

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。

(三)有益效果

本发明的上述技术方案具有如下优点：本发明提供了一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质，本发明将传感器测量所得的多元时间序列矩阵映射到三维张量，通过机器学习方法将三维张量拆为低维稠密的多元变量嵌入、时延嵌入、时序嵌入，以张量积的方式重构三维张量的估计张量，根据重构的估计张量，恢复多元时间序列矩阵缺失的数据；本发明无需建立数据产生过程的模型，也不依赖时间序列的强周期性，能够对传感器掉电导致数据缺失的时间序列进行准确度较高的复原，特别是对于空气质量、城市用电等弱周期性时间序列，对缺失值的恢复效果较好。

附图说明

图1是本发明实施例中一种适用于传感器掉电导致数据缺失的时间序列修复方法步骤示意图；

图2(a)至图2(e)示出了不同方法在一电力集数据上的恢复结果，其中图2(a)对应TRMF方法，图2(b)对应Dynammo方法，图2(c)对应TKCM方法，图2(d)对应BRITS方法，图2(e)对应本发明提供的方法。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种适用于传感器掉电导致数据缺失的时间序列修复方法，包括如下步骤：

S1、获取传感器测量所得的多元时间序列矩阵X，确定传感器掉电导致数据缺失片段的长度及位置；

S2、对多元时间序列矩阵X进行张量汉克尔化，将多元时间序列矩阵X映射到三维张量H_K(X)，三维张量H_K(X)的三个维度分别为多元变量、时延、时序；

S3、基于随机梯度下降的机器学习方法，对三维张量H_K(X)进行张量分解，分解为多元变量嵌入A、时延嵌入B和时序嵌入C；

S4、将机器学习方法求解得到的多元变量嵌入A、时延嵌入B和时序嵌入C以张量积的形式重构为三维张量的估计张量

S5、利用重构得到的估计张量

确定相应的缺失填充值，填补多元时间序列矩阵X中的数据缺失片段。

为了下文的表达方便，给出如下的运算定义：

定义1元素积：A,B均为大小为m×n的矩阵，则：

定义2张量积：x为长度为m的向量，y为长度为n的向量，则：

多元传感器测量所得的时间序列构成的多元时间序列矩阵X为数值型矩阵，可表示为X＝<x₁,x₂,...,x_T>，其中

为t时刻的D维列向量，t＝1,...,T，T表示时刻数，D表示多元变量数。

优选地，步骤S1中，确定传感器掉电导致数据缺失片段的长度及位置时，采用指示掩码矩阵W∈{0,1}^D×T，指示掩码矩阵W＝{W_d,t}中的元素W_d,t取值为0或1，如果t时刻的第d维变量缺失了，则W_d,t＝0，否则为W_d,t＝1。时间序列修复即恢复多元时间序列矩阵X中所有由W_d,t＝0指示的缺失元素。

对于传感器掉电导致数据缺失的多元时间序列矩阵X，相应的指示掩码矩阵W的特征为连续多列的值全为0，即有：

其中a时刻对应多元时间序列矩阵X中数据缺失片段的起始位置，(a+l_M-1)时刻对应数据缺失片段的终止位置，l_M表示数据缺失片段的长度。

优选地，步骤S2中，将多元时间序列矩阵X映射到三维张量H_K(X)时，表达式为：

其中，x_j,x_j+1,...,x_j+L-1构成L时序嵌入，时序维度为L，j＝1,...,K，x_k,x_k+1,...,x_k+K-1构成K时延嵌入，时延维度为K，k＝1,...,L，

表示t时刻的D维列向量，t＝1,...,T。K+L-1＝T且K≥l_M+1，K优选选取1.5l_M附近的整数。张量汉克尔化可以认为是将多元时间序列矩阵X每一维的单元时间序列进行如上式过程，将传感器测量结果沿高度方向堆叠，实现矩阵到三维张量的映射。

三维张量H_K(X)中的元素H_K(X)_i,j,k表示为：

H_K(X)_i,j,k表示三维张量H_K(X)中索引为(i，j，k)的元素，i＝1,...,D，j＝1,...,K，k＝1,...,L，分别对应三维张量H_K(X)中多元变量、时延、时序三个维度，X_i,j+k-1为多元时间序列矩阵X中的元素，索引为(i，j+k-1)，X_i,j+k-1表示多元时间序列矩阵X中第(j+k-1)时刻的第i维变量。

本发明步骤S3旨在将时间序列数据拆分为多元变量嵌入、时延嵌入、时序嵌入，通过将存在数据缺失的高维张量转化为低维、独立且稠密的分量，从而得到时间序列数据在多元变量、时延、时序三个维度上的独立分布。本发明的目的是将张量汉克尔化结果拆分成如下式所示的低秩矩阵的张量积的形式：

以便通过机器学习方法确定多元变量嵌入A、时延嵌入B和时序嵌入C，其中Y为三维张量H_K(X)的简写，H_K(X)＝Y，Y_i,j,k＝H_K(X)_i,j,k，A_:,r表示多元变量嵌入A的第r列，B_:,r表示时延嵌入B的第r列，C_:,r表示时序嵌入C的第r列，R表示低维嵌入空间的维度，在这一R维的空间中多元变量嵌入、时延嵌入和时序嵌入有简单的近似表示，主要起到将含有缺失的高维稀疏空间线性映射为稠密无缺失的低维空间的作用，同时降低了该方法的计算量。R＜Q＝min(D，K，L)。依据目前的实验结果，根据不同的数据集，优选从

选择一个合适的整数。

优选地，步骤S3中，基于随机梯度下降的机器学习方法，对三维张量H_K(X)进行张量分解时，定义机器学习的损失函数表达式为：

其中，Ω表示三维张量H_K(X)中所有观察值的索引组成的集合，可通过指示掩码矩阵W获得，多元变量嵌入A＝{A_i,r}^D×R，时延嵌入B＝{B_j,r}^K×R，时序嵌入C＝{C_j,r}^L×R。

损失函数

中的第一项

是CP分解的重构的张量与原汉克尔化张量的差，使得A、B、C的张量积充分反映时间序列的本质。

损失函数

中的第二项

是时序正则项，用来平滑时间序列相邻时刻，表达数据随时间变化的平稳性质。体现在减小重构结果每一维度相邻两项的差：

损失函数

中的第三项R_R(A,B,C)是L₂正则项，用来减缓机器学习过程对数据的过拟合：

其中，λ_s、λ_r为超参数，λ_s表示本文提出的方法所建立的模型满足时间序列的平稳性

(相邻时刻数据的差值)的程度，λ_r表示模型满足弗罗贝尼乌斯范数R_R(A,B,C)(表示建立的模型简单、正则)的程度，可由先验知识确定它们的取值范围。对于本方法适用的空气质量、家庭用电量等数据，一般优选λ_s,λ_r∈{0.01,0.001,0.0001}，可由实验决定具体数值。

步骤S3中机器学习的任务是求解多元变量嵌入A、时延嵌入B和时序嵌入C，满足：

进一步地，步骤S3中使用如下的基于随机梯度下降的更新规则求解多元变量嵌入A、时延嵌入B和时序嵌入C，更新规则表达式为：

Δ＝B_j,:-B_j-1,:

Γ＝A_i,:(Δ⊙C_k,:)

Δ′＝B_j+1,:-B_j,:

Γ′＝A_i,:(Δ′⊙C_k,:)

其中，

η表示随机梯度下降过程的步长，影响该方法运行的时间开销，步长过大导致梯度下降过程不收敛，是一个超参数。对于本文适用的数据集，一般优选η∈{0.01,0.001}，由实验决定优化取值，A_i,:表示多元变量嵌入A的第i行，

表示更新的A_i,:，B_j,:表示时延嵌入B的第j行，

表示更新的B_j,:，C_k,:表示时序嵌入C的第k行，

表示更新的C_k,:。

优选地，步骤S4中以张量积的形式重构三维张量的估计张量

时，估计张量

表达式为：

其中，A_:,r表示步骤S3求解得到的多元变量嵌入A的第r列，B_:,r表示步骤S3求解得到的时延嵌入B的第r列，C_:,r表示步骤S3求解得到的时序嵌入C的第r列。

为

的简写，

优选地，步骤S5中，利用重构得到的所述估计张量确定相应的缺失填充值时，根据指示掩码矩阵W，对于多元时间序列矩阵X中每个缺失的元素X_d,t(对应的W_d,t＝0)，将估计张量

中所有对应该元素X_d,t的数据求平均，作为缺失填充值，填充给缺失的元素X_d,t。

步骤S5中，利用重构得到的所述估计张量确定相应的缺失填充值时，将估计张量

映射回多元时间序列矩阵X，估计张量

中多个元素映射后对应多元时间序列矩阵X中同一个元素(

中的每一个

的每条主对角线对应多元时间序列矩阵X同一元素)，若W_i,j＝0，则对于多元时间序列矩阵X中的元素X_i,j，将根据估计张量

映射得到的、所有对应元素X_i,j的元素构成一个集合X′_i,j：

以||X′_i,j||表示该集合X′_i,j的元素个数，得到对多元时间序列矩阵X的缺失填充值表达式为：

其中，

为用于修复元素X_i,j的缺失填充值。

综上，本发明为解决传感器掉电导致数据缺失的时间序列难以修复的问题，提供了一种时间序列修复方法，该方法将多元时间序列矩阵X的张量汉克尔化结果分解成低维稠密的多元变量嵌入A、时延嵌入B和时序嵌入C，进而通过三者之间的张量积恢复时间序列中的缺失数据值，无需建立数据生成的模型，也不依赖数据的强周期性，能够更有效地挖掘数据间深层次的关联关系，获得更为准确的修复结果。本发明利用现有技术中的基于随机梯度下降的机器学习方法求解多元变量嵌入A、时延嵌入B和时序嵌入C，并有针对性地设计了损失函数以及求解的更新规则，相比于现有技术，能够更有效、准确地修复传感器掉电导致数据缺失的时间序列。

本发明所提供的适用于传感器掉电导致数据缺失的时间序列修复方法，特别适用于周期性不明显的非线性时间序列，例如空气质量、城市用电、区域温度、湿度等内容的多变量时间序列，即多元时间序列矩阵X可采用来自气象站、国家电网和城市传感器的多个传感器均匀等频率采样得到的数值型数据。进一步地，对于这一类周期性不明显的非线性时间序列，该方法的超参数优选范围为：时延维度K≈1.5l_M，低维嵌入空间的维度

调整建立的模型满足平稳性和正则性的程度的λ_s,λ_r∈{0.01,0.001,0.0001}，调整随机梯度下降过程的步长η∈{0.01,0.001}。具体取值应该根据不同数据集的特性根据实验获得。

为全面比较不同方法在各种真实数据下的修复效果，本发明使用5个真实多元传感器测量所得的时间序列数据集进行了验证，这些数据集侧重时间序列不同方面的特征：

空气质量集(AirQuality)是2004年到2005年的某一意大利城市的空气质量传感器数据，数据中体现了周期性的趋势和数值的跳跃式变化，验证时将其裁剪为由10个变量，1000个连续时间点组成的时间序列。

电力集(Electricity)是从2006年到2010年法国家庭每分钟家庭用电数据，数据体现了较强的时移性，验证时将其裁剪为由20个变量，2000个连续时间点组成的时间序列。

温度集(Temperature)是中国各地气象站从1960年到2012年的温度数据，数据体现了变量间的高度相关，验证时将其裁剪为50个变量、5000个连续时间点组成的时间序列。

天然气集(Gas)是美国一个化学实验室采集的从2007年到2011年的一个天然气开采平台的气体数据，数据中体现了变量间相关性的巨大差异，验证时将其裁剪为由100个变量，1000个连续时间点组成的时间序列。

氯气集(Chlorine)是某一自来水系统166个交叉口的水中氯离子含量，共计15天中每5分钟采集一次，数据变化非常平稳，体现了重复的周期性，验证时将其裁剪为50个变量，1000个连续时间点组成的时间序列。

表1示出了本发明提供的方法与现有技术中的TKCM方法(Kevin Wellenzohn等人于2017年提出的根据序列相似度在序列中抽取与缺失片段附近的子序列最相似的片段作为填充的一种方法)、Dynammo方法(Li,Lei等人于2009年提出的通过线性动态系统的理论解决时间序列缺失的方法)、TRMF方法(Yu,Hsiang-Fu等人于2016年提出的通过矩阵分解恢复时间序列缺失的方法)、BRITS方法(Cao,Wei等人于2018年提出的用深度学习解决时间序列缺失的方法)在上述5个数据集上，(缺失模式为blackout)缺失片段长度为100的情况下的对比结果，采用正规化方均根差NRMSE作为评价恢复结果好坏的指标，指标越小表示恢复效果越好。

表1本发明与现有技术的恢复效果比较

图2(a)至图2(e)示出了不同方法在电力集(Electricity)数据上的恢复结果，其中图2(a)对应TRMF方法，图2(b)对应Dynammo方法，图2(c)对应TKCM方法，图2(d)对应BRITS方法，图2(e)对应本发明提供的方法，虚线代表原时间序列，实线代表恢复结果，可以看出，在面对较大的blackout型缺失片段时，只有本发明的方法输出的恢复结果与真实值较为接近。

特别地，在本发明一些优选的实施方式中，还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式中所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。

在本发明另一些优选的实施方式中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施方式中所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述适用于传感器掉电导致数据缺失的时间序列修复方法实施例的流程，在此不再重复说明。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。