CN112699608A - 适用于传感器掉电导致数据缺失的时间序列修复方法 - Google Patents

适用于传感器掉电导致数据缺失的时间序列修复方法 Download PDF

Info

Publication number
CN112699608A
CN112699608A CN202011626058.9A CN202011626058A CN112699608A CN 112699608 A CN112699608 A CN 112699608A CN 202011626058 A CN202011626058 A CN 202011626058A CN 112699608 A CN112699608 A CN 112699608A
Authority
CN
China
Prior art keywords
time
tensor
multivariate
embedding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011626058.9A
Other languages
English (en)
Other versions
CN112699608B (zh
Inventor
张海军
苗东菁
张开旗
高宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011626058.9A priority Critical patent/CN112699608B/zh
Publication of CN112699608A publication Critical patent/CN112699608A/zh
Application granted granted Critical
Publication of CN112699608B publication Critical patent/CN112699608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明涉及一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质,该方法包括:获取传感器测量所得的多元时间序列矩阵,确定传感器掉电导致数据缺失片段的长度及位置;对多元时间序列矩阵进行张量汉克尔化,将多元时间序列矩阵映射到三维张量,三维张量的三个维度分别为多元变量、时延、时序;基于随机梯度下降的机器学习方法,对三维张量进行张量分解,分解为多元变量嵌入、时延嵌入和时序嵌入;将求解得到的多元变量嵌入、时延嵌入和时序嵌入以张量积的形式重构为三维张量的估计张量;利用重构得到的估计张量,填补多元时间序列矩阵中的数据缺失片段。本发明能够更为准确修复传感器掉电导致的数据缺失。

Description

适用于传感器掉电导致数据缺失的时间序列修复方法
技术领域
本发明涉及传感器测量及计算机处理技术领域,尤其涉及一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质。
背景技术
随着大数据技术不断发展,多元传感器连续测量得到的时间序列数据越来越常见,应用也越来越广泛,使得关于传感器时间序列数据的分析、挖掘和预测成为当下的热点。时间序列数据的分析与挖掘需要以序列的完整性为前提,但是实际生产生活中可能遇到各种故障,例如网络瘫痪、记录设备异常和存储设备故障等情况,会导致部分测量数据丢失。因此,如何修复时间序列中存在的缺失片段成为亟待解决的问题。
修复时间序列缺失数据的难点在于时间序列特征的复杂性和缺失的多样性。目前,国内外采用的时间序列修复方法大致可以分为基于模型的方法和基于序列相似性的方法两大类。
基于模型的方法通常使用先验知识将数据的产生过程用一个模型表示,比如线性动态系统,深度神经网络等,然后利用机器学习、最优化等理论方法求得模型的参数,进而从模型中推导缺失的数据值。基于序列相似性的方法则是出于相似的模式语义在时间序列中反复出现的认知,在时间序列的完整片段上抽取与缺失片段的上下文片段相似的部分,用完整片段上相应位置的数据值的语义填充缺失位置。
但这两类方法均有其局限性。对于基于模型的方法,其修复效果受限于模型的表达能力和求解模型参数的方法对数据的要求。比如线性动态系统模型对于修复非线性时间序列的效果比较糟糕;基于深度神经网络模型的方法中,由于机器学习过程的梯度下降方法固有的梯度消失问题,对数据的缺失程度有较高的要求。而对于基于序列相似性的方法,由于传感器测量的数据序列不一定具有很强的周期性,例如空气质量、城市用电、天然气开采平台记录数据等,使得基于缺失片段上下文抽取的相似序列匹配并不能很好地反映数据缺失片段上的特征与模式,进而对于数据缺失片段周围产生较大的偏移。尤其是当缺失片段长度较大时,这一现象尤为明显。
传感器掉电(blackout)导致数据缺失会使得一段时间内所有传感器的记录数据全部丢失,即,使传感器测量得到的多元时间序列矩阵中存在整段的数据缺失片段。现有的工作在这种情况下,对缺失值的恢复效果不好,难以满足对时间序列的分析与挖掘的要求。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是解决现有技术在传感器掉电导致数据缺失的情况下,对时间序列缺失值修复效果不佳、准确度差的问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种适用于传感器掉电导致数据缺失的时间序列修复方法,该方法包括如下步骤:
S1、获取传感器测量所得的多元时间序列矩阵,确定传感器掉电导致数据缺失片段的长度及位置;
S2、对所述多元时间序列矩阵进行张量汉克尔化,将所述多元时间序列矩阵映射到三维张量,所述三维张量的三个维度分别为多元变量、时延、时序;
S3、基于随机梯度下降的机器学习方法,对所述三维张量进行张量分解,分解为多元变量嵌入、时延嵌入和时序嵌入;
S4、将机器学习方法求解得到的多元变量嵌入、时延嵌入和时序嵌入以张量积的形式重构为所述三维张量的估计张量;
S5、利用重构得到的所述估计张量确定相应的缺失填充值,填补所述多元时间序列矩阵中的数据缺失片段。
优选地,所述多元时间序列矩阵X=<x1,x2,...,xT〉,
Figure BDA0002879258200000031
为t时刻的D维列向量,t=1,...,T,T表示时刻数,D表示多元变量数;
所述步骤S1中,确定传感器掉电导致数据缺失片段的长度及位置时,采用指示掩码矩阵W∈{0,1}D×T,所述指示掩码矩阵W={Wd,t}中的元素Wd,t=0表示t时刻的第d维变量缺失,Wd,t=1表示t时刻的第d维变量存在;
对于传感器掉电导致数据缺失的所述多元时间序列矩阵X,有
Figure BDA0002879258200000032
其中a时刻对应数据缺失片段的起始位置,(a+lM-1)时刻对应数据缺失片段的终止位置,lM表示数据缺失片段的长度。
优选地,所述步骤S2中,将所述多元时间序列矩阵X映射到三维张量HK(X)时,表达式为:
Figure BDA0002879258200000033
其中,时延维度为K,时序维度为L,K+L-1=T且K≥lM+1;
所述三维张量HK(X)中的元素HK(X)i,j,k表示为:
Figure BDA0002879258200000034
其中,Xi,j+k-1表示所述多元时间序列矩阵X中第(j+k-1)时刻的第i维变量,j=1,...,K,k=1,...,L。
优选地,所述步骤S3中,基于随机梯度下降的机器学习方法,对所述三维张量HK(X)进行张量分解时,定义机器学习的损失函数表达式为:
Figure BDA0002879258200000035
其中,HK(X)=Y,Yi,j,k=HK(X)i,j,k,Ω表示三维张量HK(X)中所有元素的索引组成的集合,多元变量嵌入A={Ai,r}D×R,时延嵌入B={Bj,r}K×R,时序嵌入C={Cj,r}L×R,R表示低维嵌入空间的维度,且R<min(D,K,L);
Figure BDA0002879258200000041
Figure BDA0002879258200000042
其中,λs、λr为超参数,λs用于表示满足时间序列的平稳性
Figure BDA0002879258200000047
的程度,λr用于表示满足弗罗贝尼乌斯范数RR(A,B,C)的程度。
优选地,所述步骤S3中,基于随机梯度下降的机器学习方法,对所述三维张量HK(X)进行张量分解时,使用如下的基于随机梯度下降的更新规则求解A、B、C:
Δ=Bj,:-Bj-1,:
Γ=Ai,:(Δ⊙Ck,:)
Δ′=Bj+1,:-Bj,:
Γ′=Ai,:(Δ′⊙Ck,:)
Figure BDA0002879258200000043
Figure BDA0002879258200000044
Figure BDA0002879258200000045
其中,
Figure BDA0002879258200000046
η表示随机梯度下降过程的步长,Ai,:表示多元变量嵌入A的第i行,
Figure BDA0002879258200000051
表示更新的Ai,:,Bj,:表示时延嵌入B的第j行,
Figure BDA0002879258200000052
表示更新的Bj,:,Ck,:表示时序嵌入C的第k行,
Figure BDA0002879258200000053
表示更新的Ck,:
优选地,所述步骤S4中,重构估计张量
Figure BDA00028792582000000511
时,表达式为:
Figure BDA0002879258200000054
其中,A:,r表示多元变量嵌入A的第r列,B:,r表示时延嵌入B的第r列,C:,r表示时序嵌入C的第r列。
优选地,所述步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,对于所述多元时间序列矩阵X中每个缺失的元素,将所述估计张量
Figure BDA0002879258200000055
中所有对应该元素的数据求平均,作为该元素的缺失填充值。
优选地,所述步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,将估计张量
Figure BDA0002879258200000056
映射回所述多元时间序列矩阵X,若Wi,j=0,则对于所述多元时间序列矩阵X中的元素Xi,j,将根据所述估计张量
Figure BDA0002879258200000057
映射得到的所有对应元素构成一个集合X′i,j
Figure BDA0002879258200000058
以||X′i,j||表示集合X′i,j的元素个数,得到元素Xi,j的缺失填充值表达式为:
Figure BDA0002879258200000059
其中,
Figure BDA00028792582000000510
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
(三)有益效果
本发明的上述技术方案具有如下优点:本发明提供了一种适用于传感器掉电导致数据缺失的时间序列修复方法、计算机设备及计算机可读存储介质,本发明将传感器测量所得的多元时间序列矩阵映射到三维张量,通过机器学习方法将三维张量拆为低维稠密的多元变量嵌入、时延嵌入、时序嵌入,以张量积的方式重构三维张量的估计张量,根据重构的估计张量,恢复多元时间序列矩阵缺失的数据;本发明无需建立数据产生过程的模型,也不依赖时间序列的强周期性,能够对传感器掉电导致数据缺失的时间序列进行准确度较高的复原,特别是对于空气质量、城市用电等弱周期性时间序列,对缺失值的恢复效果较好。
附图说明
图1是本发明实施例中一种适用于传感器掉电导致数据缺失的时间序列修复方法步骤示意图;
图2(a)至图2(e)示出了不同方法在一电力集数据上的恢复结果,其中图2(a)对应TRMF方法,图2(b)对应Dynammo方法,图2(c)对应TKCM方法,图2(d)对应BRITS方法,图2(e)对应本发明提供的方法。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种适用于传感器掉电导致数据缺失的时间序列修复方法,包括如下步骤:
S1、获取传感器测量所得的多元时间序列矩阵X,确定传感器掉电导致数据缺失片段的长度及位置;
S2、对多元时间序列矩阵X进行张量汉克尔化,将多元时间序列矩阵X映射到三维张量HK(X),三维张量HK(X)的三个维度分别为多元变量、时延、时序;
S3、基于随机梯度下降的机器学习方法,对三维张量HK(X)进行张量分解,分解为多元变量嵌入A、时延嵌入B和时序嵌入C;
S4、将机器学习方法求解得到的多元变量嵌入A、时延嵌入B和时序嵌入C以张量积的形式重构为三维张量的估计张量
Figure BDA0002879258200000071
S5、利用重构得到的估计张量
Figure BDA0002879258200000072
确定相应的缺失填充值,填补多元时间序列矩阵X中的数据缺失片段。
为了下文的表达方便,给出如下的运算定义:
定义1元素积:A,B均为大小为m×n的矩阵,则:
Figure BDA0002879258200000073
定义2张量积:x为长度为m的向量,y为长度为n的向量,则:
Figure BDA0002879258200000074
多元传感器测量所得的时间序列构成的多元时间序列矩阵X为数值型矩阵,可表示为X=<x1,x2,...,xT>,其中
Figure BDA0002879258200000075
为t时刻的D维列向量,t=1,...,T,T表示时刻数,D表示多元变量数。
优选地,步骤S1中,确定传感器掉电导致数据缺失片段的长度及位置时,采用指示掩码矩阵W∈{0,1}D×T,指示掩码矩阵W={Wd,t}中的元素Wd,t取值为0或1,如果t时刻的第d维变量缺失了,则Wd,t=0,否则为Wd,t=1。时间序列修复即恢复多元时间序列矩阵X中所有由Wd,t=0指示的缺失元素。
对于传感器掉电导致数据缺失的多元时间序列矩阵X,相应的指示掩码矩阵W的特征为连续多列的值全为0,即有:
Figure BDA0002879258200000081
其中a时刻对应多元时间序列矩阵X中数据缺失片段的起始位置,(a+lM-1)时刻对应数据缺失片段的终止位置,lM表示数据缺失片段的长度。
优选地,步骤S2中,将多元时间序列矩阵X映射到三维张量HK(X)时,表达式为:
Figure BDA0002879258200000082
其中,xj,xj+1,...,xj+L-1构成L时序嵌入,时序维度为L,j=1,...,K,xk,xk+1,...,xk+K-1构成K时延嵌入,时延维度为K,k=1,...,L,
Figure BDA0002879258200000083
表示t时刻的D维列向量,t=1,...,T。K+L-1=T且K≥lM+1,K优选选取1.5lM附近的整数。张量汉克尔化可以认为是将多元时间序列矩阵X每一维的单元时间序列进行如上式过程,将传感器测量结果沿高度方向堆叠,实现矩阵到三维张量的映射。
三维张量HK(X)中的元素HK(X)i,j,k表示为:
Figure BDA0002879258200000084
HK(X)i,j,k表示三维张量HK(X)中索引为(i,j,k)的元素,i=1,...,D,j=1,...,K,k=1,...,L,分别对应三维张量HK(X)中多元变量、时延、时序三个维度,Xi,j+k-1为多元时间序列矩阵X中的元素,索引为(i,j+k-1),Xi,j+k-1表示多元时间序列矩阵X中第(j+k-1)时刻的第i维变量。
本发明步骤S3旨在将时间序列数据拆分为多元变量嵌入、时延嵌入、时序嵌入,通过将存在数据缺失的高维张量转化为低维、独立且稠密的分量,从而得到时间序列数据在多元变量、时延、时序三个维度上的独立分布。本发明的目的是将张量汉克尔化结果拆分成如下式所示的低秩矩阵的张量积的形式:
Figure BDA0002879258200000085
以便通过机器学习方法确定多元变量嵌入A、时延嵌入B和时序嵌入C,其中Y为三维张量HK(X)的简写,HK(X)=Y,Yi,j,k=HK(X)i,j,k,A:,r表示多元变量嵌入A的第r列,B:,r表示时延嵌入B的第r列,C:,r表示时序嵌入C的第r列,R表示低维嵌入空间的维度,在这一R维的空间中多元变量嵌入、时延嵌入和时序嵌入有简单的近似表示,主要起到将含有缺失的高维稀疏空间线性映射为稠密无缺失的低维空间的作用,同时降低了该方法的计算量。R<Q=min(D,K,L)。依据目前的实验结果,根据不同的数据集,优选从
Figure BDA0002879258200000091
选择一个合适的整数。
优选地,步骤S3中,基于随机梯度下降的机器学习方法,对三维张量HK(X)进行张量分解时,定义机器学习的损失函数表达式为:
Figure BDA0002879258200000092
其中,Ω表示三维张量HK(X)中所有观察值的索引组成的集合,可通过指示掩码矩阵W获得,多元变量嵌入A={Ai,r}D×R,时延嵌入B={Bj,r}K×R,时序嵌入C={Cj,r}L×R
损失函数
Figure BDA0002879258200000093
中的第一项
Figure BDA0002879258200000094
是CP分解的重构的张量与原汉克尔化张量的差,使得A、B、C的张量积充分反映时间序列的本质。
损失函数
Figure BDA0002879258200000095
中的第二项
Figure BDA0002879258200000098
是时序正则项,用来平滑时间序列相邻时刻,表达数据随时间变化的平稳性质。体现在减小重构结果每一维度相邻两项的差:
Figure BDA0002879258200000096
损失函数
Figure BDA0002879258200000097
中的第三项RR(A,B,C)是L2正则项,用来减缓机器学习过程对数据的过拟合:
Figure BDA0002879258200000101
其中,λs、λr为超参数,λs表示本文提出的方法所建立的模型满足时间序列的平稳性
Figure BDA0002879258200000107
(相邻时刻数据的差值)的程度,λr表示模型满足弗罗贝尼乌斯范数RR(A,B,C)(表示建立的模型简单、正则)的程度,可由先验知识确定它们的取值范围。对于本方法适用的空气质量、家庭用电量等数据,一般优选λsr∈{0.01,0.001,0.0001},可由实验决定具体数值。
步骤S3中机器学习的任务是求解多元变量嵌入A、时延嵌入B和时序嵌入C,满足:
Figure BDA0002879258200000102
进一步地,步骤S3中使用如下的基于随机梯度下降的更新规则求解多元变量嵌入A、时延嵌入B和时序嵌入C,更新规则表达式为:
Δ=Bj,:-Bj-1,:
Γ=Ai,:(Δ⊙Ck,:)
Δ′=Bj+1,:-Bj,:
Γ′=Ai,:(Δ′⊙Ck,:)
Figure BDA0002879258200000103
Figure BDA0002879258200000104
Figure BDA0002879258200000105
其中,
Figure BDA0002879258200000106
η表示随机梯度下降过程的步长,影响该方法运行的时间开销,步长过大导致梯度下降过程不收敛,是一个超参数。对于本文适用的数据集,一般优选η∈{0.01,0.001},由实验决定优化取值,Ai,:表示多元变量嵌入A的第i行,
Figure BDA0002879258200000111
表示更新的Ai,:,Bj,:表示时延嵌入B的第j行,
Figure BDA0002879258200000112
表示更新的Bj,:,Ck,:表示时序嵌入C的第k行,
Figure BDA0002879258200000113
表示更新的Ck,:
优选地,步骤S4中以张量积的形式重构三维张量的估计张量
Figure BDA0002879258200000114
时,估计张量
Figure BDA0002879258200000115
表达式为:
Figure BDA0002879258200000116
其中,A:,r表示步骤S3求解得到的多元变量嵌入A的第r列,B:,r表示步骤S3求解得到的时延嵌入B的第r列,C:,r表示步骤S3求解得到的时序嵌入C的第r列。
Figure BDA0002879258200000117
Figure BDA0002879258200000118
的简写,
Figure BDA0002879258200000119
优选地,步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,根据指示掩码矩阵W,对于多元时间序列矩阵X中每个缺失的元素Xd,t(对应的Wd,t=0),将估计张量
Figure BDA00028792582000001110
中所有对应该元素Xd,t的数据求平均,作为缺失填充值,填充给缺失的元素Xd,t
步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,将估计张量
Figure BDA00028792582000001111
映射回多元时间序列矩阵X,估计张量
Figure BDA00028792582000001112
中多个元素映射后对应多元时间序列矩阵X中同一个元素(
Figure BDA00028792582000001113
中的每一个
Figure BDA00028792582000001114
的每条主对角线对应多元时间序列矩阵X同一元素),若Wi,j=0,则对于多元时间序列矩阵X中的元素Xi,j,将根据估计张量
Figure BDA00028792582000001115
映射得到的、所有对应元素Xi,j的元素构成一个集合X′i,j
Figure BDA00028792582000001116
以||X′i,j||表示该集合X′i,j的元素个数,得到对多元时间序列矩阵X的缺失填充值表达式为:
Figure BDA00028792582000001117
其中,
Figure BDA00028792582000001118
Figure BDA00028792582000001119
为用于修复元素Xi,j的缺失填充值。
综上,本发明为解决传感器掉电导致数据缺失的时间序列难以修复的问题,提供了一种时间序列修复方法,该方法将多元时间序列矩阵X的张量汉克尔化结果分解成低维稠密的多元变量嵌入A、时延嵌入B和时序嵌入C,进而通过三者之间的张量积恢复时间序列中的缺失数据值,无需建立数据生成的模型,也不依赖数据的强周期性,能够更有效地挖掘数据间深层次的关联关系,获得更为准确的修复结果。本发明利用现有技术中的基于随机梯度下降的机器学习方法求解多元变量嵌入A、时延嵌入B和时序嵌入C,并有针对性地设计了损失函数以及求解的更新规则,相比于现有技术,能够更有效、准确地修复传感器掉电导致数据缺失的时间序列。
本发明所提供的适用于传感器掉电导致数据缺失的时间序列修复方法,特别适用于周期性不明显的非线性时间序列,例如空气质量、城市用电、区域温度、湿度等内容的多变量时间序列,即多元时间序列矩阵X可采用来自气象站、国家电网和城市传感器的多个传感器均匀等频率采样得到的数值型数据。进一步地,对于这一类周期性不明显的非线性时间序列,该方法的超参数优选范围为:时延维度K≈1.5lM,低维嵌入空间的维度
Figure BDA0002879258200000121
调整建立的模型满足平稳性和正则性的程度的λsr∈{0.01,0.001,0.0001},调整随机梯度下降过程的步长η∈{0.01,0.001}。具体取值应该根据不同数据集的特性根据实验获得。
为全面比较不同方法在各种真实数据下的修复效果,本发明使用5个真实多元传感器测量所得的时间序列数据集进行了验证,这些数据集侧重时间序列不同方面的特征:
空气质量集(AirQuality)是2004年到2005年的某一意大利城市的空气质量传感器数据,数据中体现了周期性的趋势和数值的跳跃式变化,验证时将其裁剪为由10个变量,1000个连续时间点组成的时间序列。
电力集(Electricity)是从2006年到2010年法国家庭每分钟家庭用电数据,数据体现了较强的时移性,验证时将其裁剪为由20个变量,2000个连续时间点组成的时间序列。
温度集(Temperature)是中国各地气象站从1960年到2012年的温度数据,数据体现了变量间的高度相关,验证时将其裁剪为50个变量、5000个连续时间点组成的时间序列。
天然气集(Gas)是美国一个化学实验室采集的从2007年到2011年的一个天然气开采平台的气体数据,数据中体现了变量间相关性的巨大差异,验证时将其裁剪为由100个变量,1000个连续时间点组成的时间序列。
氯气集(Chlorine)是某一自来水系统166个交叉口的水中氯离子含量,共计15天中每5分钟采集一次,数据变化非常平稳,体现了重复的周期性,验证时将其裁剪为50个变量,1000个连续时间点组成的时间序列。
表1示出了本发明提供的方法与现有技术中的TKCM方法(Kevin Wellenzohn等人于2017年提出的根据序列相似度在序列中抽取与缺失片段附近的子序列最相似的片段作为填充的一种方法)、Dynammo方法(Li,Lei等人于2009年提出的通过线性动态系统的理论解决时间序列缺失的方法)、TRMF方法(Yu,Hsiang-Fu等人于2016年提出的通过矩阵分解恢复时间序列缺失的方法)、BRITS方法(Cao,Wei等人于2018年提出的用深度学习解决时间序列缺失的方法)在上述5个数据集上,(缺失模式为blackout)缺失片段长度为100的情况下的对比结果,采用正规化方均根差NRMSE作为评价恢复结果好坏的指标,指标越小表示恢复效果越好。
表1本发明与现有技术的恢复效果比较
Figure BDA0002879258200000131
图2(a)至图2(e)示出了不同方法在电力集(Electricity)数据上的恢复结果,其中图2(a)对应TRMF方法,图2(b)对应Dynammo方法,图2(c)对应TKCM方法,图2(d)对应BRITS方法,图2(e)对应本发明提供的方法,虚线代表原时间序列,实线代表恢复结果,可以看出,在面对较大的blackout型缺失片段时,只有本发明的方法输出的恢复结果与真实值较为接近。
特别地,在本发明一些优选的实施方式中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式中所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
在本发明另一些优选的实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施方式中所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述适用于传感器掉电导致数据缺失的时间序列修复方法实施例的流程,在此不再重复说明。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于,包括如下步骤:
S1、获取传感器测量所得的多元时间序列矩阵,确定传感器掉电导致数据缺失片段的长度及位置;
S2、对所述多元时间序列矩阵进行张量汉克尔化,将所述多元时间序列矩阵映射到三维张量,所述三维张量的三个维度分别为多元变量、时延、时序;
S3、基于随机梯度下降的机器学习方法,对所述三维张量进行张量分解,分解为多元变量嵌入、时延嵌入和时序嵌入;
S4、将机器学习方法求解得到的多元变量嵌入、时延嵌入和时序嵌入以张量积的形式重构为所述三维张量的估计张量;
S5、利用重构得到的所述估计张量确定相应的缺失填充值,填补所述多元时间序列矩阵中的数据缺失片段。
2.根据权利要求1所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述多元时间序列矩阵X=<x1,x2,...,xT>,
Figure FDA0002879258190000011
为t时刻的D维列向量,t=1,...,T,T表示时刻数,D表示多元变量数;
所述步骤S1中,确定传感器掉电导致数据缺失片段的长度及位置时,采用指示掩码矩阵W∈{0,1}D×T,所述指示掩码矩阵W={Wd,t}中的元素Wd,t=0表示t时刻的第d维变量缺失,Wd,t=1表示t时刻的第d维变量存在;
对于传感器掉电导致数据缺失的所述多元时间序列矩阵X,有
Figure FDA0002879258190000012
其中a时刻对应数据缺失片段的起始位置,(a+lM-1)时刻对应数据缺失片段的终止位置,lM表示数据缺失片段的长度。
3.根据权利要求2所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S2中,将所述多元时间序列矩阵X映射到三维张量HK(X)时,表达式为:
Figure FDA0002879258190000021
其中,时延维度为K,时序维度为L,K+L-1=T且K≥lM+1;
所述三维张量HK(X)中的元素HK(X)i,j,k表示为:
Figure FDA0002879258190000022
其中,Xi,j+k-1表示所述多元时间序列矩阵X中第(j+k-1)时刻的第i维变量,j=1,...,K,k=1,...,L。
4.根据权利要求3所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S3中,基于随机梯度下降的机器学习方法,对所述三维张量HK(X)进行张量分解时,定义机器学习的损失函数表达式为:
Figure FDA0002879258190000023
其中,HK(X)=Y,Yi,j,k=HK(X)i,j,k,Ω表示三维张量HK(X)中所有元素的索引组成的集合,多元变量嵌入A={Ai,r}D×R,时延嵌入B={Bj,r}K×R,时序嵌入C={Cj,r}L×R,R表示低维嵌入空间的维度,且R<min(D,K,L);
Figure FDA0002879258190000024
Figure FDA0002879258190000025
其中,λs、λr为超参数,λs用于表示满足时间序列的平稳性
Figure FDA0002879258190000026
的程度,λr用于表示满足弗罗贝尼乌斯范数RR(A,B,C)的程度。
5.根据权利要求4所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S3中,基于随机梯度下降的机器学习方法,对所述三维张量HK(X)进行张量分解时,使用如下的基于随机梯度下降的更新规则求解A、B、C:
Δ=Bj,:-Bj-1,:
Γ=Ai,:(Δ⊙Ck,:)
Δ′=Bj+1,:-Bj,:
Γ'=Ai,:(Δ'⊙Ck,:)
Figure FDA0002879258190000031
s(Γ⊙(Δ⊙Ck,:))
s(Γ'⊙(Δ'⊙Ck,:))]
Figure FDA0002879258190000032
s(Γ⊙(Ai,:⊙Ck,:))
s(Γ'⊙(Ai,:⊙Ck,:))]
Figure FDA0002879258190000033
s(Γ⊙(Ai,:⊙Δ))
s(Γ′⊙(Ai,:⊙Δ′))]
其中,
Figure FDA0002879258190000034
η表示随机梯度下降过程的步长,Ai,:表示多元变量嵌入A的第i行,
Figure FDA0002879258190000035
表示更新的Ai,:,Bj,:表示时延嵌入B的第j行,
Figure FDA0002879258190000036
表示更新的Bj,:,Ck,:表示时序嵌入C的第k行,
Figure FDA0002879258190000037
表示更新的Ck,:
6.根据权利要求5所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S4中,重构估计张量
Figure FDA0002879258190000038
时,表达式为:
Figure FDA0002879258190000039
其中,A:,r表示多元变量嵌入A的第r列,B:,r表示时延嵌入B的第r列,C:,r表示时序嵌入C的第r列。
7.根据权利要求6所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,对于所述多元时间序列矩阵X中每个缺失的元素,将所述估计张量
Figure FDA0002879258190000041
中所有对应该元素的数据求平均,作为该元素的缺失填充值。
8.根据权利要求7所述的适用于传感器掉电导致数据缺失的时间序列修复方法,其特征在于:
所述步骤S5中,利用重构得到的所述估计张量确定相应的缺失填充值时,将估计张量
Figure FDA0002879258190000042
映射回所述多元时间序列矩阵X,若Wi,j=0,则对于所述多元时间序列矩阵X中的元素Xi,j,将根据所述估计张量
Figure FDA0002879258190000043
映射得到的所有对应元素构成一个集合X′i,j
Figure FDA0002879258190000044
以||X′i,j||表示集合X′i,j的元素个数,得到元素Xi,j的缺失填充值表达式为:
Figure FDA0002879258190000045
其中,
Figure FDA0002879258190000046
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述适用于传感器掉电导致数据缺失的时间序列修复方法的步骤。
CN202011626058.9A 2020-12-31 2020-12-31 适用于传感器掉电导致数据缺失的时间序列修复方法 Active CN112699608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011626058.9A CN112699608B (zh) 2020-12-31 2020-12-31 适用于传感器掉电导致数据缺失的时间序列修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011626058.9A CN112699608B (zh) 2020-12-31 2020-12-31 适用于传感器掉电导致数据缺失的时间序列修复方法

Publications (2)

Publication Number Publication Date
CN112699608A true CN112699608A (zh) 2021-04-23
CN112699608B CN112699608B (zh) 2022-05-06

Family

ID=75513227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011626058.9A Active CN112699608B (zh) 2020-12-31 2020-12-31 适用于传感器掉电导致数据缺失的时间序列修复方法

Country Status (1)

Country Link
CN (1) CN112699608B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130184558A1 (en) * 2009-03-04 2013-07-18 The Regents Of The University Of California Apparatus and method for decoding sensory and cognitive information from brain activity
WO2017126330A1 (ja) * 2016-01-21 2017-07-27 ソニー株式会社 記録調整装置、記録調整方法、およびプログラム
CN108804392A (zh) * 2018-05-30 2018-11-13 福州大学 一种基于时空约束的交通数据张量填充方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法
CN109711012A (zh) * 2018-12-14 2019-05-03 华北电力大学 一种基于奇异谱分析的pmu单通道丢失数据的恢复方法
CN110069868A (zh) * 2019-04-26 2019-07-30 中国人民解放军战略支援部队信息工程大学 Gnss测站非线性运动建模方法与装置
EP3573012A1 (en) * 2018-05-22 2019-11-27 Siemens Aktiengesellschaft Platform for selection of items used for the configuration of an industrial system
CN110706823A (zh) * 2019-11-15 2020-01-17 广州地理研究所 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130184558A1 (en) * 2009-03-04 2013-07-18 The Regents Of The University Of California Apparatus and method for decoding sensory and cognitive information from brain activity
WO2017126330A1 (ja) * 2016-01-21 2017-07-27 ソニー株式会社 記録調整装置、記録調整方法、およびプログラム
EP3573012A1 (en) * 2018-05-22 2019-11-27 Siemens Aktiengesellschaft Platform for selection of items used for the configuration of an industrial system
CN108804392A (zh) * 2018-05-30 2018-11-13 福州大学 一种基于时空约束的交通数据张量填充方法
CN109241491A (zh) * 2018-07-28 2019-01-18 天津大学 基于联合低秩和稀疏表示的张量结构性缺失填充方法
CN109711012A (zh) * 2018-12-14 2019-05-03 华北电力大学 一种基于奇异谱分析的pmu单通道丢失数据的恢复方法
CN110069868A (zh) * 2019-04-26 2019-07-30 中国人民解放军战略支援部队信息工程大学 Gnss测站非线性运动建模方法与装置
CN110706823A (zh) * 2019-11-15 2020-01-17 广州地理研究所 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
石巍巍: "大规模多源时间序列预处理与隐藏空间映射分析研究", 《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》 *
赵小文: "基于时间序列数据的复杂网络重构", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *
陆文琦等: "基于张量分解理论的车道级交通流数据修复算法", 《吉林大学学报(工学版)》 *

Also Published As

Publication number Publication date
CN112699608B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN110263866B (zh) 一种基于深度学习的电力用户负荷区间预测方法
CN112598248B (zh) 负荷预测方法、装置、计算机设备和存储介质
CN111313403B (zh) 一种基于马尔可夫随机场的低压配电系统网络拓扑识别方法
CN112101554A (zh) 异常检测方法及装置、设备、计算机可读存储介质
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN112559963A (zh) 一种配电网动态参数辨识方法及装置
CN113570138A (zh) 一种时间卷积网络的设备剩余使用寿命预测方法及装置
CN112803398A (zh) 基于经验模态分解和深度神经网络的负荷预测方法及系统
CN116027158A (zh) 一种高压电缆局放故障预测方法及系统
CN113011680A (zh) 一种电力负荷预测方法及系统
CN114519923A (zh) 一种电厂智能诊断预警方法和系统
CN112926627A (zh) 一种基于电容型设备缺陷数据的设备缺陷时间预测方法
CN116401516A (zh) 一种基于深度学习的电力负荷异常数据检测与修正方法
CN116562120A (zh) 一种基于rve的涡轮发动机系统健康状况评估方法及装置
CN113536508A (zh) 一种制造网络节点分类方法及系统
CN112699608B (zh) 适用于传感器掉电导致数据缺失的时间序列修复方法
CN112819208A (zh) 一种基于特征子集耦合模型的空间相似性地质灾害预测方法
CN117034169A (zh) 基于时序因果关系网络的电网主变设备异常状态预测方法
CN116543198A (zh) 一种基于多粒度近邻图的智能电表故障分类方法
CN115730197A (zh) 基于DRSupAE的转炉炼钢终点碳温预测方法及应用
CN115563877A (zh) 一种基于历史负荷数据的短期负荷预测与修复方法
CN113269400B (zh) 一种基于历史运维信息的低压配电网设备状态评估方法
KR102486463B1 (ko) 열화에 따른 시계열 데이터를 이용한 실시간 이상 감지 방법 및 그를 위한 장치
CN106295193A (zh) 一种基于压缩感知的河流月径流量预测方法
CN112256735A (zh) 一种用电监测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant