CN109299170A

CN109299170A - 一种针对带标签时间序列数据的补全方法

Info

Publication number: CN109299170A
Application number: CN201811255098.XA
Authority: CN
Inventors: 吴思萌; 汪亮; 陶先平; 吕建
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-02-01
Anticipated expiration: 2038-10-25
Also published as: CN109299170B

Abstract

本发明公开了一种针对带标签时间序列数据的补全方法，主要用于解决真实场景中常见的时间序列数据连续一段整列丢失问题，该数据补全方法核心思想包括两方面：第一，运用Hankel矩阵化技术将低维时间序列组织成高维形式，引入高阶时间依赖关系，在此基础上利用矩阵分解的方法补全缺失数据，从而有效克服数据整列丢失问题；第二，在算法整体框架中建模标签信息，利用标签信息支持数据补全过程，使补全的数据更符合真实场景。通过合理运用上述两方面的思想，本发明提出的方法能够在真实的时间序列数据缺失场景中取得较好的补全效果；同时，该方法的可解释性较强，还可以在该方法的基础上进行较多扩展，从而有效运用于各类真实场景中。

Description

一种针对带标签时间序列数据的补全方法

技术领域

本发明涉及针对时间序列的数据采集与传输的计算机应用方法，尤其属于一种针对带标签时间序列数据的补全方法。

背景技术

随着计算机智能感知技术、计算能力以及存储技术的不断发展，每天都能获取到十分庞大的数据量，在这些数据中有很多知识是值得我们去挖掘的。时间序列数据是一种按时间顺序进行观测得到的观测数据集合，其在很多不同种类的应用中都广泛出现，例如：行为捕捉、传感器网络、天气预测、金融市场建模等等。对于时间序列数据，常见的分析处理任务包括预测/回归、异常值检测、模式识别等等，但这些任务通常都是建立在数据完整的基础上的。

然而在真实场景中，由于采集与传输中常见的因设备性能限制、网络传输错误、用户隐私保护等原因造成的数据缺失不可避免，因此针对时间序列缺失数据补全方法的研究成为了一个较为热门的话题。根据调研发现，时间序列数据丢失往往以连续一段整列丢失的形式出现，尤其对于一维时间序列数据而言，一个点的数据丢失也就意味着整列数据丢失，这个问题对于缺失数据补全是一个很大的挑战。在缺失数据补全方面，现存一些利用矩阵分解技术、线性动态系统的相关工作，然而它们都不能很好的应对数据连续一段整列丢失的情况，尤其是在数据丢失横跨较长一段时间时，这些相关工作的补全效果并不佳，造成这个问题的主要原因有两点：

1)过于依赖初始化过程。基于线性动态系统进行数据补全的相关工作，通常的做法是首先利用一些简单的方法(如：线性插值法)来初始化缺失数据，之后再利用卡尔曼滤波和平滑来调整填充的缺失值。然而这种方式在数据稀疏的情况下效果并不好，因为最初利用简单方法填充的值可能会对之后的最优化过程产生误导。除此之外，对于基于矩阵分解的相关工作，由于原始数据存在整列丢失的情况，这将导致分解出来的矩阵在相应列无法学习。

2)不能表达外界因素对于时间序列的影响。具体而言，现有工作对于数据补全任务的处理思想大都是基于数据驱动的，即探索时间序列数据的时间平滑性和空间关联性，其中时间平滑性表达的是时间序列数据前后时间片的数据相似，空间关联性表达的是同一时刻不同维度的值之间的依赖关系。在这样一种思路下，一旦计算模型建立好，数据补全的过程就完全基于时间序列本身的数据特性了。然而在真实场景中，由于外界因素的影响，时间序列数据往往是具有不确定性的，因此在处理数据连续一段整列丢失，尤其是在数据丢失横跨较长一段时间时，相关工作都不能计算出贴合实际的值。

时间序列数据连续一段整列丢失的情况在现实场景中很常见，然而现有相关方法在应对该问题时并不能取得较好的效果。

在对现有时间序列数据集展开了深入的分析与研究后，发现了有助于解决该问题的以下两点特性：

(1)高阶时间关联关系：在时间序列数据中不仅包含时间平滑性这种简单的性质，还存在着更为复杂的高阶时间关联关系，即数据在某些时间跨度上呈现出诸如相似性之类的关联关系；

(2)标签信息和时间序列数据间具有较强的关联关系：现有时间序列数据集中很大一部分是包含标签信息的，例如一份统计纽约市每日发生车祸数量的数据集中就包含了当日天气、路况等额外信息，我们把这些额外信息定义为标签信息。标签信息和时间序列数据间具有较强的关联关系，例如下雪天对应发生的车祸数量往往较多，可以说标签信息一定程度上描述了外界因素，倘若合理的利用该信息，对于数据补全将提供较大的帮助。

发明内容

为了克服现有技术在应对数据连续一段整列丢失时补全效果差的不足，本发明基于上述的解决该问题的两点特性采用了如下方法：

本发明的核心内容可以概括为以下两个方面：

(1)运用Hankel矩阵化技术将原始一维或低维时间序列组织成高维形式，引入高阶时间依赖关系，在此基础上利用矩阵分解的方法补全缺失数据；

(2)在算法整体框架中建模标签信息，利用标签信息支持数据补全过程。

通过结合这两方面的技术，能有效应对时间序列数据缺失中常见的数据连续一段整列丢失的情况。

本发明的一种针对带标签时间序列数据的补全方法，具体包括以下步骤：

1)将原始r(r≥1)维时间序列数据以及可能存在的标签信息组织成向量形式，数据序列表示为X＝<x₁,x₂,…,x_T>，与X对应存在一个可选的标签序列，表示为TAG＝<l₁,l₂,…,l_T>，任意t时刻的标签l_t，形式为一个类别符号；

其中：x_t对应t时刻的数据，x_t∈R^d，T为数据序列的长度，d为数据的维度，其最长的连续丢失的时长为p；

2)在获取数据序列X后，针对X中连续丢失的长度为p的子序列进行补全时，先将X序列进行p阶的Hankel矩阵化，记为H_p(X)；获得H_p(X)的过程可以描述为X*＝H_p(X)＝[1,Lag,Lag²,…,Lag^p]^TX，其中上标T表示向量或矩阵转置，Lag为时间延迟算子，定义为Lag·x_t＝x_t-1，Lagⁿ·x_t＝x_t-n；获取的X*矩阵为一个p+1行T列的实数矩阵；若数据序列X对应的标签序列TAG存在，则随机初始化行向量L∈R^1*T,针对任意时刻t，行向量L的第t列元素L_:,t表示t时刻标签对时间序列数据带来的影响；对于TAG序列中出现的每种标签l，从L中提取出相应的列组成子矩阵L_l；再运用p阶Hankel矩阵化技术将L分别组织成(p+1)行T列的矩阵L*＝H_p(L)；若数据序列X对应的标签序列TAG不存在，则L*为全0；

3)随机初始化两个矩阵U和V，其中U为一个p+1行r列的实数矩阵，V为一个r行T列的实数矩阵；

针对以下目标函数求解矩阵变量U、V、L*：

所述||·||²为矩阵的Frobenius范数的平方，UV项建模时间序列所包含的平滑趋势成分，L*项刻画的是由标签信息带来的外部影响，项表达的是同一种标签在不同时刻对时间序列产生的影响是相近的，项强调了数据内在平滑趋势的平滑性；根据实际需求，可以加入额外的正则化项||U||²+||V||²+||L||²，起到防过拟合的效果；α、β、γ是三个正实数，对应各分项的权值，可根据实际需要进行设置；基于该目标函数，运用随机梯度下降方法求解U、V、L*；

4)基于步骤3)中求解的U、V、L*，补全原始时间序列X中对应的缺失数据。

其中，步骤1)的具体过程为：

1.1)从数据集中分别导入时间序列数据以及标签信息，标签统一使用正整数替代字符串(不同时刻的同种标签对应于同一正整数)，数据序列存储于d*T的向量X中，向量X中包含部分缺失值，标签序列存储于1*T的向量TAG中；

1.2)从向量X的第一个元素开始扫描，确定在X中出现的最长段数据连续丢失对应长度p。

步骤2)的具体过程为：

2.1)基于步骤1.2)中确定的p值，随机初始化矩阵其中第t列元素L_:,t表示t时刻标签TAG[t]对时间序列数据带来的影响；

2.2)对于每种标签l，在TAG序列中找到其对应的列，之后从矩阵L中提取出相应的列组成子矩阵L_l；

2.3)运用p阶Hankel矩阵化技术H_p(·)将X和L分别组织成(p+1)行T列的矩阵X*、L*。以一维时间序列X对应的Hankel矩阵X*为例，其第一行X*_1,:对应于原始一维时间序列X_1:T；第二行X*_2,:对应于原始一维时间序列X的第二个至最后一个元素X_2:T；第n行X*_n,:对应于原始一维时间序列X的第n个至最后一个元素X_n:T,其中空余部分取NAN。

通过这种方式引入高阶时间依赖关系，X*矩阵中将不再出现整列缺失的情况，在此基础上执行矩阵分解，对于X*矩阵中任一列X*_:,n可联立一个或多个式子。

步骤3)的具体过程为：

3.1)将数据补全问题建模为步骤三中(1)式所述的目标函数，X*由UV和L*共同决定，先随机初始化U、V矩阵，后运用随机梯度下降的方法求解U、V、L*，令目标函数分别对U、V求偏导，结果如下：

再令目标函数分别对L*、L_l求偏导，注意到步骤三(1)式中L_l项中的元素与L*项中的元素是有对应关系的，(5)式中为与L_l大小相同的矩阵，且中所有元素的值均为L_l中所有元素的均值：

所述U为一个p+1行r列的实数矩阵，V为一个r行T列的实数矩阵；

3.2)基于3.1)中求偏导的计算结果，运用梯度下降的方式依次更新U、V、L*。

步骤4)的具体过程为：

4.1)确定原始时间序列X中缺失数据的位置，存储于向量W＝[t₁,t₂,…,t_n]中；

4.2)基于步骤3.2)中求解的U、V、L*，利用下式补全X中缺失数据：

其中：补全过程为：以Xt1为例，X*矩阵中第i行(i∈[1，p+1])第t1-i+1列元素都是与X_t1相对应的值，对这些元素求平均得到的结果用于最终补全X_t1。

本发明具有以下有益效果：

本发明提出的方法能够在真实的时间序列数据缺失场景中取得较好的补全效果,能有效地解决时间序列数据缺失，甚至连续大段整列丢失问题；同时，该方法的可解释性较强，还可以在该方法的基础上进行较多扩展，从而有效运用于各类真实场景中。

附图说明

图1是系统流程图；

图2是Hankel矩阵化技术过程示例图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

1、硬件环境

1)由一个或多个传感器节点构成的数据源，能够连续产生传感器数据汇聚成数据流，由于传感器节点失效等原因，数据流中的数据可能会产生缺失，甚至连续一段整列丢失的情况。除此之外，系统还应具有一个可以获取与传感器采集数据相关的标签信息的设备；

2)一个数据补全服务器，该服务器能够连入数据源获取数据流，并具备足够的存储和处理能力来满足补全算法的需求。

2、应用场景

在应用本发明所公开的数据补全方法时，首先需要将采集的传感器数据流接入数据补全服务器，同时将标签序列传输到数据补全服务器中。服务器根据接收到的传感器数据，判断数据完整性并确定在数据中出现的最长段数据连续丢失对应长度p，之后基于已有的带缺失的传感器数据以及标签序列执行补全操作。

补全后的数据和输入数据具有相同的格式，因此该数据补全方法对数据的操作对于应用的其他组件是透明的，能够方便地插入和拔出应用系统的数据处理流程，以满足后续基于完整数据的不同应用需求。

本发明所涉及技术的一个典型应用场景是以物联网技术为支撑的大数据应用。在物联网基础设施的支持下，能够采集到大量的环境相关数据并汇总到云端。这类技术包括目前已经处于快速建设当中的空气质量检测网络、车载移动传感器网络、智能可穿戴设备网络等。以空气质量检测网络为例，目前已经能够获取包括PM2.5在内的衡量空气质量指标的相关数据，然而，在现实场景中，由于检测设备的不可靠性等不可控因素，采集的空气质量数据中将不可避免地出现缺失，并且，往往会出现数据连续大段丢失的情况。若要从数据源头保证数据的高质量、高完整性，则要付出相当大的代价或根本无法实现。而现有的数据补全方法在应对数据连续大段丢失时补全效果并不理想。在此情形下，我们注意到空气质量与一些外界因素(如：温度、气压、风向等)具有较强的关联关系，而这部分信息是很容易获取的，本发明正是合理利用了这部分外界因素(标签信息)，实现在原始数据存在缺失甚至连续大段丢失时，以很小的代价补全原始数据，并且能取得较好的补全效果。

3、方法描述

本发明所涉及的针对带标签时间序列补全方法，其核心思想如下：

1)Hankel矩阵化技术

参见图2，本发明所涉及的针对带标签时间序列补全方法，其核心思想之一是将原始一维数据扩展成高维数据，引入高阶时间依赖关系，从而克服数据整列丢失的情况，在此基础上执行矩阵分解操作。具体来讲，对于原始时间序列数据X，首先要确定其中最长段数据连续丢失对应长度p，基于p值将X组织成(p+1)行T列的矩阵X*(T为时间序列总长度)，其第一行X*_1,:对应于原始一维时间序列X_1:T；第二行X*_2,:对应于原始一维时间序列X的第二个至最后一个元素X_2:T；第n行X*_n,:对应于原始一维时间序列X的第n个至最后一个元素X_n:T,其中空余部分取NAN。

2)建模标签信息

本发明所涉及的针对带标签时间序列补全方法，其另外一个核心思想在于有效刻画外界因素对时间序列的影响，因为在数据连续大段整列丢失的情况下，要补全出贴合实际的值是一件很有挑战的事情，根据观察发现时间序列数据和一些外界因素是有较强的关联关系的，我们将这种外界因素称为标签信息，有效的建模该信息对于数据补全任务将提供很大的帮助，具体而言，我们利用了相同外界因素(标签)对于时间序列数据的影响相近的思路，认为时间序列数据是由内部平缓变化的状态以及标签信息带来的外部影响共同决定的，基于此提出如下目标函数：

其中，||·||²为矩阵的Frobenius范数的平方，UV项建模时间序列所包含的平滑趋势成分，L*项刻画的是由标签信息带来的外部影响，项表达的是同一种标签在不同时刻对时间序列产生的影响是相近的，项强调了数据内在平滑趋势的平滑性。根据实际需求，可以加入额外的正则化项||U||²+||V||²+||L||²，起到防过拟合的效果。基于该目标函数，运用随机梯度下降方法求解U、V、L*。

结合上述两个核心思想，本发明所提出的方法在实际应用场景中取得了较好的数据补全效果，能有效地解决时间序列数据缺失，甚至连续大段整列丢失问题。

参见图1，本发明所涉及的一种针对带标签时间序列数据的补全方法，具体包括以下步骤：

针对以下目标函数求解矩阵变量U、V、L*：

其中，步骤1)的具体过程为：

步骤2)的具体过程为：

步骤3)的具体过程为：

步骤4)的具体过程为：

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种带标签时间序列数据补全方法，其特征在于：运用Hankel矩阵化技术将低维时间序列组织成高维形式，引入高阶时间依赖关系；在算法整体框架中建模标签信息，利用标签信息支持数据补全过程，使补全的数据更符合真实场景；具体包括以下步骤：

1)将原始r(r≥1)维时间序列数据以及可能存在的标签信息组织成向量形式，数据序列表示为X＝<x₁,x₂,…,x_T>，所述x_t对应t时刻的数据，x_t∈R^d，T为数据序列的长度，d为数据的维度，其最长的连续丢失的时长为p；与X对应存在一个可选的标签序列，表示为TAG＝<l₁,l₂,…,l_T>，任意t时刻的标签l_t，形式为一个类别符号；

2)在获取数据序列X后，针对X中连续丢失的长度为p的子序列进行补全时，先将X序列进行p阶的Hankel矩阵化，记为H_p(X)；

所述获得H_p(X)的过程可以描述为X*＝H_p(X)＝[1,Lag,Lag²,…,Lag^p]^TX，其中上标T表示向量或矩阵转置，Lag为时间延迟算子，定义为Lag·x_t＝x_t-1，Lagⁿ·x_t＝x_t-n；

所述获取的X*矩阵为一个p+1行T列的实数矩阵；

若数据序列X对应的标签序列TAG存在，则随机初始化行向量L∈R^1*T,针对任意时刻t，行向量L的第t列元素L_:,t表示t时刻标签对时间序列数据带来的影响；

对于TAG序列中出现的每种标签l，从L中提取出相应的列组成子矩阵L_l；

再运用p阶Hankel矩阵化技术将L分别组织成(p+1)行T列的矩阵L*＝H_p(L)；若数据序列X对应的标签序列TAG不存在，则L*为全0；

针对以下目标函数求解矩阵变量U、V、L*：

所述||·||²为矩阵的Frobenius范数的平方，UV项建模时间序列所包含的平滑趋势成分，L*项刻画的是由标签信息带来的外部影响，项表达的是同一种标签在不同时刻对时间序列产生的影响是相近的，项强调了数据内在平滑趋势的平滑性；||U||²+||V||²+||L||²为额外的正则化项，起到防过拟合的效果；α、β、γ是三个正实数，对应各分项的权值；基于该目标函数，运用随机梯度下降方法求解U、V、L*；

2.如权利要求1所述的一种针对带标签时间序列数据的补全方法，其特征在于：所述步骤1)具体包括以下步骤：

1.1)从数据集中分别导入时间序列数据以及标签信息，标签统一使用正整数替代字符串，不同时刻的同种标签对应于同一正整数，数据序列存储于d*T的向量X中，向量X中包含部分缺失值，标签序列存储于1*T的向量TAG中；

3.如权利要求2所述的一种针对带标签时间序列数据的补全方法，其特征在于：所述步骤2)具体包括以下步骤：

2.3)运用p阶Hankel矩阵化技术H_p(·)将X和L分别组织成(p+1)行T列的矩阵X*、L*。

4.如权利要求2所述的一种针对带标签时间序列数据的补全方法，其特征在于：所述步骤3)具体包括以下步骤：

3.1)将数据补全问题建模为(1)式所述的目标函数，X*由UV和L*共同决定，先随机初始化U、V矩阵，后运用随机梯度下降的方法求解U、V、L*，令目标函数分别对U、V求偏导，结果如下：

再令目标函数分别对L*、L_l求偏导，注意到(1)式中L_l项中的元素与L*项中的元素是有对应关系的，(5)式中为与L_l大小相同的矩阵，且中所有元素的值均为L_l中所有元素的均值：

3.2)基于步骤3.1)中求偏导的计算结果，运用梯度下降的方式依次更新U、V、L*。

5.如权利要求2所述的一种针对带标签时间序列数据的补全方法，其特征在于：所述步骤4)具体包括以下步骤：

4.2)基于步骤3.2)中求解的U、V、L*补全X中缺失数据，具体公式如下：

X*矩阵中第i行，i∈[1，p+1]，第tj-i+1列元素都是与X_tj相对应的值，对以上元素求平均得到的结果用于最终补全X_tj。