CN109902259A

CN109902259A - 一种轻量级的缺失时空数据的重构方法

Info

Publication number: CN109902259A
Application number: CN201910135946.1A
Authority: CN
Inventors: 陆锋; 程诗奋; 彭澎
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-18
Anticipated expiration: 2039-02-25
Also published as: CN109902259B

Abstract

本发明公开了一种轻量级的缺失时空数据的重构方法，整体步骤为：1、时空数据表示；把静态参考的点状数据和网状数据抽象为统一的时空状态矩阵来表示；2、时间维度插值；引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力；3、空间维度插值；分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高IDW算法建模空间依赖性的能力；4、时空整合；引入极限学习机作为神经网络模型的学习算法，整合时空维度的估计结果得到缺失数据最终的预测值。本发明通过集成多个改进的轻量级模型，使得重构算法在保证计算效率的前提下，进一步提高海量缺失时空数据的重构精度。

Description

一种轻量级的缺失时空数据的重构方法

技术领域

本发明涉及一种数据重构方法，尤其涉及一种轻量级的缺失时空数据的重构方法，属于时空数据挖掘技术领域。

背景技术

随着传感器网络、移动定位技术的不断普及和发展，数据采集与计算单元的外延不断扩展，地球科学经历了一场从数据贫乏领域到数据丰富领域的重大革命。这些数据在时间和空间维度不断增长，从而产生了海量的时空数据。尽管数据规模的逐渐扩大使得时空数据分析的输入信息越来越丰富，分析的结果也相应的更加准确，然而时空数据缺失依然是当前地理空间大数据采集与挖掘面临的普遍问题。

有多种原因可能导致时空数据的缺失问题。面向静态参考的点状数据的缺失主要来源于技术故障，例如，许多传感器连续监测周围的空气质量、水质情况，由于系统断电或者通讯故障等外部因素，使得在某一时间段内未采集到数据，从而导致数据缺失情况。面向静态参考的网状数据的缺失则与其时空分布密切相关。以城市交通数据为例，线圈传感器通过对城市路网持续观测，以获取道路网络的交通运行状态，例如道路片段的速度、流量；由于其设备昂贵，主要布设在城市主路(如高速公路)，使得较低级别的路段的交通条件数据无法获取，从而导致数据缺失的问题。

对于静态参考的点状数据和网状数据的缺失问题，目前存在的解决方案可以粗略的分为机器学习方法和统计方法。前者通常需要构建求解的目标函数，采用梯度下降等数值计算方法迭代训练模型以达到最优的重构精度；而后者通常也需要逐点求解偏微分方程组来计算插值样本最优权重。这些方法由于建模的复杂性使得计算效率难以得到保证，并且随着时空数据不断地积累，重构精度和计算效率之间的矛盾会变得更加尖锐。因此，有必要探索新的策略来解决这一问题。

针对模型计算效率的提升，可以有两种改进方式：1)针对模型本身的改进，例如采用并行处理技术构造局部的插值模型或在模型计算过程中增加优化策略；2)构造新的方法，即采用经典的一个或多个轻量级的模型，例如经典的反向距离权重和简单指数平滑算法。考虑到并行处理技术需要集群计算环境，普通用户通常难以操作；而轻量级模型在插值过程中只需简单的确定权重函数，例如反向距离权重算法通过计算空间位置之间的反向距离来确定权重，其内存和计算时间可以满足实际应用的需求。但是，现有的轻量级模型通常建模过于简单，无法刻画复杂的地理过程，因此直接集成难以满足重构精度的要求。此外，集成策略的选取，对模型的训练时间和重构精度也会带来影响。下面将从空间插值算法、时间插值算法以及集成策略选择方面进一步分析。

在空间维度，反向距离权重算法的插值精度依赖合适的权重函数。它遵从地理学第一定律，利用观测样本空间位置之间的欧几里得距离来度量空间相关性，距离越近则越相似。然而，由于空间异质性的存在，不同的地理单元存在差异性的变化模式，因此单纯使用距离难以精确的刻画空间依赖性。此外，基于欧几里得的度量方式，通常只适用于具有确切地理位置的空间对象，如静态参考的点状数据。而针对静态参考的网状数据，如道路网络，由于每个道路片段的空间坐标难以确定，直接采用道路片段中点位置之间的距离通常会造成空间距离的不合理估计。因此，现有方法通常采用多种策略改进欧几里得距离来刻画空间相关性，例如采用道路网络距离、引入道路的通行时间等。然而，这些方法更多的追求重构精度上的提升，改进的距离度量算法由于计算复杂性依然难以满足效率方面的要求，并且距离的度量通常忽略了地理过程的时空模式的变化。

在时间维度，时间窗口的合理选取对于构建局部的时空插值模型至关重要，它可以保证窗口内的观测样本之间的时间相关性。然而，现有方法在建模过程中，窗口的大小通常无法自动确定，而是采用参数调整的方式，选取使得模型重构误差最小的窗口作为最优的窗口大小。这种方式使得窗口的大小是全局固定的，并不随时间变化，因此无法抓取地理过程的时空演化特征。

在集成策略上，任何单一的方法在建模时空依赖性方面都有自身的优势和劣势，集成多种方法可以提供灵活和一致的结构来解决复杂的时空建模问题。针对时空建模问题，通常采用线性和非线性的方式来耦合时空交互关系。由于地理过程复杂的非线性特点，非线性的方式已经被证明更适用于建模时空依赖性。神经网络模型作为非线性模型的典型代表，由于其强大的拟合能力，被广泛应用于时空分析领域。然而，传统的神经网络学习算法(如BP算法)通常只强调其非线性拟合能力，并未考虑其训练速度慢以及容易陷入局部最优解等问题。

鉴于以上存在的问题，亟需提出一种轻量级的时空插值模型来解决缺失时空数据重构精度和计算效率无法均衡的问题。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种轻量级的缺失时空数据的重构方法。

为了解决以上技术问题，本发明采用的技术方案是：一种轻量级的缺失时空数据的重构方法，整体步骤为：

步骤1、时空数据表示；

针对静态参考的点状数据和网状数据，由于这两种类型的数据的采样过程在空间上是同步进行的，并按照相同的时间间隔进行预处理，它们具有空间静态和时间动态的共同特点；因此，把它们抽象为统一的时空状态矩阵来表示；

步骤2、时间维度插值；

引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力；

步骤3、空间维度插值；

针对基于静态参考的点状数据和网状数据这两种不同的地理过程，分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高经典的反向距离权重算法建模空间依赖性的能力；

步骤4、时空整合；

针对时间和空间维度获取的插值结果，作为单隐层前馈神经网络的输入特征，同时引入极限学习机作为神经网络模型的学习算法，整合时空维度的估计结果得到缺失数据最终的预测值。

进一步地，步骤1的具体过程为：

假设采样的空间对象的个数为M，历史时间间隔长度为N，则时空状态矩阵可分别从空间维度和时间维度的视角表示，表示时空状态矩阵，维度为M×N，表示实数集；

从空间维度的视角来看，表示第i个空间对象的历史观测时间序列，T表示转置操作；

从时间维度的视角来看，表示第j个时间点的空间序列观测值；

表示第i个空间对象在第j个时间间隔的观测值，若则表示时空状态矩阵中存在缺失值；时空数据的分离表示方式，方便从时间和空间维度分别建模，从而更好地抓取时空依赖性。

进一步地，步骤2对传统SES算法的扩展方式为：首先，以缺失数据所在的时间点为中心，分别选取向前和向后的时间点的样本数据；然后，考虑到时空数据在较短的时间范围内仍然保持近似的相关性，通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数，来选取最优的滑动窗口。

进一步地，步骤2的具体过程为：

假设为时空状态矩阵中的缺失值，该过程的形式化表达如下：

其中，公式1用于窗口计算的前向操作，公式2用于窗口计算的后向操作；t_j表示缺失数据所在的空间序列，和表示使得平均相关系数取最大值的t_b和t_f，t_kb和t_kf表示缺失数据所在时间点向前和向后的空间序列，Cov(t_j，t_kb)和Cov(t_j，t_kf)用于计算两个空间序列之间的协方差，下标j表示第j个时间点，D(t_j)、D(t_kb)、D(t_kf)用于计算空间序列的标准差；tb和tf表示时间窗口当前的位置，通过启发式的确定，初始值分别设置为j-1和j+1；以向前计算为例，首先计算t_j和t_j-1的相关系数，然后tb向前移动，计算平均相关系数直到达到最大值，即可得到时间窗口的开始位置wb；采用相同的策略，即可得到时间窗口的终点位置wf；在确定了时间窗口之后，采用SES算法为窗口内的样本分配不同的权重：

其中，表示缺失数据在时间维度的估计值；表示从时间点kb到时间点wb的求和操作，表示从时间点kf到时间点wf的求和操作；kb和kf表示时间窗口内的样本数据与缺失数据之间的时间间隔长度；v_i，j-kb和v_i，j+kf表示第i个空间对象在时间点j-kb和j+kf的观测值；γ表示平滑参数，其取值范围为[0,1]；γ*(1-γ)^kb-1和γ*(1-γ)^kf-1表示样本数据的权重，离缺失数据所在时间点的距离越近，则赋予更大的权重。

进一步地，步骤3的具体过程为：

针对静态参考的点状数据，在传统的欧几里得距离中引入相关系数，并利用高斯函数来平滑计算结果，从而构造一个恒等的距离函数；针对静态参考的网状数据，由于无法精确的描述两个空间对象之间的物理距离，直接采用相关系数作为距离度量函数，以反映时空模式的变化；

其中，dist_i，k表示第i个空间对象和第k个空间对象的恒等距离，pd_i，k表示两个空间对象之间的物理距离，通过计算空间位置之间的欧几里得距离来获得；R_i，k表示第i个空间对象和第k个空间对象的相关系数；α为距离权重参数，利用真实数据来优化；通过计算缺失数据所在的时间序列和邻近空间对象的时间序列的恒等距离和相关距离，分别选取pk和nk个最相关的候选样本用于推断缺失值；Cov(s_i，s_k)用于计算S_i、s_k两个时间序列之间的协方差，D(s_i)、D(s_k)用于计算时间序列的标准差；

其中，表示缺失数据在空间维度的估计值；v_ps，j和vn_s，j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值，为距离衰减参数；dist_i，ps表示第i个空间对象和第ps个选择的空间对象的恒等距离，R_i，ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。

进一步地，步骤4的具体过程为：

利用极限学习机的自学习特性，来模拟时空的交互过程；单隐层前馈神经网络的结构包括输入层、隐藏层、输出层；输入层包含2个输入神经元，即针对未缺失样本数据，利用改进IDW算法和SES算法得到的推断值和来构造样本集

假设通过公式7得到的总样本数P，按照8:2划分为训练集和测试集，获取的训练样本数为Q，则训练输入特征训练输出特征表示第j个样本，表示第j个样本对应的标签值；假设隐藏层的个数为L，输入层和隐藏层的连接权重为W，隐藏层和输出层的连接权重为β，隐藏层神经元的偏置值为b，则表示第i个隐藏层神经元和输入神经元的连接权重向量；表示第i个隐藏层神经元和输出神经元的连接权重；表示第i个隐藏层神经元的偏置值；单隐层前馈神经网络可表示为：

其中，g(·)表示激活函数，这里选用sigmoid函数，利用最小二乘法对公式8求解以下学习问题来获取神经网络的参数：

获得的求解参数其中H^*为隐藏层的输出矩阵H的Moore-Penrose广义逆。

本发明通过集成多个改进的轻量级模型，使得重构算法在保证计算效率的前提下，进一步提高海量缺失时空数据的重构精度。本发明可以极大的减少昂贵的物质和时间成本的消耗，为后续的时空建模提供有力的保证。

附图说明

图1为本发明的整体步骤流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种轻量级的缺失时空数据的重构方法，包括以下步骤：

步骤1、时空数据表示；

通过对固定空间位置的空间对象进行连续采样，产生静态参考的点状数据和网状数据，例如固定传感器监测的环境污染数据，浮动车在道路网络行驶产生的历史交通条件数据。这两种类型的数据的采样过程在空间上是同步进行的，并按照相同的时间间隔进行预处理，以便后续建模。它们具有共同的特点，即空间静态和时间动态，因此，把它们抽象为统一的时空状态矩阵来表示。假设采样的空间对象的个数为M，历史时间间隔长度为N，则时空状态矩阵可分别从空间维度和时间维度的视角表示，表示时空状态矩阵，维度为M×N，表示实数集。从空间维度的视角来看，表示第i个空间对象的历史观测时间序列，T表示转置操作；从时间维度的视角来看，表示第j个时间点的空间序列观测值。表示第i个空间对象在第j个时间间隔的观测值，若则表示时空状态矩阵中存在缺失值(是集合里面表示空值的符号)。时空数据的分离表示方式，可以方便从时间和空间维度分别建模，从而更好地抓取时空依赖性。

步骤2、时间维度插值；

在时间维度，可以将缺失时空数据的重构问题转化为传统的时间序列建模问题，利用缺失数据所在时刻的邻近历史时刻的样本来估计缺失值。简单指数平滑(Simpleexponential smoothing，SES)算法是经典的时间序列建模方法，它假设数据之间具有很强的时间相关性，当样本数据所在时间点和缺失数据所在时间点的距离越近，则其贡献的时间权重也越大。传统的SES算法采用缺失数据所在时间点之前的所有的样本数据参与插值计算，当时间跨度很大，会导致过多的不相关数据参与计算，从而降低了插值精度。因此，通过对传统的SES算法做如下扩展：首先，以缺失数据所在的时间点为中心，分别选取向前和向后的时间点的样本数据；然后，考虑到时空数据在较短的时间范围内仍然保持近似的相关性，通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数，来选取最优的滑动窗口。假设为时空状态矩阵中的缺失值，该过程的形式化表达如下：

其中，公式1用于窗口计算的前向操作，公式2用于窗口计算的后向操作。t_j表示缺失数据所在的空间序列，和表示使得平均相关系数取最大值的tb和tf，t_kb和t_kf表示缺失数据所在时间点向前和向后的空间序列，Cov(t_j，t_kb)和Cov(t_j，t_kf)用于计算两个空间序列之间的协方差，下标j表示第j个时间点，D(t_j)、D(t_kb)、D(t_kf)用于计算空间序列的标准差。tb和tf表示时间窗口当前的位置，通过启发式的确定，初始值分别设置为j-1和j+1。以向前计算为例，首先计算t_j和t_j-1的相关系数，然后tb向前移动，计算平均相关系数直到达到最大值，即可得到时间窗口的开始位置wb。采用相同的策略，即可得到时间窗口的终点位置wf。在确定了时间窗口之后，可采用SES算法，为窗口内的样本分配不同的权重：

其中，表示缺失数据在时间维度的估计值。表示从时间点kb到时间点wb的求和操作，表示从时间点kf到时间点wf的求和操作。kb和kf表示时间窗口内的样本数据与缺失数据之间的时间间隔长度。v_i，j-kb和v_i，j+kf表示第i个空间对象在时间点j-kb和j+kf的观测值。γ表示平滑参数，取值范围为[0,1]，γ*(1-γ)^kb-1和γ*(1-γ)^kf-1表示样本数据的权重，离缺失数据所在时间点的距离越近，则赋予更大的权重。如图1所示，是缺失值，假设通过时间窗口算法得到窗口大小为t₁～t₅，则可以选择和作为重构的样本数据，按照公式3得到缺失数据的估计值。该方法的优势在于，保证选取的样本数据和缺失数据具有很强的相关性，剔除了冗余的样本数据，从而减少计算复杂度。针对不同时间点的数据缺失，时间窗口大小是动态变化的，因此可以抓取地理过程的局部变化特征。

步骤3、空间维度插值；

在空间维度，采用反向距离权重算法(IDW)，利用邻近空间点的已知观测数据来估计未知数据，当邻近空间点的距离与待插值点越近，则分配更大的空间权重值。该算法的关键在于如何合理的定义距离函数，以选取空间相关性最大的样本数据。传统的IDW算法通常采用两个空间对象之间的欧几里得距离来刻画空间相关性，这一方法可以很好的描述研究区域的物理属性，然而忽略了空间对象关联的时空模式变化。此外，不同类型的时空数据，隐含了不同的时空交互过程，因此需要采用不同的策略来处理。

考虑到空间对象的时间序列之间的相关系数可以很好的反映时空模式的变化，针对静态参考的点状数据，在传统的欧几里得距离中引入相关系数，并利用高斯函数来平滑计算结果，从而构造一个恒等的距离函数。针对静态参考的网状数据，由于无法精确的描述两个空间对象之间的物理距离，直接采用相关系数作为距离度量函数，以反映时空模式的变化。

其中，dist_i，k表示第i个空间对象和第k个空间对象的恒等距离，pd_i，k表示两个空间对象之间的物理距离，通过计算空间位置之间的欧几里得距离来获得。R_i，k表示第i个空间对象和第k个空间对象的相关系数。α为距离权重参数，利用真实数据来优化。通过计算缺失数据所在的时间序列和邻近空间对象的时间序列的恒等距离和相关距离，分别选取pk和nk个最相关的候选样本用于推断缺失值。Cov(s_i，s_k)用于计算s_i、s_k两个时间序列之间的协方差，D(s_i)、D(s_k)用于计算时间序列的标准差。

其中，表示缺失数据在空间维度的估计值。公式6给出了在分别面向点状数据(point-based)以及面向网状数据(network-based)时的计算方法。v_ps，j和v_ns，j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值，为距离衰减参数。dist_i，ps表示第i个空间对象和第ps个选择的空间对象的恒等距离，R_i，ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。如图1所示，是缺失值，针对静态参考的点状和网状数据，可分别按照公式4和5选择重构的样本数据。假设和为选择的样本数据，则按照公式6可得到估计值。

步骤4、时空整合；

利用缺失时空数据在时间和空间维度的估计值，构建样本训练一个单隐层前馈神经网络模型来拟合时间和空间的非线性关系，从而得到整合的估计值。神经网络模型的训练算法对其性能有很大的影响。传统的神经网络学习算法(如BP学习算法)，由于在训练过程中需要多次迭代来修正权值和阈值，因此需要较长的训练时间，并且很容易陷入局部极小值而无法获得全局最优解，模型的性能对学习率也很敏感。极限学习机作为一种典型的单隐层前馈神经网络学习算法，假设隐层节点是随机生成的，即隐层节点的参数随机分配，因此可以克服许多传统学习算法所遇到的学习瓶颈问题，具有泛化性能好、学习速度快等特点。因此，这里利用极限学习机的自学习特性，来模拟时空的交互过程。

单隐层前馈神经网络的结构如图1所示，包括输入层、隐藏层、输出层。输入层包含2个输入神经元，即针对未缺失样本数据，利用改进IDW算法和SES算法得到的推断值和来构造样本集

假设通过公式7得到的总样本数P，按照8:2划分为训练集和测试集，获取的训练样本数为Q，则训练输入特征训练输出特征表示第j个样本，表示第j个样本对应的标签值。假设隐藏层的个数为L，输入层和隐藏层的连接权重为W，隐藏层和输出层的连接权重为β，隐藏层神经元的偏置值为b，则表示第i个隐藏层神经元和输入神经元的连接权重向量。表示第i个隐藏层神经元和输出神经元的连接权重。表示第i个隐藏层神经元的偏置值。单隐层前馈神经网络可表示为：

其中，g(·)表示激活函数，这里选择用sigmoid函数，利用最小二乘法对公式8求解以下学习问题来获取神经网络的参数：

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种轻量级的缺失时空数据的重构方法，其特征在于：所述方法的整体步骤为：

步骤1、时空数据表示；

步骤2、时间维度插值；

步骤3、空间维度插值；

步骤4、时空整合；

2.根据权利要求1所述的轻量级的缺失时空数据的重构方法，其特征在于：所述步骤1的具体过程为：

3.根据权利要求2所述的轻量级的缺失时空数据的重构方法，其特征在于：所述步骤2对传统SES算法的扩展方式为：首先，以缺失数据所在的时间点为中心，分别选取向前和向后的时间点的样本数据；然后，考虑到时空数据在较短的时间范围内仍然保持近似的相关性，通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数，来选取最优的滑动窗口。

4.根据权利要求3所述的轻量级的缺失时空数据的重构方法，其特征在于：所述步骤2的具体过程为：

其中，公式1用于窗口计算的前向操作，公式2用于窗口计算的后向操作；t_j表示缺失数据所在的空间序列，和表示使得平均相关系数取最大值的tb和tf，t_kb和t_kf表示缺失数据所在时间点向前和向后的空间序列，Cov(t_j，t_kb)和Cov(t_j，t_kf)用于计算两个空间序列之间的协方差，下标j表示第j个时间点，D(t_j)、D(t_kb)、D(t_kf)用于计算空间序列的标准差；tb和tf表示时间窗口当前的位置，通过启发式的确定，初始值分别设置为j-1和j+1；以向前计算为例，首先计算t_j和t_j-1的相关系数，然后tb向前移动，计算平均相关系数直到达到最大值，即可得到时间窗口的开始位置wb；采用相同的策略，即可得到时间窗口的终点位置wf；在确定了时间窗口之后，采用SES算法为窗口内的样本分配不同的权重：

5.根据权利要求4所述的轻量级的缺失时空数据的重构方法，其特征在于：所述步骤3的具体过程为：

其中，表示缺失数据在空间维度的估计值；v_ps，j和v_ns，j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值，为距离衰减参数；dist_i，ps表示第i个空间对象和第ps个选择的空间对象的恒等距离，R_i，ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。

6.根据权利要求5所述的轻量级的缺失时空数据的重构方法，其特征在于：所述步骤4的具体过程为：