CN109902259A - 一种轻量级的缺失时空数据的重构方法 - Google Patents

一种轻量级的缺失时空数据的重构方法 Download PDF

Info

Publication number
CN109902259A
CN109902259A CN201910135946.1A CN201910135946A CN109902259A CN 109902259 A CN109902259 A CN 109902259A CN 201910135946 A CN201910135946 A CN 201910135946A CN 109902259 A CN109902259 A CN 109902259A
Authority
CN
China
Prior art keywords
time
data
spatial
space
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910135946.1A
Other languages
English (en)
Other versions
CN109902259B (zh
Inventor
陆锋
程诗奋
彭澎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN201910135946.1A priority Critical patent/CN109902259B/zh
Publication of CN109902259A publication Critical patent/CN109902259A/zh
Application granted granted Critical
Publication of CN109902259B publication Critical patent/CN109902259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种轻量级的缺失时空数据的重构方法,整体步骤为:1、时空数据表示;把静态参考的点状数据和网状数据抽象为统一的时空状态矩阵来表示;2、时间维度插值;引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力;3、空间维度插值;分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高IDW算法建模空间依赖性的能力;4、时空整合;引入极限学习机作为神经网络模型的学习算法,整合时空维度的估计结果得到缺失数据最终的预测值。本发明通过集成多个改进的轻量级模型,使得重构算法在保证计算效率的前提下,进一步提高海量缺失时空数据的重构精度。

Description

一种轻量级的缺失时空数据的重构方法
技术领域
本发明涉及一种数据重构方法,尤其涉及一种轻量级的缺失时空数据的重构方法,属于时空数据挖掘技术领域。
背景技术
随着传感器网络、移动定位技术的不断普及和发展,数据采集与计算单元的外延不断扩展,地球科学经历了一场从数据贫乏领域到数据丰富领域的重大革命。这些数据在时间和空间维度不断增长,从而产生了海量的时空数据。尽管数据规模的逐渐扩大使得时空数据分析的输入信息越来越丰富,分析的结果也相应的更加准确,然而时空数据缺失依然是当前地理空间大数据采集与挖掘面临的普遍问题。
有多种原因可能导致时空数据的缺失问题。面向静态参考的点状数据的缺失主要来源于技术故障,例如,许多传感器连续监测周围的空气质量、水质情况,由于系统断电或者通讯故障等外部因素,使得在某一时间段内未采集到数据,从而导致数据缺失情况。面向静态参考的网状数据的缺失则与其时空分布密切相关。以城市交通数据为例,线圈传感器通过对城市路网持续观测,以获取道路网络的交通运行状态,例如道路片段的速度、流量;由于其设备昂贵,主要布设在城市主路(如高速公路),使得较低级别的路段的交通条件数据无法获取,从而导致数据缺失的问题。
对于静态参考的点状数据和网状数据的缺失问题,目前存在的解决方案可以粗略的分为机器学习方法和统计方法。前者通常需要构建求解的目标函数,采用梯度下降等数值计算方法迭代训练模型以达到最优的重构精度;而后者通常也需要逐点求解偏微分方程组来计算插值样本最优权重。这些方法由于建模的复杂性使得计算效率难以得到保证,并且随着时空数据不断地积累,重构精度和计算效率之间的矛盾会变得更加尖锐。因此,有必要探索新的策略来解决这一问题。
针对模型计算效率的提升,可以有两种改进方式:1)针对模型本身的改进,例如采用并行处理技术构造局部的插值模型或在模型计算过程中增加优化策略;2)构造新的方法,即采用经典的一个或多个轻量级的模型,例如经典的反向距离权重和简单指数平滑算法。考虑到并行处理技术需要集群计算环境,普通用户通常难以操作;而轻量级模型在插值过程中只需简单的确定权重函数,例如反向距离权重算法通过计算空间位置之间的反向距离来确定权重,其内存和计算时间可以满足实际应用的需求。但是,现有的轻量级模型通常建模过于简单,无法刻画复杂的地理过程,因此直接集成难以满足重构精度的要求。此外,集成策略的选取,对模型的训练时间和重构精度也会带来影响。下面将从空间插值算法、时间插值算法以及集成策略选择方面进一步分析。
在空间维度,反向距离权重算法的插值精度依赖合适的权重函数。它遵从地理学第一定律,利用观测样本空间位置之间的欧几里得距离来度量空间相关性,距离越近则越相似。然而,由于空间异质性的存在,不同的地理单元存在差异性的变化模式,因此单纯使用距离难以精确的刻画空间依赖性。此外,基于欧几里得的度量方式,通常只适用于具有确切地理位置的空间对象,如静态参考的点状数据。而针对静态参考的网状数据,如道路网络,由于每个道路片段的空间坐标难以确定,直接采用道路片段中点位置之间的距离通常会造成空间距离的不合理估计。因此,现有方法通常采用多种策略改进欧几里得距离来刻画空间相关性,例如采用道路网络距离、引入道路的通行时间等。然而,这些方法更多的追求重构精度上的提升,改进的距离度量算法由于计算复杂性依然难以满足效率方面的要求,并且距离的度量通常忽略了地理过程的时空模式的变化。
在时间维度,时间窗口的合理选取对于构建局部的时空插值模型至关重要,它可以保证窗口内的观测样本之间的时间相关性。然而,现有方法在建模过程中,窗口的大小通常无法自动确定,而是采用参数调整的方式,选取使得模型重构误差最小的窗口作为最优的窗口大小。这种方式使得窗口的大小是全局固定的,并不随时间变化,因此无法抓取地理过程的时空演化特征。
在集成策略上,任何单一的方法在建模时空依赖性方面都有自身的优势和劣势,集成多种方法可以提供灵活和一致的结构来解决复杂的时空建模问题。针对时空建模问题,通常采用线性和非线性的方式来耦合时空交互关系。由于地理过程复杂的非线性特点,非线性的方式已经被证明更适用于建模时空依赖性。神经网络模型作为非线性模型的典型代表,由于其强大的拟合能力,被广泛应用于时空分析领域。然而,传统的神经网络学习算法(如BP算法)通常只强调其非线性拟合能力,并未考虑其训练速度慢以及容易陷入局部最优解等问题。
鉴于以上存在的问题,亟需提出一种轻量级的时空插值模型来解决缺失时空数据重构精度和计算效率无法均衡的问题。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种轻量级的缺失时空数据的重构方法。
为了解决以上技术问题,本发明采用的技术方案是:一种轻量级的缺失时空数据的重构方法,整体步骤为:
步骤1、时空数据表示;
针对静态参考的点状数据和网状数据,由于这两种类型的数据的采样过程在空间上是同步进行的,并按照相同的时间间隔进行预处理,它们具有空间静态和时间动态的共同特点;因此,把它们抽象为统一的时空状态矩阵来表示;
步骤2、时间维度插值;
引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力;
步骤3、空间维度插值;
针对基于静态参考的点状数据和网状数据这两种不同的地理过程,分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高经典的反向距离权重算法建模空间依赖性的能力;
步骤4、时空整合;
针对时间和空间维度获取的插值结果,作为单隐层前馈神经网络的输入特征,同时引入极限学习机作为神经网络模型的学习算法,整合时空维度的估计结果得到缺失数据最终的预测值。
进一步地,步骤1的具体过程为:
假设采样的空间对象的个数为M,历史时间间隔长度为N,则时空状态矩阵可分别从空间维度和时间维度的视角表示,表示时空状态矩阵,维度为M×N,表示实数集;
从空间维度的视角来看, 表示第i个空间对象的历史观测时间序列,T表示转置操作;
从时间维度的视角来看, 表示第j个时间点的空间序列观测值;
表示第i个空间对象在第j个时间间隔的观测值,若则表示时空状态矩阵中存在缺失值;时空数据的分离表示方式,方便从时间和空间维度分别建模,从而更好地抓取时空依赖性。
进一步地,步骤2对传统SES算法的扩展方式为:首先,以缺失数据所在的时间点为中心,分别选取向前和向后的时间点的样本数据;然后,考虑到时空数据在较短的时间范围内仍然保持近似的相关性,通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数,来选取最优的滑动窗口。
进一步地,步骤2的具体过程为:
假设为时空状态矩阵中的缺失值,该过程的形式化表达如下:
其中,公式1用于窗口计算的前向操作,公式2用于窗口计算的后向操作;tj表示缺失数据所在的空间序列,表示使得平均相关系数取最大值的tb和tf,tkb和tkf表示缺失数据所在时间点向前和向后的空间序列,Cov(tj,tkb)和Cov(tj,tkf)用于计算两个空间序列之间的协方差,下标j表示第j个时间点,D(tj)、D(tkb)、D(tkf)用于计算空间序列的标准差;tb和tf表示时间窗口当前的位置,通过启发式的确定,初始值分别设置为j-1和j+1;以向前计算为例,首先计算tj和tj-1的相关系数,然后tb向前移动,计算平均相关系数直到达到最大值,即可得到时间窗口的开始位置wb;采用相同的策略,即可得到时间窗口的终点位置wf;在确定了时间窗口之后,采用SES算法为窗口内的样本分配不同的权重:
其中,表示缺失数据在时间维度的估计值;表示从时间点kb到时间点wb的求和操作,表示从时间点kf到时间点wf的求和操作;kb和kf表示时间窗口内的样本数据与缺失数据之间的时间间隔长度;vi,j-kb和vi,j+kf表示第i个空间对象在时间点j-kb和j+kf的观测值;γ表示平滑参数,其取值范围为[0,1];γ*(1-γ)kb-1和γ*(1-γ)kf-1表示样本数据的权重,离缺失数据所在时间点的距离越近,则赋予更大的权重。
进一步地,步骤3的具体过程为:
针对静态参考的点状数据,在传统的欧几里得距离中引入相关系数,并利用高斯函数来平滑计算结果,从而构造一个恒等的距离函数;针对静态参考的网状数据,由于无法精确的描述两个空间对象之间的物理距离,直接采用相关系数作为距离度量函数,以反映时空模式的变化;
其中,disti,k表示第i个空间对象和第k个空间对象的恒等距离,pdi,k表示两个空间对象之间的物理距离,通过计算空间位置之间的欧几里得距离来获得;Ri,k表示第i个空间对象和第k个空间对象的相关系数;α为距离权重参数,利用真实数据来优化;通过计算缺失数据所在的时间序列和邻近空间对象的时间序列的恒等距离和相关距离,分别选取pk和nk个最相关的候选样本用于推断缺失值;Cov(si,sk)用于计算Si、sk两个时间序列之间的协方差,D(si)、D(sk)用于计算时间序列的标准差;
其中,表示缺失数据在空间维度的估计值;vps,j和vns,j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值,为距离衰减参数;disti,ps表示第i个空间对象和第ps个选择的空间对象的恒等距离,Ri,ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。
进一步地,步骤4的具体过程为:
利用极限学习机的自学习特性,来模拟时空的交互过程;单隐层前馈神经网络的结构包括输入层、隐藏层、输出层;输入层包含2个输入神经元,即针对未缺失样本数据,利用改进IDW算法和SES算法得到的推断值来构造样本集
假设通过公式7得到的总样本数P,按照8:2划分为训练集和测试集,获取的训练样本数为Q,则训练输入特征训练输出特征表示第j个样本,表示第j个样本对应的标签值;假设隐藏层的个数为L,输入层和隐藏层的连接权重为W,隐藏层和输出层的连接权重为β,隐藏层神经元的偏置值为b,则表示第i个隐藏层神经元和输入神经元的连接权重向量;表示第i个隐藏层神经元和输出神经元的连接权重;表示第i个隐藏层神经元的偏置值;单隐层前馈神经网络可表示为:
其中,g(·)表示激活函数,这里选用sigmoid函数,利用最小二乘法对公式8求解以下学习问题来获取神经网络的参数:
获得的求解参数其中H*为隐藏层的输出矩阵H的Moore-Penrose广义逆。
本发明通过集成多个改进的轻量级模型,使得重构算法在保证计算效率的前提下,进一步提高海量缺失时空数据的重构精度。本发明可以极大的减少昂贵的物质和时间成本的消耗,为后续的时空建模提供有力的保证。
附图说明
图1为本发明的整体步骤流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种轻量级的缺失时空数据的重构方法,包括以下步骤:
步骤1、时空数据表示;
通过对固定空间位置的空间对象进行连续采样,产生静态参考的点状数据和网状数据,例如固定传感器监测的环境污染数据,浮动车在道路网络行驶产生的历史交通条件数据。这两种类型的数据的采样过程在空间上是同步进行的,并按照相同的时间间隔进行预处理,以便后续建模。它们具有共同的特点,即空间静态和时间动态,因此,把它们抽象为统一的时空状态矩阵来表示。假设采样的空间对象的个数为M,历史时间间隔长度为N,则时空状态矩阵可分别从空间维度和时间维度的视角表示,表示时空状态矩阵,维度为M×N,表示实数集。从空间维度的视角来看, 表示第i个空间对象的历史观测时间序列,T表示转置操作;从时间维度的视角来看, 表示第j个时间点的空间序列观测值。表示第i个空间对象在第j个时间间隔的观测值,若则表示时空状态矩阵中存在缺失值(是集合里面表示空值的符号)。时空数据的分离表示方式,可以方便从时间和空间维度分别建模,从而更好地抓取时空依赖性。
步骤2、时间维度插值;
在时间维度,可以将缺失时空数据的重构问题转化为传统的时间序列建模问题,利用缺失数据所在时刻的邻近历史时刻的样本来估计缺失值。简单指数平滑(Simpleexponential smoothing,SES)算法是经典的时间序列建模方法,它假设数据之间具有很强的时间相关性,当样本数据所在时间点和缺失数据所在时间点的距离越近,则其贡献的时间权重也越大。传统的SES算法采用缺失数据所在时间点之前的所有的样本数据参与插值计算,当时间跨度很大,会导致过多的不相关数据参与计算,从而降低了插值精度。因此,通过对传统的SES算法做如下扩展:首先,以缺失数据所在的时间点为中心,分别选取向前和向后的时间点的样本数据;然后,考虑到时空数据在较短的时间范围内仍然保持近似的相关性,通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数,来选取最优的滑动窗口。假设为时空状态矩阵中的缺失值,该过程的形式化表达如下:
其中,公式1用于窗口计算的前向操作,公式2用于窗口计算的后向操作。tj表示缺失数据所在的空间序列,表示使得平均相关系数取最大值的tb和tf,tkb和tkf表示缺失数据所在时间点向前和向后的空间序列,Cov(tj,tkb)和Cov(tj,tkf)用于计算两个空间序列之间的协方差,下标j表示第j个时间点,D(tj)、D(tkb)、D(tkf)用于计算空间序列的标准差。tb和tf表示时间窗口当前的位置,通过启发式的确定,初始值分别设置为j-1和j+1。以向前计算为例,首先计算tj和tj-1的相关系数,然后tb向前移动,计算平均相关系数直到达到最大值,即可得到时间窗口的开始位置wb。采用相同的策略,即可得到时间窗口的终点位置wf。在确定了时间窗口之后,可采用SES算法,为窗口内的样本分配不同的权重:
其中,表示缺失数据在时间维度的估计值。表示从时间点kb到时间点wb的求和操作,表示从时间点kf到时间点wf的求和操作。kb和kf表示时间窗口内的样本数据与缺失数据之间的时间间隔长度。vi,j-kb和vi,j+kf表示第i个空间对象在时间点j-kb和j+kf的观测值。γ表示平滑参数,取值范围为[0,1],γ*(1-γ)kb-1和γ*(1-γ)kf-1表示样本数据的权重,离缺失数据所在时间点的距离越近,则赋予更大的权重。如图1所示,是缺失值,假设通过时间窗口算法得到窗口大小为t1~t5,则可以选择作为重构的样本数据,按照公式3得到缺失数据的估计值。该方法的优势在于,保证选取的样本数据和缺失数据具有很强的相关性,剔除了冗余的样本数据,从而减少计算复杂度。针对不同时间点的数据缺失,时间窗口大小是动态变化的,因此可以抓取地理过程的局部变化特征。
步骤3、空间维度插值;
在空间维度,采用反向距离权重算法(IDW),利用邻近空间点的已知观测数据来估计未知数据,当邻近空间点的距离与待插值点越近,则分配更大的空间权重值。该算法的关键在于如何合理的定义距离函数,以选取空间相关性最大的样本数据。传统的IDW算法通常采用两个空间对象之间的欧几里得距离来刻画空间相关性,这一方法可以很好的描述研究区域的物理属性,然而忽略了空间对象关联的时空模式变化。此外,不同类型的时空数据,隐含了不同的时空交互过程,因此需要采用不同的策略来处理。
考虑到空间对象的时间序列之间的相关系数可以很好的反映时空模式的变化,针对静态参考的点状数据,在传统的欧几里得距离中引入相关系数,并利用高斯函数来平滑计算结果,从而构造一个恒等的距离函数。针对静态参考的网状数据,由于无法精确的描述两个空间对象之间的物理距离,直接采用相关系数作为距离度量函数,以反映时空模式的变化。
其中,disti,k表示第i个空间对象和第k个空间对象的恒等距离,pdi,k表示两个空间对象之间的物理距离,通过计算空间位置之间的欧几里得距离来获得。Ri,k表示第i个空间对象和第k个空间对象的相关系数。α为距离权重参数,利用真实数据来优化。通过计算缺失数据所在的时间序列和邻近空间对象的时间序列的恒等距离和相关距离,分别选取pk和nk个最相关的候选样本用于推断缺失值。Cov(si,sk)用于计算si、sk两个时间序列之间的协方差,D(si)、D(sk)用于计算时间序列的标准差。
其中,表示缺失数据在空间维度的估计值。公式6给出了在分别面向点状数据(point-based)以及面向网状数据(network-based)时的计算方法。vps,j和vns,j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值,为距离衰减参数。disti,ps表示第i个空间对象和第ps个选择的空间对象的恒等距离,Ri,ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。如图1所示,是缺失值,针对静态参考的点状和网状数据,可分别按照公式4和5选择重构的样本数据。假设为选择的样本数据,则按照公式6可得到估计值。
步骤4、时空整合;
利用缺失时空数据在时间和空间维度的估计值,构建样本训练一个单隐层前馈神经网络模型来拟合时间和空间的非线性关系,从而得到整合的估计值。神经网络模型的训练算法对其性能有很大的影响。传统的神经网络学习算法(如BP学习算法),由于在训练过程中需要多次迭代来修正权值和阈值,因此需要较长的训练时间,并且很容易陷入局部极小值而无法获得全局最优解,模型的性能对学习率也很敏感。极限学习机作为一种典型的单隐层前馈神经网络学习算法,假设隐层节点是随机生成的,即隐层节点的参数随机分配,因此可以克服许多传统学习算法所遇到的学习瓶颈问题,具有泛化性能好、学习速度快等特点。因此,这里利用极限学习机的自学习特性,来模拟时空的交互过程。
单隐层前馈神经网络的结构如图1所示,包括输入层、隐藏层、输出层。输入层包含2个输入神经元,即针对未缺失样本数据,利用改进IDW算法和SES算法得到的推断值来构造样本集
假设通过公式7得到的总样本数P,按照8:2划分为训练集和测试集,获取的训练样本数为Q,则训练输入特征训练输出特征表示第j个样本,表示第j个样本对应的标签值。假设隐藏层的个数为L,输入层和隐藏层的连接权重为W,隐藏层和输出层的连接权重为β,隐藏层神经元的偏置值为b,则表示第i个隐藏层神经元和输入神经元的连接权重向量。表示第i个隐藏层神经元和输出神经元的连接权重。表示第i个隐藏层神经元的偏置值。单隐层前馈神经网络可表示为:
其中,g(·)表示激活函数,这里选择用sigmoid函数,利用最小二乘法对公式8求解以下学习问题来获取神经网络的参数:
获得的求解参数其中H*为隐藏层的输出矩阵H的Moore-Penrose广义逆。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (6)

1.一种轻量级的缺失时空数据的重构方法,其特征在于:所述方法的整体步骤为:
步骤1、时空数据表示;
针对静态参考的点状数据和网状数据,由于这两种类型的数据的采样过程在空间上是同步进行的,并按照相同的时间间隔进行预处理,它们具有空间静态和时间动态的共同特点;因此,把它们抽象为统一的时空状态矩阵来表示;
步骤2、时间维度插值;
引入平均相关系数来自动选取时间窗口以提高SES算法建模时间依赖性的能力;
步骤3、空间维度插值;
针对基于静态参考的点状数据和网状数据这两种不同的地理过程,分别采用基于高斯函数的恒等距离和相关性距离为每个空间邻居赋予权重来提高经典的反向距离权重算法建模空间依赖性的能力;
步骤4、时空整合;
针对时间和空间维度获取的插值结果,作为单隐层前馈神经网络的输入特征,同时引入极限学习机作为神经网络模型的学习算法,整合时空维度的估计结果得到缺失数据最终的预测值。
2.根据权利要求1所述的轻量级的缺失时空数据的重构方法,其特征在于:所述步骤1的具体过程为:
假设采样的空间对象的个数为M,历史时间间隔长度为N,则时空状态矩阵可分别从空间维度和时间维度的视角表示,表示时空状态矩阵,维度为M×N,表示实数集;
从空间维度的视角来看, 表示第i个空间对象的历史观测时间序列,T表示转置操作;
从时间维度的视角来看, 表示第j个时间点的空间序列观测值;
表示第i个空间对象在第j个时间间隔的观测值,若则表示时空状态矩阵中存在缺失值;时空数据的分离表示方式,方便从时间和空间维度分别建模,从而更好地抓取时空依赖性。
3.根据权利要求2所述的轻量级的缺失时空数据的重构方法,其特征在于:所述步骤2对传统SES算法的扩展方式为:首先,以缺失数据所在的时间点为中心,分别选取向前和向后的时间点的样本数据;然后,考虑到时空数据在较短的时间范围内仍然保持近似的相关性,通过比较缺失数据所在的空间序列与其邻近的空间序列之间的平均相关系数,来选取最优的滑动窗口。
4.根据权利要求3所述的轻量级的缺失时空数据的重构方法,其特征在于:所述步骤2的具体过程为:
假设为时空状态矩阵中的缺失值,该过程的形式化表达如下:
其中,公式1用于窗口计算的前向操作,公式2用于窗口计算的后向操作;tj表示缺失数据所在的空间序列,表示使得平均相关系数取最大值的tb和tf,tkb和tkf表示缺失数据所在时间点向前和向后的空间序列,Cov(tj,tkb)和Cov(tj,tkf)用于计算两个空间序列之间的协方差,下标j表示第j个时间点,D(tj)、D(tkb)、D(tkf)用于计算空间序列的标准差;tb和tf表示时间窗口当前的位置,通过启发式的确定,初始值分别设置为j-1和j+1;以向前计算为例,首先计算tj和tj-1的相关系数,然后tb向前移动,计算平均相关系数直到达到最大值,即可得到时间窗口的开始位置wb;采用相同的策略,即可得到时间窗口的终点位置wf;在确定了时间窗口之后,采用SES算法为窗口内的样本分配不同的权重:
其中,表示缺失数据在时间维度的估计值;表示从时间点kb到时间点wb的求和操作,表示从时间点kf到时间点wf的求和操作;kb和kf表示时间窗口内的样本数据与缺失数据之间的时间间隔长度;vi,j-kb和vi,j+kf表示第i个空间对象在时间点j-kb和j+kf的观测值;γ表示平滑参数,其取值范围为[0,1];γ*(1-γ)kb-1和γ*(1-γ)kf-1表示样本数据的权重,离缺失数据所在时间点的距离越近,则赋予更大的权重。
5.根据权利要求4所述的轻量级的缺失时空数据的重构方法,其特征在于:所述步骤3的具体过程为:
针对静态参考的点状数据,在传统的欧几里得距离中引入相关系数,并利用高斯函数来平滑计算结果,从而构造一个恒等的距离函数;针对静态参考的网状数据,由于无法精确的描述两个空间对象之间的物理距离,直接采用相关系数作为距离度量函数,以反映时空模式的变化;
其中,disti,k表示第i个空间对象和第k个空间对象的恒等距离,pdi,k表示两个空间对象之间的物理距离,通过计算空间位置之间的欧几里得距离来获得;Ri,k表示第i个空间对象和第k个空间对象的相关系数;α为距离权重参数,利用真实数据来优化;通过计算缺失数据所在的时间序列和邻近空间对象的时间序列的恒等距离和相关距离,分别选取pk和nk个最相关的候选样本用于推断缺失值;Cov(si,sk)用于计算si、sk两个时间序列之间的协方差,D(si)、D(sk)用于计算时间序列的标准差;
其中,表示缺失数据在空间维度的估计值;vps,j和vns,j表示在选取的空间邻近集合中的第ps和ns个空间邻居在时间点j的观测值,为距离衰减参数;disti,ps表示第i个空间对象和第ps个选择的空间对象的恒等距离,Ri,ns表示第i个空间对象和第ns个选择的空间对象的相关性距离。
6.根据权利要求5所述的轻量级的缺失时空数据的重构方法,其特征在于:所述步骤4的具体过程为:
利用极限学习机的自学习特性,来模拟时空的交互过程;单隐层前馈神经网络的结构包括输入层、隐藏层、输出层;输入层包含2个输入神经元,即针对未缺失样本数据,利用改进IDW算法和SES算法得到的推断值来构造样本集
假设通过公式7得到的总样本数P,按照8:2划分为训练集和测试集,获取的训练样本数为Q,则训练输入特征训练输出特征 表示第j个样本,表示第j个样本对应的标签值;假设隐藏层的个数为L,输入层和隐藏层的连接权重为W,隐藏层和输出层的连接权重为β,隐藏层神经元的偏置值为b,则 表示第i个隐藏层神经元和输入神经元的连接权重向量; 表示第i个隐藏层神经元和输出神经元的连接权重; 表示第i个隐藏层神经元的偏置值;单隐层前馈神经网络可表示为:
其中,g(·)表示激活函数,这里选用sigmoid函数,利用最小二乘法对公式8求解以下学习问题来获取神经网络的参数:
获得的求解参数其中H*为隐藏层的输出矩阵H的Moore-Penrose广义逆。
CN201910135946.1A 2019-02-25 2019-02-25 一种轻量级的缺失时空数据的重构方法 Active CN109902259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910135946.1A CN109902259B (zh) 2019-02-25 2019-02-25 一种轻量级的缺失时空数据的重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910135946.1A CN109902259B (zh) 2019-02-25 2019-02-25 一种轻量级的缺失时空数据的重构方法

Publications (2)

Publication Number Publication Date
CN109902259A true CN109902259A (zh) 2019-06-18
CN109902259B CN109902259B (zh) 2019-10-18

Family

ID=66945293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910135946.1A Active CN109902259B (zh) 2019-02-25 2019-02-25 一种轻量级的缺失时空数据的重构方法

Country Status (1)

Country Link
CN (1) CN109902259B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580328A (zh) * 2019-09-11 2019-12-17 江苏省地质工程勘察院 一种地下水位监测值缺失的修复方法
CN110708129A (zh) * 2019-08-30 2020-01-17 北京邮电大学 一种无线信道状态信息获取方法
CN111767644A (zh) * 2020-06-05 2020-10-13 重庆大学 考虑单隧道限速影响高速公路路段实际通行能力估计方法
CN112381171A (zh) * 2020-11-25 2021-02-19 河海大学 一种基于组合模型的多传感器节点缺失数据填充方法
CN113034042A (zh) * 2021-04-19 2021-06-25 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN113240170A (zh) * 2021-05-10 2021-08-10 中国地质大学(武汉) 一种基于季节性循环神经网络的空气质量预测方法
CN113935956A (zh) * 2021-09-23 2022-01-14 中国矿业大学(北京) 一种二向混合建模矿区土壤含水量数据缺失修复方法
TWI755941B (zh) * 2020-11-20 2022-02-21 英業達股份有限公司 階層式時間序列預測方法
CN115346004A (zh) * 2022-10-18 2022-11-15 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) 联合时空重建与cuda加速的遥感时间序列数据重建方法
CN116996869A (zh) * 2023-09-26 2023-11-03 济南正大科技发展有限公司 一种网络异常数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105472657A (zh) * 2015-12-14 2016-04-06 南开大学 基于低秩张量的一种无线传感器网络中数据重构方法
US9582735B2 (en) * 2013-12-18 2017-02-28 A9.Com, Inc. Scalable image matching
CN108010320A (zh) * 2017-12-21 2018-05-08 北京工业大学 一种基于自适应时空约束低秩算法的路网交通数据的补全方法
CN109033476A (zh) * 2018-09-11 2018-12-18 北京航空航天大学 一种基于事件线索网络的智能时空数据事件分析方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582735B2 (en) * 2013-12-18 2017-02-28 A9.Com, Inc. Scalable image matching
CN105472657A (zh) * 2015-12-14 2016-04-06 南开大学 基于低秩张量的一种无线传感器网络中数据重构方法
CN108010320A (zh) * 2017-12-21 2018-05-08 北京工业大学 一种基于自适应时空约束低秩算法的路网交通数据的补全方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法
CN109033476A (zh) * 2018-09-11 2018-12-18 北京航空航天大学 一种基于事件线索网络的智能时空数据事件分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FC013: "时空数据挖掘的发展现状及时空预测的分类", 《HTTP://WWW.ABOUTYUN.COM/THREAD-20863-1-1.HTML》 *
李乐: "时空序列数据预处理方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708129B (zh) * 2019-08-30 2023-01-31 北京邮电大学 一种无线信道状态信息获取方法
CN110708129A (zh) * 2019-08-30 2020-01-17 北京邮电大学 一种无线信道状态信息获取方法
CN110580328A (zh) * 2019-09-11 2019-12-17 江苏省地质工程勘察院 一种地下水位监测值缺失的修复方法
CN110580328B (zh) * 2019-09-11 2022-12-13 江苏省地质工程勘察院 一种地下水位监测值缺失的修复方法
CN111767644A (zh) * 2020-06-05 2020-10-13 重庆大学 考虑单隧道限速影响高速公路路段实际通行能力估计方法
CN111767644B (zh) * 2020-06-05 2023-10-17 重庆大学 考虑单隧道限速影响高速公路路段实际通行能力估计方法
TWI755941B (zh) * 2020-11-20 2022-02-21 英業達股份有限公司 階層式時間序列預測方法
CN112381171A (zh) * 2020-11-25 2021-02-19 河海大学 一种基于组合模型的多传感器节点缺失数据填充方法
CN113034042A (zh) * 2021-04-19 2021-06-25 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN113034042B (zh) * 2021-04-19 2024-04-26 上海数禾信息科技有限公司 用于风控模型构建的数据处理方法和装置
CN113240170A (zh) * 2021-05-10 2021-08-10 中国地质大学(武汉) 一种基于季节性循环神经网络的空气质量预测方法
CN113935956B (zh) * 2021-09-23 2022-03-25 中国矿业大学(北京) 一种二向混合建模矿区土壤含水量数据缺失修复方法
CN113935956A (zh) * 2021-09-23 2022-01-14 中国矿业大学(北京) 一种二向混合建模矿区土壤含水量数据缺失修复方法
CN115346004B (zh) * 2022-10-18 2023-01-31 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) 联合时空重建与cuda加速的遥感时间序列数据重建方法
CN115346004A (zh) * 2022-10-18 2022-11-15 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) 联合时空重建与cuda加速的遥感时间序列数据重建方法
CN116996869A (zh) * 2023-09-26 2023-11-03 济南正大科技发展有限公司 一种网络异常数据处理方法及装置
CN116996869B (zh) * 2023-09-26 2023-12-29 济南正大科技发展有限公司 一种网络异常数据处理方法及装置

Also Published As

Publication number Publication date
CN109902259B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN109902259B (zh) 一种轻量级的缺失时空数据的重构方法
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
CN109410575B (zh) 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法
CN112561146A (zh) 一种基于模糊逻辑和深度lstm的大规模实时交通流预测方法
CN109285346A (zh) 一种基于关键路段的城市路网交通状态预测方法
CN111860951A (zh) 一种基于动态超图卷积网络的轨道交通客流预测方法
CN110827543A (zh) 一种基于深度学习和时空数据融合的短时交通流控制方法
CN110458048A (zh) 顾及城镇格局特征的人口分布时空演变与认知
CN110909909A (zh) 基于深度学习和多层时空特征图的短时交通流预测方法
CN113283095A (zh) 一种进化式数字孪生流域构建方法
CN113359212B (zh) 一种基于深度学习的储层特征预测方法及模型
CN112949828A (zh) 一种基于图学习的图卷积神经网络交通预测方法及系统
CN113538910A (zh) 一种自适应的全链条城市区域网络信号控制优化方法
CN116258608B (zh) 融合gis和bim三维技术的水利实时监测信息管理系统
CN114092697B (zh) 注意力融合全局和局部深度特征的建筑立面语义分割方法
CN107704970A (zh) 一种基于Spark的需求侧负荷预测方法
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
CN109582754A (zh) 利用poi数据进行城市主体功能区中心探测的方法
CN109214503A (zh) 基于kpca-la-rbm的输变电工程造价预测方法
CN111583648A (zh) 融合gps数据和卡口流量数据的城市交通流量预测方法
WO2022142418A1 (zh) 一种基于gis地图信息的交通拥堵指数预测方法及装置
CN112419711A (zh) 基于改进gmdh算法的封闭式停车场停车需求预测方法
CN114519302A (zh) 基于数字孪生的公路交通态势仿真方法
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
CN115099328A (zh) 基于对抗网络的交通流量预测方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant