CN105678046A - 修补时空序列数据中的缺失数据的方法及装置 - Google Patents

修补时空序列数据中的缺失数据的方法及装置 Download PDF

Info

Publication number
CN105678046A
CN105678046A CN201410659700.1A CN201410659700A CN105678046A CN 105678046 A CN105678046 A CN 105678046A CN 201410659700 A CN201410659700 A CN 201410659700A CN 105678046 A CN105678046 A CN 105678046A
Authority
CN
China
Prior art keywords
point
data
time
space
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410659700.1A
Other languages
English (en)
Inventor
刘博�
胡卫松
刘晓炜
樊子德
邓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to CN201410659700.1A priority Critical patent/CN105678046A/zh
Publication of CN105678046A publication Critical patent/CN105678046A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种修补时空序列数据中的缺失数据的方法及装置,其中,该方法包括:分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重;根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。本发明充分利用了时空序列数据的时空相关性和异质性,得到的待求点的数据精度高。

Description

修补时空序列数据中的缺失数据的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种修补时空序列数据中的缺失数据的方法及装置。
背景技术
大自然的演变、人类的生产活动、社会经济的发展都是时空过程,都可以用时空序列数据来表示。但是,时空序列数据由于各种原因可能出现局部数据缺失。如果由于局部数据的缺失而抛弃全部数据,显然十分浪费和不合理。因此,有必要对缺失的时空序列数据进行修复,以能够更好地基于大数据挖掘事物的时空关联规则。
目前,普遍采用插值方法来估算时空序列数据的缺失值。例如,用于估计气候数据集的缺失数据的常用方法有基于回归的方法、克里格法(Kriging)及其变种、反距离加权法(InverseDistanceWeighted,简称IDW)以及基于有偏哨点医院的区域疾病估计的点估计模型(PointestimationmodelofBiasedSentinelHospitals-basedAreaDiseaseEstimation,简称P-BSHADE)点估计法等。
其中,基于回归的方法主要是从周围站点和外部的数据出发进行回归分析,基于已知的数据建立回归方程,进而估计缺失的数据。IDW方法作为经常使用的缺失数据估计方法,主要采用目标站点和邻近站点之间的距离倒数定权来估计目标站点的数据。而克里格法及其变种则按照空间区域差异,来保证插值数据是最优无偏估计。此外,P-BSHADE点估计法是依据有偏哨点医院疾病估计(BiasedSentinelHospitals-basedAreaDiseaseEstimation,简称BSHADE)模型提出的,主要依据先验知识考虑到地理空间的相关性和异质性来填补有偏数据,从而得到最优无偏估计值。
然而,上述时空序列数据的缺失值修补算法均仅考虑了空间维度的数据,而没有很好地顾及时空相关性,从而使得插值精度还有待提高。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何提高修补时空序列数据的缺失数据的精度。
解决方案
为了解决上述问题,本发明实施例提供一种修补时空序列数据中的缺失数据的方法,包括:
分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重;
根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;
根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;
根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
在一种可能的实现方式中,该方法利用如下式1来确定空间周边点对所述待求点的贡献权重,
其中,wi为各空间周边点对所述待求点的贡献权重;
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差;
bi为第i个空间周边点与所述待求点的期望比;
C(yi,y0)为第i个空间周边点与所述待求点的协方差;
1≤i≤n,1≤i'≤n,n为空间周边点的个数。
在一种可能的实现方式中,该方法根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 - Σ i = 1 n w i y i 式2。
在一种可能的实现方式中,该方法利用如下式3来确定时间周边点对所述待求点的贡献权重,
其中,为各时间周边点对所述待求点的贡献权重;
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比;
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
在一种可能的实现方式中,该方法根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
在一种可能的实现方式中,该方法根据所述空间维度估计数据和所述时间维度估计数据,利用如下式5来算出所述待求点的数据Y0,其中A表示空间维度权重,B表示时间维度权重,y0表示空间维度估计数据,表示所述时间维度估计数据,
Y 0 = A y 0 + B t ^ 0 式5,
所述空间维度权重为所述时间维度权重为
在一种可能的实现方式中,在分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重之前,还包括:
将所述时空序列数据按特定的格式进行排列,以检测数据缺失的缺失点;
在检测到多个所述缺失点的情况下,采用反比例加权插值法确定各所述缺失点的预估初始数据,以能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
在一种可能的实现方式中,所述特定的格式为二维数组,并且所述二维数组中第u行第v列的数据表示第v个空间点在第u个时点的数据。
在一种可能的实现方式中,在分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重之前,还包括:
根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
在一种可能的实现方式中,根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点,包括:
在所述时空序列数据的空间点的总个数小于预定的阈值的情况下,增设至少一个虚拟空间点并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
为了解决上述问题,本发明实施例还提供一种修补时空序列数据中的缺失数据的装置,其特征在于,包括:
空间维度估计模块,用于确定空间周边点对数据缺失的待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;
时间维度估计模块,用于确定时间周边点对所述待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;
数据融合模块,用于根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
在一种可能的实现方式中,所述空间维度估计模块利用如下式1来确定空间周边点对所述待求点的贡献权重,
其中,wi为各空间周边点对所述待求点的贡献权重;
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差;
bi为第i个空间周边点与所述待求点的期望比;
C(yi,y0)为第i个空间周边点与所述待求点的协方差;
1≤i≤n,1≤i'≤n,n为空间周边点的个数。
在一种可能的实现方式中,所述空间维度估计模块还用于根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 = Σ i = 1 n w i y i 式2。
在一种可能的实现方式中,所述时间维度估计模块利用如下式3来确定时间周边点对所述待求点的贡献权重,
其中,为各时间周边点对所述待求点的贡献权重;
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比;
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
在一种可能的实现方式中,所述时间维度估计模块还用于根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
在一种可能的实现方式中,所述数据融合模块根据所述空间维度估计数据和所述时间维度估计数据,利用如下式5来算出所述待求点的数据Y0,其中A表示空间维度权重,B表示时间维度权重,y0表示空间维度估计数据,表示所述时间维度估计数据,
Y 0 = A y 0 + B t ^ 0 式5,
所述空间维度权重为所述时间维度权重为
在一种可能的实现方式中,该装置还包括:
排列模块,用于将所述时空序列数据按特定的格式进行排列;
缺失检测模块,与所述排列模块连接,用于检测按所述特定的格式排列的所述时空序列数据中数据缺失的缺失点;
预估模块,与所述缺失检测模块连接,用于在所述缺失检测模块检测到多个所述缺失点的情况下,采用反比例加权插值法确定各所述缺失点的预估初始数据,以使得所述空间维度估计模块和所述时间维度估计模块能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
在一种可能的实现方式中,所述特定的格式为二维数组,并且所述二维数组中第u行第v列的数据表示第v个空间点在第u个时点的数据。
在一种可能的实现方式中,该装置还包括:
数据选取模块,用于根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
在一种可能的实现方式中,所述数据选取模块还用于在所述时空序列数据的空间点的总个数小于预定的阈值的情况下,增设至少一个虚拟空间点并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
有益效果
本发明实施例充分利用了时空序列数据的时空相关性和异质性,根据待求点的贡献权重分别确定待求点的空间维度估计数据和时间维度估计数据,再融合空间维度估计数据和时间维度估计数据得到待求点的数据,得到的待求点的数据精度高。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的修补时空序列数据中的缺失数据的方法的流程示意图;
图2示出根据本发明另一实施例的修补时空序列数据中的缺失数据的方法的流程示意图;
图3示出根据本发明一实施例的修补时空序列数据中的缺失数据的装置的结构框图;
图4示出根据本发明另一实施例的修补时空序列数据中的缺失数据的装置的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
本发明的发明构思主要是:在对时空序列数据进行插值修补的过程中,不仅考虑空间维度对缺失的数据的影响,还考虑时间维度对缺失的数据的影响,并且同时顾及时空相关性和异质性,从而提高插值精度。根据上述发明构思,图1示出根据本发明一实施例的修补时空序列数据中的缺失数据的方法的流程示意图。如图1所示,该方法主要可以包括:
步骤101、分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重。
步骤102、根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据。
步骤103、根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据。
步骤104、根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
其中,步骤102和步骤103的时序没有限定,也可以先执行步骤103再执行步骤102,或者二者同时执行。
本实施例的修补时空序列数据中的缺失数据的方法,充分利用时空序列数据的时空相关性和异质性。其中,时空相关性表现为某空间点在某时点的数据,与该空间点的周围的空间点及某些时间间隔的时点都有相关性关系,一个例子就是某空间点的气温与相邻空间点和某些时间间隔的时点的气温具有相关性。时空异质性,可以指当时空上相邻的元素之间的差异,如相邻空间点或相邻时点之间不存在联系。
具体而言,本实施例根据待求点的贡献权重分别确定待求点的空间维度估计数据和时间维度估计数据,再融合空间维度估计数据和时间维度估计数据得到待求点的数据,得到的待求点的数据精度高。本发明可以用于各种时空序列数据的修复,例如可以对时空空气细颗粒物观测数据中的缺失数据进行插值修补。
实施例2
图2示出根据本发明另一实施例的修补时空序列数据中的缺失数据的方法的流程示意图。如图2所示,与上述实施例的主要区别在于,在步骤101之前,该方法还可以包括:
步骤201、将时空序列数据按二维数组进行排列,以检测数据缺失的缺失点。
举例而言,可以将时空序列数据排列为二维数组P(Y,T)的格式,以便于计算。其中,二维数组中第u行第v列的数据可以表示第v个空间点在第u个时点的数据。
步骤202、对上述二维数组进行缺失数据检测,找出缺失点,并将缺失点的数据统一设为null,并且还可以判断是缺失点的个数是单个还是多个。在检测到的缺失点为多个的情况下,执行步骤203对缺失点的数据进行预填;在检测到缺失点为单个的情况下,则跳到执行步骤204对时空序列数据进行数据划分和范围选取。
步骤203、在对缺失点的数据进行预填时,可以采用反比例加权(IDW)插值法确定各所述缺失点的预估初始数据,以能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
具体地,IDW插值法是利用缺失点周围邻域内的点的距离做权来估计缺失点的预估初始数据,通常距离越近,权重越大,例如采用下式6计算缺失点的预估初始数据。
z A = Σ i = 1 n ( z i d i ) Σ i = 1 n ( 1 d i ) 式6
其中,为预估初始数据,zi为待求点周围的第i个空间周边点在某个时点的数据,di为第i个空间周边点与待求点之间的距离,n为空间周边点的个数。例如,选取空间周边点在与待求点对应的时点的n个数据,再利用所选取的空间周边点与该待求点之间的距离,求解得到该待求点的预估初始数据。然后可以从检测到的缺失点中,选择一个缺失点作为待求点,而其他的缺失点的数据则填充为预估初始数据。
步骤204、对时空序列数据进行数据划分和范围选取。具体而言,根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
其中,根据时空序列数据的时空分布情况不同,可以采用不同的数据划分策略,选取相应的数据范围(与待求点相关的空间点以及与待求点相关的时点)用于后续的计算,以下为几种不同时空分布情况的示例:
情况一、空间点稀疏
在时空序列数据的空间点的总个数小于预定的阈值S1的情况下,可以认为空间点稀疏,在时空序列数据中增设至少一个虚拟空间点,并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
具体而言,对于空间点稀疏的情况,采用虚拟空间点来扩充与待求点相关的空间点个数,用于计算空间周边点的贡献权重,有利于提高计算精度。例如,可以先对某一虚拟空间点进行一次插值计算,得到该虚拟空间点在某一时点的估计数据,再将该估计数据作为已知数据,继续对该虚拟空间点在其他时点的估计数据进行计算。其中,各虚拟空间点在各个时点的估计数据,可以采用本发明实施例的修补时空序列数据中的缺失数据的方法,也可以采用IDW等其他的插值方法进行计算。
情况二、空间点密集
在所述空间点的总个数大于预定的阈值S2的情况下,可以认为空间点密集。可以采用待求点周围一定范围内的已知点作为与待求点相关的空间点,进行后续的插值计算,有利于降低计算复杂度。例如,可以优选待求点的一阶或者二阶邻域的点进行插值,以减小计算量。其中,一阶邻域是指与待求点直接相邻的已知点,而二阶邻域是指通过一阶邻域间接与待求点相邻的已知点。
情况三、时点密集
在时点的总个数大于预定的阈值T1的情况下,可以认为时点密集,可以从原始的时空序列数据中按照季节性或周期性选择部分时点作为与待求点相关的时点,用于计算时间周边点的贡献权重,有利于降低计算复杂度。具体而言,可以先对原始的时空序列数据进行分析,判断其是否具有周期性或者季节性。其中,周期性是指时间序列数据变化具有一定的周期规律,而季节性是指时间序列数据变化具有季节性规律。在确定时间序列数据具有周期性或者季节性之后,可以按照周期或季节,从原始的时间序列数据中选择部分时点的数据进行插值,能够在不影响插值精度的情况下减小计算量。
在实际的数据划分和范围选取过程中,可以出现空间点稀疏且时点密集、空间点密集且时点密集等情况,可以参照上述情况分别进行处理。
在一种可能的实现方式中,如果原始的时空序列数据的空间点总个数以及时点总个数合适,即不稀疏也不密集,可以将原始的时空序列数据整体作为时空序列数据进行计算,这种情况下,可以不执行步骤204。
在经过步骤204,根据原始的时空序列数据,与待求点相关的空间点以及与待求点相关的时点后。所述空间周边点是指与待求点相关的空间点中除与待求点对应的空间点之外的其它空间点,所述时间周边点是指与待求点相关的时点中除与待求点对应的时点之外的其它时点。
在确定了与待求点相关的空间点以及与待求点相关的时点后,可以对待求点的数据进行估计,例如可以参见上述实施例中的步骤101至步骤104。具体而言,在计算空间维度估计数据的情况下,步骤101具体可以为:
步骤205、利用如下式1来确定n个空间周边点对所述待求点的贡献权重,
其中,wi为各空间周边点对所述待求点的贡献权重,wi包括w1~wn
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差,C(yi,yi')包括C(y1,y1)~C(yn,yn);
bi为第i个空间周边点与所述待求点的期望比,包括b1~bn
C(yi,y0)为第i个空间周边点与所述待求点的协方差,C(yi,y0)包括
上述i、i'的范围是1≤i≤n,1≤i'≤n,n为空间周边点的个数。
具体地,式1是在空间维度顾及时空相关性对待求点进行插值估计,其中,根据两个向量的协方差的规律,如果X与Y是统计独立的,那么二者之间的协方差就是0,反过来,如果二者之间的协方差是0,那么他们就不相关。因此,协方差C(yi,yi')可以体现各个空间周边点之间的相关性。此外,协方差C(yi,y0)可以体现各个空间周边点与待求点之间的相关性。
此外,bi为两个空间点之间的期望比,反映了两个空间点整体水平的差异,可以体现异质性,因此,bi可以表征第i个空间周边点对待求点的异质性。μ为拉格朗日系数,是指使用拉格朗日乘数法解方程的系数,也是待求参数。
根据上述的二维矩阵,可以确定式1中C(yi,yi')、C(yi,y0)、bi的数据。其中,在计算协方差C(yi,yi')时,yi、yi'表示的向量可以包括第i、i'个空间周边点在每个时点的数据;在计算协方差C(yi,y0)时,yi、y0表示的向量可以包括第i个空间周边点和待求点在除了待求点对应的时点之外的各个时点的数据;在计算bi时,yi、y0表示的向量可以包括第i个空间周边点和待求点在除了待求点对应的时点之外的各个时点的数据。然后根据式1求解未知数w1~wn和μ。
步骤206、根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 = Σ i = 1 n w i y i 式2。
具体而言,可以从空间周边点在各个时点的数据中,选择对待求点的贡献权重从大到小排序靠前的若干数据,与待求点相关系数最大的前n个空间周边点的数据,例如,各个空间周边点在与待求点所在的相同时点的数据y1~yn,并参见步骤102,将数据y1~yn和贡献权重w1~wn代入式2,可以加权求得待求点的空间维度估计数据。
此外,在计算时间维度估计数据的情况下,步骤101具体可以包括:
步骤207、利用如下式3来确定m个时间周边点对所述待求点的贡献权重,
其中,为各时间周边点对所述待求点的贡献权重,为包括
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比,包括a1~am
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
具体地,式3是在时间维度顾及时空相关性对待求点进行插值估计,其中,协方差C(tj,tj')可以体现各个时间周边点之间的相关性。此外,协方差C(tj,t0)可以体现各个时间周边点与待求点之间的相关性。
此外,aj为两个时点之间的期望比,反映了两个时点整体水平的差异,可以体现异质性,因此,aj可以表征第j个时间周边点对待求点的异质性。μ为拉格朗日系数,是指使用拉格朗日乘数法解方程的系数,也是待求参数。
根据上述的二维矩阵,可以确定式3中C(tj,tj')、C(tj,t0)、aj的数据。其中,在计算协方差C(tj,tj')时,tj、tj'表示的向量可以包括每个空间点在第j、j'个时间周边点的数据;在计算协方差C(tj,t0)时,tj、t0表示的向量可以包括除了待求点对应的空间点之外的各个空间点在第j个时间周边点和待求点的数据;在计算aj时,tj、t0表示的向量可以包括除了待求点对应的空间点之外的各个空间点在第j个时间周边点和待求点的数据。然后根据式3求解未知数和h。
步骤208、根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
具体而言,可以从各个空间点在时间周边点的数据中,选择对待求点的贡献权重从大到小排序靠前的若干数据,与待求点相关系数最大的前m个时点的数据,例如,与待求点所在的相同空间点在各个时间周边点的数据t1~tm,并参见步骤103,将数据t1~tm和贡献权重代入式4,可以加权求得待求点的时间维度估计数据。
其中,通过步骤205和步骤206能够计算得到空间维度估计数据,通过步骤207和步骤208能够计算得到时间维度估计数据,图2中的时序仅为一种示例,并非限制。在具体实现过程中,计算时间维度估计数据的步骤(步骤207和步骤208)也可以在计算空间维度估计数据的步骤(步骤205和步骤206)之前执行,或者计算时间维度估计数据与空间维度估计数据的步骤并行,本发明中不限定他们的具体时序关系。
步骤209、融合空间维度估计数据和时间维度估计数据,以得到待求点的数据。
具体而言,可以参见步骤104,将上述步骤207中计算的空间维度估计数据和上述步骤208中计算的时间维度估计数据,代入下式5可以得到待求点的数据Y0
Y 0 = A y 0 + B t ^ 0 式5
其中,空间维度权重为时间维度权重为A、B的数值由空间周边点和时间周边点的数量来确定,如果选择的空间维数据多即空间周边点数量多则A的数值较大,如果选择的时间维数据多即时间周边点数量多则B的数值较大。
然后,还可以判断是否存在未修补的缺失点,如果存在,则返回从未修补的缺失点中,选择一个缺失点作为待求点,然后循环执行上述步骤,直至将所有缺失点都修补完毕为止。
参见上述实施例,以一个简单的例子,对本发明的修补时空序列数据中的缺失数据的方法进行说明。假设现有5个空间点在6个小时的PM2.5观测数据,但其中第3个空间点在第3个小时和第4个空间点在第4个小时的数据缺失,欲修补插值得到缺失的数据。具体的数据为如下表1中所示。
表1
空间点1 空间点2 空间点3 空间点4 空间点5
时点1 30 40 30 60 20
时点2 40 40 20 70 20
时点3 40 30 null 60 10
时点4 30 30 10 null 20
时点5 50 40 30 50 20
时点6 40 30 20 50 30
其中的第3个空间点在第3个小时和第4个空间点在第4小时的缺失数据填充为null,采用本发明实施例的修补时空序列数据中的缺失数据的方法,具体步骤如下。
步骤301、首先,将观测数据处理储存为5*6的二维矩阵,矩阵中的数值排列可以参见上表1。
步骤302、检测缺失数据,表1所表示的二维矩阵中(3,3)(4,4)为null,因此存在两个缺失点。
步骤303、对多个缺失点的数值进行预处理。具体而言,可以用IDW插值法计算所有缺失点的估计初始值,也可以仅计算除待求的缺失点(待求点)以外的其他缺失点的估计初始值。
例如,在空间点3的周围,点1距离它80m,值为40;点2距离它60m,值为30;点4距离它120m,值为60;点5距离它(40/3)米,值为10;则将上述观测值及其距离代入式6,可以得到:
(40/80+30/60+60/120+10/(40/3))/(1/80+1/60+1/120+1/(40/3))=20。
即(3,3)的预估初始值为20。同理,可以求得(4,4)的预估初始值为60。
以下根据(4,4)的预估初始值,先求(3,3)的数值。由于该例子的时间和空间数据数量合适,不再执行步骤204对观测数据进行数据划分和范围选取,而将表1中所有的观测数据整体作为时空序列数据进行缺失值修补的计算。
步骤304、根据表1对应的矩阵的已知观测值,计算上述式1中的算C(yi,yi'),表1中,待求点(3,3)所在的观测数据的第三列不参加计算,参见表2,其中待求点对应的第3个空间点y0的在各个时点的观测值不参加计算,C(y1,y1)即为表2中待求点y0的第1个空间周边点y1与第1个空间周边点y1的协方差。
表2
根据协方差的定义,Cov(X,Y)=E[(X-E[X])(Y-E[Y])],计算C(yi,yi')所表示的各元素的数值,具体如下:
C(y1,y1)=cov([30,40,40,30,50,40],[30,40,40,30,50,40])
=var([30,40,40,30,50,40])(var是方差)
=E[[30,40,40,30,50,40]-E([30,40,40,30,50,40])2]
=E[([30,40,40,30,50,40]-38.3)2]
=56.7;
C(y1,y2)=Cov([30,40,40,30,50,40],[40,40,30,30,40,30])
=E[([30,40,40,30,50,40]-E[30,40,40,30,50,40])([40,40,30,30,40,30]-E[40,40,30,30,40,30])]
=E[([30,40,40,30,50,40]-38.3)([40,40,30,30,40,30]-35)]
=E([-8.3,1.7,1.7,-8.3,11.7,1.7]*[5,5,-5,-5,5,-5])
=E[(-8.3*5)(1.7*5)(1.7*(-5))(-8.3*(-5))(11.7*5)(1.7*(-5))]
=E[-41.5,8.5,-8.5,41.5,58.5,-8.5]
=(-41.5+8.5-8.5+41.5+58.5-8.5)/5=10;
以下各元素的计算过程与上述两个元素类似,省略具体过程。
C(y1,y3)=Cov([30,40,40,30,50,40],[60,70,60,60,50,50])=-23.3
C(y1,y4)=Cov([30,40,40,30,50,40],[20,20,10,20,20,30])=0
C(y2,y2)=Cov([40,40,30,30,40,30],[40,40,30,30,40,30])=30
C(y2,y3)=Cov([40,40,30,30,40,30],[60,70,60,60,50,50])=10
C(y2,y4)=Cov([40,40,30,30,40,30],[20,20,10,20,20,30])=0
C(y3,y3)=Cov([60,70,60,60,50,50],[60,70,60,60,50,50])=56.7
C(y3,y4)=Cov([60,70,60,60,50,50],[20,20,10,20,20,30])=-20
C(y4,y4)=Cov([20,20,10,20,20,30],[20,20,10,20,20,30])=40
矩阵对称得到其他的下三角。可以得到下式1-1:
56.7 10 - 23.3 0 10 30 10 0 - 23.3 10 56.7 - 20 0 0 - 20 40 w 1 w 2 w 3 w 4 μ = 式1-1。
步骤305、计算式1中的b1为表2中y1对应列的期望除以y0对应列的期望。由于各个空间点在待求点(3,3)对应的第3个时点t0的观测值为空,参见表3,观测数据中待求点(3,3)所在的第三行不参加计算,即各个空间点在待求点(3,3)对应的t0的各个观测值不参加计算,采用其余5个时点的观测值求期望。
表3
b1~b4的具体计算过程如下:
b1=E(y1)/E(y0)=mean([30,40,40,30,50,40])/mean([30,20,10,30,20])=1.74
b2=E(y2)/E(y0)=mean([40,40,30,30,40,30])/mean([30,20,10,30,20])=1.59
b3=E(y3)/E(y0)=mean([60,70,60,60,50,50])/mean([30,20,10,30,20])=2.65
b4=E(y4)/E(y0)=mean([20,20,10,20,20,30])/mean([30,20,10,30,20])=0.91
代入式1可以得到下式1-2:
56.7 10 - 23.3 0 1.74 10 30 10 0 1.59 - 23.3 10 56.7 - 20 2.65 0 0 - 20 40 0.91 1.74 1.59 2.65 0.91 0 w 1 w 2 w 3 w 4 μ = 式1-2。
步骤306、计算式1中的C(yi,y0)。例如计算C(y1,y0),采用表3所表示的矩阵,计算y1对应列与y0对应列的协方差(每一列都不包括即第三行t0的观测值)。具体计算过程如下。
C(y1,y0)=Cov([30,40,30,50,40],[30,20,10,30,20])=30
C(y2,y0)=Cov([40,40,30,40,30],[30,20,10,30,20])=35
C(y3,y0)=Cov([60,70,60,50,50],[30,20,10,30,20])=-20
C(y4,y0)=Cov([20,20,20,20,30],[30,20,10,30,20])=-5
根据上述步骤304~步骤306的计算结果,可以得到下式1-3:
56.7 10 - 23.3 0 1.74 10 30 10 0 1.59 - 23.3 10 56.7 - 20 2.65 0 0 - 20 40 0.91 1.74 1.59 2.65 0.91 0 w 1 w 2 w 3 w 4 μ = 30 35 - 20 - 5 1 式1-3。
步骤307、通过式1-3求得wi,具体地,
W(w1,w2,w3,w4)=[0.1679;1.4444;-0.4962;-0.3009],μ=-3.1753
步骤308、通过式2求得待求点的空间维度估值y0
y 0 = Σ i = 1 n w i y i = w 1 y 1 + w 2 y 2 + w 3 y 3 + w 4 y 4 = 0.1679 × 10 + 1.4444 × 30 - 0.4962 × 60 - 0.3009 × 10 = 17
步骤309、类似地,求得待求点的时间维度估值先求C(tj,tj'),参见表3,观测数据的第三行即待求点对应的时点t0的观测值不参加运算。
C(t1,t1)=cov([30,40,30,60,20],[30,40,30,60,20])=230
C(t1,t2)=cov([30,40,30,60,20],[40,40,20,70,20])=290
C(t1,t3)=cov([30,40,30,60,20],[30,30,10,60,20])=250
C(t1,t4)=cov([30,40,30,60,20],[50,40,30,50,20])=140
C(t1,t5)=cov([30,40,30,60,20],[40,30,20,50,30])=120
C(t2,t2)=cov([40,40,20,70,20],[40,40,20,70,20])=420
C(t2,t3)=cov([40,40,20,70,20],[30,30,10,60,20])=375
C(t2,t4)=cov([40,40,20,70,20],[50,40,30,50,20])=220
C(t2,t5)=cov([40,40,20,70,20],[40,30,20,50,30])=210
C(t3,t3)=cov([30,30,10,60,20],[30,30,10,60,20])=350
C(t3,t4)=cov([30,30,10,60,20],[50,40,30,50,20])=175
C(t3,t5)=cov([30,30,10,60,20],[40,30,20,50,30])=200
C(t4,t4)=cov([50,40,30,50,20],[50,40,30,50,20])=170
C(t4,t5)=cov([50,40,30,50,20],[40,30,20,50,30])=110
C(t5,t5)=cov([40,30,20,50,30],[40,30,20,50,30])=130
步骤310、计算例如aj为tj对应行的期望除以t0对应行的期望。由于待求点(3,3)对应的第3个空间点y0有观测值为空,参见表2,观测数据中待求点(3,3)所在的第三列不参加计算。
a1~a5的具体计算过程如下:
a1=E(a1)/E(a0)=mean([30,40,30,60,20])/mean([40,30,60,10])=1.03
a2=E(a2)/E(a0)=mean([40,40,20,70,20])/mean([40,30,60,10])=1.09
a3=E(a3)/E(a0)=mean([30,30,10,60,20])/mean([40,30,60,10])=0.86
a4=E(a4)/E(a0)=mean([50,40,30,50,20])/mean([40,30,60,10])=1.09
a5=E(a5)/E(a0)=mean([40,30,20,50,30])/mean([40,30,60,10])=0.97
步骤311、计算式3中的C(tj,t0),例如计算C(t1,t0),采用表2所表示的矩阵,计算t1对应行与t0对应行的协方差(每一行都不包括即第三列y0的观测值)。具体计算过程如下。
C(t1,t0)=cov([30,40,60,20],[40,30,60,10])=317
C(t2,t0)cov([40,40,70,20],[40,30,60,10])=417
C(t3,t0)cov([30,30,60,20],[40,30,60,10])=333
C(t4,t0)cov([50,40,50,20],[40,30,60,10])=267
C(t5,t0)cov([40,30,50,30],[40,30,60,10])=183
上述步骤309~步骤311的计算结果代入式3可以得到下式3-1:
步骤312、解矩阵方程5-1可以求得
步骤313、通过式4求得待求点的时间维度估值
步骤314、通过式5,加权平均求得待求点的数值Y0
其中选取的空间周边点个数n为4,时间周边点个数m为5,则代入式5
Y 0 = A y 0 + B t ^ 0 = 4 9 × 17 + 5 9 × 36 = 27.5 , 即(3,3)的数值为27.5。
与计算(3,3)类似,可以求得(4,4)的数值为57。
因此,采用本发明的修补时空序列数据中的缺失数据的方法对表1的时空序列数据进行插值,得到的完整数据可以为表4。
表4
空间点1 空间点2 空间点3 空间点4 空间点5
时点1 30 40 30 60 20
时点2 40 40 20 70 20
时点3 40 30 27.5 60 10
时点4 30 30 10 57 20
时点5 50 40 30 50 20
时点6 40 30 20 50 30
本实施例的修补时空序列数据中的缺失数据的方法,充分利用时空序列数据的时空相关性和异质性,利用空间周边点对待求点贡献权重表征空间周边点对待求点的影响,利用时间周边点对待求点贡献权重表征时间周边点对待求点的影响,分别确定待求点的空间维度估计数据和时间维度估计数据,再融合空间维度估计数据和时间维度估计数据得到待求点的数据,与IDW、P-BSHADE等方法相比,插值精度有所提高,得到的待求点的数据精度高。
本发明的修补时空序列数据中的缺失数据的方法,能够充分利用时间和空间维度的信息,顾及相关性和异质性对时空序列数据进行插值,因此能够提高插值精度。并且,经过真实数据的交叉验证,该方法得到插值结果的精度,与IDW、P-BSHADE等方法相比,插值精度有所提高。
实施例3
图3示出根据本发明一实施例的修补时空序列数据中的缺失数据的装置的结构框图。如图3所示,该装置主要可以包括:
空间维度估计模块11,用于确定空间周边点对数据缺失的待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;
时间维度估计模块13,用于确定时间周边点对数据缺失的待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;
数据融合模块15,用于根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
本实施例的修补时空序列数据中的缺失数据的装置,充分利用时空序列数据的时空相关性和异质性,空间维度估计模块11根据待求点的贡献权重确定待求点的空间维度估计数据,时间维度估计模块13根据待求点的贡献权重确定待求点的时间维度估计数据,数据融合模块15再融合空间维度估计数据和时间维度估计数据得到待求点的数据,得到的待求点的数据精度高。
实施例4
图4示出根据本发明另一实施例的修补时空序列数据中的缺失数据的装置的结构框图。如图4所示,图4与图3相同的组件采用相同的标号,与上述实施例的主要区别在于,空间维度估计模块11具体可以利用如下式1来确定空间周边点对所述待求点的贡献权重,
其中,wi为各空间周边点对所述待求点的贡献权重;
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差;
bi为第i个空间周边点与所述待求点的期望比;
C(yi,y0)为第i个空间周边点与所述待求点的协方差;
1≤i≤n,1≤i'≤n,n为空间周边点的个数。
在一种可能的实现方式中,空间维度估计模块11还可以用于根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 = Σ i = 1 n w i y i 式2。
在一种可能的实现方式中,时间维度估计模块13具体可以利用如下式3来确定时间周边点对所述待求点的贡献权重,
其中,为各时间周边点对所述待求点的贡献权重;
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比;
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
在一种可能的实现方式中,时间维度估计模块13还可以用于根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
在一种可能的实现方式中,所述数据融合模块15具体可以根据所述空间维度估计数据和所述时间维度估计数据,利用如下式5来算出所述待求点的数据Y0,其中A表示空间维度权重,B表示时间维度权重,y0表示空间维度估计数据,表示所述时间维度估计数据,
Y 0 = A y 0 + B t ^ 0 式5,
所述空间维度权重为所述时间维度权重为
本实施例的式1~式5的具体参数的含义与上述实施例中相同,在此不再赘述。
在一种可能的实现方式中,该修补时空序列数据中的缺失数据的装置还可以包括:
排列模块21,用于将所述时空序列数据按特定的格式进行排列;具体地,上述特定的格式可以为二维数组,并且所述二维数组中第u行第v列的数据表示第v个空间点在第u个时点的数据。
缺失检测模块23,与排列模块21连接,用于按所述特定的格式排列的所述时空序列数据中检测数据缺失的缺失点。
预估模块25,与缺失检测模块23连接,在缺失检测模块23检测到多个所述缺失点的情况下,采用反比例加权插值法确定各所述缺失点的预估初始数据,以使得所述空间维度估计模块11和所述时间维度估计模块13能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。缺失检测模块23检测单个缺失数据或多个缺失数据的具体处理方法,可以参见上述实施例的步骤202、步骤203、式6等相关描述。
在一种可能的实现方式中,该修补时空序列数据中的缺失数据的装置还可以包括:数据选取模块27,根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
数据选取模块的具体功能可以参见上述步骤204中不同时空分布情况数据划分和范围选取策略的相关描述。
例如,在所述时空序列数据的空间点的总个数小于预定的阈值的情况下,增设至少一个虚拟空间点并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
此外,本实施例的修补时空序列数据中的缺失数据的装置的各个模块,能够用于执行上述实施例中的步骤301~步骤314。
本实施例的修补时空序列数据中的缺失数据的装置,能够充分利用时间和空间维度的信息,顾及相关性和异质性对时空序列数据进行插值,空间维度估计模块11根据待求点的贡献权重确定待求点的空间维度估计数据,时间维度估计模块13根据待求点的贡献权重确定待求点的时间维度估计数据,数据融合模块15再融合空间维度估计数据和时间维度估计数据得到待求点的数据,因此能够提高插值精度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种修补时空序列数据中的缺失数据的方法,其特征在于,包括:
分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重;
根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;
根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;
根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
2.根据权利要求1所述的方法,其特征在于,利用如下式1来确定空间周边点对所述待求点的贡献权重,
式1,
其中,wi为各空间周边点对所述待求点的贡献权重;
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差;
bi为第i个空间周边点与所述待求点的期望比;
C(yi,y0)为第i个空间周边点与所述待求点的协方差;
1≤i≤n,1≤i'≤n,n为空间周边点的个数。
3.根据权利要求2所述的方法,其特征在于,根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 = Σ i = 1 n w i y i 式2。
4.根据权利要求1所述的方法,其特征在于,利用如下式3来确定时间周边点对所述待求点的贡献权重,
式3,
其中,为各时间周边点对所述待求点的贡献权重;
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比;
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
5.根据权利要求4所述的方法,其特征在于,根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
式4。
6.根据权利要求1所述的方法,根据所述空间维度估计数据和所述时间维度估计数据,利用如下式5来算出所述待求点的数据Y0,其中A表示空间维度权重,B表示时间维度权重,y0表示空间维度估计数据,表示所述时间维度估计数据,
Y 0 = A y 0 + B t ^ 0 式5,
所述空间维度权重为所述时间维度权重为
7.根据权利要求1至6中任一项所述的方法,其特征在于,在分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重之前,还包括:
将所述时空序列数据按特定的格式进行排列,以检测数据缺失的缺失点;
在检测到多个所述缺失点的情况下,采用反比例加权插值法确定各所述缺失点的预估初始数据,以能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
8.根据权利要求7所述的方法,其特征在于,所述特定的格式为二维数组,并且所述二维数组中第u行第v列的数据表示第v个空间点在第u个时点的数据。
9.根据权利要求1的方法,其特征在于,在分别确定空间周边点以及时间周边点对数据缺失的待求点的贡献权重之前,还包括:
根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
10.根据权利要求9的方法,其特征在于,根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点,包括:
在所述时空序列数据的空间点的总个数小于预定的阈值的情况下,增设至少一个虚拟空间点并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
11.一种修补时空序列数据中的缺失数据的装置,其特征在于,包括:
空间维度估计模块,用于确定空间周边点对数据缺失的待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个空间周边点,算出所述待求点的空间维度估计数据;
时间维度估计模块,用于确定时间周边点对所述待求点的贡献权重,根据对所述待求点的贡献权重从大到小排序靠前的多个时间周边点,算出所述待求点的时间维度估计数据;
数据融合模块,用于根据所述空间维度估计数据和所述时间维度估计数据,算出所述待求点的数据。
12.根据权利要求11所述的装置,其特征在于,所述空间维度估计模块利用如下式1来确定空间周边点对所述待求点的贡献权重,
式1,
其中,wi为各空间周边点对所述待求点的贡献权重;
μ为拉格朗日系数;
C(yi,yi')为第i个空间周边点与第i'个空间周边点的协方差;
bi为第i个空间周边点与所述待求点的期望比;
C(yi,y0)为第i个空间周边点与所述待求点的协方差;
1≤i≤n,1≤i'≤n,n为空间周边点的个数。
13.根据权利要求12所述的装置,其特征在于,所述空间维度估计模块还用于根据对所述待求点的贡献权重从大到小排序靠前的n个空间周边点,利用如下式2来算出所述待求点的空间维度估计数据y0,其中yi表示对所述待求点的贡献权重从大到小排序靠前的第i个空间周边点的数据,wi表示第i个空间周边点对所述待求点的贡献权重,
y 0 = Σ i = 1 n w i y i 式2。
14.根据权利要求11所述的装置,其特征在于,所述时间维度估计模块利用如下式3来确定时间周边点对所述待求点的贡献权重,
式3,
其中,为各时间周边点对所述待求点的贡献权重;
h为拉格朗日系数;
C(tj,tj')为第j个时间周边点与第j'个时间周边点的协方差;
aj为第j个时间周边点与所述待求点的期望比;
C(tj,t0)表示第j个时间周边点与所述待求点的协方差;
1≤j≤m,1≤j'≤m,m为时间周边点的个数。
15.根据权利要求14所述的装置,其特征在于,所述时间维度估计模块还用于根据对所述待求点的贡献权重从大到小排序靠前的m个时间周边点,利用如下式4来算出所述待求点的时间维度估计数据其中tj表示对所述待求点的贡献权重从大到小排序靠前的第j个时间周边点的数据,表示第j个时间周边点对所述待求点的贡献权重,
式4。
16.根据权利要求11所述的装置,其特征在于,所述数据融合模块根据所述空间维度估计数据和所述时间维度估计数据,利用如下式5来算出所述待求点的数据Y0,其中A表示空间维度权重,B表示时间维度权重,y0表示空间维度估计数据,表示所述时间维度估计数据,
Y 0 = A y 0 + B t ^ 0 式5,
所述空间维度权重为所述时间维度权重为
17.根据权利要求10至16中任一项所述的装置,其特征在于,还包括:
排列模块,用于将所述时空序列数据按特定的格式进行排列;
缺失检测模块,与所述排列模块连接,用于检测按所述特定的格式排列的所述时空序列数据中数据缺失的缺失点;
预估模块,与所述缺失检测模块连接,用于在所述缺失检测模块检测到多个所述缺失点的情况下,采用反比例加权插值法确定各所述缺失点的预估初始数据,以使得所述空间维度估计模块和所述时间维度估计模块能够通过将除所述待求点之外的其它所述缺失点的数据假定为所述预估初始数据,来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
18.根据权利要求17所述的装置,其特征在于,所述特定的格式为二维数组,并且所述二维数组中第u行第v列的数据表示第v个空间点在第u个时点的数据。
19.根据权利要求11所述的装置,其特征在于,还包括:
数据选取模块,用于根据所述时空序列数据的时空分布情况,确定与所述待求点相关的空间点以及与所述待求点相关的时点,以能够基于与所述待求点相关的空间点以及与所述待求点相关的时点来分别确定空间周边点以及时间周边点对所述待求点的贡献权重。
20.根据权利要求19所述的装置,其特征在于,所述数据选取模块还用于在所述时空序列数据的空间点的总个数小于预定的阈值的情况下,增设至少一个虚拟空间点并基于所述时间序列数据确定各所述虚拟空间点的数据,将所述时空序列数据的空间点以及所述虚拟空间点确定为与所述待求点相关的空间点。
CN201410659700.1A 2014-11-18 2014-11-18 修补时空序列数据中的缺失数据的方法及装置 Pending CN105678046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410659700.1A CN105678046A (zh) 2014-11-18 2014-11-18 修补时空序列数据中的缺失数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410659700.1A CN105678046A (zh) 2014-11-18 2014-11-18 修补时空序列数据中的缺失数据的方法及装置

Publications (1)

Publication Number Publication Date
CN105678046A true CN105678046A (zh) 2016-06-15

Family

ID=56944719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410659700.1A Pending CN105678046A (zh) 2014-11-18 2014-11-18 修补时空序列数据中的缺失数据的方法及装置

Country Status (1)

Country Link
CN (1) CN105678046A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231588A (zh) * 2016-07-16 2016-12-14 北京联合大学 一种移动网络小区标识信息补正方法
CN106649832A (zh) * 2016-12-29 2017-05-10 北京奇艺世纪科技有限公司 一种基于缺失数据的预估方法及装置
CN107423513A (zh) * 2017-07-28 2017-12-01 中国地质大学(武汉) 一种四维插值数据处理的方法、设备及其存储设备
CN108363789A (zh) * 2018-02-12 2018-08-03 广东电网有限责任公司电力科学研究院 一种工商业用户用电表码数据短期缺失修补方法及装置
CN109325879A (zh) * 2018-09-14 2019-02-12 武汉大学 推求水电站中长期调度的变化综合出力系数的时空聚合方法
CN109710659A (zh) * 2018-12-16 2019-05-03 苏州城方信息技术有限公司 基于时空相关性的检测器缺失数据的填补方法
CN110657798A (zh) * 2019-09-11 2020-01-07 广州海洋地质调查局 一种地磁日变数据补缺方法及处理终端
CN110781223A (zh) * 2019-10-16 2020-02-11 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN111060069A (zh) * 2019-12-24 2020-04-24 河南理工大学 一种构筑物缺失监测点的沉降量获取方法和装置
CN111121711A (zh) * 2019-12-24 2020-05-08 河南理工大学 采动影响区内缺失监测点移动变形量的获取方法和装置
CN112382090A (zh) * 2020-11-11 2021-02-19 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112836180A (zh) * 2021-04-19 2021-05-25 北京瑞莱智慧科技有限公司 传感数据确定方法、装置、电子设备及可读存储介质
CN113495913A (zh) * 2021-09-07 2021-10-12 中国科学院地理科学与资源研究所 一种空气质量数据缺失值插补方法及装置
CN116701371A (zh) * 2023-06-09 2023-09-05 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN117591920A (zh) * 2024-01-17 2024-02-23 北京科百宏业科技有限公司 历史数据的补充方法、装置、电子设备和可读存储介质

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231588B (zh) * 2016-07-16 2019-02-15 北京联合大学 一种移动网络小区标识信息补正方法
CN106231588A (zh) * 2016-07-16 2016-12-14 北京联合大学 一种移动网络小区标识信息补正方法
CN106649832B (zh) * 2016-12-29 2020-04-17 北京奇艺世纪科技有限公司 一种基于缺失数据的预估方法及装置
CN106649832A (zh) * 2016-12-29 2017-05-10 北京奇艺世纪科技有限公司 一种基于缺失数据的预估方法及装置
CN107423513A (zh) * 2017-07-28 2017-12-01 中国地质大学(武汉) 一种四维插值数据处理的方法、设备及其存储设备
CN107423513B (zh) * 2017-07-28 2019-08-20 中国地质大学(武汉) 一种四维插值数据处理的方法、设备及其存储设备
CN108363789A (zh) * 2018-02-12 2018-08-03 广东电网有限责任公司电力科学研究院 一种工商业用户用电表码数据短期缺失修补方法及装置
CN108363789B (zh) * 2018-02-12 2021-09-17 广东电网有限责任公司电力科学研究院 一种工商业用户用电表码数据短期缺失修补方法及装置
CN109325879A (zh) * 2018-09-14 2019-02-12 武汉大学 推求水电站中长期调度的变化综合出力系数的时空聚合方法
CN109325879B (zh) * 2018-09-14 2022-04-12 武汉大学 推求水电站中长期调度的变化综合出力系数的时空聚合方法
CN109710659A (zh) * 2018-12-16 2019-05-03 苏州城方信息技术有限公司 基于时空相关性的检测器缺失数据的填补方法
CN109710659B (zh) * 2018-12-16 2022-11-25 苏州城方信息技术有限公司 基于时空相关性的检测器缺失数据的填补方法
CN110657798A (zh) * 2019-09-11 2020-01-07 广州海洋地质调查局 一种地磁日变数据补缺方法及处理终端
CN110781223A (zh) * 2019-10-16 2020-02-11 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN111121711A (zh) * 2019-12-24 2020-05-08 河南理工大学 采动影响区内缺失监测点移动变形量的获取方法和装置
CN111121711B (zh) * 2019-12-24 2022-01-18 河南理工大学 采动影响区内缺失监测点移动变形量的获取方法和装置
CN111060069A (zh) * 2019-12-24 2020-04-24 河南理工大学 一种构筑物缺失监测点的沉降量获取方法和装置
CN112382090A (zh) * 2020-11-11 2021-02-19 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112836180A (zh) * 2021-04-19 2021-05-25 北京瑞莱智慧科技有限公司 传感数据确定方法、装置、电子设备及可读存储介质
CN113495913A (zh) * 2021-09-07 2021-10-12 中国科学院地理科学与资源研究所 一种空气质量数据缺失值插补方法及装置
CN113495913B (zh) * 2021-09-07 2021-12-21 中国科学院地理科学与资源研究所 一种空气质量数据缺失值插补方法及装置
CN116701371A (zh) * 2023-06-09 2023-09-05 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN116701371B (zh) * 2023-06-09 2024-03-22 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置
CN117591920A (zh) * 2024-01-17 2024-02-23 北京科百宏业科技有限公司 历史数据的补充方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN105678046A (zh) 修补时空序列数据中的缺失数据的方法及装置
ElNozahy et al. A probabilistic load modelling approach using clustering algorithms
CN104064023B (zh) 一种基于时空关联的动态交通流预测方法
CN103729550B (zh) 基于传播时间聚类分析的多模型集成洪水预报方法
CN102025531A (zh) 一种性能数据的填补方法及其装置
CN102393881B (zh) 一种实时多传感温度数据融合的高精度检测方法
CN103955542B (zh) 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
CN111814626B (zh) 一种基于自注意力机制的动态手势识别方法和系统
Yang et al. Multi-objective short-term hydropower generation operation for cascade reservoirs and stochastic decision making under multiple uncertainties
CN102855634A (zh) 一种图像检测方法及装置
CN106682763A (zh) 一种用于大量样本数据的电力负荷优化预测方法
CN105096159A (zh) 一种区域售电量预测方法及装置
CN106709816A (zh) 基于非参数回归分析的电力负荷异常数据识别与修正方法
CN105825063A (zh) 一种测试性设计中测试点定量选择方法
CN103530819A (zh) 并网型光伏电站发电系统的输出功率的测定方法及设备
CN104504583A (zh) 分类器的评价方法
CN103353895A (zh) 一种配电网线损数据的预处理方法
CN111311026A (zh) 一种顾及数据特征、模型和校正的径流非线性预测方法
CN105024645A (zh) 一种基于矩阵进化的光伏阵列故障定位方法
Yang et al. Robust fuzzy varying coefficient regression analysis with crisp inputs and Gaussian fuzzy output
CN110543615A (zh) 基于spss解释结构模型的风险因子交互作用分析方法
CN101908087A (zh) 基于gpu的集成电路电源地线网络的并行仿真方法
CN104111887A (zh) 基于Logistic模型的软件故障预测系统及方法
CN101957941A (zh) 基于时间趋势的融合显著性和敏感性来识别凸现问题的方法
CN104239689B (zh) 基于优化相关向量机的短期风速预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615