CN107247861A - 用于估计时空数据的设备和方法 - Google Patents
用于估计时空数据的设备和方法 Download PDFInfo
- Publication number
- CN107247861A CN107247861A CN201610187158.3A CN201610187158A CN107247861A CN 107247861 A CN107247861 A CN 107247861A CN 201610187158 A CN201610187158 A CN 201610187158A CN 107247861 A CN107247861 A CN 107247861A
- Authority
- CN
- China
- Prior art keywords
- space
- rank
- time
- data
- time data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种用于估计时空数据的设备,包括:预处理单元,被配置为将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;概率计算单元,被配置为基于划分级别后的数据来计算各个级别之间的时空变化概率;以及估计单元,被配置为基于所述均值和所述时空变化概率来估计时空数据。本发明还提供了一种用于估计时空数据的方法。通过本发明,能够实现污染原因追溯和估计等时空问题的准确度的提高。
Description
技术领域
本申请涉及数据分析领域,具体涉及一种用于估计时空数据的设备和方法。
背景技术
大气等污染受扩散条件、地理环境等因素影响,其成因复杂多样。然而,基于移动监测设备的数据采集无法覆盖所有的时间空间。因此,如何对缺失记录进行补全并使之用于更准确的污染浓度预测和原因追溯,成为了一个主要问题。
现有的时空数据插值方法基于不同数学模型,并且通常结合时序列分析方法和空间插值算法。例如,参考文献1(CN104680021A)提出了一种融合时空信息的气温缺失记录重建(即插值)方法,该方法在数据建模中考虑了气温的时空分布特性。其主要步骤包括:
-对气温时序列数据进行预处理,缺失值采用特定的符号表示;
-计算未缺失气温记录的残差,并采用克里金(Kriging)方法进行空间插值,估计缺失记录的残差项;
-对气温时间序列进行时序列插值,以估计缺失记录的气温趋势项;
-综合缺失记录的气温残差项和气温趋势项,实现缺失气温记录的重建。
然而,上述方案的计算负荷较大。同时,当缺失数据在时空上呈散在特性(即时间上非连续,空间上不相邻)的数据较多时,上述方案的计算准确度较低。
发明内容
本发明提出了一种基于时空动态性特征分析来估计缺失数据的方法。时空动态性是指,例如某个观测点的监测值的变化与它周围点(空间上)在临近时刻(时间上)监测值的变化之间的关联性。本发明的主要思想在于:通过计算在时间和空间邻域互相影响的条件下,数据监测点间的监测值的变化概率来估算缺失数据。
具体地,根据本发明的一个方面,提供了一种用于估计时空数据的设备,包括:预处理单元,被配置为将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;概率计算单元,被配置为基于划分级别后的数据来计算各个级别之间的时空变化概率;以及估计单元,被配置为基于所述均值和所述时空变化概率来估计时空数据。
在一个实施例中,预处理单元被配置为:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。
在一个实施例中,概率计算单元被配置为:计算时空数据的空间权重矩阵;基于所述空间权重矩阵,计算空间延迟算子;以及基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
在一个实施例中,概率计算单元基于空间点的邻接关系或距离来计算所述空间权重矩阵。
在一个实施例中,概率计算单元通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
根据本发明的另一个方面,提供了一种用于估计时空数据的方法,包括:将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;基于划分级别后的数据来计算各个级别之间的时空变化概率;以及基于所述均值和所述时空变化概率来估计时空数据。
在一个实施例中,将时空数据进行排序并划分为若干级别包括:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。
在一个实施例中,计算各个级别之间的时空变化概率包括:计算时空数据的空间权重矩阵;基于所述空间权重矩阵,计算空间延迟算子;以及基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
在一个实施例中,基于空间点的邻接关系或距离来计算所述空间权重矩阵。
在一个实施例中,通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
本发明考虑到时空数据之间的时空变化的关联性,即使当缺失记录在时空上呈散在特性(即时间上非连续,空间上不相邻)的缺失数据较多时,也能保证估算值的准确度。此外,本发明的技术方案的计算复杂度较低,更易于实现。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1是示出了根据本发明一个实施例的用于估计时空数据的设备的框图。
图2-6是示出了根据本发明一个实施例的时空数据的估计示例的示意图。
图7是示出了根据本发明一个实施例的用于估计时空数据的方法的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
图1是示出了根据本发明一个实施例的用于对时空序列数据进行分类/预测的设备10的框图。如图1所示,设备10包括预处理单元110、概率计算单元120和估计单元130。
预处理单元110将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值。在本申请中,时空数据是指同时具有时间和空间维度的数据,例如大气污染监测数据,交通流量数据等。
下面,结合图2-4来描述预处理单元110的一个示例操作。在此示例中,预处理单元110计算图2左半部分的所有时空数据的平均值,结果是100.1。然后,预处理单元110将各个时空数据除以所述平均值,以获得标准化的时空数据,如图2右半部分所示。
之后,预处理单元110对标准化的时空数据进行排序并划分为若干级别。优选地,预处理单元110对标准化的数据进行分位处理,使得每个分位(下文也称为“级别”)的数据量相同,以保证概率计算的准确性(下文详述)。例如,预处理单元110可以把数据进行五分位(即,把所有数据值由小到大排列,并分成五等份,处于四个分割点位置的数值就是五分位数),如图3所示。
进一步地,预处理单元110计算各分位(级别)的均值,即落在不同分位(级别)间所有数据实际值的均值,如图4所示。
回到图1,概率计算单元120基于划分级别后的数据来计算各个级别之间的时空变化概率。在一个实施例中,概率计算单元120的具体操作如下。
首先,概率计算单元120计算时空数据的空间权重矩阵W。该空间权重矩阵W可以表示如下:
其中,空间权重ω可以基于邻接关系或者距离来计算。
然后,概率计算单元120基于空间权重矩阵W计算空间延迟算子()。空间延迟算子表示空间点(Zi)的变量值受邻近点(Zj)的变量值的影响,其计算公式如下:
接下来,概率计算单元120基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。作为示例,概率计算单元120构建马尔可夫链,得到当目标点的空间邻接点处于不同级别时该目标点的级别变化的概率。
其中,
表示空间邻接点处于k级别时,目标点的级别的变化概率,其计算方式如下:
其中,
表示在整个期间内,所有与观测值为级别k的空间点为邻的空间点中,某时刻观测值属于级别i的空间点在下一时刻转移为级别j的空间点数量点之和,
表示所有时刻中观测值属于级别i且有与观测值为级别k的空间点为邻的空间点数量之和。
作为示例,图5示出了监测点的PM2.5浓度监测数据之间的时空变化概率的计算结果。
回到图1,估计单元130基于之前计算得到的均值和时空变化概率来估计(缺失的)时空数据。该估计结果取决于空间邻接点的级别状态及其所对应的变化概率。假设待估算的缺失值为Uvalue,I为待估算点前一临近时刻的级别,估计单元130可以采用以下公式来进行估计:
其中,
表示邻接监测点的级别为m时的个数;
表示邻接监测点的级别为m时,目标监测点从级别l到j的变化概率;
Xj 表示j分位(级别)上的所有数据的实际值的均值。
图6示出了估计缺失值的一个示意图。如图6所示,目标点U的前一临近时刻(t-1)的级别为I=4,与其空间一阶相邻的观测点的级别分别为5,4,4,3。从图5的计算结果中,可以查找到相应的概率如下:
那么,估计单元130可以根据以上公式(4),将该点在t时刻的缺失值UvaluB估计为:
Uvalue=[(0.03*23十0.09*65十0.25*109十0.51*168十0.13*302)*1
+(0.03*23+0.07*65+0.22*109+0.54*168+0.15*302)*2
+(0.04*23+0.09*65+0.16*109+0.45*168+0.26*302)*1]/4≈167
本发明的实施例通过考虑时空数据之间的时空变化的关联性,能够在时间上非连续、空间上不相邻的缺失值较多时保证估算值的准确度。此外,本发明的实施例的计算复杂度较低,易于实现。
图7是示出了根据本发明一个实施例的用于估计时空数据的方法的流程图。如图7所示,方法700在步骤S710处开始。
在步骤S720,将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值。在本申请中,时空数据是指同时具有时间和空间维度的数据,例如大气污染监测数据,交通流量数据等。
优选地,将时空数据进行排序并划分为若干级别可以通过以下方式来实现:计算所有时空数据的平均值;将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。
在步骤S730,基于划分级别后的数据来计算各个级别之间的时空变化概率。优选地,计算时空数据的空间权重矩阵。基于所述空间权重矩阵,计算空间延迟算子。基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
优选地,空间权重矩阵可以基于空间点的邻接关系或距离来计算。优选地,通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。例如,可以根据上述公式(1)-(3)来计算,此处不再赘言。
回到图7,在步骤S1340,基于所述均值和所述时空变化概率来估计时空数据。例如,可以根据上述公式(4)来估计时空数据,此处不再赘言。
最后,方法700在步骤S750处结束。
应该理解,本发明的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,上述实施例中的系统内的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路、数字电路、通用处理器、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD),等等。
另外,本领域的技术人员可以理解,本发明实施例中描述的初始参数可以存储在本地数据库中,也可以存储在分布式数据库中或者可以存储在远程数据库中。
此外,这里所公开的本发明的实施例可以在计算机程序产品上实现。更具体地,该计算机程序产品是如下的一种产品:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作以实现本发明的上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (10)
1.一种用于估计时空数据的设备,包括:
预处理单元,被配置为将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;
概率计算单元,被配置为基于划分级别后的数据来计算各个级别之间的时空变化概率;以及
估计单元,被配置为基于所述均值和所述时空变化概率来估计时空数据。
2.根据权利要求1所述的设备,其中,所述预处理单元被配置为:
计算所有时空数据的平均值;
将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。
3.根据权利要求1所述的设备,其中,所述概率计算单元被配置为:
计算时空数据的空间权重矩阵;
基于所述空间权重矩阵,计算空间延迟算子;以及
基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
4.根据权利要求3所述的设备,其中,所述概率计算单元被配置为:基于空间点的邻接关系或距离来计算所述空间权重矩阵。
5.根据权利要求3所述的设备,其中,所述概率计算单元被配置为:通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
6.一种用于估计时空数据的方法,包括:
将时空数据进行排序并划分为若干级别,计算各个级别中每一个级别上的数据的均值;
基于划分级别后的数据来计算各个级别之间的时空变化概率;以及基于所述均值和所述时空变化概率来估计时空数据。
7.根据权利要求6所述的方法,其中,将时空数据进行排序并划分为若干级别包括:
计算所有时空数据的平均值;
将各个时空数据除以所述平均值,以获得标准化的时空数据;以及对标准化的时空数据进行排序并划分为若干级别,使得各个级别的数据的数量基本相同。
8.根据权利要求6所述的方法,其中,计算各个级别之间的时空变化概率包括:
计算时空数据的空间权重矩阵;
基于所述空间权重矩阵,计算空间延迟算子;以及
基于空间延迟算子,计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
9.根据权利要求8所述的方法,其中,基于空间点的邻接关系或距离来计算所述空间权重矩阵。
10.根据权利要求8所述的方法,其中,通过使用马尔可夫链来计算当目标点的空间邻接点处于不同级别状态时该目标点的级别变化概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610187158.3A CN107247861B (zh) | 2016-03-29 | 2016-03-29 | 用于估计时空数据的设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610187158.3A CN107247861B (zh) | 2016-03-29 | 2016-03-29 | 用于估计时空数据的设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107247861A true CN107247861A (zh) | 2017-10-13 |
CN107247861B CN107247861B (zh) | 2023-10-10 |
Family
ID=60016111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610187158.3A Active CN107247861B (zh) | 2016-03-29 | 2016-03-29 | 用于估计时空数据的设备和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247861B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509173A (zh) * | 2011-10-28 | 2012-06-20 | 山东电力集团公司青岛供电公司 | 一种基于马尔科夫链的电力系统负荷准确预测方法 |
US20130095459A1 (en) * | 2006-05-12 | 2013-04-18 | Bao Tran | Health monitoring system |
CN104091047A (zh) * | 2014-06-18 | 2014-10-08 | 清华大学深圳研究生院 | 基于交通时空信息的交通流缺失数据估算系统及方法 |
CN104731795A (zh) * | 2013-12-19 | 2015-06-24 | 日本电气株式会社 | 用于挖掘个体活动模式的设备和方法 |
US20160050030A1 (en) * | 2012-11-29 | 2016-02-18 | The Board Of Trustees Of The University Of Illinois | System and method for communication with time distortion |
WO2016026681A1 (en) * | 2014-08-20 | 2016-02-25 | Cassantec Ag | Configuration of malfunction prediction for components and units of technical entities |
-
2016
- 2016-03-29 CN CN201610187158.3A patent/CN107247861B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130095459A1 (en) * | 2006-05-12 | 2013-04-18 | Bao Tran | Health monitoring system |
CN102509173A (zh) * | 2011-10-28 | 2012-06-20 | 山东电力集团公司青岛供电公司 | 一种基于马尔科夫链的电力系统负荷准确预测方法 |
US20160050030A1 (en) * | 2012-11-29 | 2016-02-18 | The Board Of Trustees Of The University Of Illinois | System and method for communication with time distortion |
CN104731795A (zh) * | 2013-12-19 | 2015-06-24 | 日本电气株式会社 | 用于挖掘个体活动模式的设备和方法 |
CN104091047A (zh) * | 2014-06-18 | 2014-10-08 | 清华大学深圳研究生院 | 基于交通时空信息的交通流缺失数据估算系统及方法 |
WO2016026681A1 (en) * | 2014-08-20 | 2016-02-25 | Cassantec Ag | Configuration of malfunction prediction for components and units of technical entities |
Non-Patent Citations (7)
Title |
---|
PU YING XIA等: "SPATIAL-TEMPORAL DYNAMICS OF REGIONAL CONVERGENCE AT COUNTY LEVEL IN JIANGSU", 《CHINESE GEOGRAPHICAL SCIENCE》 * |
PU YING XIA等: "SPATIAL-TEMPORAL DYNAMICS OF REGIONAL CONVERGENCE AT COUNTY LEVEL IN JIANGSU", 《CHINESE GEOGRAPHICAL SCIENCE》, vol. 15, no. 2, 17 March 2012 (2012-03-17), pages 113 - 119 * |
WEI SUN等: "Prediction of 24-hour-average PM2.5 concentrations using a hidden markov model with different emission distributions in Northern California", 《SCIENCE OF THE TOTAL ENVIRONMENT》, pages 93 - 103 * |
程进: "长三角城市群大气污染格局的时空演变特征", 《城市问题》 * |
程进: "长三角城市群大气污染格局的时空演变特征", 《城市问题》, no. 01, 27 January 2016 (2016-01-27), pages 23 - 27 * |
钟润: "加权马尔可夫链在空气污染指标预测汇总的应用", 《大庆师范学院学报》 * |
钟润: "加权马尔可夫链在空气污染指标预测汇总的应用", 《大庆师范学院学报》, vol. 32, no. 3, 31 May 2012 (2012-05-31), pages 53 - 57 * |
Also Published As
Publication number | Publication date |
---|---|
CN107247861B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415516B (zh) | 基于图卷积神经网络的城市交通流预测方法及介质 | |
Alawieh et al. | High-definition routing congestion prediction for large-scale FPGAs | |
CN104462808B (zh) | 安全水平位移与水位的滑动可变窗口动态数据拟合方法 | |
CN111079977A (zh) | 基于svd算法的异构联邦学习矿井电磁辐射趋势跟踪方法 | |
CN110533239B (zh) | 一种智慧城市空气品质高精度测量方法 | |
CN111275962A (zh) | 车辆轨迹数据聚集效应预测方法及装置 | |
CN106204597A (zh) | 一种基于自步式弱监督学习的视频物体分割方法 | |
CN114462723B (zh) | 基于高空风资源影响的云层迁移分钟级光伏功率预测方法 | |
CN115730738A (zh) | 工艺参数确定方法、装置、计算机设备和存储介质 | |
KR102124315B1 (ko) | 유가스 저류층에서 인공신경망을 이용한 복수의시추정 위치 최적화 방법 | |
CN116561563B (zh) | 一种基于残差预测模型的边坡位移预测方法及相关装置 | |
CN111080080B (zh) | 一种村镇地质灾害风险预估方法及系统 | |
CN107247861A (zh) | 用于估计时空数据的设备和方法 | |
KR102391607B1 (ko) | 폭염 중기예보 시스템 및 그 방법 | |
CN112712855A (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN115618714B (zh) | 一种太阳辐射概率预报方法及相关设备 | |
CN117093830A (zh) | 一种考虑局部与全局的用户负荷数据修复方法 | |
CN116663395A (zh) | 基于参数优化的支持向量机回归的降雨量等值面生成方法 | |
CN115239013A (zh) | 面向冲积河道的崩岸等级预测方法及系统 | |
CN113255593B (zh) | 面向时空解析模型的传感器信息异常检测方法 | |
CN114722704A (zh) | 车轮磨损预测网络模型训练方法、装置 | |
CN114429246A (zh) | 一种基于异构神经网络的电网潜在安全确定方法及装置 | |
CN111104298A (zh) | 一种基于lstm的电网服务器运行状态预测装置 | |
CN115412852A (zh) | 移动终端的运动轨迹确定方法及系统 | |
KR102491128B1 (ko) | 인공지능 기반의 고장 판단 모델의 생성을 통해 수도미터기에 대한 고장 여부를 판단할 수 있도록 지원하는 전자 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |