CN107329993A - 一种基于Geoword的多元电力时序数据索引方法 - Google Patents

一种基于Geoword的多元电力时序数据索引方法 Download PDF

Info

Publication number
CN107329993A
CN107329993A CN201710423572.4A CN201710423572A CN107329993A CN 107329993 A CN107329993 A CN 107329993A CN 201710423572 A CN201710423572 A CN 201710423572A CN 107329993 A CN107329993 A CN 107329993A
Authority
CN
China
Prior art keywords
time series
electric power
series data
power time
polynary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710423572.4A
Other languages
English (en)
Inventor
周向东
王飞
庞悦
苏运
郭乃网
田英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Original Assignee
Fudan University
State Grid Shanghai Electric Power Co Ltd
East China Power Test and Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, State Grid Shanghai Electric Power Co Ltd, East China Power Test and Research Institute Co Ltd filed Critical Fudan University
Priority to CN201710423572.4A priority Critical patent/CN107329993A/zh
Publication of CN107329993A publication Critical patent/CN107329993A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种基于Geoword的多元电力时序数据索引方法,包括以下步骤:1)获取原始多元电力时序数据,并对其进行降维;2)对降维后的多元电力时序数据进行Geoword编码,获得多元电力时序数据的MTSAX表达;3)根据MTSAX表达构建多元电力时序的MTSAX数据索引。与现有技术相比,本发明具有动态划分、精度可指定、节点不重叠等优点。

Description

一种基于Geoword的多元电力时序数据索引方法
技术领域
本发明涉及电力数据处理领域,尤其是涉及一种基于Geoword的多元电力时 序数据索引方法。
背景技术
用户用电负荷数据是一种海量时间序列数据,具有用户规模大,数据采集密 度高,与大量经济社会数据关联密切的特点。时间序列数据索引技术对减少数据查 询与检索的时间代价,提升时间序列的挖掘效率(如分类、聚类、异常点监测、模 式发现等等)至关重要。时间序列是按时间顺序排列的数据系列,根据时间序列包 含的变量数量可以分为一元时间序列和多元时间序列。用户用电负荷数据包含日用 电量、电压、电流等多原信息,因而用户用电负荷数据是一种多元时间序列数据。
面向相似查询的时间序列索引方法有基于空间划分的时间序列索引,基于特 征压缩的多元时间序列索引和基于度量空间的多元时间序列索引等。
基于空间划分的时间序列索引,通常采用划分单元格的方式对原始空间进行 编码,借助空间编码建立索引。Bakalov等提出时间序列索引方法TRSTJ,首先使 用PAA方法对时间序列降维,然后将降维后的多元时间序列空间切分成相同大小 的单元格,并为每个单元格分配一个符号,最终一条时间序列被表示成一个字符串。
基于特征压缩的多元时间序列索引,提取时间序列的特征并编码,借助特征 编码建立索引。李正欣等提出一种多元时间序列索引方法,该方法将多元时间序列 以多变量求和的方式转化为一元时间序列,使用PAA方法把一元时间序列变成N 维向量,最后使用R树来索引该N维向量。
基于度量空间的时间序列索引,先选择若干参考点,定义某种距离,再计算 所有时间序列相对于参考点的距离,最后在查询时通过这些参考点过滤掉不符合要 求的时间序列。Kanishka等提出一种基于参考点距离的方法建立了多元时间序列索 引LBS,在飞行数据集上进行相似性查询。
当前基于空间划分的方法保留了多元时间序列的大致信息,但基本上都是固 定划分空间,对于索引而言,数据分布可能并不均匀,这样会导致查询效率降低。 基于特征压缩的索引通过降维找到相似时间序列,但是通常无法保留原始多元时间 序列信息。基于度量空间的索引运用三角不等式等下界过滤技术提高查询效率,但 该类索引仍难以克服高维数据索引面临的“维灾问题”。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种动态划分、精度可指定、节点不重叠基于Geoword的多元电力时序数据索引方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Geoword的多元电力时序数据索引方法,包括以下步骤:
1)获取原始多元电力时序数据,并对其进行降维;
2)对降维后的多元电力时序数据进行Geoword编码,获得多元电力时序数据 的MTSAX表达;
3)根据MTSAX表达构建多元电力时序的MTSAX数据索引。
所述的步骤1)中,采用PAA模型将原始多元电力时序数据 T0={(p11,...,p1m),...,(pi1,...,pij,...,pim),...,(pn1,...,pnm)}进行降维获得降维后的多元电力时序数据,其中, pij为第i个原始多元电力时序数据观察点的第j个变量,n为观察点总数,m为观察点数据的维数。
降维后的多元电力时序数据为原始多元电力时序数据子段的均值。
所述的步骤2)具体包括以下步骤:
21)将多元电力时序的第一、第二变量和第三变量分别看做是多维空间中的经度、纬度变量和速度变量。设置多元空间变量的数量和分割点;
22)判断当前多元电力时序数据处于分割点的哪一方;
23)根据判断结果对该多元电力时序数据进行赋值,获取其对应的Geoword 编码;
24)重复步骤22)-23),获取所有多元电力时序数据的Geoword编码,形成 多元电力时序数据的MTSAX表达。
所述的步骤3)中,MTSAX数据索引为多叉树和二叉树混合的树状结构,第 一层为多叉树,从第二层开始进行二分裂,以第一层节点为根节点的子树为二叉树。
与现有技术相比,本发明具有以下优点:
本发明提出基于Geoword的多元电力时序数据索引方法。该方法对单个多元 轨迹点设计了一种基于Geohash的新编码GeoWord,在iSAX索引框架的基础上, 设计了移动对象历史轨迹索引方法MTSAX。索引不仅节点之间没有重叠,还可以 根据数据量的大小对空间动态划分,并保留了指定精度下的轨迹信息。实验表明, 在相同基数下,MTSAX搜索性能均优于已知的基准索引方法,在海量数据下 MTSAX对近似查询可以快速响应。
附图说明
图1为本发明的GeoWord编码示意图,其中,图(1a)为初始切分示意图, 图(1b)为对经度切分示意图,图(1c)为对维度切分示意图,图(1d)为对速度 切分示意图。
图2为本发明的MTSAX索引架构。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,GeoWord编码算法包括以下步骤:
1)输入:第i个轨迹点及其对应的离散化基数 {ai1,...,aij,...,aim}。aij的离散化基数。
2)输出:第i个轨迹点GeoWord编码
3)gi=null//保存GeoWord编码
4)for j from 1 to m//对m个变量依次编码
5)获取基数aij对应的所有分割点cuts[]
6)选择cuts中与最近的分割点cut
7)判断属于分割点cut两侧的哪一方,赋予其对应的其离散化编码cj
8)gi添加//保存第j个变量的离散化编码和基数
9)end for
10)return gi//第i个轨迹点GeoWord编码
如图2所示,图中轨迹被分为3段,各变量初始基数均为2。当某一索引节 点包含的轨迹数量超过指定阈值,该节点分裂为两个新的索引节点,原先的索 引节点作为中间节点,图中的节点{121202,021212,120202}分裂产生 {121202,022412,120202}和{121202,023412,120202}两个新的叶子节点。
本发明具体包括以下步骤:
1、多元空间点表示GeoWord编码,步骤包括:
1)G用来记录GeoWord表示,初始设置为null
2)循环变量j设置为多元空间变量的数量m
3)获取第i个变量对应的所有分割点cuts[]
4)选择cuts中与当前值最近的作为分割点
5)当前值属于分割点cut两侧的哪一方,赋予其对应的其离散化编码
6)离散化编码保存到G中
7)循环变量j-1
8)当j<0时停止
2、MTSAX表示的生成过程为:
1)本发明采用PAA模型将原始多元时间序列数据从n维降到w维。
给定多元时间序列
T0={(p11,...,p1m),...,(pi1,...,pij,...,pim),...,(pn1,...,pnm)} (1)
其中,n表示多元时间序列长度,m表示多元时间序列变量的数目,pij表示 第i个多元时间序列观察点的第j个变量,1≤i≤n,1≤j≤m。
使用PAA多元时间序列约减为:
其中,w表示约减后的维度,w<<n,m表示多元时间序列变量的数目,表 示约减后第i个子段的第j个变量,1≤i≤w,1≤j≤m。
每个子段用其均值代替
2)本发明将PAA的表示离散化为符号,这里使用GeoWord算法对单个多元 时间序列观察点编码进行编码,得到:
T2={g1,...,gi,...,gw,}, (4)
其中gi表示(pi1,...,pij,...,pim)经过GeoWord编码得到的表示,1≤i≤w,w个GeoWord{g1,...,gi,...,gw,}组成一个MTSAX表达。通过GeoWord编码可以得到单 个多元时间序列观察点在指定精度下的压缩表示,进而得到整个多元时间序列的压 缩表示;对于压缩表示,可以执行GeoWord的反过程得到单个多元时间序列观察 点在指定精度下的信息,进而得到整条多元时间序列在指定精度下的信息。
3基于MTSAX表示的多元时间序列索引构建,包括以下步骤:
1)对于给定的多元时间序列ts,我们首先通过MTSAX参数获得MTSAX表 达
2)如果当前节点不存在MTSAX表示为G的后继节点,则新建一个MTSAX 表示为G的叶子节点Leaf,Leaf节点直接插入ts,跳转到第一步,继续插入新的 多元时间序列。
3)如果Node为中间节点,则Node递归插入ts,跳转到第一步,继续插入新 的多元时间序列。
4)如果Node为叶子节点,则首先判断是否该叶子节点存放的时间序列是否 已经达到阈值,没有达到分裂阈值,则Node直接插入ts,跳转到第一步,继续插 入新的多元时间序列。
5)如果叶子节点达到分裂阈值,则新建一个MTSAX表示为G的中间节点 NewNode
6)NewNode递归插入多元时间序列ts
7)删除Node节点
8)将NewNode作为当前节点的后继节点,跳转到第一步,继续插入新的多 元时间序列。
MTSAX索引相似查询假设相似的两条轨迹具有相同的MTSAX表示,查询的 结果是与查询轨迹距离最近的轨迹。MTSAX索引是层次且没有重叠的,因而可以 遍历索引树找到对应的索引节点,获取其索引的所有轨迹,分别计算这些轨迹与查 询轨迹之间的距离,返回距离最小的轨迹。

Claims (5)

1.一种基于Geoword的多元电力时序数据索引方法,其特征在于,包括以下步骤:
1)获取原始多元电力时序数据,并对其进行降维;
2)对降维后的多元电力时序数据进行Geoword编码,获得多元电力时序数据的MTSAX表达;
3)根据MTSAX表达构建多元电力时序的MTSAX数据索引。
2.根据权利要求1所述的一种基于Geohash的多元电力时序数据索引构建方法,其特征在于,所述的步骤1)中,采用PAA模型将原始多元电力时序数据T0={(p11,...,p1m),...,(pi1,...,pij,...,pim),...,(pn1,...,pnm)}进行降维获得降维后的多元电力时序数据,其中,pij为第i个原始多元电力时序数据观察点的第j个变量,n为观察点总数,m为观察点数据的维数。
3.根据权利要求2所述的一种基于Geohash的多元电力时序数据索引构建方法,其特征在于,降维后的多元电力时序数据为原始多元电力时序数据子段的均值。
4.根据权利要求1所述的一种基于Geohash的多元电力时序数据索引构建方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)将多元电力时序的第一、第二变量和第三变量分别看做是多维空间中的经度、纬度变量和速度变量。设置多元空间变量的数量和分割点;
22)判断当前多元电力时序数据处于分割点的哪一方;
23)根据判断结果对该多元电力时序数据进行赋值,获取其对应的Geoword编码;
24)重复步骤22)-23),获取所有多元电力时序数据的Geoword编码,形成多元电力时序数据的MTSAX表达。
5.根据权利要求1所述的一种基于Geohash的多元电力时序数据索引构建方法,其特征在于,所述的步骤3)中,MTSAX数据索引为多叉树和二叉树混合的树状结构,第一层为多叉树,从第二层开始进行二分裂,以第一层节点为根节点的子树为二叉树。
CN201710423572.4A 2017-06-07 2017-06-07 一种基于Geoword的多元电力时序数据索引方法 Pending CN107329993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710423572.4A CN107329993A (zh) 2017-06-07 2017-06-07 一种基于Geoword的多元电力时序数据索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710423572.4A CN107329993A (zh) 2017-06-07 2017-06-07 一种基于Geoword的多元电力时序数据索引方法

Publications (1)

Publication Number Publication Date
CN107329993A true CN107329993A (zh) 2017-11-07

Family

ID=60194834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710423572.4A Pending CN107329993A (zh) 2017-06-07 2017-06-07 一种基于Geoword的多元电力时序数据索引方法

Country Status (1)

Country Link
CN (1) CN107329993A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335467A (zh) * 2018-01-05 2018-07-27 东华大学 一种基于突变点探测的火灾在线预警与快速分析方法
CN110287199A (zh) * 2019-07-01 2019-09-27 联想(北京)有限公司 一种数据库的处理方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682110A (zh) * 2012-05-10 2012-09-19 北京大学 面向大规模空间信息的高性能缓存设计方法
WO2013001535A2 (en) * 2011-06-27 2013-01-03 Jethrodata Ltd. System, method and data structure for fast loading, storing and access to huge data sets in real time
CN105488172A (zh) * 2015-11-30 2016-04-13 北京奇艺世纪科技有限公司 一种基于位置的数据查询方法及装置
CN105744562A (zh) * 2016-03-25 2016-07-06 中国地质大学(武汉) 基于符号聚合近似的无线传感网数据压缩与重构方法及系统
CN106708989A (zh) * 2016-12-14 2017-05-24 大连大学 基于空间时序数据流应用的Skyline查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013001535A2 (en) * 2011-06-27 2013-01-03 Jethrodata Ltd. System, method and data structure for fast loading, storing and access to huge data sets in real time
CN102682110A (zh) * 2012-05-10 2012-09-19 北京大学 面向大规模空间信息的高性能缓存设计方法
CN105488172A (zh) * 2015-11-30 2016-04-13 北京奇艺世纪科技有限公司 一种基于位置的数据查询方法及装置
CN105744562A (zh) * 2016-03-25 2016-07-06 中国地质大学(武汉) 基于符号聚合近似的无线传感网数据压缩与重构方法及系统
CN106708989A (zh) * 2016-12-14 2017-05-24 大连大学 基于空间时序数据流应用的Skyline查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BXNSB: "《道客巴巴》", 27 May 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335467A (zh) * 2018-01-05 2018-07-27 东华大学 一种基于突变点探测的火灾在线预警与快速分析方法
CN110287199A (zh) * 2019-07-01 2019-09-27 联想(北京)有限公司 一种数据库的处理方法及电子设备

Similar Documents

Publication Publication Date Title
CN107273471A (zh) 一种基于Geohash的二元电力时序数据索引构建方法
CN110309343B (zh) 一种基于深度哈希的声纹检索方法
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN111079899A (zh) 神经网络模型压缩方法、系统、设备及介质
CN106503223A (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN107329993A (zh) 一种基于Geoword的多元电力时序数据索引方法
CN113434736A (zh) 一种面向遥感大数据的多维混合索引方法及系统
CN111126595A (zh) 一种神经网络的模型压缩的方法和设备
CN111694974A (zh) 一种融合注意力机制的深度哈希车辆图像检索方法
CN111488990B (zh) 一种基于性能感知的模型裁剪方法、装置、设备和介质
Guo et al. Optimal support vector machines for forest above-ground biomass estimation from multisource remote sensing data
Mohan Decision Trees: A comparison of various algorithms for building Decision Trees
CN116596129A (zh) 一种电动汽车充电场站短期负荷预测模型构建方法
CN114580086B (zh) 一种基于监督式机器学习的车辆部件建模方法
CN112886967B (zh) 一种数据压缩编码处理的方法和设备
CN106845229B (zh) 一种基于fts模型的病毒特征提取方法及系统
CN113536508B (zh) 一种制造网络节点分类方法及系统
CN108319678A (zh) 一种海量时间序列的分布式索引方法
CN115099309A (zh) 一种为图数据的存储和索引设计代价评估模型的方法
CN114185956A (zh) 基于canopy、k-means算法的数据挖掘方法
CN113807366A (zh) 一种基于深度学习的点云关键点提取方法
Fu Dimensionality optimization by heuristic greedy learning vs. genetic algorithms in knowledge discovery and data mining
CN108776704A (zh) 一种基于回归分析的时序数据索引方法
CN113205856B (zh) 一种微生物宏基因组分箱方法及系统
CN117077067B (zh) 一种基于智能匹配的信息系统自动部署规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171107

RJ01 Rejection of invention patent application after publication