CN104991741A - 一种基于键值模型的情境适配电网大数据存储方法 - Google Patents
一种基于键值模型的情境适配电网大数据存储方法 Download PDFInfo
- Publication number
- CN104991741A CN104991741A CN201510355540.6A CN201510355540A CN104991741A CN 104991741 A CN104991741 A CN 104991741A CN 201510355540 A CN201510355540 A CN 201510355540A CN 104991741 A CN104991741 A CN 104991741A
- Authority
- CN
- China
- Prior art keywords
- key
- value
- data
- measuring point
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于键值模型的情境适配电网大数据存储方法,以大幅提升实时数据的加载和查询性能,本发明将批量查询和断面查询定义为不同应用情境,根据情境定制不同键。对于具体的数据存储,根据键值进行排序,以提升数据定位的效率;对于值的构成,采用聚簇的思想,在同一个值中存放一批相关联的测点值。本发明方法能够满足不同的应用对于实时数据不同的访问需求,有效提升访问效率,并且节约磁盘空间,大大提升了存取效率。
Description
技术领域
本发明涉及一种电网大数据存储方法,属于实时数据库、实时数据分析处理技术领域。
背景技术
随着移动互联、物联网技术的不断发展,以智能电网为代表的大型流程工业应用在生产信息化过程中产生越来越多的海量历史时序数据。以电网为例,一是遍布全网的传感器越来越多,预计将达到千万级甚至亿级以上;二是实时数据采样频率要求越来越高,要求分钟级甚至秒级;三是历史时序数据量规模越来越大,随着应用的丰富性和互动性不断增强,对历史数据的访问需求越来越高,因此对实时数据的处理规模、处理速度提出了更高的要求。
发明内容
为了解决上述问题,本发明提供了一种基于键值模型的情境适配电网大数据存储方法,以大幅提升实时数据的加载和查询性能。本发明中的电网大数据是指电网中传感器所产生的实时数据。综合分析当前电网应用对于实时数据的访问需求,主要集中在两点:一是快速的加载需求,二是快速的查询需求。更进一步,查询需求有两类:一是批量查询,即以测点为对象,以时间为维度,查询一段时间内测点的量测值;另一类是断面查询,即以相关联的测点集合为对象,以单个时间点为维度,查询一批测点在某一个时间点的量测值。测点集合的规模在电网应用中,最大可达千万甚至上亿。
本发明方法中,模型的键是根据批量查询和断面查询定义的不同应用情境,定制不同键;模型的值采用聚簇的思想,在同一个值中存放一批相关联的测点值,一方面利于压缩算法起作用,另一方面,大幅提高I/O操作效率,提升性能。同时,具体的数据存储,根据键值进行排序,以提升数据定位的效率。
本发明方法具体采用了如下的技术方案:
(1)根据不同的访问情境(包括批量查询和断面查询),定义键的构成;
(2)根据具体的硬件配置和具体的测点值类型,定义值数据的块大小;
(3)根据键的构成,对加载的数据进行处理,形成可存储的键值对;
(4)对值进行压缩,键保持不变;
(5)以值为参照,对所有的键值对进行排序,排序后的结果以固定的块大小为单位,进行存储。
进一步,本发明的步骤(1)中,键模式采用分段方式进行定义,不同的情境使用不同的键模式:
批量查询情境下,键模式记为模式A,具体为:<测点ID,时间戳,采样频率>,其中测点ID代表唯一的测点,时间戳采用Unix时间戳,采样频率支持天、小时、分钟、秒以及自定义4种模式。
断面查询情境下,键模式记为模式B,具体为:<时间戳,测点组ID,分组规模>,时间戳为Unix时间戳,测点组ID=Floor(测点ID/分组规模),分组规模为指定大小的整数,决定了值块的大小。
进一步,本发明数据的物理存放位置由键模式驱动,实际数据按照键顺序存储。键模式规定了键的组成部分,但是组成部分的排列顺序可以根据需求灵活设定。以模式A为例,如果将时间戳放在最前方,可以大幅提升全断面数据的查询效率。键模式的每一部分都可以起到索引的作用。
进一步,对于每一键值对,值部分不是单一的保存一条实时记录,而是以若干相关的测点值为单元,组成一个完整的“值簇”,并对其进行处理与存储,如:以值簇为单元的数据压缩、调整值簇的块大小。这样不但能提升写入的速度,还能提高压缩算法的压缩比,从而能节约磁盘存储空间以及提升数据存取效率,因为压缩率提升可提升单次I/O操作的效率,故单个数据块中将包含更多的实时数据。
进一步,在实际应用中,通过自定义策略选取键模式以及键模式各组成部分的排列顺序,并基于策略提供统一的数据访问接口,为应用系统屏蔽数据存储方式的复杂性。
通过采用上述技术方案,本发明方法在数据模型上,能够满足不同的应用对于实时数据不同的访问需求。研究具体应用中实时数据的关联模式,通过为特定的关联模式定义不同的键模式来影响实时数据物理存储分布。在数据实际存储过程中,将数据依据键进行字母序排列,确保关联使用的数据在物理上连续存储,降低其在访问过程中的I/O开销,提升访问效率。同时,利用键模式各组成部分的排列组合,构建不同的索引,进一步精细化的提升性能,并且基于值簇的存储能够节约磁盘,进一步提升存取效率。
附图说明
图1是本发明的存储模型示意图。其中,①表示为该模型的键结构,该结构可分为两种典型模式:批量查询模式(模式A)、断面查询模式(模式B);②表示为模型的键值结构,ValueCluster的结构根据Key的模式,可组织为断面或者批量形式;③表示为模型的实时数据物理存储结构。
图2是本发明的实施运行结果图。
具体实施方式
下面结合附图以电网业务场景中“断面查询模式”来描述本方法的具体实施方式。本方法基于levelDB键值数据库实现了上述模型。
所采用的服务器配置如下:
键模式使用了模式B,如图1所示。假设如下原始数据结构如下:
测点ID | 时间戳 | 值 | 质量码 |
键模式为:<时间戳,测点组ID,分组规模>,如图1中的①部分,其中分组规模选择为100,即单个值簇存放100个测点在某个特定时间点的实时值,如图1中的②部分。最终,值簇的存储如图1中的③部分。
具体levelDB配置参数如下:
参数 | 测点 | keySize | valueSize | write_buffer_size | threads |
值 | 1000万 | 12Bytes | 1600Bytes | 256M | 1 |
运行结果如图2所示。由运行结果可知,数据提交与查询的效率分别为7.2万/秒、14.9万/秒(由于值簇存储100条实时数据,换算后,单机数据提交效率与查询效率分别为720万/秒、1490万/秒)。
本发明不限于上述实施例,一切采用等同替换或等效替换形成的技术方案均属于本发明要求保护的范围。
Claims (5)
1.一种基于键值模型的情境适配电网大数据存储方法,其特征在于,包括如下步骤:
根据不同的访问情境,定义键的构成;
根据硬件配置和测点值类型,定义值数据的块大小;
根据键的构成,对加载的数据进行处理,形成可存储的键值对;
对值进行压缩,键保持不变;
以值为参照,对所有的键值对进行排序,排序后的结果以固定的块大小为单位,进行存储。
2.根据权利要求1所述的方法,其特征是,键模式采用分段方式进行定义,并根据访问情境采用键模式:
批量查询情境,键模式记为模式A,具体为:<测点ID,时间戳,采样频率>;
断面查询情境,键模式记为模式B,具体为:<时间戳,测点组ID,分组规模>。
3.根据权利要求2所述的方法,其特征是,数据的物理存放位置由键模式驱动,实际数据按照键顺序存储。
4.根据权利要求2或3所述的方法,其特征是,对于每一键值对,值部分是以若干相关的测点值为单元,组成一个完整的值簇,并对其进行处理与存储。
5.根据权利要求2或3所述的方法,其特征是,通过自定义策略选取键模式以及其各组成元素的排序,并基于策略提供统一的数据访问接口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510355540.6A CN104991741B (zh) | 2015-06-24 | 2015-06-24 | 一种基于键值模型的情境适配电网大数据存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510355540.6A CN104991741B (zh) | 2015-06-24 | 2015-06-24 | 一种基于键值模型的情境适配电网大数据存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104991741A true CN104991741A (zh) | 2015-10-21 |
CN104991741B CN104991741B (zh) | 2018-02-02 |
Family
ID=54303557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510355540.6A Active CN104991741B (zh) | 2015-06-24 | 2015-06-24 | 一种基于键值模型的情境适配电网大数据存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104991741B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574074A (zh) * | 2015-11-23 | 2016-05-11 | 江苏瑞中数据股份有限公司 | 一种基于智能电网wams的时序大数据存储方法 |
CN105930104A (zh) * | 2016-05-17 | 2016-09-07 | 百度在线网络技术(北京)有限公司 | 数据存储方法和装置 |
CN108153483A (zh) * | 2016-12-06 | 2018-06-12 | 南京南瑞继保电气有限公司 | 一种基于属性分组的时序数据压缩方法 |
CN108959581A (zh) * | 2018-07-09 | 2018-12-07 | 常州铂沃尔智能科技有限公司 | 一种面向时空融合分析的电力设备状态数据处理方法 |
CN112084303A (zh) * | 2020-08-31 | 2020-12-15 | 国电南瑞科技股份有限公司 | 基于HBase的电网运行数据存储访问方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799184A (en) * | 1990-10-05 | 1998-08-25 | Microsoft Corporation | System and method for identifying data records using solution bitmasks |
CN102117340A (zh) * | 2011-04-19 | 2011-07-06 | 北京神州数码思特奇信息技术股份有限公司 | 一种动态数据存储方法 |
CN103020078A (zh) * | 2011-09-24 | 2013-04-03 | 国家电网公司 | 分布式实时数据库数据层次索引方法 |
CN103514273A (zh) * | 2013-09-17 | 2014-01-15 | 宁波东冠科技有限公司 | 数据采集和监视控制系统及该系统的数据处理方法 |
-
2015
- 2015-06-24 CN CN201510355540.6A patent/CN104991741B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799184A (en) * | 1990-10-05 | 1998-08-25 | Microsoft Corporation | System and method for identifying data records using solution bitmasks |
CN102117340A (zh) * | 2011-04-19 | 2011-07-06 | 北京神州数码思特奇信息技术股份有限公司 | 一种动态数据存储方法 |
CN103020078A (zh) * | 2011-09-24 | 2013-04-03 | 国家电网公司 | 分布式实时数据库数据层次索引方法 |
CN103514273A (zh) * | 2013-09-17 | 2014-01-15 | 宁波东冠科技有限公司 | 数据采集和监视控制系统及该系统的数据处理方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574074A (zh) * | 2015-11-23 | 2016-05-11 | 江苏瑞中数据股份有限公司 | 一种基于智能电网wams的时序大数据存储方法 |
CN105930104A (zh) * | 2016-05-17 | 2016-09-07 | 百度在线网络技术(北京)有限公司 | 数据存储方法和装置 |
CN105930104B (zh) * | 2016-05-17 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 数据存储方法和装置 |
CN108153483A (zh) * | 2016-12-06 | 2018-06-12 | 南京南瑞继保电气有限公司 | 一种基于属性分组的时序数据压缩方法 |
CN108153483B (zh) * | 2016-12-06 | 2021-04-20 | 南京南瑞继保电气有限公司 | 一种基于属性分组的时序数据压缩方法 |
CN108959581A (zh) * | 2018-07-09 | 2018-12-07 | 常州铂沃尔智能科技有限公司 | 一种面向时空融合分析的电力设备状态数据处理方法 |
CN112084303A (zh) * | 2020-08-31 | 2020-12-15 | 国电南瑞科技股份有限公司 | 基于HBase的电网运行数据存储访问方法及其系统 |
CN112084303B (zh) * | 2020-08-31 | 2022-09-06 | 国电南瑞科技股份有限公司 | 基于HBase的电网运行数据存储访问方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104991741B (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104991741A (zh) | 一种基于键值模型的情境适配电网大数据存储方法 | |
CN105631003B (zh) | 支持海量数据分组统计的智能索引构建、查询及维护方法 | |
EP2263180B1 (en) | Indexing large-scale gps tracks | |
CN110222029A (zh) | 一种大数据多维分析计算效率提升方法及系统 | |
Ma et al. | KSQ: Top-k similarity query on uncertain trajectories | |
CN104317966A (zh) | 一种用于电力大数据快速组合查询的动态索引方法 | |
CN106055621A (zh) | 一种日志检索方法及装置 | |
CN101241511A (zh) | 一种基于时空数据的快速索引方法 | |
US9442949B2 (en) | System and method for compressing data in a database | |
CN104112011B (zh) | 一种海量数据提取的方法及装置 | |
CN106649687B (zh) | 大数据联机分析处理方法及装置 | |
CN103902544A (zh) | 一种数据处理方法及系统 | |
CN104599032A (zh) | 一种面向资源管理的分布式内存电网构建方法及系统 | |
CN108009265B (zh) | 一种云计算环境下的空间数据索引方法 | |
CN105989373A (zh) | 利用训练模型实现的获取设备指纹方法及装置 | |
CN105574074A (zh) | 一种基于智能电网wams的时序大数据存储方法 | |
CN105528381A (zh) | 数据库数据迁移方法及系统 | |
CN115203290A (zh) | 一种基于多维prefixspan算法的故障诊断方法 | |
CN118484451A (zh) | 一种用于国际贸易统计数据大规模运算的数据预处理方法 | |
CN113127741B (zh) | 兼职岗位推荐系统中海量用户和岗位数据读写的缓存方法 | |
CN112540987A (zh) | 一种基于数据集市的配用电大数据管理系统 | |
CN112445776A (zh) | 基于Presto的动态分桶方法、系统、设备及可读存储介质 | |
CN107273443A (zh) | 一种基于大数据模型元数据的混合索引方法 | |
CN104714956A (zh) | 一种异构记录集对比方法及装置 | |
CN106776810A (zh) | 一种大数据的数据处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 210012 No. 180 Software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province Patentee after: CHINA REALTIME DATABASE Co.,Ltd. Address before: 210003, 5 new model street, Gulou District, Jiangsu, Nanjing Patentee before: CHINA REALTIME DATABASE Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |