CN105375930A

CN105375930A - 一种储能电站海量数据压缩方法及系统

Info

Publication number: CN105375930A
Application number: CN201510164575.1A
Authority: CN
Inventors: 李相俊; 惠东; 徐琛; 吴文宣; 姚继锋; 王向前; 郑昊; 陈金祥; 郭光朝; 贾学翠; 王立业; 张亮; 郑高
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2016-03-02

Abstract

本发明提供了一种储能电站海量数据压缩方法和系统，所述方法包括以下步骤：I、确定原数据的长度n，依次将所述原数据中相邻的数据划分成最小子分段；II、根据所述最小子分段中的数据确定PCA分段；III、依次确定相邻两个所述PCA分段的合并代价，判断是否可合并，选择符合合并要求且合并代价最小的值进行合并；IV、返回步骤II，直到所述PCA分段不可再合并；V、获得PCA分段组，确定所述原数据的最优化压缩解。本发明提供的方法针对电池储能电站海量数据的特点，相对于传统的压缩方法，本发明提出的分段合并压缩方法，能够大幅提升海量数据压缩比，减小数据存储的开销。

Description

一种储能电站海量数据压缩方法及系统

技术领域

本发明涉及一种储能技术领域的方法和系统，具体讲涉及一种储能电站海量数据压缩方法及系统。

背景技术

目前，储能电站电池数量众多，每个电池设有多个监测设备，导致监控系统采集储能电站数据量巨大，且随着储能电站的长期使用和扩展，储能电站数据增多，形成海量数据。而现有的储能电站数据采集、存储与管理方法不规范，需要对储能电站海量数据管理和挖掘技术开展进一步深化研究。在大量的电池储能电站数据中，不但当前时刻的数据有用，且其历史数据也有很大利用价值。因此，获得完整的储能电站历史数据是必要的，但是所有监测点产生的所有数据按照周期返回到基站之后，若不加以压缩就直接进行存储势必会占用大量的硬件资源，同时将这些历史数据进行查询分析也将由于系统资源被占用而异常困难。基于上述原因，将电池储能电站海量数据进行压缩处理成为对储能电站海量数据进行快速准确分析计算的基础。

电池储能电站数据主要有以下特点：

(1)数据量大：由于储能电站电池设备众多，每个电池设有较多监测设备，每秒采集的数据量很多，汇集起来的总数据量非常庞大；

(2)数据变化平缓：储能电站庞大数据量不是随机分布的，例如某电池的温度在进行充放电过程中会较高，而随着剩余电量的稳定会逐渐下降，呈现平缓改变的趋势；

(3)同一数据出现频率高：很容易出现很长一段时间的稳定状态，即检测到的数据长时间保持在同一数值；

(4)按照时间序列分布：所有的监测数据传输均按时间顺序来发送的，即每隔一个固定周期发送一次，因此，压缩的同时还需要保证原数据的顺序。

针对储能电站海量电池的原始数据进行无损压缩，现有技术中，常用方法是按照数据编码的算法对数据进行压缩，这类方法如果应用在海量监测数据上有如下缺陷：

(1)编码后的数据量与原数据相差不大，压缩效果不明显。

(2)需要达到指定数据量才能进行压缩，无法对实时接收到的数据进行压缩。

(3)对于数据的查询和分析需要先进行解压缩过程，增加了计算量。

因此，需要提供一种新的储能电站海量数据压缩方法及系统，克服上述现有技术存在的缺陷。

发明内容

为克服上述现有技术的不足，本发明提供一种储能电站海量数据压缩方法及系统。

实现上述目的所采用的解决方案为：

一种储能电站海量数据压缩方法，所述方法包括以下步骤：

I、确定原数据的长度n，依次将所述原数据中相邻的数据划分成最小子分段；

II、根据所述最小子分段中的数据确定PCA分段；

III、依次确定相邻两个所述PCA分段的合并代价，判断是否可合并，选择符合合并要求且合并代价最小的值进行合并；

IV、返回步骤III，直到所述PCA分段不可再合并；

V、获得PCA分段组，确定所述原数据的最优化压缩解。

优选地，所述步骤I中，确定所述原数据的长度为n，依次将所述原数据中按每两个相邻数据为一个最小子分段划分成m个所述最小子分段，m≥n/2，所述最小子分段包括两个数据。

优选地，所述步骤II包括以下步骤：

依次确定所述最小子分段中两个数据的差值，判断所述差值是否小于2ε，ε为数据允许误差；

若小于，则采用PCA方法将所述最小子分段划为一个所述PCA分段，该PCA分段的数据常量为两个数据的平均值，该PCA分段的结束时间为第二个数据的结束时间；

若不小于，则将所述最小子分段的两个数据分别定为一个PCA分段，该PCA分段的数据常量为所包含数据的数据值，结束时间为所包含数据的结束时间。

优选地，所述步骤III包括以下步骤：

S301、依次确定相邻两个所述PCA分段所对应的数据常量的均值mean、最大值Max和最小值Min；

S302、判断是否满足合并条件：|mean-Max|<ε&|mean-Min|<ε，ε为数据允许误差；

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；

S303、确定所有可合并的两个相邻PCA分段的合并代价，合并所述合并代价最小的两个相邻PCA分段，若最小合并代价的个数大于一，则合并任一的相邻PCA分段。

优选地，所述步骤IV中，在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止。

一种储能电站海量数据压缩系统，其特征在于：所述系统包括数据存储模块和海量数据压缩模块；

所述数据存储模块利用hbase构建电池储能电站的hbase数据表存储压缩后的储能电站数据；

所述海量数据压缩模块利用hadoop分布式处理机制对原数据进行分片，分发给hadoop集群的各个处理节点同时进行海量数据压缩，并将压缩结果存入所述数据存储模块的hbase数据表中。

优选地，所述海量数据压缩模块对所述原数据进行无损压缩包括以下步骤：

I、确定所述原数据的长度为n，依次将所述原数据中相邻的数据划分成m个所述最小子分段，m≥n/2，所述最小子分段包括两个数据。

II、确定所述最小子分段中两个数据的差值，判断所述差值是否小于2ε，ε为数据允许误差；

若小于，则采用PCA方法将所述最小子分段划为一个所述PCA分段，该PCA分段的数据常量为两个数据的平均值，该PCA分段的饿结束时间为第二个数据的结束时间；

IV、在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止；V、获得分段组，确定所述原数据的最优化压缩解。

优选地，所述步骤III包括：

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；

与现有技术相比，本发明具有以下有益效果：

1、针对电池储能电站海量数据的特点，相对于传统的压缩方法，本发明提出的分段合并压缩方法，能够大幅提升海量数据压缩比，减小数据存储的开销；

2、本发明提供的方法利用hadoop分布式特性，多节点并行进行海量数据的分段压缩，增大了压缩的时间范围，通过并行处理可以提高压缩的速度；

3、本发明提供的方法，减少了计算的复杂度；

4、本发明提供的系统具有可扩展性，通过增加处理节点，可以进一步提升海量数据压缩的效率；

5、本发明提供的海量数据压缩算法，能够与Hadoop分布式框架有机结合，在数据解压缩和利用时采用分布式处理方法，通过分片处理的方法提高数据处理的速度。

附图说明

图1为本发明中电池储能电站海量数据压缩方法流程图；

图2为本发明中电池储能电站海量数据压缩系统结构图；

图3为本实施例中基于hadoop的分布式压缩流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

如图1所示，图1为本发明中电池储能电站海量数据压缩方法流程图；本发明提供的一种储能电站海量数据压缩方法包括以下步骤：

II、根据所述最小子分段中的数据确定PCA分段；

IV、返回步骤II，直到所述PCA分段不可再合并；

V、获得PCA分段组，确定所述原数据的最优化压缩解。

步骤I中，确定所述原数据的长度为n，依次将所述原数据中相邻的数据划分成m个所述最小子分段，m≥n/2，所述最小子分段包括两个数据。

步骤II包括以下步骤：

确定所述最小子分段中两个数据的差值，判断所述差值是否小于2ε，ε为数据允许误差；

步骤III包括以下步骤：

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；

所述步骤IV中，在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止。

如图2所示，图2为本发明中电池储能电站海量数据压缩系统结构示意图；本发明提供的一种储能电站海量数据压缩系统包括：数据存储模块和海量数据压缩模块；

所述数据存储模块用于存储压缩后的储能电池数据；所述海量数据压缩模块用于对原数据进行无损压缩。

数据存储模块利用hbase构建电池储能电站的hbase数据表来存储压缩后的储能电站数据。

海量数据压缩模块利用hadoop分布式处理机制对原数据进行分片，分发给hadoop集群的各个处理节点同时进行海量数据压缩，并将压缩结果存入所述数据存储模块的hbase数据表中。

海量数据压缩模块对所述原数据进行无损压缩包括以下步骤：

III、合并PCA分段；

IV、在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止；V、获得分段组，确定所述原数据的最优化压缩解；

V、获得PCA分段组，确定所述原数据的最优化压缩解。

具体来说，步骤I和II的操作过程包括：

(1)假设原数据为S⁽¹ⁿ⁾＝{s[1]，...，s[n]}，将该长度为n的数据划分成m个单位最小的子数据块，每个子数据块用一个分段表示，即最小子分段，每个最小子分段包括两个数据。

分段集合表示为Seg_TS。

(2)用Seg_TS(i)寻址第i个分段，设用户定义的数据允许误差为ε，若最小子分段里相邻的两个数据满足的差值小于2ε，则将这两个数据应用PCA(主成分分析(PrincipalComponentAnalysis,PCA)方法，合并成一个PCA分段，该PCA分段的数据常量为两个数的均值，结束时间为第二个数据对应的时间，将PCA分段加入分段集合中。

若大于或等于2ε，则这两个数中的第一个和第二个数据分别表示成一个PCA分段，该PCA分段的数值常量和结束时间分别为其包含的数据的数值和对应时间，将得到的PCA分段加入分段集合。

(3)重复上述过程，直到原数据处理完毕

对步骤III进一步说明：

(1)合并代价主要由两个方面的因素决定：一是两个分段合并后带来的误差，二是合并后分段所对应的子数据块所包含的数据的个数。

例如，对于PCA分段Seg_TS(i)和Seg_TS(i+1)，两个PCA分段对应的两个数据块中所有的数据的均值为mean,最大值为Max，最小值为Min。

(2)判断是否满足|mean-Max|<ε并且|mean-Min|<ε，若满足则这两个分段满足合并条件，对这两个分段合并后得到的新分段Seg_TS(i)，则新分段所包含的数据个数的倒数为合并代价。

具体包括以下步骤：

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；

给出一具体应用实施例对上述处理过程进行说明，包括以下步骤：

步骤1、确定原数据的长度，n＝15，具体数据及其对应的时间如下表1所示：

数据	3.5	3.5	3.8	3.9	4.0	4.0	3.9	3.7	3.5	3.5	3.5	3.5	3.5	3.5	3.5
																时间	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15

表1

将原数据分为7个最小子分段，每个分段为相邻的两个数据，即为：

Seg_TS＝{(3.5,3.5),(3.8,3.9),(4.0,4.0),(3.9,3.7),(3.5,3.5),(3.5,3.5),(3.5,3.5),(3.5)}

步骤2、对每个最小子分段进行处理，根据所述最小子分段中的数据确定PCA分段。

例如，设定用户规定的允许误差为0.002，则判断每个分段内的数据误差如果为0.002*2＝0.004内则合并为一个PCA分段，数值为两个数的平均值，时间为后一个数的时间，如果误差超过0.004，则单独为一个PCA分段，处理后的结果见下表2。

表2

步骤3、依次确定相邻两个所述PCA分段的合并代价，判断是否可合并，选择符合合并要求且合并代价最小的值进行合并。

PCA[2]---PCA[1]:均值：3.6，结果：3.8-3.6>0.004、3.6-3.5>0.004，不符合

PCA[3]---PCA[2]:均值：3.85，结果：3.9-3.85>0.004、3.85-3.8>0.004，不符合

PCA[4]---PCA[3]:均值：3.97，结果：4.0-3.97>0.004、3.97-3.9>0.004，不符合

PCA[5]---PCA[4]:均值：3.97，结果：4.0-3.97>0.004、3.97-3.9>0.004，不符合

PCA[6]---PCA[5]:均值：3.8，结果：3.9-3.8>0.004、3.8-3.7>0.004，不符合

PCA[7]---PCA[6]:均值：3.57，结果：3.7-3.57>0.004、3.57-3.5>0.004，不符合

PCA[8]---PCA[7]:均值：3.5，结果：3.5-3.5<0.004、3.5-3.5<0.004，符合，确定合并代价1/2

PCA[9]---PCA[8]:均值：3.5，结果3.5-3.5<0.004、3.5-3.5<0.004，符合，确定合并代价为1/2

PCA[10]---PCA[9]:均值：3.5，结果3.5-3.5<0.004、3.5-3.5<0.004，符合，确定合并代价为1/2

合并结果如下表3所示：

PCA	3.5	3.8	3.9	4.0	3.9	3.7	3.5
								时间/S	2	3	4	6	7	8	15

表3

步骤4、重复上述步骤，直到没有满足合并要求的分段

PCA[2]---PCA[1]:3.8-3.5>0.004不符合

PCA[3]---PCA[2]:3.9-3.8>0.004不符合

PCA[4]---PCA[3]:4.0-3.9>0.004不符合

PCA[5]---PCA[4]:4.0-3.9>0.004不符合

PCA[6]---PCA[5]:3.9-3.7>0.004不符合

PCA[7]---PCA[6]:3.7-3.5>0.004不符合

步骤5、获得分段组，确定所述原数据的最优化压缩解。

全部分段结束，最终获得的压缩结果如下表4所示：

PCA	3.5	3.8	3.9	4.0	3.9	3.7	3.5
								时间/S	2	3	4	6	7	8	15

表4

本发明实施例中，还提供了对应的一种储能电站海量数据压缩系统，包括数据存储模块和海量数据压缩模块。其系统构建步骤如下：

步骤1、构建数据存储模块，通过hbase建立数据表table1存储电池储能电站海量数据，表结构如下表4所示。

Row Key	Column:data
		“yc-00-1\|15918\|00002”	{“value”,3.5}
“yc-00-1\|15918\|00004”	{“value”,3.85}
		“yc-00-1\|15918\|00006”	{“value”,4.0}

“yc-00-1\|15918\|00007”	{“value”,3.9}
		“yc-00-1\|15918\|00008”	{“value”,3.7}
“yc-00-1\|15918\|00015”	{“value”,3.5}

其中，Rowkey的组成为数据标示符、距离1970年1月1日的天数和当天开始的秒数，中间以“|“分隔开来。

Column：”data”为列族，value为列名，后面跟的数字为监测值。

步骤2、基于hadoop分布式框架构建海量数据压缩模块。

步骤201：根据新数据的边界时间从hbase中提取出边界时间段左右的压缩数据，将插入新数据段的两端。

步骤202：将组合后的数据导入hadoop分布式框架中，构建mapreduce程序。

如图3所示，hadoop从hbase中读取海量电池监测数据并按照时间序列进行分片分发给hadoop集群下各个节点进行map处理，通过map程序和shuffle阶段将每个监测点的数据都归集成一个数据片供reduce程序处理。

各个节点上的Reduce程序则对输入进来的某个时间段内的电池监测数据进行分段压缩，并将结果存入hbase中。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种储能电站海量数据压缩方法，其特征在于：所述方法包括以下步骤：

II、根据所述最小子分段中的数据确定PCA分段；

IV、返回步骤III，直到所述PCA分段不可再合并；

V、获得PCA分段组，确定所述原数据的最优化压缩解。

2.如权利要求1所述的方法，其特征在于：所述步骤I中，确定所述原数据的长度为n，依次将所述原数据中按每两个相邻数据为一个最小子分段划分成m个所述最小子分段，m≥n/2，所述最小子分段包括两个数据。

3.如权利要求1所述的方法，其特征在于：所述步骤II包括以下步骤：

4.如权利要求1所述的方法，其特征在于：所述步骤III包括以下步骤：

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；

5.如权利要求1所述的方法，其特征在于：所述步骤IV中，在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止。

6.一种储能电站海量数据压缩系统，其特征在于：所述系统包括数据存储模块和海量数据压缩模块；

7.如权利要求6所述的系统，其特征在于：所述海量数据压缩模块对所述原数据进行无损压缩包括以下步骤：

IV、在每一次合并结束后，重复步骤III，再次计算合并后各PCA分段是否满足合并条件，若满足则继续合并，直到没有满足合并条件的组存在为止；

V、获得分段组，确定所述原数据的最优化压缩解。

8.如权利要求7所述的系统，其特征在于：所述步骤III包括：

若不满足，则表示不可合并；

若满足，则表示可合并，计算其合并代价；