CN110765154A

CN110765154A - 火电厂海量实时生成数据的处理方法及装置

Info

Publication number: CN110765154A
Application number: CN201910984802.3A
Authority: CN
Inventors: 白帆; 蒋蓬勃; 李友志; 王继强; 苏涛; 卢意; 苏京彬; 宋峰
Original assignee: Huadian International Electric Power Co Ltd Technical Services Branch; HUADIAN LAIZHOU POWER GENERATION Co Ltd
Current assignee: Huadian International Electric Power Co Ltd Technical Services Branch; HUADIAN LAIZHOU POWER GENERATION Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-07

Abstract

本发明属于电厂运行数据处理领域，尤其涉及一种火电厂海量实时生成数据的处理方法及装置。在基于键值数据模型火电厂生产过程中产生的海量时间序列数据进行建模和存储的基础上，将时间序列数据按照时间维度进行切片存放至HBase中，同时融入了Spark SQL执行过程对海量时间序列数据进行查询。Spark SQL是spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。它通过将数据查询转换成Spark RDD，然后提交到集群执行，具有极高的数据查询效率。

Description

火电厂海量实时生成数据的处理方法及装置

技术领域

本发明属于电厂运行数据处理领域，尤其涉及一种火电厂海量实时生成数据的处理方法及装置。

背景技术

时间序列数据是在不同时间上收集到的数据，这类数据是按时间顺序收集到的，用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。在火力发电等工业生产领域，通过将传感器安装在工业设备和生产环境中，传感器将采集到大量的时间序列数据。火电厂通常设备众多，采集设备状态信息的传感器规模较大，因此，其生产过程中采集到的时间序列数据一般具有采集频率快、数据量大等特点。以火电厂设备领域为例，数百台电厂设备上面可能部署了上万个传感器，传感器每秒钟采集并发送一次数据，那么每秒钟需要处理的时间序列数据有数万个点，每天的数据规模可能在TB级别。

时间序列数据往往具有非常高的潜在价值。相比其他数据类型，时间序列数据多了时间顺序和时间间隔属性。对这些时间序列数据进行分析处理，可以从这些数据挖掘到事物的变化发展规律和未来动向，对做出正确科学的决策具有重大意义。

面对爆发式增长的时间序列数据，高效、可靠的存储及查询检索已经成为了一个重要的挑战。传统关系型数据库及SQL语言为结构化数据提供了安全可靠、快速便捷的查询和存储解决方案。但在应对海量时间序列数据时，传统解决方案将变得极为低效且不可靠。在存储数据时，会因数据写入量过多而系统卡死或出现占用系统资源过多等情况。在查询数据时，会出现数据量较大且实时变化而导致无法撰写有效的SQL语句进行查询，或者SQL语句在查询执行过程中速度过慢。虽然，近年来出现的NoSQL数据库存储方案在一定程度上缓和了海量数据存取的压力，但专门针对时间序列数据的存储方案还不成熟，尤其是针对火电厂这种具有海量时间序列数据的工业生产领域，高效的数据存储和查询方案仍然有迫切需求。例如中国专利申请201811344073.7公开了一种高并发实时历史数据存储系统，包括服务器、显示模块和数据采集模块，显示模块和所有数据采集模块均与服务器通信连接，数据采集模块用以采集智能电厂的实时数据，显示模块用以画面显示，服务器：响应于接收到实时数据，将实时数据写入循环消息队列；定时从循环消息队列中读取热数据，将热数据存入内存数据库；定时从循环消息队列中读取冷数据，将冷数据存入关系数据库。本发明采用循环消息队列、内存数据库和关系数据库相结合的系统架构方式，以缓冲高并发请求，并将热数据放到内存数据库，提高查询性能，将冷数据持久化到关系数据库中，便于以后离线分析，实现了高并发、海量规模数据存储的高可靠性及高可用性。

发明内容

针对现有技术存在的问题，本发明提供了一种准确率高、数据查询效率高的火电厂海量实时生成数据的处理方法，以及利用该方法的装置。

本发明主要包括以下两个模块：

(1)时间序列数据存储模块。由时序数据的采样时间间隔获取时序数据的时间精度，将多个时间序列数据以时间戳以及时间精度聚合为文件切片，以时间精度和时间戳为HBase行键，将文件切片存储至HBase数据库。

(2)时间序列数据查询模块。解析SQL语句，获得查询时序数据的时间范围及对应的执行计划。扫描数据库，定位到若干时序数据切片，再读取时序数据切片的Value，生成Spark RDD。对应Spark RDD进行匹配和过滤操作，获得精简数据集Compact DataFrame。基于所述Compact DataFrame进行SQL计算。

其中，HBase是一个分布式的、面向列的开源数据库，它以键值对(key-value)的形式组织数据，将数据存储到HFile文件中。Hbase查询使用了rowkey，通过扫描rowkey可以快速的对数据进行查询。hbase的扫描查找分为get\scan两种，get为获取单行数据，而scan为获取多行数据。

Spark SQL：Spark SQL是Spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame可以由各种各样的源构建，例如：结构化数据文件、hive中的表、外部数据库或现有的RDD。

具体上，本发明是这样实现的，一种火电厂海量实时生成数据的处理方法，其特征在于：包括存储步骤：

步骤S1：获取传感器采集到的原始时间序列数据，一条原始时间序列数据记录至少包括属性值为：设备编号、传感器编号、采样时间、接收时间和测量值；

步骤S2:根据采样时间，将采用时间相同、时间间隔较小的多个时间序列数据聚合为数据切片，划分至相(对)应的时间分区；

步骤S3：将上述原始时间序列数据的多条属性值与时间分区信息进行组合，生成目标时序数据，该目标时序数据至少包括以下属性值：时间分区、设备编号、传感器编号、采样时间和传感器采集到的测量值；

步骤S4：以设备编号、传感器编号和时间分区信息作为一级索引，以采样时间作为二级索引，将目标时序数据存入HBase数据库中。

所述的步骤S2中，数据切片的大小，一个键值在100KB至10MB。

所述的数据切片进行处理时，当数据切片较大时，将数据切片作进一步切分；若所述数据切片的大小大于预设字节长度，则对所述数据切片作进一步切分，生成多个子切片；若所述数据切片的大小小于等于预设字节长度，则将所述数据切片对应的切片号设置为零；以时间精度、时间戳和子切片的切片号为行键，将所述多个子切片存储至HBase数据库中。

另外，处理步骤中还包括查询步骤：

步骤S11：解析SQL语句，获得查询时间序列数据的时间范围及对应的执行计划；

步骤S12：根据得到的时间范围，扫描HBase数据库，定位到若干时序数据切片，并读取各所述时序数据切片的值，利用newHadoopApi以Key-Value的形式读取各所述时序数据切片的Value，生成Spark RDD；

步骤S13：根据上述执行计划对上述Spark RDD进行匹配和过滤操作，去掉冗余数据，获得与查询执行计划一致的精简数据集Compact DataFrame；

步骤S14：基于所述Compact DataFrame进行SQL计算，构造完成CompactDataFrame后，再用Spark SQL处理逻辑，利用Compact DataFrame进行SQL计算得到处理结果。

火电厂海量实时生成数据的处理装置，其特征在于，包括，

传感器，设置于火电厂生产运行各环节的设备，采集各个设备的运行参数；

服务器，运行上述处理方法；

I/O单元，进行手动输入、调整和显示输出。

所述的服务器为云计算服务器。

本发明的优点及积极效果为：

在基于键值数据模型火电厂生产过程中产生的海量时间序列数据进行建模和存储的基础上，将时间序列数据按照时间维度进行切片存放至HBase中，同时融入了SparkSQL执行过程对海量时间序列数据进行查询。Spark SQL是spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。它通过将数据查询转换成Spark RDD，然后提交到集群执行，具有极高的数据查询效率。

附图说明

图1为本发明实施例的时间序列数据的存储方法的流程示意图；

图2为本发明实施例的将一个时序数据集切分为多个文件切片的示意图；

图3为本发明实施例的时间序列数据的查询方法的流程示意图；

图4为本发明实施例的基于HBase改进Spark SQL查询逻辑的示意图；

图5为本发明实施例的时序数据的存储装置的结构示意图；

图6为本发明实施例的时序数据的分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

实施例1：

如图1-6所示，图1为根据本发明实施例提供的一种基于键值数据模型的时间序列数据的存储方法，面向火电厂大型工业设备海量生产数据的实时存储，方法包括：

步骤S1：获取传感器采集到的原始时间序列数据。在如火电等工业生产领域，一条原始时间序列数据记录通常包含五个字段：设备编号、传感器编号、采样时间、接收时间和测量值。其中，设备编号和传感器编号一般为字符串类型；采样时间和接收时间一般为时间类型；测量值的数据类型则根据传感器测量对象的不同而变化，一般而言有整数形、浮点数型、字符串型和布尔类型等多种数据类型。

步骤S2:根据所述采样时间，将采用时间相同、时间间隔较小的多个时间序列数据聚合为数据切片，划分至对应的时间分区。在同一个时间分区内的数据切片会被一起写入HBase数据库，并进行查询。通过这种方式，可以实现时间序列数据的有效聚合，从而压缩存储空间，易于检索。通常，可以根据数据量的大小，采用一天作为一个时间分区的策略，也就是将一天内采用得到的所有时间序列数据全部聚合为一个数据切片。图2展示了一个时间序列数据分区的示意图。

步骤S3：将所述多条属性与所述时间分区信息进行组合，生成目标时序数据。针对原始时间序列数据聚合形成的数据切片，构造一条将要写入到HBase数据库的时序序列数据集合，也即目标时间序列数据集。该目标时序数据包括了五部分属性值：时间分区、设备编号、传感器编号、时间分区信息、采样时间和传感器采集到的测量值。

步骤S4：以所述设备编号、所述传感器编号和所述时间分区信息作为一级索引，以所述采样时间作为二级索引，将所述目标时序数据存入HBase数据库中。获取数据切片的大小，按照HBase存储特点，一个键值Value在100KB至10MB为宜，因此，当数据切片较大时，将数据切片作进一步切分。若所述数据切片的大小大于预设字节长度，则对所述数据切片作进一步切分，生成多个子切片。若所述数据切片的大小小于等于预设字节长度，则将所述数据切片对应的切片号设置为零。以时间精度、时间戳和子切片的切片号为行键，将所述多个子切片存储至HBase数据库中。

将文件切片作进一步切分的步骤包括：

首先，确定子切片个数N；

其中，N＝[Size(slicefile)/预设字节长度]，(在具体实施过程中，预设字节长度通常设置为10MB)；

然后按照时序数据的测量对象标识进行哈希计算，对哈希计算的结果取N的余数后加一，获得时序数据对应的切片号；

即

最后将切片号相同的时序数据合并到一个子切片中，生成N个子切片。

图3为根据本发明实施例提供的时间序列数据查询方法，包括：

步骤S11：解析SQL语句，获得查询时间序列数据的时间范围及对应的执行计划。本发明实施例利用Spark SQL自带的Catalyst组件完成SQL解析过程，得到逻辑执行计划(Logical Plan)，从中获取时间字段对应的查询范围及查询的列范围。

步骤S12：根据得到的时间范围，扫描HBase数据库，定位到若干时序数据切片，并读取各所述时序数据切片的值(Value)，生成Spark RDD。本发明实施例使用Spark提供的newHadoopApi完成HBase Scan过程，根据所述时间范围传入起始行键完成扫描。Scan操作发起后会对每个HBase Region进行Scan操作，由于HBase中数据按照行键有序存放，这样根据Scan操作的起始行键可以快速定位到所需的数据范围，将范围内数据连续读出。

读取各所述时序数据切片的Value，生成Spark RDD，具体利用newHadoopApi以Key-Value的形式读取各所述时序数据切片的Value，生成Spark RDD：

val slice_data_rdd＝sc.newAPIHadoopRDD(……)

步骤S13：根据上述执行计划对上述Spark RDD进行匹配和过滤操作，去掉冗余数据，获得与查询执行计划一致的精简数据集Compact DataFrame(CDF)。

步骤S14：基于所述Compact DataFrame(CDF)进行SQL计算。

构造完成Compact DataFrame(CDF)后，再用Spark SQL处理逻辑，利用CompactDataFrame进行SQL计算得到处理结果。

图4为基于HBase改进Spark SQL查询逻辑的示意图。当收到时间序列数据的查询请求时，根据前面的步骤，本发明实施例将会把查询请求定位到构造完成的CompactDataFrame后，再用Spark SQL处理逻辑，进行SQL计算得到处理结果。基于本发明实例提供的这种方法，能发挥HBase随机读取性能优势，可实现海量时序数据的快速检索和分析。

图5为本发明实施例提供的时序数据的存储装置的结构示意图，包括：时间区间划分模块501、聚合模块502和存储模块503。

时间区间划分模块501，根据时间序列数据的采样时间及间隔，获取所述时序数据的时间分区；

时间切片及聚合模块502，根据时间序列数据的时间戳以及时间分区，将时间戳相同、时间间隔较小相同的多个时序数据聚合为文件切片；

存储模块503，以时间分区和时间戳为HBase行键，将所述文件切片存储至HBase数据库。

图6为本发明实施例提供的时间序列数据的查询装置的结构示意图，包括：解析模块、扫描模块、Compact DataFrame生成模块和SQL执行模块。

解析模块601，解析SQL语句，获得查询时序数据的时间范围及对应的执行计划；

扫描模块602，按照所述时间范围扫描所述HBase数据库，定位到若干时序数据切片，并读取各所述时序数据切片的Value，生成Spark RDD；

Compact DataFrame生成模块603，用于根据所述执行计划对所述Spark RDD进行匹配和过滤操作，获得与所述执行计划一致的最小数据集Compact DataFrame；

SQL执行模块604，基于Compact DataFrame进行SQL计算。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种火电厂海量实时生成数据的处理方法，其特征在于：包括存储步骤：

2.如权利要求1所述的火电厂海量实时生成数据的处理方法，其特征在于，所述的步骤S2中，数据切片的大小，一个键值在100KB至10MB。

3.如权利要求1或2所述的火电厂海量实时生成数据的处理方法，其特征在于，所述的数据切片进行处理时，当数据切片较大时，将数据切片作进一步切分；若所述数据切片的大小大于预设字节长度，则对所述数据切片作进一步切分，生成多个子切片；若所述数据切片的大小小于等于预设字节长度，则将所述数据切片对应的切片号设置为零；以时间精度、时间戳和子切片的切片号为行键，将所述多个子切片存储至HBase数据库中。

4.如权利要求1所述的火电厂海量实时生成数据的处理方法，其特征在于，还包括查询步骤：

步骤S14：基于所述Compact DataFrame进行SQL计算，构造完成Compact DataFrame后，再用Spark SQL处理逻辑，利用Compact DataFrame进行SQL计算得到处理结果。

5.如权利要求1所述的火电厂海量实时生成数据的处理装置，其特征在于，包括

服务器，运行上述处理方法；

I/O单元，进行手动输入、调整和显示输出。

6.如权利要求5所述的火电厂海量实时生成数据的处理方法，其特征在于，所述的服务器为云计算服务器。