CN104299170A

CN104299170A - 间歇性能源海量数据处理方法

Info

Publication number: CN104299170A
Application number: CN201410511941.1A
Authority: CN
Inventors: 梅华威; 米增强; 吴广磊
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2014-09-29
Filing date: 2014-09-29
Publication date: 2015-01-21
Anticipated expiration: 2034-09-29
Also published as: CN104299170B

Abstract

本发明涉及一种间歇性能源海量数据处理方法，其步骤如下：（1）建立间歇能源海量数据处理平台：所述处理平台包括主、从云中枢服务器、第1至第11负载服务器、终端数据总线、负载总线和数据接口总线；（2）数据采集：主、从云中枢服务器通过其数据采集接口C采集存储在终端数据计算机中的原始数据；（3）数据存储：所采集的海量数据存储于HDFS；（4）数据处理：数据处理是采用MapReduce模型对数据进行并行处理的；主云中枢服务器仅对数据的存储和处理进行统一的调度，而具体的数据存储和处理由第1至第11负载服务器完成。本发明的优点是处理速度快和安全可靠。

Description

间歇性能源海量数据处理方法

技术领域

本发明涉及一种间歇性能源海量数据处理方法，适用于风电、太阳能等间歇性能源海量数据的存储和处理，另外可以收集和存储如实时天气预报数据、历史气象数据等一起处理，为各种高级应用提供数据支持，能够显著提高间歇性能源电厂的安全性和经济性。

背景技术

近年来，风电、太阳能等间歇性能源发展迅速，对间歇性能源所产生的海量数据的存储和处理被提到议事日程，经检索尚未发现相关的文献报导。

发明内容

本发明所要解决的技术问题是提供一种处理速度快和安全可靠的间歇性能源海量数据处理方法。

本发明解决其技术问题所采用的技术方案：

一种间歇性能源海量数据的处理方法，其特征在于步骤如下；

（1）首先建立间歇能源海量数据处理平台：

所述间歇能源海量数据处理平台包括主、从云中枢服务器、第1至第11负载服务器、终端数据总线、负载总线和数据接口总线；

所述主、从云中枢服务器的数据采集接口C分别通过终端数据总线与终端数据计算机相连接，所述终端数据计算机中存有风电、太阳能、天气预报的原始数据；主、从云中枢服务器的主从切换接口D相连接，所述主从切换接口D依次传送握手信号和同步信号；主、从云中枢服务器的第1至第11接口通过负载总线分别与第1至第11负载服务器相连接，所述第1至第11接口为标准的RJ-45接口；

所述主、从云中枢服务器的数据输出接口B通过数据接口总线分别与用户终端计算机相连接；

所述主、从云中枢服务器的结构相同，所述主云中枢服务器包括CPU、第一存储单元、智能单元和电源模块；

所述CPU分别与第一存储单元、智能单元双向连接，所述第一存储单元与智能单元双向连接，所述电源模块分别为所述CPU、第一存储单元和智能单元提供直流电源；

所述智能单元由主控单元、第二存储单元、第一内部总线和第二内部总线组成；所述主控单元为嵌入式32位处理器，所述主控单元与第二存储单元相连接，所述主控单元的相应接口通过第一内部总线分别与所述主云中枢服务器的第1至第11接口相连接，所述主控单元的相应接口通过第二内部总线分别与主云中枢服务器的数据输出接口B、数据采集接口C、主从切换接口D相连接；所述主控单元分别与所述第一存储单元和所述CPU相连接。

（2）数据采集：

主、从云中枢服务器通过数据采集所支持的opc.Modbus协议，利用API完成数据的采集，所述API为应用编程接口；主、从云中枢服务器通过其数据采集接口C采集存储在终端数据计算机中的风电、太阳能、天气预报的原始数据，随后，由主、从云中枢服务器自动将所采集的数据拆分成若干个Map操作和Reduce操作，并由主云中枢服务器分配到所述第1至第11负载服务器中去执行；

（3）数据存储：

所采集的海量数据存储于HDFS，所述HDFS即Hadoop分布式文件系统，HDFS中的数据文件目录存储于主、从云中枢服务器中，而具体的文件数据被拆分为若干个数据分片，主云中枢服务器将所述若干个数据分片依次通过其第1至第11接口、负载总线分别存储在第1至第11负载服务器中；

（4）数据处理：

数据处理是采用MapReduce模型对数据进行并行处理的，将拆分的若干个Map操作和Reduce操作分配到所述第1至第11负载服务器中进行执行；主云中枢服务器仅对数据的存储和处理进行统一的调度，而具体的数据存储和处理由第1至第11负载服务器完成；

所述Map操作是指对输入数据进行处理，产生一组中间的键值对集，即<Key，Value>；

所述Reduce操作是指对具有相同键的键值对进行合并；

最后将Map操作和Reduce操作所生成的文件汇总到最后的输出文件中去，供用户终端计算机访问。

所述CPU的型号为Intel Xeon E5-2650；所述第一存储单元由内存和辅助存储器组成，所述内存的型号为ECC DDR3，所述辅助存储器为SATA硬盘或移动存储器；所述电源模块的型号为94Y6668。

所述嵌入式32位处理器的型号为ARM9，所述第二存储单元的型号为DDR2+SDHC。

本发明所述方法是基于MapReduce模型完成的，MapReduce模型是Google开发的一种面向海量数据分析和处理的分布式计算模型，能够利用大规模廉价服务器集群实现对海量数据的并行处理，具有良好的扩展性和可靠性。其运行环境由客户端、主节点（即主、从云中枢服务器）和工作节点（即各负载服务器）组成。客户端将用户的并行处理作业提交给主节点，主节点自动将作业分解为Map任务和Reduce任务，并将任务调度到工作节点；工作节点负责任务的执行，开发人员向MapReduce模型提交的程序中仅仅需要定义Map 函数和Reduce函数，Map操作对输入数据进行处理，产生一组中间的键值对集，Reduce操作对具有相同键的键值对进行数据合并。

整个数据存储和处理是基于MapReduce模型强大的开源系统Hadoop来实现的。Hadoop是一个开源的可运行于大型分布式集群上的并行编程框架，能够更容易的开发并行处理海量数据的分布式计算平台，具有可靠性、低成本、高效、可扩展性等优点，已经应用在各大互联网公司的海量数据处理上，对于间歇性能源海量数据的处理，有很好的参考和借鉴价值。Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手。”

本发明的有益效果如下：

1、本发明能够更高效快速的处理海量的数据，提供分辨率更高的数据，另外能够使各种高级应用（如风电功率预测系统）的计算结果具有更高的精度和准确度，为电厂操作员和决策部门做出更优的决策提供参考。

2、本发明能够将实时采集的间歇性能源运行中产生的海量数据存储于HDFS，完成PB（1PB=1024TB=1024*1024GB=1024*1024*1024MB）级别数据的存储，而且数据存储可靠性高，显著提高了数据存储的安全性。

3、本发明利用廉价的商用计算机集群搭建，大大节约了间歇性能源电厂的经济成本。

4、本发明有统一的数据访问接口，能够方便的供其他高级应用调用，提高其他高级应用开发的效率。

附图说明

图1为本发明所述方法的海量数据的存储和处理流程图。

图2为间歇能源海量数据处理平台的原理框图。

图3为主云中枢服务器的原理框图。

图4为主云中枢服务器中的智能单元的原理框图。

图5为智能单元中的主控单元的原理框图。

具体实施方式

（1）首先建立间歇能源海量数据处理平台：

（2）数据采集：

（3）数据存储：

（4）数据处理：

所述Reduce操作是指对具有相同键的键值对进行合并；

由图1可知，间歇性能源海量数据处理流程主要分为海量数据存储和海量数据处理两部分，其中数据存储主要负责存储间歇性能源海量数据并拆分成若干数据分片；数据处理主要通过Map操作和Reduce操作，对间歇性能源海量数据进行处理。

（1）数据存储：将海量的数据存储于HDFS，HDFS是（Hadoop Distributed File System）Hadoop分布式文件系统的缩写，被设计成适合运行在通用硬件上的分布式文件系统，与现有分布式文件系统相比，HDFS有很多优点，例如HDFS是一个高度容错性的系统，适合部署在廉价的服务器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS中数据文件的目录存储于一个服务器，在HDFS中被称为NameNode，对应于图2的主、从云中枢服务器，而具体的文件数据，拆分成若干块，被称为数据分片，冗余的存储在不同服务器，HDFS中被称为DataNode，对应于图2中的11个负载服务器，因此虽然具体的数据存储在不同负载服务器上，但是在逻辑上，对于数据的访问有统一的文件操作API（Application Programming Interface，应用程序编程接口），通过Hadoop提供的一系列API（Application Programming Interface，应用程序编程接口），API是系统提供的一系列函数，以库的形式存在，供用户调用。

（2）数据处理：MapReduce模型对数据的处理是并行处理的，对数据的处理拆分为若干个Map操作和Reduce操作，并被分配到不同的负载服务器上进行计算，因此能够高效快速的处理海量的数据，数据输出可以供人机界面及其他高级应用利用。对于数据如何进行拆分以及如何进行计算，过程比较复杂，为便于理解，通过下面的具体例子进行详细的说明：

以MapReduce模型在某区域性风电场集中风电输出功率预测系统中的应用为例，通过详细说明一个作业的实现过程来介绍MapReduce模型。每一次计算请求称为作业，这里一个作业，指的是一次风电场超短期输出功率预测的执行过程。风电场超短期输出功率预测的基本原理是根据风电场各风机历史功率、风速、风向等参数，先预测风速值，然后根据风速与输出功率的专家系统数据库得出输出功率的预测值，为完成一次功率预测计算请求，首先由客户端（即用户程序）将作业提交给主、从云中枢服务器，然后主、从云中枢服务器自动将其拆分成若干Map 任务和Reduce任务，并分配到不同的负载服务器上执行。Map任务将每台风机一段时间内的历史数据作为自己的输入，经过数据的筛选、计算等过程生成每台风机功率预测数据对：<key，value>，其表示的意义为<风场ID，风机ID，时间，预测功率>；等所有Map任务完成后，系统会生成若干个Reduce任务，将相同风场ID的<key，value>数据进行总结，形成<风场ID，时间，预测功率>格式的数据，进而将Map操作和Reduce操作生成的中间文件汇总到最后的输出文件中去，完成一次作业的执行。

在本实施例中，图3所示的云中枢服务器具有重要的计算机属性和特征，具有CPU、硬盘、内存、外设及接口，并具有操作系统（本实施例使用的是Linux系统）、控制网络和协议。整个机箱采用全钢型机箱，符合工业标准，抗冲击、抗振动、抗电磁干扰，具有长时间工作能力；为便于安装，机箱采用标准4U机箱。下面对主、从云中枢服务器的主要外部接口（参考图2-5）进行说明：

（1）供电接口A，使用标准的220V，50HZ交流电供电。

（2）数据输出接口B，该接口与数据接口总线连接，为外部高级应用访问间歇性能源海量数据处理后的结果提供统一的访问接口。另外在软件上有统一的API（Application Programming Interface，应用程序编程接口），可以使高级应用屏蔽底层数据处理细节，有效降低并行编程难度，提高编程效率。

（3）数据采集接口C，与终端数据总线连接，终端数据计算机上保存有风电、太阳能、天气预报等原始数据，数据的采集支持OPC、Modbus等多种协议，也可通过文件流操作，进行数据的传输，因此适用性广。

（4）主从切换接口D，一般情况下为了保证系统的可靠性，云中枢服务器设置为主、从两台，通过主从切换接口D保持实时通讯。在正常情况下，主云中枢服务器对数据的存储和处理进行统一的调度；当主云中枢服务器发生故障时会自动切换至从云中枢服务器。

（5）第1至第11接口：为标准的RJ-45接口，通过负载总线分别与第1至第11负载服务器通讯。主、从云中枢服务器仅仅作为整个系统的中枢，对数据的存储和处理进行统一的调度，而具体的数据存储和处理由第1至第11负载服务器完成。各个负载服务器可以采用廉价的商用计算机集群，有效的节约了经济成本。对于数据存储而言，主、从云中枢服务器相当于Hadoop中NameNode，而各个负载服务器相当于Hadoop中的DataNode。主、从云中枢服务器和各负载服务器共同完成间歇性能源海量数据的存储与分布式计算。

（6）扩展接口EX（见图2-5）：由于主、从云中枢服务器的第1至第11接口只能够连接11台负载服务器，但是随着数据量的增大，11台负载服务器不足以完成海量数据的存储和处理时，可以通过扩展接口EX，增加扩展卡，进而部署更多的负载服务器。

间歇性能源终端数据通过终端数据总线与主、从云中枢服务器进行通信，其中终端数据文件位于各个终端数据计算机上，主、从云中枢服务器通过数据采集所支持的OPC、Modbus等多种协议，通过主、从云中枢服务器的数据采集接口C进行通讯，利用已有的API，完成数据的采集；主、从云中枢服务器与各负载服务器共同完成间歇性能源海量数据的存储与处理，其中主、从云中枢服务器支持主从切换，当主云中枢服务器出现故障时，能够在短时间内切换到从云中枢服务器，保证了系统的可靠性，主从切换通过主、从云中枢服务器的主从切换接口D保持实时通讯；各负载服务器通过负载总线与主、从云中枢服务器进行通讯，通过主、从云中枢服务器的第1至第11端口，采用TCP/IP协议，负载服务器的数量可以随着间歇性能源数据量的增加适当的增加，当负载服务器数量超过11个后，可以通过主、从云中枢服务器的扩展接口EX增加扩展卡，进而增加负载服务器，以应对更大规模的数据处理；处理后的数据通过数据输出接口B与数据接口总线连接，为各种高级应用提供易于使用的数据访问接口。

在图3-5中，主、从云中枢服务器内部各个组件通过内部总线连接，这样便于内部各个部件和设备的扩充，统一的总线标准可以很容易使不同设备间实现互联互通。主、从云中枢服务器作为整个系统的中枢，完成对数据存储和处理的统一调度。

（1）CPU

CPU由运算器和控制器两部分组成，主要完成处理指令、执行操作、控制时间、处理数据功能，其中处理指令是指控制程序中指令的执行顺序。程序中的各指令之间是有严格顺序的，必须严格按程序规定的顺序执行，才能保证主、从云中枢服务器工作的正确性；执行操作表示一条指令的功能往往是由主、从云中枢服务器中的各个部件执行一系列的操作来实现的，CPU要根据指令的功能，产生相应的操作控制信号，发给相应的部件，从而控制这些部件按指令的要求进行动作；控制时间就是对各种操作实施时间上的定时，在一条指令的执行过程中，在什么时间做什么操作均应受到严格的控制，只有这样，主、从云中枢服务器才能有条不紊地工作；处理数据即对数据进行算术运算和逻辑运算，或进行其他的信息处理，其功能主要是解释主、从云中枢服务器指令以及处理主、从云中枢服务器中的数据，并执行指令，一些通用的服务器CPU均可以采用，本实施例采用的是Intel Xeon E5-2650。

（2）第一存储单元

第一存储单元主要由内存和辅助存储器组成，内存是主、从云中枢服务器中与CPU进行沟通的桥梁，主、从云中枢服务器中所有程序的运行都是在内存中进行的。一些通用的服务器内存均可以采用，本实施例采用的是ECC DDR3内存。ECC是一种新的内存纠错技术，在普通的内存上，以前常常使用一种技术，即Parity，同位检查码（Parity check codes）被广泛地使用在侦错码上，它们增加一个检查位给每个字节，并且能够侦测到一个字节中所有奇（偶）同位的错误，但Parity有一个缺点，当计算机查到某个位有错误时，并不能确定错误在哪一个位，因此也就无法修正错误。基于上述情况，产生了一种新的内存纠错技术，那就是ECC，因此本实施例采用ECC DDR3内存，使主、从云中枢服务器具有很好的纠错能力。

辅助存储器用来存放数据文件，可以采用常用的SATA硬盘或移动存储设备即可。

（3）电源模块

电源模块为主、从云中枢服务器中CPU、第一存储单元、智能单元等部件的正常运行供电，电源模块保证了工作电源满足系统的各项要求，具体如下：

①电源：单相220VAC+10%~220VAC-15%

②频率：50HZ

③波形失真率：小于3%

（4）智能单元（见图4、5）

智能单元是云中枢服务器一个很重要的组成部分，云中枢服务器与终端数据

总线、数据接口总线、负载总线的连接以及主、从云中枢服务器的切换，均需要通过智能单元来完成。

在图4、5中，智能单元内部主要由主控单元和第二存储单元组成，下面对主控单元和第二存储单元进行详细的介绍。

①主控单元

主、从云中枢服务器与终端数据总线、数据接口总线、负载总线的连接，均是通过智能单元中的主控单元来完成。另外主控单元也用来与主、从云中枢服务器的CPU和第一存储单元进行通信，完成主、从云中枢服务器的调度，并且可以对主、从云中枢服务器的第一存储单元中数据进行操作。主控单元采用嵌入式无风扇设计，超低功耗运行。

②第二存储单元

第二存储单元主要由ROM、RAM、Flash等组成。用来辅助主控单元，完成各个操作指令的执行，并保存主、从云中枢服务器与终端数据总线、数据接口总线、负载总线通信过程中的实时运行信息以及主控单元状态信息，并实时保存主、从云中枢运行状态，为主、从云中枢服务器切换提供依据。

Claims

1.一种间歇性能源海量数据的处理方法，其特征在于步骤如下；

（1）首先建立间歇能源海量数据处理平台：

所述智能单元由主控单元、第二存储单元、第一内部总线和第二内部总线组成；所述主控单元为嵌入式32位处理器，所述主控单元与第二存储单元相连接，所述主控单元的相应接口通过第一内部总线分别与所述主云中枢服务器的第1至第11接口相连接，所述主控单元的相应接口通过第二内部总线分别与主云中枢服务器的数据输出接口B、数据采集接口C、主从切换接口D相连接；所述主控单元分别与所述第一存储单元和所述CPU相连接；

（2）数据采集：

（3）数据存储：

（4）数据处理：

所述Reduce操作是指对具有相同键的键值对进行合并；

2.根据权利要求1所述间歇性能源海量数据处理方法，其特征在于所述CPU的型号为Intel Xeon E5-2650；所述第一存储单元由内存和辅助存储器组成，所述内存的型号为ECC DDR3，所述辅助存储器为SATA硬盘或移动存储器；所述电源模块的型号为94Y6668。

3.根据权利要求1所述的间歇性能源海量数据处理方法，其特征在于所述嵌入式32位处理器的型号为ARM9，所述第二存储单元的型号为DDR2+SDHC。