CN111914009B

CN111914009B - 一种基于PySpark的储能数据计算和分析方法

Info

Publication number: CN111914009B
Application number: CN202010648093.4A
Authority: CN
Inventors: 尚德华; 谢思奇
Original assignee: Aopu Shanghai New Energy Co Ltd
Current assignee: Aopu Shanghai New Energy Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2023-02-24
Anticipated expiration: 2040-07-07
Also published as: CN111914009A

Abstract

本发明公开了一种基于PySpark的储能数据计算和分析方法，所述储能数据计算和分析方法通过web应用框架，将储能系统数据封装为应用于restfulapi接口的形式，将接口数据转换为以PySpark为基础的RDD数据，进行数据处理和分析，所述储能数据计算和分析方法包括以下流程步骤：数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。该基于PySpark的储能数据计算和分析方法，采用Restfulapi进行数据接口的设计，是为了满足如今B/S架构设计平台的需求，通过http协议进行数据传输。

Description

一种基于PySpark的储能数据计算和分析方法

技术领域

本发明涉及海量数据的处理和分析技术领域，具体为一种基于PySpark的储能数据计算和分析方法。

背景技术

近年来，随着信息技术的发展，传统的能源行业开始以信息化、智能化的特点进行转变。而对于储能领域，对于数据的实时性和准确性的要求也越来越高，随着时间精度的提高，电厂运行时产生的数据量级也随之水涨船高，面对海量数据时，内存需求无法满足计算，因此需要及时构建一个基于大数据处理的平台，实现海量数据的处理和分析。

为此，本专利采用了一种基于spark的python库PySpark，并通过web平台实现，完成对储能数据的分析和处理。

发明内容

本发明的目的在于提供一种基于PySpark的储能数据计算和分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于PySpark的储能数据计算和分析方法，所述储能数据计算和分析方法通过web应用框架，将储能系统数据封装为应用于restfulapi接口的形式，将接口数据转换为以PySpark为基础的RDD数据，进行数据处理和分析，所述储能数据计算和分析方法包括以下流程步骤：数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。

优选的，所述数据采集采集电厂储能数据。

优选的，所述数据转换将数据转换为Restfulapi的形式，通过接口发送。

优选的，所述数据储存根据采集数据的时标进行数据存储入数据库。

优选的，所述读取数据通过Sparkdataframe读取数据库数据。

优选的，所述数据预处理通过dataframe对采集数据进行数据预处理，例如数据列的处理、数据行的增添、数据去错、数据除零。

优选的，所述数据生成将dataframe的数据转换为父级SparkRDD数据格式，而后根据时间节点，生成各个子级RDD的partion。

优选的，所述数据归一化将RDD的数据除了时间数据外，对剩余数据进行归一化处理和正则化处理。

优选的，所述数据权重分配加入时间特征值，对RDD中数据进行数据权重分配。

优选的，所述数据分类计算根据权重分配后的数据，利用线性回归对数据进行分类和计算，得出需要的结果。

与现有技术相比，本发明的有益效果如下：该基于PySpark的储能数据计算和分析方法，采用Restfulapi进行数据接口的设计，是为了满足如今B/S架构设计平台的需求，通过http协议进行数据传输；PySpark是为了让ApacheSpark支持python语言的python第三方库，ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎，也是目前最流行的大数据处理框架之一；其主要内容包含了SparkCore和SparkSQL等；RDD弹性分布式数据集分布是Spark的一个重要功能，属于Spark的基本数据类型，具有分区、只读和并行的特性。

附图说明

图1为本发明工作流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于PySpark的储能数据计算和分析方法，储能数据计算和分析方法通过web应用框架，将储能系统数据封装为应用于restfulapi接口的形式，将接口数据转换为以PySpark为基础的RDD数据，进行数据处理和分析，储能数据计算和分析方法包括以下流程步骤：数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算，数据采集采集电厂储能数据，数据转换将数据转换为Restfulapi的形式，通过接口发送，数据储存根据采集数据的时标进行数据存储入数据库，读取数据通过Sparkdataframe读取数据库数据，数据预处理通过dataframe对采集数据进行数据预处理，例如数据列的处理、数据行的增添、数据去错、数据除零，数据生成将dataframe的数据转换为父级SparkRDD数据格式，而后根据时间节点，生成各个子级RDD的partion，数据归一化将RDD的数据除了时间数据外，对剩余数据进行归一化处理和正则化处理，数据权重分配加入时间特征值，对RDD中数据进行数据权重分配，数据分类计算根据权重分配后的数据，利用线性回归对数据进行分类和计算，得出需要的结果；

由于储能数据都带有时标，故本专利采用了线性回归算法对储能数据进行以测计算分析。线性回归归根结底拟合一个因变量与一个自变量之间的线性关系y＝f(x)，其方法包含了BGD(批量梯度下降法),SGD(随机梯度下降),MGBD(小批量梯度下降法)等。而在其中，SGD算法只采用一个数据作为权重进行数据迭代和更新，正好契合储能领域权重数据的单一特性，故本文采用SGD算法进行回归，其算法如下所示：

目标函数的损失函数通常取各个样本损失函数的平均，那么假设目标函数为：

其中J(x)是第x_i个样本的目标函数，那么目标函数在x处的梯度为：

随机梯度下降的思想就是随机采样一个样本J(x_i)来更新参数，那么计算开销就从O(n)下降到O(1)；

运用PySpark使用LinearRegressionWithSGD回归预测消纳比例；

其中，data是父级RDD数据，Point是根据时间段分出的节点，Consumptiondata是根据节点得出的分布式子级RDD数据集，weight是权重，LinearRegressionWithSGD是PySpark的SGD算法函数。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于PySpark的储能数据计算和分析方法，其特征在于，所述储能数据计算和分析方法通过web应用框架，将储能系统数据封装为应用于restfulapi接口的形式，将接口数据转换为以PySpark为基础的RDD数据，进行数据处理和分析，所述储能数据计算和分析方法包括以下流程步骤：数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算；

所述数据采集采集电厂储能数据；

所述数据转换将数据转换为Restfulapi的形式，通过接口发送；

所述数据储存根据采集数据的时标进行数据存储入数据库；

所述读取数据通过Sparkdataframe读取数据库数据；

所述数据预处理通过dataframe对采集数据进行数据预处理；

所述数据生成将dataframe的数据转换为父级SparkRDD数据格式，而后根据时间节点，生成各个子级RDD的partion；

所述数据归一化将RDD的数据除了时间数据外，对剩余数据进行归一化处理和正则化处理；

所述数据权重分配加入时间特征值，对RDD中数据进行数据权重分配；

所述数据分类计算根据权重分配后的数据，利用线性回归对数据进行分类和计算，得出需要的结果；

所述线性回归采用SGD算法，算法如下：

目标函数的损失函数取各个样本损失函数的平均，那么假设目标函数为：

其中：J( x_i) 是第x_i个样本的目标函数，n为样本的总数量；

那么目标函数在x处的梯度为：

其中：

是第x_i个样本的目标函数的梯度，n为样本的总数量。