CN111914009B - 一种基于PySpark的储能数据计算和分析方法 - Google Patents

一种基于PySpark的储能数据计算和分析方法 Download PDF

Info

Publication number
CN111914009B
CN111914009B CN202010648093.4A CN202010648093A CN111914009B CN 111914009 B CN111914009 B CN 111914009B CN 202010648093 A CN202010648093 A CN 202010648093A CN 111914009 B CN111914009 B CN 111914009B
Authority
CN
China
Prior art keywords
data
energy storage
pyspark
calculation
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010648093.4A
Other languages
English (en)
Other versions
CN111914009A (zh
Inventor
尚德华
谢思奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aopu Shanghai New Energy Co Ltd
Original Assignee
Aopu Shanghai New Energy Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aopu Shanghai New Energy Co Ltd filed Critical Aopu Shanghai New Energy Co Ltd
Priority to CN202010648093.4A priority Critical patent/CN111914009B/zh
Publication of CN111914009A publication Critical patent/CN111914009A/zh
Application granted granted Critical
Publication of CN111914009B publication Critical patent/CN111914009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输。

Description

一种基于PySpark的储能数据计算和分析方法
技术领域
本发明涉及海量数据的处理和分析技术领域,具体为一种基于PySpark的储能数据计算和分析方法。
背景技术
近年来,随着信息技术的发展,传统的能源行业开始以信息化、智能化的特点进行转变。而对于储能领域,对于数据的实时性和准确性的要求也越来越高,随着时间精度的提高,电厂运行时产生的数据量级也随之水涨船高,面对海量数据时,内存需求无法满足计算,因此需要及时构建一个基于大数据处理的平台,实现海量数据的处理和分析。
为此,本专利采用了一种基于spark的python库PySpark,并通过web平台实现,完成对储能数据的分析和处理。
发明内容
本发明的目的在于提供一种基于PySpark的储能数据计算和分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。
优选的,所述数据采集采集电厂储能数据。
优选的,所述数据转换将数据转换为Restfulapi的形式,通过接口发送。
优选的,所述数据储存根据采集数据的时标进行数据存储入数据库。
优选的,所述读取数据通过Sparkdataframe读取数据库数据。
优选的,所述数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零。
优选的,所述数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion。
优选的,所述数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理。
优选的,所述数据权重分配加入时间特征值,对RDD中数据进行数据权重分配。
优选的,所述数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果。
与现有技术相比,本发明的有益效果如下:该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输;PySpark是为了让ApacheSpark支持python语言的python第三方库,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,也是目前最流行的大数据处理框架之一;其主要内容包含了SparkCore和SparkSQL等;RDD弹性分布式数据集分布是Spark的一个重要功能,属于Spark的基本数据类型,具有分区、只读和并行的特性。
附图说明
图1为本发明工作流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于PySpark的储能数据计算和分析方法,储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算,数据采集采集电厂储能数据,数据转换将数据转换为Restfulapi的形式,通过接口发送,数据储存根据采集数据的时标进行数据存储入数据库,读取数据通过Sparkdataframe读取数据库数据,数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零,数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion,数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理,数据权重分配加入时间特征值,对RDD中数据进行数据权重分配,数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果;
由于储能数据都带有时标,故本专利采用了线性回归算法对储能数据进行以测计算分析。线性回归归根结底拟合一个因变量与一个自变量之间的线性关系y=f(x),其方法包含了BGD(批量梯度下降法),SGD(随机梯度下降),MGBD(小批量梯度下降法)等。而在其中,SGD算法只采用一个数据作为权重进行数据迭代和更新,正好契合储能领域权重数据的单一特性,故本文采用SGD算法进行回归,其算法如下所示:
目标函数的损失函数通常取各个样本损失函数的平均,那么假设目标函数为:
Figure GDA0004002008420000031
其中J(x)是第xi个样本的目标函数,那么目标函数在x处的梯度为:
Figure GDA0004002008420000041
随机梯度下降的思想就是随机采样一个样本J(xi)来更新参数,那么计算开销就从O(n)下降到O(1);
运用PySpark使用LinearRegressionWithSGD回归预测消纳比例;
其中,data是父级RDD数据,Point是根据时间段分出的节点,Consumptiondata是根据节点得出的分布式子级RDD数据集,weight是权重,LinearRegressionWithSGD是PySpark的SGD算法函数。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于PySpark的储能数据计算和分析方法,其特征在于,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算;
所述数据采集采集电厂储能数据;
所述数据转换将数据转换为Restfulapi的形式,通过接口发送;
所述数据储存根据采集数据的时标进行数据存储入数据库;
所述读取数据通过Sparkdataframe读取数据库数据;
所述数据预处理通过dataframe对采集数据进行数据预处理;
所述数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion;
所述数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理;
所述数据权重分配加入时间特征值,对RDD中数据进行数据权重分配;
所述数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果;
所述线性回归采用SGD算法,算法如下:
目标函数的损失函数取各个样本损失函数的平均,那么假设目标函数为:
Figure FDA0004002008410000021
其中:J( xi) 是第xi个样本的目标函数,n为样本的总数量;
那么目标函数在x处的梯度为:
Figure FDA0004002008410000022
其中:
Figure FDA0004002008410000023
是第xi个样本的目标函数的梯度,n为样本的总数量。
CN202010648093.4A 2020-07-07 2020-07-07 一种基于PySpark的储能数据计算和分析方法 Active CN111914009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010648093.4A CN111914009B (zh) 2020-07-07 2020-07-07 一种基于PySpark的储能数据计算和分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010648093.4A CN111914009B (zh) 2020-07-07 2020-07-07 一种基于PySpark的储能数据计算和分析方法

Publications (2)

Publication Number Publication Date
CN111914009A CN111914009A (zh) 2020-11-10
CN111914009B true CN111914009B (zh) 2023-02-24

Family

ID=73227598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010648093.4A Active CN111914009B (zh) 2020-07-07 2020-07-07 一种基于PySpark的储能数据计算和分析方法

Country Status (1)

Country Link
CN (1) CN111914009B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612823B (zh) * 2020-12-14 2022-07-19 南京铁道职业技术学院 一种基于PySpark和Pandas融合的大数据时序分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Spark的融合通信大数据分析关键技术的设计与实现;王培培;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第01期);第12-43页 *

Also Published As

Publication number Publication date
CN111914009A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN112382352B (zh) 基于机器学习的金属有机骨架材料结构特征快速评估方法
CN110503256B (zh) 基于大数据技术的短期负荷预测方法及系统
CN111178587B (zh) 一种基于spark框架的短期电力负荷快速预测方法
CN113505534B (zh) 一种考虑需求响应的负荷预测方法
CN107729555B (zh) 一种海量大数据分布式预测方法及系统
CN103473621A (zh) 风电场短期功率预测方法
CN111814956A (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
CN113159102B (zh) 一种多时间尺度的光伏功率预测方法及系统
CN114792156A (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和系统
CN111950620A (zh) 基于DBSCAN和K-means算法的用户筛选方法
CN112766537B (zh) 一种短期电负荷预测方法
CN111008726A (zh) 一种电力负荷预测中类图片转换方法
CN111985845B (zh) 一种异构Spark集群的节点优先级调优方法
CN111914009B (zh) 一种基于PySpark的储能数据计算和分析方法
CN115115090A (zh) 一种基于改进lstm-cnn的风功率短期预测方法
CN115545333A (zh) 一种多负荷日类型配电网负荷曲线预测方法
CN109460893B (zh) 一种光伏电站天气类型相关性指标计算方法和系统
CN110019167B (zh) 一种中长期新能源资源资料库构建方法及系统
CN114298132A (zh) 风电功率预测方法及装置、电子设备
Bai et al. Dnnabacus: Toward accurate computational cost prediction for deep neural networks
CN112765746B (zh) 基于多项式混沌的涡轮叶顶气热性能不确定性量化系统
CN113808681A (zh) 基于SHAP-CatBoost快速预测ABO3型钙钛矿材料比表面积的方法及其系统
CN113947237A (zh) 一种基于ams-tcn的风电功率误差修正方法
CN106407620B (zh) 一种基于abaqus的工程结构响应面随机有限元分析处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A PySpark based method for calculating and analyzing energy storage data

Granted publication date: 20230224

Pledgee: Agricultural Bank of China Limited Shanghai Huangpu Sub branch

Pledgor: Aopu (Shanghai) new energy Co.,Ltd.

Registration number: Y2024310000206