CN111914009B - 一种基于PySpark的储能数据计算和分析方法 - Google Patents
一种基于PySpark的储能数据计算和分析方法 Download PDFInfo
- Publication number
- CN111914009B CN111914009B CN202010648093.4A CN202010648093A CN111914009B CN 111914009 B CN111914009 B CN 111914009B CN 202010648093 A CN202010648093 A CN 202010648093A CN 111914009 B CN111914009 B CN 111914009B
- Authority
- CN
- China
- Prior art keywords
- data
- energy storage
- pyspark
- calculation
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000013500 data storage Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 15
- 238000012417 linear regression Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输。
Description
技术领域
本发明涉及海量数据的处理和分析技术领域,具体为一种基于PySpark的储能数据计算和分析方法。
背景技术
近年来,随着信息技术的发展,传统的能源行业开始以信息化、智能化的特点进行转变。而对于储能领域,对于数据的实时性和准确性的要求也越来越高,随着时间精度的提高,电厂运行时产生的数据量级也随之水涨船高,面对海量数据时,内存需求无法满足计算,因此需要及时构建一个基于大数据处理的平台,实现海量数据的处理和分析。
为此,本专利采用了一种基于spark的python库PySpark,并通过web平台实现,完成对储能数据的分析和处理。
发明内容
本发明的目的在于提供一种基于PySpark的储能数据计算和分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。
优选的,所述数据采集采集电厂储能数据。
优选的,所述数据转换将数据转换为Restfulapi的形式,通过接口发送。
优选的,所述数据储存根据采集数据的时标进行数据存储入数据库。
优选的,所述读取数据通过Sparkdataframe读取数据库数据。
优选的,所述数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零。
优选的,所述数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion。
优选的,所述数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理。
优选的,所述数据权重分配加入时间特征值,对RDD中数据进行数据权重分配。
优选的,所述数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果。
与现有技术相比,本发明的有益效果如下:该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输;PySpark是为了让ApacheSpark支持python语言的python第三方库,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,也是目前最流行的大数据处理框架之一;其主要内容包含了SparkCore和SparkSQL等;RDD弹性分布式数据集分布是Spark的一个重要功能,属于Spark的基本数据类型,具有分区、只读和并行的特性。
附图说明
图1为本发明工作流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于PySpark的储能数据计算和分析方法,储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算,数据采集采集电厂储能数据,数据转换将数据转换为Restfulapi的形式,通过接口发送,数据储存根据采集数据的时标进行数据存储入数据库,读取数据通过Sparkdataframe读取数据库数据,数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零,数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion,数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理,数据权重分配加入时间特征值,对RDD中数据进行数据权重分配,数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果;
由于储能数据都带有时标,故本专利采用了线性回归算法对储能数据进行以测计算分析。线性回归归根结底拟合一个因变量与一个自变量之间的线性关系y=f(x),其方法包含了BGD(批量梯度下降法),SGD(随机梯度下降),MGBD(小批量梯度下降法)等。而在其中,SGD算法只采用一个数据作为权重进行数据迭代和更新,正好契合储能领域权重数据的单一特性,故本文采用SGD算法进行回归,其算法如下所示:
目标函数的损失函数通常取各个样本损失函数的平均,那么假设目标函数为:
其中J(x)是第xi个样本的目标函数,那么目标函数在x处的梯度为:
随机梯度下降的思想就是随机采样一个样本J(xi)来更新参数,那么计算开销就从O(n)下降到O(1);
运用PySpark使用LinearRegressionWithSGD回归预测消纳比例;
其中,data是父级RDD数据,Point是根据时间段分出的节点,Consumptiondata是根据节点得出的分布式子级RDD数据集,weight是权重,LinearRegressionWithSGD是PySpark的SGD算法函数。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (1)
1.一种基于PySpark的储能数据计算和分析方法,其特征在于,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算;
所述数据采集采集电厂储能数据;
所述数据转换将数据转换为Restfulapi的形式,通过接口发送;
所述数据储存根据采集数据的时标进行数据存储入数据库;
所述读取数据通过Sparkdataframe读取数据库数据;
所述数据预处理通过dataframe对采集数据进行数据预处理;
所述数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion;
所述数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理;
所述数据权重分配加入时间特征值,对RDD中数据进行数据权重分配;
所述数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果;
所述线性回归采用SGD算法,算法如下:
目标函数的损失函数取各个样本损失函数的平均,那么假设目标函数为:
其中:J( xi) 是第xi个样本的目标函数,n为样本的总数量;
那么目标函数在x处的梯度为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648093.4A CN111914009B (zh) | 2020-07-07 | 2020-07-07 | 一种基于PySpark的储能数据计算和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648093.4A CN111914009B (zh) | 2020-07-07 | 2020-07-07 | 一种基于PySpark的储能数据计算和分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914009A CN111914009A (zh) | 2020-11-10 |
CN111914009B true CN111914009B (zh) | 2023-02-24 |
Family
ID=73227598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010648093.4A Active CN111914009B (zh) | 2020-07-07 | 2020-07-07 | 一种基于PySpark的储能数据计算和分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914009B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612823B (zh) * | 2020-12-14 | 2022-07-19 | 南京铁道职业技术学院 | 一种基于PySpark和Pandas融合的大数据时序分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897411A (zh) * | 2017-02-20 | 2017-06-27 | 广东奡风科技股份有限公司 | 基于Spark技术的ETL系统及其方法 |
CN109669987A (zh) * | 2018-12-13 | 2019-04-23 | 国网河北省电力有限公司石家庄供电分公司 | 一种大数据存储优化方法 |
-
2020
- 2020-07-07 CN CN202010648093.4A patent/CN111914009B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897411A (zh) * | 2017-02-20 | 2017-06-27 | 广东奡风科技股份有限公司 | 基于Spark技术的ETL系统及其方法 |
CN109669987A (zh) * | 2018-12-13 | 2019-04-23 | 国网河北省电力有限公司石家庄供电分公司 | 一种大数据存储优化方法 |
Non-Patent Citations (1)
Title |
---|
基于Spark的融合通信大数据分析关键技术的设计与实现;王培培;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第01期);第12-43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914009A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382352B (zh) | 基于机器学习的金属有机骨架材料结构特征快速评估方法 | |
CN110503256B (zh) | 基于大数据技术的短期负荷预测方法及系统 | |
CN111178587B (zh) | 一种基于spark框架的短期电力负荷快速预测方法 | |
CN113505534B (zh) | 一种考虑需求响应的负荷预测方法 | |
CN107729555B (zh) | 一种海量大数据分布式预测方法及系统 | |
CN103473621A (zh) | 风电场短期功率预测方法 | |
CN111814956A (zh) | 一种基于多维度二次特征提取的多任务学习的空气质量预测方法 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN113159102B (zh) | 一种多时间尺度的光伏功率预测方法及系统 | |
CN114792156A (zh) | 基于曲线特征指标聚类的光伏输出功率预测方法和系统 | |
CN111950620A (zh) | 基于DBSCAN和K-means算法的用户筛选方法 | |
CN112766537B (zh) | 一种短期电负荷预测方法 | |
CN111008726A (zh) | 一种电力负荷预测中类图片转换方法 | |
CN111985845B (zh) | 一种异构Spark集群的节点优先级调优方法 | |
CN111914009B (zh) | 一种基于PySpark的储能数据计算和分析方法 | |
CN115115090A (zh) | 一种基于改进lstm-cnn的风功率短期预测方法 | |
CN115545333A (zh) | 一种多负荷日类型配电网负荷曲线预测方法 | |
CN109460893B (zh) | 一种光伏电站天气类型相关性指标计算方法和系统 | |
CN110019167B (zh) | 一种中长期新能源资源资料库构建方法及系统 | |
CN114298132A (zh) | 风电功率预测方法及装置、电子设备 | |
Bai et al. | Dnnabacus: Toward accurate computational cost prediction for deep neural networks | |
CN112765746B (zh) | 基于多项式混沌的涡轮叶顶气热性能不确定性量化系统 | |
CN113808681A (zh) | 基于SHAP-CatBoost快速预测ABO3型钙钛矿材料比表面积的方法及其系统 | |
CN113947237A (zh) | 一种基于ams-tcn的风电功率误差修正方法 | |
CN106407620B (zh) | 一种基于abaqus的工程结构响应面随机有限元分析处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A PySpark based method for calculating and analyzing energy storage data Granted publication date: 20230224 Pledgee: Agricultural Bank of China Limited Shanghai Huangpu Sub branch Pledgor: Aopu (Shanghai) new energy Co.,Ltd. Registration number: Y2024310000206 |