CN115330048A - 基于强化学习的云边架构下负荷需求响应优化方法及装置 - Google Patents

基于强化学习的云边架构下负荷需求响应优化方法及装置 Download PDF

Info

Publication number
CN115330048A
CN115330048A CN202210961002.1A CN202210961002A CN115330048A CN 115330048 A CN115330048 A CN 115330048A CN 202210961002 A CN202210961002 A CN 202210961002A CN 115330048 A CN115330048 A CN 115330048A
Authority
CN
China
Prior art keywords
network
cloud
response
reinforcement learning
demand response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210961002.1A
Other languages
English (en)
Inventor
孔祥玉
孙方圆
刘超
张曦元
高洪超
张培榕
陈启鑫
刘建存
李微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tianjin University
Tianjin University of Technology
Original Assignee
Tsinghua University
Tianjin University
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tianjin University, Tianjin University of Technology filed Critical Tsinghua University
Priority to CN202210961002.1A priority Critical patent/CN115330048A/zh
Publication of CN115330048A publication Critical patent/CN115330048A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于强化学习的云边架构下负荷需求响应优化方法及装置,方法包括:在边缘侧计算设备中建立LSTM神经网络模型模拟电力用户参与响应行为,在边缘设备中建立基于A3C强化学习的分布式优化控制网络,通过与训练后的LSTM神经网络模型进行交互,计算优化控制网络参数调整值,并将参数调整值通过通信线路上传至云端控制中心,修正云端的全局优化控制网络;将修正后的云端的全局优化控制网络用于实际电力需求响应的实施中,根据电网运行需求通过补偿价格对用户进行间接控制,同时边缘侧不断收集电力用户实际参与响应的数据,对云端的全局优化控制网络进行定期更新。装置包括:处理器和存储器。本发明缓解电力系统实际实施上的信息通信线路混乱、数据利用不充分等问题。

Description

基于强化学习的云边架构下负荷需求响应优化方法及装置
技术领域
本发明涉及电气信息领域,具体是一种基于强化学习的云边架构下负荷需求响应优化方法及装置。
背景技术
随着电气化的不断发展,用户的用电需求的日渐增加,并呈现大峰谷差、强波动性的特点。为保证电力系统在高峰时刻电能的供应以及电网的平稳运行,通过需求响应,可降低负荷侧用电需求的波动与峰谷差。需求响应主要根据各类用户信息,通过电价或补偿价格等手段对用户行为进行间接控制,使用户按照电网需要改变其用能需求。
随着电力物联网的建设,电力系统运行逐渐采用“云边”架构,通过在负荷侧增设负荷控制器、智能网关、智能电表等边缘侧设备,将大量信息在负荷侧通过边缘计算设备进行初步运算,并将经过处理的信息上传至云端控制中心。如何在云边架构下实施需求响应,成为需要关注的技术热点。
发明内容
本发明提供了一种基于强化学习的云边架构下负荷需求响应优化方法及装置,本发明通过强化学习解决需求响应优化控制中前瞻性不足的问题;通过分布式学习、集中式控制的结构实现用户信息的就地利用,同时缓解电力系统实际实施上的信息通信线路混乱、数据利用不充分等问题,详见下文描述:
第一方面,一种基于强化学习的云边架构下负荷需求响应优化方法,所述方法包括:
在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集,并存储于边缘侧数据存储设备中;
在边缘侧计算设备中建立LSTM神经网络模型模拟电力用户参与响应行为,并调用存储设备中的历史数据集对LSTM神经网络模型进行训练;
在边缘设备中建立基于A3C强化学习的分布式优化控制网络,通过与训练后的LSTM神经网络模型进行交互,计算优化控制网络参数调整值,并将参数调整值通过通信线路上传至云端控制中心,修正云端的全局优化控制网络;
将修正后的云端的全局优化控制网络用于实际电力需求响应的实施中,根据电网运行需求通过补偿价格对用户进行间接控制,同时边缘侧不断收集电力用户实际参与响应的数据,对云端的全局优化控制网络进行定期更新。
其中,所述在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集具体为:
Figure BDA0003793050110000021
其中,xt为t时段制定的响应补偿价格;dt为t时段用户的实际响应;
Figure BDA0003793050110000022
xt为响应补偿价格上下限;dmin和dmax为所有数据中的最大和最小响应值;
历史数据集的建立形式如下所示:
Η={(R1,d1),(R2,d2),…,(Rt-1,dt-1),(Rt,dt)}
Rt={(xt-m,dt-m),(xt-m+1,dt-m+1),…,(xt-1,dt-1)}
其中,H为历史数据集;Rt为t时刻用户响应相关信息集;m为Rt中历史信息的数量。
进一步地,所述LSTM神经网络模型为:
LSTM网络记为Aii=1,2,…,T;当预测进行到第n天时,时段t的形式可记为t=nT+i,T为一天内实施需求响应的小时数;每个LSTM网络输入数据包括:响应补偿价格xnT+i和相关信息集RnT+i,输出为t时段的用户响应行为预测dnT+i
其中,所述在边缘设备中建立基于A3C强化学习的分布式优化控制网络具体为:
建立用于优化控制网络训练的马尔科夫过程;建立用于A3C算法的优化控制网络;对优化控制网络进行分布式更新。
进一步地,所述建立用于A3C算法的优化控制网络分为Actor网络和Critic网络,
电网将需求响应时段的状态st输入至Actor网络和Critic网络中,Actor网络输出控制策略π,为可行区域内补偿价格的概率分布,该概率分布选取正态分布,Actor网络输出的实际数值为正态分布的均值μ和σ,具体如下式所示:
Figure BDA0003793050110000023
在模拟训练过程中,算法按照Actor网络输出的正态分布随机筛选价格,该筛选可能无法保证始终选取最优价格,但可以扩展探索空间,促进训练寻优过程,训练结束后,选取正态分布均值为最优价格,保证决策的最优性;
Critic网络输出为t时段到当天最后时段的收益期望V(st),该期望值综合考虑了当前时段收益和后续时段可能获得的收益。
其中,所述对优化控制网络进行分布式更新为:
每个边缘计算设备处存在Actor网络、Critic网络各一个和基于LSTM的虚拟环境,三者之间通过交互计算优化控制网络的更新梯度,并上传至云端控制中心,如下所示:
δ=rt+γV(st+1)-V(st)
Figure BDA0003793050110000031
Figure BDA0003793050110000032
其中,γ为折扣因子,范围为[0,1];ω为Critic网络参数;θ为Actor网络参数;α,β为学习率;V(st+1)为t时段算法评估的收益期望,δ为中间变量。
所述电力用户的信息仅用于LSTM神经网络模型的训练以及更新梯度的计算,并仅将更新后的梯度上传至云端控制中心,实现了用户数据的就地应用和隐私保护。
第二方面、一种基于强化学习的云边架构下负荷需求响应优化装置,所述装置包括:处理器和存储器,
所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明的优化方法,可承载于电网公司营销系统侧平台,应用于价格型需求响应场景下,通过优化需求响应补偿价格的方法间接控制用户用能行为,以根据电网需求实现负荷曲线的削峰填谷,平抑负荷及新能源产生的波动,降低电网运行成本;另一方面,采用补偿价格的方式可避免对用户用能的直接控制,保证用户用能的自由性,提高用户参与的积极性,有助于本发明在实际应用中的更大规模推广;
2、本发明通过基于LSTM网络的虚拟环境进行强化学习,避免将未经充分训练的优化控制网络直接投入现实环境用进行应用、产生较大实施成本,保证算法投入实际使用之初就可以较为准确的实现对负荷调整目标的跟踪;
3、本发明基于A3C算法的分布式强化学习算法不仅在结构上适应云边协同的控制架构,而且具有比集中式算法更好的学习效率,可大大节省实际运行中的学习时间;另一方面,该算法与短视算法相比优化结果具有更好的前瞻性,可平衡当前时段收益与未来获取收益的潜力,从而获取更高的全天收益;
4、本发明通过分布式学习、集中式控制的结构实现用户信息的就地利用,同时缓解电力系统实际实施上的信息通信线路混乱、数据利用不充分等问题。
附图说明
图1为基于强化学习的云边架构下负荷需求响应优化方法的流程图;
图2为用于用户响应行为模拟的LSTM网络结构图;
图3为云边架构下下A3C算法优化控制网络更新结构图;
图4为所提算法的实施详细流程图;
图5为虚拟环境模拟精度在训练过程的变化图;
图6为强化学习训练过程中一天内各个时段的响应偏差比率之和变化图;
图7为强化学习训练过程中一天内各个时段的响应补偿价格变化图;
图8为基于强化学习的云边架构下负荷需求响应优化装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
针对背景技术中的问题1:可以结合云管边端的控制架构,选取分布式强化学习算法对优化控制网络进行训练,使负荷控制器、智能网关等边缘计算设备承担一定的计算过程,以降低云侧计算压力。A3C(Asynchronous advantage actor-critic algorithm)算法是一种分布式结构的强化学习算法,用户数据在负荷侧即可通过与边缘计算设备的互动转化为优化控制网络参数更新信息并上传至云端,在保护用户隐私的前提下实现对用户数据的充分利用。
针对背景技术中的问题2:可采用长短时记忆网络(Long short-term memory,LSTM)对用户响应特性进行学习和模拟,以帮助A3C强化学习算法迅速把握用户行为特征,缩短训练时间。
基于以上分析,本发明实施例提供了一种基于强化学习的云边架构下负荷需求响应优化方法。可通过边缘计算设备与负荷的互动过程训练优化控制网络,同时负荷侧信息仅在边缘侧被利用,不会被上传至云端控制中心,以达到保护用户隐私、分担计算压力的作用。在没有先验经验的情况下,算法可基于现有模型,通过LSTM网络建立虚拟环境,代替实际环境进行基于A3C的训练过程,再将训练后获得的优化控制网络投入实际环境中测试其优化精度,根据测试结果对优化控制网络进行进一步调整。这种方法可避免将未训练完全的优化控制网络直接投入实际应用中,降低算法的实施成本。
电网公司需要根据用户特征对用户参与需求响应的行为进行预测,进一步对需求响应补偿价格进行优化,例如:用户根据电网需求增加或减少其用能,则电网根据响应量和需求响应补偿价格基于用户一定奖励。如何合理优化需求响应价格,以引导用户对其用能需求做出符合电网运行需要的调整,并提高算法的精准性,是需求响应优化控制的关键技术难点。
强化学习过程主要通过与外界环境的互动过程中不断积累经验,不断提高算法的优化能力,属于无模型的优化方法,避免了用户信息缺乏导致模型难以建立的问题。尽管针对基于强化学习的需求响应优化方法已有较多的研究,但在云管边端的环境下,面临两个问题:
问题1:出于隐私保护等方面的考虑,需求响应控制中心往往没有获取用户内部各类设备层面信息的权限,进而导致在决策时无法采集充足的负荷侧相关数据,难以对用户行为特征进行准确充分的分析,导致用户响应不准确和需求响应实施成本的增加。
问题2:需求响应的实施和决策需要实时数据做支撑,这对导致实际用于优化决策的时间很短,如何保证对负荷侧数据充分利用的情况下加快优化决策速度是本发明实施例的另一个难点。
实施例1
本发明实施例以适配本文所述场景,详细实施流程如图1所示。虚拟环境与优化控制网络的建立以及历史数据的更新步骤均由边缘计算设备完成,而云端控制中心对边缘侧传递来的优化控制网络参数更新信息进行汇总,并对优化控制网络进行统一更新;实际需求响应实施中采用云端决策控制网络对电力用户的用电行为进行间接控制。边缘计算设备首先根据用户参与需求响应的历史数据对基于LSTM的神经网络进行训练,用于实现与A3C算法的交互。在该交互过程中,边缘计算设备不断对全局网络进行更新,并且在每一次训练之前将自身网络替换为全局网络。训练结束后,将全局网络用于实际需求响应优化,同时边缘设备收集用户响应信息,对现有算法进行检测,并更新历史信息库,以用于算法的后续更新。上述算法过程将原有的A3C算法的分布式学习、分布式控制的过程改为了分布式学习,集中式控制的过程,易于算法在需求响应这一场景的应用。其中,本发明实施例中优化控制具体通过一对神经网络实现的,输入为当前时段的状态,输出为最优需求响应价格,后文统称该网络为优化控制网络。
具体实施过程如下所示:
S1:在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集,并存储于边缘侧数据存储设备中;
S2:在边缘侧计算设备中建立LSTM神经网络模型模拟电力用户参与响应行为,并调用存储设备中的历史数据集对神经网络进行训练;
S3:在边缘设备中建立基于A3C强化学习算法的分布式优化控制网络,通过与步骤S2中获取的LSTM的神经网络进行交互,计算优化控制网络参数调整值,并将参数调整值通过通信线路上传至云端控制中心,修正云端的全局优化控制网络;
S4:将训练完全的全局优化控制网络用于实际电力需求响应的实施中,根据电网运行需求通过补偿价格对用户进行间接控制,同时边缘侧不断收集电力用户实际参与响应的数据,按照步骤S1、S2、S3对全局优化控制网络进行定期更新。
其中,步骤S1所建立的用户响应行为历史数据集,包括:数据的归一化和历史数据集的建立,数据归一化过程如下所示:
Figure BDA0003793050110000061
其中,xt为t时段制定的响应补偿价格;dt为t时段用户的实际响应;
Figure BDA0003793050110000062
xt为响应补偿价格上下限;dmin和dmax为所有数据中的最大和最小响应值。
历史数据集的建立形式如下所示:
Η={(R1,d1),(R2,d2),…,(Rt-1,dt-1),(Rt,dt)}
Rt={(xt-m,dt-m),(xt-m+1,dt-m+1),…,(xt-1,dt-1)}
其中,H为历史数据集;Rt为t时刻用户响应相关信息集;m为Rt中历史信息的数量。
步骤S2建立用于模拟用户响应行为虚拟环境,故针对每个响应时段,均建立一个LSTM网络,记为Ai(i=1,2,…,T);当预测进行到第n天时,时段t的形式可记为t=nT+i,T为一天内实施需求响应的小时数。每个LSTM网络输入数据包括:响应补偿价格xnT+i和相关信息集RnT+i,输出为t时段的用户响应行为预测dnT+i
实际训练过程中采用均方根误差(Root mean square error,RMSE)作为LSTM网络的损失函数,计算公式为:
Figure BDA0003793050110000071
其中,d和
Figure BDA0003793050110000072
分别代表用户响应量的实际值和预测值。
用平均绝对百分误差(Mean absolute percent error,MAPE)来对LSTM的预测效果进行评价,平均绝对百分误差的计算公式为:
Figure BDA0003793050110000073
其中,步骤S3,基于A3C强化学习算法的分布式优化控制网络,具体包括如下步骤:
步骤S31,建立用于优化控制网络训练的马尔科夫过程;
步骤S32,建立用于A3C算法的优化控制网络;
步骤S33,进行基于A3C算法优化控制网络的分布式更新。
其中,步骤S31,需求响应优化目标函数可表示为:
Figure BDA0003793050110000074
其中,λr,tp,t为t时段电网的需求响应奖励价格以及偏差惩罚价格;dtarget,t为t时段用户的负荷调整目标。
马尔科夫过程中,状态st对应t时段负荷调整目标等信息;动作at对应营销中心采取的响应补偿价格xt;st+1表示采取价格xt之后的状态;奖励rt对应营销中心采取价格xt后一个时段内的获得的收益;具体可表示为:
Figure BDA0003793050110000075
Figure BDA0003793050110000076
st+1=φ(at,st)
rt=(λr,t-xt)dtp,t|dt-dtarget,t|rt=(λr,t-xt)dtp,t|dt-dtarget,t|
其中,φ为环境根据st和at生成st+1的函数;
Figure BDA0003793050110000077
为当日之前时段的用户平均响应值和过去两天同一时段用户平均响应值;
Figure BDA0003793050110000078
为当日之前时段的平均响应价格和过去两天同一时段平均响应价格。
其中,步骤S32,A3C算法的优化控制网络分为Actor网络和Critic网络,在需求响应实施时,电网将需求响应时段的状态st输入至Actor网络和Critic网络中,Actor网络可输出控制策略π,在本专利中为可行区域内补偿价格的概率分布,该概率分布选取正态分布,Actor网络输出的实际数值为正态分布的均值μ和σ,具体如下式所示:
Figure BDA0003793050110000079
在模拟训练过程中,算法按照Actor网络输出的正态分布随机筛选价格,该筛选可能无法保证始终选取最优价格,可以扩展探索空间,促进训练寻优过程,训练结束后,选取正态分布均值为最优价格;
Critic网络输出为t时段到当天最后时段的收益期望V(st),该期望值综合考虑了当前时段收益和后续时段可能获得的收益,可综合短期收益与长期收益,使优化控制具有前瞻性;基于此评价可引导Actor网络对策略π进行调整,以获得最大收益。
其中,步骤S33,整个需求响应优化通过云端控制中心与边缘计算设备共同完成。云端控制中心处优化控制网络为全局网络,包括Actor网络和Critic网络,用于实际需求响应优化;每个边缘计算设处也各存一个在Actor网络、Critic网络和基于LSTM的虚拟环境,三者之间的通过交互计算优化控制网络的更新梯度,并上传至云端控制中心,具体计算公式如下所示:
δ=rt+γV(st+1)-V(st)
Figure BDA0003793050110000081
Figure BDA0003793050110000082
其中,γ为折扣因子,范围为[0,1];ω为Critic网络参数;θ为Actor网络参数;α,β为学习率;V(st+1)为t时段算法评估的收益期望,δ为中间变量。
上式所得网络更新梯度并不用于更新边缘设备的网络,而是上传至云端控制中心更新全局网络,多个边缘设备对于全局网络进行同时更新,每经过一定更新次数,局部网络将被同步为全局网络。在上述信息交互过程中,用户信息仅用于LSTM网络的训练以及更新梯度的计算,上传至云端控制中心的数据仅有网络更新梯度,从而实现了用户数据的就地应用和隐私保护。
实施例2
算例分析初始数据由价格弹性模型生成,用户响应行为受当天各响应补偿价格影响,也受前几天同一时段响应补偿价格的影响。为保证用户多样性,建立1000个用户响应模型并依照正态分布随机生成不同的模型参数,并设置每日需求响应时段数T=5。
本算例中虚拟环境由一个LSTM层和一个全连接层组成的神经网络构成,由于需求响应时段数T=5,故共建立5个LSTM神经网络。对每个LSTM神经网络选取100小时数据进行模型检验,MAPE随训练过程的变化图如图5所示。由图5可知,经过15天的训练即可使LSTM网络具有较高的预测精度,可以代替实际环境进行互动。训练完成后各时段LSTM网络的最终误差均在4%以下。
基于A3C算法的强化学习一天内一天内各个时段的响应偏差比率之和以及各个时段的响应补偿价格如图6、图7所示。由图6中响应偏差的变化过程可知,随着学习进程的推进,各个时段的相应偏差比逐渐趋近于0,相应的一天之内获得的收益也逐渐稳定在500CNY左右,体现出算法具有较高的精度。另外,收益和响应偏差在学习过程中并没有完全收敛至最优值,这主要由于在学习过程中优化控制网络输出的最优价格是根据Actor网络输出的概率分布随机取得的,因此并不能保证每次优化都能取到最优价格,这在图7中的价格波动过程中有所体现:学习过程中算法所取到的价格会在最优价格附近的小范围波动,也有概率取到离最优价格较远的价格。此过程会减缓算法的收敛,但是可以促进算法对于优化空间的探索,防止算法收敛于局部最优解。
实施例3
一种基于强化学习的云边架构下负荷需求响应优化方法,参见图5,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例1中的以下方法步骤:
在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集,并存储于边缘侧数据存储设备中;
在边缘侧计算设备中建立LSTM神经网络模型模拟电力用户参与响应行为,并调用存储设备中的历史数据集对LSTM神经网络模型进行训练;
在边缘设备中建立基于A3C强化学习的分布式优化控制网络,通过与训练后的LSTM神经网络模型进行交互,计算优化控制网络参数调整值,并将参数调整值通过通信线路上传至云端控制中心,修正云端的全局优化控制网络;
将修正后的云端的全局优化控制网络用于实际电力需求响应的实施中,根据电网运行需求通过补偿价格对用户进行间接控制,同时边缘侧不断收集电力用户实际参与响应的数据,对云端的全局优化控制网络进行定期更新。
进一步地,所述LSTM神经网络模型为:
LSTM网络记为Aii=1,2,…,T;当预测进行到第n天时,时段t的形式可记为t=nT+i,T为一天内实施需求响应的小时数;每个LSTM网络输入数据包括:响应补偿价格xnT+i和相关信息集RnT+i,输出为t时段的用户响应行为预测dnT+i
其中,在边缘设备中建立基于A3C强化学习的分布式优化控制网络具体为:
建立用于优化控制网络训练的马尔科夫过程;建立用于A3C算法的优化控制网络;对优化控制网络进行分布式更新。
进一步地,建立用于A3C算法的优化控制网络分为Actor网络和Critic网络,
电网将需求响应时段的状态st输入至Actor网络和Critic网络中,Actor网络输出控制策略π,在需求响应场景下即为可行域内选取各补偿价格的概率分布;
Critic网络输出为t时段到当天最后时段的收益期望V(st),该期望值综合考虑了当前时段收益和后续时段可能获得的收益。
其中,对优化控制网络进行分布式更新为:
每个边缘计算设备处存在Actor网络、Critic网络和基于LSTM的虚拟环境各一个,三者之间通过交互计算优化控制网络的更新梯度,并上传至云端控制中心,如下所示:
δ=rt+γV(st+1)-V(st)
Figure BDA0003793050110000101
Figure BDA0003793050110000102
其中,γ为折扣因子,范围为[0,1];ω为Critic网络参数;θ为Actor网络参数;α,β为学习率;V(st+1)为t时段算法评估的收益期望,δ为中间变量。
电力用户的信息仅用于LSTM神经网络模型的训练以及更新梯度的计算,并仅将更新后的梯度上传至云端控制中心,实现了用户数据的就地应用和隐私保护。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
实施例4
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述方法包括:
在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集,并存储于边缘侧数据存储设备中;
在边缘侧计算设备中建立LSTM神经网络模型模拟电力用户参与响应行为,并调用存储设备中的历史数据集对LSTM神经网络模型进行训练;
在边缘设备中建立基于A3C强化学习的分布式优化控制网络,通过与训练后的LSTM神经网络模型进行交互,计算优化控制网络参数调整值,并将参数调整值通过通信线路上传至云端控制中心,修正云端的全局优化控制网络;
将修正后的云端的全局优化控制网络用于实际电力需求响应的实施中,根据电网运行需求通过补偿价格对用户进行间接控制,同时边缘侧不断收集电力用户实际参与响应的数据,对云端的全局优化控制网络进行定期更新。
2.根据权利要求1所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述在用户侧收集初始用户响应行为历史数据,进行训练数据归一化,建立用户响应行为历史数据集具体为:
Figure FDA0003793050100000011
其中,xt为t时段制定的响应补偿价格;dt为t时段用户的实际响应;
Figure FDA0003793050100000012
x t为响应补偿价格上下限;dmin和dmax为所有数据中的最大和最小响应值;
历史数据集的建立形式如下所示:
Η={(R1,d1),(R2,d2),…,(Rt-1,dt-1),(Rt,dt)}
Rt={(xt-m,dt-m),(xt-m+1,dt-m+1),…,(xt-1,dt-1)}
其中,H为历史数据集;Rt为t时刻用户响应相关信息集;m为Rt中历史信息的数量。
3.根据权利要求1所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述LSTM神经网络模型为:
LSTM网络记为Aii=1,2,…,T;当预测进行到第n天时,时段t的形式可记为t=nT+i,T为一天内实施需求响应的小时数;每个LSTM网络输入数据包括:响应补偿价格xnT+i和相关信息集RnT+i,输出为t时段的用户响应行为预测dnT+i
4.根据权利要求1所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述在边缘设备中建立基于A3C强化学习的分布式优化控制网络具体为:
建立用于优化控制网络训练的马尔科夫过程;建立用于A3C算法的优化控制网络;对优化控制网络进行分布式更新。
5.根据权利要求4所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述建立用于A3C算法的优化控制网络分为Actor网络和Critic网络,
电网将需求响应时段的状态st输入至Actor网络和Critic网络中,Actor网络输出控制策略π,为可行区域内补偿价格的概率分布,该概率分布选取正态分布,Actor网络输出的实际数值为正态分布的均值μ和σ,在模拟训练过程中,按照Actor网络输出的正态分布随机筛选价格,扩展探索空间,促进训练寻优过程,训练结束后,选取正态分布均值为最优价格;Critic网络输出为t时段到当天最后时段的收益期望V(st),该期望值综合考虑了当前时段收益和后续时段可能获得的收益。
6.根据权利要求4所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述对优化控制网络进行分布式更新为:
每个边缘计算设备处存在Actor网络、Critic网络和基于LSTM的虚拟环境各一个,三者之间通过交互计算优化控制网络的更新梯度,并上传至云端控制中心,如下所示:
δ=rt+γV(st+1)-V(st)
Figure FDA0003793050100000021
Figure FDA0003793050100000022
其中,γ为折扣因子,范围为[0,1];ω为Critic网络参数;θ为Actor网络参数;α,β为学习率;V(st+1)为t时段算法评估的收益期望,δ为中间变量。
7.根据权利要求1所述的一种基于强化学习的云边架构下负荷需求响应优化方法,其特征在于,所述电力用户的信息仅用于LSTM神经网络模型的训练以及更新梯度的计算,并仅将更新后的梯度上传至云端控制中心,实现了用户数据的就地应用和隐私保护。
8.一种基于强化学习的云边架构下负荷需求响应优化装置,其特征在于,所述装置包括:处理器和存储器,
所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-7中的任一项所述的方法步骤。
CN202210961002.1A 2022-08-11 2022-08-11 基于强化学习的云边架构下负荷需求响应优化方法及装置 Pending CN115330048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210961002.1A CN115330048A (zh) 2022-08-11 2022-08-11 基于强化学习的云边架构下负荷需求响应优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210961002.1A CN115330048A (zh) 2022-08-11 2022-08-11 基于强化学习的云边架构下负荷需求响应优化方法及装置

Publications (1)

Publication Number Publication Date
CN115330048A true CN115330048A (zh) 2022-11-11

Family

ID=83922268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210961002.1A Pending CN115330048A (zh) 2022-08-11 2022-08-11 基于强化学习的云边架构下负荷需求响应优化方法及装置

Country Status (1)

Country Link
CN (1) CN115330048A (zh)

Similar Documents

Publication Publication Date Title
Du et al. A cooperative game approach for coordinating multi-microgrid operation within distribution systems
Ghadimi et al. PSO based fuzzy stochastic long-term model for deployment of distributed energy resources in distribution systems with several objectives
Jasmin et al. Reinforcement learning approaches to economic dispatch problem
CN109190802B (zh) 云储能环境下基于发电预测的多微网博弈优化方法
Ahmadi et al. Evaluating the effectiveness of normal boundary intersection method for short-term environmental/economic hydrothermal self-scheduling
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
Cai et al. Energy management in residential microgrid using model predictive control-based reinforcement learning and Shapley value
CN104537428B (zh) 一种计及风电接入不确定性的经济运行评估方法
CN112217195B (zh) 一种基于gru多步预测技术的云储能充放电策略形成方法
CN112636338A (zh) 一种基于边缘计算的负荷分区调控系统及方法
CN115714382A (zh) 一种基于安全强化学习的主动配电网实时调度方法及装置
CN104299031A (zh) Bp神经网络超短期负荷预测方法
Jin et al. Deep reinforcement learning-based strategy for charging station participating in demand response
CN116862551A (zh) 一种考虑用户隐私保护的新能源消纳电价决策方法
CN117117878A (zh) 基于人工神经网络和多智能体强化学习的电网需求侧响应潜力评估及负荷调控方法
Maulén et al. Optimization-based expansion planning for power and hydrogen systems with feedback from a unit commitment model
CN113690885B (zh) 一种供电控制方法及供电平台
Zhou et al. Urban virtual power plant operation optimization with incentive-based demand response
CN109687452B (zh) 一种用于配电网供电能力的分析方法、装置及存储介质
CN115330048A (zh) 基于强化学习的云边架构下负荷需求响应优化方法及装置
CN115276067A (zh) 一种适应配电网拓扑动态变化的分布式储能电压调节方法
CN115360768A (zh) 基于muzero和深度强化学习的电力调度方法、装置及存储介质
Yu et al. Demand Side Management Pricing Method Based on LSTM and A3C in Cloud Environment
CN112529610A (zh) 一种基于强化学习的端对端电能交易市场用户决策方法
Yu et al. Dynamic Economic Dispatch Considering Demand Response Based on Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination