CN113807564B - 基于两阶段强化学习的园区微网负荷优化调度方法及系统 - Google Patents

基于两阶段强化学习的园区微网负荷优化调度方法及系统 Download PDF

Info

Publication number
CN113807564B
CN113807564B CN202110860153.3A CN202110860153A CN113807564B CN 113807564 B CN113807564 B CN 113807564B CN 202110860153 A CN202110860153 A CN 202110860153A CN 113807564 B CN113807564 B CN 113807564B
Authority
CN
China
Prior art keywords
micro
grid
representing
load
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110860153.3A
Other languages
English (en)
Other versions
CN113807564A (zh
Inventor
周开乐
周昆树
张增辉
陆信辉
殷辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110860153.3A priority Critical patent/CN113807564B/zh
Publication of CN113807564A publication Critical patent/CN113807564A/zh
Application granted granted Critical
Publication of CN113807564B publication Critical patent/CN113807564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明提供一种基于两阶段强化学习的园区微网负荷优化调度方法及系统,涉及微网负荷优化调度技术领域。本发明获取园区各微网的相关参数,然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor‑Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与,并使用两阶段强化学习作为最优价格获取和微网优化调度的算法,能够在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,更加准确、及时、高效的提供园区微网运行最优策略,同时可保护微网用户的隐私和提高微网的经济性。

Description

基于两阶段强化学习的园区微网负荷优化调度方法及系统
技术领域
本发明涉及微网负荷优化调度技术领域,具体涉及一种基于两阶段强化学习的园区微网负荷优化调度方法及系统。
背景技术
为了适应能源体系转型的发展战略,园区能源微网已成为区域用能的重要角色,随着园区微网系统的发展,在同一配电园区内往往存在多个园区微网能源系统。电力市场改革的不断深化为园区微网的并网运行又提供了新的机遇。随着电力市场的开放,园区微网将可以以独立的身份参与到区域电力调度中,通过与配电公司的双向互动,提高电力负荷的分配效率。如果能进一步对这些园区微网负荷进行优化调度,可以大大节约能源消耗和生产成本,意义重大。
现有技术虽然提出了一些针对园区微网进行负荷优化调度的技术,但是存在以下问题:一方面,传统园区微网负荷优化调度模型均高度依赖于对微网内部组件运行的模型构建、数据获取、用户行为特征等较为私密的信息,且由于隐私保护、传感器安装不到位等原因,导致无法完全获取各微网的组件构成以及运行模型、参数等信息,使得利用传统优化算法建模和优化均存在极大困难;另一方面,基于模型的优化算法在面临微网运行场景发生改变的情况时,需要重新对微网进行建模,并重新计算,极大降低了优化调度的效率。
由此可知,现有技术无法在用户信息和环境信息获取不完全,或者用户信息和环境信息发生改变时,精准、高效的对园区微网进行负荷优化调度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于两阶段强化学习的园区微网负荷优化调度方法及系统,解决了现有技术在用户信息和环境信息获取不完全或者发生改变时无法对园区微网进行精准、高效负荷优化调度的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明首先提供了一种基于两阶段强化学习的园区微网负荷优化调度方法,所述方法包括:
获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。
优选的,所述方法还包括:在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。
优选的,所述负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:
S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:
C表示第一阶段的状态空间;ct∈C表示负荷代理在t时段与环境交互后所处的状态;Ct=[It,ρt,Lt,n,Tt,Ht],其中,It表示园区t时刻的光照强度;ρt表示电力批发市场t时刻的电价;Lt,n表示第n个微网在t时刻的负荷需求;Tt表示t时刻的环境温度;Ht表示t时刻的环境湿度;
M表示第一阶段强化学习过程中动作空间;mt∈M表示负荷代理在t时刻向微网传递出的价格信号;mt=[λt,1,λt,2,...,λt,n,...,λt,N];其中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号;
V表示第一阶段的奖励函数;其中,vt∈V(ct,mt);
其中,vt表示负荷代理在状态ct时执行动作mt所获得的即时回报;V(ct,mt)表示累计折扣回报函数;ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;
表示第一阶段的策略集合,即状态空间C到动作空间M的映射;
S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格。
优选的,所述基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括:
S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:
S表示第二阶段的状态空间,st∈S表示微网在t时段与环境交互后所处的状态;St=[REt,λt,Dt,SOCt];其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态;
A表示第二阶段的动作空间,at∈A表示微网在t时刻可执行的动作;at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;
R表示第二阶段的奖励函数,其中,rt∈R(st,at),rt表示微网在状态st时执行动作at所获得的即时回报;微网的累计奖励函数为:
R(st,at)=E1,t+E2,t+E3,t
E2,t=cpenalty·|Ps,t-Dt|
E3,t=cb|SOCt-ε|2
Ps,t=REt+Pt ess+Pt agent
其中,E1,t表示微网的运行成本;E2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚;E3,t表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本;cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给;
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;
S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。
第二方面,本发明还提出了一种基于两阶段强化学习的园区微网负荷优化调度系统,所述系统包括:
相关参数获取模块,用于获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
负荷代理优化决策模块,用于负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
园区微网优化调度模块,用于基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。
优选的,所述系统还包括:数据预处理模块,用于在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。
优选的,所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:
S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:
C表示第一阶段的状态空间;ct∈C表示负荷代理在t时段与环境交互后所处的状态;Ct=[It,ρt,Lt,n,Tt,Ht],其中,It表示园区t时刻的光照强度;ρt表示电力批发市场t时刻的电价;Lt,n表示第n个微网在t时刻的负荷需求;Tt表示t时刻的环境温度;Ht表示t时刻的环境湿度;
M表示第一阶段强化学习过程中动作空间;mt∈M表示负荷代理在t时刻向微网传递出的价格信号;mt=[λt,1,λt,2,...,λt,n,...,λt,N];其中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号;
V表示第一阶段的奖励函数;其中,vt∈V(ct,mt);
其中,vt表示负荷代理在状态ct时执行动作mt所获得的即时回报;V(ct,mt)表示累计折扣回报函数;ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;
表示第一阶段的策略集合,即状态空间C到动作空间M的映射;
S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格。
优选的,所述园区微网优化调度模块中基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括:
S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:
S表示第二阶段的状态空间,st∈S表示微网在t时段与环境交互后所处的状态;St=[REt,λt,Dt,SOCt];其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态;
A表示第二阶段的动作空间,at∈A表示微网在t时刻可执行的动作;at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;
R表示第二阶段的奖励函数,其中,rt∈R(st,at),rt表示微网在状态st时执行动作at所获得的即时回报;微网的累计奖励函数为:
R(st,at)=E1,t+E2,t+E3,t
E2,t=cpenalty·|Ps,t-Dt|
E3,t=cb|SOCt-ε|2
Ps,t=REt+Pt ess+Pt agent
其中,E1,t表示微网的运行成本;E2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚;E3,t表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本;cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给;
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;
S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。
(三)有益效果
本发明提供了一种基于两阶段强化学习的园区微网负荷优化调度方法及系统。与现有技术相比,具备以下有益效果:
1、本发明获取园区各微网的相关参数,然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与,并使用两阶段强化学习作为最优价格获取和微网优化调度的算法,能够在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,提高优化运行策略的可扩展性,同时在保护微网用户隐私的前提下,更加准确、及时、高效的提供园区微网运行最优策略,节约了能源消耗,节省了生产成本。
2、本发明由负荷代理基于相关参数利用强化学习参与微网的电力价格选择,而强化学习是一种无模型的自适应最优控制算法,因而当园区中新增或退出微网用户时,无需重新建立模型,负荷代理只需要获取微网用户的总负荷需求数据,在保护用户隐私的同时,就可以为各微网用户传递最优价格;
3、本发明在第一阶段基于随机策略梯度的强化学习算法进行价格寻优,可以在获取不完全用户信息的情况下为园区内各微网传递不同的最优价格信号;在第二阶段使用的深度强化学习Actor-Critic算法对微网进行优化调度,对于微网中源荷功率的随机波动性有较好的自学习能力,能够针对不同场景生成合理的优化调度策略,并且当场景发生变化时,不需要重新训练模型,能够及时给出优化策略,具有强大的自适应、自学习能力,最大程度提高了策略的可扩展性、环境适应性和优化调度的高效性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于两阶段强化学习的园区微网负荷优化调度方法的流程图;
图2为本发明实施例中基于两阶段强化学习的园区微网负荷优化调度系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于两阶段强化学习的园区微网负荷优化调度方法及系统,解决了现有技术在用户信息和环境信息获取不完全或者发生改变时无法对园区微网进行精准、高效负荷优化调度的问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
为了在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,依然可以高效、精准的对园区微网进行负荷优化调度,本发明首先获取园区各微网的相关参数,然后负荷代理基于相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明由负荷代理参与,并使用两阶段强化学习算法进行园区微网负荷优化调度,可以在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,提高优化运行策略的可扩展性,同时在保护微网用户隐私的前提下,更加准确、及时、高效的提供园区微网运行最优策略,节约了能源消耗,节省了生产成本。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
第一方面,本发明首先提出了一种基于两阶段强化学习的园区微网负荷优化调度方法,参见图1,该方法包括:
S1、获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
S2、负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
S3、基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。
可见,本实施例获取园区各微网的相关参数,然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与,并使用两阶段强化学习作为最优价格获取和微网优化调度的算法,能够在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,提高优化运行策略的可扩展性,同时在保护微网用户隐私的前提下,更加准确、及时、高效的提供园区微网运行最优策略,节约了能源消耗,节省了生产成本。
下面结合对S1-S3具体步骤的解释,来详细说明本发明一个实施例的实现过程。
S1、获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据。
通过传感器、智能电表等收集园区的光照强度、温度、湿度、各微网负荷需求,以及电力批发市场中电价数据这些与园区各微网相关的参数。为了使后续处理结果更加精准,在获取园区各微网的相关参数后,对这些相关参数进行预处理。具体的,相关参数的预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化五个步骤。
S2、负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格。
负荷代理采用无模型的强化学习算法,结合各微网的相关参数确定园区内各微网的最优价格。负荷代理可理解为园区内各微网的“代表人”代表人,是一个智能体,它是非盈利性质的,不以自身利润最大化为目标,而是以负荷代理以及园区内所有微网的整体利益最大化为目标。强化学习算法的任务是在不获取各微网内部详细运行细节(即获取各微网相关参数不完全)的情况下,将各微网建模为对电价敏感的可控负荷,通过智能体与环境的不断交互发掘电价与各微网和负荷代理之间电力交互的复杂关系。
实际操作时,将负荷代理优化决策过程建模成马尔可夫决策过程(模型),并将该过程定义为第一阶段的强化学习过程。具体的,
第一阶段的马尔可夫决策模型由一个四元组表示,其中各元素含义以及与相关参数的对应关系如下:
C表示第一阶段强化学习过程中的状态空间。ct∈C表示负荷代理在t时段与环境交互后所处的状态。在本层决策方案中,状态空间包含园区光照强度、温度、湿度数据,各微网负荷需求数据,以及电力批发市场中的电价数据。具体表现形式为:Ct=[It,ρt,Lt,n,Tt,Ht],式中It表示园区t时刻的光照强度,ρt表示电力批发市场t时刻的电价,Lt,n表示第n个微网在t时刻的负荷需求,Tt表示t时刻的环境温度,Ht表示t时刻的环境湿度。
M表示第一阶段强化学习过程中动作空间。mt∈M表示负荷代理在t时刻向微网传递出的价格信号。具体表现形式为,mt=[λt,1,λt,2,...,λt,n,...,λt,N]式中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号。
V表示第一阶段强化学习过程中奖励函数。由vt∈V(ct,mt)表示,其中vt表示负荷代理在状态ct时执行动作mt所获得的即时回报。在本实施例中,负荷代理的奖励函数形式为:
其中,ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互。在求解算法时需要考虑负荷代理在与环境不断交互过程中的回报,需要将即时回报函数转化为累计折扣回报函数,具体形式为:
其中,γ1表示折扣因子。
表示第一阶段强化学习过程中的策略集合,其含义为负荷代理的状态空间C到动作空间M的映射。
本实施例中负荷代理不以盈利为目的,而是以所有微网的共同利益最大化为目标,负荷代理的任务在于向园区中各微网传递最优价格信号,具体到强化学习算法中,其任务就是求解最优策略本实施例中采用无模型、基于策略的随机策略梯度方法来求解最优策略。
在利用随机策略梯度方法求解最优策略时,首先需要将策略进行参数化,利用神经网络来表示策略,然后利用Adam优化器训练策略网络,最后找到最优的参数,也就找到了最优的策略,可以说策略搜索的过程,就是利用梯度不断寻找参数的过程。具体过程如下:
首先,需要将策略表示成为状态的函数,即π=f(c;θ1),其中,c表示状态,θ1表示参数。当给定c时,动作m服从高斯分布,即
其中,θ1和θ2为参数。
梯度就是目标函数对参数的偏导数,因此求解梯度首先要将目标函数表示出来,因此累计折扣回报的期望函数为:
进而利用如下公式对参数θ求梯度:
其中,P(τ,θ)表示在参数θ的策略下系统状态和动作的轨迹τ发生的概率,该轨迹的概率为:
P(τ,θ)=P(m0|c0;θ)·P(c1|c0;m0)·P(c2|c1;m1)...
因此,最终随机策略梯度的计算公式可表示为:
通过对该公式的求解,获取参数θ的值,进而得到最优策略,最优策略即为适合各微网的最优价格。
S3、基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。
由于园区内各个微网内部的设备参数存在差异,如果采用传统优化调度算法则存在容易陷入局部最优、可扩展性较差、泛化能力较差等缺点。因而,本实施例中采用深度强化学习Actor-Critic算法进行求解。深度强化学习在解决微网优化调度问题时,其关注的是微网中能源生产装置、转换装置和储能装置在每个决策阶段的启停和充放电动作的选择。
在求解时,首先,同样需要将优化调度问题转化为马尔可夫决策模型,定义第二阶段强化学习过程中马尔可夫决策模型中四元组(S,A,R,π)所对应本层的内容如下:
S表示第二阶段强化学习过程中状态空间,st∈S表示微网在t时段与环境交互后所处的状态。在本层决策方案中,状态空间包含微网中可再生能源发电量、负荷需求、负荷代理所传递的最优价格信号以及储能电池的荷电状态。具体表现形式为:
S=[REt,λt,Dt,SOCt]
其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态。
A表示第二阶段强化学习过程中动作空间,at∈A表示微网在t时刻可执行的动作。具体到本实施例中微网在优化调度过程中的动作选择结合包含储能设备的充放电功率以及与微网与上层负荷代理的功率交换,具体表现形式为at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电。
R表示第二阶段强化学习过程中奖励函数,由rt∈R(st,at)表示,其中rt表示微网在状态st时执行动作at所获得的即时回报。对应于本实施例,微网的奖励函数包含三个部分,第一部分是微网运行成本,具体形式为:
其中,求和公式第一项表示微网与负荷代理进行功率交换的成本,求和第二项/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本。
奖励函数第二部分是微网系统运行过程中能量供需不匹配时的系统惩罚,具体表现形式为:
E2,t=cpenalty·|Ps,t-Dt|
Ps,t=REt+Pt ess+Pt agent
其中,cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给。
第三部分是电池过充/放电是的惩罚:
E3,t=cb|SOCt-ε|2
其中,cb表示电池过充/放电时的单位惩罚;ε表示电池的合理运行容量范围。
则累计奖励函数最终形式为:
R(st,at)=E1,t+E2,t+E3,t
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射。
Actor-Critic算法属于深度强化学习中无模型、基于策略的算法,在求解时需要用参数表示策略,在每一个决策时刻,Actor根据观察到的微网运行状态以及最优价格信号组成的状态空间st,通过策略网络生成动作at,微网根据此时执行的动作进行状态转移,使微网达到下一时刻的状态st+1,并产生t时刻的奖励函数rt,记录数据元组(st,at,rt,st+1),并存入经验池中。然后Actor的动作策略采样与系统状态同时输入至Critic中,并输出动作-价值函数Q(st,at)以进行策略优劣的评估。将此过程反复循环进行,Actor和Critic通过Adam优化器训练神经网络,从而实现模型自适应学习。随着训练过程的进行,调度周期内系统的累计奖励函数会逐步增加,最终收敛,求得策略参数,进而获得最优动作策略,最优策略即表示各微网根据其获取的最优价格所最终确定的各微网中设备的出力策略。各微网中设备的出力策略包括储能设备的充放电功率以及与微网与上层负荷代理的功率交换,最终,园区内各微网基于其对应的这些数据执行操作,从而达到园区微网负荷优化调度的目的。
至此,则完成了本发明一种基于两阶段强化学习的园区微网负荷优化调度方法的全部过程。
实施例2:
第二方面,本发明还提供了一种基于两阶段强化学习的园区微网负荷优化调度系统,参见图2,该系统包括:
相关参数获取模块,用于获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
负荷代理优化决策模块,用于负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
园区微网优化调度模块,用于基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。
可选的,所述系统还包括:数据预处理模块,用于在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。
可选的,所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:
S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:
C表示第一阶段的状态空间;ct∈C表示负荷代理在t时段与环境交互后所处的状态;Ct=[It,ρt,Lt,n,Tt,Ht],其中,It表示园区t时刻的光照强度;ρt表示电力批发市场t时刻的电价;Lt,n表示第n个微网在t时刻的负荷需求;Tt表示t时刻的环境温度;Ht表示t时刻的环境湿度;
M表示第一阶段强化学习过程中动作空间;mt∈M表示负荷代理在t时刻向微网传递出的价格信号;mt=[λt,1,λt,2,...,λt,n,...,λt,N];其中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号;
V表示第一阶段的奖励函数;其中,vt∈V(ct,mt);
其中,vt表示负荷代理在状态ct时执行动作mt所获得的即时回报;V(ct,mt)表示累计折扣回报函数;ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;
表示第一阶段的策略集合,即状态空间C到动作空间M的映射;
S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格。
可选的,所述园区微网优化调度模块中基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括:
S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:
S表示第二阶段的状态空间,st∈S表示微网在t时段与环境交互后所处的状态;St=[REt,λt,Dt,SOCt];其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态;
A表示第二阶段的动作空间,at∈A表示微网在t时刻可执行的动作;at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;
R表示第二阶段的奖励函数,其中,rt∈R(st,at),rt表示微网在状态st时执行动作at所获得的即时回报;微网的累计奖励函数为:
R(st,at)=E1,t+E2,t+E3,t
E2,t=cpenalty·|Ps,t-Dt|
E3,t=cb|SOCt-ε|2
Ps,t=REt+Pt ess+Pt agent
其中,E1,t表示微网的运行成本;E2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚;E3,t表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本;cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给;
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;
S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。
可理解的是,本发明实施例提供的基于两阶段强化学习的园区微网负荷优化调度系统与上述基于两阶段强化学习的园区微网负荷优化调度方法相对应,其有关内容的解释、举例、有益效果等部分可以参照基于两阶段强化学习的园区微网负荷优化调度方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明获取园区各微网的相关参数,然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度。本发明的技术方案由负荷代理参与,并使用两阶段强化学习作为最优价格获取和微网优化调度的算法,能够在获取不完全用户信息和环境信息,以及不依赖设备的具体运行模型、参数的情况下,提高优化运行策略的可扩展性,同时在保护微网用户隐私的前提下,更加准确、及时、高效的提供园区微网运行最优策略,节约了能源消耗,节省了生产成本。
2、本发明由负荷代理基于相关参数利用强化学习参与微网的电力价格选择,而强化学习是一种无模型的自适应最优控制算法,因而当园区中新增或退出微网用户时,无需重新建立模型,负荷代理只需要获取微网用户的总负荷需求数据,在保护用户隐私的同时,就可以为各微网用户传递最优价格;
3、本发明在第一阶段基于随机策略梯度的强化学习算法进行价格寻优,可以在获取不完全用户信息的情况下为园区内各微网传递不同的最优价格信号;在第二阶段使用的深度强化学习Actor-Critic算法对微网进行优化调度,对于微网中源荷功率的随机波动性有较好的自学习能力,能够针对不同场景生成合理的优化调度策略,并且当场景发生变化时,不需要重新训练模型,能够及时给出优化策略,具有强大的自适应、自学习能力,最大程度提高了策略的可扩展性、环境适应性和优化调度的高效性和准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于两阶段强化学习的园区微网负荷优化调度方法,其特征在于,所述方法包括:
获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度;
所述负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:
S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:
C表示第一阶段的状态空间;ct∈C表示负荷代理在t时段与环境交互后所处的状态;Ct=[Itt,Lt,n,Tt,Ht],其中,It表示园区t时刻的光照强度;ρt表示电力批发市场t时刻的电价;Lt,n表示第n个微网在t时刻的负荷需求;Tt表示t时刻的环境温度;Ht表示t时刻的环境湿度;
M表示第一阶段强化学习过程中动作空间;mt∈M表示负荷代理在t时刻向微网传递出的价格信号;mt=[λt,1t,2,...,λt,n,...,λt,N];其中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号;
V表示第一阶段的奖励函数;其中,vt∈V(ct,mt);
其中,vt表示负荷代理在状态ct时执行动作mt所获得的即时回报;V(ct,mt)表示累计折扣回报函数;ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;
表示第一阶段的策略集合,即状态空间C到动作空间M的映射;
S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格;
所述基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括:
S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:
S表示第二阶段的状态空间,st∈S表示微网在t时段与环境交互后所处的状态;St=[REtt,Dt,SOCt];其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态;
A表示第二阶段的动作空间,at∈A表示微网在t时刻可执行的动作;at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;
R表示第二阶段的奖励函数,其中,rt∈R(st,at),rt表示微网在状态st时执行动作at所获得的即时回报;微网的累计奖励函数为:
R(st,at)=E1,t+E2,t+E3,t
E3,t=cb|SOCt-ε|2
Ps,t=REt+Pt ess+Pt agent
其中,E1,t表示微网的运行成本;E2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚;E3,t表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本;cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给;
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;
S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。
3.一种基于两阶段强化学习的园区微网负荷优化调度系统,其特征在于,所述系统包括:
相关参数获取模块,用于获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;
负荷代理优化决策模块,用于负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;
园区微网优化调度模块,用于基于最优价格利用深度强化学习Actor-Critic算法对园区各微网进行优化调度;
所述负荷代理优化决策模块中负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:
S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:
C表示第一阶段的状态空间;ct∈C表示负荷代理在t时段与环境交互后所处的状态;Ct=[Itt,Lt,n,Tt,Ht],其中,It表示园区t时刻的光照强度;ρt表示电力批发市场t时刻的电价;Lt,n表示第n个微网在t时刻的负荷需求;Tt表示t时刻的环境温度;Ht表示t时刻的环境湿度;
M表示第一阶段强化学习过程中动作空间;mt∈M表示负荷代理在t时刻向微网传递出的价格信号;mt=[λt,1t,2,...,λt,n,...,λt,N];其中,λt,n表示t时刻负荷代理向第n个微网传递的最优价格信号;
V表示第一阶段的奖励函数;其中,vt∈V(ct,mt);
其中,vt表示负荷代理在状态ct时执行动作mt所获得的即时回报;V(ct,mt)表示累计折扣回报函数;ρm,t表示负荷代理从电力批发市场购电的价格;Pm,t表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;
表示第一阶段的策略集合,即状态空间C到动作空间M的映射;
S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格;
所述园区微网优化调度模块中基于最优价格,利用深度强化学习Actor-Critic算法对园区各微网进行优化调度包括:
S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:
S表示第二阶段的状态空间,st∈S表示微网在t时段与环境交互后所处的状态;St=[REtt,Dt,SOCt];其中,REt表示t时刻微网中可再生能源发电量;λt表示上层负荷代理决策层传递过来的最优价格;Dt表示t时刻微网的负荷需求;SOCt表示t时刻锂电池的SOC,即荷电状态;
A表示第二阶段的动作空间,at∈A表示微网在t时刻可执行的动作;at=[Pt ess,Pt agent],其中,Pt ess表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;Pt agent表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;
R表示第二阶段的奖励函数,其中,rt∈R(st,at),rt表示微网在状态st时执行动作at所获得的即时回报;微网的累计奖励函数为:
R(st,at)=E1,t+E2,t+E3,t
E3,t=cb|SOCt-ε|2
Ps,t=REt+Pt ess+Pt agent
其中,E1,t表示微网的运行成本;E2,t表示微网系统运行过程中能量供需不匹配时的系统惩罚;E3,t表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;/>表示电池充放电折损成本,Ecs表示电池单位功率充放电成本;cpenalty表示微网功率不平衡时的单位惩罚;Ps,t表示微网t时刻的电力总供给;
π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;
S32、利用深度强化学习Actor-Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。
4.如权利要求3所述的系统,其特征在于,所述系统还包括:数据预处理模块,用于在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。
CN202110860153.3A 2021-07-28 2021-07-28 基于两阶段强化学习的园区微网负荷优化调度方法及系统 Active CN113807564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860153.3A CN113807564B (zh) 2021-07-28 2021-07-28 基于两阶段强化学习的园区微网负荷优化调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860153.3A CN113807564B (zh) 2021-07-28 2021-07-28 基于两阶段强化学习的园区微网负荷优化调度方法及系统

Publications (2)

Publication Number Publication Date
CN113807564A CN113807564A (zh) 2021-12-17
CN113807564B true CN113807564B (zh) 2023-08-04

Family

ID=78942639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860153.3A Active CN113807564B (zh) 2021-07-28 2021-07-28 基于两阶段强化学习的园区微网负荷优化调度方法及系统

Country Status (1)

Country Link
CN (1) CN113807564B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611813B (zh) * 2022-03-21 2022-09-27 特斯联科技集团有限公司 基于氢储能的社区热-冷水循环最优调度方法及系统
CN114707711B (zh) * 2022-03-23 2022-09-16 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021603A1 (en) * 2013-08-13 2015-02-19 Accenture Global Services Limited System, method and apparatus for integrated multi-energy scheduling in a micro-grid and a tangible computer readable medium
CN110264003A (zh) * 2019-06-20 2019-09-20 国网山东省电力公司聊城供电公司 一种基于价格引导的多微网系统协调自治优化运行方法
WO2019196375A1 (zh) * 2018-04-13 2019-10-17 华南理工大学 基于需求侧响应的微电网最优机组及分时电价的优化方法
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112821465A (zh) * 2021-01-08 2021-05-18 合肥工业大学 包含热电联产的工业微网负荷优化调度方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021603A1 (en) * 2013-08-13 2015-02-19 Accenture Global Services Limited System, method and apparatus for integrated multi-energy scheduling in a micro-grid and a tangible computer readable medium
WO2019196375A1 (zh) * 2018-04-13 2019-10-17 华南理工大学 基于需求侧响应的微电网最优机组及分时电价的优化方法
CN110264003A (zh) * 2019-06-20 2019-09-20 国网山东省电力公司聊城供电公司 一种基于价格引导的多微网系统协调自治优化运行方法
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112821465A (zh) * 2021-01-08 2021-05-18 合肥工业大学 包含热电联产的工业微网负荷优化调度方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Economic dispatch for microgrids with constrained external power exchange;Michael Zachar;IFAC-PapersOnLine;全文 *
基于多代理系统的快速分布式微网经济调度方法;尹骁骐;丁明;;太阳能学报(第03期);全文 *
电力市场环境下考虑投标决策的微电网运行鲁棒优化;德格吉日夫;谭忠富;杨莘博;李梦露;杨博;孔维政;张宁;;可再生能源(第11期);全文 *
考虑电热多种负荷综合需求响应的园区微网综合能源系统优化运行;方绍凤;周任军;许福鹿;冯剑;程远林;李斌;;电力系统及其自动化学报(第01期);全文 *

Also Published As

Publication number Publication date
CN113807564A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113807564B (zh) 基于两阶段强化学习的园区微网负荷优化调度方法及系统
CN114091879A (zh) 基于深度强化学习的多园区能源调度方法和系统
Alabi et al. Data-driven optimal scheduling of multi-energy system virtual power plant (MEVPP) incorporating carbon capture system (CCS), electric vehicle flexibility, and clean energy marketer (CEM) strategy
CN112821465B (zh) 包含热电联产的工业微网负荷优化调度方法与系统
CN107895971A (zh) 基于随机规划和模型预测控制的区域能源互联网调度方法
Chen et al. A battery management strategy in microgrid for personalized customer requirements
Padmanaban et al. Electric vehicles and IoT in smart cities
CN111144728A (zh) 基于深度强化学习的热电联产系统经济调度方法
Wang et al. Coordinated electric vehicle active and reactive power control for active distribution networks
CN114676941B (zh) 园区综合能源系统电-热负荷联合自适应预测方法及装置
Wu Machine learning algorithms and applications for sustainable smart grid
CN105117797A (zh) 基于孤岛划分的微网日前经济最优调度方法
Xiao et al. A novel energy management method for networked multi-energy microgrids based on improved DQN
Wan et al. A data-driven approach for real-time residential EV charging management
CN114331059A (zh) 电氢互补的园区多楼宇供能系统及其协调调度方法
Guo et al. Energy management of intelligent solar parking lot with EV charging and FCEV refueling based on deep reinforcement learning
CN115577909A (zh) 考虑价格型需求响应和v2g的园区综合能源系统调度方法
Jiao et al. Tri-stage optimal dispatch for a microgrid in the presence of uncertainties introduced by EVs and PV
Shi et al. Research on energy management of hydrogen electric coupling system based on deep reinforcement learning
Zeng et al. Optimal configuration planning of vehicle sharing station-based electro-hydrogen micro-energy systems for transportation decarbonization
Kumar et al. Optimal energy management and sizing of a community smart microgrid using demand side management with load uncertainty
Gharibi et al. Deep learning framework for day-ahead optimal charging scheduling of electric vehicles in parking lot
CN116780627A (zh) 一种建筑园区内的微电网调控方法
Ji et al. Operating mechanism for profit improvement of a smart microgrid based on dynamic demand response
Tong et al. Economical optimization for multi-microgrid based on Stackelberg game

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant