CN113378456B - 多园区综合能源调度方法和系统 - Google Patents
多园区综合能源调度方法和系统 Download PDFInfo
- Publication number
- CN113378456B CN113378456B CN202110560538.8A CN202110560538A CN113378456B CN 113378456 B CN113378456 B CN 113378456B CN 202110560538 A CN202110560538 A CN 202110560538A CN 113378456 B CN113378456 B CN 113378456B
- Authority
- CN
- China
- Prior art keywords
- energy
- park
- scheduling
- agent
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000004146 energy storage Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 238000005265 energy consumption Methods 0.000 claims description 20
- 230000009471 action Effects 0.000 claims description 16
- 230000005611 electricity Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 7
- 238000007599 discharging Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种多园区综合能源调度方法和系统,其中所述方法包括:基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。本发明实施例建立单个园区的强化学习智能体,然后基于建立的多智能体深度确定性策略梯度模型,采用集中训练方法在虚拟环境中进行训练,采用分散执行方法在真实物理空间进行调度决策,不依赖对不确定量的准确预测,保护了各园区的隐私,同时降低了各个园区的运行成本。
Description
技术领域
本发明涉及多园区综合能源领域,尤其涉及一种多园区综合能源调度方法和系统。
背景技术
多园区综合能源系统的协同优化运行能充分利用多能耦合的灵活性,释放分布式资源的潜力,进一步降低运行成本,同时可减轻对外部能源网络的依赖。但多主体利益分配问题、隐私保护需求以及多重不确定量的存在给多园区协同运行带来了巨大挑战。
目前对多园区综合能源系统协同优化调度方法的研究主要有集中优化和分布式优化两种方法。例如,一种基于可再生能源配额制的多园区综合能源系统优化调度模型,并采用集中优化进行求解,可有效提高系统可再生能源消纳能力,减少系统碳排放,并保证系统经济性。集中优化需要一个集中决策者,需要各个园区的详细设备信息和负荷数据等,会对通信造成较大负担,不利于隐私的保护。考虑到集中优化存在的问题,很多现有技术利用分布式优化算法求解多园区协同优化问题。例如同一能源配送网络下多能源枢纽的协同优化运行问题,采用基于交替方向乘子法(ADMM)的分布式优化算法进行求解,保护了个能源枢纽的隐私,保证了调度的相对独立性。
上述方案并没有考虑多利益主体的收益分配问题,也较少考虑新能源出力以及多能负荷的多重不确定性。基于数据驱动的强化学习算法(RL)无需对不确定量进行精准预测,目前已有较多的研究将强化学习应用于综合能源系统的决策控制中,例如采用将RL和传统优化方法进行结合的方式,提出了一种双层强化学习模型以实现综合能源系统的实时经济调度。但上述研究多将强化学习应用于将综合能源系统建模成单智能体的场景中,尚缺乏对强化学习应用在综合能源系统多利益主体场景中的研究。
发明内容
本发明提供一种多园区综合能源调度方法和系统,用以解决现有技术中存在的技术缺陷。
本发明提供一种多园区综合能源调度方法,包括:
基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
根据本发明实施例所述的多园区综合能源调度方法,所述基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体包括获取每个园区的用能成本和调度变量,每个园区的用能成本包括购能成本和售能收益,每个园区的调度变量主要为电锅炉的运行功率电储能系统充放电功率总购电量总售电量总购热量和总售热量
其中,每个园区的用能成本公式和调度变量公式如下:
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括功率平衡约束:
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括储能动作约束:
SOCmin≤SOCt≤SOCmax
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括设备运行约束:
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括传输线功率约束:
0≤Ei,t,b≤Ei,t,b,max
0≤Ei,t,s≤Ei,t,s,max
0≤Hi,t,b≤Hi,t,b,max
0≤Hi,t,s≤Hi,t,s,max。
本发明还提供了一种多园区综合能源调度系统,包括:
强化学习智能体建立模块,用于基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
调度决策模块,用于将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多园区综合能源调度方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多园区综合能源调度方法的步骤。
本发明实施例针对多园区综合能源系统建立系统模型和收益分配机制,并建立单个园区的强化学习智能体,然后基于建立的多智能体深度确定性策略梯度模型,采用集中训练方法在虚拟环境中进行训练,采用分散执行方法在真实物理空间进行调度决策,不依赖对不确定量的准确预测,保护了各园区的隐私,同时降低了各个园区的运行成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的多园区综合能源调度方法的流程示意图;
图2是本发明一实施例提供的典型场景下三个园区的新能源出力和电热负荷曲线的示意图;
图3是本发明一实施例提供的三个园区奖励总和的收敛曲线的示意图;
图4是本发明一实施例提供的典型场景下内部市场价格出清曲线的示意图;
图5是本发明一实施例提供的确定场景下的各园区用能曲线的示意图;
图6是本发明一实施例提供的园区1的100个测试场景的示意图;
图7是本发明一实施例提供的不确定场景下园区智能体总的奖励收敛曲线的示意图;
图8是本发明一实施例提供的多园区综合能源调度系统的示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在区域综合能源系统中,往往存在多个多能园区,园区之间可以进行能量的双向传递,因此相比于园区的单独运行,多园区协同运行可充分发挥各园区的灵活性和能量互补特性。本发明实施例采用内部市场(Inner Market)实现园区间的能量交易,假定综合能源系统存在一个内部市场,园区间能量交易的结算可在内部市场中进行。
各园区的管理者分属不同的利益主体,因此采用微电网内部电力市场结算方案建立多园区内部市场出清方法,如下所示:
其中,Es和Eb分别表示园区的总售能和总购能量,表示向外部能源网络售能价格,表示向外部能源网络购能价格,pin表示内部出清价格阈值,表示最大的内部市场售能价格和最小的内部市场购能价格,设定由上述公式可见出清价格由各个园区共同决定,当园区之间供过于求时,内部的购能价格将达到下限,远低于向外部网络购能的价格;当园区之间供不应求时,内部的售能价格将达到上限,远高于向外部网络售能的价格,因此通过此出清机制不难看出向内部市场售能价格高于向外部网络售能价格,向内部市场购能价格将低于向外部网络购能价格,即因此多园区协同优化可充分发挥园区间能量互补的优势,降低园区运行成本,减轻对外部网络的依赖。
基于上述方法,本发明实施例公开了一种多园区综合能源调度方法,参见图1,包括:
S1:基于每个园区的新能源、储能、能量转换设备(如电锅炉、CHP等)和多能用户,对每个园区分别建立一个强化学习智能体;
从外部能源网络购入电、热等能源,经过能量存储和转换并输出至内部多能用户,园区可将剩余的能量卖给外部能源网络。主要制定园区内部设备的运行计划从而实现园区的经济运行。多能园区的目标为最小化用能成本,用能成本主要由购能成本和售能收益组成。
S2:将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
多智能体深度确定性策略梯度模型(也就是MADDPG模型)是进行优化后的模型。
本发明实施例针对多园区综合能源系统建立系统模型和收益分配机制,并建立单个园区的强化学习智能体,然后基于建立的多智能体深度确定性策略梯度模型,采用集中训练方法在虚拟环境中进行训练,采用分散执行方法在真实物理空间进行调度决策,不依赖对不确定量的准确预测,保护了各园区的隐私,同时降低了各个园区的运行成本。
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
不同于用马尔可夫决策过程(Markov Decision Process)来描述单智能体系统,常用马尔科夫博弈(Markov Game)来描述多智能体系统。由于本发明实施例所建立的系统中每个智能体都是部分可观的,即只能观测到系统的外部状态、园区内部的设备运行状态和负荷状态,无法观测到其他园区内部的设备状态和负荷状态,因此本发明实施例用多元组(O1...Oi...On,A1...Ai...An,T,r1...ri...rn)来描述此马尔科夫博弈,其中,O1...Oi...On分别为n个园区智能体的观测空间,因此定义联合状态空间A1...Ai...An分别为n个园区智能体的动作空间,r1...ri...rn分别为n个园区智能体的奖励函数,T为联合状态转移概率。在每一时步t,每个智能体得到其观测oi,t,通过Actor网络得到要采取的动作ai,t,所有智能体的动作形成联合动作作用于环境,然后得到下一时步的观测oi,t+1和这一时段的奖励ri,t,各个智能体的目标是通过训练最大化其累积奖励其中γ为奖励衰减因子,表征当前决策偏向阶段最优还是全部调度时段的最优。
本发明实施例根据园区结构分别设计了各个智能体的状态空间、动作空间和奖励函数,考虑本发明实施例设计的各园区结构相同,因此每个园区的状态空间、动作空间和奖励函数的形式也相同。
2)动作空间:本发明实施例中每个智能体需要决策的变量有为了提高收敛速度,本发明实施例对动作空间进行了简化,对每个智能体建立了一个2维的动作空间分别表示储能的充放电动作和电锅炉的动作,而向外部网络或园区的购能或售能量则由功率平衡约束直接求得。
3)奖励函数:根据各个园区的目标函数设计了智能体的奖励函数如下式所示。
4)联合状态转移概率:若不考虑新能源出力和负荷的不确定性,本发明实施例定义若考虑新能源出力和负荷的不确定性,本发明实施例定义其中pi为不确定量的概率分布,由于强化学习算法是model-free的,因此在决策时不需要环境的联合状态转移概率信息。
强化学习基于智能体与环境的交互进行试错学习,因此其不需要对环境的准确建模,目前已有很多研究将其应用于电力系统和综合能源系统的控制决策中。但是面对多主体系统,直接使用多个强化学习智能体进行决策,会带来环境不稳定的问题,因为每个智能体均在按照自己的学习策略进行训练,因此从单个智能体的角度来看,其面对的环境是不固定的,很难通过训练得到一个稳定的策略分布。
MADDPG算法是DDPG算法的多智能体版本,具有集中训练、分散执行的特点,在训练阶段,其需要全局信息进行训练,在执行阶段每个智能体只需要局部观测就能给出最优动作,可降低对信息的要求。
在本发明实施例所建立的多园区综合能源系统模型中,每个园区的调度决策由园区的能量管理系统进行,由于每个园区有单独的优化目标,因此可针对每个园区建立单独的智能体Agent,每个智能体由需要全局信息的评论家(Critic)网络和只需要局部观测的动作家(Actor)网络组成。评论家网络在训练阶段可利用全局信息评估联合状态和联合动作的价值,即拟合联合值函数并修正动作家网络的策略分布,训练好的动作家网络在执行阶段仅需要根据当前局部观测即可给出对应的最优动作,即ai,t=ui(oi,t|θi)。
由设计的损失函数更新评论家网络的参数,根据联合行为值函数对动作家网络的参数进行更新,具体的更新公式如下面的公式所示。值得注意的是,DDPG算法的评论家网络和动作家网络分别包含一个估计网络和采用软更新方式更新参数的目标网络用以提高训练的稳定性和收敛性。
目标网络采用软更新的方式更新参数,即:
θ'i←τθi+(1-τ)θ'i
φ'i←τφi+(1-τ)φ'i
MADDPG算法训练过程的流程如下表1所示:
表1
根据本发明实施例所述的多园区综合能源调度方法,所述基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体包括获取每个园区的用能成本和调度变量,每个园区的用能成本包括购能成本和售能收益,每个园区的调度变量主要为电锅炉的运行功率电储能系统充放电功率总购电量总售电量总购热量和总售热量
其中,每个园区的用能成本公式和调度变量公式如下:
其中,分别代表与外部电网、与外部热网、与内部其他园区的交易成本, 分别表示外部电网购售价格、内部电力交易购售价格、外部热网购售价格、内部热力交易购售价格。考虑内部市场售电价格远低于外部市场购电价格,不存在套利空间,因此不存在一时刻内向电网买电转而向市场卖电的行为。由于内部市场的出清由多个园区共同决定,每个园区的收益受到其他园区的影响,且园区只决定单个园区的总售能和总购能量 而具体向内部市场购能量、售能量以及内部市场价格由内部市场出清决定。
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括功率平衡约束:
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括储能动作约束:
SOCmin≤SOCt≤SOCmax
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括设备运行约束:
根据本发明实施例所述的多园区综合能源调度方法,所述每个园区的用能成本和调度变量的约束条件包括传输线功率约束:
0≤Ei,t,b≤Ei,t,b,max
0≤Ei,t,s≤Ei,t,s,max
0≤Hi,t,b≤Hi,t,b,max
0≤Hi,t,s≤Hi,t,s,max。
为了进一步说明本发明实施例的多园区综合能源调度,以下提供了一个具体的实施例:
设定园区数目有3个,每个园区的设备参数如表2所示:
表2
电网电价采用分时电价,如表3所示:
表3
热网热价
热网价格采用统一价格,向热网购热价格设置为0.518元/kW*h,向热网售热价格设置为0.318元/kW*h。
网络结构和超参设置:
设定各个园区智能体的网络结构相同,设置Actor网络的学习率为1e-4,Critic网络的学习率为1e-3,奖励衰减因子γ=1。
确定场景仿真结果分析如下:
在确定性场景中,假设各园区的负荷和新能源出力可精准预测,基于预测值,可进行多园区协同优化,分别采取以下两种方案进行对比:1)集中优化方法(CO),假设多园区综合能源系统有一个共同的管理者,其根据各个园区的数据和参数进行集中统一调度,所得结果作为本发明实施例所提方法的参考;2)单独优化方法(DO),假设各园区互相不能进行能量交换,各园区只能与外部网络进行能量交换,各园区单独优化的结果可作为本发明实施例所提方法的第二个参考。理论上集中优化的结果是最优的,而单独优化的结果各园区运行成本最高。
一个典型的场景如图2所示,由于各园区新能源出力具有时空相关性,因此本发明实施例假设各园区新能源出力形状相同,幅值不同。
三种方法在典型场景下得到的结果如表4所示,随着训练次数的增加,各园区之间的动作逐渐协调,经过10000次训练,三个园区奖励总和逼近集中调度的最优值。从表4中可以看出,相比于各园区单独优化的结果,园区1和园区3的用能成本下降比例较大,且园区1开始盈利,这是由于园区1新能源出力较高,其在内部市场扮演售能者(能量提供者)的角色,园区3新能源出力较低,在内部扮演购能者(能量接收者)的角色,多园区协同运行既提高了售能者的收益,也降低了购能者的运行成本。
表4
园区间内部市场的出清结果如图3所示,从内部出清曲线可得:内部热市场全天处于供不应求的状态,电力市场在新能源高发时刻会出现短暂供过于求,其余时刻也处于供不应求状态。
园区间内部市场的出清结果如图4所示,从内部出清曲线可得:内部热市场全天处于供不应求的状态,电力市场在新能源高发时刻会出现短暂供过于求,其余时刻也处于供不应求状态。
在确定场景下各园区间用能曲线如图5所示,在曲线中可以分析得到,由于园区1新能源发电量较大,因此其在内部市场售电较多,且因为其热负荷水平较低,因此园区1会在光伏高发时刻向其他园区出售多余的热能,而园区3由于新能源发电量最小,因此其主要是一个购能者。
在不确定场景中,假设新能源出力、电热负荷等不确定变量不能准确预测,本发明实施例建立的模型是否能够实现多园区的协同优化运行是本节需要探究的内容。为了刻画实际中的不确定性,本发明实施例基于采样的方式建立了多种场景供模型训练,并建立了100个随机测试场景来测试模型的训练效果。假设新能源和负荷的基准曲线为上一节建立的典型场景,并以基准曲线为均值、以0.1倍的基准值为标准差采样形成多种可能的场景,按照此方法建立的100个园区1的测试场景如图6所示,园区2和3按照相同的方法进行采样。
在不确定性场景测试中,本发明实施例建立了两种对比算法:1)考虑预测信息已知的集中优化(CO),2)园区独立运行的单时段最优算法(short-sight DO),即当预测信息未知时,单独运行的园区只根据当前阶段的实时信息做出单时段的最优调度,而不考虑全天最优。理论上三种优化方法得到的园区总运行成本关系为:考虑预测信息已知的集中优化<本发明实施例方法<园区独立运行的单时段最优算法。
100个测试场景下各园区平均运行成本统计结果如表5所示,本发明实施例所提方法的3个园区智能体奖励总和的收敛曲线如图7所示。从结果可得,在不确定场景中,相比于各园区的独立运行,基于MADDPG算法的协同优化可降低各园区的运行成本,总成本降低比例为7.78%。需要说明的是,集中优化需要对多重不确定量的准确预测,而基于MADDPG的协同优化在不需要精准预测信息的情况下可以接近集中优化的结果。
表5
本发明实施例将多智能体强化学习算法MADDPG应用于多园区综合能源系统的协同优化调度中,该算法的特点是集中训练、分散执行,可降低系统对通信的要求,在能够保护各个园区的隐私的前提下降低各个园区的运行成本,实现各个园区的协同运行优化。
确定场景的仿真结果表明基于MADDPG算法的多园区综合能源系统协同优化相比于各园区的单独优化可充分发挥各园区的分布式资源潜力,充分利用园区之间的能量互补优势,降低各园区的运行成本。不确定场景的仿真结果表明,本发明实施例提出的算法可不依赖于对不确定变量的准确预测,可应用于实时经济调度中。
本发明实施例公开了一种多园区综合能源调度系统,参见图2,包括:
强化学习智能体建立模块10,用于基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
调度决策模块20,用于将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
图9示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种多园区综合能源调度方法,该方法包括:
S1:基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
S2:将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种多园区综合能源调度方法,该方法包括:
S1:基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
S2:将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种多园区综合能源调度方法,该方法包括:
S1:基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
S2:将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种多园区综合能源调度方法,其特征在于,包括:
基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
所述基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体包括获取每个园区的用能成本和调度变量,每个园区的用能成本包括购能成本和售能收益,每个园区的调度变量主要为电锅炉的运行功率电储能系统充放电功率总购电量总售电量总购热量和总售热量
其中,每个园区的用能成本公式和调度变量公式如下:
将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
5.根据权利要求1所述的多园区综合能源调度方法,其特征在于,所述每个园区的用能成本和调度变量的约束条件包括传输线功率约束:
0≤Ei,t,b≤Ei,t,b,max
0≤Ei,t,s≤Ei,t,s,max
0≤Hi,t,b≤Hi,t,b,max
0≤Hi,t,s≤Hi,t,s,max。
6.一种多园区综合能源调度系统,其特征在于,包括:
强化学习智能体建立模块,用于基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体;
所述基于每个园区的新能源、储能、能量转换设备和多能用户,对每个园区分别建立一个强化学习智能体包括获取每个园区的用能成本和调度变量,每个园区的用能成本包括购能成本和售能收益,每个园区的调度变量主要为电锅炉的运行功率电储能系统充放电功率总购电量总售电量总购热量和总售热量
其中,每个园区的用能成本公式和调度变量公式如下:
调度决策模块,用于将每个强化学习智能体输入到多智能体深度确定性策略梯度模型,采用分散执行方法在真实物理空间进行调度决策;
所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的多园区综合能源调度方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述的多园区综合能源调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560538.8A CN113378456B (zh) | 2021-05-21 | 2021-05-21 | 多园区综合能源调度方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110560538.8A CN113378456B (zh) | 2021-05-21 | 2021-05-21 | 多园区综合能源调度方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378456A CN113378456A (zh) | 2021-09-10 |
CN113378456B true CN113378456B (zh) | 2023-04-07 |
Family
ID=77571618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110560538.8A Active CN113378456B (zh) | 2021-05-21 | 2021-05-21 | 多园区综合能源调度方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378456B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113922404B (zh) * | 2021-10-22 | 2023-08-29 | 山东大学 | 一种社区电动汽车集群充电协调方法及系统 |
CN114611813B (zh) * | 2022-03-21 | 2022-09-27 | 特斯联科技集团有限公司 | 基于氢储能的社区热-冷水循环最优调度方法及系统 |
CN115241885B (zh) * | 2022-07-26 | 2022-12-20 | 中国电力科学研究院有限公司 | 电网实时调度优化方法、系统、计算机设备及存储介质 |
CN116307136A (zh) * | 2023-02-24 | 2023-06-23 | 国网安徽省电力有限公司营销服务中心 | 一种基于深度强化学习的能源系统参数优化方法、系统、装置及存储介质 |
CN116821427B (zh) * | 2023-08-25 | 2024-01-12 | 国网信息通信产业集团有限公司 | 信息存储方法、装置、电子设备和计算机可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
CN112186799A (zh) * | 2020-09-22 | 2021-01-05 | 中国电力科学研究院有限公司 | 基于深度强化学习的分布式能源系统自治控制方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276698B (zh) * | 2019-06-17 | 2022-08-02 | 国网江苏省电力有限公司淮安供电分公司 | 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法 |
CN110365057B (zh) * | 2019-08-14 | 2022-12-06 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
EP4010847A1 (en) * | 2019-09-25 | 2022-06-15 | DeepMind Technologies Limited | Training action selection neural networks using hindsight modelling |
CN111709672B (zh) * | 2020-07-20 | 2023-04-18 | 国网黑龙江省电力有限公司 | 基于场景和深度强化学习的虚拟电厂经济调度方法 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
CN112615379B (zh) * | 2020-12-10 | 2022-05-13 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率控制方法 |
CN112598473A (zh) * | 2020-12-25 | 2021-04-02 | 国网浙江省电力有限公司 | 基于深度确定性策略梯度算法的发电商智能体及报价方法 |
-
2021
- 2021-05-21 CN CN202110560538.8A patent/CN113378456B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
CN112186799A (zh) * | 2020-09-22 | 2021-01-05 | 中国电力科学研究院有限公司 | 基于深度强化学习的分布式能源系统自治控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113378456A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378456B (zh) | 多园区综合能源调度方法和系统 | |
Liu et al. | Dynamic pricing for decentralized energy trading in micro-grids | |
Chen et al. | Research on day-ahead transactions between multi-microgrid based on cooperative game model | |
CN111881616A (zh) | 一种基于多主体博弈的综合能源系统的运行优化方法 | |
CN111181201B (zh) | 基于双层强化学习的多能园区调度方法及系统 | |
CN112202206A (zh) | 一种基于势博弈的多能源微网分布式调度方法 | |
Liu et al. | Research on bidding strategy of thermal power companies in electricity market based on multi-agent deep deterministic policy gradient | |
Najafi et al. | The role of EV based peer-to-peer transactive energy hubs in distribution network optimization | |
Sun et al. | A coalitional game theoretic energy transaction algorithm for networked microgrids | |
CN112862175B (zh) | 基于p2p电力交易的本地优化控制方法及装置 | |
Zhaoan et al. | Power charging management strategy for electric vehicles based on a Stackelberg game | |
CN116862144A (zh) | 一种基于双重博弈的多园区低碳调度方法及系统 | |
He et al. | A game-theoretic model for energy trading of privacy-preserving microgrid social networks | |
CN115693779A (zh) | 一种多虚拟电厂与配网协同优化调度方法及设备 | |
Hao et al. | Bilayer game strategy of regional integrated energy system under multi‐agent incomplete information | |
CN115759478A (zh) | 基于合作博弈的微网群优化运行方法、装置、设备及介质 | |
Sun et al. | Nash–Cournot power market model with a high penetration of prosumers: A distributionally robust optimization approach | |
CN111062513B (zh) | 基于自适应共识机制的分布式社区能源交易系统及方法 | |
CN114819336A (zh) | 一种多区域综合能源系统分布自治与协同优化方法及系统 | |
CN113609439A (zh) | 一种考虑发电侧同报价比例出清的现货市场出清方法及装置 | |
CN112886565A (zh) | 一种考虑多方利益均衡的配电网协调运行策略制定方法 | |
CN117767375B (zh) | 基于风险约束非对称合作博弈的共享储能公平性分配策略 | |
CN114374219B (zh) | 基于合作博弈的园区综合能源系统分布式优化方法及系统 | |
CN113743660B (zh) | 一种基于多边不完全信息演化博弈的配电网规划方法 | |
An et al. | A matrix game‐based coordinated optimisation method of distribution networks with multiple flexible resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |