CN114202229B - 基于深度强化学习的微电网的能量管理策略的确定方法 - Google Patents

基于深度强化学习的微电网的能量管理策略的确定方法 Download PDF

Info

Publication number
CN114202229B
CN114202229B CN202111560458.9A CN202111560458A CN114202229B CN 114202229 B CN114202229 B CN 114202229B CN 202111560458 A CN202111560458 A CN 202111560458A CN 114202229 B CN114202229 B CN 114202229B
Authority
CN
China
Prior art keywords
grid
micro
description information
state
charge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111560458.9A
Other languages
English (en)
Other versions
CN114202229A (zh
Inventor
李鹏
俞靖一
马溪原
张子昊
黄彦璐
闫东翔
姚森敬
张凡
陈元峰
程凯
李卓环
周悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202111560458.9A priority Critical patent/CN114202229B/zh
Publication of CN114202229A publication Critical patent/CN114202229A/zh
Application granted granted Critical
Publication of CN114202229B publication Critical patent/CN114202229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Water Supply & Treatment (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请涉及一种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取训练样本集,其中,所述训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;基于所述训练样本,训练预设模型,得到目标模型;基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;根据所述特性描述信息,确定所述微电网的能量管理策略。采用本方法能够适应真实场景的需求。

Description

基于深度强化学习的微电网的能量管理策略的确定方法
技术领域
本申请涉及微电网能量管理技术领域,特别是涉及一种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
微电网包括分布式发电机、负荷、储能装置及保护装置等组成部分,并与大电网在公共连接点连接。微电网的能量管理策略是以微电网的优化运行为目标,制定合理的能量管理策略,实现微电网在稳定可靠运行的基础上的运行效益最大化。
传统的基于优化方法制定能量管理策略时,需要假定已知微电网在未来时间段内的可再生能源发电和负荷,然而真实场景中可再生能源和负荷具有强烈的不确定性,因此,采用传统方法得到的能量管理策略无法适应真实场景的需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够适应真实场景的需求的基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于深度强化学习的微电网的能量管理策略的确定方法。所述方法包括:
获取训练样本集,其中,该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,该状态描述信息包括该微电网在该历史时间段的运行状态,该特性描述信息包括该微电网在该历史时间段的功率和运行状态;
基于该训练样本,训练预设模型,得到目标模型;
基于该微电网在当前时间段的状态描述信息和该目标模型,得到该微电网在当前时间段的特性描述信息;
根据该特性描述信息,确定该微电网的能量管理策略。
在其中一个实施例中,所述方法还包括:
建立该微电网的电网约束条件,该电网约束条件包括该微电网的功率平衡的约束条件、该微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、该微电网中储能电池的充放电状态的约束条件、该储能电池的充放电功率的约束条件、该储能电池的荷电状态的约束条件以及该微电网与大电网之间的功率交换的约束条件;
获取该储能电池的充放电特性曲线,该充放电特性曲线是用于表征该储能电池的内阻随荷电状态的变化而变化的关系曲线;
根据该充放电特性曲线,构建该训练样本集。
在其中一个实施例中,根据该充放电特性曲线,构建该训练样本集,包括:
根据该充放电特性曲线,确定最小内阻对应的荷电状态;
基于该最小内阻对应的荷电状态,构建该训练样本集。
在其中一个实施例中,基于该最小内阻对应的荷电状态,构建该训练样本集包括:
基于该最小内阻对应的荷电状态,确定该微电网在各该历史时间段内的运行成本;
对于各该历史时间段,将该历史时间段内的运行成本、状态描述信息以及特性描述信息作为该训练样本集中的一个样本。
在其中一个实施例中,该特性描述信息包括的运行状态为该微电网的可控发电机组的运行状态,该特性描述信息包括的功率为该可控发电机组的功率,该特性描述信息还包括该微电网中储能电池的充电功率和放电功率以及该微电网与大电网的交换功率。
在其中一个实施例中,该状态描述信息中的运行状态包括该微电网的可控发电机组在该历史时间段的上一时间段的运行状态和功率、该微电网中风机机组在该历史时间段的发电功率、该微电网中光伏机组在该历史时间段的发电功率、该微电网在该历史时间段的负荷、该微电网中储能电池在该上一时间段的荷电状态以及电网的电价。
第二方面,本申请还提供了一种基于深度强化学习的微电网的能量管理策略的确定装置。所述装置包括:
第一获取模块,用于获取训练样本集,其中,该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,该状态描述信息包括该微电网在该历史时间段的运行状态,该特性描述信息包括该微电网在该历史时间段的功率和运行状态;
训练模块,用于基于该训练样本,训练预设模型,得到目标模型;
第一确定模块,用于基于该微电网在当前时间段的状态描述信息和该目标模型,得到该微电网在当前时间段的特性描述信息;
第二确定模块,用于根据该特性描述信息,确定该微电网的能量管理策略。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法的步骤。
上述种基于深度强化学习的微电网的能量管理策略的确定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取训练样本集,其中,该训练样本集中的各训练样本包括该微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,该状态描述信息包括该微电网在该历史时间段的运行状态,该特性描述信息包括该微电网在该历史时间段的功率和运行状态。并基于该训练样本,训练预设模型,得到目标模型,进而基于该微电网在当前时间段的状态描述信息和该目标模型,得到该微电网在当前时间段的特性描述信息,从而根据该特性描述信息,确定该微电网的能量管理策略。传统的基于优化方法的能量管理策略中,需要假定已知未来时间段内的可再生能源发电和负荷,而本实施例由于通过获取训练样本集,并根据训练样本得到目标模型,最终基于该微电网在当前时间段的状态描述信息和该目标模型,无需假定已知未来时间段内的可再生能源发电和负荷,就可以得到该微电网在当前时间段的特性描述信息,从而根据该特性描述信息,确定该微电网的能量管理策略。因此,本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题,从而本实施例确定的能量管理策略能够适应真实场景的需求。
附图说明
图1为本申请实施例中提供的基于深度强化学习的微电网的能量管理策略的确定方法的流程示意图;
图2为本申请实施例中提供的一种构建训练样本集的流程示意图;
图3为本实施例提供的充放电特性曲线;
图4为本申请实施例中提供的一种确定训练样本集的流程示意图;
图5为本申请实施例中提供的一种得到训练样本集的流程示意图;
图6为本申请实施例中提供的一种基于深度强化学习的微电网的能量管理策略的确定装置的结构示意图;
图7为本申请实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本实施例中,提供了一种基于深度强化学习的微电网的能量管理策略的确定方法,本实施例以该方法应用于计算机设备进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括计算机设备和服务器的系统,并通过计算机设备和服务器的交互实现。
图1为本申请实施例中提供的基于深度强化学习的微电网的能量管理策略的确定方法的流程示意图,该方法应用于计算机设备或服务器中,在一个实施例中,如图1所示,包括以下步骤:
S101,获取训练样本集,其中,训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,状态描述信息包括微电网在历史时间段的运行状态,特性描述信息包括微电网在历史时间段的功率和运行状态。
在本实施例中,获取训练样本集,训练样本集包括微电网在多个历史时间段内的运行成本rt、状态描述信息st和st+1、特性描述信息at。其中,t取值大于零小于T的整数,例如T为24小时,则t取值1~24,表示一天内的第t个时间段,则历史时间段表示过去若干天中各个时间段。更具体地,本实施例将多个历史时间段内的rt、st、st+1、rt以及at,作为一组样本存储到训练样本集。
S102,基于训练样本,训练预设模型,得到目标模型。
在本实施例中,当训练样本集中储存的样本组数量满足训练要求时,则从训练样本集中随机采样N个样本组作为训练样本。其中,满足训练要求的样本组数量是预设的数量,本实施例不做限制。
本实施例采用了基于深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG)的强化学习方法训练预设模型。其中,预设模型包括1个Actor网络和1个Critic网络,Actor和Critic网络均包含了1个Eval网络和1个Target网络,即Actor-Eval网络、Actor-Target、Critic-Eval网络以及Critic-Target网络。
更具体地,Critic-Eval网络通过如下式(1)的最小化损失函数进行训练,更新Critic-Eval网络的参数。
Figure GDA0003590541640000051
其中,θQ是Critic-Eval网络的参数,
Figure GDA0003590541640000052
表示第n次迭代时Critic-Eval网络的参数。N为训练样本数量,i是大于等于1小于等于N的整数,样本i就是第N个训练样本。yi为Critic-Target网络的动作值,可以通过如下式(2)确定。Q表示向Critic-Eval网络输入样本i对应的si和ai后输出的最优调度动作的质量。可以由如下式(3)得到。
yi=ri+γQ′(si+1,u′(si+1u′)|θQ′) (2)
Figure GDA0003590541640000061
其中,π表示策略,它是从状态到动作的映射,Eπ是平均值。K是优化视界,是大于等于1小于等于24的整数。γ表示折扣因子,在0~1之间取值,γ越大,折扣越小。Q′表示向Critic-Target网络输入样本i对应的si和ai后输出的最优调度动作的质量,u′表示si+1对应的特性描述信息。θQ′是Critic-Target网络的参数。
通过如下式(4),可以进一步求解式(1),更新Critic-Eval网络的参数。
Figure GDA0003590541640000062
其中,
Figure GDA0003590541640000063
表示第n+1次迭代时Critic-Eval网络的参数,/>
Figure GDA0003590541640000064
为学习率。
Actor-Eval网络的参数θu通过如下式(5)的策略梯度进行更新。
Figure GDA0003590541640000065
Critic-Target网络的参数θQ′按照如下式(6)更新。
θQ′=τθQ+(1-τ)θQ′ (6)
Actor-Target网络的参数θu′按照如下式(7)更新。
θu′=τθu+(1-τ)θu′ (7)
其中,τ在0~1之间取值。
在本实施例中,直到式(1)和式(5)均表现为收敛,则表示训练结束,将此时的各网络参数θQ、θu、θQ′和θu′作为最终目标模型的网络参数,得到目标模型。
S103,基于微电网在当前时间段的状态描述信息和目标模型,得到微电网在当前时间段的特性描述信息。
在本实施例中,基于根据训练样本得到的目标模型,将当前时间段的状态描述信息st输入目标模型,就会得到微电网在当前时间段的特性描述信息at
S104,根据特性描述信息,确定微电网的能量管理策略。
在本实施例中,根据微电网在当前时间段的特性描述信息,就可以得到相应的微电网能量管理策略,实现微电网的实时能量管理。更具体地,本实施例可以输入当前时刻的可再生能源发电功率例如风机发电功率、上一时刻的可控发电机组的发电功率、储能电池的荷电状态、微电网的负荷以及电网购售电价,得到当前时刻的可控发电机组上午的出力、储能电池的充电功率、放电功率、以及微电网与大电网的交换功率。
本实施例通过通过获取训练样本集,其中,训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,状态描述信息包括微电网在历史时间段的运行状态,特性描述信息包括微电网在历史时间段的功率和运行状态。并基于训练样本,训练预设模型,得到目标模型,进而基于微电网在当前时间段的状态描述信息和目标模型,得到微电网在当前时间段的特性描述信息,从而根据特性描述信息,确定微电网的能量管理策略。传统的基于优化方法的能量管理策略中,需要假定已知未来时间段内的可再生能源发电和负荷,而本实施例由于通过获取训练样本集,并根据训练样本得到目标模型,最终基于该微电网在当前时间段的状态描述信息和该目标模型,无需假定已知未来时间段内的可再生能源发电和负荷,就可以得到该微电网在当前时间段的特性描述信息,从而根据该特性描述信息,确定该微电网的能量管理策略。因此,本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题,从而本实施例确定的能量管理策略能够适应真实场景的需求。
图2为本申请实施例中提供的一种构建训练样本集的流程示意图,参照图2,本实施例涉及的是如何根据充放电特性曲线构建训练样本集的一种的实现方式。在上述实施例的基础上,上述的基于深度强化学习的微电网的能量管理策略的确定方法还包括如下步骤:
S201,建立微电网的电网约束条件,电网约束条件包括微电网的功率平衡的约束条件、微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、微电网中储能电池的充放电状态的约束条件、储能电池的充放电功率的约束条件、储能电池的荷电状态的约束条件以及微电网与大电网之间的功率交换的约束条件。
在本实施例中,微电网包括包括分布式发电机、负荷、储能装置等元件组成,本实施例根据微电网的元件组成,建立微电网的电网约束条件如下。可以理解的是,微电网的元件组成可以根据微电网的实际架构变动,本实施例不做限制。
微电网的功率平衡的约束条件如式(8)所示。
Figure GDA0003590541640000081
其中,i为1~N之间的整数,N为可控发电机组的数量,共N个可控发电机组,i表示可控发电机组i。例如,当i=1时表示可控发电机组1,具体地,可控发电机组可以是柴油机组,本实施例不做限制。其中,t取值大于零小于T的整数,例如T为24小时,则t取值1~24,表示一天内的第t个时间段,PG,i,t表示可控发电机组i在第t个时间段内的出力,即可控发电机组i在第t个时间段内的功率。Pdis,t表示微电网中储能电池在第t个时间段内的放电功率,Pcha,t表示微电网中储能电池在第t个时间段内的充电功率。PGrid,t表示微电网与大电网在第t个时间段内的交换功率,PGrid,t>0表示微电网从大电网买电,PGrid,t≤0表示微电网向大电网卖电。Pload,t表示微电网在第t个时间段内的负荷。PWT,t表示风机机组在第t个时间段内的发电功率。PPV,t表示光伏机组在第t个时间段内的发电功率。
微电网的可控发电机组的出力约束条件如式(9)所示。
Figure GDA0003590541640000082
其中,
Figure GDA0003590541640000083
和/>
Figure GDA0003590541640000084
分别表示可控发电机组i的最小出力和最大出力,non,i,t可控发电机组i在第t个时间段内的运行状态,non,i,t等于1时表示可控发电机组i在第t个时间段内处于运行状态,non,i,t等于0时表示可控发电机组i在第t个时间段内处于非运行状态。式(9)表示对于任意一个可控发电机组i在运行时状态时,在同一个时间段t的出力总是小于等于最大出力且大于等于最小出力。
微电网的可控发电机组的爬坡约束条件如式(10)所示。
Figure GDA0003590541640000085
其中,Pi,RD和Pi,RU分别表示可控发电机组i的最大下调出力和最大上调出力。式(10)表示对于任意一个可控发电机组i,第t个时间段内的出力和第t-1个时间段内的出力差值总是大于等于最大下调出力且小于等于最小下调出力。
微电网的可控发电机组的状态约束条件如式(11)和式(12)所示。
Figure GDA0003590541640000091
Figure GDA0003590541640000092
其中,nsu,i,t可控发电机组i在第t个时间段内的启动状态,non,i,t等于1时表示可控发电机组i在第t个时间段内处于启动状态,non,i,t等于0时表示可控发电机组i在第t个时间段内处于非启动状态。nsd,i,t可控发电机组i在第t个时间段内的停机状态,non,i,t等于1时表示可控发电机组i在第t个时间段内处于停机状态,non,i,t等于0时表示可控发电机组i在第t个时间段内处于非停机状态。式(11)表示同一个可控发电机组i在相邻两个时间段,要么都是运行状态,要么都是非运行状态,要么从运行状态变为非运行状态,要么从非运行状态变为运行状态。同理,同一个可控发电机组i在同一时间段内,要么是启动状态,要么停机状态,要么是非启动非停机状态。式(12)表示同一个时间段内可控发电机组i不能同时处于启动状态和停机状态。
微电网中储能电池的充放电状态的约束条件如式(13)所示。
Figure GDA0003590541640000097
其中,ncha,t表示储能电池的充电状态,ncha,t等于1时表示储能电池在第t个时间段内处于充电状态,ncha,t等于0时储能电池在第t个时间段内处于非充电状态。ndis,t表示储能电池的放电状态,ndis,t等于1时表示储能电池在第t个时间段内处于放电状态,ndis,t等于0时储能电池在第t个时间段内处于非放电状态。式(13)表示同一个时间段内储能电池不能同时处于充电状态和放电状态。
微电网中储能电池的充放电功率的约束条件如式(14)和式(15)所示。
Figure GDA0003590541640000093
Figure GDA0003590541640000094
其中,ηcha,t表示储能电池在第t个时间段内的充电效率,ηdis,t表示储能电池在第t个时间段内的放电效率。
Figure GDA0003590541640000095
表示储能电池的最大充电功率,/>
Figure GDA0003590541640000096
表示储能电池的最大放电功率。式(14)表示储能电池在同一个时间段的充电功率大于等于0且小于等于最大放电功率乘以该时间段内的充电效率;式(15)表示储能电池在同一个时间段的放电功率大于等于0且小于等于最大放电功率乘以该时间段内的放电效率。
微电网中储能电池的荷电状态的约束条件如式(16)和式(17)所示。
Figure GDA0003590541640000101
Figure GDA0003590541640000102
其中,soct表示储能电池在第t个时间段内的荷电状态;Ec表示储能电池的最大容量;socmin表示储能电池的最小荷电状态,socmax表示储能电池的最大荷电状态。式(16)表示储能电池在当前时间段内的荷电状态由上一个时间段的荷电状态、储能电池的充电功率、放电功率、充电效率、放电效率以及储能电池的最大容量决定;式(17)表示储能电池在任意一个时间段内的荷电状态大于等于储能电池的最小荷电状态且小于等于储能电池的最大荷电状态。
微电网与大电网之间的功率交换的约束条件如式(18)所示。
Figure GDA0003590541640000103
其中,
Figure GDA0003590541640000104
表示微电网与大电网允许交换的最大功率。式(18)表示,表示微电网与大电网在任意时间段的交换功率不能超过微电网与大电网允许交换的最大功率。
S202,获取储能电池的充放电特性曲线,充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线。
本实施例在深度强化学习基础上融合了专家知识。专家知识指传统的基于优化方法的能量管理策略中并未考虑到的专业知识。更具体地,储能电池的充放电特性曲线为基于专家知识得到的曲线,该曲线对于微电网的能量管理起着非常重要的作用,因为储能电池的充放电特性曲线与储能电池的荷电状态有着十分密切的关系。因此本实施例获取储能电池的充放电特性曲线,需要说明的是,充放电特性曲线是根据储能电池实验得到的,不同的储能电池的充放电特性曲线不同。图3为本实施例提供的充放电特性曲线,结合图3,该储能电池的内阻随着随荷电状态的变化而变化。
S203,根据充放电特性曲线,构建训练样本集。
在本实施例中,根据充放电特性曲线,就可以确定储能电池的充放电成本,从而确定微电网在多个历史时间段内的运行成本,进而构建训练样本集。
本实施例通过建立微电网的电网约束条件,并获取储能电池的充放电特性曲线,充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线,进而根据充放电特性曲线,构建训练样本集。由于根据充放电特性曲线,构建训练样本集,考虑了储能电池的充放电特性曲线,较传统的方法进一步融合专家知识构建训练样本集,并基于训练样本通过对历史数据训练,集得到目标模型,实现微电网能量管理策略的合理设定,增强微电网能量管理策略的自适应能力,提高强化学习神经网络模型的训练速度,从而确定的微电网能量管理策略能够适应真实场景的需求。
图4为本申请实施例中提供的一种确定训练样本集的流程示意图,参照图4,本实施例涉及的是如何根据充放电特性曲线,构建训练样本集的一种的实现方式。在上述实施例的基础上,上述的S403包括如下步骤:
S401,根据充放电特性曲线,确定最小内阻对应的荷电状态。
在本实施例中,如图3所示,当该储能电池的荷电状态(State of Charge,SOC)介于0.4到0.8之间时,储能电池的内阻是比较小并相对一致的,这一区间可以保证储能电池具有较高的充放电效率。结合图3,尤其是该储能电池SOC在0.6附近的时候,储能电池的充放电内阻最小。需要说明的是,内阻最小对应的SOC值不应局限于0.6,因为不同类型的电池,内阻最小点对应的SOC区间是不同的。因此,本实施例确定最小内阻对应的荷电状态为socref,即socref=0.6。
S402,基于最小内阻对应的荷电状态,构建训练样本集。
在本实施例中,基于最小内阻对应的荷电状态,就可以确定储能电池的充放电成本,例如,可以确定微电网在至少一个历史时间段内的运行成本,进而基于运行成本构建训练样本集。
本实施例通过根据充放电特性曲线,确定最小内阻对应的荷电状态,并基于最小内阻对应的荷电状态,构建训练样本集。由于较传统的方法进一步融合专家知识构建训练样本集,避免仅基于工程人员经验的短视和局限性,从而确定的微电网能量管理策略能够适应真实场景的需求。
图5为本申请实施例中提供的一种得到训练样本集的流程示意图,参照图5,本实施例涉及的是如何基于最小内阻对应的荷电状态构建训练样本集的一种的实现方式。在上述实施例的基础上,上述的S402包括如下步骤:
S501,基于最小内阻对应的荷电状态,确定微电网在各历史时间段内的运行成本。
在本实施例中,微电网能量管理策略的目标是需要微电网的总运行成本最低。进一步地,根据专家知识,需要保持储能电池的SOC在最小内阻附近,此时的储能电池运行在高效状态,可以减少充放电损失,从而降低微电网的总运行成本。
因此,微电网在多个历史时间段内的运行成本rt,即在第t个时刻段内的总运行成本表示为如下式(19)。rt包括可控发电机组在第t个时刻段内的燃料成本和启动成本FDG,t、储能电池在第t个时刻段内的充放电成本Fbat,t以及微电网与大电网之间在第t个时刻段内的购售电成本FGrid,t,FDG,t、Fbat,t和FGrid,t分为表示为式(20)、式(21)和式(22):
rt=-(α(FDG,t+Fbat,t+FGrid,t)+β(soc-socref)2) (19)
FDG,t=a·PG,t 2+b·PG,t+c·non,t (20)
Fbat,t=cb,t(Pdis,t+Pcha,t) (21)
FGrid,t=λb,tPbat,t (22)
其中,α表示微电网运行成本的权重系数,β表示储能电池SOC维持程度的权重系数;a、b、c为可控发电机组的燃料成本系数。PG,t是所有可控发电机组在第t个时刻段内的出力之和,non,t是所有可控发电机组在第t个时刻段内的运行状态之和。
S502,对于各历史时间段,将历史时间段内的运行成本、状态描述信息以及特性描述信息作为训练样本集中的一个样本。
在本实施例中将多个历史历史时间段内的rt、st、st+1、rt以及at,作为一组样本存储到训练样本集。
本实施例通过基于最小内阻对应的荷电状态,确定微电网在各历史时间段内的运行成本,进而对于各历史时间段,将历史时间段内的运行成本、状态描述信息以及特性描述信息作为样本集中的一个样本。由于基于最小内阻对应的荷电状态,确定微电网在各历史时间段内的运行成本,因此实现了储能电池运行在高校的充放电状态,在最大降低微电网的运行成本的情况下,保证储能电池运行在充放电高效率的状态,提高了微电网的整体运行性能。进一步地,还减小了训练过程的搜索空间,有利于提高目标模型训练的收敛速度。
可选的,状态描述信息中的运行状态包括微电网的可控发电机组在历史时间段的上一时间段的运行状态和功率、微电网中风机机组在历史时间段的发电功率、微电网中光伏机组在历史时间段的发电功率、微电网在历史时间段的负荷、微电网中储能电池在上一时间段的荷电状态以及电网的电价。
在本实施例中,微电网的状态描述信息st可以用如下式(23)表示。
st=(nDG,t-1,PG,t-1,PWT,t,PPV,t,Pload,t,λb,t,soct-1) (23)
nDG,t-1=(non,t-1,nsu,t-1,nsd,t-1) (24)
其中,nDG,t-1表示可控发电机组在上一个时间段内的机组状态,即微电网的可控发电机组在历史时间段的上一时间段的运行状态。nDG,t-1具体表示为式(24),包括所有可控发电机组在上一个时间段内的运行状态之和、启动状态之和和停机状态之和。PG,t-1表示所有可控发电机组在上一个时间段内的出力之和。PWT,t表示风机机组在在历史时间段的发电功率。PPV,t表示光伏机组在历史时间段内的发电功率。Pload,t表示微电网在在历史时间段内的负荷λb,t表示电网的电价。电网可以是微电网,也可以是大电网。
可以理解的是,历史时间段可以是历史中任意一个时间段t,则历史时间段的上一时间段就是t-1。例如,历史时间段是昨天的第2个时间段,则历史时间段的上一时间段就是昨天的第一个时间段。
本实施例的状态描述信息,可以进一步得到特性描述信,进而确定所述微电网的能量管理策略。
可选的,特性描述信息包括的运行状态为微电网的可控发电机组的运行状态,特性描述信息包括的功率为可控发电机组的功率,特性描述信息还包括微电网中储能电池的充电功率和放电功率以及微电网与大电网的交换功率。
在本实施例中,微电网的特性描述信息at可以用如下式(25)表示。
at=(nDG,t,PG,t,PGrid,t,Pcha,t,Pdis,t) (25)
nDG,t=(non,t,nsu,t,nsd,t) (26)
其中,nDG,t表示可控发电机组在历史时间段的机组状态,即微电网的可控发电机组在历史时间段的运行状态。nDG,t具体表示为式(26),包括所有可控发电机组在历史时间段的运行状态之和、启动状态之和和停机状态之和。PG,t表示所有可控发电机组在历史时间段内的出力之和。Pdis,t表示微电网中储能电池在历史时间段的放电功率,Pcha,t表示微电网中储能电池在历史时间段的充电功率。PGrid,t表示微电网与大电网在历史时间段的交换功率。可以理解的是,历史时间段可以是历史中任意一个时间段t,例如,历史时间段是昨天的第2个时间段,
本实施例的特性描述信息,可以进一步确定所述微电网的能量管理策略。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于深度强化学习的微电网的能量管理策略的确定方法的基于深度强化学习的微电网的能量管理策略的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于深度强化学习的微电网的能量管理策略的确定装置实施例中的具体限定可以参见上文中对于基于深度强化学习的微电网的能量管理策略的确定方法的限定,在此不再赘述。
在一个实施例中,参照图6,图6为本申请实施例中提供的一种基于深度强化学习的微电网的能量管理策略的确定装置的结构示意图,该装置600包括:第一获取模块601、训练模块602、第一确定模块603和第二确定模块604,其中:
第一获取模块601,用于获取训练样本集,其中,训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,状态描述信息包括微电网在历史时间段的运行状态,特性描述信息包括微电网在历史时间段的功率和运行状态。
训练模块602,用于基于训练样本,训练预设模型,得到目标模型。
第一确定模块603,用于基于微电网在当前时间段的状态描述信息和目标模型,得到微电网在当前时间段的特性描述信息。
第二确定模块604,用于根据特性描述信息,确定微电网的能量管理策略。
本实施例提供的基于深度强化学习的微电网的能量管理策略的确定装置,通过通过获取训练样本集,其中,训练样本集中的各训练样本包括微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,状态描述信息包括微电网在历史时间段的运行状态,特性描述信息包括微电网在历史时间段的功率和运行状态。并基于训练样本,训练预设模型,得到目标模型,进而基于微电网在当前时间段的状态描述信息和目标模型,得到微电网在当前时间段的特性描述信息,从而根据特性描述信息,确定微电网的能量管理策略。传统的基于优化方法的能量管理策略中,需要假定已知未来时间段内的可再生能源发电和负荷,而本实施例由于通过获取训练样本集,并根据训练样本得到目标模型,最终基于该微电网在当前时间段的状态描述信息和该目标模型,无需假定已知未来时间段内的可再生能源发电和负荷,就可以得到该微电网在当前时间段的特性描述信息,从而根据该特性描述信息,确定该微电网的能量管理策略。因此,本实施例的方法解决了传统方法中得到的能量管理策略无法适应真实场景的需求的问题,从而本实施例确定的能量管理策略能够适应真实场景的需求。
可选的,该装置600还包括:
建立模块,用于建立微电网的电网约束条件,电网约束条件包括微电网的功率平衡的约束条件、微电网的功率的约束条件、爬坡约束条件、微电网的机组状态的约束条件、微电网中储能电池的充放电状态的约束条件、储能电池的充放电功率的约束条件、储能电池的荷电状态的约束条件以及微电网与大电网之间的功率交换的约束条件。
第二获取模块,用于获取储能电池的充放电特性曲线,充放电特性曲线是用于表征储能电池的内阻随荷电状态的变化而变化的关系曲线。
构建模块,用于根据充放电特性曲线,构建训练样本集。
可选的,构建模块包括:
确定单元,用于根据充放电特性曲线,确定最小内阻对应的荷电状态。
构建单元,用于基于最小内阻对应的荷电状态,构建训练样本集。
可选的,构建单元包括:
第一确定子单元,用于基于最小内阻对应的荷电状态,确定微电网在各历史时间段内的运行成本。
第二确定子单元,用于对于各历史时间段,将历史时间段内的运行成本、状态描述信息以及特性描述信息作为训练样本集中的一个样本。
可选的,特性描述信息包括的运行状态为微电网的可控发电机组的运行状态,特性描述信息包括的功率为可控发电机组的功率,特性描述信息还包括微电网中储能电池的充电功率和放电功率以及微电网与大电网的交换功率。
可选的,状态描述信息中的运行状态包括微电网的可控发电机组在历史时间段的上一时间段的运行状态和功率、微电网中风机机组在历史时间段的发电功率、微电网中光伏机组在历史时间段的发电功率、微电网在历史时间段的负荷、微电网中储能电池在上一时间段的荷电状态以及电网的电价。
上述基于深度强化学习的微电网的能量管理策略的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图7为本申请实施例中计算机设备的内部结构图,在本实施例中,提供了一种计算机设备,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于深度强化学习的微电网的能量管理策略的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取训练样本集,其中,所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;
基于所述训练样本,训练预设模型,得到目标模型;
基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;
根据所述特性描述信息,确定所述微电网的能量管理策略。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
建立所述微电网的电网约束条件,所述电网约束条件包括所述微电网的功率平衡的约束条件、所述微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、所述微电网中储能电池的充放电状态的约束条件、所述储能电池的充放电功率的约束条件、所述储能电池的荷电状态的约束条件以及所述微电网与大电网之间的功率交换的约束条件;
获取所述储能电池的充放电特性曲线,所述充放电特性曲线是用于表征所述储能电池的内阻随荷电状态的变化而变化的关系曲线;
根据所述充放电特性曲线,构建所述训练样本集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据所述充放电特性曲线,确定最小内阻对应的荷电状态;
基于所述最小内阻对应的荷电状态,构建所述训练样本集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于所述最小内阻对应的荷电状态,确定所述微电网在各所述历史时间段内的运行成本;
对于各所述历史时间段,将所述历史时间段内的运行成本、状态描述信息以及特性描述信息作为所述训练样本集中的一个样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态,所述特性描述信息包括的功率为所述可控发电机组的功率,所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取训练样本集,其中,所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;
基于所述训练样本,训练预设模型,得到目标模型;
基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;
根据所述特性描述信息,确定所述微电网的能量管理策略。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
建立所述微电网的电网约束条件,所述电网约束条件包括所述微电网的功率平衡的约束条件、所述微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、所述微电网中储能电池的充放电状态的约束条件、所述储能电池的充放电功率的约束条件、所述储能电池的荷电状态的约束条件以及所述微电网与大电网之间的功率交换的约束条件;
获取所述储能电池的充放电特性曲线,所述充放电特性曲线是用于表征所述储能电池的内阻随荷电状态的变化而变化的关系曲线;
根据所述充放电特性曲线,构建所述训练样本集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述充放电特性曲线,确定最小内阻对应的荷电状态;
基于所述最小内阻对应的荷电状态,构建所述训练样本集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于所述最小内阻对应的荷电状态,确定所述微电网在各所述历史时间段内的运行成本;
对于各所述历史时间段,将所述历史时间段内的运行成本、状态描述信息以及特性描述信息作为所述训练样本集中的一个样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态,所述特性描述信息包括的功率为所述可控发电机组的功率,所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取训练样本集,其中,所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;
基于所述训练样本,训练预设模型,得到目标模型;
基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;
根据所述特性描述信息,确定所述微电网的能量管理策略。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
建立所述微电网的电网约束条件,所述电网约束条件包括所述微电网的功率平衡的约束条件、所述微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、所述微电网中储能电池的充放电状态的约束条件、所述储能电池的充放电功率的约束条件、所述储能电池的荷电状态的约束条件以及所述微电网与大电网之间的功率交换的约束条件;
获取所述储能电池的充放电特性曲线,所述充放电特性曲线是用于表征所述储能电池的内阻随荷电状态的变化而变化的关系曲线;
根据所述充放电特性曲线,构建所述训练样本集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据所述充放电特性曲线,确定最小内阻对应的荷电状态;
基于所述最小内阻对应的荷电状态,构建所述训练样本集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于所述最小内阻对应的荷电状态,确定所述微电网在各所述历史时间段内的运行成本;
对于各所述历史时间段,将所述历史时间段内的运行成本、状态描述信息以及特性描述信息作为所述训练样本集中的一个样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态,所述特性描述信息包括的功率为所述可控发电机组的功率,所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度强化学习的微电网的能量管理策略的确定方法,其特征在于,所述方法包括:
获取训练样本集,其中,所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;
基于所述训练样本,训练预设模型,得到目标模型;
基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;
根据所述特性描述信息,确定所述微电网的能量管理策略;
所述预设模型包括Actor-Eval网络、Actor-Target、Critic-Eval网络以及Critic-Target网络;
所述Critic-Eval网络基于
Figure FDA0004222618280000011
和/>
Figure FDA0004222618280000012
更新;
θQ为所述Critic-Eval网络的参数,
Figure FDA0004222618280000013
表示第n次迭代时所述Critic-Eval网络的参数,
Figure FDA0004222618280000014
表示第n+1次迭代时所述Critic-Eval网络的参数,/>
Figure FDA0004222618280000015
为学习率;N为所述训练样本的数量,i为大于等于1小于等于N的整数,yi为所述Critic-Target网络的动作值,yi通过yi=ri+γQ′(si+1,u′(si+1u′)|θQ′)确定;Q表示向所述Critic-Eval网络输入样本i对应的si和ai后输出的最优调度动作的质量,通过/>
Figure FDA0004222618280000016
确定;
π表示策略,是从状态到动作的映射,Eπ是平均值,K是优化视界,K是大于等于1小于等于24的整数,γ表示折扣因子,γ在0~1之间取值;Q表示向所述Critic-Target网络输入样本i对应的si和ai后输出的最优调度动作的质量,u表示si+1对应的特性描述信息;θQ′是Critic-Target网络的参数;
所述Actor-Eval网络的参数θu基于如下公式更新:
Figure FDA0004222618280000021
所述Critic-Target网络的参数θQ′基于θQ′=τθQ+(1-τ)θQ′更新;
所述Actor-Target网络的参数θu′基于θu′=τθu+(1-τ)θu′更新;
τ取值0~1;
所述基于所述训练样本,训练预设模型,得到目标模型,包括:
Figure FDA0004222618280000022
和/>
Figure FDA0004222618280000023
均表现为收敛的情况下的θQ、θu、θQ′和θu′作为所述目标模型的网络参数,以确定所述目标模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立所述微电网的电网约束条件,所述电网约束条件包括所述微电网的功率平衡的约束条件、所述微电网的可控发电机组的出力约束条件、爬坡约束条件、状态约束条件、所述微电网中储能电池的充放电状态的约束条件、所述储能电池的充放电功率的约束条件、所述储能电池的荷电状态的约束条件以及所述微电网与大电网之间的功率交换的约束条件;
获取所述储能电池的充放电特性曲线,所述充放电特性曲线是用于表征所述储能电池的内阻随荷电状态的变化而变化的关系曲线;
根据所述充放电特性曲线,构建所述训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述充放电特性曲线,构建所述训练样本集,包括:
根据所述充放电特性曲线,确定最小内阻对应的荷电状态;
基于所述最小内阻对应的荷电状态,构建所述训练样本集。
4.根据权利要求3所述的方法,其特征在于,所述基于所述最小内阻对应的荷电状态,构建所述训练样本集,包括:
基于所述最小内阻对应的荷电状态,确定所述微电网在各所述历史时间段内的运行成本;
对于各所述历史时间段,将所述历史时间段内的运行成本、状态描述信息以及特性描述信息作为所述训练样本集中的一个样本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述特性描述信息包括的运行状态为所述微电网的可控发电机组的运行状态,所述特性描述信息包括的功率为所述可控发电机组的功率,所述特性描述信息还包括所述微电网中储能电池的充电功率和放电功率以及所述微电网与大电网的交换功率。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述状态描述信息中的运行状态包括所述微电网的可控发电机组在所述历史时间段的上一时间段的运行状态和功率、所述微电网中风机机组在所述历史时间段的发电功率、所述微电网中光伏机组在所述历史时间段的发电功率、所述微电网在所述历史时间段的负荷、所述微电网中储能电池在所述上一时间段的荷电状态以及电网的电价。
7.一种基于深度强化学习的微电网的能量管理策略的确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取训练样本集,其中,所述训练样本集中的各训练样本包括所述微电网在多个历史时间段内的运行成本、状态描述信息以及特性描述信息,所述状态描述信息包括所述微电网在所述历史时间段的运行状态,所述特性描述信息包括所述微电网在所述历史时间段的功率和运行状态;
训练模块,用于基于所述训练样本,训练预设模型,得到目标模型;
第一确定模块,用于基于所述微电网在当前时间段的状态描述信息和所述目标模型,得到所述微电网在当前时间段的特性描述信息;
第二确定模块,用于根据所述特性描述信息,确定所述微电网的能量管理策略;
所述预设模型包括Actor-Eval网络、Actor-Target、Critic-Eval网络以及Critic-Target网络;
所述Critic-Eval网络基于
Figure FDA0004222618280000041
和/>
Figure FDA0004222618280000042
更新;
θQ为所述Critic-Eval网络的参数,
Figure FDA0004222618280000043
表示第n次迭代时所述Critic-Eval网络的参数,
Figure FDA0004222618280000044
表示第n+1次迭代时所述Critic-Eval网络的参数,/>
Figure FDA0004222618280000048
为学习率;N为所述训练样本的数量,i为大于等于1小于等于N的整数,yi为所述Critic-Target网络的动作值,yi通过yi=ri+γQ′(si+1,u′(si+1u′)|θQ′)确定;Q表示向所述Critic-Eval网络输入样本i对应的si和ai后输出的最优调度动作的质量,通过/>
Figure FDA0004222618280000045
确定;
π表示策略,是从状态到动作的映射,Eπ是平均值,K是优化视界,K是大于等于1小于等于24的整数,γ表示折扣因子,γ在0~1之间取值;Q′表示向所述Critic-Target网络输入样本i对应的si和ai后输出的最优调度动作的质量,u′表示si+1对应的特性描述信息;θQ′是Critic-Target网络的参数;
所述Actor-Eval网络的参数θu基于如下公式更新:
Figure FDA0004222618280000046
所述Critic-Target网络的参数θQ′基于θQ′=τθQ+(1-τ)θQ′更新;
所述Actor-Target网络的参数θu′基于θu′=τθu+(1-τ)θu′更新;
τ取值0~1;
所述训练模块,还用于将
Figure FDA0004222618280000047
Figure FDA0004222618280000051
均表现为收敛的情况下的θQ、θu、θQ′和θu′作为所述目标模型的网络参数,以确定所述目标模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111560458.9A 2021-12-20 2021-12-20 基于深度强化学习的微电网的能量管理策略的确定方法 Active CN114202229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111560458.9A CN114202229B (zh) 2021-12-20 2021-12-20 基于深度强化学习的微电网的能量管理策略的确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111560458.9A CN114202229B (zh) 2021-12-20 2021-12-20 基于深度强化学习的微电网的能量管理策略的确定方法

Publications (2)

Publication Number Publication Date
CN114202229A CN114202229A (zh) 2022-03-18
CN114202229B true CN114202229B (zh) 2023-06-30

Family

ID=80655429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111560458.9A Active CN114202229B (zh) 2021-12-20 2021-12-20 基于深度强化学习的微电网的能量管理策略的确定方法

Country Status (1)

Country Link
CN (1) CN114202229B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736962B (zh) * 2023-08-09 2023-12-01 深圳市蓝晨科技股份有限公司 一种多功能教育pc的电源管理方法、装置、设备及介质
CN117237034B (zh) * 2023-11-10 2024-02-09 宁德时代新能源科技股份有限公司 度电成本确定方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN112329977A (zh) * 2020-09-10 2021-02-05 国家电网有限公司 一种面向极端场景的风电功率预测系统
CN112419064A (zh) * 2020-12-07 2021-02-26 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
CN112488224A (zh) * 2020-12-08 2021-03-12 深圳供电局有限公司 模型训练方法、装置、计算机设备及存储介质
CN112491094A (zh) * 2020-11-19 2021-03-12 南方电网数字电网研究院有限公司 一种混合驱动的微电网能量管理方法、系统及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463356A (zh) * 2014-11-27 2015-03-25 国网浙江省电力公司嘉兴供电公司 一种基于多维信息人工神经网络算法的光伏发电功率预测方法
US20160294185A1 (en) * 2015-03-31 2016-10-06 Enernoc, Inc. Energy brown out prediction system
CN105356492B (zh) * 2015-11-30 2018-05-25 华南理工大学 一种适用于微电网的能量管理仿真系统及方法
CN106532688B (zh) * 2016-11-22 2019-02-26 国电南瑞科技股份有限公司 一种用于评估微电网运行可靠性的方法及系统
CN106911148A (zh) * 2017-04-28 2017-06-30 北京天诚同创电气有限公司 孤立微电网的能量管理方法和系统
CN108009684A (zh) * 2017-12-04 2018-05-08 上海电气集团股份有限公司 一种包含短期负荷预测的微电网并网状态能量管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN112329977A (zh) * 2020-09-10 2021-02-05 国家电网有限公司 一种面向极端场景的风电功率预测系统
CN112491094A (zh) * 2020-11-19 2021-03-12 南方电网数字电网研究院有限公司 一种混合驱动的微电网能量管理方法、系统及装置
CN112419064A (zh) * 2020-12-07 2021-02-26 中山大学 基于深度强化学习和联盟链的能量交易方法、装置及设备
CN112488224A (zh) * 2020-12-08 2021-03-12 深圳供电局有限公司 模型训练方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114202229A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN114202229B (zh) 基于深度强化学习的微电网的能量管理策略的确定方法
CN113285490B (zh) 电力系统调度方法、装置、计算机设备和存储介质
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
Li et al. Online battery protective energy management for energy-transportation nexus
CN113794199A (zh) 一种考虑电力市场波动的风电储能系统最大收益优化方法
CN110867852B (zh) 计及全寿命周期成本的微电网储能优化配置方法及装置
CN114977217A (zh) 一种电-氢混合储能系统配置方法及装置
CN114118532A (zh) 孤岛微网的调度方法、装置、计算机设备、存储介质
CN110048421B (zh) 储能装置容量选择方法及装置
CN115907140A (zh) 电力现货出清方案优化方法、装置、计算机设备和介质
CN114142460B (zh) 综合能源系统中储能双层目标优化配置方法及终端
CN114243693A (zh) 微电网的调度模型构建方法、装置和计算机设备
CN108336759B (zh) 一种多微网系统能量管控方法、gpu处理器
CN113780722B (zh) 配电网的联合规划方法、装置、计算机设备和存储介质
CN115207947B (zh) 电网节点储能配置方法、装置、计算机设备和存储介质
CN115864542B (zh) 电力机组调度模型的优化方法、装置、设备和存储介质
CN115514018A (zh) 新能源的消纳成本确定方法、装置、设备和存储介质
CN117293805A (zh) 光储系统容量确定方法、装置、设备和存储介质
CN118100141A (zh) 电力系统调度方法、装置、计算机设备、存储介质和产品
CN117559495A (zh) 基于蓄电池服役情况的配电网储能规划方法和装置
CN116822209A (zh) 考虑供需协同的大规模风光火储系统容量配置方法
CN117154733A (zh) 虚拟电厂的电力调度方法、装置、计算机设备
CN117175713A (zh) 基于碳排放的发电机组输出功率确定方法和装置
CN117411036A (zh) 一种考虑综合需求响应的电转氢综合能源运行方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant