CN113011101A - 一种储能参与调频辅助服务优化的控制方法及其系统 - Google Patents
一种储能参与调频辅助服务优化的控制方法及其系统 Download PDFInfo
- Publication number
- CN113011101A CN113011101A CN202110337216.7A CN202110337216A CN113011101A CN 113011101 A CN113011101 A CN 113011101A CN 202110337216 A CN202110337216 A CN 202110337216A CN 113011101 A CN113011101 A CN 113011101A
- Authority
- CN
- China
- Prior art keywords
- frequency modulation
- energy storage
- weight parameter
- auxiliary service
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 133
- 238000005457 optimization Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000008901 benefit Effects 0.000 claims abstract description 11
- 238000007599 discharging Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001803 electron scattering Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002402 nanowire electron scattering Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Power Engineering (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种储能参与调频辅助服务优化的控制方法及其系统,包括:获得调频市场的历史调频信号数据,其中,历史调频信号数据包括训练数据集和测试数据集;构建基于深度强化学习算法的储能参与调频辅助服务模型;根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立经验回放池;根据训练数据集和经验回放池训练储能参与调频辅助服务模型;根据测试数据集检测训练完毕的储能参与调频辅助服务模型;根据储能参与调频辅助服务模型对储能进行优化控制。如此,能够通过优化储能的实时控制策略,提高储能的调频绩效收入,从而提高储能运营商的市场收益水平,优化储能设备的投资回报率,促进储能建设。
Description
技术领域
本发明涉及电力系统储能技术领域,尤其涉及一种储能参与调频辅助服务优化的控制方法、系统、终端设备及其可读存储介质。
背景技术
储能可以和传统电源一样参与能量市场、调频市场和备用市场,以价格接受者方式在市场出清,提供服务获取收益。但因为储能不能发电,所以在能量市场中只能利用不同时段的电价差进行电能套利,收益十分微薄。在当前的电池成本水平下,仅仅参与能量市场很难收回投资成本。为了促进储能发展,寻找能够使其盈利的商业应用和模式至关重要。电池储能是一类优质的快速响应资源。让电池储能为电网提供备用、调频等辅助服务,一方面可以充分利用电池容量,增加其市场收益,改善其经济性,另一方面可以缓解电网的调峰调频压力。调频市场收益一般分为调频容量收益和调频绩效收益两部分,其中调频绩效收益是储能在调频辅助服务市场中的主要收益来源。调频绩效收益主要是通过调频设备响应功率与调频信号的重合程度来衡量的。对于快速调频信号,一般都是以秒级周期来更新响应信号。因此,设计储能在秒级时序上的优化控制策略,可以满足储能参与调频市场的需求,对于完善储能参与电力市场机制、促进储能设备发展具有重要意义。
发明内容
本发明目的在于,提供一种储能参与调频辅助服务优化的控制方法及其系统,通过优化储能的实时控制策略,提高储能的调频绩效收入,从而提高储能运营商的市场收益水平,同时也能优化储能设备的投资回报率,促进储能建设。
为实现上述目的,本发明提供一种储能参与调频辅助服务优化的控制方法,包括:
获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
构建基于深度强化学习算法的储能参与调频辅助服务模型;
根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
优选地,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
优选地,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
随机初始化模型的权重参数θQ、权重参数θμ,并令θQ′=θQ,θμ′=θμ,以初始化Critic网络Q(st,Rt|θQ)、Actor网络μ(st|θμ)、目标Critic网络Q′(st,Rt|θQ′)和目标Actor网络μ′(st|θμ′),其中θQ、θμ、θQ'、θμ'分别为每个神经网络的所述权重参数,st代表所述储能的当前状态,Q代表状态st下选择动作Rt的价值,μ代表状态st下的最优动作。
优选地,所述经验回放池包括五元组元素,所述五元组元素为其中,st代表所述储能的当前状态、Rt代表所述储能的当前动作、代表所述储能当前动作的即时收益、st+1代表所述储能的下个时刻的状态、Dt代表调度周期结束标志,当Dt=1代表一个调度周期的结束,反之则Dt=0。
优选地,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的储能充放电模型和调频绩效收益模型。
优选地,根据Actor网络选择所述储能的当前动作Rt,公式如下:
Rt=μ(st|θμ)+Nt
其中,Nt是随机变量。
优选地,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
根据损失函数和随机梯度下降法更新Critic网络Q(st,Rt|θQ)中所述权重参数θQ,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,γ为折现率;
根据梯度下降方法更新Actor网络μ(st|θμ)的所述权重参数θμ,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据所述权重参数θQ和所述权重参数θμ分别更新所述目标Critic网络Q′(st,Rt|θQ′)中权重参数θQ'和目标Actor网络μ′(st|θμ′)中权重参数θμ',公式如下:
θQ'←λθQ+(1-λ)θQ'
θμ'←λθμ+(1-λ)θμ'
其中λ为软更新系数;
判断所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'是否收敛,若否,则继续更新所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ',直至所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'收敛。
本发明提供还提供一种储能参与调频辅助服务优化的控制系统,应用于上述的储能参与调频辅助服务优化的控制方法,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于构建基于深度强化学习算法的储能参与调频辅助服务模型;
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型。
本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的储能参与调频辅助服务优化的控制方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的储能参与调频辅助服务优化的控制方法。
本发明的储能参与调频辅助服务优化的控制方法及其系统中,针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度强化学习算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的储能参与调频辅助服务优化的控制方法的流程示意图;
图2是本发明另一实施例提供的储能参与调频辅助服务优化的控制方法的流程示意图;
图3是本发明某一实施例提供的单个电池的最大充放电功率与荷电状态的约束条件的示意图;
图4是本发明某一实施例提供的计算机终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,本发明实施例提供一种储能参与调频辅助服务优化的控制方法,包括:
S10、获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
S20、构建基于深度强化学习算法的储能参与调频辅助服务模型;
S30、根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
S40、根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
S50、根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
S60、根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
在本实施例中,保存调频市场的历史调频信号作为深度强化学习的输入数据,调频市场一般包含快调频和慢调频两类调频信号。以PJM市场为例,根据美国联邦能源管理委员会(FERC)的第755号法令的指示,依据绩效收入的原则,PJM提供了两类调节信号:传统的调频信号RegA和动态调频信号RegD。其中前者是传统的监管调频资源的信号,该信号考虑了资源的爬坡率限制,由此变化速率较慢。而RegD信号则用来调节具有很高爬坡率能够快速响应的资源,这种信号来于RegA信号相同的算法,然而,经过高通滤波,收益频率变得非常快,且该信号在60分钟之内是能量中性的,这对于无法自身生产能量的储能来说无疑是有利的。RegD信号一般以4s为间隔。设总记录采集到调频信号为{St}1×T,T为总周期。将调频信号分为两部分,分别为训练数据集和测试数据集
建立基于深度确定性策略梯度(DDPG)算法的储能参与调频辅助服务模型,构建DDPG的神经网络并初始化神经网络的参数。
使用训练数据集训练DDPG的神经网络模型。从训练集中选取一个样本并初始化储能状态,通过随机探索获得经验回放池的元素,从经验回放池中随机抽取一个批量的元素并用于训练DDPG的神经网络参数,重复以上过程直到各个神经网络的权重参数收敛。
使用所述测试数据集评价储能的优化控制策略执行效果,将所述测试数据集带入到训练完毕的所述储能参与调频辅助服务模型中,用于检测模型训练的效果。
最后,根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
如此,基于深度强化学习的储能优化控制策略思路,相对于常规的随机优化方法,如随机动态规划等方法,该方法在计算优化策略时具有显著的时间效率,更能够适应储能在秒级时序上的快速优化控制需求。
在某一个实施例中,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
在本实施例中,利用深度确定性策略梯度(DDPG)算法构建储能参与调频辅助服务模型,在其他实施例中,所述深度强化学习算法还包括深度Q网络(DQN)和策略梯度算法(DPG),在此不做限定。
在某一个实施例中,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
随机初始化模型的权重参数θQ、权重参数θμ,并令θQ′=θQ,θμ′=θμ,以初始化Critic网络Q(st,Rt|θQ)、Actor网络μ(st|θμ)、目标Critic网络Q′(st,Rt|θQ′)和目标Actor网络μ′(st|θμ′),其中θQ、θμ、θQ'、θμ'分别为每个神经网络的所述权重参数,st代表储能的当前状态,Q代表状态st下选择动作Rt的价值,μ代表状态st下的最优动作。
在本实施例中,构建DDPG的神经网络。DDPG具有一种行动者-评论家(Actor-Critic)结构的神经网络。其中,动作估计(Actor)网络用于给出动作,状态估计(Critic)网络用于对动作的结果做出评价打分。Actor和Critic又各自分别有一个目标网络(target-net)和一个实际的网络(eval-net)。分别定义Actor网络和Critic网络为μ(st|θμ)和Q(st,Rt|θQ),Q代表状态st下选择动作Rt的价值,μ代表状态st下的最优动作。目标Actor网络和目标Critic网络为μ′(st|θμ′)和Q′(st,Rt|θQ′),其中θQ、θμ、θQ'、θμ'分别为各个网络的权重参数。与深度Q值网络(DQN)的双网络结构相似,目标网络与实际的网络具有相同的结构,但是参数更新有一定时差,以避免对Q值的过估计。
随机初始化模型参数θQ、θμ,并令θQ'=θQ,θμ'=θμ,得到4个初始化的神经网络Q(st,Rt|θQ)、μ(st|θμ)、Q′(st,Rt|θQ′)、μ′(st|θμ′)。
采用深度确定性策略梯度(DDPG)算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。DDPG算法相对于其他深度学习算法的主要优势在于拥有连续的状态空间和连续的动作空间,因此更能适应储能参与调频辅助服务的场景需求。
在某一个实施例中,所述经验回放池包括五元组元素,所述五元组元素为其中,st代表储能的当前状态、Rt代表储能的当前动作、代表储能当前动作的即时收益、st+1代表储能的下个时刻的状态、Dt代表调度周期结束标志,当Dt=1代表一个调度周期的结束,反之则Dt=0。
在本实施例中,建立深度强化学习的经验回放池。经验回放池的目的是让神经网络通过过去的经验来学习策略。经验回放池中包含的每一个元素都是一个五元组元素分别代表储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志,Dt=1代表一个调度周期的结束,即t=n,反之则Dt=0。
经验回放池让储能参与调频辅助服务模型通过过去的经验来学习策略,实现储能参与调频辅助服务的优化控制。
在某一个实施例中,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的储能充放电模型和调频绩效收益模型。
建立秒级时序上的储能充放电模型。建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件等,定义储能在调频辅助服务中的状态变量。具体地,
步骤1-1.储能电量的动态方程为:
其中,Et为储能电池在t时刻的电量,Pch,t与Pdis,t分别为储能的充电和放电功率,且Pch,t<0,Pdis,t>0;ηc与ηd分别为储能的充放电效率,Δt为时间间隔,按照调频信号的更新周期,一般取Δt=4s。
步骤1-2.储能的充放电功率会受到接口容量的限制,在一定范围内可控:
其中,SOCt是储能电池t时刻的荷电状态,和为单个电池的最大放电功率和最大充电功率限制,是SOCt的函数,EESS是单个电池的最大电量,NESS为储能运营商的电池数量。Pdis,t·Pch,t=0限定了储能不能同时充电和放电。
步骤1-3.SOCt应维持在一定范围内,以免对电池的使用寿命造成损害。
SOCmin≤SOCt≤SOCmax 式(3)
其中,SOCmin和SOCmax是储能荷电状态(SOC)的最小和最大值约束,一般在0到100%之间。
请参阅图3,步骤1-4.单个电池的最大充放电功率与荷电状态的约束条件具体表达式如下:
步骤1-5.定义储能在t时刻的动作(也就是响应信号)Rt为
其中,n为一个调度周期的指令数,可以取15分钟为一个调度周期,则n=15min/4s=225。可以看到Rt会受到储能电量和功率的约束。
步骤1-6.当储能参与调频辅助服务时,定义储能在t时刻的状态为st=[Et,St]。
建立秒级时序上的所述储能充放电模型,实现储能在秒级时序上的快速优化控制。
建立所述调频绩效收益模型。计算储能在调频市场中每个响应信号的调频绩效收益。不同市场规则中调频绩效收益的计算方式不同,但基本上都主要由调频性能指标决定,而调频性能指标通过比较调频信号和市场主体的响应信号决定。储能在调频辅助服务中的绩效收益基于调频总里程、调频价格和调频精确度,建立各时刻的调频精确度与储能响应信号之间的函数。具体地,
步骤2-1.首先计算调频信号的总里程,调频总里程M可以表示为:
步骤2-2.计算调频性能指标,调频性能指标具体表现为响应信号的精确度,是储能的充放电曲线与调频信号差值的函数。精确度越接近0,表示储能对信号的响应越低,越接近1,表示储能的充放电行为与调频信号越一致。调频性能指标可以表示为:
步骤2-3.得到调频市场中,市场主体的调频绩效收益Rmil为:
Rmil=MpmilAM 式(11)
其中,pmil为本调度周期中调频绩效价格。
通过建立调频绩效收益模型,计算储能在调频市场中每个响应信号的调频绩效收益。
在某一个实施例中,根据Actor网络选择所述储能的当前动作Rt,公式如下:
Rt=μ(st|θμ)+Nt
其中,Nt是随机变量。
在本实施例中,通过Actor网络选择一个响应动作如下:
其中Nt为随机变量,目的是增大优化策略的探索空间。
在某一个实施例中,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
根据损失函数和随机梯度下降法更新Critic网络Q(st,Rt|θQ)中权重参数θQ,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,γ为折现率;
根据策略梯度方法更新Actor网络μ(st|θμ)的权重参数θμ,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据所述权重参数θQ和所述权重参数θμ分别更新所述目标Critic网络Q′(st,Rt|θQ′)中权重参数θQ'和目标Actor网络μ′(st|θμ′)中权重参数θμ',公式如下:
θQ'←λθQ+(1-λ)θQ'
θμ'←λθμ+(1-λ)θμ'
其中λ为软更新系数;
判断所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'是否收敛,若否,则继续更新所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ',直至所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'收敛。
在本实施例中,使用训练数据集训练DDPG的神经网络模型。
步骤3-2.通过Actor网络选择一个响应动作如下:
其中Nt为随机变量,目的是增大优化策略的探索空间。
其中γ为折现率,可以取γ=0.95。
步骤3-4.采用如下损失函数更新的Q(st,Rt|θQ)参数θQ:
采用的更新算法为随机梯度下降法(SGD)。
步骤3-5.用策略梯度方法更新Actor网络的参数θμ如下:
其中J代表当前状态下,选择不同动作R的期望收益值,因此用同一批量中的平均值表示、R代表是一个变量,不是固定的动作值。
步骤3-6.更新两个目标网络如下:
θQ'←λθQ+(1-λ)θQ' 式(18)
θμ'←λθμ+(1-λ)θμ' 式(19)
其中λ为软更新系数,即每次只更新目标网络的λ部分,保留原参数的1-λ部分。
并回到步骤3-3,重复步骤3-3至3-6。
步骤3-7.重复步骤3-1至3-6直至所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'收敛。
最后通过训练得到的神经网络μ(st|θμ)可以用于对储能做秒级时序上的优化控制。即最优响应信号为:
并基于t时刻的动作(也就是响应信号)Rt还原出最优充放电功率。
其中,Critic网络是一个价值评价网络,它的输入是当前状态和某个选定的动作,输出是在当前状态下选择该动作的价值。Actor网络是一个行动网络,输入当前状态,输出为最优动作。两个目标网络的意义是为了延迟更新参数,从而避免训练网络参数时出现发散的结果。
本发明实施例针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度确定性策略梯度(DDPG)算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
本发明实施例提供还提供一种储能参与调频辅助服务优化的控制系统,应用于上述任一实施例中的储能参与调频辅助服务优化的控制方法,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于构建基于深度强化学习算法的储能参与调频辅助服务模型;
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型。
关于储能参与调频辅助服务优化的控制系统的具体限定可以参见上文中对于的限定,在此不再赘述。上述储能参与调频辅助服务优化的控制系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图4,本发明实施例提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的储能参与调频辅助服务优化的控制方法。
处理器用于控制该计算机终端设备的整体操作,以完成上述的储能参与调频辅助服务优化的控制方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的储能参与调频辅助服务优化的控制方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的储能参与调频辅助服务优化的控制方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的储能参与调频辅助服务优化的控制方法,并达到如上述方法一致的技术效果。
本发明提供的储能参与调频辅助服务优化的控制方法及其系统中,针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度强化学习算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种储能参与调频辅助服务优化的控制方法,其特征在于,包括:
获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
构建基于深度强化学习算法的储能参与调频辅助服务模型;
根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
2.根据权利要求1所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
3.根据权利要求2所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
随机初始化模型的权重参数θQ、权重参数θμ,并令θQ′=θQ,θμ′=θμ,以初始化Critic网络Q(st,Rt|θQ)、Actor网络μ(st|θμ)、目标Critic网络Q′(st,Rt|θQ′)和目标Actor网络μ′(st|θμ′),其中θQ、θμ、θQ'、θμ'分别为每个神经网络的所述权重参数,st代表所述储能的当前状态,Q代表状态st下选择动作Rt的价值,μ代表状态st下的最优动作。
5.根据权利要求4所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的储能充放电模型和调频绩效收益模型。
7.根据权利要求3或4所述的储能参与调频辅助服务优化的控制方法,其特征在于,根据Actor网络选择所述储能的当前动作Rt,公式如下:
Rt=μ(st|θμ)+Nt
其中,Nt是随机变量。
8.根据权利要求7所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
根据损失函数和随机梯度下降法更新Critic网络Q(st,Rt|θQ)中所述权重参数θQ,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,γ为折现率;
根据梯度下降方法更新Actor网络μ(st|θμ)的所述权重参数θμ,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据所述权重参数θQ和所述权重参数θμ分别更新所述目标Critic网络Q′(st,Rt|θQ′)中所述权重参数θQ'和所述目标Actor网络μ′(st|θμ′)中所述权重参数θμ',公式如下:
θQ'←λθQ+(1-λ)θQ'
θμ'←λθμ+(1-λ)θμ'
其中λ为软更新系数;
判断所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'是否收敛,若否,则继续更新所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ',直至所述权重参数θQ、所述权重参数θμ、所述权重参数θQ'和所述权重参数θμ'收敛。
9.一种储能参与调频辅助服务优化的控制系统,其特征在于,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于构建基于深度强化学习算法的储能参与调频辅助服务模型;
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型。
10.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7任一项所述的储能参与调频辅助服务优化的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337216.7A CN113011101B (zh) | 2021-03-29 | 2021-03-29 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110337216.7A CN113011101B (zh) | 2021-03-29 | 2021-03-29 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011101A true CN113011101A (zh) | 2021-06-22 |
CN113011101B CN113011101B (zh) | 2024-01-23 |
Family
ID=76409030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110337216.7A Active CN113011101B (zh) | 2021-03-29 | 2021-03-29 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011101B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113644671A (zh) * | 2021-07-30 | 2021-11-12 | 湖南工业大学 | 基于深度强化学习的城轨混合储能系统功率动态分配控制方法 |
CN113723798A (zh) * | 2021-08-27 | 2021-11-30 | 广东电网有限责任公司 | 一种基于在线深度强化学习的需求响应控制方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN107947211A (zh) * | 2017-12-06 | 2018-04-20 | 国网山东省电力公司济南供电公司 | 采用小波包分解并计及频率响应的孤岛型微电网储能优化配置方法 |
CN109193721A (zh) * | 2018-09-29 | 2019-01-11 | 华南理工大学 | 一种基于强化学习的电动汽车充放电策略优化方法 |
CN110277804A (zh) * | 2019-06-22 | 2019-09-24 | 南京邮电大学 | 一种基于微电网供需比的储能动作机制 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
CN110943463A (zh) * | 2019-12-02 | 2020-03-31 | 国网浙江省电力有限公司湖州供电公司 | 一种基于深度学习储能电池参与的电网快速调频控制方法 |
CN111525603A (zh) * | 2020-06-02 | 2020-08-11 | 华北电力大学 | 一种基于bess辅助的火电机组调频调峰优化方法 |
CN112103971A (zh) * | 2020-09-01 | 2020-12-18 | 广西大学 | 一种电网调频型飞轮储能系统的矢量强化学习控制方法 |
CN112564109A (zh) * | 2020-12-22 | 2021-03-26 | 国网福建省电力有限公司 | 一种基于储能系统参与含大规模海上风电的调频优化运行方法 |
-
2021
- 2021-03-29 CN CN202110337216.7A patent/CN113011101B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN107947211A (zh) * | 2017-12-06 | 2018-04-20 | 国网山东省电力公司济南供电公司 | 采用小波包分解并计及频率响应的孤岛型微电网储能优化配置方法 |
CN109193721A (zh) * | 2018-09-29 | 2019-01-11 | 华南理工大学 | 一种基于强化学习的电动汽车充放电策略优化方法 |
CN110277804A (zh) * | 2019-06-22 | 2019-09-24 | 南京邮电大学 | 一种基于微电网供需比的储能动作机制 |
CN110365057A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 基于强化学习的分布式能源参与配电网调峰调度优化方法 |
CN110943463A (zh) * | 2019-12-02 | 2020-03-31 | 国网浙江省电力有限公司湖州供电公司 | 一种基于深度学习储能电池参与的电网快速调频控制方法 |
CN111525603A (zh) * | 2020-06-02 | 2020-08-11 | 华北电力大学 | 一种基于bess辅助的火电机组调频调峰优化方法 |
CN112103971A (zh) * | 2020-09-01 | 2020-12-18 | 广西大学 | 一种电网调频型飞轮储能系统的矢量强化学习控制方法 |
CN112564109A (zh) * | 2020-12-22 | 2021-03-26 | 国网福建省电力有限公司 | 一种基于储能系统参与含大规模海上风电的调频优化运行方法 |
Non-Patent Citations (9)
Title |
---|
史景坚;周文涛;张宁;陈桥;刘金涛;曹振博;陈懿;宋航;刘友波;: "含储能系统的配电网电压调节深度强化学习算法", 电力建设, no. 03, pages 71 - 78 * |
史景坚等: "含储能系统的配电网电压调节深度强化学习算法", 《电力建设》 * |
史景坚等: "含储能系统的配电网电压调节深度强化学习算法", 《电力建设》, no. 03, 1 March 2020 (2020-03-01), pages 71 - 78 * |
王德志: "电力市场下需求响应参与辅助调峰调频的建模与优化研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
王德志: "电力市场下需求响应参与辅助调峰调频的建模与优化研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 1, 15 January 2020 (2020-01-15), pages 042 - 2382 * |
肖云鹏等: "包含独立储能的现货电能量与调频辅助服务市场出清协调机制", 《中国电机工程学报》 * |
肖云鹏等: "包含独立储能的现货电能量与调频辅助服务市场出清协调机制", 《中国电机工程学报》, vol. 40, no. 1, 30 August 2020 (2020-08-30), pages 167 - 180 * |
韦嘉睿等: "储能参与辅助服务补偿机制及多商业模式运行研究", 《电器与能效管理技术》 * |
韦嘉睿等: "储能参与辅助服务补偿机制及多商业模式运行研究", 《电器与能效管理技术》, no. 5, 30 May 2020 (2020-05-30), pages 78 - 85 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113644671A (zh) * | 2021-07-30 | 2021-11-12 | 湖南工业大学 | 基于深度强化学习的城轨混合储能系统功率动态分配控制方法 |
CN113723798A (zh) * | 2021-08-27 | 2021-11-30 | 广东电网有限责任公司 | 一种基于在线深度强化学习的需求响应控制方法及系统 |
CN113723798B (zh) * | 2021-08-27 | 2022-11-11 | 广东电网有限责任公司 | 一种基于在线深度强化学习的需求响应控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113011101B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112862281A (zh) | 综合能源系统调度模型构建方法、装置、介质及电子设备 | |
Liu et al. | An extended Kalman filter based data-driven method for state of charge estimation of Li-ion batteries | |
CN111007399B (zh) | 基于改进生成对抗网络的锂电池荷电状态预测方法 | |
CN113064093B (zh) | 储能电池荷电状态与健康状态联合估算方法及系统 | |
CN113011101A (zh) | 一种储能参与调频辅助服务优化的控制方法及其系统 | |
CN110658460B (zh) | 一种电池包的电池寿命预测方法及装置 | |
CN113253116A (zh) | 锂离子电池荷电状态估计方法、存储介质 | |
CN111812519B (zh) | 一种电池参数辨识方法及系统 | |
CN109633449A (zh) | 基于灰色向量机的矿用锂电池寿命预测方法及管理系统 | |
CN115085202A (zh) | 电网多区域智能功率协同优化方法、装置、设备及介质 | |
CN115189370A (zh) | 一种混合储能参与调频的容量分配方法及系统 | |
CN115308608A (zh) | 一种全钒液流电池电压预测方法、装置及介质 | |
CN115616333A (zh) | 一种配电网线损预测方法及系统 | |
CN114757548A (zh) | 一种采用场景构建的风电储能设备调节性能评估方法 | |
CN115236526A (zh) | 一种剩余充电时间预测方法、装置、存储介质和车辆 | |
CN112182835A (zh) | 一种考虑风电不确定性和储能调节的电力系统可靠性评估方法及系统 | |
CN113705067B (zh) | 一种微网优化运行策略生成方法、系统、设备及存储介质 | |
CN115018379B (zh) | 电动汽车日内响应能力评估方法、系统及计算机存储介质 | |
CN112865235B (zh) | 电池控制方法、电子设备及存储介质 | |
CN114723115A (zh) | 基于需求响应协调的含风电场配电系统优化方法及装置 | |
CN116384221A (zh) | 基于特征驱动和机器学习的闭环优化电池快充策略设计方法 | |
CN116224083A (zh) | 基于优化Elman神经网络的锂离子电池荷电状态估计方法 | |
CN115241935A (zh) | 储能电站二次调频响应控制方法、装置及电子设备 | |
CN114997494A (zh) | 备用资源等效出清折算方法、系统、设备及存储介质 | |
CN113408886A (zh) | 一种储能容量的配置方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |