CN113011101B - 一种储能参与调频辅助服务优化的控制方法及其系统 - Google Patents

一种储能参与调频辅助服务优化的控制方法及其系统 Download PDF

Info

Publication number
CN113011101B
CN113011101B CN202110337216.7A CN202110337216A CN113011101B CN 113011101 B CN113011101 B CN 113011101B CN 202110337216 A CN202110337216 A CN 202110337216A CN 113011101 B CN113011101 B CN 113011101B
Authority
CN
China
Prior art keywords
energy storage
frequency modulation
charge
state
auxiliary service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337216.7A
Other languages
English (en)
Other versions
CN113011101A (zh
Inventor
肖云鹏
白杨
刘思捷
蔡秋娜
关玉衡
张兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Original Assignee
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd filed Critical Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority to CN202110337216.7A priority Critical patent/CN113011101B/zh
Publication of CN113011101A publication Critical patent/CN113011101A/zh
Application granted granted Critical
Publication of CN113011101B publication Critical patent/CN113011101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Abstract

本发明公开了一种储能参与调频辅助服务优化的控制方法及其系统,包括:获得调频市场的历史调频信号数据,其中,历史调频信号数据包括训练数据集和测试数据集;构建基于深度强化学习算法的储能参与调频辅助服务模型;根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立经验回放池;根据训练数据集和经验回放池训练储能参与调频辅助服务模型;根据测试数据集检测训练完毕的储能参与调频辅助服务模型;根据储能参与调频辅助服务模型对储能进行优化控制。如此,能够通过优化储能的实时控制策略,提高储能的调频绩效收入,从而提高储能运营商的市场收益水平,优化储能设备的投资回报率,促进储能建设。

Description

一种储能参与调频辅助服务优化的控制方法及其系统
技术领域
本发明涉及电力系统储能技术领域,尤其涉及一种储能参与调频辅助服务优化的控制方法、系统、终端设备及其可读存储介质。
背景技术
储能可以和传统电源一样参与能量市场、调频市场和备用市场,以价格接受者方式在市场出清,提供服务获取收益。但因为储能不能发电,所以在能量市场中只能利用不同时段的电价差进行电能套利,收益十分微薄。在当前的电池成本水平下,仅仅参与能量市场很难收回投资成本。为了促进储能发展,寻找能够使其盈利的商业应用和模式至关重要。电池储能是一类优质的快速响应资源。让电池储能为电网提供备用、调频等辅助服务,一方面可以充分利用电池容量,增加其市场收益,改善其经济性,另一方面可以缓解电网的调峰调频压力。调频市场收益一般分为调频容量收益和调频绩效收益两部分,其中调频绩效收益是储能在调频辅助服务市场中的主要收益来源。调频绩效收益主要是通过调频设备响应功率与调频信号的重合程度来衡量的。对于快速调频信号,一般都是以秒级周期来更新响应信号。因此,设计储能在秒级时序上的优化控制策略,可以满足储能参与调频市场的需求,对于完善储能参与电力市场机制、促进储能设备发展具有重要意义。
发明内容
本发明目的在于,提供一种储能参与调频辅助服务优化的控制方法及其系统,通过优化储能的实时控制策略,提高储能的调频绩效收入,从而提高储能运营商的市场收益水平,同时也能优化储能设备的投资回报率,促进储能建设。
为实现上述目的,本发明提供一种储能参与调频辅助服务优化的控制方法,包括:
获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
建立秒级时序上的储能充放电模型,构建基于深度强化学习算法的储能参与调频辅助服务模型;其中,建立秒级时序上的储能充放电模型,具体包括:建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件以及最大充放电功率与荷电状态的约束条件;根据所述储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件以及预设的储能状态定义公式;其中,储能电量的动态方程为:
式中,为储能电池在t时刻的电量,/>与/>分别为储能的充电和放电功率,且/>,/>;/>与/>分别为储能的充放电效率,/>为时间间隔,按照调频信号的更新周期,一般取/>
储能充放电功率约束条件为:
其中,是储能电池t时刻的荷电状态,/>和/>为单个电池的最大放电功率和最大充电功率限制,是/>的函数,/>是单个电池的最大电量,/>为储能运营商的电池数量;/>限定了储能不能同时充电和放电;
所述储能荷电状态约束条件为:
其中,和/>是储能荷电状态的最小和最大值约束,在0到100%之间;
所述最大充放电功率与荷电状态的约束条件为:
所述储能状态定义公式为:
其中,n为一个调度周期的指令数;其中,当储能参与调频辅助服务时,定义储能在t时刻的状态为
根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
根据所述储能参与调频辅助服务模型对所述储能充放电模型进行优化,以对储能进行优化控制。
优选地,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
优选地,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
构建深度确定性策略梯度神经网络;
随机初始化所述神经网络的权重参数、权重参数/>,并令/>,/>,以初始化Critic网络/>、Actor网络/>、目标Critic网络/>和目标Actor网络/>,其中/>、/>、/>、/>分别为每个神经网络的所述权重参数,/>代表所述储能的当前状态,/>代表状态/>下选择动作/>的价值,/>代表状态/>下的最优动作。
优选地,所述经验回放池包括五元组元素,所述五元组元素为,其中,/>代表所述储能的当前状态、/>代表所述储能的当前动作、/>代表所述储能当前动作的即时收益、/>代表所述储能的下个时刻的状态、/>代表调度周期结束标志,当代表一个调度周期的结束,反之则/>
优选地,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的储能充放电模型和调频绩效收益模型。
优选地,根据所述调频绩效收益模型获得所述储能当前动作的即时收益,根据所述秒级时序上的储能充放电模型获得所述储能的下个时刻的状态/>
优选地,根据Actor网络选择所述储能的当前动作,公式如下:
其中,是随机变量。
优选地,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
从所述经验回放池中随机抽取N个五元组元素,作为一次训练的批量,其中N取100以内整数;
根据损失函数和随机梯度下降法更新Critic网络中所述权重参数/>,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,为折现率;
根据梯度下降方法更新Actor网络的所述权重参数/>,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据权重参数和权重参数/>分别更新目标Critic网络/>中权重参数/>和目标Actor网络/>中权重参数/>,公式如下:
其中为软更新系数;
判断所述权重参数、所述权重参数/>、所述权重参数/>和所述权重参数/>是否收敛,若否,则继续更新所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数/>,直至所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数收敛。
本发明提供还提供一种储能参与调频辅助服务优化的控制系统,应用于上述的储能参与调频辅助服务优化的控制方法,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于建立秒级时序上的储能充放电模型,构建基于深度强化学习算法的储能参与调频辅助服务模型;其中,建立秒级时序上的储能充放电模型,具体包括:建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件以及最大充放电功率与荷电状态的约束条件;根据所述储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件以及预设的储能状态定义公式;其中,储能电量的动态方程为:
式中,为储能电池在t时刻的电量,/>与/>分别为储能的充电和放电功率,且/>,/>;/>与/>分别为储能的充放电效率,/>为时间间隔,按照调频信号的更新周期,一般取/>
储能充放电功率约束条件为:
其中,是储能电池t时刻的荷电状态,/>和/>为单个电池的最大放电功率和最大充电功率限制,是/>的函数,/>是单个电池的最大电量,/>为储能运营商的电池数量;/>限定了储能不能同时充电和放电;
所述储能荷电状态约束条件为:
其中,和/>是储能荷电状态的最小和最大值约束,一般在0到100%之间;
所述最大充放电功率与荷电状态的约束条件为:
所述储能状态定义公式为:
其中,n为一个调度周期的指令数;其中,当储能参与调频辅助服务时,定义储能在t时刻的状态为
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
所述控制系统还用于根据所述储能参与调频辅助服务模型对所述储能充放电模型进行优化,以对储能进行优化控制。
本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的储能参与调频辅助服务优化的控制方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的储能参与调频辅助服务优化的控制方法。
本发明的储能参与调频辅助服务优化的控制方法及其系统中,针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度强化学习算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的储能参与调频辅助服务优化的控制方法的流程示意图;
图2是本发明另一实施例提供的储能参与调频辅助服务优化的控制方法的流程示意图;
图3是本发明某一实施例提供的单个电池的最大充放电功率与荷电状态的约束条件的示意图;
图4是本发明某一实施例提供的计算机终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,本发明实施例提供一种储能参与调频辅助服务优化的控制方法,包括:
S10、获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
S20、构建基于深度强化学习算法的储能参与调频辅助服务模型;
S30、根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
S40、根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
S50、根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
S60、根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
在本实施例中,保存调频市场的历史调频信号作为深度强化学习的输入数据,调频市场一般包含快调频和慢调频两类调频信号。以PJM市场为例,根据美国联邦能源管理委员会 (FERC)的第755号法令的指示,依据绩效收入的原则,PJM提供了两类调节信号:传统的调频信号RegA和动态调频信号RegD。其中前者是传统的监管调频资源的信号,该信号考虑了资源的爬坡率限制,由此变化速率较慢。而RegD信号则用来调节具有很高爬坡率能够快速响应的资源,这种信号来于RegA信号相同的算法,然而,经过高通滤波,收益频率变得非常快,且该信号在60分钟之内是能量中性的,这对于无法自身生产能量的储能来说无疑是有利的。RegD信号一般以4s为间隔。设总记录采集到调频信号为,T为总周期。将调频信号分为两部分,分别为训练数据集/>和测试数据集/>
建立基于深度确定性策略梯度(DDPG)算法的储能参与调频辅助服务模型,构建DDPG的神经网络并初始化神经网络的参数。
使用训练数据集训练DDPG的神经网络模型。从训练集中选取一个样本并初始化储能状态,通过随机探索获得经验回放池的元素,从经验回放池中随机抽取一个批量的元素并用于训练DDPG的神经网络参数,重复以上过程直到各个神经网络的权重参数收敛。
使用所述测试数据集评价储能的优化控制策略执行效果,将所述测试数据集带入到训练完毕的所述储能参与调频辅助服务模型中,用于检测模型训练的效果。
最后,根据所述储能参与调频辅助服务模型对所述储能进行优化控制。
如此,基于深度强化学习的储能优化控制策略思路,相对于常规的随机优化方法,如随机动态规划等方法,该方法在计算优化策略时具有显著的时间效率,更能够适应储能在秒级时序上的快速优化控制需求。
在某一个实施例中,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
在本实施例中,利用深度确定性策略梯度(DDPG)算法构建储能参与调频辅助服务模型,在其他实施例中,所述深度强化学习算法还包括深度Q网络(DQN)和策略梯度算法(DPG),在此不做限定。
在某一个实施例中,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
随机初始化模型的权重参数、权重参数/>,并令/>,/>,以初始化Critic网络/>、Actor网络/>、目标Critic网络/>和目标Actor网络/>,其中/>、/>、/>、/>分别为每个神经网络的所述权重参数,/>代表储能的当前状态,Q代表状态/>下选择动作/>的价值,/>代表状态/>下的最优动作。
在本实施例中,构建DDPG的神经网络。DDPG具有一种行动者-评论家(Actor-Critic)结构的神经网络。其中,动作估计(Actor)网络用于给出动作,状态估计(Critic)网络用于对动作的结果做出评价打分。Actor和Critic又各自分别有一个目标网络(target-net)和一个实际的网络(eval-net)。分别定义Actor网络和Critic网络为和/>,Q代表状态/>下选择动作/>的价值,/>代表状态/>下的最优动作。目标Actor网络和目标Critic网络为/>和/>,其中/>、/>、/>、/>分别为各个网络的权重参数。与深度Q值网络(DQN)的双网络结构相似,目标网络与实际的网络具有相同的结构,但是参数更新有一定时差,以避免对Q值的过估计。
随机初始化模型参数、/>,并令/>,/>,得到4个初始化的神经网络、/>、/>、/>
采用深度确定性策略梯度(DDPG)算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。DDPG算法相对于其他深度学习算法的主要优势在于拥有连续的状态空间和连续的动作空间,因此更能适应储能参与调频辅助服务的场景需求。
在某一个实施例中,所述经验回放池包括五元组元素,所述五元组元素为,其中,/>代表储能的当前状态、/>代表储能的当前动作、/>代表储能当前动作的即时收益、/>代表储能的下个时刻的状态、/>代表调度周期结束标志,当代表一个调度周期的结束,反之则/>
在本实施例中,建立深度强化学习的经验回放池。经验回放池的目的是让神经网络通过过去的经验来学习策略。经验回放池中包含的每一个元素都是一个五元组元素,分别代表储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志,/>代表一个调度周期的结束,即/>,反之则/>
经验回放池让储能参与调频辅助服务模型通过过去的经验来学习策略,实现储能参与调频辅助服务的优化控制。
在某一个实施例中,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的储能充放电模型和调频绩效收益模型。
建立秒级时序上的储能充放电模型。建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件等,定义储能在调频辅助服务中的状态变量。具体地,
步骤1-1. 储能电量的动态方程为:
式(1)
其中,为储能电池在t时刻的电量,/>与/>分别为储能的充电和放电功率,且/>,/>;/>与/>分别为储能的充放电效率,/>为时间间隔,按照调频信号的更新周期,一般取/>
步骤1-2. 储能的充放电功率会受到接口容量的限制,在一定范围内可控:
式(2)
其中,是储能电池t时刻的荷电状态,/>和/>为单个电池的最大放电功率和最大充电功率限制,是/>的函数,/>是单个电池的最大电量,/>为储能运营商的电池数量。/>限定了储能不能同时充电和放电。
步骤1-3.应维持在一定范围内,以免对电池的使用寿命造成损害。
式(3)
其中,和/>是储能荷电状态(SOC)的最小和最大值约束,一般在0到100%之间。
请参阅图3,步骤1-4. 单个电池的最大充放电功率与荷电状态的约束条件具体表达式如下:
式(4)
式(5)
步骤1-5. 定义储能在t时刻的动作(也就是响应信号)
式(6)
其中,n为一个调度周期的指令数,可以取15分钟为一个调度周期,则n=15min/4s=225。可以看到会受到储能电量和功率的约束。
步骤1-6.当储能参与调频辅助服务时,定义储能在t时刻的状态为
建立秒级时序上的所述储能充放电模型,实现储能在秒级时序上的快速优化控制。
建立所述调频绩效收益模型。计算储能在调频市场中每个响应信号的调频绩效收益。不同市场规则中调频绩效收益的计算方式不同,但基本上都主要由调频性能指标决定,而调频性能指标通过比较调频信号和市场主体的响应信号决定。储能在调频辅助服务中的绩效收益基于调频总里程、调频价格和调频精确度,建立各时刻的调频精确度与储能响应信号之间的函数。具体地,
步骤2-1.首先计算调频信号的总里程,调频总里程M可以表示为:
式(8)
步骤2-2. 计算调频性能指标,调频性能指标具体表现为响应信号的精确度,是储能的充放电曲线与调频信号差值的函数。精确度越接近0,表示储能对信号的响应越低,越接近1,表示储能的充放电行为与调频信号越一致。调频性能指标可以表示为:
式(9)
V为一个调度周期调频信号绝对值的平均值。可以看出是各个时刻t的精确度之和,
式(10)
步骤2-3. 得到调频市场中,市场主体的调频绩效收益为:
式(11)
其中,为本调度周期中调频绩效价格。
通过建立调频绩效收益模型,计算储能在调频市场中每个响应信号的调频绩效收益。
在某一个实施例中,根据所述调频绩效收益模型获得所述储能当前动作的即时收益,根据秒级时序上的储能充放电模型获得所述储能的下个时刻的状态/>
在本实施例中,步骤2计算所述储能当前动作的即时收益,通过步骤1计算所述储能的下个时刻的状态/>,通过判定/>是否等于n为/>赋值。将/>作为一个五元组元素保存到经验回放池。重复该步骤若干次
在某一个实施例中,根据Actor网络选择所述储能的当前动作,公式如下:
其中,是随机变量。
在本实施例中,通过Actor网络选择一个响应动作如下:
式(12)
其中为随机变量,目的是增大优化策略的探索空间。
在某一个实施例中,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
从所述经验回放池中随机抽取N个五元组元素,作为一次训练的批量,其中N取100以内整数;/>
根据损失函数和随机梯度下降法更新Critic网络中权重参数/>,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,为折现率;
根据策略梯度方法更新Actor网络的权重参数/>,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据所述权重参数和所述权重参数/>分别更新所述目标Critic网络/>中权重参数/>和目标Actor网络/>中权重参数/>,公式如下:
其中为软更新系数;
判断所述权重参数、所述权重参数/>、所述权重参数/>和所述权重参数/>是否收敛,若否,则继续更新所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数/>,直至所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数收敛。
在本实施例中,使用训练数据集训练DDPG的神经网络模型。
步骤3-1. 从训练数据集中随机抽取一个/>的时间序列作为样本,定义为/>,令样本的起始时刻为t=1,并随机初始化储能的电量/>,得到储能的初始状态/>
步骤3-2. 通过Actor网络选择一个响应动作如下:
式(12)
其中为随机变量,目的是增大优化策略的探索空间。/>
步骤3-3.从经验回放池中随机抽取N个五元组元素作为一次训练的批量(batch)。令:
式(13)
其中为折现率,可以取/>
步骤3-4. 采用如下损失函数更新的参数/>
式(14)
式(15)
采用的更新算法为随机梯度下降法(SGD)。
步骤3-5. 用策略梯度方法更新Actor网络的参数如下:
式(16)
式(17)
其中J代表当前状态下,选择不同动作R的期望收益值,因此用同一批量中的平均值表示、R代表是一个变量,不是固定的动作值。
步骤3-6. 更新两个目标网络如下:
式(18)
式(19)
其中为软更新系数,即每次只更新目标网络的/>部分,保留原参数的1-/>部分。
并回到步骤3-3,重复步骤3-3至3-6。
步骤3-7. 重复步骤3-1至3-6直至所述权重参数、所述权重参数/>、所述权重参数/>和所述权重参数/>收敛。
最后通过训练得到的神经网络可以用于对储能做秒级时序上的优化控制。即最优响应信号为:
并基于t时刻的动作(也就是响应信号)还原出最优充放电功率。
使用测试数据集来模拟储能在调频市场中的环境,计算相应的/>,得到储能绩效指标,并可与其他优化控制方法对比,以评价该方法是否达到了理想效果。
其中,Critic网络是一个价值评价网络,它的输入是当前状态和某个选定的动作,输出是在当前状态下选择该动作的价值。Actor网络是一个行动网络,输入当前状态,输出为最优动作。两个目标网络的意义是为了延迟更新参数,从而避免训练网络参数时出现发散的结果。
本发明实施例针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度确定性策略梯度(DDPG)算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
本发明实施例提供还提供一种储能参与调频辅助服务优化的控制系统,应用于上述任一实施例中的储能参与调频辅助服务优化的控制方法,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于构建基于深度强化学习算法的储能参与调频辅助服务模型;
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型。
关于储能参与调频辅助服务优化的控制系统的具体限定可以参见上文中对于的限定,在此不再赘述。上述储能参与调频辅助服务优化的控制系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图4,本发明实施例提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的储能参与调频辅助服务优化的控制方法。
处理器用于控制该计算机终端设备的整体操作,以完成上述的储能参与调频辅助服务优化的控制方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C) 、数字信号处理器(DigitalSignal Processor,简称DSP) 、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD) 、现场可编程门阵列(Field Programmable Gate Array ,简称FPGA) 、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的储能参与调频辅助服务优化的控制方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的储能参与调频辅助服务优化的控制方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的储能参与调频辅助服务优化的控制方法,并达到如上述方法一致的技术效果。
本发明提供的储能参与调频辅助服务优化的控制方法及其系统中,针对调频信号的随机性和快速变化的动态性质,提供一种基于深度强化学习的储能与调频信号互动方式,将储能的运行状态、调频信号映射为充放电动作,采用深度强化学习算法对储能的充放电策略进行优化,从而实现储能在秒级时序上的快速优化控制。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种储能参与调频辅助服务优化的控制方法,其特征在于,包括:
获得调频市场的历史调频信号数据,其中,所述历史调频信号数据包括训练数据集和测试数据集;
建立秒级时序上的储能充放电模型,构建基于深度强化学习算法的储能参与调频辅助服务模型;其中,建立秒级时序上的储能充放电模型,具体包括:建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件以及最大充放电功率与荷电状态的约束条件;根据所述储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件以及预设的储能状态定义公式;其中,储能电量的动态方程为:
式中,为储能电池在t时刻的电量,/>与/>分别为储能的充电和放电功率,且,/>;/>与/>分别为储能的充放电效率,/>为时间间隔,按照调频信号的更新周期,取/>
储能充放电功率约束条件为:
其中,是储能电池t时刻的荷电状态,/>和/>为单个电池的最大放电功率和最大充电功率限制,是/>的函数,/>是单个电池的最大电量,/>为储能运营商的电池数量;/>限定了储能不能同时充电和放电;
所述荷电状态约束条件为:
其中,和/>是储能荷电状态的最小和最大值约束,在0到100%之间;
所述最大充放电功率与荷电状态的约束条件为:
所述储能状态定义公式为:
其中,n为一个调度周期的指令数;其中,当储能参与调频辅助服务时,定义储能在t时刻的状态为
根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
根据所述储能参与调频辅助服务模型对所述储能充放电模型进行优化,以对储能进行优化控制。
2.根据权利要求1所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述深度强化学习算法包括深度确定性策略梯度(DDPG)算法。
3.根据权利要求2所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述构建基于深度强化学习的储能参与调频辅助服务模型,包括:
构建深度确定性策略梯度神经网络;
随机初始化所述神经网络的权重参数、权重参数/>,并令/>,/>,以初始化Critic网络/>、Actor网络/>、目标Critic网络/>和目标Actor网络/>,其中/>、/>、/>、/>分别为每个神经网络的所述权重参数,/>代表所述储能的当前状态,/>代表状态/>下选择动作/>的价值,/>代表状态/>下的最优动作。
4.根据权利要求1所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述经验回放池包括五元组元素,所述五元组元素为,其中,/>代表所述储能的当前状态、/>代表所述储能的当前动作、/>代表所述储能当前动作的即时收益、/>代表所述储能的下个时刻的状态、/>代表调度周期结束标志,当/>代表一个调度周期的结束,反之则/>
5.根据权利要求4所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述构建基于深度强化学习的储能参与调频辅助服务模型之前,还包括:建立秒级时序上的调频绩效收益模型。
6.根据权利要求5所述的储能参与调频辅助服务优化的控制方法,其特征在于,根据所述调频绩效收益模型获得所述储能当前动作的即时收益,根据所述秒级时序上的储能充放电模型获得所述储能的下个时刻的状态/>
7.根据权利要求3所述的储能参与调频辅助服务优化的控制方法,其特征在于,根据Actor网络选择所述储能的当前动作,公式如下:
其中,是随机变量。
8.根据权利要求7所述的储能参与调频辅助服务优化的控制方法,其特征在于,所述根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型,包括:
从所述经验回放池中随机抽取N个五元组元素,作为一次训练的批量,其中N取100以内整数;
根据损失函数和随机梯度下降法更新Critic网络中所述权重参数/>,公式如下:
其中,yi为Critic网络训练的目标值,公式如下:
其中,为折现率;
根据梯度下降方法更新Actor网络的所述权重参数/>,公式如下:
其中,J代表当前状态下,选择动作R的期望收益值,R代表动作值变量,公式如下:
根据权重参数和权重参数/>分别更新目标Critic网络/>中权重参数/>和目标Actor网络/>中权重参数/>,公式如下:
其中为软更新系数;
判断所述权重参数、所述权重参数/>、所述权重参数/>和所述权重参数/>是否收敛,若否,则继续更新所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数/>,直至所述权重参数/>、所述权重参数/>、所述权重参数/>和所述权重参数/>收敛。
9.一种储能参与调频辅助服务优化的控制系统,其特征在于,包括:
数据集分配模块,用于将调频市场的历史调频信号数据分为训练数据集和测试数据集;
模型构建模块,用于建立秒级时序上的储能充放电模型,构建基于深度强化学习算法的储能参与调频辅助服务模型;其中,建立秒级时序上的储能充放电模型,具体包括:建立储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件以及最大充放电功率与荷电状态的约束条件;根据所述储能电量的动态方程、储能充放电功率约束条件、荷电状态约束条件、最大充放电功率与荷电状态的约束条件以及预设的储能状态定义公式;其中,储能电量的动态方程为:
式中,为储能电池在t时刻的电量,/>与/>分别为储能的充电和放电功率,且,/>;/>与/>分别为储能的充放电效率,/>为时间间隔,按照调频信号的更新周期,取/>
储能充放电功率约束条件为:
其中,是储能电池t时刻的荷电状态,/>和/>为单个电池的最大放电功率和最大充电功率限制,是/>的函数,/>是单个电池的最大电量,/>为储能运营商的电池数量;/>限定了储能不能同时充电和放电;
所述荷电状态约束条件为:
其中,和/>是储能荷电状态的最小和最大值约束,在0到100%之间;
所述最大充放电功率与荷电状态的约束条件为:
所述储能状态定义公式为:
其中,n为一个调度周期的指令数;其中,当储能参与调频辅助服务时,定义储能在t时刻的状态为
经验回放池建立模块,用于根据储能的当前状态、当前动作、当前动作的即时收益、下个时刻的状态以及调度周期结束标志建立深度强化学习的经验回放池;
模型训练模块,用于根据所述训练数据集和所述经验回放池训练所述储能参与调频辅助服务模型;
模型检测模块,用于根据所述测试数据集检测训练完毕的所述储能参与调频辅助服务模型;
所述控制系统还用于根据所述储能参与调频辅助服务模型对所述储能充放电模型进行优化,以对储能进行优化控制。
10.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7任一项所述的储能参与调频辅助服务优化的控制方法。
CN202110337216.7A 2021-03-29 2021-03-29 一种储能参与调频辅助服务优化的控制方法及其系统 Active CN113011101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337216.7A CN113011101B (zh) 2021-03-29 2021-03-29 一种储能参与调频辅助服务优化的控制方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337216.7A CN113011101B (zh) 2021-03-29 2021-03-29 一种储能参与调频辅助服务优化的控制方法及其系统

Publications (2)

Publication Number Publication Date
CN113011101A CN113011101A (zh) 2021-06-22
CN113011101B true CN113011101B (zh) 2024-01-23

Family

ID=76409030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337216.7A Active CN113011101B (zh) 2021-03-29 2021-03-29 一种储能参与调频辅助服务优化的控制方法及其系统

Country Status (1)

Country Link
CN (1) CN113011101B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113644671A (zh) * 2021-07-30 2021-11-12 湖南工业大学 基于深度强化学习的城轨混合储能系统功率动态分配控制方法
CN113723798B (zh) * 2021-08-27 2022-11-11 广东电网有限责任公司 一种基于在线深度强化学习的需求响应控制方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
CN107947211A (zh) * 2017-12-06 2018-04-20 国网山东省电力公司济南供电公司 采用小波包分解并计及频率响应的孤岛型微电网储能优化配置方法
CN109193721A (zh) * 2018-09-29 2019-01-11 华南理工大学 一种基于强化学习的电动汽车充放电策略优化方法
CN110277804A (zh) * 2019-06-22 2019-09-24 南京邮电大学 一种基于微电网供需比的储能动作机制
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN110943463A (zh) * 2019-12-02 2020-03-31 国网浙江省电力有限公司湖州供电公司 一种基于深度学习储能电池参与的电网快速调频控制方法
CN111525603A (zh) * 2020-06-02 2020-08-11 华北电力大学 一种基于bess辅助的火电机组调频调峰优化方法
CN112103971A (zh) * 2020-09-01 2020-12-18 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112564109A (zh) * 2020-12-22 2021-03-26 国网福建省电力有限公司 一种基于储能系统参与含大规模海上风电的调频优化运行方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
CN107947211A (zh) * 2017-12-06 2018-04-20 国网山东省电力公司济南供电公司 采用小波包分解并计及频率响应的孤岛型微电网储能优化配置方法
CN109193721A (zh) * 2018-09-29 2019-01-11 华南理工大学 一种基于强化学习的电动汽车充放电策略优化方法
CN110277804A (zh) * 2019-06-22 2019-09-24 南京邮电大学 一种基于微电网供需比的储能动作机制
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN110943463A (zh) * 2019-12-02 2020-03-31 国网浙江省电力有限公司湖州供电公司 一种基于深度学习储能电池参与的电网快速调频控制方法
CN111525603A (zh) * 2020-06-02 2020-08-11 华北电力大学 一种基于bess辅助的火电机组调频调峰优化方法
CN112103971A (zh) * 2020-09-01 2020-12-18 广西大学 一种电网调频型飞轮储能系统的矢量强化学习控制方法
CN112564109A (zh) * 2020-12-22 2021-03-26 国网福建省电力有限公司 一种基于储能系统参与含大规模海上风电的调频优化运行方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
储能参与辅助服务补偿机制及多商业模式运行研究;韦嘉睿等;《电器与能效管理技术》;20200530(第5期);第78-85页 *
包含独立储能的现货电能量与调频辅助服务市场出清协调机制;肖云鹏等;《中国电机工程学报》;20200830;第40卷(第S1期);第167-180页 *
含储能系统的配电网电压调节深度强化学习算法;史景坚;周文涛;张宁;陈桥;刘金涛;曹振博;陈懿;宋航;刘友波;;电力建设(03);第71-78页 *
含储能系统的配电网电压调节深度强化学习算法;史景坚等;《电力建设》;20200301(第03期);第71-78页 *
电力市场下需求响应参与辅助调峰调频的建模与优化研究;王德志;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20200115(第1期);第C042-2382页 *

Also Published As

Publication number Publication date
CN113011101A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN109462231B (zh) 居民微电网的负荷优化调度方法、系统和存储介质
CN108960510B (zh) 一种基于两阶段随机规划的虚拟电厂优化交易策略装置
CN113011101B (zh) 一种储能参与调频辅助服务优化的控制方法及其系统
CN107132490B (zh) 一种实现锂电池组荷电状态估计的方法
CN108964050A (zh) 基于需求侧响应的微电网双层优化调度方法
CN110568359A (zh) 一种锂电池剩余寿命预测方法
CN110658460B (zh) 一种电池包的电池寿命预测方法及装置
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN113176511A (zh) 考虑健康状态的储能充放电优化方法及系统
CN111553750A (zh) 一种计及电价不确定性和损耗成本的储能竞价策略方法
CN115189370A (zh) 一种混合储能参与调频的容量分配方法及系统
TWI465939B (zh) A Multi - stage Fast Charge Method for Optimizing Lithium Batteries
CN113715669B (zh) 电动汽车有序充电控制方法、系统、设备及可读存储介质
CN114036825A (zh) 多虚拟电厂的协同优化调度方法、装置、设备及存储介质
CN116094009A (zh) 储能电站的电量分配方法
CN113283654B (zh) 基于聚合解列机制的微网群优化控制方法及系统
CN115236526A (zh) 一种剩余充电时间预测方法、装置、存储介质和车辆
CN114447963A (zh) 储能电池功率控制方法及系统
CN112182835A (zh) 一种考虑风电不确定性和储能调节的电力系统可靠性评估方法及系统
CN113555887B (zh) 电网能源控制方法、装置、电子设备及存储介质
CN115619441B (zh) 一种储能电站参与日前电力交易的申报方法、介质和设备
CN113705067B (zh) 一种微网优化运行策略生成方法、系统、设备及存储介质
CN115018379B (zh) 电动汽车日内响应能力评估方法、系统及计算机存储介质
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114723115A (zh) 基于需求响应协调的含风电场配电系统优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant