CN109193721A - 一种基于强化学习的电动汽车充放电策略优化方法 - Google Patents
一种基于强化学习的电动汽车充放电策略优化方法 Download PDFInfo
- Publication number
- CN109193721A CN109193721A CN201811147469.2A CN201811147469A CN109193721A CN 109193721 A CN109193721 A CN 109193721A CN 201811147469 A CN201811147469 A CN 201811147469A CN 109193721 A CN109193721 A CN 109193721A
- Authority
- CN
- China
- Prior art keywords
- frequency modulation
- electric car
- electric
- soc
- discharge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/34—Arrangements for transfer of electric power between networks of substantially different frequency
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公开了一种基于强化学习的电动汽车充放电策略优化方法,包括步骤:1)构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法;2)建立电力系统调频市场模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计;3)运用强化学习算法对电动汽车参与调频市场进行训练学习;4)建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评。本发明通过利用电动汽车可快速切换充放电模式的优点,将其视作调频服务提供者,通过聚合商参与到调频市场中,在满足自身充电需求的同时得到调频补偿,并将强化学习算法运用到充放电策略优化当中,得到了极好的调频效果。
Description
技术领域
本发明涉及强化学习算法运用在电动汽车充放电策略优化的技术领域,尤其是指一种基于强化学习的电动汽车充放电策略优化方法。
背景技术
目前随着电力体制改革的进一步深化,电力市场的逐步建立健全,售电市场的培育形成,电力行业慢慢步入开放、活跃的市场环境中。在这种情况下,电力部门需要准确的对电能的供需进行实时的平衡,保证供电电能质量,尤其需要保证供电频率在安全、合理的范围内波动。电动汽车具有单向和双向两种能量传输形式,前者可通过改变电动汽车的充电功率来为系统提供服务,如平滑负荷曲线,后者不仅可以改变充电功率,还可以在必要时向系统反向送电以提供调频和旋转备用等辅助服务。因此,可利用电动汽车的储能特性为电力系统提供调频服务。近年来,得益于世界范围内智能电网技术的蓬勃发展和应用,大量高新技术被不断地引入到传统的电网当中,电力行业迎来一个崭新的时代。电动汽车的兴起促使其并网(Vehicle to grid,V2G)成为了必然的趋势,是一项较有发展前景的服务。同时,伴随着强化学习的兴起,出现了很多更优越的训练、学习算法,将这些新算法应用到电动汽车的集中充放电优化策略,为建设智能电网,建立电力市场调频市场中去,对电网经济可靠运行和算法本身的开发都具备重大的意义。
本发明提出一种基于强化学习的电动汽车充放电策略优化方法,构建了电动汽车电池充放电模型及电动汽车车主调频收益计算方法,在电动汽车提供调频辅助服务的同时,不仅能满足电动汽车的充电需求,还对提供调频服务的电动汽车车主提供调频补贴。并将强化学习算法运用到电动汽车在调频市场中提供调频服务的电池充放电优化策略,从而达到理想的调频结果。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于强化学习的电动汽车充放电策略优化方法,突破传统的电动汽车单相能量传输形式的不足,充分利用电动汽车可在短时间内进行双向能量传输的特点,利用电动汽车提供调频服务,并利用强化学习算法对其充放电策略进行优化,达到了非常理想的调频效果。
为实现上述目的,本发明所提供的技术方案为:一种基于强化学习的电动汽车充放电策略优化方法,所述电动汽车充放电策略是在电力市场环境下,将统一停放在工业园区停车场内的电动汽车视为可控负荷,以可控负荷的形式参与调频市场,其工作模式分为两种:在电力系统运营频率偏低,系统操作员发出频率上调信号时,电动汽车放电以提供电能,在供电充足时,电动汽车充电存储电能,两种模式下电动汽车的出行需求都得到了满足,同时,车主能够获得相应的补贴,其包括以下步骤:
1)构建电动汽车(Electric vehicles)电池充放电物理模型以及电动汽车调频收益计算方法;
2)建立电力系统调频市场(Frequency regulation market)模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计;
3)运用强化学习(Reinforcement learning)算法对电动汽车参与调频市场进行训练学习;
4)建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评。
在步骤1)中,构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法,电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求,在此前提之下,电动汽车将获得提供调频服务的收益及电池损耗补贴,其中电动汽车电池状态SOC(state of charge)定义如下:
其中,Qres(t)、Qcap分别是电动汽车在t时刻电池的剩余容量和电池总容量,SOC(t)是t时刻电池的状态,且任意时刻,SOC和电池剩余容量满足各自的上下限约束:
SOCmin≤SOC(t)≤SOCmax
其中SOCmin和SOCmax、和分别是电池状态、电池容量的上下限,在t时刻,电池充放电时间持续Δt之后,下一个时刻的SOC(t+1)由下式所得:
SOC(t+1)=SOC(t)+βtPba(t)ηΔt/Qcap
其中Pba(t)、η分别是充放电功率和效率,βt定义如下:
电动汽车参与调频市场获得一定调频补贴,包括:
a、调频服务收益
调频服务收益分为两个部分清算:调频容量收益Rcap和调频里程收益Rmil,分别由以下公式计算:
其中Ccap(t)、Mmil(t)分别是电动汽车调频容量和调频里程,Pcap(t)、Pmil(t)分别是单位调频容量、调频里程补贴价格,T为计费时长;
b、电能不足补贴
系统调度电动汽车参与调频可能导致电动汽车在离开充电桩时的SOC不满足车主的需求,此时的电能不足补贴Rdef计算方法如下:
Rdef=γ(DSOC-FSOC)
式中DSOC、FSOC分别是电动汽车车主需求的SOC和离开充电桩的实际SOC,γ是电能补贴系数
c、电池损耗补贴
电池损耗的大小与电池放电深度成正相关,在Δt的时间间隔内,放电深度DOD(t)为:
DOD(t)=SOC(t+1)-SOC(t)
电池损耗计算方法如下:
LDOD(t)=f(DOD(t),t)
其中LDOD(t)是电池放电特征曲线,Cbat是电动汽车电池购买成本,K(t)即在放电深度为DOD(t)时的单次充放电成本,因此放电成本的累加RDOD即为总电池损耗,故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加。
在步骤2)中,建立电力系统调频市场模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计,电动汽车参与调频市场必须通过电力市场的市场参与者,即:电动汽车聚合商,聚合商可被视为园区停车场内电动汽车的总代理,聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约,在实时市场内接收到系统操作员发出的调频信号之后,向电动汽车发出充放电指令以参与调频响应:
Ssh(t)=Ccap(t)S(t)
其中S(t)∈[-1,1]为系统操作员发出的调频信号,当S(t)>0时,系统频率过低,电动汽车放电,当S(t)<0时,反之,电动汽车充电,Ccap(t)为聚合商在调频市场签订的调频容量,Ssh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量,实际提供的调频响应量为:
其中Sac(t)为实际提供的调频响应量,N为电动汽车总数,Ei(t)为第i台电动车提供的响应量:
其中分别为第i台电动车在离开时需求的SOC和初始的SOC值,Qcap是电池容量,η是电池充放电效率,SOCmax是SOC上限,S(t)是t时刻接收到的调频信号,S(t)>0电动车放电,S(t)<0电动车充电。
在步骤3)中,运用强化学习算法对电动汽车参与调频市场进行训练学习,强化学习是从环境与代理之间的交互作用中学习的过程,从环境中获取评价信号以获得更加正确的行为,本质是数字奖赏信号的优化选择,在一次次的学习过程中使奖励信号趋于最大值,Q学习(Q learning)算法是一种典型的强化学习算法,有五个基本参数:S,A,R,Π和δ,其中S和A分别是变量的状态和行动矩阵,R是相应的行动奖励矩阵,Π是最优策略,δ∈[0,1]是经验折算因子,一个状态s值可以被看做是经过折算的回馈值的总和,定义如下:
其中rt+1是t+1时相应的反馈,当状态s值是最优时,其值函数可写为:
其中和rs→s′分别是采取动作a使状态由s转到s'的可能性和状态由s转到s'的奖励值,最优策略可以由下式得到:
另外,最优状态-行为值矩阵Q定义如下:
且根据下式进行迭代更新:
其中α是衰退因子,且α∈[0,1],停车场内各电动车的实时电池状态SOC(t)和系统操作员发出的调频指令S(t)被视作状态矩阵S的一部分,电动车可能采取的充放电行为被视作行为矩阵A的组成成分,目标奖励矩阵R是调频效益的优劣的直接反映矩阵。
在步骤4)中,建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评,在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到:
S=k1Spre+k2Scor+k3Sdel
其中Spre、Scor、Sdel分别是调频精度、相关性、速度的考评得分,k1、k2、k3分别是相应的权重,且k1∈(0,1)、k2∈(0,1)、k3∈(0,1)、k1+k2+k3=1,其中最为重要的是调频精度,本方法中假定k1=1且k2=k3=0,针对调频精度的考评依据聚合商应提供的调频响应总量和实际提供的调频响应总量来计算:
其中Sac(t)、Ssh(t)分别为在t时刻聚合商应提供的调频响应量和实际提供的调频响应量,二者差值占应提供的调频响应量的比值即为调频精度。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次在电力市场环境下,设计构建电动汽车参与调频市场机制。
2、本发明首次利用电动汽车能在短时间内,在从电网吸收电能和反馈电能给电网这两个模式间快速切换的优点,建立电动汽车提供调频服务的调频市场模型。
3、本发明首次建立了基于调频效益的调频补贴机制,在满足电动汽车充电需求的同时,根据其调频效益对其提供的调频服务给予合理的调频补贴。
4、本发明的电动汽车调频服务思路清晰简洁、适应性强、调频效果好,对电力市场环境下调频服务的建立与完善具有强大的促进作用,该调频方式具备广泛的实用潜能。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明所采用的传统、动态两类调频信号图。
图3为本发明在传统调频信号下的调频响应量和需求量对比图。
图4为本发明在动态调频信号下的调频响应量和需求量对比图。
图5为本发明在两类调频信号下调频响应的缺口值波形图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于强化学习的电动汽车充放电策略优化方法,包括以下步骤:
1)构建电动汽车(Electric vehicles)电池充放电物理模型以及电动汽车调频收益计算方法;电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求,在此前提之下,电动汽车将获得提供调频服务的收益及电池损耗补贴,电动汽车电池状态SOC(state of charge)定义如下:
其中,Qres(t)、Qcap分别是电动汽车在t时刻电池的剩余容量和电池总容量,SOC(t)是t时刻电池的状态,且任意时刻,SOC和电池剩余容量满足各自的上下限约束:
SOCmin≤SOC(t)≤SOCmax
其中SOCmin和SOCmax、和分别是电池状态、电池容量的上下限,在t时刻,电池充放电时间持续Δt之后,下一个时刻的SOC(t+1)由下式所得:
SOC(t+1)=SOC(t)+βtPba(t)ηΔt/Qcap
其中Pba(t)、η分别是充放电功率和效率,βt定义如下:
电动汽车参与调频市场获得一定调频补贴,包括:
a、调频服务收益
调频服务收益分为两个部分清算:调频容量收益Rcap和调频里程收益Rmil,分别由以下公式计算:
其中Ccap(t)、Mmil(t)分别是电动汽车调频容量和调频里程,Pcap(t)、Pmil(t)分别是单位调频容量、调频里程补贴价格,T为计费时长;
b、电能不足补贴
系统调度电动汽车参与调频可能导致电动汽车在离开充电桩时的SOC不满足车主的需求,此时的电能不足补贴Rdef计算方法如下:
Rdef=γ(DSOC-FSOC)
式中DSOC、FSOC分别是电动汽车车主需求的SOC和离开充电桩的实际SOC,γ是电能补贴系数
c、电池损耗补贴
电池损耗的大小与电池放电深度成正相关,在Δt的时间间隔内,放电深度DOD(t)为:
DOD(t)=SOC(t+1)-SOC(t)
电池损耗计算方法如下:
LDOD(t)=f(DOD(t),t)
其中LDOD(t)是电池放电特征曲线,Cbat是电动汽车电池购买成本,K(t)即在放电深度为DOD(t)时的单次充放电成本,因此放电成本的累加RDOD即为总电池损耗,故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加;
2)建立电力系统调频市场模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计,电动汽车参与调频市场必须通过电力市场的市场参与者,即:电动汽车聚合商,聚合商可被视为园区停车场内电动汽车的总代理,聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约,在实时市场内接收到系统操作员发出的调频信号之后,图2是本发明实施例所采用的传统、动态两类调频信号波形图,由于工业园区停车场汽车大多在工作时间(默认早上八点至晚上五点)停放于停车场,故本实施例只考虑该时间段内的调频信号和调频响应行为,在该时段内聚合商向电动汽车发出充放电指令参与调频响应:
Ssh(t)=Ccap(t)S(t)
其中S(t)∈[-1,1]为系统操作员发出的调频信号,当S(t)>0时,系统频率过低,电动汽车放电,当S(t)<0时,反之,电动汽车充电,Ccap(t)为聚合商在调频市场签订的调频容量,Ssh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量,如图3和图4所示,可以看出在传统、动态两种调频信号下聚合商应提供的总响应量,即:调频需求量,而实际提供的调频响应量为:
其中Sac(t)为实际提供的调频响应量,N为电动汽车总数,Ei(t)为第i台电动车提供的响应量:
其中分别为第i台电动车在离开时所需求的SOC和初始的SOC值,Qcap是电池容量,η是电池充放电效率,SOCmax是SOC上限,S(t)是t时刻接收到的调频信号,S(t)>0电动车放电,S(t)<0电动车充电,3(a)、图4(a)分别是在传统、动态两种调频信号下聚合商实际提供的调频响应量;
3)运用强化学习算法对电动汽车参与调频市场进行训练学习,强化学习是从环境与代理之间的交互作用中学习的过程,从环境中获取评价信号以获得更加正确的行为,本质是数字奖赏信号的优化选择,在一次次的学习过程中使奖励信号趋于最大值,Q学习(Qlearning)算法是一种典型的强化学习算法,有五个基本参数:S,A,R,Π和δ,其中S和A分别是变量的状态和行动矩阵,R是相应的行动奖励矩阵,Π是最优策略,δ∈[0,1]是经验折算因子,一个状态s值可以被看做是经过折算的回馈值的总和,定义如下:
其中rt+1是t+1时相应的反馈,当状态s值是最优时,其值函数可写为:
其中和rs→s′分别是采取动作a使状态由s转到s'的可能性和状态由s转到s'的奖励值,最优策略可以由下式得到:
另外,最优状态-行为值矩阵Q定义如下:
且根据下式进行迭代更新:
其中α是衰退因子,且α∈[0,1],停车场内各电动车的实时电池状态SOC(t)和系统操作员发出的调频指令S(t)被视作状态矩阵S的一部分,电动车可能采取的充放电行为被视作行为矩阵A的组成成分,目标奖励矩阵R是调频效益的优劣的直接反映矩阵。
4)建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评,在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到:
S=k1Spre+k2Scor+k3Sdel
其中Spre、Scor、Sdel分别是调频精度、相关性、速度的考评得分,k1、k2、k3分别是相应的权重,且k1∈(0,1)、k2∈(0,1)、k3∈(0,1)、k1+k2+k3=1,其中最为重要的是调频精度,本方法中假定k1=1且k2=k3=0,针对调频精度的考评依据聚合商应提供的调频响应量,即:调频需求量和实际提供的调频响应量来计算,图5为调频响应量和调频需求量的差值,由缺口值计算调频精度:
其中Sac(t)、Ssh(t)分别为在t时刻聚合商应提供的调频响应量,即:调频需求量和实际提供的调频响应量,二者差值占应提供的调频响应量的比值即为调频精度,在两类调频信号下,经过强化学习进行充放电策略优化之后得到的调频响应量缺口值在早上八点到下午三点之间调频响应缺口几乎为零,甚至在响应传统调频信号时,调频响应量缺口值大于零,即:能提供的调频响应量比需求量更大,而在下午三点到电动汽车离开停车场之间的这两个小时,由于应尽量满足电动汽车的充电需求,故在此时间段内,调频缺口有一定程度的扩大,在传统调频信号上表现得较为明显,而在动态调频信号上,调频缺口较小。
此外,经过大量的实验,本发明所提出的基于强化学习的电动汽车充放电策略优化方法,采用本发明方法后,不论在当日调频信号如何波动的情况下,其调频效果都能达到理想的要求,尤其是在调频的前几个小时内,调频的响应量几乎能完全跟上调频需求量,只有在电动汽车离开前一两个小时,调频缺口才有所扩大,综上所述本发明为调频市场中的调频服务提供了新的方法,将强化学习算法运用到电动汽车充放电策略优化,能在极短的时间内快速响应调频信号,且能得到极好的调频效果,具有实际应用价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种基于强化学习的电动汽车充放电策略优化方法,其特征在于:所述电动汽车充放电策略是在电力市场环境下,将统一停放在工业园区停车场内的电动汽车视为可控负荷,以可控负荷的形式参与调频市场,其工作模式分为两种:在电力系统运营频率偏低,系统操作员发出频率上调信号时,电动汽车放电以提供电能,在供电充足时,电动汽车充电存储电能,两种模式下电动汽车的出行需求都得到了满足,同时,车主能够获得相应的补贴,其包括以下步骤:
1)构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法;
2)建立电力系统调频市场模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计;
3)运用强化学习算法对电动汽车参与调频市场进行训练学习;
4)建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评。
2.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法,其特征在于:在步骤1)中,构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法,电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求,在此前提之下,电动汽车将获得提供调频服务的收益及电池损耗补贴,其中电动汽车电池状态SOC定义如下:
其中,Qres(t)、Qcap分别是电动汽车在t时刻电池的剩余容量和电池总容量,SOC(t)是t时刻电池的状态,且任意时刻,SOC和电池剩余容量满足各自的上下限约束:
SOCmin≤SOC(t)≤SOCmax
其中,SOCmin和SOCmax、和分别是电池状态、电池容量的上下限,在t时刻,电池充放电时间持续Δt之后,下一个时刻的SOC(t+1)由下式所得:
SOC(t+1)=SOC(t)+βtPba(t)ηΔt/Qcap
其中,Pba(t)、η分别是充放电功率和效率,βt定义如下:
电动汽车参与调频市场获得调频补贴,包括:
a、调频服务收益
调频服务收益分为两个部分清算:调频容量收益Rcap和调频里程收益Rmil,分别由以下公式计算:
其中Ccap(t)、Mmil(t)分别是电动汽车调频容量和调频里程,Pcap(t)、Pmil(t)分别是单位调频容量、调频里程补贴价格,T为计费时长;
b、电能不足补贴
系统调度电动汽车参与调频可能导致电动汽车在离开充电桩时的SOC不满足车主的需求,此时的电能不足补贴Rdef计算方法如下:
Rdef=γ(DSOC-FSOC)
式中DSOC、FSOC分别是电动汽车车主需求的SOC和离开充电桩的实际SOC,γ是电能补贴系数;
c、电池损耗补贴
电池损耗的大小与电池放电深度成正相关,在Δt的时间间隔内,放电深度DOD(t)为:
DOD(t)=SOC(t+1)-SOC(t)
电池损耗计算方法如下:
LDOD(t)=f(DOD(t),t)
其中,LDOD(t)是电池放电特征曲线,Cbat是电动汽车电池购买成本,K(Δt)即在放电深度为DOD(t)时的单次充放电成本,因此放电成本的累加RDOD即为总电池损耗,故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加。
3.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法,其特征在于:在步骤2)中,建立电力系统调频市场模型,包括电动汽车参与调频的市场参与形式以及调频机制的设计,电动汽车参与调频市场必须通过电力市场的市场参与者,即:电动汽车聚合商,聚合商被视为园区停车场内电动汽车的总代理,聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约,在实时市场内接收到系统操作员发出的调频信号之后,向电动汽车发出充放电指令以参与调频响应:
Ssh(t)=Ccap(t)S(t)
其中,S(t)∈[-1,1]为系统操作员发出的调频信号,当S(t)>0时,系统频率过低,电动汽车放电,当S(t)<0时,反之,电动汽车充电,Ccap(t)为聚合商在调频市场签订的调频容量,Ssh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量,实际提供的调频响应量为:
其中,Sac(t)为实际提供的调频响应量,N为电动汽车总数,Ei(t)为第i台电动车提供的响应量:
其中,分别为第i台电动车在离开时需求的SOC和初始的SOC值,Qcap是电池容量,η是电池充放电效率,SOCmax是SOC上限,S(t)是t时刻接收到的调频信号,S(t)>0电动车放电,S(t)<0电动车充电。
4.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法,其特征在于:在步骤3)中,运用强化学习算法对电动汽车参与调频市场进行训练学习,强化学习是从环境与代理之间的交互作用中学习的过程,从环境中获取评价信号以获得更加正确的行为,本质是数字奖赏信号的优化选择,在一次次的学习过程中使奖励信号趋于最大值,Q学习算法是一种典型的强化学习算法,有五个基本参数:S,A,R,Π和δ,其中S和A分别是变量的状态和行动矩阵,R是相应的行动奖励矩阵,Π是最优策略,δ∈[0,1]是经验折算因子,一个状态s值能够被看做是经过折算的回馈值的总和,定义如下:
其中,rt+1是t+1时相应的反馈,当状态s值是最优时,其值函数写为:
其中和分别是采取动作a使状态由s转到s'的可能性和状态由s转到s'的奖励值,最优策略由下式得到:
另外,最优状态-行为值矩阵Q定义如下:
且根据下式进行迭代更新:
其中α是衰退因子,且α∈[0,1],停车场内各电动车的实时电池状态SOC(t)和系统操作员发出的调频指令S(t)被视作状态矩阵S的一部分,电动车可能采取的充放电行为被视作行为矩阵A的组成成分,目标奖励矩阵R是调频效益的优劣的直接反映矩阵。
5.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法,其特征在于:在步骤4)中,建立调频效益考评方案,由训练所得模型对电动汽车调频效益进行考评,在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到:
S=k1Spre+k2Scor+k3Sdel
其中Spre、Scor、Sdel分别是调频精度、相关性、速度的考评得分,k1、k2、k3分别是相应的权重,且k1∈(0,1)、k2∈(0,1)、k3∈(0,1)、k1+k2+k3=1,其中最为重要的是调频精度,假定k1=1且k2=k3=0,针对调频精度的考评依据聚合商应提供的调频响应总量和实际提供的调频响应总量来计算:
其中Sac(t)、Ssh(t)分别为在t时刻聚合商应提供的调频响应量和实际提供的调频响应量,二者差值占应提供的调频响应量的比值即为调频精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147469.2A CN109193721B (zh) | 2018-09-29 | 2018-09-29 | 一种基于强化学习的电动汽车充放电策略优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147469.2A CN109193721B (zh) | 2018-09-29 | 2018-09-29 | 一种基于强化学习的电动汽车充放电策略优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109193721A true CN109193721A (zh) | 2019-01-11 |
CN109193721B CN109193721B (zh) | 2020-09-22 |
Family
ID=64907727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147469.2A Active CN109193721B (zh) | 2018-09-29 | 2018-09-29 | 一种基于强化学习的电动汽车充放电策略优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109193721B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110021947A (zh) * | 2019-04-23 | 2019-07-16 | 四川大学 | 一种基于强化学习的分散式储能电力系统的运行优化方法 |
CN110428165A (zh) * | 2019-07-31 | 2019-11-08 | 电子科技大学 | 一种充电站内兼顾预约与排队的电动汽车充电调度方法 |
CN110525259A (zh) * | 2019-07-23 | 2019-12-03 | 广州供电局有限公司 | 电动汽车的充电需求响应方法、装置、计算机设备 |
CN111106620A (zh) * | 2019-09-10 | 2020-05-05 | 浙江大学 | 基于区块链的电动汽车充电分布式管理方案 |
CN111224433A (zh) * | 2020-03-06 | 2020-06-02 | 中国电力科学研究院有限公司 | 一种分布式储能系统二次调频控制方法及系统 |
WO2020199648A1 (zh) * | 2019-04-01 | 2020-10-08 | 珠海格力电器股份有限公司 | 空调的控制方法和装置 |
CN112465338A (zh) * | 2020-11-25 | 2021-03-09 | 东软睿驰汽车技术(沈阳)有限公司 | 一种充电桩分配方法及其相关设备 |
CN113011101A (zh) * | 2021-03-29 | 2021-06-22 | 广东电网有限责任公司电力调度控制中心 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103580215A (zh) * | 2013-09-07 | 2014-02-12 | 国家电网公司 | 一种电动汽车提供辅助服务的经济性分析方法 |
US20150015213A1 (en) * | 2012-03-28 | 2015-01-15 | Aerovironment, Inc. | Frequency responsive charging system and method |
CN104600729A (zh) * | 2014-08-19 | 2015-05-06 | 浙江工业大学 | 基于v2g技术的电动汽车参与经济调度优化控制方法 |
CN105207241A (zh) * | 2015-09-16 | 2015-12-30 | 南京邮电大学 | 一种基于荷电状态检测的电动汽车调频优化控制方法 |
CN108493959A (zh) * | 2018-03-26 | 2018-09-04 | 河海大学 | 基于Markov模型的电动汽车参与电网调频控制与分析方法 |
-
2018
- 2018-09-29 CN CN201811147469.2A patent/CN109193721B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150015213A1 (en) * | 2012-03-28 | 2015-01-15 | Aerovironment, Inc. | Frequency responsive charging system and method |
CN103580215A (zh) * | 2013-09-07 | 2014-02-12 | 国家电网公司 | 一种电动汽车提供辅助服务的经济性分析方法 |
CN104600729A (zh) * | 2014-08-19 | 2015-05-06 | 浙江工业大学 | 基于v2g技术的电动汽车参与经济调度优化控制方法 |
CN105207241A (zh) * | 2015-09-16 | 2015-12-30 | 南京邮电大学 | 一种基于荷电状态检测的电动汽车调频优化控制方法 |
CN108493959A (zh) * | 2018-03-26 | 2018-09-04 | 河海大学 | 基于Markov模型的电动汽车参与电网调频控制与分析方法 |
Non-Patent Citations (5)
Title |
---|
HUI LIU等: "Decentralized Vehicle-to-Grid Control for Primary Frequency Regulation Considering Charging Demands", 《IEEE TRANSACTION ON POWER SYSTEM》 * |
OLALEKAN KOLAWOLE等: "Optimizing Electric Vehicles Charging Cost for Frequency Regulation Support in a Smart Grid", 《2017IEEE ELECTRICAL POWER AND ENERGY CONFERENCE》 * |
叶丽雅: "V2G代理商调频服务经济效益评估", 《浙江大学学报》 * |
姚伟锋等: "集中充电模式下的电动汽车调频策略", 《电力系统自动化》 * |
罗卓伟等: "大规模电动汽车参与调频服务收益评估方法", 《2012电力行业信息化年会论文集》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020199648A1 (zh) * | 2019-04-01 | 2020-10-08 | 珠海格力电器股份有限公司 | 空调的控制方法和装置 |
US11965666B2 (en) | 2019-04-01 | 2024-04-23 | Gree Electric Appliances, Inc. Of Zhuhai | Control method for air conditioner, and device for air conditioner and storage medium |
CN110021947A (zh) * | 2019-04-23 | 2019-07-16 | 四川大学 | 一种基于强化学习的分散式储能电力系统的运行优化方法 |
CN110525259A (zh) * | 2019-07-23 | 2019-12-03 | 广州供电局有限公司 | 电动汽车的充电需求响应方法、装置、计算机设备 |
CN110428165A (zh) * | 2019-07-31 | 2019-11-08 | 电子科技大学 | 一种充电站内兼顾预约与排队的电动汽车充电调度方法 |
CN110428165B (zh) * | 2019-07-31 | 2022-03-25 | 电子科技大学 | 一种充电站内兼顾预约与排队的电动汽车充电调度方法 |
CN111106620A (zh) * | 2019-09-10 | 2020-05-05 | 浙江大学 | 基于区块链的电动汽车充电分布式管理方案 |
CN111224433A (zh) * | 2020-03-06 | 2020-06-02 | 中国电力科学研究院有限公司 | 一种分布式储能系统二次调频控制方法及系统 |
WO2021174918A1 (zh) * | 2020-03-06 | 2021-09-10 | 国网新源张家口风光储示范电站有限公司 | 一种分布式储能系统二次调频控制方法及系统 |
CN112465338A (zh) * | 2020-11-25 | 2021-03-09 | 东软睿驰汽车技术(沈阳)有限公司 | 一种充电桩分配方法及其相关设备 |
CN113011101A (zh) * | 2021-03-29 | 2021-06-22 | 广东电网有限责任公司电力调度控制中心 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
CN113011101B (zh) * | 2021-03-29 | 2024-01-23 | 广东电网有限责任公司电力调度控制中心 | 一种储能参与调频辅助服务优化的控制方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109193721B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109193721A (zh) | 一种基于强化学习的电动汽车充放电策略优化方法 | |
CN111422094B (zh) | 分布式充电桩的充放电协调优化控制方法 | |
CN111431198B (zh) | 峰谷电价下考虑电动汽车v2g能力的配电网储能调峰方法 | |
US20210331601A1 (en) | Dispatching method and system for electric vehicle battery swapping station | |
CN106004503B (zh) | 一种用于频率调节的多电动汽车充电站间功率分配方法 | |
CN109103912A (zh) | 考虑电网调峰需求的工业园区主动配电系统调度优化方法 | |
CN103679299A (zh) | 兼顾车主满意度的电动汽车最优峰谷分时电价定价方法 | |
CN110289622B (zh) | 一种光储充能量路由器的日前经济优化调度方法 | |
CN109217290A (zh) | 计及电动汽车充放电的微网能量优化管理方法 | |
CN109193718A (zh) | 一种适应于v2g的选择电动汽车入网调控方法 | |
CN107696904A (zh) | 一种电动车有序充电的控制方法和装置 | |
CN107769235A (zh) | 一种基于混合储能与电动汽车的微网能量管理方法 | |
CN104795830B (zh) | 一种利用多类型储能系统跟踪发电计划出力的控制方法 | |
CN107872068A (zh) | 一种基于互联网的并网型微网联合能量管理与控制方法 | |
CN111064214A (zh) | 基于电动汽车两阶段滚动式策略的配电网优化调度方法 | |
CN105515110A (zh) | 一种电动汽车有序充电实时控制系统 | |
CN109710882A (zh) | 一种基于优化运行的离网型微电网电动汽车有序充放电负荷建模及求解方法 | |
CN105631553A (zh) | 一种电动汽车充放电自动需求响应优化方法 | |
CN110428105A (zh) | 一种电动公交车日前充放电优化调度方法 | |
CN110571855A (zh) | 含储能设备和ev充电站的园区微电网联合功率响应控制方法 | |
CN110293872A (zh) | 一种电动汽车智能充电导航系统及方法 | |
CN105207241A (zh) | 一种基于荷电状态检测的电动汽车调频优化控制方法 | |
CN107732937A (zh) | 含风‑光‑储‑电动汽车的并网型微网的削峰填谷方法 | |
CN114662759A (zh) | 多主体双层博弈的规模化电动汽车充放电优化调度方法 | |
CN115549159A (zh) | 一种考虑调峰成本的大规模电动汽车分群调度策略 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |