CN109193721A

CN109193721A - 一种基于强化学习的电动汽车充放电策略优化方法

Info

Publication number: CN109193721A
Application number: CN201811147469.2A
Authority: CN
Inventors: 季天瑶; 叶秀珍; 李梦诗; 吴青华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-01-11
Anticipated expiration: 2038-09-29
Also published as: CN109193721B

Abstract

本发明公开了一种基于强化学习的电动汽车充放电策略优化方法，包括步骤：1)构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法；2)建立电力系统调频市场模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计；3)运用强化学习算法对电动汽车参与调频市场进行训练学习；4)建立调频效益考评方案，由训练所得模型对电动汽车调频效益进行考评。本发明通过利用电动汽车可快速切换充放电模式的优点，将其视作调频服务提供者，通过聚合商参与到调频市场中，在满足自身充电需求的同时得到调频补偿，并将强化学习算法运用到充放电策略优化当中，得到了极好的调频效果。

Description

一种基于强化学习的电动汽车充放电策略优化方法

技术领域

本发明涉及强化学习算法运用在电动汽车充放电策略优化的技术领域，尤其是指一种基于强化学习的电动汽车充放电策略优化方法。

背景技术

目前随着电力体制改革的进一步深化，电力市场的逐步建立健全，售电市场的培育形成，电力行业慢慢步入开放、活跃的市场环境中。在这种情况下，电力部门需要准确的对电能的供需进行实时的平衡，保证供电电能质量，尤其需要保证供电频率在安全、合理的范围内波动。电动汽车具有单向和双向两种能量传输形式，前者可通过改变电动汽车的充电功率来为系统提供服务，如平滑负荷曲线，后者不仅可以改变充电功率，还可以在必要时向系统反向送电以提供调频和旋转备用等辅助服务。因此，可利用电动汽车的储能特性为电力系统提供调频服务。近年来，得益于世界范围内智能电网技术的蓬勃发展和应用，大量高新技术被不断地引入到传统的电网当中，电力行业迎来一个崭新的时代。电动汽车的兴起促使其并网(Vehicle to grid,V2G)成为了必然的趋势，是一项较有发展前景的服务。同时，伴随着强化学习的兴起，出现了很多更优越的训练、学习算法，将这些新算法应用到电动汽车的集中充放电优化策略，为建设智能电网，建立电力市场调频市场中去，对电网经济可靠运行和算法本身的开发都具备重大的意义。

本发明提出一种基于强化学习的电动汽车充放电策略优化方法，构建了电动汽车电池充放电模型及电动汽车车主调频收益计算方法，在电动汽车提供调频辅助服务的同时，不仅能满足电动汽车的充电需求，还对提供调频服务的电动汽车车主提供调频补贴。并将强化学习算法运用到电动汽车在调频市场中提供调频服务的电池充放电优化策略，从而达到理想的调频结果。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于强化学习的电动汽车充放电策略优化方法，突破传统的电动汽车单相能量传输形式的不足，充分利用电动汽车可在短时间内进行双向能量传输的特点，利用电动汽车提供调频服务，并利用强化学习算法对其充放电策略进行优化，达到了非常理想的调频效果。

为实现上述目的，本发明所提供的技术方案为：一种基于强化学习的电动汽车充放电策略优化方法，所述电动汽车充放电策略是在电力市场环境下，将统一停放在工业园区停车场内的电动汽车视为可控负荷，以可控负荷的形式参与调频市场，其工作模式分为两种：在电力系统运营频率偏低，系统操作员发出频率上调信号时，电动汽车放电以提供电能，在供电充足时，电动汽车充电存储电能，两种模式下电动汽车的出行需求都得到了满足，同时，车主能够获得相应的补贴，其包括以下步骤：

1)构建电动汽车(Electric vehicles)电池充放电物理模型以及电动汽车调频收益计算方法；

2)建立电力系统调频市场(Frequency regulation market)模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计；

3)运用强化学习(Reinforcement learning)算法对电动汽车参与调频市场进行训练学习；

4)建立调频效益考评方案，由训练所得模型对电动汽车调频效益进行考评。

在步骤1)中，构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法，电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求，在此前提之下，电动汽车将获得提供调频服务的收益及电池损耗补贴，其中电动汽车电池状态SOC(state of charge)定义如下：

其中，Q_res(t)、Q_cap分别是电动汽车在t时刻电池的剩余容量和电池总容量，SOC(t)是t时刻电池的状态，且任意时刻，SOC和电池剩余容量满足各自的上下限约束：

SOC_min≤SOC(t)≤SOC_max

其中SOC_min和SOC_max、和分别是电池状态、电池容量的上下限，在t时刻，电池充放电时间持续Δt之后，下一个时刻的SOC(t+1)由下式所得:

SOC(t+1)＝SOC(t)+β_tP_ba(t)ηΔt/Q_cap

其中P_ba(t)、η分别是充放电功率和效率，β_t定义如下：

电动汽车参与调频市场获得一定调频补贴，包括：

a、调频服务收益

调频服务收益分为两个部分清算：调频容量收益R^cap和调频里程收益R^mil，分别由以下公式计算：

其中C^cap(t)、M^mil(t)分别是电动汽车调频容量和调频里程，P^cap(t)、P^mil(t)分别是单位调频容量、调频里程补贴价格，T为计费时长；

b、电能不足补贴

系统调度电动汽车参与调频可能导致电动汽车在离开充电桩时的SOC不满足车主的需求，此时的电能不足补贴R^def计算方法如下：

R^def＝γ(D^SOC-F^SOC)

式中D^SOC、F^SOC分别是电动汽车车主需求的SOC和离开充电桩的实际SOC，γ是电能补贴系数

c、电池损耗补贴

电池损耗的大小与电池放电深度成正相关，在Δt的时间间隔内，放电深度DOD(t)为：

DOD(t)＝SOC(t+1)-SOC(t)

电池损耗计算方法如下：

L_DOD(t)＝f(DOD(t),t)

其中L_DOD(t)是电池放电特征曲线，C^bat是电动汽车电池购买成本，K(t)即在放电深度为DOD(t)时的单次充放电成本，因此放电成本的累加R^DOD即为总电池损耗，故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加。

在步骤2)中，建立电力系统调频市场模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计，电动汽车参与调频市场必须通过电力市场的市场参与者，即：电动汽车聚合商，聚合商可被视为园区停车场内电动汽车的总代理，聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约，在实时市场内接收到系统操作员发出的调频信号之后，向电动汽车发出充放电指令以参与调频响应：

S^sh(t)＝C^cap(t)S(t)

其中S(t)∈[-1,1]为系统操作员发出的调频信号，当S(t)＞0时，系统频率过低，电动汽车放电，当S(t)＜0时，反之，电动汽车充电，C^cap(t)为聚合商在调频市场签订的调频容量，S^sh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量，实际提供的调频响应量为：

其中S^ac(t)为实际提供的调频响应量，N为电动汽车总数，E_i(t)为第i台电动车提供的响应量：

其中分别为第i台电动车在离开时需求的SOC和初始的SOC值，Q_cap是电池容量，η是电池充放电效率，SOC_max是SOC上限，S(t)是t时刻接收到的调频信号，S(t)＞0电动车放电，S(t)＜0电动车充电。

在步骤3)中，运用强化学习算法对电动汽车参与调频市场进行训练学习，强化学习是从环境与代理之间的交互作用中学习的过程，从环境中获取评价信号以获得更加正确的行为，本质是数字奖赏信号的优化选择，在一次次的学习过程中使奖励信号趋于最大值，Q学习(Q learning)算法是一种典型的强化学习算法，有五个基本参数：S，A，R，Π和δ，其中S和A分别是变量的状态和行动矩阵，R是相应的行动奖励矩阵，Π是最优策略，δ∈[0,1]是经验折算因子，一个状态s值可以被看做是经过折算的回馈值的总和，定义如下：

其中r_t+1是t+1时相应的反馈，当状态s值是最优时，其值函数可写为：

其中和r_s→s′分别是采取动作a使状态由s转到s'的可能性和状态由s转到s'的奖励值，最优策略可以由下式得到：

另外，最优状态-行为值矩阵Q定义如下：

且根据下式进行迭代更新：

其中α是衰退因子，且α∈[0，1]，停车场内各电动车的实时电池状态SOC(t)和系统操作员发出的调频指令S(t)被视作状态矩阵S的一部分，电动车可能采取的充放电行为被视作行为矩阵A的组成成分，目标奖励矩阵R是调频效益的优劣的直接反映矩阵。

在步骤4)中，建立调频效益考评方案，由训练所得模型对电动汽车调频效益进行考评，在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到：

S＝k₁S^pre+k₂S^cor+k₃S^del

其中S^pre、S^cor、S^del分别是调频精度、相关性、速度的考评得分，k₁、k₂、k₃分别是相应的权重，且k₁∈(0，1)、k₂∈(0，1)、k₃∈(0，1)、k₁+k₂+k₃＝1，其中最为重要的是调频精度，本方法中假定k₁＝1且k₂＝k₃＝0，针对调频精度的考评依据聚合商应提供的调频响应总量和实际提供的调频响应总量来计算：

其中S^ac(t)、S^sh(t)分别为在t时刻聚合商应提供的调频响应量和实际提供的调频响应量，二者差值占应提供的调频响应量的比值即为调频精度。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次在电力市场环境下，设计构建电动汽车参与调频市场机制。

2、本发明首次利用电动汽车能在短时间内，在从电网吸收电能和反馈电能给电网这两个模式间快速切换的优点，建立电动汽车提供调频服务的调频市场模型。

3、本发明首次建立了基于调频效益的调频补贴机制，在满足电动汽车充电需求的同时，根据其调频效益对其提供的调频服务给予合理的调频补贴。

4、本发明的电动汽车调频服务思路清晰简洁、适应性强、调频效果好，对电力市场环境下调频服务的建立与完善具有强大的促进作用，该调频方式具备广泛的实用潜能。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明所采用的传统、动态两类调频信号图。

图3为本发明在传统调频信号下的调频响应量和需求量对比图。

图4为本发明在动态调频信号下的调频响应量和需求量对比图。

图5为本发明在两类调频信号下调频响应的缺口值波形图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于强化学习的电动汽车充放电策略优化方法，包括以下步骤：

1)构建电动汽车(Electric vehicles)电池充放电物理模型以及电动汽车调频收益计算方法；电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求，在此前提之下，电动汽车将获得提供调频服务的收益及电池损耗补贴，电动汽车电池状态SOC(state of charge)定义如下：

SOC_min≤SOC(t)≤SOC_max

SOC(t+1)＝SOC(t)+β_tP_ba(t)ηΔt/Q_cap

其中P_ba(t)、η分别是充放电功率和效率，β_t定义如下：

电动汽车参与调频市场获得一定调频补贴，包括：

a、调频服务收益

b、电能不足补贴

R^def＝γ(D^SOC-F^SOC)

c、电池损耗补贴

DOD(t)＝SOC(t+1)-SOC(t)

电池损耗计算方法如下：

L_DOD(t)＝f(DOD(t),t)

其中L_DOD(t)是电池放电特征曲线，C^bat是电动汽车电池购买成本，K(t)即在放电深度为DOD(t)时的单次充放电成本，因此放电成本的累加R^DOD即为总电池损耗，故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加；

2)建立电力系统调频市场模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计，电动汽车参与调频市场必须通过电力市场的市场参与者，即：电动汽车聚合商，聚合商可被视为园区停车场内电动汽车的总代理，聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约，在实时市场内接收到系统操作员发出的调频信号之后，图2是本发明实施例所采用的传统、动态两类调频信号波形图，由于工业园区停车场汽车大多在工作时间(默认早上八点至晚上五点)停放于停车场，故本实施例只考虑该时间段内的调频信号和调频响应行为，在该时段内聚合商向电动汽车发出充放电指令参与调频响应：

S^sh(t)＝C^cap(t)S(t)

其中S(t)∈[-1,1]为系统操作员发出的调频信号，当S(t)＞0时，系统频率过低，电动汽车放电，当S(t)＜0时，反之，电动汽车充电，C^cap(t)为聚合商在调频市场签订的调频容量，S^sh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量，如图3和图4所示，可以看出在传统、动态两种调频信号下聚合商应提供的总响应量，即：调频需求量，而实际提供的调频响应量为：

其中分别为第i台电动车在离开时所需求的SOC和初始的SOC值，Q_cap是电池容量，η是电池充放电效率，SOC_max是SOC上限，S(t)是t时刻接收到的调频信号，S(t)＞0电动车放电，S(t)＜0电动车充电，3(a)、图4(a)分别是在传统、动态两种调频信号下聚合商实际提供的调频响应量；

3)运用强化学习算法对电动汽车参与调频市场进行训练学习，强化学习是从环境与代理之间的交互作用中学习的过程，从环境中获取评价信号以获得更加正确的行为，本质是数字奖赏信号的优化选择，在一次次的学习过程中使奖励信号趋于最大值，Q学习(Qlearning)算法是一种典型的强化学习算法，有五个基本参数：S，A，R，Π和δ，其中S和A分别是变量的状态和行动矩阵，R是相应的行动奖励矩阵，Π是最优策略，δ∈[0,1]是经验折算因子，一个状态s值可以被看做是经过折算的回馈值的总和，定义如下：

另外，最优状态-行为值矩阵Q定义如下：

且根据下式进行迭代更新：

4)建立调频效益考评方案，由训练所得模型对电动汽车调频效益进行考评，在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到：

S＝k₁S^pre+k₂S^cor+k₃S^del

其中S^pre、S^cor、S^del分别是调频精度、相关性、速度的考评得分，k₁、k₂、k₃分别是相应的权重，且k₁∈(0，1)、k₂∈(0，1)、k₃∈(0，1)、k₁+k₂+k₃＝1，其中最为重要的是调频精度，本方法中假定k₁＝1且k₂＝k₃＝0，针对调频精度的考评依据聚合商应提供的调频响应量，即：调频需求量和实际提供的调频响应量来计算，图5为调频响应量和调频需求量的差值，由缺口值计算调频精度：

其中S^ac(t)、S^sh(t)分别为在t时刻聚合商应提供的调频响应量，即：调频需求量和实际提供的调频响应量，二者差值占应提供的调频响应量的比值即为调频精度，在两类调频信号下，经过强化学习进行充放电策略优化之后得到的调频响应量缺口值在早上八点到下午三点之间调频响应缺口几乎为零，甚至在响应传统调频信号时，调频响应量缺口值大于零，即:能提供的调频响应量比需求量更大，而在下午三点到电动汽车离开停车场之间的这两个小时，由于应尽量满足电动汽车的充电需求，故在此时间段内，调频缺口有一定程度的扩大，在传统调频信号上表现得较为明显，而在动态调频信号上，调频缺口较小。

此外，经过大量的实验，本发明所提出的基于强化学习的电动汽车充放电策略优化方法，采用本发明方法后，不论在当日调频信号如何波动的情况下，其调频效果都能达到理想的要求，尤其是在调频的前几个小时内，调频的响应量几乎能完全跟上调频需求量，只有在电动汽车离开前一两个小时，调频缺口才有所扩大，综上所述本发明为调频市场中的调频服务提供了新的方法，将强化学习算法运用到电动汽车充放电策略优化，能在极短的时间内快速响应调频信号，且能得到极好的调频效果，具有实际应用价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于强化学习的电动汽车充放电策略优化方法，其特征在于：所述电动汽车充放电策略是在电力市场环境下，将统一停放在工业园区停车场内的电动汽车视为可控负荷，以可控负荷的形式参与调频市场，其工作模式分为两种：在电力系统运营频率偏低，系统操作员发出频率上调信号时，电动汽车放电以提供电能，在供电充足时，电动汽车充电存储电能，两种模式下电动汽车的出行需求都得到了满足，同时，车主能够获得相应的补贴，其包括以下步骤：

1)构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法；

2)建立电力系统调频市场模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计；

3)运用强化学习算法对电动汽车参与调频市场进行训练学习；

2.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法，其特征在于：在步骤1)中，构建电动汽车电池充放电物理模型以及电动汽车调频收益计算方法，电动汽车作为可响应负荷提供调频服务的同时必须满足其汽车电池的充电需求，在此前提之下，电动汽车将获得提供调频服务的收益及电池损耗补贴，其中电动汽车电池状态SOC定义如下：

SOC_min≤SOC(t)≤SOC_max

其中，SOC_min和SOC_max、和分别是电池状态、电池容量的上下限，在t时刻，电池充放电时间持续Δt之后，下一个时刻的SOC(t+1)由下式所得：

SOC(t+1)＝SOC(t)+β_tP_ba(t)ηΔt/Q_cap

其中，P_ba(t)、η分别是充放电功率和效率，β_t定义如下：

电动汽车参与调频市场获得调频补贴，包括：

a、调频服务收益

b、电能不足补贴

R^def＝γ(D^SOC-F^SOC)

式中D^SOC、F^SOC分别是电动汽车车主需求的SOC和离开充电桩的实际SOC，γ是电能补贴系数；

c、电池损耗补贴

DOD(t)＝SOC(t+1)-SOC(t)

电池损耗计算方法如下：

L_DOD(t)＝f(DOD(t),t)

其中，L_DOD(t)是电池放电特征曲线，C^bat是电动汽车电池购买成本，K(Δt)即在放电深度为DOD(t)时的单次充放电成本，因此放电成本的累加R^DOD即为总电池损耗，故总的调频补贴为调频服务收益、电能不足补贴以及电池损耗补贴三者累加。

3.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法，其特征在于：在步骤2)中，建立电力系统调频市场模型，包括电动汽车参与调频的市场参与形式以及调频机制的设计，电动汽车参与调频市场必须通过电力市场的市场参与者，即：电动汽车聚合商，聚合商被视为园区停车场内电动汽车的总代理，聚合商根据停车场内电动汽车的调频容量在调频市场签订调频合约，在实时市场内接收到系统操作员发出的调频信号之后，向电动汽车发出充放电指令以参与调频响应：

S^sh(t)＝C^cap(t)S(t)

其中，S(t)∈[-1,1]为系统操作员发出的调频信号，当S(t)＞0时，系统频率过低，电动汽车放电，当S(t)＜0时，反之，电动汽车充电，C^cap(t)为聚合商在调频市场签订的调频容量，S^sh(t)为在接收到调频信号S(t)时聚合商应提供的总响应量，实际提供的调频响应量为：

其中，S^ac(t)为实际提供的调频响应量，N为电动汽车总数，E_i(t)为第i台电动车提供的响应量：

其中，分别为第i台电动车在离开时需求的SOC和初始的SOC值，Q_cap是电池容量，η是电池充放电效率，SOC_max是SOC上限，S(t)是t时刻接收到的调频信号，S(t)＞0电动车放电，S(t)＜0电动车充电。

4.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法，其特征在于：在步骤3)中，运用强化学习算法对电动汽车参与调频市场进行训练学习，强化学习是从环境与代理之间的交互作用中学习的过程，从环境中获取评价信号以获得更加正确的行为，本质是数字奖赏信号的优化选择，在一次次的学习过程中使奖励信号趋于最大值，Q学习算法是一种典型的强化学习算法，有五个基本参数：S，A，R，Π和δ，其中S和A分别是变量的状态和行动矩阵，R是相应的行动奖励矩阵，Π是最优策略，δ∈[0,1]是经验折算因子，一个状态s值能够被看做是经过折算的回馈值的总和，定义如下：

其中，r_t+1是t+1时相应的反馈，当状态s值是最优时，其值函数写为：

其中和分别是采取动作a使状态由s转到s'的可能性和状态由s转到s'的奖励值，最优策略由下式得到：

另外，最优状态-行为值矩阵Q定义如下：

且根据下式进行迭代更新：

5.根据权利要求1所述的一种基于强化学习的电动汽车充放电策略优化方法，其特征在于：在步骤4)中，建立调频效益考评方案，由训练所得模型对电动汽车调频效益进行考评，在大部分成熟的电力市场现行的调频考评结果由三个部分加权得到：

S＝k₁S^pre+k₂S^cor+k₃S^del

其中S^pre、S^cor、S^del分别是调频精度、相关性、速度的考评得分，k₁、k₂、k₃分别是相应的权重，且k₁∈(0，1)、k₂∈(0，1)、k₃∈(0，1)、k₁+k₂+k₃＝1，其中最为重要的是调频精度，假定k₁＝1且k₂＝k₃＝0，针对调频精度的考评依据聚合商应提供的调频响应总量和实际提供的调频响应总量来计算：