CN113515884A

CN113515884A - 分散式电动汽车实时优化调度方法、系统、终端及介质

Info

Publication number: CN113515884A
Application number: CN202110419560.0A
Authority: CN
Inventors: 方陈; 赵小瑾; 朱征; 王皓靖; 冯冬涵; 时珊珊; 徐琴; 周云; 张宇; 余苏敏; 张开宇; 魏晓川; 刘泽宇
Original assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-10-19

Abstract

本发明提供了一种分散式电动汽车实时优化调度方法及系统，建立联合电动汽车充电和电网机组出力的实时优化调度模型；并通过电动汽车集群能量边界等效模型和优化功率再分配策略提高模型求解效率；将所提出的优化调度模型构造成一个马尔可夫决策过程；并利用强化学习算法进行求解；将训练好的智能体应用于分散式电动汽车实时优化调度，实时优化各时段机组出力和电动汽车充电功率，实现电网经济运行。同时提供了一种相应的终端及介质。本发明一方面无需依赖准确的模型预测，连续的动作空间可保证调控的灵活性，且求解速度快；另一方面优选SAC算法作为强化学习算法，具有最大化熵的特点，可广泛探索环境，在环境变化的情况下仍具有较强的鲁棒性。

Description

分散式电动汽车实时优化调度方法、系统、终端及介质

技术领域

本发明涉及电力系统优化调度领域，具体涉及一种基于强化学习的分散式电动汽车实时优化调度方法、系统、终端及介质。

背景技术

在石油资源日益紧张的大趋势下，严重依赖石油的传统燃油车在发展上面临越来越大的压力。电动汽车(Electric Vehicles,EV)作为一种新型交通工具，具有污染小、能量利用率高等特点，在能源短缺、环境恶化的形势下，电动汽车的数量高速增长。同时，考虑到电动汽车具有可控负荷和储能单元的双重属性，若能充分发挥其移动储能特性，挖掘其参与电网调度的巨大潜力，一方面可以消除其无序充电对电网的不利影响，另一方面可通过需求响应(Demand Response,DR)服务为电网运行提供支撑。

考虑到存在大量不便于管理的分散式电动汽车(即通过家用桩充电的电动汽车)，电网可通过电动汽车聚合商(EV Aggregator)对电动汽车的充电过程进行管理优化。目前已有许多电动汽车参与电网优化调度的研究，一般可分为日前阶段优化和实时优化阶段。在实时阶段，大量分散式电动汽车充电行为的随机性较强，难以准确预测，电力系统的复杂性和不确定性也随之增加，给实时阶段的运行优化带来了巨大的挑战。同时随着人工智能技术的不断发展，其在电力系统中也得到了成熟的应用。在此背景下，无需建立模型、改由数据驱动的强化学习算法优势逐渐显著，强化学习等一些机器学习算法在电动汽车实时优化调度方面得到了广泛应用。

经过检索发现：

公开号为CN111313449A的中国发明专利申请《一种基于机器学习的集群电动汽车功率优化管理方法》，公开了一种基于长短期记忆神经网络(LSTM)的集群电动汽车在线功率控制方法。该方法针对历史充电数据不同的充电桩分别选择了最优LSTM网络，并验证该方法相对于混合整数线性规划方法在求解时间上的优势。但该方法不适用于含大量分散式电动汽车的情况。

公开号为CN109193721A的中国发明专利申请《一种基于强化学习的电动汽车充放电策略优化方法》，以最大化车主调频收益为目标，公开了一种基于强化学习的电动汽车参与调频的充放电策略，能在极短的时间内快速响应调频信号。但在调度车辆时未考虑车主参与意愿，且采用的Q-learning算法只能处理离散的充放电功率，不能对功率进行连续调节。

公开号为CN111934335A的中国发明专利申请《一种基于深度强化学习的集群电动汽车充电行为优化方法》，公开了一种基于强化学习的充电行为分布式优化算法，在保证优化速度和充电功率调节灵活性的前提下，该方法减少了用户开销，实现电网负荷削峰填谷的效果。但相对于集中算法，分布式算法仅考虑车主收益，可能在夜晚谷期造成另一个负荷尖峰，从而造成电网负担。

公开号为CN111429038A的中国发明专利申请《一种基于强化学习的主动配电网实时随机优化调度方法》，公开了一种基于时序差分TD(1)策略迭代算法的电动汽车集群随机优化调度方法，利用近似值函数对主动配电网实时随机优化调度问题进行求解。有效提升配网运行的经济性，实现“削峰填谷”，且在随机因素剧烈变化时仍有较好的效果。为避免集中优化出现维数灾，该方法提出等效电动汽车集群模型，但并未说明集群优化后的功率如何分配。

因此，迫切需要找到一种兼顾车主和电网利益、求解效率高、适应实时阶段调度需求的分散式电动汽车优化调度方法。目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于强化学习的分散式电动汽车实时优化调度方法、系统、终端及介质。

根据本发明的一个方面，提供了一种分散式电动汽车实时优化调度方法，包括：

建立联合电动汽车充电和电网机组出力的实时优化调度模型；

将充电结束时间相同的电动汽车划分为同一集群，建立等效的电动汽车集群能量边界模型以及优化功率再分配策略；

将集群电动汽车充电和电网机组出力的优化问题构造为一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励；

利用强化学习算法对所述马尔可夫决策过程进行求解，并训练得到适应实时阶段充电负荷不确定性的强化学习智能体；

将所述强化学习智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略。

优选地，所述建立联合电动汽车充电和电网机组出力的实时优化调度模型，包括：

以机组燃料成本最低为实时优化调度模型的优化目标，则所述优化目标函数为：

其中，N_G是发电机组数量，T是一个优化周期内的时间段数，p_i,t是机组i在时间t时的发电量；u_i,t是根据日前开关机计划确定的二进制数，当机组处于运行状态时为1，机组处于关机状态时为0；CA_i、CB_i和CC_i是机组i的发电成本参数；

设定实时优化调度模型的约束条件为：

p_i,t-p_i,t-1≤u_i,t-1P_up,i (3)

p_i,t-1-p_i,t≤u_i,t-1P_down,i (4)

其中，式(2)是机组i发电功率p_i,t上下限约束，其中

和

分别表示机组i在时刻t的功率下限和上限，不仅受到机组本身能力的限制，还受到机组爬坡约束的影响；式(3)和式(4)是机组爬坡约束，其中P_up,i和P_down,i分别是机组i最大上爬坡率和最大下爬坡率；式(5)表示系统功率平衡，其中P_D,t包括预测的常规负荷和非灵活性EV负荷，N_EV表示参与调度的灵活性电动汽车总数量，

表示参与调度的电动汽车k充电功率，P_loss,t是系统在时间t的网络损耗；

设定参与调度的单辆电动汽车相关约束条件为：

其中，式(6)表示电动汽车充电能量约束,其中

表示电动汽车k在时段t结束时的电量，η表示充电效率，Δt表示优化周期的单位时间段；式(7)和式(8)分别表示电动汽车k在时刻t的能量上下限约束和充电功率上下限约束；式(9)保证EV在离开时是充满电的，电量的上下限均等于要求的电量，其中t_end表示电动汽车k离开的时刻，

表示电动汽车k离开时要求的电量；式(10)和式(11)分别对电动汽车k在时刻t充电功率下限和充电功率上限做了进一步限制，其中

表示受充电桩或者电池本身物理限制的最大充电功率；式(10)表示在前一时刻的电量

低于目前最低电量下限

时，充电功率下限将被强制提高；式(11)表示在前一时刻的电量

接近当前电量上限

时，充电功率上限将被强制降低；引入单辆汽车的充电能量边界模型，其中，能量上界表示该车一开始就以最大功率充电，充满电后一直维持最大能量直至离开，能量下界表示该车延迟充电，在离开的前几个时间段以最大功率持续充电并恰好在离开的时刻充满；车辆的电量变化曲线只能在能量上下边界里波动；

至此，通过所述优化目标式(1)及所述约束条件式(2)～式(11)，得到所述联合电动汽车充电和电网机组出力的实时优化调度模型。

优选地，所述将充电结束时间相同的电动汽车划分为同一集群，建立等效的电动汽车集群能量边界模型以及优化功率再分配策略，包括：

将离开时间相同的电动汽车作为同一集群，将单辆汽车的充电能量边界模型进行叠加，得到电动汽车集群的能量边界模型，并将所述单辆电动汽车相关约束条件替换为集群相关约束，则：

其中，式(12)至式(15)分别表示电动汽车集群m在时刻t的电量下限约束、电量上限约束、充电功率下限约束和充电功率上限约束，N_m表示集群m中电动汽车的数量，

和

分别表示集群的电量下限和上限，

和

分别表示集群的充电功率下限和上限；式(16)表示集群功率等于集群中所有车功率之和，

为集群m的总充电功率；式(17)表示电动汽车充电能量约束，

为集群m的总能量；

以集群为单位建立优化变量及相关约束条件后，带入所述实时优化调度模型中进行求解，得到当前时间段集群最优充电功率

将所述功率

分配给集群内的车辆，更新得到单辆汽车的电量和功率的上下限后，再次更新集群电量和功率的上下限；

根据能量缓冲一致性算法，制定各个时刻的优化功率再分配策略为：

其中，λ_m表示集群m的能量缓冲因子，

表示通过分配后的单辆汽车优化功率；根据能量缓冲因子的一致性对功率进行分配，使得不同车的电量状态逐渐趋于一致，且在离开时充满电；当

和

相等时，

为0；

通过式(18)和式(19)求解线性方程组，得到集群内所有

对得到的

根据式(20)进行校验，得到真实设置的充电功率

所述充电功率

用于表示是否越限；若存在越限的功率，则校验后的单辆汽车优化功率之和不等于集群优化功率，此时，已经越限的单辆汽车不再参与下一轮分配，直接赋值功率的上限或者下限，将总功率减去已经分配的功率得到剩余功率，再次按照能量缓冲一致性算法进行分配，直到没有功率剩余。

优选地，所述将集群电动汽车充电和电网机组出力的优化问题构造为一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励，包括：

构建马尔可夫决策过程中的最大化累积奖励G_t为：

所述最大化累积奖励G_t描述了从时间t直至回合结束的总奖励；其中，R_t和R_t+1分别表示当前时刻和下一时刻的奖励，γ表示折扣因子，决定了未来奖励值对现在的影响，一般取值为0到1之间的一个数；

建立马尔可夫决策过程中的V值和Q值，其中，V值表示在状态S下直至回合结束的奖励和期望值，Q值表示选择动作a后直至回合结束的奖励和的期望值，则：

V_π(s)＝E_π[G_t|S_t＝s] (22)

Q_π(s,a)＝E_π[G_t|S_t＝s,a_t＝a] (23)

其中，策略π(a|s)表示状态s到动作a的映射，S_t和a_t分别表示在时刻t的状态和采取的动作；

V值和Q值的贝尔曼方程如下所示：

其中，s′表示下一时刻的状态，a′表示下一时刻的动作，

表示当前在状态s和动作a下获得的奖励；

定义马尔可夫决策过程的状态空间S为：

其中，

和

分别为各个机组的出力下限和出力上限，

和

分别为集群的电量下限和电量上限，

和

分别为集群的充电功率下限和充电功率上限，P_D,t为电网负荷；

定义马尔可夫决策过程的动作空间a在时刻t为a_t：

其中，p_i,t为机组出力大小，

为集群的充电功率；

机组出力大小p_i,t或者集群的充电功率

超过了其本身上下限的约束，则对a_t进行如下调整：

其中，

表示调整后的实际动作值；

定义马尔可夫决策过程的奖励函数R在时刻t为R_t：

R_t＝R_1t+R_2t

其中，c为大于0的惩罚项系数，N_m为集群的数量。

优选地，所述利用强化学习算法对所述马尔可夫决策过程进行求解，并训练得到适应实时阶段充电负荷不确定性的强化学习智能体，包括：

采用基于最大熵的深度强化学习算法，定义所述基于最大熵的深度强化学习算法的目标，包括奖励和熵，则：

H(π(·|s'))＝-E_a logπ(a'|s') (31)

其中，π^*表示最优策略，H表示熵函数，α为温度参数，表示熵函数相对奖励函数的重要度；对照式(25)，将熵嵌入计算，得到基于最大熵的深度强化学习算法下的Soft贝尔曼方程和Soft贝尔曼更新方程为分别为式(32)和式(33)：

因此由式(33)可得基于最大熵的深度强化学习算法下V值和Q值的换算公式为：

所述基于最大熵的深度强化学习算法通过使用KL散度对策略进行更新，如式(35)所示：

其中π'表示下一阶段策略，分母Z(s_t)用于使归一化；

设充电功率连续可调，在连续的动作空间和状态空间中，利用基于最大熵的深度强化学习算法对电动汽车充电和机组出力实时优化调度问题进行迭代求解，训练智能体；其中：

所述基于最大熵的深度强化学习算法基于Actor-Critic框架，采用两个神经网络分别作为策略网络和价值网络，用于拟合策略π和Q值，并依据式(34)和式(35)分别对策略网络和价值网络的参数进行更新；其中，所述策略网络用于输出动作的概率分布，主要由高斯分布表示；所述价值网络用于评估动作的好坏，主要由一个或多个全连接的神经层构成，最后输出估算的Q值；得到价值网络输出后，策略网络再根据价值网络估值对策略不断进行修改，进而得到强化学习智能体；

所述策略网络和价值网络结构相同，但参数更新频率不同。

优选地，所述将所述强化学习智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略，包括：

获取每一个新接入电动汽车的充电信息，并将所述充电信息传输至所述强化学习智能体；

所述强化学习智能体根据所述充电信息对状态变量进行更新，根据马尔可夫决策过程的奖励函数R，通过最大熵的深度强化学习算法输出当前时段集群的最优充电功率；根据优化功率再分配策略，所述强化学习智能体将优化后的功率分配至该集群的各辆汽车中，得到当前时段每个电动汽车集群的最优充电策略；

进入下一状态，重复上述两个步骤，直至一个优化周期结束。

优选地，所述方法，还包括：

通过算例验证所述分散式电动汽车实时优化调度方法的可行性和高效性。

根据本发明的另一个方面，提供了一种分散式电动汽车实时优化调度系统，包括：

优化调度模型模块，该模块建立联合电动汽车充电和电网机组出力的实时优化调度模型；

集群优化分配模块，该模块将充电结束时间相同的电动汽车划分为同一集群，建立等效的电动汽车集群能量边界模型以及优化功率再分配策略；

决策构建模块：该模块将集群电动汽车充电和电网机组出力的优化问题构造为一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励；

强化学习智能体模块，该模块利用强化学习算法对所述马尔可夫决策过程进行求解，并训练得到适应实时阶段充电负荷不确定性的强化学习智能体；

最优策略模块，该模块将所述强化学习智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法，或，运行上述的系统。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法，或，运行上述的系统。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的分散式电动汽车实时优化调度方法、系统、终端及介质，以集中式优化为基础，以聚合商管理为组织模式，考虑到以单辆电动汽车作为变量会引发维数灾的问题，基于单辆车能量边界模型，提出EV集群等效模型和优化功率再分配方法，有效降低了变量维数，提高了模型求解效率，使其更适用于实际情况。

本发明提供的分散式电动汽车实时优化调度方法、系统、终端及介质，相比于传统大规模运筹优化，基于强化学习，无需依赖准确模型，也无需准确预测系统中不确定因素(实际情况也无法准确预测)，例如电动汽车充电方式和电网负荷。即使是在环境变化的情况下，也可用较快的速度计算出接近最优的电动汽车充电功率和机组出力计划，达到节约电网运行成本的效果，在考虑需求响应补贴的情况下还可提升聚合商和车主效益。

本发明提供的分散式电动汽车实时优化调度方法、系统、终端及介质，具体应用的基于最大熵的深度强化学习算法(SAC算法)可实现充电功率的连续可调而非离散调节，更具有灵活性。相比于其他强化学习算法，SAC具有Maximum Entropy的特点，该特点使得智能体会更大限度地探索环境，不仅有利于智能体学习复杂的新任务，而且抗干扰能力强，鲁棒性更好。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中分散式电动汽车实时优化调度方法流程图。

图2为本发明一优选实施例中分散式电动汽车实时优化调度方法流程图。

图3为本发明一优选实施例中强化学习示意图。

图4为本发明一优选实施例中SAC算法流程图。

图5为本发明一实施例中分散式电动汽车实时优化调度系统组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种分散式电动汽车实时优化调度方法，该方法针对现有技术中存在的缺陷，既避免“维数灾”的问题，保证含大量分散式电动汽车的集中优化调度能高效求解，又能实现强化学习算法下电动汽车充电功率的灵活调节和优化速度，以提供一种适应实时调度需求的分散式电动汽车优化调度方法。

该实施例提供的分散式电动汽车实时优化调度方法所要解决的技术问题主要体现在以下几点：

(1)量化电动汽车参与需求响应为电网带来的实际效益。考虑到分时电价等需求响应策略引导电动汽车用户有序充电会带来另一个晚间充电尖峰，引入电网机组经济调度模型，将机组出力优化调度和电动汽车充电优化调度结合起来，量化电动汽车为电网带来的经济效益。

(2)集中优化大量分散式电动汽车会造成维数灾问题，严重影响求解效率，甚至无法求解。为解决这一问题，需要对大规模分散式电动汽车的优化调度问题进行降维求解。可通过划分电动汽车集群降低优化变量的维度，从而解决这一问题，集群的划分方式也影响着模型的效果。

(3)电动汽车集群模型，包括如何获得集群等效模型和优化后的功率如何再分配。集群等效模型的边界条件要保证不超出多辆车叠加后可达到的实际效果；获得最优集群功率后，分配至各辆车的优化功率也应保证不超出单辆车的边界条件。因此建立准确合理的集群等效模型和优化功率再分配模型是十分必要的。

(4)实时阶段电动汽车充电行为的不确定性和随机性强，无需建立模型、改由数据驱动的强化学习算法优势逐渐显著，但强化学习算法执行优化调度的效果和选择具体的算法息息相关，在保证优化速度的同时，还要保证模型可行性和功率调节灵活性。

图1为本发明一实施例提供的分散式电动汽车实时优化调度方法流程图。

如图1所示，该实施例提供的分散式电动汽车实时优化调度方法，可以包括如下步骤：

S100，建立联合电动汽车充电和电网机组出力的实时优化调度模型；

S200，将充电结束时间相同的电动汽车划分为同一集群，建立等效的电动汽车集群能量边界模型以及优化功率再分配策略；(在该步骤中，讲所有电动汽车划分为几个集群，后续步骤中可以不再考虑对单辆电动汽车的控制，只考虑对这几个集群的控制。建立等效的电动汽车集群，是指划分集群前后，电动汽车的充电模型是等效的)；

S300，将集群电动汽车充电和电网机组出力的优化问题构造为一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励；

S400，利用强化学习算法对所述马尔可夫决策过程进行求解，并训练得到适应实时阶段充电负荷不确定性的强化学习智能体；

S500，将所述强化学习智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略。

在该实施例中，还可以包括如下步骤：

S600，通过算例验证所述分散式电动汽车实时优化调度方法的可行性和高效性。

本发明上述实施例提供的分散式电动汽车实时优化调度方法，不仅可以通过电动汽车集群划分高效处理集中优化出现的“维数灾”问题，还可充分利用强化学习算法，保证优化速度的前提下实现动作空间灵活可调，从而减少电网整体运行成本。这种实时优化调度方法是建立在日前已确定电网中机组开关机计划的基础上，在实时阶段电网对机组经济出力和大规模电动汽车充电进行优化调度。该方法在无需依赖模型的前提下对电动汽车充电和机组出力计划进行优化调度，求解速度快、求解最优性好，滿足电网实时调度的需求。

下面结合附图及优选实施例对本发明上述实施例提供的技术方案进行进一步的详细说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

图2为本发明一优选实施例提供的分散式电动汽车实时优化调度方法流程图。

如图2所示，该优选实施例提供的分散式电动汽车实时优化调度方法，可以包括如下步骤：

步骤1：以机组燃料成本最低为优化目标，建立联合单辆电动汽车充电和电网机组出力的实时优化调度模型。

步骤2：为减少变量维度，将充电结束时间相同的电动汽车划分为同一集群，并提出等效的集群能量边界模型以及优化功率再分配方法。

步骤3：将集群电动汽车充电和机组出力的优化问题构造成一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励。

步骤4：利用基于最大熵的深度强化学习算法Soft Actor-Critic(SAC)对马尔可夫决策过程进行求解，并在大量场景训练下得到能适应实时阶段充电负荷不确定性的强化学习智能体(Agent)。

步骤5：将训练好的智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略，通过算例验证该电动汽车实时优化调度方法的可行性和高效性。

作为一优选实施例，步骤1：建立联合电动汽车充电和电网机组出力的实时优化调度模型，可以包括如下步骤：

步骤1.1：考虑到城市中分散的电动汽车数量庞大，管理困难，为了提高实时阶段管理大规模分散式电动汽车的效率，电网一般会引入电动汽车聚合商作为电网和电动汽车用户之间信息和能量的协调者，通过电动汽车聚合商对电动汽车进行间接管理，聚合商一般由车企或者桩企担任。为了充分利用电动汽车充电灵活性，使其支撑电网运行，并降低大规模充电对电网的冲击，电网通过聚合商向车主发出需求响应邀约，从而调度充电过程。

聚合商根据电动汽车用户是否愿意接受调度以及是否具有充电可调节能力将电动汽车分为灵活性EV和非灵活性EV，灵活性EV表示既愿意接受调度又具备可调节能力(即停留时间大于充满电所需时间)的EV，其余均属于非灵活性EV。其中对于非灵活性EV而言，聚合商仅为一个电能提供者，一旦接入电网就按照最大功率充电直至充满。聚合商一方面向电网上传实时车辆信息(包括灵活性EV和非灵活性EV)，另一方面根据电网的控制信号对车辆进行控制。

步骤1.2：获得日前优化确定的机组启停计划后，在机组启停计划不变的前提下，电网层面需协调机组出力和电动汽车充电，充分利用充电的灵活性降低电网机组的整体燃料成本，提升电网运行的经济性。电动汽车充电和电网机组出力的联合实时优化调度模型的优化目标如下：

目标函数是最小化系统中发电机组的燃料成本，其中，N_G是发电机组数量，T是一个优化周期内的时间段数，p_i,t是机组i在时间t时的发电量；u_i,t是根据日前开关机计划确定的二进制数，当机组处于运行状态时为1，机组处于关机状态时为0；CA_i、CB_i和CC_i是机组i的发电成本参数。

该优化模型包括以下约束式：

p_i,t-p_i,t-1≤u_i,t-1P_up,i (3)

p_i,t-1-p_i,t≤u_i,t-1P_down,i (4)

其中式(2)是机组i发电功率p_i,t上下限约束，其中

和

分别表示机组i在时刻t的功率下限和上限，不仅收到机组本身能力的限制，还收到爬坡约束的影响。约束式(3)和(4)是机组爬坡约束，其中P_up,i和P_down,i分别是机组i最大上爬坡率和最大下爬坡率。约束式(5)表示系统功率平衡，其中P_D,t包括预测的常规负荷和非灵活性EV负荷，N_EV表示参与调度的灵活性电动汽车总数量，

表示参与调度的电动汽车k充电功率，P_loss,t是系统在时间t的网络损耗。

下面是参与调度的单辆电动汽车相关约束式：

式(6)表示电动汽车充电能量约束,其中

表示电动汽车k在时段t结束时的电量，η表示充电效率，Δt表示优化周期的单位时间段。式(7)和式(8)分别表示电动汽车k在时刻t的能量上下限约束和充电功率上下限约束。式(9)保证EV在离开时是充满电的，电量的上下限均等于要求的电量，其中t_end表示电动汽车k离开的时刻，

表示电动汽车k离开时要求的电量。式(10)和式(11)分别对电动汽车k在时刻t充电功率下限和充电功率上限做了进一步限制，其中

表示受充电桩或者电池本身物理限制的最大充电功率。式(10)表示在前一时刻的电量

低于目前最低电量下限

时，充电功率下限会被强制提高；式(11)表示在前一时刻的电量

较为接近当前电量上限

时，充电功率上限会被强制降低。因此可以引入单辆汽车的充电能量边界模型：能量上界表示该车一开始就以最大功率充电，充满电后一直维持最大能量直至离开，能量下界表示该车延迟充电，在离开的前几个时间段以最大功率持续充电并恰好在离开的时刻充满。为了保证车辆在离开时是达到要求电量的，车辆的电量变化曲线只能在能量上下边界里波动。

至此，电动汽车充电和电网机组出力的联合实时优化调度模型目标函数为式(1)，约束式为式(2)-(11)。

作为一优选实施例，步骤2：建立电动汽车集群充电能量边界模型和优化功率再分配方法，可以包括如下步骤：

步骤2.1：城市中分散的电动汽车数量庞大，若将每辆电动汽车作为优化变量进行集中优化求解会造成“维数灾”的问题，严重影响求解的效率，甚至无法求解。为避免这一问题，引入电动汽车集群的概念——将离开时间相同的电动汽车作为同一集群，将单辆车的能量边界模型进行叠加得到集群的能量边界模型，并将步骤1优化模型中单辆车相关约束式(6)-(11)替换为EV集群约束式(12)-(17)，具体如下：

式(12)至式(15)分别表示电动汽车集群m在时刻t的电量下限约束、电量上限约束、充电功率下限约束和充电功率上限约束。其中N_m表示集群m中电动汽车的数量，

和

分别表示集群的电量下限和上限，

和

分别表示集群的充电功率下限和上限。式(16)表示集群功率等于集群中所有车功率之和，

为集群m的总充电功率。式(17)表示电动汽车充电能量约束，

为集群m的总能量。

在实时优化中，无法提前准确预测下一时段接入的车辆，即集群的能量边界需要根据最新接入该集群的电动汽车信息进行实时更新，并将更新的信息带入模型进行计算。

建立电动汽车集群优化模型后，集群相关的变量规模只与优化周期内时间段数有关(例如优化周期为24小时，若以15分钟为优化时间步长，则一共需要96个集群)，而与实际电动汽车数量无关，可有效提高模型求解速度。

步骤2.2：以集群为单位建立优化变量及相关约束后，带入实时优化调度模型中进行求解，会得到当前时间段集群最优充电功率

将该功率分配给集群内的车辆，更新完单辆车的电量和功率的上下限后，再次更新集群电量和功率的上下限。由于集群内车辆在开始充电时的电量各不相同，因此充电需求也不相同，如果简单地均匀分配，可能会导致某些充电需求小的车辆过早充满，或者充电需求大的车较晚充满，若车主提前取车就有充不满电的风险。针对这一问题，为了保证同一集群内的电动汽车拥有相对接近的能量状态，根据能量缓冲一致性算法，制定各个时刻的优化功率分配方法如下：

式(18)中，λ_m表示集群m的能量缓冲因子，

表示通过分配后的单辆电动汽车优化功率，一个集群内电动汽车在同一时刻的能量缓冲因子相同，但同一集群在不同时刻的能量缓冲因子可能不同，这是因为在不同时刻集群的电量情况不同。根据能量缓冲因子的一致性对功率进行分配，如果当前电量和要求电量相差较远，则分配的功率较大，反之则较小，这样可保证不同车的电量状态逐渐趋于一致，且都能在离开时充满电。特别地，当

和

相等时，

为0。由式(18)和(19)可求解线性方程组，得到该集群内所有

对得到的

还需要根据式(20)进行校验得到真实设置的充电功率

防止越限。

若存在越限的功率，校验后的单辆车功率之和可能不等于集群优化功率，对于集群功率分配后还有功率剩余的情况，处理方法如下：已经越限的单辆EV不再参与下一轮分配，直接赋值功率的上限或者下限，将总功率减去已经分配的功率得到剩余功率，再次按照能量缓冲一致性算法进行分配，直到没有功率剩余。

作为一优选实施例，步骤3：将集群电动汽车充电和机组出力的优化问题构造成一个马尔可夫决策过程，可以包括如下步骤：

步骤3.1：如图3所示，在强化学习中，智能体通过与环境的交互，学习能自主解决问题的能力。待解决的序列问题一般可以用马尔可夫决策过程(Markov decisionprocess，MDP)表示，MDP指系统的下一状态仅由当前状态决定，而与过去状态无关。在马尔可夫决策过程中，有三个重要元素：S(State，状态)、a(Action，动作)和R(Reward，奖励)。状态S表示智能体在与环境交互过程观察到的环境特征，动作a表示智能体采取的行为，智能体产生的动作和环境自身的变化都会影响状态S，奖励R表示环境给智能体的反馈，反馈越好奖励越多，智能体会尽可能获得更多的奖励。因此，强化学习的整个流程就是：智能体在环境中观察到状态S，将状态S输入智能体，智能体计算接下来要进行的动作a，输出动作a后，环境会向智能体反馈奖励R并进入另一个状态。在现实世界中，很多问题不能用明确的模型表达，不同状态之间的转移概率未知，解决此类问题的强化学习称作不基于模型的强化学习方法。智能体的目标就是最大化累积奖励，累积回报(return)G_t描述了从时间t直至回合结束的总奖励，G_t的具体表达式如下：

其中R_t和R_t+1分别表示当前时刻和下一时刻的奖励，γ表示折扣因子，决定了未来奖励值对现在的影响，一般取值为0到1之间的一个数，由γ^k可知，距离目前越远时刻的奖励值对当下的影响越小。

为了帮助智能体做出决策，MDP中有值函数(Value Function)和动作值函数(action-value function)分别用于衡量状态S和动作a的价值，可称作V值和Q值。V值表示智能体在状态S下直至回合结束的奖励和的期望值，Q值表示选择动作a后直至回合结束的奖励和的期望值，则：

V_π(s)＝E_π[G_t|S_t＝s] (22)

Q_π(s,a)＝E_π[G_t|S_t＝s,a_t＝a] (23)

V值和Q值的贝尔曼方程如下：

其中，s′表示下一时刻的状态，a′表示下一时刻的动作，

表示当前在状态s和动作a下获得的奖励；

强化学习的目标通过优化策略最大化累积奖励，也是最大化值函数，而贝尔曼最优方程就是在最优策略下的V值和Q值。

步骤3.2：定义马尔可夫决策过程的状态空间S。状态空间在体现环境变化的同时，包含的信息又不能冗余，否则会影响智能体判断。在电动汽车实时调度中，环境的不确定性体现在还未接入的电动汽车的充电行为难以精准预测，包括充电开始时间、充电结束时间和所需电量，且结合前面提出的电动汽车集群模型，定义系统状态空间如下：

S主要包括各个机组出力上下限

和

电动汽车集群能量的上下限

和

电动汽车集群功率的上下限

和

以及电网负荷P_D,t。

步骤3.3：定义马尔可夫决策过程的动作空间a。在电动汽车实时调度中，主要可调度的变量包括机组出力大小p_i,t和EV集群的充电功率

因此定义系统t时刻动作空间a_t如下：

若智能体计算出的机组出力或者EV集群充电功率超过了其本身上下限的约束，则需要按照式(28)对a_t进行调整，将其限制在上下限之间，其中

表示调整后的实际动作值。

步骤3.4：定义马尔可夫决策过程的奖励函数R。奖励代表着环境对智能体行为的评分，智能体的目标就是累积奖励最大。在电动汽车实时调度中，目标函数式(1)是最小化燃料成本，结合强化学习的特点，将式(1)取相反数后加入奖励表达式中。此外，为了保证式(5)的等式约束成立，在奖励函数中加入功率不平衡惩罚项，因此t时刻奖励函数R_t的表达式如下：

R_t＝R_1t+R_2t

其中c为大于0的惩罚项系数，N_m为EV集群的数量。

作为一优选实施例，步骤4，利用基于最大熵的深度强化学习算法Soft Actor-Critic(SAC)进行求解，可以包括如下步骤：

步骤4.1：SAC是一种基于最大熵(Maximum Entropy)的离线(off-policy)强化学习算法。SAC基于Actor-Critic框架，智能体的目标是最大化累积奖励和熵(熵越大，随机事件的随机性越大)，也就是在尽可能随机的情况下完成任务，避免反复选择Q值较高的几个动作而陷入次优解，从而提高训练速度。

SAC算法的目标包括奖励和熵，具体如下：

H(π(·|s'))＝-E_a logπ(a'|s') (31)

SAC算法下V值和Q值的换算公式如下：

所述基于最大熵的强化学习算法通过使用KL散度对策略进行更新，如式(35)所示：

其中π'表示下一阶段策略，分母Z(s_t)用于使归一化；

基于上述可知，SAC的策略更新步骤如下：

(1)保持策略不变，根据Soft贝尔曼更新方程式(34)更新Q值直至收敛；

(2)根据式(35)更新策略。

步骤4.2：利用SAC对电动汽车和机组实时优化调度问题进行迭代求解，训练智能体。在假设充电功率连续可调的前提下，即在连续的动作空间和状态空间中，利用SAC算法对优化问题进行求解。SAC算法基于Actor-Critic框架，采用两个神经网络分别作为价值网络和策略网络，用于拟合Q值和策略π，并依据式(34)和(35)对神经网络参数进行更新；。其中策略网络用于输出动作的概率分布，一般由高斯分布的均值和方差表示；而价值网络用于评估动作的好坏，一般由几个全连接的神经层构成，最后输出估算的Q值。得到价值网络输出后，策略网络再根据价值网络估值对策略不断进行修改，使智能体表现越来越好。同时，由于是用一个神经网络的输出去修正另一个神经网络，容易出现难以收敛的现象。为了解决这一问题，强化学习通常构建两套结构相同、但参数更新频率不同的神经网络，促进有效学习。在训练神经网络的过程中，常采用经验回放池(reply pool)存储一定量的经验数据，在训练时从经验回放池批量随机抽取部分数据用以训练神经网络。

如图4所示，SAC算法训练智能体的具体步骤如下：

(1)初始化策略网络(φ)参数，初始化价值网络(θ₁)和目标价值网络(θ₂)的参数：

清空经验回放池(D)；

(2)获取当前环境的状态s_t，并根据策略网络φ输出的分布采样得到动作a_t；

(3)向环境输出动作a_t，并得到下一时刻的状态s_t+1和奖励

并将数据

存入经验回放池中：

(4)重复步骤(2)和(3)直到经验回放池数据量大于要求批量，从经验回放池中批量取出数据用于神经网络更新，进入步骤(5)；

(5)根据式(36)更新Q值：

(6)根据式(37)更新策略网络φ：

(7)自动调整温度参数α，当探索到新的区域时，应采取较大的温度系数使智能体探索更多的空间，当最优解将要确定时，应减小温度系数加速算法的收敛；

(8)更新价值网络(θ₁)和目标价值网络(θ₂)的参数：

其中τ为更新速率参数，τ越大，则当前实际Q值θ_i向价值网络参数

传递的速度越快。

(9)重复上述步骤(2)至(8)，直到算法收敛，形成训练好的θ₁，θ₂和φ。

作为一优选实施例，步骤5：将训练好的智能体应用于分散式电动汽车实时优化调度，可以包括如下步骤：

步骤5.1：将训练好的智能体部署在各个聚合商的充电管理平台上，充电管理平台是车辆信息和电网信息的接收端，同时也是充电控制信号的发出端，具有高效的存储计算功能。并每当有新的电动汽车接入时，充电管理平台会记录电动汽车的充电信息(离开时间，所需电量)，并将信息传输给智能体。

步骤5.2：智能体根据新接收的实时信息对EV集群的充电上下边界等状态变量进行更新，根据目标函数式(29)，并基于SAC强化学习算法输出当前时段集群的最优充电功率。根据功率再分配算法，智能体将优化后的功率分配至该集群的各辆车中，由充电管理平台下发至各个智能远控充电桩，智能远控充电桩执行充电计划。

步骤5.3：进入下一状态，重复步骤5.1和5.2，直至一个优化周期结束。

图5为本发明一实施例提供的分散式电动汽车实时优化调度系统组成模块示意图。

如图5所示，该实施例提供的分散式电动汽车实时优化调度系统，可以包括：优化调度模型模块、集群优化分配模块、决策构建模块、强化学习智能体模块和最优策略模块。其中：

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述实施例中任一项所述的方法，或，运行上述实施例中的系统。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述实施例中任一项所述的方法，或，运行上述实施例中的系统。

本发明上述实施例提供的基于强化学习的分散式电动汽车实时优化调度方法、系统、终端及介质，首先通过EV集群等效模型和优化功率再分配方法解决优化模型中变量维数过高的问题，再将该优化问题构造为一个马尔可夫决策过程，并利用强化学习算法(优选基于最大熵的深度学习算法(Soft Actor-Critic，SAC))进行求解。相比于传统大规模运筹优化，应用强化学习算法的实时优化调度无需依赖准确模型，便可在较快的速度下，计算出接近最优的电动汽车充电功率和机组出力计划。该方法充分挖掘电动汽车灵活性，实现电网经济运行，在考虑需求响应补贴的情况下还可提升聚合商和车主效益。且SAC所具备的Maximum Entropy特点使得智能体会更大限度地探索环境，不仅有利于智能体学习复杂的新任务，而且抗干扰能力强，鲁棒性更好。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种分散式电动汽车实时优化调度方法，其特征在于，包括：

2.根据权利要求1所述的分散式电动汽车实时优化调度方法，其特征在于，所述建立联合电动汽车充电和电网机组出力的实时优化调度模型，包括：

设定实时优化调度模型的约束条件为：

p_i,t-p_i,t-1≤u_i,t-1P_up,i (3)

p_i,t-1-p_i,t≤u_i,t-1P_down,i (4)

其中，式(2)是机组i发电功率p_i,t上下限约束，其中

和

设定参与调度的单辆电动汽车相关约束条件为：

其中，式(6)表示电动汽车充电能量约束,其中

低于目前最低电量下限

接近当前电量上限

3.根据权利要求2所述的分散式电动汽车实时优化调度方法，其特征在于，所述将充电结束时间相同的电动汽车划分为同一集群，建立等效的电动汽车集群能量边界模型以及优化功率再分配策略，包括：

和

分别表示集群的电量下限和上限，

和

为集群m的总充电功率；式(17)表示电动汽车充电能量约束，

为集群m的总能量；

将所述功率

其中，λ_m表示集群m的能量缓冲因子，

和

相等时，

为0；

通过式(18)和式(19)求解线性方程组，得到集群内所有

对得到的

根据式(20)进行校验，得到真实设置的充电功率

所述充电功率

4.根据权利要求3所述的分散式电动汽车实时优化调度方法，其特征在于，所述将集群电动汽车充电和电网机组出力的优化问题构造为一个马尔可夫决策过程，确定各个时刻对应的状态空间量、动作空间量和奖励，包括：

构建马尔可夫决策过程中的最大化累积奖励G_t为：

V_π(s)＝E_π[G_t|S_t＝s] (22)

Q_π(s,a)＝E_π[G_t|S_t＝s,a_t＝a] (23)

V值和Q值的贝尔曼方程如下所示：

其中，s′表示下一时刻的状态，a′表示下一时刻的动作，

表示当前在状态s和动作a下获得的奖励；

定义马尔可夫决策过程的状态空间S为：

其中，

和

分别为各个机组的出力下限和出力上限，

和

分别为集群的电量下限和电量上限，

和

定义马尔可夫决策过程的动作空间a在时刻t为a_t：

其中，p_i,t为机组出力大小，

为集群的充电功率；

机组出力大小p_i,t或者集群的充电功率

超过了其本身上下限的约束，则对a_t进行如下调整：

其中，

表示调整后的实际动作值；

定义马尔可夫决策过程的奖励函数R在时刻t为R_t：

其中，c为大于0的惩罚项系数，N_m为集群的数量。

5.根据权利要求4所述的分散式电动汽车实时优化调度方法，其特征在于，所述利用强化学习算法对所述马尔可夫决策过程进行求解，并训练得到适应实时阶段充电负荷不确定性的强化学习智能体，包括：

H(π(·|s'))＝-E_alogπ(a'|s') (31)

所述基于最大熵的深度强化学习算法通过KL散度对策略进行更新，如式(35)所示：

其中π'表示下一阶段策略，分母Z(s_t)用于使归一化；

所述基于最大熵的深度强化学习算法基于Actor-Critic框架，采用两个神经网络分别作为策略网络和价值网路，用于拟合策略π和Q值，并依据式(34)和式(35)分别对策略网络和价值网络的参数进行更新；其中，所述策略网络用于输出动作的概率分布，主要由高斯分布表示；所述价值网络用于评估动作的好坏，主要由一个或多个全连接的神经层构成，最后输出估算的Q值；得到价值网络输出后，策略网络再根据价值网络估值对策略不断进行修改，进而得到强化学习智能体；

所述策略网络和价值网络结构相同，但参数更新频率不同。

6.根据权利要求5所述的分散式电动汽车实时优化调度方法，其特征在于，所述将所述强化学习智能体应用于分散式电动汽车实时优化调度中，得到各时段每个电动汽车集群的最优充电策略，包括：

7.根据权利要求1-6中任一项所述的分散式电动汽车实时优化调度方法，其特征在于，还包括：

8.一种分散式电动汽车实时优化调度系统，其特征在于，包括：

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法，或，运行权利要求8所述的系统。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法，或，运行权利要求8所述的系统。