CN116683441A

CN116683441A - 一种面向碳排放约束的电动汽车聚合商调度优化方法

Info

Publication number: CN116683441A
Application number: CN202310700614.XA
Authority: CN
Inventors: 许银亮; 施晓颖; 陈贵斌
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-01

Abstract

本发明公开了一种面向碳排放约束的电动汽车聚合商调度优化方法，包括如下步骤：S1、根据电动汽车资源的储能特性和可延迟特性，构建电动汽车聚合模型；S2、构建配电网碳流模型，并基于配电网碳流模型计算电动汽车聚合模型的碳势和碳排放量；S3、根据所述电动汽车聚合模型和配电网碳流模型构建电动汽车聚合商与配电网协同优化双层模型；S4、通过基于增广拉格朗日方程的强化学习方法，求解所述电动汽车聚合商与配电网协同优化双层模型。本发明能保证电动汽车聚合商在满足充电需求和碳排放总量的约束下，最小化充电成本；在满足碳排放约束的前提下，实现以最小化运行成本的充电规划，同时实现配电网的优化调度，提高能源系统的资源利用效率。

Description

一种面向碳排放约束的电动汽车聚合商调度优化方法

技术领域

本发明涉及电力系统技术领域，特别是涉及一种面向碳排放约束的电动汽车聚合商调度优化方法。

背景技术

汽车尾气排放是城市最重要的污染源之一，交通系统低碳转型是非常重要的环节。近年来，新能源汽车行业发展迅速，其中电动汽车是新能源汽车的主要代表。电动汽车是否真正能降低碳排放，取决于电动汽车背后的电源结构，如果充电电源来自于煤炭发电，则电动汽车并不能真正意义上的降低碳排放。事实上，和传统燃油车相比，电动汽车有以下两个优点：首先，电动汽车可以由清洁能源供电，从而通过改变能源结构的方式来降低碳排放；其次，电动汽车具有较大的可调度潜力，可以通过有序充电参与电网调度，缓解电网压力，积极消纳碳强度较低的能源，降低电网运营成本，提高系统能源利用率。电动汽车的碳排放量既受能源结构影响，也受用户的充放电行为影响。现有技术无法利用价格信号去引导充电行为与电网的调度信号相匹配，降低电动汽车的碳排放，导致电动汽车资源利用效率较低。

发明内容

本发明的目的在于解决提高电动汽车资源利用效率的技术问题，提出一种面向碳排放约束的电动汽车聚合商调度优化方法。

本发明的技术问题通过以下的技术方案予以解决：

一种面向碳排放约束的电动汽车聚合商调度优化方法，包括如下步骤：

S1、根据电动汽车资源的储能特性和可延迟特性，构建电动汽车聚合模型；

S2、构建配电网碳流模型，并基于配电网碳流模型计算电动汽车聚合模型的碳势和碳排放量，使得电动汽车资源同时参与到电力系统的电能优化和碳排放优化过程中；

S3、根据所述电动汽车聚合模型和配电网碳流模型构建电动汽车聚合商与配电网协同优化双层模型；

S4、通过基于增广拉格朗日方程的强化学习方法，求解所述电动汽车聚合商与配电网协同优化双层模型，使得电动汽车聚合商的充电成本最小化，配电网的运行成本最小化，实现充电规划和配电网调度优化。

在一些实施例中，还包括如下技术特征：

步骤S1中，构建所述电动汽车聚合模型包括步骤S11、构建电动汽车可调度潜力模型，具体公式如下：

E_t＝E_t-1+Δt·η_EV·P_t ^EV,t_a≤t≤t_d

其中，i,j,t表示节点i，节点j和时隙t，t_a是电动汽车的到达时间，t_d是电动汽车未来的离开时间，P^EV是电动汽车功率,P^EV>0表示电动汽车正在充电，P^EV<0表示电动汽车正在放电,是电动汽车的最大充电/放电功率；/>是节点j电动汽车的最大充电/放电功率；E是电动汽车电池能量水平,E_t是t时刻电动汽车电池能量水平,/>/E是电动汽车电池能量水平上限/下限，/>/E_j,t是t时刻节点j的电动汽车电池能量水平上限/下限，/>电动汽车的最大充电/放电能量,Δt是时间间隔,η_EV是电动汽车电池充放电效率,E_de是用户期望的能量水平,E_a是到达时电动汽车的电量，E^d是离开时电动汽车的电量，SOC是电动汽车的电荷状态，SOC_min/SOC_max是电动汽车电池的最低/最高电荷状态，B是电池容量。

在一些实施例中，还包括步骤S12、构建电动汽车聚合商的灵活性可调度模型，具体公式如下：

其中，是在t时刻到达/离开充电站的车辆数，/>是在t时刻充电站的车辆数，P^CS是聚合商功率,/>是t时刻节点i的聚合商功率,P^CS>0表示聚合商充电,P^CS<0表示聚合商放电,/>是聚合商的充电/放电功率上限,/>是t时刻节点i的聚合商的充电/放电功率上限,C是电动汽车聚合商的能量,C_i,t是t时刻节点i的电动汽车聚合商的能量,/>/C是电动汽车聚合商的能量上限/下限，/>/C_i,t是t时刻节点i的电动汽车聚合商的能量上限/下限,/>是节点j离开时电动汽车的电量。

在步骤S2中，所述电动汽车聚合模型的碳势和碳排放量是通过配电网网络节点碳势和配电网网络线路碳势计算得到的，所述配电网网络节点碳势通过流入配电网网络节点的功率乘上其对应的碳势，再除以总流入功率计算得到，所述配电网网络线路碳势与其所连接的上游的配电网网络节点碳势一致，配电网的碳排放量通过将配电网网络线路碳势与相关的发电功率流相乘计算得到；当电动汽车聚合商在充电时，电动汽车聚合模型的碳势等于配电网网络节点碳势；当电动汽车聚合商在放电时，电动汽车聚合模型的碳势等于自身碳势，电动汽车聚合模型的碳排放量等于电动汽车聚合模型自身碳势乘以电动汽车聚合模型所含能量。

所述配电网网络节点碳势的计算公式为：

所述配电网网络线路碳势的公式为：

e_ij＝e_i,i∈UP_j

其中，e_j代表节点j的碳势，e_i代表节点i的碳势，e_ij表示连接节点i和节点j的线路碳势，P_ji是连接节点i和节点j的线路上的潮流，是节点j在分布式发电装置的有功发电，P_i ^G是节点i在分布式发电装置的有功发电，P_j ^CS是节点j的聚合商功率，/>是节点j新能源有功出力，P_i ^re是节点i新能源有功出力，P^DN是和主网交换功率，UP_j是节点j的上游节点集合，e^DN和/>分别是发电机、新能源、主网和电动汽车聚合商的碳势；

当电动汽车聚合商在放电时，电动汽车聚合模型的碳势的计算公式为：

电动汽车聚合模型的碳排放量的计算公式为：

其中，是t时刻位于节点i的充电站的碳容量，/>为(t-1)时刻位于节点i的聚合商功率。

步骤S4中，所述电动汽车聚合商与配电网协同优化双层模型的上层主体为电动汽车聚合商，用于对电动汽车资源进行聚合，并对电动汽车聚合模型进行灵活性评估；电动汽车聚合商对每个时间段的充放电功率进行决策，在保证满足充电需求和碳排放总量的约束下，最小化充电成本；

所述电动汽车聚合商与配电网协同优化双层模型的下层主体为配电网，配电网根据当前网络运行工况和电动汽车聚合商的充放电功率，在满足系统约束的条件下，最小化运行成本，并向电动汽车聚合商发送当前时刻的电价；电动汽车聚合商与配电网的节点之间通过充电站实现物理耦合，电动汽车聚合商在节点的充放电量能够改变节点负荷水平，从而参与配电网的调度与调节。

步骤S4中，所述电动汽车聚合商与配电网协同优化双层模型的求解过程包括如下步骤：

S41：将所述电动汽车聚合商与配电网协同优化双层模型表述为带约束的马尔科夫过程模型；

S42、利用所述基于增广拉格朗日方程的强化学习方法解决所述带约束的马尔科夫过程模型问题；

其中，所述带约束的马尔科夫过程模型由六个元组组成，即{S,A,R,R^C,Pr,γ}，其中S是状态空间，A是动作空间，R是奖励函数，R^C是成本函数，Pr是转移概率函数，γ∈(0,1)是折扣因子。

所述带约束的马尔科夫过程模型构成如下优化函数：

其中，E表示求解期望，π是策略，τ是状态和动作的序列{s₀,a₀,s₁,a₁,…,s_T-1,a_T-1,s_T}，T是总优化时刻数，t是时隙，γ^t是时隙t的折扣因子、Rt是时隙t的奖励函数、是时隙t的成本函数、/>是碳排放总量；

通过强化学习算法最大化策略的预期收益和熵，其最优策略π*更新为：:

其中H(π(·|s_t))＝-∑_aπ(a|s_t)lnπ(a|s_t)，H(π(·|s_t))是状态s_t的概率策略的熵，θ是控制熵和回报之间权衡的参数，a是动作，a_t是时隙t的动作，argmax是对函数求参数(集合)的函数；

强化学习算法的状态动作值函数Qπ(s，a)定义如下:

其中Q^π(s,a)表示从状态s开始，采取动作a，然后遵循策略π的预期收益；相应的熵正则化贝尔曼方程为：

由此得到最优策略：

所述基于增广拉格朗日方程的强化学习方法包括基于增广拉格朗日函数SAC算法，所述基于增广拉格朗日函数SAC算法是通过对带约束的马尔科夫过程模型问题中的目标函数进行改写，并写为其增广拉格朗日方程实现的，所述优化函数的增广拉格朗日函数公式为：

其中是所述优化函数的增广拉格朗日函数，λ是所述优化函数中不等式约束的拉格朗日乘数；δ_λ是更新步长λ,其充当L2范数项的惩罚系数；将λ_k表示为第k次迭代时的拉格朗日乘数，通过策略π的域最大化/>获得第k次迭代时的策略π_k；

所述基于增广拉格朗日方程的强化学习方法使用两组神经网络来参数化每个时间步骤t中的状态作用值函数Q^ψ(s_t,a_t)，利用所述熵正则化贝尔曼方程，当前状态作用值用所有可能的下一个状态的期望值和相应的策略π产生的动作来近似，即：

其中，是第一目标网络参数，更新方式为/>更新，ε是软更新率；ψ为第一训练网络参数，ψ的训练是使均方误差最小化，即：

其中，Er(ψ)、ψ是神经网络参数，通过两组神经网络来逼近惩罚值函数如下所示：

其中，是第二目标网络参数，使用较软方式/>更新的成本值函数，是第二训练网络参数，通过最小化均方误差来更新，即：

策略定义为概率分布π(·|s_t)，其重新参数化为：

其中为策略的概率参数方程，/>和/>是用神经网络逼近均值和标准差，ξ是方差，ξ_t是当前时刻的方差，⊙表示同或运算，tanh为双曲正切函数；将所述增广拉格朗日函数公式中拉格朗日函数的鞍点表示为(x*，θ*，λ*)，通过使用原始对偶方法进行替换更新；利用定义的值函数，所述增广拉格朗日函数公式的拉格朗日函数重写为：

其中，为改写后的增广拉格朗日函数，D为重播缓冲区，原始变量x、对偶变量θ和λ更新为：

其中，为梯度下降变量更新方式，δ_x,δ_θ和δ_λ是参数更新过程的步长，[]+是向非负实数的投影。

本发明还提出如下技术方案：

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法的步骤。

本发明与现有技术对比的有益效果包括：

本发明提出的面向碳排放约束的电动汽车聚合商调度优化方法通过构建电动汽车聚合商与配电网协同优化双层模型，并基于增广拉格朗日方程的强化学习方法对双层模型进行求解，既保证电动汽车聚合商在满足充电需求和碳排放总量的约束下，最小化充电成本，又保证电动汽车聚合商在满足碳排放约束的前提下，实现以最小化运行成本的充电规划，同时实现配电网的优化调度，提高能源系统的资源利用效率。

在一些实施例中，本发明还具有如下有益效果：

本发明实施例通过构建电动汽车聚合碳模型，具有能处理碳与电之间非线性关系能力，并严格遵守碳排放约束的优点，分别描述了电动汽车在充电和放电两个状态下的碳强度变化，能够将电动汽车资源的灵活性应用场景从电能优化扩展到碳排放优化。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1是本发明实施例中电动汽车聚合商调度优化方法的流程图；

图2是本发明实施例中双层模型的流程图；

图3是本发明另一个实施例中电动汽车聚合商调度优化方法的流程图；

图4是本发明实施例中电力系统使用两组碳约束的优化调度示意图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

电动汽车的碳排放量既受能源结构影响，也受用户的充放电行为影响。如何利用价格信号去引导充电行为与电网的调度信号相匹配，同时降低电动汽车的碳排放，主要存在两个挑战：第一，电动汽车数量众多，直接参与电网调度会极大的提升电网调度复杂度和通讯成本；单个电动汽车容量较小，不能参与电力市场调度；第二，碳和电之间存在着非线性耦合，要先计算电力潮流，才能得出碳流分布，这导致以碳排放量为目标函数时，无法直接搭建凸优化数学模型，为问题求解带来一定阻碍。

首先，单个电动汽车容量较小，需要构建基于电动汽车集群的聚合商模型，达到参与市场调度的容量门槛，其次，电动汽车聚合商可以充放电，对应着碳吸收和碳排放，需要利用电动汽车聚合商的灵活性满足碳排放量约束，最后，电碳之间的非线性耦合导致优化模型求解困难，需要采用强化学习的方法求解日前带有碳排放约束的非凸优化问题。

电动汽车聚合商作为配电网的一个参与者(元件)，其碳流模型是配电网碳流模型计算中的一环。电动汽车碳流模型计算电动汽车聚合商的碳势。在电网调度中，如果聚合商放电，则聚合商可视为发电机，其向电网释放的碳由其碳势及放电量决定，如果聚合商充电，则其从电网吸收碳，吸收量等于电动汽车聚合商所在节点的碳势(即配网节点碳势)和充电量的乘积。

电动汽车聚合商可以看做一个“碳池”，可以从电网中吸收/释放碳，碳的量取决于碳势：放电时由自己决定，充电时由电网决定，及放电/充电量。

当前还没有落地的电动汽车聚合技术，实际中是单个电动汽车充电。单个电动车充电或参与电网调度有以下缺点：

单个电动车的不确定性很大，并不能保证该辆车一定会在预测时间到达充电站充电。

单个电动车的电池容量较小，低于电力市场的最低容量要求。

充电站直接调控单个电动汽车，会造成较大的通讯成本与计算成本。

与此相较，电动汽车聚合模型，首先是淡化了电动汽车的不确定性，预测群体行为比起预测单辆车的行为要更为准确；其次电动汽车聚合模型的容量较大，能够达到电力市场的入市标准；最后，直接调度电动汽车聚合模型而不是调度大量电动车，能够节省通讯成本与计算成本。

本发明一些实施例通过求解双层模型，得到使得电动汽车聚合商最小化成本的充电规划功率(聚合商功率P^CS)，以及使得配电网运行成本最低的各个发电机出力(分布式发电装置的有功发电P^G、分布式发电装置的有功出力P^re)及从主网购买的电量(和主网交换功率P^DN)，使得电动汽车聚合商的充电成本最小化，配电网的运行成本最小化，从而实现充电规划和配电网调度优化。

本发明实施例提供一种面向碳排放约束的电动汽车聚合商调度优化方法，如图1所示，包括如下步骤：

S1、根据电动汽车资源的储能特性和可延迟特性，构建电动汽车聚合模型；其中，构建所述电动汽车聚合模型包括如下步骤：

S11、构建电动汽车可调度潜力模型；

S12、构建电动汽车聚合商的灵活性可调度模型。

S2、构建配电网碳流模型，并基于配电网碳流模型计算电动汽车聚合模型的碳势和碳排放量，使得电动汽车资源同时参与到电力系统的电能优化和碳排放优化过程中；所述电动汽车聚合模型的碳势和碳排放量是通过配电网网络节点碳势和配电网网络线路碳势计算得到的，所述配电网网络节点碳势通过流入配电网网络节点的功率乘上其对应的碳势，再除以总流入功率计算得到，所述配电网网络线路碳势与其所连接的上游的配电网网络节点碳势一致，配电网的碳排放量通过将配电网网络线路碳势与相关的发电功率流相乘计算得到；当电动汽车聚合商在充电时，电动汽车聚合模型的碳势等于配电网网络节点碳势；当电动汽车聚合商在放电时，电动汽车聚合模型的碳势等于自身碳势，电动汽车聚合模型的碳排放量等于电动汽车聚合模型自身碳势乘以电动汽车聚合模型所含能量。

S3、根据所述电动汽车聚合模型和配电网碳流模型构建电动汽车聚合商与配电网协同优化双层模型。

所述电动汽车聚合商与配电网协同优化双层模型的求解过程包括如下步骤：

S42、利用所述基于增广拉格朗日方程的强化学习方法解决所述带约束的马尔科夫过程模型问题。

所述基于增广拉格朗日方程的强化学习方法包括基于增广拉格朗日函数SAC算法，所述基于增广拉格朗日函数SAC算法是通过对带约束的马尔科夫过程模型问题中的目标函数进行改写，并写为其增广拉格朗日方程实现的。

本发明实施例方法提出了一种基于安全强化学习算法的面向碳排放目标的电动汽车聚合商调度优化方法。首先，本发明实施例充分利用目前交通系统中已经大量存在的电动汽车资源，利用其储能特性和可延迟特性，建立电动汽车聚合可调度潜力模型。其次，根据碳流分布模型，提出了电动汽车聚合模型的碳势计算和碳排放计算方法，使得电动汽车资源可以同时参与到电力系统的电能优化和碳排放优化过程中，对于释放电动汽车资源灵活性，延缓电网投资，降低电力系统碳排放，提高资源利用效率有重要作用。最后，在电动汽车聚合商和配电网之间搭建双层模型，考虑到电和碳两个物理量之间的非线性耦合在双层模型中引入非凸性，本发明实施例提出了一种基于增广拉格朗日方程的强化学习算法来求解带约束的马尔科夫决策过程，能够保证在上层模型中的电动汽车聚合商在满足碳排放约束的前提下，实现以最小化运行成本的充电规划。同时在下层实现配电网日前优化调度，提高能源系统的资源利用效率。在未来，对实现有大量电动汽车资源渗透下的电力系统的高效，低碳，安全经济运行有很高的实用价值。

双层模型构架具体介绍如下：

如图2所示，上层主体为电动汽车聚合商，负责对电动汽车资源进行聚合，并对电动汽车的聚合模型进行灵活性评估。电动汽车聚合商对每个时间段的充放电功率进行决策，在保证满足充电需求和碳排放总量的约束下，最小化充电成本。下层主体为配电网，配电网根据当前网络运行工况和电动汽车聚合商的充放电功率，在满足系统约束的条件下，最小化运行成本，并向电动汽车聚合商发送当前时刻的电价。电动汽车聚合商与配电网的节点之间通过充电站实现物理耦合，电动汽车聚合商在节点的充放电量可以改变节点负荷水平，从而参与配电网的调度与调节。

如图3所示，双层模型构架的公式计算具体如下：

1、电动汽车聚合模型具体构建步骤如下：

1.1建立电动汽车模型，如下：

E_t＝E_t-1+Δt·η_EV·P_t ^EV,t_a≤t≤t_d (2)

其中，i,j,t表示节点i，节点j和时隙t，t_a是电动汽车的到达时间，t_d是电动汽车未来的离开时间，P^EV是电动汽车功率,P^EV>0表示电动汽车正在充电，P^EV<0表示电动汽车正在放电,是电动汽车的最大充电/放电功率；/>是节点j电动汽车的最大充电/放电功率；E是电动汽车电池能量水平,E_t是t时刻电动汽车电池能量水平,/>/E是电动汽车电池能量水平上限/下限，/>/E_j,t是t时刻位于节点j的电动汽车电池能量水平上限/下限，电动汽车的最大充电/放电能量,Δt是时间间隔,η_EV是电动汽车电池充放电效率,E_de是用户期望的能量水平,E_a是到达时电动汽车的电量，E^d是离开时电动汽车的电量，SOC是电动汽车的电荷状态(state ofcharge)，SOC_min/SOC_max是电动汽车电池的最低/最高电荷状态，B是电池容量。公式(1)是充放电功率约束，公式(2)描述电池能量变换，公式(3)约束电池能量，且要求用户充电需求被满足，公式(4)是电动汽车能量上限，公式(5)是电动汽车能量下限，公式(6)计算电动汽车最大充放电量。公式(1)-(6)描述了电动汽车可调度潜力模型。

1.2电动汽车聚合商建立电动汽车资源聚类聚合模型，如下：

其中，是在t时刻到达/离开充电站的车辆数，/>是在t时刻充电站的车辆数，P^CS是聚合商功率,/>是t时刻位于节点i的聚合商功率,P^CS>0表示聚合商充电,P^CS<0表示聚合商放电,/>是聚合商的充电/放电功率上限,/>是t时刻位于节点i的聚合商的充电/放电功率上限,C是电动汽车聚合商的能量,C_i,t是t时刻位于节点i的电动汽车聚合商的能量,/>/C是电动汽车聚合商的能量上限/下限，/>/C _i,t是t时刻位于节点i的电动汽车聚合商的能量上限/下限,/>是节点j离开时电动汽车的电量。公式(7)-(12)描述了电动汽车聚合商的灵活性可调度模型。公式(7)约束了电动汽车聚合商的功率,公式(8)计算了充放电功率的上下限；公式(9)约束电动汽车聚合商的能量,(10)和(11)分别计算了电动汽车聚合商能量上下限，公式(12)描述了电动汽车聚合商能量变化过程。

2、电动汽车碳流模型构建：

配电网节点节点有功平衡方程如下：

其中P_i ^G是节点i在DG(DistributedGeneration，分布式发电装置)的有功发电，P_i ^CS是节点i的聚合商功率，P_i是节点i注入的有功功率,P^re是节点i新能源有功出力,P_i ^L是节点i有功负荷,P^DN是和主网交换功率，设置在节点1。

有功潮流线性模型如下:

其中L_ij是连接节点i与节点j的线路，Vi和θ_i是节点i的电压和相角,V_j和θ_j是节点j的电压和相角,P_ij是连接节点i和节点j的线路上的潮流,r_ij/x_ij是连接节点i和节点j的线路的电阻/电抗。

流过节点j的潮流等于注入该节点的潮流，由此可得：

其中P_j是节点j注入的有功功率，UP_j是节点j的上游节点集合，是节点j在DG的有功发电，/>是节点j的聚合商功率，/>是节点j新能源有功出力，/>是节点j的聚合商功率。

碳排放流模型中，碳流的方向与功率流相同，因此可以通过功率流分布和节点碳势推断分支碳势；而碳流速率可以通过将分支碳势与相关的功率流相乘来计算。因此，节点碳势等于所有注入功率流的碳强度加权平均值，如下所示：

其中，e_j代表节点j的碳势，e_i代表节点i的碳势，e_ij表示连接节点i和节点j的线路碳势，P_ji是连接节点i和节点j的线路上的潮流，是节点j在分布式发电装置的有功发电，P_i ^G是节点i在分布式发电装置的有功发电，/>是节点j的聚合商功率，/>是节点j新能源有功出力，P_i ^re是节点i新能源有功出力，P^DN是和主网交换功率，UP_j是节点j的上游节点集合，/>e^DN和/>分别是发电机、新能源、主网和电动汽车聚合商的碳势。

电动汽车聚合商在充电过程中是用电负荷，而在放电过程中充当电源。电动汽车聚合器的角色转换也会影响其在碳排放模型中的特性。电动汽车聚合器在充电过程中积累电力和碳，它与本地节点有相同的碳势而在放电过程中将电力和碳排放到配电网中，这基于其自身的碳势影响本地节点碳势。电动汽车聚合商碳势计算如下：

其中，是t时刻位于节点i的充电站的碳容量，/>为(t-1)时刻位于节点i的聚合商功率。公式(18)和(19)描述了电动汽车聚合碳模型。

3、上层优化问题：

目标函数：

其中N_P是电网的节点集，是充放电服务的价格，由下层DSO发送给电动汽车聚合商，ρ^C为碳价，第一部分是充放电成本，第二部分是碳排放成本。碳排放约束如下：

其中J^C是碳排放总量，T是总优化时刻数。

4、下层模型具体实施步骤如下：

目标函数：

其中C^G是发电机的成本函数，C^W是日前市场的成本函数，C^C是配电网管理员(distribution system operator DSO)的碳成本。其中，i,t表示节点i和时隙t；P^G表示DG的有功发电；α和β是成本参数，N_P是电网的节点集，ρ_t ^W是批发市场能源价格；P^DN是与批发市场交换的电力。

系统约束：

其中，Q_i是节点i的注入无功，Q_i ^G是位于节点i的新能源发电出力，P^L _i与Q^L _i是节点i的有功传统负荷与无功传统负荷；公式(26)表示节点无功平衡方程。有无功潮流线性模型如下:

其中V_i和θ_i是节点i的电压幅值与相角,L_ij是连接节点i与节点j的线路，L是电力线路的集合，P_ij/Q_ij是线路L_ij上的有功潮流和无功潮流，r_ij和x_ij是线路L_ij电阻与电抗。

其中公式(28)表示节点电压约束，公式(29)表示线路潮流的约束，公式(30)表示发电机的无功出力的约束，公式(31)是新能源出力约束。配电网的最优调度问题的决策变量为其中/>是约束公式(13)的拉格朗日乘子。

5、基于增广拉格朗日函数的强化学习求解方法

本发明实施例提供augmented lagrangian based soft actor critic(ALSAC)(基于增广拉格朗日函数的强化学习求解方法)算法来解决上述双层模型，目标是最小化电动汽车聚合商的充电成本和碳排放成本。如图2所示，在本框架中，电动汽车聚合商被视为智能体，提供充放电规划并发送给DSO，DSO出清日前市场后获得节点编辑电价并发送给电动汽车聚合商，随后电动汽车聚合商计算其运营成本。该双层模型的求解过程主要分为两个步骤：首先，将所提出的模型表述为带约束的马尔科夫过程模型(CMDP，Constrained·Markov Decision Process)；其次，利用所提出的ALSAC算法解决了CMDP问题。

具体如下：

电动汽车聚合器的充电调度问题与顺序决策问题具有相同的模式，可以将其建模为CMDP。该框架的CMDP由六个元组组成，即{S,A,R,R^C,Pr,γ}，其中S是状态空间，A是动作空间，R是奖励函数，R^C是成本函数，转移概率函数Pr和折扣因子γ∈(0,1)。

CMDP构成如下：

状态s_t:环境状态是生成动作的控制策略的输入。本发明实施例中CMDP的状态包含电动汽车聚合商的总成本(C^CS)、电动汽车聚合商碳排放(CarbonC^CS)、DSO成本(C^DSO)：s_t＝(C^CS,CarbonC^CS,C^DSO,t)。

动作a_t：电动汽车聚合商的动作是每个时刻的充放电规划：i∈N_P

状态转移：给定状态s_t和动作a_t，将获得下一个系统状态s_t+1，概率p如下：p(s_t,s_t+1)＝Pr(s_t+1|s_t,a_t)

奖励：奖励函数R被定义为电动汽车聚合商的负总成本R(s_t,a_t,s_t)＝-C^CS

惩罚：惩罚函数R^C被定义为电动汽车聚合商的碳排放量

CMDP构成如下优化函数：

其中，E表示求解期望，π是策略，τ是状态和动作的序列{s₀,a₀,s₁,a₁,…,s_T-1,a_T-1,s_T}，T是总优化时刻数，γ^t是t时刻的折扣因子、Rt是t时刻的奖励函数、是t时刻的成本函数、/>是碳排放总量。

SAC(soft actor critic，一种强化学习算法)最大化了策略的预期收益和熵，其最优策略π*更新为：

其中H(π(·|s_t))＝-∑_aπ(a|s_t)lnπ(a|s_t)，H(π(·|s_t))是状态s_t的概率策略的熵，θ是控制熵和回报之间权衡的参数，a是动作，a_t是t时刻的动作，argmax是对函数求参数(集合)的函数。

SAC的状态动作值函数Qπ(s，a)定义如下:

其中Q^π(s,a)表示从状态s开始，采取动作a，然后遵循策略π的预期收益。相应的熵正则化Bellman(贝尔曼)方程为：

由此可得最优策略：

由公式(32)，本发明实施例所提出的ALSAC方法如下：

对CMDP问题中的目标函数进行改写，写为其增广拉格朗日方程，以实现基于增广拉格朗日函数SAC算法。

其中是(32)的增广拉格朗日函数，λ是公式(32)中不等式约束的拉格朗日乘数，公式(37)是公式(32)的增广拉格朗日函数。δ_λ是更新步长λ,其充当L2范数项的惩罚系数。将λ_k表示为第k次迭代时的拉格朗日乘数，通过策略π的域最大化/>可以获得第k次迭代时的策略π_k。

在本发明实施例提出的方法中使用了两组神经网络来参数化每个时间步骤t中的状态作用值函数Q^ψ(s_t,a_t)，利用公式(35)中的贝尔曼方程，当前状态作用值可以用所有可能的下一个状态的期望值和相应的策略π产生的动作来近似，即：

其中，是目标网络参数，更新方式为/>更新，ε是软更新率。ψ为训练网络参数，ψ的训练是使均方误差(MSE)最小化，即：

其中，是目标网络参数，使用较软方式/>更新的成本值函数的，/>是训练网络的参数可以通过最小化MSE来更新：

策略定义为概率分布π(·|s_t)，其重新参数化为：

其中，为策略的概率参数方程，/>和/>是用神经网络逼近均值和标准差，ξ是方差，ξ_t是当前时刻的方差，⊙表示同或运算，tanh为双曲正切函数。

将公式(37)中拉格朗日函数的鞍点表示为(x*，θ*，λ*)，可以通过使用原始对偶方法进行替换更新。利用定义的值函数，公式(37)中的拉格朗日函数可以重写为：

其中，为改写后的增广拉格朗日函数，D为重播缓冲区(replaybuffer)，原始变量x、对偶变量θ和λ更新为：

/>

本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法的步骤。

实施例

在本发明实施例中，通过对IEEE 33节点配电网进行案例研究，对本发明实施例方法进行了评估。实施例研究是在Python 3.8.3环境中在笔记本电脑上进行的，笔记本电脑装置为Intel Core i9-12900H CPU@2.50GHz和32GB RAM。本发明实施例提出的ALSAC算法的参数设置如表1所示。

表1

为了说明本发明实施例方法的有效性和优越性，在仿真测试中建立了两种比较算法，即soft actor critic(SAC)算法和deep deterministic policy gradient(DDPG)算法(深度确定性策略梯度算法)。这两种方法属于用于解决马尔科夫决策过程的深度强化学习算法，在这两种方法的奖励函数中添加了碳排放违规的惩罚项，如下所示：

其中惩罚系数被设置为M＝$100，以使公式(45)中的两个项共享相同的数量级。

对于SAC，DDPG的参数设置与ALSAC算法相同的参数。基于训练性能对神经网络的参数进行微调。其他参数如隐藏层的大小、批量大小、折扣因子和学习率，与本发明所提方法相同。为了证明本发明实施例方法在二氧化碳减排方面的有效性和优越性，将基准案例设置为：

基准情况：基准情况是充电负载不参与电网最优调度，即电动汽车一到达充电站就开始充电，因此电动汽车聚合器没有灵活性。因此，不设置碳约束。

如图4所示，Power system(电力系统)所采用的33节点配电网络由四个电动汽车聚合商组成，分别连接到9、19、24和31节点。一个分布式发电机位于节点6，两个太阳能发电分别位于节点26和29，两个风力发电分别位于节点11和14。在这种情况下使用两组碳约束，即20吨二氧化碳和21吨二氧化碳。四个电动汽车聚合商的初始碳强度分别为0.3、0.6、0.5和0.7。

两个碳约束下的最优调度结果分别如表2和表3所示。其中，表2为碳排放上限为20吨的优化结果，表3碳排放上限为21吨的优化结果。如表2所示，本发明实施例所提方法的电动汽车聚合商运营总成本为4698.80美元，分别比SAC方法和DDPG方法高5.25％和8.07％。然而，当使用其他两种方法时，本发明所提方法能严格满足碳排放约束，而SAC与DDPG违反了排放上限。所提出的方法的碳排放量为19.21吨二氧化碳，分别低于SAC方法的20.52吨二氧化碳和DDPG方法的20.76吨二氧化碳。表3中碳排放上限为21吨的优化结果遵循类似的模式：本发明实施例方法的电动汽车聚合商运营总成本为4853.59，分别比SAC方法和DDPG方法高1.86％和10.21％；本发明实施例方法的碳排放量为19.75吨二氧化碳，分别低于SAC方法的21.54吨二氧化碳和DDPG方法的21.60吨二氧化碳。

表2

表3

表4展示了碳排放上限为20吨下四种方法的排放比较，即本发明实施例方法、SAC方法、DDPG方法和基准。可以观察到，尽管SAC方法和DDPG方法没有明确的排放约束，但这两种方法的排放量都比基准低7.53％和6.44％，而与基准相比，具有碳上限约束的本发明所提可以实现13.43％的减排。在二氧化碳的上限为21吨的情况的结果可以在表5中观察到。因此，通过对排放施加约束，本发明所提可以通过电动汽车聚合商实现更好的减排性能。

表4

表5

本发明实施例具有如下创新点：

本发明实施例的目的是利用大量电动汽车资源灵活性降低电动汽车的碳排放，提出了一种基于增广拉格朗日方程的安全强化学习方法，构建了电动汽车聚合碳模型，具有能处理碳与电之间非线性关系能力，并严格遵守碳排放约束的优点。

本发明实施例解决了如下现有技术的难题：

1、现有方法中，对电动汽车资源灵活性的研究大多集中在其充电需求的可延后性，未考虑电动汽车在放电和碳排放方面的灵活性。本发明实施例构建了电动汽车聚合的碳模型，分别描述了电动汽车在充电和放电两个状态下的碳强度变化，能够将电动汽车资源的灵活性应用场景从电能优化扩展到碳排放优化。

2、现有的研究方法中，降低碳排放的方法多为在发电侧增加碳排放成本，通过降低发电量的方式来降低碳排放。本发明实施例构建了电动汽车和电网交互的双层模型，以价格作为激励信号调节电动汽车的充放电行为，并使用碳限额约束来限制电动汽车碳排放。

3、碳和电之间的非线性耦合会使得相关优化问题具有非凸性而难以求解，本发明实施例提出了一种基于增广拉格朗日方程的安全强化学习算法，在能求解非线性模型的前提下可以满足碳排放约束。

本发明实施例与现有技术相比具有如下优势：

本发明实施例可以充分发掘海量电动汽车资源在电能调度与碳排放的灵活性潜力，有效提高电动汽车资源优化调度效率，能够有效处理存在碳和电之间的非线性耦合的双层优化问题，在限额电动汽车碳排放的条件下实现最小化充电成本，同时能满足电动汽车用户对充电量和充电时间的要求。

本发明实施例具体应用场景包括：本发明实施例将充电站内的电动汽车资源进行聚合并进行灵活性评估，并参与电网的日前调度，为电网提供灵活性同时降低电动汽车碳排放。每个充电站只需计算其聚合模型，其充放电策略就可以由本发明所提出的基于拉格朗日方程的强化学习方法获得，同时满足电动汽车碳限额约束。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式作出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种面向碳排放约束的电动汽车聚合商调度优化方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，步骤S1中，构建所述电动汽车聚合模型包括步骤S11、构建电动汽车可调度潜力模型，具体公式如下：

其中，i,j,t表示节点i，节点j和时隙t，t_a是电动汽车的到达时间，t_d是电动汽车未来的离开时间，P^EV是电动汽车功率,P^EV>0表示电动汽车正在充电，P^EV<0表示电动汽车正在放电,是电动汽车的最大充电/放电功率；/>是节点j电动汽车的最大充电/放电功率；E是电动汽车电池能量水平,E_t是t时刻电动汽车电池能量水平,/>是电动汽车电池能量水平上限/下限，/>是t时刻位于节点j的电动汽车电池能量水平上限/下限，电动汽车的最大充电/放电能量,Δt是时间间隔,η_EV是电动汽车电池充放电效率,E_de是用户期望的能量水平,E_a是到达时电动汽车的电量，E^d是离开时电动汽车的电量，SOC是电动汽车的电荷状态，SOC_min/SOC_max是电动汽车电池的最低/最高电荷状态，B是电池容量。

3.如权利要求2所述的方法，其特征在于，还包括步骤S12、构建电动汽车聚合商的灵活性可调度模型，具体公式如下：

其中，是在t时刻到达/离开充电站的车辆数，/>是在t时刻充电站的车辆数，P^CS是聚合商功率,/>是t时刻位于节点i的聚合商功率,P^CS>0表示聚合商充电,P^CS<0表示聚合商放电,/>是聚合商的充电/放电功率上限,/>是t时刻位于节点i的聚合商的充电/放电功率上限,C是电动汽车聚合商的能量,C_i,t是t时刻位于节点i的电动汽车聚合商的能量,/>是电动汽车聚合商的能量上限/下限，/>是t时刻位于节点i的电动汽车聚合商的能量上限/下限,/>是节点j离开时电动汽车的电量。

4.如权利要求1所述的方法，其特征在于，在步骤S2中，所述电动汽车聚合模型的碳势和碳排放量是通过构建电动汽车聚合碳模型，计算配电网网络节点碳势和配电网网络线路碳势得到的，所述配电网网络节点碳势通过流入配电网网络节点的功率乘上其对应的碳势，再除以总流入功率计算得到，所述配电网网络线路碳势与其所连接的上游的配电网网络节点碳势一致，配电网的碳排放量通过将配电网网络线路碳势与相关的发电功率流相乘计算得到；当电动汽车聚合商在充电时，电动汽车聚合模型的碳势等于配电网网络节点碳势；当电动汽车聚合商在放电时，电动汽车聚合模型的碳势等于自身碳势，电动汽车聚合模型的碳排放量等于电动汽车聚合模型自身碳势乘以电动汽车聚合模型所含能量。

5.如权利要求4所述的方法，其特征在于，所述配电网网络节点碳势的计算公式为：

所述配电网网络线路碳势的公式为：

e_ij＝e_i,i∈UP_j

其中，e_j代表节点j的碳势，e_i代表节点i的碳势，e_ij表示连接节点i和节点j的线路碳势，P_ji是连接节点i和节点j的线路上的潮流，是节点j在分布式发电装置的有功发电，P_i ^G是节点i在分布式发电装置的有功发电，/>是节点j的聚合商功率，/>是节点j新能源有功出力，P_i ^re是节点i新能源有功出力，P^DN是和主网交换功率，UP_j是节点j的上游节点集合，和/>分别是发电机、新能源、主网和电动汽车聚合商的碳势；

电动汽车聚合模型的碳排放量的计算公式为：

6.如权利要求1所述的方法，其特征在于，步骤S4中，所述电动汽车聚合商与配电网协同优化双层模型的上层主体为电动汽车聚合商，用于对电动汽车资源进行聚合，并对电动汽车聚合模型进行灵活性评估；电动汽车聚合商对每个时间段的充放电功率进行决策，在保证满足充电需求和碳排放总量的约束下，最小化充电成本；

7.如权利要求1所述的方法，其特征在于，步骤S4中，所述电动汽车聚合商与配电网协同优化双层模型的求解过程包括如下步骤：

其中，所述带约束的马尔科夫过程模型由六个元组组成，即{S,A,R,RC,Pr,γ}，其中S是状态空间，A是动作空间，R是奖励函数，RC是成本函数，Pr是转移概率函数，γ∈(0,1)是折扣因子。

8.如权利要求7所述的方法，其特征在于，所述带约束的马尔科夫过程模型构成如下优化函数：

其中，E表示求解期望，π是策略，τ是状态和动作的序列{s₀,a₀,s₁,a₁,…,s_T-1,a_T-1,s_T}，T是总优化时刻数，γ^t是t时刻的折扣因子、Rt是t时刻的奖励函数、是t时刻的成本函数、是碳排放总量；

通过强化学习算法最大化策略的预期收益和熵，其最优策略π*更新为：

其中H(π(·|s_t))＝-Σ_aπ(a|s_t)lnπ(a|s_t)，H(π(·|s_t))是状态s_t的概率策略的熵，θ是控制熵和回报之间权衡的参数，a是动作，a_t是t时刻的动作，argmax是对函数求参数的函数；

强化学习算法的状态动作值函数Qπ(s，a)定义如下:

由此得到最优策略：

9.如权利要求8所述的方法，其特征在于，所述基于增广拉格朗日方程的强化学习方法包括基于增广拉格朗日函数SAC算法，所述基于增广拉格朗日函数SAC算法是通过对带约束的马尔科夫过程模型问题中的目标函数进行改写，并写为其增广拉格朗日方程实现的，所述优化函数的增广拉格朗日函数公式为：

其中，是第二目标网络参数，使用较软方式/>更新的成本值函数，/>是第二训练网络参数，通过最小化均方误差来更新，即：

策略定义为概率分布π(·|s_t)，其重新参数化为：

a_θ(s_t,ξ_t)＝tanh(μ_θ(s_t)+σ_θ(s_t)⊙ξ_t),ξ～N(0,1)

其中，为策略的概率参数方程，/>和/>是用神经网络逼近均值和标准差，ξ是方差，ξ_t是当前时刻的方差，⊙表示同或运算，tanh为双曲正切函数；

将所述增广拉格朗日函数公式中拉格朗日函数的鞍点表示为(x*，θ*，λ*)，通过使用原始对偶方法进行替换更新；利用定义的值函数，所述增广拉格朗日函数公式的拉格朗日函数重写为：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9任一项所述的方法的步骤。