CN115879637A

CN115879637A - 基于多智能体深度强化学习的车-站-网互动决策方法

Info

Publication number: CN115879637A
Application number: CN202211702610.7A
Authority: CN
Inventors: 张剑; 席燕军; 王强; 吉杨; 张旭泽; 孟凡杰; 匙航; 杨景禄
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Chengnan Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Chengnan Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-03-31

Abstract

本发明涉及基于多智能体深度强化学习的车‑站‑网互动决策方法，通过采集充电站数据以及用户新能源汽车的数据；构建分布式部分可观测马尔科夫决策模型，并在分布式部分可观测马尔科夫决策模型中设置以用户用能成本、充电站峰谷差造成的惩罚和约束条件不满足造成的惩罚之和作为目标函数；使用多智能体强化学习BiCNet算法构建的分布式部分可观测马尔科夫决策模型进行集中训练和分布式执行，得到实际决策方法。本发明能够有效地使实现电动汽车充电与可再生能源的匹配，最大化的减少了负荷用电高峰，降低了充电站负荷峰谷差。

Description

基于多智能体深度强化学习的车-站-网互动决策方法

技术领域

本发明属于电动汽车充电技术领域，尤其是基于多智能体深度强化学习的车-站-网互动决策方法。

背景技术

电动汽车数量与日俱增，截至2022年6月底，全国新能源汽车保有量达1001万辆，然而目前电动汽车充电引导控制策略尚未完备，对用户充电行为缺乏科学有效的引导控制，出现了个别充电站内用户等待时间过长，用户体验较差等一系列问题，甚至引发了配电网局部过载和一定程度的交通拥堵。电动汽车充电过程涉及到“车-站-网”多主体耦合，给充电负荷的有效管理控制增加了难度。

此外，城市大规模电动汽车充电负荷跟随用户的出行行为规律，随着集约型城市的发展和建设，电动汽车随着人群在住宅区和工商业区间进行流动，与人群流动具有高度的一致性。通过研究城市电力负荷曲线发现，人群的出行规律使充电负载峰值与谷值之间的差异增加了14％，车辆与人随影而行，间接增大了对配电网负载均衡的压力。

但若电动汽车能够和充电站、配电网进行友好互动，一方面可通过调整电动汽车的充放电时标进行有序充电调度，通过电动汽车有序充放电等手段将用电高峰时段的部分负荷转移到用电低谷时段，减少高峰用电期的主网电能消耗；另一方面，可以引导电动汽车充电和数据中心负荷与可再生能源出力一致，促进强间歇性的可再生能源消纳，充分利用绿色可再生能源，克服可再生能源和电动汽车负荷的“双随机性”。不仅电动汽车用户可以获得更低的充电成本，充电站和配电网也能减缓更多设备投入。但是目前尚未出现能够将电动汽车和充电站、配电网进行友好互动相结合的方法。

发明内容

本发明的目的在于克服现有技术的不足，提出基于多智能体深度强化学习的车-站-网互动决策方法，能够适应于各场景下新能源电动汽车在充电站的有序充电决策，降低用户的充电费用和充电站的负荷峰谷差。

本发明解决其技术问题是采取以下技术方案实现的：

基于多智能体深度强化学习的车-站-网互动决策方法，包括以下步骤：

步骤1、采集充电站数据以及用户新能源汽车的数据；

步骤2、根据步骤1采集的数据，构建分布式部分可观测马尔科夫决策模型；

步骤3、使用多智能体强化学习BICNET算法对步骤2构建的分布式部分可观测马尔科夫决策模型进行集中训练和分布式执行，得到实际决策方法。

而且，所述充电站数据包括：充电站的运行情况、充电站内分布式发电有功功率和充电桩整体负荷；

用户新能源汽车的数据包括：充电桩所连用户新能源汽车荷电状态、用户新能源汽车离开时间和用户新能源汽车充放电动作。

而且，所述步骤2构建的分布式部分可观测马尔科夫决策模型为：

其中，S为全局状态，具体包括配电网潮流数据和电动汽车负荷Lc，

表示新能源汽车负荷的集合，S是一组全局状态，包括配电网负荷功率的集合L，分布式发电产生的有功功率集合P，配电网内无功功率集合Q，各节点电压集合V以及所处的调度时段t，因此其状态表示为

S＝{Lc,L,P,Q,V,t}

其中，L＝{(p^L，q^L)}表示配电网有功和无功负荷的集合，P＝{(P_w，P_v)}表示配网内总的风能和光伏有功功率出力的集合，Q＝{q^u}为配电网无功出力的集合，V＝{(v，θ)}表示电压的幅值和相角；

为用户新能源汽车充放电动作，/>

为充电站i内充电桩1上的用户新能源汽车以额定功率充电，/>

为充电站i中充电桩x上的新能源汽车在等待充电，为每个充电站i设置一个智能体，智能体O^i, _t为单个智能体i)在时刻t观测到的充电站的状态信息，O_i包括充电站内的分布式风力发电有功功率/>

和光伏发电功率/>

充电桩整体负荷/>

充电桩所连用户新能源汽车荷电状态/>

以及用户新能源汽车离开时间

N为充电站内所拥有的用户新能源汽车车辆总数，其中，R_i为目标函数，目标函数为用户用能成本、充电站峰谷差造成的惩罚和约束条件不满足造成的惩罚之和：

R＝ω₁f₁+ω₂f₂

其中，f₁为用户侧目标函数，f₂为配电网的优化目标，ω₁和ω₂为优化目标的权重，ω₁＝ω₂＝0.5。

而且，所述用户侧目标函数f₁为：

其中，S_j为时段j充电站充电电价，P_c,t为园区内时刻t用户新能源汽车总充电功率，Δt为控制时段，Δt＝15min因此一天共分为96个控制时刻，X为充电站内充电桩的总数量，P_c,x为时段t内充电桩x所连用户新能源汽车的充电功率，同时电动汽车优化调度需要满足用户需求及电力系统物理约束。

而且，所述用户需求及电力系统物理约束包括：充电量约束、充电功率约束和充放电时刻约束；其中充电量约束条件为：

其中，T_c,x、T_d,x分别为充电桩x上所连用户新能源汽车的充电时长和放电时长；SOC_min,x和SOC_max,x分别为用户新能源汽车电池可用的最小、最大荷电状态，α为用户新能源汽车充放电效率，Q_x为用户新能源汽车的电池容量，W为用户新能源汽车的日行驶平均能耗，P_d,x(t)为第x充电桩上的新能源汽车放电功率，P_c,x(t)为第x充电桩上的新能源汽车放电功率，为减少用户新能源汽车电池损耗，当新能源汽车荷电状态SOC_x<20％时，新能源汽车只能进行充电和填谷，当SOC_x>90％时，新能源汽车为了防止过充不得再进行充电：

其中，t_cs,x和t_ds,x分别为用户电动汽车的充电开始时刻和放电开始时刻，SOC_max＝90％，SOC_min＝20％；

充电功率约束为：

P_c,x,min≤P_c,x≤P_c,x,max(x＝1,2,...,X)

其中，P_c,x和P_d,x分别为x充电桩上所连用户新能源汽车的充电功率，P_c,x,max和P_d,x,max分别是第x充电桩上所连用户新能源汽车的最大充放电功率；

充放电时刻约束f₂为：

t∈[T_eva,T_evd]

其中，T_eva为抵达时刻，T_evd为汽车离开时刻。

而且，所述配电网的优化目标为：

其中，P_max为配电网峰值功率，P_min为配电网低谷功率，P₀为电网各控制时段基础负荷，P_c,t为所有充电站时刻t所有用户新能源汽车总充电功率。

本发明的优点和积极效果是：

1、发明通过采集充电站数据以及用户新能源汽车的数据；构建分布式部分可观测马尔科夫决策模型，并在分布式部分可观测马尔科夫决策模型中设置以用户用能成本、充电站峰谷差造成的惩罚和约束条件不满足造成的惩罚之和作为目标函数；使用多智能体强化学习BICNET算法构建的分布式部分可观测马尔科夫决策模型进行集中训练和分布式执行，得到实际决策方法。本发明能够有效地使实现电动汽车充电与可再生能源的匹配，最大化的减少了负荷用电高峰，降低了充电站负荷峰谷差。

2、本发明所提供的基于深度强化学习的车-站-网互动决策方法，对电动汽车充电功率的有效调控，可明显降低电动汽车集中充电的峰荷值，降低大规模电动汽车充电对电网的冲击，并有效提高电网和充电设施利用率。通过车-站-网互动决策技术可以有效提高配电网消纳新能源发电的能力，将进一步有力推动电力系统和交通系统的低碳化发展，形成用户-充电站-电网多利益主体共赢局面。

附图说明

图1为多智能体深度强化学习神经网络结构图。

具体实施方式

以下结合附图对本发明做进一步详述。

基于多智能体深度强化学习的车-站-网互动决策方法，如图1所示，包括以下步骤：

步骤1、采集充电站数据以及用户新能源汽车的数据。

本步骤中充电站数据包括：充电站的运行情况、充电站内分布式发电有功功率和充电桩整体负荷；用户新能源汽车的数据包括：充电桩所连用户新能源汽车荷电状态、用户新能源汽车离开时间和用户新能源汽车充放电动作。

步骤2、根据步骤1采集的数据，构建分布式部分可观测马尔科夫决策模型。对多个充电站进行车-站-网互动优化调度，并在观测信息的部分着重考虑用户信息的隐私性，各充电站只有本地的用户信息，用户原始信息如某电动汽车离站时间等不再汇总上传到云平台，多个充电站分别根据本地观测到的状态信息在约束条件下做出调度决策并协调配合达到多利益主体的合作共赢，以此建立基于分布式部分可观测马尔科夫决策模型。

S＝{Lc,L,P,Q,V,t}

其中，L＝{(p^L，q^L)}表示配电网有功和无功负荷的集合，P＝{(P_w，P_v)}表示配网内总的风能和光伏有功功率出力的集合，Q＝{q^u}为配电网无功出力的集合，V＝{(v，θ)}表示电压的幅值和相角。

为用户新能源汽车充放电动作，/>

为充电站i内充电桩1上的用户新能源汽车以额定功率充电，/>

为充电站i中充电桩x上的新能源汽车在等待充电，为每个充电站i设置一个智能体，智能体Oⁱ _,t为单个智能体i)在时刻t观测到的充电站的状态信息，O_i包括充电站内的分布式风力发电有功功率/>

和光伏发电功率/>

充电桩整体负荷/>

充电桩所连用户新能源汽车荷电状态/>

以及用户新能源汽车离开时间/>

R＝ω₁f₁+ω₂f₂

用户侧目标函数f₁以用户充电费用最小为目标建立充电模型：

用户需求及电力系统物理约束包括：充电量约束、充电功率约束和充放电时刻约束；其中充电量约束条件为：

充电功率约束为：

P_c,x,min≤P_c,x≤P_c,x,max(x＝1,2,…,X)

其中，P_c,x和P_d,x分别为x充电桩上所连用户新能源汽车的充电功率，P_c,x,max和P_d,x,max分别是用户新能源汽车x的最大充放电功率；

充放电时刻约束f₂为：

t∈[T_eva,T_evd]

其中，T_eva为抵达时刻，T_evd为汽车离开时刻。

而且，所述配电网的优化目标为：

其中，P_max为配电网峰值功率，P_min为配电网低谷功率，P₀为电网各控制时段基础负荷，P_c,t为充电站i时刻Δt所有用户新能源汽车总充电功率。

步骤3、使用多智能体强化学习BICNET算法对步骤2构建的分布式部分可观测马尔科夫决策模型进行训练和实际决策，BICNET算法采用集中训练，分布式执行的方式，得到实际决策方法，同时可以最大程度的保护电动汽车车主信息的隐私性。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：包括以下步骤：

步骤1、采集充电站数据以及用户新能源汽车的数据；

2.根据权利要求1所述的基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：所述充电站数据包括：充电站的运行情况、充电站内分布式发电有功功率和充电桩整体负荷；

3.根据权利要求1所述的基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：所述步骤2构建的分布式部分可观测马尔科夫决策模型为：

其中，S是一组全局状态，包括配电网负荷功率的集合L，分布式发电产生的有功功率集合P，配电网内无功功率集合Q，各节点电压集合V以及所处的调度时段t，因此其状态表示为：

S＝{Lc,L,P,Q,V,t}

其中，L＝{(p^L，q^L)}表示配电网有功和无功负荷的集合，P＝{(P_w，P_v)}表示配网内总的风能和光伏有功功率出力的集合，Q＝{q^u}为配电网无功出力的集合，V＝{(v，θ)}表示电压的幅值和相角，

为用户新能源汽车充放电动作，/>

为充电站i内充电桩1上的用户新能源汽车以额定功率充电，/>

为充电站i中充电桩x上的新能源汽车在等待充电，为每个充电站i设置一个智能体，智能体Oⁱ _,t为单个智能体i，在时刻t观测到的充电站的状态信息，O_i包括充电站内的分布式风力发电有功功率/>

和光伏发电功率/>

充电桩整体负荷/>

充电桩所连用户新能源汽车荷电状态/>

以及用户新能源汽车离开时间/>

R＝ω₁f₁+ω₂f₂

其中，f₁为用户侧目标函数，f₂为配电网的优化目标，ω₁和ω₂为优化目标权重，ω₁＝ω₂＝0.5。

4.根据权利要求3所述的基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：所述用户侧目标函数f₁为：

其中，S_j为时段j充电站充电电价，P_c,t为充电站内时刻t用户新能源汽车总充电功率，Δt为控制时段，Δt＝15min，因此一天共分为96个控制时刻，X为充电站内充电桩的总数量，P_c,x为时段t内充电桩x所连用户新能源汽车的充电功率，同时电动汽车优化调度需要满足用户需求及电力系统物理约束。

5.根据权利要求4所述的基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：所述用户需求及电力系统物理约束包括：充电量约束、充电功率约束和充放电时刻约束；其中充电量约束条件为：

其中，T_c,x、T_d,x分别为充电桩x上所连用户新能源汽车的充电时长和放电时长；SOC_min,x和SOC_max,x分别为新能源汽车电池可用的最小、最大荷电状态，α为用户新能源汽车充放电效率，Q_x为新能源汽车的电池容量，W为用户新能源汽车的日行驶平均能耗，P_d,x(t)为第x充电桩上的新能源汽车放电功率，P_c,x(t)为第x充电桩上的新能源汽车放电功率，为减少用户新能源汽车电池损耗，当充电桩x连接的电动汽车荷电状态SOC_x<20％时，新能源汽车只能进行充电和填谷，当SOC_x>90％时，新能源汽车为了防止过充不得再进行充电：

充电功率约束为：

P_c,x,min≤P_c,x≤P_c,x,max(x＝1,2,…,X)

其中，P_c,x和P_d,x分别为x充电桩上所连用户新能源汽车的充电功率，P_c,x,max和P_d,x,max分别是第x充电桩上所连的新能源汽车的最大充电和放电功率；

充放电时刻约束f₂为：

t∈[T_eva,T_evd]

其中，T_eva为抵达时刻，T_evd为汽车离开时刻。

6.根据权利要求3所述的基于多智能体深度强化学习的车-站-网互动决策方法，其特征在于：所述配电网侧的优化目标为：