CN116691419B

CN116691419B - 弱链接通信下深度强化学习的电动汽车自主充电控制方法

Info

Publication number: CN116691419B
Application number: CN202310967692.6A
Authority: CN
Inventors: 于鹤洋; 张权; 孙玉玺; 霍英宁; 耿光超; 王伟峰; 向新宇; 陈奕; 徐川子; 江全元
Original assignee: Zhejiang University ZJU; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-14
Anticipated expiration: 2043-08-03
Also published as: CN116691419A

Abstract

本发明公开了一种弱链接通信下深度强化学习的电动汽车自主充电控制方法。获取配电台区所连接的居民家庭用电电器的总负荷预测数据，采集电动汽车的历史充电信息并可上传通讯主站，构建超级智能体并进行训练得到最优决策的超级智能体，将超级智能体针对配电台区的充电桩进行封装和下发，在弱链接通讯条件下，配电台区、充电桩利用电动汽车智能体根据实时的总负荷预测数据和充电需求信息进行自主控制，输出电动汽车的最优充电动作。本发明能够在弱链接通讯条件下提供基于深度强化学习的自主充电控制算法，降低电动汽车群充电失控引起配电台区负荷过载的概率以及配电台区负荷峰值和峰谷差，最终降低过高的台区充电信息系统的通讯安全性和可靠性成本。

Description

弱链接通信下深度强化学习的电动汽车自主充电控制方法

技术领域

本发明涉及电动汽车充电控制技术领域，具体涉及一种弱链接通信下深度强化学习的电动汽车自主充电控制方法。

背景技术

居民区大量电动汽车的无序充电可能导致配电系统峰值负荷的显著增加，导致变压器过载。这给高峰时期的电动汽车充电带来了严重挑战。电动汽车对配电系统的这种负面影响可以通过实施有效的调度控制策略来缓解。然而，中央控制器通常部署在配电网运营商中，通过解决集中式优化问题来求解有效的调度控制策略。它需要收集来自用户和电网的各种信息，然后在做出决定后向电动汽车发送控制命令。因此，它需要一个完善可靠的通信基础设施，以促进实时信息交换和控制命令的快速执行。

然而，开发这样的基础设施可能会产生高昂的部署和运营成本以及安全风险。例如，在通信链路故障产生弱链接的通讯条件下，例如电动汽车和通讯主站之间的通讯链路失效，电动汽车将难以接收控制命令并恢复到原始的无序充电状态。因此，在通信链路发生故障后，如果停车场/充电站内的每一台电动汽车可以为自身充电提供一种自主充电控制方法，通过深度强化学习寻找可行且较为优质的充电控制策略，那么电动汽车充电失控导致变压器过载的概率就可以降低，相对于传统方法更具鲁棒性。

综上所述，现有技术缺少了一种如何科学合理地在弱链接通讯条件下进行电动汽车自主充电控制的方法，这是一个亟需解决的问题。

发明内容

本发明的目的就在于克服现有技术的不足，为了解决上述问题而提供一种弱链接通讯条件下基于深度强化学习的电动汽车自主充电控制方法，解决了弱链接通讯条件下电动汽车充电失控导致变压器过载的技术问题，也起到了削峰填谷的作用。

为实现上述发明的目的，本发明采用的技术方案是：

S1、居民家庭用电电器负荷预测数据获取：

获取强链接情况下、配电台区所连接的居民家庭用电电器的总负荷预测数据；

S2、电动汽车用户充电需求信息采集：

在电动汽车接入配电台区的充电桩后，采集与电动汽车自主充电控制有关的历史充电信息，并且在强链接通讯条件下，将电动汽车的历史充电信息将上传到通讯主站；

所述的历史充电信息包括车辆充电接入时间、车辆实际停留时间和车辆目标充电能量。

S3、设计电动汽车自主充电控制算法预训练（超级智能体预训练）：

针对电动汽车自主充电控制构建超级智能体，并针对超级智能体输入S1的总负荷预测数据和S2的历史充电信息进行训练，得到能够根据电动汽车的充电信息和总负荷预测数据进行最优决策的超级智能体；

S4、电动汽车智能体模型封装和下发：

将训练后的超级智能体针对配电台区充电的每个电动汽车的充电桩进行封装和下发；

S5、电动汽车充电控制自主控制：

在弱链接通讯条件下，配电台区的充电桩利用自身存储的封装后的电动汽车智能体根据实时获得的当前总负荷预测数据和当前充电需求信息进行自主决策控制，输出电动汽车的最优充电动作，即最优开始充电时间。

所述的当前充电需求信息包括车辆预计停留时间和车辆目标充电能量，车辆预计停留时间和车辆目标充电能量均是用户输入。

所述方法是在通讯主站经配电台区和电动汽车通信的情况进行，同时配电台区和居民家庭的用电电器也进行连接。

所述的通讯主站相当于电网通信的云端，配电台区相当于是一个变压器。

电动汽车连接到配电台区的充电桩进行充电，配电台区的充电桩对电动汽车进行供电充电，同时配电台区和电动汽车通信连接，通讯主站也和配电台区通信连接，用于控制配电台区的各个充电桩对电动汽车的充电工作。

用户将电动汽车连接到配电台区的充电桩进行充电时，输入车辆预计停留时间和车辆目标充电能量。

强链接是指电动汽车经配电台区到通讯主站的通讯链路有效，即电动汽车经配电台区到通讯主站保持通讯。

弱链接是指电动汽车经配电台区到通讯主站的通讯链路失效，即电动汽车经配电台区到通讯主站的通讯断开，例如通信线路断了或者故障短路断路。

所述步骤S1具体为：先采集强链接情况下、配电台区所连接的居民家庭用电电器的历史总负荷数据，进而根据历史总负荷数据通过预测算法处理获得总负荷预测数据。

在充电过程或者非充电过程中，配电台区的通讯条件不在所有时候都是弱链接（即电动汽车到通讯主站之间的通讯链路失效），并且通讯链路总有某一时段被修复而成为强链接。

总负荷数据均是按照不同时刻/时段的离散的数据。

所述步骤S3中，针对配电台区的每个充电桩的充电控制构建一个电动汽车智能体，将配电台区的所有充电桩的电动汽车智能体聚合为一个超级智能体，超级智能体的输出动作为所有电动汽车智能体的输出动作的集合；所述超级智能体使用深度强化学习算法对各个充电桩的电动汽车的充电控制进行决策，输出各个充电桩的电动汽车的充电动作，所述的充电动作是指开始充电时间。

所述的超级智能体可以置于通讯主站，也可以置于配电台区。

所述的超级智能体的输入是用电电器总负荷预测数据和充电信息，输出动作是充电动作，即为开始充电时间。

所述步骤S3中，所述的超级智能体中设置以下期望的目标，以期望最大化为目标进行优化训练：

J=E _π(θ)[min(a _π(θk)(S,T _start)π(T _start|S;θ)/π(T _start|S;θ _k),a _π(θk)(S,T _start)+ε|a _π(θk)(S,T _start)|)]

S=min(P _total)

P _total=ΣP _{EV, i}+P _res

P _total=[P _total,1,…,P _total,t, …,P _total,T]

P _EV,i=[P _EV,1,…,P _EV,t, …,P _EV,T]

P _res=[P _res,1,…,P _res,t, …,P _res,T]

T _start=[T _start,1,…,T _start,i, …,T _start,N]

a _i<T _start,i<b _i-t _cha,i

其中，J表示充电环境下充电动作的期望，E _π(θ)表示当前充电动作策略参数θ下的期望，π表示策略，即表示从状态到动作的转移概率，θ代表充电动作策略参数，k为迭代次数，a为模型代理参数，ε是超参数，ε∈(0,1)；min表示最小值，a _π(θk)表示θ _k动作策略下的充电动作的代理参数，||表示绝对值，|表示状态转移，S表示深度强化学习算法的状态空间，π(T _start|S;θ)表示在θ策略参数下的从状态S到动作T _start的转移概率；P _total表示配电台区的每日总负荷数据，P _total,t表示配电台区在t时段的总负荷，T表示每日的时段总数；P _EV,i表示第i辆电动汽车的每日负荷数据，P _EV,t表示第i辆电动汽车在t时段的总负荷；P _res表示居民家庭的用电电器总负荷数据，P _res,t为t时段的居民家庭的用电电器总负荷；T _start表示所有电动汽车/充电桩的开始充电时间，T _start,i表示第i辆电动汽车在充电桩上的开始充电时间，t _cha,i表示第i辆电动汽车的充电时长；a _i表示第i辆电动汽车的车辆充电接入时间，b _i表示第i辆电动汽车的车辆停留时间；

然后用迭代优化方法对上述目标函数进行求解输出获得所有电动汽车/充电桩的开始充电时间T _start。

所述第i辆电动汽车的充电时长为t _cha,i满足按照以下方式计算：

t _cha,i= e _i /P

其中，e _i表示第i辆电动汽车的车辆目标充电能量，P表示充电桩的额定功率。

所述步骤S3中，在优化训练时设置以下奖励R进行观测：

R=S-max(P _total)。

所述步骤S4中，针对配电台区充电的每个电动汽车，从训练后的超级智能体提取其中对应的电动汽车智能体，且将其他电动汽车智能体输出的充电动作屏蔽，得到封装后的电动汽车智能体模型，进而在强链接通讯条件下将封装后的电动汽车智能体模型下载到对应的配电台区的充电桩中进行存储。

所述步骤S4中，针对第i个电动汽车，按照以下公式将其他电动汽车智能体输出的充电动作屏蔽封装获得第i个电动汽车智能体模型：

T _start ’=[0,…,0,T _start,i, 0,…,0]

其中，T _start ’表示第i个电动汽车智能体模型中所有电动汽车/充电桩的开始充电时间，T _start,i表示第i辆电动汽车在充电桩上的开始充电时间。

本发明首先进行居民家庭负荷预测数据获取以及对电动汽车用户充电信息采集，然后对电动汽车自主充电控制算法预训练（即超级智能体预训练）并进行电动汽车智能体的模型封装和下发，最后可实现离线下电动汽车充电控制指令自主决策控制。

本发明通过构建电动汽车自主充电的智能体并再利用深度学习对建立的目标进行优化训练，再结合训练后模型封装和下发进行离线的充电自主控制，优化实现配电台区的削峰填谷。

本发明具有的有益效果如下：

本发明能够实现弱链接通讯条件下即在电动汽车与通信主站的通讯链路发生故障的情况下为接入充电桩的电动汽车提供的自主充电控制算法，即为台区电动汽车提供弱链接条件下的可行充电控制方案，可适当降低电动汽车群充电失控引起配电台区负荷过载的概率以及配电台区负荷峰值和峰谷差，最终可降低过高的台区充电信息系统的通讯安全性和可靠性成本。

附图说明

图1是本发明弱链接通信下深度强化学习的电动汽车自主充电控制方法流程示意图；

图2是电动汽车充电需求信息中车辆目标充电电量的服从的分布图；

图3是居民总负荷、不使用本方法的无序充电负荷和本方法的自主充电曲线图；

图4是单个电动汽车智能体的拓扑关系图；

图5是多个电动汽车智能体构成的超级智能体的拓扑关系图。

具体实施方式

下面结合附图和具体实施方式对本发明技术方案进行清楚、完整地做进一步阐述和说明。显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式，都属于本发明的保护的范围，并且本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，在本发明的一个较佳实施例中，提供了一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，该方法包括以下S1~S5步骤：

方法包括以下步骤：

S1、获取强链接情况下、配电台区所连接的居民家庭用电电器的总负荷预测数据。

先采集强链接情况下、配电台区所连接的居民家庭用电电器的历史总负荷数据，进而根据历史总负荷数据通过预测算法处理获得总负荷预测数据。

总负荷数据均是按照不同时刻/时段的离散的数据。

S2、在电动汽车接入配电台区的充电桩后，采集与电动汽车自主充电控制有关的历史充电信息，并且在强链接通讯条件下，将电动汽车的历史充电信息将上传到通讯主站。

S3、针对电动汽车自主充电控制构建超级智能体，并针对超级智能体输入S1的总负荷预测数据和S2的历史充电信息进行训练，训练迭代模型，得到能够根据电动汽车的充电信息和总负荷预测数据进行最优决策的超级智能体。

针对配电台区的每个充电桩的充电控制构建一个电动汽车智能体，即每一辆电动汽车的充电控制构建一个电动汽车智能体，将配电台区的所有充电桩的电动汽车智能体聚合为一个超级智能体，超级智能体的输出动作为所有电动汽车智能体的输出动作的集合；超级智能体使用深度强化学习算法对各个充电桩的电动汽车的充电控制进行决策，输出各个充电桩的电动汽车的充电动作，充电动作是指开始充电时间。具体实施中还可根据动作计算状态和回报。

单个电动汽车智能体的拓扑关系可以如图4所示，多个电动汽车智能体构成的超级智能体的拓扑关系可以如图5所示。

超级智能体可以置于通讯主站，也可以置于配电台区。

超级智能体的输入是用电电器总负荷预测数据和充电信息，输出动作是充电动作，即为开始充电时间。

每日共有T个时段，对于一个含有N个充电桩的配电台区，所有充电桩的额定功率均为P。

当第i辆电动汽车接入充电时，电动汽车i向通信主站上传历史充电信息，包括车辆充电接入时间a _i、车辆实际停留时间b _i和车辆目标充电能量e _i。

步骤S3中，超级智能体中设置以下期望的目标，以期望最大化为目标进行优化训练：

S=min(P _total)

P _total=ΣP _{EV, i}+P _res

P _total=[P _total,1,…,P _total,t, …,P _total,T]

P _EV,i=[P _EV,1,…,P _EV,t, …,P _EV,T]

P _res=[P _res,1,…,P _res,t, …,P _res,T]

T _start=[T _start,1,…,T _start,i, …,T _start,N]

a _i<T _start,i<b _i-t _cha,i

其中，J表示充电环境下充电动作的期望，E _π(θ)表示当前充电动作策略参数θ下的期望，π表示策略，其表示从状态到动作的转移概率，θ代表充电动作策略参数，k为迭代次数，a为模型代理参数，ε是超参数，ε∈(0,1)；min表示最小值，a _π(θk)表示θ _k动作策略下的充电动作的代理参数，||表示绝对值，|表示状态转移，S表示深度强化学习算法的状态空间，π(T _start|S;θ)表示在θ策略参数下的从状态S到动作T _start的转移概率；P _total表示配电台区的每日总负荷数据，P _total,t表示配电台区在t时段的总负荷，T表示每日的时段总数；P _EV,i表示第i辆电动汽车的每日负荷数据，P _EV,t表示第i辆电动汽车在t时段的总负荷；P _res表示居民家庭的用电电器总负荷数据，P _res,t为t时段的居民家庭的用电电器总负荷；T _start表示所有电动汽车/充电桩的开始充电时间，T _start,i表示第i辆电动汽车在充电桩上的开始充电时间，t _cha,i表示第i辆电动汽车的充电时长；a _i表示第i辆电动汽车的车辆充电接入时间，b _i表示第i辆电动汽车的车辆停留时间；

在求解过程的每次迭代中，超级智能体的动作网络都产生很多次充电策略，并获得期望J，所有这些充电策略服从某一分布（即用参数θ表示）；每次迭代后，对期望J求微分，进而按照下式对充电策略进行更新：π’=π+ηΔJ，η<0，π’表示更新后的充电策略，η表示更新权重，ΔJ表示J的微分；进而进行下一次迭代。

第i辆电动汽车的充电时长为t _cha,i满足按照以下方式计算：

t _cha,i= e _i /P

在优化训练时设置以下奖励R进行观测：

R=S-max(P _total)。

S4、将训练后的超级智能体针对配电台区充电的每个电动汽车的充电桩进行封装和下发。

针对配电台区充电的每个电动汽车，从训练后的超级智能体提取其中对应的电动汽车智能体，且将其他电动汽车智能体输出的充电动作屏蔽，得到封装后的电动汽车智能体模型，进而在强链接通讯条件下将封装后的电动汽车智能体模型下载到对应的配电台区的充电桩中进行存储；

针对第i个电动汽车，按照以下公式将其他电动汽车智能体输出的充电动作屏蔽封装获得第i个电动汽车智能体模型，即将超级智能体输出的部分充电动作空间屏蔽：

T _start ’=[0,…,0,T _start,i, 0,…,0]

S5、在弱链接通讯条件下，配电台区的充电桩利用自身离线存储的封装后的电动汽车智能体根据实时获得的当前一天的总负荷预测数据和用户输入的当前充电需求信息进行自主决策控制，输出电动汽车的最优充电动作，即最优开始充电时间。

步骤S5中，每一个电动汽车智能体输出的最优充电动作为T ^* _start,i，那么电动汽车的开始充电时间为T ^* _start,i，充电功率为P，充电时长为t _cha,i。

具体实施中，充电功率保持固定，充电时长根据最优开始充电时间和车辆预计停留时间换算得到。

下面将上述实施例中S1~S5所述的一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，应用于一个具体的实际场景中，以展示其技术效果，具体步骤如前所述，下面仅展示其具体实现以及技术效果。

实施例具体情况如下：

为了验证本发明提出方法的有效性，本实施例中使用Pycharm开发平台，Python3.8编程语言开发实现了该方法，并使用一台装配有Intel Xeon-X5650 2.6GHz CPU和24G内存的PC机完成了本实施例的测试和验证。

本发明的实施例围绕某含有电动汽车停车场的配电台区开展技术验证。实施例使用了浙江杭州某居住区居民总负荷数据和自行建模的电动汽车充电需求信息数据进行验证。

表1 居住区基础参数

类型	参数	类型	参数
				居民数量	100	充电桩额定功率	7kW
电动汽车渗透率	60%	变压器容量	600kVA
				时间间隔	15min

表2 电动汽车充电需求参数

类型	参数
		车辆充电接入时间	a_i~N(77,8)(15分钟)
车辆预计离开时间	b_i~N(30,4)(15分钟)
		车辆目标充电电量	服从附图2所示分布

表1展示了此居住区的基础参数。表2展示了电动汽车的充电需求参数。从附图3中可以看到居民总负荷曲线、不使用本方法的无序充电曲线和本方法的自主充电曲线。从附图3可以看到，本发明方法可为台区电动汽车提供弱链接条件下的可行充电控制方案，可适当降低电动汽车群充电失控引起配电台区负荷过载的概率以及配电台区负荷峰值和峰谷差。

尽管本发明的内容已经通过上述实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，其特征在于，所述方法包括以下步骤：

S1、居民家庭用电电器负荷预测数据获取：

获取配电台区所连接的居民家庭用电电器的总负荷预测数据；

所述步骤S1具体为：先采集强链接情况下、配电台区所连接的居民家庭用电电器的历史总负荷数据，进而根据历史总负荷数据通过预测算法处理获得总负荷预测数据；

S2、电动汽车用户充电需求信息采集：

在电动汽车接入配电台区的充电桩后，采集与电动汽车充电控制有关的历史充电信息，并且在强链接通讯条件下，将电动汽车的历史充电信息将上传到通讯主站；

S3、设计电动汽车自主充电控制算法预训练：

所述步骤S3中，针对配电台区的每个充电桩的充电控制构建一个电动汽车智能体，将配电台区的所有充电桩的电动汽车智能体聚合为一个超级智能体，超级智能体的输出动作为所有电动汽车智能体的输出动作的集合；所述超级智能体使用深度强化学习算法对各个充电桩的电动汽车的充电控制进行决策，输出各个充电桩的电动汽车的充电动作，所述的充电动作是指开始充电时间；

J=E _π(θ)[min(a _π(θk)(S, T _start)π(T _start|S;θ)/ π(T _start|S;θ _k), a _π(θk)(S, T _start)+ε| a _π(θk)(S, T _start)|)]

S=min(P _total)

P _total=ΣP _{EV, i}+P _res

P _total=[P _total,1,…, P _total,t, …, P _total,T]

P _EV,i=[P _EV,1,…, P _EV,t, …, P _EV,T]

P _res=[P _res,1,…, P _res,t, …, P _res,T]

T _start=[T _start,1,…, T _start,i, …, T _start,N]

a _i< T _start,i<b _i-t _cha,i

其中，J表示充电环境下充电动作的期望，E _π(θ)表示当前充电动作策略参数θ下的期望，π表示策略，即表示从状态到动作的转移概率，θ代表充电动作策略参数，k为迭代次数，a为模型代理参数，ε是超参数，ε∈(0,1)；min表示最小值，a _π(θk)表示θ _k动作策略下的充电动作的代理参数，||表示绝对值，|表示状态转移，S表示状态空间，π(T _start|S;θ)表示在θ策略参数下的从状态S到动作T _start的转移概率；P _total表示配电台区的每日总负荷数据，P _total,t表示配电台区在t时段的总负荷，T表示每日的时段总数；P _EV,i表示第i辆电动汽车的每日负荷数据，P _EV,t表示第i辆电动汽车在t时段的总负荷；P _res表示居民家庭的用电电器总负荷数据，P _res,t为t时段的居民家庭的用电电器总负荷；T _start表示所有电动汽车的开始充电时间，T _start,i表示第i辆电动汽车的开始充电时间，t _cha,i表示第i辆电动汽车的充电时长；a _i表示第i辆电动汽车的车辆充电接入时间，b _i表示第i辆电动汽车的车辆停留时间；

然后用迭代优化方法对上述目标函数进行求解输出获得所有电动汽车的开始充电时间T _start；

S4、电动汽车智能体模型封装和下发：

所述步骤S4中，针对配电台区充电的每个电动汽车，从训练后的超级智能体提取其中对应的电动汽车智能体，且将其他电动汽车智能体输出的充电动作屏蔽，得到封装后的电动汽车智能体模型，进而在强链接通讯条件下将封装后的电动汽车智能体模型下载到对应的配电台区的充电桩中进行存储；

T _start ’=[0,…,0, T _start,i, 0,…,0]

其中，T _start ’表示第i个电动汽车智能体模型中所有电动汽车的开始充电时间，T _start,i表示第i辆电动汽车的开始充电时间；

S5、电动汽车充电控制自主控制：

2.根据权利要求1所述的一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，其特征在于：

3.根据权利要求1所述的一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，其特征在于：所述第i辆电动汽车的充电时长为t _cha,i满足按照以下方式计算：

t _cha,i= e _i /P

4.根据权利要求1所述的一种弱链接通信下深度强化学习的电动汽车自主充电控制方法，其特征在于：所述步骤S3中，在优化训练时设置以下奖励R进行观测：

R=S-max(P _total)。