CN116454902A

CN116454902A - 基于强化学习的配电网调压方法、装置、设备和存储介质

Info

Publication number: CN116454902A
Application number: CN202310516131.4A
Authority: CN
Inventors: 王伟杰; 陈伯韬; 郭景宇; 董富德; 黄荣杰; 华耀; 薛博文; 张培培; 赵文; 梁健辉; 朱德强; 徐远途; 杨浩; 盘倩; 钟芬芳; 盘荣波; 李炳坤
Original assignee: Guangdong Power Grid Co Ltd; Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-07-18

Abstract

本发明公开了基于强化学习的配电网调压方法、装置、设备和存储介质。该方法包括：获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息；将当前电网状态信息、当前充电站状态信息和当前充电状态信息输入至预设决策网络模型中，预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的；基于预设决策网络模型的输出，获得当前配电网调压策略，并对配电网进行调压。通过本公开实施例的技术方案，可以有效平衡配电网运行效益和电动汽车充电费用，提升用户的充电体验。

Description

基于强化学习的配电网调压方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于强化学习的配电网调压方法、装置、设备和存储介质。

背景技术

随着技术的发展，越来越多的电动汽车被生产和使用。电动汽车需要使用充电桩进行充电。在电动汽车进行充电时，配电网会产生无功功率和有功功率，例如，配电网对外输电会产生有功功率。配电网内部运行会产生无功功率。无功功率虽然不直接消耗有功功率，但无功功率的交换将引起发电和输电设备上的电压降落和电能损失，影响电力系统电能质量，导致电动汽车的充电效率降低和充电费用增加。

目前，通常是基于配电网运行效益最大的调压策略进行配电网调压。然而，这种方式虽然保证了配电网运行效益最大，但会导致电动汽车充电费用的增大，无法有效平衡配电网运行效益和电动汽车充电费用。

发明内容

本发明提供了一种基于强化学习的配电网调压方法、装置、设备和存储介质，以有效平衡配电网运行效益和电动汽车充电费用，提升用户的充电体验。

根据本发明的一方面，提供了一种基于强化学习的配电网调压方法，该方法包括：

获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息；

将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中，所述预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，所述目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的；

基于所述预设决策网络模型的输出，获得当前配电网调压策略，并基于所述当前配电网调压策略，对所述配电网进行调压。

根据本发明的另一方面，提供了一种基于强化学习的配电网调压装置，该装置包括：

信息获取模块，用于获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息；

信息输入模块，用于将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中，所述预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，所述目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的；

调压策略确定模块，用于基于所述预设决策网络模型的输出，获得当前配电网调压策略，并基于所述当前配电网调压策略，对所述配电网进行调压。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的基于强化学习的配电网调压方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于强化学习的配电网调压方法。

本发明实施例的技术方案，通过预先基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建获得目标奖励函数，并基于目标奖励函数进行强化学习获得预设决策网络模型，该预设决策网络模型可以针对配电网中不同的电网状态信息、由所述配电网供电的充电站中不同的充电站状态信息和所述充电站中每个电动汽车的充电状态信息决策出最优的配电网调压策略，以便有效平衡配电网运行效益和电动汽车充电费用，提升用户的充电体验。在多个电动汽车充电的过程中，获取配电网中的当前电网状态信息、由所述配电网供电的充电站中的当前充电站状态信息和所述充电站中每个电动汽车的当前充电状态信息，并将所述当前电网状态信息、所述当前充电站状态信息和所述当前充电状态信息输入至预设决策网络模型中进行电网调压动作决策，从而基于预设决策网络模型的输出，可以获得决策出最优的当前配电网调压策略，并基于当前配电网调压策略对所述配电网进行调压，从而基于当前配电网调压策略可以有效平衡当前配电网运行效益和当前电动汽车充电费用，提升用户的充电体验。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种基于强化学习的配电网调压方法的流程图；

图2是根据本发明实施例二提供的另一种基于强化学习的配电网调压方法的流程图；

图3是根据本发明实施例三提供的一种基于强化学习的配电网调压装置的结构示意图；

图4是实现本发明实施例的基于强化学习的配电网调压方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种基于强化学习的配电网调压方法的流程图，本实施例可适用于基于预设决策网络模型的输出对配电网进行电压调整的情况，该方法可以由基于强化学习的配电网调压装置来执行，该基于强化学习的配电网调压装置可以采用硬件和/或软件的形式实现，该基于强化学习的配电网调压装置可配置于电子设备中。如图1所示，该方法包括：

S110、获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息。

其中，配电网下可以存在多个充电站。配电网给多个充电站同时供电。每个充电站中存在多个充电桩。电动汽车可以由充电站内的充电桩进行充电。充电站内部充电桩采用虚拟同步技术。电动汽车通过充电桩进行并网，借此实现能量的双向流动。本方案适用于配电网下存在充电站的情况。本方案不限制配电网下充电站的数量，现以一个充电站为例。当前电网状态信息可以包括配电网中电力系统的节点电压。当前充电站状态信息可以包括：充电站接入的有功功率和充电站注入的无功功率。当前充电状态信息可以包括：电动汽车的当前电量、电动汽车的电池容量、电动汽车的剩余充电时间和电动汽车的充放电功率。

具体地，在电动汽车进行充电的过程中，可以实时获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息，以便基于获取的当前电网状态信息、当前充电站状态信息和当前充电状态信息，确定出当前时刻配电网对应的调压策略，从而对比上一时刻和当前时刻配电网对应的调压策略。若两个时刻确定出的调压决策一致，则延用上一时刻配电网对应的调压策略对配电网进行控制。若两个时刻确定出的调压决策存在不一致，则使用当前时刻确定出的新的调压策略对配电网进行调整。进而实现对配电网的动态调整，同时有效平衡当前配电网运行效益和当前电动汽车充电费用，提升用户的充电体验。

S120、将当前电网状态信息、当前充电站状态信息和当前充电状态信息输入至预设决策网络模型中，预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的。

其中，强化学习可以由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)和奖励(Reward)组成。本实施例中，充电汽车可以作为一个智能体。S110中的电网状态信息、充电站状态信息和当前充电状态信息可以作为状态。配电网调压策略可以作为动作或是动作集合。目标奖励函数可以是用于确定预设决策网络模型采取某个动作信息后获得的奖励值。智能体执行了某个动作后，环境将会转换到一个新的状态，对于该新的状态环境会给出奖励信息(正奖励或者负奖励)，然后智能体根据新的状态和环境反馈的奖励信息，确定新的动作。智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。本实施例可以基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数。

示例性地，预设决策网络模型的网络架构可以包括但不限于：长短期记忆网络LSTM(LongShort-TermMemory)、残差网络ResNet、深度神经网络DNN(DeepNeuralNetworks)、卷积神经网络CNN(Convolutional NeuralNetwork)或者全连接网络FC(FullyConnection)中的至少一种。预设决策网络模型的建立思想可以是为了解决与单个充电站内每个双向充电桩控制器相关的马尔科夫决策问题。

具体地，可以基于预设强化学习方式，比如基于策略的强化学习方式或者基于价值的强化学习方式，利用目标奖励函数对待训练的预设决策网络模型进行强化学习，最大化电动汽车充电过程中配电网运行效益和电动汽车充电费用之间的综合奖励值，从而可以有效平衡配电网运行效益和电动汽车充电费用。本实施例可以利用强化学习后获得的预设决策网络模型对充电站内每个充电桩进行动作决策，从而实现对配电网中电压的调节。

S130、基于预设决策网络模型的输出，获得当前配电网调压策略，并基于当前配电网调压策略，对配电网进行调压。

其中，当前配电网调压策略可以包括但不限于有功动作指令和无功动作指令。有功动作指令可以是指用于进行有功优化，降低有功功率网损的动作指令。有功动作指令可以用于增大有功功率网损下降率。无功动作指令可以是指用于进行无功优化的动作指令。具体地，基于预设决策网络模型的输出，获得当前配电网调压策略。该当前配电网调压策略是在满足电动汽车充放电需求的前提下，用于对电网进行调压并优化无功分布的策略。基于当前配电网调压策略，对配电网进行调压，可以有效平衡配电网运行效益和电动汽车充电费用。当前配电网调压策略可以是但不限于无功优化策略。

本发明实施例的技术方案，通过预先基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建获得目标奖励函数，并基于目标奖励函数进行强化学习获得预设决策网络模型，该预设决策网络模型可以针对配电网中不同的电网状态信息、由配电网供电的充电站中不同的充电站状态信息和充电站中每个电动汽车的充电状态信息决策出最优的配电网调压策略，以便有效平衡配电网运行效益和电动汽车充电费用，提升用户的充电体验。在多个电动汽车充电的过程中，获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息，并将当前电网状态信息、当前充电站状态信息和当前充电状态信息输入至预设决策网络模型中进行电网调压动作决策，从而基于预设决策网络模型的输出，可以获得决策出最优的当前配电网调压策略，并基于当前配电网调压策略对配电网进行调压，从而基于当前配电网调压策略可以有效平衡当前配电网运行效益和当前电动汽车充电费用，提升用户的充电体验。

在上述技术方案的基础上，预设决策网络模型的强化学习过程，可以包括：将配电网中的样本电网状态信息、由配电网供电的充电站中的样本充电站状态信息和充电站中每个电动汽车的样本充电状态信息输入至待训练的预设决策网络模型中进行电网调压动作决策；基于待训练的预设决策网络模型输出的样本配电网调压策略，确定执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；将执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息代入至目标奖励函数中，确定出样本配电网调压策略对应的目标奖励值；基于目标奖励值，调整待训练的预设决策网络模型中的网络参数，直到满足预设收敛条件时训练结束，获得训练结束后的预设决策网络模型。

其中，样本数据集中可以包括：样本电网状态信息、样本充电站状态信息和样本充电状态信息。样本数据集可以是指在电动汽车实际充电场景中获取到的数据。预设收敛条件可以是指确定出最大的目标奖励值。最大的目标奖励值可以是但不限于目标奖励峰值。具体地，将从样本数据集中获取的配电网中的样本电网状态信息、由配电网供电的充电站中的样本充电站状态信息和充电站中每个电动汽车的样本充电状态信息输入至待训练的预设决策网络模型中进行电网调压动作决策；基于待训练的预设决策网络模型输出的样本配电网调压策略，从样本数据集中确定出执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；将执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息代入至目标奖励函数中，确定出样本配电网调压策略对应的目标奖励值；基于目标奖励值，调整待训练的预设决策网络模型中的网络参数，并将最大的目标奖励值对应的网络参数作为预设决策网络模型的有效网络参数。

在上述技术方案的基础上，“基于待训练的预设决策网络模型输出的样本配电网调压策略，确定执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息”，可以包括：基于配电网区域节点模型，对待训练的预设决策网络模型输出的样本配电网调压策略进行模拟调压，获得配电网区域节点模型输出的执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息。

其中，配电网区域节点模型是基于实际配电网、充电站以及电动汽车之间的连接关系构建的用于进行潮流计算的节点模型。潮流计算可以是指在给定电力系统网络拓扑、元件参数和发电、负荷参量条件下，计算有功功率、无功功率及电压在电力网中的分布。例如，潮流计算可以确定出各支路的功率分布、网络的功率损耗等。在本方案中潮流计算可以用于确定执行配电网调压策略之后配电网中的功率分布、网络的功率损耗等信息。配电网区域节点模型可用于模拟电动汽车充电过程中的实际交互环境。在强化学习中，配电网区域节点模型可以作为环境。例如，配电网区域节点模型可以基于预设决策网络模型输出的样本配电网调压策略进行模拟调压，获得配电网区域节点模型输出的执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息。建立配电网区域节点模型的好处在于，若样本数据集中不存在执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息，则可以利用预设构建好的配电网区域节点模型和预设决策网络模型输出的样本配电网调压策略，确定在电动汽车实际充电场景中执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息。还可以在建设充电站之前，构建多种规模的配电网区域节点模型，并基于配电网区域节点模型和预设决策网络模型，确定不同规模的充电站对应的最高收益，从而确定出最优的充电站建设规模。还可以针对在原有的充电站中增设充电桩的情况进行配电网区域节点模型的构建，从而基于构建的配电网区域节点模型和预设决策网络模型，确定最优的充电桩增设规模。

需要说明的是，还直接可以利用电动汽车车辆信息(如，剩余电量EV_i,soc、充放电功率EV_i,P和电池容量EV_i,C)与电动汽车行为信息(如接入时刻t_i,in、离开时刻t_i,out)以及充电站接入的电动汽车数量n进行潮流计算。利用电动汽车行为信息确定第i辆电动汽车剩余停留时间t_i,r，其中，t_i,l＝t_out-t_i,in。利用第i辆电动汽车车辆信息确定电动汽车离开时的剩余电量SOC_i,end。将获得的数据进行整理，确定强化学习中的状态，如s_i＝[P_j,t,Q_j,t,EV_i,t,v_t]，其中，P_j,t为第j个充电站在t时刻接入的有功功率，Q_j,t为第j个充电站在t时刻注入的无功功率，v_t为t时刻电力系统的节点电压，EV_i,t＝{EV_i,soc、EV_i,C、EV_i,r、EV_i,P}，EV_i,soc为第i辆电动汽车电池SOC，EV_i,C为第i辆电动汽车电池容量，EV_i,r为第i辆电动汽车剩余充电时间，电动汽车停留剩余时间t_i,r＝t_i,in+t_i,l-t。

实施例二

图2为本发明实施例二提供的另一种基于强化学习的配电网调压方法的流程图，本实施例在上述实施例的基础上，对目标奖励函数的构建过程进行详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。如图2所示，该方法包括：

S210、基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数。

其中，配电网的有功功率网损可以包括但不限于配电网中上一时刻的有功功率网损和下一时刻的有功功率网损。有功功率网损下降率可以是指下一时刻的有功功率网损相比于上一时刻的有功功率网损的下降程度。充电站的偏差电压可以是但不限于充电站上一时刻的电压与下一时刻的电压之间的电压差。电动汽车离网时的电池电量可以是指电动汽车充电完成时的电池电量。具体地，基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数，从而可以基于构建出的目标奖励函数判断出有功功率网损下降率最大、偏差电压最小且电动汽车离网时的电池电量最大的配电网调压策略，进而有效配电网运行效益和电动汽车充电费用。其中，有功功率网损下降率最大，在汽车充电过程中电力系统损失的电量越少。偏差电压越小，电力系统越稳定。电动汽车离网时的电池电量越大，在电力传输过程中电量损失越少。

S220、基于配电网中的样本电网状态信息、由配电网供电的充电站中的样本充电站状态信息和充电站中每个电动汽车的样本充电状态信息和目标奖励函数进行强化学习，获得预设决策网络模型。

S230、获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息。

S240、将当前电网状态信息、当前充电站状态信息和当前充电状态信息输入至预设决策网络模型中。

S250、基于预设决策网络模型的输出，获得当前配电网调压策略，并基于当前配电网调压策略，对配电网进行调压。

本发明实施例的技术方案，基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数，从而可以基于构建出的目标奖励函数判断出有功功率网损下降率最大、偏差电压最小且电动汽车离网时的电池电量最大的配电网调压策略，进而有效配电网运行效益和电动汽车充电费用。

在上述技术方案的基础上，S210可以包括：基于配电网的有功功率网损下降率和充电站的偏差电压，构建第一奖励函数；基于电动汽车离网时的电池电量，构建第二奖励函数；将第一奖励函数和第二奖励函数进行相加，获得目标奖励函数。

其中，第一奖励函数可以是针对配电网运行指标的奖励函数。第一奖励函数对应的奖励值可以反映电动汽车无功和有功出力优化产生的无功优化效果。第二奖励函数可以是针对电动汽车离网时的电池电量高低的奖励函数。第二奖励函数对应的奖励值可以反映电动汽车充电效率。具体地，可以用下式表示一辆电动汽车对应的目标奖励函数。

r_i＝λ₁r_i,1+λ₂r_i,2

其中，i表示第i辆电动汽车，r_i表示第i辆电动汽车的目标奖励值，λ₁为第一奖励函数的权重系数，λ₂为第二奖励函数的权重系数，λ₁为正值，从而目标奖励函数的奖励值与第一奖励函数的奖励值是正相关的，也就是说，目标奖励函数的奖励值随着第一奖励函数的奖励值的增大而增大。λ₂为正值，从而目标奖励函数的奖励值与第二奖励函数的奖励值是正相关的，也就是说，目标奖励函数的奖励值随着第二奖励函数的奖励值的增大而增大。r_i,1为第i辆电动汽车对应的第一奖励函数，r_i,2为第i辆电动汽车对应的第二奖励函数。配电网对应的目标奖励函数可以是由充电站中所有在充电的电动汽车的目标奖励函数所组成。配电网对应的目标奖励函数的确定方式如下：

其中，n为充电站中电动汽车的数量。

在上述技术方案的基础上，“基于配电网的有功功率网损下降率和充电站的偏差电压，构建第一奖励函数”可以包括：确定配电网的有功功率网损下降率和充电站的偏差电压；对配电网的有功功率网损下降率和充电站的偏差电压进行加权相减，获得第一奖励函数，其中，配电网的有功功率网损下降率与奖励值为正相关，充电站的偏差电压与奖励值为负相关。

具体地，可以从配电网的运行数据存储库中，确定配电网的有功功率网损下降率和充电站的偏差电压。例如，有功功率网损下降率可以表示为ΔF，偏差电压可以表示为ΔV。对配电网的有功功率网损下降率和充电站的偏差电压进行加权相减，获得第一奖励函数。第一奖励函数的确定方式如下：

r₁＝β₁ΔF-β₂ΔV

其中，β₁为有功功率网损下降率的权重系数，有功功率网损下降率的权重系数为正值，从而有功功率网损下降率与第一奖励函数的奖励值是正相关的，也就是说，第一奖励函数的奖励值随着有功功率网损下降率的增大而增大。-β₂为偏差电压的权重系数。偏差电压的权重系数为负值，从而偏差电压与第一奖励函数的奖励值是负相关的，也就是说，第一奖励函数的奖励值随着偏差电压的增大而减小。用于反映电动汽车i无功和有功出力优化产生的无功优化效果在电动汽车集群无功优化效果中的比重的确定方式如下：

其中，Q_i为第i辆电动汽车所连接的充电桩的注入的无功功率。

在上述技术方案的基础上，“确定配电网的有功功率网损下降率”可以包括：获取执行配电网调压策略之前配电网中的第一有功功率网损和执行配电网调压策略之后配电网中的第二有功功率网损；确定第一有功功率网损与第二有功功率网损之间的有功功率网损差值；将有功功率网损差值与第二有功功率网损进行相除，并将相除结果确定为配电网的有功功率网损下降率。

具体地，获取执行配电网调压策略之前配电网中的第一有功功率网损和执行配电网调压策略之后配电网中的第二有功功率网损。将有功功率网损差值与第二有功功率网损进行相除，并将相除结果确定为配电网的有功功率网损下降率。例如，有功功率网损下降率的确定方式如下：

其中，F_l'_oss为无功优化前的电力系统有功网损，即第一有功功率网损，F_loss为无功优化后的电力系统有功网损，即第二有功功率网损。

需要说明的是，无功优化前的电力系统有功网损F_loss的确定方式如下：

其中，R_l为流经线路l的电流l_max的最大支路数，l_l,t为t时刻流经线路l的电流，Δt为无功优化的时间间隔。

在上述技术方案的基础上，“确定充电站的偏差电压”可以包括：获取执行配电网调压策略之后充电站的当前电压和充电站的额定电压；确定当前电压与额定电压之间的电压差；将电压差与额定电压进行相除，并将相除结果确定为充电站的偏差电压。

具体地，获取执行配电网调压策略之后充电站的当前电压和充电站的额定电压；确定当前电压与额定电压之间的电压差；将电压差与额定电压进行相除，并将相除结果确定为充电站的偏差电压。例如，偏差电压的确定方式如下：

其中，V_t为无功优化后的充电站电压幅值。V₀为充电站额定电压幅值。

在上述技术方案的基础上，“基于电动汽车离网时的电池电量，构建第二奖励函数”可以包括：若电动汽车离网时的电池电量大于0，且小于或等于最低参考电量，则确定第二奖励函数为0；若电动汽车离网时的电池电量大于最低参考电量，且小于或等于平均参考电量，则基于最低参考电量、平均参考电量和最低安全电量，确定第一分段函数，并将第一分段函数确定为第二奖励函数；若电动汽车离网时的电池电量大于平均参考电量，且小于或等于最高参考电量，则基于最低参考电量和平均参考电量，确定第二分段函数，并将第二分段函数确定为第二奖励函数；若电动汽车离网时的电池电量大于最高参考电量，且小于或等于最高可用电量，则基于最高安全电量和平均参考电量，确定第三分段函数，并将第三分段函数确定为第二奖励函数。

其中，第二奖励函数可以是分段函数。第二奖励函数中的自变量可以是电动汽车离网时的电池电量。电动汽车离网时的电池电量可以由电量值或电量比例表示。其中，电量值可以是指电池的具体电量数值，如3600毫安。电量比例是指电量值与电池满电电量之间的比值。例如，在第二奖励函数中，电动汽车电池满电时对应的电池电量，即最高可用电量可以用a进行表示。第二奖励函数的确定方式如下：

其中，若电动汽车离网时的电池电量用电量值进行表示，则最高可用电量a也用电量值进行表示。此时，最高可用电量a为电动汽车电池满电时对应的电量值，如54000毫安。若电动汽车离网时的电池电量用电量比例进行表示，则最高可用电量a也用电量比例进行表示。此时，最高可用电量a为电动汽车电池满电时对应的电量比例，如1或100％。以第i辆电动汽车为例，电动汽车离网时的电池电量为SOC_i,end，r_max为r_i,2中最大的奖励值，SOC_low为最低参考电量，SOC_min为最低安全电量，SOC_ref为平均参考电量，SOC_high为最高参考电量，SOC_max为最高安全电量。其中，各个电池电量之间的大小关系为SOC_min小于SOC_low，SOC_low小于SOC_ref，SOC_ref小于SOC_high且SOC_high小于SOC_max。各个电池电量的表示方式和电动汽车离网时的电池电量的表示方式一致。

需要说明的是，第i辆电动汽车离网时的电池电量的确定方式如下：

其中，t_start为电动汽车入网时间，t_end为电动汽车离网时间，电动汽车离网时间可以由用户输入的预计停留时间或根据历史停留数据计算出的电动汽车最可能的离网时间，P_i为第i辆电动汽车预计充电功率，SOC_i,start为电动汽车入网的电池电量，C_i为第i辆电动汽车的电池容量。

其中，P_i的确定方式如下：

P_i＝min(P_i,set,P_i,n)

其中，P_i,set为电动汽车在接受调度时的充电功率，P_i,n为电动汽车在不参与调度时的额定充电功率。

以下是本发明实施例提供的基于强化学习的配电网调压装置的实施例，该装置与上述各实施例的基于强化学习的配电网调压方法属于同一个发明构思，在基于强化学习的配电网调压装置的实施例中未详尽描述的细节内容，可以参考上述基于强化学习的配电网调压方法的实施例。

实施例三

图3为本发明实施例三提供的一种基于强化学习的配电网调压装置的结构示意图。如图3所示，该装置包括：信息获取模块310、信息输入模块320和调压策略确定模块330。

其中，信息获取模块310，用于获取配电网中的当前电网状态信息、由配电网供电的充电站中的当前充电站状态信息和充电站中每个电动汽车的当前充电状态信息；信息输入模块320，用于将当前电网状态信息、当前充电站状态信息和当前充电状态信息输入至预设决策网络模型中，预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，目标奖励函数是基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量进行构建的；调压策略确定模块330，用于基于预设决策网络模型的输出，获得当前配电网调压策略，并基于当前配电网调压策略，对配电网进行调压。

可选地，该装置还包括：

目标奖励函数构建模块，用于基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数。

可选地，目标奖励函数构建模块可以包括：

第一奖励函数构建子模块，用于基于配电网的有功功率网损下降率和充电站的偏差电压，构建第一奖励函数；

第二奖励函数构建子模块，用于基于电动汽车离网时的电池电量，构建第二奖励函数；

目标奖励函数构建子模块，用于将第一奖励函数和第二奖励函数进行相加，获得目标奖励函数。

可选地，第一奖励函数构建子模块可以包括：

参数确定单元，用于确定配电网的有功功率网损下降率和充电站的偏差电压；

第一奖励函数构建单元，用于对配电网的有功功率网损下降率和充电站的偏差电压进行加权相减，获得第一奖励函数，其中，配电网的有功功率网损下降率与奖励值为正相关，充电站的偏差电压与奖励值为负相关。

可选地，参数确定单元具体用于：获取执行配电网调压策略之前配电网中的第一有功功率网损和执行配电网调压策略之后配电网中的第二有功功率网损；确定第一有功功率网损与第二有功功率网损之间的有功功率网损差值；将有功功率网损差值与第二有功功率网损进行相除，并将相除结果确定为配电网的有功功率网损下降率。

可选地，参数确定单元还具体用于：获取执行配电网调压策略之后充电站的当前电压和充电站的额定电压；确定当前电压与额定电压之间的电压差；将电压差与额定电压进行相除，并将相除结果确定为充电站的偏差电压。

可选地，第二奖励函数构建子模块具体用于：若电动汽车离网时的电池电量大于0，且小于或等于最低参考电量，则确定第二奖励函数为0；若电动汽车离网时的电池电量大于最低参考电量，且小于或等于平均参考电量，则基于最低参考电量、平均参考电量和最低安全电量，确定第一分段函数，并将第一分段函数确定为第二奖励函数；若电动汽车离网时的电池电量大于平均参考电量，且小于或等于最高参考电量，则基于最低参考电量和平均参考电量，确定第二分段函数，并将第二分段函数确定为第二奖励函数；若电动汽车离网时的电池电量大于最高参考电量，且小于或等于最高可用电量，则基于最高安全电量和平均参考电量，确定第三分段函数，并将第三分段函数确定为第二奖励函数。

可选地，该装置还包括：

调压动作决策模块，用于将配电网中的样本电网状态信息、由配电网供电的充电站中的样本充电站状态信息和充电站中每个电动汽车的样本充电状态信息输入至待训练的预设决策网络模型中进行电网调压动作决策；

样本信息确定模块，用于基于待训练的预设决策网络模型输出的样本配电网调压策略，确定执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；

目标奖励值确定模块，用于将执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息代入至目标奖励函数中，确定出样本配电网调压策略对应的目标奖励值；

预设决策网络模型确定模块，用于基于目标奖励值，调整待训练的预设决策网络模型中的网络参数，直到满足预设收敛条件时训练结束，获得训练结束后的预设决策网络模型。

可选地，样本信息确定模块具体用于：基于配电网区域节点模型，对待训练的预设决策网络模型输出的样本配电网调压策略进行模拟调压，获得配电网区域节点模型输出的执行样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；其中，配电网区域节点模型是基于实际配电网、充电站以及电动汽车之间的连接关系构建的用于进行潮流计算的节点模型。

本发明实施例所提供的基于强化学习的配电网调压装置可执行本发明任意实施例所提供的基于强化学习的配电网调压方法，具备执行基于强化学习的配电网调压方法相应的功能模块和有益效果。

值得注意的是，上述基于强化学习的配电网调压装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如基于强化学习的配电网调压方法。

在一些实施例中，基于强化学习的配电网调压方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的基于强化学习的配电网调压方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于强化学习的配电网调压方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于强化学习的配电网调压方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于配电网的有功功率网损下降率、充电站的偏差电压和电动汽车离网时的电池电量构建目标奖励函数，包括：

基于配电网的有功功率网损下降率和充电站的偏差电压，构建第一奖励函数；

基于电动汽车离网时的电池电量，构建第二奖励函数；

将所述第一奖励函数和所述第二奖励函数进行相加，获得目标奖励函数。

3.根据权利要求2所述的方法，其特征在于，基于配电网的有功功率网损下降率和充电站的偏差电压，构建第一奖励函数，包括：

确定配电网的有功功率网损下降率和充电站的偏差电压；

对所述配电网的有功功率网损下降率和所述充电站的偏差电压进行加权相减，获得第一奖励函数，其中，所述配电网的有功功率网损下降率与奖励值为正相关，所述充电站的偏差电压与奖励值为负相关。

4.根据权利要求3所述的方法，其特征在于，确定配电网的有功功率网损下降率，包括：

获取执行配电网调压策略之前配电网中的第一有功功率网损和执行配电网调压策略之后配电网中的第二有功功率网损；

确定所述第一有功功率网损与所述第二有功功率网损之间的有功功率网损差值；

将所述有功功率网损差值与所述第二有功功率网损进行相除，并将相除结果确定为配电网的有功功率网损下降率。

5.根据权利要求3所述的方法，其特征在于，确定充电站的偏差电压，包括：

获取执行配电网调压策略之后充电站的当前电压和充电站的额定电压；

确定所述当前电压与所述额定电压之间的电压差；

将所述电压差与所述额定电压进行相除，并将相除结果确定为充电站的偏差电压。

6.根据权利要求2所述的方法，其特征在于，基于电动汽车离网时的电池电量，构建第二奖励函数，包括：

若电动汽车离网时的电池电量大于0，且小于或等于最低参考电量，则确定第二奖励函数为0；

若电动汽车离网时的电池电量大于最低参考电量，且小于或等于平均参考电量，则基于最低参考电量、平均参考电量和最低安全电量，确定第一分段函数，并将所述第一分段函数确定为第二奖励函数；

若电动汽车离网时的电池电量大于平均参考电量，且小于或等于最高参考电量，则基于最低参考电量和平均参考电量，确定第二分段函数，并将所述第二分段函数确定为第二奖励函数；

若电动汽车离网时的电池电量大于最高参考电量，且小于或等于最高可用电量，则基于最高安全电量和平均参考电量，确定第三分段函数，并将所述第三分段函数确定为第二奖励函数。

7.根据权利要求1所述的方法，其特征在于，所述预设决策网络模型的强化学习过程，包括：

将配电网中的样本电网状态信息、由所述配电网供电的充电站中的样本充电站状态信息和所述充电站中每个电动汽车的样本充电状态信息输入至待训练的预设决策网络模型中进行电网调压动作决策；

基于待训练的预设决策网络模型输出的样本配电网调压策略，确定执行所述样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；

将执行所述样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息代入至目标奖励函数中，确定出所述样本配电网调压策略对应的目标奖励值；

基于所述目标奖励值，调整待训练的预设决策网络模型中的网络参数，直到满足预设收敛条件时训练结束，获得训练结束后的预设决策网络模型。

8.根据权利要求7所述的方法，其特征在于，基于待训练的预设决策网络模型输出的样本配电网调压策略，确定执行所述样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息，包括：

基于配电网区域节点模型，对待训练的预设决策网络模型输出的样本配电网调压策略进行模拟调压，获得所述配电网区域节点模型输出的执行所述样本配电网调压策略之后的样本电网状态信息、样本充电站状态信息和样本充电状态信息；

其中，所述配电网区域节点模型是基于实际配电网、充电站以及电动汽车之间的连接关系构建的用于进行潮流计算的节点模型。

9.一种基于强化学习的配电网调压装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的基于强化学习的配电网调压方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的基于强化学习的配电网调压方法。