CN117375097A

CN117375097A - 基于多代理协调控制策略与强化学习的光伏协调自治方法

Info

Publication number: CN117375097A
Application number: CN202311227255.7A
Authority: CN
Inventors: 周大谋; 高辉; 逯海军; 李炜卓; 徐运兵; 罗维柒; 徐霄
Original assignee: Nanjing University of Posts and Telecommunications; Nanjing Daqo Automation Technology Co Ltd
Current assignee: Nanjing University of Posts and Telecommunications; Nanjing Daqo Automation Technology Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-09

Abstract

本发明公开了一种基于多代理协调控制策略与强化学习的光伏协调自治方法，包括步骤：获取光伏逆变器各项数据与各节点用能设备能源供需数据；基于分层分布式架构设计初始多级代理并网协调控制策略；基于历史采集的光伏数据与能源供需数据训练强化学习模型；基于强化学习模型优化初始多级代理并网协调控制策略；基于最优多级代理并网协调控制策略确定当前各节点光伏的出力和用能设备需求调整量。其显著效果是：实现了光伏能源的有效消纳，有效降低了光伏大规模接入的不确定性对电网安全运行的影响，有效提升了并网控制装置协同自治的快速响应能力，同时还提高了台区内光伏并网的控制效率。

Description

基于多代理协调控制策略与强化学习的光伏协调自治方法

技术领域

本发明涉及到强化学习下的多目标优化技术领域，具体涉及一种基于多代理协调控制策略与强化学习的光伏协调自治方法。

背景技术

目前，虽有部分企业开展光伏并网控制相关研究，但仍缺少大规模光伏并网的应用场景，因此它们对于大规模分布式光伏并网过程中出现的多代理协调控制、台区就地决策等实际规模化问题缺乏相应的技术解决方案。另一方面，已有公司的光伏并网技术对于大规模分布式光伏台区间的柔性互联缺乏系统性的研发策略与行业标准，无法解决光伏大规模接入不确定性对电网安全运行的影响。此外，强化学习在光伏协调自治的策略研究还处于早期探索阶段，该方法的研究可提高并网控制装置协同自治的快速响应能力与控制效率，实现大规模光伏的有序并网。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于多代理协调控制策略与强化学习的光伏协调自治方法，通过设计多级代理并网协调控制功能，提升并网控制装置协同自治的快速响应能力。

为达到上述目的，本发明采用的技术方案如下：

一种基于多代理协调控制策略与强化学习的光伏协调自治方法，其关键在于，包括如下步骤：

步骤1，并网控制装置基于边缘计算技术实时获取光伏逆变器输出的各项数据与各节点用能设备的能源供需数据；

步骤2，基于分层分布式架构，设计并网控制装置对集中式光伏及分布式光伏的初始多级代理并网协调控制策略；

所述对集中式光伏及分布式光伏的初始多级代理并网协调控制策略具体为：

对集中式光伏实现多级代理并网协调控制时，并网控制装置接收来自云端并网协同自治运维管控系统发布的经边缘自治决策终端传输的协同并网决策方案，得到集中式光伏的初始多级代理协调控制策略；

对分布式光伏实现多级代理并网协调控制时，并网控制装置根据分布式光伏的输出及其用能设备的供需和云端所下达的协同并网决策进行协调优化，得到分布式光伏的初始多级代理并网协调控制策略；

步骤3，建立强化学习模型，并基于历史采集的光伏逆变器输出的数据与用能设备的能源供需数据对其进行训练；

步骤4，基于训练后的强化学习模型，采用当前采集的光伏逆变器输出的各项数据与各节点用能设备的能源供需数据对模型进行调整，并优化所述初始多级代理并网协调控制策略，获得最优多级代理并网协调控制策略；

步骤5，基于最优多级代理并网协调控制策略，确定当前各节点光伏的出力和用能设备需求调整量，并调整集中式光伏和分布式光伏的运行状态。

进一步的，步骤1中基于边缘计算技术实时获取光伏逆变器输出的各项数据与各节点用能设备的能源供需数据的具体过程如下：

在光伏逆变器和用能设备附近安装边缘计算设备；

将边缘计算设备与光伏逆变器和用能设备连接，以采集光伏逆变器输出的各项数据与各节点用能设备的能源供需数据，并对数据进行预处理；

并网控制装置基于物联网通信协议实时共享所述边缘计算设备所采集并预处理后的数据。

进一步的，所述光伏逆变器输出的数据包括有功功率、无功功率、电压、电流、设备状态；所述用能设备的能源供需数据包括能源需求数据、功率消耗数据。

进一步的，步骤2中获得所述初始多级代理并网协调控制策略时，包括如下步骤：

对集装式光伏和分布式光伏定义动作和决策集合；

对并网控制装置划分模型训练模块与决策模块，获得所述初始多级代理并网协调控制策略。

进一步的，对集装式光伏和分布式光伏定义动作和决策集合的具体过程如下：

1)对每个分布式光伏系统，设置一个本地代理控制，获取本地光伏系统的运行状态信息，并通过并网控制装置下达的策略进行本地控制决策；

2)对于集中式光伏系统，将其看为一个整体，设置一个本地代理控制，与其他分布式光伏系统属于一个同级；

3)本地代理模块获取各光伏系统的运行状态信息并通过通信网络传送至所述并网控制装置，通过动作模块对并网控制装置下达的策略做出决策和动作；

4)动作模块预先定义一个集合Ac作为动作集，在接收上级所传送的策略后，进行解析并通过一个维持状态集Ⅰ来影响代理的下一步动作，做出正确决策。

进一步的，对并网控制装置划分模型训练模块与决策模块的具体过程如下：

定义集合decision为强化学习的模型训练模块，用于输出决策集；

模型训练模块根据输入的数据输出决策后，进一步优化协同并网决策，控制模块通过通信网络下发至各光伏本地代理层，各光伏本地代理层接收策略并存储到维持状态集Ⅰ，各光伏系统执行相应的动作，获得所述初始多级代理并网协调控制策略。

进一步的，步骤3中建立强化学习模型并训练的具体步骤如下：

S1，基于待控制光伏系统，定义强化学习模型的状态空间、动作空间和奖励函数，建立强化学习模型；

S2，使用神经网络作为强化学习模型的值函数近似器，将光伏系统的状态映射到对应的行动值函数，以指导并网控制装置的行为选择；

S3，结合深度强化学习方法中的深度Q-网络(DQN)来提高强化学习模型的性能和收敛速度；

S4，根据历史采集的光伏逆变器输出的数据与用能设备的能源供需数据对强化学习模型进行训练。

进一步的，步骤S1中定义强化学习模型的状态空间、动作空间和奖励函数的具体步骤如下：

1)定义S为所有状态表示的集合，s_t∈S表示智能体在t时段所处环境中感知到的光伏系统的状态，光伏系统的状态包括光伏逆变器的有功功率、无功功率、电压、电流、设备状态以及用能设备的能源需求、功率消耗，则状态空间S表示为：

S＝{P_有,P_无,V,I,D,E,P}，

其中，P_有表示光伏逆变器的有功功率，P_无表示光伏逆变器的无功功率，V表示光伏逆变器的输出电压，I表示光伏逆变器的输出电流，D表示光伏逆变器的设备状态，E表示用能设备的能源需求，P表示用能设备的功率消耗；

2)定义A为智能体所有可执行动作的集合，a_t∈A表示智能体在t时段采取的动作，其中并网控制装置的可执行动作包括调节光伏逆变器的有功功率、无功功率、电压、电流，则动作空间A表示为：

A＝{A_P有,A_P无,A_V,A_I,}，

其中，A_P有表示调节光伏逆变器的有功功率的动作，A_P无表示调节光伏逆变器的无功功率的动作，A_V表示调节光伏逆变器的电压的动作，A_I表示调节光伏逆变器的电流的动作；

3)定义R为奖励函数，r_t∈R(s_t,a_t)表示智能体在状态s_t执行动作a_t获得的即时奖励，奖励函数包括即时奖励r(s,a)和累积奖励R_t，通常使用折扣因子γ对未来奖励进行折现，则累积奖励表示为：

其中，R_t表示时间步t之后的累积奖励，γ是折扣因子，r(s_t',a_t')表示在时间步t'执行行动a_t'之后的即时奖励。

进一步的，步骤S4中对强化学习模型进行训练的具体步骤为：

使用神经网络表示值函数近似器，其输入为状态s，则输出为行动值函数Q(s,a)的估计值，则Q(s,a)的表达式为：

Q(s,a)≈Q(s,a；θ)，

其中，θ是神经网络的参数；

采用DQN深度学习算法对强化学习模型进行训练，所述DQN深度学习算法的表达式为：

其中，θ′是目标网络的参数；

利用均方误差损失函数对强化学习模型的训练过程进行优化，所述均方误差损失函数的表达式为：

L(0)＝(y-Q(S:,C:；0))，

其中,参数θ使用梯度下降的方法来进行更新值；

在每个训练步骤中，并网控制装置根据当前状态选择控制策略，并与模拟器进行交互，然后使用奖励信号和反馈来更新神经网络的参数θ，通过反复迭代训练过程，使并网控制装置中逐渐学习到历史采集的光伏逆变器输出的数据与用能设备的能源供需数据的最优控制策略。

进一步的，步骤5中确定当前各节点光伏的出力和用能设备需求调整量，并调整集中式光伏和分布式光伏的运行状态的步骤如下：

并网控制装置在收到云端并网协同自治运维管控系统所发送的协同并网决策方案后，结合最优多级代理并网协调控制策略，对光伏的运行状态进行优化调整，实现对集中式和分布式光伏的堆积代理并网协调控制。

本发明的显著效果是：

1)通过边缘计算技术实时共享整个待控制区域光伏的光伏数据和能源供需数据，能够快速获取各节点的能源生产和消费情况，从而更准确地进行能源供需匹配，这有助于降低能源浪费，提高能源利用效率。

2)利用强化学习技术，根据历史采集的光伏数据和能源供需数据，不断优化多级并网协调控制策略，同时通过学习和适应各节点的需求变化和能源生产能力，能够快速确定各节点的出力和需求调整量，以实现高效的能源供应和消纳。

3)通过整合光伏云端、终端以及用能设备的能源供需情况，并实时共享给并网控制装置，可以更好地管理和优化能源消纳；同时并网控制装置能够根据实时情况，调整光伏发电的出力和分配给各个用能设备的能量，实现了光伏能源的有效消纳，避免过载或能源浪费的问题，有效降低了光伏大规模接入的不确定性对电网安全运行的影响。

4)采用分层分布式架构，使得并网控制装置具备了对集中式和分布式光伏的多级代理协调控制功能，同时这种架构可以有效管理大规模的光伏系统，并实现集中式和分布式光伏之间的协同运行，从而通过整合各级代理的控制策略和决策，光伏并网的控制效率得到了大幅提高。

附图说明

图1是本发明的方法流程图；

图2是并网控制装置的技术架构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，本实施例提出了一种基于多代理协调控制策略与强化学习的光伏协调自治方法，具体步骤如下：

进入步骤1，并网控制装置基于边缘计算技术实时获取光伏逆变器输出的各项光伏数据与各节点用能设备的能源供需数据，具体过程如下：

首先，在光伏逆变器和用能设备附近安装边缘计算设备，如：边缘服务器、嵌入式系统或物联网网关；

其次，将边缘计算设备连接到光伏逆变器和用能设备以获取相关的光伏数据，主要包括光伏逆变器的有功功率、无功功率、电压、电流、设备状态等信息，以及用能设备的能源需求、功率消耗等信息，并对数据进行预处理；

最后，采用如图2所示技术架构的并网控制装置通过MQTT(Message QueuingTelemetry Transport，消息队列遥测传输协议)或CoAP(Constrained ApplicationProtocol，约束应用协议)等物联网通信协议，实时共享来自边缘计算设备采集到的数据。

进入步骤2，基于分层分布式架构，设计并网控制装置对集中式光伏及分布式光伏的初始多级代理并网协调控制策略；

并网控制装置对集中式光伏及分布式光伏的初始多级代理并网协调控制策略的具体实现过程为：

对集中式光伏实现多级代理并网协调控制时，由于集中式光伏所发的电能被直接并入10kV的电网线路中，并网控制装置只需要执行来自云端并网协同自治运维管控系统发布的经边缘自治决策终端传输的协同并网决策方案，及时调整集中式光伏的运行状态，即可实现对集中式光伏的多级代理并网协调控制，由此可得到集中式光伏的初始多级代理协调控制策略；

对分布式光伏实现多级代理并网协调控制时，由于分布式光伏所发电较为分散、海量并入高压电网难以管控，只能先并入0.4kV的电网线路中，并且优先为一些用能设备进行供能实现就地消纳，之后才并入10kV的电网线路中，所以并网控制装置需要根据分布式光伏的输出及其用能设备的供需和云端所下达的协同并网决策进行协调优化，从而得到分布式光伏的初始多级代理并网协调控制策略；

在初始多级代理并网协调控制策略的获得过程中，需要对集中式光伏和分布式光伏定义动作与决策集合，具体内容如下：

1)对每个分布式光伏系统，设置一个本地代理控制，获取本地光伏系统的状态信息，并通过并网控制装置下达的策略进行本地控制决策；

2)对于集中式光伏系统，将其看为一个整体，设置一个本地代理控制，与其他分布式的光伏系统属于一个同级；

3)本地代理模块可获取该光伏系统的状态信息并通过通信网络传送至并网控制装置，通过动作模块对并网控制装置下达的策略做出决策和动作；

4)动作模块预先定义一个集合Ac作为动作集，在接收上级所传送的策略后，进行解析并通过一个维持状态集Ⅰ来影响代理的下一步动作，做出正确决策，动作模块中维持状态集I到动作集Ac的映射如公式(1)所示：

Action:I→Ac (1)

此外，此过程还需要对并网控制装置进一步划分模型训练模块与决策模块，包括以下具体内容：

1)定义集合decision为深度强化学习模型的模型训练模块，用于输出决策集，模型训练模块可以将处理集Per映射到决策集Dec，如公式(2)所示：

Decision:Per→Dec (2)

2)模型训练模块根据输入的实时数据作出决策后，进一步优化协同并网决策，控制模块通过通信网络下发至各光伏本地代理层，各光伏本地代理层接收策略存储到维持状态集Ⅰ，最后光伏系统执行相应的动作，以此实现基于分层分布式架构的初始多级代理并网协调控制策略。

进入步骤3，建立强化学习模型，并基于历史采集的光伏逆变器输出的数据与用能设备的能源供需数据对其进行训练，具体过程如下：

S1，基于深度强化学习的模型建模需要将光伏系统建模为一个强化学习环境，因此基于待控制光伏系统，定义强化学习模型的状态空间、动作空间和奖励函数，建立强化学习模型；

S4，根据历史采集的光伏逆变器输出的光伏数据与用能设备的能源供需数据对强化学习模型进行训练。

步骤S1中需要设计模型中的状态表示、动作空间和奖励函数，具体内容为：

1)定义S为所有状态表示的集合，s_t∈S表示智能体在t时段所处环境中感知到的状态。其中光伏系统的状态可以包括边缘计算技术实时共享的光伏逆变器的有功功率、无功功率、电压、电流、设备状态等信息，以及用能设备的能源需求、功率消耗等信息，因此模型中的状态空间S可定义为公式(3)：

S＝{P_有,P_无,V,I,D,E,P} (3)

2)定义A为智能体所有可执行动作的集合，a_t∈A表示智能体在t时段采取的动作，其中并网控制装置的可执行动作包括调节光伏逆变器的有功功率、无功功率、电压、电流。因此强化学习模型中的动作空间A可以定义为公式(4)：

A＝{A_P有,A_P无,A_V,A_I,} (4)

3)定义R为奖励函数，r_t∈R(s_t,a_t)表示智能体在状态s_t执行动作a_t获得的即时奖励。奖励函数包括即时奖励r(s,a)和累积奖励R_t，通常使用折扣因子γ对未来奖励进行折现，累积奖励可以表示为公式(5)：

在定义状态表示、动作空间和奖励函数后，使用神经网络作为值函数近似器，结合深度强化学习方法中的深度Q-网络(DQN)来提高算法的性能和收敛速度，最后对模型进行训练，具体过程如下：

值函数近似器可以使用神经网络表示，其中输入为状态s，输出为行动值函数Q(s,a)的估计值，表示为公式(6)：

Q(s,a)≈Q(s,a；θ) (6)

其中，θ是神经网络的参数。

采用DQN深度学习算法对强化学习模型进行训练。DQN算法：深度Q-网络(DQN)是一种常用的强化学习算法，其训练过程基于贝尔曼方程和经验回放机制。更新目标值的公式可以表示为公式(7)：

其中，θ′是目标网络的参数，用于稳定训练过程。

利用均方误差损失函数对强化学习模型的训练过程进行优化，所述均方误差(MSE)如公式(8)所示：

L(θ)＝(y_t-Q(s_t，a_t；θ))² (8)其中，参数θ使用梯度下降的方法来进行更新值。

在每个训练步骤中，并网控制装置根据当前状态选择控制策略，并与模拟器进行交互，然后，使用奖励信号和反馈来更新神经网络的参数θ，通过反复迭代训练过程，使并网控制装置中逐渐学习到历史采集数据的最优控制策略。

进入步骤4，基于训练后的强化学习模型，采用当前采集的光伏逆变器输出的各项光伏数据与各节点用能设备的能源供需数据对模型进行调整，并优化所述初始多级代理并网协调控制策略，获得最优多级代理并网协调控制策略，具体过程如下：

当并网控制装置接收当前所采集的光伏逆变器输出的各项光伏数据与各节点用能设备的能源供需数据后，基于这些当前采集数据对强化学习模型中的参数进行训练调整，得到面向当前采集数据的最优多级代理并网协调控制策略。

最后进入步骤5，基于最优多级代理并网协调控制策略，确定当前各节点光伏的出力和用能设备需求调整量，并调整集中式光伏和分布式光伏的运行状态，提高并网控制装置协同自治的快速响应能力与控制效率，其具体过程如下：

并网控制装置在收到云端并网协同自治运维管控系统所发送的协同并网决策方案后，结合基于强化学习训练后的决策方案形成优化后的所述最优多级代理并网协调控制策略，对光伏的状态进行优化调整，实现对集中式和分布式光伏的多代理协调控制策略，提高并网控制装置协同自治的快速响应能力与控制效率。

本发明旨在研发一种基于多代理协调控制策略与强化学习的光伏协同自治方法，利用获得的最优多级代理并网协调控制策略对集中式光伏和分布式光伏的运行状态进行控制，不仅实现了光伏能源的有效消纳，避免过载或能源浪费的问题，有效降低了光伏大规模接入的不确定性对电网安全运行的影响，而且有效提升了并网控制装置协同自治的快速响应能力，同时还提高了台区内光伏并网的控制效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤1中基于边缘计算技术实时获取光伏逆变器输出的各项数据与各节点用能设备的能源供需数据的具体过程如下：

在光伏逆变器和用能设备附近安装边缘计算设备；

3.根据权利要求2所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：所述光伏逆变器输出的数据包括有功功率、无功功率、电压、电流、设备状态；所述用能设备的能源供需数据包括能源需求数据、功率消耗数据。

4.根据权利要求1所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤2中获得所述初始多级代理并网协调控制策略时，包括如下步骤：

对集装式光伏和分布式光伏定义动作和决策集合；

5.根据权利要求4所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：对集装式光伏和分布式光伏定义动作和决策集合的具体过程如下：

6.根据权利要求4所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：对并网控制装置划分模型训练模块与决策模块的具体过程如下：

7.根据权利要求1所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤3中建立强化学习模型并训练的具体步骤如下：

8.根据权利要求7所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤S1中定义强化学习模型的状态空间、动作空间和奖励函数的具体步骤如下：

S＝{P_有,P_无,V,I,D,E,P}，

A＝{A_P有,A_P无,A_V,A_I,}，

A_P有表示调节光伏逆变器的有功功率的动作，A_P无表示调节光伏逆变器的无功功率的动作，A_V表示调节光伏逆变器的电压的动作，A_I表示调节光伏逆变器的电流的动作；

9.根据权利要求8所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤S4中对强化学习模型进行训练的具体步骤为：

Q(s,a)≈Q(s,a；θ)，

其中，θ是神经网络的参数；

其中，θ′是目标网络的参数；

L(θ)＝(y_t-Q(s_t,a_t；θ))²，

其中,参数θ使用梯度下降的方法来进行更新值；

10.根据权利要求1所述的基于多代理协调控制策略与强化学习的光伏协调自治方法，其特征在于：步骤5中确定当前各节点光伏的出力和用能设备需求调整量，并调整集中式光伏和分布式光伏的运行状态的步骤如下：