CN117439184A

CN117439184A - 一种基于强化学习的风电场站控制方法及系统

Info

Publication number: CN117439184A
Application number: CN202311382402.8A
Authority: CN
Inventors: 伍双喜; 朱誉; 钟卓霖; 付传铭; 向丽玲; 华威
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-23

Abstract

本发明公开了一种基于强化学习的风电场站控制方法及系统，所述方法包括：获取一目标区域所有风电场站对应的各节点的状态数据；将各节点的状态数据输入到风电场站控制模型中，以使风电场站控制模型中与目标区域对应的策略网络根据各节点的状态数据生成用于表示有功出力消减量的动作值；其中，风电场站控制模型包括若干策略网络和若干评价网络，每一策略网络对应一智能体，在模型训练过程中多个智能体共享神经网络参数、共用同一经验池，且共享策略网络和评价网络的参数；根据所述动作值控制各风电场站的电压出力。本发明能够根据最优策略得到能够准确的出力结果，克服了风电出力的随机性以及不确定性的困难，即可以很好地维持电力系统的稳定性。

Description

一种基于强化学习的风电场站控制方法及系统

技术领域

本发明涉及技术电力系统领域，尤其涉及一种基于强化学习的风电场站控制方法及系统。

背景技术

随着新能源发电技术的不断发展，风力发电技术受到全球的广泛关注。在传统调度控制中，多以建立数学模型后使用传统优化算法求解最优解，但是因为风电场站在运行时，由于风电出力的随机性以及不确定性，使得系统受到大的干扰时，这些模型的出力结果可能是不准确的，即使用传统调度控制方法会面临着系统电压控制困难的问题，即现有技术不能很好地维持电力系统的稳定性。

发明内容

本发明实施例提供了一种基于强化学习的风电场站控制方法及系统，能有效解决现有技术中使用传统调度控制方法会面临着系统电压控制困难，不能很好地维持电力系统的稳定性的问题。

本发明一实施例提供了一种基于强化学习的风电场站控制方法，包括：

获取一目标区域所有风电场站对应的各节点的状态数据；其中，所述状态数据包括：电压、发电量、有功需求量以及无功需求量；

将各节点的状态数据输入到风电场站控制模型中，以使所述风电场站控制模型中与所述目标区域对应的策略网络，根据各节点的状态数据生成用于表示有功出力消减量的动作值；其中，所述风电场站控制模型包括若干策略网络和若干评价网络；

根据所述动作值控制各风电场站的电压出力；

其中，所述风电场站控制模型的训练包括：

对于每一策略网络以及对应的一评价网络，策略网络随机选取所对应区域中风电场站的历史数据作为当前状态量，根据所述当前状态量生成对应的当前动作值，以使对应的风电场站执行当前动作值并生成对应的当前奖励值和下一状态量；将所述当前状态量、当前动作值、当前奖励值以及下一状态量作为一组数据放入经验池中；其中，所述历史数据包括：历史电压、历史发电量、历史有功需求量以及历史无功需求量；

在检测到经验池存满时，重复执行如下训练操作，直至策略网络收敛，以完成风电场站控制模型的训练：

从所述经验池中随机选取若干组数据，以使所述评价网络根据若干组数据中的状态量以及动作值计算得到对应的评分值；

根据所述评分值对所述策略网络的损失函数进行更新，在判断所述策略网络未收敛时，则执行下一次训练操作。

优选地，所述根据所述当前状态量生成对应的当前动作值，以使对应的风电场站执行当前动作值并生成对应的当前奖励值和下一状态量，包括：

根据所述当前状态量生成对应的当前动作值，以使对应的风电场站执行当前动作值并根据当前状态量中的历史电压生成对应的当前奖励值，以及根据当前动作值计算得到下一状态量中的发电量，并根据下一状态量中的发电量计算得到下一状态量中的电压幅值后，根据历史有功需求量、历史无功需求量、下一状态量中的电压幅值以及下一状态量中的发电量生成下一状态量；

其中，所述当前状态量表示为：其中，V_i,t为配电网节点i在t时刻的电压幅值，/>为节点i处的风电场站在t时刻的发电量，/>为节点i处负载在t时刻的有功需求量，/>为节点i处负载在t时刻的无功需求量；

所述当前动作值，表示为：动作空间其中，动作空间值为[-1,1]；/>表示节点i处的风力发电装置的有功出力消减量；

所述当前奖励值，表示为：r＝C_αr₁+C_βr₂；其中， r₁、r₂分别为第一奖赏、第二奖赏；r₁表示各节点在时间范围T内的电压偏差量之和；N为节点数；V_i,t表示配电网第i个节点在时间t时刻的电压值，V₀表示配电网网络额定电压；C_α为配电网电压优化权重系数；r₂表示对电压超过安全范围的约束的惩罚，C_β为电压越限权重系数，V_min表示配电系统正常运行下的最小电压值，V_max表示配电系统正常运行下的最大电压值；

所述下一状态量，表示为：其中，V_i,'_t为节点i在下一t时刻的电压幅值，/>为节点i处的风电场站在下一t时刻的发电量，/>为节点i处负载在t时刻的有功需求量，/>为节点i处负载在t时刻的无功需求量。

优选地，所述风电场站控制模型，包括：配电网潮流约束、电压运行安全幅值约束以及风电场站约束；

所述配电网潮流约束为：

其中:V_i,t和θ_i,t表示i节点在t时刻电压的幅值和相角，P_i,t和Q_i,t表示i节点在t时刻有功功率和无功功率的实际注入量；G_ij,t和B_ij，t是节点i和节点j线路之间导纳元素的实部和虚部；θ_ij,t是节点i和节点j线路之间的相角差；

所述电压运行安全幅值约束为：

其中，V_min表示配电系统正常运行下的最小电压值；V_max表示配电系统正常运行下的最大电压值；

所述风电场站约束为：

其中，为风力发电机最大有功功率输出量。

优选地，所述根据当前动作值计算得到下一状态量中的发电量，并根据下一状态量中的发电量计算得到下一状态量中的电压幅值，包括：

根据所述风电场站约束中的如下公式计算得到下一状态量中的发电量：

其中，为节点i处的风电场站在下一t时刻的发电量，/>表示节点i处的风力发电装置的有功出力消减量，/>为节点i处的风电场站在t时刻的发电量；

根据所述配电网潮流约束中的如下公式计算得到下一状态量中的电压幅值：

优选地，在对风电场站控制模型进行训练之前，还包括：

将风电场站划分为多个区域，以使每个区域对应多个风电场站；其中，每个区域中的所有风电场站均有相同维度的状态空间和相同维度的动作空间，风电场站控制模型中的每一策略网络与一区域的所有风电场站对应，每一策略网络对应一评价网络，每一策略网络控制每一区域的所有风电场站。

优选地，在对风电场站控制模型进行训练的过程中，还包括：

每一策略网络对应一智能体，多个智能体在训练时共享所述风电场站控制模型对应的一神经网络的参数以及共用同一经验池，且使用参数共享的方法来共享策略网络以及评价网络的参数。

优选地，每一所述策略网络包括：当前策略网络和目标策略网络；每一评价网络包括：当前评价网络和目标评价网络；所述当前策略网络用于根据所述当前状态量生成对应的当前动作值；

在所述评价网络根据若干组数据中的状态量以及动作值计算得到对应的评分值之前，还包括：

所述目标策略网络根据下一状态量生成下一动作值，并将所述下一状态量以及下一动作值发送至对应的目标评价网络。

优选地，所述评价网络根据若干组数据中的状态量以及动作值计算得到对应的评分值，根据所述评分值对所述策略网络的损失函数进行更新，包括：

所述评价网络中的当前评价网络根据若干组数据中的当前状态量以及当前动作值计算得到对应的第一评分值；

所述评价网络中的目标评价网络根据所述下一状态量以及下一动作值计算得到对应的第二评分值；

根据所述第一评分值和第二评分值对所述当前策略网络的损失函数进行梯度更新，以使所述当前策略网络收敛时，所述当前策略网络获得用于生成最优动作值的最优策略。

优选地，在根据所述动作值控制各风电场站的电压出力后，还包括：

根据各风电场站的电压计算得到平均电压偏差；

根据平均电压偏差与预设偏差范围进行比较，并根据比较结果生成风电场站控制模型对应的控制结果；其中，所述控制结果包括优秀、一般、及格或失败。

在上述的方法实施例的基础上，本发明对应提供了系统项实施例。

本发明一实施例提供了一种基于强化学习的风电场站控制系统，包括：数据获取单元、动作值生成单元以及风电场站控制单元；

所述数据获取单元，用于获取一目标区域所有风电场站对应的各节点的状态数据；其中，所述状态数据包括：电压、发电量、有功需求量以及无功需求量；

所述动作值生成单元，用于将各节点的状态数据输入到风电场站控制模型中，以使所述风电场站控制模型中与所述目标区域对应的策略网络，根据各节点的状态数据生成用于表示有功出力消减量的动作值；其中，所述风电场站控制模型包括若干策略网络和若干评价网络；

所述风电场站控制单元，用于根据所述动作值控制各风电场站的电压出力；

其中，所述风电场站控制模型的训练包括：

通过实施本发明具有如下有益效果：

本发明实施例提供了一种基于强化学习的风电场站控制方法及系统，所述方法包括：获取一目标区域所有风电场站对应的各节点的状态数据；其中，所述状态数据包括：电压、发电量、有功需求量以及无功需求量；将各节点的状态数据输入到风电场站控制模型中，以使所述风电场站控制模型中与所述目标区域对应的策略网络，根据各节点的状态数据生成用于表示有功出力消减量的动作值；其中，所述风电场站控制模型包括若干策略网络和若干评价网络；根据所述动作值控制各风电场站的电压出力。与现有技术相比，本发明可以通过基于深度强化学习的风电场站控制模型来实现对风电场站的出力实现自动控制，且在控制时，可以将各节点的状态数据作为状态值，并生成对应的动作值，最后根据所述动作值控制风电场站的风电出力。因为本发明的风电场站控制模型在训练时，通过训练每一策略网络与所对应区域中的风电场站进行交互，使得对应的风电场站执行当前动作值并生成对应的当前奖励值和下一状态量，将当前状态量、当前动作值、当前奖励值以及下一状态量作为一组数据放入经验池中，从而可以使得评价网络根据经验池中数据组的状态量以及动作值计算得到对应的评分值，然后根据所述评分值对所述策略网络的损失函数进行更新，使得策略网络不断地根据当前策略对应的评分值进行优化直至收敛时，可以根据状态量生成最优策略下对应的动作值，即可以根据最优的动作值从而实现更好地控制各风电场站的电压出力。即本发明在使用上述训练方法训练得到的风电场站控制模型进行电压出力控制时，能够根据最优策略得到能够准确的出力结果，使得风电出力保持稳定，克服了风电出力的随机性以及不确定性的困难，即可以很好地维持电力系统的稳定性。

附图说明

图1是本发明一实施例提供的一种基于强化学习的风电场站控制方法的流程示意图。

图2是本发明另一实施例提供的基于强化学习的风电场站控制方法的流程示意图。

图3是本发明一实施例提供的同质分区以及风电场站接入位置示意图。

图4是本发明一实施例提供的对风电场站实施控制后的动作值变化图。

图5是本发明一实施例提供的对风电场站实施控制后的电压值的示意图。

图6是本发明一实施例提供的TD3算法的网络示意图。

图7是本发明一实施例提供的一种基于强化学习的风电场站控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图2所示，是本发明一实施例提供的一种基于强化学习的风电场站控制方法的流程示意图，所述基于强化学习的风电场站控制方法，包括：

步骤S1：获取一目标区域所有风电场站对应的各节点的状态数据；其中，所述状态数据包括：电压、发电量、有功需求量以及无功需求量；

步骤S2：将各节点的状态数据输入到风电场站控制模型中，以使所述风电场站控制模型中与所述目标区域对应的策略网络，根据各节点的状态数据生成用于表示有功出力消减量的动作值；其中，所述风电场站控制模型包括若干策略网络和若干评价网络；

步骤S3：根据所述动作值控制各风电场站的电压出力；

其中，所述风电场站控制模型的训练包括：

对于步骤S1，在一个优选的实施例中，风电场站控制模型用于控制多个区域的风电场站，每一区域包括多个风电场站，当获取一目标区域所有风电场站对应的各节点的状态数据后，可以实现对该目标区域中的风电场站进行控制。

对于步骤S2，在一个优选的实施例中，将各节点的状态数据输入到风电场站控制模型中，以使所述风电场站控制模型中与所述目标区域对应的策略网络，将各节点的状态数据作为状态量，并根据状态量生成用于表示有功出力消减量的动作值；

需要说明的是，所述风电场站控制模型包括若干策略网络和若干评价网络，每一策略网络与一区域的所有风电场站对应，每一策略网络对应一评价网络，每一策略网络控制每一区域的所有风电场站。

在一个优选的实施例中，所述风电场站控制模型的训练及构建包括：

所述风电场站控制模型包括目标函数，约束条件以及决策变量：

建立风电场站控制模型的目标函数：

min b₁

式中：b₁表示配电网各个节点在时间范围T内的电压偏差量之和；N为配电网节点数；V_i,t表示配电网第i个节点在时间t时刻的电压值；V₀表示配电网网络额定电压。

建立配电网潮流约束，对于有源配电网的动态特性可以描述为有功功率约束和无功功率约束：

其中:V_i,t和θ_i,t表示i节点在t时刻电压的幅值和相角，P_i,t和Q_i,t表示i节点在t时刻有功功率和无功功率的实际注入量。G_ij,t和B_ij，t是节点i和节点j线路之间导纳元素的实部和虚部，即电导和电纳；θ_i,t,是节点i和节点j线路之间的相角差，公式化表述为：

θ_ij,t＝θ_i,t-θ_j,t

示意性的，风力发电机接入发电侧实际有功注入量，是通过在t时刻接入节点i的分风电有功功率注入量负载有功功率需求量求得。实际无功注入量，是通过在t时接入节点i的负载无功功率需求量求得。综上对于接入控制器件的节点考虑器件动作以后潮流注入量为：

建立配电网电压运行安全幅值约束：

其中V_min表示配电系统正常运行下的最小电压值；V_max表示配电系统正常运行下的最大电压值。

建立风电场站约束：

其中为风力发电机最大有功功率输出量。

基于风电场站接入的配电网的同质分区划分，即将风电场站划分为多个区域，以使每个区域对应多个风电场站；其中，每个区域中的所有风电场站均有相同维度的状态空间和相同维度的动作空间。

在对风电场站控制模型进行训练过程中，还包括：

在训练过程中，多个智能体训练一个共享的神经网络，即多个智能体在训练时共享所述风电场站控制模型对应的一神经网络的参数以及共用同一经验池，且使用参数共享的方法共享策略网络和评价网络的参数。

参数共享是指在训练过程中允许所有智能体共享同一个的神经网络的网络参数，这样可以提高智能体的学习速率，在合作任务中还可以提高不同智能体之间的协同性。任意一个智能体都可以使用其他智能体收集的经验进行训练。因此，学习效率会大大提升。

从另有一个角度来说，不使用参数共享技术的训练过程中，需要训练的智能体网络数量和智能体数量是一致的，他们分布训练各自的网络参数。而在使用参数共享技术的训练过程中，由于共享了神经网络的参数，所以需要训练的智能体网络数量可以简化描述为1个，这样可以降低训练过程中的复杂度。

此外，参数共享需要更小的经验重放缓冲区，因此使用参数共享技术训练智能体需要更小的内存。本发明还可以实现提高采样效率，这进一步有助于提高收敛速度和稳定性。

在使用参数共享型多智能体深度强化学习方法之前需要先搭建X个具有相同状态空间和相同动作空间的智能体。同质即为有相同维度的状态空间和相同维度的动作空间。将配电网平均划分成X个区域，使不同分区中有相同维度的然后每个区域都接入Z个风电场站使其具有相同维度的/>和/>其中，强化学习中不同的智能体分别同时控制其对应的区域中的风电场站。如图3所示，将配电网平均划分成3个区域，然后每个区域都接入4个风电场站。

需要说的是，将强化学习的策略网络作为智能体，与对应的区域的风电场站进行交互。

确定用于构建风电场站控制模型的部分可观测马尔可夫模型，马尔可夫模型由元组(L,S,A₁,A₂,…A_N,P,R₁,R₂,…R_N,γ)表示，其中L为智能体个数；S为环境中智能体观测到的状态；A_j为智能体j的动作集合，R_j,为智能体j获得的奖励，P为状态转移概率，γ为折扣因子；将配电网作为环境，风电场站定义为能够与环境交互的智能体，其中s_t ^j∈S表示t时刻智能体j观测到的状态值；表示t时刻智能体j执行的动作；r_t ^j∈R所有智能体共享一个奖励值。

所述马尔可夫模型包括：

确定状态其中，V_i,t为配电网节点i在t时刻的电压幅值，/>为节点i处的风电场站在t时刻的发电量，/>为节点i处负载在t时刻的有功需求量，/>为节点i处负载在t时刻的无功需求量；

确定动作空间其中，动作空间值为[-1,1]；/>表示节点i处的风力发电装置的有功出力消减动作，因为风力发电机一般只向电网送电，所以风力发电机向电网输送的实际有功注入量可以为：

其范围值为/>

设置最终的奖励r＝C_αr₁+C_βr₂；

其中，

其中，r₁、r₂,分别为第一奖赏、第二奖赏；r₁表示配电网各个节点在时间范围T内的电压偏差量之和，即可通过求解风电场站控制模型的目标函数得到；N为配电网节点数；V_i,t表示配电网第i个节点在时间t时刻的电压值；V₀表示配电网网络额定电压；C_α为配电网电压优化权重系数；r₂表示对电压超过安全范围的约束的惩罚，C_β配电网电压越限权重系数。V_min表示配电系统正常运行下的最小电压值；V_max表示配电系统正常运行下的最大电压值。

基于建立的马尔可夫模型，本发明的风电场站控制模型的训练完成过程实际也是采用马尔可夫决策(Markov Decision Process,MDP)过程对强化学习问题进行建模。

即本发明的部分可观测马尔可夫模型形成是深度强化学习模型构建的基础，系统同质分区是多智能体参数共享的关键，基于参数共享的多智能体深度强化学习的风电场控制模型构建是实现风电场出力自动控制的核心。而强化学习算法是通过智能体不断与环境交互获得奖励，通过策略探索，建立起一个状态与动作之间的映射关系的自我学习机制。

如图4和图5所示的智能体对风电场站实施控制后的动作值变化图和电压值的示意图，智能体在与环境交互时，通过策略得出动作值，在环境中执行动作并将得到奖励值反馈给智能体，智能体根据所得奖励值判断动作被强化或弱化。智能体可以学习到如何在环境中根据不同状态得出最高奖励值，从而得出最优控制策略。

示意性的，智能体为与一风电场站对应的策略网络，则本发明的风电场控制模型中包括多个智能体，每一智能体在训练完成后均可以获得最优策略，且各个智能体在训练时共享的一个神经网络。因此，在训练过程中，各个智能体的训练过程是独立的，即智能体1训练智能体1对应的策略网络和评价网络。则本发明在训练过程中多个智能体使用同一个网络，使得所有智能体在学习过程中都使用这个共享的神经网络来估算Q函数或策略，是一种可以提升学习效率、降低训练过程的计算复杂度的技术。它通过在集中训练阶段多个智能体共享(actor)行动网络和(critic)评价网络的网络参数，共用一个经验池来实现。所有智能体在获得依据本地状态空间得到的策略以外还可以得到其他智能体的策略，使控制策略变得多样化，可以降低训练成本提高算法的可扩展性、稳定性和加快收敛速度。

需要说明的是，在对本发明的风电场站控制模型进行训练时，实际也是对于每个智能体进行训练，即对于每一策略网络以及对应的一评价网络进行训练；

具体的，每一所述策略网络包括：当前策略网络和目标策略网络；每一评价网络包括：当前评价网络和目标评价网络；所述当前策略网络用于根据所述当前状态量生成对应的当前动作值；

本发明采用TD3算法的“执行–评判”(actor-critic)结构对策略网络和评价网络进行训练，其中，如图6所示，actor网络为策略网络，critic网络为评价网络；

TD3(双延迟深度确定性策略梯度，Twin Delayed Deep Deterministic PolicyGradient)算法由两个Actor网络和四个Critic网络组成，Critic当前网络和Critic目标网络分别由两个Critic网络组成；Actor-Critic框架是由Actor网络和Critic网络组成的。在原有的Actor-Critic框架基础上，对其复制，形成两个Actor-Critic框架，分别作为当前网络和目标网络。再将每个Actor-Critic框架中的Critic网络设置为两个，最终形成两个Actor网络和四个Critic网络。

将每个智能体建模为一个TD3智能体，Actor网络作为策略网络对动作函数进行拟合，通过局部信息获得动作值；Critic网络作为评价网络对评价函数进行拟合，评估全局信息得到Q值；训练时的智能体可以读取风电场站以及配电网局部节点的有功、无功功率、电压的实时数据作为状态值，通过最优策略给出动作值，从而对分布式电源进行调度，对配电网全局进行优化。

示意性的，actor策略网络包括当前actor策略网络和目标actor策略网络；当前actor策略网络用于根据所述当前状态量生成对应的当前动作值；目标actor策略网络用于根据下一状态量生成下一动作值，并将所述下一状态量以及下一动作值发送至对应的目标评价网络。

critic评价网络包括当前critic评价网络和目标critic评价网络，当前critic评价网络的输入为状态量和动作量，输出为标量Q值，待训练参数为θ；目标critic评价网络的输入为下一状态量以及下一动作值；

智能体的actor当前策略网络获取风电场站以及配电网运行的历史数据作为离线学习样本，每天划分为24个时刻进行数据采样；

随机初始化Actor当前网络参数、Critic当前网络参数，并将当前网络参数拷贝给对应的Actor目标网络参数和Critic目标网络参数；

即智能体的actor当前策略网络随机选取所对应区域中风电场站的历史数据作为当前状态量S；其中，所述历史数据包括：历史电压、历史发电量、历史有功需求量以及历史无功需求量；

智能体的actor当前策略网络通过当下策略得到动作值，在环境中执行动作并得到奖励值和下一个时刻的状态将本时刻状态、本时刻动作、本时刻奖励、下一时刻状态存入经验回放池中，直到经验回放池存满；

具体的，actor当前策略网络根据所述当前状态量S生成对应的当前动作值A，以使对应的风电场站作为环境，执行当前动作值A并根据当前状态量S中的历史电压，执行该公式r＝C_αr₁+C_βr₂后，计算得到对应的当前奖励值r，

根据当前动作值A计算得到下一状态量S'中的发电量，并根据下一状态量S'中的发电量计算得到下一状态量S'中的电压幅值后，根据历史有功需求量、历史无功需求量、下一状态量中的电压幅值以及下一状态量中的发电量生成下一状态量S'；同时将所述当前状态量S、当前动作值A、当前奖励值r以及下一状态量S'作为一组数据放入经验池中，然后进行下一次的数据采样，直至经验池存满数据。

同时，所述目标策略网络根据下一状态量生成下一动作值，并将所述下一状态量以及下一动作值发送至对应的目标评价网络。

其中，所述根据当前动作值A计算得到下一状态量S'中的发电量，并根据下一状态量中S'的发电量计算得到下一状态量中的电压幅值，包括：

因此，本发明在根据得到当前动作值A后，可以根据已建立的风电场站约束和配电网潮流约束对应的公式进行计算得到下一状态量中的发电量以及下一状态量中的电压幅值V'_i,t。

从经验回访池中采样一定量的数据进行更新，即从所述经验池中随机选取若干组数据，以使所述评价网络中的当前评价网络根据若干组数据中的当前状态量以及当前动作值计算得到对应的第一评分值；

具体的，根据所述评分值对所述策略网络的损失函数进行更新时，包括：

①对于Actor当前网络采用梯度更新策略；

②对于Critic当前网络通过最小化损失函数进行更新；

③使用当前网络的参数对对应的目标网络的参数进行小幅度更新。

对于每个智能体，确定最大化策略集的奖励为：

式中：E表示总奖励的期望值，由于每次状态转移都是随机的，学习的目标是各智能体执行一系列动作来获得尽可能多的平均奖励值；最优动作(π表示多智能体系统策略集合)；θ为各智能体网络参数集合；γ为奖励折扣系数；r_i为第i个智能体的奖励。

不同网络更新参数的方式不同，Critic当前网络通过最小化每个智能体的损失函数来优化更新参数，损失函数计算公式如下：

式中为时间t的目标Q值，Q_θ(o_t,a_t)为估计Q值。

actor更新参数的策略梯度计算方法如下式所示：

TD3使用2个critic网络和2个目标critic网络。避免了出现由于策略变化缓慢，当前网络和目标网络过于相似而无法独立估计的情况。

目标Q值计算方式如下：

通过延迟actor的更新频率，从而保证actor在critic估值误差较低的时候再进行更新，可以最大限度地避免critic估值不准确造成的动作错误。通过对下一个动作增加高斯噪声来平均目标值，减小目标值的方差，故目标Q值计算方式变为：

E为添加的高斯噪声ε～clip[N(0,σ)-c,c]，C为裁剪边界。

Actor网络参数更新方式：

critic每一步的时序差分误差计算方式：

δ_t＝y_t-Q_θ(o_t,a_t)

critic网络中参数更新方式：

目标critic网络参数更新方式：

θ_j″←τθ_j′+(1-τ)θ_j′

目标Actor网络参数更新方式：

式中：τ为软更新系数，且τ＝1。

直到迭代到训练最大次数，训练结束并保存每个智能体的actor当前策略网络，将训练好的actor当前策略网络用于风电场站的控制。

本发明采用的TD3算法中actor网络以状态为输入，输出为连续动作，待训练参数为且可以根据评判网络所估计的Q值做出策略提升。即critic接收当前的状态S_t下的部分观测值O_t和动作a_t，输出Q值以评价当前策略的优劣，critic根据环境的反馈奖励来调整打分策略，使得期望收益越来越高。

actor接收到部分观测值O_t，输出动作根据critic的Q值单步更新策略/>通过调整神经网络参数使得critic的评价越来越高，以获得最优策略。TD3中评价网络通过时序差分估计Q值后，通过梯度对策略进行评估。即本发明根据评分Q值对所述策略网络的损失函数进行更新，使得策略网络不断地根据当前策略对应的评分值进行优化直至收敛时，可以根据状态量生成最优策略下对应的动作值，即可以根据最优的动作值从而实现更好地控制各风电场站的电压出力。

对于步骤S3，在一个优选的实施例中，本发明在使用训练得到的风电场站控制模型进行电压出力控制时，能够根据最优策略得到能够准确的动作值，将该动作值作为出力结果，使得风电出力保持稳定，克服了风电出力的随机性以及不确定性的困难，即可以很好地维持电力系统的稳定性。

在一个优选的实施例中，本发明在根据所述动作值控制各风电场站的电压出力后，还包括：基于配电网的平均电压偏差对风电场站控制效果进行评估的评估策略，所述评估策略为：

其中，c为平均电压偏差，系统总运行时间为T；N为配电网节点数；V_i,t表示配电网第i个节点在时间t时刻的电压值，V₀表示配电网网络额定电压；

如果平均电压偏差c∈[0:0.002]则判定为控制效果优秀；

如果平均电压偏差c∈[0.002：0.003]则判定为控制效果一般；

如果平均电压偏差c∈[0.003：0.004]则判定为控制效果及格；

如果平均电压偏差c≥0.004则判定为控制失败。

本发明通过无模型化控制方法，使用AI技术可缓解目前风电场站对于风力发电控制所带来的人力和时间成本消耗问题，可以应对风电出力的随机性问题；使用配电网的平均电压偏差函数来评价风电场站的控制效果，并将电压偏差作为用参数共享技术改进的TD3算法的奖励值；参数共享多智能体深度强化学习可以通过提高智能体训练时的采样效率从而提高收敛速度和还能使智能体的控制策略丰富多样。通过多个智能体共用同一个神经网络来减少算法计算的复杂度，能够有效地降低多智能体深度强化学习存在非平稳性和计算复杂性，通过使用参数共享改进的TD3算法对风电场站进行控制可以使风电场站稳定出力。

如图7所示，在上述各种基于强化学习的风电场站控制方法的实施例的基础上，本发明对应提供了系统项实施例；

其中，所述风电场站控制模型的训练包括：

需说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所属领域的技术人员可以清楚地了解到，为的方便和简洁，上述描述的系统的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于强化学习的风电场站控制方法，其特征在于，包括：

根据所述动作值控制各风电场站的电压出力；

其中，所述风电场站控制模型的训练包括：

2.如权利要求1所述的一种基于强化学习的风电场站控制方法，其特征在于，所述根据所述当前状态量生成对应的当前动作值，以使对应的风电场站执行当前动作值并生成对应的当前奖励值和下一状态量，包括：

所述下一状态量，表示为：其中，V'_i,t为节点i在下一t时刻的电压幅值，/>为节点i处的风电场站在下一t时刻的发电量，/>为节点i处负载在t时刻的有功需求量，/>为节点i处负载在t时刻的无功需求量。

3.如权利要求1所述的一种基于强化学习的风电场站控制方法，其特征在于，所述风电场站控制模型，包括：配电网潮流约束、电压运行安全幅值约束以及风电场站约束；

所述配电网潮流约束为：

所述电压运行安全幅值约束为：

所述风电场站约束为：

其中，为风力发电机最大有功功率输出量。

4.如权利要求3所述的一种基于强化学习的风电场站控制方法，其特征在于，所述根据当前动作值计算得到下一状态量中的发电量，并根据下一状态量中的发电量计算得到下一状态量中的电压幅值，包括：

5.如权利要求1所述的一种基于强化学习的风电场站控制方法，其特征在于，在对风电场站控制模型进行训练之前，还包括：

6.如权利要求5所述的一种基于强化学习的风电场站控制方法，其特征在于，在对风电场站控制模型进行训练的过程中，还包括：

7.如权利要求1所述的一种基于强化学习的风电场站控制方法，其特征在于，每一所述策略网络包括：当前策略网络和目标策略网络；每一评价网络包括：当前评价网络和目标评价网络；所述当前策略网络用于根据所述当前状态量生成对应的当前动作值；

8.如权利要求7所述的一种基于强化学习的风电场站控制方法，其特征在于，所述评价网络根据若干组数据中的状态量以及动作值计算得到对应的评分值，根据所述评分值对所述策略网络的损失函数进行更新，包括：

9.如权利要求1所述的一种基于强化学习的风电场站控制方法，其特征在于，在根据所述动作值控制各风电场站的电压出力后，还包括：

根据各风电场站的电压计算得到平均电压偏差；

10.一种基于强化学习的风电场站控制系统，其特征在于，包括：数据获取单元、动作值生成单元以及风电场站控制单元；

其中，所述风电场站控制模型的训练包括：