CN115800322B

CN115800322B - 一种调频方法

Info

Publication number: CN115800322B
Application number: CN202310027101.7A
Authority: CN
Inventors: 孙健; 李华青
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-07-04
Anticipated expiration: 2043-01-09
Also published as: CN115800322A

Abstract

本说明书实施例提供一种调频方法。该方法包括获取待配电智能体的信息以及电网状态信息；利用将待配电智能体的信息和电网状态信息作为输入，运行调频模型，得到控制信号，控制信号用于调节待配电智能体的功率，以使电网频率的波动在预设频率范围内；获取用于指导电网中多个智能体的功率分配的协同指示变量，根据协同指示变量对调频模型进行更新。本说明书通过协同指示变量更新调频模型，使得调频模型可以在协同指示变量的指导下，在多个智能体之间进行公平分摊调频功率，从而提高电网的稳定性。

Description

一种调频方法

技术领域

本说明书涉及电能分配，特别涉及一种调频方法。

背景技术

随着电动汽车日趋普及，电动汽车在造成电网负荷波动增大的同时，也能被用于调控电网在频率方面的供需平衡。由于电动汽车大量分布于各区域，并且有移动性，现有的基于电动车到电网运行反向输电(Vehicle to Grid，V2G)参与电网调控的技术，难以在公平分摊电动汽车调频控制容量的同时优化电网控制性能，从而导致控制效率不高，电网仍容易在大量接入新能源发电和电动汽车负荷的情况下频率波动。

因此，希望提供一种对多个电动汽车能够公平分摊的优化调频方法，使得电网稳定，提高控制效能。

发明内容

本说明书实施例之一提供一种调频方法。该方法包括：获取待配电智能体的信息以及电网状态信息；利用将待配电智能体的信息和电网状态信息作为输入，运行调频模型，得到控制信号，控制信号用于调节待配电智能体的功率，以使电网频率的波动在预设频率范围内；获取用于指导电网中多个待配电智能体的功率分配的协同指示变量，根据协同指示变量对调频模型进行更新。

在一些实施例中，前述根据协同指示变量对调频模型进行更新，包括：利用协同指示变量、所述待配电智能体的信息和电网状态信息，计算与待配电智能体对应的期望控制信号以及长期效用；循环利用根据期望控制信号以及长期效用，对调频模型的参数进行更新，直到长期效用满足循环条件，得到与待配电智能体对应的调频模型。

在一些实施例中，前述期望控制信号以及长期效用，对调频模型的权重以及深度向量进行更新，包括：根据期望控制信号和长期效用，确定待配电智能体和电网状态误差；基于状态误差更新误差函数，利用新的误差函数更新调频模型的参数。

在一些实施例中，在前述利用将待配电智能体的信息和电网状态信息作为输入之前，还包括：获取已配电智能体的迁移配电信息；基于迁移配电信息，控制调频模型进行迁移学习。

在一些实施例中，在前述控制调频模型进行迁移学习之前，还包括：计算待配电智能体和已配电智能体之间的相似性；根据相似性对迁移配电信息进行校正。

在一些实施例中，前述计算待配电智能体和已配电智能体之间的相似性，包括：获取待配电智能体的第一邻接拓扑以及已配电智能体的第二邻接拓扑；计算第一邻接拓扑和第二邻接拓扑之间的邻接向量的余弦距离。

在一些实施例中，前述控制调频模型进行迁移学习，包括：获取已配电智能体所对应的已迁移调频模型，已迁移调频模型具有第一嵌入空间特征；利用线性融合变换，将第一嵌入空间特征迁移至调频模型中，以使调频模型具有第二嵌入空间特征。

在一些实施例中，已配电智能体包括与待配电智能体间隔预设距离的已配电智能体。

在一些实施例中，待配电智能体包括电动汽车。

本说明书通过协同指示变量更新调频模型，使得调频模型可以在协同指示变量的指导下，在多个智能体之间进行公平分摊调频功率，从而提高电网的稳定性。

并且，可以通过将已配电智能体的经验轨迹进行校正迁移，和/或将已配电智能体的已迁移调频模型的嵌入空间特征进行迁移，以指导待配电智能体的迁移学习，从而可以提高待配电智能体的初始化效率，提升神经网络参数(即调频模型的参数)更新的速度。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示调频方法的流程示意图；

图2是根据本说明书一些实施例所示对更新调频模型的参数的流程示意图；

图3是根据本说明书一些实施例所示经验轨迹的迁移学习的流程示意图；

图4是根据本说明书一些实施例所示嵌入空间的迁移学习的流程示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

由于电网可以接入多种新能源(光伏、太阳能)进行发电，新能源的信号随机性高，会对电网频率存在间歇性影响。并且，由于新能源的间歇性频率快，导致传统的电网调控方式中电网无法及时地进行调整。电动车到电网运行反向输电(Vehicle to Grid，V2G)技术，可以利用电动车从电网进行功率的分摊，从而利用电动车的分摊减小波动对电网频率的影响。

本说明书描述了一种调频方法，该方法可以通过协同指示变量更新调频模型，使得调频模型可以在协同指示变量的指导下，在多个智能体之间进行公平分摊调频功率，从而提高电网的稳定性。

应当理解的是，本说明书的调频方法的应用场景仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。

下面将结合图1-图4对本说明书实施例所涉及的调频方法进行详细说明。值得注意的是，以下实施例仅仅用以解释本说明书，并不构成对本说明书的限定。

图1是根据本说明书一些实施例所示调频方法的流程示意图。在一些实施例中，如图1所示，流程100可以包括：

步骤110，获取待配电智能体的信息以及电网状态信息。在一些实施例中，步骤110可以由电网节点或服务器进行执行。

待配电智能体可以理解为在节点区域内可以参与电网调频的智能体。在一些实施例中，待配电智能体可以为新的接入节点的智能体，也可以为从其他的节点区域移动至该节点区域的智能体。在一些实施例中，待配电智能体的信息可以包括待配电设备的设备参数，该设备参数可以为功率分配提供参考。示例性的，待配电设备的设备参数可以包括电动汽车的输出功率、电动汽车功率输出的时间参数等。

在一些实施例中，待配电智能体可以包括电动汽车。需要说明的是，待配电智能体还可以包括其他能够参与配电的设备，如电动无人车、电动轮船、无人机等设备。

在一些实施例中，电网状态信息可以理解为与电网当前受到的与频率调控相关的信息，电网状态信息可以用于反映电网受到的随机扰动的影响。进一步地，电网状态信息可以包括相对于给定期望值，在随机扰动(如新能源发电功率波动和负荷用电波动)下发生的频率偏移、发电功率输出偏移(如，发电端机器功率偏移、发电端汽轮机阀门偏移)等信息。在一些实施例中，还可以获取其他的电网相关信息，以便根据电网的状态对电能进行分配。示例性的，其他的电网相关信息可以包括控制信息(如，关于频率偏移的PI控制积分量、状态的动态转移)或电网参数信息(如，区域电网的电磁惯量)等一种或多种信息。

在一些实施例中，待配电智能体的信息可以为电网节点或服务器与位于其节点区域内的待配电智能体建立通信后接收到的信息。进一步地，在一些实施例中，待配电智能体的信息可以预先存入电网节点或服务器的存储器中，等待步骤110触发时再进行读出。在一些实施例中，电网状态信息可以为电网节点或服务器监测得到的信息。同理，在一些实例中，电网状态信息可以预先存入电网节点或服务器的存储器中，等待步骤110触发时再进行读出。

在一些可选的实施例中，电网节点或服务器可以周期性地执行流程100，以维持电网的稳定。示例性的，电网节点或服务器可以在控制采样周期内执行流程100。在一些可选的实施例中，电网节点或服务器可以实时监测电网状态，当电网状态异常(如，电网频率偏移大于预设阈值)时，开始执行流程100，以维持电网稳定。

步骤120，利用将待配电智能体的信息和电网状态信息作为输入，运行调频模型，得到控制信号。在一些实施例中，步骤120可以由电网节点或服务器进行执行。

调频模型可以理解为一种进行学习优化调频控制的人工智能算法，例如调频模型可以为基于待配电智能体的信息和电网状态调节电网频率的神经网络。在一些实施例中，调频模型可以基于输入的待配电智能体的信息和电网状态信息，输出与待配电智能体相对应的控制信号，以使待配电智能体能够根据控制信号进行相应的功率调节，从而实现电网的稳定。

在一些实施例中，控制信号可以用于调节待配电智能体的功率，以使电网频率的波动(也称为电网频率偏移的波动)在预设频率范围内。在一些实施例中，电网频率的波动可以为当前电网频率与预设电网频率的差异，还可以为当前电网频率与历史电网频率的差异。在一些实施例中，预设频率范围可以包括[-0.2Hz,+0.2Hz]的频率范围。也就是说，调频模型输出控制信号的目标是在随机扰动(新能源发电波动和负荷用电功率波动)下，利用待配电智能体输出的功率抑制电网频率偏移的波动，使得电网频率偏移的波动尽可能的接近于0。

示例性的，当节点区域内存在N个待配电智能体时，调频模型中待配电智能体的信息和电网状态信息与控制信号的关系可以如下所示：

其中，x＝[f，P_M，P_g，U_AR]可以为电网频率偏移及其相关状态偏移，f为电网的频率偏移，P_M为发电端的机械功率偏移，P_g为发电端的汽轮机阀门偏移，U_AR为电网关于频率偏移f的PI控制积分量。f(.)为关于状态x的动态转移函数。g＝[1/H，0，0，0]^T，H为区域电网电磁惯量，P_k为待配电智能体输出的功率，w为电网的负荷以及随机发电扰动。根据上述公式(1)可以得知，运行调频模型的目标是在随机扰动w下，控制待配电智能体输出的功率P_k，以抑制电网频率偏移f的波动，使得电网频率偏移f的波动尽可能的接近于0。

基于上述公式(1)，对于一个待配电智能体k∈N来说，可以推导得到调频模型中待配电智能体输出的功率P_k与控制信号之间的关系如下所示：

其中，T_k为待配电智能体k的功率输出时间常数，这取决于待配电智能体k的电力电子装置和电池的物理参数。P_k为待配电智能体k输出的功率，u_k为调频模型输出的与待配电智能体k对应的控制信号。在一些实施例中，攻略P_k可以存在最大功率输出限制，即|P_k|≤P_mk。也就是说，调频模块可以输出控制信号u_k，在功率输出时间常数T_k内调整待配电智能体k输出的功率P_k。

步骤130，获取用于指导电网中多个待配电智能体的功率分配的协同指示变量，根据协同指示变量对调频模型进行更新。在一些实施例中，步骤130可以由电网节点或服务器进行执行。

对于节点区域内的多个待配电智能体，因不同待配电智能体的电量可能不同，导致功率分配往往会存在分配不均匀的情况。尤其在待配电智能体进行学习的过程中，更难以保持电网的稳定控制。在一些实例中，协同指示变量可以为反映待配电智能体的电量的参数，可以用于指导调频模型对电网中多个智能体进行功率分配。其中，待配电智能体的电量可以包括待配电智能体参与V2G调频的电量以及支持待配电智能体运行的电量。在一些实施例中，待配电智能体的信息可以包括表征智能体状态的待配电智能体组合电网的状态变量(以下称智能体的整合状态变量)，可以根据整合状态变量，推导得到与待配电智能体对应的协同指示变量。

示例性的，对于一个待配电智能体k∈N来说，待配电智能体组合电网的状态变量z_k(以下称智能体k的整合状态变量)可以如下所示：

z_k＝[x^T，P_k，δ_k]^T， (3)

其中，z_k可以为智能体k的整合状态变量，δ_k为关于待配电智能体k的协同指示变量。在一些实施例中，待配电智能体k的协同指示变量可以如下所示：

其中，c_kl为待配电智能体k和其他智能体l之间的给定连接权重，取值通常为0到1之间的数值，y_l为其他待配电智能体l的被协同变量，y_k为待配电智能体k的被协同变量。在一些实施例中，待配电智能体k的被协同变量y_k可以如下所示：

其中，Q_k为待配电智能体k中用于参与V2G调频的总电量，τ_k为当前V2G调频总电量的使用百分比，即待配电智能体k内参与V2G调频的电量与待配电智能体k的中电联的比值。

在一些实施例中，待配电智能体的信息可以包括：智能体状态。上述步骤130中的根据协同指示变量对调频模型进行更新，可以包括：利用协同指示变量、智能体状态和电网状态信息，计算与待配电智能体对应的期望控制信号以及长期效用；循环利用根据期望控制信号以及长期效用，对调频模型的参数进行更新，直到长期效用满足循环条件，得到与待配电智能体对应的调频模型。

在一些实施例中，期望控制信号可以为期望调频模型在引入待配电智能体的协同指示变量后，能够输出的控制信号。在一些实施例中，长期效用可以反映在引入协同指示变量后待配电智能体发生的变化，从而可以反映对待配电智能体的控制效果。在一些实施例中，在最坏扰动(随机扰动最大)下，长期效用的最大值越小，可以反映控制效果越小。在一些实施例中，循环条件可以为在最坏扰动(随机扰动最大)下，多次循环后得到的长期效用的最大值达到最小，从而说明此时调频模型可以达到多次循环后的最优控制效果。

在一些实施例中，上述期望控制信号以及长期效用，对调频模型的权重以及深度向量进行更新，可以包括：根据期望控制信号和长期效用，确定待配电智能体和电网的状态误差；基于状态误差更新误差函数，利用新的误差函数更新调频模型的参数。

由于待配电智能体需要接入电网节点或服务器进行学习，以便后续参与V2G调频，而在待配电智能体的在线学习的过程中，会导致电网的状态存在一定的衰减。在一些实施例中，状态误差可以反映待配电智能体和电网在学习过程中的状态衰减。进一步地，在一些实施例中，可以利用状态误差更新误差函数，利用新的误差函数更新调频模型的参数，使得电网在待配电智能体进行学习的过程中也可以保持稳定。

在本说明书的实施例中，可以基于待配电智能体的协同指示变量、智能体和电网的状态误差对调频模型进行更新(也即带状态误差衰减的在线强化学习)，使得更新后的调频模型可以在提升控制稳定性和性能的同时，可以兼顾一个或多个待配电智能体的协同电量控制。

下面提供一种示例性的长期效用，详细说明带状态误差衰减的在线强化学习过程的具体实现方式。

示例性的，待配电智能体k的当前效用函数可以如下所示：

其中，L_k为待配电智能体k的当前效用，Q_k为预设权重矩阵。在一些实施例中，Q_k可以为一个给定的6×6权重矩阵。进一步地，Q_k可以为正定矩阵。在一些实施例中，预设权重矩阵Q_k可以包括与协同变量δ_k对应的权重。r_k可以为关于控制信号的权重系数，r_k可以为一个给定正数。W_k(.)为关于控制信号带约束的惩罚函数。在一些实施例中，惩罚函数W_k(.)可以如下所示为：

其中，γ_k为关于扰动的权重系数，为一个给定正数。

由上述公式(6)和公式(7)可以推导得到待配电智能体k的长期效用J_k可以表示为：

其中，λ为给定衰减因子，可以为一个正数。因此，在一些实施例中，对于待配电智能体k，对调频模型的参数的更新可以被描述为：寻找新的控制信号u_k，使得长期效用J_k可以在最坏扰动下的最大值达到最小。在一些实施例中，对于待配电智能体k的新的控制信号u_k可以表示为：，

在一些实施例中，可以基于最优轨线原理对公式(9)进行推导，得到哈密尔顿函数。其中，哈密尔顿方程可以表示为：

再根据公式(9)和公式(10)，可以推导得到新的控制信号

可以表示为：:

在一些实施例中，基于调频模型中深度神经网络构建的最优估计的长期效用J_k和控制信号u_k，可以分别表示为：

其中，ψ(.|θ)为一个多层向量激活函数，并且有ψ_M(ψ_M-1(ψ_M-2(...)))，M为多层向量的总层数。由于调频模型可以包括多层深度卷积神经网络，θ可以为神经网络激活函数ψ的参数。W_ck和W_ak为深度神经网络的输出矩阵。ψ将输入的待配电智能体k的整合状态变量z_k映射至嵌入空间中，并在嵌入空间中经过W_ck和W_ak加权进行输出。

由上述公式(10)和公式(11)可以构建误差函数，误差函数可以表示为：

在一些实施例中，还可以引入状态误差e_dk训练控制信号

进一步更新误差函数，以利用新的误差函数更新调频模型的参数，使得电网在待配电智能体进行学习的过程中也可以保持稳定。在一些实施例中，状态误差e_dk可以表示为

根据上述公式(14)-(16)，可以推导得到新的学习误差代价可以表示为：

其中，学习误差代价E_ck和E_ak可以用于训练最优长期效用神经网络和最优控制输出神经网络的参数，从而更新调频模型的参数。在一些实施例中，调频模型的参数可以包括神经网络的权重和深度向量。

在一些实施例中，可以基于误差代价梯度下降的过程进行训练学习，更新神经网络的权重和深度向量。其中，误差代价梯度下降的过程可以表示为：

其中，W_ck和W_ak可以为神经网络权重，θ_ck和θ_ak可以为深度向量激活函数的参数。

图2是根据本说明书一些实施例所示对更新调频模型的参数的流程示意图。综上所述，对于待配电智能体k来说，更新调频模型的参数的流程200(带状态误差衰减的在线强化学习过程)，可以至少包括如下步骤：

步骤210，用较小随机数初始化神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。

步骤220，在控制采样周期内获取智能体k的整合状态变量z_k的值，并计算控制信号

和长期效用/>

以及其偏导/>

步骤230，将计算得到的控制信号

应用至电网以及待配电智能体。

步骤240，计算学习误差和误差代价。进一步地，由公式(14)-(18)计算学习误差和误差代价。

步骤250，更新神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。进一步地，由公式(19)和(20)更新神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。

在一些可选的实施例中，可以在每一个控制采样周期内重复执行步骤220-步骤250的过程，从而在每一个控制采样周期内更新调频模型。在一些可选的实施例中，可以循环步骤220-步骤250，直到长期效用

在最坏扰动(随机扰动最大)下，多次循环后得到的长期效用/>

的最大值达到最小，得到更新后的调频模型。

由于待配电智能体可以是从其他节点区域移动至该节点区域的智能体，也即考虑到智能体的移动性，在一些实施例中，可以在调频之前对迁移的待配电智能体进行预先迁移学习，以提高待配电智能体在新接入节点区域时的学习效率。

在一些实施例中，上述步骤110之前，流程100还可以包括：获取已配电智能体的迁移配电信息；基于迁移配电信息，控制调频模型进行迁移学习。

已配电智能体可以为已经参与过V2G调频的智能体。进一步地，在一些实施例中，已配电智能体可以为过去从其他节点区域移动至该节点区域的智能体。在一些实施例中，已配电智能体可以携带有迁移配电信息，迁移配电信息可以包括该已配电智能体在新接入该节点区域时进行迁移学习的经验轨迹和已迁移调频模型，可以用于指导待配电智能体在新接入该节点区域时进行迁移学习。其中，已迁移调频模型可以为已配电智能体完成迁移学习后的调频模型。

在一些实施例中，已配电智能体可以包括与所述待配电智能体间隔预设距离的已配电智能体，以便选择与待配电智能体距离较近的已配电智能体。已配电智能体与待配电智能体距离越近，已配电智能体与待配电智能体的迁移状况越相似，从而已配电智能体的迁移配电信息更有利于待配电智能体进行迁移学习。在一些实施例中，预设距离可以根据节点区域的大小进行设定。进一步地，在一些实施例中，已配电智能体可以包括位于待配电智能体接入的同一节点区域内的具有邻接关系的智能体(简称邻接智能体)。

在一些实施例中，在上述控制调频模型进行迁移学习之前，流程100还可以包括：计算待配电智能体和已配电智能体之间的相似性；根据相似性对迁移配电信息进行校正。由于相邻的已配电智能体与待配电智能体之间存在不同，导致已配电智能体历史迁移学习的经验(简称为已配电智能体的经验)与待配电智能体迁移学习的期望经验(简称为待配电智能体的经验)存在不同，在一些实施例中，可以对已配电智能体的迁移配电信息进行校正，以使已配电智能体的经验能够与待配电智能体的经验接近或相同，使得待配电智能体可以根据已配电智能体的经验轨迹进行校正迁移，从而能够进一步提高待配电智能体的迁移学习效率。

在一些实施例中，上述计算待配电智能体和已配电智能体之间的相似性，可以包括：获取待配电智能体的第一邻接拓扑以及已配电智能体的第二邻接拓扑；计算第一邻接拓扑和第二邻接拓扑之间的邻接向量的余弦距离。

在一些实施例中，邻接拓扑可以为两个智能体之间相邻的拓扑图，邻接向量可以为两个邻接拓扑中相邻的向量。第一邻接拓扑和第二邻接拓扑之间的邻接向量的相似度可以反映待配电智能体和已配电智能体之间的相似性。余弦距离可以理解为是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的。也就是说，邻接向量的余弦距离可以反映待配电智能体和已配电智能体之间的相似性，余弦距离越小，相似性越高。

下面提供一种示例性的迁移学习流程，详细说明经验轨迹的校正迁移的具体实现方式。

对于待配电智能体k，存在与其接入同一节点区域的临接智能体l，该邻接智能体l在t时刻的即时经验可表示为：s_l(t)＝<Z_l(t)，u_l(t)，y_l(t)，w(t)>，邻接智能体l的经验变量可以表示为：Z_l(t)＝{z_l(τ)|τ∈[τ-δ，τ]}。相对应的，临接智能体l携带的过去T时刻的经验可以表示为：S_l(t)＝{s_l(τ)|τ∈[t-T，t]}。

对临接智能体l的经验s_l(t)进行校正可以表示为：

其中，s_l(t)为临接智能体l的经验轨迹，s_lk(t)为校正后的临接智能体l的经验轨迹，其可以用于指导待配电智能体k进行迁移学习。

由上述公式(21)推导可以得到校正后的临接智能体l的过去T时刻的经验S_lk(t)，临接智能体l的过去T时刻的校正可以表示为：

其中，R(l，k)为待配电智能体k的邻接拓扑与临接智能体l的邻接拓扑的相似性，可以采用邻接向量的余弦距离进行表示。

基于上述公式(22)以及邻接拓扑的相似性，可以推导得出校正后的临接智能体l的迁移经验点，可以表示为：

图3是根据本说明书一些实施例所示经验轨迹的迁移学习的流程示意图。综上所述，对于待配电智能体k来说，经验轨迹的校正迁移学习的流程300，可以至少包括如下步骤：

步骤310，初始化神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。

步骤320，获取邻接智能体的抽取时间τ_k∈[t-T，t]的校正后的迁移经验a_lk(τ_k)。其中，邻接智能体可以为在平均分布下随机抽取的一个邻接智能体。

步骤330，在迁移经验s_lk内获取迁移变量z_lk的值作为z_k的值，并计算控制信号

和长期效用/>

以及其偏导/>

步骤340，将计算的控制信号

应用至电网以及待配电智能体。

步骤350，计算学习误差和误差代价。进一步地，由公式(14)-(18)计算学习误差和误差代价。

步骤360，更新神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。进一步地，由公式(19)和(20)更新神经网络权重W_ck和W_ak，和深度向量激活函数的参数θ_ck和θ_ak。

在一些实施例中，可以在每一个控制采样周期内重复执行步骤320-步骤350的过程，直到神经网络参数收敛，得到更新后的调频模型。

本说明书实施例中，可以通过将已配电智能体的经验轨迹进行校正迁移，以指导待配电智能体的迁移学习，从而可以提高待配电智能体的初始化效率，提升神经网络参数(即调频模型的参数)更新的速度。

在一些实施例中，上述控制调频模型进行迁移学习，还可以包括：获取已配电智能体所对应的已迁移调频模型，已迁移调频模型具有第一嵌入空间特征；利用线性融合变换，将第一嵌入空间特征迁移至调频模型中，以使调频模型具有第二嵌入空间特征。

在一些实施例中，已迁移调频模型可以理解为已配电智能体完成迁移学习后的调频模型。在一些实施例中，嵌入空间特征可以表示反映与智能体对应的神经网络各层输出的嵌入空间。例如，第一嵌入空间特征可以表示反映与已迁移智能体对应的神经网络各层输出的嵌入空间。在一些实施例中，基于已配电智能体与待配电智能体之间的邻接关系，通过嵌入空间的线性融合变换，可以将已配电智能体对应的第一嵌入空间特征，迁移至待配电智能体对应的嵌入空间中，形成第二嵌入空间特征，从而快速地完成调频模型的迁移，加快待配电智能体的迁移。

下面提供一种示例性的迁移学习流程，详细说明嵌入空间特征迁移的具体实现方式。

对于邻接智能体l(l∈N_k)来说，其携带的经验点样本集合可以包括一个或多个已迁移的经验轨迹S_l。邻接智能体l的经验点样本集合可以表示为：

且

在一些实施例中，可以根据邻接智能体l与待配电智能体k的邻接拓扑关系，构建调频模型中多层向量激活函数ψ的关于每一层嵌入空间特征的预测，并由该预测构建待配电智能体k的学习误差，完成深度嵌入特征迁移的训练。

示例性的，假设ψ_i(z_s|θ)为调频模型第i层向量激活函数的输出，预先给定一个线性融合变换正定矩阵M_lk。其中，线性融合变换正定矩阵M_lk可以通过一个高维旋转矩阵以不同角度旋转得到。对应于邻接智能体l的旋转角度间隔可以设置为

示例性的，对于|N_k|＝4的情况，对应于4个邻接智能体旋转矩阵的旋转角度可以依次取22.5度，45度，67.5度，90度。需要说明的是，上述旋转角度的取值仅作为示例，还可以有其他的旋转角度。

对于待配电智能体l的经验点样本集合S_-k的抽样经验点z_s∈S_l，误差函数可以表示为：

e_ψilk(z_s)＝M_lk[ψ_i(z_s|θ_cl)，ψ_i(z_s|θ_al)]-[ψ_i(z_s|θ_ck)，ψ_i(z_s|θ_ak)]， (24)

假设邻接智能体l的抽取经验集合为K_l，若K_l的数量为10|n_k|，每一邻接智能体l抽取10个经验点，则构建的嵌入空间特征迁移误差代价可以表示为：

其中，M为向量激活函数ψ的层数，ψ_i为激活函数第i层输出。由此，新加入的待配电智能体的嵌入空间特征迁移学习的迭代可以表示为：

而对于输出矩阵W_ck和W_ak的迁移可以表示为：

图4是根据本说明书一些实施例所示嵌入空间的迁移学习的流程示意图。综上所述，对于待配电智能体k来说，嵌入空间的迁移学习的流程400，可以至少包括如下步骤：

步骤410，构建关于邻接智能体的输入样本集合S_-k；

步骤420，在第p次更新周期内，从S_-k中随机抽取一个样本集合K_l。在一些实施例中，可以从S_-k按平均分布随机抽取一个样本集合K_l。

步骤430，根据样本K_l计算特征参数迁移误差代价。在一些实施例中，可以基于上述公式(25)计算特征参数迁移误差代价E_ψk。

步骤440，计算调频模型的更新参数。在一些实施例中，可以基于上述公式(26)计算调频模型的更新参数.

在一些实施例中，可以重复上述步骤420-步骤440的过程，直到调频模型的参数收敛，完成嵌入空间特征的迁移。

步骤450，完成输出权重矩阵的特征迁移。在一些实施例中，可以利用上述公式(27)-(28)完成输出权重矩阵的特征迁移。

在本说明书实施例中，可以基于智能体之间的邻接关系，将已配电智能体的已迁移调频模型的嵌入空间特征进行迁移，以指导待配电智能体的迁移学习，从而可以加速调频模型的参数收敛，快速地完成调频模型的迁移。

本说明书实施例可能带来的有益效果包括但不限于：通过协同指示变量更新调频模型，使得调频模型可以在协同指示变量的指导下，在多个智能体之间进行公平分摊调频功率，从而提高电网的稳定性。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种调频方法，其特征在于，包括：

获取待配电智能体的信息以及电网状态信息；

利用将所述待配电智能体的信息和所述电网状态信息作为输入，运行调频模型，得到控制信号，所述控制信号用于调节所述待配电智能体的功率，以使电网频率的波动在预设频率范围内；

获取用于指导电网中多个所述待配电智能体的功率分配的协同指示变量，根据所述协同指示变量对所述调频模型进行更新；

所述待配电智能体的信息包括：智能体状态；

所述根据所述协同指示变量对所述调频模型进行更新，包括：利用所述协同指示变量、所述智能体状态和所述电网状态信息，计算与所述待配电智能体对应的期望控制信号以及长期效用；循环利用根据所述期望控制信号以及长期效用，对所述调频模型的参数进行更新，直到所述长期效用满足循环条件，得到与所述待配电智能体对应的调频模型；

所述期望控制信号为期望调频模型在引入待配电智能体的协同指示变量后，能够输出的控制信号；所述长期效用反映在引入协同指示变量后待配电智能体发生的变化，从而反映对待配电智能体的控制效果；所述循环条件为在最坏扰动下，多次循环后得到的长期效用的最大值达到最小；

当节点区域内存在N个待配电智能体时，调频模型中待配电智能体的信息和电网状态信息与控制信号的关系如公式（1）所示：

其中，x＝[f，P_M，P_g，U_AR]为电网频率偏移及其相关状态偏移，f为电网频率偏移，P_M为发电端的机械功率偏移，P_g为发电端的汽轮机阀门偏移，U_AR为关于电网频率偏移f的PI控制积分量，f(x)为关于状态x的动态转移函数，g＝[1/H，0，0，0]^T，H为区域电网电磁惯量，P_k为待配电智能体k输出的功率，w为电网的负荷以及发电的随机扰动；对于一个待配电智能体k∈N，调频模型中该待配电智能体k输出的功率P_k与控制信号之间的关系如公式（2）所示：

，其中，T_k为待配电智能体k的功率输出时间常数、其取决于待配电智能体k的电力电子装置和电池的物理参数，u_k为调频模型输出的与待配电智能体k对应的控制信号，P_k存在最大功率输出限制，根据上述公式（1）和公式（2），调频模型输出控制信号u_k，在功率输出时间常数T_k内调整待配电智能体k输出的功率P_k，运行调频模型输出控制信号u_k的目标是在扰动w下，控制待配电智能体k输出的功率P_k，以抑制电网频率偏移f的波动；待配电智能体k的协同指示变量δ_k如公式（4）所示：/>

，其中，c_kl为待配电智能体k和其他待配电智能体l之间的给定连接权重，取值为0到1之间的数值，y_l为其他待配电智能体l的被协同变量，y_k为待配电智能体k的被协同变量；待配电智能体k的被协同变量y_k为/>

，其中，Q_k为待配电智能体k中用于参与V2G调频的电量，τ_k为待配电智能体k内参与V2G调频的电量与待配电智能体k的总电量的比值；

对于待配电智能体k，对调频模型的参数进行更新包括：寻找新的控制信号u_k，使得该待配电智能体k对应的长期效用在最坏扰动下的最大值达到最小，最坏扰动指随机扰动最大的情况。

2.根据权利要求1所述的调频方法，其特征在于，调频模型包括基于待配电智能体的信息和电网状态信息调节电网频率的神经网络，调频模型的参数包括神经网络的权重和深度向量，所述循环利用根据所述期望控制信号以及长期效用，对所述调频模型的参数进行更新，包括：

根据所述期望控制信号和所述长期效用，确定所述待配电智能体和电网的状态误差；

基于所述状态误差更新误差函数，利用新的误差函数更新所述调频模型的权重以及深度向量。

3.根据权利要求2所述的调频方法，其特征在于，所述获取待配电智能体的信息以及电网状态信息之前，还包括：

获取已配电智能体的迁移配电信息；基于所述迁移配电信息，控制调频模型进行迁移学习；

所述已配电智能体为已经参与过V2G调频的智能体，所述迁移配电信息包括该已配电智能体在新接入该节点区域时进行迁移学习的经验轨迹和已迁移调频模型，所述已迁移调频模型为已配电智能体完成迁移学习后的调频模型。

4.根据权利要求3所述的调频方法，其特征在于，所述控制调频模型进行迁移学习之前，还包括：

计算所述待配电智能体和所述已配电智能体之间的相似性；根据所述相似性对所述迁移配电信息进行校正。

5.根据权利要求4所述的调频方法，其特征在于，所述计算所述待配电智能体和所述已配电智能体之间的相似性，包括：

获取所述待配电智能体的第一邻接拓扑以及所述已配电智能体的第二邻接拓扑；

计算所述第一邻接拓扑和所述第二邻接拓扑之间的邻接向量的余弦距离；

邻接向量的余弦距离反映了待配电智能体和已配电智能体之间的相似性，余弦距离越小，相似性越高。

6.根据权利要求3所述的调频方法，其特征在于，所述控制调频模型进行迁移学习，包括：

获取所述已配电智能体所对应的已迁移调频模型，所述已迁移调频模型具有第一嵌入空间特征；第一嵌入空间特征表示反映与已配电智能体对应的神经网络各层输出的嵌入空间；

利用线性融合变换，将所述第一嵌入空间特征迁移至调频模型中，以使调频模型具有第二嵌入空间特征。

7.根据权利要求3所述的调频方法，其特征在于，所述已配电智能体包括与所述待配电智能体间隔预设距离的已配电智能体。

8.根据权利要求1-7任一项所述的调频方法，其特征在于，所述待配电智能体包括电动汽车。