CN116231679A

CN116231679A - 一种基于深度强化学习的自适应虚拟同步机控制方法

Info

Publication number: CN116231679A
Application number: CN202211489647.6A
Authority: CN
Inventors: 叶影; 肖金星; 徐冰雁; 孙俭; 陈云峰; 李勇汇; 张宇威; 郭磊; 沈杰士; 陈龙; 曹春; 徐建国; 杨军; 谢黎龙
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-06-06

Abstract

一种基于深度强化学习的自适应虚拟同步机控制方法，属电网运行控制领域。其建立含有光伏系统、电池储能与变动负荷的光储并网模型；对电池储能系统采用虚拟同步发电机控制实现对光伏输出功率的互补；针对微网负荷功率变化引起微网频率偏移的问题，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节；采用深度强化学习中双重深度Q学习算法对虚拟惯量与阻尼系数加以控制；构架双层评价网络，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。其采用深度强化学习技术对虚拟惯量和阻尼系数进行自适应控制，抑制频率的偏移，加快了系统工作频率的恢复，提高了系统的稳定性。

Description

一种基于深度强化学习的自适应虚拟同步机控制方法

技术领域

本发明属于电网运行控制领域，尤其涉及一种基于深度强化学习的自适应虚拟同步机控制方法。

背景技术

随着分布式电源的飞速发展以及所占能源应用比例越来越高，微电网作为分布式电源的一种并网方式而被提出，如何在分布式电源出力波动以及负荷变化的情况下维持微网频率的稳定成为电力领域的研究重点。

同时，人工智能技术也在飞速发展，将人工智能技术应用于微网控制中是个很好的选择。

光储微电网并网时，储能系统采用虚拟同步发电机控制技术实现对光伏输出功率的互补，而传统虚拟同步发电机技术中虚拟惯量与阻尼系数是不变的。

申请公布日为2021年3月9日，申请公布号为CN 112467784 A的发明专利申请，公开了“一种混合微网换流器自适应虚拟同步机控制方法”，其法采用自适应虚拟转动惯量J、自适应虚拟阻尼D在VSG控制系统中，对混合微网AC/DC换流器功率波动进行抑制。进一步的为了得到额定虚拟参数取值范围，对自适应VSG控制系统建立小信号模型，通过分析其特征值并参考同步发电机振荡角频率取值，得到阻尼比和额定阻尼系数。本发明采用自适应虚拟转动惯量J、自适应虚拟阻尼D在VSG控制系统中，提出一种在角频率增加阶段，增加J同时适当减少D；在角频率减少阶段，减少J同时适当增加D的双虚拟参数自适应控制方案。该技术方案可以保证系统响应速度，并且加快功率进入稳定状态。双自适应虚拟参数可以有效抑制功率波动。但是，其采用双自适应虚拟参数，无形之中增大了运算量，减缓了系统的反应速度，不利于系统响应速度的提高。

申请公布日为2022年3月22日，申请公布号为CN 114221394 A的发明专利申请，公开了“一种基于储能系统的自适应虚拟同步机控制方法”，其首先针对储能系统利用虚拟同步机控制方法模拟同步发电机的惯性与阻尼特性以实现对系统频率波动的抑制；进一步，通过增加带通滤波器，建立用于模型预测控制的系统增强模型；最后，根据系统频率偏差，利用模型预测控制动态调整虚拟同步机的惯量系数和阻尼系数，实现自适应控制。该技术方案在保证系统可靠性的前提下，根据系统运行状态实时优化虚拟同步机控制参数，充分发挥储能的频率支撑能力，改善系统频率响应。该技术方案侧重于储能系统的频率响应问题，没有涉及到微电网并网时应该如何应对，且对虚拟惯量和阻尼系数的具体控制模式未见明确的论述。

在电力系统供电网络的实际运行控制过程中，如何采用深度强化学习技术，对虚拟惯量和阻尼系数进行控制，当微网中功率发生变化时，虚拟惯量与阻尼系数能够自适应的改变，抑制频率的偏移，是实际电网运行监控中的一个实际问题。

发明内容

本发明所要解决的技术问题是提供一种基于深度强化学习的自适应虚拟同步机控制方法。其将人工智能技术应用于微网控制中，当光储微电网并网时，储能系统采用虚拟同步发电机控制技术，实现对光伏输出功率的互补；采用深度强化学习技术对虚拟惯量和阻尼系数进行控制，当微网中功率发生变化时，虚拟惯量与阻尼系数可以自适应的改变，抑制频率的偏移。

本发明的技术方案是：提供一种基于深度强化学习的自适应虚拟同步机控制方法，其特征是包括以下步骤：

步骤1：为了减小光伏出力波动与负荷突变对光储并网系统带来的影响，建立含有光伏系统、电池储能与变动负荷的光储并网模型；

步骤2：为确保光储并网时对外界电网提供稳定的功率输出，对电池储能系统采用虚拟同步发电机控制实现对光伏输出功率的互补；针对微网负荷功率变化引起微网频率偏移的问题，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节；

步骤3：针对功率变化时自适应改变虚拟惯量与阻尼系数的问题，采用深度强化学习中双重深度Q学习算法对虚拟惯量与阻尼系数加以控制；构架双层评价网络，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节；

所述的自适应虚拟同步机控制方法，将人工智能技术应用于微网控制中，当光储微电网并网时，储能系统采用虚拟同步发电机控制技术，实现对光伏输出功率的互补；采用深度强化学习技术对虚拟惯量和阻尼系数进行控制，当微网中功率发生变化时，虚拟惯量与阻尼系数可以自适应的改变，抑制频率的偏移，加快了系统工作频率的恢复，提高了系统的稳定性。

具体的，在步骤1中，先建立含有光伏系统、电池储能系统与变动负荷与外界电网的光储并网模型，光伏发电与储能发电分别采用不同的逆变器并入电网中；所述的光伏系统采用最大功率追踪控制，以等效电流源的形式并入电网；所述电池储能系统的并网逆变器采用虚拟同步发电机控制，与光伏系统输出功率形成互补；所述的并网模型称为微网，该微网通过连接开关与外界电网相连；当开关闭合时，微网处于并网运行状态，此时的微网以固定的出力向电网输出功率，向电网提供能量。

具体的，在步骤2中，针对微网负荷功率变化引起微网频率偏移的问题，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，根据步骤1搭建的模型，控制目标为频率稳定。

进一步的，在步骤2中，根据步骤1搭建的模型，控制目标为频率稳定；选择DDQN算法作为控制算法；选择的外界环境提供的状态变量为实测频率f、实测频率与参考频率误差e、频率误差的积分值∫e与外界有功功率P_out；

s＝(f,e,∫e,P_out) (1)

控制对象选择为虚拟惯量J和阻尼系数D，其中：

J∈[J_min,J_max](2)

D∈[D_min,D_max](3)

式中：J_min和J_max是虚拟惯量的最小值与最大值，D_min和D_max是阻尼系数的最小值和最大值；DDQN输出动作为离散量，设虚拟惯量步长为ΔJ，则虚拟惯量离散动作选择有p个；设阻尼系数步长为ΔD，则阻尼系数动作选择有q个，则动作空间一共有g＝pq种组合。

进一步的，步骤2中DDQN算法有两个评价网络，分别是Q网络与目标Q网络；

其中，Q网络参数为θ，目标Q网络参数为θ_target；评价网络作用为计算目标价值y_t，计算公式为：

式中：r_t+1为t+1时刻的回报值，γ为折扣系数，s_t+1为t+1时刻的状态变量，a为动作空间中选取的动作，Q(·|θ)为Q网络的输出值，Q(·|θ_target)为目标Q网络的输出值；

Q网络参数θ根据(6)式梯度反向传播进行更新：

式中：m为样本数量，y_j、s_j、a_j分别是样本j对应的目标价值、状态变量、动作变量。

具体的，步骤3为构架双重评价网络与动作空间，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。

进一步的，骤3中两个Q网络结果相同，选择L层全连接层网络，最后一层包含h个节点，其他连接层每层包含n个节点；

在进行强化学习智能体训练时，根据频率误差e设计奖励函数；

式中：|e|代表频率误差的绝对值，b₁,b₂分别是频率误差分段点，λ₁,λ₂,λ₃为权重系数，频率误差越小，权重系数越大；

为提高训练效率，训练时如果智能体进入终止状态，会结束本轮训练，重新开启新的状态序列继续训练，根据实测频率设计的终止函数为：

式中：c₁,c₂为实测频率的上下限。

进一步的，步骤3中，根据所选择的神经网络与设计的奖励函数与终止函数，采用matlab2021a中Reinforcement Learning Toolbox对步骤1搭建的模型进行训练，采用算法为DDQN算法，其具体流程为：

1、设最大迭代次数为T，每轮迭代最大次数T_f，随机初始化θ，θ_target＝θ；清空经验回放的集合D，目标Q网络参数更新频率C；

2、从t＝1到T轮迭代；

a)初始化s＝(f，e，∫e，P_out)为当前状态序列的第一个状态；

b)Q网络根据状态s得到所有动作的Q值，采用ξ-贪婪法则选择合适的动作a；

c)执行动作a，得到新状态s′，奖励r，与终止状态信息is_end；

d)将{s，a，r，s’，is_end}这个五元组存入经验回放集合D；

e)s＝s'；

f)从经验回放集合D中采样m个样本{s_j，a_j，r_j，s_j’，is_end_j}，j＝1，2，，，m，由(5)式计算当前目标Q值y_i；

g)根据式(6)，采用梯度反向传播更新Q网络的参数θ；

h)如果T/C＝1，则更新目标Q网络参数θ_target＝θ；

j)如果训练收敛或者达到训练次数，则结束，否则转到步骤k)；

k)如果s′是终止状态或者达到最大训练步长，转移到步骤a)，否则转到步骤b)；

进一步的，为了算法较好的收敛，探索率ξ需要随着迭代的进行而变小。

本发明所述的自适应虚拟同步机控制方法，通过深度强化学习技术对电池储能虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，进而实现虚拟同步发电机的改进；选择深度强化学习算法中双重深度Q学习算法，构建当前评价网络与目标评价网络两个网络，利用神经网络的强大拟合能力降低了维数灾难，从而实现虚拟同步发电机技术的自适应调节。

本发明所述的自适应虚拟同步机控制方法，通过设计状态空间、动作空间以及奖励函数，使深度强化学习控制器得到充分训练。

与现有技术比较，本发明的优点是：

1、本发明的技术方案，通过深度强化学习技术对电池储能虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，进而实现虚拟同步发电机的改进；

2、本发明的技术方案，选择深度强化学习算法中双重深度Q学习算法，构建当前评价网络与目标评价网络两个网络，利用神经网络的强大拟合能力降低了维数灾难，从而实现虚拟同步发电机技术的自适应调节；

3、本发明的技术方案，通过设计状态空间、动作空间以及奖励函数，使深度强化学习控制器得到充分训练；

4、在并网运行时，自适应虚拟同步发电机根据有功功率变化调节虚拟惯量与阻尼系数，从而抑制系统频率的偏移，加快了系统工作频率的恢复，提高了系统的稳定性。

附图说明

图1为本发明的方法流程方框图；

图2为包含光伏、储能与负荷的微网拓扑结构示意图；

图3虚拟同步发电机转子的运动方程结构示意图；

图4为DDQN算法的学习流程示意图；

图5为频率控制效果对比图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

下面结合图1至图5所示，详细介绍本发明的实施方式，具体为：

步骤1：为了减小光伏出力波动与负荷突变对光储并网系统带来的影响，建立了含有光伏系统、电池储能与变动负荷的光储并网模型；

步骤3：针对功率变化时自适应改变虚拟惯量与阻尼系数的问题，采用深度强化学习中双重深度Q学习算法(Double Deep-Q-Network，DDQN)对虚拟惯量与阻尼系数加以控制，构架双重评价网络，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。

在步骤1中，首先建立含有光伏系统、电池储能系统与变动负荷与外界电网的并网模型，具体如下：

步骤1中，先建立含有光伏系统、电池储能系统与变动负荷与外界电网的并网模型，光伏发电与储能发电分别采用不同的逆变器并入电网中。光伏系统采用最大功率追踪控制，其并网逆变器采用PQ控制，对电网不起支撑作用，以等效电流源的形式并入电网，可以采用受控电流源进行代替。储能系统的并网逆变器采用虚拟同步发电机控制，与光伏输出功率形成互补，同时对电网起到一定的支撑作用。微网通过连接开关与外界电网相连，开关闭合微网处于并网运行状态，此时光储微网以固定的出力向电网输出功率，向电网提供绿色能量。

步骤2中，对微网负荷功率变化引起微网频率偏移的问题，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节。

根据步骤1搭建的模型，控制目标为频率稳定。

考虑到系统频率为连续量，故选择DDQN算法作为控制算法。

强化学习是基于马尔可夫过程的，选择的外界环境提供的状态变量为实测频率f、实测频率与参考频率误差e、频率误差的积分值∫e与外界有功功率P_out。

s＝(f,e,∫e,P_out) (1)

控制对象选择为虚拟惯量J和阻尼系数D，其中：

J∈[J_min,J_max](2)

D∈[D_min,D_max](3)

式中：J_min和J_max是虚拟惯量的最小值与最大值，D_min和D_max是阻尼系数的最小值和最大值。

由于DDQN输出动作为离散量，设虚拟惯量步长为ΔJ，则虚拟惯量离散动作选择有p个；设阻尼系数步长为ΔD，则阻尼系数动作选择有q个，则动作空间一共有g＝pq种组合。

具体的，步骤2中DDQN算法有两个评价网络，分别是Q网络与目标Q网络，Q网络参数为θ，目标Q网络参数为θ_target。评价网络作用为计算目标价值y_t，计算公式为：

式中：r_t+1为t+1时刻的回报值，γ为折扣系数，s_t+1为t+1时刻的状态变量，a为动作空间中选取的动作，Q(·|θ)为Q网络的输出值，Q(·|θ_target)为目标Q网络的输出值。

Q网络参数θ根据(6)式梯度反向传播进行更新。

步骤3为构架双重评价网络，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。

步骤3中两个Q网络结果相同，选择L层全连接层网络，最后一层包含h个节点，其他连接层每层包含n个节点。

奖励函数是强化学习智能体训练的关键，根据频率误差e设计奖励函数。

式中：|e|代表频率误差的绝对值。b₁，b₂分别是频率误差分段点，λ₁，λ₂，λ₃为权重系数，频率误差越小，权重系数越大。

式中：c₁，c₂为实测频率的上下限。

步骤3中，根据所选择的神经网络与设计的奖励函数与终止函数，采用matlab2021a中Reinforcement Learning Toolbox对步骤1搭建的模型进行训练，采用算法为DDQN算法，其具体流程为：

2、从t＝1到T轮迭代；

a)初始化s＝(f，e，∫e，P_out)为当前状态序列的第一个状态；

d)将{s，a，r，s’，is_end}这个五元组存入经验回放集合D；

e)s＝s'；

g)根据式(6)，采用梯度反向传播更新Q网络的参数θ；

h)如果T/C＝1，则更新目标Q网络参数θ_target＝θ；

仿真验证：

在matlab2021a/Simulink环境中进行仿真，进行技术效果对比。

将训练完成的自适应虚拟同步发电机控制策略，应用于光储微网中储能系统，微网中负荷在2秒增加P₁，光伏发电在此时间段输出功率保持不变，将时间段的频率波动与采用传统虚拟同步发电机控制策略的光储微网的频率波动进行效果对比，其比较结果见说明书附图5中所示，由图中所示可以得知，采用本发明的技术方案后，相同时间段中，系统频率的偏移变得更小、频率的恢复速度更快，可以更好地提高系统的稳定性，体现出了本发明技术方案所述自适应虚拟同步发电机控制策略的优越性。

本发明的技术方案，对电池储能系统采用虚拟同步发电机控制实现对光伏输出功率的互补，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，采用深度强化学习中双重深度Q学习算法(Double Deep-Q-Network，DDQN)对虚拟惯量与阻尼系数加以控制，构架双重评价网络与动作空间，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。可以在光储并网功率发生变化时，调节储能虚拟同步发电机的虚拟惯量和阻尼系数，自适应外界环境的改变，降低频率偏移，提高系统的稳定性。

本发明可广泛用于电力供电网络系统运行管理以及微网的运行控制领域。

Claims

1.一种基于深度强化学习的自适应虚拟同步机控制方法，其特征是包括以下步骤：

2.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是在步骤1中，先建立含有光伏系统、电池储能系统与变动负荷与外界电网的光储并网模型，光伏发电与储能发电分别采用不同的逆变器并入电网中；

所述的光伏系统采用最大功率追踪控制，以等效电流源的形式并入电网；

所述电池储能系统的并网逆变器采用虚拟同步发电机控制，与光伏系统输出功率形成互补；

所述的并网模型称为微网，该微网通过连接开关与外界电网相连；

当开关闭合时，微网处于并网运行状态，此时的微网以固定的出力向电网输出功率，向电网提供能量。

3.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是在步骤2中，针对微网负荷功率变化引起微网频率偏移的问题，采用深度强化学习算法对虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，根据步骤1搭建的模型，控制目标为频率稳定。

4.按照权利要求1或3所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是在步骤2中，根据步骤1搭建的模型，控制目标为频率稳定；选择DDQN算法作为控制算法；选择的外界环境提供的状态变量为实测频率f、实测频率与参考频率误差e、频率误差的积分值∫e与外界有功功率P_out；

s＝(f,e,∫e,P_out) (1)

控制对象选择为虚拟惯量J和阻尼系数D，其中：

J∈[J_min,J_max] (2)

D∈[D_min,D_max] (3)

5.按照权利要求4所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是步骤2中DDQN算法有两个评价网络，分别是Q网络与目标Q网络；

Q网络参数θ根据(6)式梯度反向传播进行更新：

6.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是步骤3为构架双重评价网络与动作空间，结合奖励函数，经过多次训练实现对虚拟惯量与阻尼系数的自适应调节。

7.按照权利要求1或6所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是步骤3中两个Q网络结果相同，选择L层全连接层网络，最后一层包含h个节点，其他连接层每层包含n个节点；

式中：c₁,c₂为实测频率的上下限。

8.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是步骤3中，根据所选择的神经网络与设计的奖励函数与终止函数，采用matlab2021a中Reinforcement Learning Toolbox对步骤1搭建的模型进行训练，采用算法为DDQN算法，其具体流程为：

2、从t＝1到T轮迭代；

a)初始化s＝(f，e，∫e，P_out)为当前状态序列的第一个状态；

d)将{s，a，r，s’，is_end}这个五元组存入经验回放集合D；

e)s＝s'；

g)根据式(6)，采用梯度反向传播更新Q网络的参数θ；

h)如果T/C＝1，则更新目标Q网络参数θ_target＝θ；

9.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是所述的自适应虚拟同步机控制方法，通过深度强化学习技术对电池储能虚拟同步发电机的虚拟惯量与阻尼系数进行控制调节，进而实现虚拟同步发电机的改进；

所述的自适应虚拟同步机控制方法，选择深度强化学习算法中双重深度Q学习算法，构建当前评价网络与目标评价网络两个网络，利用神经网络的强大拟合能力降低了维数灾难，从而实现虚拟同步发电机技术的自适应调节。

10.按照权利要求1所述的基于深度强化学习的自适应虚拟同步机控制方法，其特征是所述的自适应虚拟同步机控制方法，通过设计状态空间、动作空间以及奖励函数，使深度强化学习控制器得到充分训练。