CN113113928B

CN113113928B - 基于深度强化学习的柔直系统直流母线电压控制方法及装置

Info

Publication number: CN113113928B
Application number: CN202110390996.1A
Authority: CN
Inventors: 林金娇; 孔祥平; 郑俊超; 李鹏; 高磊; 张弛; 周琦; 王晨清
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-09-09
Anticipated expiration: 2041-04-12
Also published as: CN113113928A

Abstract

本发明公开了一种基于深度强化学习的柔直系统直流母线电压控制方法及装置，该方法包括根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型；采用基于深度强化学习的深度确定性策略梯度方法对所述电压源换流器数学模型进行电压外环控制；将电压外环控制得到的输出作为参考信号送入到电流内环中，基于反馈线性化滑模控制进行电流内环控制；采用电流内环的控制输出对电压源换流器开关进行控制，维持系统直流电压的稳定。该控制方法能够有效地提高控制系统的可靠性和鲁棒性。

Description

基于深度强化学习的柔直系统直流母线电压控制方法及装置

技术领域

本发明涉及一种基于深度强化学习的柔直系统直流母线电压控制方法及装置，属于电力系统控制技术领域。

背景技术

随着我国能源转型的不断推进，大量分布式电源广泛接入配电网，给配电网带来了电压越限、功率失衡等问题。多端口背靠背柔性直流输电装置作为一种基于电力电子技术的新型装置，用来取代传统的联络开关，解决了传统的联络开关只有通和断两种状态，且存在开关次数限制的缺陷，为配电网的发展提供了新的方向。

电压源换流器(VSC)作为多端口背靠背柔性直流输电装置的核心部分，近些年发展十分迅速。现有VSC控制方法多采用双闭环PI控制，控制简单方便，但是PI参数较难整定，不能适配不同的环境，存在可靠性差和精度差等问题。直流侧电压的稳定是多端口背靠背柔性直流输电装置正常运行的前提，现有控制系统中具有直流母线电压波动较大以及动态响应效果不理想等问题。

发明内容

本发明的目的在于提供一种基于深度强化学习的柔直系统直流母线电压控制方法及装置，采用深度强化学习中的深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)算法，为直流母线电压的稳定提供了一种无模型自适应控制方法，解决了PI等算法不能适配不同环境的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明实施例一方面提供一种基于深度强化学习的柔直系统直流母线电压控制方法，包括：

根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型；

采用基于深度强化学习的深度确定性策略梯度方法对所述电压源换流器数学模型进行电压外环控制；

采用滑模控制方法对所述电压源换流器数学模型进行电流内环控制；所述电流内环控制以电压外环控制得到的输出作为参考信号；

采用电流内环的控制输出对电压源换流器开关进行控制。

进一步的，所述根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型，包括：

其中，ω为交流系统相电压角频率，R为换流器交流侧电阻，L为换流器交流侧电感，U_sd和U_sq分别是电网侧电压d轴和q轴分量，U_rd和U_rq分别是电压源换流器交流侧电压d轴和q轴分量，i_d和i_q分别是电网侧电流d轴和q轴分量，t为时间；

当交流系统三相电压平衡时，满足：

其中，P和Q为电压源换流器端口有功和无功功率。

进一步的，所述采用基于深度强化学习的深度确定性策略梯度方法对所述电压源换流器数学模型进行电压外环控制，包括：

建立基于深度强化学习的深度神经网络；

所述深度神经网络以柔直系统直流母线电压U_dc、误差U_dcref-U_dc和误差积分∫(U_dcref-U_dc)dt作为观测信号，记为s＝{U_dc,U_dcref-U_dc,∫(U_dcref-U_dc)dt}；其中，U_dcref为柔直系统直流母线电压参考值；

依据观测信号和奖励，将深度神经网络产生的动作作为电网侧电流d轴上的参考值作用到所述电压源换流器数学模型中，基于深度确定性策略梯度方法对深度神经网络不断进行更新，直至得到收敛于最大奖励时的动作值；

基于无功功率给定值与实际值经PI调节器得到电网侧电流q轴上的参考值。

进一步的，所述奖励计算如下：

进一步的，所述基于深度确定性策略梯度方法包括：

J(π_θ)＝∫∫ρ(s)π_θ(s,a)r(s,a)dads＝E_s-ρ[r(s,a)]

其中，π_θ为参数为θ的策略，π_θ(s,a)表示π_θ是s,a的函数，r(s,a)表示r是s,a的函数，J(π_θ)为策略函数，ρ(s)为策略的概率分布，E_s-ρ为s服从ρ分布的期望，

为梯度，Q(s,a)为观测是s、动作是a的条件下，策略π_θ的价值函数。

进一步的，所述采用滑模控制方法对所述电压源换流器数学模型进行电流内环控制，包括：

设计积分滑模面：

其中，s表示滑模面，s₁和s₂表示滑模面的两个分量，e₁和e₂为控制误差，e₁＝i_d-i_dref，e₂＝i_q-i_qref，i_dref和i_qref分别为电网侧电流d轴和q轴参考值，k₁₁和k₂₂为滑模面控制参数；

基于滑模面设计滑模控制律：

其中，k和ε为预设的趋近律控制参数，

ε＞0，k＞0，sat(s)为饱和函数，Δ为滑模边界层厚度，k₀＝1/Δ；

基于滑模面设计李雅普诺夫函数：

V＝s²/2

其中，V为李雅普诺夫函数；

基于滑模控制得到电流内环的控制输出：

进一步的，所述采用电流内环的控制输出对电压源换流器开关进行控制，包括：

将电流内环的控制输出进行PWM调制，采用调制信号对电压源换流器开关进行控制。

本发明实施例另一方面还提供一种基于深度强化学习的柔直系统直流母线电压控制装置，包括：

建模模块，用于根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型；

第一控制模块，用于采用基于深度强化学习的深度确定性策略梯度方法对所述电压源换流器数学模型进行电压外环控制；

第二控制模块，用于采用滑模控制方法对所述电压源换流器数学模型进行电流内环控制；所述电流内环控制以电压外环控制得到的输出作为参考信号；

以及，

调控模块，用于采用电流内环的控制输出对电压源换流器开关进行控制。

进一步的，所述第一控制模块具体用于，

建立基于深度强化学习的深度神经网络；

进一步的，所述第二控制模块具体用于，

设计积分滑模面：

其中，s表示滑模面，s₁和s₂表示滑模面的两个分量，e₁和e₂为控制误差，e₁＝i_d-i_dref，e₂＝i_q-i_qref，i_dref和i_qref分别为电网侧电流d轴和q轴参考值，i_d和i_q分别是电网侧电流d轴和q轴分量，t为时间，k₁₁和k₂₂为滑模面控制参数；

基于滑模面设计滑模控制律：

其中，k和ε为预设的趋近律控制参数，

基于滑模面设计李雅普诺夫函数：

V＝s²/2

其中，V为李雅普诺夫函数；

基于滑模控制得到电流内环的控制输出：

本发明所达到的有益效果为：

本发明提供一种基于深度强化学习的直流母线电压控制方法及装置，采用基于深度确定性策略梯度的电压外环控制以及反馈线性化滑模电流内环控制，设计电压源换流器的控制系统，取代了传统双闭环PI控制系统；在稳态运行时有更小的稳态误差，在扰动情况下有更小的电压波动，该控制方法能够有效地提高控制系统的可靠性和鲁棒性。

附图说明

图1为多端口背靠背柔性直流输电系统拓扑图。

图2为VSC电路的拓扑结构图。

图3为本发明中深度强化学习与柔直装置信息交互图。

图4为本发明基于Simulink进行深度强化学习流程图。

图5为本发明的双闭环控制整体框图。

图6为DDPG内部网络架构图。

图7为本发明实施例中稳态时PI控制器下直流母线电压图。

图8为本发明实施例中稳态时采用本发明控制下直流母线电压图。

图9为本发明实施例中小扰动时PI控制器下直流母线电压图。

图10为本发明实施例中小扰动时采用本发明控制下直流母线电压图。

图11为本发明实施例中大扰动时PI控制器下直流母线电压图。

图12为本发明实施例中大扰动时采用本发明控制下直流母线电压图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供一种基于深度强化学习的柔直系统直流母线电压控制方法，包括：

步骤1：根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型。

步骤2：对所建立的电压源换流器数学模型进行电压外环控制，电压外环采用基于深度强化学习的深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)控制。

步骤3：将外环DDPG控制策略得到的输出作为参考信号送入到电流内环中，电流内环采用滑模控制。

步骤4：将电流内环控制输出的参考信号经PWM调制后控制VSC中开关的导通和关断，维持系统直流电压的稳定。

具体的，步骤1中，根据多端口背靠背柔性直流输电系统的拓扑结构，建立电压源换流器数学模型，包括：

典型多端口背靠背柔性直流输电系统的拓扑如图1所示，系统中包含多个双向电压源换流器(VSC1，VSC2，VSC3，VSC4)。多端口背靠背柔性直流输电装置在结构上具有对称性，选取一个端口进行分析，每个端口都由电压源换流器构成，VSC电路的拓扑结构如图2所示。

设交流系统三相电压平衡，由KVL定律得到VSC的数学模型，再经过dq坐标变换后得到等效方程为：

式中：ω为交流系统相电压角频率，R为换流器交流侧电阻，L为换流器交流侧电感，U_sd和U_sq分别是电网侧电压d轴和q轴分量，U_rd和U_rq分别是换流器交流侧电压d轴和q轴分量，i_d和i_q分别是电网侧电流d轴和q轴分量。

根据三相瞬时无功功率理论，并且忽略掉线路损耗，当交流系统三相电压平衡时，可得到各端口有功、无功功率与i_d、i_q的关系如下，通过对i_d和i_q的控制可以实现有功和无功的独立解耦控制，

其中：P和Q为电压源换流器端口有功和无功功率。

具体的，步骤2中，电压外环控制采用DDPG控制，具体控制策略如下：

如图3所示，基于深度强化学习的DDPG控制分为环境和智能体两大模块，环境部分是柔直系统的物理模型，即电压源换流器数学模型。智能体部分包含策略(深度神经网络)和强化学习算法，训练过程中，强化学习算法依据观测值(Observation)和奖励(Reward)对策略部分不断进行更新，策略部分产生的动作指令(Action)作用到环境当中，从而形成环境与智能体之间的闭环控制。图4为基于Simulink进行强化学习流程图。

控制过程如图5所示，

将柔直系统直流母线电压U_dc、误差U_dcref-U_dc和误差积分∫(U_dcref-U_dc)dt作为DDPG的观测信号，记为s＝{U_dc,U_dcref-U_dc,∫(U_dcref-U_dc)dt}；其中，U_dcref为柔直系统直流母线电压参考值，为给定值；

被控量U_dc经过奖励函数模块得到的值作为DDPG的奖励，记为r，奖励函数公式如下：

DDPG的输出动作为电流内环d轴上的参考值，记为a＝i_dref。

电流内环q轴上的参考值由无功功率给定值Q_ref与实际值Q经PI控制器得到。

基于策略梯度的方法，DDPG的计算策略函数如式(4)所示，

J(π_θ)＝∫∫ρ(s)π_θ(s,a)r(s,a)dads＝E_s-ρ[r(s,a)] (4)

进一步提升J(π_θ)的梯度，即，

式中，π_θ为参数为θ的策略，π_θ(s,a)表示π_θ是s,a的函数，r(s,a)表示r是s,a的函数，J(π_θ)为策略函数，ρ(s)为策略的概率分布，E_s-ρ为s服从ρ分布的期望，

不断提高动作累积的奖励，经过一定次数的迭代，能够收敛于最大奖励时的动作值。本发明中DDPG算法具体的训练参数如表1所示。

表1

本发明中采用的DDPG算法是深度强化学习的一个重要的分支，DDPG整体应用Actor-Critic形式来加速算法收敛，DDPG内部网络架构如图6所示，主网络中两个网络分别是动作网络和评价网络，目标网络中两个网络分别是动作网络和评价网络。DDPG采用目标网络和经验总结的方式不断更新主网络中的评价网络，进而更新其动作网络，大大提高了算法的收敛性。

具体的，步骤3中，电流内环采用反馈线性化滑模控制设计，具体如下：

反馈线性化的核心是采用合适的坐标变换，将一个复杂的非线性系统转化为线性系统。VSC控制系统中，电流内环的作用是准确地跟踪外环给定的有功和无功电流参考值，相比较传统的PI控制，采用滑模控制具有鲁棒性强、动态性能好的特点，但滑模控制本身存在抖振问题，本发明中选择积分滑模面和指数趋近律与饱和函数结合的滑模控制律来减小抖动。

本发明选择积分滑模面消除静态误差，如式(6)所示。

式中：e₁和e₂为系统的控制误差，e₁＝i_d-i_dref，e₂＝i_q-i_qref，i_dref和i_qref分别为电流在d轴和q轴的参考值，s₁和s₂表示滑模面，k₁₁和k₂₂为滑模面控制参数。

采用指数趋近律与饱和函数结合的滑模控制律，如式(7)所示。

式中：s表示滑模面，

k和ε为预设的趋近律控制参数，ε＞0，k＞0，

对应的，

饱和函数sat(s)的表达式为：

式中，Δ为预设的滑模边界层厚度，k₀取值为，k₀＝1/Δ。

取李雅普诺夫函数V＝s²/2，则

可以得到

所以该滑动模态存在，并且设计的控制系统是李雅普诺夫意义下的渐近稳定系统。

由式(6)至式(8)可以得到电流内环的控制输出为：

最后在Matlab/Simulink中进行仿真，验证本发明控制方法的优越性。以图1的多端口背靠背柔性直流输电系统为例，系统参数设置如下：网侧交流电压380V，直流母线电压650V，VSC交流测电阻为0.5mΩ，VSC交流测电感为8mH，直流母线电容为4700μF。

多端口柔性直流输电装置采用主从控制结构，其中，VSC1采用U_dcQ控制，起到稳定直流母线电压的作用，VSC2-VSC4采用PQ控制，保证功率四象限流动。为验证所设计控制器在维持直流电压稳定和动态响应性上的优越性，分别在不同场景下对系统进行仿真。

系统稳态运行当VSC2-VSC4传输较大的有功功率时，如图7所示，采用双闭环PI控制器直流母线的波动幅度为±0.1V，参见图8，采用本发明所提控制器直流母线波动幅度为±0.04V。

对系统施加小扰动，分别在0.3s和0.6s时小幅度增加VSC2和VSC3的有功功率，如图9所示，双闭环PI控制器超调量为0.3V，而本发明所设计控制器超调量为0.15V，如图10。

对系统施加大扰动，在0.5s时大幅度增加VSC2的有功功率，如图11所示，双闭环PI控制器超调量为0.4V，而本发明所设计控制器超调量为0.2V，如图12。

由仿真结果可知，相比较传统PI控制，本发明所提的基于深度强化学习的直流母线电压控制方法，在稳态运行时有更小的稳态误差，在扰动情况下有更小的电压波动，所提控制方法能够有效地提高了控制系统的可靠性和鲁棒性。

以及，

具体的，第一控制模块用于，

建立基于深度强化学习的深度神经网络；

具体的，第二控制模块用于，

设计积分滑模面：

基于滑模面设计滑模控制律：

其中，k和ε为预设的趋近律控制参数，

基于滑模面设计李雅普诺夫函数：

V＝s²/2

其中，V为李雅普诺夫函数；

基于滑模控制得到电流内环的控制输出：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。