CN116054560A

CN116054560A - 一种dc/dc移相全桥变换器自抗扰控制方法及系统

Info

Publication number: CN116054560A
Application number: CN202310211536.7A
Authority: CN
Inventors: 庞中华; 罗宸; 王鹏; 史运涛; 董哲
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-02

Abstract

本发明公开一种DC/DC移相全桥变换器自抗扰控制方法及系统，涉及工程控制领域，方法包括：构建移相全桥自抗扰控制模型；根据移相全桥自抗扰控制模型输出的电压数据确定变换器当前状态；基于强化学习算法和初始预设策略，确定移相全桥自抗扰控制模型对应的智能体动作以及动作奖励；基于智能体动作对变换器状态进行更新得到变换器更新后状态；从经验池中选择不同变换器状态下的最优经验四元组，以得到最优的自抗扰强化学习模型；最优的自抗扰强化学习模型用于根据变换器当前状态确定线性扩张状态观测器的最优的观测器带宽值。本发明解决了自抗扰控制中估计扰动和放大噪声影响之间的平衡问题。

Description

一种DC/DC移相全桥变换器自抗扰控制方法及系统

技术领域

本发明涉及工程控制技术领域，特别是涉及一种DC/DC移相全桥变换器自抗扰控制方法及系统。

背景技术

随着人们生活水平的不断提升，快递物流业务逐渐发展，智能仓储也发展迅速，作为智能仓储中货到人的重要连接环节，四向穿梭车得到广泛发展，这是一种以锂电池作为能量来源，从而驱动电机的货用智能车。其用于给锂电池充电的DC/DC变换器需要有高功率密度、高转换效率、高抗干扰能力、低发热等特点，这就使得对于DC/DC变换器的输出电压电流控制有更高的要求，传统的PID控制虽然能满足要求，但是在调节时间、鲁棒性等方面不尽人意。

在工业控制领域越来越复杂的背景下，自抗扰控制(Auto-disturbance-rejection control，ADRC)因其具有很强的鲁棒性、及时性和不依赖被控对象的数学模型而受到广泛关注。然而，传统的自抗扰控制器组成部分基本都是非线性结构，所关注的问题过多，结构相对较为复杂，将其应用到现实的系统中时，稳定性分析过于繁琐，在进行分析计算，在工业控制领域应用广泛的频域分析法较难直接应用到自抗扰控制的分析，同时，其控制参数众多，这使得工程技术人员在进行参数整定时非常困难。高志强博士通过仔细对自抗扰控制技术的分析和思考，为了让其在工程实践中得到更好的应用和推广，将自抗扰控制器的三部分组成结构线性化，提出了线性自抗扰控制器(LADRC)，这一方法通过极点配置的原理将系统参数与控制器带宽和观测器带宽紧密相连，使工程人员花费在参数整定上的时间大大缩短，也更方便在频域中进行分析计算。

但线性自抗扰控制容易产生一些问题，在面对较大扰动时，受制于观测器带宽大小的限制，无法第一时间估计出总扰动；在工业实践中，输出值的测量不可避免的会受噪声、精度等问题的影响，从而使其测量值与实际值总存在误差，而线性自抗扰控制在对总扰动进行估计时，会根据观测器带宽的大小不同程度的放大这种误差。

发明内容

本发明的目的是提供一种DC/DC移相全桥变换器自抗扰控制方法及系统，解决自抗扰控制中估计扰动和放大噪声影响之间的平衡问题，保证系统稳定。

为实现上述目的，本发明提供了如下方案：

一种DC/DC移相全桥变换器自抗扰控制方法，方法包括：

基于微分跟踪器、线性扩张状态观测器、线性状态误差反馈控制器、干扰补偿器、PI控制器以及移相全桥DC/DC变换器构建移相全桥自抗扰控制模型；

获取所述移相全桥自抗扰控制模型输出的电压数据，并根据所述电压数据确定变换器当前状态；

基于强化学习算法和初始预设策略，根据所述变换器当前状态确定所述移相全桥自抗扰控制模型对应的智能体动作以及动作奖励；所述智能体动作表征所述线性扩张状态观测器的观测器带宽值；

基于所述智能体动作对所述变换器状态进行更新，以得到变换器更新后状态；所述变换器当前状态、所述智能体动作、所述动作奖励和所述变换器更新后状态构成经验四元组；不同扰动和/或不同噪声状态下的多个经验四元组构成经验池；

从所述经验池中选择不同变换器状态下的最优经验四元组，以得到最优的自抗扰强化学习模型；所述最优的自抗扰强化学习模型用于根据变换器当前状态确定所述移相全桥自抗扰控制模型中线性扩张状态观测器的最优的观测器带宽值。

可选地，所述移相全桥自抗扰控制模型具体为：

所述微分跟踪器的输入端用于输入待处理信号；

所述微分跟踪器的输出端与所述线性状态误差反馈控制器的第一输入端连接；

所述线性状态误差反馈控制器的输出端与所述干扰补偿器的第一输入端连接；

所述干扰补偿器的第一输出端与所述PI控制器的第一输入端连接，所述干扰补偿器的第二输出端与所述线性扩张状态观测器的第一输入端连接；

所述PI控制器的输出端与所述移相全桥DC/DC变换器的输入端连接；

所述移相全桥DC/DC变换器的第一输出端用于输出经过变换处理之后的信号；所述移相全桥DC/DC变换器的的第二输出端与所述PI控制器的第二输入端连接；所述移相全桥DC/DC变换器的的第三输出端与所述线性扩张状态观测器的第二输入端连接；

所述线性扩张状态观测器的第一输出端与所述线性状态误差反馈控制器的第二输入端连接；所述线性扩张状态观测器的第二输出端与所述干扰补偿器的第二输入端连接。

可选地，预设变换器状态包括误差快速上升状态、误差缓速上升状态、误差快速下降状态、误差慢速下降状态和稳态；

根据所述电压数据确定变换器当前状态，具体包括：

获取预设采集次数下采集得到的所述移相全桥自抗扰控制模型输出的电压数据；

获取所述移相全桥DC/DC变换器的设定电压；

根据相邻采集次数下所述移相全桥自抗扰控制模型输出的电压数据以及所述设定电压，计算电压误差变化率；

根据预设采集次数下所述移相全桥自抗扰控制模型输出的电压数据以及设定电压，计算电压误差之和；

将所述电压误差变化率和所述电压误差之和，与多个预设误差数值范围分别进行匹配，以从多个预设变换器状态中筛选出变换器当前状态；多个预设误差数值范围分别与所述误差快速上升状态、误差缓速上升状态、误差快速下降状态、误差慢速下降状态和稳态一一对应。

为达上述目的，本发明还提供了如下技术方案：

一种DC/DC移相全桥变换器自抗扰控制系统，包括：

模型构建模块，用于基于微分跟踪器、线性扩张状态观测器、线性状态误差反馈控制器、干扰补偿器、PI控制器以及移相全桥DC/DC变换器构建移相全桥自抗扰控制模型；

变换器状态确定模块，用于获取所述移相全桥自抗扰控制模型输出的电压数据，并根据所述电压数据确定变换器当前状态；

动作及奖励确定模块，用于基于强化学习算法和初始预设策略，根据所述变换器当前状态确定所述移相全桥自抗扰控制模型对应的智能体动作以及动作奖励；所述智能体动作表征所述线性扩张状态观测器的观测器带宽值；

经验池构建模块，用于基于所述智能体动作对所述变换器状态进行更新，以得到变换器更新后状态；所述变换器当前状态、所述智能体动作、所述动作奖励和所述变换器更新后状态构成经验四元组；不同扰动和/或不同噪声状态下的多个经验四元组构成经验池；

模型训练及控制模块，用于构建训练环境，并使所述训练环境中的智能体从所述经验池中选择不同变换器状态下的最优经验四元组，以得到最优的自抗扰强化学习模型；所述最优的自抗扰强化学习模型用于根据变换器当前状态确定所述移相全桥自抗扰控制模型中线性扩张状态观测器的最优的观测器带宽值。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种DC/DC移相全桥变换器自抗扰控制方法及系统，基于微分跟踪器、线性扩张状态观测器、线性状态误差反馈控制器、干扰补偿器、PI控制器以及移相全桥DC/DC变换器构建移相全桥自抗扰控制模型；根据移相全桥自抗扰控制模型输出的电压数据确定变换器当前状态；基于强化学习(SARSA)算法和初始预设策略，确定出与变换器当前状态对应的智能体动作以及动作奖励；其中，智能体动作表征线性扩张状态观测器的观测器带宽值，从而实现变换器当前状态与线性扩张状态观测器的观测器带宽值的对应变换，即通过调整线性扩张状态观测器的观测器带宽值改变移相全桥DC/DC变换器的输出电压数据的状态，以使得输出的电压处于稳态之中。进一步地，基于智能体动作对变换器状态进行更新得到变换器更新后状态，进而得到由变换器当前状态所述智能体动作、动作奖励和变换器更新后状态构成经验四元组。从不同扰动和/或不同噪声状态下的多个经验四元组构成经验池中抽取不同变换器状态(不同扰动和/或不同噪声)下的最优经验四元组，以得到最优的自抗扰强化学习模型。最优的自抗扰强化学习模型能够根据变换器当前状态确定所述移相全桥自抗扰控制模型中线性扩张状态观测器的最优的观测器带宽值，从而通过对线性扩张状态观测器的带宽进行调整，解决自抗扰控制器在估计扰动和放大噪声影响之间的平衡问题，保证系统处于稳定状态。另外，本发明采用强化学习算法进行训练学习，能够提高系统在不同状态下的反应速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明DC/DC移相全桥变换器自抗扰控制方法的流程示意图；

图2为本发明移相全桥自抗扰控制模型的结构示意图；

图3为本发明移相全桥自抗扰控制模型在强化学习训练时施加扰动与噪声的位置；

图4为本发明SARSA-LADRC+PI双闭环控制、LADRC+PI双闭环控制和PI+PI双闭环控制三种控制方法仿真效果对比图；

图5为本发明的方法与LADRC+PI双闭环控制、PI+PI双闭环控制在测量通道受噪声影响时的局部放大图；

图6为本发明的方法与LADRC+PI双闭环控制、PI+PI双闭环控制在面对扰动时的局部放大图；

图7为本发明DC/DC移相全桥变换器自抗扰控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种DC/DC移相全桥变换器自抗扰控制方法及系统，利用被控对象的输入输出数据，通过SARSA算法训练得到不同状态下线性自抗扰控制器的最佳带宽值，然后根据训练结果对PSFB变换器进行控制，其控制结构简单、灵活，易于实现，且控制思想易于理解，便于在实际工程中应用和推广。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提出一种DC/DC移相全桥变换器自抗扰控制方法，包括：

步骤100，基于微分跟踪器、线性扩张状态观测器、线性状态误差反馈控制器、干扰补偿器、PI控制器以及移相全桥DC/DC变换器构建移相全桥自抗扰控制模型。

如图2所示，微分跟踪器(TD)的输入端用于输入待处理信号(Input signal)；微分跟踪器的输出端与线性状态误差反馈控制器(LSEF)的第一输入端连接。微分跟踪器用于完成输入信号的平滑处理和微分信号的提取。

线性状态误差反馈控制器(LSEF)的输出端与所述干扰补偿器(DisturbanceCompensation)的第一输入端连接。所述干扰补偿器的第一输出端与所述PI控制器(PIController)的第一输入端连接，所述干扰补偿器的第二输出端与所述线性扩张状态观测器(LESO)的第一输入端连接。所述PI控制器的输出端与所述移相全桥DC/DC变换器(PSFBConverter)的输入端连接；所述移相全桥DC/DC变换器的第一输出端用于输出经过变换处理之后的信号(Poweroutput)；所述移相全桥DC/DC变换器的的第二输出端与所述PI控制器的第二输入端连接，用于将当前的数据(current)发送至PI控制器；所述移相全桥DC/DC变换器的的第三输出端与所述线性扩张状态观测器的第二输入端连接。

线性扩张状态观测器的第一输出端与所述线性状态误差反馈控制器的第二输入端连接；所述线性扩张状态观测器的第二输出端与所述干扰补偿器的第二输入端连接。线性扩张状态观测器用于根据控制量与输出量，获取系统状态的估计值与总扰动的估计量。

线性状态误差反馈控制律用于根据微分跟踪器的信号和线性扩张状态观测器估计的状态量生成控制量，并对总扰动实时补偿控制。

进一步具体来说如下：

(1)移相全桥DC/DC变换器

移相全桥DC/DC变换器的系统函数如下：

其中，R_d＝4n²f_sL_r，f_s为PSFB(移相全桥)变换器的额定频率，L_r为谐振电感，L_f为输出滤波电感，U₀为移相全桥DC/DC变换器的目标输出电压，n为变压器匝数比，D为变压器原边占空比，U_in为输入电压，C为输出滤波电容，R为负载电阻。

为了同时控制输出电压和电流，PSFB变换器通常采用双闭环控制方式，双闭环控制包括电流内环和电压外环。对于电流内环，采用PI控制器进行控制，以满足输出电流快速调节的需要。采用极点配置的方法设计PI控制器，由此可得PI控制器的传递函数为：

其中，k₁和k₂为PI控制器的比例增益和积分系数，且满足

s₁为移相全桥DC/DC变换器的系统函数的一个极点。结合上述PI控制器的传递函数和移相全桥DC/DC变换器的系统函数，可将电流内环的闭环传递函数写成如下形式：

其中，K表示预设系数，具体为含比例增益和移相全桥DC/DC变换器的系统函数参数的系数，其中，系统函数参数包括输出滤波电感量、输出滤波电容量、频率、负载电阻、变压器匝比和谐振电感量；u₁表示线性状态误差反馈控制器输出的控制律，s₂表示移相全桥DC/DC变换器的系统函数中有关s的一个参数解，与上文中的极点s₁不同的另一个极点。

在实际工业应用环境中，由于温度等外界因素的影响，PSFB变换器的元件参数不可避免地会产生温度漂移等问题，这使得移相全桥DC/DC变换器的系统函数无法准确描述不同情况下PSFB变换器的数学模型。因此，本发明在电压外环采用LADRC控制器来解决这一问题。LADRC控制器将系统视为积分串联型系统和系统未建模部分的和。传统的控制律只需要对系统的积分串联型系统进行设计，对系统未建模部分和观测到的扰动采用补偿控制律一起进行补偿。本发明基于电流内环的闭环传递函数，为电压外环设计一个三阶LADRC控制器。

(2)微分跟踪器

微分跟踪器对输入信号进行平缓化，并且可以得到输入信号的微分量，为线性状态误差反馈控制器提供比较信号，最终将减小输入信号变化导致输出产生变化的超调量。

微分跟踪器的结构如下：

其中，v₁(t)和v₂(t)为微分跟踪器的输出，v₀(t)为输入信号，h₀是采样周期，r₀是决定轨迹步长的变量。fhan(x₁,x₂,r,h)是最速控制综合函数，为：

在输入信号变化的时刻，微分跟踪器可以得到平缓的输入信号v₁(t)和微分量v₂(t)，从而为线性状态误差反馈控制律提供比较基准信号。

(3)线性扩张状态观测器

根据内电流环的闭环传递函数，设计一个3阶的线性扩张状态观测器，其表达式为：

其中，z₁和z₂为线性扩张状态观测器的估计状态输出，z₃为线性扩张状态观测器估计的总扰动值，b₀为决定补偿强度的补偿因子，u₁为扰动估计补偿后的误差反馈控制律，y₁为PSFB变换器的输出电压，β₁、β₂和β₃为极点配置获得的观测器增益。将拉普拉斯变换应用于上述3阶的线性扩张状态观测器，可得：

λ(s)＝s³+β₁s²+β₂s+β₃

通常，为了使线性扩张状态观测器的有界输入有界输出(BIBO)稳定，特征方程的根都位于S平面的左半平面。因此β₁、β₂和β₃一般配置为如下形式：

β₁＝3ω,β₂＝3ω²,β₃＝ω³

进而将特征方程λ(s)转化为下式：

λ(s)＝(s+ω)³

其中，ω称为观测器带宽。

(4)线性状态误差反馈控制器

线性状态误差反馈控制器利用微分跟踪器提供的信号和线性扩张状态观测器所估计得状态量生成控制律，采用基本的PD控制即可满足控制要求，控制律根据状态量可得：

u₀＝k_p(v₁-z₁)+k_d(v₂-z₂)

其中，k_p和k_d为控制增益，对扰动进行补偿后可得最终的控制律为:

u₁＝u₀-z₃/b₀

步骤200，获取所述移相全桥自抗扰控制模型输出的电压数据(voltage)，并根据所述电压数据确定变换器当前状态。

SARSA是一种在线策略强化学习算法，由于每次更新值函数需要知道当前的状态(State)、当前的动作(Action)、奖励(Reward)、下一步的状态(State)、下一步的动作(Action)，因此强化学习算法又可简称为SARSA算法。对于PSFB变换器，将其输出电压作为SARSA的状态集。然而在工业环境中，输出电压经常被采样，为了降低状态集的维数，更好地反映外界扰动对PSFB变换器的影响，采用相邻输出电压与设定电压的误差变化率以及一定次数下误差之和作为PSFB变换器的状态划分依据。

预设变换器状态包括误差快速上升状态、误差缓速上升状态、误差快速下降状态、误差慢速下降状态和稳态。具体地，步骤200中根据电压数据确定变换器当前状态包括：

1)获取预设采集次数下采集得到的所述移相全桥自抗扰控制模型输出的电压数据。

2)获取所述移相全桥DC/DC变换器的设定电压。

3)根据相邻采集次数下所述移相全桥自抗扰控制模型输出的电压数据以及所述设定电压，计算电压误差变化率。

4)根据预设采集次数下所述移相全桥自抗扰控制模型输出的电压数据以及设定电压，计算电压误差之和。进一步地，预设采集次数对应的电压误差之和是基于滑窗法计算得到的。

5)将所述电压误差变化率和所述电压误差之和，与多个预设误差数值范围分别进行匹配，以从多个预设变换器状态中筛选出变换器当前状态；多个预设误差数值范围分别与所述误差快速上升状态、误差缓速上升状态、误差快速下降状态、误差慢速下降状态和稳态一一对应。

步骤300，基于强化学习算法和初始预设策略，根据所述变换器当前状态确定所述移相全桥自抗扰控制模型对应的智能体动作以及动作奖励；所述智能体动作表征所述线性扩张状态观测器的观测器带宽值。

在SARSA算法中，当值函数更新时，已经根据策略π选择了下一个动作，策略分为确定性策略和随机策略。通常使用ε-greedy策略(Epsilon贪心策略)进行动作选择，ε-greedy策略是以ε概率选择最大收益的行动，以概率1-ε随机的选择行动。ε-greedy策略对应的初始预设策略可用下式表示：

其中，π(a|x)表示状态x情况下，动作a被选中的概率，即预设初始策略；ε∈(0,1)，m是智能体动作的总数，a^*表示Q(s,a)中Q值最大的动作；A表示智能体动作集合；Q(s,a)表示状态s、动作a情况下的强化学习Q值，一般也叫Q表(对应图2中的Q table)。

由初始预设策略的函数公式可以看出，所有动作被选中的概率满足π(a|s)>ε/m，这使得每个状态-动作二元组都有被选中的概率。

Q表是一个状态-动作对的值表，它表示在每种状态下选择不同行动的奖励。SARSA算法的目的是学习特定状态下特定动作的奖励值Q(s,a)，最终构建并优化Q表。在训练中，使用更新公式不断更新Q表，最终得到每个状态下的最优动作选择。Q(s,a)的更新公式如下所示。

Q(s_t,a_t)←Q(s_t,a_t)+α[R+γＱ（s_ｔ+1,a_ｔ+1）-Q(s_t,a_t)]

其中，α∈[0,1]是学习律，γ∈[0,1]是衰减因子。Q(s_t,ａ_ｔ)是Ｑ(ｓ,a)在t时刻的值。

为了减少采样噪声等因素对线性扩张状态观测器的影响，使系统在不同状态下更快地补偿扰动。采用SARSA算法对线性扩张状态观测器的观测器带宽进行调整。所以智能体的动作ａ就是调整ω的值，观测器带宽值ω为：

ω＝ｃω₀

其中，ｃ称为带宽增益系数；ω₀是基本带宽。ω₀的选择可根据工程经验确定。

动作奖励R(对应图2中的Reward)的设计决定了强化学习代理的训练效果。为了更好地反映动作a对PSFB变换器的影响，奖励函数设计为动作a的持续时间t_c与持续时间内最大误差err_max的线性组合，具体如下：

R＝θ₁err_max+θ₂t_c

其中，θ₁和θ₂均为奖励函数的增益系数，R表示动作奖励的值，t_c表示智能体动作的持续时间，err_max表示智能体动作的持续时间内，移相全桥自抗扰控制模型输出的最大电压误差。

步骤400，基于所述智能体动作对所述变换器状态进行更新，以得到变换器更新后状态；所述变换器当前状态、所述智能体动作、所述动作奖励和所述变换器更新后状态构成经验四元组；不同扰动和/或不同噪声状态下的多个经验四元组构成经验池。

需知，强化学习是指智能体通过不断与环境互动，利用环境反馈的奖励信号，学习从环境状态到行为的映射关系的过程。当环境可观测时，强化学习过程可用数学上的马尔可夫决策过程(MDP)来描述。在本申请具体实际应用中，MDP可由五元组[s,a,r,Psa,π]组成。

其中，s∈S，S表示状态空间，根据可观察环境定义的状态集合，对应本申请中变换器状态。a∈A，A表示动作空间，不同状态下所有可执行动作的集合，对应本申请中线性扩张状态观测器的观测器带宽值。r∈R，R表示奖励，在状态s中执行行动a到下一个状态s'的及时奖励，对应本申请中的动作奖励。Psa表示状态转移概率分布，即在当前状态s下执行动作a移动到另一个状态s'的概率分布。

智能体的训练通过对PSFB变换器施加扰动且在测量通道施加噪声来进行，可如图3所示，在移相全桥变换器处施加扰动(Disturbance)和/或在移相全桥变换器与线性扩张状态观测器的信息传输过程中施加噪声(Noise)。干扰信号为高斯分布的随机信号，均值为0，方差为0.8，频率为5HZ，幅值在[-15，+15]之间。噪声信号为白噪声，均值为0.2，采样时间为0.0001。

步骤500，从所述经验池中选择不同变换器状态下的最优经验四元组，以得到最优的自抗扰强化学习模型；所述最优的自抗扰强化学习模型用于根据变换器当前状态确定所述移相全桥自抗扰控制模型中线性扩张状态观测器的最优的观测器带宽值。具体到图2中，由智能体(Agent)依据经验池中接收到的状态数据、奖励数据等确定最优经验四元组，不同变换器状态下的最优经验四元组构成最优的自抗扰强化学习模型，也即得到最优的Q表，以便于后续其他步骤的使用。

受硬件条件的限制，自抗扰强化学习模型的整个训练过程分为十个部分，通过对前一部分训练结果的继承来达到持续的训练效果。每一部分的训练过程中，基于经验四元组，得到输出的最优的观测器带宽预测值，将观测器带宽预测值发送至移相全桥自抗扰控制模型中，获取其对应的变换器当前状态；若变换器当前状态满足预设条件，则结束训练；若变换器当前状态不满足预设条件，则返回构建经验池的步骤，重新进行经验四元组的获取。

训练后，将训练得到的Q表用于PSFB的控制中，智能体将依据Q表来进行动作选择，在PSFB变换器面对大扰动时，采取大的带宽增益，从而快速补偿扰动的影响，当扰动作用过后，系统恢复稳态时，将采取小的带宽增益，以减小线性扩张状态观测器对测量噪声等因素的放大程度。

图4为SARSA-LADRC+PI双闭环控制、LADRC+PI双闭环控制和PI+PI双闭环控制三种控制方法仿真效果对比图，图4中阶跃信号在0.5s时被施加给系统，由图4可以看到，得益于微分跟踪器的作用，LADRC控制器相较于PI控制器有更小的超调量，这可以在实际应用中保护PFSB变换器的元器件。在第1.5秒时分别对三种控制方法下PSFB变换器的测量通道施加同样的噪声干扰。图5是受噪声干扰后局部放大图，从图5中可以看出本发明所提出的方法在面对噪声干扰时，效果好于LADRC+PI的控制效果，本发明所提出的方法在稳态时不会过度放大噪声的影响。图6是三种控制方法在受到外部干扰时的效果对比图，干扰在第1秒施加到系统，从图6中可以看出本发明所提出的方法相对于其他两种方法可以更快更小超调的使系统恢复稳态。另外，图4、图5和图6中，横坐标均为时间(Time)，单位为秒(s)；纵坐标均为电压(Voltage)，单位为伏(V)。

综上，本发明能够根据当前系统的状态，调整输出给线性扩张状态观测器的带宽增益，从而调节线性扩张状态观测器的估计速度，并减小线性扩张状态观测器受噪声的影响程度，解决了自抗扰控制器在估计扰动和放大噪声影响之间的平衡问题。

实施例二

如图7所示，为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，本实施例还提供了一种DC/DC移相全桥变换器自抗扰控制系统，包括：

模型构建模块101，用于基于微分跟踪器、线性扩张状态观测器、线性状态误差反馈控制器、干扰补偿器、PI控制器以及移相全桥DC/DC变换器构建移相全桥自抗扰控制模型。

变换器状态确定模块201，用于获取所述移相全桥自抗扰控制模型输出的电压数据，并根据所述电压数据确定变换器当前状态。

动作及奖励确定模块301，用于基于强化学习算法和初始预设策略，根据所述变换器当前状态确定所述移相全桥自抗扰控制模型对应的智能体动作以及动作奖励；所述智能体动作表征所述线性扩张状态观测器的观测器带宽值。

经验池构建模块401，用于基于所述智能体动作对所述变换器状态进行更新，以得到变换器更新后状态；所述变换器当前状态、所述智能体动作、所述动作奖励和所述变换器更新后状态构成经验四元组；不同扰动和/或不同噪声状态下的多个经验四元组构成经验池。

模型训练及控制模块501，用于构建训练环境，并使所述训练环境中的智能体从所述经验池中选择不同变换器状态下的最优经验四元组，以得到最优的自抗扰强化学习模型；所述最优的自抗扰强化学习模型用于根据变换器当前状态确定所述移相全桥自抗扰控制模型中线性扩张状态观测器的最优的观测器带宽值。

在一个具体实际应用中，可将本发明线性自抗扰控制系统集成为强化学习器。强化学习器分别与移相全桥DC/DC变换器、线性扩张状态观测器连接。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种DC/DC移相全桥变换器自抗扰控制方法，其特征在于，方法包括：

2.根据权利要求1所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，所述移相全桥自抗扰控制模型具体为：

所述微分跟踪器的输入端用于输入待处理信号；

3.根据权利要求1所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，所述移相全桥DC/DC变换器采用双闭环控制方式，其中，双闭环控制中的电流内环由所述PI控制器控制；

所述电流内环的闭环传递函数为：

其中，K表示预设系数，U₀表示所述移相全桥DC/DC变换器的目标输出电压，u₁表示线性状态误差反馈控制器输出的控制律，s₂表示移相全桥DC/DC变换器的系统函数中有关s的一个参数解。

4.根据权利要求1所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，所述初始预设策略的表达函数为：

其中，π(a|x)表示状态x情况下，动作a被选中的概率，即预设初始策略；ε∈(0,1)，m是智能体动作的总数，a^*表示Q(s,a)中Q值最大的动作；A表示智能体动作集合；Q(s,a)表示状态s、动作a情况下的强化学习Q值。

5.根据权利要求1所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，预设变换器状态包括误差快速上升状态、误差缓速上升状态、误差快速下降状态、误差慢速下降状态和稳态；

根据所述电压数据确定变换器当前状态，具体包括：

获取所述移相全桥DC/DC变换器的设定电压；

6.根据权利要求5所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，所述电压误差之和是基于滑窗法计算得到的。

7.根据权利要求1所述的DC/DC移相全桥变换器自抗扰控制方法，其特征在于，所述动作奖励的计算公式为：

R＝θ₁err_max+θ₂t_c

8.一种DC/DC移相全桥变换器自抗扰控制系统，其特征在于，系统包括：