CN114172403A - 基于深度强化学习的逆变器效率优化方法 - Google Patents

基于深度强化学习的逆变器效率优化方法 Download PDF

Info

Publication number
CN114172403A
CN114172403A CN202111487731.XA CN202111487731A CN114172403A CN 114172403 A CN114172403 A CN 114172403A CN 202111487731 A CN202111487731 A CN 202111487731A CN 114172403 A CN114172403 A CN 114172403A
Authority
CN
China
Prior art keywords
network
online
state
strategy
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111487731.XA
Other languages
English (en)
Other versions
CN114172403B (zh
Inventor
王佳宁
杨仁海
姚张浩
彭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111487731.XA priority Critical patent/CN114172403B/zh
Publication of CN114172403A publication Critical patent/CN114172403A/zh
Application granted granted Critical
Publication of CN114172403B publication Critical patent/CN114172403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M7/00Conversion of ac power input into dc power output; Conversion of dc power input into ac power output
    • H02M7/42Conversion of dc power input into ac power output without possibility of reversal
    • H02M7/44Conversion of dc power input into ac power output without possibility of reversal by static converters
    • H02M7/48Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode
    • H02M7/53Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal
    • H02M7/537Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters
    • H02M7/5387Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters in a bridge configuration
    • H02M7/53871Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters in a bridge configuration with automatic control of output voltage or current
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M1/00Details of apparatus for conversion
    • H02M1/08Circuits specially adapted for the generation of control voltages for semiconductor devices incorporated in static converters
    • H02M1/088Circuits specially adapted for the generation of control voltages for semiconductor devices incorporated in static converters for the simultaneous control of series or parallel connected semiconductor devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/10Technologies improving the efficiency by using switched-mode power supplies [SMPS], i.e. efficient power electronics conversion e.g. power factor correction or reduction of losses in power supplies or efficient standby modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种基于深度强化学习的逆变器效率优化方法,属于电力电子技术领域。包括建立效率优化模型;确定状态集合、动作集合和奖励函数;利用DDPG算法进行离线学习,得到最优策略;根据该最优策略,系统在状态集合S的任一状态下均能实现效率最大化。本发明的优化方法采用神经网络替代了强化学习的Q‑table查找表,能够解决高维设计变量问题,可以在连续变量区间内以及动态的逆变器额定工作条件下训练,从而直接得到最优设计变量值使效率达到最大,避免了传统优化方法只能在离散区间内寻优会导致最优解丢失的情况,同时不需要重新进行复杂、耗时的寻优求解过程,节省计算资源。

Description

基于深度强化学习的逆变器效率优化方法
技术领域
本发明属于电力电子技术领域,涉及逆变器的效率优化方法,尤其涉及一种基于深度强化学习的逆变器效率优化方法。
背景技术
在很多国家,太阳能光伏发电已经成为未来清洁能源利用的重要组成部分。在光伏发电系统中,逆变器作为连接光伏电池板和电网的接口,其主要功能是将光伏阵列转化的直流电变换成与电网同步的交流电。因此逆变器是保障光伏发电系统高效、经济和稳定运行不可或缺的关键环节之一,而让逆变器在任意运行工况下都能达到最高的效率对光伏发电系统的高效稳定运行是非常有意义的。
在电力电子装备的设计中,由于逆变器实际的运行工况非常复杂多变,在面对复杂的应用环境时,无法快速确定逆变器的运行条件使逆变器以最高的效率运行,为此很多专家学者提出不同的解决方法:
中国发明专利公开说明书CN111600492A于2020年08月28日公开的《一种双有源全桥直流变换器的效率优化控制方法》,采用强化学习方法对双有源全桥直流变换器的效率进行优化。但是,该解决方法存在以下不足:
1)由于强化学习方法的状态和动作是离散变量,该方法不是在连续状态变量区间和连续动作变量区间内训练并得到的最优控制变量值,存在最优解丢失的可能性,应用范围有限;
2)该方法的状态和动作是离散变量,当系统额定工作条件的范围扩大时,强化学习的训练范围变大,强化学习的Q-table查找表体积变大,计算机训练耗时更长,很难完成训练;
中国发明专利公开说明书CN106100412B于2019年04月05日授权的《一种基于电感电流临界连续控制策略逆变器的轻载效率优化方法》,采用电感电流临界连续控制策略对逆变器的效率进行优化。但是,该解决方法存在以下不足:
1)当增加额外器件和辅助电路时,控制变量增加,控制策略复杂度大大增加,很难实现全桥逆变开关管的ZVS,大大增加了最优效率的求解难度;
2)该方法通过在轻载情况下降低一定的直流母线电压幅值提升效率,无法对动态额定工作条件的逆变器快速、准确的进行最优效率的求解,求解过程复杂耗时,存在一定的局限性。
发明内容
本发明针对现有逆变器的效率优化方法中是在离散状态区间和离散动作区间内训练并得到的最优控制变量值,存在最优解丢失的可能性,应用范围小,训练或求解过程复杂耗时,寻优过程存在局限性的不足,提出了一种采用DDPG算法的基于深度强化学习的逆变器效率优化方法,以解决现有技术中存在的上述问题。
本发明的目的是这样实现的,本发明提供了一种基于深度强化学习的逆变器效率优化方法,所述逆变器包括直流电压源、三相三电平ANPC逆变电路、滤波电路和负载;所述三相三电平ANPC逆变电路包括两个相同的支撑电容和一个逆变主电路,其中,两个支撑电容分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源的直流正母线P和直流负母线E之间;所述逆变主电路包括三相桥臂,三相桥臂互相并联在直流电压源的直流正母线P和直流负母线E之间;所述滤波电路包括三相滤波电感L和三相滤波电容C0,三相滤波电感L的一端接三相三电平ANPC逆变电路的输出端,另一端接负载,三相滤波电容C0并联在三相滤波电感L和负载之间;
所述逆变器效率优化方法基于深度强化学习对逆变器效率进行优化,具体步骤如下:
步骤1,建立效率优化模型
步骤1.1,将逆变器记为系统,并做以下设定::
系统中支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗忽略不计;
在逆变主电路中包括σ个带反并联二极管的开关管,其中,σ1个为工频开关管、σ2个为高频开关管;
步骤1.2,以系统的效率η为目标,建立效率优化模型,具体表达式如下:
Figure BDA0003396095240000031
式中,Ploss为系统的总损耗,Ploss=PT+PL,PT为系统中σ个开关管和σ个反并联二极管的总损耗,PL为系统中三相滤波电感L的损耗,Pw为系统的额定输入功率;
步骤2,根据步骤1得到的效率优化模型,确定状态集合S、动作集合A0和奖励函数R;
所述状态集合S的表达式如下:
S∈{(Udc,I,η)}
式中,Udc为直流电压源的电压值,I为系统的输出电流有效值;
所述动作集合A0的表达式如下:
Figure BDA0003396095240000041
式中,fsw为高频开关管的开关频率,记为高频开关频率fsw,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值;
记系统某一时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在t时刻的状态记为st,将系统在t时刻采取的动作记为at,具体表达式如下:
st=(Udc,I,η)t
at=(fsw)t
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure BDA0003396095240000042
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,rt=-ε×Ploss,ε为权重系数,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度;
步骤3,根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy);
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为θμ,目标策略网络的神经网络参数记为θμ′,在线评价网络的神经网络参数记为θQ,目标评价网络的神经网络参数记为θQ′
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I,η)y,(Udc,I,η)y为状态集合S中与最优策略对应的个体,ay为与最优策略对应的在线策略网络输出的动作值,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略对应的高频开关频率;
将最优策略π(sy)代入步骤1建立的效率优化模型,系统在状态集合S中的任一状态下均能实现效率最大化。
优选地,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′,令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;
记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于权利要求1中的所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于权利要求1中的所述状态集合S中的个体,且s=(Udc,I,η);μ为通过在线策略网络的神经网络参数θμ和输入的状态值s得到的策略;
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure BDA0003396095240000061
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure BDA0003396095240000062
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2;
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n;
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure BDA0003396095240000071
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值;
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure BDA0003396095240000072
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure BDA0003396095240000073
Figure BDA0003396095240000074
Figure BDA0003396095240000075
Figure BDA0003396095240000076
Figure BDA0003396095240000077
式中,
Figure BDA0003396095240000078
为偏导符号,其中
Figure BDA0003396095240000079
表示策略J对θμ求偏导,
Figure BDA00033960952400000710
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure BDA00033960952400000711
对动作值a求偏导,
Figure BDA00033960952400000712
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure BDA00033960952400000713
对θμ求偏导,
Figure BDA00033960952400000714
表示误差函数L(θQ)对θQ求偏导,αQ为在线评价网络的学习率,αμ在线策略网络的学习率,τ为滑动平均更新参数,且0<αQ<1,0<αμ<1,0<τ<1,
Figure BDA00033960952400000715
为更新之后的在线评价网络的神经网络参数,
Figure BDA00033960952400000716
为更新之后的在线策略网络的神经网络参数,
Figure BDA0003396095240000081
为更新之后的目标评价网络的神经网络参数,
Figure BDA0003396095240000082
为更新之后的目标策略网络的神经网络参数;
步骤3.7,给定步长step,最大步长stepmax,训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,当完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,重复执行步骤3.4~步骤3.6,当stepmax个步长的训练过程完成时,一个回合的训练过程完成;下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,重复执行步骤3.2~步骤3.6,当M个回合的训练过程完成时,DDPG算法的学习过程结束;
记一个训练回合的平均奖励为
Figure BDA0003396095240000083
在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′朝着最大化
Figure BDA0003396095240000084
的方向更新,最终得到最优策略π(sy)。
与现有技术相比,本发明的有益效果为:
(1)本发明采用神经网络替代了强化学习的Q-table查找表,可以解决复杂的高维设计变量问题,并且可以在连续状态变量区间和连续动作变量区间内训练从而得到最优设计变量值,避免了传统优化方法只能在离散区间内寻优会导致最优解丢失的情况;
(2)本发明提供的最优策略π(a|s)在动态的逆变器额定工作条件下均能够直接得到最优的设计变量值使效率达到最大,不需要重新进行复杂、耗时的寻优求解过程,简便快捷,节省计算资源。
附图说明
图1为本发明实施例中逆变器的拓扑图;
图2为本发明逆变器效率优化方法的框图;
图3为本发明逆变器效率优化方法的流程图;
图4为本发明实施例中平均奖励的收敛效果图;
图5为本发明实施例中动作变量的训练效果图。
具体实施方式
下面结合附图,对本发明进行详细的说明。
图1为本发明实施例中逆变器的拓扑图。由图1可见,该逆变器包括直流电压源10、三相三电平ANPC逆变电路20、滤波电路30和负载40。
所述三相三电平ANPC逆变电路20包括两个相同的支撑电容和一个逆变主电路,其中,两个支撑电容分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源10的直流正母线P和直流负母线E之间。所述逆变主电路包括三相桥臂,三相桥臂互相并联在直流电压源10的直流正母线P和直流负母线E之间。所述滤波电路30包括三相滤波电感L和三相滤波电容C0,三相滤波电感L的一端接三相三电平ANPC逆变电路20的输出端,另一端接负载40,三相滤波电容C0并联在三相滤波电感L和负载40之间。
在本实施例中,支撑电容Cap1和支撑电容Cap2的连接点记为直流母线中点O。
在本实施例中,所述逆变主电路包括A相桥臂、B相桥臂和C相桥臂,每相桥臂包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管Sij,其中i表示三相,i=A,B,C,j表示开关管的序号,j=1,2,3,4,5,6。A相桥臂、B相桥臂、C相桥臂互相并联在直流正母线P和直流负母线E之间。在三相桥臂的每相桥臂中,开关管Si1、开关管Si2、开关管Si3、开关管Si4顺序串联,且开关管Si1的输入端接直流正母线P、开关管Si4的输出端接直流负母线E,开关管Si5的输入端接开关管Si1的输出端,开关管Si5的输出端接直流母线中点O,开关管Si6的输入端接直流母线中点O,开关管Si6的输出端接开关管Si3的输出端。将开关管Si2和开关管Si3的连接点记为输出点φi,i=A,B,C。另外18个反并联二极管记为二极管Dij
在本实施例中,三相滤波电感L的一端接输出点φi,另一端接负载40,三相滤波电容C0并联在三相滤波电感L和负载40之间。
在本实施例中,σ=18,σ1=12,σ2=6。即在逆变主电路中包括12个工频开关管和6个高频开关管,其中,开关管Si1、开关管Si4、开关管Si5和开关管Si6为工频开关管,且工频开关管的开关频率均为50Hz,开关管Si2和开关管Si3为高频开关管,且高频开关管的开关频率相同。
图2为本发明逆变器效率优化方法的框图,图3为本发明逆变器效率优化方法的流程图。由图2、图3可见,所述逆变器效率优化方法基于深度强化学习对逆变器效率进行优化,具体步骤如下:
步骤1,建立效率优化模型
步骤1.1,将逆变器记为系统,并做以下设定::
系统中支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗忽略不计;
在逆变主电路中包括σ个带反并联二极管的开关管,其中,σ1个为工频开关管、σ2个为高频开关管;
步骤1.2,以系统的效率η为目标,建立效率优化模型,具体表达式如下:
Figure BDA0003396095240000111
式中,Ploss为系统的总损耗,Ploss=PT+PL,PT为系统中σ个开关管和σ个反并联二极管的总损耗,PL为系统中三相滤波电感L的损耗,Pw为系统的额定输入功率。
步骤2,根据步骤1得到的效率优化模型,确定状态集合S、动作集合A0和奖励函数R;
所述状态集合S的表达式如下:
S∈{(Udc,I,η)}
式中,Udc为直流电压源10的电压值,I为系统的输出电流有效值;
所述动作集合A0的表达式如下:
Figure BDA0003396095240000112
式中,fsw为高频开关管的开关频率,记为高频开关频率fsw,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值;
记系统某一时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在t时刻的状态记为st,将系统在t时刻采取的动作记为at,具体表达式如下:
st=(Udc,I,η)t
at=(fsw)t
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure BDA0003396095240000121
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,rt=-ε×Ploss,ε为权重系数,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度。
在本实施例中,Udc的取值范围为600伏~1200伏,I的取值范围为100安培~120安培,η的取值范围为0.950~0.999,取fsw_min=1000Hz,取fsw_max=80000Hz,取T=100,取ε=0.1,取γ=0.9。
步骤3,根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)。
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为θμ,目标策略网络的神经网络参数记为θμ′,在线评价网络的神经网络参数记为θQ,目标评价网络的神经网络参数记为θQ′
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I,η)y,(Udc,I,η)y为状态集合S中与最优策略对应的个体,ay为与最优策略对应的在线策略网络输出的动作值,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略对应的高频开关频率。
将最优策略π(sy)代入步骤1建立的效率优化模型,系统在状态集合S中的任一状态下均能实现效率最大化。
在本实施例中,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′,令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;
记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于权利要求1中的所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于权利要求1中的所述状态集合S中的个体,且s=(Udc,I,η);μ为通过在线策略网络的神经网络参数θμ和输入的状态值s得到的策略。
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure BDA0003396095240000131
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure BDA0003396095240000132
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2。
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n。
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure BDA0003396095240000141
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值。
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure BDA0003396095240000142
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure BDA0003396095240000143
Figure BDA0003396095240000151
Figure BDA0003396095240000152
Figure BDA0003396095240000153
Figure BDA0003396095240000154
式中,
Figure BDA0003396095240000155
为偏导符号,其中
Figure BDA0003396095240000156
表示策略J对θμ求偏导,
Figure BDA0003396095240000157
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure BDA00033960952400001516
对动作值a求偏导,
Figure BDA0003396095240000158
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure BDA0003396095240000159
对θμ求偏导,
Figure BDA00033960952400001510
表示误差函数L(θQ)对θQ求偏导,αQ为在线评价网络的学习率,αμ在线策略网络的学习率,τ为滑动平均更新参数,且0<αQ<1,0<αμ<1,0<τ<1,
Figure BDA00033960952400001511
为更新之后的在线评价网络的神经网络参数,
Figure BDA00033960952400001512
为更新之后的在线策略网络的神经网络参数,
Figure BDA00033960952400001513
为更新之后的目标评价网络的神经网络参数,
Figure BDA00033960952400001514
为更新之后的目标策略网络的神经网络参数。
步骤3.7,给定步长step,最大步长stepmax,训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,当完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,重复执行步骤3.4~步骤3.6,当stepmax个步长的训练过程完成时,一个回合的训练过程完成;下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,重复执行步骤3.2~步骤3.6,当M个回合的训练过程完成时,DDPG算法的学习过程结束;
记一个训练回合的平均奖励为
Figure BDA00033960952400001515
在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′朝着最大化
Figure BDA0003396095240000163
的方向更新,最终得到最优策略π(sy)。
在本实施例中,对系统的效率η中的部分参数进行了选择和计算,具体如下。
设在本实施例中,系统采用双极性SPWM调制,且功率因数为1,18个开关管和18个反并联二极管的总损耗PT由下式得到:
Figure BDA0003396095240000161
式中,PIGBT为系统中单相所有工频开关管的导通损耗,PMOSFET为系统中单相所有高频开关管的导通损耗,PMOS_sw为系统中单相所有高频开关管的开关损耗,PD_rec为系统中单相所有高频开关管反并联二极管的反向恢复损耗,α为积分自变量,i为开关管Sij导通时流过的电流,取
Figure BDA0003396095240000162
安培,Vce为系统中工频开关管的集电极-发射极电压,取Vce=0.00618i+0.85伏,Rdson为系统中高频开关管的导通电阻,取Rdson=0.0062+0.0009logi欧姆,D(α)为占空比,取D(α)=0.9sinα,Tdead为系统中高频开关管的死区时间,取4.26×10-7秒,Eon_nom为标准测试条件下系统中高频开关管的开通损耗,取2.02×10-3焦耳,Eoff_nom为标准测试条件下系统中高频开关管的关断损耗,取1.28×10-3焦耳,Id_nom为标准测试条件下系统中高频开关管的导通电流,取100安培,Vds_nom为标准测试条件下的漏极-源极两端承受电压,取600伏,Vds为实际工作条件下漏极-源极两端承受电压,取1200伏,Erec_nom为标准测试条件下系统中高频开关管反并联二极管的反向恢复损耗,取0.165×10-3焦耳。
在本实施例中,选取三相滤波电感L的磁芯由非晶体圆环组成,三相滤波电感L的损耗PL由下式得到:
PL=3(Pcop+Pcore)
式中,Pcop为三相滤波电感L中单个电感的绕组损耗,Pcore为三相滤波电感L中单个电感的磁芯损耗,分别由下式得到:
三相滤波电感L中单个电感的绕组损耗Pcop由下式得到:
Figure BDA0003396095240000171
式中,La为三相滤波电感L的电感值,Imax为开关管Sij导通时流过的电流最大值,取
Figure BDA0003396095240000181
安培,m′为调制度,取0.9,γc为电流纹波系数,取15%,Awai为三相滤波电感L中单个电感的磁芯外直径,Bnei为三相滤波电感L中单个电感的磁芯内直径,Chou为三相滤波电感L中单个电感的磁芯高度,ku为三相滤波电感L中单个电感的窗口利用率,取0.42,Bmax为三相滤波电感L中单个电感的最大磁通密度,取1.3,JCu为三相滤波电感L中单个电感的绕组的电流密度,取5安培/平方毫米,Ad为选取的商用单个电感磁芯的基准外直径,取10.2厘米,Bd为选取的商用单个电感磁芯的基准内直径,取5.7厘米,Cd选取的商用单个电感磁芯的基准高度,取3.3厘米,NL为三相滤波电感L中单个电感的绕组的匝数,rou为三相滤波电感L中单个电感的绕组的电阻率,取2.3×10-8欧姆×米,RL为三相滤波电感L中单个电感的绕组的电阻。
三相滤波电感L中单个电感的磁芯损耗Pcore由下式得到:
Figure BDA0003396095240000182
式中,lc为三相滤波电感L中单个电感的磁芯的平均磁路长度,lg为三相滤波电感L中单个电感的磁芯的气隙长度,u0为真空磁导率,取4π×10-7特斯拉×米/安培,ur为三相滤波电感L中单个电感的磁芯的相对磁导率,取15600,Bm为三相滤波电感L中单个电感的磁芯的实际磁感应强度,VL为三相滤波电感L中单个电感的体积,Kc、αr、βr为三相滤波电感L中单个电感的磁芯的材料常数,取Kc=40.43,αr=1.21,βr=1.88。
在本实施例中,取系统的额定输入功率Pw=140×103瓦,取D=10000,取n=32,取αQ=0.002,取αμ=0.001,取τ=0.01,取stepmax=100,取M=300,取噪声δt=0.9995m×1000。
图4为本发明实施例中平均奖励的收敛效果图,图4中横坐标为训练回合数m,纵坐标为平均奖励
Figure BDA0003396095240000191
m=1,2,3…300。从图4可以看出,随着训练回合数m的增加,平均奖励
Figure BDA0003396095240000192
先上下振荡,然后逐渐增大并最后保持在-212~-214之间,且当m=300时,
Figure BDA0003396095240000193
训练效果已经达到最优,在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′已经更新完成,得到使效率达到最大的最优策略π(sy)。
在本实施例中,当Udc=1200伏,I=120安培时,对动作集合A0中的动作变量进行训练,图5为本发明实施例中动作变量的训练效果图,图5中横坐标为训练回合数m,纵坐标为高频开关频率fsw,m=1,2,3…300。由图5可见,随着训练回合数m的增加,高频开关频率fsw先上下振荡,然后逐渐增大并最后保持在24000Hz~25000Hz之间,且当m=300,step=100时,fsw=24351Hz为最优动作变量值,计算得到系统的总损耗Ploss为最小值2113瓦,系统的效率η达到最大值0.985。

Claims (2)

1.一种基于深度强化学习的逆变器效率优化方法,所述逆变器包括直流电压源(10)、三相三电平ANPC逆变电路(20)、滤波电路(30)和负载(40);所述三相三电平ANPC逆变电路(20)包括两个相同的支撑电容和一个逆变主电路,其中,两个支撑电容分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源(10)的直流正母线P和直流负母线E之间;所述逆变主电路包括三相桥臂,三相桥臂互相并联在直流电压源(10)的直流正母线P和直流负母线E之间;所述滤波电路(30)包括三相滤波电感L和三相滤波电容C0,三相滤波电感L的一端接三相三电平ANPC逆变电路(20)的输出端,另一端接负载(40),三相滤波电容C0并联在三相滤波电感L和负载(40)之间;
其特征在于,所述逆变器效率优化方法基于深度强化学习对逆变器效率进行优化,具体步骤如下:
步骤1,建立效率优化模型
步骤1.1,将逆变器记为系统,并做以下设定:
系统中支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗忽略不计;
在逆变主电路中包括σ个带反并联二极管的开关管,其中,σ1个为工频开关管、σ2个为高频开关管;
步骤1.2,以系统的效率η为目标,建立效率优化模型,具体表达式如下:
Figure FDA0003396095230000021
式中,Ploss为系统的总损耗,Ploss=PT+PL,PT为系统中σ个开关管和σ个反并联二极管的总损耗,PL为系统中三相滤波电感L的损耗,Pw为系统的额定输入功率;
步骤2,根据步骤1得到的效率优化模型,确定状态集合S、动作集合A0和奖励函数R;
所述状态集合S的表达式如下:
S∈{(Udc,I,η)}
式中,Udc为直流电压源(10)的电压值,I为系统的输出电流有效值;
所述动作集合A0的表达式如下:
Figure FDA0003396095230000022
式中,fsw为高频开关管的开关频率,记为高频开关频率fsw,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值;
记系统某一时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在t时刻的状态记为st,将系统在t时刻采取的动作记为at,具体表达式如下:
st=(Udc,I,η)t
at=(fsw)t
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure FDA0003396095230000031
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,rt=-ε×Ploss,ε为权重系数,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度;
步骤3,根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy);
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为θμ,目标策略网络的神经网络参数记为θμ′,在线评价网络的神经网络参数记为θQ,目标评价网络的神经网络参数记为θQ′
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I,η)y,(Udc,I,η)y为状态集合S中与最优策略对应的个体,ay为与最优策略对应的在线策略网络输出的动作值,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略对应的高频开关频率;
将最优策略π(sy)代入步骤1建立的效率优化模型,系统在状态集合S中的任一状态下均能实现效率最大化。
2.根据权利要求1所述的一种基于深度强化学习的逆变器效率优化方法,其特征在于,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′,令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;
记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于权利要求1中的所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于权利要求1中的所述状态集合S中的个体,且s=(Udc,I,η);μ为通过在线策略网络的神经网络参数θμ和输入的状态值s得到的策略;
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure FDA0003396095230000041
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure FDA0003396095230000042
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2;
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n;
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure FDA0003396095230000051
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值;
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure FDA0003396095230000052
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure FDA0003396095230000053
Figure FDA0003396095230000054
Figure FDA0003396095230000055
Figure FDA0003396095230000056
Figure FDA0003396095230000057
式中,
Figure FDA0003396095230000058
为偏导符号,其中
Figure FDA0003396095230000059
表示策略J对θμ求偏导,
Figure FDA00033960952300000510
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure FDA00033960952300000511
对动作值a求偏导,
Figure FDA0003396095230000061
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure FDA0003396095230000062
对θμ求偏导,
Figure FDA0003396095230000063
表示误差函数L(θQ)对θQ求偏导,αQ为在线评价网络的学习率,αμ在线策略网络的学习率,τ为滑动平均更新参数,且0<αQ<1,0<αμ<1,0<τ<1,
Figure FDA0003396095230000064
为更新之后的在线评价网络的神经网络参数,
Figure FDA0003396095230000065
为更新之后的在线策略网络的神经网络参数,
Figure FDA0003396095230000066
为更新之后的目标评价网络的神经网络参数,
Figure FDA0003396095230000067
为更新之后的目标策略网络的神经网络参数;
步骤3.7,给定步长step,最大步长stepmax,训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,当完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,重复执行步骤3.4~步骤3.6,当stepmax个步长的训练过程完成时,一个回合的训练过程完成;下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,重复执行步骤3.2~步骤3.6,当M个回合的训练过程完成时,DDPG算法的学习过程结束;
记一个训练回合的平均奖励为
Figure FDA0003396095230000069
在线策略网络、目标策略网络、在线评价网络和目标评价网络的神经网络参数θμ、θμ′、θQ、θQ′朝着最大化
Figure FDA0003396095230000068
的方向更新,最终得到最优策略π(sy)。
CN202111487731.XA 2021-12-07 2021-12-07 基于深度强化学习的逆变器效率优化方法 Active CN114172403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111487731.XA CN114172403B (zh) 2021-12-07 2021-12-07 基于深度强化学习的逆变器效率优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111487731.XA CN114172403B (zh) 2021-12-07 2021-12-07 基于深度强化学习的逆变器效率优化方法

Publications (2)

Publication Number Publication Date
CN114172403A true CN114172403A (zh) 2022-03-11
CN114172403B CN114172403B (zh) 2023-08-29

Family

ID=80484111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111487731.XA Active CN114172403B (zh) 2021-12-07 2021-12-07 基于深度强化学习的逆变器效率优化方法

Country Status (1)

Country Link
CN (1) CN114172403B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741970A (zh) * 2022-04-29 2022-07-12 广州大学 一种改进的深度确定性策略梯度算法的电路参数优化方法
CN115021325A (zh) * 2022-06-22 2022-09-06 合肥工业大学 基于ddpg算法的光伏逆变器多目标优化方法
CN117313560A (zh) * 2023-11-30 2023-12-29 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968474A (zh) * 2021-03-30 2021-06-15 合肥工业大学 光伏离网逆变器系统的多目标寻优方法
CN113125992A (zh) * 2021-04-23 2021-07-16 合肥工业大学 基于dbn的npc三电平逆变器故障诊断方法及系统
CN113328435A (zh) * 2021-05-26 2021-08-31 国网河北省电力有限公司 一种基于强化学习的主动配电网有功无功联合控制方法
US20210356923A1 (en) * 2020-05-15 2021-11-18 Tsinghua University Power grid reactive voltage control method based on two-stage deep reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210356923A1 (en) * 2020-05-15 2021-11-18 Tsinghua University Power grid reactive voltage control method based on two-stage deep reinforcement learning
CN112968474A (zh) * 2021-03-30 2021-06-15 合肥工业大学 光伏离网逆变器系统的多目标寻优方法
CN113125992A (zh) * 2021-04-23 2021-07-16 合肥工业大学 基于dbn的npc三电平逆变器故障诊断方法及系统
CN113328435A (zh) * 2021-05-26 2021-08-31 国网河北省电力有限公司 一种基于强化学习的主动配电网有功无功联合控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG LIU: "Small_Signal_Modeling_and_Discontinuous_Stable_Regions_of_Grid-connected_Inverter_Based_on_Pade_Approximation", 《2021 IEEE 12TH ENERGY CONVERSION CONGRESS & EXPOSITION - ASIA (ECCE-ASIA)》 *
乔骥: "基于柔性行动器–评判器深度强化学习的 电–气综合能源系统优化调度", 《中国电机工程学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741970A (zh) * 2022-04-29 2022-07-12 广州大学 一种改进的深度确定性策略梯度算法的电路参数优化方法
CN114741970B (zh) * 2022-04-29 2024-05-24 广州大学 一种改进的深度确定性策略梯度算法的电路参数优化方法
CN115021325A (zh) * 2022-06-22 2022-09-06 合肥工业大学 基于ddpg算法的光伏逆变器多目标优化方法
CN115021325B (zh) * 2022-06-22 2024-03-29 合肥工业大学 基于ddpg算法的光伏逆变器多目标优化方法
CN117313560A (zh) * 2023-11-30 2023-12-29 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法
CN117313560B (zh) * 2023-11-30 2024-02-09 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法

Also Published As

Publication number Publication date
CN114172403B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN114172403A (zh) 基于深度强化学习的逆变器效率优化方法
CN112117888B (zh) 基于过零点电流畸变在线补偿的图腾柱整流器的控制方法
CN109067190B (zh) 一种宽增益的llc谐振变换器
CN115021325B (zh) 基于ddpg算法的光伏逆变器多目标优化方法
CN105207193A (zh) 一种直流电力弹簧拓扑及其控制方法
CN105356778A (zh) 一种模块化多电平逆变器及其无差拍控制方法
CN108959780A (zh) 单相电力电子变压器大信号仿真模型
CN110943634B (zh) 一种能量型路由器及其软充电控制方法和系统
CN113938013A (zh) 双向升降压直流变换器及工作参数配置方法
CN111490692B (zh) 一种谐振极型软开关逆变器
CN112054685A (zh) 一种电能路由器及其控制方法
CN110474548A (zh) 一种基于高频脉冲的逆变变流电路及其控制方法
CN107330229B (zh) 一种双主动全桥直流变换器快速仿真系统
CN111404409A (zh) 基于mmc的多端口电力电子变压器拓扑及其控制方法
CN112187087B (zh) 可拓展式多电平整流器
CN113141121B (zh) 一种电流源型高频隔离矩阵型级联变换器及控制方法
CN111342690B (zh) 一种分裂电容功率单元多电平变换器的调制方法
CN112001142B (zh) 一种半桥型模块化多电平换流器的实时仿真方法
CN113839410B (zh) 一种基于虚拟储能的改进虚拟同步发电机拓扑结构
CN112953288A (zh) 用于谐振直流环节软开关逆变器的调制方法
CN112953289B (zh) 谐振直流环节软开关逆变器及其调制方法
CN219225041U (zh) 一种回馈式高频感应加热电源老化电路
CN117856625B (zh) 抑制环流的ipop非隔离pet拓扑结构及其控制方法
CN115882466B (zh) 一种基于ac-ac拓扑结构的配电网电能质量治理系统
CN111769754B (zh) 一种辅助回路最低损耗的无桥双升软开关整流器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant