CN115021325A - 基于ddpg算法的光伏逆变器多目标优化方法 - Google Patents

基于ddpg算法的光伏逆变器多目标优化方法 Download PDF

Info

Publication number
CN115021325A
CN115021325A CN202210713121.5A CN202210713121A CN115021325A CN 115021325 A CN115021325 A CN 115021325A CN 202210713121 A CN202210713121 A CN 202210713121A CN 115021325 A CN115021325 A CN 115021325A
Authority
CN
China
Prior art keywords
state
optimization
optimization model
optimal
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210713121.5A
Other languages
English (en)
Other versions
CN115021325B (zh
Inventor
王佳宁
姚张浩
杨仁海
孙菲双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210713121.5A priority Critical patent/CN115021325B/zh
Publication of CN115021325A publication Critical patent/CN115021325A/zh
Application granted granted Critical
Publication of CN115021325B publication Critical patent/CN115021325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/40Synchronising a generator for connection to a network or to another generator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M7/00Conversion of ac power input into dc power output; Conversion of dc power input into ac power output
    • H02M7/42Conversion of dc power input into ac power output without possibility of reversal
    • H02M7/44Conversion of dc power input into ac power output without possibility of reversal by static converters
    • H02M7/48Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode
    • H02M7/53Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal
    • H02M7/537Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters
    • H02M7/5387Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters in a bridge configuration
    • H02M7/53871Conversion of dc power input into ac power output without possibility of reversal by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only, e.g. single switched pulse inverters in a bridge configuration with automatic control of output voltage or current
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy
    • Y02E10/56Power conversion systems, e.g. maximum power point trackers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Power Engineering (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Control Of Electrical Variables (AREA)

Abstract

本发明提供了一种基于DDPG算法的光伏逆变器多目标优化方法,属于电力电子技术领域。该方法包括建立效率优化模型、功率密度优化模型、特殊成本优化模型以及寿命优化模型;确定状态集合、动作集合和归一化后的多目标奖励函数;利用DDPG算法进行离线学习,得到最优策略,对DDPG算法进行应用,根据该最优策略,系统在任一状态、任一权重系数下均能实现效率、功率密度、特殊成本以及寿命的最优化。本发明可以解决复杂的高维设计变量问题,且可避免光伏逆变器设计中的顾此失彼问题,找到满足优化目标的最优方案,充分提升光伏逆变器的性能,不需要重新进行复杂、耗时的寻优求解过程,节省计算资源。

Description

基于DDPG算法的光伏逆变器多目标优化方法
技术领域
本发明属于电力电子技术领域,涉及一种基于DDPG算法的光伏逆变器多目标优化方法。
背景技术
近年来,太阳能光伏发电已经成为清洁能源利用的重要组成部分。在光伏发电系统中,逆变器作为连接光伏电池板和电网的接口,其主要功能是将光伏电池板转化的直流电变换成与电网同步的交流电。因此逆变器是保障光伏发电系统高效、经济和稳定运行不可或缺的关键环节之一,而让逆变器在任意运行工况下都能达到最优的效率、功率密度和寿命,同时使得成本最低对光伏发电系统的高效、经济和稳定运行是非常有意义的。
在电力电子装备的设计中,由于光伏逆变器实际的运行工况非常复杂多变,常见的优化指标如效率、功率密度、特殊成本和寿命之间也呈现出相互冲突的制约关系。在面对复杂的应用环境时,无法快速确定光伏逆变器的运行条件使光伏逆变器以最优的效率、功率密度、成本以及寿命运行,为此很多专家学者提出不同的解决方法:
中国发明专利公开说明书CN112968474A于2021年06月15日公开的《光伏离网逆变器系统的多目标寻优方法》,采用NSGA-Ⅲ算法对光伏离网逆变系统进行多目标优化。但是,该解决方法存在以下不足:由于采用NSGA-Ⅲ算法,当系统状态发生改变时,需要重新进行复杂、耗时的寻优求解过程,耗费计算资源,不能快速给出状态变化后的动作值,寻优过程存在局限性,应用范围有限。
中国发明专利公开说明书CN114172403AB于2022年03月11日公开的《基于深度强化学习的逆变器效率优化方法》,采用深度强化学习对逆变器的效率进行优化。但是,该解决方法存在以下不足:该方法只考虑效率这一优化目标,而逆变器在实际应用中,往往有多个目标需要优化,仅仅考虑效率可能造成其它性能指标的恶化,造成顾此失彼的问题,存在一定的局限性。
发明内容
本发明针对现有光伏逆变器的单目标优化方法中仅仅考虑效率这一优化变量,存在光伏逆变器其它性能指标恶化的可能性,应用范围小,难以满足实际应用需求,并且采用NSGA-III算法训练或求解过程复杂耗时,寻优过程存在局限性的不足,提出了一种基于DDPG算法的光伏逆变器多目标优化方法,以解决现有技术中存在的上述问题。
本发明的目的是这样实现的,本发明提供了一种基于DDPG算法的光伏逆变器多目标优化方法,所述光伏逆变器包括直流电压源、支撑电容、三相三电平ANPC逆变主电路、滤波电路和负载;所述支撑电容包括两个相同的支撑电容,分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源的直流正母线P和直流负母线E之间,支撑电容Cap1和支撑电容Cap2的连接点记为直流母线中点O;
所述三相三电平ANPC逆变主电路包括互相并联在直流电压源的直流正母线P和直流负母线E之间的三相桥臂,在三相桥臂的每相桥臂中包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管Sij,其中,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6;在三相桥臂的每相桥臂中,开关管Si1、开关管Si2、开关管Si3、开关管Si4顺序串联,且开关管Si1的输入端接直流正母线P、开关管Si4的输出端接直流负母线E;开关管Si5的输入端接开关管Si1的输出端,开关管Si5的输出端接直流母线中点O,开关管Si6的输入端接直流母线中点O,开关管Si6的输出端接开关管Si3的输出端;将开关管Si2和开关管Si3的公共节点记为逆变器输出点φi,i=a,b,c;
所述滤波电路包括三相滤波电感L和三相滤波电容C0,三相滤波电感L一端的三相分别接三相三电平ANPC逆变电路的输出端φi,另一端接入负载,三相滤波电容C0并联在三相滤波电感L和负载之间;
在18个开关管Sij中,开关管Si1、开关管Si4、开关管Si5和开关管Si6为工频开关管且开关频率相同,均为50Hz,开关管Si2和开关管Si3为高频开关管且开关频率相同;
所述光伏逆变器多目标优化方法基于DDPG算法对光伏逆变器进行多目标优化,具体步骤如下:
步骤1,建立优化目标模型
将光伏逆变器记为系统,将18个带反并联二极管的开关管拆解为18个开关管和18个反并联二极管,并设定支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗、体积及购买成本均忽略不计;
所述建立优化目标模型包括建立效率优化模型、建立功率密度优化模型、建立特殊成本优化模型和建立寿命优化模型;
步骤1.1,建立效率优化模型
以系统的效率η为目标,建立效率优化模型,其表达式如下:
Figure BDA0003707678290000041
式中,Ploss为系统总损耗,Ploss=PT+PL,PT为18个开关管和18个反并联二极管的总损耗,PL为三相滤波电感L的损耗,Pw为系统的额定输入功率;
步骤1.2,建立功率密度优化模型
以系统的功率密度σ为目标,建立功率密度优化模型,其表达式为:
Figure BDA0003707678290000042
式中,Pw为系统的额定输入功率,V为系统体积,V=VT+3VL,VT为18个开关管和18个反并联二极管的总体积,VL为三相滤波电感L中单相滤波电感的磁芯体积;
步骤1.3,建立特殊成本优化模型
以系统的特殊成本C为目标,建立特殊成本优化模型,其表达式为:
C=CT+CL
式中,CT为18个开关管和18个反并联二极管的购买成本,CL为三相滤波电感L的购买成本;
步骤1.4,建立寿命优化模型
首先做以下设定:
Figure BDA0003707678290000043
Figure BDA0003707678290000044
为高频开关管Sa2稳定工作时的平均结温,
Figure BDA0003707678290000045
为高频开关管Sa3稳定工作时的平均结温,Tj,max为开关管Sij能承受的最大结温,Tcore为三相滤波电感L的磁芯稳定工作时的温度,Tcore,max为三相滤波电感L的磁芯能承受的最大温度;
以系统的寿命Γ为目标,建立寿命优化模型,其表达式为:
Figure BDA0003707678290000051
式中,Ncg为第g个开关周期中开关管Sa2的循环次数,Nfg为第g个开关周期中开关管Sa2的失效循环次数,g=1,2,3…gmax,且gmax为开关周期的最大循环次数;
步骤2,根据步骤1得到的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型,确定状态集合S、动作集合A0和奖励函数R;
步骤2.1,确定状态集合S和动作集合A0
记系统的当前时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在当前时刻t的状态记为状态st,st=(Udc,I)t,式中,Udc为直流电压源(10)的电压值,记为直流电压Udc,I为系统的输出电流有效值,记为输出电流I;
所述状态集合S为T个状态st的集合,S={s1,s2,…st,..sT},且S∈{(Udc,I)};
将系统在t时刻采取的动作记为动作at,at=(fsw)t,式中,fsw为高频开关管的开关频率,记为高频开关频率fsw
所述动作集合A0为T个动作at的集合,A0={a1,a2,…at,..aT},且
Figure BDA0003707678290000052
Figure BDA0003707678290000053
式中,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值;
步骤2.2,确定奖励函数R
步骤2.2.1,对多目标模型进行归一化处理
所述系统的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型之间的数值不在同一量级上,进行归一化处理使四个优化模型的数值均在0至1之间;
记效率优化模型中的系统总损耗Ploss为优化目标f1,功率密度优化模型中的系统体积V为优化目标f2,特殊成本优化模型中的特殊成本的C记为优化目标f3,寿命优化模型中的寿命Γ为优化目标f4
引入优化目标fα,α=1,2,3,4,对优化目标fα进行归一化得到归一化的优化目标
Figure BDA0003707678290000061
Figure BDA0003707678290000062
其表达式为:
Figure BDA0003707678290000063
式中,fα,min为优化目标的最小值,fα,max为优化目标的最大值;
步骤2.2.2,对四个优化目标赋予权值,设置奖励函数R
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure BDA0003707678290000064
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度,
Figure BDA0003707678290000065
其中
Figure BDA0003707678290000066
为惩罚系数,wα为权重系数,α=1,2,3,4,0<wα<1,且
Figure BDA0003707678290000067
步骤3,DDPG算法的离线学习
从状态集合S中任意抽取D个状态st组成离线学习的训练数据集,D=4T/5;根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy);
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为第一神经网络参数θμ,目标策略网络的神经网络参数记为第二神经网络参数θμ′,在线评价网络的神经网络参数记第三神经网络参数为θQ,目标评价网络的神经网络参数记为第四神经网络参数θQ′
给定训练步长step和最大步长stepmax,给定训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,即在每一个训练回合中包含stepmax次训练,共进行M个训练回合;
定义在每个训练回合中的奖励函数R的平均值,并记为平均奖励
Figure BDA0003707678290000071
Figure BDA0003707678290000072
在每个训练回合数m的过程中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ、第四神经网络参数θQ′均朝着平均奖励
Figure BDA0003707678290000073
最大化的方向更新,最终得到最优策略π(sy);
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I)y,(Udc,I)y为状态集合S中与最优策略对应的直流电压Udc和输出电流I,ay为与最优策略对应的在线策略网络输出的动作值,记为最优动作ay,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略π(sy)对应的高频开关频率fsw
输出最优动作ay
步骤4,根据最优动作ay进行应用
步骤4.1,首先将状态集合S中的选入训练数据集以外的状态st重新组成一个应用数据集,然后从该应用数据集中随机抽取jmax个状态st并重新定义为应用状态sβ,β=1,2,3…jmax,应用状态sβ=(Udc,I)β,即应用状态sβ为直流电压Udc和输出电流I下的一组状态;
步骤4.2,将步骤3输出的最优动作ay代入jmax个应用状态sβ中,则得到不同应用状态sβ下输出的最优应用动作
Figure BDA0003707678290000081
β=1,2,3…jmax
步骤4.3,将应用状态sβ=(Udc,I)β、最优应用动作
Figure BDA0003707678290000082
分别代入步骤1所建立的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型中,得到系统的最优效率
Figure BDA0003707678290000083
系统的最优功率密度
Figure BDA0003707678290000084
系统的最优特殊成本
Figure BDA0003707678290000085
和系统的最优寿命
Figure BDA0003707678290000086
β=1,2,3…jmax,其中系统的最优效率
Figure BDA0003707678290000087
为在系统状态集合S中的任一状态{(Udc,I)}下的最优效率,系统的最优功率密度
Figure BDA0003707678290000088
为在系统状态集合S中的任一状态{(Udc,I)}下的最优功率密度,系统的最优特殊成本
Figure BDA0003707678290000089
为在系统状态集合S中的任一状态{(Udc,I)}下的最优特殊成本,系统的最优寿命
Figure BDA00037076782900000810
为在系统状态集合S中的任一状态{(Udc,I)}下的最优寿命,即在系统状态集合S中的任一状态{(Udc,I)}下实现效率、功率密度和寿命的最大化,同时使得特殊成本最小化。
优选地,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′,并令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;初始化在线评价网络的学习率αQ,在线策略网络的学习率αμ,滑动平均更新参数τ,且0<αQ<1,0<αμ<1,0<τ<1;记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于所述状态集合S中的个体,且s=(Udc,I);μ为通过在线策略网络的第一神经网络参数θμ和输入的状态值s得到的策略;
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure BDA0003707678290000091
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure BDA0003707678290000092
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2;
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n;
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure BDA0003707678290000093
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值;
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure BDA0003707678290000101
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure BDA0003707678290000102
Figure BDA0003707678290000103
Figure BDA0003707678290000104
Figure BDA0003707678290000105
Figure BDA0003707678290000106
式中,
Figure BDA0003707678290000107
为偏导符号,其中
Figure BDA0003707678290000108
表示策略J对θμ求偏导,
Figure BDA0003707678290000109
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure BDA00037076782900001010
对动作值a求偏导,
Figure BDA00037076782900001011
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure BDA00037076782900001012
对θμ求偏导,
Figure BDA00037076782900001013
表示误差函数L(θQ)对θQ求偏导,
Figure BDA00037076782900001014
为更新之后的第三神经网络参数,
Figure BDA00037076782900001015
为更新之后的第一神经网络参数,
Figure BDA00037076782900001016
为更新之后的第四神经网络参数,
Figure BDA00037076782900001017
为更新之后的第二神经网络参数;
步骤3.7,完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,当step<stepmax时,重复执行步骤3.4~步骤3.6,当step=stepmax时,一个回合的训练过程完成,下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,当m<M时,重复执行步骤3.2~步骤3.6,当m=M时,M个回合的训练过程完成时,DDPG算法的学习过程结束;
步骤3.8,训练算法结束,保存最优策略π(sy)=ay,记一个训练回合的平均奖励为
Figure BDA0003707678290000111
在M个训练回合中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′朝着平均奖励
Figure BDA0003707678290000112
最大化的方向更新,最终得到最优策略π(sy)。
与现有技术相比,本发明的有益效果为:
(1)本发明采用DDPG算法对光伏逆变器进行多目标优化,可以解决复杂的高维设计变量问题,并且可以避免光伏逆变器设计中的顾此失彼问题,找到满足优化目标的最优方案,充分提升光伏逆变器的性能。
(2)本发明提供的最优策略π(a|s)在动态的逆变器额定工作条件下,以及对四个目标分配的不同权重下,均能够直接得到最优的设计变量值使效率、功率密度、特殊成本和寿命达到最优,不需要重新进行复杂、耗时的寻优求解过程,简便快捷,节省计算资源。
附图说明
图1为本发明实施例中光伏逆变器的拓扑图;
图2为本发明光伏逆变器多目标优化方法的框图;
图3为本发明光伏逆变器多目标优化方法的流程图;
图4为本发明实施例中平均奖励的收敛效果图;
图5为本发明实施例中动作变量的训练效果图。
具体实施方式
下面结合附图,对本发明进行详细的说明。
图1为本发明实施例中光伏逆变器的拓扑图。由图1可见,所述光伏逆变器包括直流电压源10、支撑电容20、三相三电平ANPC逆变主电路30、滤波电路40和负载50。所述支撑电容20包括两个相同的支撑电容,分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源10的直流正母线P和直流负母线E之间,支撑电容Cap1和支撑电容Cap2的连接点记为直流母线中点O。
所述三相三电平ANPC逆变主电路30包括互相并联在直流电压源10的直流正母线P和直流负母线E之间的三相桥臂,在三相桥臂的每相桥臂中包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管Sij,其中,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6。在三相桥臂的每相桥臂中,开关管Si1、开关管Si2、开关管Si3、开关管Si4顺序串联,且开关管Si1的输入端接直流正母线P、开关管Si4的输出端接直流负母线E;开关管Si5的输入端接开关管Si1的输出端,开关管Si5的输出端接直流母线中点O,开关管Si6的输入端接直流母线中点O,开关管Si6的输出端接开关管Si3的输出端;将开关管Si2和开关管Si3的公共节点记为逆变器输出点φi,i=a,b,c。
所述滤波电路40包括三相滤波电感L和三相滤波电容C0,三相滤波电感L一端的三相分别接三相三电平ANPC逆变电路30的输出端φi,另一端接入负载50,三相滤波电容C0并联在三相滤波电感L和负载50之间。
在18个开关管Sij中,开关管Si1、开关管Si4、开关管Si5和开关管Si6为工频开关管且开关频率相同,均为50Hz,开关管Si2和开关管Si3为高频开关管且开关频率相同。
另外,图1中的Dij为开关管Sij上的反并联二极管,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6。
图2为本发明光伏逆变器多目标优化方法的框图,图3为本发明光伏逆变器多目标优化方法的流程图,由图2、图3可见,所述光伏逆变器多目标优化方法基于DDPG算法对光伏逆变器多目标进行优化,具体步骤如下:
步骤1,建立优化目标模型
将光伏逆变器记为系统,将18个带反并联二极管的开关管拆解为18个开关管和18个反并联二极管,并设定支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗、体积及购买成本均忽略不计。
所述建立优化目标模型包括建立效率优化模型、建立功率密度优化模型、建立特殊成本优化模型和建立寿命优化模型。
步骤1.1,建立效率优化模型
以系统的效率η为目标,建立效率优化模型,其表达式如下:
Figure BDA0003707678290000131
式中,Ploss为系统总损耗,Ploss=PT+PL,PT为18个开关管和18个反并联二极管的总损耗,PL为三相滤波电感L的损耗,Pw为系统的额定输入功率;
步骤1.2,建立功率密度优化模型
以系统的功率密度σ为目标,建立功率密度优化模型,其表达式为:
Figure BDA0003707678290000132
式中,Pw为系统的额定输入功率,V为系统体积,V=VT+3VL,VT为18个开关管和18个反并联二极管的总体积,VL为三相滤波电感L中单相滤波电感的磁芯体积;
在本实施例中,取系统的额定输入功率Pw=140×103瓦,VT=3.98×10-4立方米。
步骤1.3,建立特殊成本优化模型
以系统的特殊成本C为目标,建立特殊成本优化模型,其表达式为:
C=CT+CL
式中,CT为18个开关管和18个反并联二极管的购买成本,CL为三相滤波电感L的购买成本;
步骤1.4,建立寿命优化模型
首先做以下设定:
Figure BDA0003707678290000141
Figure BDA0003707678290000143
为高频开关管Sa2稳定工作时的平均结温,
Figure BDA0003707678290000144
为高频开关管Sa3稳定工作时的平均结温,Tj,max为开关管Sij能承受的最大结温,Tcore为三相滤波电感L的磁芯稳定工作时的温度,Tcore,max为三相滤波电感L的磁芯能承受的最大温度;
以系统的寿命Γ为目标,建立寿命优化模型,其表达式为:
Figure BDA0003707678290000142
式中,Ncg为第g个开关周期中开关管Sa2的循环次数,Nfg为第g个开关周期中开关管Sa2的失效循环次数,g=1,2,3…gmax,且gmax为开关周期的最大循环次数。
步骤2,根据步骤1得到的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型,确定状态集合S、动作集合A0和奖励函数R。
步骤2.1,确定状态集合S和动作集合A0
记系统的当前时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在当前时刻t的状态记为状态st,st=(Udc,I)t,式中,Udc为直流电压源(10)的电压值,记为直流电压Udc,I为系统的输出电流有效值,记为输出电流I;
所述状态集合S为T个状态st的集合,S={s1,s2,…st,..sT},且S∈{(Udc,I)};
将系统在t时刻采取的动作记为动作at,at=(fsw)t,式中,fsw为高频开关管的开关频率,记为高频开关频率fsw
所述动作集合A0为T个动作at的集合,A0={a1,a2,…at,..aT},且
Figure BDA0003707678290000151
Figure BDA0003707678290000152
式中,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值。
步骤2.2,确定奖励函数R
步骤2.2.1,对多目标模型进行归一化处理
所述系统的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型之间的数值不在同一量级上,进行归一化处理使四个优化模型的数值均在0至1之间;
记效率优化模型中的系统总损耗Ploss为优化目标f1,功率密度优化模型中的系统体积V为优化目标f2,特殊成本优化模型中的特殊成本的C记为优化目标f3,寿命优化模型中的寿命Γ为优化目标f4
引入优化目标fα,α=1,2,3,4,对优化目标fα进行归一化得到归一化的优化目标
Figure BDA0003707678290000153
Figure BDA0003707678290000154
其表达式为:
Figure BDA0003707678290000161
式中,fα,min为优化目标的最小值,fα,max为优化目标的最大值。
步骤2.2.2,对四个优化目标赋予权值,设置奖励函数R
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure BDA0003707678290000162
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度,
Figure BDA0003707678290000163
其中
Figure BDA0003707678290000164
为惩罚系数,wα为权重系数,α=1,2,3,4,0<wα<1,且
Figure BDA0003707678290000165
在本实施例中,Udc的取值范围为600伏~1200伏,I的取值范围为100安培~120安培,取fsw_min=1000Hz,取fsw_max=80000Hz,取T=100,取w1=w2=0.5,w3=w4=0,γ=0.9,
Figure BDA0003707678290000166
步骤3,DDPG算法的离线学习
从状态集合S中任意抽取D个状态st组成离线学习的训练数据集,D=4T/5;根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)。
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为第一神经网络参数θμ,目标策略网络的神经网络参数记为第二神经网络参数θμ′,在线评价网络的神经网络参数记第三神经网络参数为θQ,目标评价网络的神经网络参数记为第四神经网络参数θQ′
给定训练步长step和最大步长stepmax,给定训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,即在每一个训练回合中包含stepmax次训练,共进行M个训练回合。
在本实施例中,取stepmax=100,取M=4000。
定义在每个训练回合中的奖励函数R的平均值,并记为平均奖励
Figure BDA0003707678290000171
Figure BDA0003707678290000172
在每个训练回合数m的过程中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ、第四神经网络参数θQ′均朝着平均奖励
Figure BDA0003707678290000173
最大化的方向更新,最终得到最优策略π(sy)。
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I)y,(Udc,I)y为状态集合S中与最优策略对应的直流电压Udc和输出电流I,ay为与最优策略对应的在线策略网络输出的动作值,记为最优动作ay,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略π(sy)对应的高频开关频率fsw
输出最优动作ay
步骤4,根据最优动作ay进行应用
步骤4.1,首先将状态集合S中的选入训练数据集以外的状态st重新组成一个应用数据集,然后从该应用数据集中随机抽取jmax个状态st并重新定义为应用状态sβ,β=1,2,3…jmax,应用状态sβ=(Udc,I)β,即应用状态sβ为直流电压Udc和输出电流I下的一组状态;
步骤4.2,将步骤3输出的最优动作ay代入jmax个应用状态sβ中,则得到不同应用状态sβ下输出的最优应用动作
Figure BDA0003707678290000181
β=1,2,3…jmax
步骤4.3,将应用状态sβ=(Udc,I)β、最优应用动作
Figure BDA0003707678290000182
分别代入步骤1所建立的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型中,得到系统的最优效率
Figure BDA0003707678290000183
系统的最优功率密度
Figure BDA0003707678290000184
系统的最优特殊成本
Figure BDA0003707678290000185
和系统的最优寿命
Figure BDA0003707678290000186
β=1,2,3…jmax,其中系统的最优效率
Figure BDA0003707678290000187
为在系统状态集合S中的任一状态{(Udc,I)}下的最优效率,系统的最优功率密度
Figure BDA0003707678290000188
为在系统状态集合S中的任一状态{(Udc,I)}下的最优功率密度,系统的最优特殊成本
Figure BDA0003707678290000189
为在系统状态集合S中的任一状态{(Udc,I)}下的最优特殊成本,系统的最优寿命
Figure BDA00037076782900001810
为在系统状态集合S中的任一状态{(Udc,I)}下的最优寿命,即在系统状态集合S中的任一状态{(Udc,I)}下实现效率、功率密度和寿命的最大化,同时使得特殊成本最小化。
在本实施例中,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′,并令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;初始化在线评价网络的学习率αQ,在线策略网络的学习率αμ,滑动平均更新参数τ,且0<αQ<1,0<αμ<1,0<τ<1;记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于所述状态集合S中的个体,且s=(Udc,I);μ为通过在线策略网络的第一神经网络参数θμ和输入的状态值s得到的策略。
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure BDA0003707678290000191
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure BDA0003707678290000192
在本实施例中,取αQ=0.002,取αμ=0.001,取τ=0.01,取噪声δt=0.9995m×1000。
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2。
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n。
在本实施例中,取D=10000,取n=32。
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure BDA0003707678290000193
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值。
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure BDA0003707678290000201
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure BDA0003707678290000202
Figure BDA0003707678290000203
Figure BDA0003707678290000204
Figure BDA0003707678290000205
Figure BDA0003707678290000206
式中,
Figure BDA0003707678290000207
为偏导符号,其中
Figure BDA0003707678290000208
表示策略J对θμ求偏导,
Figure BDA0003707678290000209
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure BDA00037076782900002010
对动作值a求偏导,
Figure BDA00037076782900002011
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure BDA00037076782900002012
对θμ求偏导,
Figure BDA00037076782900002013
表示误差函数L(θQ)对θQ求偏导,
Figure BDA00037076782900002014
为更新之后的第三神经网络参数,
Figure BDA00037076782900002015
为更新之后的第一神经网络参数,
Figure BDA00037076782900002016
为更新之后的第四神经网络参数,
Figure BDA00037076782900002017
为更新之后的第二神经网络参数。
步骤3.7,完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,当step<stepmax时,重复执行步骤3.4~步骤3.6,当step=stepmax时,一个回合的训练过程完成,下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,当m<M时,重复执行步骤3.2~步骤3.6,当m=M时,M个回合的训练过程完成时,DDPG算法的学习过程结束。
步骤3.8,训练算法结束,保存最优策略π(sy)=ay,记一个训练回合的平均奖励为
Figure BDA00037076782900002018
在M个训练回合中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′朝着平均奖励
Figure BDA0003707678290000211
最大化的方向更新,最终得到最优策略π(sy)。
为了佐证本发明的有益效果,对本发明进行了仿真。
图4为本发明实施例中平均奖励R的收敛效果图,图4中横坐标为训练回合数m,纵坐标为平均奖励
Figure BDA0003707678290000212
m=1,2,3…4000。从图4可以看出,随着训练回合数m的增加,平均奖励
Figure BDA0003707678290000213
先上下振荡,然后逐渐增大并最后保持在-30~-33之间,且当m=4000时,
Figure BDA0003707678290000214
训练效果已经达到最优,四个神经网络参数θμ、θμ′、θQ、θQ′已经更新完成,得到最优策略π(sy)。
在本实施例中,当Udc=1200伏,I=120安培时,对动作集合A0中的at=(fsw)t进行训练,图5为本发明实施例中动作变量即高频开关频率fsw的训练效果图,图5中横坐标为训练回合数m,纵坐标为高频开关频率fsw,m=1,2,3…4000。由图5可见,随着训练回合数m的增加,高频开关频率fsw先上下振荡,然后逐渐增大并最后保持在32000Hz~34000Hz之间,且当m=4000,step=100时,fsw=32188Hz为最优动作变量值,计算得到系统的总损耗Ploss为最小值1763瓦,系统的效率η达到最大值0.987,功率密度σ达到33.113千瓦/立方分米。

Claims (2)

1.一种基于DDPG算法的光伏逆变器多目标优化方法,所述光伏逆变器包括直流电压源(10)、支撑电容(20)、三相三电平ANPC逆变主电路(30)、滤波电路(40)和负载(50);所述支撑电容(20)包括两个相同的支撑电容,分别记为支撑电容Cap1和支撑电容Cap2,支撑电容Cap1和支撑电容Cap2串联后接在直流电压源(10)的直流正母线P和直流负母线E之间,支撑电容Cap1和支撑电容Cap2的连接点记为直流母线中点O;
所述三相三电平ANPC逆变主电路(30)包括互相并联在直流电压源(10)的直流正母线P和直流负母线E之间的三相桥臂,在三相桥臂的每相桥臂中包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管Sij,其中,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6;在三相桥臂的每相桥臂中,开关管Si1、开关管Si2、开关管Si3、开关管Si4顺序串联,且开关管Si1的输入端接直流正母线P、开关管Si4的输出端接直流负母线E;开关管Si5的输入端接开关管Si1的输出端,开关管Si5的输出端接直流母线中点O,开关管Si6的输入端接直流母线中点O,开关管Si6的输出端接开关管Si3的输出端;将开关管Si2和开关管Si3的公共节点记为逆变器输出点φi,i=a,b,c;
所述滤波电路(40)包括三相滤波电感L和三相滤波电容C0,三相滤波电感L一端的三相分别接三相三电平ANPC逆变电路(30)的输出端φi,另一端接入负载(50),三相滤波电容C0并联在三相滤波电感L和负载(50)之间;
在18个开关管Sij中,开关管Si1、开关管Si4、开关管Si5和开关管Si6为工频开关管且开关频率相同,均为50Hz,开关管Si2和开关管Si3为高频开关管且开关频率相同;
其特征在于,所述光伏逆变器多目标优化方法基于DDPG算法对光伏逆变器进行多目标优化,具体步骤如下:
步骤1,建立优化目标模型
将光伏逆变器记为系统,将18个带反并联二极管的开关管拆解为18个开关管和18个反并联二极管,并设定支撑电容Cap1、支撑电容Cap2和三相滤波电容C0的损耗、体积及购买成本均忽略不计;
所述建立优化目标模型包括建立效率优化模型、建立功率密度优化模型、建立特殊成本优化模型和建立寿命优化模型;
步骤1.1,建立效率优化模型
以系统的效率η为目标,建立效率优化模型,其表达式如下:
Figure FDA0003707678280000021
式中,Ploss为系统总损耗,Ploss=PT+PL,PT为18个开关管和18个反并联二极管的总损耗,PL为三相滤波电感L的损耗,Pw为系统的额定输入功率;
步骤1.2,建立功率密度优化模型
以系统的功率密度σ为目标,建立功率密度优化模型,其表达式为:
Figure FDA0003707678280000022
式中,Pw为系统的额定输入功率,V为系统体积,V=VT+3VL,VT为18个开关管和18个反并联二极管的总体积,VL为三相滤波电感L中单相滤波电感的磁芯体积;
步骤1.3,建立特殊成本优化模型
以系统的特殊成本C为目标,建立特殊成本优化模型,其表达式为:
C=CT+CL
式中,CT为18个开关管和18个反并联二极管的购买成本,CL为三相滤波电感L的购买成本;
步骤1.4,建立寿命优化模型
首先做以下设定:
Figure FDA0003707678280000031
Figure FDA0003707678280000032
为高频开关管Sa2稳定工作时的平均结温,
Figure FDA0003707678280000033
为高频开关管Sa3稳定工作时的平均结温,Tj,max为开关管Sij能承受的最大结温,Tcore为三相滤波电感L的磁芯稳定工作时的温度,Tcore,max为三相滤波电感L的磁芯能承受的最大温度;
以系统的寿命Γ为目标,建立寿命优化模型,其表达式为:
Figure FDA0003707678280000034
式中,Ncg为第g个开关周期中开关管Sa2的循环次数,Nfg为第g个开关周期中开关管Sa2的失效循环次数,g=1,2,3...gmax,且gmax为开关周期的最大循环次数;
步骤2,根据步骤1得到的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型,确定状态集合S、动作集合A0和奖励函数R;
步骤2.1,确定状态集合S和动作集合A0
记系统的当前时刻为t,t=1,2,3…T,T为系统终止状态的时刻,将系统在当前时刻t的状态记为状态st,st=(Udc,I)t,式中,Udc为直流电压源(10)的电压值,记为直流电压Udc,I为系统的输出电流有效值,记为输出电流I;
所述状态集合S为T个状态st的集合,S={s1,s2,...st,...sT},且S∈{(Udc,I)};
将系统在t时刻采取的动作记为动作at,at=(fsw)t,式中,fsw为高频开关管的开关频率,记为高频开关频率fsw
所述动作集合A0为T个动作at的集合,A0={a1,a2,...at,...aT},且
Figure FDA0003707678280000044
Figure FDA0003707678280000045
式中,fsw_min为高频开关频率fsw的下限值,fsw_max为高频开关频率fsw的上限值;
步骤2.2,确定奖励函数R
步骤2.2.1,对多目标模型进行归一化处理
所述系统的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型之间的数值不在同一量级上,进行归一化处理使四个优化模型的数值均在0至1之间;
记效率优化模型中的系统总损耗Ploss为优化目标f1,功率密度优化模型中的系统体积V为优化目标f2,特殊成本优化模型中的特殊成本的C记为优化目标f3,寿命优化模型中的寿命Γ为优化目标f4
引入优化目标fα,α=1,2,3,4,对优化目标fα进行归一化得到归一化的优化目标
Figure FDA0003707678280000041
Figure FDA0003707678280000042
其表达式为:
Figure FDA0003707678280000043
式中,fα,min为优化目标的最小值,fα,max为优化目标的最大值;
步骤2.2.2,对四个优化目标赋予权值,设置奖励函数R
所述奖励函数R表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
Figure FDA0003707678280000051
式中,rt为系统在t时刻的状态st采取动作at后得到的单步奖励值,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度,
Figure FDA0003707678280000052
其中
Figure FDA0003707678280000053
为惩罚系数,wα为权重系数,α=1,2,3,4,0<wα<1,且
Figure FDA0003707678280000054
步骤3,DDPG算法的离线学习
从状态集合S中任意抽取D个状态st组成离线学习的训练数据集,D=4T/5;根据步骤2得到的状态集合S、动作集合A0和奖励函数R,利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy);
所述DDPG算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为第一神经网络参数θμ,目标策略网络的神经网络参数记为第二神经网络参数θμ′,在线评价网络的神经网络参数记第三神经网络参数为θQ,目标评价网络的神经网络参数记为第四神经网络参数θO′
给定训练步长step和最大步长stepmax,给定训练回合数m和最大训练回合数M,step=1,2,3…stepmax,m=1,2,3…M,即在每一个训练回合中包含stepmax次训练,共进行M个训练回合;
定义在每个训练回合中的奖励函数R的平均值,并记为平均奖励
Figure FDA0003707678280000055
Figure FDA0003707678280000056
Figure FDA0003707678280000061
在每个训练回合数m的过程中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ、第四神经网络参数θQ′均朝着平均奖励
Figure FDA0003707678280000062
最大化的方向更新,最终得到最优策略π(sy);
所述最优策略π(sy)的表达式如下:
π(sy)=ay
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(Udc,I)y,(Udc,I)y为状态集合S中与最优策略对应的直流电压Udc和输出电流I,ay为与最优策略对应的在线策略网络输出的动作值,记为最优动作ay,且ay=(fsw)y,(fsw)y为动作集合A0中与最优策略π(sy)对应的高频开关频率fsw
输出最优动作ay
步骤4,根据最优动作ay进行应用
步骤4.1,首先将状态集合S中的选入训练数据集以外的状态st重新组成一个应用数据集,然后从该应用数据集中随机抽取jmax个状态st并重新定义为应用状态sβ,β=1,2,3...jmax,应用状态sβ=(Udc,I)β,即应用状态sβ为直流电压Udc和输出电流I下的一组状态;
步骤4.2,将步骤3输出的最优动作ay代入jmax个应用状态sβ中,则得到不同应用状态sβ下输出的最优应用动作
Figure FDA0003707678280000063
β=1,2,3...jmax
步骤4.3,将应用状态sβ=(Udc,I)β、最优应用动作
Figure FDA0003707678280000064
分别代入步骤1所建立的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型中,得到系统的最优效率
Figure FDA0003707678280000065
系统的最优功率密度
Figure FDA0003707678280000066
系统的最优特殊成本
Figure FDA0003707678280000067
和系统的最优寿命
Figure FDA0003707678280000068
β=1,2,3...jmax,其中系统的最优效率
Figure FDA0003707678280000069
为在系统状态集合S中的任一状态{(Udc,I)}下的最优效率,系统的最优功率密度
Figure FDA0003707678280000071
为在系统状态集合S中的任一状态{(Udc,I)}下的最优功率密度,系统的最优特殊成本
Figure FDA0003707678280000072
为在系统状态集合S中的任一状态{(Udc,I)}下的最优特殊成本,系统的最优寿命
Figure FDA0003707678280000073
为在系统状态集合S中的任一状态{(Udc,I)}下的最优寿命,即在系统状态集合S中的任一状态{(Udc,I)}下实现效率、功率密度和寿命的最大化,同时使得特殊成本最小化。
2.根据权利要求1所述的一种基于DDPG算法的光伏逆变器多目标优化方法,其特征在于,步骤3所述利用深度强化学习的DDPG算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
步骤3.1,初始化第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′,并令θμ′=θμ、θQ′=θQ;初始化经验回放池P的容量为D;初始化在线评价网络的学习率αQ,在线策略网络的学习率αμ,滑动平均更新参数τ,且0<αQ<1,0<αμ<1,0<τ<1;记在线策略网络的输出为a,a=μ(s|θμ),其中,a为在线策略网络输出的动作值,a对应于所述动作集合A0中的个体,且a=fsw;s为在线策略网络输入的状态值,s对应于所述状态集合S中的个体,且s=(Udc,I);μ为通过在线策略网络的第一神经网络参数θμ和输入的状态值s得到的策略;
步骤3.2,将系统在t时刻的状态st输入在线策略网络,得到在线策略网络的输出
Figure FDA0003707678280000074
并添加噪声δt,得到最终输出的动作at,具体表达式如下:
Figure FDA0003707678280000075
步骤3.3,系统根据状态st执行动作at,转换到新的状态st+1,同时得到执行动作at后的单步奖励值rt,将(st,at,rt,st+1)称为状态转换序列,并把(st,at,rt,st+1)存入经验回放池P,系统进入下一时刻t+1的状态st+1
循环执行步骤3.2~步骤3.3,记经验回放池P中状态转换序列的个数为N,若N=D,进入步骤3.4,否则返回步骤3.2;
步骤3.4,从经验回放池P中随机抽取n个状态转换序列,且n<D,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,sk+1),k=1,2,3…n;
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,sk+1),k=1,2,3…n,计算得到累积奖励yk和误差函数L(θQ),具体表达式如下:
yk=rk+Q′(sk+1,μ′(sk+1μ′)|θQ′)
Figure FDA0003707678280000081
式中,Q′(sk+1,μ′(sk+1μ′)|θQ′)为目标评价网络输出的评分值,其中μ′(sk+1μ′)|θQ′为目标策略网络输出的动作值,sk+1为目标评价网络和目标策略网络输入的状态值;Q(sk,akQ)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值;
步骤3.6,在线评价网络通过最小化误差函数L(θQ)来更新θQ,在线策略网络通过确定性策略梯度
Figure FDA0003707678280000082
更新θμ,目标评价网络和目标策略网络通过滑动平均方法更新θQ′和θμ′,具体表达式如下:
Figure FDA0003707678280000083
Figure FDA0003707678280000084
Figure FDA0003707678280000085
Figure FDA0003707678280000086
Figure FDA0003707678280000087
式中,
Figure FDA0003707678280000091
为偏导符号,其中
Figure FDA0003707678280000092
表示策略J对θμ求偏导,
Figure FDA0003707678280000093
表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值
Figure FDA0003707678280000094
对动作值a求偏导,
Figure FDA0003707678280000095
表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值
Figure FDA0003707678280000096
对θμ求偏导,
Figure FDA0003707678280000097
表示误差函数L(θQ)对θQ求偏导,
Figure FDA0003707678280000098
为更新之后的第三神经网络参数,
Figure FDA0003707678280000099
为更新之后的第一神经网络参数,
Figure FDA00037076782800000910
为更新之后的第四神经网络参数,
Figure FDA00037076782800000911
为更新之后的第二神经网络参数;
步骤3.7,完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,当step<stepmax时,重复执行步骤3.4~步骤3.6,当step=stepmax时,一个回合的训练过程完成,下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,当m<M时,重复执行步骤3.2~步骤3.6,当m=M时,M个回合的训练过程完成时,DDPG算法的学习过程结束;
步骤3.8,训练算法结束,保存最优策略π(sy)=ay,记一个训练回合的平均奖励为
Figure FDA00037076782800000912
在M个训练回合中,第一神经网络参数θμ、第二神经网络参数θμ′、第三神经网络参数θQ和第四神经网络参数θQ′朝着平均奖励
Figure FDA00037076782800000913
最大化的方向更新,最终得到最优策略π(sy)。
CN202210713121.5A 2022-06-22 2022-06-22 基于ddpg算法的光伏逆变器多目标优化方法 Active CN115021325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210713121.5A CN115021325B (zh) 2022-06-22 2022-06-22 基于ddpg算法的光伏逆变器多目标优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210713121.5A CN115021325B (zh) 2022-06-22 2022-06-22 基于ddpg算法的光伏逆变器多目标优化方法

Publications (2)

Publication Number Publication Date
CN115021325A true CN115021325A (zh) 2022-09-06
CN115021325B CN115021325B (zh) 2024-03-29

Family

ID=83076474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210713121.5A Active CN115021325B (zh) 2022-06-22 2022-06-22 基于ddpg算法的光伏逆变器多目标优化方法

Country Status (1)

Country Link
CN (1) CN115021325B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116629184A (zh) * 2023-07-24 2023-08-22 合肥工业大学 一种逆变器系统的多目标优化方法
CN117313560A (zh) * 2023-11-30 2023-12-29 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN112187074A (zh) * 2020-09-15 2021-01-05 电子科技大学 一种基于深度强化学习的逆变器控制器
CN112968474A (zh) * 2021-03-30 2021-06-15 合肥工业大学 光伏离网逆变器系统的多目标寻优方法
CN114172403A (zh) * 2021-12-07 2022-03-11 合肥工业大学 基于深度强化学习的逆变器效率优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN112187074A (zh) * 2020-09-15 2021-01-05 电子科技大学 一种基于深度强化学习的逆变器控制器
CN112968474A (zh) * 2021-03-30 2021-06-15 合肥工业大学 光伏离网逆变器系统的多目标寻优方法
CN114172403A (zh) * 2021-12-07 2022-03-11 合肥工业大学 基于深度强化学习的逆变器效率优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王凯丽;张巧杰;: "MOPSO算法在Boost变换器优化设计中的应用", 烟台大学学报(自然科学与工程版), no. 04, 15 October 2017 (2017-10-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116629184A (zh) * 2023-07-24 2023-08-22 合肥工业大学 一种逆变器系统的多目标优化方法
CN116629184B (zh) * 2023-07-24 2023-09-29 合肥工业大学 一种逆变器系统的多目标优化方法
CN117313560A (zh) * 2023-11-30 2023-12-29 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法
CN117313560B (zh) * 2023-11-30 2024-02-09 合肥工业大学 基于机器学习的igbt模块封装的多目标优化方法

Also Published As

Publication number Publication date
CN115021325B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN115021325A (zh) 基于ddpg算法的光伏逆变器多目标优化方法
CN107086606B (zh) 一种配电网综合等效异步电动机负荷模型参数辨识方法
CN109768584B (zh) 基于免疫粒子群算法的微网自治调频调压方法和装置
CN110265991B (zh) 一种直流微电网的分布式协调控制方法
CN107069784B (zh) 一种利用分布式储能提高配电网负荷和光伏承载能力的优化运行方法
CN117057228A (zh) 一种基于深度强化学习的逆变器多目标优化方法
CN114204547B (zh) 考虑源网荷储协同优化的配电网多措施组合降损优化方法
CN113315150B (zh) 低压配电网三相不平衡度优化方法、系统、设备及介质
CN114172403A (zh) 基于深度强化学习的逆变器效率优化方法
CN112383237A (zh) 一种并网逆变器的模型预测控制方法
CN113988384A (zh) 一种提高配电网可靠性的储能容量优化配置方法
Shieh Fuzzy PWM based on Genetic Algorithm for battery charging
CN113162075A (zh) 一种基于台区特性与换相目标匹配的三相不平衡主动治理方法与装置
CN109830987B (zh) 计及分布式光伏随机性的主动配电网概率稳定性分析方法
Hachana et al. Efficient PMSG wind turbine with energy storage system control based shuffled complex evolution optimizer
CN113162107B (zh) 一种永磁直驱风机电磁暂态仿真的启动方法
CN114548597A (zh) 一种交直流混合光储配电网优化方法
CN114123213A (zh) 一种电网的时空功率均衡方法及系统
Li et al. An Improved Distributed Secondary Control to Attain Concomitant Accurate Current Sharing and Voltage Restoration in DC Microgrids
CN116914808A (zh) 一种基于北方苍鹰算法的光伏并网三相逆变器控制方法
CN116154791A (zh) 一种协同多可控资源的功角稳定控制方法、系统及终端
Wang et al. Efficiency Optimization Design of Three-Level Active Neutral Point Clamped Inverter Based on Deep Reinforcement Learning
CN113162063B (zh) 一种抑制超低频振荡的多直流协调控制器设计方法
CN113361805A (zh) 一种配电网规划方法及系统
Fan et al. A passivity control strategy for VSC-HVDC connected large scale wind power

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant