CN117318480A - 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统 - Google Patents

一种基于强化学习的dc-dc变换器的调制策略设计方法及系统 Download PDF

Info

Publication number
CN117318480A
CN117318480A CN202311131261.2A CN202311131261A CN117318480A CN 117318480 A CN117318480 A CN 117318480A CN 202311131261 A CN202311131261 A CN 202311131261A CN 117318480 A CN117318480 A CN 117318480A
Authority
CN
China
Prior art keywords
converter
action
modulation strategy
vector
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311131261.2A
Other languages
English (en)
Inventor
陈宇
白敬波
童思雨
康勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202311131261.2A priority Critical patent/CN117318480A/zh
Publication of CN117318480A publication Critical patent/CN117318480A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M3/00Conversion of dc power input into dc power output
    • H02M3/02Conversion of dc power input into dc power output without intermediate conversion into ac
    • H02M3/04Conversion of dc power input into dc power output without intermediate conversion into ac by static converters
    • H02M3/10Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode
    • H02M3/145Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal
    • H02M3/155Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only
    • H02M3/156Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only with automatic control of output voltage or current, e.g. switching regulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M1/00Details of apparatus for conversion
    • H02M1/14Arrangements for reducing ripples from dc input or output
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M3/00Conversion of dc power input into dc power output
    • H02M3/02Conversion of dc power input into dc power output without intermediate conversion into ac
    • H02M3/04Conversion of dc power input into dc power output without intermediate conversion into ac by static converters
    • H02M3/10Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode
    • H02M3/145Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal
    • H02M3/155Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only
    • H02M3/156Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only with automatic control of output voltage or current, e.g. switching regulators
    • H02M3/158Conversion of dc power input into dc power output without intermediate conversion into ac by static converters using discharge tubes with control electrode or semiconductor devices with control electrode using devices of a triode or transistor type requiring continuous application of a control signal using semiconductor devices only with automatic control of output voltage or current, e.g. switching regulators including plural semiconductor devices as final control devices for a single load

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Power Engineering (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Dc-Dc Converters (AREA)

Abstract

本发明公开了一种基于强化学习的DC‑DC变换器的调制策略设计方法及系统,属于电力电子技术领域,本发明以DC‑DC变换器的状态向量X作为输入,以变换器各开关模态及对应占空比组成的所有可能动作的质量向量Q为输出,构建一个深度神经网络作为智能体,将调制策略设计看作是对变换器开关模态排列组合并分配占空比的过程,通过强化学习,智能体无需人为干预即可在试错中总结经验,最终生成奖励最大化的调制策略,提升DC‑DC变换器的调制策略设计效率。

Description

一种基于强化学习的DC-DC变换器的调制策略设计方法及 系统
技术领域
本发明属于电力电子技术领域,更具体地,涉及一种基于强化学习的DC-DC变换器的调制策略设计方法及系统。
背景技术
电力电子技术是实现电能高效变换的关键技术。DC-DC变换器可以实现直流端口间的能量转换,是电力电子技术的核心之一,在电动汽车、直流微网、计算机供电、绿色家居等众多场合广泛应用。DC-DC变换器使用多个半导体(MOSFET或者二极管)建立不同电流环路,从而在不同端口(输入、输出、双向端口)之间传输功率。由于DC-DC变换器的开关管数量比较多,故其开关模态多,为了实现某种能量管理任务,需要将多个开关模态组合在一起,并给出每种开关模态的持续时间(或占空比),形成特定的调制策略,设计过程较为复杂。
目前DC-DC变换器的调制策略设计主要是人为从所有开关模态中挑选若干特定模态组成模态序列,进而对电路进行分析,计算各模态占空比,最终得到一种特定的调制策略。当开关管数量或端口数量增多时,开关状态的组合可能性(即开关模态)大幅增加,开关模态的有效排列组合(即可用的模态序列)显著增加,而且每个模态的占空比也可取不同值。此外,不同的应用场合有不同的需求和指标(如电感电流纹波最小化、半导体元件损耗最小化等),所对应的调制策略也不同,使得设计空间非常庞大。因此,传统的DC-DC变换器调制策略设计过程费时费力,且高度依赖专家知识和经验,导致设计效率低。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于强化学习的DC-DC变换器的调制策略设计方法及系统,其目的在于提升DC-DC变换器的调制策略设计效率。
为实现上述目的,按照本发明的第一方面,提供了一种基于强化学习的DC-DC变换器的调制策略设计方法,包括:
S1、构建一个深度神经网络作为智能体,智能体的输入为DC-DC变换器的状态向量X,输出为智能体动作空间中所有可能动作的质量向量Q;其中,所述状态向量X包括DC-DC变换器各端口电压值V、电路开关模态及对应的占空比,初始状态向量X0={V};所述智能体动作空间为所有电路开关模态及对应的占空比的组合;所述质量向量Q用于表征选择每个动作以获得最优调制策略的可能性;
S2、将第t步的状态向量Xt输入智能体,得到对应动作的质量向量Qt;并根据所述质量向量Qt,从动作空间中选择一个动作at,得到第t+1步的状态向量Xt+1;对所述状态向量Xt+1评估后,得到奖励值Rt;其中,t=0,1,2…T,T表示一个开关周期内允许包含的开关模态数量上限;
S3、重复S2,使智能体运行一轮,得到至多T组Xt、at、Rt及Xt+1
S4、利所述至多用T组Xt、at、Rt及Xt+1,采用强化学习算法对智能体进行一轮训练和学习,以更新智能体的权重和偏置;
S5、重复S2-S4,直至达到预设训练轮次或智能体的损失收敛,并将训练完成的智能体用于实际DC-DC变换器的调制策略设计。
进一步地,S2中,对所述状态向量Xt+1评估后,得到奖励值Rt,包括:
用所述状态向量Xt+1对应的调制策略控制DC-DC变换器,判断DC-DC变换器的控制结果是否都满足第一指标和第二指标;
若满足,则奖励值Rt为正数,且停止本轮学习;
若只满足第一指标,则奖励值Rt为负数RSN,且继续本轮次学习;
若第一指标中有指标不满足,则奖励值Rt为负数RBN,且停止本轮学习,进行下一轮学习;其中,负数RSN大于负数RBN
所述第一指标包括以下至少一种:
一个开关周期内开关模态数量小于等于T;
占空比之和满足电路的物理约束;
每个端口的功率值满足约束;
所述第二指标为:DC-DC变换器可以稳定工作。
进一步地,所述第一指标还包括以下至少一种:
电流纹波满足约束;
DC-DC变换器的效率满足约束;
半导体元件的损耗满足约束。
进一步地,S2中,根据所述质量向量Qt,采用动作选择算法,从动作空间中选择一个动作at
进一步地,所述动作选择算法采用ε-greedy算法,以一定概率ε选择所述质量向量Qt中最大元素值对应的动作,以概率1-ε从动作空间随机选择动作,得到所述动作at
进一步地,训练过程中,智能体的损失函数Loss为:
式中,qk为所述质量向量Qt中的第k个元素值,为采用DQN算法计算得到的目标值,/>的计算公式为:
式中,Rt表示每步动作后得到的奖励,γ表示影响因子,max(·)表示选择最大元素,表示深度神经网络,/>表示智能体的权重和偏置参数。
进一步地,S5中,将训练完成的智能体用于实际DC-DC变换器的调制策略设计,包括:
将DC-DC变换器实际运行工况输入至训练完成的智能体中,其中,所述实际运行工况为DC-DC变换器各端口电压;
智能体每走一步,输出对应的质量向量Qt;根据所述质量向量Qt选择出相应的动作at,所述动作at表示质量向量Qt中第at个元素对应的开关模态和占空比;
智能体执行一轮,获得一个开关周期内对应的至多T组开关模态和占空比,所述至多T组开关模态和占空比构成可用的调制策略。
进一步地,S5中,所述智能体的损失收敛是指所述智能体生成可用的调制策略的次数达到设定的阈值。
按照本发明的第二方面,提供了一种基于强化学习的DC-DC变换器的调制策略设计系统,包括计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令执行第一方面任一项所述的方法。
按照本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面任一项所述的方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明的DC-DC变换器的调制策略设计方法,将调制策略设计看作是对变换器开关模态排列组合并分配占空比的过程。构建DC-DC变换器的状态向量,该状态向量包括变换器各端口电压值V、电路开关模态及每种电路开关模态对应的占空比,该状态向量用于量化DC-DC变换器在不同运行工况下的调制策略;其中,变换器各端口电压值V用于表征变换器的运行工况;将该状态向量X输入至智能体,智能体的输出用于表征选择每种电路开关模态及对应占空比以获得最优调制策略的可能性,使用深度强化学习高效搜索开关模态与占空比的组合,从而自动生成在该电压工况下的最优调制策略,避免复杂的人工设计,提高设计效率。
(2)进一步地,在智能体的训练过程中,将电路设计规则和设计需求转换为强化学习的奖励,满足不同的指标给予不同的奖励,正奖励用来训练深度神经网络在之后遇到相同输入时增加对应动作的可能性;负奖励用来训练深度神经网络在之后遇到相同输入时减少对应动作的可能性,促使深度神经网络自动探索和学习出能够最大化奖励的调制策略。
总而言之,本发明的方法使用深度神经网络作为智能体来生成调制策略,并采用一组量化规则提供强化学习所需的奖励,用于训练智能体。通过强化学习,智能体无需人为干预即可在试错中总结经验,最终生成奖励最大化的调制策略,提升设计效率。
附图说明
图1为本发明的基于强化学习的DC-DC变换器的调制策略设计方法流程图。
图2为本发明实施例中的单电感多端口DC-DC变换器的电路图。
图3(a)为本发明实施例中的单电感多端口DC-DC变换器在模态m1下的电路图。
图3(b)为本发明实施例中的单电感多端口DC-DC变换器在模态m1下的电路图。
图3(c)为本发明实施例中的单电感多端口DC-DC变换器在模态m1下的电路图。
图3(d)为本发明实施例中的单电感多端口DC-DC变换器在模态m1下的电路图。
图3(e)为本发明实施例中的单电感多端口DC-DC变换器在模态m1下的电路图。
图4本发明实施例中单电感多端口DC-DC变换器不同调制策略对应的状态向量,图4中的(a)-(d)分别对应于状态向量X0、X1、X2、X3
图5(a)为发明实施例中单电感多端口DC-DC变换器在一种工况下生成的最优调制策略。
图5(b)为发明实施例中单电感多端口DC-DC变换器在另一种工况下生成的最优调制策略。
图6(a)为发明实施例中使用图5(a)生成的调制策略得到的电感电流仿真波形和实验波形。
图6(b)为发明实施例中使用图5(b)生成的调制策略得到的电感电流仿真波形和实验波形。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
如图1所示,本发明的基于强化学习的DC-DC变换器的调制策略设计方法,主要包括:
S1、构建一个深度神经网络作为智能体,智能体的输入为DC-DC变换器的状态向量X,输出为智能体动作空间中所有可能动作的质量向量Q;其中,状态向量X用于量化DC-DC变换器在不同运行工况下的调制策略,包括变换器各端口电压值V、电路开关模态及每种电路开关模态对应的占空比,变换器各端口电压值V用于表征变换器的运行工况;初始化时,除变换器端口电压值,其余元素为0,也即,初始状态向量X0={V};智能体动作空间为所有电路开关模态及每种电路开关模态对应的占空比的组合;质量向量Q中的每个元素用于表征选择每个动作以获得最优调制策略的可能性,值越大,表明获得最优调制策略的概率越大;其中,最优调制策略是指DC-DC变换器可用策略里面奖励最大的调制策略。
S2、将第t步的状态向量Xt输入智能体,得到对应动作的质量向量Qt;并根据质量向量Qt,从动作空间中选择一个动作at,得到第t+1步的状态向量Xt+1;对第t+1步的状态向量Xt+1评估后,得到奖励值Rt;其中,t=0,1,2…T;T表示一个开关周期内允许包含的开关模态数量上限,t=0时,为初始状态,对应于初始状态向量X0
S3、重复S2,使智能体运行一轮,也即,使DC-DC变换器调制策略的状态向量从初始状态走完一轮,得到至多T组Xt、at、Rt及Xt+1
S4、利用至多T组Xt、at、Rt及Xt+1,采用强化学习算法对智能体进行一轮训练和学习,以更新智能体的权重和偏置;
S5、重复S2-S4,直至达到预设的训练轮次或者深度神经网络的损失收敛,并将训练完成的智能体用于实际DC-DC变换器的调制策略设计。
具体地,S1中,状态向量X为:
X={V,S1,S2,…,ST,d1,d2,…,dT}
其中,V表示变换器各端口电压值,用于表征变换器运行工况,为1×N的向量,列数N为DC-DC变换器端口的个数;Sj(j=1,2…T)代表不同开关模态,是DC-DC变换器中所有开关管的通断组合,T为一个开关周期内允许包含的开关模态数量上限,Sj是一个1×M的向量,列数M是开关管的数量,其元素取0或1分别代表开关管的通和断;dj(j=1,2…T)是一个标量,代表每个开关模态对应的占空比,0<dj<1。
也即,状态向量Xt是一个1×w的向量,w表示状态向量中元素个数,即总列数,取值为N+M*T+T。通过端口电压状态V、开关模态Sj及其对应占空比dj可以表示DC-DC变换器在不同运行工况下的调制策略。
质量向量Q为:
Q={q(m1,d1),q(m1,d2),…q(m1,dt),q(m2,d1),…,q(ms,dp)}
其中,mi(i=1,2…s)为DC-DC变换器的开关模态,s为变换器中开关模态的总个数,dj(j=1,2…p)表示将占空比0-1等比例划分为p份,每份为1/p。每个元素值q(mi,dj)表示“选择开关模态mi和占空比dj组合”的动作质量;质量向量Q的大小为1×n,列数n的值为s*p。
所有可能动作,也即动作空间,为DC-DC变换器所有的开关模态与占空比0-1等比例划分后的离散占空比的所有组合,动作数为s*p。动作的质量为一个数值,数值越高,代表动作越好,选择该动作更有可能生成最优的调制策略。
具体地,S2中,第t步的状态向量Xt输入深度神经网络的输入层,通过深度神经网络,Xt被映射到一个大小为1×n的向量Qt
表示深度神经网络,其结构需要根据设计的复杂度合适地选择,本发明实施例中,选择深度神经网络为全连接神经网络(FCNN),在其它实施例中,也可以是卷积神经网络(CNN)等其它深度神经网络。
具体地,S2中,根据质量向量Qt,采用动作选择算法,从动作空间中选择一个动作at。在本发明实施例中,动作选择算法采用ε-greedy算法,以一定概率ε选择质量向量Qt中最大元素值对应的动作at,以概率1-ε从动作空间随机选择动作at。动作空间中的动作数为n,动作at代表质量向量Qt中第at个元素对应的开关模态和占空比组合,at的值不同,代表不同的开关模态和占空比组合。在其它实施例中,动作选择算法也可以是完全随机算法,比如:根据质量向量Qt,从动作空间中完全随机选择一个动作at。或者也可以是其它动作选择算法。
将动作at对应的开关模态和占空比写入状态向量Xt中,便可以得到第t+1步状态向量Xt+1,用于反映更新后的调制策略。
具体地,S2中,对第t+1步的状态向量Xt+1评估后,得到奖励值Rt,包括:
用更新后的调制策略控制DC-DC变换器,判断变换器的控制结果是否都满足规定的第一指标和第二指标,若满足,则奖励值Rt为正数RP,且停止本轮学习;若只满足第一指标,则奖励值Rt为较小的负数RSN,继续本轮次学习,表明已经使用了一个开关模态,鼓励后面使用较少的开关模态生成最优调制策略;若第一指标中有指标不满足时,则奖励值Rt为较大的负数RBN,即负数RSN大于负数RBN,同时停止本轮学习,进行下一轮学习。其中,正奖励用来训练深度神经网络在之后遇到相同输入Xt时增加对应动作的可能性;负奖励用来训练深度神经网络在之后遇到相同输入Xt时减少对应动作的可能性。
具体地,第一指标包括:
一个开关周期内开关模态数量小于等于T;
占空比之和满足电路的物理约束;在本发明实施例中,占空比之和满足的物理约束为:占空比之和小于等于1;在其它实施例中,也可以是占空比之和大于1等,根据具体的电路物理约束设计;
每个端口的功率值满足约束。
第二指标为:DC-DC变换器可以稳定工作。
在其它实施例中,衡量奖励的指标并不固定,可以根据变换器的运行指标进行调整,以满足设计要求。比如,在其它实施例中,第一指标还可以包括:电流纹波满足约束,变换器的效率满足约束或半导体元件的损耗满足约束等。
具体地,S3中,当智能体运行一轮走完T步,可以得到T组Xt、at、Rt及Xt+1;若智能体在当前轮次中,走完某一步,已经找到了可用的调制策略,比如,用更新后的调制策略控制DC-DC变换器,变换器的控制结果都满足规定的第一指标和第二指标时,对应地,得到Xt、at、Rt及Xt+1的组数小于T。
S4中,利用该至多T组Xt、at、Rt及Xt+1,采用强化学习算法对智能体进行一轮训练和学习,以更新智能体的权重和偏置。
具体地,在本发明实施例中,在智能体每一步的运行中,将得到的Xt,at,Rt,Xt+1作为一组样本数据存入深度神经网络的记忆池中,记忆池中还包含大量的当前步结束之前的多组样本数据,当样本数据达到最大容量时,采取先进先出的原则,剔除最先进入记忆池的样本数据。
从记忆池的所有样本数据中随机抽取额定数量的样本数据对深度神经网络进行训练和学习,以更新智能体的权重和偏置。
具体地,本发明实施例中,采用DQN算法训练深度神经网络,其训练目标是获得奖励尽可能高的调制策略。
基于奖励值Rt,采用DQN算法计算得到的目标值为:
其中,Rt表示每步动作后得到的奖励,max(·)表示选择最大元素;γ表示影响因子;k表示深度神经网络输出的质量向量Qt中的第k个元素,也即at,对应于挑选的开关模态和占空比组合。
将计算得到的目标值与真实的qk之间做损失训练,反向调整深度神经网络的权重和偏置参数/>使qk可以接近/>其中,真实的qk为深度神经网络给出的值,也即质量向量Qt中的第k个元素值。
具体地,损失函数Loss为:
通过计算参数对于Loss的梯度,具体为:
其中,α是深度神经网络的学习率。经过训练后,Loss变小,说明深度神经网络更新了设计策略。
具体地,S5中,深度神经网络的损失收敛,也即达到深度神经网络训练成功的要求,对应于神经网络可以生成可用的调制策略(满足上述的第一指标和第二指标)的次数达到设定的阈值。达到预设的训练轮次则认为深度神经网络没有训练成功,需要重新运行程序,进行下一次学习。
将训练完成的智能体用于实际DC-DC变换器的调制策略设计,具体包括:
将DC-DC变换器实际运行工况(即端口电压)输入至训练完成的智能体中,智能体每走一步,输出质量向量Qt;根据质量向量Qt选择出相应的动作at,该动作at表示质量向量Qt中第at个元素对应的开关模态和对应的占空比;
智能体执行一轮,获得一个开关周期内对应的至多T组开关模态和占空比,一个开关周期内对应的至多T组开关模态和占空比构成可用的调制策略。
下面结合具体的实施例,对本发明进一步详细说明。
单电感多端口(Single-Inductor Multi-Port,SIMP)DC-DC变换器具有“多硅少磁”的特性,单电感多端口DC-DC变换器体积小,便于集成,目前已广泛应用于直流微网、电动汽车、消费电子、LED照明等具有多端口连接需求的场合。本发明实施例中,以一个非隔离单电感双向端口(Single-Inductor Bidirectional-Port,SIBP)DC-DC变换器为例对本发明的技术方案进行详细说明。
如图2所示,是本发明实施例提供的非隔离单电感双向端口DC-DC变换器的拓扑结构图。该SIBP变换器包含一个电感,三个开关管及两个二极管,可以实现输入端口Vi,电池端口Vb和负载端口Vo之间的功率流动。通过恰当地控制该变换器中的三个开关管,可以使三个端口工作在Buck或者Buck-Boost模式,端口电压限制少,运行范围宽。对于该变换器,Vb>Vo是需要一直被满足的条件,因此,其可以工作在三种电压关系:Vi>Vb>Vo,Vb>Vi>Vo,Vb>Vo>Vi
该SIBP变换器有5种开关模态,如图3(a)-图3(e)所示,其中,图3(a)为开关模态m1,对应的开关状态为:S1导通,S2、S3关断;图3(b)为开关模态m2,对应的开关状态为:S1、S2关断,S3导通;图3(c)为开关模态m3,对应的开关状态为:S1关断,S2、S3导通;图3(d)为开关模态m4,对应的开关状态为:S1、S2、S3关断;图3(e)为开关模态m5,对应的开关状态为:S1、S3关断,S2导通。对于每个开关模态,电感电流iL流过不同的端口,因此可以将能量从一部分输送到另一部分。需要注意的是,电感在每种开关模态下都会被磁化或者退磁,但在一个开关周期内必须令电感满足伏秒平衡条件。因为开关模态多,开关模态和占空比组合选择多,调制策略设计复杂。下面结合本发明的方法对单电感多端口DC-DC变换器在不同工况下的调制策略的过程进行介绍。
本发明实施例中的SIBP变换器主要参数如表1所示,将其关键参数(端口电压等)输入Python程序中用于训练深度神经网络。本发明实施例中,取每个工作循环(智能体运行一轮)步数上限T=8,即一个开关周期内包含的开关模态数最多为8。
表1样机关键参数
将运行工况(即端口电压),模态序列及每个开关模态对应的占空比作为调制策略状态向量Xt的元素,将Xt输入深度神经网络,在本发明实施例中,如图4所示:
(A)运行工况由该SIBP变换器的三个端口电压Vi、Vb、Vo表征,如图4中的(a)所示,初始化的状态向量X0中V是三个端口的电压,提供变换器工作于某种工况的依据。
(B)模态序列由开关管S1、S2、S3的通断状态来表征,Sj(j=1,2…8)均是1×3的向量,3列分别为3个开关管的通断状态,其元素值为0或者1,Sj表征某步的开关模态,总共有8步,代表开关周期内开关模态数量最多为8。如图4中的(a)所示,Sj(j=1,2…8)均为0,表示目前还没有选择开关模态。
(C)dj(j=1,2…8)表示每步开关模态对应的占空比,即每个开关模态作用的时间,占空比为0-1之间的值。
(D)如图4中的(a)所示,除了端口电压Vi、Vb、Vo,X0中其余元素均为0,表明此时还没有选择开关模态。调制策略设计开始时,假如第一步选择开关模态m1(S1={1,0,0})和占空比d1,状态向量更新为X1,如图4中的(b)所示。在X1基础上,调制策略第二步选择开关模态m2(S2={0,0,1})和占空比d2,状态向量更新为X2,如图4中的(c)所示。在X2基础上,调制策略第三步选择开关模态m3(S3={0,1,1})和占空比d3,状态向量更新为X3,如图4中的(d)所示。
(E)由(A)(B)(C)(D),状态向量Xt中包含35个元素,因此深度神经网络的输入层有35个节点。对状态向量Xt中的前三个元素,即端口电压,进行归一化,这样会使得深度神经网络更容易拟合,提高训练速度。
深度神经网络的输出为质量向量Qt,在本发明实施例中,向量Qt中的元素值代表“选择每个开关模态和占空比组合”的动作质量,元素数量即为动作的个数。具体地,强化学习算法选用DQN算法,该算法动作空间是离散的。为了将调制策略设计问题转换为离散问题,在本发明实施例中,将占空比0-1等比例划分为19份,即每份占空比为0.05。
动作空间为开关模态与离散占空比的所有组合,因为该SIBP变换器可供选择的开关模态有5种,占空比被划分为19份,所以动作空间大小为n=95,质量向量Qt的大小为1×95。比如,q(5,1)对应于开关模态m5,占空比为0.05;q(1,19)对应于开关模态m1,占空比为0.95。假定q(5,1)=7和q(1,19)=4,意味着选择开关模态m5和占空比0.05比选择开关模态m1和占空比0.95具有更好的质量。
深度神经网络的输出层有95个节点,每个节点代表“选择某个开关模态和占空比组合”的动作质量。
基于上述的输入和输出,本发明实施例中的深度神经网络共有3层,即输入层,隐藏层和输出层。深度神经网络选择全连接神经网络,深度神经网络计算公式为:
Xi+1=g(wi·Xi+bi)
其中,Xi、Xi+1分别是输入和输出,Xi+1也作为下一层的输入,依此类推;g()是激活函数,wi、bi是权重和偏置矩阵,深度神经网络所有层的wi、bi即为深度神经网络的内部参数
当i等于1时,输入Xi为整个深度神经网络的输入层,也即状态向量Xt,共有35个节点。输出Xi+1为深度神经网络的隐藏层,有132个节点,g()是ReLU激活函数。
当i等于2时,输入Xi即为深度神经网络的隐藏层,输出Xi+1即为深度神经网络的输出层,也即质量向量Qt,即有95个节点,没有激活函数g()。
根据深度神经网络的输出质量向量Qt,应用ε-greedy算法,以一定概率ε根据质量向量Qt中最高元素值选择动作at,以概率1-ε随机选择动作at,得到下一步的开关模态与占空比。动作at为开关模态和占空比的组合,at的值范围为0-94,分别代表95个不同的开关模态和占空比组合。
学习迭代次数m和概率ε有如下关系:
其中,ε0是初始概率,0≤η≤1是调整变化率的变量,本发明实施例中,设置ε0=0.7,η=1。m是强化学习迭代次数,mmax是m的上限,本发明实施例中,令mmax=400000。
当得到下一步开关模态及其对应的占空比后,将该开关模态与占空比加入调制策略,则调制策略更新为Xt+1,并根据电路规则对更新后的调制策略进行评判得到奖励Rt。具体地,调用电路仿真软件,将更新后的调制策略用于控制该SIBP变换器,进行仿真,根据仿真结果对当前调制策略进行评判,得到奖励Rt。本发明实施例中,评判指标中的第一指标包括:
1)开关周期内开关模态数量小于等于上限T,即8;
2)占空比之和不大于1;
3)输入光伏端口的功率不超过额定功率值240W;
第二指标为:电感L是满足伏秒平衡。
当上述第一指标和第二指标要求均满足时,说明该调制策略是可行的,会得到一个很大的正奖励RP=600,同时停止本轮学习;当只有第一指标满足时,会得到一个小的负奖励RSN=-10;若第一指标中有指标不满足时,均会给一个很大的负奖励RBN=-300,同时本轮学习停止,开始下一轮。
存储第t步的四个值Xt,at,Rt,Xt+1。本发明实施例中,当智能体每走完一步,从记忆池中随机抽取250组Xt,at,Rt,Xt+1样本数据,通过强化学习算法进行一轮训练和学习,对深度神经网络的内部参数进行一次更新。在其它实施例中,也可以是智能体走完一轮,利用从记忆池中随机抽取的多组Xt,at,Rt,Xt+1样本数据对神经网络进行训练。本发明实施例中,具体的训练和学习过程如下:
根据下述的DQN算法公式,对250组样本数据的Rt和Xt+1进行处理:
调整深度神经网络的权重和偏置参数使qk可以接近/>通过下式调整/>
其中,0.001是深度神经网络的学习率。经过训练后,Loss变小,说明深度神经网络更新了设计策略。
上述实施例中的总体过程可以概述为:
(1)状态向量Xt输入到NN中;(2)根据输出的质量向量Qt,ε-greedy算法采取行动at;(3)更新调制策略后,对动作进行评估,并给出奖励Rt;(4)根据DQN算法公式更新q*;(5)通过NN去拟合q*,计算损失,并反向调整NN参数。
本发明实施例中,当得到负奖励RBN=-300或者正奖励RP=600时,调制策略设计过程一轮运行结束,此时再从调制策略初始状态X0重新开始下一轮。
当训练次数达到最大值mmax(即400000),或者找到可行的调制策略次数达到400次,认为训练完成。
本发明实施例中,当端口电压Vi=20V,Vb=30V,Vo=24V时,对深度神经网络进行训练,大概10分钟便可训练成功,训练完成的深度神经网络自动生成的调制策略如图5(a)所示。
当端口电压改为Vi=33V,Vb=37V,Vo=24V时,需要对深度神经网络重新训练,重新训练成功的深度神经网络自动生成的调制策略如图5(b)所示。
将生成的调制策略用于实际的SIBP变换器控制,当端口电压Vi=20V,Vb=30V,Vo=24V时,使用图5(a)所示的调制策略,电感电流仿真波形和实验波形如图6(a)所示,其中,左侧为驱动信号和电感电流仿真波形,右侧为电感电流实验波形。当端口电压Vi=33V,Vb=37V,Vo=24V时,使用图5(b)所示的调制策略,电感电流仿真波形和实验波形如图6(b)所示。电感电流实验波形和仿真波形基本一致,可以验证本文所提基于强化学习的DC-DC变换器的调制策略设计方法的可行性和可靠性。
本发明的DC-DC变换器的调制策略设计方法,将调制策略设计看作是对变换器开关模态排列组合并分配占空比的过程。将DC-DC变换器在不同运行工况下的调制策略(电路开关模态及每种电路开关模态对应的占空比)作为状态向量X输入至智能体,智能体的输出用于表征选择每种电路开关模态及对应占空比以获得最优调制策略的可能性,使用深度强化学习高效搜索开关模态与占空比的组合,从而自动生成在该电压工况下的最优调制策略,避免复杂的人工设计,提高设计效率。
在智能体的训练过程中,将电路设计规则和设计需求转换为强化学习的奖励,满足不同的指标给予不同的奖励,正奖励用来训练深度神经网络在之后遇到相同输入时增加对应动作的可能性;负奖励用来训练深度神经网络在之后遇到相同输入时减少对应动作的可能性,促使深度神经网络自动探索和学习出能够最大化奖励的调制策略。
采用DQN算法训练深度神经网络,将调制策略设计问题转换为寻找最大奖励之和的强化学习问题,采用强化学习在动作空间中不断探索,并在试错过程中不断学习经验,最终高效寻找到最优解,无需人工干预,即可生成不同运行工况下的最优调制策略,自适应能力强,节省了存储空间。
本发明还提供了一种基于强化学习的DC-DC变换器的调制策略设计系统,包括计算机可读存储介质和处理器;计算机可读存储介质用于存储可执行指令;处理器用于读取计算机可读存储介质中存储的可执行指令执行上述实施例中的基于强化学习的DC-DC变换器的调制策略设计方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中的基于强化学习的DC-DC变换器的调制策略设计方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的DC-DC变换器的调制策略设计方法,其特征在于,包括:
S1、构建一个深度神经网络作为智能体,智能体的输入为DC-DC变换器的状态向量X,输出为智能体动作空间中所有可能动作的质量向量Q;其中,所述状态向量X包括DC-DC变换器各端口电压值V、电路开关模态及对应的占空比,初始状态向量X0={V};所述智能体动作空间为所有电路开关模态及对应的占空比的组合;所述质量向量Q用于表征选择每个动作以获得最优调制策略的可能性;
S2、将第t步的状态向量Xt输入智能体,得到对应动作的质量向量Qt;并根据所述质量向量Qt,从动作空间中选择一个动作at,得到第t+1步的状态向量Xt+1;对所述状态向量Xt+1评估后,得到奖励值Rt;其中,t=0,1,2…T,T表示一个开关周期内允许包含的开关模态数量上限;
S3、重复S2,使智能体运行一轮,得到至多T组Xt、at、Rt及Xt+1
S4、利用所述至多T组Xt、at、Rt及Xt+1,采用强化学习算法对智能体进行一轮训练和学习,以更新智能体的权重和偏置;
S5、重复S2-S4,直至达到预设训练轮次或智能体的损失收敛,并将训练完成的智能体用于实际DC-DC变换器的调制策略设计。
2.根据权利要求1所述的方法,其特征在于,S2中,对所述状态向量Xt+1评估后,得到奖励值Rt,包括:
用所述状态向量Xt+1对应的调制策略控制DC-DC变换器,判断DC-DC变换器的控制结果是否都满足第一指标和第二指标;
若满足,则奖励值Rt为正数,且停止本轮学习;
若只满足第一指标,则奖励值Rt为负数RSN,且继续本轮次学习;
若第一指标中有指标不满足,则奖励值Rt为负数RBN,且停止本轮学习,进行下一轮学习;其中,负数RSN大于负数RBN
所述第一指标包括以下至少一种:
一个开关周期内开关模态数量小于等于T;
占空比之和满足电路的物理约束;
每个端口的功率值满足约束;
所述第二指标为:DC-DC变换器可以稳定工作。
3.根据权利要求2所述的方法,其特征在于,所述第一指标还包括以下至少一种:
电流纹波满足约束;
DC-DC变换器的效率满足约束;
半导体元件的损耗满足约束。
4.根据权利要求1所述的方法,其特征在于,S2中,根据所述质量向量Qt,采用动作选择算法,从动作空间中选择一个动作at
5.根据权利要求4所述的方法,其特征在于,所述动作选择算法采用ε-greedy算法,以一定概率ε选择所述质量向量Qt中最大元素值对应的动作,以概率1-ε从动作空间随机选择动作,得到所述动作at
6.根据权利要求1所述的方法,其特征在于,训练过程中,智能体的损失函数Loss为:
式中,qk为所述质量向量Qt中的第k个元素值,为采用DQN算法计算得到的目标值,/>的计算公式为:
式中,Rt表示每步动作后得到的奖励,γ表示影响因子,max(·)表示选择最大元素,表示深度神经网络,/>表示智能体的权重和偏置参数。
7.根据权利要求1所述的方法,其特征在于,S5中,将训练完成的智能体用于实际DC-DC变换器的调制策略设计,包括:
将DC-DC变换器实际运行工况输入至训练完成的智能体中,其中,所述实际运行工况为DC-DC变换器各端口电压;
智能体每走一步,输出对应的质量向量Qt;根据所述质量向量Qt选择出相应的动作at,所述动作at表示质量向量Qt中第at个元素对应的开关模态和占空比;
智能体执行一轮,获得一个开关周期内对应的至多T组开关模态和占空比,所述至多T组开关模态和占空比构成可用的调制策略。
8.根据权利要求1所述的方法,其特征在于,S5中,所述智能体的损失收敛是指所述智能体生成可用的调制策略的次数达到设定的阈值。
9.一种基于强化学习的DC-DC变换器的调制策略设计系统,其特征在于,包括计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令执行权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8任一项所述的方法。
CN202311131261.2A 2023-09-04 2023-09-04 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统 Pending CN117318480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311131261.2A CN117318480A (zh) 2023-09-04 2023-09-04 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311131261.2A CN117318480A (zh) 2023-09-04 2023-09-04 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统

Publications (1)

Publication Number Publication Date
CN117318480A true CN117318480A (zh) 2023-12-29

Family

ID=89245318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311131261.2A Pending CN117318480A (zh) 2023-09-04 2023-09-04 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统

Country Status (1)

Country Link
CN (1) CN117318480A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117767778A (zh) * 2024-02-22 2024-03-26 中国人民解放军空军预警学院 一种自适应的逆变器智能控制方法及系统
CN117997152A (zh) * 2024-04-03 2024-05-07 深圳市德兰明海新能源股份有限公司 基于强化学习的模块化多电平变流器的底层控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117767778A (zh) * 2024-02-22 2024-03-26 中国人民解放军空军预警学院 一种自适应的逆变器智能控制方法及系统
CN117767778B (zh) * 2024-02-22 2024-05-28 中国人民解放军空军预警学院 一种自适应的逆变器智能控制方法及系统
CN117997152A (zh) * 2024-04-03 2024-05-07 深圳市德兰明海新能源股份有限公司 基于强化学习的模块化多电平变流器的底层控制方法
CN117997152B (zh) * 2024-04-03 2024-06-07 深圳市德兰明海新能源股份有限公司 基于强化学习的模块化多电平变流器的底层控制方法

Similar Documents

Publication Publication Date Title
CN117318480A (zh) 一种基于强化学习的dc-dc变换器的调制策略设计方法及系统
Liu et al. Resource-aware distributed differential evolution for training expensive neural-network-based controller in power electronic circuit
Ranjani et al. Optimal fuzzy controller parameters using PSO for speed control of Quasi-Z Source DC/DC converter fed drive
CN110395142A (zh) 一种自适应模糊神经网络电池均衡控制方法及其控制系统
Ngoc Nguyen et al. Neuro‐fuzzy controller for battery equalisation in serially connected lithium battery pack
CN112381146A (zh) 虚拟电厂下的分布式资源自组织聚合与协同控制方法
CN115409431A (zh) 一种基于神经网络的分布式电力资源调度方法
Chen et al. A nonisolated single-inductor multiport DC–DC topology deduction method based on reinforcement learning
Dong et al. Topology derivation of multiport DC–DC converters based on reinforcement learning
CN118174355A (zh) 一种微电网能量优化调度方法
CN114741834A (zh) 基于时空展开网络流的综合能源能量流优化方法和装置
Wu et al. Research on multilayer fast equalization strategy of Li-ion battery based on adaptive neural fuzzy inference system
Shi et al. A reinforcement learning-based online-training AI controller for DC-DC switching converters
Mufa’ary et al. Comparison of FLC and ANFIS Methods to Keep Constant Power Based on Zeta Converter
CN112564189A (zh) 一种有功无功协调优化控制方法
Mohammedi et al. Passivity based control and fuzzy logic estimation applied to dc hybrid power source using fuel cell and supercapacitor
CN116362504A (zh) 电热联合能源系统优化调度方法、终端设备及存储介质
Jung et al. Reinforcement Learning Based Modulation for Balancing Capacitor Voltage and Thermal Stress to Enhance Current Capability of MMCs
Dupont et al. Multiple controllers for boost converters under large load range: A GA and fuzzy logic based approach
Okafor et al. Photovoltaic System MPPT Evaluation Using Classical, Meta-Heuristics, and Reinforcement Learning-Based Controllers: A Comparative Study
CN117997152B (zh) 基于强化学习的模块化多电平变流器的底层控制方法
Ranjbaran et al. Exploring the Effectiveness of Different State Spaces and Reward Functions in Reinforcement Learning-based Control of a DC/DC Buck Converter
Shahnooshi et al. Reinforcement Learning-based Control of a Buck Converter: A Comparative Study of DQN and DDPG Algorithms
Jiang et al. Active Balancing of Reconfigurable Batteries Using Reinforcement Learning Algorithms
CN110912167A (zh) 一种混合储能系统改进解耦控制的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination