CN112086958B - 一种基于多步回溯强化学习算法的输电网扩展规划方法 - Google Patents

一种基于多步回溯强化学习算法的输电网扩展规划方法 Download PDF

Info

Publication number
CN112086958B
CN112086958B CN202010746660.XA CN202010746660A CN112086958B CN 112086958 B CN112086958 B CN 112086958B CN 202010746660 A CN202010746660 A CN 202010746660A CN 112086958 B CN112086958 B CN 112086958B
Authority
CN
China
Prior art keywords
agent
line
planning
power
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010746660.XA
Other languages
English (en)
Other versions
CN112086958A (zh
Inventor
魏明奎
蔡绍荣
路亮
王渝红
江栗
胡胜杰
沈力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Branch of State Grid Corp
Original Assignee
Southwest Branch of State Grid Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Branch of State Grid Corp filed Critical Southwest Branch of State Grid Corp
Priority to CN202010746660.XA priority Critical patent/CN112086958B/zh
Publication of CN112086958A publication Critical patent/CN112086958A/zh
Application granted granted Critical
Publication of CN112086958B publication Critical patent/CN112086958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • H02J3/144Demand-response operation of the power transmission or distribution network
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • Y02B70/3225Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/222Demand response systems, e.g. load shedding, peak shaving

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于多步回溯强化学习算法的输电网扩展规划方法,属于电网规划技术领域,本发明包括以下步骤:步骤1:建立输电网扩展规划优化模型;步骤2:基于构建的规划模型构建电网交互环境和智能体状态、动作、知识矩阵、资格迹矩阵,并给出基于行为分类的智能体动作策略;步骤3:设定自适应学习因子α,基于学习进程修正Q值计算方法,并设计阶段反馈奖励函数,构建多步回溯α‑Q(λ)算法;步骤4:根据步骤3构建的多步回溯α‑Q(λ)算法求解输电网多目标优化规划模型,得到最优输电网扩展规划方案及智能体规划经验,为电网规划提供新的思路。

Description

一种基于多步回溯强化学习算法的输电网扩展规划方法
技术领域
本发明属于电网规划技术领域,特别涉及一种基于多步回溯强化学习算法的输电网扩展规划方法。
背景技术
输电网扩展规划是确定在什么时间、什么地方、建设什么类型和容量的输变电工程;随着我国电网不断建设,我国已经进入大电网时代,电网规模的增大导致输电网扩展规划问题愈发难以求解。
现阶段,输电网扩展规划问题的常用求解方法分为数学优化方法和启发式算法两类;其中数学优化方法将非线性的优化模型转化线性化进行求解,常用方法为整数规划、线性规划等;数学优化方法理论上来说能得到最优解,但模型线性化后的最优解可能失真,且电网互联背景下,数学优化方法存在计算量大、求解困难等问题,难以服务于工程实际;启发式算法是近代以来新兴的一类算法,是通过模拟自然界中的一些现象的求解方法,常用方法有粒子群算法、遗传算法、蚂蚁算法等;启发式算法的计算模式贴近人的思考模式,易于理解,但由于收敛性问题,一般能得到几组局部最优解,难以给出全局最优解。
随着电网规模的不断扩大和电力系统复杂程度的不断加深,数学优化方法和启发式算法愈发难以满足输电网扩展规划问题求解,因此,需在当前理论的基础上,引入新方法,适应电网互联背景下的输电网扩展规划问题求解。
发明内容
本发明的目的在于:针对上述存在的问题,提供一种基于多步回溯强化学习算法的输电网扩展规划方法;应用多步回溯思想,构建α-Q(λ)算法求解输电网扩展规划优化模型,提出以资格迹矩阵记录并分析智能体行为,利用智能体在学习过程中所捕获的环境特征,得到最优规划方案的同时获取智能体规划经验,以机器学习视角为电力系统规划提供经验。
本发明采用的技术方案如下:一种基于多步回溯强化学习算法的输电网扩展规划方法,包括以下步骤:
步骤1:建立输电网扩展规划优化模型,包括目标函数、约束条件,其中,目标函数包含线路建设成本、发电机运行成本、电网维护成本、网损成本以及期望缺供电惩罚成本,约束条件包含N-1电网安全约束、电网运行约束;
步骤2:基于构建的规划模型构建电网交互环境和智能体状态、动作、知识矩阵、资格迹矩阵,并给出基于行为分类的智能体动作策略;
步骤3:设定自适应学习因子α,基于学习进程修正Q值计算方法,并设计阶段反馈奖励函数,构建多步回溯α-Q(λ)算法;
步骤4:根据步骤3构建的多步回溯α-Q(λ)算法求解输电网多目标优化规划模型,得到最优输电网扩展规划方案及智能体规划经验。
可选的,步骤1所述的目标函数表达式为:
Figure GDA0003356661990000021
式(1)中,Cf为综合经济成本;ρa为线路资金年回收系数;τ={τ12,…,τn}表示为由n条输电线路组成的线路待选集;τk为第k条待选输电线路;ρm为输电线路并联回路建设系数;
Figure GDA0003356661990000022
为输电线路τk投建一回的成本;ρbi、Pgi为发电机i的运行费用系数与有功出力,GN为发电机集合;ρc为年网损费用系数;τY为系统原有线路集合;
Figure GDA0003356661990000023
为线路的电阻,
Figure GDA0003356661990000024
为线路潮流值;ρdi为第i个负荷节点的缺电惩罚成本,DN为负荷节点集合;
Figure GDA0003356661990000025
为负荷i的期望缺供电量;其中,ρa由公式ρa=z(1+z)B/[(1+z)B-1]计算得出,B为线路的期望运行寿命年限,z为资金折现率,本申请中分别取B=10,z=10%;τk为取值区间为
Figure GDA0003356661990000026
的整数,表示第k条输电线路的并联回路数,
Figure GDA0003356661990000027
为并联回路数上限。
可选的,步骤1所述的约束条件包括N-1电网安全约束、电网运行约束,所述N-1电网安全约束指电力系统中任一元件因故障退出运行后,不引起其他线路过负荷或电网解列;当智能体进入新状态后,将电网所有元件逐一退出运行,检验电网维持正常运行的能力;其表达式为:
Figure GDA0003356661990000028
式(2)表示N-1情况下的线路潮流约束,该约束使得N-1情况下线路不过负荷运行;
所述电网运行约束的表达式为:
Figure GDA0003356661990000029
Figure GDA00033566619900000210
Figure GDA0003356661990000031
Figure GDA0003356661990000039
-π≤θi≤π b∈N (7)
θo=0 (8)
式(3)表示节点功率平衡约束;式(4)为线路潮流约束;式(5)为线路输电能力约束;式(6)为发电机的有出力上下限约束;式(7)为节点相角约束;式(8)为平衡节点相角约束,式中,τk(in)、τk(out)、θk(in)、θk(out)分别表示线路τk潮流流入和流出的节点与对应节点的相角,如图3所示;N为所有节点集合;Pdi表示节点i处的负荷值;
Figure GDA0003356661990000032
为线路τk的电纳值;
Figure GDA0003356661990000033
为线路τk的极限传输容量;
Figure GDA0003356661990000034
P Gi分别为发电机gi的有功出力上、下限;
Figure GDA0003356661990000035
为节点b处负荷最大值;θo表示平衡节点的相角。
可选的,步骤2中所述电网交互环境E包含电网原有网架信息τY,电网运行状态变量υ、电力系统潮流方程以及N-1约束、发电机出力约束等各项电力约束,表达式为:
Figure GDA0003356661990000036
Agent在状态si下获取电网交互环境E信息,根据设定的动作策略选取有效动作并进入下一状态si+1,即完成一次学习过程;
所述智能体状态是智能体通过某种特征表示自身所处状态,从而完成动作决策;在输电网扩展规划中,智能体的主要任务为给出输电网扩展方案,即探索具有最优目标值的最优线路建设集合τ*,定义待选线路集τ的当前建设状态τi为Agent的状态si,即:
Figure GDA0003356661990000037
以线路待选集表征Agent所处状态,能为Agent与环境交互提供基本数据,其一维数组构造也有利于知识矩阵存储与更新;
所述智能体动作为改变某一待选线路建设状态;线路待选集τ中有n条输电线路,而输电线路的建设状态包括“建设”和“取消”,则Agent的动作集合相应包含2n个动作:
Figure GDA0003356661990000038
式(11)中,
Figure GDA0003356661990000041
代表建设一回输电线路1,
Figure GDA0003356661990000042
代表对取消一回输电线路1。
可选的,步骤3所述自适应学习因子α提升智能体的在输电网规划问题中的学习性能表达式为:
Figure GDA0003356661990000043
式(12)中,
Figure GDA0003356661990000044
分别表示状态si、si-1的目标函数值,Cfbest表式智能体的当前最优目标函数值;自适应学习因子α根据目标函数值自适应变化,增强智能体对更优状态的学习速度,提升算法学习能力;
所述阶段反馈奖励函数表达式为:
Figure GDA0003356661990000045
式(13)中,当i=1,即Agent开始首次学习时,
Figure GDA0003356661990000046
为一个较大正值;在输电网扩展规划前期,扩建方案往往难以满足N-1电网安全约束,此时无需对规划方案进行成本分析,因此记每轮学习过程中Agent首次使电网满足N-1电网安全约束的动作次数为μ,i≤μ时,规划方案不满足N-1电网安全约束,属于不可行方案,但由于此时网架并不成熟,此时Agent并不对该动作进行评价,即R=0;i>μ时,若规划方案仍不满足N-1电网安全约束,说明Agent删除线路时误删了重要线路,导致系统不满足N-1电网安全约束,故反馈奖励值为-1,驱使Agent后续避开该动作;若满足N-1电网安全约束,则计算该状态的综合经济成本
Figure GDA0003356661990000047
Figure GDA0003356661990000048
时奖励R>0,环境鼓励Agent向该规划方案探索前进,反之奖励值为负,Agent更倾向于避开该方案,以期避免获得负反馈,可以看出,
Figure GDA0003356661990000049
Figure GDA00033566619900000410
偏离越远,反馈奖励的绝对值越大,能够有效反映Agent动作在当前状态下的优劣;
考虑综合经济成本基于整数型变量求得,并非连续值而是为一系列离散值,故仅以智能体的学习次数i到达给定的上限次数iset作为智能体学习成熟标志,即i≥iset
所述多步回溯α-Q(λ)算法是将多步回报思想引入强化学习理论,并融合自适应学习因子α的一种Q学习算法改进算法,主要表现为智能体通过向前序状态-动作进行回溯更新知识。
相较于现有技术,本发明的有益效果是:
(1)本发明通过构建α-Q(λ)算法求解输电网扩展规划优化模型,通过机器学习视角切入输电网规划问题,创新性的利用资格迹矩阵分析规划求解过程,获取智能体规划经验,提取重要规划线路;
(2)本发明通过设计的自适应因子α和阶段反馈奖励函数,提升了模型的收敛速度,以较少的时间获取最优规划方案。
附图说明
图1为本发明基于强化学习理论的输电网扩展规划方法框图;
图2是本发明算法流程框架图;
图3是本发明ɑ-Q(λ)算法流程图;
图4是本发明Garver-6系统规划结果对比图;
图5是本发明α-Q(λ)和Q(λ)算法的收敛特性曲线图;
图6是本发明电网运行约束线路τk潮流流向图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
输电网扩展规划问题是求解一组满足电网约束条件的最优规划方案,即求解最优的整数型变量组τ*,因此,可将输电网扩展规划过程类比为强化学习中智能体实现自身最优状态的动作过程;基于强化学习理论,将智能体比作规划人员,并根据规划模型设计对应的智能体状态和动作,构建反映实际电网结构的算法环境,以智能体在环境中的交互探索模拟规划人员的规划过程,能有效求解输电网扩展规划模型。
如图1-6所示,以Garver-6系统为例进行计算分析;Garver-6系统包含6个节点和15条可扩建的输电线路,每条输电线路可建最多4回线路(不计及原有线路),线路造价为93200$/miles,发电成本取5$/(MW·h),网损成本取20$/(MW·h),缺电成本取100$/(MW·h),发电机与线路故障率取0.06。
明确输电网扩展规划问题定义,构建输电网扩展规划优化模型;
根据输电网扩展规划特点,分析适用于输电网扩展规划问题求解的强化学习算法;
以规划模型整数型变量构建算法智能体状态、动作、知识矩阵、自适应学习因子等,以约束条件、状态变量等构建算法电网交互环境和奖励函数;
应用强化学习算法,驱动智能体在环境中对电网进行探索交互,得到最优规划方案,并萃取智能体学习过程知识,获取规划经验。
具体实施方案如下:
步骤1:建立输电网扩展规划优化模型,包括目标函数、约束条件,其中,目标函数包含线路建设成本、发电机运行成本、电网维护成本、网损成本以及期望缺供电惩罚成本,约束条件包含N-1电网安全约束、电网运行约束;
所述的目标函数表达式为:
Figure GDA0003356661990000061
式(1)中,Cf为综合经济成本;ρa为线路资金年回收系数;τ={τ12,…,τn}表示为由n条输电线路组成的线路待选集;τk为第k条待选输电线路;ρm为输电线路并联回路建设系数;
Figure GDA0003356661990000062
为输电线路τk投建一回的成本;ρbi、Pgi为发电机i的运行费用系数与有功出力,GN为发电机集合;ρc为年网损费用系数;τY为系统原有线路集合;
Figure GDA0003356661990000063
为线路的电阻,
Figure GDA0003356661990000064
为线路潮流值;ρdi为第i个负荷节点的缺电惩罚成本,DN为负荷节点集合;
Figure GDA0003356661990000065
为负荷i的期望缺供电量。其中,ρa由公式ρa=z(1+z)B/[(1+z)B-1]计算得出,B为线路的期望运行寿命年限,z为资金折现率,本申请中分别取B=10,z=10%;τk为取值区间为
Figure GDA0003356661990000066
的整数,表示第k条输电线路的并联回路数,
Figure GDA0003356661990000067
为并联回路数上限。
所述约束条件包括N-1电网安全约束、电网运行约束;
所述N-1电网安全约束指电力系统中任一元件因故障退出运行后,不引起其他线路过负荷或电网解列;当智能体进入新状态后,将电网所有元件逐一退出运行,检验电网维持正常运行的能力;其表达式为:
Figure GDA0003356661990000071
式(2)表示N-1情况下的线路潮流约束,该约束使得N-1情况下线路不过负荷运行;
所述电网运行约束的表达式为:
Figure GDA0003356661990000072
Figure GDA0003356661990000073
Figure GDA0003356661990000074
Figure GDA0003356661990000075
-π≤θi≤π b∈N (7)
θo=0 (8)
式(3)表示节点功率平衡约束;式(4)为线路潮流约束;式(5)为线路输电能力约束;式(6)为发电机的有出力上下限约束;式(7)为节点相角约束;式(8)为平衡节点相角约束,式中,τk(in)、τk(out)、θk(in)、θk(out)分别表示线路τk潮流流入和流出的节点与对应节点的相角,如图3所示;N为所有节点集合;Pdi表示节点i处的负荷值;
Figure GDA0003356661990000076
为线路τk的电纳值;
Figure GDA0003356661990000077
为线路τk的极限传输容量;
Figure GDA0003356661990000078
P Gi分别为发电机gi的有功出力上、下限;
Figure GDA0003356661990000079
为节点b处负荷最大值;θo表示平衡节点的相角。
步骤2:基于构建的规划模型构建电网交互环境和智能体状态、动作、知识矩阵、资格迹矩阵,并给出基于行为分类的智能体动作策略;
所述电网交互环境E包含电网原有网架信息τY,电网运行状态变量υ、电力系统潮流方程以及N-1约束、发电机出力约束等各项电力约束,表达式为:
Figure GDA00033566619900000710
Agent在状态si下获取电网交互环境E信息,根据设定的动作策略选取有效动作并进入下一状态si+1,即完成一次学习过程;
所述智能体状态是智能体通过某种特征表示自身所处状态,从而完成动作决策;在输电网扩展规划中,智能体的主要任务为给出输电网扩展方案,即探索具有最优目标值的最优线路建设集合τ*,定义待选线路集τ的当前建设状态τi为Agent的状态si,即:
Figure GDA0003356661990000081
以线路待选集表征Agent所处状态,能为Agent与环境交互提供基本数据,其一维数组构造也有利于知识矩阵存储与更新;
所述智能体动作为改变某一待选线路建设状态;线路待选集τ中有n条输电线路,而输电线路的建设状态包括“建设”和“取消”,则Agent的动作集合相应包含2n个动作:
Figure GDA0003356661990000082
式(11)中,
Figure GDA0003356661990000083
代表建设一回输电线路1,
Figure GDA0003356661990000084
代表对取消一回输电线路1;
输电线路的扩展建设有以下两个特点:一是输电线路依次增加,Agent一次动作只选择一条线路执行一次“建设”或“取消”,二是可以通过新建站点分析基本确定需新建线路数量nx。根据这两个特点,需要在Agent选择动作前,选择动作集合中的n个可行动作形成可行动作集
Figure GDA0003356661990000085
引入分段概率因子f(n),定义A中的动作如下:
Figure GDA0003356661990000086
Figure GDA0003356661990000087
式(14)、(15)中,Agent的第k个可行动作定义为改变线路lki的建设状态;
Figure GDA0003356661990000088
分别表示Agent在状态si下的分段概率因子和已扩展线路数量。上式给出了可行动作的具体定义,即根据分段概率因子
Figure GDA0003356661990000089
改变动作执行方式。当随机数
Figure GDA00033566619900000810
时,Agent会选择一条线路回数未达建设数量上限的输电线路扩建一回线路,反之,Agent则会在已有线路中取消一回线路。
Figure GDA00033566619900000811
则用于确定上述动作选择的概率,
Figure GDA00033566619900000812
时,
Figure GDA00033566619900000813
Agent倾向于继续扩建线路,反之,Agent则倾向于取消已有线路。该动作处理方法将线路“建设”和“取消”两个状态动态的结合到一起,防止智能体选取无实际意义的无效动作,提升智能体动作选择的效率;
Q学习算法中,智能体更新知识仅考虑未来累积奖励Gi
Figure GDA0003356661990000091
式(16)中,γ为奖励折现率,Ri为第i个动作所获得的奖励。累积奖励值Gi将后续状态获取的奖励折算至当前状态,获取奖励时的状态离当前状态越远,其对当前动作选取的影响越小;
因此,Q学习算法的“状态-动作”值函数Q(si,ai)更新方式为:
Figure GDA0003356661990000092
式(17)中,si、si+1分别为智能体的当前状态和下一状态,ai为智能体在si下所采取的动作,而ai+1为si+1中具由最大值函数的动作。故智能体的动作策略πQ(si)为选择具有最高值函数的动作,即贪心策略:
Figure GDA0003356661990000093
将各状态-动作值函数联立起来,即组成Q(λ)算法的知识矩阵:
Figure GDA0003356661990000094
式(19)中,智能体的知识矩阵Q包含智能体各状态与动作之间的关系,矩阵元素Q(si,ai J)表示智能体在状态si下采取动作aj J的价值,其由电网建设状态与线路建设之间的定量关系构成,包含电网规划过程的知识与经验;
与Q学习算法仅用单步更新不同,Q(λ)算法通过记录智能体的过去状态和动作,引入资格迹来获取智能体行为的频度和逐新度两种启发信息,反映过去多步状态与动作对后续决策的影响,资格迹主要用于解决延时强化学习的时间信度分配问题,其以矩阵形式对智能体过去所访问的状态-动作轨迹进行临时存储,其信息有效性按时效性进行(γλ)k指数倍衰减,引入λ参数和资格迹矩阵EGi(s,a):
Figure GDA0003356661990000095
Figure GDA0003356661990000101
式(20)、(21)中,Ixy是迹特征函数;λ参数为迹衰退系数,对于任何智能体状态-动作,资格迹都会按照时效性进行指数(γλ)k衰减,因此λ越大,则智能体能回溯到过去更远的信息,一般取值0.9~0.99,本申请λ取值0.95。
资格迹矩阵EG大小与知识矩阵Q相同:
Figure GDA0003356661990000102
智能体完成学习后,通过观察资格迹矩阵可知,某状态-动作对应的资格迹越高,说明该状态-动作对智能体探索最优线路建设集合影响越大。通过资格迹矩阵能萃取线路“重要程度”知识;
设Qi为知识矩阵Q的第i次迭代值,则Q(λ)算法值函数迭代更新公式如下:
Qi+1(s,a)=Qi(s,a)+α0δiEGi(s,a) (23)
Figure GDA0003356661990000103
式(23)、(24)中,α0为学习因子,α0越大,算法学习速度越快;
步骤3:设定自适应学习因子α,基于学习进程修正Q值计算方法,并设计阶段反馈奖励函数,构建多步回溯α-Q(λ)算法;
固定的学习因子使智能体对所有线路一视同仁,削弱了智能体对重要线路的判断能力,针对该问题,本申请提出自适应学习因子α提升智能体的在输电网规划问题中的学习性能:
所述自适应学习因子α提升智能体的在输电网规划问题中的学习性能,表达式为:
Figure GDA0003356661990000104
式(12)中,
Figure GDA0003356661990000105
分别表示状态si、si-1的目标函数值,Cfbest表式智能体的当前最优目标函数值;自适应学习因子α根据目标函数值自适应变化,增强智能体对更优状态的学习速度,提升算法学习能力;
所述阶段反馈奖励函数表达式为:
Figure GDA0003356661990000111
式(13)中,当i=1,即Agent开始首次学习时,
Figure GDA0003356661990000112
为一个较大正值;在输电网扩展规划前期,扩建方案往往难以满足N-1电网安全约束,此时无需对规划方案进行成本分析,因此记每轮学习过程中Agent首次使电网满足N-1电网安全约束的动作次数为μ,i≤μ时,规划方案不满足N-1电网安全约束,属于不可行方案,但由于此时网架并不成熟,此时Agent并不对该动作进行评价,即R=0;i>μ时,若规划方案仍不满足N-1电网安全约束,说明Agent删除线路时误删了重要线路,导致系统不满足N-1电网安全约束,故反馈奖励值为-1,驱使Agent后续避开该动作;若满足N-1电网安全约束,则计算该状态的综合经济成本
Figure GDA0003356661990000113
Figure GDA0003356661990000114
时奖励R>0,环境鼓励Agent向该规划方案探索前进,反之奖励值为负,Agent更倾向于避开该方案,以期避免获得负反馈,可以看出,
Figure GDA0003356661990000115
Figure GDA0003356661990000116
偏离越远,反馈奖励的绝对值越大,能够有效反映Agent动作在当前状态下的优劣;
考虑综合经济成本基于整数型变量求得,并非连续值而是为一系列离散值,故仅以智能体的学习次数i到达给定的上限次数iset作为智能体学习成熟标志,即i≥iset
所述多步回溯α-Q(λ)算法是将多步回报思想引入强化学习理论,并融合自适应学习因子α的一种Q学习算法改进算法,主要表现为智能体通过向前序状态-动作进行回溯更新知识。
步骤4:根据步骤3构建的多步回溯α-Q(λ)算法求解输电网多目标优化规划模型,得到最优输电网扩展规划方案及智能体规划经验;
将本发明计算所得的输电网扩展规划方案与方法二、方法三规划结果进行对比,如表1所示;
表1不同方法规划结果对比
表1 Garver-6系统规划结果对比
Table 1Planning results compar ison of Garver-6 system
Figure GDA0003356661990000117
Figure GDA0003356661990000121
注:α-Q(λ)算法规划结果新建线路:2-6(4);3-5(2);4-6(3);5-6(1);
Q学习算法规划结果新建线路:1-5(1);2-6(4);3-5(2);4-6(3);
人工鱼群算法规划结果新建线路:2-6(4);3-5(2);4-6(3)。
表1中,2-6(4)表示建设4回连接节点2和节点4的输电线路,根据上表对比可知,本申请所提的α-Q(λ)算法求解的规划结果与其他方法求解结果相似,主要区别在于线路1-5、4-6、5-6的线路建设回路不同,规划结果对比如图4所示,对比Q学习算法,本申请规划结果少建设了一回1-5线路,但多建设了一回5-6输电线路,尽管线路5-6投资成本为线路1-5投资成本的3倍,投资成本高出0.622M$,但线路5-6的建设使大量电能从直接节点6输送至节点5,改善了网内潮流情况,降低了运行成本0.780M$和缺电成本0.010M$,提升了电网运行的经济性;对比人工鱼群规划结果,本申请规划结果多建设了一回5-6输电线路,投资成本增加了0.925M$,在降低电网运行成本的同时,还使缺电成本降低了0.45M$,提升了电网运行的经济性和可靠性;上述结果说明了本申请所提算法能够有效求解在输电网扩展规划问题。
截取部分资格迹矩阵EG如表2所示:
表2 Garver-6系统资格迹矩阵EG
Table 2Qualification trace matrix of Garver-6 system
Figure GDA0003356661990000122
Figure GDA0003356661990000131
上表中,动作1-2J表示选取新建1回连接节点1和节点2的输电线路,动作4-6D表示取消已新建的连接节点4和节点6的1回线路。观察α-Q(λ)算法的资格迹矩阵,可以看到在多个状态下,动作2-6J、3-5J、、5-6J被多次选择,而动作1-2J仅被少数次选择,而动作4-6D仅在状态[2-6(4),3-5(2),4-6(3)]下有较多的选择次数,以状态[2-6(3),3-5(2),5-6(1)]为例对资格迹矩阵数据进行分析;动作1-2、3-5的资格迹为0.001,表明智能体在该状态下某次选择线路1-2后,判断线路1-2不属于最优动作,后续探索中不再选择建设线路1-2,经多次衰减后,其值降至0.001;线路2-6、4-6的资格迹分别为0.274和0.521,表明智能体在此状态下多次选择该动作,即该线路为智能体学习到的重要线路;根据多个状态下的资格迹可知,线路2-6、3-5、4-6、5-6均为Garver-6扩展规划模型中的重要待选线路;进一步分析,各动作其在不同状态下的资格迹不同,说明线路的重要程度是相对具体扩展规划情况而言的,例如,状态[2-6(2),3-5(2),4-6(1)]中,建设线路2-6要比建设线路3-5或5-6更为重要,而在状态[2-6(4),3-5(2),4-6(3)]中,建设线路5-6就显得非常重要,而线路5-6的重要性也印证了上节规划结果;经上述分析可知,α-Q(λ)算法能提供可解释性的“规划经验”,凸显重要线路。
实施例表明,本发明所提基于多步回溯强化学习算法的输电网扩展规划方法不仅能够准确给出满足规划目标的规划方案,通过分析资格迹矩阵,还能学习智能体的规划经验,获取规划过程中重要线路知识,帮助电网规划人员选择安全可靠、经济合理的规划方案。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (3)

1.一种基于多步回溯强化学习算法的输电网扩展规划方法,其特征在于,包括以下步骤:
步骤1:建立输电网扩展规划优化模型,包括目标函数、约束条件;
步骤2:基于构建的规划模型构建电网交互环境和智能体状态、动作、知识矩阵、资格迹矩阵,并给出基于行为分类的智能体动作策略;所述电网交互环境E包含电网原有网架信息τY,电网运行状态变量υ、电力系统潮流方程以及N-1约束、发电机出力约束各项电力约束,表达式为:
Figure FDA0003356661980000011
Agent在状态si下获取电网交互环境E信息,根据设定的动作策略选取有效动作并进入下一状态si+1,即完成一次学习过程;
所述智能体状态是智能体通过某种特征表示自身所处状态,从而完成动作决策;在输电网扩展规划中,智能体的主要任务为给出输电网扩展方案,即探索具有最优目标值的最优线路建设集合τ*,定义待选线路集τ的当前建设状态τi为Agent的状态si,即:
Figure FDA0003356661980000012
以线路待选集表征Agent所处状态,能为Agent与环境交互提供基本数据,其一维数组构造也有利于知识矩阵存储与更新;
所述智能体动作为改变某一待选线路建设状态;线路待选集τ中有n条输电线路,而输电线路的建设状态包括“建设”和“取消”,则Agent的动作集合相应包含2n个动作:
Figure FDA0003356661980000013
式(11)中,
Figure FDA0003356661980000014
代表建设一回输电线路1,
Figure FDA0003356661980000015
代表对取消一回输电线路1;
步骤3:设定自适应学习因子α,基于学习进程修正Q值计算方法,并设计阶段反馈奖励函数,构建多步回溯α-Q(λ)算法;所述自适应学习因子α提升智能体的在输电网规划问题中的学习性能,表达式为:
Figure FDA0003356661980000016
式(12)中,
Figure FDA0003356661980000017
分别表示状态si、si-1的目标函数值,
Figure FDA0003356661980000018
表式智能体的当前最优目标函数值;自适应学习因子α根据目标函数值自适应变化,增强智能体对更优状态的学习速度,提升算法学习能力;
所述阶段反馈奖励函数表达式为:
Figure FDA0003356661980000021
式(13)中,当i=1,即Agent开始首次学习时,
Figure FDA0003356661980000022
为一个较大正值;在输电网扩展规划前期,扩建方案难以满足N-1电网安全约束,此时无需对规划方案进行成本分析,因此记每轮学习过程中Agent首次使电网满足N-1电网安全约束的动作次数为μ,i≤μ时,规划方案不满足N-1电网安全约束,属于不可行方案,但由于此时网架并不成熟,此时Agent并不对该动作进行评价,即R=0;i>μ时,若规划方案仍不满足N-1电网安全约束,说明Agent删除线路时误删了重要线路,导致系统不满足N-1电网安全约束,故反馈奖励值为-1,驱使Agent后续避开该动作;若满足N-1电网安全约束,则计算该状态的综合经济成本
Figure FDA0003356661980000023
Figure FDA0003356661980000024
时奖励R>0,环境鼓励Agent向该规划方案探索前进,反之奖励值为负,Agent避开该方案,以期避免获得负反馈,可以看出,
Figure FDA0003356661980000025
Figure FDA0003356661980000026
偏离越远,反馈奖励的绝对值越大,能够有效反映Agent动作在当前状态下的优劣;
所述多步回溯α-Q(λ)算法是将多步回报思想引入强化学习理论,并融合自适应学习因子α的一种Q学习算法改进算法,主要表现为智能体通过向前序状态-动作进行回溯更新知识;
步骤4:根据步骤3构建的多步回溯α-Q(λ)算法求解输电网多目标优化规划模型,得到最优输电网扩展规划方案及智能体规划经验。
2.根据权利要求1所述的一种基于多步回溯强化学习算法的输电网扩展规划方法,其特征在于,步骤1所述目标函数包含线路建设成本、发电机运行成本、电网维护成本、网损成本以及期望缺供电惩罚成本,所述目标函数表达式为:
Figure FDA0003356661980000027
式(1)中,Cf为综合经济成本;ρa为线路资金年回收系数;τ={τ12,…,τn}表示为由n条输电线路组成的线路待选集;τk为第k条待选输电线路;ρm为输电线路并联回路建设系数;
Figure FDA0003356661980000031
为输电线路τk投建一回的成本;ρbi、Pgi为发电机i的运行费用系数与有功出力,GN为发电机集合;ρc为年网损费用系数;τY为系统原有线路集合;
Figure FDA0003356661980000032
为线路的电阻,
Figure FDA0003356661980000033
为线路潮流值;ρdi为第i个负荷节点的缺电惩罚成本,DN为负荷节点集合;
Figure FDA0003356661980000034
为负荷i的期望缺供电量;其中,ρa由公式ρa=z(1+z)B/[(1+z)B-1]计算得出,B为线路的期望运行寿命年限,z为资金折现率,本申请中分别取B=10,z=10%;τk为取值区间为
Figure FDA0003356661980000035
的整数,表示第k条输电线路的并联回路数,
Figure FDA0003356661980000036
为并联回路数上限。
3.根据权利要求1所述的一种基于多步回溯强化学习算法的输电网扩展规划方法,其特征在于,步骤1所述约束条件包括N-1电网安全约束、电网运行约束,所述N-1电网安全约束指电力系统中任一元件因故障退出运行后,不引起其他线路过负荷或电网解列;当智能体进入新状态后,将电网所有元件逐一退出运行,检验电网维持正常运行的能力;其表达式为:
Figure FDA0003356661980000037
式(2)表示N-1情况下的线路潮流约束,该约束使得N-1情况下线路不过负荷运行;
所述电网运行约束的表达式为:
Figure FDA0003356661980000038
Figure FDA0003356661980000039
Figure FDA00033566619800000310
Figure FDA00033566619800000311
-π≤θi≤π b∈N (7)
θo=0 (8)
式(3)表示节点功率平衡约束;式(4)为线路潮流约束;式(5)为线路输电能力约束;式(6)为发电机的有出力上下限约束;式(7)为节点相角约束;式(8)为平衡节点相角约束,式中,τk(in)、τk(out)、θk(in)、θk(out)分别表示线路τk潮流流入和流出的节点与对应节点的相角,N为所有节点集合;Pdi表示节点i处的负荷值;
Figure FDA0003356661980000041
为线路τk的电纳值;
Figure FDA0003356661980000042
为线路τk的极限传输容量;
Figure FDA0003356661980000043
P Gi分别为发电机gi的有功出力上、下限;
Figure FDA0003356661980000044
为节点b处负荷最大值;θo表示平衡节点的相角。
CN202010746660.XA 2020-07-29 2020-07-29 一种基于多步回溯强化学习算法的输电网扩展规划方法 Active CN112086958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746660.XA CN112086958B (zh) 2020-07-29 2020-07-29 一种基于多步回溯强化学习算法的输电网扩展规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746660.XA CN112086958B (zh) 2020-07-29 2020-07-29 一种基于多步回溯强化学习算法的输电网扩展规划方法

Publications (2)

Publication Number Publication Date
CN112086958A CN112086958A (zh) 2020-12-15
CN112086958B true CN112086958B (zh) 2022-02-08

Family

ID=73734762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746660.XA Active CN112086958B (zh) 2020-07-29 2020-07-29 一种基于多步回溯强化学习算法的输电网扩展规划方法

Country Status (1)

Country Link
CN (1) CN112086958B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112701681B (zh) * 2020-12-22 2023-01-24 广东电网有限责任公司电力调度控制中心 一种基于强化学习的电网偶发故障安全调控策略生成方法
CN112560215B (zh) * 2020-12-25 2022-11-11 甘肃电通电力工程设计咨询有限公司 一种基于深度强化学习的电力选线方法
CN112818588B (zh) * 2021-01-08 2023-05-02 南方电网科学研究院有限责任公司 一种电力系统的最优潮流计算方法、装置及存储介质
CN113256011A (zh) * 2021-06-01 2021-08-13 国网安徽省电力有限公司经济技术研究院 基于gis多目标动态规划技术的输电线路智能选线方法
CN113688488B (zh) * 2021-08-17 2023-05-30 南京信息工程大学 基于改进的人工鱼群算法的电网线路规划方法
CN114169117A (zh) * 2021-12-13 2022-03-11 国家电网有限公司 一种基于改进粒子群算法的输电网扩展规划方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116865A (zh) * 2013-03-08 2013-05-22 华北电力大学 一种多维度协同电网规划的方法
CN103839109A (zh) * 2013-10-19 2014-06-04 李涛 一种基于博弈纳什均衡的微网电源规划方法
CN105023056A (zh) * 2015-06-26 2015-11-04 华南理工大学 基于群智能强化学习的电网最优碳能复合流获取方法
CN105305430A (zh) * 2015-11-06 2016-02-03 重庆大学 基于分层控制的光储发电系统电能质量提升方法
CN105913160A (zh) * 2016-05-09 2016-08-31 国网四川省电力公司经济技术研究院 一种基于大规模风电并网的可利用传输能力的计算方法
CN106557985A (zh) * 2016-11-21 2017-04-05 云南大学 一种基于随机游走的社交网络信息传播源求解方法
CN108092267A (zh) * 2018-01-09 2018-05-29 国网河南省电力公司经济技术研究院 一种基于智能体的配电网接入规划系统与方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101212141A (zh) * 2006-12-27 2008-07-02 江苏林洋电子有限公司 基于优化回溯算法的电容投切方法
CN101771277B (zh) * 2009-01-04 2012-07-04 华东电网有限公司 区域电网事故下共享控制区损失分摊及评测的方法
CN106529075B (zh) * 2016-11-28 2019-07-02 西安交通大学 一种考虑分时段的非线性模拟风速方法
CN106779175B (zh) * 2016-11-28 2020-01-21 西安交通大学 一种考虑分时段的非线性光伏出力预测方法
US11303124B2 (en) * 2017-12-18 2022-04-12 Nec Corporation Method and system for demand-response signal assignment in power distribution systems

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116865A (zh) * 2013-03-08 2013-05-22 华北电力大学 一种多维度协同电网规划的方法
CN103839109A (zh) * 2013-10-19 2014-06-04 李涛 一种基于博弈纳什均衡的微网电源规划方法
CN105023056A (zh) * 2015-06-26 2015-11-04 华南理工大学 基于群智能强化学习的电网最优碳能复合流获取方法
CN105305430A (zh) * 2015-11-06 2016-02-03 重庆大学 基于分层控制的光储发电系统电能质量提升方法
CN105913160A (zh) * 2016-05-09 2016-08-31 国网四川省电力公司经济技术研究院 一种基于大规模风电并网的可利用传输能力的计算方法
CN106557985A (zh) * 2016-11-21 2017-04-05 云南大学 一种基于随机游走的社交网络信息传播源求解方法
CN108092267A (zh) * 2018-01-09 2018-05-29 国网河南省电力公司经济技术研究院 一种基于智能体的配电网接入规划系统与方法
CN108964042A (zh) * 2018-07-24 2018-12-07 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Stochastic Optimal Relaxed Automatic Generation Control in Non-Markov Environment Based on Multi-Step Q(λ) Learning;Tao Yu,等;《IEEE TRANSACTIONS ON POWER SYSTEMS》;20110830;第26卷(第3期);第1272-1282页 *
基于多步回溯Q(λ)学习的电网多目标最优碳流算法;张孝顺,等;《电力系统自动化》;20140910;第38卷(第17期);第118-123页 *
基于多步回溯Q(λ)学习算法的多目标最优潮流计算;余涛,等;《华南理工大学学报(自然科学版)》;20101030;第38卷(第10期);第139-145页 *
基于深度Q学习的强鲁棒性智能发电控制器设计;殷林飞,余涛;《电力自动化》;20180531;第38卷(第5期);第12-19页 *

Also Published As

Publication number Publication date
CN112086958A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112086958B (zh) 一种基于多步回溯强化学习算法的输电网扩展规划方法
Pinciroli et al. Optimization of the operation and maintenance of renewable energy systems by deep reinforcement learning
Yang et al. A new short-term load forecasting approach using self-organizing fuzzy ARMAX models
Gomez et al. Ant colony system algorithm for the planning of primary distribution circuits
CN114217524B (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN108596449A (zh) 一种考虑天气对配电网故障概率影响的配电网可靠性预测方法
CN114358520B (zh) 一种电力系统经济调度决策的方法、系统、装置及介质
CN109214565A (zh) 一种适用于大电网分区调度的子区域系统负荷预测方法
CN116207739A (zh) 配电网优化调度方法、装置、计算机设备和存储介质
Almutairi et al. An intelligent deep learning based prediction model for wind power generation
Abdoos et al. Holonification of a network of agents based on graph theory
CN117933673B (zh) 线路巡视的规划方法、装置和线路巡视规划系统
CN114254734B (zh) 一种支持确定性应用的流量矩阵建模方法
Zambelli et al. Long-term hydropower scheduling based on deterministic nonlinear optimization and annual inflow forecasting models
CN113627533A (zh) 一种基于强化学习的电力设备检修决策生成方法
CN116739289A (zh) 一种流域防洪工程体系多目标智能调度方法
Manczak et al. Hierarchical Reinforcement Learning for Power Network Topology Control
CN111105025A (zh) 基于数据驱动启发式优化的城市高压配电网阻塞管理方法
CN114743374B (zh) 基于图网络的多元交通流预测方法
Sadegheih Optimization of network planning by the novel hybrid algorithms of intelligent optimization techniques
Wai et al. Short-term load forecasting via fuzzy neural network with varied learning rates
Wang et al. Short term load forecasting: A dynamic neural network based genetic algorithm optimization
CN114202063A (zh) 一种基于遗传算法优化的模糊神经网络温室温度预测方法
Liu et al. Evaluation of hurricane impact on failure rate of transmission lines using fuzzy expert system
CN108805366A (zh) 基于决策形式背景的多因素自适应神经网络电力负荷预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant