CN111860969A

CN111860969A - 一种基于强化学习算法的输电网扩展规划方法

Info

Publication number: CN111860969A
Application number: CN202010605469.3A
Authority: CN
Inventors: 沈力; 魏明奎; 王渝红; 蔡绍荣; 江栗; 胡胜杰; 路亮
Original assignee: Sichuan University; Southwest Branch of State Grid Corp
Current assignee: Sichuan University; Southwest Branch of State Grid Corp
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-30
Anticipated expiration: 2040-06-29
Also published as: CN111860969B

Abstract

本发明公开了一种基于强化学习算法的输电网扩展规划方法，属于电网规划技术领域，先基于获取电网规划待选线路集，构建适用于电网规划的QTEP算法环境、状态、动作和智能体，并设计自适应因子；再综合考虑投资成本和可靠性成本，以规划周期内综合经济最优为目标，以电网运行约束、N‑1电网安全约束和蒙特卡洛误差约束为约束条件，建立优化模型；最后根据优化模型，结合综合特性反馈奖励函数与算法收敛条件，以强化学习思路求解优化模型，得到最优综合经济性的输电网扩展规划方案。本发明首次将强化学习思路应用至输电网扩展规划，求解思路贴合规划人员，所得规划方案合理准确，能有效提升输电网扩展规划的效率及准确性。

Description

一种基于强化学习算法的输电网扩展规划方法

技术领域

本发明属于电网规划技术领域，特别涉及是一种基于强化学习算法的输电网扩展规划方法。

背景技术

输电网扩展规划是确定在什么时间、什么地方、建设什么类型和容量的输变电工程。随着我国电网不断建设，我国已经进入大电网时代，电网规模的增大导致输电网扩展规划问愈发难以求解。

现阶段，输电网扩展规划问题的常用求解方法分为数学优化方法和启发式算法两类。其中数学优化方法将非线性的优化模型转化线性化进行求解，常用方法为整数规划、线性规划等。数学优化方法理论上来说能得到最优解，但模型线性化后的最优解可能失真，且电网互联背景下，数学优化方法存在计算量大、求解困难等问题，难以服务于工程实际。启发式算法是近代以来新兴的一类算法，是通过模拟自然界中的一些现象的求解方法，常用方法有粒子群算法、遗传算法、蚂蚁算法等。启发式算法的计算模式贴近人的思考模式，易于理解，但由于收敛性问题，一般能得到几组局部最优解，难以给出全局最优解。

随着电网规模的不断扩大和电力系统复杂程度的不断加深，数学优化方法和启发式算法愈发难以满足输电网扩展规划问题求解，因此，需在当前理论的基础上，引入新方法，适应电网互联背景下的输电网扩展规划问题求解。

发明内容

本发明的目的在于：针对上述存在的问题，本发明提供一种基于强化学习算法的输电网扩展规划方法。通过构建适用于输电网扩展规划的QTEP算法(Q-learning forTransmission Expansion Planning)，求解以综合经济成本最优为目标的输电网扩展规划优化模型，最终得到适应电网互联背景下的最优扩展规划方案。

本发明采用的技术方案如下：

一种基于强化学习算法的输电网扩展规划方法，包括以下步骤：

步骤1：根据现状电网建设情况，确定线路待选集F，以线路待选集F为基础，构建强化学习的环境、状态、动作及对应智能体，构建适用于输电网扩展规划的QTEP算法；

步骤2：设定自适应因子λ，修正Q值计算方法，来提升QTEP算法的收敛速度；

步骤3：以规划周期内综合经济成本最小为目标构建目标函数，以电网运约束、N-1电网安全约及蒙特卡洛误差约束为约束条件，建立综合考虑经济性和可靠性的电网扩展规划优化模型；

步骤4：根据步骤3建立的优化模型，设计QTEP算法的综合特性反馈奖励函数和收敛条件，利用QTEP算法求解优化模型，得到综合考虑经济行和可行性的最优输电网扩展规划模型。

优选的，步骤1所述的强化学习的环境、状态、动作及对应智能体，以及QTEP算法构建步骤为：

步骤1.1：根据现状电网建设情况，确定由n条线路组成的线路待选集 F＝{l₁,l₂,…,l_k,…,l_n}，其中l_k为第k条待建设线路；

步骤1.2：构建QTEP算法环境为线路待选集F＝{l₁,l₂,…,l_k,…,l_n}本身，即所有可选的待建设线路；

步骤1.3：构建QTEP算法状态为智能体根据线路待选集F给出的当前规划方案；

步骤1.4：构建QTEP算法动作为改变当前规划方案的线路待选集状态；

步骤1.5：建立智能体动作更新策略，即每一次动作仅改变一条线路状态；

步骤1.6：构建QTEP算法智能体，智能体为状态和动作两个属性的集合。

优选的，步骤2中设计的自适应因子λ，Q值计算方法修正为：

式中，Q(s_i,a_i)为状态s_i下对应动作a_i的Q值，

为状态s_i下对应动作a_i的反馈奖励，γ为折现率；

为当智能体执行动作a_i转移至状态s_i+1时，智能体在状态s_i+1下的建设线路的数量；n为待选线路总量。通过加入自适应因子λ会使智能体根据后续状态的已建设线路数量对Q值更新方式进行修正，在已建设线路数量较多时加快学习速度，提升算法的收敛速度。

优选的，步骤3中的目标函数为规划方案投资成本与可靠性成本之和的最小值，投资成本为等年值法折算的年平均费用，可靠性成本通过蒙特卡洛等分散法求得。

优选的，目标函数表达式为：

式中，C_f为综合经济成本；r为预期投资收益，a₀为投资服务年限，a₁为规划建设年限，三者组合为投资年平均费用系数；ρ为线路年维护费用系数；F＝{l₁,l₂,…,l_n}表示为由n条线路组成的线路待选集；

为线路l_k的投资成本；

表示线路l_k的建设情况，0表示为建设，1表示投建线路；Φ为系统状态集合，w为其中某一状态，系统转移至该状态的概率由P_Φ(w) 表示；P_w,b在该状态下的是节点b的缺供电量，而c_w,b为其失电成本；Θ为节点集合，包含电力系统所有节点；T表示负荷持续总时间。

优选的，步骤3中约束条件包括电网运行约束、N-1电网安全约束、蒙特卡洛误差约束，在N-1情况下，引入发电机和线路实际运行因子

0表示发电机停运或线路断开，1表示正常运行，

与

在一次计算中仅有一个状态为0，约束条件表达式如下：

式中，G_b为节点b处发电机的集合；F_b为连接节点b的线路集合；G_Θ为系统所有发电机集合；

P_fh,b分别表示发电机g_j的有功出力、线路l_k的有功潮流和节点b处的负荷值；

为线路k的电纳值；θ_k1、θ_k0分别为线路k两端所连节点的相角，θ_k1代表潮流流出节点，θ_k0为潮流流入节点；

为线路k的极限传输容量；

P_G,j分别为发电机g_j的有功出力上、下限；

为节点b处负荷最大值；

θ_B分别为节点b相角的上、下限；θ_o表示平衡节点的相角，其值为0；NS为蒙特卡洛等分散法计算所得方差，η为允许误差。

上述各式分别表示电力系统的节点功率平衡约束、系统有功平衡约束、线路潮流约束、线路容量约束、发电机的有功出力约束、负荷缺供电量约束、节点相角约束和平衡节点相角约束；N-1条件下的节点功率平衡约束、N-1条件下的系统有功平衡约束、N-1条件下的线路潮流约束；蒙特卡洛误差约束。

优选的，所述步骤4中的综合特性反馈奖励函数是根据智能体当前状态的综合经济成本和智能体在单轮学习中动作次数的分段函数，表达式为：

式中，C_finit为初始成本；ω为智能体在一轮学习中的动作次数，μ为智能体状态首次满足N-1电网安全约束；当ω≤μ时，若智能体状态不满足N-1电网安全约束，属于未成熟状态，反馈奖励0；ω＞μ时，若智能体状态仍不满足N-1电网安全约束，则该状态属于不可行状态，则反馈奖励-M，M为任意大正整数；若智能体状态满足N-1电网安全约束校验，则计算当前状态建设成本C_f，依照上式反馈奖励值。

进一步地，步骤4中收敛条件为智能体完成N次学习动作，N为设定次数。同时，定义每K次学习动作为一轮学习，每K次学习动作后重置智能体状态，保留Q值的同时使智能体从原始网架开始重新学习。

相较于现有技术，本发明的有益效果是：

(1)本发明根据输电网扩展规划特征，构建了适用于输电网扩展规划的QTEP算法，将电网规划过程抽象为机器学习过程，创新了输电网扩展规划问题的求解方法；

(2)本发明通过设计的自适应因子λ和综合特性反馈奖励函数，减少了模型求解计算量，在较少的计算时间内得到了电网最优扩展规划方案，同时在优化模型中引入可靠性成本，考虑了规划方案的经济性和可靠性，得出综合最后的规划方案，克服了目前方法求解速度与求解精度不能兼顾的弊端。

(3)本发明基于QTEP算法的输电网扩展规划方法不仅能够准确给出具有最优综合经济成本的规划方案，兼顾输电网规划的经济性和可靠性，还能贴合规划人员的思考模式，在不同场景下给出当场景下的最优结果，将智能体学习过程进行可视化处理，重现智能体对电网的规划过程，能帮助电网规划人员选择安全可靠、经济合理的规划方案。

附图说明

图1为本发明的结构示意图；

图2为本发明的拓扑结构示意图；

图中标记为：11-激光器，12-激光聚焦单元，13-纳米标志物盒，14-微型光谱仪一，15- 缓冲反应皿一，16-间质液吸附装置，17-激光调制器，18-微处理器，19-显示模块，110-差分电路模块，111-半透半反透镜，112-全反镜，113-微型光谱仪二，114-缓冲反应皿二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

本实施例以IEEE 24-RTS系统为例对本发明进行验证，基于QTEP算法的输电网扩展规划流程图如图1所示。IEEE 24-RTS系统模型包含24条母线，29个输电走廊，38条输电线路，32个发电机，拓扑结构如图2所示，各线路投资成本均已折算为等年值。

具体实施方案如下：

本实施例基于IEEE 24-RTS系统，设计及原有线路，总计选取n＝88条待选线路组成线路待选集F，则步骤1中QTEP算法环境、状态、动作和智能体的具体构建步骤为：

步骤1.3：构建QTEP算法状态为智能体根据线路待选集F给出的当前规划方案作；

步骤1.5：建立智能体动作更新策略，具体可表述为，每一次动作仅改变一条线路状态；

步骤2：设定自适应因子λ，修正Q值计算方法；

基于自适应因子λ修正Q值计算方法的具体方法为：

式中，Q(s_i,a_i)为状态s_i下对应动作a_i的Q值，

为状态s_i下对应动作a_i的反馈奖励，γ为折现率；

表当智能体执行动作a_i转移至状态s_i+1时，智能体在状态s_i+1下的建设线路的数量；n为待选线路总量，本实施例中取88；加入自适应因子λ会使智能体根据后续状态的已建设线路数量对Q值更新方式进行修正，在已建设线路数量较多时加快学习速度，提升算法的收敛速度。

步骤3：以规划周期(1年)内综合经济成本最小为目标，以电网运行约束、N-1电网安全约束和蒙特卡洛误差约束为约束条件，建立综合考虑经济性和可靠性的输电网扩展规划优化模型；

本实施例基于直流潮流模型，建立优化模型的目标函数和约束条件如下：

步骤3.1：优化模型目标函数表达式为：

为线路l_k的投资成本；

表示线路l_k的建设情况，0表示为建设， 1表示投建线路；规划方案的可靠性成本由蒙特卡洛等分散法求得；Φ为系统状态集合，w 为其中某一状态，系统转移至该状态的概率由P_Φ(w)表示；P_w,b在该状态下的是节点b的缺供电量，而c_w,b为其失电成本；Θ为节点集合，包含电力系统所有节点；T表示负荷持续总时间；

步骤3.2：约束条件包括电网运行约束、N-1电网安全约束、蒙特卡洛误差约束，在N-1 情况下，引入发电机和线路实际运行因子

0表示发电机停运或线路断开，1表示正常运行，

与

在一次计算中仅有一个状态为0，约束条件表达式如下：

为线路k的极限传输容量；

P_G,j分别为发电机g_j的有功出力上、下限；

为节点b处负荷最大值；

θ_B分别为节点b相角的上、下限；θ_o表示平衡节点的相角，其值为0；NS为蒙特卡洛等分散法计算所得方差，η为允许误差；

步骤4：根据建立的优化模型，设计QTEP算法的综合特性反馈奖励函数与收敛条件，利用QTEP算法求解优化模型，得到综合考虑经济性和可靠性的最终输电网扩展规划方案。

综合特性反馈奖励函数具体是根据智能体当前状态的综合经济成本和智能体在单轮学习中动作次数的分段函数，表达式为：

式中，C_finit为初始成本；ω为智能体在一轮学习中的动作次数，μ为智能体状态首次满足N-1电网安全约束。当ω≤μ时，若智能体状态不满足N-1电网安全约束，属于未成熟状态，反馈奖励0；ω＞μ时，若智能体状态仍不满足N-1电网安全约束，则该状态属于不可行状态，则反馈奖励-M，M为任意大正整数；若智能体状态满足N-1电网安全约束校验，则计算当前状态建设成本C_f，依照上式反馈奖励值。

将本发明在两种不同规划场景下计算所得的输电网扩展规划方案与采用方法二所得的扩展规划方案进行对比，如表1所示。

表1不同方法线路脆弱性排序结果对比

表1中，场景1和场景2分别为规划总成本最小和可靠性成本最小，方法二为基于电网损耗的输电网扩展规划方法。由于电网在未进行扩展规划时不满足N-1电网安全约束(母线 7与其他母线仅有1条支路相连)，可靠性成本非常高，为45.98M$，因此在场景1下，智能体会对电网进行多条线路扩建，综合权衡投资成本与可靠性成本。与方法二相比，由于方法二的规划方案仅考虑了N-1电网安全约束，以电网损耗最小为目标，未计及可靠性成本，导致给出的规划方案难以满足社会正常用电需求，在系统故障时出现负荷削减概率与严重程度均大于场景1给出的规划方案。场景1中，规划方案投资成本为15.97M$，虽然线路投资较方法二的10.44M$大，但是场景1规划方案下可靠性成本已降低至3.85M$，极大的降低了系统故障时失负荷出现的概率与严重程度，在提升电网可靠性的同时取得了最高的经济总收益。

我国电网供电可靠性是电网运行的首要目标，旨在绝大部分情况下都首要保障社会的用电可靠性。此场景下电网规划的目标为满足可靠性成本足够小的情况下计算规划的最小投资成本。由表1可知，场景2下总计规划线路14条，比场景1下规划线路多出3条，投资成本总计高出4.41M$，但此时可靠性成本已降低至0.02M$，仅当电网出现严重故障时才会发生少量失负荷。尽管总成本比场景1高出了0.58M$，但该规划方案保障了社会用电的可靠性，具有最优的社会效益。

实施例表明，本发明所提基于强化学习算法的输电网扩展规划方法不仅能够准确给出具有最优综合经济成本的规划方案，兼顾输电网规划的经济性和可靠性，还能贴合规划人员的思考模式，在不同场景下给出当场景下的最优结果。将智能体学习过程进行可视化处理，重现智能体对电网的规划过程，能帮助电网规划人员选择安全可靠、经济合理的规划方案。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。