CN112507614B - 一种分布式电源高渗透率地区电网综合优化方法 - Google Patents

一种分布式电源高渗透率地区电网综合优化方法 Download PDF

Info

Publication number
CN112507614B
CN112507614B CN202011389571.0A CN202011389571A CN112507614B CN 112507614 B CN112507614 B CN 112507614B CN 202011389571 A CN202011389571 A CN 202011389571A CN 112507614 B CN112507614 B CN 112507614B
Authority
CN
China
Prior art keywords
action
state
network
value
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011389571.0A
Other languages
English (en)
Other versions
CN112507614A (zh
Inventor
潘斌
陈旗展
徐宝军
李宾
方嵩
余俊杰
阮志杰
张法忠
贺怡
刘国民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202011389571.0A priority Critical patent/CN112507614B/zh
Publication of CN112507614A publication Critical patent/CN112507614A/zh
Application granted granted Critical
Publication of CN112507614B publication Critical patent/CN112507614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Operations Research (AREA)

Abstract

本发明公开了一种分布式电源高渗透率地区电网综合优化方法,包括以下步骤:S1:以最小化发电成本为目标,根据系统运行的安全约束,建立输电网综合优化的数学模型;S2:使用马尔科夫过程对输电网综合优化的决策过程进行建模,并定义相应的状态空间、动作空间和奖励函数;S3:使用神经网络拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数;S4:在本地进行仿真训练,得到训练后的评估值网络;S5:利用训练后的评估值网络,进行在线运行控制。本发明通过高效的深度强化学习算法,在与仿真模型的交互中学习最优控制策略,缩短在线决策时间,快速获得电网综合优化方案。

Description

一种分布式电源高渗透率地区电网综合优化方法
技术领域
本发明涉及智能电网领域,更具体地,涉及一种分布式电源高渗透率地区电网综合优化方法。
背景技术
为了缓解能源紧缺和环境污染的双重压力,建设以风电、光伏为代表的分布式新能源发电机组,是我国能源结构变革的重点方向。2019年度全国可再生能源电力发展监测评价报告中指出,全国可再生能源装机容量已接近8亿千瓦,占总装机容量的近四成。受自然资源分布影响,分布式新能源发电具有较强的随机性,难以实现对发电机组出力的精确控制,不同时段出力差异显著,出力高峰和用电高峰往往并不重合。此外分布式新能源发电容易受到气象因素干扰,不具备常规机组出力平滑稳定的特点。大量分布式电源的渗透为系统运行增加了不确定性,增加了系统的调节负担,在分布式电源高渗透率地区,系统调控能力不足的问题日益突出。当分布式电源出力波动超出系统调节范围时,只能采取弃光弃风手段,造成了大量的资源浪费。以网络结构优化和功率分布优化为主要手段的电网综合优化可以充分挖掘系统调控潜力,是提高输电网经济性和安全性的有效手段,可实现单一优化手段无法达到的效果。
公开日为2015年10月07日,公开号为CN104967149A的中国专利公开了一种一种微电网风光储模型预测控制方法,包括以下步骤:建立预测模型,通过预测模型预测未来设定时段内微电网中风电机组和光伏发电的最大出力;以预测到的风电和光伏最大出力作为约束条件,对微电网中风电机组、光伏发电以及储能电池三者出力进行在线优化,给出三者的参考出力;根据风电机组和光伏发电的实时可调容量,对风电机组、光伏发电以及储能电池三者参考出力进行反馈调整。
然而,考虑网络结构切换的输电网综合优化是一个具有高度非凸性的混合整数非线性规划问题,其非凸性来源于潮流方程的非凸性和整数变量引入的非凸项,现有方法无法对该问题进行有效求解。传统的线性化直流潮流模型在近似过程中忽略了输电线路的电阻和两端的相角差,并且认为所有节点电压的标幺值都为1,不能对电压和无功的进行精确近似,难以保证解的可行性和最优性。
发明内容
本发明提供一种分布式电源高渗透率地区电网综合优化方法,结合电网优化运行规律,求解具有非凸和非线性性质的电网综合优化问题,满足电力系统安全稳定运行的基本要求。
为解决上述技术问题,本发明的技术方案如下:
一种分布式电源高渗透率地区电网综合优化方法,包括以下步骤:
S1:以最小化发电成本为目标,根据系统运行的安全约束,建立输电网综合优化的数学模型;
S2:使用马尔科夫过程对输电网综合优化的决策过程进行建模,并定义相应的状态空间、动作空间和奖励函数;
S3:使用神经网络拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数;
S4:在本地进行仿真训练,得到训练后的评估值网络;
S5:利用训练后的评估值网络,进行在线运行控制。
优选地,步骤S1中输电网综合优化的数学模型,具体为:
Figure BDA0002811816920000021
Figure BDA0002811816920000022
Figure BDA0002811816920000023
Figure BDA0002811816920000024
Vl≤Vi≤Vu
上式中,Ci(·)是第i个节点上发电机的成本系数,Φb为电网全部节点组成的集合,
Figure BDA0002811816920000025
是第i个节点上发电机的有功出力,
Figure BDA0002811816920000026
是第i个节点上发电机的无功出力,
Figure BDA0002811816920000027
Figure BDA0002811816920000028
为第i个节点上发电机有功出力的下限和上限,
Figure BDA0002811816920000029
Figure BDA00028118169200000210
为第i个节点上发电机无功出力的下限和上限,pij和qij为从节点i到节点j线路上的有功潮流和无功潮流,
Figure BDA00028118169200000211
为线路ij传输容量上限,Vi是节点i的电压幅值,Vl和Vu为节点i电压幅值的下限和上限。
优选地,步骤S2中定义相应的状态空间,具体为:
根据实际情况中可采集到的系统运行数据,选取部分观测量组成马尔科夫过程的状态空间,用以描述当前系统状态:
s=(Pg,Qg,V,Pd,Qd)
其中Pg是系统中发电机有功出力值组成的行向量,Qg是系统中发电机无功出力值组成的行向量,V是系统中所有节点电压幅值组成的行向量,Pd是系统中各个节点有功负荷量组成的行向量,Qd是系统中各个节点无功负荷量组成的行向量。
优选地,步骤S2中动作空间,具体为:
可选择的控制动作组成的动作空间定义下式所示,实际控制时采取的控制动作从定义的动作空间中选取:
A=(ΔPg,ΔQg,ΔV,ΔXij)
其中,ΔPg为所有调整发电机有功出力的动作,包括上调和下调,单次的调整量为2MW;ΔQg为所有调整发电机无功出力的动作,包括上调和下调,单次的调整量为2MVar;ΔV是所有调整发电机机端电压的动作,包括上调和下调,单次的调整量为0.01p.u.,ΔXij为所有投入/切除线路动作,可以改变状态的线路实现根据实际情况给定。
优选地,步骤S2中奖励函数,具体为:
根据在不违背安全约束的情况下降低发电成本的控制目标
Figure BDA0002811816920000031
奖励函数构建如下:
Figure BDA0002811816920000032
上式由两部分组成,前一项为和系统发电成本相关的经济性指标,后一项为和系统电压分布相关的安全性指标,其中,pi是第i个节点有功功率的净注入值,β是平衡系数。由于需要最小化系统的发电成本和节点电压幅值偏差,所以奖励函数在原有基础上取负数。
优选地,步骤S2中首先需要获取系统的状态,即获取状态空间中的状态量,然后根据当前状态从动作空间中选择最优控制动作执行,系统转移到下一个状态后,算法再次获得系统的观测用来计算奖励并评价刚才采取的动作,以便于优化策略。
优选地,步骤S2中决策过程定义为在系统状态s下采取的动作a,基于值函数的贪婪策略,即选择当前状态下值函数最大的动作,其中值函数定义如下:
Q(s0,a0)=r0+γr12r2+L+γnrn
式中,Q(s0,a0)表示在状态s0下采取动作a0的价值,由计算公式看出它实际上是对之后预期奖励的带衰减的求和,γ是远期回报衰减率,取小于1的正值。
优选地,步骤S3中构建神经网络用于拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数,具体为:
S3.1:初始化拟合价值函数的神经网络,包括:1)评估值网络Qeval,输入层神经元个数和状态空间s的维度相等,表示当前系统状态,包括节点电压幅值,发电机的有功和无功出力以及节点的有功和无功负荷,输出层神经元个数和动作空间A的维度相等,表示调节发电机出力和改变线路状态等控制动作的价值,该网络包括若干个隐含层,每个隐含层包含若干个神经元,激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000041
2)目标值网络Qtarget,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,输入输出的意义和评估值网络相同,该网络包括若干个隐含层,每个隐含层包含若干个神经元,激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000042
S3.2:初始化学习率α;
S3.3:初始化远期回报衰减率γ;
S3.4:清空本地经验池D,所述本地经验池D用以在训练过程中存储收集到的训练样本,设置经验池容量为N;
S3.5:初始化控制参数,最大训练步数max_iter;
S3.6:初始化选择动作时的贪婪值ε,并设置贪婪值递增步长Δε;
S3.7:初始化训练步数i=0。
优选地,步骤S4中在本地进行仿真训练,得到训练后的评估值网络,具体为:
S4.1:从仿真环境获得观测信号,得到系统状态变量si
S4.2:生成随机数σ∈(0,1),若σ>ε,则从动作空间A中随机选择一个动作作为第i步执行的动作ai,否则按下式选择动作,即选择当前状态下最大的价值函数对应的动作:
Figure BDA0002811816920000043
S4.3:执行步骤4.2选择的动作,系统状态发生改变,获得系统的新的状态变量si+1,如果执行动作后未违反系统安全约束,则按步骤S2中奖励函数计算奖励r,否则奖励r按下式计算:
Figure BDA0002811816920000051
S4.4:将数据元组(si,r,ai,si+1)存入经验池D中;
S4.5:从经验池D中进行抽取训练样本DX∈D,用于训练神经网络,更新网络参数,样本容量为X,即DX含有X个格式为(si,r,ai,si+1)数据元组;
S4.6:对于每一个抽取到的数据元组,计算对应的实际价值函数
Figure BDA0002811816920000052
当该元组si+1是终止状态时,计算公式如下所示:
Figure BDA0002811816920000053
否则,计算公司如下所示:
Figure BDA0002811816920000054
其中,si为该元组的初始状态,ai为该元组执行的动作,si+1为该元组执行动作后的转移状态;
S4.7:计算该数据元组上的误差函数值,如下式所示:
Figure BDA0002811816920000055
S4.8:对样本中的所有元组的误差函数进行求和:
Figure BDA0002811816920000056
S4.9:使用梯度下降法更新评估值网络Qeval参数
Figure BDA0002811816920000057
Figure BDA0002811816920000058
S4.10:更新目标值网络Qtarget参数
Figure BDA0002811816920000059
Figure BDA00028118169200000510
式中,ρ是更新权重系数;
S4.11:i=i+1,ε=ε+Δε,判断i是否达到max_iter,若是返回步骤4.1,否则执行步骤4.12;
S4.12:判断收敛性条件,如果收敛执行步骤5,否则继续训练。
优选地,步骤S5中利用训练后的评估值网络,进行在线运行控制,具体为:
S5.1:建立运行控制值网络Qcontrol,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,隐含层配置和训练使用的神经网络Qeval,激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000061
将训练后评估值网络
Figure BDA0002811816920000062
的网络参数复制给运行控制值网络
Figure BDA0002811816920000063
S5.2:从系统测量装置获得状态观测信息,得到系统状态变量s=(Pg,Qg,V,Pd,Qd);
S5.3:将s输入运行控制值网络Qcontrol计算现有状态下各个动作的价值进行排序,为提高方法的容错性,满足电力系统安全稳定运行的要求,选择价值最大的动作a**作为待执行动作,价值次大的动作a*作为备选动作,如果a**控制效果经仿真验证满足安全约束则执行a**,否则执行动作a*
S5.4:返回步骤5.2,更新系统状态。
与现有技术相比,本发明技术方案的有益效果是:
本发明采用马尔科夫过程对决策过程进行建模,提出了一种基于DDQN(DoubleDeep Q-learning)算法的电网综合优化方法,通过高效的深度强化学习算法,在与仿真模型的交互中学习最优控制策略,缩短在线决策时间,快速获得电网综合优化方案。本发明一方面发挥深度学习的强大的泛化能力,处理复杂多变的实际运行场景,另一方面增加了越线惩罚预防机制和模型引导运行策略,增强了算法的容错率和安全性。本发明在算法训练过程中采取渐进收敛的技巧,提升了对动作空间的搜索能力,加速算法收敛。本发明运用深度强化学习实现了对混合整数非线性电网综合优化问题的求解,所提算法具有良好的收敛性和泛化能力,同时保证了结果的最优性和控制的安全性,特别适合分布式电源高渗透率地区的电网使用,可以增强电网应对分布式电源冲击的能力,充分发挥系统调控潜力,降低系统运行成本,避免出现违背安全约束的情况
附图说明
图1为本发明的方法流程示意图。
图2为本发明的方法的实际运行架构示意图。
图3为IEEE-9节点系统示意图。
图4为本发明的训练过程中,发电成本变化示意图。
图5为本发明所提方法在随机场景下的控制效果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种分布式电源高渗透率地区电网综合优化方法,如图1和图2,包括以下步骤:
S1:以最小化发电成本为目标,根据系统运行的安全约束,建立输电网综合优化的数学模型;
S2:使用马尔科夫过程对输电网综合优化的决策过程进行建模,并定义相应的状态空间、动作空间和奖励函数;
S3:使用神经网络拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数;
S4:在本地进行仿真训练,得到训练后的评估值网络;
S5:利用训练后的评估值网络,进行在线运行控制。
步骤S1中输电网综合优化的数学模型,具体为:
Figure BDA0002811816920000071
Figure BDA0002811816920000072
Figure BDA0002811816920000073
Figure BDA0002811816920000074
Vl≤Vi≤Vu
上式中,Ci(·)是第i个节点上发电机的成本系数,Φb为电网全部节点组成的集合,
Figure BDA0002811816920000075
是第i个节点上发电机的有功出力,
Figure BDA0002811816920000076
是第i个节点上发电机的无功出力,
Figure BDA0002811816920000077
Figure BDA0002811816920000078
为第i个节点上发电机有功出力的下限和上限,
Figure BDA0002811816920000079
Figure BDA00028118169200000710
为第i个节点上发电机无功出力的下限和上限,pij和qij为从节点i到节点j线路上的有功潮流和无功潮流,
Figure BDA00028118169200000711
为线路ij传输容量上限,Vi是节点i的电压幅值,Vl和Vu为节点i电压幅值的下限和上限。
步骤S2中定义相应的状态空间,具体为:
根据实际情况中可采集到的系统运行数据,选取部分观测量组成马尔科夫过程的状态空间,用以描述当前系统状态:
s=(Pg,Qg,V,Pd,Qd)
其中Pg是系统中发电机有功出力值组成的行向量,Qg是系统中发电机无功出力值组成的行向量,V是系统中所有节点电压幅值组成的行向量,Pd是系统中各个节点有功负荷量组成的行向量,Qd是系统中各个节点无功负荷量组成的行向量。
步骤S2中动作空间,具体为:
可选择的控制动作组成的动作空间定义下式所示,实际控制时采取的控制动作从定义的动作空间中选取:
A=(ΔPg,ΔQg,ΔV,ΔXij)
其中,ΔPg为所有调整发电机有功出力的动作,包括上调和下调,单次的调整量为2MW;ΔQg为所有调整发电机无功出力的动作,包括上调和下调,单次的调整量为2MVar;ΔV是所有调整发电机机端电压的动作,包括上调和下调,单次的调整量为0.01p.u.,ΔXij为所有投入/切除线路动作,可以改变状态的线路实现根据实际情况给定。
步骤S2中奖励函数,具体为:
根据在不违背安全约束的情况下降低发电成本的控制目标
Figure BDA0002811816920000081
奖励函数构建如下:
Figure BDA0002811816920000082
上式由两部分组成,前一项为和系统发电成本相关的经济性指标,后一项为和系统电压分布相关的安全性指标,其中,pi是第i个节点有功功率的净注入值,β是平衡系数,典型值可以取100。由于需要最小化系统的发电成本和节点电压幅值偏差,所以奖励函数在原有基础上取负数。
步骤S2中首先需要获取系统的状态,即获取状态空间中的状态量,然后根据当前状态从动作空间中选择最优控制动作执行,系统转移到下一个状态后,算法再次获得系统的观测用来计算奖励并评价刚才采取的动作,以便于优化策略。
步骤S2中决策过程定义为在系统状态s下采取的动作a,基于值函数的贪婪策略,即选择当前状态下值函数最大的动作,其中值函数定义如下:
Q(s0,a0)=r0+γr12r2+L+γnrn
式中,Q(s0,a0)表示在状态s0下采取动作a0的价值,由计算公式看出它实际上是对之后预期奖励的带衰减的求和,γ是远期回报衰减率,取小于1的正值,典型值可取0.95。
步骤S3中构建神经网络用于拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数,具体为:
S3.1:初始化拟合价值函数的神经网络,包括:1)评估值网络Qeval,输入层神经元个数和状态空间s的维度相等,表示当前系统状态,包括节点电压幅值,发电机的有功和无功出力以及节点的有功和无功负荷,输出层神经元个数和动作空间A的维度相等,表示调节发电机出力和改变线路状态等控制动作的价值,该网络包括若干个隐含层(典型地取为1个隐含层),每个隐含层包含若干个神经元(典型地取为256个神经元),激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000091
2)目标值网络Qtarget,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,输入输出的意义和评估值网络相同,该网络包括若干个隐含层(典型地取为1个隐含层),每个隐含层包含若干个神经元(典型地取为256个神经元),激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000092
S3.2:初始化学习率α,该参数控制神经网络的学习速率,为一标量值,过高的学习率会导致震荡,过低的学习率会导致收敛变慢,学习率的典型值为1×10-6
S3.3:初始化远期回报衰减率γ,为一标量值,典型值为0.95;
S3.4:清空本地经验池D,所述本地经验池D用以在训练过程中存储收集到的训练样本,设置经验池容量为N,典型值为100000;
S3.5:初始化控制参数,最大训练步数max_iter,典型值为100000;
S3.6:初始化选择动作时的贪婪值ε,典型值为0.5,并设置贪婪值递增步长Δε,典型值为5×10-6
S3.7:初始化训练步数i=0。
步骤S4中在本地进行仿真训练,得到训练后的评估值网络,具体为:
S4.1:从仿真环境获得观测信号,得到系统状态变量si
S4.2:生成随机数σ∈(0,1),若σ>ε,则从动作空间A中随机选择一个动作作为第i步执行的动作ai,否则按下式选择动作,即选择当前状态下最大的价值函数对应的动作:
Figure BDA0002811816920000101
S4.3:执行步骤4.2选择的动作,系统状态发生改变,获得系统的新的状态变量si+1,如果执行动作后未违反系统安全约束,则按步骤S2中奖励函数计算奖励r,否则奖励r按下式计算:
Figure BDA0002811816920000102
S4.4:将数据元组(si,r,ai,si+1)存入经验池D中;
S4.5:从经验池D中进行抽取训练样本DX∈D,用于训练神经网络,更新网络参数,样本容量为X,典型值为256,即DX含有X个格式为(si,r,ai,si+1)数据元组;
S4.6:对于每一个抽取到的数据元组,计算对应的实际价值函数
Figure BDA0002811816920000103
这里的实际价值函数作为4.7中计算误差函数的标签值,当该元组si+1是终止状态时,计算公式如下所示:
Figure BDA0002811816920000104
否则,计算公司如下所示:
Figure BDA0002811816920000105
其中,si为该元组的初始状态,ai为该元组执行的动作,si+1为该元组执行动作后的转移状态;
S4.7:计算该数据元组上的误差函数值,如下式所示:
Figure BDA0002811816920000106
S4.8:对样本中的所有元组的误差函数进行求和:
Figure BDA0002811816920000107
S4.9:使用梯度下降法更新评估值网络Qeval参数
Figure BDA0002811816920000108
Figure BDA0002811816920000109
S4.10:更新目标值网络Qtarget参数
Figure BDA00028118169200001010
Figure BDA0002811816920000111
式中,ρ是更新权重系数;
S4.11:i=i+1,ε=ε+Δε,判断i是否达到max_iter,若是返回步骤4.1,否则执行步骤4.12;
S4.12:判断收敛性条件,如果收敛执行步骤5,否则继续训练。
步骤S5中利用训练后的评估值网络,进行在线运行控制,具体为:
S5.1:建立运行控制值网络Qcontrol,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,隐含层配置和训练使用的神经网络Qeval,激活函数为ReLU函数,网络参数记为
Figure BDA0002811816920000112
将训练后评估值网络
Figure BDA0002811816920000113
的网络参数复制给运行控制值网络
Figure BDA0002811816920000114
S5.2:从系统测量装置获得状态观测信息,得到系统状态变量s=(Pg,Qg,V,Pd,Qd);
S5.3:将s输入运行控制值网络Qcontrol计算现有状态下各个动作的价值进行排序,为提高方法的容错性,满足电力系统安全稳定运行的要求,选择价值最大的动作a**作为待执行动作,价值次大的动作a*作为备选动作,如果a**控制效果经仿真验证满足安全约束则执行a**,否则执行动作a*
S5.4:返回步骤5.2,更新系统状态。
本实施例通过一算例验证本发明有效求解了传统方法不能处理的混合整数非线性规划模型。
算例在Python环境下进行神经网络搭建和训练,训练使用的电网仿真环境为基于Python的仿真工具包Pypower,算例测试硬件条件为
Figure BDA0002811816920000115
CoreTMi5-6200UCPU(2.30GHz)和8GB内存的个人电脑。
本算例以IEEE-9节点系统为基础,如图3,对其进行改进,将节点3电源改造为分布式新能源。节点1为平衡节点,电压设定为1.0p.u.,其他节点的电压上下限分别为1.05p.u.和0.95p.u.。机组参数见表1,负荷与线路参数见表2。在原系统中,节点5和节点6之间的线路对地电纳较大,线路5-6的充电功率可以使节点5和节点6的电压大幅升高甚至越限。因此选择线路5-6作为备选的可开断线路。
表1含分布式电源的IEEE9节点系统机组参数
Figure BDA0002811816920000121
表2原始IEEE9节点系统负荷与线路参数
Figure BDA0002811816920000122
表3 IEEE-9节点系统训练参数
Figure BDA0002811816920000123
表4 IEEE-9节点系统发电机成本系数
Figure BDA0002811816920000131
算法的训练过程见图4,在训练的初始阶段,得到的发电成本非常高,这是由于强化学习算法尚处于探索阶段,尚未学习到正确的策略,不能对发电成本和节点电压进行有效的控制,随着训练的进行,智能体的策略逐渐收敛到最优策略,得到的发电成本降至最低水平并且趋于稳定。将算法训练后的值神经网络提取出来,采用基于值函数的贪婪策略进行控制,提取的神经网络基本复现了训练时的效果。
为测试智能体的实际控制效果,提取训练得到的Q网络参数,随机选取出力-负荷模式测试控制效果,采用基于值函数的贪婪策略进行控制,运行效果见图5。在测试场景中,智能体通过一系列电网操作,在可接受的计算时间内,有效降低系统的发电成本,说明算法的适应能力较强。所选随机算例的出力和负荷数据以及控制效果见表5。
表5算例数据和控制效果
Figure BDA0002811816920000132
Figure BDA0002811816920000141
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种分布式电源高渗透率地区电网综合优化方法,其特征在于,包括以下步骤:
S1:以最小化发电成本为目标,根据系统运行的安全约束,建立输电网综合优化的数学模型;
S2:使用马尔科夫过程对输电网综合优化的决策过程进行建模,并定义相应的状态空间、动作空间和奖励函数;
S3:使用神经网络拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数;
S4:在本地进行仿真训练,得到训练后的评估值网络;
S5:利用训练后的评估值网络,进行在线运行控制;
步骤S2中动作空间,具体为:
可选择的控制动作组成的动作空间定义下式所示,实际控制时采取的控制动作从定义的动作空间中选取:
A=(ΔPg,ΔQg,ΔV,ΔXij)
其中,ΔPg为所有调整发电机有功出力的动作,包括上调和下调,单次的调整量为2MW;ΔQg为所有调整发电机无功出力的动作,包括上调和下调,单次的调整量为2MVar;ΔV是所有调整发电机机端电压的动作,包括上调和下调,单次的调整量为0.01p.u.,ΔXij为所有投入/切除线路动作,可以改变状态的线路实现根据实际情况给定。
2.根据权利要求1所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S1中输电网综合优化的数学模型,具体为:
Figure FDA0003188276560000011
Figure FDA0003188276560000012
Figure FDA0003188276560000013
Figure FDA0003188276560000014
Vl≤Vi≤Vu
上式中,Ci(·)是第i个节点上发电机的成本系数,Φb为电网全部节点组成的集合,
Figure FDA0003188276560000015
是第i个节点上发电机的有功出力,
Figure FDA0003188276560000016
是第i个节点上发电机的无功出力,
Figure FDA0003188276560000021
Figure FDA0003188276560000022
为第i个节点上发电机有功出力的下限和上限,
Figure FDA0003188276560000023
Figure FDA0003188276560000024
为第i个节点上发电机无功出力的下限和上限,pij和qij为从节点i到节点j线路上的有功潮流和无功潮流,
Figure FDA0003188276560000025
为线路ij传输容量上限,Vi是节点i的电压幅值,Vl和Vu为节点i电压幅值的下限和上限。
3.根据权利要求2所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S2中定义相应的状态空间,具体为:
根据实际情况中可采集到的系统运行数据,选取部分观测量组成马尔科夫过程的状态空间,用以描述当前系统状态:
s=(Pg,Qg,V,Pd,Qd)
其中Pg是系统中发电机有功出力值组成的行向量,Qg是系统中发电机无功出力值组成的行向量,V是系统中所有节点电压幅值组成的行向量,Pd是系统中各个节点有功负荷量组成的行向量,Qd是系统中各个节点无功负荷量组成的行向量。
4.根据权利要求3所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S2中奖励函数,具体为:
根据在不违背安全约束的情况下降低发电成本的控制目标
Figure FDA0003188276560000026
奖励函数构建如下:
Figure FDA0003188276560000027
上式由两部分组成,前一项为和系统发电成本相关的经济性指标,后一项为和系统电压分布相关的安全性指标,其中,pi是第i个节点有功功率的净注入值,β是平衡系数,由于需要最小化系统的发电成本和节点电压幅值偏差,所以奖励函数在原有基础上取负数。
5.根据权利要求4所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S2中首先需要获取系统的状态,即获取状态空间中的状态量,然后根据当前状态从动作空间中选择最优控制动作执行,系统转移到下一个状态后,算法再次获得系统的观测用来计算奖励并评价刚才采取的动作,以便于优化策略。
6.根据权利要求5所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S2中决策过程定义为在系统状态s下采取的动作a,基于值函数的贪婪策略,即选择当前状态下值函数最大的动作,其中值函数定义如下:
Q(s0,a0)=r0+γr12r2+…+γnrn
式中,Q(s0,a0)表示在状态s0下采取动作a0的价值,由计算公式看出它实际上是对之后预期奖励的带衰减的求和,γ是远期回报衰减率,取小于1的正值。
7.根据权利要求6所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S3中构建神经网络用于拟合价值函数,采用参数冻结、经验回放和渐进贪婪方法进行训练,并初始化神经网络参数和控制参数,具体为:
S3.1:初始化拟合价值函数的神经网络,包括:1)评估值网络Qeval,输入层神经元个数和状态空间s的维度相等,表示当前系统状态,包括节点电压幅值,发电机的有功和无功出力以及节点的有功和无功负荷,输出层神经元个数和动作空间A的维度相等,表示调节发电机出力和改变线路状态等控制动作的价值,该网络包括若干个隐含层,每个隐含层包含若干个神经元,激活函数为ReLU函数,网络参数记为
Figure FDA0003188276560000031
2)目标值网络Qtarget,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,输入输出的意义和评估值网络相同,该网络包括若干个隐含层,每个隐含层包含若干个神经元,激活函数为ReLU函数,网络参数记为
Figure FDA0003188276560000032
S3.2:初始化学习率α;
S3.3:初始化远期回报衰减率γ;
S3.4:清空本地经验池D,所述本地经验池D用以在训练过程中存储收集到的训练样本,设置经验池容量为N;
S3.5:初始化控制参数,最大训练步数max_iter;
S3.6:初始化选择动作时的贪婪值ε,并设置贪婪值递增步长Δε;
S3.7:初始化训练步数i=0。
8.根据权利要求7所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S4中在本地进行仿真训练,得到训练后的评估值网络,具体为:
S4.1:从仿真环境获得观测信号,得到系统状态变量si
S4.2:生成随机数σ∈(0,1),若σ>ε,则从动作空间A中随机选择一个动作作为第i步执行的动作ai,否则按下式选择动作,即选择当前状态下最大的价值函数对应的动作:
Figure FDA0003188276560000041
S4.3:执行步骤4.2选择的动作,系统状态发生改变,获得系统的新的状态变量si+1,如果执行动作后未违反系统安全约束,则按步骤S2中奖励函数计算奖励r,否则奖励r按下式计算:
Figure FDA0003188276560000042
S4.4:将数据元组(si,r,ai,si+1)存入经验池D中;
S4.5:从经验池D中进行抽取训练样本DX∈D,用于训练神经网络,更新网络参数,样本容量为X,即DX含有X个格式为(si,r,ai,si+1)数据元组;
S4.6:对于每一个抽取到的数据元组,计算对应的实际价值函数
Figure FDA0003188276560000043
当该元组si+1是终止状态时,计算公式如下所示:
Figure FDA0003188276560000044
否则,计算公司如下所示:
Figure FDA0003188276560000045
其中,si为该元组的初始状态,ai为该元组执行的动作,si+1为该元组执行动作后的转移状态;
S4.7:计算该数据元组上的误差函数值,如下式所示:
Figure FDA0003188276560000046
S4.8:对样本中的所有元组的误差函数进行求和:
Figure FDA0003188276560000047
S4.9:使用梯度下降法更新评估值网络Qeval参数
Figure FDA0003188276560000048
Figure FDA0003188276560000049
S4.10:更新目标值网络Qtarget参数
Figure FDA00031882765600000410
Figure FDA00031882765600000411
式中,ρ是更新权重系数;
S4.11:i=i+1,ε=ε+Δε,判断i是否达到max_iter,若是返回步骤4.1,否则执行步骤4.12;
S4.12:判断收敛性条件,如果收敛执行步骤5,否则继续训练。
9.根据权利要求8所述的分布式电源高渗透率地区电网综合优化方法,其特征在于,步骤S5中利用训练后的评估值网络,进行在线运行控制,具体为:
S5.1:建立运行控制值网络Qcontrol,输入层神经元个数和状态空间s的维度相等,输出层神经元个数和动作空间A的维度相等,隐含层配置和训练使用的神经网络Qeval,激活函数为ReLU函数,网络参数记为
Figure FDA0003188276560000051
将训练后评估值网络
Figure FDA0003188276560000052
的网络参数复制给运行控制值网络
Figure FDA0003188276560000053
S5.2:从系统测量装置获得状态观测信息,得到系统状态变量s=(Pg,Qg,V,Pd,Qd);
S5.3:将s输入运行控制值网络Qcontrol计算现有状态下各个动作的价值进行排序,为提高方法的容错性,满足电力系统安全稳定运行的要求,选择价值最大的动作a**作为待执行动作,价值次大的动作a*作为备选动作,如果a**控制效果经仿真验证满足安全约束则执行a**,否则执行动作a*
S5.4:返回步骤5.2,更新系统状态。
CN202011389571.0A 2020-12-01 2020-12-01 一种分布式电源高渗透率地区电网综合优化方法 Active CN112507614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011389571.0A CN112507614B (zh) 2020-12-01 2020-12-01 一种分布式电源高渗透率地区电网综合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011389571.0A CN112507614B (zh) 2020-12-01 2020-12-01 一种分布式电源高渗透率地区电网综合优化方法

Publications (2)

Publication Number Publication Date
CN112507614A CN112507614A (zh) 2021-03-16
CN112507614B true CN112507614B (zh) 2021-09-07

Family

ID=74969878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011389571.0A Active CN112507614B (zh) 2020-12-01 2020-12-01 一种分布式电源高渗透率地区电网综合优化方法

Country Status (1)

Country Link
CN (1) CN112507614B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113517684B (zh) * 2021-03-17 2023-08-25 中国电力科学研究院有限公司 建立潮流状态调整的并行深度强化学习模型的方法及系统
CN113363997B (zh) * 2021-05-28 2022-06-14 浙江大学 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN113469561B (zh) * 2021-07-19 2024-09-24 交叉信息核心技术研究院(西安)有限公司 连接到电网的氢能的环境价值评估方法和系统
CN113869742B (zh) * 2021-09-29 2024-03-05 国网江苏省电力有限公司 基于行动家和评论家网络的综合供需侧的电力调度系统
CN113837654B (zh) * 2021-10-14 2024-04-12 北京邮电大学 一种面向多目标的智能电网分层调度方法
CN114169627B (zh) * 2021-12-14 2022-11-18 湖南工商大学 一种深度强化学习分布式光伏发电激励的系统
CN117335414B (zh) * 2023-11-24 2024-02-27 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质
CN118378761A (zh) * 2024-06-24 2024-07-23 北京大学 电网数据纯化方法、系统、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200119556A1 (en) * 2018-10-11 2020-04-16 Di Shi Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency
CN110165714B (zh) * 2019-05-30 2021-01-26 广州水沐青华科技有限公司 基于极限动态规划算法的微电网一体化调度与控制方法、计算机可读存储介质
CN110365056B (zh) * 2019-08-14 2021-03-12 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN110929948B (zh) * 2019-11-29 2022-12-16 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN111799808B (zh) * 2020-06-23 2022-06-28 清华大学 基于多智能体深度强化学习的电压分布式控制方法及系统
CN111950873B (zh) * 2020-07-30 2022-11-15 上海卫星工程研究所 基于深度强化学习的卫星实时引导任务规划方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法

Also Published As

Publication number Publication date
CN112507614A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN112186743B (zh) 一种基于深度强化学习的动态电力系统经济调度方法
CN105846461B (zh) 一种大规模储能电站自适应动态规划的控制方法和系统
Oshnoei et al. Disturbance observer and tube-based model predictive controlled electric vehicles for frequency regulation of an isolated power grid
CN114725936A (zh) 基于多智能体深度强化学习的配电网优化方法
CN113363997A (zh) 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN112465664B (zh) 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112003330B (zh) 一种基于自适应控制的微网能量优化调度方法
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
Yu et al. Hierarchical correlated Q-learning for multi-layer optimal generation command dispatch
Yu et al. Stochastic optimal CPS relaxed control methodology for interconnected power systems using Q-learning method
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
Yin et al. Sequential reconfiguration of unbalanced distribution network with soft open points based on deep reinforcement learning
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
Wang et al. Real-time excitation control-based voltage regulation using ddpg considering system dynamic performance
Liu et al. An AGC dynamic optimization method based on proximal policy optimization
CN117117989A (zh) 一种机组组合深度强化学习求解方法
CN116995645A (zh) 基于保护机制强化学习的电力系统安全约束经济调度方法
Liu et al. An instant inertia estimated and operation burden considered frequency regulation method for low inertia power systems
CN114400675B (zh) 基于权重均值深度双q网络的主动配电网电压控制方法
CN115276067A (zh) 一种适应配电网拓扑动态变化的分布式储能电压调节方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Pan Bin

Inventor after: Liu Guomin

Inventor after: Chen Qizhan

Inventor after: Xu Baojun

Inventor after: Li Bin

Inventor after: Fang Song

Inventor after: Yu Junjie

Inventor after: Ruan Zhijie

Inventor after: Zhang Fazhong

Inventor after: He Yi

Inventor before: Pan Bin

Inventor before: Liu Guomin

Inventor before: Chen Qizhan

Inventor before: Xu Baojun

Inventor before: Li Bin

Inventor before: Fang Song

Inventor before: Yu Junjie

Inventor before: Ruan Zhijie

Inventor before: Zhang Fazhong

Inventor before: He Yi

CB03 Change of inventor or designer information