CN116523327A - 一种基于强化学习的配电网运行策略智能生成方法及设备 - Google Patents
一种基于强化学习的配电网运行策略智能生成方法及设备 Download PDFInfo
- Publication number
- CN116523327A CN116523327A CN202310173423.2A CN202310173423A CN116523327A CN 116523327 A CN116523327 A CN 116523327A CN 202310173423 A CN202310173423 A CN 202310173423A CN 116523327 A CN116523327 A CN 116523327A
- Authority
- CN
- China
- Prior art keywords
- power distribution
- distribution network
- reinforcement learning
- intelligent
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 84
- 230000002787 reinforcement Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013486 operation strategy Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 14
- 229910052799 carbon Inorganic materials 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 13
- 238000010977 unit operation Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 36
- 238000004146 energy storage Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 238000006386 neutralization reaction Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Power Engineering (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Water Supply & Treatment (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于强化学习的配电网运行策略智能生成方法,包括如下步骤:定义智能体的运行环境及参数因子;构建基于强化学习的智能体的训练样本池;制定基于强化学习的智能体的网络模型结构;执行基于强化学习的智能体的训练和评估;应用智能体实时生成下一时刻配电网运行调控策略。本发明还设计一种运行策略智能生成设备。本发明的优点在于:基于所有机组和负荷的有功实际出力数据,新能源机组有功预测出力数据等配电网历史运行数据,设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项,运用Deep Q Network深度强化学习算法,在电网仿真环境中训练出智能体,能够快速给出电网运行方式调整策略。
Description
技术领域
本发明涉及领域电网调度运行领域,尤其涉及一种基于强化学习的配电网运行策略智能生成方法。
背景技术
电网运行方式制定是保证电网调度安全稳定运行的重要环节。通常的做法是运行专家利用典型的运行方式,对电网进行建模与安全稳定分析,依据少量的仿真样本寻找描述和影响电网安全的关键特征,并结合专家经验离线制定运行规则,包括编制电网断面及其极限传输容量。然而,这一方式存在的问题在于:1)依赖专家经验、时效性差;2)无法适应复杂多变的电网运行方式,存在安全隐患;运行规则过于保守、经济性差。随着高比例新能源、储能以及海量柔性负荷广泛接入,电力系统的技术基础、控制基础和运行机理发生深刻变化,配电网能源单向流动模式改为潮流与故障电流双向流动模式,运行方式的复杂性和波动性不断攀升,基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后调控需求,采用人工智能技术智能生成配电网运行策略辅助调度决策变得非常迫切。
公开号为CN112580801A的中国发明专利“一种强化学习训练方法及基于强化学习的决策方法”。该方法提出了一种基于历史状态数据的强化学习模型训练方法,并且应用于航空开舱决策,通过多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据,训练出航空开舱决策模型,从而根据航班信息智能生成航空开舱决策数据。该方法通过增加强化学习模型训练样本量,提高强化学习效果,提高动态决策规划结果的准确性,但是应用于航空领域,然后电网运行调度领域业务复杂,实时性、稳定性要求高,涉及的数据不同,强化学习模型训练方法及应用也会不同。
公开号为CN113098007A的中国发明专利“基于分层强化学习的微电网分布式在线调度方法及系统”。该方法基于实时电价信息、每一个微电网的总交易电量、可调度机组在每一个微电网中的功率输出、电池储能系统的输出功率以及充/放电效率数据,训练强化学习模型,智能生成微电网整体运行成本最低的最优调度策略。但是该方法以微电网整体运行成本最低为目标,为考虑微电网新能源消纳比例、碳排放等因素,不能有效地支撑“碳达峰、碳中和”目标落地实现。
公开号为CN110929948A的中国发明专利“基于深度强化学习的完全分布式智能电网经济调度方法”。该方法通过获取网络拓扑结构,建立基于负荷分配和机组组合的经济调度模型,运用深度强化学习模型获得电网经济调度最优解,从而实现智能电网经济调度运行。该方法不仅能够在数据量大、网络结构复杂的智能电网环境下,实现经济调度最优化,而且不依赖于明确的目标函数,能适应分布式能源的“即插即用”特性。但,该方法仍然以电网经济调度运行为目标,为考虑“碳达峰、碳中和”目标下,在确保电网安全稳定运行前提下,即能经济运行又需消纳高比例新能源,从而实现节能降碳目标。
综上所述,目前,电网运行策略制定主要还是依靠行业专家基于自身经验,结合电网历史运行数据和实时运行数据进行策略制定,该方式一是依赖专家经验、时效性差,二是无法适应复杂多变的电网运行方式,存在安全隐患;三是运行规则过于保守、经济性差。也有运用人工智能技术(如机器学习、强化学习)辅助电网经济调度运行,该方式在保障电网安全稳定运行前提下,以电网运行的经济性为调度目标,为考虑“碳达峰、碳中和”目标下,新能源广泛接入后新能源高比例消纳、节能减排等因素。
发明内容
为了解决上述问题,本发明专利提出的一种基于强化学习的配电网运行策略智能生成方法,面对高比例新能源、储能以及海量柔性负荷广泛接入配电网,基于配电网收敛的交流潮流断面及预测数据,综合考虑电网安全、低碳、经济三大因素,利用强化学习技术实现配电网源网荷储协同控制决策和运行方式自动调整,解决基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后配电网安全、低碳、经济运行调控需求问题,有效地支撑“碳达峰、碳中和”目标落地实现。
为实现上述目的,本发明采用以下技术方案:
一种基于强化学习的配电网运行策略智能生成方法,包括如下步骤:定义智能体的运行环境及参数因子;构建基于强化学习的智能体的训练样本池;制定基于强化学习的智能体的网络模型结构;执行基于强化学习的智能体的训练和评估;应用智能体实时生成下一时刻配电网运行调控策略。
更优地,所述定义智能体的运行环境及参数因子,具体为:基于配电网历史运行数据,梳理并定义在所述智能体中其状态空间、动作空间、奖励的影响集。
更优地,所述状态空间集合S由电网运行状态变量组成,表达为:S=
{s|st=(Gpt,Gqt,Lpt,Lqt,GLt,CRGMpt,NRGMpt+1,NLpt+1,...)},其中包括机组有功出力Gpt、机组无功出力Gqt、负荷有功Lpt、负荷无功Lqt、电网损耗GLt、当前时间步新能源机组的最大有功出力CRGMpt、下一时间步新能源机组的最大有功出力NRGMpt+1、下一时间步的负荷预测值NLpt+1,所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定,且可调整。
更优地,所述动作空间集合A由调控动作离散量αi组成,表达式为:A={α1,α2,…,αn}。
更优地,所述奖励集合R由正奖励和负奖励组成,其中正奖励包括线路越限情况和新能源机组消纳量,所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。
更优地,所述智能体的网络模型结构为:智能体是由两个神经网络模块组成,包括行动网络Q(st,αt,θ)和评估网络Q(st,αt,θ-),其中,θ和θ-网络参数;在模型训练的过程中,行动网络根据环境当前状态st,选择一个具有最大价值函数的动作αt+1,评估网络会对选的动作进行评估,计算出在下一个状态st+1选择动作αt+1得到的值Q;进一步计算目标值计算公式为:/>然后计算误差函数L(θ),并通过梯度下降法更新行动网络参数θ,每个固定迭代步数,将行动网络参数同步给评估网络;误差函数计算公式为:
更优地,所述基于强化学习的智能体的模型评估方式为:利用电网仿真模拟器验证所述智能体的决策有效性,从电网安全、低碳、经济三个方面对决策执行效果进行量化评估,同时考虑决策耗时,综合量化评分,具体地,通过计算模型在N个回合中获取的奖励作为评估指标,计算公式如下:
其中si表示第i回合的得分,N表示回合数,Rt表示智能体在t时刻获得的奖励大小,tover表示回合结束的最后时刻,|tover|表示该回合结束时的总时刻个数;每个回合的评分包含所述正奖励和负奖励;回合结束条件为:1)潮流不收敛,由仿真环境返回当前时刻潮流的收敛情况;2)训练达到最大时间步数;3)读取到csv格式的状态变量数据文件中的最后一个断面。
更优地,所述应用智能体实时生成下一时刻配电网运行调控策略,过程如下:智能体从配电网系统中状态空间集合S中获取实时运行状态参数,然后从预先设定的动作空间A中选择一个具有最大价值函数的动作αt,评估网络会对选的动作αt使用预先设定的奖励R进行综合评估,计算出在下一个状态选择动作αt+1,然后通过所述误差函数计算行动网络选择的配电网执行动作αt和评估网络选择的配电网执行动作αt+1之间的误差,并通过梯度下降法对更新行动网络参数,从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。
本发明还提供一种基于强化学习的配电网运行策略智能生成设备。
技术方案如下:
一种基于强化学习的配电网运行策略智能生成设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述基于强化学习的配电网运行策略智能生成方法。
本发明具有如下有益效果:
本发明创新性地提出了基于强化学习的配电网运行策略智能生成方法,基于所有机组和负荷的有功实际出力数据,新能源机组有功预测出力数据等配电网历史运行数据,设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项,运用Deep Q Network深度强化学习算法,在电网仿真环境中训练出智能体,面对新能源、柔性负荷等大规模接入后给配电网的电力平衡、安全运行、运行控制等方面带来的严峻挑战,在联络线阻塞、联络线N-1故障、源荷剧烈波动、新能源限电等电网运行异常场景中,能够快速给出电网运行方式调整策略,辅助调度人员高效制定及执行调度策略,在保证电网安全运行条件下最大程度消纳新能源。本发明基于强化学习的调度策略智能生成方法可为新形势下的配电网安全稳定运行调度提供了强有力的辅助手段。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的基于强化学习的网络模型结构;
图3为本发明基于强化学习的配电网运行策略智能生成模型应用流程图;
图4为本发明基于强化学习的配电网运行策略智能生成模型结构图。
具体实施方式
以下结合附图和具体实施例对本发明做进一步详细说明:
实施例一
请参阅图1,本发明实施过程为:首先,定义智能体的运行环境及参数因子,所述智能体为配电网运行策略智能生成模型。基于配电网历史运行数据,梳理并定义在智能体中其状态空间、动作空间、奖励的参数集合;其次,构建模型训练样本池,梳理配电网中基于在不同运行场景中的新能源发电功率、储能装置储电量及充放电状态、用电负荷量等数据,并按照深度强化学习训练数据集格式要求进行整合,放入样本池中供模型训练、评估使用;然后,设计强化学习模型的网络模型结构;接着,开展基于强化学习的智能体训练和评估;最后开展基于智能体的应用。
较优地,定义智能体的运行环境及参数因子的过程为:强化学习算法应用到配电网运行智能调度时,需要确定该应用背景下智能体的状态空间、动作空间以及外部环境返回的奖励。其中,对于状态空间集合S,由电网运行状态变量组成,包括有功出力Gpt、机组无功出力Gqt、负荷有功Lpt、负荷无功Lqt、电网损耗(网损值)GLt、当前时间步新能源机组的最大有功出力CRGMpt、下一时间步新能源机组的最大有功出力NRGMpt+1、下一时间步的负荷预测值NLpt+1等,如以下公式所示:
S={s|st=(Gpt,Gqt,Lpt,Lqt,GLt,CRGMpt,NRGMpt+1,NLpt+1,...)}
本发明所涉及的全部状态变量如表1,可以根据实际配电网运行调度决策所涉及的数据动态调整状态空间集合S中的变量。
表1本发明涉及的全部状态变量:
对于动作空间集合A:在强化学习模型智能生成调度决策模式下,智能体直接输出t+1时刻配电网运行需要完成的动作(调控)指令。因此,动作空间集合A由配电网针对外部环境变化进行机组有功出力调整值、机组电压调整值等调控动作的n个等离散量αi组成,表达式为:
A={α1,α2,…,αn}。
针对配电网不同运行状态,智能体动态地在动作空间中选择能使配电网能够长期安全稳定运行和最大程度消纳新能源。
对于,奖励集合R:在学习环节中,强化学习算法需要根据外部环境返回的奖励来确定控制器参数的更新方向与幅度。本发明中,外部环境指配电网仿真环境或实际运行环境;奖励(reward)作为智能体算法的优化目标,具体形式可由基于不同地理位置的配电网进行自义,其可分为正奖励和负奖励,每类奖励计算方式不同,可涉及如下奖励:
(1)线路越限情况(正奖励)
其中,nline表示电网支路个数,Ii和Ti表示支路i的电流和热极限,∈为一常数取值为0.1,避免出现分母为零的情况。
(2)新能源机组消纳量(正奖励)
其中,nnew表示新能源机组个数,pi表示新能源机组i的实际有功出力,表示新能源机组i在当前时间步的最大出力。
(3)平衡机功率越限(负奖励)
其中,nbalanced表示平衡机个数,pi表示平衡机i的实际有功出力,表示平衡机的出力上限。
(4)机组运行费用(负奖励)
其中,ngen表示机组总数,pi表示机组i的实际有功出力,a,b,c表示系数。新能源和平衡机没有关机状态,一直保持开机。火电机组的关机状态通过判断机组有功出力是否为零来确定。
(5)无功出力越限(负奖励)
其中,ngen表示机组总个数,qi表示机组的实际无功出力,表示机组的无功出力上限,/>表示机组的无功出力下限。
(6)节点电压越限(负奖励)
其中,nsub表示电网节点个数,vi表示节点i的电压值,表示节点i的电压上限,/>表示节点i的电压下限。
对奖励项r4、r5、r6进行归一化,公式如下:
r=er-1
综上所述,奖励项r1、r2的域值为[0,1],奖励项r3、r4、r5、r6的域值为[-1,0]。
默认使用的奖励,公式如下:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,根据电网运行考验侧重点进行取值,默认取值如下:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1
较优地,所述构建模型训练样本池的过程为:梳理配电网在不同运行场景中的运行调度数据以及预测数据,例如,样本池中包括新能源发电功率、储能装置储电量及充放电状态、用电负荷量、新能源发电功率预测数据等数据,然后按照深度强化学习训练数据集格式要求进行整合,放入样本池中供模型训练、评估使用。本实施例的训练数据集包括所有机组和负荷的有功实际出力数据,新能源机组有功预测出力数据、所有机组和负荷的无功出力数据等,间隔5分钟,共106820个断面,以文件(CSV格式)提供。机组有功实际出力数据文件名为gen_p.csv,负荷实际有功数据文件名为load_p.csv,新能源机组有功预测出力数据文件名为max_renewable_gen_p.csv。此外,可根据配电网运行调度涉及的数据进行扩充样本池数据,也可选择其他合适的文件存储训练数据。本实施中各数据样例如表2至6所示。机组有功出力数据样例如表2所示,机组无功出力数据样例如表3所示,负荷有功数据样例如表4所示,负荷无功数据样例如表5所示,新能源机组的最大有功出力数据样例如表6所示。
表2机组有功出力数据样例:
bus.119.gen | bus.4.gen | bus.6.gen | bus.8.gen | bus.10.gen | bus.12.gen | bus.15.gen | ... |
42.4454 | 39.7933 | 19.4461 | 48.5332 | 29.0926 | 45.7806 | 22.0707 | ... |
37.148 | 44.747 | 20.3658 | 47.4539 | 28.1896 | 46.8318 | 23.0179 | ... |
38.9992 | 43.3768 | 20.4394 | 47.3854 | 25.9792 | 44.7304 | 23.5793 | ... |
40.1064 | 41.4658 | 20.7466 | 47.4318 | 29.2467 | 46.7307 | 24.1113 | ... |
38.2258 | 45.4724 | 21.0794 | 46.3818 | 28.0512 | 46.665 | 24.7876 | ... |
表3机组无功出力数据样例:
bus.119.gen | bus.4.gen | bus.6.gen | bus.8.gen | bus.10.gen | bus.12.gen | bus.15.gen | ... |
-11.7885 | 7.30425 | 4.2435 | 24.8199 | 1.20636 | 33.0045 | 13.8005 | ... |
-9.60847 | 3.32728 | 4.38788 | 25.6982 | 1.26281 | 27.7218 | 11.9094 | ... |
-10.0913 | 3.13964 | 0.739671 | 25.7179 | 1.40313 | 27.2904 | 12.2701 | ... |
-11.1651 | 6.455 | 4.35677 | 24.8861 | 1.19678 | 33.2274 | 13.9639 | ... |
-9.78648 | 5.69276 | 3.57732 | 24.3554 | 1.2715 | 34.4442 | 12.2887 | ... |
-10.2673 | 4.47333 | 5.94144 | 25.2923 | 1.29172 | 32.5484 | 12.107 | ... |
表4负荷有功数据样例:
bus.1.ld | bus.2.ld | bus.3.ld | bus.4.ld | bus.6.ld | bus.7.ld | bus.11.ld | ... |
8.06735 | 23.7957 | 30.2204 | -9.97588 | 6.49284 | 9.36401 | 44.0779 | ... |
7.87554 | 23.9146 | 29.9169 | -10.963 | 6.50718 | 9.40344 | 28.8993 | ... |
7.17284 | 23.9481 | 30.0651 | -12.1922 | 6.35421 | 8.92063 | 28.4649 | ... |
5.78177 | 23.5364 | 30.0101 | -11.692 | 6.32015 | 8.638 | 35.0868 | ... |
8.09185 | 23.7013 | 29.51 | -12.5883 | 6.36736 | 9.66397 | 37.8223 | ... |
5.12508 | 23.543 | 29.1323 | -13.156 | 6.39723 | 8.6386 | 40.3559 | ... |
表5负荷无功数据样例:
bus.1.ld | bus.2.ld | bus.3.ld | bus.4.ld | bus.6.ld | bus.7.ld | bus.11.ld | ... |
-4.24072 | -5.86244 | 4.21383 | 6.71512 | -5.52244 | 0.851491 | 11.6908 | ... |
-2.63574 | -5.96701 | 4.18097 | 7.1083 | -4.97689 | 0.944706 | 8.29262 | ... |
-2.46604 | -6.01481 | 4.19471 | 7.52897 | -8.16535 | 0.489981 | 6.98939 | ... |
-3.1783 | -6.31238 | 4.02023 | 7.59948 | -4.56877 | 0.433812 | 13.8784 | ... |
-2.45887 | -5.74353 | 4.02023 | 7.76739 | -5.72381 | 0.889733 | 14.5799 | ... |
-2.65307 | -4.98944 | 3.68979 | 7.59709 | -3.77883 | 1.39644 | 14.5076 | ... |
表6新能源机组的最大有功出力数据样例
请参阅图2,更优地,所述基于强化学习的智能体的网络模型结构设计过程为:本实施例中的智能体是由两个神经网络模块组成,即行动网络Q(st,αt,θ)和评估网络Q(st,αt,θ-)。其中,θ和θ-网络参数,主要包含神经网络各层的“权重、偏置”等具体参数值,是DQN算法内部的参数变量。在模型训练的过程中,行动网络根据环境当前状态st,采用ε-greedy策略,即贪心策略,选择一个具有最大价值函数的动作αt+1,评估网络会对选的动作进行评估,计算出在下一个状态st+1选择动作αt+1得到的值Q。目标值计算公式为:
通过行动网络计算的价值和评估网络计算价值计算出误差函数L(θ),根据误差函数计算结果,利用梯度下降法更新行动网络参数,每个固定迭代步数,将行动网络参数同步给评估网络。误差函数计算公式为:
所述ε-greedy策略如下:
输入:状态集S、动作集A、奖励r、折扣系统γ、探索率ε
输出:最优的动作价值函数q*、最优策略c*;
步骤1:初始化所有的动作价值f(s,a)=0,状态次数N(s,α)=0,采用次数k=0,随机初始化一个策略c
步骤2:k=k+1,基于策略c产生完整的episold序列:
S1,A1,r2,S2,A2,r3,...St,At,rt+1,...,ST,AT,rT+1
步骤3:对于序列出现的每一对q(St,At),计算其收获Gt,更新其计数N(St)及动作价值函数:
Gt=rt+1+γrt+2+Y2rt+3+...+γT-1rt+T
N(St)=N(St)+1
q(St,At)=q(St,At)+a(Gt-q(St-1,At-1))
步骤4:基于新计算出的动作价值,更新当前的ε-greedy策略:
步骤5:如果所有的q(St,At)收敛,则对应的所有q(St,At)即为最优的动作价值函数q*。对应的策略c(α|s)即为最优策略c*。否则转到步骤2。
需要说明的是:ε-greedy策略中q*、c*对应的动作就是本实施例中的动作αt+1。
DQN(深度强化学习)引入的另一技术是经验回放策略,它将训练过程中与环境交互获得的数据以四元组<st,αt,rt,st+1>的形式存储在样本池(存放智能体所学习到的经验数据)中,通过统一采样样本对神经网络进行训练。由于强化学习连续的经验样本在时间上具有相关性,需要通过小批量采样进行学习提高训练效率。神经网络也需要大量的数据进行训练以达到收敛状态,经验回放机制可以对经验样本重复利用,加快算法的收敛速度。
更优地,选择合适的深度强化学习算法,开展模型训练,具体过程为:强化学习算法主要包含Q-learning、Sarsa、Deep Q Network(DQN)、Policy Grandient等。本实施例选择基于经验回放的DQN深度强化学习算法进行模型训练,为了加快模型训练速度,选择在带GPU服务器上开展模型训练。该算法伪代码如下:
初始化样本池D,样本池容量N,∈参数,折扣系数γ,学习率α,训练回合数M,每回合步数T
初始化神经网络Q-NetWord(行动网络)、Target-Network(评估网络),网络参数θ和θ-
for episode=1,M do
初始化仿真环境,初始化st
for t=1,T do
根据ε-greedy策略,以概率ε从动作空间选择一个随机动作αt
否则Q-Network根据选择动作
执行动作αt,智能体从环境得到奖励rt和新的状态st+1
将经验样本e=<st,αt,rt,st+1>存储在经验缓冲池D中
从经验缓冲池D中抽取数量为minibatch的经验样本<sj,αj,rj,sj+1>
根据损失函数通过梯度下降算法更新Q-NetWord的网络参数θ
每隔C步更新Target-Network网络参数θ-,θ←θ-
更优地,所述基于强化学习的智能体的模型评估方式过程为:本实施例利用电网仿真模拟器验证智能体决策有效性,从电网安全、低碳、经济三个方面对决策执行效果进行量化评估,同时考虑决策耗时,综合量化评分。可通过计算模型在N个回合中获取的奖励作为评估指标,计算公式如下:
其中si表示第i回合的得分,N表示回合数,Rt表示智能体在t时刻获得的奖励大小,tover表示回合结束的最后时刻,|tover|表示该回合结束时的总时刻个数。较优地,score总分可以设置为100,由于每个回合的奖励项有正有负,回合得分不一致。当回合结束后,可以计算出总平均得分,平均得分越接近100,说明模型性能越好。
每个回合的评分包含以下奖励项:(1)线路越限情况(正奖励)、(2)新能源机组消纳量(正奖励)、(3)机组运行费用(负奖励)、(4)平衡机功率越限(负奖励)、(5)无功出力越限(负奖励)、(6)节点电压越限(负奖励)。回合结束条件:1)潮流不收敛,由仿真环境返回当前时刻潮流的收敛情况;潮流计算收敛就是在矩阵迭代求解的时候,能够在有限的次数内达到目标,求得方程的解,若潮流不收敛,即潮流计算无结果;2)训练达到最大时间步数;3)读取到csv格式的状态变量数据文件中的最后一个断面。
请参阅图3和图4,更优地,在电网仿真环境中完成智能体训练及评估后,可将智能体部署在配电网运行调控系统中,接入配电网实时运行数据(如与D5000系统集成),实时生成下一时刻配电网运行调控策略。策略生成过程如下:
智能体从配电网系统中(如D5000)获取配电网实时运行状态参数集合S,包含但不限机组有功出力、机组无功出力、负荷有功、负荷无功、电网损耗(网损值)、当前时间步新能源机组的最大有功出力、下一时间步新能源机组的最大有功出力、下一时间步的负荷预测值等数据,从预先设定的动作空间A,包含但不限机组有功出力调整动作、机组电压调整动作等中选择一个具有最大价值函数的动作αt,评估网络会对选的动作αt使用预先设定的奖励R,包含但不限线路越限情况、新能源机组消纳量、平衡机功率越限、机组运行费用、无功出力越限、节点电压越限等进行综合评估,计算出在下一个状态选择动作αt+1。然后通过时序差分方法(DQN误差函数)计算行动网络选择的配电网执行动作αt和评估网络选择的配电网执行动作αt+1之间的误差,并通过梯度下降法对更新行动网络参数,从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。同时保存电网当前运行状态S、执行动作α、奖励R、下一时刻运行状态St等信息,并在每个固定迭代步数时,将行动网络参数同步给评估网络网络。
由于智能体生成的运行调控策略无法达到100%准确性,以及电网运行调控高安全、高稳定性要求,相关调控策略还需调度人员审核后再执行。智能体可辅助调度人员开展配电网运行调度决策,提升调度人员应对新能源、柔性负荷等大规模接入后联络线阻塞、联络线N-1故障、源荷剧烈波动、新能源限电等配电网运行典型场景下调度决策效率和效益。
本发明创新性地提出了基于强化学习的配电网运行策略智能生成方法,基于所有机组和负荷的有功实际出力数据,新能源机组有功预测出力数据等配电网历史运行数据,设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项,运用Deep Q Network深度强化学习算法,在电网仿真环境中训练出智能体,面对新能源、柔性负荷等大规模接入后给配电网的电力平衡、安全运行、运行控制等方面带来的严峻挑战,在联络线阻塞、联络线N-1故障、源荷剧烈波动、新能源限电等电网运行异常场景中,能够快速给出电网运行方式调整策略,辅助调度人员高效制定及执行调度策略,在保证电网安全运行条件下最大程度消纳新能源。本发明基于强化学习的调度策略智能生成方法可为新形势下的配电网安全稳定运行调度提供了强有力的辅助手段。
基于相同的发明构思,本发明还提供一种执行实施例一所述方法的设备。
实施例二
请参阅图1至图4,一种基于强化学习的配电网运行策略智能生成设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述基于强化学习的配电网运行策略智能生成方法。
本实施例未详尽描述的实施方式与实施例一相同。
本实施例具有与实施例一相同的有益效果。
以上所述仅为本发明的具体实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于强化学习的配电网运行策略智能生成方法,其特征在于:包括如下步骤:
定义智能体的运行环境及参数因子,所述智能体为配电网运行策略智能生成模型;
构建基于强化学习的智能体的训练样本池;
制定基于强化学习的智能体的网络模型结构;
执行基于强化学习的智能体的训练和评估;
应用智能体实时生成下一时刻配电网运行调控策略。
2.根据权利要求1所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述定义智能体的运行环境及参数因子,具体为:基于配电网历史运行数据,梳理并定义在所述智能体中其状态空间、动作空间、奖励的参数集合。
3.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述状态空间集合S由电网运行状态变量组成,所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定,且所包含的状态变量可调整。
4.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述动作空间集合A由调控动作离散量αi组成,表达式为:A={α1,α2,...,αn}。
5.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述奖励集合R由正奖励和负奖励组成,其中正奖励包括线路越限情况和新能源机组消纳量,所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。
6.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述智能体的网络模型结构为:智能体是由两个神经网络模块组成,包括行动网络和评估网络/>其中,θ和θ-网络参数;在模型训练的过程中,行动网络根据环境当前状态st,选择一个具有最大价值函数的动作αt+1,评估网络会对选的动作进行评估,计算出在下一个状态st+1选择动作αt+1得到的值Q;进一步计算目标值Υt DQN,计算公式为:/>然后计算误差函数L(θ),并通过梯度下降法更新行动网络参数θ,每个固定迭代步数,将行动网络参数同步给评估网络;误差函数计算公式为:
7.根据权利要求1所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述基于强化学习的智能体的模型评估方式为:利用电网仿真模拟器验证所述智能体的决策有效性,从电网安全、低碳、经济三个方面对决策执行效果进行量化评估,同时考虑决策耗时,综合量化评分,具体地,通过计算模型在N个回合中获取的奖励作为评估指标,计算公式如下:
其中si表示第i回合的得分,N表示回合数,Rt表示智能体在t时刻获得的奖励大小,tover表示回合结束的最后时刻,|tover|表示该回合结束时的总时刻个数;每个回合的评分包含所述正奖励和负奖励;回合结束条件为:
1)潮流不收敛,由仿真环境返回当前时刻潮流的收敛情况;
2)训练达到最大时间步数;
3)读取到csv格式的状态变量数据文件中的最后一个断面。
8.根据权利要求6所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述应用智能体实时生成下一时刻配电网运行调控策略,过程如下:智能体从配电网系统中状态空间集合S中获取实时运行状态参数,然后从预先设定的动作空间A中选择一个具有最大价值函数的动作αt,评估网络会对选的动作αt使用预先设定的奖励R进行综合评估,计算出在下一个状态选择动作αt+1,然后通过所述误差函数计算行动网络选择的配电网执行动作α和评估网络选择的配电网执行动作αt+1之间的误差,并通过梯度下降法对更新行动网络参数,从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。
9.一种基于强化学习的配电网运行策略智能生成设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任意一项所述的基于强化学习的配电网运行策略智能生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310173423.2A CN116523327A (zh) | 2023-02-28 | 2023-02-28 | 一种基于强化学习的配电网运行策略智能生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310173423.2A CN116523327A (zh) | 2023-02-28 | 2023-02-28 | 一种基于强化学习的配电网运行策略智能生成方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116523327A true CN116523327A (zh) | 2023-08-01 |
Family
ID=87392840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310173423.2A Pending CN116523327A (zh) | 2023-02-28 | 2023-02-28 | 一种基于强化学习的配电网运行策略智能生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523327A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151928A (zh) * | 2023-09-05 | 2023-12-01 | 广州大学 | 结合强化学习的节电计算方法及装置 |
CN118137589A (zh) * | 2024-05-10 | 2024-06-04 | 国网山西省电力公司运城供电公司 | 分布式能源接入配电网的管理方法及系统 |
-
2023
- 2023-02-28 CN CN202310173423.2A patent/CN116523327A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151928A (zh) * | 2023-09-05 | 2023-12-01 | 广州大学 | 结合强化学习的节电计算方法及装置 |
CN118137589A (zh) * | 2024-05-10 | 2024-06-04 | 国网山西省电力公司运城供电公司 | 分布式能源接入配电网的管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Deep learning adaptive dynamic programming for real time energy management and control strategy of micro-grid | |
CN116523327A (zh) | 一种基于强化学习的配电网运行策略智能生成方法及设备 | |
Xu et al. | A soft actor-critic-based energy management strategy for electric vehicles with hybrid energy storage systems | |
CN115241885B (zh) | 电网实时调度优化方法、系统、计算机设备及存储介质 | |
Mandal et al. | Daily combined economic emission scheduling of hydrothermal systems with cascaded reservoirs using self organizing hierarchical particle swarm optimization technique | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
CN113410900B (zh) | 基于自适应差分鲸鱼优化的微电网hess优化配置方法及系统 | |
CN107516892A (zh) | 基于处理有功优化约束条件提高电能质量的方法 | |
CN114784823A (zh) | 基于深度确定性策略梯度的微电网频率控制方法及系统 | |
Zhang et al. | A cooperative EV charging scheduling strategy based on double deep Q-network and Prioritized experience replay | |
Liu et al. | Multi-agent quantum-inspired deep reinforcement learning for real-time distributed generation control of 100% renewable energy systems | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
Zhang et al. | Physical-model-free intelligent energy management for a grid-connected hybrid wind-microturbine-PV-EV energy system via deep reinforcement learning approach | |
Nourianfar et al. | Economic emission dispatch considering electric vehicles and wind power using enhanced multi-objective exchange market algorithm | |
CN114123256A (zh) | 一种适应随机优化决策的分布式储能配置方法及系统 | |
CN116796911A (zh) | 基于典型场景生成与在线场景匹配的中压配电网优化调控方法及系统 | |
Qiu et al. | Local integrated energy system operational optimization considering multi‐type uncertainties: A reinforcement learning approach based on improved TD3 algorithm | |
CN116995645A (zh) | 基于保护机制强化学习的电力系统安全约束经济调度方法 | |
CN116544995A (zh) | 基于云边协同的储能电池一致性充放电控制方法及系统 | |
CN114048576B (zh) | 一种稳定电网输电断面潮流的储能系统智能化控制方法 | |
CN115829258A (zh) | 基于多项式混沌近似动态规划的电力系统经济调度方法 | |
CN117200225B (zh) | 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置 | |
Kang et al. | Power flow coordination optimization control method for power system with DG based on DRL | |
CN114781274B (zh) | 仿真与决策交替学习的综合能源系统控制优化方法与系统 | |
CN115912424A (zh) | 一种直流建筑能量管理优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |