CN114139354A - 基于强化学习的电力系统仿真调度方法及系统 - Google Patents

基于强化学习的电力系统仿真调度方法及系统 Download PDF

Info

Publication number
CN114139354A
CN114139354A CN202111336981.3A CN202111336981A CN114139354A CN 114139354 A CN114139354 A CN 114139354A CN 202111336981 A CN202111336981 A CN 202111336981A CN 114139354 A CN114139354 A CN 114139354A
Authority
CN
China
Prior art keywords
power system
dispatcher
scheduling
reinforcement learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111336981.3A
Other languages
English (en)
Other versions
CN114139354B (zh
Inventor
孙善宝
王晓利
张晖
罗清彩
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Science Research Institute Co Ltd
Original Assignee
Shandong Inspur Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Science Research Institute Co Ltd filed Critical Shandong Inspur Science Research Institute Co Ltd
Priority to CN202111336981.3A priority Critical patent/CN114139354B/zh
Publication of CN114139354A publication Critical patent/CN114139354A/zh
Application granted granted Critical
Publication of CN114139354B publication Critical patent/CN114139354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了基于强化学习的电力系统仿真调度方法及系统,属于数字能源、物联网、深度学习和强化学习技术领域,本发明要解决的技术问题为如何有效的利用强化学习技术通过对电力系统的虚拟仿真来模拟真实环境,形成电力系统调度员的准确高效的调度策略,辅助电力调度员决策,避免调度失误造成的不良后果,采用的技术方案为:该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用A3C训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。

Description

基于强化学习的电力系统仿真调度方法及系统
技术领域
本发明涉及数字能源、物联网、深度学习和强化学习技术领域,具体地说是一种基于强化学习的电力系统仿真调度方法及系统。
背景技术
近年来,强化学习技术受到了大家的广泛关注,特别是与深度学习结合,给人工智能领域带来了很大的进展。强化学习不同于传统的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。强化学习通过智能体agent与环境之间交互的任务,不断地学习在不同的环境下做出最优的动作,利用这些感知生成策略,因而可以创造更高的机器智能。强化学习在机器人控制、自动驾驶、推荐系统领域等都得到了应用,在很多领域都超越了人类表现。
电力系统调度是由许多发电厂提供电能,通过输电、变电、配电、供电网络向广大用户供电,是一个复杂的系统。其产、供、销过程在一瞬间同时完成和平衡。电力系统调度要随时保持发电与负荷的平衡,要求调度管辖范围内的每一个部门严格按质按量完成调度任务。随着近年来分布式光伏、分布式风电等可再生能源发展迅速,清洁能源的消纳给电力系统的调度带来了新的挑战。电力系统在新的发电能源比例构成下,对电力系统调度员有了更高的要求,电力系统调度员指挥与监控系统频率调整,在保证电力系统安全运行的前提下,可以尽可能多的消纳清洁能源。目前电力系统已针对新能源的比例增高及电力负荷侧消耗电力多样性的特点,通过各类传感器收集来自源网荷储的数据,通过数据分析来更好的了解参与电力系统的参与者的状态。能够提前发现问题并能及时响应处理电力系统出现的异常故障以及减少调度员人为操作失误,仍然是电力系统调度的最主要的挑战。故如何有效的利用强化学习技术通过对电力系统的虚拟仿真来模拟真实环境,形成电力系统调度员的准确高效的调度策略,辅助电力调度员决策,避免调度失误造成的不良后果成为亟需解决的问题。
发明内容
本发明的技术任务是提供一种基于强化学习的电力系统仿真调度方法及系统,来解决如何有效的利用强化学习技术通过对电力系统的虚拟仿真来模拟真实环境,形成电力系统调度员的准确高效的调度策略,辅助电力调度员决策,避免调度失误造成的不良后果的问题。
本发明的技术任务是按以下方式实现的,一种基于强化学习的电力系统仿真调度方法,该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用A3C训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。
作为优选,所述电力系统模拟仿真环境运行在电力系统云数据中心,通过对于与各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数据孪生运行体;
电力系统云数据中心用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,手机来自各个参与电力系统单元的传感数据,同时提供强化学习训练所需的算力和存储。
作为优选,所述强化学习电力系统调度员决策模型π是模拟调度员的实际操作形成的策略模型,通过强化学习训练得到,主体为序列化神经网络模型,根据当前电力系统的电力计划、频率情况、电压情况及检修情况的实际运行情况决定电力系统调度员要执行的调度操作。
作为优选,强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构),独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π。
作为优选,最佳执行策略用于辅助电力系统调度员执行决策具体如下:
①、利用已经构建的数字孪生系统实时采集当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境;
②、利用强化学习训练得到的强化学习电力系统调度员决策模型π,根据当前实际状况,输出下一步调度操作;
③、记录当前电力系统虚拟仿真环境状态,强化学习电力系统调度员决策模型π推荐的下一步操作,反馈更新电力系统虚拟仿真环境;
④、设定时间段,重复执行步骤②至步骤③,形成电力系统调度员推荐操作序列,用于辅助决策;
⑤、电力系统调度操作员根据推荐操作,结合实际状况进行调度操作;
⑥、电力系统获取实际操作结果,更新当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境,转到步骤②;
⑦、持续更新运行状态,输出辅助推荐操作。
作为优选,强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
作为优选,所述参与电力系统单元包括发电系统、输电配电网以及用电负荷;
其中,发电系统用于产生电力,包括风力发电、光伏发电、水利发电及核电的清洁能源以及传统的火力发电的化石燃料发电;
输电配电网用于保证电力的安全传输;
用电负荷指电力的消耗,电力的消耗包括工业负荷、居民负荷、商业负荷。
更优地,所述电力系统调度操作包括设定机组出力的上限和下限、设定机组长落出力速度的调整发电机组出力设置以及调整修改电力计划、事故拉闸限电、倒闸操作和设备检修的操作。
一种基于强化学习的电力系统仿真调度系统,该系统包括,
电力系统云数据中心,用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,收集来自各个参与电力系统单元的传感数据,并提供强化学习训练所需的算力及存储;
强化学习电力系统调度员决策模型π,用于通过通过强化学习训练得到,主体是序列化神经网络模型,根据当前电力系统实际运行情况,决定电力系统调度员要执行的调度操作;其中,当前电力系统实际运行情况包括电力计划、频率情况、电压情况及检修情况;
电力系统仿真模拟环境,用于运行在电力系统云数据中心,通过对于各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数字孪生运行体。
作为优选,强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构),独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π;
强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
本发明的基于强化学习的电力系统仿真调度方法及系统具有以下优点:
(一)本发明充分考虑到分布式清洁能源的消纳给电力系统安全运行带来的挑战以及电力系统调度员的人为操作影响,通过大量传感设备来收集电力系统数据,基于海量数据利用数字孪生技术形成仿真环境,设计强化学习电力系统调度员决策模型,并根据实际电力系统调度员的情况,采用A3C训练方法与仿真环境进行交互,最终形成最佳执行策略,用于辅助电力系统调度员决策执行,尽量消除人为操作失误带来的影响,提升调度效率及准确度;
(二)本发明与传统的基于电力系统特性的数学模拟调度相比,采用强化学习训练形成的强化学习电力系统调度员决策模型,能够更加真实的模拟现实电力系统调度员个性化的操作,进而更好的模拟现实环境操作,更加准确的发现调度存在的问题,进而改善调度策略;
(三)本发明通过对于真实电力系统调度员的模拟,并与最佳调度指令执行策略对比,及时发现电力系统调度员调度问题,持续改善和优化调度策略,保证电网的安全运行。
附图说明
下面结合附图对本发明进一步说明。
附图1为电力系统及电力系统模拟仿真环境的组成示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于强化学习的电力系统仿真调度方法及系统作以下详细地说明。
实施例1:
本发明的基于强化学习的电力系统仿真调度方法,该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用A3C训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。
如附图1所示,本实施例中的参与电力系统单元包括发电系统、输电配电网以及用电负荷;其中,发电系统用于产生电力,包括风力发电、光伏发电、水利发电及核电的清洁能源以及传统的火力发电的化石燃料发电;输电配电网用于保证电力的安全传输;用电负荷指电力的消耗,电力的消耗包括工业负荷、居民负荷、商业负荷。
本实施例中的电力系统模拟仿真环境运行在电力系统云数据中心,通过对于与各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数据孪生运行体;
本实施例中的电力系统云数据中心用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,手机来自各个参与电力系统单元的传感数据,同时提供强化学习训练所需的算力和存储。
本实施例中的强化学习电力系统调度员决策模型π是模拟调度员的实际操作形成的策略模型,通过强化学习训练得到,主体为序列化神经网络模型,根据当前电力系统的电力计划、频率情况、电压情况及检修情况的实际运行情况决定电力系统调度员要执行的调度操作。
本实施例中的电力系统调度操作包括设定机组出力的上限和下限、设定机组长落出力速度的调整发电机组出力设置以及调整修改电力计划、事故拉闸限电、倒闸操作和设备检修的操作。
本实施例中的强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构),独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π。
本实施例中的最佳执行策略用于辅助电力系统调度员执行决策具体如下:
①、利用已经构建的数字孪生系统实时采集当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境;
②、利用强化学习训练得到的强化学习电力系统调度员决策模型π,根据当前实际状况,输出下一步调度操作;
③、记录当前电力系统虚拟仿真环境状态,强化学习电力系统调度员决策模型π推荐的下一步操作,反馈更新电力系统虚拟仿真环境;
④、设定时间段,重复执行步骤②至步骤③,形成电力系统调度员推荐操作序列,用于辅助决策;
⑤、电力系统调度操作员根据推荐操作,结合实际状况进行调度操作;
⑥、电力系统获取实际操作结果,更新当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境,转到步骤②;
⑦、持续更新运行状态,输出辅助推荐操作。
本实施例中的强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
实施例2:
本发明的基于强化学习的电力系统仿真调度系统,该系统包括,
电力系统云数据中心,用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,收集来自各个参与电力系统单元的传感数据,并提供强化学习训练所需的算力及存储;
强化学习电力系统调度员决策模型π,用于通过通过强化学习训练得到,主体是序列化神经网络模型,根据当前电力系统实际运行情况,决定电力系统调度员要执行的调度操作;其中,当前电力系统实际运行情况包括电力计划、频率情况、电压情况及检修情况;
电力系统仿真模拟环境,用于运行在电力系统云数据中心,通过对于各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数字孪生运行体。
本实施例中的强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构),独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π;
本实施例中的强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于强化学习的电力系统仿真调度方法,其特征在于,该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据,利用数字孪生技术形成电力系统模拟仿真环境,并设计强化学习电力系统调度员决策模型π,再根据实际电力系统调度员的情况,采用A3C训练方法与电力系统仿真环境进行交互,最终形成最佳执行策略,最佳执行策略用于辅助电力系统调度员执行决策。
2.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述电力系统模拟仿真环境运行在电力系统云数据中心,通过对于与各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数据孪生运行体;
电力系统云数据中心用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,手机来自各个参与电力系统单元的传感数据,同时提供强化学习训练所需的算力和存储。
3.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述强化学习电力系统调度员决策模型π是模拟调度员的实际操作形成的策略模型,通过强化学习训练得到,主体为序列化神经网络模型,根据当前电力系统的电力计划、频率情况、电压情况及检修情况的实际运行情况决定电力系统调度员要执行的调度操作。
4.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构,独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π。
5.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,最佳执行策略用于辅助电力系统调度员执行决策具体如下:
①、利用已经构建的数字孪生系统实时采集当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境;
②、利用强化学习训练得到的强化学习电力系统调度员决策模型π,根据当前实际状况,输出下一步调度操作;
③、记录当前电力系统虚拟仿真环境状态,强化学习电力系统调度员决策模型π推荐的下一步操作,反馈更新电力系统虚拟仿真环境;
④、设定时间段,重复执行步骤②至步骤③,形成电力系统调度员推荐操作序列,用于辅助决策;
⑤、电力系统调度操作员根据推荐操作,结合实际状况进行调度操作;
⑥、电力系统获取实际操作结果,更新当前电力系统的实际运行数据,并实时更新到电力系统虚拟仿真环境,转到步骤②;
⑦、持续更新运行状态,输出辅助推荐操作。
6.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
7.根据权利要求1所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述参与电力系统单元包括发电系统、输电配电网以及用电负荷;
其中,发电系统用于产生电力,包括风力发电、光伏发电、水利发电及核电的清洁能源以及传统的火力发电的化石燃料发电;
输电配电网用于保证电力的安全传输;
用电负荷指电力的消耗,电力的消耗包括工业负荷、居民负荷、商业负荷。
8.根据权利要求1-7中任一所述的基于强化学习的电力系统仿真调度方法,其特征在于,所述电力系统调度操作包括设定机组出力的上限和下限、设定机组长落出力速度的调整发电机组出力设置以及调整修改电力计划、事故拉闸限电、倒闸操作和设备检修的操作。
9.一种基于强化学习的电力系统仿真调度系统,其特征在于,该系统包括,
电力系统云数据中心,用于提供计算、存储及网络的云基础设施服务,并且运行电力系统的业务系统,收集来自各个参与电力系统单元的传感数据,并提供强化学习训练所需的算力及存储;
强化学习电力系统调度员决策模型π,用于通过通过强化学习训练得到,主体是序列化神经网络模型,根据当前电力系统实际运行情况,决定电力系统调度员要执行的调度操作;其中,当前电力系统实际运行情况包括电力计划、频率情况、电压情况及检修情况;
电力系统仿真模拟环境,用于运行在电力系统云数据中心,通过对于各个参与电力系统单元的数据采集及指令控制,实现各个参与电力系统单元的数字孪生运行体。
10.根据权利要求9所述的基于强化学习的电力系统仿真调度系统,其特征在于,强化学习电力系统调度员决策模型π的训练过程具体如下:
(1)、收集海量的电力系统运行数据,电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息;
(2)、根据收集的电力系统运行历史数据,构建数字孪生系统,形成电力系统模拟仿真环境;
(3)、根据电力系统调度员实际操作,结合电力系统实际操作的上下文状态环境,构建电力系统调度员调度操作指令执行序列ExeSeq(状态s,操作指令a);
(4)、设计强化学习电力系统调度员决策模型π,根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据,确定下一步执行调度操作;
(5)、根据电力系统调度员调度操作,基于历史数据实际执行效果,结合在电力系统模拟仿真环境,设定电力系统模拟仿真环境的奖励函数;
(6)、在电力系统云数据中心申请资源,采用A3C算法训练强化学习电力系统调度员决策模型π,设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数;
(7)、初始化强化学习电力系统调度员决策模型π,设定全局模型公共神经网络,设置电力系统虚拟仿真环境初始化状态s0;其中,全局模型公共神经网络包括Actor网络和Critic网络;
(8)、利用A3C算法,每个worker线程采用Actor网络和Critic网络结构,独立与电力系统虚拟仿真环境进行交互,执行调度操作获得反馈,并更新本地Actor网络和Critic网络梯度;
(9)、将更新后的结果汇集到全局模型公共神经网络,更新全局模型公共神经网络的模型参数;
(10)、循环执行步骤(8)至步骤(9),直至强化学习电力系统调度员决策模型π收敛,得到最优的强化学习电力系统调度员决策模型π;
强化学习电力系统调度员决策模型π的优化过程具体如下:
(一)、利用电力系统模拟仿真环境,针对实际每一位电力系统调度员的实际操作,采用强化学习方法训练其个性化强化学习电力系统调度员决策模型;
(二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员,与电力系统模拟仿真环境进行持续交互,模拟电力系统运行和调度;
(三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果,并与最佳调度指令执行策略对比,发现其中的调度问题,进而改善调度策略;
(四)、根据实际排班情况,在电力系统模拟仿真环境下,模拟全部调度员的调度操作,并与最佳调度指令执行策略对比,发现异常环节,优化调度方式;
(五)、根据未来实际排班情况,在电力系统模拟仿真环境下,结合电力系统实际数据,模拟未来时刻电力系统运行和调度,提前发现问题,避免事故发生;
(六)、持续收集来自实际电力系统运行及调度的数据,用于优化强化学习电力系统调度员决策模型。
CN202111336981.3A 2021-11-12 2021-11-12 基于强化学习的电力系统仿真调度方法及系统 Active CN114139354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111336981.3A CN114139354B (zh) 2021-11-12 2021-11-12 基于强化学习的电力系统仿真调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111336981.3A CN114139354B (zh) 2021-11-12 2021-11-12 基于强化学习的电力系统仿真调度方法及系统

Publications (2)

Publication Number Publication Date
CN114139354A true CN114139354A (zh) 2022-03-04
CN114139354B CN114139354B (zh) 2024-05-21

Family

ID=80393689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111336981.3A Active CN114139354B (zh) 2021-11-12 2021-11-12 基于强化学习的电力系统仿真调度方法及系统

Country Status (1)

Country Link
CN (1) CN114139354B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115133532A (zh) * 2022-09-01 2022-09-30 南方电网数字电网研究院有限公司 电力系统的管控方法、装置、设备和存储介质
CN115907022A (zh) * 2023-01-04 2023-04-04 苏州浪潮智能科技有限公司 一种多量子业务转化及仿真调度方法、装置、设备及介质
CN116738874A (zh) * 2023-05-12 2023-09-12 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN116739323A (zh) * 2023-08-16 2023-09-12 北京航天晨信科技有限责任公司 一种面向应急资源调度的智能评估方法和系统
CN116757095A (zh) * 2023-08-14 2023-09-15 国网浙江省电力有限公司宁波供电公司 一种基于云边端协同的电力系统运行方法、装置及介质
CN117833242A (zh) * 2024-03-05 2024-04-05 国网江苏省电力有限公司南通供电分公司 基于数字孪生的电力能源智能调度方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN112186799A (zh) * 2020-09-22 2021-01-05 中国电力科学研究院有限公司 基于深度强化学习的分布式能源系统自治控制方法及系统
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112701681A (zh) * 2020-12-22 2021-04-23 广东电网有限责任公司电力调度控制中心 一种基于强化学习的电网偶发故障安全调控策略生成方法
CN113157422A (zh) * 2021-04-29 2021-07-23 清华大学 基于深度强化学习的云数据中心集群资源调度方法及装置
CN113344283A (zh) * 2021-06-23 2021-09-03 国网黑龙江省电力有限公司 基于边缘智能的能源互联网新能源消纳能力评估方法
CN113555888A (zh) * 2021-07-03 2021-10-26 北京工业大学 一种微电网储能协调控制的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112186799A (zh) * 2020-09-22 2021-01-05 中国电力科学研究院有限公司 基于深度强化学习的分布式能源系统自治控制方法及系统
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112701681A (zh) * 2020-12-22 2021-04-23 广东电网有限责任公司电力调度控制中心 一种基于强化学习的电网偶发故障安全调控策略生成方法
CN113157422A (zh) * 2021-04-29 2021-07-23 清华大学 基于深度强化学习的云数据中心集群资源调度方法及装置
CN113344283A (zh) * 2021-06-23 2021-09-03 国网黑龙江省电力有限公司 基于边缘智能的能源互联网新能源消纳能力评估方法
CN113555888A (zh) * 2021-07-03 2021-10-26 北京工业大学 一种微电网储能协调控制的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115133532A (zh) * 2022-09-01 2022-09-30 南方电网数字电网研究院有限公司 电力系统的管控方法、装置、设备和存储介质
CN115907022A (zh) * 2023-01-04 2023-04-04 苏州浪潮智能科技有限公司 一种多量子业务转化及仿真调度方法、装置、设备及介质
CN116738874A (zh) * 2023-05-12 2023-09-12 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN116738874B (zh) * 2023-05-12 2024-01-23 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN116757095A (zh) * 2023-08-14 2023-09-15 国网浙江省电力有限公司宁波供电公司 一种基于云边端协同的电力系统运行方法、装置及介质
CN116757095B (zh) * 2023-08-14 2023-11-07 国网浙江省电力有限公司宁波供电公司 一种基于云边端协同的电力系统运行方法、装置及介质
CN116739323A (zh) * 2023-08-16 2023-09-12 北京航天晨信科技有限责任公司 一种面向应急资源调度的智能评估方法和系统
CN116739323B (zh) * 2023-08-16 2023-11-10 北京航天晨信科技有限责任公司 一种面向应急资源调度的智能评估方法和系统
CN117833242A (zh) * 2024-03-05 2024-04-05 国网江苏省电力有限公司南通供电分公司 基于数字孪生的电力能源智能调度方法及系统
CN117833242B (zh) * 2024-03-05 2024-06-11 国网江苏省电力有限公司南通供电分公司 基于数字孪生的电力能源智能调度方法及系统

Also Published As

Publication number Publication date
CN114139354B (zh) 2024-05-21

Similar Documents

Publication Publication Date Title
CN114139354B (zh) 基于强化学习的电力系统仿真调度方法及系统
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Bose Artificial intelligence techniques in smart grid and renewable energy systems—some example applications
CN113363997A (zh) 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN103729695A (zh) 基于粒子群和bp神经网络的短期电力负荷预测方法
CN114154558B (zh) 基于图神经网络的分布式能源发电负荷预测系统及方法
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN105098979A (zh) 一种自动化电力调度系统及方法
Xi et al. A virtual generation ecosystem control strategy for automatic generation control of interconnected microgrids
CN112633529B (zh) 一种基于深度强化学习的配电线路检修优化方法
CN111555297B (zh) 一种具有三态能源单元的统一时间尺度电压控制方法
CN103904641A (zh) 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN114331059A (zh) 电氢互补的园区多楼宇供能系统及其协调调度方法
Zangeneh et al. A survey: Fuzzify parameters and membership function in electrical applications
Cheng et al. Exploration and exploitation of new knowledge emergence to improve the collective intelligent decision-making level of web-of-cells with cyber-physical-social systems based on complex network modeling
CN108876091A (zh) 一种基于软件定义电网实现的虚拟电厂
CN111799808A (zh) 一种电网无功电压分布式控制方法及系统
Liu et al. Multi-objective mayfly optimization-based frequency regulation for power grid with wind energy penetration
CN108767987A (zh) 一种配电网及其微电网保护与控制系统
CN107392350B (zh) 含分布式能源及充电站的配电网扩展规划综合优化方法
Zhao et al. Trends of optimal dispatching of microgrid for fishery based on model predictive control
CN116307071A (zh) 一种高比例光伏接入低压配电网方法
Li et al. Multiagent deep meta reinforcement learning for sea computing-based energy management of interconnected grids considering renewable energy sources in sustainable cities
CN115051360A (zh) 集成式知识迁移的电力系统运行风险在线计算方法与装置
CN113555876A (zh) 基于人工智能的线路潮流调控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant