CN116169785A - 一种基于深度q学习的灵活互动资源安全运行预警方法 - Google Patents

一种基于深度q学习的灵活互动资源安全运行预警方法 Download PDF

Info

Publication number
CN116169785A
CN116169785A CN202310129857.2A CN202310129857A CN116169785A CN 116169785 A CN116169785 A CN 116169785A CN 202310129857 A CN202310129857 A CN 202310129857A CN 116169785 A CN116169785 A CN 116169785A
Authority
CN
China
Prior art keywords
early warning
action
state
energy storage
safe operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310129857.2A
Other languages
English (en)
Inventor
万黎
周鲲鹏
蔡德福
王涛
董航
刘海光
张良一
陈汝斯
杨玺
李航
孙冠群
王尔玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd, Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202310129857.2A priority Critical patent/CN116169785A/zh
Publication of CN116169785A publication Critical patent/CN116169785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00002Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/001Methods to deal with contingencies, e.g. abnormalities, faults or failures
    • H02J3/0012Contingency detection
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度Q学习的灵活互动资源安全运行预警方法,包括:设计基于深度Q学习的灵活互动资源安全运行预警平台结构;综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素,构建灵活互动资源安全运行指标体系,通过数据采集设备以及数据处理为强化学习智能体提供环境数据来源;基于灵活互动资源运行系统场景,设计强化学习智能体控制器,并将安全运行指标作为状态空间,将控制器的故障预警判断动作作为动作空间,完成奖励函数的定义;基于海量历史数据完成强化学习智能体控制器的预训练,将灵活互动资源安全运行预警平台投入使用,实现实时监测设备安全运行及快速智能故障预警功能。

Description

一种基于深度Q学习的灵活互动资源安全运行预警方法
技术领域
本发明涉及电力行业电网系统智能控制领域,具体是一种基于深度Q学习的灵活互动资源安全运行预警方法。
背景技术
电力系统中灵活互动资源主要指的是以分布式电源、储能单元等在内的分布广、基数大、种类多的可控单元,从而能够实现灵活资源控制调节电力系统的供需平衡。因此,如何针对电力系统中灵活互动资源的安全运行对保护电力系统灵活性具有十分重要的意义。
风光等可再生能源本身具有的间歇性、波动性等强不确定性特点,其大规模的接入将对电力系统的经济运行以及安全调度带来新的挑战,而风光出力设备的安全运行会进一步影响电力系统安全运行及灵活性。储能系统的接入应用能够一定程度上降低可再生能源的不确定性,促进可再生能源消纳并提高电网运行稳定性,因此,储能系统的安全可靠运行同样会影响电网的安全运行及灵活性。
因此,为了提高保障电力系统的安全运行及灵活互动资源的可靠供应,需要加强对电力系统中灵活互动资源设备的状态监测及故障预警系统的研究。而现如今,人工智能技术发展能够实现对灵活互动资源设备的状态监测及故障预警问题提供新的解决方案,为电网安全运行及可靠控制带来新的发展。
发明内容
本发明的目的是为了电力系统灵活运行的安全可靠性需要,更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题,提出一种基于深度Q学习的灵活互动资源安全运行预警方法。
一种基于深度Q学习的灵活互动资源安全运行预警方法,包括如下步骤:
S01:针对灵活互动资源设备运行状态监测及故障预警问题,设计基于深度Q学习的灵活互动资源安全运行预警平台结构,所述灵活互动资源安全运行预警平台结构包括状态监控层、数据功能层、上级决策层,状态监控层包括指标收集装置,用于对灵活互动资源的设备特征状态数据进行采集;数据功能层中内置数据聚合处理模块,用于实现设备特征状态数据的处理以及存储;上级决策层包括基于深度Q学习算法的智能预警平台,用于实现决策设备的故障状态并指导操作员采取措施动作;
S02:综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素,构建互动资源安全运行指标体系,同时通过数据聚合处理模块获得灵活互动资源的设备特征状态数据;
S03:基于灵活互动资源运行系统场景,设计强化学习智能体控制器,并将S02构建的安全运行指标作为状态空间,将强化学习智能体控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义;
S04:基于S02获得的灵活互动资源的设备特征状态数据完成强化学习智能体控制器的预训练,将灵活互动资源安全运行预警平台投入使用。
进一步的,步骤S02中,所述安全运行指标中的安全运行影响因素包括:风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。
进一步的,各安全运行影响因素说明及计算方法如下:
风电转换率,是指将风的动能转化为电能的转换率,能够用来表征风力发电机对风能转化电能的利用效率,其计算公式如下所示:
Figure SMS_1
式中,W为风能,单位为W;ρ为空气密度,单位为kg/m2;v为风速,单位为m/s,Pw-e为风力发电机的输出电功率,单位为W;
光伏转换率,指将太阳辐射能转化为电能的转换率,能够用来表征光伏发电系统对太阳能转化电能的利用效率,其计算公式如下所示:
Figure SMS_2
式中,Wsun为太阳辐射能,单位为W;Ppv-e为光伏发电系统的输出电功率,单位为W;
储能内芯温度,指的是储能系统中电池内芯的工作温度,当温度过高时,将会影响电池寿命,进而影响到系统整体的寿命周期,能够在一定程度上表征储能系统当前运行环境的状态;
储能系统输出电压,指的是储能系统中储能正常进行充放状态时其输出电压应当能够满足安全运行的要求,当输出电压偏差较大时,可能会导致线路损耗问题,最终导致储能系统与电网的联络产生故障,影响储能系统的运行。
进一步的,灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心,需要满足基本马尔可夫决策过程属性,马尔可夫决策过程与过去的历史状态及历史动作无关,而是与当前的状态以及在当前状态下所采取的动作相关,其描述为:
P(st+1|s0,a0,…,st,at)=P(st+1|st,at)
式中,P所表示的是状态转移概率,即在st状态下采取动作at后转移到st+1的概率;
深度Q学习算法需要在每个采取动作时间时采取合适的动作以与环境进行交互产生状态的转移并提供奖励,在与灵活互动资源运行系统场景交互过程中,其状态变化由系统场景与强化学习智能体交互产生,在整个周期中,需要获得整体的长期累积奖励最大化,从而实现动作决策最优化,其累积奖励收益的表达式为:
Figure SMS_3
式中,折扣因子γ∈[0,1],用以表征当前动作获得奖励以及未来动作对当前的影响,当γ越大,说明对整体奖励越“远视”,当γ越小,说明对整体奖励越“短视”;
深度Q学习的算法流程如下所示:
步骤(1):设定经验回放池D的大小N,并初始化Q值函数;
步骤(2):设定模型训练回合总次数M,并初始化m=1,设定单次回合的总时间T,并设定时间步长为t=1;
步骤(3):进入训练回合m,初始化当前灵活互动资源安全运行环境的状态特征,并将其组成状态序列st
步骤(4):根据ε贪婪策略在当前环境状态st下选择动作at,其动作选择公式为:
Figure SMS_4
式中,当随机数p小于ε时,动作采取随机动作,当p大于等于ε时,动作选择Q值函数下的最优动作;
步骤(5):智能体采取动作at与灵活互动资源安全运行系统环境交互,环境将会进入下一个状态st+1,并获得相应动作下所获得的奖励rt
步骤(6):将上述信息组成四元组序列(st,at,st+1,rt),并将其存储在经验回放池中;
步骤(7):根据训练总回合及回合内循环,能够逐渐获得足够数据规模的经验回放池,当经验回放池足够多时,随机采样四元组序列数据进行Q值函数的参数更新训练,其更新公式为:
Figure SMS_5
步骤(8):计算损失函数直到模型训练过程中损失函数低于某个值,损失函数的计算公式为:
L(θ)=E(rt+γmaxQ(st+1,at+1|θ)-Q(st,att))2
步骤(9):最终,强化学习智能体控制器训练完成后能够投入使用实现灵活互动资源安全运行的智能故障预警。
进一步的,步骤S03中,将S02构建的安全运行指标作为状态空间,将强化学习智能体控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义,具体如下:
灵活互动资源安全运行故障预警控制器的状态集合包括风电转换率ηwind、光伏转换率ηpv、储能内芯温度BT、储能系统输出电压BU,定义其状态空间为:
S={ηwindpv,BT,BU}
灵活互动资源安全运行故障预警控制器的动作集合,即深度Q学习智能体决策所对应的动作策略,结合运行系统场景所需的动作为:正常运行、故障检修预警、故障中断预警,分别对应序号0-2,动作空间描述为:
A={0,1,2}
奖励函数的设计能够用以表征强化学习智能体决策所采取的动作与运行系统环境交互后得到状态与收益,即通过该预警平台所采取的动作指示所获得的奖励,奖励函数描述为:
Figure SMS_6
式中,αwind、αpv、βbes-T、βbes-U分别表示风电转换率、光伏转换率、储能内芯温度、储能系统输出电压的转换系数,ηwind0、ηwind1分别表示风电转换率的两个预警指标界定标准值,ηpv0、ηpv1分别表示光伏转换率的两个预警指标界定标准值,ΔBT、ΔBU分别表示储能内芯温度、储能系统输出电压与储能内芯温度正常工作标准值
Figure SMS_7
储能系统输出电压工作标准值/>
Figure SMS_8
工作的偏差,BT0、BT1分别表示储能内芯温度偏差的两个预警指标界定标准值,BU0、BU1分别表示储能系统输出电压偏差的两个预警指标界定标准值。
本发明能够更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题,同时提升电力系统灵活运行的安全可靠性需要,具有快速性、准确性好等优点。
附图说明
图1是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的流程图;
图2是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的应用逻辑图;
图3是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的网络架构图;
图4是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图3,本发明实施例提供一种基于深度Q学习的灵活互动资源安全运行预警方法,包括如下步骤:
S01:针对灵活互动资源设备运行状态监测及故障预警问题,设计基于深度Q学习的灵活互动资源安全运行预警平台结构;
如图2与图3所示,该平台结构核心包括数据聚合处理模块与故障预警模块两部分,其中,数据聚合处理模块是基于数据处理算法的模块,故障预警模块是基于深度Q学习算法,数据来源于某配电网灵活互动资源设备的监测装置实时获取并收集的海量数据。整体逻辑流程如下:
首先,为得到实时的各灵活互动资源设备状态特征指标数据信息,设计了集中式信息采集终端的架构。其次,安全运行预警平台的网络结构主要包括三层,分别为状态监控层、数据功能层、上级决策层。状态监控层是包括灵活互动资源的运行设备及其指标收集装置,能够实现对灵活互动资源的设备监控及数据采集;数据功能层中内置数据聚合处理模块,能够实现设备特征状态数据采集以及存储功能;上级决策层是具有基于深度Q学习算法的故障预警模块的智能预警平台,能够实现智能且快速地决策设备的故障状态并指导操作员采取措施动作。最后,该平台结构能够确定系统信息数据的保存及存储,并确定了电网系统中运行设备预警标准,从而能够实现基于深度Q学习的智能平台对灵活互动资源的在线监测及故障控制。
S02:综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素,构建互动资源安全运行指标体系,同时通过数据聚合处理模块获得灵活互动资源的设备特征状态数据;
构建以安全运行影响因素的灵活互动资源安全运行指标体系,各影响因素指标分别包括:风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。各影响因素说明及计算方法如下所示:
风电转换率是指将风的动能转化为电能的转换率,能够用来表征风力发电机对风能转化电能的利用效率。其计算公式如下所示:
Figure SMS_9
式中,W为风能,单位为W;ρ为空气密度,单位为kg/m2;v为风速,单位为m/s,Pw-e为风力发电机的输出电功率,单位为W。
光伏转换率是指将太阳辐射能转化为电能的转换率,能够用来表征光伏发电系统对太阳能转化电能的利用效率。其计算公式如下所示:
Figure SMS_10
式中,Wsun为太阳辐射能,单位为W;Ppv-e为光伏发电系统的输出电功率,单位为W。
储能内芯温度指的是储能系统中电池内芯的工作温度,当温度过高时,将会影响电池寿命,进而影响到系统整体的寿命周期,能够在一定程度上表征储能系统当前运行环境的状态,因此,储能内芯温度是储能系统安全运行的重要状态特征指标。
储能系统输出电压指的是储能系统中储能正常进行充放状态时其输出电压应当能够满足安全运行的要求,当输出电压偏差较大时,可能会导致线路损耗问题,最终导致储能系统与电网的联络产生故障,影响储能系统的运行,因此,储能系统输出电压是储能系统安全运行的重要状态特征指标之一。
S03:基于灵活互动资源运行系统场景,设计强化学习智能体控制器,并将S02构建的安全运行指标作为状态空间,将强化学习智能体控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义。
灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心,需要满足基本马尔可夫决策过程属性。马尔可夫决策过程与过去的历史状态及历史动作无关,而是与当前的状态以及在当前状态下所采取的动作相关。因此其可以描述为:
P(st+1|s0,a0,…,st,at)=P(st+1|st,at)
式中,P所表示的是状态转移概率,即在st状态下采取动作at后转移到st+1的概率。
深度Q学习算法是强化学习的一种算法。而强化学习就是需要在每个采取动作时间时采取合适的动作以与环境进行交互产生状态的转移并提供奖励,在与灵活互动资源运行系统场景交互过程中,其状态变化由系统场景与强化学习智能体交互产生。在整个周期中,需要获得整体的长期累积奖励最大化,从而实现动作决策最优化。其累积奖励收益的表达式为:
Figure SMS_11
式中,折扣因子γ∈[0,1],用以表征当前动作获得奖励以及未来动作对当前的影响,当γ越大,说明对整体奖励越“远视”,当γ越小,说明对整体奖励越“短视”。
深度Q学习的算法流程如图4所示,具体如下:
步骤(1):设定经验回放池D的大小N,并初始化Q值函数;
步骤(2):设定模型训练回合总次数M,并初始化m=1,设定单次回合的总时间T,并设定时间步长为t=1;
步骤(3):进入训练回合m,初始化当前灵活互动资源安全运行环境的状态特征,并将其组成状态序列st
步骤(4):根据ε贪婪策略在当前环境状态st下选择动作at,其动作选择公式为:
Figure SMS_12
式中,当随机数p小于ε时,动作采取随机动作,当p大于等于ε时,动作选择Q值函数下的最优动作。
步骤(5):智能体采取动作at与灵活互动资源安全运行系统环境交互,环境将会进入下一个状态st+1,并获得相应动作下所获得的奖励rt
步骤(6):将上述信息组成四元组序列(st,at,st+1,rt),并将其存储在经验回放池中;
步骤(7):根据训练总回合及回合内循环,能够逐渐获得足够数据规模的经验回放池,当经验回放池足够多时,随机采样四元组序列数据进行Q值函数的参数更新训练,其更新公式为:
Figure SMS_13
步骤(8):计算损失函数直到模型训练过程中损失函数低于某个值,损失函数的计算公式为:
L(θ)=E(rt+γmaxQ(st+1,at+1|θ)-Q(st,att))2
步骤(9):最终,强化学习智能体控制器训练完成后能够投入使用实现灵活互动资源安全运行的智能故障预警。
进一步,对于需要选取的安全运行指标作为状态空间,将控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义。具体如下:
灵活互动资源安全运行故障预警控制器的状态集合包括风电转换率ηwind、光伏转换率ηpv、储能内芯温度BT、储能系统输出电压BU等数据指标。因此,可定义其状态空间为:
S={ηwindpv,BT,BU}
而灵活互动资源安全运行故障预警控制器的动作集合,即深度Q学习智能体决策所对应的动作策略,结合本文运行系统场景所需的动作为:正常运行、故障检修预警、故障中断预警,分别对应序号0-2,因此,动作空间可描述为:
A={0,1,2}
奖励函数的设计能够用以表征强化学习智能体决策所采取的动作与运行系统环境交互后得到状态与收益,即通过该预警平台所采取的动作指示所获得的奖励,奖励函数可描述为:
Figure SMS_14
式中,αwind、αpv、βbes-T、βbes-U分别表示风电转换率、光伏转换率、储能内芯温度、储能系统输出电压的转换系数,ηwind0、ηwind1分别表示风电转换率的两个预警指标界定标准值,ηpv0、ηpv1分别表示光伏转换率的两个预警指标界定标准值,ΔBT、ΔBU分别表示储能内芯温度、储能系统输出电压与储能内芯温度正常工作标准值
Figure SMS_15
储能系统输出电压工作标准值/>
Figure SMS_16
工作的偏差,BT0、BT1分别表示储能内芯温度偏差的两个预警指标界定标准值,BU0、BU1分别表示储能系统输出电压偏差的两个预警指标界定标准值。
S04:基于S02获得的灵活互动资源的设备特征状态数据完成强化学习智能体控制器的预训练,将灵活互动资源安全运行预警平台投入使用。
根据设计的预警平台结构能够收集并存储与灵活互动资源设备状态特征相关的海量历史数据,强化学习智能体能够基于海量历史数据完成前期中试错学习的预训练过程,通过不断地学习训练优化强化学习智能体控制器中的最优值函数Q网络,直到训练收敛并具有较好的快速准确决策性能,即可将基于深度Q学习的灵活互动资源安全运行故障预警平台投入使用。随着在运行使用的过程中,数据采集及存储的更新在一定程度上解释了安全运行系统所面对的环境变化。而提出的深度Q学习还具有实时学习能力,随着运行过程的不断推进,深度Q学习智能体所采取的决策动作将更加适应于系统安全运行的需要,同时能够适应于系统运行环境可能产生的变化。最终,能够实现实时监测设备安全运行及快速智能故障预警。
综上所述,本发明能够更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题,同时提升电力系统灵活运行的安全可靠性需要,具有快速性、准确性好等优点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于深度Q学习的灵活互动资源安全运行预警方法,其特征在于,包括以下步骤:
S01:针对灵活互动资源设备运行状态监测及故障预警问题,设计基于深度Q学习的灵活互动资源安全运行预警平台结构,所述灵活互动资源安全运行预警平台结构包括状态监控层、数据功能层、上级决策层,状态监控层包括指标收集装置,用于对灵活互动资源的设备特征状态数据进行采集;数据功能层中内置数据聚合处理模块,用于实现设备特征状态数据的处理以及存储;上级决策层包括基于深度Q学习算法的智能预警平台,用于实现决策设备的故障状态并指导操作员采取措施动作;
S02:综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素,构建互动资源安全运行指标体系,同时通过数据聚合处理模块获得灵活互动资源的设备特征状态数据;
S03:基于灵活互动资源运行系统场景,设计强化学习智能体控制器,并将S02构建的安全运行指标作为状态空间,将强化学习智能体控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义;
S04:基于S02获得的灵活互动资源的设备特征状态数据完成强化学习智能体控制器的预训练,将灵活互动资源安全运行预警平台投入使用。
2.根据权利要求1所述的一种基于深度Q学习的灵活互动资源安全运行预警方法,其特征在于:步骤S02中,所述安全运行指标中的安全运行影响因素包括:风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。
3.根据权利要求2所述的一种基于深度Q学习的灵活互动资源安全运行预警方法,其特征在于:各安全运行影响因素说明及计算方法如下:
风电转换率,是指将风的动能转化为电能的转换率,能够用来表征风力发电机对风能转化电能的利用效率,其计算公式如下所示:
Figure FDA0004083486260000011
式中,W为风能,单位为W;ρ为空气密度,单位为kg/m2;v为风速,单位为m/s,Pw-e为风力发电机的输出电功率,单位为W;
光伏转换率,指将太阳辐射能转化为电能的转换率,能够用来表征光伏发电系统对太阳能转化电能的利用效率,其计算公式如下所示:
Figure FDA0004083486260000021
式中,Wsun为太阳辐射能,单位为W;Ppv-e为光伏发电系统的输出电功率,单位为W;
储能内芯温度,指的是储能系统中电池内芯的工作温度,当温度过高时,将会影响电池寿命,进而影响到系统整体的寿命周期,能够在一定程度上表征储能系统当前运行环境的状态;
储能系统输出电压,指的是储能系统中储能正常进行充放状态时其输出电压应当能够满足安全运行的要求,当输出电压偏差较大时,可能会导致线路损耗问题,最终导致储能系统与电网的联络产生故障,影响储能系统的运行。
4.根据权利要求1所述的一种基于深度Q学习的灵活互动资源安全运行预警方法,其特征在于:
灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心,需要满足基本马尔可夫决策过程属性,马尔可夫决策过程与过去的历史状态及历史动作无关,而是与当前的状态以及在当前状态下所采取的动作相关,其描述为:
P(st+1|s0,a0,…,st,at)=P(st+1|st,at)
式中,P所表示的是状态转移概率,即在st状态下采取动作at后转移到st+1的概率;
深度Q学习算法需要在每个采取动作时间时采取合适的动作以与环境进行交互产生状态的转移并提供奖励,在与灵活互动资源运行系统场景交互过程中,其状态变化由系统场景与强化学习智能体交互产生,在整个周期中,需要获得整体的长期累积奖励最大化,从而实现动作决策最优化,其累积奖励收益的表达式为:
Figure FDA0004083486260000022
式中,折扣因子γ∈[0,1],用以表征当前动作获得奖励以及未来动作对当前的影响,当γ越大,说明对整体奖励越“远视”,当γ越小,说明对整体奖励越“短视”;
深度Q学习的算法流程如下所示:
步骤(1):设定经验回放池D的大小N,并初始化Q值函数;
步骤(2):设定模型训练回合总次数M,并初始化m=1,设定单次回合的总时间T,并设定时间步长为t=1;
步骤(3):进入训练回合m,初始化当前灵活互动资源安全运行环境的状态特征,并将其组成状态序列st
步骤(4):根据ε贪婪策略在当前环境状态st下选择动作at,其动作选择公式为:
Figure FDA0004083486260000031
式中,当随机数p小于ε时,动作采取随机动作,当p大于等于ε时,动作选择Q值函数下的最优动作;
步骤(5):智能体采取动作at与灵活互动资源安全运行系统环境交互,环境将会进入下一个状态st+1,并获得相应动作下所获得的奖励rt
步骤(6):将上述信息组成四元组序列(st,at,st+1,rt),并将其存储在经验回放池中;
步骤(7):根据训练总回合及回合内循环,能够逐渐获得足够数据规模的经验回放池,当经验回放池足够多时,随机采样四元组序列数据进行Q值函数的参数更新训练,其更新公式为:
Figure FDA0004083486260000032
步骤(8):计算损失函数直到模型训练过程中损失函数低于某个值,损失函数的计算公式为:
L(θ)=E(rt+γmaxQ(st+1,at+1|θ)-Q(st,att))2
步骤(9):最终,强化学习智能体控制器训练完成后能够投入使用实现灵活互动资源安全运行的智能故障预警。
5.根据权利要求2所述的一种基于深度Q学习的灵活互动资源安全运行预警方法,其特征在于:步骤S03中,将S02构建的安全运行指标作为状态空间,将强化学习智能体控制器的故障预警判断动作作为动作空间,同时完成奖励函数的定义,具体如下:
灵活互动资源安全运行故障预警控制器的状态集合包括风电转换率ηwind、光伏转换率ηpv、储能内芯温度BT、储能系统输出电压BU,定义其状态空间为:
S={ηwindpv,BT,BU}
灵活互动资源安全运行故障预警控制器的动作集合,即深度Q学习智能体决策所对应的动作策略,结合运行系统场景所需的动作为:正常运行、故障检修预警、故障中断预警,分别对应序号0-2,动作空间描述为:
A={0,1,2}
奖励函数的设计能够用以表征强化学习智能体决策所采取的动作与运行系统环境交互后得到状态与收益,即通过该预警平台所采取的动作指示所获得的奖励,奖励函数描述为:
Figure FDA0004083486260000041
式中,αwind、αpv、βbes-T、βbes-U分别表示风电转换率、光伏转换率、储能内芯温度、储能系统输出电压的转换系数,ηwind0、ηwind1分别表示风电转换率的两个预警指标界定标准值,ηpv0、ηpv1分别表示光伏转换率的两个预警指标界定标准值,ΔBT、ΔBU分别表示储能内芯温度、储能系统输出电压与储能内芯温度正常工作标准值
Figure FDA0004083486260000042
储能系统输出电压工作标准值/>
Figure FDA0004083486260000043
工作的偏差,BT0、BT1分别表示储能内芯温度偏差的两个预警指标界定标准值,BU0、BU1分别表示储能系统输出电压偏差的两个预警指标界定标准值。/>
CN202310129857.2A 2023-02-14 2023-02-14 一种基于深度q学习的灵活互动资源安全运行预警方法 Pending CN116169785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310129857.2A CN116169785A (zh) 2023-02-14 2023-02-14 一种基于深度q学习的灵活互动资源安全运行预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310129857.2A CN116169785A (zh) 2023-02-14 2023-02-14 一种基于深度q学习的灵活互动资源安全运行预警方法

Publications (1)

Publication Number Publication Date
CN116169785A true CN116169785A (zh) 2023-05-26

Family

ID=86410899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310129857.2A Pending CN116169785A (zh) 2023-02-14 2023-02-14 一种基于深度q学习的灵活互动资源安全运行预警方法

Country Status (1)

Country Link
CN (1) CN116169785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709806A (zh) * 2024-02-05 2024-03-15 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709806A (zh) * 2024-02-05 2024-03-15 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统
CN117709806B (zh) * 2024-02-05 2024-05-28 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统

Similar Documents

Publication Publication Date Title
CN106953316A (zh) 微电网变时间尺度优化调度方法
CN113541205B (zh) 基于集群学习的低碳csp系统协同优化方法及装置
CN111786417A (zh) 一种面向分布式新能源消纳的主动配电网多目标区间优化调度的方法
CN116247648A (zh) 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法
CN106684913B (zh) 一种基于多代理的储能电站跟踪发电计划控制系统和方法
CN116169785A (zh) 一种基于深度q学习的灵活互动资源安全运行预警方法
CN112072643A (zh) 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
CN106712060B (zh) 一种基于多代理的百兆瓦级电池储能系统控制方法及系统
CN113344283B (zh) 基于边缘智能的能源互联网新能源消纳能力评估方法
CN108075471A (zh) 基于随机性电源出力预测的多目标约束优化电网调度策略
Saadaoui et al. Hybridization and energy storage high efficiency and low cost
CN111525556B (zh) 一种计及风电置信风险的多目标最优潮流计算方法
CN117154778A (zh) 一种配电网分布式储能优化配置方法及系统
CN117277327A (zh) 一种基于智能体的并网型微电网最优能量管理方法
CN116345450A (zh) 一种基于深度强化学习的风光水互补系统智能调度方法
CN111310953A (zh) 一种基于采样的机会约束调度模型快速求解方法
CN114819362A (zh) 一种面向风光电力系统的电网电力负载平衡方法
CN110889541A (zh) 一种电力系统风险调度决策方法及装置
CN116227751B (zh) 配电网优化配置方法及装置
CN108134406A (zh) 一种适用零碳建筑的多能互补系统优化运行方法
CN117526331A (zh) 计及分布式储能的配电网灵活运行鲁棒优化方法和系统
CN114781927A (zh) 非稳发电城市群电网最大供电负荷评估方法
CN114528771A (zh) 基于混合粒子群算法的新能源消纳测算方法及系统
CN117833285A (zh) 一种基于深度强化学习的微电网储能优化调度方法
Wang et al. Dynamic Economic Scheduling with Self-Adaptive Uncertainty in Distribution Network Based on Deep Reinforcement Learning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination