CN116169785A

CN116169785A - 一种基于深度q学习的灵活互动资源安全运行预警方法

Info

Publication number: CN116169785A
Application number: CN202310129857.2A
Authority: CN
Inventors: 万黎; 周鲲鹏; 蔡德福; 王涛; 董航; 刘海光; 张良一; 陈汝斯; 杨玺; 李航; 孙冠群; 王尔玺
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd; Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd; Wuhan Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-26

Abstract

本发明提供一种基于深度Q学习的灵活互动资源安全运行预警方法，包括：设计基于深度Q学习的灵活互动资源安全运行预警平台结构；综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素，构建灵活互动资源安全运行指标体系，通过数据采集设备以及数据处理为强化学习智能体提供环境数据来源；基于灵活互动资源运行系统场景，设计强化学习智能体控制器，并将安全运行指标作为状态空间，将控制器的故障预警判断动作作为动作空间，完成奖励函数的定义；基于海量历史数据完成强化学习智能体控制器的预训练，将灵活互动资源安全运行预警平台投入使用，实现实时监测设备安全运行及快速智能故障预警功能。

Description

一种基于深度Q学习的灵活互动资源安全运行预警方法

技术领域

本发明涉及电力行业电网系统智能控制领域，具体是一种基于深度Q学习的灵活互动资源安全运行预警方法。

背景技术

电力系统中灵活互动资源主要指的是以分布式电源、储能单元等在内的分布广、基数大、种类多的可控单元，从而能够实现灵活资源控制调节电力系统的供需平衡。因此，如何针对电力系统中灵活互动资源的安全运行对保护电力系统灵活性具有十分重要的意义。

风光等可再生能源本身具有的间歇性、波动性等强不确定性特点，其大规模的接入将对电力系统的经济运行以及安全调度带来新的挑战，而风光出力设备的安全运行会进一步影响电力系统安全运行及灵活性。储能系统的接入应用能够一定程度上降低可再生能源的不确定性，促进可再生能源消纳并提高电网运行稳定性，因此，储能系统的安全可靠运行同样会影响电网的安全运行及灵活性。

因此，为了提高保障电力系统的安全运行及灵活互动资源的可靠供应，需要加强对电力系统中灵活互动资源设备的状态监测及故障预警系统的研究。而现如今，人工智能技术发展能够实现对灵活互动资源设备的状态监测及故障预警问题提供新的解决方案，为电网安全运行及可靠控制带来新的发展。

发明内容

本发明的目的是为了电力系统灵活运行的安全可靠性需要，更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题，提出一种基于深度Q学习的灵活互动资源安全运行预警方法。

一种基于深度Q学习的灵活互动资源安全运行预警方法，包括如下步骤：

S01：针对灵活互动资源设备运行状态监测及故障预警问题，设计基于深度Q学习的灵活互动资源安全运行预警平台结构，所述灵活互动资源安全运行预警平台结构包括状态监控层、数据功能层、上级决策层，状态监控层包括指标收集装置，用于对灵活互动资源的设备特征状态数据进行采集；数据功能层中内置数据聚合处理模块，用于实现设备特征状态数据的处理以及存储；上级决策层包括基于深度Q学习算法的智能预警平台，用于实现决策设备的故障状态并指导操作员采取措施动作；

S02：综合分析并筛选与风电、光伏以及储能系统运行特性相关的安全运行影响因素，构建互动资源安全运行指标体系，同时通过数据聚合处理模块获得灵活互动资源的设备特征状态数据；

S03：基于灵活互动资源运行系统场景，设计强化学习智能体控制器，并将S02构建的安全运行指标作为状态空间，将强化学习智能体控制器的故障预警判断动作作为动作空间，同时完成奖励函数的定义；

S04：基于S02获得的灵活互动资源的设备特征状态数据完成强化学习智能体控制器的预训练，将灵活互动资源安全运行预警平台投入使用。

进一步的，步骤S02中，所述安全运行指标中的安全运行影响因素包括：风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。

进一步的，各安全运行影响因素说明及计算方法如下：

风电转换率，是指将风的动能转化为电能的转换率，能够用来表征风力发电机对风能转化电能的利用效率，其计算公式如下所示：

式中，W为风能，单位为W；ρ为空气密度，单位为kg/m²；v为风速，单位为m/s，P_w-e为风力发电机的输出电功率，单位为W；

光伏转换率，指将太阳辐射能转化为电能的转换率，能够用来表征光伏发电系统对太阳能转化电能的利用效率，其计算公式如下所示：

式中，W_sun为太阳辐射能，单位为W；P_pv-e为光伏发电系统的输出电功率，单位为W；

储能内芯温度，指的是储能系统中电池内芯的工作温度，当温度过高时，将会影响电池寿命，进而影响到系统整体的寿命周期，能够在一定程度上表征储能系统当前运行环境的状态；

储能系统输出电压，指的是储能系统中储能正常进行充放状态时其输出电压应当能够满足安全运行的要求，当输出电压偏差较大时，可能会导致线路损耗问题，最终导致储能系统与电网的联络产生故障，影响储能系统的运行。

进一步的，灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心，需要满足基本马尔可夫决策过程属性，马尔可夫决策过程与过去的历史状态及历史动作无关，而是与当前的状态以及在当前状态下所采取的动作相关，其描述为：

P(s_t+1|s₀,a₀,…,s_t,a_t)＝P(s_t+1|s_t,a_t)

式中，P所表示的是状态转移概率，即在s_t状态下采取动作a_t后转移到s_t+1的概率；

深度Q学习算法需要在每个采取动作时间时采取合适的动作以与环境进行交互产生状态的转移并提供奖励，在与灵活互动资源运行系统场景交互过程中，其状态变化由系统场景与强化学习智能体交互产生，在整个周期中，需要获得整体的长期累积奖励最大化，从而实现动作决策最优化，其累积奖励收益的表达式为：

式中，折扣因子γ∈[0,1]，用以表征当前动作获得奖励以及未来动作对当前的影响，当γ越大，说明对整体奖励越“远视”，当γ越小，说明对整体奖励越“短视”；

深度Q学习的算法流程如下所示：

步骤(1)：设定经验回放池D的大小N，并初始化Q值函数；

步骤(2)：设定模型训练回合总次数M，并初始化m＝1，设定单次回合的总时间T，并设定时间步长为t＝1；

步骤(3)：进入训练回合m，初始化当前灵活互动资源安全运行环境的状态特征，并将其组成状态序列s_t；

步骤(4)：根据ε贪婪策略在当前环境状态s_t下选择动作a_t，其动作选择公式为：

式中，当随机数p小于ε时，动作采取随机动作，当p大于等于ε时，动作选择Q值函数下的最优动作；

步骤(5)：智能体采取动作a_t与灵活互动资源安全运行系统环境交互，环境将会进入下一个状态s_t+1，并获得相应动作下所获得的奖励r_t；

步骤(6)：将上述信息组成四元组序列(s_t,a_t,s_t+1,r_t)，并将其存储在经验回放池中；

步骤(7)：根据训练总回合及回合内循环，能够逐渐获得足够数据规模的经验回放池，当经验回放池足够多时，随机采样四元组序列数据进行Q值函数的参数更新训练，其更新公式为：

步骤(8)：计算损失函数直到模型训练过程中损失函数低于某个值，损失函数的计算公式为：

L(θ)＝E(r_t+γmaxQ(s_t+1,a_t+1|θ)-Q(s_t,a_t|θ_t))²

步骤(9)：最终，强化学习智能体控制器训练完成后能够投入使用实现灵活互动资源安全运行的智能故障预警。

进一步的，步骤S03中，将S02构建的安全运行指标作为状态空间，将强化学习智能体控制器的故障预警判断动作作为动作空间，同时完成奖励函数的定义，具体如下：

灵活互动资源安全运行故障预警控制器的状态集合包括风电转换率η_wind、光伏转换率η_pv、储能内芯温度B_T、储能系统输出电压B_U，定义其状态空间为：

S＝{η_wind,η_pv,B_T,B_U}

灵活互动资源安全运行故障预警控制器的动作集合，即深度Q学习智能体决策所对应的动作策略，结合运行系统场景所需的动作为：正常运行、故障检修预警、故障中断预警，分别对应序号0-2，动作空间描述为：

A＝{0,1，2}

奖励函数的设计能够用以表征强化学习智能体决策所采取的动作与运行系统环境交互后得到状态与收益，即通过该预警平台所采取的动作指示所获得的奖励，奖励函数描述为：

式中，α_wind、α_pv、β_bes-T、β_bes-U分别表示风电转换率、光伏转换率、储能内芯温度、储能系统输出电压的转换系数，η_wind0、η_wind1分别表示风电转换率的两个预警指标界定标准值，η_pv0、η_pv1分别表示光伏转换率的两个预警指标界定标准值，ΔB_T、ΔB_U分别表示储能内芯温度、储能系统输出电压与储能内芯温度正常工作标准值

储能系统输出电压工作标准值/>

工作的偏差，B_T0、B_T1分别表示储能内芯温度偏差的两个预警指标界定标准值，B_U0、B_U1分别表示储能系统输出电压偏差的两个预警指标界定标准值。

本发明能够更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题，同时提升电力系统灵活运行的安全可靠性需要，具有快速性、准确性好等优点。

附图说明

图1是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的流程图；

图2是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的应用逻辑图；

图3是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的网络架构图；

图4是本发明的基于深度Q学习的灵活互动资源安全运行预警方法的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图3，本发明实施例提供一种基于深度Q学习的灵活互动资源安全运行预警方法，包括如下步骤：

S01：针对灵活互动资源设备运行状态监测及故障预警问题，设计基于深度Q学习的灵活互动资源安全运行预警平台结构；

如图2与图3所示，该平台结构核心包括数据聚合处理模块与故障预警模块两部分，其中，数据聚合处理模块是基于数据处理算法的模块，故障预警模块是基于深度Q学习算法，数据来源于某配电网灵活互动资源设备的监测装置实时获取并收集的海量数据。整体逻辑流程如下：

首先，为得到实时的各灵活互动资源设备状态特征指标数据信息，设计了集中式信息采集终端的架构。其次，安全运行预警平台的网络结构主要包括三层，分别为状态监控层、数据功能层、上级决策层。状态监控层是包括灵活互动资源的运行设备及其指标收集装置，能够实现对灵活互动资源的设备监控及数据采集；数据功能层中内置数据聚合处理模块，能够实现设备特征状态数据采集以及存储功能；上级决策层是具有基于深度Q学习算法的故障预警模块的智能预警平台，能够实现智能且快速地决策设备的故障状态并指导操作员采取措施动作。最后，该平台结构能够确定系统信息数据的保存及存储，并确定了电网系统中运行设备预警标准，从而能够实现基于深度Q学习的智能平台对灵活互动资源的在线监测及故障控制。

构建以安全运行影响因素的灵活互动资源安全运行指标体系，各影响因素指标分别包括：风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。各影响因素说明及计算方法如下所示：

风电转换率是指将风的动能转化为电能的转换率，能够用来表征风力发电机对风能转化电能的利用效率。其计算公式如下所示：

式中，W为风能，单位为W；ρ为空气密度，单位为kg/m²；v为风速，单位为m/s，P_w-e为风力发电机的输出电功率，单位为W。

光伏转换率是指将太阳辐射能转化为电能的转换率，能够用来表征光伏发电系统对太阳能转化电能的利用效率。其计算公式如下所示：

式中，W_sun为太阳辐射能，单位为W；P_pv-e为光伏发电系统的输出电功率，单位为W。

储能内芯温度指的是储能系统中电池内芯的工作温度，当温度过高时，将会影响电池寿命，进而影响到系统整体的寿命周期，能够在一定程度上表征储能系统当前运行环境的状态，因此，储能内芯温度是储能系统安全运行的重要状态特征指标。

储能系统输出电压指的是储能系统中储能正常进行充放状态时其输出电压应当能够满足安全运行的要求，当输出电压偏差较大时，可能会导致线路损耗问题，最终导致储能系统与电网的联络产生故障，影响储能系统的运行，因此，储能系统输出电压是储能系统安全运行的重要状态特征指标之一。

S03：基于灵活互动资源运行系统场景，设计强化学习智能体控制器，并将S02构建的安全运行指标作为状态空间，将强化学习智能体控制器的故障预警判断动作作为动作空间，同时完成奖励函数的定义。

灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心，需要满足基本马尔可夫决策过程属性。马尔可夫决策过程与过去的历史状态及历史动作无关，而是与当前的状态以及在当前状态下所采取的动作相关。因此其可以描述为：

P(s_t+1|s₀,a₀,…,s_t,a_t)＝P(s_t+1|s_t,a_t)

式中，P所表示的是状态转移概率，即在s_t状态下采取动作a_t后转移到s_t+1的概率。

深度Q学习算法是强化学习的一种算法。而强化学习就是需要在每个采取动作时间时采取合适的动作以与环境进行交互产生状态的转移并提供奖励，在与灵活互动资源运行系统场景交互过程中，其状态变化由系统场景与强化学习智能体交互产生。在整个周期中，需要获得整体的长期累积奖励最大化，从而实现动作决策最优化。其累积奖励收益的表达式为：

式中，折扣因子γ∈[0,1]，用以表征当前动作获得奖励以及未来动作对当前的影响，当γ越大，说明对整体奖励越“远视”，当γ越小，说明对整体奖励越“短视”。

深度Q学习的算法流程如图4所示，具体如下：

步骤(1)：设定经验回放池D的大小N，并初始化Q值函数；

式中，当随机数p小于ε时，动作采取随机动作，当p大于等于ε时，动作选择Q值函数下的最优动作。

L(θ)＝E(r_t+γmaxQ(s_t+1,a_t+1|θ)-Q(s_t,a_t|θ_t))²

进一步，对于需要选取的安全运行指标作为状态空间，将控制器的故障预警判断动作作为动作空间，同时完成奖励函数的定义。具体如下：

灵活互动资源安全运行故障预警控制器的状态集合包括风电转换率η_wind、光伏转换率η_pv、储能内芯温度B_T、储能系统输出电压B_U等数据指标。因此，可定义其状态空间为：

S＝{η_wind,η_pv,B_T,B_U}

而灵活互动资源安全运行故障预警控制器的动作集合，即深度Q学习智能体决策所对应的动作策略，结合本文运行系统场景所需的动作为：正常运行、故障检修预警、故障中断预警，分别对应序号0-2，因此，动作空间可描述为：

A＝{0,1，2}

奖励函数的设计能够用以表征强化学习智能体决策所采取的动作与运行系统环境交互后得到状态与收益，即通过该预警平台所采取的动作指示所获得的奖励，奖励函数可描述为：

储能系统输出电压工作标准值/>

根据设计的预警平台结构能够收集并存储与灵活互动资源设备状态特征相关的海量历史数据，强化学习智能体能够基于海量历史数据完成前期中试错学习的预训练过程，通过不断地学习训练优化强化学习智能体控制器中的最优值函数Q网络，直到训练收敛并具有较好的快速准确决策性能，即可将基于深度Q学习的灵活互动资源安全运行故障预警平台投入使用。随着在运行使用的过程中，数据采集及存储的更新在一定程度上解释了安全运行系统所面对的环境变化。而提出的深度Q学习还具有实时学习能力，随着运行过程的不断推进，深度Q学习智能体所采取的决策动作将更加适应于系统安全运行的需要，同时能够适应于系统运行环境可能产生的变化。最终，能够实现实时监测设备安全运行及快速智能故障预警。

综上所述，本发明能够更加有效地应对灵活互动资源设备的状态变化引起的安全故障问题，同时提升电力系统灵活运行的安全可靠性需要，具有快速性、准确性好等优点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度Q学习的灵活互动资源安全运行预警方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度Q学习的灵活互动资源安全运行预警方法，其特征在于：步骤S02中，所述安全运行指标中的安全运行影响因素包括：风电转换率、光伏转换率、储能内芯温度、储能系统输出电压。

3.根据权利要求2所述的一种基于深度Q学习的灵活互动资源安全运行预警方法，其特征在于：各安全运行影响因素说明及计算方法如下：

4.根据权利要求1所述的一种基于深度Q学习的灵活互动资源安全运行预警方法，其特征在于：

灵活互动资源安全运行预警平台是以深度Q学习为控制算法核心，需要满足基本马尔可夫决策过程属性，马尔可夫决策过程与过去的历史状态及历史动作无关，而是与当前的状态以及在当前状态下所采取的动作相关，其描述为：

P(s_t+1|s₀,a₀,…,s_t,a_t)＝P(s_t+1|s_t,a_t)

深度Q学习的算法流程如下所示：

步骤(1)：设定经验回放池D的大小N，并初始化Q值函数；

L(θ)＝E(r_t+γmaxQ(s_t+1,a_t+1|θ)-Q(s_t,a_t|θ_t))²

5.根据权利要求2所述的一种基于深度Q学习的灵活互动资源安全运行预警方法，其特征在于：步骤S03中，将S02构建的安全运行指标作为状态空间，将强化学习智能体控制器的故障预警判断动作作为动作空间，同时完成奖励函数的定义，具体如下：

S＝{η_wind,η_pv,B_T,B_U}

A＝{0,1，2}

储能系统输出电压工作标准值/>

工作的偏差，B_T0、B_T1分别表示储能内芯温度偏差的两个预警指标界定标准值，B_U0、B_U1分别表示储能系统输出电压偏差的两个预警指标界定标准值。/>