CN117557047A

CN117557047A - 一种基于深度强化学习的配电设备运维优化方法及系统

Info

Publication number: CN117557047A
Application number: CN202311569998.2A
Authority: CN
Inventors: 周静龙; 宋红为; 支瑞峰; 董君; 张一峰; 康健; 尚彦赟
Original assignee: Tianshui Power Supply Co Of State Grid Gansu Electric Power Co
Current assignee: Tianshui Power Supply Co Of State Grid Gansu Electric Power Co
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-13

Abstract

本发明公开了一种基于深度强化学习的配电设备运维优化方法及系统，属于配电设备智能运维技术领域，具体包括以下内容：首先以检修约束和电网安全约束为约束条件，构建了兼顾电网运行可靠性和经济性的电网设备检修计划优化模型，然后采用深度分布式循环Q‑networks(DDRQN)的多智能体深度强化学习求解优化模型；DDRQN多智能体深度强化学习是利用深度学习的高维特征提取能力和强化学习的决策能力来解决电网维护规划的多目标决策问题，进而解决了配电设备在日常巡检和故障抢修工作中重要程度高或故障后危害大的设备没有得到优先运维的问题。

Description

一种基于深度强化学习的配电设备运维优化方法及系统

技术领域

本发明涉及配电设备运维技术领域，具体而言，涉及一种基于深度强化学习的配电设备运维优化方法及系统。

背景技术

当今社会，电力系统作为基础设施之一，对于维护其设备的正常运行和可靠性显得尤为重要。然而，在日常巡检和故障抢修工作中，由于设备众多、工作复杂以及资源有限等因素，往往存在着重要程度高或故障后危害大的设备未能得到优先运维的问题。这导致了电网设备运维工作效率低下、资源浪费严重的情况。

为了解决这一现状，传统的基于经验的运维方法已经无法满足电力系统快速发展的需求。因此，迫切需要一种新的技术手段，能够兼顾电网运行可靠性和经济性，实现对电网设备的智能化、精细化管理和优化运维。在这样的背景下，基于深度强化学习的配电设备运维优化方法应运而生，为解决电力系统设备运维中的实际问题提供了全新的思路和方法。

在现有的技术方案中，对配电网设备运维优化有以下模式：

(1)基于经验规则的优化方法：这种方法主要依赖于运维人员的经验和规则，通过经验积累和专家知识构建一套规则库，根据设备的状态和重要程度进行运维决策。这种方法简单易行，但受限于经验和规则的局限性，无法适应复杂多变的运维环境；经验规则方法由于主要依赖于运维人员的经验和规则，对于复杂多变的运维环境难以适应，且由于规则库的建立和更新需要大量的人力和时间投入，且规则的准确性受限于个人经验和专业知识，无法全面考虑设备状态和重要程度的综合因素。

(2)传统优化算法：如遗传算法、粒子群算法等，通过数学模型和优化算法对设备运维问题进行建模和求解。这些方法可以考虑多个约束条件和目标函数，但对于大规模的配电系统来说，计算复杂度较高，求解效率较低；传统优化算法虽然可以考虑多个约束条件和目标函数，但在大规模配电系统中，由于问题规模庞大，计算复杂度较高，求解效率不高，尤其是对于实时优化需求较高的情况下存在一定的局限性。

(3)数据驱动的方法：基于历史数据和机器学习算法，通过数据挖掘和模式识别技术，建立设备状态与运维效果之间的关联模型，实现设备运维的智能化决策。这种方法可以从大量的历史数据中学习规律和趋势，提供针对性的运维策略，但对于复杂的电网环境和非线性关系，模型的准确性和泛化能力仍然存在挑战；数据驱动方法虽然可以通过学习规律和趋势提供针对性的运维策略，但是，对于复杂的电网环境和非线性关系，模型的准确性和泛化能力仍然存在挑战，且对于实时性要求较高的场景下，数据收集和模型训练过程较为繁琐。

通过引入深度强化学习技术，结合多智能体深度强化学习的优势，可以更好地应对电网设备运维中的多目标决策问题，从而提高设备的运行效率和可靠性，降低运维成本，推动电力行业向智能化、高效化方向发展。因此，基于深度强化学习的配电设备运维优化方法具有重要的理论和实际意义，将为电力系统的发展和改善提供有力支持。

发明内容

为了解决上述问题，本发明的目的是提供一种基于深度强化学习的配电设备运维优化技术，利用深度强化学习的优势，通过建立适应电网设备运维问题的深度强化学习模型，可以充分利用深度学习的高维特征提取能力和强化学习的决策能力，实现更准确、高效的运维决策。深度强化学习模型可以自动学习并适应电网环境的变化，从而实现智能化的运维管理。通过对历史数据和实时数据进行分析和学习，可以提供个性化的运维方案，实现电网设备的精细化管理和优化运维。引入深度强化学习技术，将智能化运维方法应用于配电设备管理，有助于推动电力行业向智能化、高效化发展。通过提升设备运行效率和可靠性，降低运维成本，可以提高整个电力系统的运行效率和服务质量。

为了实现上述技术目的，本申请提供了一种基于深度强化学习的配电设备运维优化方法，包括以下步骤：

以检修约束和电网安全约束为约束条件，构建兼顾电网运行可靠性和经济性的电网设备检修计划优化模型；

基于电网设备检修计划优化模型，利用深度分布式循环DDRQN算法的高维特征提取能力和强化学习的决策能力，进行模型求解，获取配电设备运维优化策略，对配电设备的检修进行决策。

优选地，在构建电网设备检修计划优化模型的过程中，将电网运行可靠性和经济性作为目标函数，构建电网设备检修计划优化模型，其中，目标函数包括：可靠性目标函数、经济性目标函数和实用性目标函数；

可靠性目标函数包括负载损失概率LOLP、电源故障导致的最小负载损失、最大系统可靠性指数和未提供的最低预期能量EENS；

经济目标函数包括维护成本和停电损失；

实用性目标函数包括从实际的角度提出的应有的维护，减少维护中断，均匀分配维护工作量的实际目标。

优选地，在获取未提供的最低预期能量EENS的过程中，基于设备的维护周期数、状态集合、状态向量以及设备在故障状态下的甩负荷，根据设备数量，通过获取设备停机概率，生成未提供的最低预期能量EENS。

优选地，在设置检修约束和电网安全约束为约束条件的过程中，通过设置时间约束、维护资源约束、同时维护约束、互斥维护约束和安全约束，生成约束条件，其中，

时间约束表示任何维护工作都应按时完成；

维护资源约束表示在一个维护周期中，可以同时维护的设备数量是有限的；

同时维护约束表示设备检修应避免同一负荷点反复停电，停电检修期间出现的所有问题均解决；

互斥维护约束表示为防止停电扩大，部分电力设备不能同时安排检修；

安全约束表示通过潮流计算来检查检修计划，保证电网的安全稳定运行。

优选地，在获取安全约束的过程中，根据设备的电流的上限、节点电压的上限和下限以及允许功率最大值，通过获取流过设备的电流、节点电压幅值以及流过设备的有功功率，生成安全约束。

优选地，在构建电网设备检修计划优化模型的过程中，以未提供的最低预期能量EENS作为可靠性评价指标，以维护成本作为维护计划的经济性评价指标，构建电网设备检修计划优化模型。

优选地，在利用深度分布式循环DDRQN算法进行模型求解的过程中，初始化目标Q值函数、Q值函数和损耗误差；

基于电网设备检修计划优化模型，获取环境的状态信息和策略，通过选择一个行动来执行，并与环境进行交互；

在执行行动后，获取环境给予的奖励信号和下一个状态的信息，更新目标Q值函数、Q值函数和损耗误差；

基于更新后的目标Q值函数、Q值函数和损耗误差，进行策略调整，并使用经验回放技术，通过将当前的经验信息存储在记忆库并在后续的学习过程中从记忆库中随机抽取经验进行迭代训练，直到达到预设的学习目标或满足停止条件。

本发明公开了一种基于深度强化学习的配电设备运维优化系统，其特征在于：

优化模型构建模块，用于以检修约束和电网安全约束为约束条件，构建兼顾电网运行可靠性和经济性的电网设备检修计划优化模型；

优化策略生成与执行模块，用于基于电网设备检修计划优化模型，利用深度分布式循环DDRQN算法的高维特征提取能力和强化学习的决策能力，进行模型求解，获取配电设备运维优化策略，对配电设备的检修进行决策。

优选地，优化模型构建模块，还用于将电网运行可靠性和经济性作为目标函数，构建电网设备检修计划优化模型，其中，目标函数包括：可靠性目标函数、经济性目标函数和实用性目标函数；

经济目标函数包括维护成本和停电损失；

优选地，优化策略生成与执行模块还用于初始化目标Q值函数、Q值函数和损耗误差；

本发明公开了以下技术效果：

(1)本发明建立了多目标的优化模型，同时考虑了可靠性和经济性。可以提高设备的运行效率和可靠性，以及降低维修和更换设备的成本。

(2)本发明能够自动学习运维决策，并根据电网环境的变化进行自适应调整，从而提高决策的准确性和效率。通过充分利用深度学习的高维特征提取能力和强化学习的决策能力，实现更精确、高效的运维决策。

(3)本发明能够根据电网环境的变化进行自适应调整，并灵活应对各种情况。深度强化学习模型具有较强的适应性，能够在不同的电网环境和运维需求下进行优化决策，适应不同规模和复杂程度的配电系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述的智能体学习过程示意图；

图2是本发明所述的电网检修计划决策优化流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-2所示，本发明提出了一种基于深度强化学习的配电设备运维优化方法，旨在解决日常巡检和故障抢修工作中重要程度高或故障后危害大的设备没有得到优先运维的问题。首先以检修约束和电网安全约束为约束条件，构建了兼顾电网运行可靠性和经济性的电网设备检修计划优化模型。然后采用深度分布式循环Q-networks(DDRQN)的多智能体深度强化学习求解优化模型。DDRQN多智能体深度强化学习是利用深度学习的高维特征提取能力和强化学习的决策能力来解决电网维护规划的多目标决策问题。

本发明提供的一种基于深度强化学习的配电设备运维优化方法，具体包括以下3部分内容：

第1部分：考虑可靠性和经济性的配电设备多目标优化模型的建立；

第2部分：基于多智能体深度强化学习的配电设备优化体系；

第3部分；配电设备检修方案的决策与优化体系。

第1部分、考虑可靠性和经济性的配电设备多目标优化模型的建立：

(1)目标函数：

电力设备检修计划优化是一个多目标、多约束的优化问题。目标函数可分为可靠性目标函数、经济性目标函数和实用性目标函数三类。可靠性目标函数包括负载损失概率(LOLP)、电源故障导致的最小负载损失、最大系统可靠性指数和未提供的最低预期能量(未提供的预期能量，EENS)。经济目标函数包括维护成本和停电损失。实际目标是从实际的角度提出应有的维护，减少维护中断，均匀分配维护工作量。

EENS定义为设备停电造成的功率损耗的总和。它评估由设备中断引起的电源可靠性降低。目标函数表达式如下：

其中，t表示维护周期数，S_t表示状态的集合，x＝(x₁,x₂,...,x_n)表示设备的状态向量，C_x指故障状态下的甩负荷，M指设备数量，x_i＝1指停机状态，x_i＝0指设备处于运行状态，P_i指设备停机概率，T_t指单位小时数，单位为MW·H。

设备的维修费用是指在维修期间内因设备维修而发生的费用。目标函数表达式如下：

式中，N为待检修设备总数；表示单位工时成本；/>代表t时期内为设备i安排的维修队；/>代表设备i在t期间的停电维修，/>代表正常运行，单位为10000元。

(2)约束：

(a)时间约束：

任何维护工作都应按时完成。

式中，指设备检修状态，/>指设备i在t期间的停电维修，/>表示设备i在t期间内正常运行进行维护，s_i表示设备i在该时期开始维护，m_i是维护周期。

(b)维护资源约束：

在一个维护周期中，可以同时维护的设备数量是有限的。

其中，Z_max表示周期t内维护工作量的上限。

(c)同时维护约束：

设备检修应避免同一负荷点反复停电，停电检修期间出现的所有问题均应解决。

s_k＝s_i；

其中，s_k是设备k开始维护的时间，s_i是设备i开始维护的时间。

(d)互斥维护约束：

为防止停电扩大，部分电力设备不能同时安排检修。

s_j＞s_i+m_i+1

其中，s_j是设备j开始维护的时间；s_i是设备i开始维护的时间；m_i是设备i的维护期。

(e)安全约束：

为了保证电网的安全稳定运行，必须通过潮流计算来检查检修计划。

I_i≤I_i,max；

V_i,min≤V_i≤V_i,max；

P_i≤P_i,max；

其中I_i,max，V_i,max，V_i,min，P_i,max分别表示为电流的上限、节点电压的上限和下限以及允许功率最大值。I_i是流过设备i的电流，V_i是节点电压幅值，P_i是流过设备的有功功率。

(3)优化模型：

以能源短缺期望值(EENS)作为可靠性评价指标，以维护成本作为维护计划的经济性评价指标建立的优化模型如下：

式中，f_i(X)表示电力设备检修计划的设备i目标函数，X为n维决策向量，m表示目标函数个数，g_i(X)和h_j(X)分别表示等式约束函数和不等式约束函数，i为等式约束函数的个数，j为不等式约束函数的个数。

第2部分，基于多智能体深度强化学习的配电设备优化体系：

对于复杂的决策问题，单智能体系统的决策能力还远远不够。本文建立的多目标电力设备维护计划模型在经济性和可靠性方面具有竞争性或合作性。因此，在一定条件下深度强化学习需要扩展到多个智能体相互合作或竞争的多智能体系统。DDRQN为每个智能体分配深度循环Q网络(DRQN)训练模块，以构建多智能体系统。其函数表达式如下：

其中，是目标Q值函数：

其中，表示为Q值函数，/>是时间t时对智能体m的观测值，/>表示智能体m在时间t-1时的长期和短期记忆隐藏层状态，/>表示与智能体m的当前Q值函数对应的动作，β_i是i轮迭代中智能体m对应的网络权重，β_i-是i轮迭代中智能体m对应的目标网络权重，m是当前处理的智能体号码，/>是状态动作历史序列的一部分，γ是折扣因子，s_t是时间t的状态。R_t是奖励函数。β_i和/>表示如下：

其中，是梯度值，α是学习率，α^-是目标学习率。

深度强化学习问题必须具备两个条件：智能体和环境。其学习和决策过程如下：智能体根据智能体策略和环境信息，做出相应的行动，使奖励最优。深度强化学习在其他领域已经取得了成功，但电力设备维护方案的决策优化与其他环境不同。因此，其成功应用的关键是将电力设备维护计划的决策优化问题转化为深度强化学习任务。

电力设备检修方案的决策和优化可以作为动态环境，被检修设备可以作为代理人。对于任何t时间，系统的发电量和负荷都可以作为一个状态，其定义如下：

s_t＝{P_G,P_Load}；

在a_t作用下，环境反馈的奖励可以通过上一部分的优化目标确定。将电力设备检修方案的决策优化问题转化为方程组的最优解问题。然后，对需要检修的电力设备进行操作。之后，计算并得到反馈的状态s_t和奖励a_t，当动作值为r_t时。存储单元显示为d_t＝{a_t,s_t,r_t}。通过计算损耗误差，智能体学习到与电力设备维护问题相对应的策略，即维护计划。解决方案表达式如下：

智能体学习过程见附图1。智能体在学习过程开始时，初始化目标Q值函数、Q值函数和损耗误差。智能体观察环境的状态信息和策略，选择一个行动来执行。智能体执行选择的行动，并与环境进行交互。在执行行动后，智能体观察到环境给予的奖励信号和下一个状态的信息。通过使用奖励信号和下一个状态的信息，更新目标Q值函数、Q值函数和损耗误差。基于更新后的目标Q值函数、Q值函数和损耗误差，智能体调整其策略，以使得更有潜力的行动有更高的选择概率。使用经验回放技术，智能体将当前的经验信息存储在记忆库(Mnemon)中。在后续的学习过程中，智能体可以从记忆库(Mnemon)中随机抽取经验进行训练，以提高样本的效率和稳定性。以上步骤循环迭代进行，直到达到预设的学习目标或满足停止条件。

第3部分，配电设备检修方案的决策与优化体系。

电力设备检修方案的决策和优化过程见附图2所示，主要分为数据准备、算法求解、安全检查三部分。

数据准备：获取初始数据，包括拟检修设备清单及检修日期、上级安排的检修计划、剩余检修计划、电网运行模式数据；根据第二部分的解决方案表达式建立基于获取的初始数据的配电设备检修方案优化模型；根据预定检修计划调整电网运行模式，调整后的运行模式，调整后的运行模式采用安全检查方式，确保此时电网运行安全稳定。如果不满足安全稳定条件，将输出报警信息。

算法求解：采用DDRQN算法求解流程，根据当前电网运行状态，得到系统的发电量P_G和负荷P_Load，从而得到初始状态s_t；此时，电网处于安全稳定运行状态；与待检修的配电设备建立动作集A；在进行动作探索的过程中，获取状态s_t+1和奖励r_t+1，从而计算出目标Q值函数Q值函数和损失误差/>通过梯度下降算法，更新DDRQN网络的所有参数；通过一次性求解流程，在设备检修的条件下，获得此时电网的EENS和检修成本；基于一定的策略，在状态条件s_t+1下，探索下一步行动a_t+1，启动下一步求解过程，直到所有待检设备布置完毕，布置结果满足约束条件，求解才终止。此时的策略是设备维护计划。

安全检查：以维护策略为主体，计算潮流，进行安全检查。如果不满足电网安全运行的约束条件，则更新DDRQN算法的参数a_t、s_t和r_t，然后重新求解。对检修计划进行n-1检查，如果不满足电网稳定运行的条件，输出报警提示信息。经过一系列迭代解，得到最优的维护策略。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的配电设备运维优化方法，其特征在于，包括以下步骤：

基于所述电网设备检修计划优化模型，利用深度分布式循环DDRQN算法的高维特征提取能力和强化学习的决策能力，进行模型求解，获取配电设备运维优化策略，对配电设备的检修进行决策。

2.根据权利要求1所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在构建电网设备检修计划优化模型的过程中，将电网运行可靠性和经济性作为目标函数，构建所述电网设备检修计划优化模型，其中，所述目标函数包括：可靠性目标函数、经济性目标函数和实用性目标函数；

所述可靠性目标函数包括负载损失概率LOLP、电源故障导致的最小负载损失、最大系统可靠性指数和未提供的最低预期能量EENS；

所述经济目标函数包括维护成本和停电损失；

所述实用性目标函数包括从实际的角度提出的应有的维护，减少维护中断，均匀分配维护工作量的实际目标。

3.根据权利要求2所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在获取未提供的最低预期能量EENS的过程中，基于设备的维护周期数、状态集合、状态向量以及设备在故障状态下的甩负荷，根据设备数量，通过获取设备停机概率，生成未提供的最低预期能量EENS。

4.根据权利要求3所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在设置检修约束和电网安全约束为约束条件的过程中，通过设置时间约束、维护资源约束、同时维护约束、互斥维护约束和安全约束，生成所述约束条件，其中，

所述时间约束表示任何维护工作都应按时完成；

所述维护资源约束表示在一个维护周期中，可以同时维护的设备数量是有限的；

所述同时维护约束表示设备检修应避免同一负荷点反复停电，停电检修期间出现的所有问题均解决；

所述互斥维护约束表示为防止停电扩大，部分电力设备不能同时安排检修；

所述安全约束表示通过潮流计算来检查检修计划，保证电网的安全稳定运行。

5.根据权利要求4所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在获取安全约束的过程中，根据设备的电流的上限、节点电压的上限和下限以及允许功率最大值，通过获取流过设备的电流、节点电压幅值以及流过设备的有功功率，生成所述安全约束。

6.根据权利要求5所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在构建电网设备检修计划优化模型的过程中，以未提供的最低预期能量EENS作为可靠性评价指标，以维护成本作为维护计划的经济性评价指标，构建所述电网设备检修计划优化模型。

7.根据权利要求6所述一种基于深度强化学习的配电设备运维优化方法，其特征在于：

在利用深度分布式循环DDRQN算法进行模型求解的过程中，初始化目标Q值函数、Q值函数和损耗误差；

基于所述电网设备检修计划优化模型，获取环境的状态信息和策略，通过选择一个行动来执行，并与环境进行交互；

8.一种基于深度强化学习的配电设备运维优化系统，其特征在于：

优化策略生成与执行模块，用于基于所述电网设备检修计划优化模型，利用深度分布式循环DDRQN算法的高维特征提取能力和强化学习的决策能力，进行模型求解，获取配电设备运维优化策略，对配电设备的检修进行决策。

9.根据权利要求8所述一种基于深度强化学习的配电设备运维优化系统，其特征在于：

所述优化模型构建模块，还用于将电网运行可靠性和经济性作为目标函数，构建所述电网设备检修计划优化模型，其中，所述目标函数包括：可靠性目标函数、经济性目标函数和实用性目标函数；

所述经济目标函数包括维护成本和停电损失；

10.根据权利要求9所述一种基于深度强化学习的配电设备运维优化系统，其特征在于：

所述优化策略生成与执行模块还用于初始化目标Q值函数、Q值函数和损耗误差；