CN115409431B - 一种基于神经网络的分布式电力资源调度方法 - Google Patents

一种基于神经网络的分布式电力资源调度方法 Download PDF

Info

Publication number
CN115409431B
CN115409431B CN202211350863.2A CN202211350863A CN115409431B CN 115409431 B CN115409431 B CN 115409431B CN 202211350863 A CN202211350863 A CN 202211350863A CN 115409431 B CN115409431 B CN 115409431B
Authority
CN
China
Prior art keywords
cell
neural network
node
network
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211350863.2A
Other languages
English (en)
Other versions
CN115409431A (zh
Inventor
罗弦
廖荣涛
董亮
刘芬
杨荣浩
李想
姚渭箐
张岱
郭岳
王逸兮
李磊
王敬靖
胡欢君
龙霏
袁翔宇
王博涛
叶宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority to CN202211350863.2A priority Critical patent/CN115409431B/zh
Publication of CN115409431A publication Critical patent/CN115409431A/zh
Application granted granted Critical
Publication of CN115409431B publication Critical patent/CN115409431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请涉及一种基于神经网络的分布式电力资源调度方法,包括以下具体步骤:搭建基于多小区电力网络的分布式通信架构;根据上述搭建的分布式电力网络通信架构,设计相应的消息传递图神经网络算法并进行训练;设计LSTM神经网络用于处理单个节点的图嵌入输出,实现对小区历史信息的有选择地保留与更新,使智能体具有记忆性,从而优化其决策选择;训练动作价值函数Q用于智能体进行资源的调度,智能体选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。本申请可以更有效地提升电力网络的整体电力资源利用效率,面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。

Description

一种基于神经网络的分布式电力资源调度方法
技术领域
本申请属于电力技术领域,尤其涉及智能电网技术,提出一种基于神经网络的分布式电力资源调度方法。
背景技术
进入21世纪后,人类对能源的需求越来越大,用户对电力网络的服务质量以及可靠性、稳定性要求也不断加大。在这种越来越严峻的大环境下,智能电力网络系统应运而生,智能电网系统将能源开发、转、输、配、供、售电集为一体,通过发达的通信网络将其中的发电、蓄电、用电等设备紧密联系,通过智能控制来优化整个系统资源。智能电网需要一个分布式信息共享结构,其中包含很多实时信息与历史信息,比如配电方面的实时电价数据、用户方面的实时负载信息、监控到的配电和用电线路的状态信息等,随着大量新设备、新信息流的不断接入,智能电网面临的挑战不断增大。当出现一些突发情况时,部分小区会出现电力资源不足的情况,这需要调度电力资源充裕的临近小区的资源,以实现系统整体资源利用率的提高,用户端用电需求满足率的提升。
为了协调多小区之间的资源调度问题,多智能体强化学习被提出。在多智能体强化学习中,每一个小区被视为单智能体,其电力资源调度可被建模成马尔科夫决策,智能体根据环境信息独立做出决策,再由环境的反馈不断修正自身的决策函数,最终实现系统长期效益最大化。设置一个中央控制器统一收集各个智能体上传的参数与数据可以有效地实现多小区间的电力资源有效调度。然而,现实场景中的环境信息十分复杂,单个智能体想要获取全局信息需要巨大的通信代价,依据全局信息做决策也需要较高的计算成本。中央管理器统一管理多个小区引起海量数据传输与运营成本,这不符合目前的“低碳”“绿色”号召。电力网络中的图拓扑结构信息不能被很好地利用,导致了大量的信息冗余。
发明内容
本申请实施例的目的在于提供一种基于神经网络的分布式电力资源调度方法,可以更有效地提升电力网络的整体电力资源利用效率,面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种基于神经网络的分布式电力资源调度方法,包括以下具体步骤:
步骤1:搭建基于多小区电力网络的分布式通信架构,所述网络架构包括:N个独立用电小区,每个小区与邻居小区建立通信连接,N个小区共享用电商提供的有限电力资源;
步骤2:根据上述搭建的分布式电力网络通信架构,设计相应的消息传递图神经网络算法并进行训练,使单个小区可以聚合来自邻居小区的信息,经过多层消息聚合,实现单个小区决策视野的全局化;
步骤3:基于步骤2中神经网络的聚合结果,设计LSTM神经网络用于处理单个节点的图嵌入输出,实现对小区历史信息的有选择地保留与更新,使智能体具有记忆性,从而优化其决策选择;
步骤4:将步骤3的处理结果作为智能体观测到的状态,训练动作价值函数Q用于智能体进行资源的调度,智能体选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。
所述步骤2具体如下:
步骤2.1:由于分布式电力网络是一个图结构,为了捕捉网络的图拓扑信息并扩大单个节点的决策视野,首先将多小区电力网络抽象成图结构
Figure DEST_PATH_IMAGE001
,其中
Figure 220717DEST_PATH_IMAGE002
表示节点的结合,在网络中表示的是小区;
Figure DEST_PATH_IMAGE003
表示节点对相关的边集合,
Figure 691406DEST_PATH_IMAGE004
表示x ,y两个小区之间建立通信关系;图集合还包含节点特征集合
Figure DEST_PATH_IMAGE005
Figure 613095DEST_PATH_IMAGE006
表示小区
Figure DEST_PATH_IMAGE007
电力负载的实时信息,
Figure 346564DEST_PATH_IMAGE007
Figure 192161DEST_PATH_IMAGE002
中的节点;
步骤2.2:利用注意力机制在图神经网络做信息聚合的操作,将输入特征的维度记作
Figure 389793DEST_PATH_IMAGE008
,令输出的节点特征向量维度为
Figure DEST_PATH_IMAGE009
首先根据节点的输入特征进行自-注意力处理,得到小区
Figure 688574DEST_PATH_IMAGE010
与小区
Figure DEST_PATH_IMAGE011
之间的权重系数
Figure 909340DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,fc是一个
Figure 745578DEST_PATH_IMAGE014
的映射,
Figure DEST_PATH_IMAGE015
是一个所有节点之间共享的权值矩阵,小区也即是节点,
Figure 735400DEST_PATH_IMAGE016
Figure 64137DEST_PATH_IMAGE010
节点的电力负载信息,
Figure DEST_PATH_IMAGE017
Figure 772199DEST_PATH_IMAGE011
节点的电力负载信息,
Figure 225177DEST_PATH_IMAGE018
是节点
Figure 131822DEST_PATH_IMAGE010
所有的邻居节点,为了保留图结构信息,注意力只被分配到邻居节点上,记节点
Figure 113685DEST_PATH_IMAGE010
的邻居节点集为
Figure DEST_PATH_IMAGE019
,那么对于节点
Figure 574622DEST_PATH_IMAGE010
的任意邻居节点
Figure 564049DEST_PATH_IMAGE020
有:
Figure DEST_PATH_IMAGE021
fc使用单层的前馈神经网络实现,总的计算过程为:
Figure 528462DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
为前馈神经网络fc的参数,LeakyReLU为前馈神经网络的激活参数,利用计算得到的权重
Figure 133756DEST_PATH_IMAGE024
,得到节点
Figure 629459DEST_PATH_IMAGE010
在消息聚合后的输出节点特征:
Figure DEST_PATH_IMAGE025
步骤2.3:为了提高模型的拟合能力,在注意力机制上引入了多头-注意力,即同时使用多个
Figure 611191DEST_PATH_IMAGE026
计算权重系数
Figure 229778DEST_PATH_IMAGE024
,将 K头自-注意力计算得到的节点输出特征取平均得到最终输出:
Figure DEST_PATH_IMAGE027
步骤3具体如下:
步骤3.1:t时刻的LSTM层根据当前时刻的输入特征
Figure 271553DEST_PATH_IMAGE028
与前一时刻的隐藏层状态
Figure DEST_PATH_IMAGE029
和细胞状态
Figure 441503DEST_PATH_IMAGE030
输出当前时刻的隐藏层状态
Figure DEST_PATH_IMAGE031
,细胞状态
Figure 961346DEST_PATH_IMAGE032
与输出特征
Figure DEST_PATH_IMAGE033
,首先利用LSTM的当前输入
Figure 637702DEST_PATH_IMAGE028
与上一时刻的隐藏层状态
Figure 397848DEST_PATH_IMAGE029
拼接训练得到四个状态:
Figure 851832DEST_PATH_IMAGE034
其中,
Figure DEST_PATH_IMAGE035
是由拼接向量与权重矩阵乘积通过sigmoid激活函数转换得到的0~1之间的值,作为一种门控状态来控制当前时刻不同信息的选择, z是将结果通过一个tanh激活函数转换成-1~1之间的值;
步骤3.2:基于步骤3.1计算得到的四个z值与上一时刻的细胞状态
Figure 785153DEST_PATH_IMAGE036
计算得到当前时刻的细胞状态、隐藏层状态与输出:
Figure DEST_PATH_IMAGE037
其中
Figure 578665DEST_PATH_IMAGE038
表示操作矩阵中对应的元素相乘,
LSTM内部结构主要由三个阶段:
遗忘阶段,选择
Figure DEST_PATH_IMAGE039
作为门控,这个阶段主要是对上一时刻节点传进来的状态
Figure 431084DEST_PATH_IMAGE036
进行选择性的忘记,忽略不重要的信息,记忆重要性息,
选择记忆阶段,选择
Figure 375294DEST_PATH_IMAGE040
作为门控,这个阶段将输入有选择性地进行级意,主要是对输入
Figure DEST_PATH_IMAGE041
进行选择记忆,将对节点本身影响较大的信息保留下来,将与节点本身无关的信息忽略,
输出阶段,这个阶段决定哪些将会被当成当前的状态输出,选择
Figure 236939DEST_PATH_IMAGE042
作为门控控制,并且还对当前时刻的
Figure DEST_PATH_IMAGE043
进行了放缩。
所述步骤4具体如下:
步骤4.1:采取分布式训练与决策的多智能体强化学习架构,为所有智能体训练一个状态动作价值函数
Figure 884958DEST_PATH_IMAGE044
,智能体基于动作价值函数训练属于自己的决策函数
Figure DEST_PATH_IMAGE045
,首先利用马尔可夫决策将问题定义为
Figure 439436DEST_PATH_IMAGE046
,式中
Figure DEST_PATH_IMAGE047
是参与决策的代理集,
Figure 531327DEST_PATH_IMAGE048
是环境观测值集,
Figure DEST_PATH_IMAGE049
是可能的动作集,
Figure 665505DEST_PATH_IMAGE050
是状态转移概率函数,
Figure DEST_PATH_IMAGE051
是网络的奖励函数,代理集包含所有的用电小区,环境观测值包含各小区的实时用电负载情况,动作集包含小区之间电力调度的动作,
Figure 433610DEST_PATH_IMAGE051
根据目标函数变动;
步骤4.2:由于决策函数的训练依赖于价值函数,因此首先需要训练价值函数Q,在强化学习中,期望奖励一般定义为状态动作价值函数,由下式表示:
Figure 706460DEST_PATH_IMAGE052
其中
Figure DEST_PATH_IMAGE053
是折扣因子,
Figure 560015DEST_PATH_IMAGE054
的方程满足贝尔曼方程:
Figure DEST_PATH_IMAGE055
其中
Figure 625448DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
分别为下一时刻的状态与动作。
利用一个神经网络
Figure 389004DEST_PATH_IMAGE058
来近似状态动作价值函数
Figure DEST_PATH_IMAGE059
,其中
Figure 285285DEST_PATH_IMAGE060
为神经网络的参数,利用最小化损失函数的方法来训练Q神经网络:
Figure DEST_PATH_IMAGE061
由于
Figure 360557DEST_PATH_IMAGE062
满足贝尔曼方程,易得
Figure DEST_PATH_IMAGE063
利用梯度下降法最小化损失函数,更新Q神经网络的初始参数
Figure 370626DEST_PATH_IMAGE060
Figure 519848DEST_PATH_IMAGE064
步骤4.3:基于4.2提出的Q神经网络,同样提出一个神经网络
Figure DEST_PATH_IMAGE065
用于拟合决策函数
Figure 587030DEST_PATH_IMAGE066
,其中w为神经网络的参数,利用策略梯度的算法训练神经网
Figure DEST_PATH_IMAGE067
状态价值函数用于描述状态s的好坏,可以由下式表示:
Figure 149598DEST_PATH_IMAGE068
对状态价值函数求导可得:
Figure DEST_PATH_IMAGE069
利用随机策略梯度算法更新策略函数,首先根据策略网络随机采样一个动作
Figure 694849DEST_PATH_IMAGE070
,将下一时刻的网络参数
Figure DEST_PATH_IMAGE071
更新为:
Figure 29403DEST_PATH_IMAGE072
其中
Figure DEST_PATH_IMAGE073
为学习率,
步骤4.4:训练好的网络参数定期更新,或在电力网络发生较大变化时重新训练并更新网络参数。
与现有技术相比,本申请的有益效果是:本申请针对分布式电力网络提出一种基于神经网络的可以高效调度电力资源的技术。针对当前资源分配技术未充分利用电力网络图拓扑信息的缺点,我们提出利用基于注意力机制图神经网络来捕捉图拓扑信息,并扩大单个节点的决策视野;针对单小区对环境部分可观测的特性,我们采用LSTM网络层来学习小区过去时刻的信息,使输出特征具有时间记忆性;针对分布式多小区的电网结构,我们提出基于Actor-Critic的多智能体强化学习来训练最优决策,使各小区可以基于自身的实时用电负载情况做出有利于全局的资源调度决策。与现有的资源分配方法相比,本申请提出的基于神经网络的分布式电力资源调度技术可以更有效地提升电力网络的整体电力资源利用效率,面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例的方法流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参见图1,本申请提供了一种基于神经网络的分布式电力资源调度方法,包括以下步骤:
步骤1:搭建基于多小区电力网络的分布式通信架构,所述网络架构包括:N个独立用电小区,每个小区与邻居小区建立通信连接,N个小区共享用电商提供的有限电力资源;
步骤2:根据上述搭建的分布式电力网络通信架构,设计相应的消息传递图神经网络算法并进行训练,使单个小区可以聚合来自邻居小区的信息,经过多层消息聚合,实现单个小区决策视野的全局化;
步骤3:基于步骤2中图神经网络的聚合结果,设计高效的LSTM神经网络用于处理单个节点的图嵌入输出,实现对小区历史信息的有选择地保留与更新,使智能体具有记忆性,从而优化其决策选择。
步骤4:将步骤3的处理结果作为智能体观测到的状态,训练动作价值函数Q用于智能体进行资源的调度,智能体可以选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。
作为优选,所述步骤2具体如下。
步骤2.1:由于分布式电力网络是一个图结构,为了捕捉网络的图拓扑信息并扩大单个节点的决策视野,我们首先将多小区电力网络抽象成图结构
Figure 267486DEST_PATH_IMAGE074
,其中
Figure DEST_PATH_IMAGE075
表示节点的结合,在网络中表示的是小区;
Figure 317350DEST_PATH_IMAGE076
表示节点对相关的边集合,
Figure DEST_PATH_IMAGE077
表示x,y两个小区之间建立通信关系,反之则无;由于在本系统中,节点的节点特征对实验其至关重要的作用,因此图集合还包含节点特征集合
Figure 666292DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE079
包含小区电力负载的实时信息。
步骤2.2:我们利用注意力机制在图神经网络做信息聚合的操作,基具有计算速度快,不同节点特性化处理的优点。将输入特征的维度记作
Figure 679571DEST_PATH_IMAGE080
,令输出的节点特征向量维度为
Figure DEST_PATH_IMAGE081
首先根据节点的输入特征进行自-注意力处理:
Figure 822977DEST_PATH_IMAGE013
其中,fc是一个
Figure 688033DEST_PATH_IMAGE014
的映射,
Figure 653715DEST_PATH_IMAGE015
是一个所有节点之间共享的权值矩阵,小区也即是节点,
Figure 22249DEST_PATH_IMAGE016
Figure 149605DEST_PATH_IMAGE010
节点的电力负载信息,
Figure 239308DEST_PATH_IMAGE017
Figure 477522DEST_PATH_IMAGE011
节点的电力负载信息,
Figure 231721DEST_PATH_IMAGE018
是节点
Figure 264399DEST_PATH_IMAGE010
所有的邻居节点,为了保留图结构信息,注意力只被分配到邻居节点上,记节点
Figure 838468DEST_PATH_IMAGE010
的邻居节点集为
Figure 411532DEST_PATH_IMAGE019
,那么对于节点
Figure 489078DEST_PATH_IMAGE010
的任意邻居节点
Figure 958237DEST_PATH_IMAGE020
有:
Figure 756953DEST_PATH_IMAGE021
fc使用单层的前馈神经网络实现,总的计算过程为:
Figure 868129DEST_PATH_IMAGE022
其中,
Figure 65761DEST_PATH_IMAGE023
为前馈神经网络fc的参数,LeakyReLU为前馈神经网络的激活参数,利用计算得到的权重
Figure 971400DEST_PATH_IMAGE024
,得到节点
Figure 254483DEST_PATH_IMAGE010
在消息聚合后的输出节点特征:
Figure 638191DEST_PATH_IMAGE082
步骤2.3:为了提高模型的拟合能力,在注意力机制上引入了多头-注意力,即同时使用多个
Figure 955908DEST_PATH_IMAGE026
计算权重系数
Figure 32449DEST_PATH_IMAGE024
,将 K头自-注意力计算得到的节点输出特征取平均得到最终输出:
Figure 805757DEST_PATH_IMAGE027
注意力机制根据节点自身的节点特征与邻居的节点特征给邻居节点分配不同的权重,有利于节点选择性地聚合较为重要的信息,训练效果更好。
步骤2.3:为了提高模型的拟合能力,本系统在注意力机制上引入了多头-注意力,即同时使用多个
Figure DEST_PATH_IMAGE083
计算权重系数
Figure 180107DEST_PATH_IMAGE084
。由于权重矩阵是随机生成的,不同权重矩阵侧重的方向不一样,计算得到的权重系数也不同。多头注意力机制的引入可以一定程度抵消权重矩阵随机初始化带来的负面影响,并且可以使节点的信息聚合更有效,模型性能的提升。本文将K头自注意力计算得到的节点输出特征取平均得到最终输出:
Figure DEST_PATH_IMAGE085
作为优选,所述步骤3具体如下。
步骤3.1:长短期记忆(LSTM)使一种特殊的循环神经网络结构,在长序列中有更好的表现。t时刻的LSTM层根据当前时刻的输入特征
Figure 962118DEST_PATH_IMAGE028
与前一时刻的隐藏层状态
Figure 458827DEST_PATH_IMAGE029
和细胞状态
Figure 467234DEST_PATH_IMAGE030
输出当前时刻的隐藏层状态
Figure 964382DEST_PATH_IMAGE031
,细胞状态
Figure 741845DEST_PATH_IMAGE032
与输出特征
Figure 409456DEST_PATH_IMAGE033
,首先利用LSTM的当前输入
Figure 639580DEST_PATH_IMAGE028
与上一时刻的隐藏层状态
Figure 418049DEST_PATH_IMAGE029
拼接训练得到四个状态:
Figure 315598DEST_PATH_IMAGE034
其中,
Figure 154110DEST_PATH_IMAGE086
是由拼接向量与权重矩阵乘积通过sigmoid激活函数转换得到的0~1之间的值,作为一种门控状态来控制当前时刻不同信息的选择, z是将结果通过一个tanh激活函数转换成-1~1之间的值。
步骤3.2:基于步骤3.1计算得到的四个z值与上一时刻的细胞状态
Figure 871530DEST_PATH_IMAGE036
计算得到当前时刻的细胞状态、隐藏层状态与输出:
Figure 456620DEST_PATH_IMAGE037
其中
Figure 943096DEST_PATH_IMAGE038
表示操作矩阵中对应的元素相乘,
LSTM内部结构主要由三个阶段:
遗忘阶段,选择
Figure 218088DEST_PATH_IMAGE039
作为门控,这个阶段主要是对上一时刻节点传进来的状态
Figure 688384DEST_PATH_IMAGE036
进行选择性的忘记,忽略不重要的信息,记忆重要性息,
选择记忆阶段,选择
Figure 74234DEST_PATH_IMAGE040
作为门控,这个阶段将输入有选择性地进行级意,主要是对输入
Figure 415217DEST_PATH_IMAGE041
进行选择记忆,将对节点本身影响较大的信息保留下来,将与节点本身无关的信息忽略,
输出阶段,这个阶段决定哪些将会被当成当前的状态输出,选择
Figure 861111DEST_PATH_IMAGE042
作为门控控制,并且还对当前时刻的
Figure 553123DEST_PATH_IMAGE043
进行了放缩。
与普通的循环神经网络类似,LSTM最终输出
Figure 480016DEST_PATH_IMAGE033
往往也是通过
Figure 941084DEST_PATH_IMAGE031
变换得到。LSTM结构引入了三个门控参数,用来对历史时刻信息有选择地进行遗忘与记忆,这对于处理时序任务有较大的优势。
在本系统中,小区将当前时刻的电力负载情况作为当前时刻的输入,经过图嵌入层与LSTM层可以使小区的决策视野全局化,有记忆性,为后续的多智能体强化学习提供了良好的输入状态基础。
作为优选,所述步骤4具体如下。
步骤4.1:多智能体强化学习有别于监督学习与无监督学习,其实现原理是智能体通过与环境的交互训练得到可以最大化长期收益的决策。Actor-Critic的算法结合了基于价值的算法与基于策略的算法的优势,表现性能较好,是本技术算法的改进基础。在本系统中,不同智能体的目标函数相同,是最大化电力网络的总体资源利用率与用户用电需求满足率,且智能体均依赖于自身的观测值独立做出决策,因此我们采取分布式训练与决策的多智能体强化学习架构,为所有智能体训练一个状态动作价值函数(批评者Critic)
Figure DEST_PATH_IMAGE087
,智能体基于动作价值函数训练属于自己的决策函数(执行者Actor)
Figure 229983DEST_PATH_IMAGE088
。首先利用马尔可夫决策将问题定义为
Figure DEST_PATH_IMAGE089
,式中
Figure 189717DEST_PATH_IMAGE047
是参与决策的代理集,
Figure 668103DEST_PATH_IMAGE048
是环境观测值集,
Figure 232946DEST_PATH_IMAGE049
是可能的动作集,
Figure 505795DEST_PATH_IMAGE050
是状态转移概率函数,
Figure 159018DEST_PATH_IMAGE051
是网络的奖励函数,代理集包含所有的用电小区,环境观测值包含各小区的实时用电负载情况,动作集包含小区之间电力调度的动作,
Figure 175515DEST_PATH_IMAGE051
根据目标函数变动。
步骤4.2:由于决策函数的训练依赖于价值函数,因此首先需要训练价值函数Q。在强化学习中,期望奖励一般定义为状态动作价值函数,由下式表示:
Figure 594864DEST_PATH_IMAGE052
其中
Figure 38615DEST_PATH_IMAGE053
是折扣因子,
Figure 51570DEST_PATH_IMAGE054
的方程满足贝尔曼方程:
Figure 121027DEST_PATH_IMAGE055
其中
Figure 411194DEST_PATH_IMAGE056
Figure 540692DEST_PATH_IMAGE057
分别为下一时刻的状态与动作。
利用一个神经网络
Figure 916310DEST_PATH_IMAGE058
来近似状态动作价值函数
Figure 538526DEST_PATH_IMAGE059
,其中
Figure 338992DEST_PATH_IMAGE060
为神经网络的参数,利用最小化损失函数的方法来训练Q神经网络:
Figure 124545DEST_PATH_IMAGE061
由于
Figure 846514DEST_PATH_IMAGE062
满足贝尔曼方程,易得
Figure 257772DEST_PATH_IMAGE063
利用梯度下降法最小化损失函数,更新Q神经网络的初始参数
Figure 256952DEST_PATH_IMAGE060
Figure 728254DEST_PATH_IMAGE064
步骤4.3:基于4.2提出的Q神经网络,同样提出一个神经网络
Figure 78464DEST_PATH_IMAGE065
用于拟合决策函数
Figure 765185DEST_PATH_IMAGE066
,其中w为神经网络的参数,利用策略梯度的算法训练神经网
Figure 884450DEST_PATH_IMAGE067
状态价值函数用于描述状态s的好坏,可以由下式表示:
Figure 261074DEST_PATH_IMAGE068
对状态价值函数求导可得:
Figure 98580DEST_PATH_IMAGE069
利用随机策略梯度算法更新策略函数,首先根据策略网络随机采样一个动作
Figure 851641DEST_PATH_IMAGE070
,将下一时刻的网络参数
Figure 684468DEST_PATH_IMAGE071
更新为:
Figure 248304DEST_PATH_IMAGE072
其中
Figure 556795DEST_PATH_IMAGE073
为学习率,
步骤4.4:为了节约计算成本,训练好的网络参数定期更新,或在电力网络发生较大变化时重新训练并更新网络参数。每个t时刻小区收集到当前的电力负载情况并上传服务器,首先通过图神经网络对观测值进行处理,输出结果输入到LSTM网络,在多门控参数的控制下输出具有记忆性的变量作为多智能体强化学习的状态输入。策略网络根据状态输入,选择可以最大化Q值的动作并执行,环境将这一动作带来的奖励r反馈给Q神经网络并用于更新参数。当模型收敛后可以根据小区的过去电力负载情况合理分配电力资源,当出现突发情况时可以高效地在小区间调度电力资源,以实现电力网络总体资源利用率和用户用电需求满足率的提高。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (1)

1.一种基于神经网络的分布式电力资源调度方法,其特征在于,包括以下具体步骤:
步骤1:搭建基于多小区电力网络的分布式通信架构,所述网络架构包括:N个独立用电小区,每个小区与邻居小区建立通信连接,N个小区共享用电商提供的有限电力资源;
步骤2:根据上述搭建的分布式电力网络通信架构,设计相应的消息传递图神经网络算法并进行训练,使单个小区可以聚合来自邻居小区的信息,经过多层消息聚合,实现单个小区决策视野的全局化;
步骤3:基于步骤2中神经网络的聚合结果,设计LSTM神经网络用于处理单个节点的图嵌入输出,实现对小区历史信息的有选择地保留与更新,使智能体具有记忆性,从而优化其决策选择;
步骤4:将步骤3的处理结果作为智能体观测到的状态,训练动作价值函数Q用于智能体进行资源的调度,智能体选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源;
所述步骤2具体如下:
步骤2.1:由于分布式电力网络是一个图结构,为了捕捉网络的图拓扑信息并扩大单个节点的决策视野,首先将多小区电力网络抽象成图结构
Figure 523927DEST_PATH_IMAGE001
,其中
Figure 330209DEST_PATH_IMAGE002
表示节点的结合,在网络中表示的是小区;
Figure 645784DEST_PATH_IMAGE003
表示节点对相关的边集合,
Figure 512108DEST_PATH_IMAGE004
表示x ,y两个小区之间建立通信关系;图集合还包含节点特征集合
Figure 905611DEST_PATH_IMAGE005
Figure 515584DEST_PATH_IMAGE006
表示小区
Figure 544720DEST_PATH_IMAGE007
电力负载的实时信息,
Figure 847525DEST_PATH_IMAGE007
Figure 453956DEST_PATH_IMAGE002
中的节点;
步骤2.2:利用注意力机制在图神经网络做信息聚合的操作,将输入特征的维度记作
Figure 867620DEST_PATH_IMAGE008
,令输出的节点特征向量维度为
Figure 626629DEST_PATH_IMAGE009
首先根据节点的输入特征进行自-注意力处理,得到小区
Figure 100335DEST_PATH_IMAGE010
与小区
Figure 194062DEST_PATH_IMAGE011
之间的权重系数
Figure 145838DEST_PATH_IMAGE012
Figure 24932DEST_PATH_IMAGE013
其中,fc是一个
Figure 669540DEST_PATH_IMAGE014
的映射,
Figure 519072DEST_PATH_IMAGE015
是一个所有节点之间共享的权值矩阵,小区也即是节点,
Figure 149904DEST_PATH_IMAGE016
Figure 742560DEST_PATH_IMAGE010
节点的电力负载信息,
Figure 682703DEST_PATH_IMAGE017
Figure 626388DEST_PATH_IMAGE011
节点的电力负载信息,
Figure 60911DEST_PATH_IMAGE018
是节点
Figure 773652DEST_PATH_IMAGE010
所有的邻居节点,为了保留图结构信息,注意力只被分配到邻居节点上,记节点
Figure 884697DEST_PATH_IMAGE010
的邻居节点集为
Figure 315678DEST_PATH_IMAGE019
,那么对于节点
Figure 288313DEST_PATH_IMAGE010
的任意邻居节点
Figure 121140DEST_PATH_IMAGE020
有:
Figure 137507DEST_PATH_IMAGE021
fc使用单层的前馈神经网络实现,总的计算过程为:
Figure 196729DEST_PATH_IMAGE022
其中,
Figure 97689DEST_PATH_IMAGE023
为前馈神经网络fc的参数,LeakyReLU为前馈神经网络的激活参数,利用计算得到的权重
Figure 641148DEST_PATH_IMAGE024
,得到节点
Figure 969361DEST_PATH_IMAGE010
在消息聚合后的输出节点特征:
Figure 984721DEST_PATH_IMAGE025
步骤2.3:为了提高模型的拟合能力,在注意力机制上引入了多头-注意力,即同时使用多个
Figure 954951DEST_PATH_IMAGE026
计算权重系数
Figure 621425DEST_PATH_IMAGE024
,将 K头自-注意力计算得到的节点输出特征取平均得到最终输出:
Figure 120539DEST_PATH_IMAGE027
步骤3具体如下:
步骤3.1:t时刻的LSTM层根据当前时刻的输入特征
Figure 623196DEST_PATH_IMAGE028
与前一时刻的隐藏层状态
Figure 600379DEST_PATH_IMAGE029
和细胞状态
Figure 386939DEST_PATH_IMAGE030
输出当前时刻的隐藏层状态
Figure 56954DEST_PATH_IMAGE031
,细胞状态
Figure 46907DEST_PATH_IMAGE032
与输出特征
Figure 827781DEST_PATH_IMAGE033
,首先利用LSTM的当前输入
Figure 468847DEST_PATH_IMAGE028
与上一时刻的隐藏层状态
Figure 309764DEST_PATH_IMAGE029
拼接训练得到四个状态:
Figure 787013DEST_PATH_IMAGE034
其中,
Figure 371578DEST_PATH_IMAGE035
是由拼接向量与权重矩阵乘积通过sigmoid激活函数转换得到的0~1之间的值,作为一种门控状态来控制当前时刻不同信息的选择, z是将结果通过一个tanh激活函数转换成-1~1之间的值;
步骤3.2:基于步骤3.1计算得到的四个z值与上一时刻的细胞状态
Figure 604501DEST_PATH_IMAGE036
计算得到当前时刻的细胞状态、隐藏层状态与输出:
Figure 881898DEST_PATH_IMAGE037
其中
Figure 580864DEST_PATH_IMAGE038
表示操作矩阵中对应的元素相乘,
LSTM内部结构主要由三个阶段:
遗忘阶段,选择
Figure 969120DEST_PATH_IMAGE039
作为门控,这个阶段主要是对上一时刻节点传进来的状态
Figure 319199DEST_PATH_IMAGE036
进行选择性的忘记,忽略不重要的信息,记忆重要性息,
选择记忆阶段,选择
Figure 501918DEST_PATH_IMAGE040
作为门控,这个阶段将输入有选择性地进行级意,主要是对输入
Figure 953759DEST_PATH_IMAGE041
进行选择记忆,将对节点本身影响较大的信息保留下来,将与节点本身无关的信息忽略,
输出阶段,这个阶段决定哪些将会被当成当前的状态输出,选择
Figure 270340DEST_PATH_IMAGE042
作为门控控制,并且还对当前时刻的
Figure 350292DEST_PATH_IMAGE043
进行了放缩;
所述步骤4具体如下:
步骤4.1:采取分布式训练与决策的多智能体强化学习架构,为所有智能体训练一个状态动作价值函数
Figure 844858DEST_PATH_IMAGE044
,智能体基于动作价值函数训练属于自己的决策函数
Figure 643050DEST_PATH_IMAGE045
,首先利用马尔可夫决策将问题定义为
Figure 107529DEST_PATH_IMAGE046
,式中
Figure 432200DEST_PATH_IMAGE047
是参与决策的代理集,
Figure 97668DEST_PATH_IMAGE048
是环境观测值集,
Figure 383156DEST_PATH_IMAGE049
是可能的动作集,
Figure 784749DEST_PATH_IMAGE050
是状态转移概率函数,
Figure 839292DEST_PATH_IMAGE051
是网络的奖励函数,代理集包含所有的用电小区,环境观测值包含各小区的实时用电负载情况,动作集包含小区之间电力调度的动作,
Figure 675661DEST_PATH_IMAGE051
根据目标函数变动;
步骤4.2:由于决策函数的训练依赖于价值函数,因此首先需要训练价值函数Q,在强化学习中,期望奖励一般定义为状态动作价值函数,由下式表示:
Figure 182866DEST_PATH_IMAGE052
其中
Figure 379361DEST_PATH_IMAGE053
是折扣因子,
Figure 819570DEST_PATH_IMAGE054
的方程满足贝尔曼方程:
Figure 826840DEST_PATH_IMAGE055
其中
Figure 211554DEST_PATH_IMAGE056
Figure 821527DEST_PATH_IMAGE057
分别为下一时刻的状态与动作;
利用一个神经网络
Figure 726029DEST_PATH_IMAGE058
来近似状态动作价值函数
Figure 763255DEST_PATH_IMAGE059
,其中
Figure 635265DEST_PATH_IMAGE060
为神经网络的参数,利用最小化损失函数的方法来训练Q神经网络:
Figure 48929DEST_PATH_IMAGE061
由于
Figure 807937DEST_PATH_IMAGE062
满足贝尔曼方程,易得
Figure 281644DEST_PATH_IMAGE063
利用梯度下降法最小化损失函数,更新Q神经网络的初始参数
Figure 378300DEST_PATH_IMAGE060
Figure 330076DEST_PATH_IMAGE064
步骤4.3:基于4.2提出的Q神经网络,同样提出一个神经网络
Figure 209170DEST_PATH_IMAGE065
用于拟合决策函数
Figure 588199DEST_PATH_IMAGE066
,其中w为神经网络的参数,利用策略梯度的算法训练神经网
Figure 169222DEST_PATH_IMAGE067
状态价值函数用于描述状态s的好坏,可以由下式表示:
Figure 190268DEST_PATH_IMAGE068
对状态价值函数求导可得:
Figure 923868DEST_PATH_IMAGE069
利用随机策略梯度算法更新策略函数,首先根据策略网络随机采样一个动作
Figure 739378DEST_PATH_IMAGE070
,将下一时刻的网络参数
Figure 807697DEST_PATH_IMAGE071
更新为:
Figure 242220DEST_PATH_IMAGE072
其中
Figure 954961DEST_PATH_IMAGE073
为学习率,
步骤4.4:训练好的网络参数定期更新,或在电力网络发生较大变化时重新训练并更新网络参数。
CN202211350863.2A 2022-10-31 2022-10-31 一种基于神经网络的分布式电力资源调度方法 Active CN115409431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211350863.2A CN115409431B (zh) 2022-10-31 2022-10-31 一种基于神经网络的分布式电力资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211350863.2A CN115409431B (zh) 2022-10-31 2022-10-31 一种基于神经网络的分布式电力资源调度方法

Publications (2)

Publication Number Publication Date
CN115409431A CN115409431A (zh) 2022-11-29
CN115409431B true CN115409431B (zh) 2023-01-24

Family

ID=84167410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211350863.2A Active CN115409431B (zh) 2022-10-31 2022-10-31 一种基于神经网络的分布式电力资源调度方法

Country Status (1)

Country Link
CN (1) CN115409431B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151206B (zh) * 2023-10-12 2024-04-12 北京蓝色创想网络科技有限责任公司 一种多智能体协同决策强化学习方法、系统及装置
CN117613421B (zh) * 2023-11-23 2024-06-21 北京中铁建电气化设计研究院有限公司 一种基于神经网络的储能电池组管理系统的均衡方法及介质
CN117408832B (zh) * 2023-12-15 2024-04-02 台昌树脂(佛山)有限公司 应用于环保胶生产控制系统的异常分析方法及系统
CN118153952A (zh) * 2024-03-20 2024-06-07 南京航空航天大学 注意力机制优化下的电力资源基建项目风险等级评估方法
CN118521139A (zh) * 2024-07-24 2024-08-20 苏州简诺科技有限公司 基于人工智能的系统资源需求规划方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952181A (zh) * 2017-03-08 2017-07-14 深圳市景程信息科技有限公司 基于长短时记忆神经网络的电力负荷预测系统
CN108494022A (zh) * 2018-04-23 2018-09-04 东北大学 一种基于微电网中分布式电源的精准调度方法
CN110061524A (zh) * 2019-05-06 2019-07-26 中国科学院电工研究所 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及系统
CN111090747A (zh) * 2019-12-03 2020-05-01 国家电网有限公司 一种基于神经网络分类的电力通信故障应急处置方法
CN111582655A (zh) * 2020-04-14 2020-08-25 广东卓维网络有限公司 一种基于多元用户可调度潜力分析的用电系统
CN111652447A (zh) * 2020-07-02 2020-09-11 东北大学 基于分布式神经动态优化的综合能源系统经济调度方法
CN112636338A (zh) * 2020-12-11 2021-04-09 国网江苏省电力有限公司南通供电分公司 一种基于边缘计算的负荷分区调控系统及方法
CN114091879A (zh) * 2021-11-15 2022-02-25 浙江华云电力工程设计咨询有限公司 基于深度强化学习的多园区能源调度方法和系统
CN115239072A (zh) * 2022-06-23 2022-10-25 国网河北省电力有限公司保定供电分公司 基于图卷积神经网络与强化学习的负荷转供方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062464B (zh) * 2019-10-24 2022-07-01 中国电力科学研究院有限公司 一种基于深度学习的电力通信网可靠性预测和保障方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952181A (zh) * 2017-03-08 2017-07-14 深圳市景程信息科技有限公司 基于长短时记忆神经网络的电力负荷预测系统
CN108494022A (zh) * 2018-04-23 2018-09-04 东北大学 一种基于微电网中分布式电源的精准调度方法
CN110061524A (zh) * 2019-05-06 2019-07-26 中国科学院电工研究所 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及系统
CN111090747A (zh) * 2019-12-03 2020-05-01 国家电网有限公司 一种基于神经网络分类的电力通信故障应急处置方法
CN111582655A (zh) * 2020-04-14 2020-08-25 广东卓维网络有限公司 一种基于多元用户可调度潜力分析的用电系统
CN111652447A (zh) * 2020-07-02 2020-09-11 东北大学 基于分布式神经动态优化的综合能源系统经济调度方法
CN112636338A (zh) * 2020-12-11 2021-04-09 国网江苏省电力有限公司南通供电分公司 一种基于边缘计算的负荷分区调控系统及方法
CN114091879A (zh) * 2021-11-15 2022-02-25 浙江华云电力工程设计咨询有限公司 基于深度强化学习的多园区能源调度方法和系统
CN115239072A (zh) * 2022-06-23 2022-10-25 国网河北省电力有限公司保定供电分公司 基于图卷积神经网络与强化学习的负荷转供方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络模型的网络入侵检测的研究;罗弦等;《中国知网》;20181231;全文 *

Also Published As

Publication number Publication date
CN115409431A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN115409431B (zh) 一种基于神经网络的分布式电力资源调度方法
Mocanu et al. On-line building energy optimization using deep reinforcement learning
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Hossain et al. Graph convolutional network-based topology embedded deep reinforcement learning for voltage stability control
Yang et al. Modelling a combined method based on ANFIS and neural network improved by DE algorithm: A case study for short-term electricity demand forecasting
CN110365057B (zh) 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN111242443B (zh) 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
Liao Hybrid improved differential evolution and wavelet neural network with load forecasting problem of air conditioning
Ye et al. A hybrid multiagent framework with Q-learning for power grid systems restoration
CN109347149A (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
Xie et al. Multi-agent attention-based deep reinforcement learning for demand response in grid-responsive buildings
Srinivasan et al. Practical implementation of a hybrid fuzzy neural network for one-day-ahead load forecasting
CN111401664A (zh) 一种综合能源系统鲁棒优化调度方法及装置
Tao et al. A human-machine reinforcement learning method for cooperative energy management
CN112330021A (zh) 一种分布式光储系统的网络协调控制方法
Zhang et al. A review of recent advances on reinforcement learning for smart home energy management
CN116667325B (zh) 一种基于改进布谷鸟算法的微电网并网运行优化调度方法
Li et al. Learning the optimal strategy of power system operation with varying renewable generations
CN114358520A (zh) 一种电力系统经济调度决策的方法、系统、装置及介质
CN117117878A (zh) 基于人工神经网络和多智能体强化学习的电网需求侧响应潜力评估及负荷调控方法
Leo et al. Multi agent reinforcement learning based distributed optimization of solar microgrid
CN115759370A (zh) 一种基于maddpg算法的映射运行方法
Sadeeq et al. Design and analysis of intelligent energy management system based on multi-agent and distributed iot: Dpu case study
CN113344283B (zh) 基于边缘智能的能源互联网新能源消纳能力评估方法
Xie et al. Attention Based Multi-Agent Reinforcement Learning for Demand Response in Grid-Responsive Buildings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant