CN114240192B - 基于强化学习的园区能效提升的设备优化配置方法及系统 - Google Patents

基于强化学习的园区能效提升的设备优化配置方法及系统 Download PDF

Info

Publication number
CN114240192B
CN114240192B CN202111569479.7A CN202111569479A CN114240192B CN 114240192 B CN114240192 B CN 114240192B CN 202111569479 A CN202111569479 A CN 202111569479A CN 114240192 B CN114240192 B CN 114240192B
Authority
CN
China
Prior art keywords
equipment
average
current
action
energy efficiency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111569479.7A
Other languages
English (en)
Other versions
CN114240192A (zh
Inventor
王海
张大鹏
李东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Terminus Technology Group Co Ltd
Original Assignee
Terminus Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Terminus Technology Group Co Ltd filed Critical Terminus Technology Group Co Ltd
Priority to CN202111569479.7A priority Critical patent/CN114240192B/zh
Publication of CN114240192A publication Critical patent/CN114240192A/zh
Application granted granted Critical
Publication of CN114240192B publication Critical patent/CN114240192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的园区能效提升的设备优化配置方法及系统,涉及智能节能技术领域,包括:以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体;对设备运作系统模型,利用各设备采集的数据进行计算,智能体推演获得园区各设备的低碳最优化配置。本发明能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。

Description

基于强化学习的园区能效提升的设备优化配置方法及系统
技术领域
本发明涉及智能节能技术领域,具体涉及一种基于强化学习的园区能效提升的设备优化配置方法及系统。
背景技术
能效管理系统是以绿色建筑、工业园区内各种能源供、配、用设施的运行状态和参数,以及运行特点为基本条件,涉及建筑智能化、工业自动化、数据采集、大数据分析、人工智能等多个技术领域,依据各类机电设备运行中所采集的信息,反映其能源传输、变换与消耗的特征,采用能效控制策略实现能效最优化,是最经济的专家管理决策系统,最终目的就是通过智能化系统集成来实现“管理节能”和“绿色用能”。
目前国内大部分园区仍然依赖用于各设备的PID调节器,来监控基于规则的节能控制方案,PID控制方法存在参数整定和调试困难的问题,在设备负荷和工况发生变化时极易产生振荡,控制效果不佳。基于规则的控制方法是指根据设备运行表对各设备采取固定模式的变频技术,该方法存在无法根据实际负荷需求实时调整控制参数的问题,从而就会消耗更多能源。所以要降低园区个设备的运行能耗,就必须在保证园区正常运作的前提下采取合理可行的节能控制方案。
已有研究表明,智能控制方法具有自适应、自学习和自协调能力,能够提升园区能效和优化园区设备配置。其中,强化学习(Reinforcement learning,RL)中的智能体通过与环境之间的直接交互来最大化奖励信号,能够实现复杂系统的全局优化控制,是充分发挥园区各设备节能潜力的有效方法之一,应用强化学习方法控制园区设备运行可以有效提升节能效果。但是,目前的强化学习方法在线训练智能体的收敛时间较长,难以满足控制实时性要求。
发明内容
因此,为了克服上述缺陷,本发明实施例提供一种基于强化学习的园区能效提升的设备优化配置方法及系统,能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。
为此,本发明实施例的一种基于强化学习的园区能效提升的设备优化配置方法,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,所述S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000021
平均电压
Figure BDA0003422899310000022
平均负载率
Figure BDA0003422899310000023
和平均功率因数
Figure BDA0003422899310000024
设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure BDA0003422899310000025
和平均截面积达标线路长度
Figure BDA0003422899310000026
i=1,2,...,N,为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure BDA0003422899310000027
和平均截面积达标线路长度
Figure BDA0003422899310000028
为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000029
平均电压
Figure BDA00034228993100000210
平均负载率
Figure BDA00034228993100000211
平均功率因数
Figure BDA00034228993100000212
和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比
Figure BDA00034228993100000213
和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比
Figure BDA0003422899310000031
和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
优选地,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量
Figure BDA00034228993100000317
第一动作变量
Figure BDA0003422899310000032
和第一奖励信号
Figure BDA0003422899310000033
Figure BDA0003422899310000034
Figure BDA0003422899310000035
为平均线路长度设定值,
Figure BDA0003422899310000036
为平均截面积达标线路长度设定值,E为常数;
第二Actor网络的第二状态变量
Figure BDA0003422899310000037
第二动作变量
Figure BDA0003422899310000038
和第二奖励信号
Figure BDA0003422899310000039
Figure BDA00034228993100000310
为平均电压设定值,
Figure BDA00034228993100000311
为平均负载率设定值,
Figure BDA00034228993100000312
为平均功率因数设定值。
优选地,所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。
优选地,S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令
Figure BDA00034228993100000313
为当前第一状态,
Figure BDA00034228993100000314
为当前第二状态,
Figure BDA00034228993100000315
为当前第一状态对应的第一奖励信号的值,
Figure BDA00034228993100000316
为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比
Figure BDA0003422899310000041
和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比
Figure BDA0003422899310000042
和最小总用电量Qmin[K+p];
S34、比较最大所有设备平均能效比
Figure BDA0003422899310000043
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值;
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比
Figure BDA0003422899310000044
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态
Figure BDA0003422899310000045
和对应的第一奖励信号的值
Figure BDA0003422899310000046
下一时段第二状态
Figure BDA0003422899310000047
和对应的第二奖励信号的值
Figure BDA0003422899310000048
并将当前第一状态
Figure BDA0003422899310000049
更新为下一时段第一状态
Figure BDA00034228993100000410
当前第二状态
Figure BDA00034228993100000411
更新为下一时段第二状态
Figure BDA00034228993100000412
所有设备均完成更新;
S38、以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
本发明实施例的一种基于强化学习的园区能效提升的设备优化配置系统,包括:
设备运作系统模型构建装置,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
智能体模型构建装置,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
配置优化装置,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
本发明实施例的基于强化学习的园区能效提升的设备优化配置方法及系统,具有如下优点:
1.通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。
2.通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。
3.通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。
4.通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的一个具体示例的流程图;
图2为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的另一个具体示例的流程图;
图3为本发明实施例1中第i个设备的设备运行系统模型的示意图;
图4为本发明实施例1中具有双Actor网络的低碳管控智能体的示意图;
图5为本发明实施例1中第i个设备的第一Actor网络的示意图;
图6为本发明实施例1中第i个设备的第二Actor网络的示意图;
图7为本发明实施例1中第i个设备的Critic网络的示意图;
图8为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的又一个具体示例的流程图;
图9为本发明实施例2中基于强化学习的园区能效提升的设备优化配置系统的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。
此外,本说明书中的某些图式是用于例示方法的流程图。应了解,这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器,以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中,所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作,以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上,以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程,从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。
相应地,各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解,所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种基于强化学习的园区能效提升的设备优化配置方法,如图1所示,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;考虑到工业园区的企业数量较多,不同企业的类型也存在较大差异,企业的设备更是千差万别,为了能对园区内所有设备建立统一的能统计园区能效的模型,从而选用各设备电参数及设备所用配电线路性能参数;
优选地,如图2所示,S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括但不限于当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000071
平均电压
Figure BDA0003422899310000072
平均负载率
Figure BDA0003422899310000073
和平均功率因数
Figure BDA0003422899310000074
设备所用配电线路性能参数包括但不限于当前综合线耗率(线路损耗率)γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure BDA0003422899310000075
和平均截面积达标线路长度
Figure BDA0003422899310000076
i=1,2,...,N,为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长展
Figure BDA0003422899310000077
和平均截面积达标线路长度
Figure BDA0003422899310000078
为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000079
平均电压
Figure BDA00034228993100000710
平均负载率
Figure BDA00034228993100000711
平均功率因数
Figure BDA00034228993100000712
和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比
Figure BDA00034228993100000713
和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型,可见第i个设备运行系统模型包括配电线路的神经网络模型和设备的神经网络模型,如图3所示。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑,因而提高了估计精度,使获得的设备优化配置更具有实际应用价值。
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比
Figure BDA0003422899310000081
和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
优选地,如图4所示,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量
Figure BDA0003422899310000082
第一动作变量
Figure BDA0003422899310000083
和第一奖励信号
Figure BDA0003422899310000084
Figure BDA0003422899310000085
为平均线路长度设定值,
Figure BDA0003422899310000086
为平均截面积达标线路长度设定值,可根据实际需求进行设置,E为常数;可见,综合线耗率越小,奖励信号的值就越大,表现了降低综合线耗率的优化目的。
第二Actor网络的第二状态变量
Figure BDA0003422899310000087
第二动作变量
Figure BDA0003422899310000088
和第二奖励信号
Figure BDA0003422899310000089
Figure BDA00034228993100000810
Figure BDA00034228993100000811
为平均电压设定值,
Figure BDA00034228993100000812
为平均负载率设定值,
Figure BDA00034228993100000813
为平均功率因数设定值,分别可根据实际需求进行设置。可见,设备平均能效比越大,奖励信号的值就越大,表现了提高设备平均能效比的优化目的。
优选地如图5、图6和图7所示,第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成,例如3层。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入,动作为输出。Critic网络以设备运作系统模型的状态和动作为输入,价值q为输出。
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,如图8所示,S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络
Figure BDA0003422899310000091
第二Actor网络
Figure BDA0003422899310000092
和Critic网络
Figure BDA0003422899310000093
π表示策略,q表示价值,Actor网络将状态S映射到动作A,Critic网络通过遵循当前状态对应的策略来计算预期价值q。令
Figure BDA0003422899310000094
为当前第一状态,
Figure BDA0003422899310000095
为当前第二状态,
Figure BDA0003422899310000096
为当前第一状态对应的第一奖励信号的值,
Figure BDA0003422899310000097
为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正,在采用不同的第一校正系数进行校正后对应获得不同的动作;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比
Figure BDA0003422899310000098
和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比
Figure BDA0003422899310000099
和最小总用电量Qmin[K+p];
S34、比较最大所有设备平均能效比
Figure BDA00034228993100000910
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值;
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比
Figure BDA0003422899310000101
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态
Figure BDA0003422899310000102
和对应的第一奖励信号的值
Figure BDA0003422899310000103
下一时段第二状态
Figure BDA0003422899310000104
和对应的第二奖励信号的值
Figure BDA0003422899310000105
并将当前第一状态
Figure BDA0003422899310000106
更新为下一时段第一状态
Figure BDA0003422899310000107
当前第二状态
Figure BDA0003422899310000108
更新为下一时段第二状态
Figure BDA0003422899310000109
所有设备均完成更新;
S38、以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。优选地,折扣累积奖励
Figure BDA00034228993100001010
χ为折扣因子,s为状态,a为动作,t为迭代次数。
上述基于强化学习的园区能效提升的设备优化配置方法,通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
实施例2
本实施例提供一种基于强化学习的园区能效提升的设备优化配置系统,如图9所示,包括:
设备运作系统模型构建装置001,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
优选地,设备运作系统模型构建装置包括:
参数获取单元,用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括但不限于当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000111
平均电压
Figure BDA0003422899310000112
平均负载率
Figure BDA0003422899310000113
和平均功率因数
Figure BDA0003422899310000114
设备所用配电线路性能参数包括但不限于当前综合线耗率(线路损耗率)γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure BDA0003422899310000115
和平均截面积达标线路长度
Figure BDA0003422899310000116
为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
配电线路神经网络模型构建单元,用于以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure BDA0003422899310000117
和平均截面积达标线路长度
Figure BDA0003422899310000118
为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
设备神经网络模型构建单元,用于以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure BDA0003422899310000119
平均电压
Figure BDA00034228993100001110
平均负载率
Figure BDA00034228993100001111
平均功率因数
Figure BDA00034228993100001112
和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比
Figure BDA00034228993100001113
和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑,因而提高了估计精度,使获得的设备优化配置更具有实际应用价值。
合并结果单元,用于对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比
Figure BDA00034228993100001114
和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
智能体模型构建装置002,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
优选地,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量
Figure BDA0003422899310000121
第一动作变量
Figure BDA0003422899310000122
和第一奖励信号
Figure BDA0003422899310000123
Figure BDA0003422899310000124
Figure BDA0003422899310000125
为平均线路长度设定值,
Figure BDA0003422899310000126
为平均截面积达标线路长度设定值,可根据实际需求进行设置,E为常数;可见,综合线耗率越小,奖励信号的值就越大,表现了降低综合线耗率的优化目的。
第二Actor网络的第二状态变量
Figure BDA0003422899310000127
第二动作变量
Figure BDA0003422899310000128
和第二奖励信号
Figure BDA0003422899310000129
Figure BDA00034228993100001210
Figure BDA00034228993100001211
为平均电压设定值,
Figure BDA00034228993100001212
为平均负载率设定值,
Figure BDA00034228993100001213
为平均功率因数设定值,分别可根据实际需求进行设置。可见,设备平均能效比越大,奖励信号的值就越大,表现了提高设备平均能效比的优化目的。
优选地,第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入,动作为输出。Critic网络以设备运作系统模型的状态和动作为输入,价值q为输出。
配置优化装置003,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,配置优化装置包括:
初始化单元,用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络
Figure BDA00034228993100001214
第二Actor网络
Figure BDA00034228993100001215
和Critic网络
Figure BDA00034228993100001216
π表示策略,q表示价值,Actor网络将状态S映射到动作A,Critic网络通过遵循当前状态对应的策略来计算预期价值q。令
Figure BDA00034228993100001217
为当前第一状态,
Figure BDA00034228993100001218
为当前第二状态,
Figure BDA00034228993100001219
为当前第一状态对应的第一奖励信号的值,
Figure BDA00034228993100001220
为当前第二状态对应的第二奖励信号的值;
估计动作生成单元,用于针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正,在采用不同的第一校正系数进行校正后对应获得不同的动作;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
估计动作执行单元,用于N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比
Figure BDA0003422899310000131
和总用电量Qj[K+p],j=1,2,..,k,选出最大所有设备平均能效比
Figure BDA0003422899310000132
和最小总用电量Qmin[K+p];
比较单元,用于比较最大所有设备平均能效比
Figure BDA0003422899310000133
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值;
第一实际动作生成单元,用于若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比
Figure BDA0003422899310000134
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
第二实际动作生成单元,用于若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
实际动作执行单元,用于执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态
Figure BDA0003422899310000135
和对应的第一奖励信号的值
Figure BDA0003422899310000136
下一时段第二状态
Figure BDA0003422899310000137
和对应的第二奖励信号的值
Figure BDA0003422899310000138
并将当前第一状态
Figure BDA0003422899310000139
更新为下一时段第一状态
Figure BDA00034228993100001310
当前第二状态
Figure BDA00034228993100001311
更新为下一时段第二状态
Figure BDA00034228993100001312
所有设备均完成更新;
优化配置获得单元,用于以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。优选地,折扣累积奖励
Figure BDA0003422899310000141
χ为折扣因子,s为状态,a为动作,t为迭代次数。
上述基于强化学习的园区能效提升的设备优化配置系统,通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (4)

1.一种基于强化学习的园区能效提升的设备优化配置方法,其特征在于,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置;
所述S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure FDA0003650960860000011
平均电压
Figure FDA0003650960860000012
平均负载率
Figure FDA0003650960860000013
和平均功率因数
Figure FDA0003650960860000014
设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure FDA0003650960860000015
和平均截面积达标线路长度
Figure FDA0003650960860000016
为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure FDA0003650960860000017
和平均截面积达标线路长度
Figure FDA0003650960860000018
为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure FDA0003650960860000019
平均电压
Figure FDA00036509608600000110
平均负载率
Figure FDA00036509608600000111
平均功率因数
Figure FDA00036509608600000112
和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比
Figure FDA00036509608600000113
和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比
Figure FDA0003650960860000021
和下一预设时段总用电量Q[K+1];
所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量
Figure FDA00036509608600000219
εi[K],λi[K],ζi[K]]、第一动作变量
Figure FDA0003650960860000022
和第一奖励信号
Figure FDA0003650960860000023
Figure FDA0003650960860000024
Figure FDA0003650960860000025
为平均线路长度设定值,
Figure FDA0003650960860000026
为平均截面积达标线路长度设定值,E为常数;
第二Actor网络的第二状态变量
Figure FDA0003650960860000027
第二动作变量
Figure FDA0003650960860000028
和第二奖励信号
Figure FDA0003650960860000029
Figure FDA00036509608600000210
Figure FDA00036509608600000211
为平均电压设定值,
Figure FDA00036509608600000212
为平均负载率设定值,
Figure FDA00036509608600000213
为平均功率因数设定值;
S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令
Figure FDA00036509608600000214
为当前第一状态,
Figure FDA00036509608600000215
为当前第二状态,
Figure FDA00036509608600000216
为当前第一状态对应的第一奖励信号的值,
Figure FDA00036509608600000217
为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比
Figure FDA00036509608600000218
和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比
Figure FDA0003650960860000031
和最小总用电量Qmin[K+p];
S34、比较最大所有设备平均能效比
Figure FDA0003650960860000032
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值;
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比
Figure FDA0003650960860000033
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态
Figure FDA0003650960860000034
和对应的第一奖励信号的值
Figure FDA0003650960860000035
下一时段第二状态
Figure FDA0003650960860000036
和对应的第二奖励信号的值
Figure FDA0003650960860000037
并将当前第一状态
Figure FDA0003650960860000038
更新为下一时段第一状态
Figure FDA0003650960860000039
当前第二状态
Figure FDA00036509608600000310
更新为下一时段第二状态
Figure FDA00036509608600000311
所有设备均完成更新;
S38、以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
3.根据权利要求1所述的方法,其特征在于,所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。
4.一种基于强化学习的园区能效提升的设备优化配置系统,其特征在于,包括:
设备运作系统模型构建装置,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
智能体模型构建装置,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
配置优化装置,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置;
所述设备运作系统模型构建装置包括:
参数获取单元,用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure FDA0003650960860000041
平均电压
Figure FDA0003650960860000042
平均负载率
Figure FDA0003650960860000043
和平均功率因数
Figure FDA0003650960860000044
设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure FDA0003650960860000045
和平均截面积达标线路长度
Figure FDA0003650960860000046
为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
配电线路神经网络模型构建单元,用于以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度
Figure FDA0003650960860000047
和平均截面积达标线路长度
Figure FDA0003650960860000048
为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
设备神经网络模型构建单元,用于以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比
Figure FDA0003650960860000049
平均电压
Figure FDA00036509608600000410
平均负载率
Figure FDA00036509608600000411
平均功率因数
Figure FDA00036509608600000412
和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比
Figure FDA00036509608600000413
和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
合并结果单元,用于对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比
Figure FDA00036509608600000414
和下一预设时段总用电量Q[K+1];
所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量
Figure FDA00036509608600000415
第一动作变量
Figure FDA00036509608600000416
和第一奖励信号
Figure FDA00036509608600000417
Figure FDA00036509608600000418
Figure FDA00036509608600000419
为平均线路长度设定值,
Figure FDA00036509608600000420
为平均截面积达标线路长度设定值,E为常数;
第二Actor网络的第二状态变量
Figure FDA0003650960860000051
第二动作变量
Figure FDA0003650960860000052
和第二奖励信号
Figure FDA0003650960860000053
Figure FDA0003650960860000054
Figure FDA0003650960860000055
为平均电压设定值,
Figure FDA0003650960860000056
为平均负载率设定值,
Figure FDA0003650960860000057
为平均功率因数设定值;
所述配置优化装置包括:
初始化单元,用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令
Figure FDA0003650960860000058
为当前第一状态,
Figure FDA0003650960860000059
为当前第二状态,
Figure FDA00036509608600000510
为当前第一状态对应的第一奖励信号的值,
Figure FDA00036509608600000511
为当前第二状态对应的第二奖励信号的值;
估计动作生成单元,用于针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
估计动作执行单元,用于N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比
Figure FDA00036509608600000512
和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比
Figure FDA00036509608600000513
和最小总用电量Qmin[K+p];
比较单元,用于比较最大所有设备平均能效比
Figure FDA00036509608600000514
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值;
第一实际动作生成单元,用于若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比
Figure FDA00036509608600000515
对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
第二实际动作生成单元,用于若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
实际动作执行单元,用于执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态
Figure FDA0003650960860000061
和对应的第一奖励信号的值
Figure FDA0003650960860000062
下一时段第二状态
Figure FDA0003650960860000063
和对应的第二奖励信号的值
Figure FDA0003650960860000064
并将当前第一状态
Figure FDA0003650960860000065
更新为下一时段第一状态
Figure FDA0003650960860000066
当前第二状态
Figure FDA0003650960860000067
更新为下一时段第二状态
Figure FDA0003650960860000068
所有设备均完成更新;
优化配置获得单元,用于以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
CN202111569479.7A 2021-12-21 2021-12-21 基于强化学习的园区能效提升的设备优化配置方法及系统 Active CN114240192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111569479.7A CN114240192B (zh) 2021-12-21 2021-12-21 基于强化学习的园区能效提升的设备优化配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111569479.7A CN114240192B (zh) 2021-12-21 2021-12-21 基于强化学习的园区能效提升的设备优化配置方法及系统

Publications (2)

Publication Number Publication Date
CN114240192A CN114240192A (zh) 2022-03-25
CN114240192B true CN114240192B (zh) 2022-06-24

Family

ID=80760072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111569479.7A Active CN114240192B (zh) 2021-12-21 2021-12-21 基于强化学习的园区能效提升的设备优化配置方法及系统

Country Status (1)

Country Link
CN (1) CN114240192B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598129A (zh) * 2021-03-03 2021-04-02 之江实验室 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN113283156A (zh) * 2021-03-29 2021-08-20 北京建筑大学 一种基于深度强化学习的地铁站空调系统节能控制方法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494649B2 (en) * 2020-01-31 2022-11-08 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598129A (zh) * 2021-03-03 2021-04-02 之江实验室 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN113283156A (zh) * 2021-03-29 2021-08-20 北京建筑大学 一种基于深度强化学习的地铁站空调系统节能控制方法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法

Also Published As

Publication number Publication date
CN114240192A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN107044710A (zh) 基于联合智能算法的中央空调节能控制方法及系统
JP5973733B2 (ja) volt/VAR潮流最適化を加速するためのシステム、方法、および装置
CN105391090B (zh) 一种智能电网多智能体多目标一致性优化方法
CN106026084B (zh) 一种基于虚拟发电部落的agc功率动态分配方法
CN113489015B (zh) 一种基于强化学习的配电网多时间尺度无功电压控制方法
CN113285457B (zh) 非理想通信下区域电力系统的分布式经济调度方法及系统
CN107516892A (zh) 基于处理有功优化约束条件提高电能质量的方法
CN114362187A (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN114266187B (zh) 一种办公建筑用电网络优化方法及系统
CN115313520A (zh) 分布式能源系统博弈优化调度方法、系统、设备及介质
Liu et al. Digital twin-driven robotic disassembly sequence dynamic planning under uncertain missing condition
CN114240192B (zh) 基于强化学习的园区能效提升的设备优化配置方法及系统
CN103246207B (zh) 一种基于实时仿真系统的在线无功优化控制方法
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
CN110867902B (zh) 基于发电预测的微电网分布式电源去中心优化运行方法
CN116544995A (zh) 基于云边协同的储能电池一致性充放电控制方法及系统
CN116307071A (zh) 一种高比例光伏接入低压配电网方法
Li et al. A self-organization method for logic control of distributed building automation system
CN114417710A (zh) 一种输电网的过载动态决策生成方法及相关装置
CN117477607B (zh) 一种含智能软开关的配电网三相不平衡治理方法及系统
Lu et al. Optimal Design of Energy Storage System Assisted AGC Frequency Regulation Based on DDPG Algorithm
CN108988314A (zh) 一种基于智能优化算法的电网优化控制方法及系统
Kang et al. Power flow coordination optimization control method for power system with DG based on DRL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant