CN114240192B - 基于强化学习的园区能效提升的设备优化配置方法及系统 - Google Patents
基于强化学习的园区能效提升的设备优化配置方法及系统 Download PDFInfo
- Publication number
- CN114240192B CN114240192B CN202111569479.7A CN202111569479A CN114240192B CN 114240192 B CN114240192 B CN 114240192B CN 202111569479 A CN202111569479 A CN 202111569479A CN 114240192 B CN114240192 B CN 114240192B
- Authority
- CN
- China
- Prior art keywords
- equipment
- average
- current
- action
- energy efficiency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000006872 improvement Effects 0.000 title claims abstract description 4
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 229910052799 carbon Inorganic materials 0.000 claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 33
- 230000009471 action Effects 0.000 claims description 156
- 238000012937 correction Methods 0.000 claims description 24
- 230000005611 electricity Effects 0.000 claims description 20
- 230000002708 enhancing effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000004134 energy conservation Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
- Y02P90/84—Greenhouse gas [GHG] management systems
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Biodiversity & Conservation Biology (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的园区能效提升的设备优化配置方法及系统,涉及智能节能技术领域,包括:以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体;对设备运作系统模型,利用各设备采集的数据进行计算,智能体推演获得园区各设备的低碳最优化配置。本发明能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。
Description
技术领域
本发明涉及智能节能技术领域,具体涉及一种基于强化学习的园区能效提升的设备优化配置方法及系统。
背景技术
能效管理系统是以绿色建筑、工业园区内各种能源供、配、用设施的运行状态和参数,以及运行特点为基本条件,涉及建筑智能化、工业自动化、数据采集、大数据分析、人工智能等多个技术领域,依据各类机电设备运行中所采集的信息,反映其能源传输、变换与消耗的特征,采用能效控制策略实现能效最优化,是最经济的专家管理决策系统,最终目的就是通过智能化系统集成来实现“管理节能”和“绿色用能”。
目前国内大部分园区仍然依赖用于各设备的PID调节器,来监控基于规则的节能控制方案,PID控制方法存在参数整定和调试困难的问题,在设备负荷和工况发生变化时极易产生振荡,控制效果不佳。基于规则的控制方法是指根据设备运行表对各设备采取固定模式的变频技术,该方法存在无法根据实际负荷需求实时调整控制参数的问题,从而就会消耗更多能源。所以要降低园区个设备的运行能耗,就必须在保证园区正常运作的前提下采取合理可行的节能控制方案。
已有研究表明,智能控制方法具有自适应、自学习和自协调能力,能够提升园区能效和优化园区设备配置。其中,强化学习(Reinforcement learning,RL)中的智能体通过与环境之间的直接交互来最大化奖励信号,能够实现复杂系统的全局优化控制,是充分发挥园区各设备节能潜力的有效方法之一,应用强化学习方法控制园区设备运行可以有效提升节能效果。但是,目前的强化学习方法在线训练智能体的收敛时间较长,难以满足控制实时性要求。
发明内容
因此,为了克服上述缺陷,本发明实施例提供一种基于强化学习的园区能效提升的设备优化配置方法及系统,能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。
为此,本发明实施例的一种基于强化学习的园区能效提升的设备优化配置方法,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,所述S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度i=1,2,...,N,为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
优选地,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量第一动作变量和第一奖励信号 为平均线路长度设定值,为平均截面积达标线路长度设定值,E为常数;
优选地,所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。
优选地,S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令为当前第一状态,为当前第二状态,为当前第一状态对应的第一奖励信号的值,为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比和最小总用电量Qmin[K+p];
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新;
S38、以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
本发明实施例的一种基于强化学习的园区能效提升的设备优化配置系统,包括:
设备运作系统模型构建装置,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
智能体模型构建装置,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
配置优化装置,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
本发明实施例的基于强化学习的园区能效提升的设备优化配置方法及系统,具有如下优点:
1.通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。
2.通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。
3.通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。
4.通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的一个具体示例的流程图;
图2为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的另一个具体示例的流程图;
图3为本发明实施例1中第i个设备的设备运行系统模型的示意图;
图4为本发明实施例1中具有双Actor网络的低碳管控智能体的示意图;
图5为本发明实施例1中第i个设备的第一Actor网络的示意图;
图6为本发明实施例1中第i个设备的第二Actor网络的示意图;
图7为本发明实施例1中第i个设备的Critic网络的示意图;
图8为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的又一个具体示例的流程图;
图9为本发明实施例2中基于强化学习的园区能效提升的设备优化配置系统的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。
此外,本说明书中的某些图式是用于例示方法的流程图。应了解,这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器,以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中,所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作,以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上,以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程,从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。
相应地,各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解,所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种基于强化学习的园区能效提升的设备优化配置方法,如图1所示,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;考虑到工业园区的企业数量较多,不同企业的类型也存在较大差异,企业的设备更是千差万别,为了能对园区内所有设备建立统一的能统计园区能效的模型,从而选用各设备电参数及设备所用配电线路性能参数;
优选地,如图2所示,S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括但不限于当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括但不限于当前综合线耗率(线路损耗率)γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度i=1,2,...,N,为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长展和平均截面积达标线路长度为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型,可见第i个设备运行系统模型包括配电线路的神经网络模型和设备的神经网络模型,如图3所示。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑,因而提高了估计精度,使获得的设备优化配置更具有实际应用价值。
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
优选地,如图4所示,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量第一动作变量和第一奖励信号 为平均线路长度设定值,为平均截面积达标线路长度设定值,可根据实际需求进行设置,E为常数;可见,综合线耗率越小,奖励信号的值就越大,表现了降低综合线耗率的优化目的。
第二Actor网络的第二状态变量第二动作变量和第二奖励信号 为平均电压设定值,为平均负载率设定值,为平均功率因数设定值,分别可根据实际需求进行设置。可见,设备平均能效比越大,奖励信号的值就越大,表现了提高设备平均能效比的优化目的。
优选地如图5、图6和图7所示,第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成,例如3层。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入,动作为输出。Critic网络以设备运作系统模型的状态和动作为输入,价值q为输出。
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,如图8所示,S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络第二Actor网络和Critic网络π表示策略,q表示价值,Actor网络将状态S映射到动作A,Critic网络通过遵循当前状态对应的策略来计算预期价值q。令为当前第一状态,为当前第二状态,为当前第一状态对应的第一奖励信号的值,为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正,在采用不同的第一校正系数进行校正后对应获得不同的动作;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比和最小总用电量Qmin[K+p];
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新;
上述基于强化学习的园区能效提升的设备优化配置方法,通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
实施例2
本实施例提供一种基于强化学习的园区能效提升的设备优化配置系统,如图9所示,包括:
设备运作系统模型构建装置001,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
优选地,设备运作系统模型构建装置包括:
参数获取单元,用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括但不限于当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括但不限于当前综合线耗率(线路损耗率)γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
配电线路神经网络模型构建单元,用于以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
设备神经网络模型构建单元,用于以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑,因而提高了估计精度,使获得的设备优化配置更具有实际应用价值。
合并结果单元,用于对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1]。
优选地,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
智能体模型构建装置002,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
优选地,所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量第一动作变量和第一奖励信号 为平均线路长度设定值,为平均截面积达标线路长度设定值,可根据实际需求进行设置,E为常数;可见,综合线耗率越小,奖励信号的值就越大,表现了降低综合线耗率的优化目的。
第二Actor网络的第二状态变量第二动作变量和第二奖励信号 为平均电压设定值,为平均负载率设定值,为平均功率因数设定值,分别可根据实际需求进行设置。可见,设备平均能效比越大,奖励信号的值就越大,表现了提高设备平均能效比的优化目的。
优选地,第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入,动作为输出。Critic网络以设备运作系统模型的状态和动作为输入,价值q为输出。
配置优化装置003,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置。
优选地,配置优化装置包括:
初始化单元,用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络第二Actor网络和Critic网络π表示策略,q表示价值,Actor网络将状态S映射到动作A,Critic网络通过遵循当前状态对应的策略来计算预期价值q。令为当前第一状态,为当前第二状态,为当前第一状态对应的第一奖励信号的值,为当前第二状态对应的第二奖励信号的值;
估计动作生成单元,用于针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正,在采用不同的第一校正系数进行校正后对应获得不同的动作;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
估计动作执行单元,用于N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p],j=1,2,..,k,选出最大所有设备平均能效比和最小总用电量Qmin[K+p];
第一实际动作生成单元,用于若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
第二实际动作生成单元,用于若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
实际动作执行单元,用于执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新;
上述基于强化学习的园区能效提升的设备优化配置系统,通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型,提高了估计精度,使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络,实现了分别对设备电参数和设备所用配电线路性能参数的智能推测,获得最节能、低碳的设备优化配置,有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体,各设备的优化可同步进行,提高了效率。通过从估计动作集中筛选得出实际动作集,加快了训练速度,提高了学习效率,从而使得设备优化配置更高效。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (4)
1.一种基于强化学习的园区能效提升的设备优化配置方法,其特征在于,包括以下步骤:
S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
S2、针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
S3、对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置;
所述S1的步骤包括:
S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
S12、以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
S13、以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
S14、对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1];
所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量εi[K],λi[K],ζi[K]]、第一动作变量和第一奖励信号 为平均线路长度设定值,为平均截面积达标线路长度设定值,E为常数;
S3的步骤包括:
S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令为当前第一状态,为当前第二状态,为当前第一状态对应的第一奖励信号的值,为当前第二状态对应的第二奖励信号的值;
S32、针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比和最小总用电量Qmin[K+p];
S35、若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
S36、若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
S37、执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新;
S38、以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。
3.根据权利要求1所述的方法,其特征在于,所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。
4.一种基于强化学习的园区能效提升的设备优化配置系统,其特征在于,包括:
设备运作系统模型构建装置,用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数,构建设备运作系统模型;
智能体模型构建装置,用于针对设备i,根据设备电参数及设备所用配电线路性能参数,搭建基于DDPG的具有双Actor网络的低碳管控智能体,双Actor网络的部分状态变量相同;
配置优化装置,用于对设备运作系统模型,利用园区低碳管控智能体进行计算,求解获得园区各设备的低碳最优化配置;
所述设备运作系统模型构建装置包括:
参数获取单元,用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数,每个设备的设备电参数包括当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率和平均功率因数设备所用配电线路性能参数包括当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为园区内的第i个设备,N为园区内的设备总个数,K表示当前预设时段;
配电线路神经网络模型构建单元,用于以当前综合线耗率γi[K]、三相负荷不平衡率εi[K]、总谐波畸变率λi[K]、电压合格率ζi[K]、平均线路长度和平均截面积达标线路长度为输入参数,以下一预设时段综合线耗率γi[K+1]为输出参数,构建第i个设备的配电线路的神经网络模型,K+1表示下一预设时段;
设备神经网络模型构建单元,用于以当前用电量Qi[K]、电压不合格累计时间Ti[K]、电流不平衡率δi[K]、当前设备平均能效比平均电压平均负载率平均功率因数和下一预设时段综合线耗率γi[K+1]为输入参数,以下一预设时段设备平均能效比和下一预设时段用电量Qi[K+1]为输出参数,构建第i个设备的神经网络模型;
合并结果单元,用于对N个设备运行系统模型的输出参数,分别按照对应的权重信息进行加权平均值计算,计算的结果为组合使用N个设备运行系统模型的输出结果,获得下一预设时段所有设备平均能效比和下一预设时段总用电量Q[K+1];
所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络,第一Actor网络的第一状态变量第一动作变量和第一奖励信号 为平均线路长度设定值,为平均截面积达标线路长度设定值,E为常数;
所述配置优化装置包括:
初始化单元,用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接,分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络,令为当前第一状态,为当前第二状态,为当前第一状态对应的第一奖励信号的值,为当前第二状态对应的第二奖励信号的值;
估计动作生成单元,用于针对设备i,利用当前第一Actor网络和k个随机设定的第一校正系数,计算得出k组第一估计动作,第一校正系数用于对当前第一Actor网络生成的动作进行校正;以及利用当前第二Actor网络和k个随机设定的第二校正系数,计算得出k组第二估计动作,第二校正系数用于对当前第二Actor网络生成的动作进行校正;所有设备的一组第一估计动作构成一个第一估计动作集,所有设备的一组第二估计动作构成一个第二估计动作集;
估计动作执行单元,用于N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集,每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作;然后每个设备均向前推测p步,获得k组p步后的时段内的所有设备平均能效比和总用电量Qj[K+p],j=1,2,...,k,选出最大所有设备平均能效比和最小总用电量Qmin[K+p];
第一实际动作生成单元,用于若不相等,则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比对应的各设备的第二奖励信号的平均值和最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集;
第二实际动作生成单元,用于若相等,则令第一实际动作集和第二实际动作集分别为获得最小总用电量Qmin[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集;
实际动作执行单元,用于执行第一实际动作集和第二实际动作集,针对设备i得到下一时段第一状态和对应的第一奖励信号的值下一时段第二状态和对应的第二奖励信号的值并将当前第一状态更新为下一时段第一状态当前第二状态更新为下一时段第二状态所有设备均完成更新;
优化配置获得单元,用于以最大化折扣累积奖励为优化目标进行迭代,得到园区各设备的最优化配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569479.7A CN114240192B (zh) | 2021-12-21 | 2021-12-21 | 基于强化学习的园区能效提升的设备优化配置方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569479.7A CN114240192B (zh) | 2021-12-21 | 2021-12-21 | 基于强化学习的园区能效提升的设备优化配置方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114240192A CN114240192A (zh) | 2022-03-25 |
CN114240192B true CN114240192B (zh) | 2022-06-24 |
Family
ID=80760072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111569479.7A Active CN114240192B (zh) | 2021-12-21 | 2021-12-21 | 基于强化学习的园区能效提升的设备优化配置方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114240192B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598129A (zh) * | 2021-03-03 | 2021-04-02 | 之江实验室 | 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架 |
CN113283156A (zh) * | 2021-03-29 | 2021-08-20 | 北京建筑大学 | 一种基于深度强化学习的地铁站空调系统节能控制方法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494649B2 (en) * | 2020-01-31 | 2022-11-08 | At&T Intellectual Property I, L.P. | Radio access network control with deep reinforcement learning |
-
2021
- 2021-12-21 CN CN202111569479.7A patent/CN114240192B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598129A (zh) * | 2021-03-03 | 2021-04-02 | 之江实验室 | 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架 |
CN113283156A (zh) * | 2021-03-29 | 2021-08-20 | 北京建筑大学 | 一种基于深度强化学习的地铁站空调系统节能控制方法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114240192A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
Li et al. | Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning | |
CN107044710A (zh) | 基于联合智能算法的中央空调节能控制方法及系统 | |
JP5973733B2 (ja) | volt/VAR潮流最適化を加速するためのシステム、方法、および装置 | |
CN105391090B (zh) | 一种智能电网多智能体多目标一致性优化方法 | |
CN106026084B (zh) | 一种基于虚拟发电部落的agc功率动态分配方法 | |
CN113489015B (zh) | 一种基于强化学习的配电网多时间尺度无功电压控制方法 | |
CN113285457B (zh) | 非理想通信下区域电力系统的分布式经济调度方法及系统 | |
CN107516892A (zh) | 基于处理有功优化约束条件提高电能质量的方法 | |
CN114362187A (zh) | 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统 | |
CN114266187B (zh) | 一种办公建筑用电网络优化方法及系统 | |
CN115313520A (zh) | 分布式能源系统博弈优化调度方法、系统、设备及介质 | |
Liu et al. | Digital twin-driven robotic disassembly sequence dynamic planning under uncertain missing condition | |
CN114240192B (zh) | 基于强化学习的园区能效提升的设备优化配置方法及系统 | |
CN103246207B (zh) | 一种基于实时仿真系统的在线无功优化控制方法 | |
CN112787331B (zh) | 基于深度强化学习的潮流收敛自动调整方法及系统 | |
CN110867902B (zh) | 基于发电预测的微电网分布式电源去中心优化运行方法 | |
CN116544995A (zh) | 基于云边协同的储能电池一致性充放电控制方法及系统 | |
CN116307071A (zh) | 一种高比例光伏接入低压配电网方法 | |
Li et al. | A self-organization method for logic control of distributed building automation system | |
CN114417710A (zh) | 一种输电网的过载动态决策生成方法及相关装置 | |
CN117477607B (zh) | 一种含智能软开关的配电网三相不平衡治理方法及系统 | |
Lu et al. | Optimal Design of Energy Storage System Assisted AGC Frequency Regulation Based on DDPG Algorithm | |
CN108988314A (zh) | 一种基于智能优化算法的电网优化控制方法及系统 | |
Kang et al. | Power flow coordination optimization control method for power system with DG based on DRL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |