CN114240192B

CN114240192B - 基于强化学习的园区能效提升的设备优化配置方法及系统

Info

Publication number: CN114240192B
Application number: CN202111569479.7A
Authority: CN
Inventors: 王海; 张大鹏; 李东东
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-06-24
Anticipated expiration: 2041-12-21
Also published as: CN114240192A

Abstract

本发明公开了一种基于强化学习的园区能效提升的设备优化配置方法及系统，涉及智能节能技术领域，包括：以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体；对设备运作系统模型，利用各设备采集的数据进行计算，智能体推演获得园区各设备的低碳最优化配置。本发明能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。

Description

基于强化学习的园区能效提升的设备优化配置方法及系统

技术领域

本发明涉及智能节能技术领域，具体涉及一种基于强化学习的园区能效提升的设备优化配置方法及系统。

背景技术

能效管理系统是以绿色建筑、工业园区内各种能源供、配、用设施的运行状态和参数，以及运行特点为基本条件，涉及建筑智能化、工业自动化、数据采集、大数据分析、人工智能等多个技术领域，依据各类机电设备运行中所采集的信息，反映其能源传输、变换与消耗的特征，采用能效控制策略实现能效最优化，是最经济的专家管理决策系统，最终目的就是通过智能化系统集成来实现“管理节能”和“绿色用能”。

目前国内大部分园区仍然依赖用于各设备的PID调节器，来监控基于规则的节能控制方案，PID控制方法存在参数整定和调试困难的问题，在设备负荷和工况发生变化时极易产生振荡，控制效果不佳。基于规则的控制方法是指根据设备运行表对各设备采取固定模式的变频技术，该方法存在无法根据实际负荷需求实时调整控制参数的问题，从而就会消耗更多能源。所以要降低园区个设备的运行能耗，就必须在保证园区正常运作的前提下采取合理可行的节能控制方案。

已有研究表明，智能控制方法具有自适应、自学习和自协调能力，能够提升园区能效和优化园区设备配置。其中，强化学习(Reinforcement learning,RL)中的智能体通过与环境之间的直接交互来最大化奖励信号，能够实现复杂系统的全局优化控制，是充分发挥园区各设备节能潜力的有效方法之一，应用强化学习方法控制园区设备运行可以有效提升节能效果。但是，目前的强化学习方法在线训练智能体的收敛时间较长，难以满足控制实时性要求。

发明内容

因此，为了克服上述缺陷，本发明实施例提供一种基于强化学习的园区能效提升的设备优化配置方法及系统，能在学习效率高、配置需求复杂的情况下获得低碳最优的配置策略。

为此，本发明实施例的一种基于强化学习的园区能效提升的设备优化配置方法，包括以下步骤：

S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；

S2、针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；

S3、对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置。

优选地，所述S1的步骤包括：

S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

和平均功率因数

设备所用配电线路性能参数包括当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度

和平均截面积达标线路长度

i＝1，2，...，N，为园区内的第i个设备，N为园区内的设备总个数，K表示当前预设时段；

S12、以当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度

和平均截面积达标线路长度

为输入参数，以下一预设时段综合线耗率γ_i[K+1]为输出参数，构建第i个设备的配电线路的神经网络模型，K+1表示下一预设时段；

S13、以当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

平均功率因数

和下一预设时段综合线耗率γ_i[K+1]为输入参数，以下一预设时段设备平均能效比

和下一预设时段用电量Q_i[K+1]为输出参数，构建第i个设备的神经网络模型；

S14、对N个设备运行系统模型的输出参数，分别按照对应的权重信息进行加权平均值计算，计算的结果为组合使用N个设备运行系统模型的输出结果，获得下一预设时段所有设备平均能效比

和下一预设时段总用电量Q[K+1]。

优选地，所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。

优选地，所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络，第一Actor网络的第一状态变量

第一动作变量

和第一奖励信号

为平均线路长度设定值，

为平均截面积达标线路长度设定值，E为常数；

第二Actor网络的第二状态变量

第二动作变量

和第二奖励信号

为平均电压设定值，

为平均负载率设定值，

为平均功率因数设定值。

优选地，所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。

优选地，S3的步骤包括：

S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络，令

为当前第一状态，

为当前第二状态，

为当前第一状态对应的第一奖励信号的值，

为当前第二状态对应的第二奖励信号的值；

S32、针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k组第一估计动作，第一校正系数用于对当前第一Actor网络生成的动作进行校正；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集；

S33、N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集，每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作；然后每个设备均向前推测p步，获得k组p步后的时段内的所有设备平均能效比

和总用电量Q_j[K+p]，j＝1，2，...，k，选出最大所有设备平均能效比

和最小总用电量Q_min[K+p]；

S34、比较最大所有设备平均能效比

对应的各设备的第二奖励信号的平均值和最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值；

S35、若不相等，则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比

对应的各设备的第二奖励信号的平均值和最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值中较大的值所对应的动作集；

S36、若相等，则令第一实际动作集和第二实际动作集分别为获得最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集；

S37、执行第一实际动作集和第二实际动作集，针对设备i得到下一时段第一状态

和对应的第一奖励信号的值

下一时段第二状态

和对应的第二奖励信号的值

并将当前第一状态

更新为下一时段第一状态

当前第二状态

更新为下一时段第二状态

所有设备均完成更新；

S38、以最大化折扣累积奖励为优化目标进行迭代，得到园区各设备的最优化配置。

本发明实施例的一种基于强化学习的园区能效提升的设备优化配置系统，包括：

设备运作系统模型构建装置，用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；

智能体模型构建装置，用于针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；

配置优化装置，用于对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置。

本发明实施例的基于强化学习的园区能效提升的设备优化配置方法及系统，具有如下优点：

1.通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型，提高了估计精度，使获得的设备优化配置更具有实际应用价值。

2.通过设置双Actor网络，实现了分别对设备电参数和设备所用配电线路性能参数的智能推测，获得最节能、低碳的设备优化配置，有效提升园区能效。

3.通过针对各设备相互独立的设置低碳管控智能体，各设备的优化可同步进行，提高了效率。

4.通过从估计动作集中筛选得出实际动作集，加快了训练速度，提高了学习效率，从而使得设备优化配置更高效。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的一个具体示例的流程图；

图2为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的另一个具体示例的流程图；

图3为本发明实施例1中第i个设备的设备运行系统模型的示意图；

图4为本发明实施例1中具有双Actor网络的低碳管控智能体的示意图；

图5为本发明实施例1中第i个设备的第一Actor网络的示意图；

图6为本发明实施例1中第i个设备的第二Actor网络的示意图；

图7为本发明实施例1中第i个设备的Critic网络的示意图；

图8为本发明实施例1中基于强化学习的园区能效提升的设备优化配置方法的又一个具体示例的流程图；

图9为本发明实施例2中基于强化学习的园区能效提升的设备优化配置系统的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。

此外，本说明书中的某些图式是用于例示方法的流程图。应了解，这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器，以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中，所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作，以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上，以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程，从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。

相应地，各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解，所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种基于强化学习的园区能效提升的设备优化配置方法，如图1所示，包括以下步骤：

S1、以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；考虑到工业园区的企业数量较多，不同企业的类型也存在较大差异，企业的设备更是千差万别，为了能对园区内所有设备建立统一的能统计园区能效的模型，从而选用各设备电参数及设备所用配电线路性能参数；

优选地，如图2所示，S1的步骤包括：

S11、分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括但不限于当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

和平均功率因数

设备所用配电线路性能参数包括但不限于当前综合线耗率(线路损耗率)γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度

和平均截面积达标线路长度

S12、以当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长展

和平均截面积达标线路长度

平均电压

平均负载率

平均功率因数

和下一预设时段用电量Q_i[K+1]为输出参数，构建第i个设备的神经网络模型，可见第i个设备运行系统模型包括配电线路的神经网络模型和设备的神经网络模型，如图3所示。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型，从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑，因而提高了估计精度，使获得的设备优化配置更具有实际应用价值。

和下一预设时段总用电量Q[K+1]。

S2、针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；

优选地，如图4所示，所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络，第一Actor网络的第一状态变量

第一动作变量

和第一奖励信号

为平均线路长度设定值，

为平均截面积达标线路长度设定值，可根据实际需求进行设置，E为常数；可见，综合线耗率越小，奖励信号的值就越大，表现了降低综合线耗率的优化目的。

第二Actor网络的第二状态变量

第二动作变量

和第二奖励信号

为平均电压设定值，

为平均负载率设定值，

为平均功率因数设定值，分别可根据实际需求进行设置。可见，设备平均能效比越大，奖励信号的值就越大，表现了提高设备平均能效比的优化目的。

优选地如图5、图6和图7所示，第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成，例如3层。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入，动作为输出。Critic网络以设备运作系统模型的状态和动作为输入，价值q为输出。

优选地，如图8所示，S3的步骤包括：

S31、将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor网络

第二Actor网络

和Critic网络

π表示策略，q表示价值，Actor网络将状态S映射到动作A，Critic网络通过遵循当前状态对应的策略来计算预期价值q。令

为当前第一状态，

为当前第二状态，

为当前第一状态对应的第一奖励信号的值，

为当前第二状态对应的第二奖励信号的值；

S32、针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k组第一估计动作，第一校正系数用于对当前第一Actor网络生成的动作进行校正，在采用不同的第一校正系数进行校正后对应获得不同的动作；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集；

和总用电量Qj[K+p]，j＝1，2，...，k，选出最大所有设备平均能效比

和最小总用电量Q_min[K+p]；

S34、比较最大所有设备平均能效比

和对应的第一奖励信号的值

下一时段第二状态

和对应的第二奖励信号的值

并将当前第一状态

更新为下一时段第一状态

当前第二状态

更新为下一时段第二状态

所有设备均完成更新；

S38、以最大化折扣累积奖励为优化目标进行迭代，得到园区各设备的最优化配置。优选地，折扣累积奖励

χ为折扣因子，s为状态，a为动作，t为迭代次数。

上述基于强化学习的园区能效提升的设备优化配置方法，通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型，提高了估计精度，使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络，实现了分别对设备电参数和设备所用配电线路性能参数的智能推测，获得最节能、低碳的设备优化配置，有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体，各设备的优化可同步进行，提高了效率。通过从估计动作集中筛选得出实际动作集，加快了训练速度，提高了学习效率，从而使得设备优化配置更高效。

实施例2

本实施例提供一种基于强化学习的园区能效提升的设备优化配置系统，如图9所示，包括：

设备运作系统模型构建装置001，用于以园区各设备电参数及设备所用配电线路性能参数为神经网络模型的输入输出参数，构建设备运作系统模型；

优选地，设备运作系统模型构建装置包括：

参数获取单元，用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括但不限于当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

和平均功率因数

和平均截面积达标线路长度

为园区内的第i个设备，N为园区内的设备总个数，K表示当前预设时段；

配电线路神经网络模型构建单元，用于以当前综合线耗率γ_i[K]、三相负荷不平衡率ε_i[K]、总谐波畸变率λ_i[K]、电压合格率ζ_i[K]、平均线路长度

和平均截面积达标线路长度

设备神经网络模型构建单元，用于以当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

平均功率因数

和下一预设时段用电量Q_i[K+1]为输出参数，构建第i个设备的神经网络模型。通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型，从而在模型估计输出的下一预设时段设备平均能效比及用电量中将配电线路带来的能耗影响进行了充分考虑，因而提高了估计精度，使获得的设备优化配置更具有实际应用价值。

合并结果单元，用于对N个设备运行系统模型的输出参数，分别按照对应的权重信息进行加权平均值计算，计算的结果为组合使用N个设备运行系统模型的输出结果，获得下一预设时段所有设备平均能效比

和下一预设时段总用电量Q[K+1]。

智能体模型构建装置002，用于针对设备i，根据设备电参数及设备所用配电线路性能参数，搭建基于DDPG(Deep Deterministic Policy Gradient)的具有双Actor网络的低碳管控智能体，双Actor网络的部分状态变量相同；

第一动作变量

和第一奖励信号

为平均线路长度设定值，

第二Actor网络的第二状态变量

第二动作变量

和第二奖励信号

为平均电压设定值，

为平均负载率设定值，

优选地，第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。第一Actor网络和第二Actor网络分别以设备运作系统模型的状态为输入，动作为输出。Critic网络以设备运作系统模型的状态和动作为输入，价值q为输出。

配置优化装置003，用于对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置。

优选地，配置优化装置包括：

初始化单元，用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor网络

第二Actor网络

和Critic网络

为当前第一状态，

为当前第二状态，

为当前第一状态对应的第一奖励信号的值，

为当前第二状态对应的第二奖励信号的值；

估计动作生成单元，用于针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k组第一估计动作，第一校正系数用于对当前第一Actor网络生成的动作进行校正，在采用不同的第一校正系数进行校正后对应获得不同的动作；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集；

估计动作执行单元，用于N个设备的设备运作系统模型执行k组第一估计动作集和第二估计动作集，每个设备一一对应的执行k组第一估计动作集中的一个第一估计动作和第二估计动作集中的一个第二估计动作；然后每个设备均向前推测p步，获得k组p步后的时段内的所有设备平均能效比

和总用电量Q_j[K+p]，j＝1，2，..，k，选出最大所有设备平均能效比

和最小总用电量Q_min[K+p]；

比较单元，用于比较最大所有设备平均能效比

第一实际动作生成单元，用于若不相等，则令第一实际动作集和第二实际动作集分别为获得最大所有设备平均能效比

第二实际动作生成单元，用于若相等，则令第一实际动作集和第二实际动作集分别为获得最小总用电量Q_min[K+p]对应的各设备的第二奖励信号的平均值所对应的动作集；

实际动作执行单元，用于执行第一实际动作集和第二实际动作集，针对设备i得到下一时段第一状态

和对应的第一奖励信号的值

下一时段第二状态

和对应的第二奖励信号的值

并将当前第一状态

更新为下一时段第一状态

当前第二状态

更新为下一时段第二状态

所有设备均完成更新；

优化配置获得单元，用于以最大化折扣累积奖励为优化目标进行迭代，得到园区各设备的最优化配置。优选地，折扣累积奖励

χ为折扣因子，s为状态，a为动作，t为迭代次数。

上述基于强化学习的园区能效提升的设备优化配置系统，通过结合配电线路的综合线耗率和设备的各项电参数来共同构建设备的神经网络模型，提高了估计精度，使获得的设备优化配置更具有实际应用价值。通过设置双Actor网络，实现了分别对设备电参数和设备所用配电线路性能参数的智能推测，获得最节能、低碳的设备优化配置，有效提升园区能效。通过针对各设备相互独立的设置低碳管控智能体，各设备的优化可同步进行，提高了效率。通过从估计动作集中筛选得出实际动作集，加快了训练速度，提高了学习效率，从而使得设备优化配置更高效。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于强化学习的园区能效提升的设备优化配置方法，其特征在于，包括以下步骤：

S3、对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置；

所述S1的步骤包括：

平均电压

平均负载率

和平均功率因数

和平均截面积达标线路长度

和平均截面积达标线路长度

平均电压

平均负载率

平均功率因数

和下一预设时段总用电量Q[K+1]；

所述低碳管控智能体包括第一Actor网络、第二Actor网络和Critic网络，第一Actor网络的第一状态变量

ε_i[K]，λ_i[K]，ζ_i[K]]、第一动作变量

和第一奖励信号

为平均线路长度设定值，

为平均截面积达标线路长度设定值，E为常数；

第二Actor网络的第二状态变量

第二动作变量

和第二奖励信号

为平均电压设定值，

为平均负载率设定值，

为平均功率因数设定值；

S3的步骤包括：

为当前第一状态，

为当前第二状态，

为当前第一状态对应的第一奖励信号的值，

为当前第二状态对应的第二奖励信号的值；

和总用电量Q_j[K+p]，j＝1,2，...，k，选出最大所有设备平均能效比

和最小总用电量Q_min[K+p]；

S34、比较最大所有设备平均能效比

和对应的第一奖励信号的值

下一时段第二状态

和对应的第二奖励信号的值

并将当前第一状态

更新为下一时段第一状态

当前第二状态

更新为下一时段第二状态

所有设备均完成更新；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型具有一个输入层、一个或两个以上隐含层和一个输出层。

3.根据权利要求1所述的方法，其特征在于，所述第一Actor网络、第二Actor网络和Critic网络均由若干层的全连接层网络构成。

4.一种基于强化学习的园区能效提升的设备优化配置系统，其特征在于，包括：

配置优化装置，用于对设备运作系统模型，利用园区低碳管控智能体进行计算，求解获得园区各设备的低碳最优化配置；

所述设备运作系统模型构建装置包括：

参数获取单元，用于分别获取当前预设时段内的园区各设备电参数及设备所用配电线路性能参数，每个设备的设备电参数包括当前用电量Q_i[K]、电压不合格累计时间T_i[K]、电流不平衡率δ_i[K]、当前设备平均能效比

平均电压

平均负载率

和平均功率因数

和平均截面积达标线路长度

和平均截面积达标线路长度

平均电压

平均负载率

平均功率因数

和下一预设时段总用电量Q[K+1]；

第一动作变量

和第一奖励信号

为平均线路长度设定值，

为平均截面积达标线路长度设定值，E为常数；

第二Actor网络的第二状态变量

第二动作变量

和第二奖励信号

为平均电压设定值，

为平均负载率设定值，

为平均功率因数设定值；

所述配置优化装置包括：

初始化单元，用于将N个设备i的设备运作系统模型与N个低碳管控智能体分别一一对应连接，分别初始化各设备的第一Actor网络、第二Actor网络和Critic网络，令

为当前第一状态，

为当前第二状态，

为当前第一状态对应的第一奖励信号的值，

为当前第二状态对应的第二奖励信号的值；

估计动作生成单元，用于针对设备i，利用当前第一Actor网络和k个随机设定的第一校正系数，计算得出k组第一估计动作，第一校正系数用于对当前第一Actor网络生成的动作进行校正；以及利用当前第二Actor网络和k个随机设定的第二校正系数，计算得出k组第二估计动作，第二校正系数用于对当前第二Actor网络生成的动作进行校正；所有设备的一组第一估计动作构成一个第一估计动作集，所有设备的一组第二估计动作构成一个第二估计动作集；