CN111062632B

CN111062632B - 一种基于边缘智能的5g能源互联网虚拟电厂经济调度方法

Info

Publication number: CN111062632B
Application number: CN201911349970.1A
Authority: CN
Inventors: 彭宇; 关心; 孙迪; 房大伟
Original assignee: State Grid Heilongjiang Electric Power Co Ltd; Heilongjiang University
Current assignee: State Grid Heilongjiang Electric Power Co Ltd; Heilongjiang University
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-04-18
Anticipated expiration: 2039-12-24
Also published as: CN111062632A

Abstract

一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，它属于虚拟电厂成本优化技术领域。本发明解决了如何整合新能源来降低电力系统成本、以及减小对通信的消耗的问题。本发明将机器学习与边缘计算相结合，针对能源互联网vpp中的经济调度问题，提出了一种边缘智能结构。与传统的边缘计算相比，该结构继承了原有的特点，减轻了云计算的负担，提高了边缘计算的计算能力。通过分裂模型和在终端部署部分模型，可以方便地进行实时控制，降低电力系统的成本。由于分裂模型与对应模型之间的相互传递，只是有效地传递了部分信息和梯度信息，降低了通信的消耗，以减小对通信环境的需求。本发明可以应用于虚拟电厂的经济调度。

Description

一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法

技术领域

本发明属于虚拟电厂成本优化技术领域，具体涉及一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法。

背景技术

近些年来，随着电力系统整合了大量的分布式能源系统，对于如何有效的接入分布式能源并能够有效的进行控制成为了主流的问题。分布式能源系统主要是由两大分布式能源组成，其中包含了分布式的新能源系统，如光伏发电，风能发电等，分布式的传统能源系统，如燃气轮机发电和柴油发电机等。其中对于分布式新能源系统的控制是具有挑战的。这是由于分布式新能源具有不稳定和不持续性的特点。并且大量分布式新能源都分布在范围辽阔的地区很难进行有效的管理。但是分布式新能源相较于分布式传统能源具有低成本和环境保护等优点。因此，为了使电力系统的成本最小，对新能源的整合进行研究是十分必要的。

随着研究表明，虚拟电厂已成为整合分布式新能源的主要手段。虚拟电厂可以通过有效技术，如通信技术和信息技术以及合理软件控制手段来整合分布式新能源。并通过并网运行和储能手段有效的进行调峰控制。储能可以有效的增加电网的调峰能力，尤其是负调峰能力。通过整合新能源有效的降低虚拟电厂的成本已成为现今研究的主流方案。这是因为新能源相较于传统能源而言所不具备稳定性和可持续性，但却拥有着成本低廉，减少运行费用的功效。

虚拟电厂为了有效的整合分布式能源并进行有效的控制，传统的控制手段分为集中式，分布式和混合式的控制手段。传统的虚拟电厂通常都是采用集中式的控制手段进行控制，将每个分布式能源系统所采集的信息进行汇总，通过现有的通信环境即5G网络上传到中心控制节点。说明了5G可以作为虚拟电厂的通信环境和通信背景，并描述了5G的通信情况。通常都是通过云端来进行计算来获得控制策略，这就对于云端的计算能力提出了挑战。现今，为了解决集中式控制在5G环境下的云计算的计算过载的问题，提出了一种分布式控制的方式来进行计算卸载，即通过在终端和云端之间设置一层边缘节点来优先接受终端上传的数据并进行有效的计算来获得控制策略。然后将需要上传的计算后的信息上传给云端，这样就可以有效的对于云端的计算进行卸载。

边缘计算如何有效的计算并获得控制策略成为了关键的问题。由于人工智能提出的对于大数据的处理则找到了有效解决方式，近年来随着对于人工智能和认知计算的研究，现存的新型的计算方法对于处理大数据的研究的加深已经表明了，这类方法已经成为了一种主流的计算方法和数学工具。那么对于提高边缘计算的计算能力，通过将人工智能与边缘计算相结合的手段就应运而生了。这种手段被叫做为边缘智能(EI)，由于边缘计算在终端需要上传大量的数据到边缘节点来进行计算，通过人工智能来解决就非常合适。而且边缘计算对于计算能力的需求也迫使了人工智能与边缘计算的结合。边缘智能通常是通过历史数据在边缘端或者是云端进行训练，并实施在边缘端。但是这种方式来进行边缘智能的运用对于通信环境和带宽进行了极大的需求。

发明内容

本发明的目的是为解决如何整合新能源来降低电力系统成本、以及减小对通信的消耗的问题，而提出了一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法。

本发明为解决上述技术问题采取的技术方案是：一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，该方法包括以下步骤：

步骤一、构建包含actor目标网络、actor估计网络、critic目标网络以及critic估计网络的Actor-Critic架构；

步骤二、将虚拟电厂的状态s输入actor估计网络；

步骤三、采用确定性策略梯度的方式来选择状态s对应的动作a，再利用状态s和动作a计算回报函数R和下一个状态s′，获得一个经验碎片(s,a,R,s′)，并将获得的经验碎片(s,a,R,s′)存入经验池中；

步骤四、将状态s′输入actor估计网络；

步骤五、重复步骤三和步骤四的过程，直至达到终止状态(以状态s的时刻作为初始时刻，终止状态是指时刻到达24小时结束)时完成一次迭代；

步骤六、重复步骤二至步骤五的迭代过程，直至经验池中容量满时，从经验池中随机抽取经验碎片，将抽取出的经验碎片从经验池移出，并存放到minibatch中，对actor估计网络和critic估计网络进行训练；

再继续重复步骤二至步骤五的迭代过程，当经验池中容量再次存满时，再从经验池中随机抽取经验碎片，将抽取出的经验碎片从经验池移出，并存放到minibatch中，对actor估计网络和critic估计网络进行训练；

如此循环，直至达到设置的最大迭代次数(设置最大迭代次数为2000次)时停止迭代，获得训练好的actor估计网络和critic估计网络；

且每次对actor估计网络和critic估计网络进行训练时，均对actor目标网络和critic目标网络的参数进行软更新；

步骤七、将actor估计网络部署在虚拟电厂的终端节点，将critic估计网络部署在虚拟电厂的边缘节点。

本发明的有益效果是：本发明提出了一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，本发明将机器学习与边缘计算相结合，针对能源互联网vpp中的经济调度问题，提出了一种边缘智能结构。与传统的边缘计算相比，该结构继承了原有的特点，减轻了云计算的负担，提高了边缘计算的计算能力。通过分裂模型和在终端部署部分模型，可以方便地进行实时控制，降低电力系统的成本。由于分裂模型与对应模型之间的相互传递，只是有效地传递了部分信息和梯度信息，降低了通信的消耗，以减小对通信环境的需求，并验证了本发明方法的有效性和可行性。

附图说明

图1是本发明设计的虚拟电厂结构图；

图2是本发明DDPG方法与传统DPG方法的成本随迭代次数的变化曲线对比图；

图3是储能容量百分比随时间的变化曲线图；

图4是对子区域的实时管理图；

图5是本发明DDPG方法与传统DPG方法在子区域1的成本曲线对比图；

图6是本发明DDPG方法与传统DPG方法在子区域2的成本曲线对比图；

图7是本发明DDPG方法与传统DPG方法在子区域3的成本曲线对比图。

具体实施方式

具体实施方式一：本实施方式所述的一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，该方法包括以下步骤：

步骤二、将虚拟电厂的状态s输入actor估计网络；

步骤四、将状态s′输入actor估计网络；

步骤五、重复步骤三和步骤四的过程，直至达到终止状态时完成一次迭代；

步骤六、重复步骤二至步骤五的迭代过程，直至经验池中容量满时，从经验池中随机抽取经验碎片，将抽取出的经验碎片从经验池移出，并存放到minibatch中，对actor估计网络和critic估计网络进行训练；抽取经验碎片数量为minibatch的容量大小；

如此循环，直至达到设置的最大迭代次数时停止迭代，获得训练好的actor估计网络和critic估计网络；

s来源于现有数据集，将状态s输入actor估计网络后，重复步骤三至步骤五的过程，直至达到终止状态时完成第一次迭代；然后开始第二次迭代，第二次迭代开始时，将现有数据集中的状态s₀输入估计网络，再执行步骤三至步骤五的过程，不断进行上述过程，直至达到设置的最大迭代次数。在上述过程中，当每次出现经验池中容量存满时，均随机抽取出存放到minibatch中进行训练，抽取后，再将迭代获得经验碎片继续放入经验池，存满后再抽取，直至达到设置的最大迭代次数，获得训练好的actor估计网络和critic估计网络。

在虚拟电厂的问题中，状态变量表示的是VPP在某一时刻所能够发出的新能源能量集合：光伏，风电，储能的容量状态和当前所需供给的负载。则虚拟电厂的状态表示如下：

其中PV_t表示为所有光伏在t时刻出力的集合，即

WT_t表示为所有风电在t时刻出力的集合，即：

E_t表示在t时刻的储能状态，

表示t时刻虚拟电厂所需供给的负载总量。

决策变量表示的是虚拟电厂在t时刻所进行的能源管理，也即是对于传统能源，储能充放电和配电网之间交互的能源进行合理的调度。则虚拟电厂的决策变量表示如下：

其中：DG_t表示分布式传统能源在t时刻的出力，即：

表示在t时刻储能充电的电量，

表示在t时刻储能放电的电量，Δp_t表示在t时刻配电网与虚拟电厂交互的电量。回报函数则表示由当前状态下所采取的动作而带来的价值，在虚拟电厂的问题中，即在已有的新能源出力，储能和负载的状态下，来进行能源管理所需要进行的成本花销。本发明所解决的虚拟电厂的经济调度问题也即是在当前时刻的状态下来进行合理的能源调度以使虚拟电厂经济效益最大的问题。通过选择一系列的最优决策来进行能源调度来完成目标。则本发明的回报函数，也即成本由传统能源出力的成本，储能损耗成本和与配电网交互的成本所组成。

回报函数R表示如下：

其中

表示在t时刻分布式传统能源出力成本的集合，即：

表示在t时刻与配电网交互的成本，

表示在t时刻储能由充放电带来的衰退成本。

本发明采用policy based的强化学习方式解决了Value based方式不能对连续动作处理能力不足以及对受限状态下的问题处理能力不足的问题。

本发明的主要贡献如下：

1)通过多虚拟电厂来解决地理范围巨大而难于整合分布式能源的问题；

2)通过边缘计算来降低对于分散的多虚拟电厂的控制决策部署的复杂性；

3)通过边缘智能(深度强化学习与边缘计算结合)的强大计算能力来增大边缘计算的计算能力；

4)通过拆分ac架构的方式将模型拆分成两个部分，决策部分部署在设备端(虚拟电厂)增加响应效率和降低计算负载，将评判部分部署在边缘结点，通过公用经验池来增大经验碎片，以提高决策部分的训练效果提高准确性；

5)由于在ac架构分割的部分只需传输当前的决策、状态信息和返回评判部分的梯度信息对于通信的资源的消耗可以忽略不计。

本发明的控制结构分为三层，最高层为云端。云端是为了收集有整体信息进行集中的控制，来管理电厂，但由于计算负载过大，将处理信息的任务下发到第二层去，只收集处理过的数据或者是获得的结果即可。这大大减少了云端的计算负载，并能够有效的利用通信资源，避免了由于边缘端设备过多采集数据量过大导致通信问题，进而影响虚拟电厂的成本造成不必要的浪费。第二层为边缘层，是距离终端设备最近的一层，目的是为了采集有终端所上传的数据，并进行有效的处理，过滤和计算。并采用多区域管理的分布式方式，通过不用的区域有不用的边缘节点进行代理，进一步减少计算压力。通过计算和处理的数据上传到云端，并向终端设备放回所需求的信息如梯度信息。这是为了更好的对于云端和终端之前进行过度和分流的作用，有效的减少了计算压力。最低层为终端层，是由虚拟电厂的不同区域所构成的，是采集该区域电力设备的出力和所需要能够给予用户负载进行供电的需求量。也即是用来进行最初的数据采集汇总，通过分开的actor网络即可在本地进行实时的调度计算，并将计算的结果上传到边缘节点端。等待放回的梯度信息来进行在线的模型训练。这样有利于实时的控制和模型的在线训练。所提出的结构均是采用了Actor-Critic结构，Actor布置在终端，Critic布置在边缘端。本发明通过采用分割模型的EI结构来有效的降低了通信的开销和带宽的消耗，其主要是体现在通过采用的模型，可以实时的进行决策的指定并对于虚拟电厂的子区域进行控制。这样就减少了带宽的开销。通过较小信息传递的数据的大小来降低带宽的消耗，这是由于模型分割后不用传送完整的数据信息，只需传送部分的梯度信息用于训练和扩充经验池即可。

具体实施方式二：本实施方式与具体实施方式一不同的是：

所述actor目标网络是由每层包含10个神经单元的3个隐藏层全连接组成的深度神经网络，actor估计网络的结构与actor目标网络的结构相同；

所述critic目标网络是由每层包含20个神经单元的5个隐藏层全连接组成的深度神经网络，critic估计网络的结构与critic目标网络的结构相同。

具体实施方式三：本实施方式与具体实施方式一不同的是：所述actor目标网络、actor估计网络、critic目标网络以及critic估计网络的隐藏层的神经元激活函数均为relu函数，输出层的激活函数均为线性激活函数。

权重初始化为均值为0，协方差矩阵为1，实验所使用的PC为4核心CPU Inter(R)core i7-5770，8GB的RAM和GPU为RTX 1060，5G RAM的机器，python为1.36.0版本。

对于Critic估计网络，其损失函数就是Q估计于Q现实的均方误差，即：

而对于Actor估计网络其损失函数就与DPG不同，这里由于是深度确定性策略。则定义的损失梯度即是：

Actor估计网络损失函数简便定义为：

具体实施方式四：本实施方式与具体实施方式一不同的是：所述对actor目标网络和critic目标网络的参数进行软更新，其具体过程为：

ω′←τω+(1-τ)ω′

θ′←τθ+(1-τ)θ′

其中：ω是actor估计网络的参数，ω′是actor目标网络的参数；τ为软更新系数，0＜τ＜1；θ是critic估计网络的参数，θ′是critic目标网络的参数。

具体实施方式五：本实施方式与具体实施方式一不同的是：所述Actor-Critic架构采用多actor估计网络单critic估计网络架构。

具体实施方式六：本实施方式与具体实施方式一不同的是：所述状态s表示如下：

s＝{PV,WT,E,p^D}

其中PV为所有光伏出力的集合，WT为所有风电出力的集合，E表示储能状态，p^D表示虚拟电厂所需供给的负载总量。

具体实施方式七：本实施方式与具体实施方式一不同的是：所述动作a表示如下：

a＝{DG,E^c,E^d,Δp}

其中：DG表示分布式传统能源的出力，E^c表示储能充电的电量，E^d表示储能放电的电量，Δp表示配电网与虚拟电厂交互的电量。

本发明通过使用集中控制的方式来管理一种与配电网相连的虚拟电厂(VPP)。所设计的虚拟电厂结构如图1所示，虚拟电厂分为两侧，由新能源，传统能源，储能系统(ESS)构成供给侧，由用户负载构成需求侧。通过VPP操作来调度供给侧的供电设施来满足用户侧的负载需求。由于本发明所提出的VPP是与配电网进行电力交互的，因此配电网在本发明即存在于用户侧也存在于需求侧，当供给侧能源输出大于需求侧时，此刻配电网被视为在需求侧的一方，相反的，当供给不足时，则将配电网当作供给侧来辅助供给侧来电力输出来满足需求侧的用户负载。本发明通过考虑VPP与配电网的交互成本，传统能源的出力成本，ESS的衰退成本来调度电力，以获得最大化VPP的经济效益。

本发明所提出的经济效益最大化的目标函数如下所示：

其中：T为整个时间域，NC为分布式传统能源发电机数量，

表示第i个分布式发电机在t时的成本，

表示在t时，第i个分布式发电机的出力情况。

表示在t时储能的衰退成本，

表示为t时储能所释放的电量，

表示储能在t时的充电电量。

表示为在t时与配电网交互时所用成本，Δp_t表示在t时与配电网交互的电量，Δp_t＞0表示由于供给不足而向配电网所购置的电量，Δp_t＜0表示供给过剩时向配电网所输送的电量。

本节发明的目标函数应满足约束条件，功率平衡约束，传统能源约束，新能源出力约束，储能充放电约束，储能容量约束，配电网交互的传输约束和容量约束。

功率平衡约束

满足需求侧的用户需求的电量应作为电厂运行的重要前提，也即应使供给侧的输出大于需求侧，但为使经济收益最大，则应减少浪费的电力。即保持功率平衡，其约束如下表示：

其中：

表示在t时第j台光伏发电机的出力，NP为光伏发电机的数量。

表示在t时第k台风轮发电机的出力，NW为WT发电机的数量，

为VPP的整体用户需求。

传统能源出力约束

在虚拟电厂中，分布式传统能源发电机是输出占比最大的供电手段。具有可靠、稳定、持续等优点，但却具有成本较高的缺点。则分布式传统能源的成本计算由一个二次函数表示如下：

其中α,β,γ为正数的常量成本因子。分布式的传统能源发电机的发电力不能为无限量的，则分布式的传统能源发电机的容量约束如下：

其中

代表第i个传统能源发电机的出力下限，

代表第i个传统能源发电机的出力上限。

新能源出力约束

在虚拟电厂的环境下新能源是作为辅助传统能源出力的供电手段。新能源具有间歇性，不确定性和不稳定的缺点，所以只能作为辅助的供电手段，但是新能源具有成本低廉减少排放的优点。新能源作为供电手段也应具有出力限制，并且本发明中将新能源出力作为不确定集。

其中，

分别为第j个光伏发电机的额定功率和第k个风轮发电机的额定功率。

储能容量约束

储能在虚拟电厂的环境下位于一个不可或缺的重要位置，并且在经济调度的问题下，储能可以很大程度的最大化虚拟电厂的收益。储能可以在供给侧出现过剩时优先存储，以备下次使用。也可以在供给不足时来帮助供给侧来提高电力。则储能的容量约束和计算方式如下：

E_min≤E_t≤E_max

其中E_t表示为t时刻储能的状态，也即存储的电量。E_min,E_max则表示储能容量的边界，即容量的上下限。η_ch表示为储能充电因子，η_dis表示为储能放电因子。

储能充放电约束

储能在充放电的过程中，单次充放电的电量是有限制的，即应在一定范围内进行充放电。则其约束如下：

其中C_max,D_max,分别表示为单次充放电的最大值，并且在同一时刻认为储能只能进行充电或者放电单一操作。

0≤U_c+U_d≤1

U_c,U_d∈[0,1]

其中U_c,U_d表示为充放电的状态，是一个二进制变量只能取值0或者1。

配电网交互约束

配电网的供电方式在本发明属于备用电力，是在出现能源供给不足时可以帮助电厂来给与用户侧进行电力供给，以最大化减少由于供给不足而带来的经济损失。并且也为了最大化电厂效益在具有过剩电力时(储能满电状态时)给以最大的减少电力的浪费。但是由配电网交互的电力不能时无限制的。则其约束如下：

其中

表示为与配电网交互电力的上限和下限。p^G表示为实时电价，但本发明中将其表示为常量表示为最低购电价格。则综合以上，可知本发明的目标函数和约束表示如下：

上式成立的条件为：功率平衡约束成立、传统能源出力约束，新能源出力约束成立，储能容量约束成立，储能充放电约束成立且配电电力交互约束成立。

虚拟电厂将主要区域分为3个子区域来布置边缘节点进行计算，来实现最大化虚拟电厂的花销，即最小化自身成本。每个区域都配备有最大输出功率不超过100kW的燃气轮机发电机机组，一组最大容量100kW的储能，额定功率70kW太阳能发电机机组和额定功率40kW风力发电机机组。对于功率流分析，与配电网的最大交换功率限制为200kW。则与配电网交换电力的价格由全年平均值来设定为每千瓦时0.4美元。整体实现环境模拟了真实的虚拟电厂的环境，并将通信环境设置为5G，具有高带宽低延时的特点。

云端模型的离线训练环境

离线模型训练效果

云端离线训练的模型是作为基本的模型，是被用来部署在终端来进行获得实时的调度策略。模型训练效果是否优良就决定了模型部署在终端中获得的策略效果。本发明实现的模型效果如图2所示，如图2所示在训练开始的阶段由于经验池过小则没有获得很好的策略，随着迭代策略的叠加，策略优化效果逐渐明显。能够表示出来可以逐渐优化操作成本。但是由于增加了随机噪声来探索动作，迭代效果随呈现下降趋势，但没有能够收敛于一点，这是由于探索动作的随机性。这也是为了能够扩大经验池来增加优良动作的概略从而使模型能够很好的进行训练。如图3所示，图中展示了本发明所采用储能的容量的百分比随时间变化的过程，证明了本发明所采用的算法可以实现实时的决策部署，能够有效的利用储能来进行调峰和实时的优化成本，并验证了模型的合理性。

通过将云端训练的模型部署在终端与边缘端来实现对子区域的成本优化，通过使用EI技术来实现了每个子区域的实时在线的能源调度策略的获得。通过采用边缘计算与人工智能的结构来增加了计算能力，并减少了云端计算的负载。在不损失优化结果的前提能够更好的对于虚拟电厂进行控制。本发明实现的子区域实时管理如图4中展示了最终的优化结果。并表明了所提算法的有效性。能够通过在部署模型时，通过拆分AC架构的方式来进行计算并能够有效的计算。这有利于实现计算的卸载并在5G的通信环境实现了EI的技术。

我们通过对比子区域成本优化成果。表明了本发明所引用的DDPG算法的有效性，图5-图7分别展示了在region1,region2,region3所设置子区域的对比实验。实验结果表明了通过使用DRL的DDPG算法的优化效果对于RL的DPG算法对于成本的优化更加明显，总体成本更低，实现了对于虚拟电厂的经济调度。

初步训练得到一种预设的模型，初步预设的模型已经具有良好的决策能力，但为了更好的训练模型，在离线训练过后部署模型了以后，模型将会在每几次决策后进行模型的更新，这是为了能够使模型的策略更优秀。模型的部署主要是部署在边缘端和终端，云端只是为了提供良好的计算能力进行模型的训练，并收集有边缘端上传的所需数据。actor网络是为了获得动作，在实际的环境中就是为了获得虚拟电厂该区域所应做出的能源调度决策并能够使自身成本利益最小化。Critic网络是为了在离线训练过后，能够更好的训练模型，也就是说当actor网络获得决策，对于actor网络决策进行评判来增加其优秀策略的概率、减少不良策略的概率。并通过部署单critic网络和多actor网络的方式来使经验池中的经验碎片扩充，并能够有效的规避所用数据的相关性，使经验池中的数据具有独立性，满足了训练网络的需求。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，其特征在于，该方法包括以下步骤：

步骤二、将虚拟电厂的状态s输入actor估计网络；

状态变量表示的是虚拟电厂在某一时刻所能够发出的新能源能量集合，所述新能源能量集合中包括光伏，风电，储能的容量状态和当前所需供给的负载，则虚拟电厂的状态表示如下：

其中，s_t表示t时刻的状态，PV_t表示所有光伏在t时刻出力的集合，WT_t表示所有风电在t时刻出力的集合，E_t表示在t时刻的储能状态，

表示t时刻虚拟电厂所需供给的负载总量；

决策变量表示的是虚拟电厂在t时刻所进行的能源管理，则虚拟电厂的动作a表示如下：

其中：DG_t表示分布式传统能源在t时刻的出力，

表示在t时刻储能充电的电量，

表示在t时刻储能放电的电量，Δp_t表示在t时刻配电网与虚拟电厂交互的电量；

回报函数表示由当前状态下所采取的动作而带来的价值，回报函数R表示如下：

其中，

表示在t时刻分布式传统能源出力成本的集合，

表示在t时刻与配电网交互的成本，

表示在t时刻储能由充放电带来的衰退成本；

步骤四、将状态s′输入actor估计网络；

所述对actor目标网络和critic目标网络的参数进行软更新，其具体过程为：

ω′←τω+(1-τ)ω′

θ′←τθ+(1-τ)θ′

其中：ω是actor估计网络的参数，ω′是actor目标网络的参数；τ为软更新系数，0＜τ＜1；θ是critic估计网络的参数，θ′是critic目标网络的参数；

2.根据权利要求1所述的一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，其特征在于，所述actor目标网络是由每层包含10个神经单元的3个隐藏层全连接组成的深度神经网络，actor估计网络的结构与actor目标网络的结构相同；

3.根据权利要求1所述的一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，其特征在于，所述actor目标网络、actor估计网络、critic目标网络以及critic估计网络的隐藏层的神经元激活函数均为relu函数，输出层的激活函数均为线性激活函数。

4.根据权利要求1所述的一种基于边缘智能的5G能源互联网虚拟电厂经济调度方法，其特征在于，所述Actor-Critic架构采用多actor估计网络单critic估计网络架构。