CN117709671A

CN117709671A - 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法

Info

Publication number: CN117709671A
Application number: CN202311811238.8A
Authority: CN
Inventors: 侯昱兴; 杨挺; 杨振宁; 王珩瑜; 曲一鸣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-15

Abstract

本发明公开了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，包括以下步骤：S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;S3、根据多智慧能源站内多参量广域量测数据信息，提出多智慧能源站碳排放最优马尔科夫决策过程参数;S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。本发明采用上述一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，可以有效减少多智慧能源站整体总碳排放量。

Description

一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法

技术领域

本发明涉及智慧能源站能源管理与调度技术领域，尤其涉及一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法。

背景技术

现阶段社会城市化发展水平不断提高，已有多个包含数据中心和电动汽车充电站的智慧能源站投入试点运营。针对智慧能源站内数据中心与电动汽车充电站高额的碳排放管理，使其努力摆脱传统化石能源依赖并尽早实现碳中和已经成为当前主要研究重点。多参量广域量测数据的应用成为能源站运营和管理中不可忽视的重要组成部分，为能源站提供了更为全面的实时监测与分析手段。然而，在当前的传统调度策略中，对这些多维度数据的充分利用并未得到完备考虑。

目前，传统的能量管理策略通常采用基于优化算法的集中式调度方法。这些算法在已知环境和固定参数的情况下工作良好，但在处理多目标复杂交互的变化场景效果不佳，特别是在应对高阶不确定性的决策模型时，由于其集中管理方式无法有效处理多目标之间的相互作用和信息共享，导致无法充分利用系统整体性能，最终无法取得多目标最优的调度结果。此外，传统的调度策略通常涉及用户信息的全面上传，也未考虑可能导致的信息隐私泄露的潜在风险。

在此背景下，人工智能特别是强化学习技术，为智慧能源站的能源管理和碳中和优化调度提供了新的视角。与传统调度方法不同，强化学习算法依靠其自主学习和训练能力，在复杂的多主体环境和决策空间中优化能耗和碳排放等多目标问题。然而，这种方法面临着其固有的挑战：由于在训练过程中其他智能体策略的不断变化，单个智能体的最优策略也随之需要调整，导致所处环境的非平稳性和策略的收敛性及一致性差。因此，基于深度强化学习为碳中和目标下的多智慧能源站开发优化调度方法，是一个高度复杂且具有挑战性的任务。

发明内容

本发明的目的是提供一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，可以有效降低多智慧能源站整体总碳排放量。

为实现上述目的，本发明提供了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，包括以下步骤：

S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;

S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;

S3、根据多智慧能源站内多参量广域量测数据信息，提出多智慧能源站碳排放最优马尔科夫决策过程参数;

S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。

优选的，步骤S1中，假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数，用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量，其定义为数据中心总能耗与服务器的能耗之比，得到数据中心n在第t个控制时段的总功耗P ⁿ _DC,t表示为：

(1)

其中，P ⁿ _cluster,t为数据中心服务器集群的功耗。

优选的，步骤S1中，数据中心站的碳排放由电网火电、同站的风力供电和太阳能供电。计及风力发电和光伏发电的全生命周期碳足迹，当不考虑传输线路的功率损失时，时段t内数据中心n的总碳排放C^cyber(t)为：

(2)

其中，β ^G _e为火力发电碳排放供电基准值、β ^W _e为风电的碳排放供电基准值，β ^V _e为太阳能光伏的碳排放供电基准值，P ⁿ _DC,t为数据中心n在第t个控制时段的总功耗，Δt _G为火力发电时间段，Δt _W为风力发电时间段，Δt _V为太阳能光伏发电时间段。

优选的，步骤S1中，电动汽车站可由变电站和同站的风电、光伏充电站向其供电，而每辆电动汽车的使用阶段的碳排放为其火电出力和可再生能源出力的碳排放之和，因此电动汽车站内M辆电动汽车t时段的总碳排放C^ev(t)为：

(3)

其中，P _c,j为第j辆新能汽车的充电功率;

进一步地，含数据中心站和电动汽车充电站的智慧能源站在时段t产生的碳排放总和C ^sum(t)为：

(4)

优选的，步骤S2中，将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程，包括：

对多个智慧能源站进行碳排放优化调度，并在观测信息的部分考虑用户信息的隐私性，各智慧能源站只有本地的用户信息，用户原始信息如某电动汽车离站时间等无须汇总上传到控制中心，多个智慧能源站分别根据本地观测到的多参量广域量测数据信息在约束条件下做出调度决策并协调配合达到整体总碳排放的最优，将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式：

(5)

其中，N是智能体数量，将每个智慧能源站配置为一个智能体，S是多智能体的联合状态，所有智能体的状态联合在一起组成了全局联合状态向量，{A _i}^N _i=1为智能体的优化调度动作集合；{O _i}^N _i=1为智能体的有限观测集合；τ为状态转移函数，表示为系统当前状态s下采取行动a到状态s’的转移概率分布；{R _i}^N _i=1为智能体奖励函数集合，表示环境给出的奖励。

优选的，步骤S2中，在系统某一状态s _t确定时，协同控制动作a _t的优劣程度可以使用全局价值函数Q _π(s, a)来评估，全局价值函数表示为：

(6)

其中，E _π(·)为策略π下的期望，r为获得的奖励值，γ为折扣因子，表示未来某一时刻的奖励在累积奖励中所占的影响比重，γ∈[0, 1]；

进一步地，多智能体能源站优化调度的目标是找到最优控制策略π*以最大化动作值函数，因此，多智慧能源站碳排放最优调度问题转化为寻找最优状态价值函数Q*(s, a)，并表示为：

(7)

多智慧能源站的最优调度动作为：

(8)。

优选的，步骤S3中，根据多智慧能源站内多参量广域量测数据信息，提出多智慧能源站碳排放最优马尔科夫决策过程参数，包括：

状态空间: O _i,t∈S表示单个智能体i在t时段的观测到的智慧能源站状态，为保护智慧能源站用户数据隐私每个智能体只能观测到其自身智慧能源站的情况，因此状态空间具体包括数据中心站功率P ⁿ _DC,t，数据中心内任务情况M ⁿ _k,t、充电站功率P ⁿ _EV,t，充电站中连接充电桩的电动汽车荷电状态SOC_t、用户电动汽车离开时间T _evdl、光伏发电功率P _v,t和风力发电功率P _w,t，状态空间表示为：O _i,t={P ⁿ _DC,t ,M ⁿ _k,t, P ⁿ _EV,t, SOC_t, T _evdl, P _v,t, P _w,t}；

动作空间：{A _i}={ A ¹ _i, A ² _i }为智能体i的数据中心动作A ¹和电动汽车充电站动作A ²的联合行动集合。

优选的，步骤S3中，数据中心动作A ¹包括：

由于数据中心的服务器集群每时每刻都要应对大量的用户计算任务请求，多个智慧能源站根据站内用户计算任务数量，新能源出力情况、电动汽车充放电实际情况灵活转移任务并选择碳排放最小的策略执行任务A1 i动作为将本数据中心用户的计算任务迁移到第n个智慧能源站的数据中心A1 i={a ¹ _1,i, a ¹ _2,i,…a ¹ _d,i,…, a ¹ _D,i }，d≠i，a ¹ _1,i表示数据中心i迁移到数据中心1的任务数量，a ¹ _2,i表示数据中心i迁移到数据中心2的任务数量，若a ¹ _d,i=0则表示不迁移。

优选的，步骤S3中，电动汽车充电站动作A ²包括：

A ²为用户的电动汽车充放电动作，A ²=（a _c,j，a _d,j），a _c,j表示电动汽车充电站内的电动汽车j以额定功率充电，a _d,j表示电动汽车j以额定功率向数据中心供电；

奖励函数{R _i}^N _i=1：在满足物理约束的数据中心动作选择和充电动作选择下，将各智慧能源站智能体在时段t获得的奖励函数{R _i}^N _i=1设置为：

(9)

优选的，步骤S4中，采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略，包括：

在各智慧能源站的智能体i上部署一个策略网络π(aⁱ| o ⁱ; θ ⁱ), 和一个价值神经网络q(o|a; ξ ⁱ), 神经网络的参数分别记为θ ⁱ和ξ ⁱ。采用多智能体深度强化学习算法，以actor-critic算法作为去中心化框架的基础，利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程，用来连接每个智慧能源站智能体个体的策略和价值网络，使多个智能体能在真实的复杂环境中互相配合。

优选的，步骤S4中，BicNet中所有的智能体都拥有独立的回报函数以及Q-network以及policy network，在训练过程中，每个智能体i的目标是最大化其累积回报J(θ)，表示为：

(10)

优选的，步骤S4中，为了获得更大的期望累积回报，使用当前观测信息来最大化，使用随机梯度下降方法（SGD）来寻找最大值。对累计回报J(θ)求偏导得到策略更新梯度θ表示为：

(11)

对于价值神经网络参数ξ，根据BicNet中的多智能体梯度算法，利用下面多智能体梯度算法计算更新价值网络参数，价值神经网络的梯度表示为：

(12)

在每个调度时段t，区域智能体i根据本站观测的状态O ⁱ _t，利用策略网络得到优化调度动作a ⁱ _t，根据所有智能体调度决策获得的奖励Q _i*（s, a），沿着使累计奖励θ←θ+α▽_θ J(θ)最大化的方向不断更新θ ⁱ和ζ ⁱ，获得每个决策点的最佳调度策略π(aⁱ| o ⁱ; θ ⁱ)。

本发明采用上述一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其技术效果如下：

(1)本发明聚焦于多智慧能源站内数据中心和电动汽车充电站的高能耗所造成的碳排放问题，建立数据中心和电动汽车充电站的碳排放模型，充分利用多智慧能源站内数据中心负荷和电动汽车充电负荷在空间和时域调度的灵活性，实现多个智慧能源站中数据中心与电动汽车充电站的协同优化，最小化多智慧能源站的碳排放，使之趋向于碳中和;

(2)本发明的优点在于，本发明采用多智能体深度强化学习的方法解决多智慧能源站的最优碳排放调度问题，基于多参量广域量测数据信息，利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程，多个智能体在BicNet上交换的参数信息不再是用户的原始数据，既保证了用户的隐私性，又克服了多个智能体因信息不完全出现的环境非平稳问题，实现多个智慧能源站碳排放最优的分布式协同优化。

附图说明

图1是本发明实施例提供的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法的流程示意图。

图2是本发明实施例中智慧能源站协同调控BiCNet结构示意图。

图3是本发明实施例中智慧能源站24小时运行情况统计图。

图4是本发明实施例中多智慧能源站不同方法下总碳排放结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例提供的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法的流程示意图，本发明实施例提供了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，应用于智慧能源站优化调度，所述方法步骤如下所示：

按步骤S1，构建智慧能源站中数据中心和电动汽车充电站碳排放函数；

假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数，用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量，其定义为数据中心总能耗与服务器的能耗之比，得到数据中心n在第t个控制时段的总功耗P ⁿ _DC,t表示为：

(1)

其中，P ⁿ _cluster,t为数据中心服务器集群的功耗；

数据中心站的碳排放由电网火电、同站的风力供电和太阳能供电。计及风力发电和光伏发电的全生命周期碳足迹，当不考虑传输线路的功率损失时，时段t内数据中心n的总碳排放C^cyber(t)为：

（2）

电动汽车站可由变电站和同站的风电、光伏充电站向其供电，而每辆电动汽车的使用阶段的碳排放为其火电出力和可再生能源出力的碳排放之和，因此电动汽车站内M辆电动汽车t时段的总碳排放C^ev(t)为：

(3)

其中，P _c,j为第j辆新能汽车的充电功率；

(4)

之后有步骤S2，本发明实施例将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式：

(5)

其中将每个智慧能源站配置为一个智能体，智能体总数量为4个，S是多智能体的联合状态，所有智能体的状态联合在一起组成了全局联合状态向量，{A _i}4 i=1为智能体的优化调度动作集合；{O _i}⁴ _i=1为智能体的有限观测集合；τ为状态转移函数，表示为系统当前状态s下采取行动a到状态s’的转移概率分布；{R _i}⁴ _i=1为智能体奖励函数集合，表示环境给出的奖励。

在系统某一状态s _t确定时，协同控制动作a _t的优劣程度可以使用全局价值函数Q _π(s, a)来评估，全局价值函数表示为：

(6)

其中，E _π(·)为策略π下的期望，r为获得的奖励值，γ为折扣因子，表示未来某一时刻的奖励在累积奖励中所占的影响比重，γ∈[0, 1]。

(7)

多智慧能源站的最优调度动作为：

(8)。

优选的，按照步骤S3，根据多智慧能源站内多参量广域量测数据信息，提出多智慧能源站碳排放最优马尔科夫决策过程参数，包括：

状态空间: O _i,t∈S表示单个智能体i在t时段的观测到的智慧能源站状态，状态空间具体包括数据中心站功率P ⁿ _DC,t，数据中心内任务情况M ⁿ _k,t、充电站功率P ⁿ _EV,t，充电站中连接充电桩的电动汽车荷电状态SOC_t、用户电动汽车离开时间T _evdl、光伏发电功率P _v,t和风力发电功率P _w,t，状态空间表示为：O _i,t={ P ⁿ _DC,t , M ⁿ _k,t, P ⁿ _EV,t, SOC_t, T _evdl, P _v,t, P _w,t }；

动作空间：{A _i}={ A ¹ _i, A ² _i }为智能体i的数据中心动作A ¹和电动汽车充电站动作A ²的联合行动集合。其中，数据中心动作A1 i={a ¹ _1,i, a ¹ _2,i, a ¹ _3,i, a ¹ _4,i}，d≠i，a ¹ _1,i表示数据中心i迁移到数据中心1的任务数量，a ¹ _2,i表示数据中心i迁移到数据中心2的任务数量，若a ¹ _d,i=0则表示不迁移。电动汽车充电站动作A ²=（a _c,j，a _d,j），a _c,j表示电动汽车充电站内的电动汽车j以额定功率充电，a _d,j表示电动汽车j以额定功率向数据中心供电；

奖励函数{R _i}⁴ _i=1：在满足物理约束的数据中心动作选择和充电动作选择下，将各智慧能源站智能体在时段t获得的奖励函数{R _i}⁴ _i=1设置为：

(9)

之后按照步骤S4，采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略，在各智慧能源站的智能体i上部署一个策略网络π(aⁱ| o ⁱ; θ ⁱ), 和一个价值神经网络q(o|a; ξ ⁱ), 神经网络的参数分别记为θ ⁱ和ξ ⁱ。

在训练过程中，每个智能体i的目标是最大化其累积回报J(θ)，表示为：

(10)

为了获得更大的期望累积回报，使用当前观测信息来最大化，使用随机梯度下降方法（SGD）来寻找最大值。对累计回报J(θ)求偏导得到策略更新梯度θ表示为：

(11)

(12)

发明实施例以4个多站融合智慧能源站作为评估对象，优化调度周期为24h，以5min为一个调度时段，将每天分为288个调度时段，每个智慧能源站智能体的策略网络和价值网络结构相同。每个策略网络和价值网络由三部分组成，前置多层编码器、中部BiCNet通信层和后置多层编码器，多层编码器有4层隐含层，各层神经元数量为300，300，150和150；中部BiCNet通信层由单层的LSTM双向协调网络构成，神经元数量为150；后置多层编码器有4层隐含层，各层神经元数量为150，150，150和2。

发明实例对比了四种调控策略的减排效果：方法一无任何优化方法，方法二执行基于混合整数优化的电动汽车有序充电调控方法，方法三执行基于动态规划算法的电动汽车有序充放电V2G方法，方法四执行本发明所提出的面向碳中和多智慧能源站的深度强化学习优化调度方法。由实验结果分析可得，采用本发明提出的调度方法，相较于方法三执行基于动态规划算法的电动汽车充放电V2G方法优化多智慧能源站的碳排放减少64.01%，比采用方法二执行基于混合整数优化的电动汽车有序充电调控方法的碳排放减少71.25%，而比方法一无任何优化方法时减少73.69%，结果证明本专利所提方法有效减少了多智慧能源站总碳排放量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其特征在于，步骤S1中，假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数，用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量，其定义为数据中心总能耗与服务器的能耗之比，得到数据中心n在第t个控制时段的总功耗P ⁿ _DC,t表示为：

(1)

其中，P ⁿ _cluster,t为数据中心服务器集群的功耗;

(2)

其中，β ^G _e为火力发电碳排放供电基准值、β ^W _e为风电的碳排放供电基准值，β ^V _e为太阳能光伏的碳排放供电基准值，P ⁿ _DC,t为数据中心n在第t个控制时段的总功耗，Δt _G为火力发电时间段，Δt _W为风力发电时间段，Δt _V为太阳能光伏发电时间段；

(3)

其中，P _c,j为第j辆新能汽车的充电功率;

含数据中心站和电动汽车充电站的智慧能源站在时段t产生的碳排放总和C ^sum(t)为：

(4)。

3.根据权利要求2所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其特征在于，步骤S2中，将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式：

(5)

其中，N是智能体数量，将每个智慧能源站配置为一个智能体，S是多智能体的联合状态，所有智能体的状态联合在一起组成了全局联合状态向量，{A _i}^N _i=1为智能体的优化调度动作集合；{O _i}^N _i=1为智能体的有限观测集合；τ为状态转移函数，表示为系统当前状态s下采取行动a到状态s’的转移概率分布；{R _i}^N _i=1为智能体奖励函数集合，表示环境给出的奖励；

在系统某一状态s _t确定时，协同控制动作a _t的优劣程度可以使用全局价值函数Q _π(s,a)来评估，全局价值函数表示为：

(6)

多智能体能源站优化调度的目标是找到最优控制策略π*以最大化动作值函数，因此，多智慧能源站碳排放最优调度问题转化为寻找最优状态价值函数Q*(s, a)，并表示为：

(7)

多智慧能源站的最优调度动作为：

(8)。

4.如权利要求3所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其特征在于，步骤S3中，根据多智慧能源站内多参量广域量测数据信息，提出多智慧能源站碳排放最优马尔科夫决策过程参数，包括：1) 状态空间: O _i,t∈S表示单个智能体i在t时段的观测到的智慧能源站状态，为保护智慧能源站用户数据隐私每个智能体只能观测到其自身智慧能源站的情况，因此状态空间具体包括数据中心站功率P ⁿ _DC,t，数据中心内任务情况M ⁿ _k,t、充电站功率P ⁿ _EV,t，充电站中连接充电桩的电动汽车荷电状态SOC_t、用户电动汽车离开时间T _evdl、光伏发电功率P _v,t和风力发电功率P _w,t，状态空间表示为：O _i,t={P ⁿ _DC,t ,M ⁿ _k,t, P ⁿ _EV,t, SOC_t, T _evdl, P _v,t, P _w,t}。2) 动作空间：{A _i}={A ¹ _i, A ² _i}为智能体i的数据中心动作A ¹和电动汽车充电站动作A ²的联合行动集合；

数据中心动作A ¹具体为：由于数据中心的服务器集群每时每刻都要应对大量的用户计算任务请求，多个智慧能源站根据站内用户计算任务数量，新能源出力情况、电动汽车充放电实际情况灵活转移任务并选择碳排放最小的策略执行任务A ¹ _i动作为将本数据中心用户的计算任务迁移到第n个智慧能源站的数据中心A ¹ _i ={ a ¹ _1,i, a ¹ _2,i,…a ¹ _d,i,…, a ¹ _D,i }，d≠i，a ¹ _1,i表示数据中心i迁移到数据中心1的任务数量，a ¹ _2,i表示数据中心i迁移到数据中心2的任务数量，若a ¹ _d,i =0则表示不迁移；

电动汽车充电站动作A ²具体为：A ²为用户的电动汽车充放电动作，A ²=（a _c,j，a _d,j），a _c,j表示电动汽车充电站内的电动汽车j以额定功率充电，a _d,j表示电动汽车j以额定功率向数据中心供电；

在满足物理约束的数据中心动作选择和充电动作选择下，将各智慧能源站智能体在时段t获得的奖励函数{R _i}^N _i=1设置为：

(9)。

5.如权利要求4所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法，其特征在于，步骤S4中，采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。在各智慧能源站的智能体i上部署一个策略网络π(aⁱ| o ⁱ; θ ⁱ),和一个价值神经网络q(o|a; ξ ⁱ), 神经网络的参数分别记为θ ⁱ和ξ ⁱ。采用多智能体深度强化学习算法，以actor-critic算法作为去中心化框架的基础，利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程，用来连接每个智慧能源站智能体个体的策略和价值网络，使多个智能体能在真实的复杂环境中互相配合。BicNet中所有的智能体都拥有独立的回报函数以及Q-network以及policy network，在训练过程中，每个智能体i的目标是最大化其累积回报J(θ)，表示为：

(10)

(11)

(12)