CN114423028B

CN114423028B - 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法

Info

Publication number: CN114423028B
Application number: CN202210110869.6A
Authority: CN
Inventors: 王小明; 王世超; 徐友云; 胡静
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2023-08-04
Anticipated expiration: 2042-01-29
Also published as: CN114423028A

Abstract

基于多智能体深度强化学习的CoMP‑NOMA协作成簇与功率分配方法，区分边缘用户和中心用户，并在此基础上进行以小区为中心的NOMA用户分簇，与传统方法相比，大大提高了系统的频谱效率；提出了一种功率划分方法，根据每个用户的解码顺序设计功率范围；通过对网络输出进行相应的线性变换，使得用户功率在最大基站功率约束的情况下满足SIC解码的必要条件，从而达到辅助MADDPG网络，加快网络收敛的效果。

Description

基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法

技术领域

本发明涉及移动通信和强化学习邻域，具体涉及一种基于多智能体深度强化学习的多小区下行CoMP-NOMA协作成簇和动态功率分配方法。

背景技术

非正交多址接入(NOMA)技术允许不同的用户占用相同的频谱、时间和空间资源，可以提高系统容量，解决频谱利用率低的问题，因此被认为是一种很有前途的技术。已有的研究表明，NOMA可以通过适当的功率分配来获得比正交多址(OMA)更高的频谱效率。此外，在多小区场景中，边缘用户由于受到强烈的小区间干扰(ICI)，从而导致信噪比较低。为了缓解传统的基于下行链路OMA的蜂窝系统的ICI，第三代合作伙伴计划(3GPP)采用了协调多点(CoMP)传输技术，其中多个小区协调调度/传输给易受ICI影响的用户。按照传输方案的不同，可以将CoMP技术分为两类：联合处理(JT)技术和协同调度、波束赋形(CS/CB)技术。在JT技术中，下行数据来自多个小区，由多个传输点协同为用户传输数据。而在CS/CB技术中，下行数据来自单小区，但小区之间相互协同使协作点之间干扰消除。

经检索发现，如S.P.等人发表的“ANovel Low Complexity PowerAllocationAlgorithm for Downlink NOMANetworks”、TM Shami等人发表的“RadioResource Management for User-Centric JT-CoMP”，均对单一NOMA系统(CoMP系统)进行了研究。此外M.S.Ali等人发表了“Downlink Power Allocation for CoMP-NOMA inMulti-Cell Networks”，重点研究了联合传输CoMP-NOMA(JT-CoMP-NOMA)模型上，对于JT-CoMP-NOMA模型，制定了最优联合功率分配问题，对于JT-CoMP-NOMA模型，制定了最优联合功率分配问题。并对所提出的CoMP-NOMA模型进行了数值性能评估。

然而，对于CoMP-NOMA的研究方案都存在一定的局限性，对于传统的基于模型的资源分配方案来说，其优化过程的计算复杂度较高，迭代算法所花费的时间较长。

发明内容

本发明的目的是为了克服现有技术中存在的不足，提出了一种基于多智能体深度强化学习(MADRL)的方法来解决协作成簇与功率分配方法，从而最大限度的提高系统频谱效率。提出了一种以小区为中心的NOMA用户分簇方法，并设计了一个深度Q网络(DQN)来生成小区分类策略，通过使用多代理深度确定性策略梯度(MADDPG)网络来为NOMA用户进行功率分配。此外，本发明提出了一种划分功率等级的方法，根据用户的解码顺序来确定用户的输出功率范围。使得用户功率在最大基站功率约束的情况下满足SIC解码的必要条件，从而达到辅助MADDPG网络，加快网络收敛的效果。

基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法，包括以下步骤：

步骤1，状态获取：在时刻t，根据用户到各自小区基站的距离将用户分成中心用户和边缘用户；然后，获取小区内所有用户到各个小区基站的信道增益信息作为当前状态s_t；

步骤2，小区分簇：得到状态s_t后，采用DQN方法为所有用户选择最优的小区分簇方案

步骤3，功率分配：获得小区分簇方案状态后，通过MADDPG网络得到的用户选择最优的功率分配方案/>并进行相应的线性变换；

步骤4，奖励获取：根据深度强化学习方法，获取最终功率分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络；

步骤5，参数更新：根据得到的反馈奖励，基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络，更新网络的参数，从而优化功率分配方案的选择。

进一步地，所述步骤1的具体步骤为：

在t时刻，基站获取所有用户的信道增益信息，则当前时刻下的状态s_t表示为当前时刻所有用户到所有小区基站的信道增益；根据用户到各自小区基站的距离将用户分成中心用户m^nc和边缘用户m^c；定义用户m到各小区基站的距离为其中/>表示用户m到本小区的距离，K＝{1，2,...,K}为小区的集合；对用户m进行如下判断：

其中r为小区的半径；DQN和MADDPG网络在t时刻的st分别表示如下：

其中K为整个小区的总数，N为每个簇内的小区数，为小区分簇后的总簇数，M^c为中心用户的总数，/>和/>为第z个簇内中心用户和边缘用户的总数。/>为边缘用户m^c与基站k之间的信道增益。/>为第z个簇内的中心用户/>(边缘用户/>)与簇内基站n之间的信道增益。

进一步地，所述步骤2的具体步骤为：

得到s_t后，使用DQN将K个小区进行分簇，每个簇内最大包括N个小区，则K个小区将被分成Z个簇；C＝{C₁,C₂,...C_Z}表示小区的分簇情况，其中C_z表示第z类簇的小区基站索引集合；同一簇内的小区合作共同服务改簇内的所有边缘用户，中心用户则仅由本小区的基站服务；同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户；规定簇内所有的边缘用户都先于中心用户解码。

进一步地，所述步骤2中，DQN中包含两个深度神经网络，即训练网络和目标网络/>ω和ω-为神经网络参数；小区分簇DQN单元遵循ε-greedy策略从所有小区分簇方案中选择一个作为当前的最佳分配方案。

进一步地，所述步骤2中，ε-greedy策略指，以概率1-ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出；或者以概率ε选择那个拥有最大Q值的方案，即选择：

其中0＜ε＜1，A₁表示所有可能的小区分簇方案组成的集合。之后，DQN网络输出t时刻的小区分簇方案

进一步地，所述步骤3的具体步骤为：

采用MADDPG为所有用户进行功率分配；获得小区分簇后，将每个簇视作一个智能体，采用MADDPG的方法为所有用户选择最优的功率分配方案；MADDPG包括一个策略网络Actor和一个价值网络Critic；策略网络的输入状态为本簇内用户的信道增益信息；此外，其他簇内小区的用户功率仅仅在训练期间作为价值网络额外的信息输入；策略网络和价值网络的参数分别为θ和μ；通过策略网络获取t时刻的用户功率分配然后，在/>的基础上对功率进行相应变换。

进一步地，所述步骤3中，具体的，首先根据用户归一化信道增益确定用户的解码顺序；在确定了解码顺序后，为这些用户设置功率范围约束；假设用户m在NOMA集群n中的解码顺序是m_n，定义用户m的传输功率范围P^m为：

其中，ρ∈(0,0.5)，P_max是基站的最大传输功率；在获得功率范围后，需要对MADDPG网络的输出功率进行如下变换：

其中是MADDPG网络的输出功率

进一步地，所述步骤4的具体步骤为：

根据获得的联合动作即小区分簇方案和用户功率方案，计算用户的频谱效率；根据下行CoMP-NOMA传输原则，中心用户的信号与干扰加噪声比表示如下：

其中：

U＝{C₁∪C₂,...∪C_m}_m≠z

和/>分别表示第k个基站服务的边缘用户和中心用户的数量；/>和/>分别表示基站k为边缘用户和中心用户分配的发射功率；/>是小区k中的中心用户m^nc的解码顺序；中心用户m^nc的数据速率为：

边缘用户的信号与干扰加噪声比表示如下：

其中是小区j中边缘用户m^c的解码顺序；/>和/>分别是为边缘用户提供服务和不提供服务的基站集合；边缘用户m^c的数据速率为：

t时刻的奖励定义为当前时刻所有用户的频谱效率之和，若存在用户不满足最小速率要求或者不满足NOMA解码要求则会进行相应的处罚，即：

其中，β∈[1,2]为边缘用户频谱效率和的权重，L为不符合最小速率要求或SIC解码成功的必要条件的用户总数，为惩罚值，M为用户的总数。

进一步地，所述步骤5的具体步骤为：

根据步骤4中得到的系统反馈r_t，基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络，更新网络的参数，从而更好地选择功率分配方案。

进一步地，所述步骤5中，具体参数更新的步骤包括：

步骤5-1，随着智能体与环境之间的持续相互作用，不断地得到新的样本e_t＝{s_t,a_t,r_t,s_t+1}，并将其存进经验库D中；

步骤5-2，从D中随机选取N_size组样本(s_i,a_i,r_i,s_i+1)训练神经网络；

步骤5-3，对于小区分簇网络，使用随机梯度下降来更新DQN网络的参数；DQN在t时隙处的损失函数为：

其中，y_i是由目标网络计算出的目标Q值，γ是取值为[0,1]的折扣因子；此外，每隔一段固定的时间，把对应的Q网络的参数ω赋值给自己的参数ω^-，实现目标Q网络参数的更新；

步骤5-4，对于用户功率分配网络，通过MADDPG方法为所有用户选择最优的功率分配方案；在MADDPG中，每个簇对应着一个智能体，价值网络中引入了其他簇的动作作为额外的输入信息，则第z个簇的策略网络的更新方式为：

其中，为梯度运算，/>为所有簇的联和功率分配方案信息。通过最小化定义为的损失函数来更新第z个簇的批评者网络参数；

此外，更新目标网络参数，以确保参数变化缓慢并提高学习的稳定性：

θ-←τθ+(1-τ)θ-

μ-←τμ+(1-τ)μ-

其中0＜τ＜＜1。

与现有技术相比，本发明的有益效果在于：1)本发明提出了一种区分边缘用户和中心用户的方法，并在此基础上设计了一种以小区为中心的NOMA用户分簇方法。与传统方法相比，本方案可以大大提高系统的频谱效率。2)本发明提出了一种功率划分方法，根据每个用户的解码顺序设计功率范围。通过对网络输出进行相应的线性变换，使得用户功率在最大基站功率约束的情况下满足SIC解码的必要条件，从而达到辅助MADDPG网络，加快网络收敛的效果。

附图说明

图1是本发明实施例中的下行多小区CoMP-NOMA系统示意图。

图2是本发明实施例中的基于MADRL的协作成簇与功率分配框架示意图。

图3是本发明实施例中的本方法与其他方法平均频谱效率对比示意图。

图4是本发明实施例中的本方法与其他方法在不同功率约束下的平均频谱效率示意图。

图5是本发明实施例中的本方法在不同值下的平均频谱效率示意图

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明是一种基于MADRL的CoMP-NOMA协作成簇与功率分配方法。如图1所示，M个用户随机分布在K个小区内，并在每个时隙之间进行随机移动。根据用户到本小区基站的距离将M个用户分成M^c个边缘用户和M^nc个中心用户。将K个小区进行分簇，每个簇内最大包括N个小区，则K个小区将被分成个簇。同一簇内的小区基站将共同服务改簇内的所有边缘用户。中心用户则只由本小区基站服务。C＝{C₁,C₂,...C_Z}表示小区的分簇情况，表示基站k为边缘用户(中心用户)分配的发射功率。

本实施例通过以下步骤实现：

步骤1，状态获取：t时刻，基站获取所有用户的信道增益信息，则当前时刻下的状态s_t表示为当前时刻所有用户到所有小区基站的信道增益。g_m,k(t)表示基站k和用户m之间的通道增益。该信息由两部分组成，分别是t时刻下的大尺度衰落β_k,m(t)和小尺度衰落h_k.m(t)。其中，大尺度衰落指用户端与基站通信的信道路径上由于固定障碍物的阴影导致的衰落，包含平均路径损耗和阴影衰落；小尺度衰落则由多径效应引起，假设该效应对用户端的影响服从瑞利分布。那么g_m,k(t)可以表示为：

其中m∈{m^c,m^nc}分别表示边缘用户和中心用户。定义用户m到各小区基站的距离为其中/>表示用户m到本小区的距离，K＝{1，2,...,K}为小区的集合。对用户m进行如下判断：

其中r为小区的半径。通过DQN将K小区分成Z个簇，然后将每个簇视为一个智能体，通过MADDPG网络为所有用户进行功率分配。DQN和MADDPG网络在t时刻的s_t分别表示如下：

步骤2，小区分簇：根据得到的s_t，DQN遵循ε-greedy策略选择最优获得小区的分簇方案

其中C_z(t)表示在t时刻，第z类簇的小区基站索引集合。在本实施例中，同一簇内的小区将会合作共同服务改簇内的所有边缘用户，中心用户则仅由本小区的基站服务。同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户。DQN中有两个深度神经网络：训练网络和目标网络，参数分别为ω和ω_-。之后，小区分簇DQN单元遵循ε-greedy策略从所有小区分簇方案中选择一个作为当前的最佳分配方案。其中，ε-greedy策略指：以概率1-ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出；或者以概率ε选择那个拥有最大Q值的方案，即选择：

步骤3，获得小区分簇后，每个簇都被视作一个智能体，采用MADDPG的方法为所有用户选择最优的功率分配方案。MADDPG包括一个策略网络(Actor)和一个价值网络(Critic)。策略网络的输入状态为本簇内用户的信道增益信息。此外，其他簇内小区的用户功率仅仅在训练期间作为价值网络额外的信息输入。策略网络和价值网络的参数分别为θ和μ。通过策略网络获取t时刻的用户功率分配

功率分配方案可由改簇内所有用户分配的功率p_k,m(t)表示为：

然后，在的基础上对功率进行相应变换。

具体的，首先将用户分成中心用户和边缘用户两类，并规定同一NOMA簇的边缘用户始终先于中心用户解码。根据用户归一化信道增益分别确定边缘用户和中心用户的解码顺序。在确定了解码顺序后，为这些用户设置了功率范围约束。假设用户m在NOMA集群n中的解码顺序是m_n。定义了用户m的传输功率范围为：

其中，ρ∈(0,0.5)。P_max是基站的最大传输功率。在获得功率范围后，需要对MADDPG网络的输出功率进行如下变换：

其中是MADDPG网络输出的各用户的功率。

步骤4，奖励获取：根据深度强化学习方法，获取最终小区分簇方案以及功率分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络。

已知小区分簇方案和功率分配方案/>之后，根据下行CoMP-NOMA传输原则，中心用户的信号与干扰加噪声比表示如下：

其中：

以及U＝{C₁∪C₂,...∪C_m}_m≠z。表示第k个基站服务的边缘用户(中心用户)的数量。/>是小区k中中心用户m^nc的解码顺序。中心用户m^nc的数据速率为：

边缘用户的信号与干扰加噪声比表示如下：

其中是小区j中边缘用户m^c的解码顺序。/>是为边缘用户提供服务(不提供服务)基站集合。边缘用户m^c的数据速率为：

步骤5，参数更新：根据步骤4中得到的系统反馈rt，基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络，更新网络的参数，从而更好地选择功率分配方案。具体参数更新的步骤包括：

(1)随着智能体与环境之间的持续相互作用，不断地得到新的样本e_t＝{s_t,a_t,r_t,s_t+1}，并将其存进经验库D中。

(2)从D中随机选取N_size组样本(s_i,a_i,r_i,s_i+1)训练神经网络。

(3)对于小区分簇网络，使用随机梯度下降来来更新DQN网络的参数。DQN在t时隙处的损失函数为：

其中，y_i是由目标网络计算出的目标Q值，γ是取值为[0,1]的折扣因子。此外，每个一段固定的时间，就把对应的Q网络的参数ω赋值给自己的参数ω^-，实现目标Q网络参数的更新。

(4)对于用户功率分配网络，在本实施例中，通过MADDPG方法为所有用户选择最优的功率分配方案。在MADDPG中，每个簇对应着一个智能体，价值网络中引入了其他簇的动作作为额外的输入信息，则第z个簇的策略网络的更新方式为：

此外，以一种软的方式更新目标网络参数，以确保参数变化缓慢，这大大提高了学习的稳定性。

θ_-←τθ+(1-τ)θ_-

μ_-←τμ+(1-τ)μ_-

其中0＜τ＜＜1。

本实施例考虑多小区下行CoMP-NOMA场景，对所有NOMA用户进行分簇和功率分配的优化，本实施例仿真场景的主要参数如表1所示。

表1仿真场景主要参数

图3是本发明所述的基于MADRL的协作成簇与功率分配方法与其他方法平均频谱效率对比示意图。可以看出，传统OFDM方法的频谱谱效率是这些方法中最低的。因为在OFDM中，同一载波上的用户间干扰无法消除从而导致整体频谱效率低下。传统NOMA方法的性能介于MADRL方法和随机分类-固定功率(RC-FP)方法之间。在CoMP-NOMA系统中，同一类中的边缘用户能够接受到多个基站的服务，由于边缘用户与中心用户在同一NOMA簇中，且边缘用户始终先于中心用户解码，中心用户的功率等级会下降，其频谱效率也会受到影响。此外，由于信道条件的随机变化，RC-FP的分配方不能满足实时功率分配和小区分类需求。因此，RC-FP的频谱效率比NOMA方法的频谱效率更低。因此需要在提升边缘用户的性能同时，确保整体的频谱效率。而本发明提出的方法，前1000个时隙的频谱效率比NOMA方法低。但随着网络不断的训练，本方法的频谱效率慢慢超过NOMA方法的频谱效率并保持稳定。这是因为本方法可以根据信道条件的随机变化动态的进行小区分类和功率分配，能够有效确保系统的频谱效率。

图4是本发明所述的基于MADRL的协作成簇与功率分配方法与其他方法在不同功率约束下的平均频谱效率示意图。可以看出，本方法在较宽的功率预算范围内实现了最佳性能。而对于相对较低的功率水平，CoMP-NOMA方案的性能介于NOMA和OMA之间。由于OMA系统中，存在严重的用户间干扰，即时增大基站功率也，整体频谱效率也无法得到有效提升。在为用户分配功率时会根据用户的解码顺序为用户分配功率等级。在CoMP-NOMA系统中，同等级的小区将相互协作为边缘用户服务，同一类中的小区内的边缘用户和中心用户共同形成一个簇。因此，相比于传统NOMA系统，CoMP-NOMA系统需要更宽的功率预算范围。

图5是本发明所述的基于MADRL的协作成簇与功率分配方法在不同ρ值下的平均频谱效率示意图。当ρ值较小的时候，COMP-NOMA的SE比NOMA小，随着ρ值的增大，COMP-NOMA系统的整体频谱效率不断增大。这是应为当ρ值较小的时候，用户之间的功率等级差距明显，因此边缘用户的SE较高，但是由于中心用户始终是后于边缘用户解码的。根据公式可知，当ρ较小时，中心用户的功率会非常小。使得中心用户的SE较低，从而影响了整体的SE。边缘用户随着ρ值的增大而减小，中心用户的SE随ρ值的增大而增大。如果一味的采用较大的ρ值，虽然整体SE较高，但边缘用户的体验却会受到影响。因此，需要在综合考虑系统的整体SE和用户之间的公平性之后，选取合适的ρ值。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法，其特征在于：包括以下步骤：

所述步骤1的具体步骤为：

在t时刻，基站获取所有用户的信道增益信息，则当前时刻下的状态s_t表示为当前时刻所有用户到所有小区基站的信道增益；根据用户到各自小区基站的距离将用户分成中心用户m^nc和边缘用户m^c；定义用户m到各小区基站的距离为其中/>表示用户m到本小区的距离，K＝{1，2,...,K}为小区的集合，同时定义g_m,k(t)表示用户m和基站k之间的通道增益；对用户m进行如下判断：

其中r为小区的半径；DQN和MADDPG网络在t时刻的s_t分别表示如下：

其中K为整个小区的总数，N为每个簇内的小区数，为小区分簇后的总簇数，M^c为中心用户的总数，/>和/>为第z个簇内中心用户和边缘用户的总数；/>为边缘用户m^c与基站k之间的信道增益；/>为第z个簇内的中心用户/>(边缘用户/>)与簇内基站n之间的信道增益；

所述步骤2的具体步骤为：

得到s_t后，使用DQN将K个小区进行分簇，每个簇内最大包括N个小区，则K个小区将被分成个簇；C＝{C₁,C₂,...C_Z}表示小区的分簇情况，其中C_z表示第z类簇的小区基站索引集合；同一簇内的小区合作共同服务改簇内的所有边缘用户，中心用户则仅由本小区的基站服务；同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户；规定簇内所有的边缘用户都先于中心用户解码；

DQN中包含两个深度神经网络，即训练网络和目标网络/>ω和ω_-为神经网络参数；小区分簇DQN单元遵循ε-greedy策略从所有小区分簇方案中选择一个作为当前的最佳分配方案；

ε-greedy策略指，以概率1-ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出；或者以概率ε选择那个拥有最大Q值的方案，即选择：

其中0＜ε＜1，A₁表示所有可能的小区分簇方案组成的集合；之后，DQN网络输出t时刻的小区分簇方案

所述步骤3的具体步骤为：

采用MADDPG为所有用户进行功率分配；获得小区分簇后，将每个簇视作一个智能体，采用MADDPG的方法为所有用户选择最优的功率分配方案；MADDPG包括一个策略网络Actor和一个价值网络Critic；策略网络的输入状态为本簇内用户的信道增益信息；此外，其他簇内小区的用户功率仅仅在训练期间作为价值网络额外的信息输入；策略网络和价值网络的参数分别为θ和μ；通过策略网络获取t时刻的用户功率分配然后，在/>的基础上对功率进行相应变换；

首先根据用户归一化信道增益确定用户的解码顺序；在确定了解码顺序后，为这些用户设置功率范围约束；假设用户m在NOMA集群n中的解码顺序是m_n，定义用户m的传输功率范围P^m为：

其中是MADDPG网络的输出功率；

步骤4，奖励获取：根据深度强化学习方法，获取最终分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络；

所述步骤4的具体步骤为：

其中：

U＝{C₁∪C₂,...∪C_m}_m≠z

边缘用户的信号与干扰加噪声比表示如下：

其中，β∈[1,2]为边缘用户频谱效率和的权重，L为不符合最小速率要求或SIC解码成功的必要条件的用户总数，为惩罚值，M为用户的总数；

2.根据权利要求1所述的基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法，其特征在于：所述步骤5的具体步骤为：

3.根据权利要求2所述的基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法，其特征在于：所述步骤5中，具体参数更新的步骤包括：

步骤5-1，随着智能体与环境之间的持续相互作用，不断地得到新的样本e_t＝{s_t,a_t,r_t,s_t+1}，并将其存进经验库D中作为训练样本；

步骤5-3，对于小区分簇网络，使用随机梯度下降来来更新DQN网络的参数；DQN在t时隙处的损失函数为：

其中，y_i是由目标网络计算出的目标Q值，γ是取值为[0,1]的折扣因子；此外，每隔一段固定的时间，把对应的Q网络的参数ω赋值给参数ω-，实现目标Q网络参数的更新；

其中，▽为梯度运算，为所有簇的联和功率分配方案信息；通过最小化定义为的损失函数来更新第z个簇的批评者网络参数；

θ_-←τθ+(1-τ)θ-

μ_-←τμ+(1-τ)μ-

其中0＜τ＜＜1。