CN111526592A

CN111526592A - 一种用于无线干扰信道中的非协作多智能体功率控制方法

Info

Publication number: CN111526592A
Application number: CN202010289045.0A
Authority: CN
Inventors: 张蔺
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11
Anticipated expiration: 2040-04-14
Also published as: CN111526592B

Abstract

本发明公开一种用于无线干扰信道中的非协作多智能体功率控制方法，应用于通信技术领域，针对现有技术存在的不能为5G和未来无线网络提供一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制的问题；本发明采用分布式执行‑集中式训练的结构；每个无线发射机有一个本地深度神经网络，每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息，输出为该无线发射机的发射功率；每一个本地深度神经网络的权值向量在核心网络进行集中式训练；实现了同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制的效果。

Description

一种用于无线干扰信道中的非协作多智能体功率控制方法

技术领域

本发明属于通信技术领域，特别涉及一种无线网络干扰信道中的功率控制技术。

背景技术

随着移动互联网技术的高速发展，无线终端设备数量呈指数级增加。海量的无线设备推动了无线网络流量爆炸式增长，给传统蜂窝网络的无线接入能力带来了巨大的挑战。为了应对这个挑战，国际电信联盟3GPP(第三代伙伴计划)启动了异构蜂窝网络的标准化。传统蜂窝和异构蜂窝的主要区别在于，传统蜂窝中通过部署一个宏基站为宏小区的所有用户提供无线接入服务，而异构蜂窝通过在宏基站的周围规划多个微小区，并在每个微小区中部署一个小基站为微小区内的用户提供灵活的无线接入服务。相比于传统蜂窝网络，异构蜂窝网络有两大明显优势。一方面，异构蜂窝网络能够将传统蜂窝网宏基站的无线流量卸载到小基站，减小用户无线请求时延，提升用户体验。另一方面，异构蜂窝网络拉近了基站与用户间的距离，减小了无线信号的传输损耗，提高无线信号的传输速率和能量效率。

异构蜂窝网络在改变传统蜂窝网络架构的同时也增加了无线资源管理的难度。频谱资源的匮乏使得多个微小区共用同一段频谱资源(同频部署)，这导致同频部署的微小区之间会产生严重的干扰，降低和传输速率。为了有效地抑制微小区之间的干扰并最大化微小区和传输速率，需要为每个微小区的小基站分配最优的传输功率。小基站的最优传输功率分配不仅与微小区内部的无线信道状态信息有关，也与微小区之间的信道状态信息有关。但是，微小区的分布式部署使得微小区之间的信道状态信息难于实时获取，这给最优传输功率分配带来了巨大的挑战。

针对异构蜂窝网络中微小区之间信道状态信息难以实时获取并导致小基站传输功率难以实时联合优化的问题，本项目研究在既不能获取实时微小区全局信道状态信息也不存在小基站间协作的情况下，小基站只基于本地信息对传输功率进行动态优化的理论与技术。本项目拟采用多智能体深度强化学习框架，通过将每个小基站视为一个智能体深度神经网络，利用微小区历史全局信息对其进行训练，使得每个智能体具有全局视野。收敛后的智能体深度神经网络能够只基于本地信息动态地优化传输功率并提高微小区和速率。

异构蜂窝网络中小基站的功率分配属于NP-hard问题。针对NP-hard问题，一般不存在快速的最优解法。现有功率控制方法可以大致分为三类：基于迭代优化的方法、基于深度学习的方法、基于深度增强学习的方法。

(1)两种经典的基于迭代优化的方法包括加权最小均方差(weighted minimummean square error，WMMSE)方法和分式规划(fractional programming,FP)方法。在该类方法中，计算节点首先收集干扰信道的全局信道状态信息(channel state information,CSI)，然后通过迭代的方法计算一个次优的功率分配方案；

(2)基于深度学习的方法中，智能体首先收集大量的历史全局信道状态信息，并利用WMMSE或者FP方法计算出每一个全局信道状态信息下相应的次优功率分配方案，用深度神经网络(deep neural network,DNN)来学习全局子信道状态信息与次优功率分配之间的关系。待深度神经网络收敛后，将未来每一个时刻的全局信道状态信息输入到该深度神经网络中，该深度神经网络能够快速输出一个功率分配方案。

(3)基于深度强化学习的方法中，智能体通过不断调整功率分配方案与环境进行交互，累计经验，并利用一个深度神经网络从经验中学习智能体观察到的无线环境状态、功率分配方案、网络和速率之间的关系。待深度神经网络收敛后，智能体将未来每个时刻观察到的无线环境状态输入到该深度神经网络中，该深度神经网络能够快速输出一个功率分配方案。

无线网络干扰信道中的三类功率控制方法详细比较见表1所示。

表1无线网络干扰信道中现有功率控制方法的比较

现有的三类方法的比较见表1。但是，典型的异构蜂窝网络中有以下两个特点：第一，无线信道变化快；第二，不同的收发机之间难以协作。基于此，现有的三类功率控制方法都不能直接用于异构蜂窝网中，即现有的三类功率控制方法不能为5G和未来无线网络提供一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制方法。

发明内容

为解决上述技术问题，本发明提出一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制方法。

本发明采用的技术方案为：一种用于无线干扰信道中的非协作多智能体功率控制方法，基于的计算框架为：

在每一个基站建立一个本地深度神经网络，在核心网络中为每一个本地深度神经网络建立一个演员深度神经网络与对应的目标演员深度神经网络，还包括在核心网络建立一个评判家深度神经网络与对应的目标评判家深度神经网络，所述核心网络还包括记忆回放缓存；基站与核心网络之间通过具有T_d时延的双向反馈连路进行数据交换；

所述方法的实现过程为：

S1、每一个基站在每一个时隙将本地状态信息输入本地深度神经网络得到发射功率，同时在每一个时隙将本地经验和辅助信息上传至核心网络；

S2、经过T_d时延，核心网络根据同时收到的所有本地经验和辅助信息，构造全局经验，并将全局经验存放至记忆回放缓存中；

S3、核心网络根据记忆回放缓存中存储的全局经验，对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练；

S4、核心网络每隔T_u时间向基站传输最新的演员深度神经网络权值向量，用于更新本地深度神经网络权值向量；所述本地深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息，输出为对应基站的无线发射机的发射功率。

在步骤S1之前还包括随机经验积累阶段，具体过程为：

A1、每一个基站在每一个时隙随机选取发射功率，同时在每一个时隙将本地经验和辅助信息上传至核心网络；

A2、经过T_d时延，核心网络根据同时收到的所有本地经验和辅助信息，构造全局经验，并将全局经验存放至记忆回放缓存中；

A3、重复步骤A1和步骤A2直到记忆回放缓存中有D个全局经验；

A4、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验，对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练；

A5、核心网络每隔T_u时间向基站传输最新的演员深度神经网络权值向量；

A6、若基站未收到最新的演员深度神经网络权值向量，则返回步骤A1；否则基站根据第一次收到最新的演员深度神经网络权值向量更新本地深度神经网络权值向量，并利用最新的本地深度神经网络配置发射功率。

步骤S3或步骤A4的具体实现过程为：

所述评判家深度神经网络以及目标评判家深度神经网络的输入为全局状态信息与全局动作，输出为在该全局状态信息下采用该全局动作的长期回报值估计；当前时刻的评判家深度神经网络权值向量通过最小化损失函数来进行更新；当前时刻的目标评判家深度神经网络权值向量根据上一时刻的评判家深度神经网络权值向量与上一时刻的目标评判家深度神经网络权值向量进行更新；

所述演员深度神经网络、目标演员深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息，输出为对应基站的无线发射机的发射功率；

当前时刻的演员深度神经网络权值通过最大化平均长期全局回报值进行更新；当前时刻的目标演员深度神经网络权值向量根据上一时刻的演员深度神经网络权值向量与上一时刻目标演员深度神经网络权值向量进行更新。

所述本地经验为基站的无线发射机与无线接收机观测到的本地无线环境状态信息。

所述辅助信息为用户接收到的来自每个非本地发射机的干扰。

所述演员深度神经网络与目标演员深度神经网络与对应的本地深度神经网络结构相同。

所述评判家深度神经网络以及目标评判家深度神经网络网络结构相同。

所述演员深度神经网络权值向量根据最大化平均长期回报值进行更新。

本发明的有益效果：本发明提出的分布式执行-集中式训练的结构与集中式训练方法，每个无线发射机有一个本地深度神经网络，每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息，输出为该无线发射机的发射功率，实现分布式执行；每一个本地深度神经网络的权值向量在核心网络进行集中式训练，实现集中式训练；本发明的方法同时具有非协作、计算复杂度低、高性能的优点；与现有方法相比，本发明的方法只需要将本地观察到的数据输入本地神经网络优化传输功率，采用分布式执行的架构，使得本发明的方法能适合快速变化信道环境；并且本发明的方法相比于现有方法和速率性能更好。

附图说明

图1为本发明的功率控制方法框架；

图2为本发明实施例提供的异构蜂窝网模型；

图3为本发明实施例提供的本地/演员/目标演员深度神经网络结构；

图4为本发明实施例提供的评判家/目标评判家深度神经网络结构；

图5为本发明实施例提供的仿真模型；

其中，图5(a)为两层异构蜂窝网络场景，图5(b)为三层异构蜂窝网络场景；

图6为两层异构蜂窝网络中不同功率控制方法的和速率性能比较；

其中，图6(a)为深度神经网络训练阶段和速率性能比较，图6(b)为测试阶段和速率性能比较；

图7为三层异构蜂窝网络中不同功率控制方法的和速率性能比较；

其中，图7(a)为深度神经网络训练阶段和速率性能比较，图7(b)为测试阶段和速率性能比较。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图1-7对本发明内容进一步阐释。

本发明的功率控制算法框架如图1所示，本发明的框架具有分布式执行-集中式训练的结构。所述分布式执行为：每个无线发射机有一个本地深度神经网络，每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息，输出为该无线发射机的发射功率；所述集中式训练为：每一个本地深度神经网络的权值向量在核心网络进行集中式训练。

为了进行集中式训练，核心网络中需要预留一个记忆回放缓存用于存放网络全局经验，并建立多个演员深度神经网络和相应的目标演员深度神经网络，以及建立一个评判家深度神经网络和相应的目标评论家深度神经网络。本发明中建立目标演员深度神经网络和目标评判家深度神经网络是为了分别使演员深度神经网络和评判家深度神经网络的训练更加稳定。

其中，每一组演员深度神经网络和目标演员深度神经网络对应着一个本地深度神经网络，并与其对应的本地深度神经网络具有相同的网络结构，相同的网络结构使得每一个训练后的演员深度神经网络权重向量可以用于更新其对应的本地深度神经网络。

评判家深度神经网络与目标评判家深度神经网络具有相同的网络结构，评判家深度神经网络用于评判各个演员深度神经网络输出的发射功率对系统和速率的影响并指导其权重的更新。

无线发射机与核心网络通过一条具有T_d传输时延的双向反馈链路实现数据交换。一方面，无线发射机需要向核心网络上传每一个时刻的本地经验和辅助信息，核心网络整合所有发射机的本地经验和辅助信息构造全局经验，并将其存放在记忆回放缓存中。另一方面，核心网络每隔T_u将每一个最新的演员深度神经网络权值向量下发给对应的无线发射机用于更新其本地深度神经网络。

以下结合具体场景对本发明的内容进行说明：

如图2所示，在一个典型的异构蜂窝网中，多个基站(发射机)共用一个频段给不同用户(接收机)提供无线下行数据传输服务，同时产生严重的同频干扰。不失一般性，假设一个基站只服务一个用户，将N组由基站-用户构成的收发机对编号为n∈N＝{1,2,…,N}，并分别用基站n和用户n指代第n组基站-用户对中的基站和用户，下文中将第n组基站-用户对称作无线收发机n，即基站n为无线发射机n，用户n为无线接收机n。

无线信道系数由大尺度衰减系数和小尺度衰落系数组成。将基站n与用户k之间的大尺度衰减系数和小尺度锐利衰落系数分别表示为φ_n,k和h_n,k，那么基站n与用户k之间的无线信道系数可以表示为

相应的信道增益系数可以表示为

整个系统的信道增益矩阵可以表示为

其中g_n,k为信道增益矩阵中第n行第k列的元素。在无线通信系统中，大尺度衰减系数φ_n,k与基站n和用户k的相对位置相关，一般在很长一段时间内保持不变；小尺度锐利衰落系数h_n,k是一个服从为均值为1的锐利分布随机变量，一般在一个时隙内保持恒定，在多个时隙之间随机变化。

将基站n在时刻t的发射功率表示为p_n(t)，发送的单位功率信号表示为x_n(t)。那么用户n在时刻t接收到的信号为

其中，δ_n(t)是用户n处的噪声，其功率为σ²。因此，用户n处在时刻t的信干噪比为

相应的单位带宽下行传输速率(比特每秒每赫兹，bps)为r_n(t)＝log₂(1+γ_n(t))(3)

本发明的目标是通过优化在时刻t中所有基站n的发射功率p_n(t)来最大化和速率，即

其中，p_n,max是基站n的最大发射功率。

基于上述场景，本发明的相关参数定义如下：

s_n表示无线收发机n观察到的本地无线环境状态；o_n表示无线收发机n观察到的本地无线环境辅助信息；a_n表示基站n设置的发射功率，r_n表示无线收发机n获得的直接回报，即传输速率；s′_n表示无线收发机n观察到的新本地无线环境状态；o′_n表示无线收发机n观察到的本地无线环境新辅助信息；无线收发机n的一个本地经验的定义为e_n＝{s_n,a_n,r_n,s'_n}，表示基站n在s_n下采用发射功率a_n后获取传输速率r_n，本地无线状态变化到s'_n；一个网络全局经验定义为E＝{s₁,…,s_N,s_o,a₁,…,a_N，R,s′₁,…,s'_N,s'_o}，其中{s₁,…,s_n,s_o}表示全局状态信息，包含N对无线收发机观察到的本地无线环境状态信息和核心网络整合所有发射机辅助信息{o₁,…,o_N}构成的其他全局状态信息s_o，{a₁,…,a_n}表示全局动作，包括包含N个无线发射机的发射功率，观察到的本地无线环境状态信息a_n表示第n个无线发射机的发射功率，R表示在全局状态{s₁,…,s_n,s_o}，N个无线发射机采用发射功率{a₁,…,a_n}，核心网络所获得的全局回报，{s′₁,…,s'_N,s'_o}表示变化后的全局网络状态信息，包括N组无线收发机观察到的新本地无线环境状态信息和核心网络整合所有无线发射机辅助信息{o′₁,…,o'_N}构成的新的其他全局状态信息s'_o。

将N个本地深度神经网络表示为

(n∈N)，其中，s_n表示无线收发机n观察到的本地无线环境状态，

表示为在无线发射机n处的本地深度神经网络权值向量。

将N个演员深度神经网络表示为

(n∈N)，其中，

表示为第n个演员深度神经网络权值向量。相应地，将N个演员深度神经网络对应的目标演员深度神经网络表示为

(n∈N)，其中，

表示为第n个演员深度神经网络对应的目标演员深度神经网络的权值向量。

将评判家深度神经网络表示为Q(s₁,…,s_n,s_o,a₁,…,a_n；θ^(c))，其中，{s₁,…,s_n,s_o}表示全局状态信息，包含N对无线收发机观察到的本地无线环境状态信息和核心网络整合所有无线发射机辅助信息构成的其他全局状态信息so，{a₁,…,a_n}表示全局动作，包括a_n表示第n个无线发射机的发射功率，θ^(c)为评判家深度神经网络权值向量。相应地，将目标评判家深度神经网络表示为Q^-(s₁,…,s_n,s_o,a₁,…,a_n；θ^(c-))，其中，θ^(c-)为目标评判家深度神经网络权值向量。

需要说明的是，本地深度神经网络、演员深度神经网络以及目标演员深度神经网络的输入都是无线收发机的本地状态信息，输出是无线发射机的发射功率；评判家深度神经网络与目标评判家深度神经网络的输入包括全局状态信息和全局动作，输出是对在该全局状态信息下采用该全局动作的长期回报值估计，长期回报值越大说明在该全局状态信息下采用该全局动作能获得的系统和速率越大。

相关参数的设计过程为：

D1、本地状态s_n的设计为包括当前时刻与上一时刻的本地信息，上一时刻的本地信息包括：基站n和用户n之间的无线信道增益，基站n的发射功率，用户n接收到的总干扰功率，用户n处的信干噪比，基站n和用户n之间的传输速率；当前时刻的本地信息包括：基站n和用户n之间的无线信道增益，用户n接收到的总干扰功率；具体的以t时刻的本地状态为例，具体涉及过程为：

在t时刻开始阶段，基站n和用户n的本地信息包括t-1时刻的本地信息(基站n和用户n之间的无线信道增益，基站n的发射功率，用户n接收到的总干扰功率，用户n处的信干噪比，基站n和用户n之间的传输速率)，和t时刻开始阶段的本地信息(基站n和用户n之间的无线信道增益，用户n接收到的总干扰功率)。需要说明的是，用户n在t时刻开始阶段接收到的总干扰功率产生过程如下：在t时刻开始阶段，尽管无线信道已经相对t-1时刻发生了变化，由于新的发射功率还未确定，所有基站仍然使用t-1时刻的发射功率传输数据，并且造成相互干扰。因此，在t时刻开始阶段，我们将本地状态s_n设计为：

其中，g_n,n(t-1)为时刻t-1信道增益矩阵中第n行第n列的元素，p_n(t-1)表示时刻t-1中所有基站n的发射功率，p_k(t-1)表示时刻t-1中所有基站k的发射功率，g_k,n(t-1)表示时刻t-1信道增益矩阵中第k行第n列的元素，g_n,n(t)为时刻t信道增益矩阵中第n行第n列的元素，g_k,n(t)表示时刻t信道增益矩阵中第k行第n列的元素。

D2、基站n的行为a_n设计为基站的发射功率，以t时刻基站n的本地行为设计a_n(t)为例：将在t时刻基站n的本地行为设计为a_n(t)＝p_n(t)。

D3、直接回报r_n设计为本地传输速率，以t时刻基站n和用户n获得的直接回报r_n(t)为例：将在t时刻基站n和用户n获得的直接回报设计为本地传输速率r_n(t)。

D4、本地经验e_n设计为包括当前时刻与上一时刻的本地状态、上一时刻基站n的行为、上一时刻的直接回报，以t时刻的本地经验为例，其表达式为：

e_n(t)＝{s_n(t-1),a_n(t-1),r_n(t-1),s_n(t)} (6)

D5、辅助信息o_n设计为用户接收来自每个非本地发射机的干扰，以t时刻辅助信息的设计为例：将t时刻辅助信息o_n设计为用户接收来自每个非本地发射机的干扰，即，

D6、全局经验E设计为包括上一时刻所有本地状态、上一时刻所有基站的动作、上一时刻的全局回报、上一时刻的全局辅助信息、当前时刻的所有本地状态以及当前时刻的全局辅助信息；以t时刻的全局经验E为例：由于无线发射机与核心网络的数据交换具有T_d时延，将在t时刻的全局经验E表示为

其中，R(t-1-T_d)表示核心网络在t-1-T_d时刻所获得的全局回报，即和传输速率。对于任意n∈{1,2,…,N}，核心网络可以从本地经验e_n(t-T_d)中直接获取s_n(t-1-T_d)，s_n(t-T_d)和a_n(t-1-T_d)；利用e_n(t-T_d)中的r_n(t-1)直接计算

利用e_n(t-1-T_d)中和辅助信息o_n(t-1-T_d)构造s_o(t-1-T_d)＝G(t-1-T_d)；利用e_n(t-T_d)和辅助信息o_n(t-T_d)构造s_o(t-T_d)＝G(t-T_d)。

以构造s_o(t-T_d)＝G(t-T_d)为例，根据定义，G(t-T_d)由g_n,n(t-T_d)，

和g_n,k(t-T_d),

组成；其中，g_n,n(t-T_d)包含在e_n(t-T_d)中，g_n,_k(t-T_d),

可以通过e_n(t-T_d)中的p_n(t-1-T_d)和o_k(t-T_d)中的p_n(t-1-T_d)g_n,k(t-T_d)直接计算得到。核心网络可以通过类似的方法构造s_o(t-1-T_d)＝G(t-1-T_d)。

D7、本地/演员/目标演员深度神经网络设计：由于本地深度神经网络、演员深度神经网络、目标演员深度神经网络结构相同，此处以演员深度神经网络结构设计为例进行说明，如图3所示，将演员深度神经网络设计为5层全连接网络。第一层是输入层。由于输入的本地状态s_n具有7个元素，所以输入层有

个神经元。第二层和第三层的神经元数量分别表示为

和

第四层的神经元数量为1，激活函数为Sigmod函数，其作用是输出一个0到1之间的数值。第五层的神经元个数为1，作用是将上一层输出的0到1之间的数值线性放缩到一个0到p_n,max之间的发射功率p_n。本领域的技术人员应注意，本地深度神经网络、演员深度神经网络、目标演员深度神经网络的结构不限于本实施例中所给出的这一种，在实际应用中，通过修改层数与神经元个数等参数也可以设计为其他结构。

D8、评判家/目标评判家深度神经网络设计：由于评判家深度神经网络、目标评判家深度神经网络结构相同，此处以评判家深度神经网络结构设计为例进行说明，如图4所示，评判家深度神经网络包含状态模块、动作模块和混合状态-动作模块。状态模块是一个三层的全连接神经网络。状态模块的第一层为全局状态信息的输入提供接口，由于全局状态信息具有7N+N²个数据，所以该层有

个神经元。状态模块的第二层和第三层的神经元数量分别表示为

和

动作模块是一个两层的全连接神经网络。动作模块的第一层为全局动态的输入提供接口，由于全局动作具有N个数据，所以该层有

个神经元。动作模块第二层的神经元数量表示为

混合状态-动作模块是一个三层的全连接神经网络。混合状态-动作模块的第一层由状态模块的最后一层和动作模块的最后一层拼接而成，该层有

个神经元。混合状态-动作模块的第二层的神经元数量表示为

混合状态-动作模块的第三层神经元数量为1，作用是输出在该全局状态信息下采用该全局动作的长期回报数值。本领域的技术人员应注意，评判家深度神经网络、目标评判家深度神经网络的结构不限于本实施例中所给出的这一种，在实际应用中，通过修改层数与神经元个数等参数也可以设计为其他结构。

本发明具体的功率控制方法实现过程包括以下三个阶段：

1、初始化：

11、根据步骤D7，在每一个基站处建立一个本地深度神经网络

(n∈N)，并在核心网络中为每一个本地深度神经网络分别建立一个演员深度神经网络

(n∈N)以及相应的目标演员深度神经网络

(n∈N)。

12、根据步骤D8，在核心网络建立一个评判家深度神经网络Q(s₁,…,s_n,s_o,a₁,…,a_n；θ^(c))和相应的目标评判家神经网络Q^-(s₁,…,s_n,s_o,a₁,…,a_n；θ^(c-))。

13、随机初始化

(n∈N)和θ^(c)，并初始化

(n∈N)和θ^(c-)＝θ^(c)。

14、为记忆回放缓存预留M个单位的全局经验存储空间，记忆回放缓存的工作方式是先进先出。

2、随机累积经验：

21、所有基站在每一个时隙都随机选取发射功率，同时在每一个时隙将本地经验e_n(见步骤D4)和辅助信息o_n(见步骤D5)上传至核心网络。

22、经过T_d时延，核心网络同时收到所有本地经验e_n和辅助信息o_n，并构造全局经验E(见步骤D6)存放在记忆回放缓存中。

23、重复步骤21和步骤22直到记忆回放缓存中有D个全局经验，本实施例中D的取值一般取2的幂次方，如16,32,64,128,256，具体值根据仿真中的性能选取。

24、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验，并用(10)、(12)、(15)、(16)更新评判家深度神经网络、目标评判家深度神经网络、演员深度神经网络、目标演员深度神经网络。

25、核心网络每隔T_u时间向基站n,(n∈N)传输最新的演员深度神经网络权值向量

26、重复步骤21、步骤22，步骤24、步骤25，直到基站n,(n∈N)第一次收到最新的演员深度神经网络权值向量

并用于更新本地深度神经网络权值向量，

3、深度神经网络训练：

31、基站n∈N在每一个时刻开始阶段将本地状态s_n(见设计D1)输入本地深度神经网络得到发射功率

其中

为均值为0，标准差为υ的高斯随机变量，其作用是保证基站能够持续不断的探索新的功率控制策略。同时，基站n∈N将本地经验e_n(见设计D4)和辅助信息o_n(见设计D5)上传至核心网络。

32、经过T_d时延，核心网络同时收到所有本地经验e_n和辅助信息o_n，并构造全局经验E(见设计D6)存放在记忆回放缓存中。

33、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验，并用式(10)、(12)、(15)、(16)更新评判家深度神经网络、目标评判家深度神经网络、演员深度神经网络、目标演员深度神经网络；本步骤包括以下两个部分：

A、评判家深度神经网络训练方法

为了训练评判家深度神经网络，我们首先从记忆回放缓存中随机采样D个全局经验，并将采样的全局经验集合表示为D。然后，我们采用随机梯度下降方法最小化损失函数

来更新θ^(c)，即

其中，

η∈[0,1]为折扣因子，α^(c)∈[0,1]为评判家深度神经网络的学习率。

为了使得评判家深度神经网络的训练更加稳定，本实施例中目标评判家深度神经网络权值向量更新方法为：

θ^(c-)(t)＝τ^(c)θ^(c)(t-1)+(1-τ^(c))θ^(c-)(t-1) (12)

其中，τ^(c)为目标评判家深度神经网络权值向量更新速率，θ^(c-)(t)表示t时刻目标评判家深度神经网络权值向量，θ^(c)(t-1)表示t-1时刻评判家深度神经网络权值向量，θ^(c-)(t-1)表示t-1时刻目标评判家深度神经网络权值向量。

评判家深度神经网络用于评判各个演员深度神经网络输出的发射功率对系统和速率的影响并指导其权重的更新，具体体现见本实施例中B部分。

B、演员深度神经网络训练方法

每一个演员深度神经网络的训练目标是最大化平均长期回报值，即

我们对

求偏导数得到

的更新算法为：

其中，

为演员深度神经网络的学习率，

表示t时刻第n个演员深度神经网络权值向量，

表示t-1时刻第n个演员深度神经网络权值向量。

目标演员深度神经网络权值向量更新方法为：

其中，

为目标评判家深度神经网络权值向量更新速率，

表示t时刻第n个目标演员深度神经网络权值向量，

表示t-1时刻第n个目标演员深度神经网络权值向量。

需要说明的是，利用全局经验进行训练使得评判家深度神经网络能够快速学习到全局状态信息与最大化和速率的全局功率控制策略之间的对应关系。在评判家深度神经网络的评判/指导下进行训练和权值更新，每一个演员深度神经网络能够快速学习到本地无线环境状态信息与最大化和速率功率控制方案的对应关系。从而，如果我们用演员深度神经网络权值向量取更新基站处的本地深度神经网络权值向量，那么基站也能够仅根据本地无线环境状态信息，优化传输功率并最大化和速率。

34、核心网络每隔T_u时间向基站n,(n∈N)传输最新的演员深度神经网络权值向量

35、基站n,(n∈N)一旦收到最新的演员深度神经网络权值向量

便更新本地深度神经网络权值向量，

36、重复步骤31-步骤35直到所有神经网络权值向量收敛，收敛即神经网络权值向量在训练的过程中几乎不变。

停止训练，测试收敛后的深度神经网络：

基站n∈N在每一个时刻开始阶段将本地状态s_n(见步骤D1)输入本地深度神经网络得到发射功率

如表2所示，本发明的方法与现有方法比较结果可知，本发明的方法同时具有非协作、计算复杂度低、高性能的优点，且适合快速变化信道环境的功率控制。

表2本发明的功率控制方法与现有功率控制方法的比较

采用本发明的功率控制方法测试器在两层和三层异构锋网络场景中的性能，并与现有的WMMSE方法、FP方法、全功率方法、随机功率方法进行比较。

两层异构蜂窝网络场景：五个基站的二维坐标分别为(0,0),(500,0),(0,500),(-500,0),(0,-500)，单位为米，覆盖范围分别为1000米，200米，200米，200米，200米。五个基站的最大发射功率分别为30dBm，23dBm,23dBm,23dBm,23dBm。每个基站所服务的用户在其覆盖范围内随机生成。

三层异构蜂窝网络场景：九个基站的二维坐标分别为(0,0),(500,0),(0,500),(-500,0),(0,-500)，(700,0)，(0,700)，(-700,0)，(0，-700)单位为米，覆盖范围分别为1000米，200米，200米，200米，200米，100米，100米，100米，100米。九个基站的最大发射功率分别为30dBm，23dBm,23dBm,23dBm,23dBm，20dBm,20dBm,20dBm,20dBm。每个基站所服务的用户在其覆盖范围内随机生成。

我们采用的路径损耗模型为120.9+37.6log10(d)，单位为dB，其中d为收发机之间的距离，单位为米。我们采用的阴影衰落服从标准差为8dB的对数正态分布。我们设置每个用户处的噪声功率σ²＝-114dBm，核心网络与基站之间的数据传输延迟为T_d＝50个时隙，核心网络向基站发送最新深度神经网络频率为T_u＝100个时隙，核心网络中记忆回放缓存大小为M＝1000个全局经验。

本地深度神经网络参数如下：第一层

线性激活函数；第二层

Relu激活函数；第三层

sigmoid激活函数；第四层

线性激活函数；持续探索功率控制策略随机变量

为均值为0，标准差为2的高斯分布。

演员深度神经网络参数如下：第一层

线性激活函数；第二层

relu激活函数；第三层

sigmoid激活函数；第四层

线性激活函数；学习率为

的Adam优化器；批量采样D＝128；目标演员深度神经网络权值更新因子

评判家深度神经网络参数如下：状态模块第一层

线性激活函数；状态模块第二层

relu激活函数；状态模块第三层

线性激活函数；行为模块第一层

线性激活函数；行为模块第二层

线性激活函数；混合状态-行为模块第二层

relu激活函数；混合状态-行为模块第三层

线性激活函数。

图6和图7给出了本发明的功率控制方法，WMMSE方法，FP方法，全功率方法，随机功率方法在两层异构蜂窝网络和三层异构蜂窝网络中的和速率性能比较。从图6、7中可以看出，本发明为能够快速学习到优于现有的四种功率控制方法的功率控制方法。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

本发明提出的分布式执行-集中式训练的结构，核心在于怎样集中式训练使得分布式执行更加有效；现有的集中式训练方法训练出来的本地深度神经网络配置本地发射功率，除了需要本地状态信息，还需要一部分全局状态信息。

本发明基于分布式执行-集中式训练结构，提出了新的集中式训练方法，使得分布式执行更加有效；利用本发明提出的训练方法训练出来的深度神经网络配置本地发射功率，只需要本地状态信息，不需要任何全局状态信息，能够减小获取全局信息的开销和时延，而且性能比现有的算法更好。

本发明的集中式训练方法相比于现有的训练方法存在以下区别：

收发机与核心网的交互信息和交互过程、本地状态设计、本地回报函数设计、本地经验设计、发射机的功率控制方法；

本发明提出的全新的相关设计包括：全局经验设计、演员深度神经网络设计、评判家深度神经网络设计、演员和评判家深度神经网络参数更新方法；本领域的技术人员应注意，这些新的设计除了本发明给出的例子外还存在许多其他形式，本领域的技术人员可知，通过调整其中一个参数，即可得到一个新的实现方式。