CN111901862B

CN111901862B - 一种基于深度q网络的用户分簇与功率分配方法、设备和介质

Info

Publication number: CN111901862B
Application number: CN202010643958.8A
Authority: CN
Inventors: 张国梅; 曹艳梅; 李国兵; 史晔钊
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2021-08-13
Anticipated expiration: 2040-07-07
Also published as: CN111901862A

Abstract

本发明公开了一种基于深度Q网络的用户分簇与功率分配方法、设备和介质，利用用户分簇与功率分配问题建模联合优化问题；建立BP神经网络实现联合优化问题中的功率分配功能；使用训练数据集训练BP神经网络，测试网络并保存BP神经网络模型，得到不同信道条件下的功率分配结果，实现功率分配；将用户分簇问题建模成强化学习任务；根据强化学习任务构建深度Q网络；网络在线训练后，根据输入状态训练深度Q网络，选取最佳动作作为最佳分簇结果，实现用户分簇。本发明能够降低在线计算复杂度，在一定程度上保证用户公平性及有效提高系统的频谱效率。

Description

一种基于深度Q网络的用户分簇与功率分配方法、设备和介质

技术领域

本发明属于通信系统中资源分配技术领域，具体涉及一种基于深度Q网络的用户分簇与功率分配方法、设备和介质。

背景技术

面对无线频谱资源严重匮乏而现有通信链路频谱利用率已接近极限的现状，如何进一步提升频谱效率和系统容量，满足未来无线通信系统全场景应用下大流量、巨连接和高可靠等方面的需求，是无线通信领域研究所要迫切解决的关键问题。非正交和大维度被认为是提升频谱资源利用率的有效途径。2010年，日本NTT DoCoMo公司首次提出了基于串行干扰抵消(Successive Interference Cancellation，SIC)接收的功率域非正交多址接入(Non-orthogonal Multiple Access，NOMA)技术，通过在功率域上资源复用，可成倍提升系统频谱效率和用户连接数，满足海量接入的需求。功率域NOMA技术凭借自身的非正交优势，能有效提升频谱效率和用户连接数，并易与其他技术结合，被认为是未来无线通信系统中的关键技术之一。与NOMA同时期被提出的大规模MIMO技术已经被3GPP Release15标准所采纳，因其可利用大维度天线阵列充分挖掘空域资源获得频谱效率的显著提高，而对5G系统实现大容量发挥了重要作用，将继续成为未来无线通信系统物理层的候选之一。NOMA和大规模MIMO技术的结合，可同时挖掘功率域和空域的自由度，从而进一步提高系统峰值速率和频谱效率，能有效应对爆炸式流量增长的需求，成为未来无线通信系统物理层的关键候选技术。

面对未来无线通信巨流量接入、超大容量、超低时延、超密组网、超高可靠的需求，传统无线通信的资源管理和传输技术体系受到了极大挑战。与此同时，大连接、大维度、大带宽和高密度所产生的无线通信系统海量数据，又为未来无线通信采用人工智能(Artificial Intelligence，AI)手段提供了丰富的数据。因此，智能通信被认为是5G之后无线通信系统的主流发展方向。在学术界，研究者们正在从无线通信系统各个层面探索与AI的有机结合，并已初步展示了AI技术的应用给无线通信系统带来的效能提升。近年来，智能无线通信的研究逐步向物理层推进，深度学习(Deep Learning，DL)技术被用于信道估计、信号检测、信道反馈与重建、信道译码等各个方面，甚至取代传统基带处理模块、直接实现端到端的无线通信系统。这些研究工作虽然取得了一定的性能增益，但距离人们所期望的“智能通信将打破传统无线通信模式给性能带来的束缚，获得无线传输性能的大幅提升”的目标还相距甚远，有待进一步深入研究。

NOMA与大规模MIMO结合后，天线数量显著增大，服务用户数成倍增加，用户分布更加密集。一方面，用户分簇时面临的传输效率与SIC接收累积误差传播之间的矛盾更加突出；另一方面，簇内波束覆盖增强与簇间干扰抑制之间的矛盾更加突出。要解决这两对矛盾，需要从提升系统全局性能的角度出发，对用户分簇、功率分配、波束赋形进行统筹考虑和联合优化。但是，不同用户之间的信道特征很复杂，传统的方法很难捕捉用户之间的潜在关系。同时，优化问题的解空间巨大，非线性搜索过程不可避免。因此，使用传统方法很难获得良好的用户分簇与功率分配结果，NOMA系统的性能仍然受到很大限制。调研表明，目前针对大规模MIMO-NOMA的研究并未形成系统全面的智能化解决方案，研究关注角度单一，所用深度学习网络结构固化，成为系统性能受限的主要原因，急需进一步的技术突破。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度Q网络的用户分簇与功率分配方法、设备和介质，显著提高系统的频谱效率。

本发明采用以下技术方案：

一种基于深度Q网络的用户分簇与功率分配方法，包括以下步骤：

S1、利用用户分簇与功率分配问题建模，优化目标为系统和速率最大，约束条件为功率约束与用户总数约束；

S2、设置最小传输速率约束，采用全搜索功率分配方法得到功率分配结果，将功率分配结果作为训练标签，将信道信息与功率分配结果构成网络的训练数据集，建立BP神经网络；

S3、使用步骤S2得到的训练数据集训练BP神经网络，BP神经网络训练至均方误差在10^-4以下，测试网络并保存BP神经网络模型，得到不同信道条件下的功率分配结果，实现功率分配；

S4、将用户分簇问题建模成强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有分组情况，奖励函数为系统和速率；

S5、根据步骤S4中的强化学习任务构建深度Q网络，将网络输入确定为状态空间与动作空间的组合，输出为系统和速率，初始化深度Q网络及Q标签网络的参数及隐含层数目；网络在线训练后，根据输入状态训练深度Q网络，选取最佳动作作为最佳分簇结果，实现用户分簇。

具体的，步骤S1中，以系统和速率最大为目标，建立联合优化问题如下：

其中，

为功率分配因子集，{_Un,k}为用户集，N为所分簇数目，K为簇内用户数，R_n,k为第n簇中用户k的信息传输速率，p_n,k为第n簇中用户k所分配的功率，P_max为基站允许传输的最大功率，α_n,k为第n簇中用户k的功率分配因子，

为对于所有的n，k均成立。

具体的，步骤S2中，采用BP神经网络进行功率分配，将穷举搜索功率分配方法的结果作为网络训练标签，标签获取方法如下：在有限功率区间内，对功率进行离散化，步长为Δ；对于确定的信道信息组合{h_n,1 … h_n,K}，通过穷举搜索功率分配方法在离散功率集合中搜索出最优的功率分配结果{p_n,1 … p_n,K}，作为BP神经网络的训练标签，训练完成后，根据输入信道信息和总功率限制计算功率分配结果。

具体的，步骤S3中，BP神经网络包括输入层、输出层及隐含层，BP神经网络的输入为信道状态信息与簇内用户总功率，BP神经网络输出功率分配结果；BP神经网络的输入输出节点数为簇内用户的数目，隐含层节点数根据训练结果调节；损失函数定义为

具体的，步骤S4中，强化学习任务包括一个相互作用的智能体和环境，包括状态空间S、行动空间A、即时奖励R和当前状态与下一状态之间的转移概率，以基站作为智能体，NOMA系统的性能是环境，智能体采取的行动a_t是基于用户可能获得的预期奖励来决策的；在每个步骤中，根据当前状态s_t可达到的系统性能，智能体根据学习到的用户分簇策略从多种动作中选择动作a_t；环境演变为一个新的状态；然后根据获得的用户簇进行功率分配和波束赋形，计算步长奖励r_t并反馈给智能体。

进一步的，状态空间S为t时隙所有用户的信道h_n,k(t)形成了当前的状态s_t；行动空间A包含到达所有可能的用户分配组合的行动，影响效果定义为

回报函数为

强化学习的目标是最大化累积折扣回报

折扣因子γ∈[0,1]。

具体的，步骤S5中，建立深度强化学习网络DQN中的神经网络结构用于拟合Q值，引入一个Q标签网络更新训练标签，基于经验回放的训练数据选取样本，把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据。训练时随机取出部分进行训练。

进一步的，神经网络结构的输入为当前状态与动作的组合(s_t,a_t)，神经网络结构的网络输出是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，ω为训练参数，使用两层全连接层作为网络的隐含层；初始时随机选择动作，采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于深度Q网络的用户分簇与功率分配方法，可以达到与遍历搜索相当的性能。通过保证用户性能的功率分配网络的离线使用复杂度极低，用户分簇部分更是考虑到与当前环境的实时交互，网络边训练边使用，其复杂度与遍历搜索相比可忽略不计。因此，本发明提出使用基于BP网络的功率分配网络与基于DQN算法的用户分簇网络进行联合资源分配，在保证边缘用户性能的同时，可显著提高系统的频谱效率，优于其他方案。

进一步的，以系统和速率最大建立联合优化问题，该问题包括用户分簇与功率分配两个子问题，优化问题对功率及用户数做了约束。以和速率最大建立的优化问题并求解可以最大程度地保证用户的信息传输速率。

进一步的，在功率分配部分，采用穷举搜索得到的训练数据集去训练BP神经网络，只要使用足够真实的训练数据集与尽可能多的数据去训练网络，训练好的网络就可以离线使用，与传统算法相比，该方法可以大大降低在线计算的复杂度。

进一步的，对于具体的BP网络，我们根据簇内用户数确定网络输入输出节点数，这样使网络的物理含义更加清楚。损失函数选取了均方误差损失函数，其数学特性很好，使得梯度计算变得更容易。

进一步的，将用户分簇问题建模成具体的强化学习任务，目的在于开创一个新的解决用户分簇问题的思路，将其智能体和环境具体化后，也便于后面深度Q网络的建立。

进一步的，将强化学习任务的各个部分赋予物理含义及数学表达。特别地，将回报函数设置为系统和速率，明确了深度Q网络的训练目标。

进一步的，在深度Q网络中引入Q标签网络可以使网络边训练边更新标签，训练更加准确。另外，采用经验回放的方法获取该部分的训练数据集，可以打乱原有数据顺序，并通过抽取小批量进行训练，使得历史数据得到有效利用。

进一步的，明确深度Q网络的具体结构及输入输出，该过程中采取的ε贪婪算法可以生成更完整的训练数据集，提高训练速度。在步骤S5中描述了网络实现用户分簇功能的执行过程，该过程可以选择出系统和速率最大的分簇结果，从而提高频谱效率。

综上所述，本发明能够降低在线计算复杂度，在一定程度上保证用户公平性及有效提高系统的频谱效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的大规模MIMO-NOMA系统模型；

图2为本发明的大规模MIMO-NOMA下行传输系统框图；

图3为本发明的基于深度Q网络的联合优化网络；

图4为本发明的簇内功率分配方案图；

图5为本发明的基于强化学习的用户分簇方案图；

图6为本发明的实施例中在Ray-based信道模型下不同方案中的资源分配的频谱效率随发射功率变化示意图；

图7为本发明的实施例中在Ray-based信道模型下不同方案中的CDF曲线。

具体实施方式

用户分簇：将多个用户分成不同组，各组之间用户不重叠。

CDF：累积分布函数(Cumulative Distribution Function)，又叫分布函数，是概率密度函数的积分，能完整描述一个实随机变量X的概率分布。

请参阅图1，本发明提供了一种基于深度Q网络的用户分簇与功率分配方法，包括以下步骤：

S1、在考虑的具体场景下，将用户分簇与功率分配问题建模成一个联合优化问题，优化目标为系统和速率最大，约束条件为功率约束与用户总数约束；

本发明基于单小区的大规模MIMO-NOMA系统模型，对于该系统的下行链路资源分配问题，主要指的是多用户情况下的用户分簇与功率分配问题。因此，为实现用户分簇、功率分配和波束赋形的联合优化，利用强化学习技术建立三个功能模块的紧耦合优化迭代结构。

请参阅图1，在用户分簇阶段，以系统吞吐量最大为目标，采用深度Q学习网络逐步调整分簇结果。在功率分配阶段，设计一个BP(Back Propagation)神经网络，BP神经网络在保证用户最小传输速率的前提下，以穷举搜索算法得到的功率分配结果作为离线训练标签，在保证用户吞吐量的同时大幅度降低在线计算的复杂度。在外环迭代过程中，功率分配与波束赋形结果将反馈至强化学习网络，深度强化学习网络再以系统吞吐量最大为目标，智能地调整用户簇，迭代多次可达到近似理想联合优化的效果。

请参阅图2，考虑单小区多用户下行链路，基站配置Nt根发射天线，服务L个单天线用户。小区中所有用户，按照一定规则被划分为N簇，每簇中假设有K个用户。簇内采用功率域非正交多址发送结构，而每簇由同一个波束赋形矢量服务。系统模型如图4所示。通常情况下，设计波束赋形矢量应消除簇间干扰，然后在簇内调度的用户间进行功率分配，构成NOMA传输结构。

在系统中，考虑根据Ray-based信道模型建模，基站在y-z平面上部署UPA天线，垂直方向天线数目为N_v，天线间距为d₁，水平方向上天线数目为N_t，天线间距为d₂，信道包含L_u条散射路径。为了简化，不考虑阵列天线的机械下倾角，φ表示阵列天线的水平入射角，θ表示阵列天线的垂直入射角，σ表示阵列天线的水平角度扩展的标准差，ξ表示阵列天线的垂直角度扩展的标准差，对于每条散射路径，随机复增益g可以表示为

α为幅值，

为相位，则第k个用户到基站的Ray-based信道矢量表示为：

其中，b(v_k,l)表示垂直方向阵列响应，a(u_k,l)表示水平方向阵列响应；

其中：λ表示载波波长，Δθ_k,l表示第k个用户的第l条路径的垂直角度扩展，服从正态分布Δθ_k,l～N(0，σ)，不同天线阵元的Δθ_k,l相互独立，

表示第k个用户的第l条路径的水平角度扩展，

不同天线阵元的

相互独立。

假设信道为平坦块衰落信道，考虑大尺度衰落，则小区中的用户k到基站的信道矢量表示为：

其中：

是M×1维小尺度信道矢量；β_k为大尺度路径损耗和阴影衰落系数，d_k表示小区中的用户k到基站的距离，d₀表示小区半径，λ表示路径损耗系数。

这里假设用户与基站的距离远远大于基站天线间的物理尺寸，同一个用户与基站M根天线之间的大尺度信息认为是不变的。因此，K个用户到基站的信道矩阵为：

H＝[h₁,h₂,...,h_K]∈C^M×K

请参阅图3，假设X＝[x₁ x₂ x₃ … x_N]^T∈C^N×1为基站发送数据，其中，

为第n簇的NOMA信号，P_n是第n簇信号发射总功率，α_n,k是簇内各用户的功率分配因子，s_n,k是第n簇中第k个用户U_n,k的发送符号且E[|s_n,k|²]＝1。各簇对应的功率叠加后的信号经波束赋形矢量进行预处理，得到

如下：

其中，

为波束赋形矩阵。

假设下行信道矩阵为

代表第n簇的信道状态信息。

第n簇第k个用户的接收信号为：

其中，z_n,k是均值为0方差为σ²复高斯噪声。

用户接收信号中除有用信号外，还包括簇间干扰、簇内用户间干扰以及噪声项。假设基于信道信息所设计的波束赋形矢量是以消除簇间干扰为目标，可近似有h_nw_i＝0,i≠n，但是目前的算法难以达到理想效果，因此该干扰项难以忽略。设接收端SIC检测理想抵消前序用户的干扰，从而得到用户U_n,k(第n簇第k个解码用户)的可达速率如下：

其中，B是带宽。

以系统和速率最大为目标，建立联合优化问题如下：

联合优化问题是一个非凸问题，本发明提出基于深度学习技术的联合优化方法，实现用户分簇与功率分配的联合优化。

请参阅图3，使用机器学习算法解联合优化问题，分为基于BP神经网络的功率分配方案与基于深度Q网络的用户分簇模块，深度Q网络根据功率分配网络的结果计算奖励值，进而调整分簇结果。

S2、对于联合优化中的功率分配部分，考虑使用自主设计的BP神经网络来完成该功能模块，由于是有监督的学习方式，采用设置最小传输速率约束的全搜索功率分配算法得到的功率分配结果作为训练标签；

在大规模MIMO-NOMA系统中，为了保证接收端SIC接收机的有效，同簇用户功率之间需要满足一定关系。不同的功率分配算法，在追求系统整体吞吐量性能和用户公平性性能两方面有所不同，功率分配是实现系统和速率-公平性性能折中的关键。

请参阅图4，经典的功率分配算法包括，固定功率分配(Fixed Power Allocation，FPA)、分数功率分配(Fractional Transmit Power Allocation，FTPA)、穷举搜索功率分配(Exhaustive Search Power Allocation，ESPA)等。FPA与FTPA算法尽管计算复杂度不高，但系统性能不理想。ESPA算法是一种追求最佳系统性能的算法，但在线计算复杂度过高，难以在实际系统中推广应用。不同于传统优化算法的思想，本发明提出基于BP神经网络的功率分配算法。

BP神经网络具有较强的非线性映射能力，训练时能够通过学习自动提取输入和输出数据间的“合理规则”，具有高度自学习和自适应的能力。因此，采用BP神经网络进行功率分配。将ESPA算法的结果作为网络训练标签，标签获取方法如下：在有限的功率区间内，对功率进行离散化，步长为Δ。对于确定的信道信息组合{h_n,1 … h_n,_K}，通过ESPA算法在离散功率集合中搜索出最优的功率分配结果{p_n,1 … p_n,_K}，BP神经网络将以此作为训练标签。训练好的网络可根据输入信道信息和总功率限制计算功率分配结果，可极大降低计算复杂度。

S3、将得到的大量训练数据用于训练BP神经网络，得到不同信道条件下的功率分配结果，网络训练至均方误差在10^-4以下，测试网络并保存网络模型以供后续调用；

BP神经网络由输入层、输出层及三层隐含层组成。BP神经网络的输入为信道状态信息与簇内用户总功率，BP神经网络输出功率分配结果；BP神经网络的输入输出节点数为簇内用户的数目，隐含层节点数根据训练结果调节。损失函数定义为

以此来更新网络参数完成训练。值得注意的是，为了保证网络的泛化性能，训练数据必须尽可能多，尽量遍历所有可能的信道情况。

表1功率分配网络的结构和参数配置(K为用户数)

S4、将用户分簇问题建模成强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有可能分组情况及奖励函数为系统和速率；

基于图2中场景，以和速率最大为目标的用户分簇问题表示为：

在传统优化方法中，要对所有分配组合进行在线遍历，随着用户数增加其实现复杂度极速升高。为了解决这一问题，提出深度强化学习框架来优化NOMA系统的用户分簇过程。

请参阅图5，用户分簇优化问题被建模为一个强化学习任务，该任务由一个相互作用的智能体和环境组成。一般的强化学习问题由四部分组成：状态空间S、行动空间A、即时奖励R和当前状态与下一状态之间的转移概率。具体就是：基站作为智能体，NOMA系统的性能是环境，智能体采取的行动a_t是基于用户可能获得的预期奖励来决策的。在每个步骤中，根据当前状态s_t可达到的系统性能,智能体根据学习到的用户分簇策略从多种动作中选择动作a_t。随着操作的进行，环境演变为一个新的状态。然后，根据所获得的用户簇进行功率分配和波束赋形，计算步长奖励r_t并反馈给智能体。学习开始时往往采用随机策略实验得到一系列状态、动作和奖励的样本，算法根据样本来改进策略，以最大化奖励。

结合本发明的系统场景，强化学习框架中各部分的具体表示描述如下：

状态空间S：t时隙所有用户的信道h_n,k(t)形成了当前的状态s_t，即

s_t＝{[h_1,1(t),…h_1,K(t)],

...

[h_N,1(t),…h_N,K(t)]}

行动空间A：应该包含可以到达所有可能的用户分配组合的行动。该行动的目的是为用户选择一个合适的分组。对于某一具体行动，其影响效果定义为：

回报函数：

表示处于s_t状态时选择动作a_t时的回报，可以用NOMA系统的和速率或能量效率等其他目标来表示，这里考虑使用系统和速率

作为回报函数，涉及功率分配因子α_n,k及波束赋形矢量w_n。

本发明先假设采用传统的迫零波束赋形方法，由于每簇有多个用户，选择信道质量好的作为等效信道计算波束赋形矢量，具体形式如下：

W＝[w₁ … w_n]＝H^H(HH^H)^-1

强化学习的目标是最大化累积折扣回报

折扣因子γ∈[0,1]。

S5、构建深度Q网络，初始化的深度Q网络及Q标签网络的参数及神经网络隐含层数目。网络开始在线训练后，会根据输入状态训练深度Q网络，从而选取最佳动作，即最佳分簇结果。

其中，根据步骤S3的功率分配结果计算和速率；深度Q网络边训练调整分簇结果边使用于信号传输的资源分配过程中。

深度强化学习网络DQN(Deep Q-Learning Network)

在每个观测时刻t，智能体基于当前状态，根据观察来确定下一步动作。因此状态和动作之间存在一种映射关系，这种关系就是策略π。为评估一个策略的期望回报，需要定义值函数，这里给出状态-动作值函数如下：

上述方程是非线性的，没有闭式解。从而，许多迭代方法(如Q-Learning)被提出，并被证明收敛于最优Q值函数。在Q-Learning中，当状态和动作空间是离散的且维数不高时，可使用Q-Table储存每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实，学习过程的效率会更低。这个问题的解决方法之一是通过神经网络估计Q值，这就是DQN的主要思想。

综上，DQN就是要设计一个神经网络结构来拟合Q值，从而应用于强化学习中。

DQN中的深度神经网络

设计DQN中的神经网络，其输入为当前状态与动作的组合(s_t,a_t)，网络输出则是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，其中ω为训练参数。网络的作用是拟合Q函数，因此使用两层全连接层作为网络的隐含层。初始时随机选择动作，随着时间推移效果将消失，为此采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

DQN在原来的Q网络的基础上又引入了一个Q标签网络，即用来更新训练标签的网络。它和Q网络结构一样，初始权重也相同，不同的是Q网络每次迭代都会更新，但Q标签网络是每隔一段时间才更新。DQN基于Q-Learning来确定损失函数，希望使Q标签值和Q估计值误差尽量小。DQN中的损失函数是：

基于经验回放的训练数据选取

由于深度学习的样本独立且目标固定，但强化学习前后状态相关。因此，在DQN网络中采用经验回放方法选取样本。具体做法是把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据。训练时随机取出部分(Mini Batch)来进行训练。具体流程如算法1所示：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

考虑一个单小区大规模MIMO-NOMA场景，在该场景中，采用本发明基于深度Q网络的方法实现下行链路的用户分簇与功率分配，详细的仿真参数见表2。

表2仿真参数表

对比方案：

对比方案一：采用分数阶功率分配算法，用户分簇部分采取经验值分簇方法。

对比方案二：采用分数阶功率分配算法，用户分簇采取遍历搜索方法。

对比方案三：采用分数阶功率分配算法，用户分簇采取我们提出的DQN方法。

对比方案四：采用我们提出的功率分配网络，用户分簇采取遍历搜索算法。

请参阅图6，在本方案设置的信道模型下，相比于对比方案一、二、三，所提算法在发射功率为0.02～1W时，系统的频谱效率得到了大幅度提升，特别是在发射功率为0.02W时，频谱效率提升将近一倍；同时，相较于对比方案四，本方案设计的网络可以达到与遍历搜索相当的性能。但是，遍历搜索的计算复杂度是随着用户数增加呈指数级上升的，本方案提出的保证用户性能的功率分配网络的离线使用复杂度极低，用户分簇部分更是考虑到与当前环境的实时交互，网络边训练边使用，其复杂度与遍历搜索相比可忽略不计。因此，综合来看，本方案提出使用基于BP网络的功率分配网络与基于DQN算法的用户分簇网路进行联合资源分配，可显著提高系统的频谱效率，优于其他方案。

请参阅图7，为本发明方法与方案二的对比CDF曲线，虚线部分是采取理想波束赋形方案应达到的系统性能，但是这种情况是目前技术难以实现的。从图中可以看出，所提出的方案与方案二比较，边缘用户的性能是相对较好的，也就是说，在提高系统频谱效率的同时也保证了用户公平性，当然，如果能有更优的波束赋形方案，那么边缘用户的性能将得到更好的保障。

本发明基于深度Q网络的用户分簇与功率分配方法可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明基于深度Q网络的用户分簇与功率分配方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。其中，所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

在示例性实施例中，还提供计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于Q网络的资源分配方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor、DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

综上所述，本发明一种基于深度Q网络的用户分簇与功率分配方法、设备和介质，能够有效的提高系统的频谱效率。首先，在功率分配阶段，设计一个BP神经网络，该网络在保证用户最小传输速率的前提下，以穷举搜索算法得到的功率分配结果作为离线训练标签，在保证用户吞吐量的同时大幅度降低在线计算的复杂度。其次，在用户分簇阶段，以系统吞吐量最大为目标，采用深度Q学习网络通过奖励值的反馈逐步调整分簇结果，簇内采用训练好的功率分配网络。在外环迭代过程中，功率分配与波束赋形结果将反馈至强化学习网络，深度强化学习网络再以系统吞吐量最大为目标，智能地调整用户簇，迭代多次可达到近似理想联合优化的效果。最后通过仿真验证了本发明基于深度Q网络的用户分簇与功率分配方法，在降低复杂度的同时，极大地提升了系统频谱效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度Q网络的用户分簇与功率分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，以系统和速率最大为目标，建立联合优化问题如下：

其中，

为功率分配因子集，{U_n,k}为用户集，N为所分簇数目，K为簇内用户数，R_n,k为第n簇中用户k的信息传输速率，p_n,k为第n簇中用户k所分配的功率，P_max为基站允许传输的最大功率，α_n,k为第n簇中用户k的功率分配因子，

为对于所有的n，k均成立。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，采用BP神经网络进行功率分配，将穷举搜索功率分配方法的结果作为网络训练标签，标签获取方法如下：在有限功率区间内，对功率进行离散化，步长为Δ；对于确定的信道信息组合{h_n,1…h_n,K}，通过穷举搜索功率分配方法在离散功率集合中搜索出最优的功率分配结果{p_n,1…p_n,K}，作为BP神经网络的训练标签，训练完成后，根据输入信道信息和总功率限制计算功率分配结果。

4.根据权利要求1所述的方法，其特征在于，步骤S3中，BP神经网络包括输入层、输出层及隐含层，BP神经网络的输入为信道状态信息与簇内用户总功率，BP神经网络输出功率分配结果；BP神经网络的输入输出节点数为簇内用户的数目，隐含层节点数根据训练结果调节；损失函数定义为

p为BP网络的训练标签；

为BP网络输出的功率分配结果；w为BP网络中神经元的权重，b为神经元的偏置。

5.根据权利要求1所述的方法，其特征在于，步骤S4中，强化学习任务包括一个相互作用的智能体和环境，包括状态空间S、行动空间A、即时奖励R和当前状态与下一状态之间的转移概率，以基站作为智能体，NOMA系统的性能是环境，智能体采取的行动a_t是基于用户可能获得的预期奖励来决策的；在每个步骤中，根据当前状态s_t可达到的系统性能，智能体根据学习到的用户分簇策略从多种动作中选择动作a_t；环境演变为一个新的状态；然后根据获得的用户簇进行功率分配和波束赋形，计算步长奖励r_t并反馈给智能体。

6.根据权利要求5所述的方法，其特征在于，状态空间S为t时隙所有用户的信道h_n,k(t)形成了当前的状态s_t；行动空间A包含到达所有可能的用户分配组合的行动，影响效果定义为

回报函数为

强化学习的目标是最大化累积折扣回报

折扣因子γ∈[0,1]。

7.根据权利要求1所述的方法，其特征在于，步骤S5中，建立深度强化学习网络DQN中的神经网络结构用于拟合Q值，引入一个Q标签网络更新训练标签，基于经验回放的训练数据选取样本，把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据，训练时随机取出部分进行训练。

8.根据权利要求7所述的方法，其特征在于，神经网络结构的输入为当前状态与动作的组合(s_t,a_t)，神经网络结构的网络输出是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，ω为训练参数，使用两层全连接层作为网络的隐含层；初始时随机选择动作，采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。