CN113543271B

CN113543271B - 一种面向有效容量的资源分配方法及系统

Info

Publication number: CN113543271B
Application number: CN202110640485.0A
Authority: CN
Inventors: 张国梅; 曹艳梅; 李国兵; 张佳
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-06-07
Anticipated expiration: 2041-06-08
Also published as: CN113543271A

Abstract

本发明公开了一种面向有效容量的资源分配方法及系统，引入用户的时延QoS指数，从理论分析用户的理论有效容量；利用用户分簇与功率分配问题建立有效容量和最大的联合优化问题；设计保证用户最小有效容量约束的二分法实现联合优化问题中的功率分配功能；将用户分簇问题建模成强化学习任务；根据强化学习任务构建深度Q网络；网络在线训练后，根据输入状态训练深度Q网络，选取最佳动作作为最佳分簇结果，实现用户分簇。本发明能够降低计算复杂度，在保证用户时延QoS需求的同时有效提高系统的有效容量。

Description

一种面向有效容量的资源分配方法及系统

技术领域

本发明属于通信系统中资源分配技术领域，具体涉及一种面向有效容量的资源分配方法。

背景技术

面对无线频谱资源严重匮乏而现有通信链路频谱利用率已接近极限的现状，如何进一步提升频谱效率和系统容量，满足未来无线通信系统全场景应用下大流量、巨连接和高可靠等方面的需求，是无线通信领域研究所要迫切解决的关键问题。非正交和大维度被认为是提升频谱资源利用率的有效途径。功率域NOMA技术凭借自身的非正交优势，能有效提升频谱效率和用户连接数，并易与其他技术结合，被认为是未来无线通信系统中的关键技术之一。与NOMA同时期被提出的大规模MIMO技术已经被3GPP Release15标准所采纳，因其可利用大维度天线阵列充分挖掘空域资源获得频谱效率的显著提高，而对5G系统实现大容量发挥了重要作用，将继续成为未来无线通信系统物理层的候选之一。NOMA和大规模MIMO技术的结合，可同时挖掘功率域和空域的自由度，从而进一步提高系统峰值速率和频谱效率，能有效应对爆炸式流量增长的需求，成为未来无线通信系统物理层的关键候选技术。

由于移动数据的爆炸性增长和物联网应用以指数级的速度增长，提高了对高数据速率的需求，因此预计未来将提供更高的数据速率，更少的端到端时延。现有的NOMA理论分析通常集中在中断概率和各类容量(包括遍历容量，中断容量和保密容量)分析上，较少考虑其他服务质量，如时延等指标。进一步功率分配策略通常基于容量分析结果，以最大程度地提高系统容量或能效为目标。在5G及以后的网络中，尤其对于超高可靠超低时延的通信场景，时延约束成为人们关注的重点。此外，在未来的无线网络中，希望通过灵活的时延保证来实现用户不同的服务要求。因此，为了满足各种时延要求，必须应用和研究简单且灵活的时延QoS模型。在这种情况下，采用有效容量的链路层度量标准是很自然的选择，其中有效容量定义为满足统计时延QoS要求时系统的服务能力。

调研表明，目前在大规模MIMO-NOMA系统中，对时延QoS保证的研究还很不充分。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种面向有效容量的资源分配方法，考虑实际应用中的用户时延QoS指数，显著提高系统的有效容量。

本发明采用以下技术方案：

一种面向有效容量的资源分配方法，包括以下步骤：

S1、对用户的有效容量进行理论推导得到大规模MIMO-NOMA系统的理论有效容量；

S2、分别利用用户分簇和功率分配问题建立对应的有效容量优化模型，优化目标为步骤S1中得到的系统理论有效容量之和最大，约束条件为功率约束与用户总数约束；

S3、设置最小用户有效容量约束，采用二分法对步骤S2功率分配问题建立的优化模型进行功率分配；

S4、将步骤S2用户分簇的优化模型构建强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有分组情况，根据步骤S3的功率分配结果计算有效容量之和作为奖励函数；

S5、根据步骤S4中建模的强化学习任务构建深度Q学习网络，将深度Q学习网络输入确定为状态空间与动作空间的组合，输出为步骤S4计算的奖励函数值，初始化深度Q网络及Q标签网络的参数及隐含层数目；深度Q学习网络在线训练后，根据输入状态，深度Q学习网络选取最佳动作作为最佳分簇结果，实现用户分簇。

具体的，在步骤S1中，得到的强弱用户的有效容量如下：

弱用户为：

强用户为：

其中，θ₁,θ₂分别为弱用户和强用户的时延QoS指数；E_n,1，E_n,2分别为第n簇的弱用户与强用户的有效容量；α_n,1，α_n,2分别为第n簇的弱用户与强用户的功率分配因子；定义

簇内发送信噪比为

P_n为第n簇用户的总发送功率，σ²为噪声的方差；N为所分簇数目；

为合流超几何函数，Δ＝N_t-N+1，N_t为发送天线数；随机变量及其符合的分布为：g₁＝|h_n,1w_n|²～Γ(1,1)，

i≠n，h,w为信道矩阵和波束成形矢量。

具体的，步骤S2中，以系统有效容量之和最大为目标，建立联合优化问题如下：

E_n,k(θ_k)≥E_min (c)

其中，

为功率分配因子集，{U_n,k}为用户集，N为所分簇数目，K为簇内用户数，E_n,k为第n簇中用户k的理论有效容量，θ_k为用户k的时延QoS指数，p_n为第n簇中用户的总功率，P为基站允许传输的最大功率，α_n,k为第n簇中用户k的功率分配因子，E_min为最小有效容量约束。

具体的，步骤S3具体为：

将需要搜索的弱用户功率分配因子设置为α_n,1，强用户的功率分配因子为α_n,2＝1-α_n,1；设置搜索范围为α_l＜α_n,1＜α_r，α_l是二分法的搜索下界，α_r是搜索上界；功率分配因子α_n,1的搜索范围是α_l＜α_n,1＜α_r，且α_l＞0.5，α_r＜1，若将上界功率分配给用户均不满足约束条件，进行固定功率分配；设置|α_r-α_l|≤δ为二分法搜索结束的条件。

具体的，步骤S4中，强化学习任务包括一个相互作用的智能体和环境，具体包括状态空间S、行动空间A、即时奖励R和当前状态与下一状态之间的转移概率；其中，以基站作为智能体，NOMA系统的性能为环境，智能体采取的行动a_t是基于用户可能获得的预期奖励来决策的；在每个步骤中，根据当前状态s_t达到的系统有效容量，智能体根据学习到的用户分簇策略从多种动作中选择动作a_t；环境演变为一个新的状态；然后根据获得的用户簇进行功率分配和波束赋形，计算步长奖励r_t并反馈给智能体。

进一步的，状态空间S包括所有用户可能的信道状态信息组合；第t次迭代时的状态表示为当前的状态，s_t＝{[h_1,1,…h_1,K],…[h_N,1,…h_N,K]}；行动空间A包括到达所有分组情况的行动；对于当前状态s_t，采取行动

后，将状态改变为s_t+1，影响效果定义为

回报函数选取系统有效容量之和

具体的，步骤S5中，建立深度强化学习网络DQN中的神经网络结构用于拟合Q值，Q值为评价每次行动质量的一个数值，引入一个Q标签网络用于训练深度Q学习网络的标签网络，更新训练标签，基于经验回放的训练数据选取样本，把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据，训练时随机取出部分进行训练，根据输入状态训练深度Q学习网络，选取最佳动作作为最佳分簇结果，实现用户分簇。

进一步的，神经网络结构的输入为当前状态与动作的组合(s_t,a_t)，神经网络结构的网络输出是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，ω为训练参数，使用三层全连接层作为网络的隐含层；初始时随机选择动作，采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

进一步的，深度强化学习网络DQN中的损失函数L(ω)为：

其中，E[.]为求数学期望，r_t为在观测时刻t的回报函数，γ为折扣因子，Q(s',a',ω^-)为Q标签网络的输出值，Q(s,a,ω)为深度Q学习网络的输出值。

本发明的另一技术方案是，一种面向有效容量的资源分配系统，包括：

推导模块，对用户的有效容量进行理论推导得到大规模MIMO-NOMA系统的理论有效容量；

模型模块，分别利用用户分簇和功率分配问题建立对应的有效容量优化模型，优化目标为推导模块中得到的系统理论有效容量之和最大，约束条件为功率约束与用户总数约束；

功率模块，设置最小用户有效容量约束，采用二分法对模型模块功率分配问题建立的优化模型进行功率分配；

计算模块，将模型模块用户分簇的优化模型构建强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有分组情况，根据功率模块的功率分配结果计算有效容量之和作为奖励函数；

分配模块，根据计算模块中建模的强化学习任务构建深度Q学习网络，将深度Q学习网络输入确定为状态空间与动作空间的组合，输出为计算模块计算的奖励函数值，初始化深度Q网络及Q标签网络的参数及隐含层数目；深度Q学习网络在线训练后，根据输入状态，深度Q学习网络选取最佳动作作为最佳分簇结果，实现用户分簇。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种面向有效容量的资源分配方法，考虑具体用户的时延QoS要求，达到与遍历搜索相当的性能。与全搜索功率分配算法相比，二分法功率分配算法有效降低算法复杂度。用户分簇部分更是考虑到与当前环境的实时交互，网络边训练边使用，其复杂度与遍历搜索相比可忽略不计；因此，本发明以有效容量最大化为目标，提出基于二分法的功率分配算法与基于DQN算法的用户分簇网络进行联合资源分配，在保证用户时延需求的同时，可显著提高系统的有效容量，优于其他方案。

进一步的，考虑用户具体的时延QoS需求，对用户的有效容量进行理论推导，为后续优化问题的建立提供理论基础。

进一步的，以系统有效容量和最大建立联合优化问题，该问题包括用户分簇与功率分配两个子问题，优化问题对功率及用户最小有效容量做了约束。以有效容量和最大建立的优化问题并求解可以最大程度地保证用户的有效容量。

进一步的，在功率分配部分，采用二分法功率分配，该算法考虑用户的最小有效容量约束，与全搜索算法相比，该方法可以降低计算复杂度。

进一步的，将用户分簇问题建模成具体的强化学习任务，目的在于开创一个新的解决用户分簇问题的思路，将其智能体和环境具体化后，也便于后面深度Q网络的建立。

进一步的，将强化学习任务的各个部分赋予物理含义及数学表达。特别地，将回报函数设置为系统有效容量之和，明确了深度Q网络的训练目标。

进一步的，在深度Q网络中引入Q标签网络可以使网络边训练边更新标签，训练更加准确。另外，采用经验回放的方法获取该部分的训练数据集，可以打乱原有数据顺序，并通过抽取小批量进行训练，使得历史数据得到有效利用。

进一步的，明确深度Q网络的具体结构及输入输出，该过程中采取的ε贪婪算法可以生成更完整的训练数据集，提高训练速度。在步骤S5中描述了网络实现用户分簇功能的执行过程，该过程可以选择出系统有效容量和最大的分簇结果，从而提高系统有效容量。

进一步的，将深度强化学习网络DQN中的损失函数设置为均方误差损失函数，这样设置简单直接，便于使用梯度下降算法，使网络快速收敛。

综上所述，本发明能够降低计算复杂度，在一定程度上保证用户时延QoS指数需求及有效提高系统的有效容量。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的大规模MIMO-NOMA系统模型；

图2为本发明的大规模MIMO-NOMA下行传输系统框图；

图3为本发明的基于深度Q网络的联合优化网络图；

图4为本发明的基于强化学习的用户分簇方案图；

图5为本发明的实施例中大尺度信道条件下有效容量拟合曲线图；

图6为本发明的实施例中不同方案下有效容量和对比图；

图7为本发明的实施例中不同方案下有效容量和对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种面向有效容量的资源分配方法，引入用户的时延QoS指数，从理论分析用户的理论有效容量；利用用户分簇与功率分配问题建立有效容量和最大的联合优化问题；设计保证用户最小有效容量约束的二分法实现联合优化问题中的功率分配功能；将用户分簇问题建模成强化学习任务；根据强化学习任务构建深度Q网络；网络在线训练后，根据输入状态训练深度Q网络，选取最佳动作作为最佳分簇结果，实现用户分簇。本发明能够降低计算复杂度，在保证用户时延QoS需求的同时有效提高系统的有效容量。

本发明一种面向有效容量的资源分配方法，包括以下步骤：

S1、在考虑的具体场景下，利用概率论知识对用户的有效容量进行理论推导，得到系统理论有效容量，为后续构建优化问题做准备；

请参阅图1，考虑单小区多用户下行链路，基站位于小区中心且具有N_t根发射天线。小区中的所有L个单天线用户，按照其所在的波束方向和信道增益(或路径损耗)被划分为N簇。考虑簇内两用户的情况，即K＝2且||h_n,1||²≤||h_n,2||²，两用户分别称为强用户(用户2)与弱用户(用户1)。基站到小区中用户k的信道矢量可以表示为

其中，

是小尺度衰落信道矢量，各元素独立且

β_k包含大尺度路径损耗和阴影衰落，表达式为：

其中，d_k表示小区中用户k到该小区基站的距离，d₀是小区半径，χ为一个对数分布随机变量，有分布表达

为阴影衰落方差，γ是路径损耗系数。我们假设用户k与基站多根天线之间的大尺度衰落信息是相同的。

请参阅图2，假设X＝[x₁ x₂ x₃…x_N]^T∈C^N×1为基站发送数据，其中，

为第n簇的NOMA信号，P_n是第n簇信号发射总功率，α_n,k是簇内各用户的功率分配因子，s_n,k是第n簇中第k个用户U_n,k的发送符号且E[|s_n,k|²]＝1；各簇对应的功率叠加后的信号经波束赋形矢量进行预处理，得到

如下：

其中，

为波束赋形矩阵。假设下行信道矩阵为

代表第n簇的信道状态信息。第n簇第k个用户的接收信号为：

其中，z_n,k是均值为0方差为σ²复高斯噪声。用户接收信号中除有用信号外，还包括簇间干扰、簇内用户间干扰以及噪声项；假设基于信道信息所设计的波束赋形矢量是以消除簇间干扰为目标，近似有h_nw_i＝0,i≠n，但是目前的算法难以达到理想效果，因此该干扰项难以忽略；设接收端SIC检测理想抵消前序用户的干扰，从而得到用户U_n,k(第n簇第k个解码用户)的可达速率如下：

其中，B是带宽。

在上述簇内两用户场景下，假设带宽B＝1Hz，由公式(5)知，两用户的信息传输速率分别为：

其中，簇内发送信噪比为

本发明涉及的波束成形方案如无特殊说明均使用迫零波束成形(Zero Forcing-Beamforming，ZF-BF)方案，即：

其中，

称为等效信道矩阵，即按照一定规则从每簇中选取一个合适的信道矢量所构成的目标信道矩阵。将上述所有波束成形方案得到的矢量

归一化得到，

不同于系统的遍历容量，有效容量被定义为在满足业务统计时延要求时，系统可达到的最大信源速率，是一个统计变量。由大偏差理论得知，对于业务数据传输符合各态历经随机过程的队列，其队长Q(t)满足：

其中，t是时刻，θ是定义的时延参数，代表时延QoS的指数衰减率；θ取值较大时，代表系统需要提供严格的时延QoS保障；θ→0时代表所考虑的场景可以无限度容忍数据发送延迟；θ→∞则表示数据必须实时发送，有效容量是将时延要求考虑进去的一个容量上限。在系统某一时间段的随机服务进程中，有效容量可以被定义为

其中，符号E[.]表示求数学期望。

对于相互独立的随机服务序列{R[i],i＝1,2,3…}，当系统经历各时隙独立的块衰落信道时，有效容量表达式为：

对于提到的系统模型，考虑到从基站到用户的无线信道遵循块衰落分布，则第n簇中两个用户的有效容量可以表示为

将用户信息传输速率表达式(6)和(7)代入有效容量表达式(13)及(14)并整理得到：

其中，

1)瑞利衰落信道下的用户有效容量

假设所有用户所经历信道为独立同分布的瑞利信道。对用户2(强用户)，其波束成形矢量的构成是以该用户的信道作为等效信道的，基本满足波束成形关系式h_nw_i＝0,i≠n。那么，簇间干扰项

可以忽略不计，有效容量可以表达为

这样，只要知道|h_n,2w_n|²符合的概率分布，就能给出强用户有效容量的积分式形式；得出该表达式服从Gamma分布，具体为

g₀＝|h_n,kw_n|²～Γ(Δ,1)，Δ＝N_t-N+1 (18)

其概率密度函数为

此时，将上式代入式(16)，得到用户2的有效容量为

已知合流超几何函数为

用上述合流超几何函数简化表达式(20)中的积分为

则用户2的有效容量为

对于弱用户，由公式(15)知，需要知道随机变量

|h_n,1w_n|²的分布情况。在这里，波束成形矢量的设计与当前用户的信道信息没有任何关系，得到随机变量满足的分布为：

g₁＝|h_n,1w_n|²～Γ(1,1)即exp(1) (24)

上述变量的概率密度函数表示为

则用户1的有效容量表示为

综上，两用户的有效容量分别为

2)大尺度衰落信道条件下的用户有效容量

在考虑了大尺度衰落信息时，用户k的信道矢量可以表示为

在小尺度范围上，用户的大尺度信息为一个符合特定分布的常数，那么基于瑞利信道下的有效容量表达式，很容易得到考虑大尺度衰落信道时用户的有效容量为

类似瑞利信道的情况，上式写成积分形式为：

至此，用户有效容量的理论公式推导完成。有了理论公式为基础才能建立优化问题。

S2、利用用户分簇与功率分配问题建立有效容量优化模型，优化目标为步骤S1中得到的系统理论有效容量之和最大，约束条件为功率约束与用户总数约束；

本发明基于单小区的大规模MIMO-NOMA系统模型，考虑用户具体的时延指标，解决该系统的下行链路资源分配问题，主要指的是面向有效容量的簇内两用户情况下的用户分簇与功率分配问题。因此，为实现用户分簇、功率分配和波束赋形的联合优化，利用强化学习技术建立三个功能模块的紧耦合优化迭代结构。

请参阅图3，在用户分簇阶段，以系统有效容量和最大为目标，采用深度Q学习网络逐步调整分簇结果。在功率分配阶段，使用二分法解决具有最小有效容量约束的功率分配问题，该方法在保证用户有效容量和最大的同时可以降低计算复杂度。在外环迭代过程中，功率分配与波束赋形结果将反馈至强化学习网络，深度强化学习网络再以系统有效容量之和最大为目标，智能地调整用户簇，迭代多次可达到近似理想联合优化的效果。

以大规模MIMO-NOMA系统有效容量和最大为目标，建立联合优化问题如下：

E_n,k(θ_k)≥E_min (c)

该联合优化问题是一个非凸问题，本发明提出基于深度学习技术的联合优化方法，实现用户分簇与功率分配的联合优化。

S3、设置最小用户有效容量约束，采用二分法进行功率分配；

在大规模MIMO-NOMA系统中，为了保证接收端SIC接收机的有效，同簇用户功率之间需要满足一定关系。不同的功率分配算法，在追求系统整体吞吐量性能和用户公平性性能两方面有所不同，功率分配是实现系统和速率-公平性性能折中的关键。

本发明提出基于二分法的功率分配算法。

有效容量理论推导时假设K＝2，即簇内有两个用户的情况，此时功率分配优化问题可以写成：

E_n,k(θ_k)≥E_min (b)

上述问题的核心其实是求解满足E_n,k(θ_k)≥E_min条件且簇内两个用户有效容量之和最大的功率分配因子。

以弱用户为例，

即需要求解

该表达式中含有二重积分，其中的优化变量为功率分配因子，不等式取等号时，有最小的分配功率结果。对该积分形式直接求解较为复杂，对其使用二分法完成功率分配。进一步分析发现，所有用户有效容量随功率分配因子的变化均为单调的，且由于簇内用户有强弱之分，需要在两用户均满足最小约束时将功率尽可能多地分配给强用户，以此获得有效容量和更大的提升。

基于以上分析得到二分法实现功率分配的过程如下：

首先，将需要搜索的弱用户功率分配因子设置为α_n,1，则强用户的功率分配因子则必然为α_n,2＝1-α_n,1；设置搜索范围为α_l＜α_n,1＜α_r，其中，α_l是二分法的搜索下界，α_r是搜索上界；根据NOMA理论中对于强弱用户功率分配的表述，为了保证解码的顺利进行，弱用户应该分配较多的功率，强用户分配较少的功率。不考虑所有功率仅分配给一个用户的情况，那么该功率分配因子α_n,1的搜索范围应该是α_l＜α_n,1＜α_r，且α_l＞0.5，α_r＜1。另外，考虑一种边界情况，也就是考察将上界功率因子分配给弱用户时，是否可以使之达到最小有效容量的约束。若将上界功率分配给该用户都不能满足约束条件，则说明此用户信道条件过差，则直接进行固定功率分配。算法过程中边界条件的判断可以有效提高算法的执行效率。|α_r-α_l|≤δ被设置为二分法搜索结束的条件。

具体的二分法功率分配(Bisection Method Power Allocation，BSPA)算法如表1所示。

表1二分法功率分配算法

注意：算法中E_l,E_r分别对应使用当前下界和上界时计算出的用户1(弱用户)的有效容量，E₁，E₂分别为用户1分配的功率分配因子为α_n,1＝α_c时，用户1与用户2的有效容量。

S4、将步骤S2用户分簇问题的优化模型构建强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有分组情况，奖励函数为系统的理论有效容量之和；

基于图2中场景，在建立了有效容量优化问题并获得用户有效容量表达式后，将用户分簇问题写为下式：

其中，E_n,k(θ_k)代表第n簇第k个用户的有效容量。

若对所有分配情况进行暴力搜索，那么随着用户数增加，其实现复杂度将急剧增加，这在真实的通信系统中往往是不实用的。受到强化学习算法应用于物联网资源分配等方面的启发，本论文提出了基于强化学习的用户分簇方法。

请参阅图4，将用户分簇问题在强化学习任务中具体化。在考虑的大规模MIMO-NOMA场景下，基站作为智能体，它可以根据策略执行动作，完成系统分簇状态转变；环境表示为当前系统性能，在环境中系统进行当前状态的评估，并提供反馈给智能体，若转变为当前状态后系统性能更加，则系统趋向于转变为当前状态。学习初始阶段，算法通过随机策略得到学习的样本，随着学习的进行，算法自动改变策略，通过多次智能体与环境的交互，智能体可以获取最大化累积奖励。

结合用户分簇场景，强化学习任务中各部分表示如下：

状态空间S：包括所有用户可能的信道状态信息组合。第t次迭代时的状态表示为当前的状态s_t，即：

s_t＝{[h_1,1,…h_1,K],…[h_N,1,…h_N,K]} (39)

行动空间A：因此行动空间应该包括到达所有分组情况的行动。

对于当前状态s_t，采取行动

后，会将状态改变为s_t+1，这种影响效果定义为

回报函数：选取系统有效容量之和

作为回报函数，该式中包括功率分配因子α_n,k的选取及BF矢量w_n的设计；强化学习的目标是最大化累积折扣回报

折扣因子γ∈[0,1]。

S5、根据步骤S4中建模的强化学习任务构建深度Q学习网络，将深度Q学习网络输入确定为状态空间与动作空间的组合，输出为步骤S4计算的奖励函数值，初始化深度Q学习网络及Q标签网络的参数及隐含层数目；深度Q学习网络在线训练后，根据输入状态训练深度Q学习网络，选取最佳动作作为最佳分簇结果，实现用户分簇。

深度Q网络边训练调整分簇结果边使用于信号传输的资源分配过程中。

在每个观测时刻t，智能体基于当前状态，根据观察确定下一步动作，因此状态和动作之间存在一种映射关系，这种关系就是策略π，为评估一个策略的期望回报，需要定义值函数，这里给出状态-动作值函数如下：

上述方程是非线性的，没有闭式解，而当状态和动作空间是高维连续时，通过神经网络估计Q值。

综上，DQN就是要设计一个神经网络结构拟合Q值，从而应用于强化学习中。

设计DQN中的神经网络，其输入为当前状态与动作的组合(s_t,a_t)，网络输出则是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，其中ω为训练参数。网络的作用是拟合Q函数，因此使用两层全连接层作为网络的隐含层。初始时随机选择动作，随着时间推移效果将消失，为此采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

DQN在原来的Q网络的基础上又引入了一个Q标签网络，即用来更新训练标签的网络。它和Q网络结构一样，初始权重也相同，不同的是Q网络每次迭代都会更新，但Q标签网络是每隔一段时间才更新。DQN基于Q-Learning来确定损失函数，希望使Q标签值和Q估计值误差尽量小。DQN中的损失函数是：

由于深度学习的样本独立且目标固定，但强化学习前后状态相关。因此，在DQN网络中采用经验回放方法选取样本；具体做法是把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据；训练时随机取出部分(Mini Batch)来进行训练。具体流程如表2所示：

表2基于DQN的资源分配算法

本发明再一个实施例中，提供一种面向有效容量的资源分配系统，该系统能够用于实现上述面向有效容量的资源分配方法，具体的，该面向有效容量的资源分配系统包括推导模块、模型模块、功率模块、计算模块以及分配模块。

其中，推导模块，对用户的有效容量进行理论推导得到大规模MIMO-NOMA系统的理论有效容量；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于面向有效容量的资源分配方法的操作，包括：

对用户的有效容量进行理论推导得到大规模MIMO-NOMA系统的理论有效容量；分别利用用户分簇和功率分配问题建立对应的有效容量优化模型，优化目标为系统理论有效容量之和最大，约束条件为功率约束与用户总数约束；设置最小用户有效容量约束，采用二分法对功率分配问题建立的优化模型进行功率分配；将用户分簇的优化模型构建强化学习任务，确定状态空间为用户信道信息的组合、动作空间为所有分组情况，根据功率分配结果计算有效容量之和作为奖励函数；根据建模的强化学习任务构建深度Q学习网络，将深度Q学习网络输入确定为状态空间与动作空间的组合，输出为奖励函数值，初始化深度Q网络及Q标签网络的参数及隐含层数目；深度Q学习网络在线训练后，根据输入状态，深度Q学习网络选取最佳动作作为最佳分簇结果，实现用户分簇。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关面向有效容量的资源分配方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

对比方案：

NLUPA-FTPA：采用基于次大差异信道的用户分簇方法及分数阶功率分配算法。

NLUPA-ESPA：采用基于次大差异信道的用户分簇方法及全搜索分配算法。

NLUPA-BSPA：采用基于次大差异信道的用户分簇方法及二分法功率分配算法。

NLUPA-FPA：采用基于次大差异信道的用户分簇方法及固定功率分配算法。

ES-BSPA:采用遍历用户分簇算法及二分法功率分配算法。

ES-FTPA：采用遍历用户分簇算法及分数阶功率分配算法。

ES-ESPA：采用遍历用户分簇算法及全搜索功率分配算法。

ES-FPA：采用遍历用户分簇算法及固定功率分配算法。

仿真内容分为两部分：基于有效容量的理论分析仿真和基于有效容量和最大的资源分配方案仿真。首先，针对大规模MIMO-NOMA系统的有效容量理论分析，将不同信道条件下的理论结果与蒙特卡罗仿真结果进行拟合，观察误差并分析原因。

除此之外，本发明还对影响有效容量的一些因素进行分析，主要包括时延QoS指数及发送信噪比，这对我们后续以有效容量最大为目标提供了重要的理论基础。其次，在理论分析结果仿真的基础上，对提出的以有效容量和最大为目标的优化方案进行了仿真。在大尺度衰落信道条件下，提出的DQN-BSPA方案性能较好，结果说明了提出方案的有效性。

仿真内容中，拟合时使用的功率分配算法为固定功率分配(FPA)，且簇内功率分配因子选取为α_n,1＝0.8，α_n,2＝0.2，用户分簇算法为基于次大差异信道的用户分簇(NLUPA)，仿真参数如表3所示，网络参数设置如表4所示。

表3仿真参数设置

表4网络参数配置

请参阅图5，大尺度信道条件下的有效容量拟合结果如图5所示。其中，强弱用户的理论值通过公式(32)(33)得到，蒙特卡罗仿真结果为10000组信道数据下的平均结果。从图中可以看出，得到的有效容量理论结果与蒙特卡罗仿真结果相比虽然存在一定误差，但是整体的趋势都是一致的。对于强用户，其有效容量随着信噪比的增加而逐渐增加，且增加趋势逐渐呈线性变化。其中拟合误差的存在，是由于进行理论分析时简化理论公式，忽略了强用户的簇间干扰所致；对于弱用户，理论值和仿真值拟合较好，在信噪比达到约15dB以上时，有效容量趋于稳定。这也说明了对于弱用户即使分配了较高的功率，也不能获得有效容量的明显提升，反而会造成功率资源的浪费。另一方面，图5中给出了两种情况下的拟合曲线：强弱用户时延QoS指标相同，θ₁＝θ₂＝1；强弱用户时延QoS指标要求不同，θ₁＝0.001,θ₂＝5。其中仍然设定簇内用户1为弱用户，用户2为强用户。可以观察到两种情况下的有效容量略有不同，但是整体来看差别不大。这说明用户时延QoS指标对有效容量有影响，但影响程度并不显著。

请参阅图6，图7，在以上理论仿真的基础上，本节对提出的以有效容量和最大为目标的基于DQN的用户分簇与基于二分法的功率分配(DQN-BPNN)方案进行了仿真，取最小有效容量约束E_min＝0.5b/s/Hz，Q网络的输入输出层节点数与用户数相同，隐含层节点数分别为32,64,32。整体性能如图6和图7所示。对比NLUPA-BSPA方案与本论文所提出的DQN-BSPA方案可以看出，采用了DQN的用户分簇可以有效提高系统的有效容量，且达到了与ES-BSPA方案中采用全搜索用户分簇相当的性能。在功率分配方面，对比ES-BSPA与ES-ESPA两个方案，可以看出二分法功率分配算法在降低搜索复杂度的同时，仍然可以达到与ESPA算法相当的性能；对比ES-BSPA、ES-FTPA与ES-FPA三种均使用全搜索用户分簇方法的方案可以发现，使用二分法功率分配算法可以有效提高系统的有效容量。结合4-5和4-6两图来看，本文所提出的DQN-BSPA方案在不同的时延QoS指数设置下都是有效的，均可达到与ES-ESPA相当的系统性能。

综上所述，本发明一种面向有效容量的资源分配方法及系统，在考虑具体的时延QoS需求时，能有效提高系统的有效容量。首先，理论分析用户的有效容量，便于建立以有效容量最大为目标的联合优化问题。其次，对于建立的优化问题，在功率分配阶段，采用二分法功率分配，该算法在保证用户最小有效容量的前提下，可以显著提高用户的有效容量。然后，在用户分簇阶段，以系统吞吐量最大为目标，采用深度Q学习网络通过奖励值的反馈逐步调整分簇结果，簇内采用二分法功率分配。在外环迭代过程中，功率分配与波束赋形结果将反馈至强化学习网络，深度强化学习网络再以系统有效容量和最大为目标，智能地调整用户簇，迭代多次可达到近似理想联合优化的效果。最后通过仿真验证了本发明面向有效容量的资源分配方法，在保证用户时延需求的同时，极大地提升了系统有效容量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向有效容量的资源分配方法，其特征在于，包括以下步骤：

S1、对用户的有效容量进行理论推导得到大规模MIMO-NOMA系统的理论有效容量，得到的强弱用户的有效容量如下：

弱用户为：

强用户为：

簇内发送信噪比为

h,w为信道矩阵和波束成形矢量；

S2、分别利用用户分簇和功率分配问题建立对应的有效容量优化模型，优化目标为步骤S1中得到的系统理论有效容量之和最大，约束条件为功率约束与用户总数约束，以系统有效容量之和最大为目标，建立联合优化问题如下：

E_n,k(θ_k)≥E_min (c)

其中，

为功率分配因子集，{U_n,k}为用户集，N为所分簇数目，K为簇内用户数，E_n,k为第n簇中用户k的理论有效容量，θ_k为用户k的时延QoS指数，p_n为第n簇中用户的总功率，P为基站允许传输的最大功率，α_n,k为第n簇中用户k的功率分配因子，E_min为最小有效容量约束；

S4、将步骤S2用户分簇的优化模型构建强化学习任务，确定状态空间为用户信道信息的组合以及动作空间为所有分组情况，根据步骤S3的功率分配结果计算有效容量之和作为奖励函数；

2.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S4中，强化学习任务包括相互作用的智能体和环境，包括状态空间S、行动空间A、即时奖励R和当前状态与下一状态之间的转移概率；其中，以基站作为智能体，NOMA系统的性能为环境，智能体采取的行动a_t是基于用户获得的预期奖励来决策的；根据当前状态s_t达到的系统有效容量，智能体根据学习到的用户分簇策略从多种动作中选择动作a_t；环境演变为一个新的状态；然后根据获得的用户簇进行功率分配和波束赋形，计算步长奖励r_t并反馈给智能体。

4.根据权利要求3所述的方法，其特征在于，状态空间S包括所有用户信道状态信息组合；第t次迭代时的状态表示为当前的状态，s_t＝{[h_1,1,...h_1,K],…[h_N,1,…h_N,K]}；行动空间A包括到达所有分组情况的行动；对于当前状态s_t，采取行动

后，将状态改变为s_t+1，影响效果定义为

回报函数选取系统有效容量之和

5.根据权利要求1所述的方法，其特征在于，步骤S5中，建立深度强化学习网络DQN中的神经网络结构用于拟合Q值，Q值为评价每次行动质量的一个数值，引入一个Q标签网络用于训练深度Q学习网络的标签网络，更新训练标签，基于经验回放的训练数据选取样本，把每次迭代得到的转移样本(s_t,a_t,r_t,s_t+1)储存到回放记忆单元中，作为训练数据，训练时随机取出部分进行训练，根据输入状态训练深度Q学习网络，选取最佳动作作为最佳分簇结果，实现用户分簇。

6.根据权利要求5所述的方法，其特征在于，神经网络结构的输入为当前状态与动作的组合(s_t,a_t)，神经网络结构的网络输出是每个动作对应的估计Q值，即Q(s_t,a_t,ω)，ω为训练参数，使用两层全连接层作为网络的隐含层；初始时随机选择动作，采用ε贪婪算法，利用概率超参数ε在随机动作和Q策略间进行选择。

7.根据权利要求5所述的方法，其特征在于，深度强化学习网络DQN中的损失函数L(ω)为：