CN114173415A

CN114173415A - 一种noma系统资源分配方法、系统及存储介质

Info

Publication number: CN114173415A
Application number: CN202111094129.XA
Authority: CN
Inventors: 潘沛生; 韩文毫
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-03-11

Abstract

本发明公开了一种NOMA系统资源分配方法、系统及存储介质，包括：注意力神经网络深度强化学习框架将信道状态下信道分配的空间计算嵌入计算为状态空间，并计算输出最优的状态空间的概率分布；基于获取的NOMA系统的系统参数、用户参数和最优的状态空间的概率分布，计算得到最优信道分配的闭合解，将最优信道分配的闭合解作为最优的功率分配方案。本发明根据最大化总和速率和最大化最小速率两个目标函数为优化模型，推导出给定信道分配的条件下，最优功率分配的闭合解，获得最优的功率分配方案，该信道和功率联合分配算法在最大化总和速率和最大化最小速率两个指标下都具有更好的系统性能。

Description

一种NOMA系统资源分配方法、系统及存储介质

技术领域

本发明涉及一种NOMA系统资源分配方法、系统及存储介质，属于电子信息技术领域。

背景技术

随着信息和网络技术的飞速发展，无线移动通信服务需求呈爆炸式增长，无线通信业务需求变得更加多样化和差异化。因此，未来无线移动通信系统在频谱资源、空口接入技术和网络架构等方面面临着巨大的挑战。为了应对以上挑战，第五代移动通信系统致力于研究频谱效率更大、速率更快和智能化更高的新一代无线移动通信技术。而非正交多址接入(Non-orthogonal multiple access,NOMA)作为5G的关键候选技术之一，近年来受到了各界的广泛的关注。NOMA技术在发送端利用信道编码和功率分配使多用户共享时频资源，接收端普遍使用SIC(Successive Interference Cancellation，SIC)技术，因此发送端上合理的资源分配方案对NOMA系统性能起着至关重要的作用。合理可靠的资源分配方案可以保证接收端的有效解码，维持系统的高总和速率，保证用户的公平性。在大量的研究结果表明，相比于传统的正交多址接入技术，NOMA可以有效地提高资源利用率，而合理的用户分组和功率分配方案则可以进一步地提高系统的性能。

目前对NOMA系统的用户分组和功率分配的研究已经取得了一些重要的成果，在用户分组的研究中，有穷举搜索用户分组方法；在功率分配的研究中，有FSPA(full searchpower allocation，全空间搜索功率分配)算法、FTPA(fractional transmit powerallocation，分数阶功率分配)算法和FPA(fixed power allocation，固定功率分配)算法3种算法。在信道和功率联合分配的研究中，有JRA算法和ES算法，在JRA算法中，首先给出了信道分配条件下的功率分配优化问题的求解方法。然后，JRA算法在最优功率分配下，迭代地进行信道分配和功率分配，给每个用户分别进行信道和功率分配。ES算法是JRA的直接扩展。在功率分配的过程中，它与JRA算是使用相同的功率分配方式。但在信道分配方面，与JRA所采用的迭代优化算法不同，ES算法使用的穷尽性地搜索所有信道分配组合，找出能够最大限度地提高NOMA系统的总和速率的信道分配组合。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种NOMA系统资源分配方法、系统及存储介质，解决现有技术系统性能差、算法复杂难以实际应用的技术问题。

为达到上述目的，本发明提供一种NOMA系统资源分配方法，包括：

注意力神经网络深度强化学习框架将信道状态下信道分配的空间计算嵌入计算为状态空间，并计算输出最优的状态空间的概率分布；

基于获取的NOMA系统的系统参数、用户参数和最优的状态空间的概率分布，计算得到最优信道分配的闭合解，将最优信道分配的闭合解作为最优的功率分配方案。

优先地，计算得到最优信道分配的闭合解，包括：

计算获得最大化总和速率MSR和最大化最小速率MMR两个性能标准下的最优信道分配的闭合解。

优先地，注意力神经网络深度强化学习框架基于ANN神经网络，ANN神经网络结构包括L 个并联的分支神经网络，L为正整数，分支神经网络包括编码器和解码器，编码器串联解码器：

编码器包括多头注意力层和反馈层；

多头注意力层中，对于每个d_in维的输入，d_in为正整数，将d_in维的输入线性地映射到初始d_e维中间状态的输出中；

反馈层中包括线性变换模块一、RELU激活模块和线性变换模块二，线性变换模块一、RELU 激活模块和线性变换模块二依次串联，反馈层导出的所有状态空间指向解码器；

解码器包括单头注意力层，单头注意力层基于单注意力结构计算所有的状态空间的输出概率 p(sⁱ|S,s^i-1)。

优先地，训练注意力神经网络深度强化学习框架，包括：

小区内基站收集小区内用户的信道状态，并根据信道状态进行信道分配；

初始的信道状态为s_t，根据两个性能指标最大化总和速率MSR和最大化最小速率MMR，小区内基站从动作空间A中选择一种信道分配方式a_t，将信道状态s_t更新为新的信道状态s_t+1，记录为状态转移概率p(s_i|S,s^i-1)，此时标志着一个子信道被分配完成；i表示时间，用于区分上一个信道状态和下一个信道状态的转移过程；

基于自展法抽样p(sⁱ|S,s^i-1)更新参数ζ；

基于贪婪算法抽样p(sⁱ|S,s^i-1)更新参数ζ^bl；

若所有子信道被分配完毕，则输出该信道状态下所有信道分配；

给定状态空间S的解ζ＝{S¹,S²,…,S^N}，给定状态空间S的解ζ的条件概率为：

ANN神经网络的损失函数为多个信道分配解的平均奖励：

其中，

和

分别表示在MSR和MMR两个性能指标下的平均奖励；预先设定梯度θ和梯度θ^bl，将参数ζ^bl代入Loss(ζ|S)获得Loss(ζ^bl|S)，如果 Loss(ζ|S)＜Loss(ζ^bl|S)，则用θ^bl替代输入梯度计算公式中的θ；

基于基准线获得ANN神经网络的梯度计算公式：

其中，ζ^bl是由基准线得出的解，基准线选择出状态转移概率最大的信道状态，此时获得最优的状态空间的概率分布。

优先地，计算获得最大化总和速率MSR和最大化最小速率MMR两个性能标准下的最优信道分配的闭合解，包括：

以最大化总和速率MSR性能标准下的最优信道分配为：

以最大化最小速率MMR性能标准下的最优信道分配为：

其中，(R_n,k)_min表示第k个子信道上第n个用户的最小数据速率，R_1,k,R_2,k分别表示第k个子信道上两个用户的数据速率，k∈[1,K],K为正整数。

优先地，NOMA系统的系统参数包括用户数N、正交子载波数K、系统所处小区的半径和 NOMA系统的频带宽度B；

用户参数包括给用户数和给用户分配的发射功率。

优先地，给用户分配的发射功率计算过程为：

初始化NOMA系统内的用户数N、正交子载波数K、NOMA系统所处小区的半径和NOMA系统的频带宽度B，第n个子载波上叠加的用户数为M_n，叠加M_n个用户后第k个子载波上发送的叠加信号x_k为：

其中，x_n,k为子载波k上用户n的发送信号，p_n,k表示第k个子信道上第n个用户的分配功率。优先地，所有用户的发射功率之和不大于总发射功率：

其中，P_1,k，P_2,k分别表示第k个子信道上两个用户的发射功率，P_tot为小区内基站的总发射功率。

一种NOMA系统资源分配系统，用于执行上述所述的方法，包括：

获取模块，用于获取NOMA系统的系统参数和用户参数；

信道分配模块，用于基于获取的NOMA系统的系统参数和用户参数，根据信道状态采用注意力神经网络深度强化学习框架进行信道分配，输出该信道状态下所有信道分配；

功率分配模块，用于基于所有信道分配，计算得到最优信道分配的闭合解。

计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明所达到的有益效果：

本发明提出一种基于深度强化学习的资源分配算法，在资源限制的情况下，根据最大化总和速率和最大化最小速率两个目标函数为优化模型，提出一种信道和功率联合分配算法，首先推导出给定信道分配的条件下，最优功率分配的闭合解，然后提出一种基于注意力的神经网络来解决信道分配问题。仿真结果表明，该信道和功率联合分配算法在最大化总和速率和最大化最小速率两个指标下都具有更好的系统性能。构建多用户NOMA下行链路系统的数学模型，利用数学模型将下行链路NOMA系统转化成求解总传输速率最大化和最小速率最大化的问题；

多用户NOMA下行链路系统的数学模型是一种非连续性约束条件的非线性问题，本发明首先推导得出给定信道分配的条件下，功率分配问题的闭合解。在此基础上，提出一种基于注意力神经网络的深度强化学习框架来解决信道分配，成功解决了NOMA下行链路系统的算法复杂性的问题；

相比较传统的资源分配算法，本发明提出的资源分配方法，能够在保证计算复杂度较低的前提下有效提高总传输速率，在下一代通信技术在搭建小区内NOMA系统的场景下，有广泛的前景。

附图说明

图1是本发明实施例一的流程图；

图2是本发明实施例一中多载波NOMA系统的模型图；

图3是本发明实施利一的原理图；

图4是本发明实施例一中ANN神经网络结构图；

图5是本发明实施例二中系统传输总功率为12W时频谱效率与复用用户数关系图；

图6是本发明实施例二中复用用户数为10时系统传输总功率和总传输速率关系图；

图7是本发明实施例二中系统总传输速率和用户最小速率的关系图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

获取多载波NOMA系统的系统参数以及用户参数；

基于获取到的参数，采用注意力神经网络深度强化学习框架来解决信道分配问题，注意力神经网络深度强化学习框架利用了一种编码器-解码器结构，其中编码器计算状态空间的嵌入，解码器在每一步输出所有状态的概率分布。

基于信道分配方案和获取到的参数，计算获得最优信道分配的闭合解，并将最优信道分配的闭合解作为最优的功率分配方案。

如图2所示，本实施例中多载波NOMA系统的模型图描述某小区信号发送与接收的全过程。

具体地，考虑一个多载波NOMA下行链路系统，其中，基站通过无线信道向多个用户传输数据，NOMA系统的收发过程框图如图所示，假设N个用户复用到K个子信道上进行传输，NOMA 系统的总带宽为B，因此每个子信道的带宽为

每个子信道上复用多个用户，基站通过信道分配和功率分配，使得每个载波上复用不同的用户的叠加信号，并在无线信道上传输。

初始化NOMA系统内的用户数N、正交子载波数K、系统所处小区的半径和NOMA系统的频带宽度B，假设子载波k上用户n的发送信号为x_n,k，第n个子载波上叠加的用户数用M_n表示，叠加M_n个用户后，第k个子载波上的发送的叠加信号x_k为：

其中，p_n,k表示第k个子信道上第n个用户的分配功率。

该叠加信号通过无线信道传输到接收端，则第k个子信道上用户n的叠加信号为：

其中，同时考虑路径损耗和阴影效应下，h_n,k表示第k个子信道上用户n的信道增益，w_m,n表示均值为0，方差为

的加性白噪声。

为了解调出每个信道上各用户的期望信号，接收端使用SIC技术，假设

表示第k个子信道上n用户的等效信道增益，假设第k个子信道上复用所有用户的等效信道增益大小排序为：

信道增益小的用户可以分配较大的功率，即

因此，在第k个子信道上，大功率的用户可以直接解调出期望的信号，而小功率用户的信号作为干扰信号，因此，第k个子信道上第n个用户的信干噪比表示为：

该用户对应的总和速率为：

每条子信道上执行SIC技术，大功率用户在解调出自己的期望信号之后，需要重构其他用户的信号，因此接收机的复杂度和延时随着每条子信道上用户的数量增加而增加。为了表示问题的推导过程，假设每个子信道上复用两路用户信号，即

并使H_1,k＞H_2,k，可以分别写出第k个子信道上两个用户的数据速率为：

R_1,k＝B_clog(1+P_1,kH_1,k) (5)，

由上述的推导过程可知，用户的数据速率的影响因素包括每个子信道复用的用户和每个用户分配的功率大小等，从最大化总和速率MSR和最大化最小速率MMR来实现优化NOMA系统联合信道分配和功率分配。

为了保证该下行链路系统的公平性，每个用户设置最小数据速率，以此为条件建立MSR数学模型，目的是提高NOMA系统的总和速率，将MSR表示为：

其中，(R_n,k)_min表示第k个子信道上第n个用户的最小数据速率要求，保证了小区内用户之间的公平性。

对于MMR来说，相应的目标函数致力于尽可能保证小区内信道状态最差的用户的数据速率尽可能大，用来保证小区内用户的公平性，则最大化最小速率表示为：

假设基站提供的总发射功率为P_tot，则所有功率分配之和应不大于总发射功率，即：

由于功率分配和信道分配之间存在耦合关系，因此直接求解很难计算得出信道和功率联合分配的最优解，为解决这个耦合问题，本文提出一种基于深度学习模型的NOMA资源分配算法，首先推导出给定信道分配下的最优权值，推导出最优功率分配的闭合解，以此得到一个近似最优解。然后提出一种基于注意力的深度强化模型来进行信道分配，最终得到一个信道和功率联合分配策略。

本实施例中，预设的功率分配包括：

在给定两个性能指标MSR和MMR的信道分配下进行功率分配，我们将跳过详细的推导，直接说明信道分配已知的情况下最优的功率分配解决方案。

对于MMR标准来说，功率分配问题可以写成：

令

并假设A_n,k≥2，对于总和速率最大化来说，最佳功率分配的解可以写成：

P_2,k＝q_k-P_1,k (11b)

其中，P_1,k和P_2,k分别表示第k个子信道上用户1和用户2分配的功率大小，q_k表示第k 个子信道分配的总功率的大小，根据推导可知：

其中，q_k为第k个子信道上分配的总功率大小，λ满足

对于MMR标准来说，功率分配的优化公式为：

上式的最优解可以改写成：

P_2,k＝q_k-P_1,k (15b)

其中，P_1,k和P_2,k分别表示在MMR标准下第k个子信道上用户1和用户2分配的功率大小。q_k为第k个子信道上分配的总功率大小。

在完成功率分配的闭合解之后，本实施例基于深度强化学习框架来进行信道分配。

首先将MMR和MSR两个性能指标下的信道分配问题转化为数学模型，以MSR为目标的信道分配优化可以写成：

以MMR为目标的信道分配优化问题可以表示为：

上面两式中的信道分配问题的解具有很高的复杂度，因为所有为了得到最优的信道分配组合，所有可能的信道分配组合都必须考虑并计算，为了解决这一问题并降低算法的复杂度，提出一个深度强度学习框架来优化NOMA系统的信道分配。

将信道分配问题优化建模为强化学习任务，该模型由小区内基站和环境状态组成，如图 3所示，具体说，基站根据信道状态进行信道分配，基站每一步信道分配都基于信道状态的状态s_t，根据两个性能指标，基站从动作空间A中选择一种信道分配方式a_t，随着信道分配的进行，环境状态变成一个新的状态s_t+1，直到没有新的信道资源时信道分配过程停止，获得最优的信道分配(策略)，计算获得最优信道分配闭合解，得到最优功率分配方案，并计算出阶跃奖励r^t并反馈给基站，这个阶跃奖励

定义为每个阶段MSR和MMR的奖励：

在这两个性能指标下，NOMA系统的目标分别是奖励回报最大化，为了解决这个最大化问题，提出一种基于ANN深度学习算法模型得出最优的信道分配策略。基站根据已经学习到的信道分配策略采取a_t-1动作分配后，环境状态从s_t-1变成s_t，可以使用状态转移概率π:p(s_i|S,s_i-1)表示这一动作。为了得到状态转移概率。将所提出的神经网络参数化为 p_θ(s_i|S,s_i-1)，如图4所示，所提出的ANN神经网络为一种编码器-解码器的结构，编码器将信道状态嵌入计算为E_s，解码器在每一步输出所有状态的概率分布p(sⁱ|S,s^i-1)。

在每个阶段结束之后，根据ANN神经网络得出转移概率，使用枚举采样的方法逐步选择状态，即用户信道对，直到所有信道已经分配完成，因此，信道分配方案表示为ζ＝{S¹,S²,…,S^N},给定状态空间S的解ζ的条件概率表示为：

为了考虑MMR和MSR两个指标上保证用户公平性前提下求得NOMA系统的总和速率最大，定义ANN神经网络的损失函数为多个信道分配解的平均奖励，可以表示为：

为了推导该神经网络的梯度，我们使用一种变量强化估计算法,该算法引入了一种基准线来减少梯度方差，可以使得神经网络算法的梯度向着更好的方向运行。对神经网络参数进行初始化，记为θ^bl←θ，则ANN神经网络的梯度计算公式如下：

其中，ζ^bl是由基准线得出的解，该基准线是在每一个信道分配阶段选择出状态转移概率最大的一个状态。

因此，在每个信道分配阶段结束后，ANN神经网络根据上式中的梯度计算公式更新参数，我们使用的优化器是Adam优化器,在验证数据集上分别评估所提出的ANN神经网络和基准线的系统性能，如果ANN神经网络的性能优于基准线的性能，则基线用ANN神经网络的参数替代其参数，反之，基准线将保留其参数。最后基于训练好的ANN神经网络，推导出信道优化的近似最优解。总结ANN该神经网络的训练算法如下所示：

所述的ANN神经网络结构，主要为一种编码器-解码器的结构；

编码器的结构主要包括两层，第一层是多头注意力层，d_in表示输入层的维数，对于每个 d_in维输入，(本章假设每个子信道上复用两路信号，即d_in＝2)编码器线性的将d_in输入映射到一个初始d_e维输出中，其中d_e表示中间状态的维数，然后通过L个相同的层，计算每个状态d_e维数的结果，其中每一层由两个子层组成，第一个子层是头部h＝8的多头注意力层，通过执行线性变换连接的头被映射回一个d_e维输出，输出到第二层，第二层是前向反馈层，主要是用来反馈输入层的结果，它由两个线性变换和中间的RELU激活模块组成，导出的所有状态空间E_s指向解码器。

实施例二

本实施例是采用基于实施例一提供的一种基于深度强化学习的NOMA系统资源分配方法的具体应用场景，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本部分中，假设在多载波NOMA系统中，基站位于小区中心，N个用户随机分布在小区中心周围，范围从50m到300m。用户之间的最小距离设置为30m。为基站提供的系统传输总功率是 P_tot＝2*12W。NOMA系统的总带宽为B_tot＝5MHz。第n个用户与基站之间第k个信道的信道响应为

d_n表示第n个用户到基站之间的距离，假设α＝2为路径损耗系数，并假设每个用户的最小速率为

图5为三种不同算法下总和速率的对比图，为了保证一致性，固定该NOMA系统的用户数N＝10, 不难发现，使用JRA-DRL算法实现的总和速率高于JRA算法，由于两种算法具有相同的功率分配方式，所以JRA-DRL比JRA可以给NOMA系统找到更好的信道分配方式。从图5中我们还可以看到，随着NOMA系统总发射功率的增加，JRA-DRL算法和JRA两种方法实现的总和速率都有所增加，但随着总发射功率的增加，总和速率的增量再变小。这种现象是由于每个子信道上数据速率随着分配给该信道上多路复用用户的功率的增加而增加，但系统发送功率的增加，每个子信道上的速率将趋于饱和。

当固定NOMA系统总发射功率为P_tot＝12W时，考虑MSR性能标准下的NOMA系统相对于不同用户数的频谱效率对比如图6所示。我们可以看到，随着NOMA系统下用户数量的增加，JRA-DRL 算法和JRA算法实现的频谱效率都有所提高，而JRA-DRL实现的频谱效率远远高于JRA。这主要是因为JRA-DRL算法相比于JRA算法具有更好的信道分配组合。

当NOMA系统中部署不同用户数时，用户的最小速率的大小也是NOMA系统的参考标准之一，随着基站的发送功率的变化，比较不同算法情况下用户最小速率的性能评估，仿真结果如图 7所示。我们可以看到，在相同的条件下，用户最小速率随着总发射功率的增加而增加。因为在一定程度上，随着基站总发射功率的增加，总和速率必然会更大。我们还可以发现，在固定基站的总发射功率时，无论该NOMA系统中部署多少用户，JRA-DRL算法实现的用户最小速率总是大于JRA算法实现的最小速率。这是因为在MMR性能标准下，JRA-DRL算法在信道分配的性能上比JRA算法更好。我们还可以观察到，当固定NOMA系统的总发射功率时，系统的最小速率随着NOMA部署用户的数量的增加而减小。这是因为，为了实现保证用户间公平性的MMR，在总发射功率有限的情况下，随着NOMA系统中用户数量的增加，用户被分配的功率会变小，自然用户的最小速率也会变小。

实施例三

本发明实施例提供一种基于深度强化学习的NOMA系统资源分配装置，包括如下模块：

获取模块：用于获取多载波NOMA系统的系统参数以及系统中的用户参数；

用户分组模块：基于获取到的参数采用已学习的ANN神经网络进行训练，得到子信道分配方案；

功率分配模块：用于基于用户分组方案和获取到的参数，根据最优信道分配的闭合解，将其作为最优的功率分配方案。

本发明实施例还提供一种基于深度强化学习的NOMA系统资源分配装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种NOMA系统资源分配方法，其特征在于，包括：

2.根据权利要求1所述的一种NOMA系统资源分配方法，其特征在于，

计算得到最优信道分配的闭合解，包括：

3.根据权利要求1所述的一种NOMA系统资源分配方法，其特征在于，

注意力神经网络深度强化学习框架基于ANN神经网络，ANN神经网络结构包括L个并联的分支神经网络，L为正整数，分支神经网络包括编码器和解码器，编码器串联解码器：

编码器包括多头注意力层和反馈层；

反馈层中包括线性变换模块一、RELU激活模块和线性变换模块二，线性变换模块一、RELU激活模块和线性变换模块二依次串联，反馈层导出的所有状态空间指向解码器；

解码器包括单头注意力层，单头注意力层基于单注意力结构计算所有的状态空间的输出概率p(sⁱ|S,s^i-1)。

4.根据权利要求3所述的一种NOMA系统资源分配方法，其特征在于，

训练注意力神经网络深度强化学习框架，包括：

初始的信道状态为s_t，根据两个性能指标最大化总和速率MSR和最大化最小速率MMR，小区内基站从动作空间A中选择一种信道分配方式a_t，将信道状态s_t更新为新的信道状态s_t+1，记录为状态转移概率p(sⁱ|S,s^i-1)，此时标志着一个子信道被分配完成；i表示时间，用于区分上一个信道状态和下一个信道状态的转移过程；

基于自展法抽样p(sⁱ|S,s^i-1)更新参数ζ；

基于贪婪算法抽样p(sⁱ|S,s^i-1)更新参数ζ^bl；