CN113242602B

CN113242602B - 毫米波大规模mimo-noma系统资源分配方法及系统

Info

Publication number: CN113242602B
Application number: CN202110505976.4A
Authority: CN
Inventors: 刘洋; 李玉婷; 张颖慧; 宋凯鹏; 董娜; 客华美
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-04-22
Anticipated expiration: 2041-05-10
Also published as: CN113242602A

Abstract

本申请涉及信号通信技术领域，尤其涉及一种毫米波大规模MIMO‑NOMA系统资源分配方法及系统，将系统当前状态作为DQN神经网络的输入，得到当前动作；基站执行当前动作，根据当前动作选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据设置的奖励函数对分配的动作做出反馈，并将奖励反馈值反馈给基站，基站获得当前的奖励反馈值，以及系统下一时刻的状态；基站依据当前的奖励反馈值，以及系统下一时刻的状态训练DQN神经网络，并且得到下一时刻的子信道分配动作和下一时刻的功率分配动作，以进行下一轮子信道和功率的分配。本申请可以在资源有限以及用户更高数据速率要求的情况下，为每个用户合理高效分配无线资源。

Description

毫米波大规模MIMO-NOMA系统资源分配方法及系统

技术领域

本申请涉及信号通信技术领域，尤其涉及一种毫米波大规模MIMO-NOMA系统资源分配方法及系统。

背景技术

近年来，随着5G的商用化以及智能设备和应用的成倍增长，相应的高数据速率的迫切要求急剧增加。为了满足这些要求，第六代(6G)无线通信正在被学术界和产业界广泛研究。与现有的5G相比，6G通信网络从根本上能够实现10-100倍的数据速率，支持更大规模的互联，最低数据速率达到1Gbps，峰值数据速率高于100Gbps。

由于毫米波大规模MIMO技术可以提供更大的带宽和更高的频谱效率，从而将可实现的数据速率性能显著提升到每秒多千兆比特的水平，因此通过毫米波大规模MIMO技术实现第六代(6G)无线通信技术的数据速率目标。然而，为了能够充分获得大规模MIMO技术提供的增益，每根天线都需要使用专用的射频链(RF)，这对于毫米波系统来说，由于空间受限而难以实现，而且大量的RF链会导致成本太高；并且RF链的功耗是难以承受的，在整个收发机总能耗中占比甚至高达70％。

为了降低毫米波大规模MIMO系统收发机的计算复杂度以及能耗，相比数字预编码来说，模拟预编码和混合预编码的提出可以明显降低所需的RF链路数量从而降低系统复杂度以及能耗。一般来说，一个RF链路仅能支持一个数据流，这会限制系统的频谱效率。因此，随着RF链数目的降低，毫米波大规模MIMO系统所能支持的用户数目和系统频谱效率也随之降低。为了增加系统可以支持的用户数并进一步提升系统频谱效率和系统容量，可以将非正交多址接入技术(NOMA)引入毫米波大规模MIMO系统中。NOMA技术可以通过在发送端使用叠加编码技术(SC)以及在接收端使用连续干扰消除技术(SIC)从而支持多个用户共享同一个时频资源而提升频谱效率和系统容量。

但是，随着基站的超密集部署以及用户终端大规模互联，基站与用户之间链路数量和数据传输速率急剧增加，系统的无线资源变得更加相对有限，资源的不合理分配会对系统性能产生影响，给毫米波大规模MIMO-NOMA网络带来了新的挑战。

因此，在资源有限以及用户更高数据速率要求的情况下，如何为每个用户合理高效分配无线资源，是目前本领域技术人员针对毫米波大规模MIMO-NOMA系统急需解决的技术问题。

发明内容

本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法及系统，以在资源有限以及用户更高数据速率要求的情况下，为每个用户合理高效分配无线资源。

一种毫米波大规模MIMO-NOMA系统资源分配方法，包括以下步骤：基站获得系统当前的状态s_t，并且将当前状态s_t作为DQN神经网络的输入，得到当前的子信道分配动作a_t1和当前的功率分配动作a_t2；基站执行当前动作a_t＝{a_t1,a_t2}，根据当前动作a_t选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据预先设置的奖励函数对分配的子信道和功率做出反馈，并将奖励反馈值r_t反馈给基站，基站得到当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1；基站依据当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1训练DQN神经网络，并且得到下一时刻的子信道分配动作a_(t+1)1和下一时刻的功率分配动作a_(t+1)2，以继续进行下一轮的子信道和功率的分配。

如上所述的毫米波大规模MIMO-NOMA系统资源分配方法，其中，优选的是，系统第t个时间槽时的状态s_t＝{SINR_l,m,k(t)}，s_t∈s,其中s为系统的状态空间，SINR_l,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。

如上所述的毫米波大规模MIMO-NOMA系统资源分配方法，其中，优选的是，当前动作

；其中

a_t1∈A₁，A₁为子信道分配动作空间；

a_t2∈A₂，A₂为功率分配动作空间；其中，x_1,1,1(t)为在第t个时间槽时第1个子信道被分配给第1组中第1个用户，

为在第t个时间槽时第l个子信道被分配给第m组中第|Ω_m|个用户，

为在第t个时间槽时第L个子信道被分配给第N_RF组中第

个用户；P_1,1,1(t)为在第t个时间槽时在第1个子信道上第1组中第1个用户的发射功率，

为在第t个时间槽时在第l个子信道上第m组中第|Ω_m|个用户的发射功率，

为在第t个时间槽时在第L个子信道上第N_RF组中第

个用户的发射功率。

如上所述的毫米波大规模MIMO-NOMA系统资源分配方法，其中，优选的是，DQN神经网络中用于分配功率的DQN神经网络具有K个，并且

其中

为在t时刻第1组中第1个功率分配DQN神经网络所选择的功率分配动作，

为在t时刻第1组中第2个功率分配DQN神经网络所选择的功率分配动作，

为在t时刻第m组中第1个功率分配DQN神经网络所选择的功率分配动作，

为在t时刻第m组中第|Ω_m|个功率分配DQN神经网络所选择的功率分配动作，

为在t时刻第N_RF组中第1个功率分配DQN神经网络所选择的功率分配动作，

为在t时刻第N_RF组中第

个功率分配DQN神经网络所选择的功率分配动作。

如上所述的毫米波大规模MIMO-NOMA系统资源分配方法，其中，优选的是，通过奖励函数

获得当前的奖励反馈值r_t，其中，R_l,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率，R_l,m,k(t)＝log₂(1+SINR_l,m,k(t))，R_min为用户的最小数据速率。

一种毫米波大规模MIMO-NOMA系统资源分配方法，包括以下步骤：基站获得系统当前的状态s_t，并且将当前状态s_t作为Dueling DQN神经网络和DDPG神经网络的输入，得到当前的子信道分配动作a_t1和当前的功率分配动作a_t2；基站执行当前动作a_t＝{a_t1,a_t2}，根据当前动作a_t选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据预先设置的奖励函数对分配的子信道和功率做出反馈，并将奖励反馈值r_t反馈给基站，基站得到当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1；基站依据当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1训练Dueling DQN神经网络和DDPG神经网络，并且得到下一时刻的子信道分配动作a_(t+1)1和下一时刻的功率分配动作a_(t+1)2，以继续进行下一轮的子信道和功率的分配。

如上所述的毫米波大规模MIMO-NOMA系统资源分配方法，其中，优选的是，DuelingDQN神经网络根据ò-贪婪策略以ò的概率从动作空间A₁中随机选择当前的子信道分配动作a_t1，否则以1-ò的概率选择当前的子信道分配动作

其中Q(s_t,a_t1；θ)为Dueling DQN神经网络的训练Q网络函数，其值为训练Q值，其中下角标t表明为第t个时间槽，a_t1表明该DQN神经网络是进行子信道分配的，θ为训练Q网络的权值，θ不断被更新；

其中，N_t为随机探索噪声，

为DDPG神经网络的Actor训练网络函数，

为Actor训练网络的权值参数，

不断被更新，a_t2被限制在[0，P_max]范围内，P_max为基站的最大发射功率。

一种毫米波大规模MIMO-NOMA系统资源分配系统，包括：一个基站和K个用户，基站和用户执行上述任一项所述的毫米波大规模MIMO-NOMA系统资源分配方法。

为解决上述技术问题，本申请提供的毫米波大规模MIMO-NOMA系统资源分配方法及系统依据系统的动作空间分配的子信道和功率，并且还通过对保存的数据进行采样训练神经网络，从而实现子信道和功率的有效分配，并且子信道和功率的分配是基于系统前一时刻的状态以及反馈的奖励值，因此本申请的毫米波大规模MIMO-NOMA系统资源分配方法及系统还可以在资源有限以及用户更高数据速率要求的情况下，为每个用户合理高效分配无线资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的毫米波大规模MIMO-NOMA系统的示意图；

图2是本申请实施例一提供的毫米波大规模MIMO-NOMA系统资源分配方法的流程图；

图3是本申请实施例二提供的毫米波大规模MIMO-NOMA系统资源分配方法的流程图；

图4是本申请实施例二提供的毫米波大规模MIMO-NOMA系统资源分配的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，本申请的毫米波大规模MIMO-NOMA系统包括：一个基站、K个用户、N_RF根RF链路、N根天线。其中，基站位于小区的中心，K个用户随机分布在小区内并且可以随机移动，根据用户分组算法，将K个用户分为N_RF组，得到用户集合

其中Ω₁为第一组用户，Ω₂为第二组用户，

为第N_RF组用户。将总的带宽分为L个正交子信道，得到子信道集合L＝{1,2,…,l,…,L}，l∈L，通过子信道之间的正交性从而避免子信道之间的干扰。

在此基础上，通过子信道分配因子x_l,m,k(t)表示在第t个时间槽时子信道的分配情况，当x_l,m,k(t)＝1时表示在第t个时间槽时第l个子信道被分配给第m组中第k个用户，否则被表示为x_l,m,k(t)＝0。通过功率分配因子P_l,m,k(t)表示在第t个时间槽时在第l个子信道上第m组中第k个用户的发射功率。

实施例一

如图2所示，本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法，包括以下步骤：

步骤S210、基站获得系统当前的状态s_t，并且将当前状态s_t作为DQN神经网络的输入，得到当前的子信道分配动作a_t1和当前的功率分配动作a_t2；

DQN神经网络可以根据当前系统所处的状态得到接下来待做出的最佳动作，以此来保障在满足用户最小数据速率约束条件下最大化整个MIMO-NOMA系统的可达和速率。

为了能够达到该目标，将系统第t个时间槽时的状态s_t定义为：s_t＝{SINR_l,m,k(t)}，且s_t∈s，其中s为系统的状态空间，SINR_l,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。其中，状态s_t＝{SINR_l,m,k(t)}反映了链路当前的信道质量SINR、子信道分配因子x_l,m,k(t)以及当前的功率分配因子P_l,m,k(t)。

基站获得系统当前的状态s_t，将当前的状态s_t输入DQN神经网络，DQN神经网络包括：子信道分配DQN神经网络和功率分配DQN神经网络，子信道分配DQN神经网络会根据ò-贪婪策略获得当前的子信道分配动作a_t1，也就是以ò的概率从子信道分配动作空间A₁中随机选择得到当前的子信道分配动作a_t1，否则以1-ò的概率选择得到当前的子信道分配动作

其中Q(s_t,a_t1；θ)为DQN神经网络的训练Q网络函数，其值为训练Q值(其中，训练Q网络函数中参数的下角标t表明为第t个时间槽，动作a的下角标具有1表明该DQN神经网络是进行子信道分配的，下面关于下角标的含义均同此处)，θ为训练Q网络的权值，θ不断被更新。

对于功率分配过程来说，随着相同的状态s_t作为功率分配DQN神经网络的输入，在采用跟子信道分配相同的动作策略后，得到当前的功率分配动作a_t2。从而获得当前动作

以便毫米波大规模MIMO-NOMA系统的基站执行该动作a_t。其中，

a_t1∈A₁，A₁为子信道分配动作空间；

a_t2∈A₂，A₂为功率分配动作空间，子信道分配动作空间和功率分配动作空间的总动作空间的大小为2L×K。

其中，x_1,1,1(t)为在第t个时间槽时第1个子信道被分配给第1组中第1个用户，

为在第t个时间槽时第L个子信道被分配给第N_RF组中第

为在第t个时间槽时在第L个子信道上第N_RF组中第

个用户的发射功率。

为了减少功率分配的数据计算量，本申请中的

中的每个功率分配因子优选为

另外，由于发射功率是一个连续变量，而DQN神经网络的输出是离散性的，因此功率分配DQN神经网络输出的动作空间a_t2会具有离散性，这样会导致动作空间a_t2变得十分巨大，巨大的动作空间会导致功率分配DQN神经网络训练收敛缓慢甚至不收敛，从而严重影响了毫米波大规模MIMO-NOMA系统的性能。因此，为了提高功率分配DQN神经网络的性能，本申请中采用多个功率分配DQN神经网络架构，以使多个功率分配DQN神经网络同步及分布式进行工作，从而提高毫米波大规模MIMO-NOMA系统的性能。

具体的，毫米波大规模MIMO-NOMA系统中将K个用户分为N_RF个组，由于一个功率分配DQN神经网络能够决定一个用户的功率分配策略，因此本申请中需要K个功率分配DQN神经网络，若每个功率分配DQN神经网络的动作空间为E，那么通过采用K个功率分配DQN神经网络架构使得所有用户所需要的动作空间就从E^K降低到了E×K,从而极大的降低了功率分配的动作空间，进而提升了毫米波大规模MIMO-NOMA系统的性能。

基于此，本申请实施例中动作空间a_t2优选为

其中

为在t时刻第N_RF组中第

个功率分配DQN神经网络所选择的功率分配动作。

在采用多个功率分配DQN神经网络时，待初始化得到初始的子信道分配动作a₁₁后，由于K个用户被分为N_RF组，所以K个功率分配DQN单元被按组进行选择激活，因此每个组中的用户对部分功率分配DQN神经网络进行选择激活。

步骤S220、基站执行当前动作a_t＝{a_t1,a_t2}，根据当前动作a_t选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据预先设置的奖励函数对分配的子信道和功率做出反馈，并将奖励反馈值r_t反馈给基站，基站得到当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1；

基站执行当前的子信道分配动作a_t1和当前的功率分配动作a_t2，从而选择出相应的子信道和功率，并将选择出的子信道和功率发送给所有的用户，待用户依据选择出的子信道和功率运行后，用户和基站组成的系统更新了环境，并还根据预先设置的奖励函数对分配的子信道和功率分配的动作做出反馈，并将奖励反馈值r_t反馈给基站，从而使基站得到当前的奖励反馈值r_t。具体的，当前的奖励反馈值r_t为系统的当前的可达和速率，通过奖励函数

基站执行当前的子信道分配动作a_t1和当前的功率分配动作a_t2后，系统的状态空间进入下一时刻，所以还获得系统下一时刻的状态s_t+1。

步骤S230、基站依据当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1训练DQN神经网络，并且得到下一时刻的子信道分配动作a_(t+1)1和下一时刻的功率分配动作a_(t+1)2，以继续进行下一轮的子信道和功率的分配；

基站接收到当前的奖励反馈值r_t以及系统下一时刻的状态s_t+1,通过经验重播机制将(s_t,a_t,r_t,s_t+1)存入记忆库D中,然后在训练阶段从记忆库D中按批次随机抽取数据(s_i,a_i,r_i,s_i+1),其中s_i为用户在第i个时间槽时的状态，a_i为在第i个时间槽时的动作，r_i为在第i个时间槽时的奖励反馈值，s_i+1为系统在第i+1个时间槽时的状态，对DQN神经网络的参数进行迭代更新，以确保训练的数据是相互独立分布不具有相关性的。

对于子信道分配网络，在随机抽取数据(s_i,a_i,r_i,s_i+1)后，通过

得到DQN神经网络目标Q网络的真实的目标Q值y_i；其中Q(s_i+1,a_(i+1)1；θ^-)为DQN神经网络的目标Q网络函数；θ^-为目标Q网络的权值，在一段时间内是固定的，每当训练完成一定轮数的迭代，用参数θ更新参数θ^-；γ为折扣因子，γ∈[0,1]；a_(i+1)1为在第i+1个时间槽时的子信道分配动作；其中下角标表明为时间槽。

对子信道分配DQN神经网络训练的目的是使训练Q值与真实的目标Q值之间的预测误差无限接近于0，因此本申请中将预测误差定义为一个损失函数，即为：L(θ)＝(y_i-Q(s_i,a_i1；θ))²，其中a_i1为在第i个时间槽时的子信道分配动作空间。

然后，利用随机梯度下降优化器来最小化损失函数。具体的在从记忆库D中按批次随机抽取数据后，随机梯度下降优化器返回一组梯度，通过反向传播(Back Propagation，BP)技术更新训练Q网络的权值参数θ：

表示的是在第i个样本时刻所处状态s＝s_i和所采取的动作a＝a_i1下产生的Q值的梯度。

对于功率分配DQN神经网络来说，采用和子信道分配DQN神经网络相同的方法来计算真实的目标Q值y_i：

其中a_(i+1)2为在第i+1个时间槽时的功率分配动作，Q(s_i+1,a_(i+1)2；θ^-)为DQN神经网络的目标Q网络函数，其中a_(i+1)2表明该DQN神经网络是进行功率分配的。

对应的损失函数为：L(θ)＝(y_i-Q(s_i,a_i2；θ))²，其中，a_i2在第i个时间槽时的功率分配动作，同理a_i2为表明该DQN神经网络是进行功率分配的。

然后也利用随机梯度下降优化器来最小化损失函数，并通过反向传播(BackPropagation，BP)技术更新训练Q网络的权值参数θ。之后，每经过一定轮数的迭代后，训练Q网络的参数θ会同步更新目标Q网络参数θ^-。

实施例二

如图3和图4，本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法，包括以下步骤：

步骤S310、基站获得系统当前的状态s_t，并且将当前状态s_t作为DuelingDQN神经网络和DDPG神经网络的输入，得到当前的子信道分配动作a_t1和当前的功率分配动作a_t2；

将系统第t个时间槽时的状态s_t定义为s_t＝{SINR_l,m,k(t)}，且s_t∈s,其中s为系统的状态空间，SINR_l,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。其中，系统状态s_t＝{SINR_l,m,k(t)}反映了链路当前的信道质量SINR、子信道分配因子x_l,m,k(t)以及当前的功率分配因子P_l,m,k(t)。

基站获得系统当前的状态s_t，对于子信道分配的Dueling DQN神经网络，将系统当前的状态s_t输入Dueling DQN神经网络，Dueling DQN神经网络会根据ò-贪婪策略获得当前的子信道分配动作a_t1，也就是意味着以ò的概率从动作空间A₁中随机选择当前的子信道分配动作a_t1，否则以1-ò的概率选择当前的子信道分配动作

其中Q(s_t,a_t1；θ)为Dueling DQN神经网络的训练Q网络函数，其值为训练Q值，其中下角标t表明为第t个时间槽，a_t1表明该DQN神经网络是进行子信道分配的，θ为训练Q网络的权值，θ不断被更新。

对于功率分配的DDPG神经网络来说，DDPG神经网络根据随机的权值

和当前的状态s_t生成当前的功率分配动作

在此基础上，为了平衡动作的exploration(探索)和exploitation(利用),所以在训练过程中，为功率分配动作的决策机制引入随机噪声，即：

其中，N_t为随机探索噪声，

为DDPG神经网络的Actor训练网络函数，

为Actor训练网络的权值参数，

步骤S320、基站执行当前动作a_t＝{a_t1,a_t2}，根据当前动作a_t选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据预先设置的奖励函数对分配的子信道和功率做出反馈，并将奖励反馈值r_t反馈给基站，基站得到当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1；

基站执行当前的子信道分配动作a_t1和当前的功率分配动作a_t2，从而选择出相应的子信道和功率，并将选择出的子信道和功率发送给所有的用户，待用户依据选择出的子信道和功率运行后，基站和用户组成的系统更新了环境，并根据预先设置的奖励函数对分配的子信道和功率做出反馈，并将奖励反馈值r_t反馈给基站，从而使基站得到当前的奖励反馈值r_t。具体的，当前的奖励反馈值r_t为系统当前的可达和速率，通过奖励函数

用户执行当前的子信道分配动作a_t1和当前的功率分配动作a_t2后，用户和基站组成的系统的状态空间进入下一时刻，所以还获得系统下一时刻的状态s_t+1。

步骤S330、基站依据当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1训练Dueling DQN神经网络和DDPG神经网络，并且得到下一时刻的子信道分配动作a_(t+1)1和下一时刻的功率分配动作a_(t+1)2，以继续进行下一轮的子信道和功率的分配；

基站接收到当前的奖励反馈值r_t以及系统下一时刻的状态s_t+1,通过经验重播机制将(s_t,a_t,r_t,s_t+1)存入记忆库D中,然后在训练阶段从记忆库D中按批次随机抽取数据(s_i,a_i,r_i,s_i+1)，其中s_i为系统在第i个时间槽时的状态，a_i为在第i个时间槽时的动作，r_i为在第i个时间槽时的奖励反馈值，s_i+1为系统在第i+1个时间槽时的系统状态，对DuelingDQN神经网络和DDPG神经网络的参数进行迭代更新，以确保训练的数据是相互独立分布不具有相关性的。

具体的，对于子信道分配Dueling DQN神经网络，在随机抽取数据(s_i,a_i,r_i,s_i+1)后，通过

得到Dueling DQN神经网络真实的目标Q值y_i，Q(s_i+1,a_(i+1)1；θ^-,α,β)为Dueling DQN神经网络目标Q网络函数。

由于Dueling DQN神经网络相对于DQN神经网络而言，是将DQN神经网络的值函数模型拆解为两个部分，第一部分为只与状态有关的价值函数V，第二部分为与状态和动作都有关的优势函数A，因此将Q(s_i+1,a_(i+1)1；θ^-,α,β)表示为：Q(s_i+1,a_(i+1)1；θ^-,α,β)＝V(s_i+1；θ^-,α)+A(s_i+1,a_(i+1)1；θ^-,β)。

其中，θ^-为目标Q网络的权值，在一段时间内是固定的，每当训练完成一定轮数的迭代，用参数θ更新参数θ^-；V(s_i+1；θ^-,α)为价值函数，表示的是在下一时刻状态的价值，与具体要采取的动作无关，α为价值函数V网络部分的参数；A(s_i+1,a_(i+1)1；θ^-,β)为优势函数，表示的是在下一时刻采取子信道分配动作后的价值，与下一时刻状态和采取的动作都有关，β为优势函数A网络部分的参数。

在此基础上，对拆分成的两个部分价值函数和优势函数的输出做出一定的限制。具体的，对优势函数A进行限定，

其中a′为下一时刻采取的动作；a′_(i+1)1为下一时刻从采样的子信道分配动作空间中选择的动作；∑_a′A(s_i+1,a′_(i+1)1；θ^-,β)为当前状态下所有优势函数A的值的平均数。

在上述公式中，通过每一个优势函数A的值减去当前状态下所有优势函数A的值的平均数，以对优势函数A进行限定，从而可以保证优势函数A的期望值为0的约束，增加了价值函数V和优势函数A的输出稳定性。

在此基础上，对Dueling DQN神经网络训练的目的是使训练Q值与真实的目标Q值之间的预测误差无限接近于0，Dueling DQN神经网络中的训练Q网络损失函数为：L(θ)＝(y_i-Q(s_i,a_i1；θ))²。DDPG神经网络和DQN神经网络一样，用了目标网络(Target Network)技术，先固定求Target的网络，在更新之后，再把参数复制到Target网络。

对于功率分配DDPG神经网络来说，整个DDPG神经网络主要包括四个组成部分，分别是Actor目标网络、Actor训练网络、Critic目标网络以及Critic训练网络。其中，

为Actor训练网络函数，是用来选择动作的；Q(s,a；ω)为Critic训练网络函数，是用来对所选择的动作做出训练Q值的，其中ω为Critic训练网络的权值参数。与之对应的，

为Actor目标网络函数，

为Critic目标网络函数，Actor目标网络函数和Critic目标网络函数都是用来生成训练数据的，其中

为Actor目标网络的权值参数，ω^-为Critic目标网络的权值参数。

对于功率分配DDPG神经网络来说，采样后通过

得到真实的目标Q值y_i，

为Critic目标网络函数，下角标表明为时间槽；γ为折扣因子，γ∈[0,1]。

Critic训练网络的权值参数ω通过最小化损失函数进行更新，Critic训练网络的损失函数为：

∑_i为对所有数据进行求和操作，N为从记忆库D中按批次采样数据的大小，选择的动作的训练Q值可以被Critic训练网络函数Q(s,a；ω)估计为

根据DPG理论，Actor训练网络函数

的权值参数

可以根据以下公式更新：

J(μ)表示在采取策略μ时的性能度量(最小化损失函数)，

表示的是参数

下采取的策略μ的梯度。

表示的是在第i个样本时刻所处状态s＝s_i和所采取的动作

下产生的Q值的梯度。

表示的是在第i个样本时刻所处状态s＝s_i下采取的策略

对参数

的梯度。

在上述基础上，将系统状态s_i作为Actor训练网络的输入，输出的是功率分配动作a_i2，然后更新对应的参数

然后，将系统状态s_i作为Critic训练网络的输入，输出的是该状态下执行的动作的Q值，然后通过

更新权值参数ω。

另外，DDPG神经网络从训练网络到目标网络的参数更新不再采用直接复制更新的硬方法，而是选择采用的一种软更新的方法，即每次参数值更新一点，也即表达为：

ω^-←τω+(1-τ)ω^-，其中τ是软更新系数，一般取值比较小，例如：τ取0.1或者0.01。

由于本申请是依据系统的动作空间分配的子信道和功率，并且还通过对保存的数据进行采样训练神经网络，从而实现子信道和功率的有效分配，并且子信道和功率的分配是基于系统前一时刻的状态以及反馈的奖励值，因此本申请的毫米波大规模MIMO-NOMA资源分配方法及系统还可以在资源有限以及用户更高数据速率要求的情况下，为每个用户合理高效分配无线资源。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种毫米波大规模MIMO-NOMA系统资源分配方法，其特征在于，包括以下步骤：

基站获得系统当前的状态s_t，并且将当前状态s_t作为DQN神经网络的输入，得到当前的子信道分配动作a_t1和当前的功率分配动作a_t2；

基站执行当前动作a_t＝{a_t1,a_t2}，根据当前动作a_t选择功率和子信道发送给所有的用户以进行子信道和功率的分配，系统更新环境，并根据预先设置的奖励函数对分配的子信道和功率分配的动作做出反馈，并将奖励反馈值r_t反馈给基站，基站获得当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1；当前的奖励反馈值

其中，R_l,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率，R_l,m,k(t)＝log₂(1+SINR_l,m,k(t))，R_min为用户的最小数据速率，SINR_l,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比，L为子信道集合中的子信道个数，N_RF为用户集合中的用户组数，|Ω_m|为第m组中的用户个数；

基站依据当前的奖励反馈值r_t，以及系统下一时刻的状态s_t+1训练DQN神经网络，并且得到下一时刻的子信道分配动作a_(t+1)1和下一时刻的功率分配动作a_(t+1)2，以继续进行下一轮的子信道和功率的分配。

2.根据权利要求1所述的毫米波大规模MIMO-NOMA系统资源分配方法，其特征在于，系统第t个时间槽时的状态s_t＝{SINR_l,m,k(t)}，s_t∈s,其中s为系统的状态空间。

3.根据权利要求1或2所述的毫米波大规模MIMO-NOMA系统资源分配方法，其特征在于，当前动作