CN117176213A

CN117176213A - 基于深度预测q网络的scma码本选择和功率分配方法

Info

Publication number: CN117176213A
Application number: CN202311452308.5A
Authority: CN
Inventors: 雷菁; 刘鹏涛; 刘伟; 杨颜冰; 黄英
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-05
Anticipated expiration: 2043-11-03
Also published as: CN117176213B

Abstract

本申请涉及一种基于深度预测Q网络的SCMA码本选择和功率分配方法。所述方法包括：将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，智能体通过与动态环境交互获得奖励和惩罚，得到动作策略；根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略。采用本方法能够在动态环境下实现SCMA的资源分配。

Description

基于深度预测Q网络的SCMA码本选择和功率分配方法

技术领域

本申请涉及无线通信技术领域，特别是涉及一种基于深度预测Q网络的SCMA码本选择和功率分配方法。

背景技术

非正交多址(Non-orthogonal multiple access,NOMA)技术是一种多物联网设备接入技术，可以实现物联网网络中的大规模连接。NOMA技术通过将多个物联网设备的信号在同一频带上进行叠加，并使用不同的功率级别或者码本来区分物联网设备。稀疏码多址（Sparse Code Multiple Access，SCMA）是一种码域NOMA技术，其核心在于设计一组稀疏的非正交码本，将物联网设备数据映射到码本中的某些码字上，再通过多物联网设备干扰消除技术如消息传递算法将不同物联网设备的数据分离出来。SCMA技术是未来通信和物联网大连接场景下的候选空口技术之一。

SCMA技术采用高维正交调幅映射与低密度扩频技术相结合的码本，可通过将不同的码本选择给不同的物联网设备实现多址接入。SCMA的资源分配如码本选择和功率分配方式受到广泛关注。目前，学者们已经提出了多种SCMA的资源分配方法，如凸优化方法和启发式算法。前者将SCMA的码本、子载波和功率之间的关系作为约束条件，将最大化SCMA和速率建模为优化问题进行求解；后者则通过启发式策略，将码本选择给具有最小码本间干扰的物联网设备，具有较好的性能。

然而，以往的研究主要集中在静态信道环境下，而现实中物联网设备所处的信道环境是动态变化的。此外，传统的优化算法和启发式算法，通常需要较高的在线计算复杂度，难以应对信道环境变化的挑战。因此，在动态信道环境下实现SCMA的资源分配仍然是一个亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在动态环境下实现SCMA的资源分配的基于深度预测Q网络的SCMA码本选择和功率分配方法。

一种基于深度预测Q网络的SCMA码本选择和功率分配方法，所述方法包括：

获取物联网设备在数据传输过程中的码本集合和子载波集合；

根据SCMA技术和码本集合为多个物联网设备分配不同的码本，计算分配过程中的SCMA码本选择和功率分配策略；

利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率；

将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，利用目标函数和约束条件设置码本选择及功率分配问题的求解模型；

将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，智能体通过与动态环境交互获得奖励和惩罚，得到动作策略；

根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络；

利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略。

在其中一个实施例中，计算分配过程中的SCMA码本选择和功率分配策略，包括：

计算分配过程中的SCMA码本选择和功率分配策略为

；

其中，表示码本选择的二进制变量，/>表示子载波/>上分配的功率比例，/>表示码本集合，/>表示子载波集合，/>表示时隙集合，/>表示码本序列，/>表示子载波序号，/>表示时隙序号，/>表示物联网设备序号，/>表示物联网设备集合，/>表示基站序号。

在其中一个实施例中，利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率，包括：

利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率为

；

其中，表示物联网设备/>占用码本/>的信干噪比，/>表示码本/>占用的子载波/>，/>表示物联网设备/>在码本/>上的发射功率，/>表示时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益，/>表示物联网设备/>在子载波/>上的干扰，/>表示背景噪声的功率。

在其中一个实施例中，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，包括：

约束一：表示将SCMA码本选择给物联网设备，即

；

约束二：表示给被占用的子载波分配功率，即

；

约束三：每个SCMA码本最多可以由一个物联网设备选择，即

；

约束四：各子载波的功率分配比例之和等于1，即

。

在其中一个实施例中，将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，包括：

观测结果：表示物联网设备在时隙/>观测到的环境状态，观测结果为

；

其中，表示子载波上观测到的信道增益，和/>分别表示物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作；

动作：物联网设备在时隙/>的动作为

；

其中，表示所选的SCMA码本，/>表示子载波上分配的功率比例；

奖励：指导学习的奖励为物联网设备/>的传输速率，表示为

其中，物联网设备的传输速率。

在其中一个实施例中，根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络，包括：

将预先构建的深度预测Q网络和目标网络的权重都随机初始化为相同的权值，在训练过程中，首先进行状态初始化，在每个训练回合，深度预测Q网络的环境参数都会被重置，智能体/>观测到环境状态的状态数据，使用最大最小归一化方法将相同类型的状态数据归一化为/>；

在每个时隙，归一化的状态输入训练网络，输出是每个动作的Q值，根据/>值和贪心策略选择动作，获得奖励/>并归一化下一观测值/>，利用经验重放方法将所有智能体的历史动作策略随机化，去除相邻数据间相关性，在经验回放/>中存储，从/>中抽取/>组经验作为训练数据并根据预先设置的损失函数对深度预测Q网络的权值更新并复制到固定目标网络，得到训练好的深度预测Q网络。

在其中一个实施例中，每个动作的Q值为

；

其中，为奖励折扣系数，/>表示物联网设备/>在时隙/>观测结果，/>表示物联网设备/>在时隙/>的动作，/>为物联网设备/>获得的奖励/>。

在其中一个实施例中，预先设置的损失函数为

；

其中，为目标网络的权值，/>表示物联网设备/>在时隙/>观测结果。

在其中一个实施例中，利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略，包括：

在输入层输入物联网设备观测到的状态/>和在前一个时隙观测到的其他物联网设备的信道状态/>和动作/>将传递到训练好的对深度预测Q网络的LSTM层；

在LSTM层学习信道状态和当前SCMA资源分配策略来预测其他设备的当前状态并使用时间相关法来预测未来时间序列的变化，得到观测状态和预测状态并传递到训练好的深度预测Q网络的全连接层；

在全连接层采用ReLu激活函数将观测状态和预测状态映射到值并传递到训练好的深度预测Q网络的Dueling层；

在Dueling层首先学习当前状态值以及动作优势值/>，然后将它们相加得到最终输出Q值并传递到训练好的深度预测Q网络的输出层；

在输出层根据每个动作的Q值选择最优动作，最优动作为最优码本选择及功率分配策略。

上述基于深度预测Q网络的SCMA码本选择和功率分配方法，本申请通过利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率；将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，智能体通过与动态环境交互获得奖励和惩罚，得到动作策略。智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略，避免了在每个时隙中解决动态信道的非凸优化问题，从而大大降低了复杂度，再根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络；利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略，通过采用了LSTM和D3QN网络架构，将物联网设备作为智能体，通过LSTM层预测其他设备的状态，并通过D3QN网络来决定SCMA码本选择和功率分配。与基准方案以及OFDMA接入方案相比，本发明能够有效避免SCMA物联网设备选择码本冲突情况，从而有效提升了SCMA码本选择和功率分配效率。

附图说明

图1为一个实施例中一种基于深度预测Q网络的SCMA码本选择和功率分配方法的流程示意图；

图2为一个实施例中不同接入方案传输速率对比的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于深度预测Q网络的SCMA码本选择和功率分配方法，包括以下步骤：

步骤102，获取物联网设备在数据传输过程中的码本集合和子载波集合；根据SCMA技术和码本集合为多个物联网设备分配不同的码本，计算分配过程中的SCMA码本选择和功率分配策略。

在SCMA系统中，码本的集合为，子载波的集合为/>。稀疏指示矩阵/>描述了码本与各子载波之间的关系，矩阵元素记为/>。/>为1时，表示物联网设备所用的码本/>占用了子载波/>。一个典型的拥有6个物联网设备、4个子载波的SCMA系统的指示矩阵为

；

稀疏指示矩阵的列重为，表示每个物联网设备占用/>个子载波，其行重为/>，代表每个子载波上承载/>个物联网设备的信息。物联网设备/>在码本/>上的发射功率为/>，与比例系数/>成正比，且满足/>。在SCMA系统中，通过为多个设备分配不同的码本来实现多址接入。码本选择的二进制变量为/>，如果码本/>在时隙/>被分配给了物联网设备/>，则/>，否则/>。为了减少不同物联网设备之间的干扰，假定一个码本最多只分配给一个物联网设备，即/>。SCMA码本选择和功率分配策略描述为：

；

。

步骤104，利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率；将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。

首先在时隙，物联网设备/>占用码本/>的信干噪比为

；

其中，表示码本/>占用的子载波/>，/>是时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益，/>表示背景噪声的功率。令/>表示占据相同子载波/>的物联网设备。/>表示物联网设备/>在子载波/>上的干扰，可以表示为

。

使用标准化带宽，物联网设备在时隙/>的传输速率为

。

码本选择及功率分配方案可以描述为以下约束下的传输速率优化问题，则优化目标为

；

最后根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件。

步骤106，将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，智能体通过与动态环境交互获得奖励和惩罚，得到动作策略。

由于传输速率优化问题是在动态环境下的非凸优化问题，难以使用传统优化算法解决。因此，本申请将物联网设备表示为智能体，智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略。本申请所提出的在线学习算法避免了在每个时隙中解决动态信道的非凸优化问题，从而大大降低了复杂度。

本发明基于长短时记忆网络(LSTM)和D3QN网络提出深度预测Q网络（DPQN）。将每个物联网设备视为一个智能体，首先利用LSTM网络通过基站广播的前一时刻的观测推断其他物联网设备的当前观测。通过输入来自其他物联网设备的历史信息（信道增益、动作选择），智能体可以获得近似的全局信息。然后，每个智能体可以通过D3QN网络与动态环境交互，学习近似最优的SCMA码本选择和功率。基于原优化问题的设计，其观测、动作和奖励定义如下：

观测：物联网设备在时隙/>观测到的环境状态为/>，包含子载波上观测到的信道增益，/>，物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作，/>，以及。因此，观测结果可以表示为

；

动作：物联网设备在时隙/>的动作为

；

其中，表示所选的SCMA码本，/>表示子载波上分配的功率比例。

奖励：根据原优化问题，指导学习的奖励为物联网设备/>的传输速率，表示为

。

如果物联网设备选择更优的SCMA资源分配策略，传输速率更高，可以获得更大的奖励。在时隙中，物联网设备通过观察环境的状态/>并根据/>值选择动作/>，即

；

其中，表示累计奖励，/>为奖励折扣系数，表示当前奖励和未来奖励之间的权衡。

步骤108，根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络；利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略。

智能体通过与SCMA环境的交互获得奖励和惩罚，从而更新其动作策略。当处理一个比较大的状态与动作空间时，可以用深度神经网络来近似对应两者关系。然后，两次训练经验之间的强相关性与神经网络独立同分布的要求不符。为了解决这个问题，本发明通过经验重放以及固定目标网络来提高训练收敛性。

首先利用经验重放方法将训练数据随机化，去除相邻数据间相关性。通过从经验池中随机选择一组经验作为训练数据。固定目标网络与训练网络具有相同的结构，不同的权值，可以降低估计/>值与目标/>值之间的相关性。目标网络的参数在固定次的迭代中保持不变，然后将训练网络的权值复制到目标网络。

深度神经网络的输入是观测值，输出是每个动作的Q值，即/>。权值/>是网络的每层权值，并在训练过程中通过反向传播进行更新。损失函数/>定义为

；

其中，为目标网络的权值。物联网设备/>执行动作/>，并获得奖励/>。

物联网设备只能观察部分环境状态，并不知道其他物联网设备的信道和SCMA资源分配策略。然而，SCMA资源分配取决于其他物联网设备的资源分配策略。因此，利用LSTM可以预测其他设备的信道和资源分配状态，故利用训练好的对深度预测Q网络可以根据输入的当前环境状态观测结果输出对应的最优动作，即最优的码本选择及功率分配策略。

上述基于深度预测Q网络的SCMA码本选择和功率分配方法中，本申请通过利用SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率；将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，智能体通过与动态环境交互获得奖励和惩罚，得到动作策略。智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略，避免了在每个时隙中解决动态信道的非凸优化问题，从而大大降低了复杂度，再根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络；利用训练好的对深度预测Q网络求解模型进行求解，得到码本选择及功率分配策略，通过采用了LSTM和D3QN网络架构，将物联网设备作为智能体，通过LSTM层预测其他设备的状态，并通过D3QN网络来决定SCMA码本选择和功率分配。与基准方案以及OFDMA接入方案相比，本发明能够有效避免SCMA物联网设备选择码本冲突情况，从而有效提升了SCMA码本选择和功率分配效率。

计算分配过程中的SCMA码本选择和功率分配策略为

；

其中，表示物联网设备/>占用码本/>的信干噪比，/>表示码本/>占用的子载波/>，/>表示物联网设备/>在码本/>上的发射功率，/>表示时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益，/>表示物联网设备/>在子载波上的干扰，/>表示背景噪声的功率。

约束一：表示将SCMA码本选择给物联网设备，即

；

约束二：表示给被占用的子载波分配功率，即

；

约束三：每个SCMA码本最多可以由一个物联网设备选择，即

；

约束四：各子载波的功率分配比例之和等于1，即

。

；

动作：物联网设备在时隙/>的动作为

；

奖励：指导学习的奖励为物联网设备/>的传输速率，表示为

；

其中，物联网设备的传输速率。

在具体实施例中，动作通过ε-贪心策略确定，即

；

其中，为/>之间的一个随机数。

在其中一个实施例中，每个动作的Q值为

；

在其中一个实施例中，预先设置的损失函数为

；

在具体实施例中，如图2所示，为不同接入方案传输速率对比的示意图，其中主要是DPQN方案与四种基准接入方案之间的传输速率对比。这些基准方案包括仅码本选择、仅功率分配、随机分配和正交频分多址（OFDMA）。仅码本选择表示采用相等功率和SCMA码本选择。仅功率分配使用随机码本和功率分配，而随机分配则采用随机SCMA码本和相等功率。OFDMA是将OFDMA替代SCMA接入框架。与OFDMA相比，本发明提出的SCMA方案可以达到更高的传输速率。SCMA码本和功率分配对不同物联网设备的影响可能不同的。SCMA码本选择对物联网设备1、2和4更重要，而功率分配则对物联网设备3、5和6起着更重要作用。与随机方案相比，本发明在物联网设备3和5传输速率有显著增长。物联网设备3的传输速率从增加到/>，增长了31.8%；而物联网设备5的传输速率从增加到/>，增长了35.3%。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度预测Q网络的SCMA码本选择和功率分配方法，其特征在于，所述方法包括：

利用所述SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率；

将最大化所述物联网设备的传输速率设置为码本选择及功率分配问题的目标函数，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，利用所述目标函数和约束条件设置码本选择及功率分配问题的求解模型；

利用所述训练好的对深度预测Q网络所述求解模型进行求解，得到码本选择及功率分配策略。

2.根据权利要求1所述的方法，其特征在于，计算分配过程中的SCMA码本选择和功率分配策略，包括：

计算分配过程中的SCMA码本选择和功率分配策略为

；

其中，表示码本选择的二进制变量，/>表示子载波/>上分配的功率比例，/>表示码本集合，/>表示子载波集合，/>表示时隙集合，/>表示码本序列，/>表示子载波序号，表示时隙序号，/>表示物联网设备序号，/>表示物联网设备集合，/>表示基站序号。

3.根据权利要求2所述的方法，其特征在于，利用所述SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率，包括：

利用所述SCMA码本选择和功率分配策略进行标准计算，得到物联网设备的传输速率为

；

4.根据权利要求2所述的方法，其特征在于，根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件，包括：

约束一：表示物联网设备选择的SCMA码本变量，即

；

约束二：表示给被占用的子载波分配功率，即

；

约束三：每个SCMA码本最多可以由一个物联网设备选择，即

；

约束四：各子载波的功率分配比例之和等于1，即

。

5.根据权利要求1所述的方法，其特征在于，将物联网设备表示为智能体，设置智能体与动态环境交互中的观测结果、动作和奖励，包括：

；

动作：物联网设备在时隙/>的动作为

；

奖励：指导学习的奖励为物联网设备/>的传输速率，表示为

；

其中，物联网设备的传输速率。

6.根据权利要求1所述的方法，其特征在于，根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练，得到训练好的深度预测Q网络，包括：

在每个时隙，归一化的状态输入训练网络，输出是每个动作的Q值，根据/>值和/>贪心策略选择动作，获得奖励/>并归一化下一观测值/>，利用经验重放方法将所有智能体的历史动作策略随机化，去除相邻数据间相关性，在经验回放/>中存储，从/>中抽取/>组经验作为训练数据并根据预先设置的损失函数对深度预测Q网络的权值更新并复制到固定目标网络，得到训练好的深度预测Q网络。

7.根据权利要求6所述的方法，其特征在于，所述每个动作的Q值为

；

其中，为奖励折扣系数，/>表示物联网设备/>在时隙/>观测结果，/>表示物联网设备在时隙/>的动作，/>为物联网设备/>获得的奖励/>。

8.根据权利要求7所述的方法，其特征在于，所述预先设置的损失函数为

；

9.根据权利要求1所述的方法，其特征在于，利用所述训练好的对深度预测Q网络所述求解模型进行求解，得到码本选择及功率分配策略，包括：

在输出层根据每个动作的Q值选择最优动作，所述最优动作为最优码本选择及功率分配策略。