CN117177275B

CN117177275B - 基于scma-mec的物联网设备计算速率优化方法

Info

Publication number: CN117177275B
Application number: CN202311452686.3A
Authority: CN
Inventors: 雷菁; 刘鹏涛; 刘伟; 杨颜冰; 董宇良
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-30
Anticipated expiration: 2043-11-03
Also published as: CN117177275A

Abstract

本申请涉及一种基于SCMA‑MEC的物联网设备计算速率优化方法。所述方法包括：根据卸载策略、码本分配和功率分配设置约束条件；利用目标函数和约束条件构建物联网设备计算速率优化问题的求解模型；将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，根据MQ‑RACO算法对设置后的可观测马尔可夫决策过程进行求解，根据最优卸载策略、SCMA码本最优分配策略和最优功率分配策略，得到物联网设备最优计算速率。采用本方法能够提高物联网设备计算效率。

Description

基于SCMA-MEC的物联网设备计算速率优化方法

技术领域

本申请涉及无线通信技术领域，特别是涉及一种基于SCMA-MEC的物联网设备计算速率优化方法。

背景技术

随着通信技术的快速发展，涌现出多种对时延敏感的新型通信场景，如自动驾驶、虚拟现实等。这些通信场景需要大量物联网设备实时数据处理与决策，但物联网设备有限的计算能力往往难以支撑这些场景中任务的实施。移动边缘计算(Mobile EdgeComputing, MEC)能够满足这些任务的计算要求，MEC是一种分布式计算模型，将计算能力强的MEC服务器部署于距离物联网设备更近的基站或接入点。物联网设备将任务卸载到附近MEC服务器上，可以实现更高的计算速率和更低的任务延迟。

非正交多址接入(Non-orthogonal Multiple Access, NOMA)技术允许多个物联网设备共享正交时频资源，实现大规模连接。稀疏码多址（Sparse Code Multiple Access,SCMA）是一种码域NOMA技术，其采用高维正交调幅映射与低密度扩频技术相结合的码本，通过将不同的码本分配给不同的物联网设备实现多址接入，并在接收端通过消息传递算法将不同设备的数据分离。因此SCMA技术在物联网场景下具有很大的潜力。

当前针对SCMA赋能的MEC技术研究主要集中在静态环境下，难以适应实际场景中的时变信道与任务随机生成的需求。此外，传统优化算法通常需要大量在线计算才能确定最优值，难以考虑任务动态变化，计算效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高物联网设备计算效率的基于SCMA-MEC的物联网设备计算速率优化方法。

一种基于SCMA-MEC的物联网设备计算速率优化方法，所述方法包括：

利用多个随机移动的物联网设备和配备MEC服务器的基站构建SCMA-MEC系统模型；

对SCMA-MEC系统模型进行初始化，在初始化后的SCMA-MEC系统模型中，物联网设备通过SCMA将任务卸载到基站，计算卸载过程的长期计算速率；

根据卸载策略、码本分配和功率分配设置约束条件；将最大化长期计算速率设置为目标函数，利用目标函数和约束条件构建物联网设备计算速率优化问题的求解模型；

将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略；根据物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略进行计算，得到物联网设备最优计算速率。

在其中一个实施例中，根据卸载策略、码本分配和功率分配设置约束条件，包括：

约束一：本地和边缘计算的计算时间不得超过任务截止时间，即为

；

其中，表示物联网设备/>执行本地计算时间，/>表示物联网设备/>在时隙/>的本地计算速率，/>表示计算密度，/>表示物联网设备/>在时隙/>的传输速率，/>表示用于任务描述的原始数据，/>表示任务截止时间；

约束二：物联网设备只能选择将任务卸载到一个MEC服务器，即为

，

其中，表示基站；

约束三：物联网设备占用SCMA码本的二进制变量，即为

，

其中，表示物联网的码本的分配情况；

约束四：物联网设备只能选择一个SCMA码本进行任务卸载，且所选择的SCMA码本应该对应于卸载决策，即为

；

其中，表示码本集合，/>表示物联网设备集合；

约束五：在子载波上分配功率因子，且功率分配比例之和等于1，即为

；

其中，表示码本/>占用子载波/>，/>表示子载波上分配的功率比例。

在其中一个实施例中，将最大化长期计算速率设置为目标函数为，其中，/>表示物联网设备在本地执行任务的时隙/>的计算速率。

在其中一个实施例中，将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，包括：

物联网设备在时隙/>的观测值/>包括每个MEC服务器的距离，子载波上的信道增益/>，以及当前生成的任务/>，即观测值为

；

物联网设备的动作为，表示选择要卸载的MEC服务器，整体动作空间为

；

其中，表示选取的SCMA码本，/>表示物联网设备/>在时隙/>的动作；

奖励表示在给定的动态时间范围内优化所有物联网设备的计算速率，执行联合动作后，环境返回的归一化奖励为

；

其中，表示物联网设备/>的计算速率，/>为系统带宽，/>表示物联网设备集合，表示物联网设备序号。

在其中一个实施例中，根据MQ-RACO算法包括智能体网络和中心评论家网络；智能体网络包括LSTM网络和密集网络；中心评论家网络包括具有相同结构的个网络；网络用于估计联合/>值和每个智能体的单独/>值；每个网络由级联模块、特征提取模块和/>函数估计模块组成；级联模块将所有智能体的观测和动作连接起来，以生成全局状态；特征提取模块为密集网络，用于提取智能体的观测和动作特征；/>函数估计模块用于根据智能体的观测和动作特征估计/>值；根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略，包括：

将设置后的可观测马尔可夫决策过程的物联网设备作为智能体网络中的智能体，根据LSTM网络对智能体的观测值处理，得到智能体的隐藏状态；将智能体的隐藏状态输入密集网络中，得到智能体根据当前环境状态选择的动作；

物联网设备根据观测值和LSTM生成的隐藏状态的历史记录，使用贪婪策略选择动作，将物联网的观测值和动作都输入到中央评论家网络中估计联合/>值和单个/>值；/>值包括观测值和动作；

根据预先设置的TD-损失对联合值和单个/>值进行更新，得到更新后的联合/>值和单个/>值；

利用更新后的单个值与根据本地观测所得的/>值之间的差异来更新智能体网络，再利用最小化TD损失对更新后的智能体网络中的智能体进行更新，得到更新好的智能体网络；

根据更新好的智能体网络输出物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略。

在其中一个实施例中，根据LSTM网络对智能体的观测值处理，得到智能体的隐藏状态，包括：

，

其中，表示智能体/>在前一个时刻/>的隐藏状态，/>表示智能体/>在时隙的观测值，/>表示观测值的数量。

在其中一个实施例中，将智能体的隐藏状态输入密集网络中，得到智能体根据当前环境状态选择的动作，包括：

密集网络为具有两个全连接层的前馈神经网络，两层均使用ReLU激活函数，在密集网络中采用贪婪策略快速找到最佳/>值和最优动作；所述最优动作为智能体根据当前环境状态选择的动作。

在其中一个实施例中，将物联网的观测值和动作都输入到中央评论家网络中估计联合值和单个/>值，包括：

将物联网的观测值和动作都输入到中央评论家网络中估计联合值和单个/>值为

，

其中，和/>分别表示中央评论家的联合网络和第/>个目标网络，/>表示全局状态，全局状态是来自所有物联网设备的观察结果的级联，/>表示所有物联网设备的联合动作。

在其中一个实施例中，预先设置的TD-损失包括：

；

其中，是每次采样的经验批次，/>和/>表示中央评论家中目标网络的参数，表示联合/>值，/>表示第/>个/>值，/>表示归一化奖励,/>表示中央评论家中联合目标网络输出值，/>表示奖励折扣系数，/>表示中央评论家中第/>个目标网络输出值，/>表示智能体/>的计算速率。

在其中一个实施例中，最小化TD损失为

；

其中，代表第/>个智能体网络的参数，/>表示智能体/>在时隙/>的动作，/>表示智能体/>在时隙/>的观测值。

上述基于SCMA-MEC的物联网设备计算速率优化方法，首先利用多个随机移动的物联网设备和配备MEC服务器的基站构建SCMA-MEC系统模型；对SCMA-MEC系统模型进行初始化，在初始化后的SCMA-MEC系统模型中，物联网设备通过SCMA将任务卸载到基站，计算卸载过程的长期计算速率，再根据卸载策略、码本分配和功率分配设置约束条件；将最大化长期计算速率设置为目标函数，利用目标函数和约束条件构建物联网设备计算速率优化问题的求解模型，通过将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，降低了部分可观测性带来的影响，能在部分可观测的环境中生成更好的策略，然后提出了MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，该算法包括智能体网络和中央评论家网络两个模块，智能体网络根据局部观测生成Q值，中心评论家网络可以有效地利用问题的奖励结构特征获得联合奖励，并确定每个智能体对团队的贡献来更新智能体网络，根据更新后的智能体网络来输出物联网设备在不同观测值下对应的最优动作从而构成最优卸载策略，即什么时间将什么任务卸载到哪个基站，以及根据最优卸载策略设置得到SCMA码本最优分配策略和最优功率分配策略，利用SCMA码本最优分配策略和最优功率分配策略计算得到物联网设备在时隙的最优传输速率，再根据最优卸载策略、物联网设备在时隙的最优传输速率以及物联网用户在本地执行任务和时隙的计算速率计算得到最优计算速率。与四种最先进的MARL算法相比，本发明能够实现了更稳定和更优的长期计算速率。

附图说明

图1为一个实施例中一种基于SCMA-MEC的物联网设备计算速率优化方法的流程示意图；

图2为一个实施例中SCMA-MEC系统模型的示意图；

图3为一个实施例中MQ-RACO算法框架示意图；

图4为另一个实施例中MQ-RACO算法的训练过程示意图；

图5为另一个实施例中MQ-RACO算法与四种先进的MARL算法性能对比图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于SCMA-MEC的物联网设备计算速率优化方法，包括以下步骤：

步骤102，利用多个随机移动的物联网设备和配备MEC服务器的基站构建SCMA-MEC系统模型；对SCMA-MEC系统模型进行初始化，在初始化后的SCMA-MEC系统模型中，物联网设备通过SCMA将任务卸载到基站，计算卸载过程的长期计算速率。

如图2所示，为SCMA-MEC系统模型的示意图，图中利用多个随机移动的物联网设备和配备MEC服务器的基站/>构建SCMA-MEC系统模型，动态时间范围为/>。在每个时隙/>，物联网设备生成计算任务的概率为/>，生成的计算任务都可以用/>来表示，其中/>为用于任务描述的原始数据，是计算密度，即每比特数据所需的平均CPU循环次数，而/>表示任务的截止时间。物联网设备/>在时隙/>的本地计算速率为/>。物联网设备的计算卸载策略可表示为

，

其中，当物联网设备执行本地计算时/>，当物联网设备在时间/>将任务卸载到MEC服务器/>进行计算时，/>。

，

表示物联网设备是否选择执行任务卸载。如果物联网用户在本地执行任务，则时隙的计算速率为/>。

在系统模型中，物联网设备通过SCMA将任务卸载到基站。SCMA编码器将个比特映射为一个/>维SCMA码字，/>，/>表示SCMA码本。在接收端，SCMA接收机使用MPA进行联合多用户检测，这使得多个物联网设备能够同时传输任务。在SCMA系统中，用集合/>和/>来表示码本和子载波，且/>，/>。指示矩阵/>用于表征子载波和码本之间的相关性，矩阵元素记为/>。/>的值为1表示码本占用子载波/>。一个6用户共享4个正交时频资源的SCMA矩阵为

；

SCMA码字是一个具有稀疏度为的向量，即有/>个非零元素。在基于SCMA的MEC网络中，多个用户使用不同的SCMA码本将他们的任务卸载到基站。SCMA码本的分配情况为。当物联网设备/>使用SCMA码本/>将计算任务卸载到基站/>时，。为最大限度减少各个物联网设备间的干扰，假设每个物联网设备单独使用SCMA码本，即/>，且/>。用户/>在码本/>上的发射功率为/>。根据比例/>将相应的功率分配给子载波/>。因此，SCMA码本分配和功率分配策略为

，

基于SCMA码本分配和功率分配策略，在基站处接收到的使用码本/>的物联网设备/>的SCMA信号为

；

其中，为物联网设备/>的功率，/>是设备/>通过子载波/>到基站/>的准静态衰落块信道增益，/>是发射的信号，/>为背景噪声的功率。根据接收信号，时隙/>时设备/>在基站/>中占用码本/>的信干噪比（SINR）为

，

其中代表小区间的干扰，即

，

系统带宽为，则设备/>在时隙/>的传输速率为

在实际物联网网络中，分配给物联网设备的任务通常涉及到目标识别和环境感知。这些类型的任务需要上传大量数据，但需要返回的结果通常非常小。因此，与上传时间相比，计算时间和返回时间之和的差异超过了三个数量级，可以忽略不计。因此，卸载模式下的计算率可以认为是传输速率。

此时SCMA-MEC系统的和计算速率为

。

步骤104，根据卸载策略、码本分配和功率分配设置约束条件；将最大化长期计算速率设置为目标函数，利用目标函数和约束条件构建物联网设备计算速率优化问题的求解模型。

在任务截止时间及SCMA码本结构的约束下，本发明的优化目标为最大化动态SCMA-MEC网络的和长期计算速率，即

。

考虑卸载策略、码本分配和功率分配，该优化问题存在以下约束：

约束一：本地和边缘计算的计算时间不得超过任务截止时间，以确保总体计算速率满足任务的最低要求，即

；

约束二：物联网设备只能选择将任务卸载到一个MEC服务器，

；

约束三：物联网设备占用SCMA码本的二进制变量，

；

约束四：物联网设备只能选择一个SCMA码本进行任务卸载，且所选择的SCMA码本应该对应于卸载决策，

；

约束五：表示在子载波上分配功率因子，且功率分配比例之和等于1，即

。

步骤106，将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略；根据物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略进行计算，得到物联网设备最优计算速率。

将最大化动态SCMA-MEC网络的长期计算速率问题表述为部分可观测马尔可夫决策过程(POMDP)。在动态的SCMA-MEC系统模型中，物联网设备被视为智能体。每个物联网设备观测到自己的信道状态和任务生成信息，没有其他用户的观测信息。因此优化问题可表示为部分可观测马尔可夫决策过程。首先设置观测值、动作空间和奖励，包括：

观测:用户在时隙/>的观测值/>包括三个部分，到每个MEC服务器的距离，子载波上的信道增益/>，以及当前生成的任务/>，即观测值为

；

且。全局状态是来自所有物联网设备的观察结果的级联，记为/>。

动作：物联网设备的动作为，表示选择要卸载的MEC服务器。当时，表示不进行计算卸载。/>代表选取的SCMA码本。/>表示子载波上分配的功率比例。因此整体的动作

；

其中，，所有物联网设备的联合动作/>。

奖励：优化问题的目标是在给定的动态时间范围内优化所有物联网设备的计算速率，执行联合动作后，环境返回的归一化奖励设为

；

其中，表示物联网设备/>的计算速率，/>为系统带宽。

本申请中提出了MQ-RACO算法框架解决可观测马尔可夫决策过程，如图3所示，MQ-RACO算法框架，包括两个模块，即智能体网络和中心评论家网络。由于联合奖励是每个智能体的个体奖励的线性总和，中心评论家可以有效地获得联合奖励，并确定每个智能体对团队的贡献。

智能体网络:物联网设备作为智能体，只能观测到部分环境信息。每个智能体网络可以构造为(DRQN)网络，包括LSTM和密集网络。DRQN网络的LSTM部分能够生成内部状态并整合随时间变化的观测结果，降低了部分可观测性带来的影响，因此能在部分可观测的环境中生成更好的策略。观测值反馈到LSTM网络中，/>是智能体/>在前一个时刻的隐藏状态，即

；

其中，代表观测值的数量。LSTM的输出通过一个密集网络。密集网络为具有两个FC层的前馈神经网络，两层均使用ReLU激活函数。为加强对动作的探索，在该网络中采用了-策略。在训练初始阶段，将/>的值设置为更高的值，可探索并快速找到最佳/>值。MQ-RACO框架结合了参数共享策略，因此显著减少了训练参数的数量。在所考虑的场景中，物联网设备是同构的，能够从所有其他智能体的经验中共享相同的奖励、观测和动作空间。虽然在训练过程中共享相同的网络参数，但智能体能从不同的观测中进化出不同的隐藏状态，选择的动作不同。

中心评论家网络：中心评论家网络包括具有相同结构的个网络，这些网络用于估计联合/>值和每个智能体的单独/>值。每个网络由级联模块、特征提取模块和/>函数估计模块组成。级联模块将所有智能体的观测和动作连接起来，以生成全局状态。特征提取模块是一个具有两个全连接层的密集网络，用于提取智能体的观测和动作特征。基于上述特征可以估计/>值(/>和/>)，即

，

其中，和/>分别表示联合网络和第/>个独立网络。由于物联网设备是同构的，中心评论家网络同样采用了参数共享策略，这有效地减少了网络参数并使加速训练。

如图4所示为MQ-RACO算法的训练过程，包括两个阶段。在第一阶段，更新中央评论家网络。物联网设备根据自己的观测结果和LSTM生成的历史记录，使用贪婪策略选择动作。所有物联网观测和动作都被输入到中央评论家网络中，估计联合/>值/>和单个/>值。这两个/>值使用以下TD-损失进行更新

，

其中，是每次采样的经验批次，/>和/>表示中央批评家的目标网络的参数。

在第二阶段，智能体网络通过由中央评论家基于全局信息估计的值/>与根据本地观测所得的/>值/>之间的差异来更新。每个物联网设备根据最小化TD损失来更新，即

；

其中，代表第/>个智能体网络的参数。

根据更新后的智能体网络来输出物联网设备在不同观测值下对应的动作从而构成最优卸载策略，即什么时间将什么任务卸载到哪个基站，以及根据最优卸载策略设置得到SCMA码本最优分配策略和最优功率分配策略，利用SCMA码本最优分配策略和最优功率分配策略计算得到物联网设备在时隙的最优传输速率，再根据最优卸载策略、物联网设备在时隙的最优传输速率以及物联网用户在本地执行任务和时隙的计算速率计算得到最优计算速率。

如图5所示，图5对比了MQ-RACO算法与四种先进的MARL算法在不同小区数下的平均计算率。结果表明，MQ-RACO算法在所有情况下都优于其他算法。在6个小区的情况下，MQ-RACO的计算速率为，高于/>、/>、、/>和随机方案/>，此时MQ-RACO相对于其他MARL算法的优势分别为18.1%、13.5%、51.7%和54.4%。

上述基于SCMA-MEC的物联网设备计算速率优化方法中，首先利用多个随机移动的物联网设备和配备MEC服务器的基站构建SCMA-MEC系统模型；对SCMA-MEC系统模型进行初始化，在初始化后的SCMA-MEC系统模型中，物联网设备通过SCMA将任务卸载到基站，计算卸载过程的长期计算速率，再根据卸载策略、码本分配和功率分配设置约束条件；将最大化长期计算速率设置为目标函数，利用目标函数和约束条件构建物联网设备计算速率优化问题的求解模型，通过将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，降低了部分可观测性带来的影响，能在部分可观测的环境中生成更好的策略，然后提出了MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，该算法包括智能体网络和中央评论家网络两个模块，智能体网络根据局部观测生成Q值，中心评论家网络可以有效地利用问题的奖励结构特征获得联合奖励，并确定每个智能体对团队的贡献来更新智能体网络，使得根据更新好的智能体网络可以输出物联网设备在不同观测值下对应的最优动作从而构成最优卸载策略，即什么时间将什么任务卸载到哪个基站，以及根据最优卸载策略设置得到SCMA码本最优分配策略和最优功率分配策略，利用SCMA码本最优分配策略和最优功率分配策略计算得到物联网设备在时隙的最优传输速率，再根据最优卸载策略、物联网设备在时隙的最优传输速率以及物联网用户在本地执行任务和时隙的计算速率计算得到最优计算速率。与四种最先进的MARL算法相比，本发明能够实现了更稳定和更优的长期计算速率。

；

其中，表示物联网设备/>执行本地计算时间，/>表示物联网设备/>在时隙的本地计算速率，/>表示计算密度，/>表示物联网设备/>在时隙/>的传输速率，表示用于任务描述的原始数据，/>表示任务截止时间；

，

其中，表示基站；

约束三：物联网设备占用SCMA码本的二进制变量，即为

，

其中，表示物联网的码本的分配情况；

；

其中，表示码本集合，/>表示物联网设备集合；

；

其中，表示选取的SCMA码本，/>表示物联网设备/>在时隙/>的动作。

；

其中，表示物联网设备/>的计算速率，/>为系统带宽，/>表示物联网设备集合，/>表示物联网设备序号。

在其中一个实施例中，根据MQ-RACO算法包括智能体网络和中心评论家网络；智能体网络包括LSTM网络和密集网络；中心评论家网络包括具有相同结构的个网络；网络用于估计联合/>值和每个智能体的单独/>值；每个网络由级联模块、特征提取模块和函数估计模块组成；级联模块将所有智能体的观测和动作连接起来，以生成全局状态；特征提取模块为密集网络，用于提取智能体的观测和动作特征；/>函数估计模块用于根据智能体的观测和动作特征估计/>值；根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略，包括：

物联网设备根据观测值和LSTM生成的隐藏状态的历史记录，使用贪婪策略选择动作，将物联网的观测值和动作都输入到中央评论家网络中估计联合/>值和单个/>值；值包括观测值和动作；

根据预先设置的TD-损失对联合值和单个/>值进行更新，得到更新后的联合值和单个/>值；

；

其中，表示智能体/>在前一个时刻/>的隐藏状态，/>表示智能体/>在时隙/>的观测值，/>表示观测值的数量。

，

，/>

在其中一个实施例中，预先设置的TD-损失包括：

；

在其中一个实施例中，最小化TD损失为

；

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于SCMA-MEC的物联网设备计算速率优化方法，其特征在于，所述方法包括：

对所述SCMA-MEC系统模型进行初始化，在初始化后的SCMA-MEC系统模型中，物联网设备通过SCMA将任务卸载到基站，计算卸载过程的长期计算速率；

根据卸载策略、码本分配和功率分配设置约束条件；将最大化所述长期计算速率设置为目标函数，利用所述目标函数和约束条件构建物联网设备计算速率优化问题的求解模型；

将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略；根据所述物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略进行计算，得到物联网设备最优计算速率；

所述根据MQ-RACO算法包括智能体网络和中心评论家网络；所述智能体网络包括LSTM网络和密集网络；所述中心评论家网络包括具有相同结构的个网络，所述网络用于估计联合/>值和每个智能体的单独/>值，每个网络由级联模块、特征提取模块和/>函数估计模块组成；所述级联模块将所有智能体的观测和动作连接起来，以生成全局状态；所述特征提取模块为密集网络，用于提取智能体的观测和动作特征；所述/>函数估计模块用于根据智能体的观测和动作特征估计/>值；根据MQ-RACO算法对设置后的可观测马尔可夫决策过程进行求解，得到物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略，包括：

利用所述更新后的单个值与根据本地观测所得的/>值之间的差异来更新智能体网络，再利用最小化TD损失对更新后的智能体网络中的智能体进行更新，得到更新好的智能体网络；

根据所述更新好的智能体网络输出物联网设备的最优卸载策略、SCMA码本最优分配策略和最优功率分配策略；

根据LSTM网络对智能体的观测值处理，得到智能体的隐藏状态，包括：

，

其中，表示智能体/>在前一个时刻/>的隐藏状态，/>表示智能体/>在时隙/>的观测值，/>表示观测值的数量；

将智能体的隐藏状态输入密集网络中，得到智能体根据当前环境状态选择的动作，包括：

所述密集网络为具有两个全连接层的前馈神经网络，两层均使用ReLU激活函数，在所述密集网络中采用贪婪策略快速找到最佳/>值和最优动作；所述最优动作为智能体根据当前环境状态选择的动作；

将物联网的观测值和动作都输入到中央评论家网络中估计联合值和单个/>值，包括：

，

其中，和/>分别表示中央评论家的联合网络和第/>个目标网络，/>表示全局状态，全局状态是来自所有物联网设备的观察结果的级联，/>表示所有物联网设备的联合动作；

所述预先设置的TD-损失包括：

，

其中，是每次采样的经验批次，/>和/>表示中央评论家中目标网络的参数，/>表示联合/>值，/>表示第/>个/>值，/>表示归一化奖励,/>表示中央评论家中联合目标网络输出值，/>表示奖励折扣系数，/>表示中央评论家中第/>个目标网络输出值，/>表示智能体/>的计算速率；

所述最小化TD损失为

，

2.根据权利要求1所述的方法，其特征在于，根据卸载策略、码本分配和功率分配设置约束条件，包括：

，

其中，表示物联网设备/>的任务卸载策略，/>表示物联网设备/>在时隙/>的本地计算速率，/>表示计算密度，/>表示物联网设备/>在时隙/>的传输速率，/>表示用于任务描述的原始数据，/>表示任务截止时间；

，

其中，表示基站；

约束三：物联网设备占用SCMA码本的二进制变量，即为

，

其中，表示物联网的码本的分配情况；

，

其中，表示码本集合，/>表示物联网设备集合；

，

3.根据权利要求2所述的方法，其特征在于，将最大化所述长期计算速率设置为目标函数为，其中，/>表示物联网设备在本地执行任务的时隙/>的计算速率，/>表示物联网设备的计算卸载策略，/>表示SCMA码本分配策略，/>表示功率分配策略。

4.根据权利要求2所述的方法，其特征在于，将计算速率优化问题表示为可观测马尔可夫决策过程并设置可观测马尔可夫决策过程中的观测值、动作空间和奖励，包括：

物联网设备在时隙/>的观测值/>包括每个MEC服务器的距离/>，子载波上的信道增益/>，以及当前生成的任务/>，即观测值为

；

物联网设备的动作为

，