CN117202310A

CN117202310A - mMTC场景中终端设备的接入方法、装置及网络设备

Info

Publication number: CN117202310A
Application number: CN202311020315.8A
Authority: CN
Inventors: 吴军英; 张鹏飞; 王玉贞; 尹晓宇; 李艳军; 王金朔; 刘佳宜; 杨清海; 卢艳艳; 刘俊岭
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd; Guangzhou Institute of Technology of Xidian University
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd; Guangzhou Institute of Technology of Xidian University
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-08

Abstract

本发明提供一种mMTC场景中终端设备的接入方法、装置及网络设备。该方法包括：获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息；根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。本发明能够提高网络整体的吞吐量和设备接入的可靠性，实现在mMTC场景下使大量MTC设备接入基站。

Description

mMTC场景中终端设备的接入方法、装置及网络设备

技术领域

本发明涉及大规模机器类型通信技术领域，尤其涉及一种mMTC场景中终端设备的接入方法、装置及网络设备。

背景技术

5G及其他移动网络的部署大大推动了机器类型通信网络的发展，同时，也给机器类型通信网络带来了更高的要求，比如需要支持大量高密度部署的设备的接入。随着mMTC(Massive Machine Type Communication，大规模机器类型通信)设备数目和部署密度的急剧上升，传统的随机接入技术已经渐渐无法满足MTC通信的需求，因此迫切需要一个能够利用有限的频谱资源来实现尽可能多的MTC设备接入基站的接入方案。

在接入方案的探索中，目前已经提出的方法有利用Q-Learning的强化学习方法，通过使用每个时隙的设备冲突次数作为奖励来训练出尽量避免设备冲突的接入方案，从而提高设备成功接入概率，然而，这个方法的复杂度较高，不仅需要确定冲突设备数量，还需要来自基站的大量反馈，这并不能满足5G下mMTC场景的低功耗需求，并且还会导致下行链路的拥堵。另一个方法是通过在基站使用Q-Learning动态调整接入等级限制方案的限制因子来限制设备接入，以降低设备发生冲突的概率，这种方案还是使用的传统的随机接入方法，虽然提高了设备的接入成功率，但它是通过限制设备接入来实现的，随着mMTC设备数量不断增加，这种方法将不再适用。

因此，相关技术中还没有能够在mMTC场景下实现大量MTC设备接入基站的有效接入方法。

发明内容

本发明实施例提供了一种mMTC场景中终端设备的接入方法、装置及网络设备，以解决相关技术中无法在mMTC场景下实现大量MTC设备接入基站的问题。

第一方面，本发明实施例提供了一种mMTC场景中终端设备的接入方法，包括：

获取大规模机器类通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息；

根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；

基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。

在一种可能的实现方式中，基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略，包括：

将状态矩阵S中的状态S_i-1输入到第i个智能体的Q网络中；

第i个智能体对应的Q网络选取动作矩阵A_i中的动作a_i并执行，使得状态S_i-1转化为状态S_i；

将状态S_i输入到第i+1个智能体对应的Q网络中，直到遍历完全部智能体对应的Q网络，得到该次迭代的状态矩阵S’；

根据该次迭代的状态矩阵S’和奖励函数计算每个智能体的奖励值；

根据每个智能体的奖励值和损失函数更新每个智能体的Q网络，并跳转执行将状态矩阵中的状态S_i-1输入到第i个智能体的Q网络中步骤，直到多智能体强化学习模型满足预设条件后，输出最终的状态矩阵；

根据每个智能体的状态确定mMTC场景中的每个终端设备接入网络设备的选择策略。

在一种可能的实现方式中，切片信息包括切片数；时隙信息包括时隙数；发射功率等级信息包括发射功率等级数；

状态矩阵为一个N_S×N_T×N_P的矩阵，其中N_S为切片数，N_T为时隙数，N_P为发射功率等级数；

动作矩阵为一个N_S×N_T×N_P的矩阵；

在动作矩阵中，第i个智能体选取的切片、时隙和发射功率对应的元素置1，其余元素置0。

在一种可能的实现方式中，奖励函数为：

在一种可能的实现方式中，损失函数为：

其中，r_i为第i个智能体得到的奖励值，Q_i为第i个智能体的Q网络，s_i-1为Q_i输入的状态，a_i为第i个智能体选取的动作，ω_i为第i个智能体的网络权重；

根据每个智能体的奖励值和损失函数更新每个智能体的Q网络，包括：

根据每个智能体的奖励值计算每个智能体对应的损失量；

根据每个智能体的损失量更新每个智能体的Q网络中的ω参数。

在一种可能的实现方式中，根据该次迭代的状态矩阵S’和奖励函数计算每个智能体的奖励值，包括：

根据状态矩阵S’，对mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果；

根据每个智能体的接入结果和奖励函数计算mMTC场景中的每个智能体的奖励值；

根据状态矩阵S’，对mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果，包括：

针对每个智能体执行以下步骤：

根据下式计算该智能体的信噪比；

其中，P_m,s,r为网络设备在切片s，时隙t中，从第m个智能体接收到的瞬时功率；M为mMTC场景中智能体的总数；P_j,s,t为网络设备在切片s，时隙t中，从第j个智能体接收到的瞬时功率；为噪声功率；

当该智能体的信噪比满足下式条件时，表示该智能体接入成功：

SINR_m,s,t≥2^R-1

其中，R为常数，表示频谱效率。

第二方面，本发明实施例提供了一种mMTC场景中终端设备的接入装置，包括：

获取模块，用于获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息；

构建模块，用于根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；

选择模块，用于基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。

第三方面，本发明实施例提供了一种网络设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种通信系统，包括至少一个终端设备和如上第三方面所述的网络设备。

第五方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种mMTC场景中终端设备的接入方法、装置及网络设备，通过获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息；根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。本发明基于多智能体强化学习模型，把每个终端设备作为一个独立的智能体训练，具有更高的灵活性，便于在实际应用时进行扩展；在进行终端设备接入时，同时考虑了属性信息和参数信息的选择，提高了网络整体的吞吐量和设备接入的可靠性。本发明能够在mMTC场景下实现大量MTC设备接入基站。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的mMTC场景中终端设备的接入方法的应用场景图；

图2是本发明实施例提供的mMTC场景中终端设备的接入方法的实现流程图；

图3是本发明实施例提供的mMTC场景中终端设备的接入方法的另一实现流程图；

图4是本发明实施例提供的mMTC场景中终端设备的接入方法的另一实现流程图；

图5是本发明实施例提供的mMTC场景中终端设备的接入装置的结构示意图；

图6是本发明实施例提供的网络设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

图1为本发明实施例提供的mMTC场景中终端设备的接入方法的应用场景图。如图1所示：

本实施例中的mMTC场景是5G技术在物联网络中的应用，考虑移动通信网络RAN侧，其具体可以分为设备(也即终端设备)和基站(也即网络设备)两部分。本实施例可以在mMTC场景中为有接入基站需求的设备选择合适的切片与时隙进行接入，同时为接入的设备选择合适的发射功率来进行信息传输。其中，基站可以是5G基站，其可以为覆盖范围内的设备提供多个切片和时隙以进行选择接入。

参见图2，其示出了本发明实施例提供的mMTC场景中终端设备的接入方法的实现流程图，详述如下：

步骤210：获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息。

在本实施例中，每个终端设备可以是mMTC终端设备，其具有数目大、部署密度高、低功耗需求、激活概率较低，且数据包较短以及业务到达率服从泊松分布等特点。

mMTC场景中的需求信息可以包括该mMTC场景需要接入的终端设备的数量；系统架构可以包括该mMTC场景中终端设备的分布情况；参数信息可以包括mMTC场景中网络设备，也即基站所提供的切片信息、时隙信息和发射功率等级信息等。

每个终端设备的属性信息可以包括每个终端设备的位置信息、发射功率、数据包长、业务到达率等。

步骤220：根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定。

在本实施例中，根据mMTC场景的需求信息、系统架构以及参数信息可以构建多智能体强化学习模型。在该多智能体强化学习模型中，每个终端设备可以作为独立的智能体，进行分布式训练，每个智能体对应一个Q网络，使多智能体强化学习模型具有更高的灵活性。在进行多智能体强化学习模型优化的过程中，可以根据每个终端设备的属性信息和mMTC场景的参数信息确定其状态矩阵，使该多智能体强化学习模型在实际应用时能够提高网络整体的吞吐量和终端设备接入的可靠性。

步骤230：基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。

在本实施例中，多智能体强化学习模型在进行优化后，最终可以输出mMTC场景中的每个终端设备接入网络设备的选择策略，也即，是通过哪个具体的切片和时隙接入网络设备的，并且在进行信息传输时所选用的具体发射功率。

综上，本发明实施例通过获取大规模机器类通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息；根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。本发明基于多智能体强化学习模型，把每个终端设备作为一个独立的智能体训练，具有更高的灵活性，便于在实际应用时进行扩展；在进行终端设备接入时，同时考虑了属性信息和参数信息的选择，提高了网络整体的吞吐量和设备接入的可靠性。本发明能够能在mMTC场景下实现大量MTC设备接入基站。

在一些实施例中，基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略可以包括：

将状态矩阵S中的状态S_i-1输入到第i个智能体的Q网络中；

在本实施例中，可以通过更新每个智能体的Q网络中的参数，对多智能体强化学习模型进行优化。其中，切片信息包括切片数；时隙信息包括时隙数；发射功率等级信息包括发射功率等级数。

以下通过一个具体的实施例进行说明。

图3是本发明实施例提供的mMTC场景中终端设备的接入方法的另一实现流程图。如图3所示：

S3.1：为每个终端设备定义其相应的训练网络，也即Q网络，并且随机初始化其属性信息。其中，属性信息可以包括每个终端设备的位置信息、发射功率、数据包长、业务到达率等。

S3.2：把mMTC场景中的切片、时隙和发射功率的选择情况作为状态，定义状态矩阵S。也即，状态矩阵S是一个N_S×N_T×N_P的矩阵，其中N_S为切片数，N_T为时隙数，N_P为发射功率等级数。

S3.3：把所有可能被选择的切片、时隙和发射功率用0-1变量表示作为动作，定义动作矩阵A_i,i∈[1,N]。也即，动作矩阵为一个N_S×N_T×N_P的矩阵。在动作矩阵中，第i个智能体选取的切片、时隙和发射功率对应的元素置1，其余元素置0。

S3.4：根据设备是否成功接入基站，定义奖励函数r。也即，奖励函数r可以为：

图4是本发明实施例提供的mMTC场景中终端设备的接入方法的另一实现流程图。图4可以作为图3中各步骤的具体实施方式，具体参见图4：

S4.1：将mMTC场景中的每个终端设备均作为智能体，迭代执行S4.2和S4.3操作。

本实施例基于mMTC场景的需求、架构以及参数，通过多智能体强化学习算法解决mMTC终端设备的接入切片、接入时隙和发射功率选择问题，并将该问题建立为多智能体强化学习模型。在具体实施的过程中，该多智能体强化学习模型应用了DQN(DeepReinforcement Learning，深度强化学习)的Q网络，其将mMTC场景中的每个mMTC终端设备作为独立的智能体，并训练其对应的Q网络。另外，需要注意的是，本实施例没有应用DQN的经验回放池和目标网络。

S4.2：每个智能体依次根据当前系统状态采用探索-贪婪策略选取动作空间A_i中的动作a_i并执行。

本实施例应用的多智能体强化学习算法中，状态是公共的，即所有智能体在同一时刻面对相同的状态。在进行每个智能体选择状态与动作时，可以采用探索-贪婪策略进行。具体的，可以将状态矩阵S中的状态S_i-1输入到第i个智能体的Q网络中，然后第i个智能体对应的Q网络选取动作矩阵A_i中的动作a_i并执行，使得状态S_i-1转化为状态S_i；其中，第一个智能体输入的状态是初始状态S₀，也即，是一个0的状态。

之后，将状态S_i输入到第i+1个智能体对应的Q网络中，直到遍历完全部智能体对应的Q网络，得到该次迭代的状态矩阵S’。在本实施例中，智能体选取的动作a_i使状态S_i-1发生转变，即，将智能体选取的动作a_i与当前状态S_i-1相加，相加的结果即为转变后的状态S_i。

S4.3：所有智能体选择完动作后，通过奖励函数计算每个智能体的奖励值，并根据奖励值更新每个智能体的Q网络，即完成一次迭代。

在本实施例中，所有智能体选择完动作后，也即该次迭代结束后，根据该次迭代的状态矩阵S’和奖励函数计算每个智能体的奖励值。

具体的，根据每个智能体的奖励值和损失函数更新每个智能体的Q网络。之后，跳转执行将状态矩阵中的状态S_i-1输入到第i个智能体的Q网络中步骤，开始新的迭代过程。

S4.4：达到预设迭代次数并且模型收敛后，得到优化后的切片、时隙和发射功率选择策略。

在本实施例中，重复执行S4.2和S4.3的操作直到多智能体强化学习模型满足预设条件后，输出最终的状态矩阵。也即直到迭代次数到达预设次数且多智能体强化学习模型收敛后停止迭代，并输出结果。所输出的结果即为mMTC场景中每个终端设备优化后的切片、时隙和发射功率选择策略；

根据每个智能体的状态可以确定mMTC场景中的每个终端设备接入网络设备的选择策略。

在一些实施例中，损失函数为：

根据每个智能体的奖励值计算每个智能体对应的损失量；

在本实施例中，每次迭代时更新的每个智能体的Q网络实质上是在更新Q网络中的ω参数，这个ω参数可以通过损失函数计算得到。在更新Q网络时，可以采用梯度下降法进行更新。

在一些实施例中，根据该次迭代的状态矩阵S’和奖励函数计算每个智能体的奖励值，包括：

根据每个智能体的接入结果和奖励函数计算mMTC场景中的每个智能体的奖励值。

在本实施例中，在每次迭代时，无法直观判断每个终端设备的接入情况。由于每个终端设备的业务到达率服从泊松分布，即每个终端设备有一个接入请求概率P_i，当终端设备请求接入网络设备时，该终端设备(也即智能体)选择动作；当终端设备不接入网络设备时，不选择动作。因此，可以通过对mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果。

在确定每个智能体的接入结果后，可以根据每个智能体的接入结果和奖励函数计算mMTC场景中的每个智能体的奖励值。

在一些实施例中，根据状态矩阵S’，对mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果，包括：

针对每个智能体执行以下步骤：

根据下式计算该智能体的信噪比；

其中，P_m,s,t为网络设备在切片s，时隙t中，从第m个智能体接收到的瞬时功率；M为mMTC场景中智能体的总数；P_j,s,t为网络设备在切片s，时隙t中，从第j个智能体接收到的瞬时功率；为噪声功率；

SINR_m,s,t≥2^R-1

其中，R为常数，表示频谱效率。

在本实施例中，切片信息中可以包括切片数据。mMTC场景中的切片数据可以按照频率划分，使每个切片包含一个子载波。终端设备发送的信号到达基站(也即网络设备)的接收功率受慢衰落和快衰落的影响。由于信号传输的快衰落主要是瑞利衰落，故接收信号的功率服从瑞利分布，其概率密度为：

信号传输的慢衰落主要是路径损耗，与终端设备到基站(也即网络设备)的距离有关，考虑对数距离路径损耗，损耗模型可以为：

其中，是平均接收功率；d_s,r是参考距离；/>表示采用Friis方程计算；η是路径损耗指数；d_m,s,t是终端设备m到基站的距离；[dB]为分贝，用于表示数值的大小。若求得的结果较大，可以转换为分贝进行表示。

根据损耗模型，可以通过如下公式求得P_m,s,t：

其中，h_m,s,t是在空间和时间上独立同分布的瑞利衰落参数。

在信号的实际接收过程中，还要考虑噪声的影响，因此，可以通过下式计算噪声功率：

其中，N₀是噪声功率谱密度，B是带宽，F是噪声指数。

在得到P_m,s,t、P_j,s,t和后，可以根据下式计算每个智能体的信噪比；

当任意一个智能体的信噪比满足下式条件时，表示该智能体接入成功，相应的，奖励函数r为1；反之则表示该智能体接入失败，相应的，奖励函数r为-1；若该智能体没有请求接入，则奖励函数r为0：

SINR_m,s,t≥2^R-1

本发明实施例基于多智能体强化学习，把每个终端设备作为独立的智能体，进行分布式训练，以得到优化后的切片、时隙和发射功率选择策略。其步骤为：首先，确定mMTC场景的需求、架构和各项参数。接下来基于需求、架构和参数，通过多智能体强化学习算法解决mMTC终端设备的接入切片、接入时隙和发射功率选择问题，将该问题建立为多智能体强化学习模型。在模型中，把切片、时隙和发射功率的选择情况作为状态矩阵，把所有可能被选择的切片、时隙和发射功率用0-1变量表示作为动作矩阵供智能体选择，并根据终端设备是否接入成功建立奖励函数。接下来对模型进行迭代训练，当模型训练至收敛后，输出的动作即是优化后的切片、时隙及发射功率的选择策略。

本发明实施例所提供的方法，其优越性在于：(1)基于多智能体强化学习模型，把每个终端设备作为一个独立的智能体，便于扩展；(2)同时考虑了切片、时隙和发射功率的选择，提高了网络整体的吞吐量和设备接入的可靠性。(3)通过对发射功率的选择，对终端设备的发射功率进行了限制，降低了系统整体的能耗。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图5示出了本发明实施例提供的mMTC场景中终端设备的接入装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图5所示，mMTC场景中终端设备的接入装置5包括：

获取模块51，用于获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，参数信息包括切片信息、时隙信息和发射功率等级信息，每个终端设备的属性信息包括每个终端设备的发射功率信息；

构建模块52，用于根据mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定；

选择模块53，用于基于多智能体强化学习模型确定mMTC场景中的每个终端设备接入网络设备的选择策略。

在一些实施例中，选择模块53具体用于：

将状态矩阵S中的状态S_i-1输入到第i个智能体的Q网络中；

在一些实施例中，获取模块51中的切片信息包括切片数；时隙信息包括时隙数；发射功率等级信息包括发射功率等级数；

动作矩阵为一个N_S×N_T×N_P的矩阵；

在一些实施例中，构建模块52中的奖励函数为：

在一些实施例中，构建模块52中的损失函数为：

根据每个智能体的奖励值计算每个智能体对应的损失量；

在一些实施例中，选择模块53具体用于：

针对每个智能体执行以下步骤：

根据下式计算该智能体的信噪比；

其中，P_m,s,t为网络设备在切片s，时隙t中，从第m个智能体接收到的瞬时功率；M为mMTC场景中智能体的总数；P_j,s,t为网络设备在切片s，时隙t中，从第j个智能体接收到的瞬时功率为噪声功率；

SINR_m,s,t≥2^R-1

其中，R为常数，表示频谱效率。

图6是本发明实施例提供的网络设备的示意图。如图6所示，该实施例的网络设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个mMTC场景中设备的接入方法实施例中的步骤，例如图2所示的步骤210至步骤230。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示各模块的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述网络设备6中的执行过程。例如，所述计算机程序62可以被分割成图5所示各模块。

所述网络设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述网络设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是网络设备6的示例，并不构成对网络设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述网络设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述网络设备6的内部存储单元，例如网络设备6的硬盘或内存。所述存储器61也可以是所述网络设备6的外部存储设备，例如所述网络设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述网络设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述网络设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例还提供了一种通信系统，包括至少一个终端设备和上述的网络设备。该通信系统能够控制网络设备通过获取大规模机器类通信mMTC场景中每个终端设备的属性信息和mMTC场景的参数信息；其中，每个设备的属性信息包括每个设备的发射功率信息，参数信息包括切片信息和时隙信息；根据每个设备的属性信息和mMTC场景的参数信息定义状态矩阵、动作矩阵和奖励函数；将每个设备作为独立的智能体进行训练，根据状态矩阵、动作矩阵、奖励函数和多智能体强化学习模型，得到mMTC场景中的每个终端设备的接入的选择策略。本发明能够能够提高网络整体的吞吐量和设备接入的可靠性，实现在mMTC场景下使大量MTC设备接入基站。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个mMTC场景中设备的接入方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种mMTC场景中终端设备的接入方法，其特征在于，包括：获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，所述参数信息包括切片信息、时隙信息和发射功率等级信息，所述每个终端设备的属性信息包括每个终端设备的发射功率信息；

根据所述mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，所述多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；所述多智能体强化学习模型的状态矩阵根据所述属性信息和所述参数信息确定；

基于所述多智能体强化学习模型确定所述mMTC场景中的每个终端设备接入网络设备的选择策略。

2.根据权利要求1所述的mMTC场景中终端设备的接入方法，其特征在于，所述基于所述多智能体强化学习模型确定所述mMTC场景中的每个终端设备接入网络设备的选择策略，包括：

将所述状态矩阵S中的状态S_i-1输入到第i个智能体的Q网络中；

所述第i个智能体对应的Q网络选取动作矩阵A_i中的动作a_i并执行，使得状态S_i-1转化为状态S_i；

将所述状态S_i输入到第i+1个智能体对应的Q网络中，直到遍历完全部智能体对应的Q网络，得到该次迭代的状态矩阵S’；

根据每个智能体的奖励值和损失函数更新每个智能体的Q网络，并跳转执行将所述状态矩阵中的状态S_i-1输入到第i个智能体的Q网络中步骤，直到所述多智能体强化学习模型满足预设条件后，输出最终的状态矩阵；

根据每个智能体的状态确定所述mMTC场景中的每个终端设备接入网络设备的选择策略。

3.根据权利要求2所述的mMTC场景中终端设备的接入方法，其特征在于，所述切片信息包括切片数；所述时隙信息包括时隙数；所述发射功率等级信息包括发射功率等级数；

所述状态矩阵为一个N_S×N_T×N_P的矩阵，其中N_S为切片数，N_T为时隙数，N_P为发射功率等级数；

所述动作矩阵为一个N_S×N_T×N_P的矩阵；

在所述动作矩阵中，第i个智能体选取的切片、时隙和发射功率对应的元素置1，其余元素置0。

4.根据权利要求2所述的mMTC场景中终端设备的接入方法，其特征在于，所述奖励函数为：

5.根据权利要求2所述的mMTC场景中终端设备的接入方法，其特征在于，所述损失函数为：

所述根据每个智能体的奖励值和损失函数更新每个智能体的Q网络，包括：

根据每个智能体的奖励值计算每个智能体对应的损失量；

6.根据权利要求2所述的mMTC场景中终端设备的接入方法，其特征在于，所述根据该次迭代的状态矩阵S’和奖励函数计算每个智能体的奖励值，包括：

根据所述状态矩阵S’，对所述mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果；

根据每个智能体的接入结果和奖励函数计算所述mMTC场景中的每个智能体的奖励值；

所述根据所述状态矩阵S’，对所述mMTC场景中每个智能体的传输的信息进行解码，并根据解码结果确定每个智能体的接入结果，包括：

针对每个智能体执行以下步骤：

根据下式计算该智能体的信噪比；

其中，P_m,s,t为网络设备在切片s，时隙t中，从第m个智能体接收到的瞬时功率；M为所述mMTC场景中智能体的总数；P_j,s,t为网络设备在切片s，时隙t中，从第j个智能体接收到的瞬时功率；为噪声功率；

SINR_m,s,t≥2^R-1

其中，R为常数，表示频谱效率。

7.一种mMTC场景中终端设备的接入装置，其特征在于，包括：

获取模块，用于获取大规模机器类型通信mMTC场景的需求信息、系统架构以及参数信息，以及每个终端设备的属性信息；其中，所述参数信息包括切片信息、时隙信息和发射功率等级信息，所述每个终端设备的属性信息包括每个终端设备的发射功率信息；

构建模块，用于根据所述mMTC场景的需求信息、系统架构以及参数信息构建多智能体强化学习模型；其中，所述多智能体强化学习模型中将每个终端设备作为独立的智能体，对应一个Q网络；所述多智能体强化学习模型的状态矩阵根据所述属性信息和所述参数信息确定；

选择模块，用于基于所述多智能体强化学习模型确定所述mMTC场景中的每个终端设备接入网络设备的选择策略。

8.一种网络设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求1至6中任一项所述方法的步骤。

9.一种通信系统，其特征在于，包括至少一个终端设备和如权利要求8所述的网络设备。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上的权利要求1至6中任一项所述方法的步骤。