CN113115461A

CN113115461A - 一种基于qmix的无线资源分配优化方法及装置

Info

Publication number: CN113115461A
Application number: CN202110442378.7A
Authority: CN
Inventors: 张海君; 江坤全; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-13
Anticipated expiration: 2041-04-23
Also published as: CN113115461B

Abstract

本发明公开了一种基于QMIX的无线资源分配优化方法及装置，所述方法包括：根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；对于各个地面卫星终端，采用QMIX算法进行星地链路调度；计算各个基站各自所能容纳的通信容量；根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；采用QMIX算法进行用户接入选择。本发明能够保证时延敏感用户的最低数据速率，最大化小区最小容量，提高用户的通信服务质量。

Description

一种基于QMIX的无线资源分配优化方法及装置

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于QMIX的无线资源分配优化方法及装置。

背景技术

星地一体化网络以地面基站网络为基础，卫星通信网络作为补充和延伸，为广域空间范围内的各种网络应用提供泛在、智能、协同和高效的信息保障。虽然国内外产业已经开始积极布局，但是星地一体化网络的融合仍然面临着许多挑战，比如由于星地一体化中复杂的网络结构和动态变化的网络环境，无线资源管理、网络控制和用户接入成为其中的主要难题。这些问题在最近得到了大量的研究，人们提出了很多有前途的技术来解决这些问题，然而传统的资源分配优化方法效率不高、响应速度慢，难以适应星地一体化网络复杂、动态变化的网络环境。

深度强化学习(DRL)作为人工智能领域最重要的技术，可尝试用于解决星地一体化网络中的无线资源分配问题。深度强化学习通过智能体与环境交互地反馈学习，在学习过程中，智能体可以定期做出决策，观察结果，然后自动调整其策略以实现最佳策略，可以很好地应对未知环境下的学习决策，非常适合于空天地一体化网络中的网络复杂、环境动态变化且数据收集成本较高的特性，是解决网络控制、用户接入和资源分配等问题的关键方法。

在星地一体化网络中，星地链路调度和用户接入控制一直是人们关注的焦点。由于低轨卫星能为某个区域的用户提供通信服务的时间非常短暂，用户与卫星之间的链路处在一个不断变化的动态过程，处理好星地链路调度问题，能够为地面用户提供更加稳定可靠的通信服务。接入不同的基站将导致用户的服务体验和网络的性能存在极大的不同，制定合理的接入控制方案，寻找用户和网络接入点的最优匹配，有利于提升用户业务数据速率。深度强化学习近年来也是异常火热，很多学者都在对一些使用数学方法无法完成决策的问题使用深度强化学习方法来解决。采用离线的强化学习方法，可以在学习完成之后将神经网络的结构和参数保存下来，之后可以直接应用到相似的网络中，达到快速的资源分配，同时在使用的时候也可以进行神经网络的更新，从而提高效率。

基于上述背景，如何利用深度优化算法解决大规模机器通信(mMTC)与卫星融合形成的星地一体化网络(STIN)架构中星地链路调度和用户接入控制的问题，实现在链路接入数量、用户服务质量、基站覆盖范围等的约束条件下，对卫星接入和用户接入进行优化分配，是本领域亟待解决的技术问题。

发明内容

本发明的目的在于改变传统星地一体化场景中的容量优化问题，引入深度强化学习算法，提供一种基于QMIX的无线资源分配优化方法及装置，在mMTC与卫星融合形成的星地一体化网络架构中进行星地链路调度和用户接入控制，并利用QMIX算法进行学习，从而达到保证时延敏感用户的最低数据速率的同时，最大化小区最小容量。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供了一种基于QMIX的无线资源分配优化方法，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括以下步骤：

S1、根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；

S2、对于各个地面卫星终端，采用QMIX算法进行星地链路调度；

S3、计算各个基站各自所能容纳的通信容量；

S4、根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；

S5、根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，所述时延敏感用户由地面小基站提供通信服务，所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；

S6、采用QMIX算法进行用户接入选择。

优选地，所述步骤S2中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，算法的步骤如下：

S201、初始化每个智能体的动作空间、状态空间、全局状态空间；

S202、将当前状态输入Q网络中，输出每个动作对应的Q值，以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作，作为当前状态做出的动作；

S203、根据与环境的交互，获得即时奖励和系统中所处的下一步状态，并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中，其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差，即r(t)＝C_m+1(t)-C_m(t)；

S204、判断存储的经验数量是否达到要求，若达到要求则进行S205，否则重复S202和S203；

S205、从经验池中随机取出一部分数据，将其Q值输入到混合网络中，计算Q_tot值；

S206、计算损失函数，即实际Q_tot值和根据混合网络预测Q_tot值的差距，并根据损失函数更新网络的参数；

S207、当损失函数降低并趋于稳定时，停止网络训练，此时得到的星地链路调度为资源分配优化结果，否则重复S201-S206。

优选地，从经验池中随机取出空间大小为b的数据集，将其Q值输入到混合网络中，计算Q_tot值：

Q_tot＝Mixing-network(Q₁(r¹,u¹),…,Q_n(rⁿ,uⁿ)；hypernetwork(s；θ))。

优选地，损失函数为：

其中b为从经验池中随机取出的数据集大小，

优选地，所述步骤S6中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

一方面，提供了一种基于QMIX的无线资源分配优化装置，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括：

第一确定模块，用于根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；

调度模块，用于对于各个地面卫星终端，采用QMIX算法进行星地链路调度；

计算模块，用于计算各个基站各自所能容纳的通信容量；

第二确定模块，用于根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；

用户分类模块，用于根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，所述时延敏感用户由地面小基站提供通信服务，所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；

接入模块，用于采用QMIX算法进行用户接入选择。

优选地，所述调度模块中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，所述调度模块具体用于：

B1、初始化每个智能体的动作空间、状态空间、全局状态空间；

B2、将当前状态输入Q网络中，输出每个动作对应的Q值，以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作，作为当前状态做出的动作；

B3、根据与环境的交互，获得即时奖励和系统中所处的下一步状态，并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中，其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差，即r(t)＝C_m+1(t)-C_m(t)；

B4、判断存储的经验数量是否达到要求，若达到要求则进行B5，否则重复B2和B3；

B5、从经验池中随机取出一部分数据，将其Q值输入到混合网络中，计算Q_tot值；

B6、计算损失函数，即实际Q_tot值和根据混合网络预测Q_tot值的差距，并根据损失函数更新网络的参数；

B7、当损失函数降低并趋于稳定时，停止网络训练，此时得到的星地链路调度为资源分配优化结果，否则重复B1-B6。

优选地，损失函数为：

其中b为从经验池中随机取出的数据集大小，

10、根据权利要求6所述的无线资源分配优化装置，其特征在于，所述接入模块中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，提出一种大规模机器通信(mMTC)中星地一体化网络(STIN)架构中对于星地链路和多个地面基站接入控制的无线资源分配方法及装置，基于深度强化学习(DRL)中Q混合网络(QMIX)的方法，利用星地链路调度和用户接入控制来解决STIN中资源分配的问题；通过在地面卫星终端(TST)和地面基站(BS)处采用QMIX算法，分别完成星地链路的接入和切换、决定哪些地面通信用户接入哪个基站；将STIN场景无线资源分配中具有随机约束的容量优化问题转化为马尔科夫决策问题，借助深度神经网络(DNN)的参数化功能，采用QMIX来训练智能体，获取相应的动作和策略，以调度星地链路和控制用户接入，实现最小容量小区的最大化。在本发明的DRL框架设计中，通过经验回放的方式来存储智能体的环境状态、动作、回报等信息以实现无模型训练；通过迭代循环证明基于QMIX算法的无线资源分配优化方法及装置的独特优越性，提高了用户的通信服务质量，最终实现无线资源分配的整体经济效益。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的STIN网络架构上行链路架构示意图；

图2是本发明实施例提供的基于QMIX的无线资源分配优化方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例的STIN网络架构，其中部署了多个低轨卫星(LEO)、多个小基站(SBS)和多个基于低轨卫星的地面基站(BS)为用户提供通信服务。每个基于LEO的地面基站都配备了具有传统地面基站功能和部分地球站功能于一体的地面卫星终端(TST)，TST同时支持在Ka频段和C频段的数据传输。

本发明实施例提供的基于QMIX的无线资源分配优化方法的流程如图2所示，包括以下步骤：

步骤S1、根据LEO周期性、轨道位置、用户位置，确定在时间间隙Δt内各个TST可以产生链接的LEO；

步骤S2、对于各个地面卫星终端(TST)，采用QMIX算法进行星地链路调度；

在步骤S2中，TST及信道状态资源建模为马尔科夫决策过程，将每个TST作为一个智能体，其动作空间为TST与卫星之间的所有链接情况，状态空间为TST的接入容量，全局状态空间为所有TST的接入容量集合，算法的步骤如下：

S201、初始化每个智能体的动作空间、状态空间、全局状态空间、奖励、经验池，设置初始学习率α和神经网络参数θ；

S202、将当前状态输入Q网络中，输出每个动作对应的Q值，以1-ε的概率选择最大的Q值对应的动作或ε的概率从动作空间中选择一个动作，作为当前状态做出的动作，即：

S203、根据与环境的交互，获得即时奖励和系统中所处的下一状态，并将当前状态、采取动作、奖励、下一步的状态的信息存储到经验池中，其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差，即：

r(t)＝C_m+1(t)-C_m(t)

S205、从经验池中随机取出空间大小为b的数据，将其Q值输入到混合网络中，计算Q_tot值：

Q_tot＝Mixing-network(Q₁(r¹,u¹),…,Q_n(rⁿ,uⁿ)；hypernetwork(s；θ))；

S206、计算损失函数，即实际Q_tot值和根据混合网络预测Q_tot值的差距，并根据损失函数更新网络的参数，损失函数如下：

其中b为从经验池中随机取出的数据集大小，

步骤S3、计算各个基站各自所能容纳的通信容量；

步骤S4、根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；

步骤S5、根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，时延敏感用户由地面小基站(SBS)供通信服务，时延容忍用户由搭载TST的低轨卫星基站(LBS)提供通信服务，确定SBS覆盖范围内的时延敏感用户，以及LBS覆盖范围内的时延容忍用户；

步骤S6、采用QMIX算法进行用户接入选择。

在步骤S6中，地面基站及信道状态资源可建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户(SBS为时延敏感用户，LBS为时延容忍用户)，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

本发明通过在地面卫星终端(TST)和地面基站(BS)处采用QMIX算法，分别完成星地链路的接入和切换、决定哪些地面通信用户接入哪个基站，将mMTC-STIN场景无线资源分配中具有随机约束的容量优化问题转化为马尔科夫决策问题。借助深度神经网络(DNN)的参数化功能，本发明采用QMIX来训练智能体，获取相应的动作和策略，以调度星地链路和接入用户，实现在满足时延敏感用户的QoS的同时，最大化小区最小容量。

相应地，本发明的实施例还提供了一种基于QMIX的无线资源分配优化装置，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括：

计算模块，用于计算各个基站各自所能容纳的通信容量；

接入模块，用于采用QMIX算法进行用户接入选择。

进一步地，所述调度模块中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，所述调度模块具体用于：

进一步地，从经验池中随机取出空间大小为b的数据集，将其Q值输入到混合网络中，计算Q_tot值：

进一步地，损失函数为：

其中b为从经验池中随机取出的数据集大小，

进一步地，所述接入模块中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明针对大规模机器通信(mMTC)与卫星融合形成的星地一体化网络(STIN)架构中星地链路调度和用户接入控制的问题，利用DRL中Q混合网络(QMIX)的方法，在链路接入数量、用户服务质量、基站覆盖范围等的约束条件下，对卫星接入和用户接入进行优化分配，实现资源最优分配，保证时延敏感用户的最低数据速率，最大化小区最小容量，提高用户的通信服务质量。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于QMIX的无线资源分配优化方法，其特征在于，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括以下步骤：

S3、计算各个基站各自所能容纳的通信容量；

S6、采用QMIX算法进行用户接入选择。

2.根据权利要求1所述的无线资源分配优化方法，其特征在于，所述步骤S2中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，算法的步骤如下：

3.根据权利要求2所述的无线资源分配优化方法，其特征在于，从经验池中随机取出空间大小为b的数据集，将其Q值输入到混合网络中，计算Q_tot值：

4.根据权利要求2所述的无线资源分配优化方法，其特征在于，损失函数为：

其中b为从经验池中随机取出的数据集大小，

5.根据权利要求1所述的无线资源分配优化方法，其特征在于，所述步骤S6中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

6.一种基于QMIX的无线资源分配优化装置，其特征在于，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括：

计算模块，用于计算各个基站各自所能容纳的通信容量；

接入模块，用于采用QMIX算法进行用户接入选择。

7.根据权利要求6所述的无线资源分配优化装置，其特征在于，所述调度模块中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，所述调度模块具体用于：

8.根据权利要求7所述的无线资源分配优化装置，其特征在于，从经验池中随机取出空间大小为b的数据集，将其Q值输入到混合网络中，计算Q_tot值：

9.根据权利要求7所述的无线资源分配优化装置，其特征在于，损失函数为：

其中b为从经验池中随机取出的数据集大小，

10.根据权利要求6所述的无线资源分配优化装置，其特征在于，所述接入模块中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。