CN113115461A - 一种基于qmix的无线资源分配优化方法及装置 - Google Patents

一种基于qmix的无线资源分配优化方法及装置 Download PDF

Info

Publication number
CN113115461A
CN113115461A CN202110442378.7A CN202110442378A CN113115461A CN 113115461 A CN113115461 A CN 113115461A CN 202110442378 A CN202110442378 A CN 202110442378A CN 113115461 A CN113115461 A CN 113115461A
Authority
CN
China
Prior art keywords
base station
users
satellite
ground
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110442378.7A
Other languages
English (en)
Other versions
CN113115461B (zh
Inventor
张海君
江坤全
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202110442378.7A priority Critical patent/CN113115461B/zh
Publication of CN113115461A publication Critical patent/CN113115461A/zh
Application granted granted Critical
Publication of CN113115461B publication Critical patent/CN113115461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/52Allocation or scheduling criteria for wireless resources based on load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种基于QMIX的无线资源分配优化方法及装置,所述方法包括:根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;对于各个地面卫星终端,采用QMIX算法进行星地链路调度;计算各个基站各自所能容纳的通信容量;根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;采用QMIX算法进行用户接入选择。本发明能够保证时延敏感用户的最低数据速率,最大化小区最小容量,提高用户的通信服务质量。

Description

一种基于QMIX的无线资源分配优化方法及装置
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于QMIX的无线资源分配优化方法及装置。
背景技术
星地一体化网络以地面基站网络为基础,卫星通信网络作为补充和延伸,为广域空间范围内的各种网络应用提供泛在、智能、协同和高效的信息保障。虽然国内外产业已经开始积极布局,但是星地一体化网络的融合仍然面临着许多挑战,比如由于星地一体化中复杂的网络结构和动态变化的网络环境,无线资源管理、网络控制和用户接入成为其中的主要难题。这些问题在最近得到了大量的研究,人们提出了很多有前途的技术来解决这些问题,然而传统的资源分配优化方法效率不高、响应速度慢,难以适应星地一体化网络复杂、动态变化的网络环境。
深度强化学习(DRL)作为人工智能领域最重要的技术,可尝试用于解决星地一体化网络中的无线资源分配问题。深度强化学习通过智能体与环境交互地反馈学习,在学习过程中,智能体可以定期做出决策,观察结果,然后自动调整其策略以实现最佳策略,可以很好地应对未知环境下的学习决策,非常适合于空天地一体化网络中的网络复杂、环境动态变化且数据收集成本较高的特性,是解决网络控制、用户接入和资源分配等问题的关键方法。
在星地一体化网络中,星地链路调度和用户接入控制一直是人们关注的焦点。由于低轨卫星能为某个区域的用户提供通信服务的时间非常短暂,用户与卫星之间的链路处在一个不断变化的动态过程,处理好星地链路调度问题,能够为地面用户提供更加稳定可靠的通信服务。接入不同的基站将导致用户的服务体验和网络的性能存在极大的不同,制定合理的接入控制方案,寻找用户和网络接入点的最优匹配,有利于提升用户业务数据速率。深度强化学习近年来也是异常火热,很多学者都在对一些使用数学方法无法完成决策的问题使用深度强化学习方法来解决。采用离线的强化学习方法,可以在学习完成之后将神经网络的结构和参数保存下来,之后可以直接应用到相似的网络中,达到快速的资源分配,同时在使用的时候也可以进行神经网络的更新,从而提高效率。
基于上述背景,如何利用深度优化算法解决大规模机器通信(mMTC)与卫星融合形成的星地一体化网络(STIN)架构中星地链路调度和用户接入控制的问题,实现在链路接入数量、用户服务质量、基站覆盖范围等的约束条件下,对卫星接入和用户接入进行优化分配,是本领域亟待解决的技术问题。
发明内容
本发明的目的在于改变传统星地一体化场景中的容量优化问题,引入深度强化学习算法,提供一种基于QMIX的无线资源分配优化方法及装置,在mMTC与卫星融合形成的星地一体化网络架构中进行星地链路调度和用户接入控制,并利用QMIX算法进行学习,从而达到保证时延敏感用户的最低数据速率的同时,最大化小区最小容量。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于QMIX的无线资源分配优化方法,采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配,包括以下步骤:
S1、根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;
S2、对于各个地面卫星终端,采用QMIX算法进行星地链路调度;
S3、计算各个基站各自所能容纳的通信容量;
S4、根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
S5、根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,所述时延敏感用户由地面小基站提供通信服务,所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;
S6、采用QMIX算法进行用户接入选择。
优选地,所述步骤S2中,地面卫星终端及信道状态资源建模为马尔科夫决策过程,将每个地面卫星终端作为一个智能体,其动作空间为地面卫星终端与卫星之间的所有链接情况,状态空间为地面卫星终端的接入容量,全局状态空间为所有地面卫星终端的接入容量集合,算法的步骤如下:
S201、初始化每个智能体的动作空间、状态空间、全局状态空间;
S202、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作,作为当前状态做出的动作;
S203、根据与环境的交互,获得即时奖励和系统中所处的下一步状态,并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即r(t)=Cm+1(t)-Cm(t);
S204、判断存储的经验数量是否达到要求,若达到要求则进行S205,否则重复S202和S203;
S205、从经验池中随机取出一部分数据,将其Q值输入到混合网络中,计算Qtot值;
S206、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数;
S207、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复S201-S206。
优选地,从经验池中随机取出空间大小为b的数据集,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ))。
优选地,损失函数为:
Figure BDA0003035487460000031
其中b为从经验池中随机取出的数据集大小,
Figure BDA0003035487460000032
优选地,所述步骤S6中,地面基站及信道状态资源建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户,包括时延敏感用户和时延容忍用户,状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
一方面,提供了一种基于QMIX的无线资源分配优化装置,采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配,包括:
第一确定模块,用于根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;
调度模块,用于对于各个地面卫星终端,采用QMIX算法进行星地链路调度;
计算模块,用于计算各个基站各自所能容纳的通信容量;
第二确定模块,用于根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
用户分类模块,用于根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,所述时延敏感用户由地面小基站提供通信服务,所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;
接入模块,用于采用QMIX算法进行用户接入选择。
优选地,所述调度模块中,地面卫星终端及信道状态资源建模为马尔科夫决策过程,将每个地面卫星终端作为一个智能体,其动作空间为地面卫星终端与卫星之间的所有链接情况,状态空间为地面卫星终端的接入容量,全局状态空间为所有地面卫星终端的接入容量集合,所述调度模块具体用于:
B1、初始化每个智能体的动作空间、状态空间、全局状态空间;
B2、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作,作为当前状态做出的动作;
B3、根据与环境的交互,获得即时奖励和系统中所处的下一步状态,并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即r(t)=Cm+1(t)-Cm(t);
B4、判断存储的经验数量是否达到要求,若达到要求则进行B5,否则重复B2和B3;
B5、从经验池中随机取出一部分数据,将其Q值输入到混合网络中,计算Qtot值;
B6、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数;
B7、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复B1-B6。
优选地,从经验池中随机取出空间大小为b的数据集,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ))。
优选地,损失函数为:
Figure BDA0003035487460000051
其中b为从经验池中随机取出的数据集大小,
Figure BDA0003035487460000052
10、根据权利要求6所述的无线资源分配优化装置,其特征在于,所述接入模块中,地面基站及信道状态资源建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户,包括时延敏感用户和时延容忍用户,状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,提出一种大规模机器通信(mMTC)中星地一体化网络(STIN)架构中对于星地链路和多个地面基站接入控制的无线资源分配方法及装置,基于深度强化学习(DRL)中Q混合网络(QMIX)的方法,利用星地链路调度和用户接入控制来解决STIN中资源分配的问题;通过在地面卫星终端(TST)和地面基站(BS)处采用QMIX算法,分别完成星地链路的接入和切换、决定哪些地面通信用户接入哪个基站;将STIN场景无线资源分配中具有随机约束的容量优化问题转化为马尔科夫决策问题,借助深度神经网络(DNN)的参数化功能,采用QMIX来训练智能体,获取相应的动作和策略,以调度星地链路和控制用户接入,实现最小容量小区的最大化。在本发明的DRL框架设计中,通过经验回放的方式来存储智能体的环境状态、动作、回报等信息以实现无模型训练;通过迭代循环证明基于QMIX算法的无线资源分配优化方法及装置的独特优越性,提高了用户的通信服务质量,最终实现无线资源分配的整体经济效益。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的STIN网络架构上行链路架构示意图;
图2是本发明实施例提供的基于QMIX的无线资源分配优化方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例的STIN网络架构,其中部署了多个低轨卫星(LEO)、多个小基站(SBS)和多个基于低轨卫星的地面基站(BS)为用户提供通信服务。每个基于LEO的地面基站都配备了具有传统地面基站功能和部分地球站功能于一体的地面卫星终端(TST),TST同时支持在Ka频段和C频段的数据传输。
本发明实施例提供的基于QMIX的无线资源分配优化方法的流程如图2所示,包括以下步骤:
步骤S1、根据LEO周期性、轨道位置、用户位置,确定在时间间隙Δt内各个TST可以产生链接的LEO;
步骤S2、对于各个地面卫星终端(TST),采用QMIX算法进行星地链路调度;
在步骤S2中,TST及信道状态资源建模为马尔科夫决策过程,将每个TST作为一个智能体,其动作空间为TST与卫星之间的所有链接情况,状态空间为TST的接入容量,全局状态空间为所有TST的接入容量集合,算法的步骤如下:
S201、初始化每个智能体的动作空间、状态空间、全局状态空间、奖励、经验池,设置初始学习率α和神经网络参数θ;
S202、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或ε的概率从动作空间中选择一个动作,作为当前状态做出的动作,即:
Figure BDA0003035487460000061
S203、根据与环境的交互,获得即时奖励和系统中所处的下一状态,并将当前状态、采取动作、奖励、下一步的状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即:
r(t)=Cm+1(t)-Cm(t)
S204、判断存储的经验数量是否达到要求,若达到要求则进行S205,否则重复S202和S203;
S205、从经验池中随机取出空间大小为b的数据,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ));
S206、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数,损失函数如下:
Figure BDA0003035487460000071
其中b为从经验池中随机取出的数据集大小,
Figure BDA0003035487460000072
S207、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复S201-S206。
步骤S3、计算各个基站各自所能容纳的通信容量;
步骤S4、根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
步骤S5、根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,时延敏感用户由地面小基站(SBS)供通信服务,时延容忍用户由搭载TST的低轨卫星基站(LBS)提供通信服务,确定SBS覆盖范围内的时延敏感用户,以及LBS覆盖范围内的时延容忍用户;
步骤S6、采用QMIX算法进行用户接入选择。
在步骤S6中,地面基站及信道状态资源可建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户(SBS为时延敏感用户,LBS为时延容忍用户),状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
本发明通过在地面卫星终端(TST)和地面基站(BS)处采用QMIX算法,分别完成星地链路的接入和切换、决定哪些地面通信用户接入哪个基站,将mMTC-STIN场景无线资源分配中具有随机约束的容量优化问题转化为马尔科夫决策问题。借助深度神经网络(DNN)的参数化功能,本发明采用QMIX来训练智能体,获取相应的动作和策略,以调度星地链路和接入用户,实现在满足时延敏感用户的QoS的同时,最大化小区最小容量。
相应地,本发明的实施例还提供了一种基于QMIX的无线资源分配优化装置,采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配,包括:
第一确定模块,用于根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;
调度模块,用于对于各个地面卫星终端,采用QMIX算法进行星地链路调度;
计算模块,用于计算各个基站各自所能容纳的通信容量;
第二确定模块,用于根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
用户分类模块,用于根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,所述时延敏感用户由地面小基站提供通信服务,所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;
接入模块,用于采用QMIX算法进行用户接入选择。
进一步地,所述调度模块中,地面卫星终端及信道状态资源建模为马尔科夫决策过程,将每个地面卫星终端作为一个智能体,其动作空间为地面卫星终端与卫星之间的所有链接情况,状态空间为地面卫星终端的接入容量,全局状态空间为所有地面卫星终端的接入容量集合,所述调度模块具体用于:
B1、初始化每个智能体的动作空间、状态空间、全局状态空间;
B2、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作,作为当前状态做出的动作;
B3、根据与环境的交互,获得即时奖励和系统中所处的下一步状态,并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即r(t)=Cm+1(t)-Cm(t);
B4、判断存储的经验数量是否达到要求,若达到要求则进行B5,否则重复B2和B3;
B5、从经验池中随机取出一部分数据,将其Q值输入到混合网络中,计算Qtot值;
B6、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数;
B7、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复B1-B6。
进一步地,从经验池中随机取出空间大小为b的数据集,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ))。
进一步地,损失函数为:
Figure BDA0003035487460000091
其中b为从经验池中随机取出的数据集大小,
Figure BDA0003035487460000092
进一步地,所述接入模块中,地面基站及信道状态资源建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户,包括时延敏感用户和时延容忍用户,状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明针对大规模机器通信(mMTC)与卫星融合形成的星地一体化网络(STIN)架构中星地链路调度和用户接入控制的问题,利用DRL中Q混合网络(QMIX)的方法,在链路接入数量、用户服务质量、基站覆盖范围等的约束条件下,对卫星接入和用户接入进行优化分配,实现资源最优分配,保证时延敏感用户的最低数据速率,最大化小区最小容量,提高用户的通信服务质量。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于QMIX的无线资源分配优化方法,其特征在于,采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配,包括以下步骤:
S1、根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;
S2、对于各个地面卫星终端,采用QMIX算法进行星地链路调度;
S3、计算各个基站各自所能容纳的通信容量;
S4、根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
S5、根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,所述时延敏感用户由地面小基站提供通信服务,所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;
S6、采用QMIX算法进行用户接入选择。
2.根据权利要求1所述的无线资源分配优化方法,其特征在于,所述步骤S2中,地面卫星终端及信道状态资源建模为马尔科夫决策过程,将每个地面卫星终端作为一个智能体,其动作空间为地面卫星终端与卫星之间的所有链接情况,状态空间为地面卫星终端的接入容量,全局状态空间为所有地面卫星终端的接入容量集合,算法的步骤如下:
S201、初始化每个智能体的动作空间、状态空间、全局状态空间;
S202、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作,作为当前状态做出的动作;
S203、根据与环境的交互,获得即时奖励和系统中所处的下一步状态,并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即r(t)=Cm+1(t)-Cm(t);
S204、判断存储的经验数量是否达到要求,若达到要求则进行S205,否则重复S202和S203;
S205、从经验池中随机取出一部分数据,将其Q值输入到混合网络中,计算Qtot值;
S206、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数;
S207、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复S201-S206。
3.根据权利要求2所述的无线资源分配优化方法,其特征在于,从经验池中随机取出空间大小为b的数据集,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ))。
4.根据权利要求2所述的无线资源分配优化方法,其特征在于,损失函数为:
Figure FDA0003035487450000021
其中b为从经验池中随机取出的数据集大小,
Figure FDA0003035487450000022
5.根据权利要求1所述的无线资源分配优化方法,其特征在于,所述步骤S6中,地面基站及信道状态资源建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户,包括时延敏感用户和时延容忍用户,状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
6.一种基于QMIX的无线资源分配优化装置,其特征在于,采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配,包括:
第一确定模块,用于根据低轨卫星的周期性、轨道位置、用户位置,确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星;
调度模块,用于对于各个地面卫星终端,采用QMIX算法进行星地链路调度;
计算模块,用于计算各个基站各自所能容纳的通信容量;
第二确定模块,用于根据基站位置、基站覆盖半径、用户位置,确定基站覆盖范围内的所有用户;
用户分类模块,用于根据用户的业务类型,将用户分为时延敏感用户和时延容忍用户,所述时延敏感用户由地面小基站提供通信服务,所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务,确定地面小基站覆盖范围内的时延敏感用户,以及低轨卫星基站覆盖范围内的时延容忍用户;
接入模块,用于采用QMIX算法进行用户接入选择。
7.根据权利要求6所述的无线资源分配优化装置,其特征在于,所述调度模块中,地面卫星终端及信道状态资源建模为马尔科夫决策过程,将每个地面卫星终端作为一个智能体,其动作空间为地面卫星终端与卫星之间的所有链接情况,状态空间为地面卫星终端的接入容量,全局状态空间为所有地面卫星终端的接入容量集合,所述调度模块具体用于:
B1、初始化每个智能体的动作空间、状态空间、全局状态空间;
B2、将当前状态输入Q网络中,输出每个动作对应的Q值,以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作,作为当前状态做出的动作;
B3、根据与环境的交互,获得即时奖励和系统中所处的下一步状态,并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中,其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差,即r(t)=Cm+1(t)-Cm(t);
B4、判断存储的经验数量是否达到要求,若达到要求则进行B5,否则重复B2和B3;
B5、从经验池中随机取出一部分数据,将其Q值输入到混合网络中,计算Qtot值;
B6、计算损失函数,即实际Qtot值和根据混合网络预测Qtot值的差距,并根据损失函数更新网络的参数;
B7、当损失函数降低并趋于稳定时,停止网络训练,此时得到的星地链路调度为资源分配优化结果,否则重复B1-B6。
8.根据权利要求7所述的无线资源分配优化装置,其特征在于,从经验池中随机取出空间大小为b的数据集,将其Q值输入到混合网络中,计算Qtot值:
Qtot=Mixing-network(Q1(r1,u1),…,Qn(rn,un);hypernetwork(s;θ))。
9.根据权利要求7所述的无线资源分配优化装置,其特征在于,损失函数为:
Figure FDA0003035487450000031
其中b为从经验池中随机取出的数据集大小,
Figure FDA0003035487450000032
10.根据权利要求6所述的无线资源分配优化装置,其特征在于,所述接入模块中,地面基站及信道状态资源建模为马尔科夫决策过程,将每个地面基站当作一个智能体,其动作空间为基站覆盖范围内可接入的用户,包括时延敏感用户和时延容忍用户,状态空间为各个地面基站接入的用户率和速率,全局状态为所有地面基站接入的用户率和速率。
CN202110442378.7A 2021-04-23 2021-04-23 一种基于qmix的无线资源分配优化方法及装置 Active CN113115461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110442378.7A CN113115461B (zh) 2021-04-23 2021-04-23 一种基于qmix的无线资源分配优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110442378.7A CN113115461B (zh) 2021-04-23 2021-04-23 一种基于qmix的无线资源分配优化方法及装置

Publications (2)

Publication Number Publication Date
CN113115461A true CN113115461A (zh) 2021-07-13
CN113115461B CN113115461B (zh) 2023-04-07

Family

ID=76719842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110442378.7A Active CN113115461B (zh) 2021-04-23 2021-04-23 一种基于qmix的无线资源分配优化方法及装置

Country Status (1)

Country Link
CN (1) CN113115461B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346206A (zh) * 2023-03-27 2023-06-27 广州爱浦路网络技术有限公司 基于低轨卫星和5gs的ai/ml模型分布式传输方法、装置及系统
CN116567762A (zh) * 2023-07-12 2023-08-08 成都本原星通科技有限公司 一种基于多QoS优化的星地协同选择接入控制方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180063858A1 (en) * 2016-08-25 2018-03-01 Huawei Technologies Co., Ltd. System and Method for Co-existence of Low-Latency and Latency-Tolerant Communication Resources
CN108650662A (zh) * 2018-07-06 2018-10-12 北京邮电大学 地面基站及基于卫星集群的资源分配方法和通信系统
US20180329069A1 (en) * 2017-05-15 2018-11-15 Stmicroelectronics S.R.L. Device module for the detection of temperature compensated crystal oscillator originated micro-jumps in a global navigation satellite system and related detection method
CN108882307A (zh) * 2018-04-27 2018-11-23 中国电子科技集团公司电子科学研究院 一种控制与业务分离的方法及装置
CN110381445A (zh) * 2019-06-28 2019-10-25 广东工业大学 一种基于无人机基站系统的资源分配与飞行轨迹优化方法
CN110493880A (zh) * 2019-08-30 2019-11-22 成都天奥集团有限公司 广覆盖场景下基于终端侧等待的多用户上行资源调度方法
CN110891295A (zh) * 2019-12-25 2020-03-17 深圳市星网荣耀科技有限公司 一种卫星通信与地面通信网络融合的路由方法和路由装置
CN111106865A (zh) * 2018-10-25 2020-05-05 华为技术有限公司 基于卫星网络的通信方法、装置及系统
US20200195506A1 (en) * 2018-12-18 2020-06-18 Beijing University Of Posts And Telecommunications Artificial intellgence-based networking method and device for fog radio access networks
CN111371527A (zh) * 2018-12-25 2020-07-03 华为技术有限公司 一种数据传输方法及通信设备
CN111490817A (zh) * 2020-04-08 2020-08-04 北京邮电大学 卫星网络传输方法、装置及电子设备
CN111641450A (zh) * 2020-06-02 2020-09-08 西安电子科技大学 星地一体化网络通信与缓存资源联合调度方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180063858A1 (en) * 2016-08-25 2018-03-01 Huawei Technologies Co., Ltd. System and Method for Co-existence of Low-Latency and Latency-Tolerant Communication Resources
US20180329069A1 (en) * 2017-05-15 2018-11-15 Stmicroelectronics S.R.L. Device module for the detection of temperature compensated crystal oscillator originated micro-jumps in a global navigation satellite system and related detection method
CN108882307A (zh) * 2018-04-27 2018-11-23 中国电子科技集团公司电子科学研究院 一种控制与业务分离的方法及装置
CN108650662A (zh) * 2018-07-06 2018-10-12 北京邮电大学 地面基站及基于卫星集群的资源分配方法和通信系统
CN111106865A (zh) * 2018-10-25 2020-05-05 华为技术有限公司 基于卫星网络的通信方法、装置及系统
US20200195506A1 (en) * 2018-12-18 2020-06-18 Beijing University Of Posts And Telecommunications Artificial intellgence-based networking method and device for fog radio access networks
CN111371527A (zh) * 2018-12-25 2020-07-03 华为技术有限公司 一种数据传输方法及通信设备
CN110381445A (zh) * 2019-06-28 2019-10-25 广东工业大学 一种基于无人机基站系统的资源分配与飞行轨迹优化方法
CN110493880A (zh) * 2019-08-30 2019-11-22 成都天奥集团有限公司 广覆盖场景下基于终端侧等待的多用户上行资源调度方法
CN110891295A (zh) * 2019-12-25 2020-03-17 深圳市星网荣耀科技有限公司 一种卫星通信与地面通信网络融合的路由方法和路由装置
CN111490817A (zh) * 2020-04-08 2020-08-04 北京邮电大学 卫星网络传输方法、装置及电子设备
CN111641450A (zh) * 2020-06-02 2020-09-08 西安电子科技大学 星地一体化网络通信与缓存资源联合调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TABISH RASHID等: "QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning", 《INTERNATIONAL CONFERENCE ON MACHINE,HTTPS://ARXIV.RG/1803.11485》 *
周碧莹等: "基于强化学习的卫星网络资源调度机制", 《计算机工程与科学》 *
饶元等: "极轨道LEO卫星通信系统区分服务路由机制", 《广西大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116346206A (zh) * 2023-03-27 2023-06-27 广州爱浦路网络技术有限公司 基于低轨卫星和5gs的ai/ml模型分布式传输方法、装置及系统
CN116567762A (zh) * 2023-07-12 2023-08-08 成都本原星通科技有限公司 一种基于多QoS优化的星地协同选择接入控制方法

Also Published As

Publication number Publication date
CN113115461B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Seid et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: A deep reinforcement learning approach
Sun et al. Joint optimization of computation offloading and task scheduling in vehicular edge computing networks
Cui et al. Latency and energy optimization for MEC enhanced SAT-IoT networks
Liu et al. Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach
Hu et al. Deep reinforcement learning‐based beam Hopping algorithm in multibeam satellite systems
CN113115461B (zh) 一种基于qmix的无线资源分配优化方法及装置
Zhao et al. A deep reinforcement learning based approach for energy-efficient channel allocation in satellite Internet of Things
Chen et al. Learning-based computation offloading for IoRT through Ka/Q-band satellite–terrestrial integrated networks
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
Liu et al. Computation offloading and resource allocation in unmanned aerial vehicle networks
Salh et al. Refiner GAN algorithmically enabled deep-RL for guaranteed traffic packets in real-time URLLC B5G communication systems
CN113641504A (zh) 用于提升多智能体强化学习边缘计算效果的信息交互方法
Jiang et al. Q-learning based task offloading and resource allocation scheme for internet of vehicles
CN115987375A (zh) 融合网络的电力设备关联与资源优化方法、系统及介质
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Lv et al. Task offloading and serving handover of vehicular edge computing networks based on trajectory prediction
CN116886172A (zh) 基于机器学习的多波束卫星通信用户选择和频谱划分方法
CN114521023A (zh) Swipt辅助noma-mec系统资源分配建模方法
CN115378939A (zh) 空天地一体化移动边缘计算系统部署优化和计算卸载方法
Iqbal et al. Convolutional neural network-based deep Q-network (CNN-DQN) resource management in cloud radio access network
Ye et al. Genetic algorithm based spectrum assignment model in cognitive radio networks
Liu et al. Deep reinforcement learning-based MEC offloading and resource allocation in uplink NOMA heterogeneous network
Wang et al. Multi-objective joint optimization of communication-computation-caching resources in mobile edge computing
CN107995034B (zh) 一种密集蜂窝网络能量与业务协作方法
CN115955711A (zh) 一种面向能效最优的空地6g网络资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant