CN114501667A - 一种考虑业务优先级的多信道接入建模及分布式实现方法 - Google Patents

一种考虑业务优先级的多信道接入建模及分布式实现方法 Download PDF

Info

Publication number
CN114501667A
CN114501667A CN202210158814.2A CN202210158814A CN114501667A CN 114501667 A CN114501667 A CN 114501667A CN 202210158814 A CN202210158814 A CN 202210158814A CN 114501667 A CN114501667 A CN 114501667A
Authority
CN
China
Prior art keywords
link
channel
agent
time slot
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210158814.2A
Other languages
English (en)
Inventor
张树英
倪祖耀
匡麟玲
赵旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210158814.2A priority Critical patent/CN114501667A/zh
Publication of CN114501667A publication Critical patent/CN114501667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/04Scheduled access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种考虑业务优先级的多信道接入建模及分布式实现方法,基于一个考虑业务优先级分类的通用缓存队列模型,结合相同无线资源传输不同优先级业务对全网所产生的效益不同这一特性,建立了新的网络效益最大化约束优化模型;将该模型转化为Multi‑agent强化学习决策过程,从而构建了基于该模型的多链路分布式动态信道接入的深度学习框架,用所建立模型的优化目标作为奖励对所有Agent进行集中训练,得到了相应的分布式动态信道接入方法;通过将该深度学习框架训练的Agent加载到链路发射机上进行分布式执行,可实现各链路仅利用局部观测就能实现具有全局业务优先级平衡效果的动态频谱接入决策。

Description

一种考虑业务优先级的多信道接入建模及分布式实现方法
技术领域
本发明属于无线网络动态频谱接入领域,具体地涉及一种考虑业务优先级的多信道接入建模及分布式实现方法。
背景技术
近来,不断提高的无线通信需求与日渐紧缺的频谱资源间矛盾日益凸显,允许用户在可用无线信道上灵活切换的动态频谱接入技术是提高稀缺频谱资源利用率的关键手段。对于多链路动态频谱接入通常需要考虑三个目标:选择最佳条件的信道、碰撞避免和按需接入。目标一主要通过链路的信道估计和频谱感知所获取的局部信息实现,而目标二和目标三在仅依赖局部信息决策时所得性能较差,尤其对于目标三,各链路按照自己业务需求进行接入信道选择较易实施,但各链路间协作接入以平衡业务负载则较为困难,通常在没有全局信息辅助下难以实现。中心式频谱资源调度虽然能够实现同时满足三个目标的频谱接入,但所需协调信号开销较大,过度消耗原本稀缺的频谱资源。而一个既能够达到可接受性能的分布式频谱接入,以局部信息为输入进行信道接入决策,且信号开销小是动态频谱接入问题中广泛考虑的实现形式。
传统基于竞争的分布式动态频谱接入方式中,各节点自私地去抢占无线资源、不考虑其他链路的业务需求情况和全网的效益,其性能随着网络负载的增加而急剧恶化。因此,在无信息交互下,实现具有全局意识的无线资源分配效果,是动态频谱接入面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力,本发明将每个链路看作一个Agent,基于考虑业务优先级的缓存队列模型,提出一个新颖的多信道接入优化问题建模方法,并将该问题优化目标作为奖励来对所有Agent进行集中训练,从而赋予了各链路在分布式执行时,仅根据局部信息便具有全局业务优先级平衡的能力。
发明内容
为了解决传统动态频谱接入方法中无线资源利用效率低且缺乏全局业务优先级平衡意识的问题,本发明提出一种考虑业务优先级的多信道接入优化问题建模方法,并基于Multi-agent深度强化学习设计了一种分布式实现方法,即通过将上述优化问题模型的优化目标作为奖励去集中训练所有Agent,并将训练好的Agent加载到各链路设备上进行分布执行,以达到各链路仅依赖局部信息便可进行具有全局业务优先级平衡能力的动态信道接入决策。
本发明提出了一种考虑业务优先级的多信道接入建模及分布式实现方法,包括以下步骤:
步骤1:建立考虑业务优先级的多链路动态信道接入约束优化模型;
步骤2:将步骤1建立的约束优化模型转化为Multi-agent强化学习决策过程,构建基于约束优化模型的多链路动态信道决策的深度学习框架。
步骤3:将步骤1建立的约束优化模型的优化目标作为奖励,对步骤2构建的深度学习框架的所有Agent进行集中训练,将训练好的Agent加载到网络对应的各链路发射机上进行分布式执行,输入当前时隙的各链路局部观测,从而得到当前时隙每条链路发射机选择接入的信道。
步骤1中的约束优化模型为:
Figure BDA0003513439340000031
Figure BDA0003513439340000032
Figure BDA0003513439340000033
在上面的模型中,N条无线链路同时接入一段包含K个正交信道的无线频谱,每条链路的发射机拥有一个包含L个优先级的业务缓存队列,且缓存队列标号越小优先级越高,各队列最大缓存容量为Bmax个数据包。各信道在时间上被划分成等周期时隙,连续F个时隙定义为一个时帧。当所有链路已完成时间同步,各信道上每个时隙被称为一个传输机会,且所有传输机会的容量为1个数据包。在时隙t、第n条链路的发射机根据自己的缓存队列情况
Figure BDA0003513439340000034
做出信道选择决策
Figure BDA0003513439340000035
从而获得各信道的反馈
Figure BDA0003513439340000036
Figure BDA0003513439340000037
表示第i条信道被第n条链路的发射机选择,否则没被选择,
Figure BDA0003513439340000038
表示第n条链路的信息在第i条信道上被成功传输,否则没有成功或因不选择该链路而没有反馈。
ρn(t)为链路传输价值变量:
Figure BDA0003513439340000039
其中,Bu是用于归一化链路传输价值的常数,
Figure BDA00035134393400000310
为第l*优先级队列的权重,且有
Figure BDA0003513439340000041
表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号。
Figure BDA0003513439340000047
为每个传输机会用于传输不同链路业务对全网产生的效益为:
Figure BDA0003513439340000042
优化目标Opt1表示一个时帧内所有链路的效益和,优化目标Opt2为当前时帧内所有链路都完成传输时的时隙标号。约束条件C1表示每条链路发射机决策动作的定义;约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新;约束条件C3表示每条链路传输价值的更新;C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数;约束条件C5表示一个信道只能被一条链路成功接入,否则会发生碰撞;约束条件C6给出优化目标的Opt2数学表达。
步骤2中,基于Multi-agent深度强化学习框架中配有N个Agent,每个Agent配有一个相同架构的多层神经网络,其中第一层用于接收每条链路的局部观测,最后一层直接输出所有信道接入决策的Q值,用于动作的选择。
每个Agent的局部观测表示为:
Figure BDA0003513439340000043
其中,
Figure BDA0003513439340000044
表示第n条链路发射机所有缓存队列中当前缓存的数据包数量;ρn(t)表示第n条链路当前时隙的传输价值;an(t-1)表示第n条链路发射机上一时隙的决策动作;
Figure BDA0003513439340000045
表示上一时隙动作对应的各信道反馈;
Figure BDA0003513439340000046
表示第n条链路对各信道的感知结果;e和ε分别为当前训练的次数和随机选择的概率。
各Agent的动作空间定义为:
Figure BDA0003513439340000051
其维度为2K
框架按照所有链路发射机缓存队列没有清空之前所获得奖励为所有链路效益和,以及当所有链路发射机的各级缓存队列数据包均被清空后所获得奖励为一个常数r0设定协作奖励方程:
Figure BDA0003513439340000052
步骤3包括:
步骤3.1:获取系统参数,包括链路数量N、信道数量K、缓存队列数量L、各缓存队列的最大缓存数据包数Bmax
步骤3.2:基于步骤2建立的Multi-agent深度强化学习框架构建Multi-agent集中训练系统,进行所有Agent神经网络参数的离线训练;
步骤3.3:将步骤3.2中训练完成的神经网络部署到实际网络中的发射机上;
步骤3.4:网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果等在内的局部观测,并输入到加载的Agent神经网络模型中,以得到该时隙的信道选择结果。
步骤3.2中的Multi-agent集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。
步骤3.2中,每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池,目标神经网络和训练神经网络拥有相同的神经网络结构。
本发明的有益效果:本发明方法中,基于每个链路发射机的业务缓存队列情况,根据每个传输资源用于不同链路传输对全网产生的效益不同,建立全局业务优先级平衡效果的多信道接入约束模型;基于所建立的模型进行适用于考虑业务优先级的多信道接入的Multi-agent深度学习建模,并利用该Multi-agent深度学习模型训练所有Agent的神经网络,以获得考虑业务优先级的多信道接入分布式方法,实现了各链路在分布式执行时,仅根据局部观测就能进行具有全局业务优先级平衡效果的信道选择决策。在本发明方法使各链路发射机在实际运行时,在无交互开销的情况下,仅根据局部观测进行信道接入决策,便可达到全局效益最大化的效果,提升了有限频谱资源的使用效率。
附图说明
图1为本发明中一种考虑业务优先级的多信道接入建模及分布式实现方法流程图;
图2为本发明方法中考虑业务优先级的多信道接入系统模型;
图3为本发明方法中基于Multi-agent深度强化学习框架图;
图4为本发明方法与其他方法关于全网效益对比图;
图5为本发明方法与其他方法关于全网总吞吐量对比图。
具体实施方式
以下结合附图详细的阐述本发明的具体实施方式,需要说明的是,具体实施方式只是本发明最佳的实施方式,而不代表本发明的范围,本领域技术人员在不脱离本发明主旨的基础上所进行的修改变动均属于本发明的范围。
本发明所提出的一种考虑业务优先级的多信道接入建模及分布式实现方法,如图1所示。首先要对考虑业务优先级的多链路动态信道接入方法建模,在此基础上,基于Multi-agent深度强化学习的分布式实现过程,提供方案以解决传统多链路动态频谱接入中无线资源利用效率低且缺乏全局业务优先级平衡意识的问题。本发明的方法考虑了不同链路发射机所具有的业务缓存队列状态差异,提出了衡量相同无线资源传输不同链路业务所产生的价值衡量参数,并基于该参数重新定义了全网传输效益,并以所定义的效益为最大化目标建立了考虑业务优先级的多信道接入约束优化模型。通过将该模型转化为一个Multi-agent深度强化学习过程,并利用模型的优化目标作为奖励来集中训练所有Agent,得到该考虑业务优先级的动态多信道接入分布式实现方法,使加载了相应Agent的链路发射机在分布式执行动态信道接入决策时,具备了全局业务优先级平衡的能力。仿真结果表明,在仅利用局部观测的情况下,本发明所提出的方法的结果更接近所提约束优化问题的最优解,且显著优于随机接入方法。
图2是本发明建立的考虑业务优先级的多信道接入系统模型。该模型中,N条无线链路同时接入一段包含K个正交信道的无线频谱,其中每条链路的发射机拥有一个包含L个优先级的业务缓存队列,且缓存队列标号越小优先级越高,各队列最大缓存容量为Bmax个数据包。各信道在时间上被划分成等周期时隙,连续F个时隙定义为一个时帧。假设所有链路已完成时间同步,各信道上每个时隙被称为一个传输机会,且所有传输机会的容量为1个数据包。在时隙t,第n条链路的发射机根据自己的缓存队列情况
Figure BDA0003513439340000071
做出信道选择决策
Figure BDA0003513439340000072
从而获得各信道的反馈
Figure BDA0003513439340000073
其中
Figure BDA0003513439340000074
表示第i条信道被链路n的发射机选择,否则没被选择,而
Figure BDA0003513439340000075
表示链路n的信息在第i条信道上被成功传输,否则没有成功或因不选择该链路而没有反馈。每条链路传输价值变量为:
Figure BDA0003513439340000076
其中,Bu是用于归一化链路传输价值的常数,
Figure BDA0003513439340000081
为第l*优先级队列的权重,且有
Figure BDA0003513439340000082
表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号。
每个传输机会用于传输不同链路业务对全网产生的效益为:
Figure BDA0003513439340000083
考虑业务优先级的多信道接入问题建模为:
Figure BDA0003513439340000084
Figure BDA0003513439340000085
Figure BDA0003513439340000086
其中,优化目标Opt1表示一个时帧内所有链路的效益和,优化目标Opt2为当前时帧内所有链路都完成传输时的时隙标号。约束条件C1表示每条链路发射机决策动作的定义;约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新;约束条件C3表示每条链路传输价值的更新;约束条件C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数;约束条件C5表示一个信道只能被一条链路成功接入,否则会发生碰撞;约束条件C6给出优化目标的Opt2数学表达。
基于全局信息可求得上述约束优化模型的最优解,但需要消耗过多的信号开销。为实现上述解的分布式执行,本发明采用如图3所示的基于Multi-agent深度强化学习框架来获取对应于上述所建立模型的分布式执行方法。该框架中,每条传输链路对应一个Agent,每个Agent配有一个相同架构的多层神经网络,其中第一层用于接收每条链路的局部观测,最后一层直接输出所有信道接入决策的Q值,用于动作的选择。本发明中深度强化学习算法包括但不限于DQN算法、Double DQN算法以及A3C算法。各Agent的神经网络结构包括但不限于全连接网络、卷积神经网络以及循环神经网络。
该框架中每个Agent的局部观测表示为:
Figure BDA0003513439340000091
其中,
Figure BDA0003513439340000092
表示第n条链路发射机所有缓存队列中当前缓存的数据包数量;ρn(t)表示第n条链路当前时隙的传输价值;an(t-1)表示第n条链路发射机上一时隙的决策动作;
Figure BDA0003513439340000093
表示上一时隙动作对应的各信道反馈;
Figure BDA0003513439340000094
表示第n条链路对各信道的感知结果;e和ε分别为当前训练的次数和随机选择的概率。
Figure BDA0003513439340000095
e和ε三种观测的添加是为了应对多Agent训练时的不稳定问题。
该框架中,各Agent的动作空间定义为:
Figure BDA0003513439340000096
其维度为2K
该框架设定的协作奖励方程如下:
Figure BDA0003513439340000097
其物理意义为:在所有链路发射机缓存队列没有清空之前,所获得奖励为所有链路效益和,当所有链路发射机的各级缓存队列数据包均被清空后,所获得奖励为一个常数r0。r0的引入是为了促进各链路在当前时帧内尽快传输所缓存的数据包。
该框架采用深度神经网络拟合Q值函数和输入观测状态之间的关系Q(On,an|θ),其中θ为该神经网络的参数,并利用经验回放操作来训练该神经网络。该神经网络参数在线下集中训练,并将训练好的参数加载到网络的各链路发射机上,在实际使用中是以分布式的方式执行。集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池,目标神经网络和训练神经网络拥有相同的神经网络结构。具体步骤如下:
步骤1:获取系统参数,包括链路数量N,信道数量K,缓存队列数量L,各缓存队列的最大缓存数据包数;
步骤2:基于图3所示的Multi-agent深度强化学习框架构建集中训练系统,进行所有Agent神经网络的离线训练,具体步骤如下:
步骤2.1:初始化2N个神经网络的参数以及N个经验池;设置业务随机产生区间
Figure BDA0003513439340000101
根据该区间随机初始化每条链路发射机的各级缓存队列数据包数量;将各链路初始观测为第一个时隙各级缓存队列数据包数量、第一个时隙传输价值、上一时隙动作选择均为0,信道反馈均为0,信道感知结果均为1,当前训练次数为1及随机选择的概率为1;将贪婪概率系数ε设置为1。
步骤2.2:开始执行循环过程,循环包括Ne次大循环,每个大循环包含F次小循环。Ne为使得算法达到收敛循环次数。每经过F次小循环,每个Agent从各自经验记忆回放池中随机采样M条经验,计算均方误差损失,并利用RMSprop算法进行各自神经网络参数的训练每经过Np次大循环,每个Agent将各自的训练神经网络参数复制给目标神经网络参数。其中Np<<Ne
其中,每经过1次大循环,减小贪婪概率系数ε。每经过1次大循环,重新设置业务随机产生区间,重新初始化每条链的局部观测。
步骤2.2中第t次小循环过程如下:
步骤2.2.1:每个Agent观测当前环境状态,获得本地观测状态On(t);
步骤2.2.2:将观测On(t)输入到训练神经网络中,并根据训练神经网络输出和随机选择概率来选取决策动作:
Figure BDA0003513439340000111
其中,
Figure BDA0003513439340000112
表示随机选择动作。
步骤2.2.3:所有Agent共同执行所选择的动作an(t),得到环境的奖励:
Figure BDA0003513439340000113
步骤2.2.4:所有Agent更新缓存队列内的数据包、自身的传输价值、上一时隙动作选择、信道反馈、信道观测、当前训练次数及随机选择的概率,从而获得下一观测状态On(t+1)。
步骤2.2.5:每个Agent将(On(t),an(t),rn(t+1),On(t+1))存储到经验记忆回放池中。
步骤3:将步骤2中训练完成的神经网络部署到实际网络中的发射机上;
步骤4:网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果等在内的局部观测,输入到加载的Agent神经网络模型中,以得到该时隙的信道选择结果。
下面通过具体的示例对本发明进行说明。利用本发明的方法在表1参数设置下,训练了一组包含6条传输链路、5个正交信道的动态信道接入深度学习模型。
表1示例参数设置表
信道数K 5
链路数N 6
缓存队列级数L 4
最大缓存数据包B<sub>max</sub> 125
一个时帧包含的时隙数F 100
一个传输机会的容量 1个数据包
神经网络结构 输入层+LSTM层+全连接层+输出层
贪婪概率ε 前80%训练回合中从1到0.002等差递减
优化器 RMSProp
经验记忆回放池容量 20000
采样数M 2000
总训练回合数 10000
图4和图5是利用本发明方法后的网络性能与最优解和随机选择的方法进行对比的结果。如图所示,最优解在优化本发明所定义的网络效益的同时,能够达到最大的传输容量,证明了本发明所提考虑业务优先级的多信道接入建模方法的有效性。此外,本发明所提出的基于Multi-agent深度强化学习的分布式实现方法相对于随机方案具有较大的全网效益提升和更高的全网吞吐量,同时在仅利用局部信息的情况下,其性能更接近所提约束优化问题的最优解,证明了本发明所提分布式实现方法的有效性。
上述实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种考虑业务优先级的多信道接入建模及分布式实现方法,包括以下步骤:
步骤1:建立考虑业务优先级的多链路动态信道接入约束优化模型;
步骤2:将所述步骤1建立的约束优化模型转化为Multi-agent强化学习决策过程,构建基于所述约束优化模型的多链路动态信道决策的深度学习框架;
步骤3:将所述步骤1建立的约束优化模型的优化目标作为奖励,对所述步骤2构建的深度学习框架的所有Agent进行集中训练,将训练好的Agent加载到网络对应的各链路发射机上进行分布式执行,输入当前时隙的各链路局部观测,从而得到当前时隙每条链路发射机选择接入的信道。
2.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤1中的约束优化模型为:
Figure FDA0003513439330000011
Figure FDA0003513439330000012
Figure FDA0003513439330000013
在模型中,N条无线链路同时接入一段包含K个正交信道的无线频谱,每条链路的发射机拥有一个包含L个优先级的业务缓存队列,且缓存队列标号越小优先级越高,各队列最大缓存容量为Bmax个数据包;各信道在时间上被划分成等周期时隙,连续F个时隙定义为一个时帧;假设所有链路已完成时间同步,各信道上每个时隙被称为一个传输机会,且所有传输机会的容量为1个数据包;在时隙t、第n条链路的发射机根据自己的缓存队列情况
Figure FDA0003513439330000021
做出信道选择决策
Figure FDA0003513439330000022
从而获得各信道的反馈
Figure FDA0003513439330000023
表示第i条信道被第n条链路的发射机选择,否则没被选择,
Figure FDA0003513439330000024
表示第n条链路的信息在第i条信道上被成功传输,否则没有成功或因不选择该链路而没有反馈;ρn(t)为链路传输价值变量:
Figure FDA0003513439330000025
其中,Bu是用于归一化链路传输价值的常数,
Figure FDA0003513439330000026
为第l*优先级队列的权重,且有
Figure FDA0003513439330000027
表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号;
Figure FDA0003513439330000028
为每个传输机会用于传输不同链路业务对全网产生的效益为:
Figure FDA0003513439330000029
优化目标Opt1表示一个时帧内所有链路的效益和,优化目标Opt2为当前时帧内所有链路都完成传输时的时隙标号;约束条件C1表示每条链路发射机决策动作的定义;约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新;约束条件C3表示每条链路传输价值的更新;C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数;约束条件C5表示一个信道只能被一条链路成功接入,否则会发生碰撞;约束条件C6给出优化目标的Opt2数学表达。
3.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤2中,基于Multi-agent深度强化学习框架中配有N个Agent,每个Agent配有一个相同架构的多层神经网络,其中第一层用于接收每条链路的局部观测,最后一层直接输出所有信道接入决策的Q值,用于动作的选择;每个Agent的局部观测为:
Figure FDA0003513439330000031
其中,
Figure FDA0003513439330000032
表示第n条链路发射机所有缓存队列中当前缓存的数据包数量;ρn(t)表示第n条链路当前时隙的传输价值;an(t-1)表示第n条链路发射机上一时隙的决策动作;
Figure FDA0003513439330000033
表示上一时隙动作对应的各信道反馈;
Figure FDA0003513439330000034
表示第n条链路对各信道的感知结果;e和ε分别为当前训练的次数和随机选择的概率;
各Agent的动作空间定义为:
Figure FDA0003513439330000035
其维度为2K
所述深度强化学习框架按照所有链路发射机缓存队列没有清空之前所获得奖励为所有链路效益和,以及当所有链路发射机的各级缓存队列数据包均被清空后所获得奖励为一个常数r0设定协作奖励方程:
Figure FDA0003513439330000041
4.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤3包括:
步骤3.1:获取系统参数,包括链路数量N、信道数量K、缓存队列数量L、各缓存队列的最大缓存数据包数Bmax
步骤3.2:基于所述步骤2建立的Multi-agent深度强化学习框架构建Multi-agent集中训练系统,进行所有Agent神经网络参数的离线训练;
步骤3.3:将所述步骤3.2中训练完成的神经网络部署到实际网络中的发射机上;
步骤3.4:网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果在内的局部观测,并输入到加载的Agent神经网络模型中,以得到该时隙的信道选择结果。
5.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤3.2中的Multi-agent集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。
6.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤3.2中,每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池,所述的目标神经网络和训练神经网络拥有相同的神经网络结构。
7.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,所述步骤3.2中的离线训练包含以下步骤:
步骤3.2.1:初始化2N个神经网络的参数以及N个经验池;设置业务随机产生区间
Figure FDA0003513439330000051
根据该区间随机初始化每条链路发射机的各级缓存队列数据包数量;将各链路初始观测为第一个时隙各级缓存队列数据包数量、第一个时隙传输价值、上一时隙动作选择均为0,信道反馈均为0,信道感知结果均为1,当前训练次数为1及随机选择的概率为1;将贪婪概率系数ε设置为1;
步骤3.2.2:开始执行循环过程,循环包括Ne次大循环,每个大循环包含F次小循环;每经过F次小循环,每个Agent从各自经验记忆回放池中随机采样M条经验,计算均方误差损失,并利用RMSprop算法进行各自神经网络参数的训练;每经过Np次大循环,每个Agent将各自的训练神经网络参数复制给目标神经网络参数,其中Ne为使得算法达到收敛循环次数,Np<<Ne
8.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,每经过1次大循环,减小贪婪概率系数ε。
9.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,每经过1次大循环,重新设置业务随机产生区间,重新初始化每条链的局部观测。
10.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法,其特征在于,第t次小循环过程如下:
(a)每个Agent观测当前环境状态,获得本地观测状态On(t);
(b)将观测状态On(t)输入到训练神经网络中,并根据训练神经网络输出和随机选择概率来选取决策动作:
Figure FDA0003513439330000061
其中,
Figure FDA0003513439330000062
表示随机选择动作;
(c)所有Agent共同执行所选择的动作an(t),得到环境的奖励:
Figure FDA0003513439330000063
(d)所有Agent更新缓存队列内的数据包、自身的传输价值、上一时隙动作选择、信道反馈、信道观测、当前训练次数及随机选择的概率,从而获得下一观测状态On(t+1);
(e)每个Agent将(On(t),an(t),rn(t+1),On(t+1))存储到经验记忆回放池中。
CN202210158814.2A 2022-02-21 2022-02-21 一种考虑业务优先级的多信道接入建模及分布式实现方法 Pending CN114501667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210158814.2A CN114501667A (zh) 2022-02-21 2022-02-21 一种考虑业务优先级的多信道接入建模及分布式实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210158814.2A CN114501667A (zh) 2022-02-21 2022-02-21 一种考虑业务优先级的多信道接入建模及分布式实现方法

Publications (1)

Publication Number Publication Date
CN114501667A true CN114501667A (zh) 2022-05-13

Family

ID=81481888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210158814.2A Pending CN114501667A (zh) 2022-02-21 2022-02-21 一种考虑业务优先级的多信道接入建模及分布式实现方法

Country Status (1)

Country Link
CN (1) CN114501667A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN117241409A (zh) * 2023-11-13 2023-12-15 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN117241409A (zh) * 2023-11-13 2023-12-15 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法
CN117241409B (zh) * 2023-11-13 2024-03-22 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113254197B (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
Anh et al. Deep reinforcement learning for time scheduling in RF-powered backscatter cognitive radio networks
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN113365312B (zh) 强化学习和监督学习相结合的移动负载均衡方法
CN113395723B (zh) 基于强化学习的5g nr下行调度时延优化系统
CN109831808B (zh) 一种基于机器学习的混合供电c-ran的资源分配方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN109474960B (zh) 一种基于q学习的双连接流量分配方法
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN113316174B (zh) 一种非授权频谱智能接入方法
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
Kaytaz et al. Distributed deep reinforcement learning with wideband sensing for dynamic spectrum access
CN116484976A (zh) 一种无线网络中异步联邦学习方法
WO2023226183A1 (zh) 一种基于多智能体协作的多基站排队式前导码分配方法
Chu et al. Reinforcement learning based multi-access control with energy harvesting
CN115314399A (zh) 一种基于逆强化学习的数据中心流量调度方法
CN115529604A (zh) 一种基于服务器协作的联合资源分配与多元任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination