CN114501667A

CN114501667A - 一种考虑业务优先级的多信道接入建模及分布式实现方法

Info

Publication number: CN114501667A
Application number: CN202210158814.2A
Authority: CN
Inventors: 张树英; 倪祖耀; 匡麟玲; 赵旭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-13

Abstract

本发明提出了一种考虑业务优先级的多信道接入建模及分布式实现方法，基于一个考虑业务优先级分类的通用缓存队列模型，结合相同无线资源传输不同优先级业务对全网所产生的效益不同这一特性，建立了新的网络效益最大化约束优化模型；将该模型转化为Multi‑agent强化学习决策过程，从而构建了基于该模型的多链路分布式动态信道接入的深度学习框架，用所建立模型的优化目标作为奖励对所有Agent进行集中训练，得到了相应的分布式动态信道接入方法；通过将该深度学习框架训练的Agent加载到链路发射机上进行分布式执行，可实现各链路仅利用局部观测就能实现具有全局业务优先级平衡效果的动态频谱接入决策。

Description

一种考虑业务优先级的多信道接入建模及分布式实现方法

技术领域

本发明属于无线网络动态频谱接入领域，具体地涉及一种考虑业务优先级的多信道接入建模及分布式实现方法。

背景技术

近来，不断提高的无线通信需求与日渐紧缺的频谱资源间矛盾日益凸显，允许用户在可用无线信道上灵活切换的动态频谱接入技术是提高稀缺频谱资源利用率的关键手段。对于多链路动态频谱接入通常需要考虑三个目标：选择最佳条件的信道、碰撞避免和按需接入。目标一主要通过链路的信道估计和频谱感知所获取的局部信息实现，而目标二和目标三在仅依赖局部信息决策时所得性能较差，尤其对于目标三，各链路按照自己业务需求进行接入信道选择较易实施，但各链路间协作接入以平衡业务负载则较为困难，通常在没有全局信息辅助下难以实现。中心式频谱资源调度虽然能够实现同时满足三个目标的频谱接入，但所需协调信号开销较大，过度消耗原本稀缺的频谱资源。而一个既能够达到可接受性能的分布式频谱接入，以局部信息为输入进行信道接入决策，且信号开销小是动态频谱接入问题中广泛考虑的实现形式。

传统基于竞争的分布式动态频谱接入方式中，各节点自私地去抢占无线资源、不考虑其他链路的业务需求情况和全网的效益，其性能随着网络负载的增加而急剧恶化。因此，在无信息交互下，实现具有全局意识的无线资源分配效果，是动态频谱接入面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力，本发明将每个链路看作一个Agent，基于考虑业务优先级的缓存队列模型，提出一个新颖的多信道接入优化问题建模方法，并将该问题优化目标作为奖励来对所有Agent进行集中训练，从而赋予了各链路在分布式执行时，仅根据局部信息便具有全局业务优先级平衡的能力。

发明内容

为了解决传统动态频谱接入方法中无线资源利用效率低且缺乏全局业务优先级平衡意识的问题，本发明提出一种考虑业务优先级的多信道接入优化问题建模方法，并基于Multi-agent深度强化学习设计了一种分布式实现方法，即通过将上述优化问题模型的优化目标作为奖励去集中训练所有Agent，并将训练好的Agent加载到各链路设备上进行分布执行，以达到各链路仅依赖局部信息便可进行具有全局业务优先级平衡能力的动态信道接入决策。

本发明提出了一种考虑业务优先级的多信道接入建模及分布式实现方法，包括以下步骤：

步骤1：建立考虑业务优先级的多链路动态信道接入约束优化模型；

步骤2：将步骤1建立的约束优化模型转化为Multi-agent强化学习决策过程，构建基于约束优化模型的多链路动态信道决策的深度学习框架。

步骤3：将步骤1建立的约束优化模型的优化目标作为奖励，对步骤2构建的深度学习框架的所有Agent进行集中训练，将训练好的Agent加载到网络对应的各链路发射机上进行分布式执行，输入当前时隙的各链路局部观测，从而得到当前时隙每条链路发射机选择接入的信道。

步骤1中的约束优化模型为：

在上面的模型中，N条无线链路同时接入一段包含K个正交信道的无线频谱，每条链路的发射机拥有一个包含L个优先级的业务缓存队列，且缓存队列标号越小优先级越高，各队列最大缓存容量为B_max个数据包。各信道在时间上被划分成等周期时隙，连续F个时隙定义为一个时帧。当所有链路已完成时间同步，各信道上每个时隙被称为一个传输机会，且所有传输机会的容量为1个数据包。在时隙t、第n条链路的发射机根据自己的缓存队列情况

做出信道选择决策

从而获得各信道的反馈

表示第i条信道被第n条链路的发射机选择，否则没被选择，

表示第n条链路的信息在第i条信道上被成功传输，否则没有成功或因不选择该链路而没有反馈。

ρ_n(t)为链路传输价值变量：

其中，B_u是用于归一化链路传输价值的常数，

为第l^*优先级队列的权重，且有

表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号。

为每个传输机会用于传输不同链路业务对全网产生的效益为：

优化目标Opt₁表示一个时帧内所有链路的效益和，优化目标Opt₂为当前时帧内所有链路都完成传输时的时隙标号。约束条件C1表示每条链路发射机决策动作的定义；约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新；约束条件C3表示每条链路传输价值的更新；C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数；约束条件C5表示一个信道只能被一条链路成功接入，否则会发生碰撞；约束条件C6给出优化目标的Opt₂数学表达。

步骤2中，基于Multi-agent深度强化学习框架中配有N个Agent，每个Agent配有一个相同架构的多层神经网络，其中第一层用于接收每条链路的局部观测，最后一层直接输出所有信道接入决策的Q值，用于动作的选择。

每个Agent的局部观测表示为：

其中，

表示第n条链路发射机所有缓存队列中当前缓存的数据包数量；ρ_n(t)表示第n条链路当前时隙的传输价值；a_n(t-1)表示第n条链路发射机上一时隙的决策动作；

表示上一时隙动作对应的各信道反馈；

表示第n条链路对各信道的感知结果；e和ε分别为当前训练的次数和随机选择的概率。

各Agent的动作空间定义为：

其维度为2^K。

框架按照所有链路发射机缓存队列没有清空之前所获得奖励为所有链路效益和，以及当所有链路发射机的各级缓存队列数据包均被清空后所获得奖励为一个常数r₀设定协作奖励方程：

步骤3包括：

步骤3.1：获取系统参数，包括链路数量N、信道数量K、缓存队列数量L、各缓存队列的最大缓存数据包数B_max；

步骤3.2：基于步骤2建立的Multi-agent深度强化学习框架构建Multi-agent集中训练系统，进行所有Agent神经网络参数的离线训练；

步骤3.3：将步骤3.2中训练完成的神经网络部署到实际网络中的发射机上；

步骤3.4：网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果等在内的局部观测，并输入到加载的Agent神经网络模型中，以得到该时隙的信道选择结果。

步骤3.2中的Multi-agent集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。

步骤3.2中，每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池，目标神经网络和训练神经网络拥有相同的神经网络结构。

本发明的有益效果：本发明方法中，基于每个链路发射机的业务缓存队列情况，根据每个传输资源用于不同链路传输对全网产生的效益不同，建立全局业务优先级平衡效果的多信道接入约束模型；基于所建立的模型进行适用于考虑业务优先级的多信道接入的Multi-agent深度学习建模，并利用该Multi-agent深度学习模型训练所有Agent的神经网络，以获得考虑业务优先级的多信道接入分布式方法，实现了各链路在分布式执行时，仅根据局部观测就能进行具有全局业务优先级平衡效果的信道选择决策。在本发明方法使各链路发射机在实际运行时，在无交互开销的情况下，仅根据局部观测进行信道接入决策，便可达到全局效益最大化的效果，提升了有限频谱资源的使用效率。

附图说明

图1为本发明中一种考虑业务优先级的多信道接入建模及分布式实现方法流程图；

图2为本发明方法中考虑业务优先级的多信道接入系统模型；

图3为本发明方法中基于Multi-agent深度强化学习框架图；

图4为本发明方法与其他方法关于全网效益对比图；

图5为本发明方法与其他方法关于全网总吞吐量对比图。

具体实施方式

以下结合附图详细的阐述本发明的具体实施方式，需要说明的是，具体实施方式只是本发明最佳的实施方式，而不代表本发明的范围，本领域技术人员在不脱离本发明主旨的基础上所进行的修改变动均属于本发明的范围。

本发明所提出的一种考虑业务优先级的多信道接入建模及分布式实现方法，如图1所示。首先要对考虑业务优先级的多链路动态信道接入方法建模，在此基础上，基于Multi-agent深度强化学习的分布式实现过程，提供方案以解决传统多链路动态频谱接入中无线资源利用效率低且缺乏全局业务优先级平衡意识的问题。本发明的方法考虑了不同链路发射机所具有的业务缓存队列状态差异，提出了衡量相同无线资源传输不同链路业务所产生的价值衡量参数，并基于该参数重新定义了全网传输效益，并以所定义的效益为最大化目标建立了考虑业务优先级的多信道接入约束优化模型。通过将该模型转化为一个Multi-agent深度强化学习过程，并利用模型的优化目标作为奖励来集中训练所有Agent，得到该考虑业务优先级的动态多信道接入分布式实现方法，使加载了相应Agent的链路发射机在分布式执行动态信道接入决策时，具备了全局业务优先级平衡的能力。仿真结果表明，在仅利用局部观测的情况下，本发明所提出的方法的结果更接近所提约束优化问题的最优解，且显著优于随机接入方法。

图2是本发明建立的考虑业务优先级的多信道接入系统模型。该模型中，N条无线链路同时接入一段包含K个正交信道的无线频谱，其中每条链路的发射机拥有一个包含L个优先级的业务缓存队列，且缓存队列标号越小优先级越高，各队列最大缓存容量为B_max个数据包。各信道在时间上被划分成等周期时隙，连续F个时隙定义为一个时帧。假设所有链路已完成时间同步，各信道上每个时隙被称为一个传输机会，且所有传输机会的容量为1个数据包。在时隙t，第n条链路的发射机根据自己的缓存队列情况

做出信道选择决策

从而获得各信道的反馈

其中

表示第i条信道被链路n的发射机选择，否则没被选择，而

表示链路n的信息在第i条信道上被成功传输，否则没有成功或因不选择该链路而没有反馈。每条链路传输价值变量为：

其中，B_u是用于归一化链路传输价值的常数，

为第l^*优先级队列的权重，且有

每个传输机会用于传输不同链路业务对全网产生的效益为：

考虑业务优先级的多信道接入问题建模为：

其中，优化目标Opt₁表示一个时帧内所有链路的效益和，优化目标Opt₂为当前时帧内所有链路都完成传输时的时隙标号。约束条件C1表示每条链路发射机决策动作的定义；约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新；约束条件C3表示每条链路传输价值的更新；约束条件C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数；约束条件C5表示一个信道只能被一条链路成功接入，否则会发生碰撞；约束条件C6给出优化目标的Opt₂数学表达。

基于全局信息可求得上述约束优化模型的最优解，但需要消耗过多的信号开销。为实现上述解的分布式执行，本发明采用如图3所示的基于Multi-agent深度强化学习框架来获取对应于上述所建立模型的分布式执行方法。该框架中，每条传输链路对应一个Agent，每个Agent配有一个相同架构的多层神经网络，其中第一层用于接收每条链路的局部观测，最后一层直接输出所有信道接入决策的Q值，用于动作的选择。本发明中深度强化学习算法包括但不限于DQN算法、Double DQN算法以及A3C算法。各Agent的神经网络结构包括但不限于全连接网络、卷积神经网络以及循环神经网络。

该框架中每个Agent的局部观测表示为：

其中，

表示上一时隙动作对应的各信道反馈；

e和ε三种观测的添加是为了应对多Agent训练时的不稳定问题。

该框架中，各Agent的动作空间定义为：

其维度为2^K。

该框架设定的协作奖励方程如下：

其物理意义为：在所有链路发射机缓存队列没有清空之前，所获得奖励为所有链路效益和，当所有链路发射机的各级缓存队列数据包均被清空后，所获得奖励为一个常数r₀。r₀的引入是为了促进各链路在当前时帧内尽快传输所缓存的数据包。

该框架采用深度神经网络拟合Q值函数和输入观测状态之间的关系Q(O_n,a_n|θ)，其中θ为该神经网络的参数，并利用经验回放操作来训练该神经网络。该神经网络参数在线下集中训练，并将训练好的参数加载到网络的各链路发射机上，在实际使用中是以分布式的方式执行。集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池，目标神经网络和训练神经网络拥有相同的神经网络结构。具体步骤如下：

步骤1：获取系统参数，包括链路数量N，信道数量K，缓存队列数量L，各缓存队列的最大缓存数据包数；

步骤2：基于图3所示的Multi-agent深度强化学习框架构建集中训练系统，进行所有Agent神经网络的离线训练，具体步骤如下：

步骤2.1：初始化2N个神经网络的参数以及N个经验池；设置业务随机产生区间

根据该区间随机初始化每条链路发射机的各级缓存队列数据包数量；将各链路初始观测为第一个时隙各级缓存队列数据包数量、第一个时隙传输价值、上一时隙动作选择均为0，信道反馈均为0，信道感知结果均为1，当前训练次数为1及随机选择的概率为1；将贪婪概率系数ε设置为1。

步骤2.2：开始执行循环过程，循环包括N_e次大循环，每个大循环包含F次小循环。N_e为使得算法达到收敛循环次数。每经过F次小循环，每个Agent从各自经验记忆回放池中随机采样M条经验，计算均方误差损失，并利用RMSprop算法进行各自神经网络参数的训练每经过N_p次大循环，每个Agent将各自的训练神经网络参数复制给目标神经网络参数。其中N_p<<N_e。

其中，每经过1次大循环，减小贪婪概率系数ε。每经过1次大循环，重新设置业务随机产生区间，重新初始化每条链的局部观测。

步骤2.2中第t次小循环过程如下：

步骤2.2.1：每个Agent观测当前环境状态，获得本地观测状态O_n(t)；

步骤2.2.2：将观测O_n(t)输入到训练神经网络中，并根据训练神经网络输出和随机选择概率来选取决策动作：

其中，

表示随机选择动作。

步骤2.2.3：所有Agent共同执行所选择的动作a_n(t)，得到环境的奖励:

步骤2.2.4：所有Agent更新缓存队列内的数据包、自身的传输价值、上一时隙动作选择、信道反馈、信道观测、当前训练次数及随机选择的概率，从而获得下一观测状态O_n(t+1)。

步骤2.2.5：每个Agent将(O_n(t),a_n(t),r_n(t+1),O_n(t+1))存储到经验记忆回放池中。

步骤3：将步骤2中训练完成的神经网络部署到实际网络中的发射机上；

步骤4：网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果等在内的局部观测，输入到加载的Agent神经网络模型中，以得到该时隙的信道选择结果。

下面通过具体的示例对本发明进行说明。利用本发明的方法在表1参数设置下，训练了一组包含6条传输链路、5个正交信道的动态信道接入深度学习模型。

表1示例参数设置表

信道数K	5
		链路数N	6
缓存队列级数L	4
		最大缓存数据包B<sub>max</sub>	125
一个时帧包含的时隙数F	100
		一个传输机会的容量	1个数据包
神经网络结构	输入层+LSTM层+全连接层+输出层
		贪婪概率ε	前80％训练回合中从1到0.002等差递减
优化器	RMSProp
		经验记忆回放池容量	20000
采样数M	2000
		总训练回合数	10000

图4和图5是利用本发明方法后的网络性能与最优解和随机选择的方法进行对比的结果。如图所示，最优解在优化本发明所定义的网络效益的同时，能够达到最大的传输容量，证明了本发明所提考虑业务优先级的多信道接入建模方法的有效性。此外，本发明所提出的基于Multi-agent深度强化学习的分布式实现方法相对于随机方案具有较大的全网效益提升和更高的全网吞吐量，同时在仅利用局部信息的情况下，其性能更接近所提约束优化问题的最优解，证明了本发明所提分布式实现方法的有效性。

上述实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种考虑业务优先级的多信道接入建模及分布式实现方法，包括以下步骤：

步骤2：将所述步骤1建立的约束优化模型转化为Multi-agent强化学习决策过程，构建基于所述约束优化模型的多链路动态信道决策的深度学习框架；

步骤3：将所述步骤1建立的约束优化模型的优化目标作为奖励，对所述步骤2构建的深度学习框架的所有Agent进行集中训练，将训练好的Agent加载到网络对应的各链路发射机上进行分布式执行，输入当前时隙的各链路局部观测，从而得到当前时隙每条链路发射机选择接入的信道。

2.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤1中的约束优化模型为：

在模型中，N条无线链路同时接入一段包含K个正交信道的无线频谱，每条链路的发射机拥有一个包含L个优先级的业务缓存队列，且缓存队列标号越小优先级越高，各队列最大缓存容量为B_max个数据包；各信道在时间上被划分成等周期时隙，连续F个时隙定义为一个时帧；假设所有链路已完成时间同步，各信道上每个时隙被称为一个传输机会，且所有传输机会的容量为1个数据包；在时隙t、第n条链路的发射机根据自己的缓存队列情况

做出信道选择决策

从而获得各信道的反馈

表示第i条信道被第n条链路的发射机选择，否则没被选择，

表示第n条链路的信息在第i条信道上被成功传输，否则没有成功或因不选择该链路而没有反馈；ρ_n(t)为链路传输价值变量：

其中，B_u是用于归一化链路传输价值的常数，

为第l^*优先级队列的权重，且有

表示第n条链路发射机当前不为零的优先级队列中最高优先队列的标号；

优化目标Opt₁表示一个时帧内所有链路的效益和，优化目标Opt₂为当前时帧内所有链路都完成传输时的时隙标号；约束条件C1表示每条链路发射机决策动作的定义；约束条件C2表示每条链路发射机各级业务缓存队列中数据包的更新；约束条件C3表示每条链路传输价值的更新；C4表示每条链路发射机在当前时隙选择接入信道的总容量不大于当前需要传输数据包的总数；约束条件C5表示一个信道只能被一条链路成功接入，否则会发生碰撞；约束条件C6给出优化目标的Opt₂数学表达。

3.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤2中，基于Multi-agent深度强化学习框架中配有N个Agent，每个Agent配有一个相同架构的多层神经网络，其中第一层用于接收每条链路的局部观测，最后一层直接输出所有信道接入决策的Q值，用于动作的选择；每个Agent的局部观测为：

其中，

表示上一时隙动作对应的各信道反馈；

表示第n条链路对各信道的感知结果；e和ε分别为当前训练的次数和随机选择的概率；

各Agent的动作空间定义为：

其维度为2^K；

所述深度强化学习框架按照所有链路发射机缓存队列没有清空之前所获得奖励为所有链路效益和，以及当所有链路发射机的各级缓存队列数据包均被清空后所获得奖励为一个常数r₀设定协作奖励方程：

4.根据权利要求1所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3包括：

步骤3.2：基于所述步骤2建立的Multi-agent深度强化学习框架构建Multi-agent集中训练系统，进行所有Agent神经网络参数的离线训练；

步骤3.3：将所述步骤3.2中训练完成的神经网络部署到实际网络中的发射机上；

步骤3.4：网络中所有链路的发射机在每个时隙获取包括业务缓存队列状态、最新的传输价值、上一时隙的动作、各信道的反馈和感知结果在内的局部观测，并输入到加载的Agent神经网络模型中，以得到该时隙的信道选择结果。

5.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中的Multi-agent集中训练系统包括每条链路对应的Agent、每个Agent对应的经验记忆回放池以及多链路动态信道接入仿真环境。

6.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中，每个Agent配有一个目标神经网络、一个训练神经网络及一个经验回放记忆池，所述的目标神经网络和训练神经网络拥有相同的神经网络结构。

7.根据权利要求4所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，所述步骤3.2中的离线训练包含以下步骤：

步骤3.2.1：初始化2N个神经网络的参数以及N个经验池；设置业务随机产生区间

根据该区间随机初始化每条链路发射机的各级缓存队列数据包数量；将各链路初始观测为第一个时隙各级缓存队列数据包数量、第一个时隙传输价值、上一时隙动作选择均为0，信道反馈均为0，信道感知结果均为1，当前训练次数为1及随机选择的概率为1；将贪婪概率系数ε设置为1；

步骤3.2.2：开始执行循环过程，循环包括N_e次大循环，每个大循环包含F次小循环；每经过F次小循环，每个Agent从各自经验记忆回放池中随机采样M条经验，计算均方误差损失，并利用RMSprop算法进行各自神经网络参数的训练；每经过N_p次大循环，每个Agent将各自的训练神经网络参数复制给目标神经网络参数，其中N_e为使得算法达到收敛循环次数，N_p<<N_e。

8.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，每经过1次大循环，减小贪婪概率系数ε。

9.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，每经过1次大循环，重新设置业务随机产生区间，重新初始化每条链的局部观测。

10.根据权利要求7所述的一种考虑业务优先级的多信道接入建模及分布式实现方法，其特征在于，第t次小循环过程如下：

(a)每个Agent观测当前环境状态，获得本地观测状态O_n(t)；

(b)将观测状态O_n(t)输入到训练神经网络中，并根据训练神经网络输出和随机选择概率来选取决策动作：

其中，

表示随机选择动作；

(c)所有Agent共同执行所选择的动作a_n(t)，得到环境的奖励:

(d)所有Agent更新缓存队列内的数据包、自身的传输价值、上一时隙动作选择、信道反馈、信道观测、当前训练次数及随机选择的概率，从而获得下一观测状态O_n(t+1)；

(e)每个Agent将(O_n(t),a_n(t),r_n(t+1),O_n(t+1))存储到经验记忆回放池中。