CN113301656A

CN113301656A - 一种基于multi-agent强化学习的宽带自组织网资源决策方法

Info

Publication number: CN113301656A
Application number: CN202110551509.5A
Authority: CN
Inventors: 张树英; 赵旭; 倪祖耀; 匡麟玲
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-24
Anticipated expiration: 2041-05-20
Also published as: CN113301656B

Abstract

本发明公开了一种基于multi‑agent深度强化学习的宽带自组织网络无线资源决策方法，首先，利用相同无线资源传输不同占比节点业务对全网所产生的价值不同这一特性来建立资源决策问题的约束优化模型。然后，将该模型转化为multi‑agent强化学习决策过程，从而构建了基于该模型的多用户分布式无线资源决策的深度学习框架，用所提出模型的优化目标作为奖励对所有agent进行集中训练。最后，通过将该深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行，实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

Description

一种基于multi-agent强化学习的宽带自组织网资源决策方法

专利领域

本发明涉及一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，属于无线自组织网络资源决策领域。

背景技术

随着移动通信技术的不断发展和人们对通信内容要求越来越高，具有大容量、高传输速率，不依赖地面固定基础设施的宽带移动自组织网络受到军事战术网、应急通信、车联网等诸多重要领域的关注。在该网络中，各节点依赖于开放共享的无线资源进行业务传输，而由于没有中心节点调度，使得全网对于无线资源的利用要么存在冲突要么效率低下。

在传统基于竞争的方式中，各节点自私地去抢占无线资源、不考虑其他用户的业务需求情况和全网的效益，即便在基于TDMA的分布式调度方式中，各节点对于无线资源的动态调度也缺乏全局意识。若使各节点收集全局信息来实现基于全网效益最大化的无线资源使用，则将需要大量的信息交互，从而使无线资源利用率大幅下降。因此，使各节点依赖尽量少的信息交互，来实现具有全局意识的无线资源分配效果，是宽带移动自组织网络面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力，本发明将每个节点看作一个agent，提出一个新颖的全局效益最大化目标，将其作为奖励来对所有agent进行集中训练，从而赋予了各节点在分布式执行时仅根据局部信息便具有全局优化意识的能力。

发明目的

本发明的目的是为了解决传统自组织网络中无线资源利用效率低且缺乏全局意识的问题，相比于以往方案中各节点仅根据自己的业务需求来进行无线资源的预定，本发明进一步关注各节点业务负载全网占比差异。本发明提出一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，通过使用一个考虑全局效益最大化的目标去集中训练所有agent，并将训练好的agent加载到对应网络节点中进行分布执行，以达到各节点仅依赖局部信息便可进行具有全局意识的无线资源决策的效果。

发明内容

本发明提供了一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，包括以下步骤：

步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型；

步骤二、构建multi-agent无线资源决策的深度强化学习框架，具体是，将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程，从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架；

步骤三、用所述约束优化模型的优化目标作为奖励，对所有agent进行集中训练；

步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行，从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

优选地，所述步骤一包括：考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络，各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙，时隙周期为T_s，其最小可利用资源单元被称为一个时频资源块；该网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构；所述轮询广播控制阶段工作在一个健壮的公共信道上，且该公共信道被划分为N个控制时隙，每个节点在所属的控制时隙依次发送网络管理控制包，告诉该节点一跳邻域内的节点，在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输；每个节点的邻居节点接收到该网络管理控制包信息后，根据预定信息更改自己本地的时频资源使用表，并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点，从而实现两跳邻域节点的信息交互；

所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突，各节点对于时频资源块预定量的决策动作被表示为a_i[k]，该决策动作需满足如式(1)所示的约束条件：

其中，i表示第i个节点，i＝1,2,3…N，k表示第k个时帧；定义网络中每个时频资源块的传输容量均为B₀，用一个节点当前时刻所需传输的数据包大小B_i[k]及该数据包可容忍的时延T_i[k]来衡量传输该节点的价值，表示为

将连续F个时帧作为一个超帧，并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标，将其表示为如式(2)所示：

其中，P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型，W代表所优化的全网效益的衡量指标，C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数；C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量；C3表示每个节点连续两个时帧的业务量变化关系；C4表示每个节点连续两个时帧业务可容忍时延的变化关系，{...}+表示取非负操作。

优选地，所述步骤二中，所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池D_i，所述经验记忆回放池的容量为M_e，用于存放该框架产生的历史数据元组(O,a,r,O')，即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态；所述神经网络的参数为θ，对其训练时每次从经验记忆回放池中随机选取M_b个历史数据元组D_i ^batch，并采用学习速率α和贪婪概率ε；所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息；定义每个agent的局部观测状态如式(3)所示：

O_i[k]＝{a_1,…,N[k-1],B_i[k],T_i[k],n_i[k],e,ε} (3)，

其中，a_j[k-1]表示第j^th agent在上一时帧所采取的动作，n_i[k]表示该节点在其控制时隙时所面临的剩余时频资源块数，e和ε分别为当前训练的次数和随机选择的概率；

根据每个节点决策动作的约束，设定该框架中节点i的动作空间如式(4)所示：

其中，a_i[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值；为使每个agent在做动作决策时能最大化全网效益，将当前时帧所有节点所产生的传输价值总和作为每个节点的奖励函数，该深度强化学习框架中所有节点同时采取动作之后获得的奖励如式(5)所示：

其物理意义为当前时帧全网的总传输价值；

将所述深度强化学习过程优化的累计折扣奖励表示为如式(6)所示：

其中，折扣因子γ表征当前决策是更关注近期收益还是长期收益，0≤γ≤1；

将所述累计折扣奖励与优化目标相匹配，作为促进每个节点在动作决策时的优化策略，根据Q学习算法，将所述优化策略表征为如式(7)所示：

其中，所述深度强化学习框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系，并利用经验回放操作来训练该神经网络，使各节点决策结果趋向于最优。

优选地，所述步骤三具体包括以下子步骤：

步骤3.1：环境初始化，即产生一个包含N个节点的2跳邻域自组织网络，该网络一帧内可用无线资源为1个前导公共信道和L个预定信道，公共信道在一帧中被划分为N个控制时隙，每个预定信道被分为M个数据时隙。

步骤3.2：神经网络初始化，将每个节点看作一个agent，并为每一个agent初始化相同结构的全连接神经网络分别作为要训练的神经网络；

步骤3.3：训练神经网络，开始迭代训练每个agent的神经网络，如果迭代次数达到N_max则退出迭代，进入步骤四，否则继续迭代，所述迭代过程如下：

1)以连续F个时帧作为一个回合，随机产生每个节点在该回合内需要传输的数据总量B_i及可容忍的时延T_i；

2)在每一个回合的每个时帧中，各节点获取本地观测状态O_i[k]，将该状态输入到神经网络中，并根据神经网络输出和随机选择概率来选取决策动作a_i[k]，表示为如式(8)所示：

3)所有的节点共同执行所选择的动作，进而得到环境的奖励r[k+1]，同时更新剩余需要传输的数据总量B_i及可容忍的时延T_i；

4)每个节点获取下一观测状态O_i[k+1]，并将(O_i[k],a_i[k],r[k+1],O_i[k+1])存储到经验回放池D_i中；

5)每个节点从D_i中随机采样D_i ^batch，用随机梯度下降法训练各自的神经网络，直到迭代次数满足目标要求，所述神经网络的更新方法表达如式(9)所示：

其中α为学习速率；

步骤3.4：神经网络参数永久化，将步骤3.3中训练好的每个agent的神经网络参数保存固化，完成集中训练。

优选地，所述步骤四具体包括以下子步骤：

步骤4.1：将步骤三种训练好的每个agent的神经网络参数加载到对应节点的设备上；

步骤4.2：对于每个节点当前需要传输的数据总量B_i及可容忍的时延T_i，获取观测状态O_i[k]；

步骤4.3：每个节点将该观测状态O_i[k]输入到神经网络中，并根据神经网络输出选择动作a_i[k]；

步骤4.4：所有节点同时将所选择的动作作用到交互环境中，使个节点的剩余需要传输的数据总量及可容忍的时延得到更新，如停止工作条件满足则退出循环，否则返回步骤二。

附图说明

图1为宽带自组织网络资源决策的系统模型；

图2为深度学习multi-agent无线资源决策的深度强化学习框架图；

图3为本方法全网效益与其他算法对比图；

图4为本方法全网总吞吐量与其他算法对比图

具体实施方式

本发明所提出的基于multi-agent强化学习的宽带自组织网资源决策方法，旨在提供方案以解决宽带移动自组织网节点分布式资源决策中无线资源利用效率低且缺乏全局意识的问题。本发明考虑了不同节点所具有的业务负载在全网占比不同的因素，提出了衡量相同无线资源传输不同节点所产生的价值衡量参数，并基于该参数建立了全网传输价值最大化的无线资源决策约束优化模型。通过将该模型转化为一个multi-agent深度强化学习框架，并利用模型的优化目标作为奖励来集中训练所有agent，使加载了相应agent的节点在分布式执行资源决策时具备了全局优化意识的能力。仿真结果表明，该算法在在仅利用局部信息的情况下，其性能更接近所提约束优化问题的最优解，相比于其他算法具有较大的全网效益提升和更高的全网吞吐量。

以下结合附图详细的阐述本发明的具体实施方式，需要说明的是，具体实施方式只是本发明最佳的实施方式，而不代表本发明的范围，本领域技术人员在不脱离本发明主旨的基础上所进行的修改变动均属于本发明的范围。

图1示出了本发明所述宽带移动自组织网络资源决策的系统模型。该模型中，在此宽带移动自组织网络中包含2跳邻域的N个节点，各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙，时隙周期为T_s，其最小可利用资源单元被称为一个时频资源块。每个时频资源块的传输容量均为B₀，而传输第i个节点的价值

每个节点采用了一个具有轮询广播控制阶段和数据传输阶段组成的帧结构。轮询广播控制阶段工作在一个健壮的公共信道上，且该信道被划分为N个控制时隙，每个节点在所属的控制时隙依次发送网络管理控制包，告诉其一跳邻域内的节点，在数据传输阶段要预定哪些时频资源块来进行后续的业务传输。其邻居节点接收到该信息后，根据预定信息更改自己本地的时频资源使用表，并在自己的控制时隙将该表发送给邻居节点，从而实现两跳邻域节点的信息交互。本发明中各节点的决策动作是当前时帧时频资源块的预定个数a_i[k]。将连续F个时帧内所有节点的传输价值总和作为全网效益衡量指标，本发明提出的基于业务负载全网占比差异的资源决策问题约束优化模型表述为：

上面约束中，C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数；C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量；C3表示每个节点连续两个时帧的业务量变化关系；C4表示每个节点连续两个时帧业务可容忍时延的变化关系。

图2是基于上述模型的multi-agent深度强化学框架图。该框架中每个agent配有一个相同架构的五层全连接神经网络，每层分别包含(ML+1)N+5、500、250、120和ML个神经元，其中第一层表示所每个节点局部观测状态的维度，最后一层直接输出所有决策的Q值，用于动作的选择。该神经网络参数在线下集中训练，并将训练好的参数加载到网络的各节点上，在实际使用中是以分布式的方式执行。

该框架中每个agent的局部观测状态表示为式(3)：

O_i[k]＝{a_1,…,N[k-1],B_i[k],T_i[k],n_i[k],e,ε} (3)，

其中，a_j[k-1]表示第j^thagent在上一时帧的所采取的动作，n_i[k]表示该节点在其控制时隙时面临的剩余时频资源块数，e和ε分别为当前训练的次数和随机选择的概率。

该框架中节点i的动作空间表示为式(4)：

其中a_i[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值。

该框架中所有节点同时采取动作之后获得的奖励如式(5)所示：

其物理意义为当前时帧全网的总传输价值。

在该框架中，所有节点的资源决策需要去最大化长期的累积折扣奖励，表示为如下式所示：：

其中，折扣因子γ(0≤γ≤1)表征了当前决策是更关注近期收益还是长期收益。

根据Q学习算法，该框架选择最优策略的方法表述为如式(7)所示：

该框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系，并利用经验回放操作来训练该神经网络，使各节点决策结果趋向于最优。参照图2，所述宽带自组织网络资源决策深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池D_i，所述经验记忆回放池的容量为M_e，用于存放该框架产生的历史数据元组(O,a,r,O')，即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态。所述神经网络的参数为θ，对其训练时每次从经验记忆回放池中随机选取M_b个历史数据元组D_i ^batch，并采用学习速率α和ε贪婪选择测略。具体步骤如下：

步骤1：所述宽带自组织网络资源决策深度学习框架中每个agent观测当前系统状态，获得本地观测状态O_i[k]，将该状态输入到神经网络中，并根据神经网络输出和随机选择概率来选取决策动作：

所有agent共同执行所选择的动作，得到环境的奖励:

步骤2：所有agent更新剩余需要传输的数据总量B_i及可容忍的时延T_i,获得下一观测状态O_i[k+1]，并将(O_i[k],a_i[k],r[k+1],O_i[k+1])存储到经验记忆回放池D_i中；

步骤4：所有agent从D_i中随机采样D_i ^batch，用随机梯度下降法训练各自的神经网络，直到迭代次数满足要求，所述神经网络得更新方法为：

其中α为学习速率。

步骤5：当达到训练次数后，将训练好的每个agent的神经网络参数保存固化，完成中心训练过程。

本方法在表1参数设置下，训练了一组包含5个节点的宽带自组织网络的深度学习模型。

表1参数设置表

信道数L	5
		数据时隙数M	6
一个超帧包含的时帧数F	100
		折扣因子γ	1
贪婪概率ε	前80％训练回合中从1到0.002等差递减
		学习速率α	0.001
经验记忆回放池容量M<sub>e</sub>	20000
		采样数M<sub>b</sub>	2000
总训练回合数	10000

将训练好的每个agent的神经网络参数加载到对应节点的设备上，进行了其性能的仿真对比。

图3和图4是各节点分布式运行的性能与其他方案进行对比结果。可以看出，本发明所提出的分布式资源决策方法相对于随机决策和固定分配的方案具有较大的全网效益提升和更高的全网吞吐量，同时在仅利用局部信息的情况下，其性能更接近所提约束优化问题的最优解。本发明在提升全网效益的同时，可以有效减少节点间进行无线资源决策时的信息交互，提升了无线资源的使用效率，证明了本发明的有效性。

综上所述，本发明以各节点传输价值总和为全网优化目标来建立适用于宽带自组织网络多节点分布式无线资源决策的multi-agent深度学习框架，通过集中训练，使各节点在实际运行时，仅根据局部信息做无线资源决策便可实现全局效益最大化的效果，降低了分布式无线资源调度的交互开销，提升了自组织网络对无线资源的使用效率。

与现有技术相比，本发明具有以下创新点：

(1)从每个节点需要传输的数据量及可容忍时延的角度来衡量其业务传输的着急程度，并根据该物理意义进一步定义了每个时频资源块传输不同节点的业务对全网产生的价值，并以该价值总和作为全网的优化目标来驱动节点有全局意识的进行无线资源决策；

(2)基于所提出的优化目标，提出了适用于宽带自组织网络多节点分布式无线资源决策的multi-agent深度学习框架，实现了个节点在分布式执行时，仅根据局部信息就能进行具有全局意识的无线资源决策，大大减少了交互开销。

Claims

1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤一包括：

考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络，各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙，时隙周期为T_s，其最小可利用资源单元被称为一个时频资源块；

所述宽带自组织网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构；

所述轮询广播控制阶段工作在一个健壮的公共信道上，且该公共信道被划分为N个控制时隙，每个节点在所属的控制时隙依次发送网络管理控制包，告诉该节点一跳邻域内的节点，在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输；

每个节点的邻居节点接收到该网络管理控制包信息后，根据预定信息更改自己本地的时频资源使用表，并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点，从而实现两跳邻域节点的信息交互；

3.根据权利要求2所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤二中，所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池D_i，所述经验记忆回放池的容量为M_e，用于存放该框架产生的历史数据元组(O,a,r,O')，即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态；所述神经网络的参数为θ，对其训练时每次从经验记忆回放池中随机选取M_b个历史数据元组D_i ^batch，并采用学习速率α和贪婪概率ε；所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息；定义每个agent的局部观测状态如式(3)所示：

O_i[k]＝{a_1,…,N[k-1],B_i[k],T_i[k],n_i[k],e,ε} (3)，

其物理意义为当前时帧全网的总传输价值；

4.根据权利要求3所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤三具体包括以下子步骤：

其中α为学习速率；

5.根据权利要求4所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤四包括以下子步骤：