CN113301656A - 一种基于multi-agent强化学习的宽带自组织网资源决策方法 - Google Patents

一种基于multi-agent强化学习的宽带自组织网资源决策方法 Download PDF

Info

Publication number
CN113301656A
CN113301656A CN202110551509.5A CN202110551509A CN113301656A CN 113301656 A CN113301656 A CN 113301656A CN 202110551509 A CN202110551509 A CN 202110551509A CN 113301656 A CN113301656 A CN 113301656A
Authority
CN
China
Prior art keywords
node
time
network
agent
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110551509.5A
Other languages
English (en)
Other versions
CN113301656B (zh
Inventor
张树英
赵旭
倪祖耀
匡麟玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110551509.5A priority Critical patent/CN113301656B/zh
Publication of CN113301656A publication Critical patent/CN113301656A/zh
Application granted granted Critical
Publication of CN113301656B publication Critical patent/CN113301656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于multi‑agent深度强化学习的宽带自组织网络无线资源决策方法,首先,利用相同无线资源传输不同占比节点业务对全网所产生的价值不同这一特性来建立资源决策问题的约束优化模型。然后,将该模型转化为multi‑agent强化学习决策过程,从而构建了基于该模型的多用户分布式无线资源决策的深度学习框架,用所提出模型的优化目标作为奖励对所有agent进行集中训练。最后,通过将该深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

Description

一种基于multi-agent强化学习的宽带自组织网资源决策 方法
专利领域
本发明涉及一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,属于无线自组织网络资源决策领域。
背景技术
随着移动通信技术的不断发展和人们对通信内容要求越来越高,具有大容量、高传输速率,不依赖地面固定基础设施的宽带移动自组织网络受到军事战术网、应急通信、车联网等诸多重要领域的关注。在该网络中,各节点依赖于开放共享的无线资源进行业务传输,而由于没有中心节点调度,使得全网对于无线资源的利用要么存在冲突要么效率低下。
在传统基于竞争的方式中,各节点自私地去抢占无线资源、不考虑其他用户的业务需求情况和全网的效益,即便在基于TDMA的分布式调度方式中,各节点对于无线资源的动态调度也缺乏全局意识。若使各节点收集全局信息来实现基于全网效益最大化的无线资源使用,则将需要大量的信息交互,从而使无线资源利用率大幅下降。因此,使各节点依赖尽量少的信息交互,来实现具有全局意识的无线资源分配效果,是宽带移动自组织网络面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力,本发明将每个节点看作一个agent,提出一个新颖的全局效益最大化目标,将其作为奖励来对所有agent进行集中训练,从而赋予了各节点在分布式执行时仅根据局部信息便具有全局优化意识的能力。
发明目的
本发明的目的是为了解决传统自组织网络中无线资源利用效率低且缺乏全局意识的问题,相比于以往方案中各节点仅根据自己的业务需求来进行无线资源的预定,本发明进一步关注各节点业务负载全网占比差异。本发明提出一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,通过使用一个考虑全局效益最大化的目标去集中训练所有agent,并将训练好的agent加载到对应网络节点中进行分布执行,以达到各节点仅依赖局部信息便可进行具有全局意识的无线资源决策的效果。
发明内容
本发明提供了一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,包括以下步骤:
步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型;
步骤二、构建multi-agent无线资源决策的深度强化学习框架,具体是,将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程,从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架;
步骤三、用所述约束优化模型的优化目标作为奖励,对所有agent进行集中训练;
步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。
优选地,所述步骤一包括:考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络,各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙,时隙周期为Ts,其最小可利用资源单元被称为一个时频资源块;该网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构;所述轮询广播控制阶段工作在一个健壮的公共信道上,且该公共信道被划分为N个控制时隙,每个节点在所属的控制时隙依次发送网络管理控制包,告诉该节点一跳邻域内的节点,在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输;每个节点的邻居节点接收到该网络管理控制包信息后,根据预定信息更改自己本地的时频资源使用表,并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点,从而实现两跳邻域节点的信息交互;
所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突,各节点对于时频资源块预定量的决策动作被表示为ai[k],该决策动作需满足如式(1)所示的约束条件:
Figure BDA0003075627920000031
其中,i表示第i个节点,i=1,2,3…N,k表示第k个时帧;定义网络中每个时频资源块的传输容量均为B0,用一个节点当前时刻所需传输的数据包大小Bi[k]及该数据包可容忍的时延Ti[k]来衡量传输该节点的价值,表示为
Figure BDA0003075627920000032
将连续F个时帧作为一个超帧,并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标,将其表示为如式(2)所示:
Figure BDA0003075627920000041
其中,P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型,W代表所优化的全网效益的衡量指标,C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数;C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量;C3表示每个节点连续两个时帧的业务量变化关系;C4表示每个节点连续两个时帧业务可容忍时延的变化关系,{...}+表示取非负操作。
优选地,所述步骤二中,所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di,所述经验记忆回放池的容量为Me,用于存放该框架产生的历史数据元组(O,a,r,O'),即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态;所述神经网络的参数为θ,对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Di batch,并采用学习速率α和贪婪概率ε;所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息;定义每个agent的局部观测状态如式(3)所示:
Oi[k]={a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε} (3),
其中,aj[k-1]表示第jth agent在上一时帧所采取的动作,ni[k]表示该节点在其控制时隙时所面临的剩余时频资源块数,e和ε分别为当前训练的次数和随机选择的概率;
根据每个节点决策动作的约束,设定该框架中节点i的动作空间如式(4)所示:
Figure BDA0003075627920000051
其中,ai[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值;为使每个agent在做动作决策时能最大化全网效益,将当前时帧所有节点所产生的传输价值总和作为每个节点的奖励函数,该深度强化学习框架中所有节点同时采取动作之后获得的奖励如式(5)所示:
Figure BDA0003075627920000052
其物理意义为当前时帧全网的总传输价值;
将所述深度强化学习过程优化的累计折扣奖励表示为如式(6)所示:
Figure BDA0003075627920000053
其中,折扣因子γ表征当前决策是更关注近期收益还是长期收益,0≤γ≤1;
将所述累计折扣奖励与优化目标相匹配,作为促进每个节点在动作决策时的优化策略,根据Q学习算法,将所述优化策略表征为如式(7)所示:
Figure BDA0003075627920000054
其中,所述深度强化学习框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系,并利用经验回放操作来训练该神经网络,使各节点决策结果趋向于最优。
优选地,所述步骤三具体包括以下子步骤:
步骤3.1:环境初始化,即产生一个包含N个节点的2跳邻域自组织网络,该网络一帧内可用无线资源为1个前导公共信道和L个预定信道,公共信道在一帧中被划分为N个控制时隙,每个预定信道被分为M个数据时隙。
步骤3.2:神经网络初始化,将每个节点看作一个agent,并为每一个agent初始化相同结构的全连接神经网络分别作为要训练的神经网络;
步骤3.3:训练神经网络,开始迭代训练每个agent的神经网络,如果迭代次数达到Nmax则退出迭代,进入步骤四,否则继续迭代,所述迭代过程如下:
1)以连续F个时帧作为一个回合,随机产生每个节点在该回合内需要传输的数据总量Bi及可容忍的时延Ti
2)在每一个回合的每个时帧中,各节点获取本地观测状态Oi[k],将该状态输入到神经网络中,并根据神经网络输出和随机选择概率来选取决策动作ai[k],表示为如式(8)所示:
Figure BDA0003075627920000061
3)所有的节点共同执行所选择的动作,进而得到环境的奖励r[k+1],同时更新剩余需要传输的数据总量Bi及可容忍的时延Ti
4)每个节点获取下一观测状态Oi[k+1],并将(Oi[k],ai[k],r[k+1],Oi[k+1])存储到经验回放池Di中;
5)每个节点从Di中随机采样Di batch,用随机梯度下降法训练各自的神经网络,直到迭代次数满足目标要求,所述神经网络的更新方法表达如式(9)所示:
Figure BDA0003075627920000071
其中α为学习速率;
步骤3.4:神经网络参数永久化,将步骤3.3中训练好的每个agent的神经网络参数保存固化,完成集中训练。
优选地,所述步骤四具体包括以下子步骤:
步骤4.1:将步骤三种训练好的每个agent的神经网络参数加载到对应节点的设备上;
步骤4.2:对于每个节点当前需要传输的数据总量Bi及可容忍的时延Ti,获取观测状态Oi[k];
步骤4.3:每个节点将该观测状态Oi[k]输入到神经网络中,并根据神经网络输出选择动作ai[k];
步骤4.4:所有节点同时将所选择的动作作用到交互环境中,使个节点的剩余需要传输的数据总量及可容忍的时延得到更新,如停止工作条件满足则退出循环,否则返回步骤二。
附图说明
图1为宽带自组织网络资源决策的系统模型;
图2为深度学习multi-agent无线资源决策的深度强化学习框架图;
图3为本方法全网效益与其他算法对比图;
图4为本方法全网总吞吐量与其他算法对比图
具体实施方式
本发明所提出的基于multi-agent强化学习的宽带自组织网资源决策方法,旨在提供方案以解决宽带移动自组织网节点分布式资源决策中无线资源利用效率低且缺乏全局意识的问题。本发明考虑了不同节点所具有的业务负载在全网占比不同的因素,提出了衡量相同无线资源传输不同节点所产生的价值衡量参数,并基于该参数建立了全网传输价值最大化的无线资源决策约束优化模型。通过将该模型转化为一个multi-agent深度强化学习框架,并利用模型的优化目标作为奖励来集中训练所有agent,使加载了相应agent的节点在分布式执行资源决策时具备了全局优化意识的能力。仿真结果表明,该算法在在仅利用局部信息的情况下,其性能更接近所提约束优化问题的最优解,相比于其他算法具有较大的全网效益提升和更高的全网吞吐量。
以下结合附图详细的阐述本发明的具体实施方式,需要说明的是,具体实施方式只是本发明最佳的实施方式,而不代表本发明的范围,本领域技术人员在不脱离本发明主旨的基础上所进行的修改变动均属于本发明的范围。
图1示出了本发明所述宽带移动自组织网络资源决策的系统模型。该模型中,在此宽带移动自组织网络中包含2跳邻域的N个节点,各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙,时隙周期为Ts,其最小可利用资源单元被称为一个时频资源块。每个时频资源块的传输容量均为B0,而传输第i个节点的价值
Figure BDA0003075627920000081
每个节点采用了一个具有轮询广播控制阶段和数据传输阶段组成的帧结构。轮询广播控制阶段工作在一个健壮的公共信道上,且该信道被划分为N个控制时隙,每个节点在所属的控制时隙依次发送网络管理控制包,告诉其一跳邻域内的节点,在数据传输阶段要预定哪些时频资源块来进行后续的业务传输。其邻居节点接收到该信息后,根据预定信息更改自己本地的时频资源使用表,并在自己的控制时隙将该表发送给邻居节点,从而实现两跳邻域节点的信息交互。本发明中各节点的决策动作是当前时帧时频资源块的预定个数ai[k]。将连续F个时帧内所有节点的传输价值总和作为全网效益衡量指标,本发明提出的基于业务负载全网占比差异的资源决策问题约束优化模型表述为:
Figure BDA0003075627920000091
上面约束中,C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数;C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量;C3表示每个节点连续两个时帧的业务量变化关系;C4表示每个节点连续两个时帧业务可容忍时延的变化关系。
图2是基于上述模型的multi-agent深度强化学框架图。该框架中每个agent配有一个相同架构的五层全连接神经网络,每层分别包含(ML+1)N+5、500、250、120和ML个神经元,其中第一层表示所每个节点局部观测状态的维度,最后一层直接输出所有决策的Q值,用于动作的选择。该神经网络参数在线下集中训练,并将训练好的参数加载到网络的各节点上,在实际使用中是以分布式的方式执行。
该框架中每个agent的局部观测状态表示为式(3):
Oi[k]={a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε} (3),
其中,aj[k-1]表示第jthagent在上一时帧的所采取的动作,ni[k]表示该节点在其控制时隙时面临的剩余时频资源块数,e和ε分别为当前训练的次数和随机选择的概率。
该框架中节点i的动作空间表示为式(4):
Figure BDA0003075627920000101
其中ai[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值。
该框架中所有节点同时采取动作之后获得的奖励如式(5)所示:
Figure BDA0003075627920000102
其物理意义为当前时帧全网的总传输价值。
在该框架中,所有节点的资源决策需要去最大化长期的累积折扣奖励,表示为如下式所示::
Figure BDA0003075627920000103
其中,折扣因子γ(0≤γ≤1)表征了当前决策是更关注近期收益还是长期收益。
根据Q学习算法,该框架选择最优策略的方法表述为如式(7)所示:
Figure BDA0003075627920000104
该框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系,并利用经验回放操作来训练该神经网络,使各节点决策结果趋向于最优。参照图2,所述宽带自组织网络资源决策深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di,所述经验记忆回放池的容量为Me,用于存放该框架产生的历史数据元组(O,a,r,O'),即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态。所述神经网络的参数为θ,对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Di batch,并采用学习速率α和ε贪婪选择测略。具体步骤如下:
步骤1:所述宽带自组织网络资源决策深度学习框架中每个agent观测当前系统状态,获得本地观测状态Oi[k],将该状态输入到神经网络中,并根据神经网络输出和随机选择概率来选取决策动作:
Figure BDA0003075627920000111
所有agent共同执行所选择的动作,得到环境的奖励:
Figure BDA0003075627920000112
步骤2:所有agent更新剩余需要传输的数据总量Bi及可容忍的时延Ti,获得下一观测状态Oi[k+1],并将(Oi[k],ai[k],r[k+1],Oi[k+1])存储到经验记忆回放池Di中;
步骤4:所有agent从Di中随机采样Di batch,用随机梯度下降法训练各自的神经网络,直到迭代次数满足要求,所述神经网络得更新方法为:
Figure BDA0003075627920000113
其中α为学习速率。
步骤5:当达到训练次数后,将训练好的每个agent的神经网络参数保存固化,完成中心训练过程。
本方法在表1参数设置下,训练了一组包含5个节点的宽带自组织网络的深度学习模型。
表1参数设置表
信道数L 5
数据时隙数M 6
一个超帧包含的时帧数F 100
折扣因子γ 1
贪婪概率ε 前80%训练回合中从1到0.002等差递减
学习速率α 0.001
经验记忆回放池容量M<sub>e</sub> 20000
采样数M<sub>b</sub> 2000
总训练回合数 10000
将训练好的每个agent的神经网络参数加载到对应节点的设备上,进行了其性能的仿真对比。
图3和图4是各节点分布式运行的性能与其他方案进行对比结果。可以看出,本发明所提出的分布式资源决策方法相对于随机决策和固定分配的方案具有较大的全网效益提升和更高的全网吞吐量,同时在仅利用局部信息的情况下,其性能更接近所提约束优化问题的最优解。本发明在提升全网效益的同时,可以有效减少节点间进行无线资源决策时的信息交互,提升了无线资源的使用效率,证明了本发明的有效性。
综上所述,本发明以各节点传输价值总和为全网优化目标来建立适用于宽带自组织网络多节点分布式无线资源决策的multi-agent深度学习框架,通过集中训练,使各节点在实际运行时,仅根据局部信息做无线资源决策便可实现全局效益最大化的效果,降低了分布式无线资源调度的交互开销,提升了自组织网络对无线资源的使用效率。
与现有技术相比,本发明具有以下创新点:
(1)从每个节点需要传输的数据量及可容忍时延的角度来衡量其业务传输的着急程度,并根据该物理意义进一步定义了每个时频资源块传输不同节点的业务对全网产生的价值,并以该价值总和作为全网的优化目标来驱动节点有全局意识的进行无线资源决策;
(2)基于所提出的优化目标,提出了适用于宽带自组织网络多节点分布式无线资源决策的multi-agent深度学习框架,实现了个节点在分布式执行时,仅根据局部信息就能进行具有全局意识的无线资源决策,大大减少了交互开销。

Claims (5)

1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,包括以下步骤:
步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型;
步骤二、构建multi-agent无线资源决策的深度强化学习框架,具体是,将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程,从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架;
步骤三、用所述约束优化模型的优化目标作为奖励,对所有agent进行集中训练;
步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。
2.根据权利要求1所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤一包括:
考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络,各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙,时隙周期为Ts,其最小可利用资源单元被称为一个时频资源块;
所述宽带自组织网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构;
所述轮询广播控制阶段工作在一个健壮的公共信道上,且该公共信道被划分为N个控制时隙,每个节点在所属的控制时隙依次发送网络管理控制包,告诉该节点一跳邻域内的节点,在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输;
每个节点的邻居节点接收到该网络管理控制包信息后,根据预定信息更改自己本地的时频资源使用表,并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点,从而实现两跳邻域节点的信息交互;
所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突,各节点对于时频资源块预定量的决策动作被表示为ai[k],该决策动作需满足如式(1)所示的约束条件:
Figure FDA0003075627910000021
其中,i表示第i个节点,i=1,2,3…N,k表示第k个时帧;定义网络中每个时频资源块的传输容量均为B0,用一个节点当前时刻所需传输的数据包大小Bi[k]及该数据包可容忍的时延Ti[k]来衡量传输该节点的价值,表示为
Figure FDA0003075627910000022
将连续F个时帧作为一个超帧,并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标,将其表示为如式(2)所示:
Figure FDA0003075627910000031
其中,P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型,W代表所优化的全网效益的衡量指标,C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数;C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量;C3表示每个节点连续两个时帧的业务量变化关系;C4表示每个节点连续两个时帧业务可容忍时延的变化关系,{...}+表示取非负操作。
3.根据权利要求2所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤二中,所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di,所述经验记忆回放池的容量为Me,用于存放该框架产生的历史数据元组(O,a,r,O'),即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态;所述神经网络的参数为θ,对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Di batch,并采用学习速率α和贪婪概率ε;所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息;定义每个agent的局部观测状态如式(3)所示:
Oi[k]={a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε} (3),
其中,aj[k-1]表示第jth agent在上一时帧所采取的动作,ni[k]表示该节点在其控制时隙时所面临的剩余时频资源块数,e和ε分别为当前训练的次数和随机选择的概率;
根据每个节点决策动作的约束,设定该框架中节点i的动作空间如式(4)所示:
Figure FDA0003075627910000041
其中,ai[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值;为使每个agent在做动作决策时能最大化全网效益,将当前时帧所有节点所产生的传输价值总和作为每个节点的奖励函数,该深度强化学习框架中所有节点同时采取动作之后获得的奖励如式(5)所示:
Figure FDA0003075627910000042
其物理意义为当前时帧全网的总传输价值;
将所述深度强化学习过程优化的累计折扣奖励表示为如式(6)所示:
Figure FDA0003075627910000043
其中,折扣因子γ表征当前决策是更关注近期收益还是长期收益,0≤γ≤1;
将所述累计折扣奖励与优化目标相匹配,作为促进每个节点在动作决策时的优化策略,根据Q学习算法,将所述优化策略表征为如式(7)所示:
Figure FDA0003075627910000051
其中,所述深度强化学习框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系,并利用经验回放操作来训练该神经网络,使各节点决策结果趋向于最优。
4.根据权利要求3所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤三具体包括以下子步骤:
步骤3.1:环境初始化,即产生一个包含N个节点的2跳邻域自组织网络,该网络一帧内可用无线资源为1个前导公共信道和L个预定信道,公共信道在一帧中被划分为N个控制时隙,每个预定信道被分为M个数据时隙。
步骤3.2:神经网络初始化,将每个节点看作一个agent,并为每一个agent初始化相同结构的全连接神经网络分别作为要训练的神经网络;
步骤3.3:训练神经网络,开始迭代训练每个agent的神经网络,如果迭代次数达到Nmax则退出迭代,进入步骤四,否则继续迭代,所述迭代过程如下:
1)以连续F个时帧作为一个回合,随机产生每个节点在该回合内需要传输的数据总量Bi及可容忍的时延Ti
2)在每一个回合的每个时帧中,各节点获取本地观测状态Oi[k],将该状态输入到神经网络中,并根据神经网络输出和随机选择概率来选取决策动作ai[k],表示为如式(8)所示:
Figure FDA0003075627910000061
3)所有的节点共同执行所选择的动作,进而得到环境的奖励r[k+1],同时更新剩余需要传输的数据总量Bi及可容忍的时延Ti
4)每个节点获取下一观测状态Oi[k+1],并将(Oi[k],ai[k],r[k+1],Oi[k+1])存储到经验回放池Di中;
5)每个节点从Di中随机采样Di batch,用随机梯度下降法训练各自的神经网络,直到迭代次数满足目标要求,所述神经网络的更新方法表达如式(9)所示:
Figure FDA0003075627910000062
其中α为学习速率;
步骤3.4:神经网络参数永久化,将步骤3.3中训练好的每个agent的神经网络参数保存固化,完成集中训练。
5.根据权利要求4所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤四包括以下子步骤:
步骤4.1:将步骤三种训练好的每个agent的神经网络参数加载到对应节点的设备上;
步骤4.2:对于每个节点当前需要传输的数据总量Bi及可容忍的时延Ti,获取观测状态Oi[k];
步骤4.3:每个节点将该观测状态Oi[k]输入到神经网络中,并根据神经网络输出选择动作ai[k];
步骤4.4:所有节点同时将所选择的动作作用到交互环境中,使个节点的剩余需要传输的数据总量及可容忍的时延得到更新,如停止工作条件满足则退出循环,否则返回步骤二。
CN202110551509.5A 2021-05-20 2021-05-20 一种基于multi-agent强化学习的宽带自组织网资源决策方法 Active CN113301656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110551509.5A CN113301656B (zh) 2021-05-20 2021-05-20 一种基于multi-agent强化学习的宽带自组织网资源决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110551509.5A CN113301656B (zh) 2021-05-20 2021-05-20 一种基于multi-agent强化学习的宽带自组织网资源决策方法

Publications (2)

Publication Number Publication Date
CN113301656A true CN113301656A (zh) 2021-08-24
CN113301656B CN113301656B (zh) 2022-10-04

Family

ID=77323109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110551509.5A Active CN113301656B (zh) 2021-05-20 2021-05-20 一种基于multi-agent强化学习的宽带自组织网资源决策方法

Country Status (1)

Country Link
CN (1) CN113301656B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN112188505A (zh) * 2019-07-02 2021-01-05 中兴通讯股份有限公司 一种网络优化方法和装置
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112601284A (zh) * 2020-12-07 2021-04-02 南京邮电大学 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN112188505A (zh) * 2019-07-02 2021-01-05 中兴通讯股份有限公司 一种网络优化方法和装置
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112601284A (zh) * 2020-12-07 2021-04-02 南京邮电大学 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMAL FERIANI AND EKRAM HOSSAIN: "Single and Multi-Agent Deep Reinforcement Learning for AI-Enabled Wireless Networks: A Tutorial", 《IEEE COMMUNICATIONS SURVEYS & TUTORIALS》 *
DONGHWAN LEE, NIAO HE, PARAMESWARAN KAMALARUBAN,VOLKAN CEVHER: "Optimization for Reinforcement Learning From a single agent to cooperative agents", 《IEEE SIGNAL PROCESSING MAGAZINE》 *

Also Published As

Publication number Publication date
CN113301656B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
Xiao et al. A Bayesian overlapping coalition formation game for device-to-device spectrum sharing in cellular networks
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN111726845B (zh) 多用户异构网络系统中的基站切换选择和功率分配方法
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN113613207B (zh) 一种基于多智能体强化学习的车联网频谱共享方法
Balakrishnan et al. Deep reinforcement learning based traffic-and channel-aware OFDMA resource allocation
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN112153744A (zh) 一种icv网络中物理层安全资源分配方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Azoulay et al. Transmission power control using deep neural networks in TDMA-based ad-hoc network clusters
Kumar et al. Mobility aware channel allocation for 5G vehicular networks using multi-agent reinforcement learning
Kaur et al. Intelligent spectrum management based on reinforcement learning schemes in cooperative cognitive radio networks
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN115529604A (zh) 一种基于服务器协作的联合资源分配与多元任务卸载方法
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN113301656B (zh) 一种基于multi-agent强化学习的宽带自组织网资源决策方法
Kai et al. An effective channel allocation algorithm to maximize system utility in heterogeneous DCB WLANs
Dongare et al. Deep reinforcement learning for task allocation in energy harvesting mobile crowdsensing
Chen et al. Power allocation based on deep reinforcement learning in hetnets with varying user activity
Eskandari et al. Smart interference management xApp using deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant