CN114375022B - 一种无线网络中基于多智能体强化学习的信道抢占方法 - Google Patents

一种无线网络中基于多智能体强化学习的信道抢占方法 Download PDF

Info

Publication number
CN114375022B
CN114375022B CN202210018612.8A CN202210018612A CN114375022B CN 114375022 B CN114375022 B CN 114375022B CN 202210018612 A CN202210018612 A CN 202210018612A CN 114375022 B CN114375022 B CN 114375022B
Authority
CN
China
Prior art keywords
network
agent
election
current
time slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210018612.8A
Other languages
English (en)
Other versions
CN114375022A (zh
Inventor
邹逸飞
于东晓
徐标
徐明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210018612.8A priority Critical patent/CN114375022B/zh
Publication of CN114375022A publication Critical patent/CN114375022A/zh
Application granted granted Critical
Publication of CN114375022B publication Critical patent/CN114375022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/32Connectivity information management, e.g. connectivity discovery or connectivity update for defining a routing cluster membership
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无线网络中基于多智能体强化学习的信道抢占方法,包括如下步骤:S1.构建无线网络信道抢占场景,用于与智能体交互;构建信道抢占所需多智能体强化学习模型;S2.对模型进行训练使模型参数最优化;S3.各智能体加载训练好的模型参数,根据模型做出决策,实现信道抢占。其优点在于,采用了多智能体强化学习的方法去解决信道抢占问题,参与信道抢占的各候补节点,彼此之间不需要进行通信,只需要与无线网络环境进行交互,可扩展性强;可以进行分布式训练,减少训练时间;训练出的模型可以很好地保证信道抢占过程的成功。

Description

一种无线网络中基于多智能体强化学习的信道抢占方法
技术领域
本发明涉及分布式系统领域,尤其是无线网络中基于多智能体强化学习的信道抢占方法。
背景技术
随着物联网的发展,越来越多的智能设备连入网络,传统的集中式系统中单个节点的能力难以满足如此爆炸增长的数据计算以及存储的需求,分布式系统便应运而生。与传统的集中式系统不同的是,分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统动态分配任务,节点的物理以及逻辑资源通过网络进行信息交换,从而实现了对复杂任务的分布式实现。
分布式系统在动态分配任务时,常常要从多个计算机节点中选择一个节点作为统筹管理其它节点的领导者,这种选举出一个节点作为其它节点的领导者的过程被称为信道抢占。信道抢占的方法有很多,常见的如使用Aloha协议来实现信道抢占,但是这些方法大多需要候补节点之间进行信息交流,当节点数量增多时会严重影响方法性能。而多智能体强化学习的理念在分布式系统中有很高的应用潜力,如今并没有较为成熟的基于多智能体强化学习的信道抢占方法,因此,本发明引入了多智能体强化学习方法,来解决信道抢占问题。
发明内容
针对现有技术的不足,本发明提供了一种高效的、可扩展的无线网络中基于多智能体强化学习的信道抢占方法,通过构建多个智能体作为候补节点与仿真无线网络环境交互训练,可以较好的实现信道抢占过程。
一种无线网络中基于多智能体强化学习的信道抢占方法,包括如下步骤:
S1.构建无线网络信道抢占场景,用于与智能体交互;
构建信道抢占所需多智能体强化学习模型;
S2.对模型进行训练使模型参数最优化;
S3.各智能体加载训练好的模型参数,根据模型做出决策,实现信道抢占。
进一步优选的,信道抢占场景为:
在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败。
进一步优选的,多智能体强化学习模型为:
在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与信道抢占的候补节点;
每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;
所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比;
所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比;
所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;
所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值。
进一步优选的,当前策略网络和当前评论网络的输入为t时间片的状态,通过如下步骤获得:
在每个时间片内的初始阶段,各智能体会调整各自的选举概率,根据此概率选择在此时间片之后的阶段内是否参与信道抢占,即是否占用无线信道,根据此时间片内的信道使用情况,环境会给各智能体反馈选举结果;
对于t时间片当前策略网络和当前评论网络,t-1时间片的选举结果会作为它们输入的一部分;
各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合,作为各智能体t时间片的状态张量;
组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。
进一步优选的,各智能体学习模型中各网络训练过程如下:
步骤2.1初始化策略网络、评论网络以及网络参数,具体包括如下内容:
随机初始化当前策略网络参数θ和当前评论网络参数ω;
复制当前网络参数到目标网络,目标策略网络参数θ’=θ,目标评论网络参数ω’=ω;
初始化经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包含m个记录、训练轮次M、每次训练的迭代次数为T、网络参数更新频率C。
步骤2.2根据训练轮次进行M次迭代,各智能体对自己的四个全连接网络进行训练,步骤如下:
2.2.1初始化各智能体的选举概率,获取到初始状态张量S;
2.2.2将初始状态张量S输入当前策略网络,基于初始状态张量S获得动作A;
2.2.3执行动作A,与环境交互得到新的状态S’以及奖励R;
2.2.4各智能体将各自的{S,A,R,S’}存入经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
2.2.5从经验回放集合中拿出m条记录用于网络参数优化,将S’输入目标策略网络获取A’,将S’及A’输入目标评论网络得到Q’(S’,A’),再将S及A输入当前评论网络获得Q(S,A),使用m个记录计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前评论网络进行参数优化;
2.2.6使用Q值来优化当前策略函数的参数;
2.2.7当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:
θ’=τθ+(1-τ)θ’
ω’=τω+(1-τ)ω’
2.2.8令S=S’,开始下一次迭代直到本轮迭代完成。
进一步优选的,在步骤2.2.3中,对于某个智能体n而言,将t时间片的状态张量输入其当前策略网络时,会获得一个动作An(t),当获得An(t)之后,可以计算出t+1时间片智能体选举概率Pn(t+1),计算公式为Pn(t+1)=Pn(t)*(1+An(t));在t+1时间片,获取到新的状态S’,根据每个时间片的选举结果,环境会给出对应的奖励R,当某个时间片选举结果为[0,1,0]时,即只有一个智能体参与选举时,所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励,对于其它情况,都是给予负的奖励值。
进一步优选的,在步骤2.2.5中,
策略网络通过输入状态输出动作,评论网络输入状态和动作获得一个Q值作为一个评估,对于智能体n而言,其从其经验回放集合中取出m条记录对网络参数进行训练,当前策略网络与当前评论网络的损失函数具体如下:
当前策略网络的损失函数为:
当前评论网络的损失函数为:
对当前策略网络和当前评论网络,通过梯度反向传播来更新两个网络的参数,其
中Si为智能体i的状态,Ai为输入Si之后当前Actor网络输出的动作,Si为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,为在Si状态下采取动作Ai后智能体i获得的奖励值。
有益效果
本发明提出了一种无线网络中基于多智能体强化学习的信道抢占方法,其优点在于:采用了多智能体强化学习的方法去解决信道抢占问题,参与信道抢占的各候补节点,彼此之间不需要进行通信,只需要与无线网络环境进行交互,可扩展性强;可以进行分布式训练,减少训练时间;训练出的模型可以很好地保证信道抢占过程的成功。
附图说明
图1是本发明所述无线网络中基于多智能体强化学习的信道抢占方法的流程示意图;
图2是本发明所述各智能体当前策略网络与目标策略网络结构示意图;
图3是本发明所述各智能体当前评论网络与目标评论网络结构示意图;
图4为本发明所述无线网络中基于多智能体强化学习的信道抢占方法在一实验环境下训练完成后进行信道抢占时各智能体的概率变化图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的详细描述。
实施例1
请参阅附图1,为本发明实施例1提供的一种基于多智能体强化学习的信道抢占方法的流程示意图。该方法具体包含以下步骤:
S1.构建无线网络信道抢占场景,用于与智能体交互;构建信道抢占所需多智能体强化学习模型;
信道抢占场景为:
在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败。
构建所述信道抢占的多智能体强化学习模型:
在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与信道抢占的候补节点;每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;
所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比,这个百分比可以为负值;
所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比,这个百分比可以为负值;
所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;
所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值。
当前策略网络和当前评论网络的输入为t时间片的状态,通过如下步骤获得:
在每个时间片内的初始阶段,各智能体会调整各自的选举概率,根据此概率选择在此时间片之后的阶段内是否参与信道抢占,即是否占用无线信道,根据此时间片内的信道使用情况,环境会给各智能体反馈选举结果;
对于t时间片当前策略网络和当前评论网络,t-1时间片的选举结果会作为它们输入的一部分;
各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合,作为各智能体t时间片的状态张量;
组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。
S2.对模型进行训练使模型参数最优化;
各智能体学习模型中各网络训练过程如下:
步骤2.1初始化策略网络、评论网络以及网络参数,具体包括如下内容:
随机初始化当前策略网络参数θ和当前评论网络参数ω;
复制当前网络参数到目标网络,目标策略网络参数θ’=θ,目标评论网络参数ω’=ω;
对训练参数进行初始化,如经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包括m条记录、训练轮次M、迭代次数T等,本发明将经验回放集合大小设为5000,衰减因子γ设为0.9,软更新系数τ设为0.01,批处理batch大小m,即每次从经验回放集合中取出的记录数为32,训练轮次M设为100,每次训练迭代次数T设为200。
在本发明内,时间被分为多个时间片,在每一个时间片内,各智能体会根据自己的概率选择是否在此轮参与选举,然后根据无线信道的使用状态,会生成此时间片内的选举结果,该结果会被各智能体所监听到。
其中,每个智能体所能观测到的状态是局限的,在每一个时间片,各智能体只能观测到自身的选举概率而无法得知其它智能体的概率,在下一个时间片,智能体会将上一个时间片内信道抢占的结果作为之后策略网络以及评论网络输入状态的一部分。
步骤2.2根据训练轮次进行M次迭代,各智能体对自己的四个全连接网络进行训练,步骤如下:
模型训练轮次根据给定参数M,也就是总共训练M轮,每一轮根据迭代次数T,时间片t从1到T,在各智能体处进行如下训练:
2.2.1、在t时间片,获取状态张量S;
具体地,获取t-1时间片选举结果以及t时间片智能体选举概率以组成t时间片的状态张量S。当t为1时,会初始化所有智能体的概率,这里取0.5,然后进行一次模拟,将这次模拟结果作为t-1时间片的选举结果。
具体地,对于构成t时间片的状态张量S的各个组成部分:t-1时间片的选举结果,此结果会以三维向量的形式表示,当t-1时间片没有智能体参与选举时,认为选举失败,表示为[1,0,0];当t-1时间片仅有一个智能体参与选举时,此时表现为选举成功,表示为[0,1,0];当t-1时间片有多个智能体参与选举时,选举失败,表示为[0,0,1]。对于t时间片噪音方差,因为进行动作选择时需要一定的探索率,所以本发明在获取到策略网络的输出时会给定一个噪声该噪声为正态分布,其标准差值σ会随着t的增大而减少。
2.2.2、将t时间片的当前策略网络,基于S获得动作A;
具体地,对于某个智能体n而言,将t时间片的状态张量输入其当前策略网络时,会获得一个动作An(t),该动作实际上是个常量,取值范围为[-0.5,0.5]。
2.2.3、执行动作A,与环境交互得到新的状态S’以及奖励R;
具体地,对于某个智能体n而言,当获得An(t)之后,可以计算出t+1时间片智能体选举概率,计算公式为Pn(t+1)=Pn(t)*(1+An(t))。在t+1时间片,可以获取到新的状态S’。根据每个时间片的选举结果,环境会给出对应的奖励R,在这本发明设置为,当某个时间片选举结果为[0,1,0]时,即只有一个智能体参与选举时,所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励。对于其它情况,都是给予负的奖励值。
2.2.4、各智能体将各自的{S,A,R,S’}存入经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
各智能体拥有自己的经验回放集合,集合中的记录用于进行网络参数的训练。在这里本发明将经验回放集合的大小设为5000,当记录数目小于5000时,直接将新产生的记录存入集合,当经验回放集合大小为5000时,假设要插入10条新的数据,就会删除其中最早插入的10条数据。
2.2.5、各智能体从经验回放集合中拿出m条记录用于网络参数优化,将S’输入目标策略网络获取A’,将S’及A’输入目标评论网络得到Q’(S’,A’),再将S及A输入当前评论网络获得Q(S,A),使用m条记录计算出的(γQ’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前评论网络进行参数优化,
2.2.6、使用Q值来优化当前策略函数的参数;
具体而言,策略网络通过输入状态输出动作,评论网络输入状态和动作获得一个Q值作为一个评估。对于智能体n而言,其从其经验回放集合中取出m条历史记录对网络参数进行训练,当前策略网络与当前评论网络的损失函数具体如下:
当前策略网络的损失函数为:
当前评论网络的损失函数为:
对当前策略网络和当前评论网络,通过梯度反向传播来更新两个网络的参数,
其中Si为智能体i的状态,Ai为输入Si之后当前Actor网络输出的动作,Si为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,为在Si状态下采取动作Ai后智能体i获得的奖励值。
2.2.7、当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新;
具体地,对于目标策略网络,θ’=τθ+(1-τ)θ’,对于目标评论网络,ω’=τω+(1-τ)ω’。
S27、令S=S’,开始下一次迭代直到本轮迭代完成。
其中,S’会作为下一时间片,即t+1时间片的状态张量,用于开始下一轮网络的训练。
实施例2
请参阅附图2和附图3,为本发明实施例2提供的策略网络与评论网络的网络结构示意图,网络结构如下:
当前策略网络和目标策略网络结构相同,如附图2所示,都包含了两个隐藏层,每个隐藏层都选择ReLU作为激活函数。策略网络通过输入某一时间片的状态,会输出应选择的动作,也就是对智能体概率的改变幅度。
当前评论网络和目标评论网络结构相同,如附图3所示,也是两层隐藏层,隐藏层的激活函数选择ReLU函数。评论网络的输入为某一时间片的状态S和动作A,输出是一个评估值Q(S,A),可以看到这里网络分为了两部分,上半部分的网络仅仅获取输入中的S,作为状态S的价值函数,下半部分的网络获取状态S和动作A,作为优势函数,两个函数的相加值作为最终评论网络的输出值Q(S,A)。
从图4可以看出,在4个智能体的实验环境下训练完模型之后,在应用于信道竞争时,在100个时间片内,仅有一个智能体的选举概率在10个时间片内速升到接近1,而其它智能体的选举概率接近于0,很好的实现了信道抢占过程。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,包括如下步骤:
S1.构建无线网络信道抢占场景,用于与智能体交互;
在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败;
构建信道抢占所需多智能体强化学习模型;在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与信道抢占的候补节点;
每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;
所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比;
所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比;
所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;
所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值;
S2.对模型进行训练使模型参数最优化;
各智能体学习模型中各网络训练过程如下:
步骤2.1随机初始化当前策略网络参数θ和当前评论网络参数ω;
步骤2.2根据训练轮次进行M次迭代,各智能体对自己的四个全连接网络进行训练,步骤如下:
2.2.1初始化各智能体的选举概率,获取到初始状态张量S;
对于构成t时间片的状态张量S的各个组成部分:t-1时间片的选举结果,
此结果会以三维向量的形式表示,当t-1时间片没有智能体参与选举时,认为选举失败,表示为[1,0,0];当t-1时间片仅有一个智能体参与选举时,此时表现为选举成功,表示为[0,1,0];当t-1时间片有多个智能体参与选举时,
选举失败,表示为[0,0,1];
2.2.2将初始状态张量S输入当前策略网络,基于初始状态张量S获得动作A;
2.2.3执行动作A,与环境交互得到新的状态S’以及奖励R;
根据每个时间片的选举结果,环境会给出对应的奖励R,当某个时间片选举结果为[0,1,0]时,即只有一个智能体参与选举时,所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励,对于其它情况,都是给予负的奖励值;
2.2.4各智能体将各自的{S,A,R,S’}存入经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
2.2.5从经验回放集合中拿出m条记录用于网络参数优化,将S’输入目标策略网络获取A’,将S’及A’输入目标评论网络得到Q’(S’,A’),再将S及A输入当前评论网络获得Q(S,A),使用m个记录计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前评论网络进行参数优化;
2.2.6使用Q值来优化当前策略函数的参数;
2.2.7当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:
θ’=τθ+(1-τ)θ’
ω’=τω+(1-τ)ω’
2.2.8令S=S’,开始下一次迭代直到本轮迭代完成;
S3.各智能体加载训练好的模型参数,根据模型做出决策,实现信道抢占。
2.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,当前策略网络和当前评论网络的输入为t时间片的状态,通过如下步骤获得:
在每个时间片内的初始阶段,各智能体会调整各自的选举概率,根据此概率选择在此时间片之后的阶段内是否参与信道抢占,即是否占用无线信道,根据此时间片内的信道使用情况,环境会给各智能体反馈选举结果;
对于t时间片当前策略网络和当前评论网络,t-1时间片的选举结果会作为它们输入的一部分;
各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合,作为各智能体t时间片的状态张量;
组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。
3.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,各智能体学习模型中各网络训练过程如下:
步骤2.1初始化策略网络、评论网络以及网络参数,具体包括如下内容:
随机初始化当前策略网络参数θ和当前评论网络参数ω;
复制当前网络参数到目标网络,目标策略网络参数θ’=θ,目标评论网络参数ω’=ω;
初始化经验回放集合大小D、衰减因子γ、软更新系数τ、1个批处理batch包含m个记录、训练轮次M、每次训练的迭代次数为T、网络参数更新频率C。
4.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,在步骤2.2.3中,对于某个智能体n而言,将t时间片的状态张量输入其当前策略网络时,会获得一个动作An(t),当获得An(t)之后,可以计算出t+1时间片智能体选举概率Pn(t+1),计算公式为Pn(t+1)=Pn(t)*(1+An(t));在t+1时间片,获取到新的状态S’。
5.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,在步骤2.2.5中,
策略网络通过输入状态输出动作,评论网络输入状态和动作获得一个Q值作为一个评估,对于智能体n而言,其从其经验回放集合中取出m条记录对网络参数进行训练,当前策略网络与当前评论网络的损失函数具体如下:
当前策略网络的损失函数为:
当前评论网络的损失函数为:
对当前策略网络和当前评论网络,通过梯度反向传播来更新两个网络的参数,其中Si为智能体i的状态,Ai为输入Si之后当前Actor网络输出的动作,Si’为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,为在Si状态下采取动作Ai后智能体i获得的奖励值。
CN202210018612.8A 2022-01-08 2022-01-08 一种无线网络中基于多智能体强化学习的信道抢占方法 Active CN114375022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210018612.8A CN114375022B (zh) 2022-01-08 2022-01-08 一种无线网络中基于多智能体强化学习的信道抢占方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210018612.8A CN114375022B (zh) 2022-01-08 2022-01-08 一种无线网络中基于多智能体强化学习的信道抢占方法

Publications (2)

Publication Number Publication Date
CN114375022A CN114375022A (zh) 2022-04-19
CN114375022B true CN114375022B (zh) 2024-03-12

Family

ID=81144585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210018612.8A Active CN114375022B (zh) 2022-01-08 2022-01-08 一种无线网络中基于多智能体强化学习的信道抢占方法

Country Status (1)

Country Link
CN (1) CN114375022B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660374A (zh) * 2017-10-11 2019-04-19 北京邮电大学 一种基于智能时隙选择的信道接入方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN111818152A (zh) * 2020-07-02 2020-10-23 电子科技大学 一种基于分布式网络的领导者选举的共识方法
CN112637914A (zh) * 2020-12-10 2021-04-09 天津(滨海)人工智能军民融合创新中心 在双通道环境下基于dqn算法的信道切换系统及方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660374A (zh) * 2017-10-11 2019-04-19 北京邮电大学 一种基于智能时隙选择的信道接入方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN111818152A (zh) * 2020-07-02 2020-10-23 电子科技大学 一种基于分布式网络的领导者选举的共识方法
CN112637914A (zh) * 2020-12-10 2021-04-09 天津(滨海)人工智能军民融合创新中心 在双通道环境下基于dqn算法的信道切换系统及方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多智能体强化学习的动态频谱分配方法综述;宋波, 叶伟, 孟祥辉;系统工程与电子技术;第43卷(第11期);全文 *

Also Published As

Publication number Publication date
CN114375022A (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN110991545A (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN107526682B (zh) 测试机器人的ai行为树的生成方法、装置及设备
CN114375066B (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN111324630B (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN111178486B (zh) 一种基于种群演化的超参数异步并行搜索方法
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN111523648B (zh) 含有聚类拓扑耦合的神经网络脉冲同步方法及系统
Zhou et al. Learning in games with lossy feedback
CN114021737B (zh) 一种基于博弈的强化学习方法、系统、终端及存储介质
CN114065929A (zh) 一种深度强化学习模型的训练方法、装置及存储介质
CN111760291A (zh) 游戏互动行为模型生成方法、装置、服务器和存储介质
CN112541570A (zh) 一种多模型训练方法、装置、电子设备及存储介质
CN114375022B (zh) 一种无线网络中基于多智能体强化学习的信道抢占方法
CN116938323B (zh) 一种基于强化学习的卫星转发器资源分配方法
CN112862108B (zh) 组件化的强化学习模型处理方法、系统、设备和存储介质
CN113221390B (zh) 一种排产模型的训练方法和装置
CN113342537A (zh) 卫星虚拟资源分配方法、装置、存储介质及设备
CN116308853A (zh) 传播网络结构重构方法、装置、设备及可读存储介质
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN114862168A (zh) 一种推演仿真环境下多方案智能切换系统
Zhan et al. Dueling network architecture for multi-agent deep deterministic policy gradient
Zhou et al. Decentralized adaptive optimal control for massive multi-agent systems using mean field game with self-organizing neural networks
CN113569466A (zh) 一种基于值函数的参数化深度强化学习算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant