CN114375066A - 一种基于多智能体强化学习的分布式信道竞争方法 - Google Patents

一种基于多智能体强化学习的分布式信道竞争方法 Download PDF

Info

Publication number
CN114375066A
CN114375066A CN202210018613.2A CN202210018613A CN114375066A CN 114375066 A CN114375066 A CN 114375066A CN 202210018613 A CN202210018613 A CN 202210018613A CN 114375066 A CN114375066 A CN 114375066A
Authority
CN
China
Prior art keywords
agent
reinforcement learning
network
state
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210018613.2A
Other languages
English (en)
Other versions
CN114375066B (zh
Inventor
邹逸飞
于东晓
徐标
徐明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210018613.2A priority Critical patent/CN114375066B/zh
Publication of CN114375066A publication Critical patent/CN114375066A/zh
Application granted granted Critical
Publication of CN114375066B publication Critical patent/CN114375066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access, e.g. scheduled or random access
    • H04W74/08Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的分布式信道竞争方法,包括如下步骤:步骤1:构建分布式信道竞争场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;步骤2:构建方法所需多智能体强化学习模型;步骤3:智能体与环境进行交互,令各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;步骤4:将训练完成的模型用于分布式信道竞争。其优点在于,实现了一种去中心化的信道竞争策略,不需要像传统网络一样依赖于基础设施;相比于使用分布式随机算法有更好的自适应性;可以进行分布式训练,大幅减少训练时间,有较好的信道使用率以及较为公平的信道使用。

Description

一种基于多智能体强化学习的分布式信道竞争方法
技术领域
本发明属于无线通信领域,特别提供了一种基于多智能体强化学习的分布式信道竞争方法。
背景技术
传统的集中式网络,如蓝牙、蜂窝网和WiFi等,都是通过基站等设施对用户的需求信号进行统一调配处理,耗能较大。虽然在今天这个问题不是很严重,但当物联网时代来临时,方圆几公里内成千上万个传感器聚集在一起,传统网络就无法保障物与物之间的协同通信。
为了缓解集中式网络的压力,本发明提出了一种自适应的分布式信道竞争策略,该策略使用分布式的思想,不再通过基站等设施对用户需求统一分配,而是让用户自身通过感知信道环境,动态地检测和有效地利用信道资源,这种自适应性的分配方式可以作为一种很好的补充通信方式,和蜂窝网、WiFi等共同组成未来的5G网络,为物联网、车联网、智慧城市提供信息基础。
当前国内外有相当多的关于信道竞争的研究,但是大多没有关注去中心化这个点,而是注重于传统网络,依赖于基础网络设施,例如基站和AP。相比之下,采用分布式算法的信道竞争策略较少,在这些分布式算法中,大多采用了随机算法,鲜有与机器学习算法相结合的。而多智能体强化学习的思想与所述的这种分布式信道竞争策略的思想相吻合,将多智能体强化学习运用其中,具有重要的研究意义。
发明内容
为了缓解传统的集中式网络在未来物联网时代的压力,本发明提出了一种自适应性的、高效的、拓展性强的基于多智能体强化学习的分布式信道竞争方法。该方法通过构造多个智能体和仿真环境交互,通过训练,可以用于信道竞争的实际使用。其技术方案为,
一种基于多智能体强化学习的分布式信道竞争方法,包括如下步骤:
步骤1:构建分布式信道竞争场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;
步骤2:构建方法所需多智能体强化学习模型;
步骤3:智能体与环境进行交互,令各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;
步骤4:将训练完成的模型用于分布式信道竞争。
进一步优选的,分布式信道竞争场景为:
在一个网络系统中,K个网络接入点共享一个信道,这些网络接入点属于不同的网络结构,彼此之间不通信;将时间分为多个时间片,设定信道在某一时间片内只能被单个网络接入点使用,当某一时间片有多个网络接入点使用时则信道传输失败。
进一步优选的,多智能体强化学习的环境构建过程如下:
构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境,智能体可以获取到上一轮的信道状态,环境会依据智能体的动作,进行模拟,计算出信道状态以及给出各智能体相应的奖励值。
进一步优选的,多智能体强化学习的智能体构建过程如下:
构建信道竞争智能体K个,各个智能体通过与环境交互,以此构建经验回放集合,不断从中选取批次用于训练;每个智能体只能观测到公共的信道状态以及自身的状态,各智能体之间无法进行信息交互,在没有信息交流的情况下,共同实现较为公平的基于多智能体强化学习的分布式信道竞争。
进一步优选的,构建多智能体强化学习所需状态,分为两类,一类是所有智能体都能观测到的,称之为公共状态Spub,为信道状态以及之后训练所用到的噪声方差;另一类是私有状态Spri,各个智能体只能观测到各自的私有状态,无法得知其它智能体的私有状态,私有状态包含智能体的传输概率以及传输成功率。
进一步优选的,构建智能体调整各自概率动作A={α12,...αK},其中,K表示智能体的个数,每个αi表示智能体i对自身传输概率值的调整,αi值的区间为[-0.5,0.5],智能体i的传输概率在采取动作后会更新为pi'=pi*(1+ai)。
进一步优选的,构建智能体奖励函数,奖励函数主要由两部分组成:
结果奖励:根据某一时间片内信道的状态,会给予各个智能体相应的奖励,对于智能体i,其在第t个时间片的结果奖励为:
Figure BDA0003461280940000031
其中Z是一个给定的值,Ni(t)表示智能体i在t个时间片内的总的使用信道成功次数,Nj(t)表示智能体j在t个时间片内的总的使用信道成功次数,当某一时间片没有智能体使用信道时,则信道状态为空闲;当有两个或两个以上智能体使用信道时,则信道状态为繁忙;
经验奖励:根据某一时间片内智能体的动作以及信道状态的改变,给予智能体引导性奖励,对于智能体i,其在第t个时间片的经验奖励为:
Figure BDA0003461280940000032
其中Ai(t)表示智能体i在t时间片做出的动作,即对自身传输概率值的调整,pi(t)表示智能体i在t时间片的概率,经验奖励的大小与概率值的改变相关。
进一步优选的,所构建的多智能体强化学习模型如下:
在每个智能体处构建两个Actor网络,输入为各智能体能观测到的公共状态和私有状态,输出为对自身概率的调整值,也就是在某一时间片的初始阶段应采取的动作;以及在每个智能体处构建两个Critic网络,通过输入状态以及动作,输出为对应的评估值。
进一步优选的,所构建的多智能体强化学习模型训练过程如下:
步骤3.1初始化Actor网络、Critic网络以及训练参数,具体包括如下内容:
随机初始化当前Actor网络参数θ和当前Critic网络参数ω;
复制当前网络参数到目标网络,目标Actor网络参数θ’=θ,目标Critic网络参数ω’=ω;
初始化各智能体的经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包含m个记录、训练轮次M、每次训练迭代次数T、网络参数更新频率C。
步骤3.2根据训练轮次进行M次训练,每一次训练进行T次迭代,各智能体对各自的四个网络进行训练,其训练步骤如下:
3.2.1初始化各智能体的信道使用概率,然后进行一次模拟,各智能体获得自己所能观测的状态S;
3.2.2智能体将观测到的状态S作为自己当前Actor网络的输入,基于S输出动作A;
3.2.3各智能体执行各自获得的动作A,与环境交互得到新的状态S’以及奖励R;
3.2.4各智能体将各自的{S,A,R,S’}存入自身的经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
3.2.5各智能体从各自的经验回放集合中随机取出m条记录记录用于网络参数优化,将S’输入目标Actor网络获取A’,将S’及A’输入目标Critic网络得到Q’(S’,A’),再将S及A输入当前Critic网络获得Q(S,A),根据这m个记录所计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前Critic网络进行参数优化;
3.2.6使用Q值来优化当前Actor函数的参数;
3.2.7当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:
θ’=τθ+(1-τ)θ’
ω’=τω+(1-τ)ω’
2.2.8令S=S’,开始下一次迭代直到本轮训练的T次迭代完成。
进一步优选的,对于当前Critic网络参数优化的损失函数,具体函数如下:
Figure BDA0003461280940000041
使用Q值来优化当前Actor函数的参数;
对于当前Actor网络参数优化的损失函数,具体函数如下:
Figure BDA0003461280940000042
其中Si为智能体i的状态,包括了智能体i能观测到的公有状态及其自己的私有状态,Ai为输入Si之后当前Actor网络输出的动作,Si'为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,
Figure BDA0003461280940000043
为在Si状态下采取动作Ai后智能体i获得的奖励值。
有益效果
本发明提出了基于多智能体强化学习的分布式信道竞争方法,其优点在于:采用了多智能体强化学习的方法实现了一种去中心化的信道竞争策略,不需要像传统方法一样依赖于基础设施;通过智能体与环境交互学习竞争策略,对自身概率自动调整,相比于使用分布式随机算法有更好的自适应性;可以进行分布式训练,大幅减少训练时间;训练出来的模型有较好的信道使用率以及保证了较为公平的信道使用。
附图说明
图1是本发明所述基于多智能体强化学习的分布式信道竞争方法的流程示意图;
图2是本发明所述的多智能体强化学习模型中智能体的结构图;
图3是本发明所述基于多智能体强化学习的分布式信道竞争方法在一实验环境下训练完成后竞争信道时各智能体的概率变化图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的详细描述。
实施例1
附图1是本发明所述基于多智能体强化学习的分布式信道竞争方法的流程示意图。如附图1所示,本发明所述基于多智能体强化学习的分布式信道竞争方法具体步骤包括:
步骤1:构建分布式信道竞争的场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;
对于步骤1的场景构建,具体地,是构建一个网络系统,在此系统中会有K个网络接入点共享一个信道,这些网络接入点属于不同的网络结构,彼此之间很难进行通信,信道在某一时间片只能被单个网络接入点使用,当某一时间片有多个网络接入点竞争使用时则传输失败。
对于步骤1的强化学习基本元素构建,具体地,构建步骤如下:
a)、构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境,智能体可以得知上一轮的信道状态,环境会依据在这一轮智能体的动作,进行模拟,计算出下一轮的信道状态以及这一轮各智能体应获得的奖励值;
b)、构建K个信道竞争智能体。智能体通过与环境交互,以构建经验回放集合,在训练阶段不断从中选取批次记录仪用于训练。每个智能体只能观测到公共的信道状态以及自身的状态,智能体们间无法进行信息交互,目的是在没有信息交流的情况下,实现较为公平的基于多智能体强化学习的分布式信道竞争;
c)、构建多智能体强化学习所需状态。本场景下状态分为两类,一类是所有智能体都能观测到的,称之为公共状态Spub,在这里主要指的是信道状态以及之后训练所用到的噪声方差;还有一类是私有状态Spri,由上述b)可知由于没有信息交流,各个智能体只能观测到各自的私有状态,无法得知其它智能体的私有状态,所述私有状态包含智能体的传输概率以及传输成功率,一个智能体所能观测到的状态为公共状态以及它自身的私有状态;
d)、构建智能体调整各自概率动作A={α12,...αK},其中,K表示智能体的个数,每个αi表示智能体i对自身传输概率值的调整,αi值的区间为[-0.5,0.5],智能体i的传输概率在采取动作后会更新为pi'=pi*(1+ai);
e)、构建智能体奖励函数,奖励函数主要由两部分组成:
结果奖励:根据某一时间片内信道的状态,会给予各个智能体相应的奖励,对于智能体i,其在第t个时间片的结果奖励为:
Figure BDA0003461280940000061
其中Z是一个给定的值,Ni(t)表示智能体i在t个时间片内的总的使用信道成功次数。Nj(t)表示智能体j在t个时间片内的总的使用信道成功次数。
设置上述结果奖励的原因是,本发明希望信道被成功使用,而当信道在某个时间片内没有被使用或者被两个及两个以上智能体竞争时,交互环境会给出一个负的奖励值作为惩罚;而在信道被成功使用的基础上,也就是在保证总的成功占用的基础上,本发明更注重各智能体公平地使用信道,所以本发明设定某一智能体成功使用信道所获得的奖励值会随着成功次数的增加而减少,以此来避免某一智能体一直占用信道从而影响了公平性。
经验奖励:根据某一时间片内智能体的动作以及信道状态的改变,给予智能体引导性奖励,对于智能体i,其在第t个时间片的经验奖励为:
Figure BDA0003461280940000071
其中Ai(t)表示智能体i在t时间片做出的动作,即对自身传输概率值的调整,pi(t)表示智能体i在t时间片的概率,经验奖励的大小与概率值的改变相关。相比于结果奖励,经验奖励的值较小,对于智能体的参数优化更多起到的是引导作用。
步骤2:构建方法所需多智能体强化学习模型;
具体地,对于每个智能体,会构建DDPG算法模型。不同于MADDPG,由于各智能体隶属不同的网络结构,不存在彼此间的信息交互,所以MADDPG中的中心化训练,在本实验背景下是不适用的,本发明中采用了一般的DDPG算法,如附图2所示,在每个智能体处构建两个Actor网络,分别为当前Actor网络和目标Actor网络,两个Actor网络都是输入智能体能观测到的公共状态和私有状态,输出对自身概率的调整值,也就是在某一时间片应采取的动作。并且在每个智能体处构建两个Critic网络,Critic网络输入状态以及动作,输出对应的评估值。
步骤3:智能体与环境进行交互,各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;
具体地,对于步骤3所述强化学习模型训练,其具体步骤如下:
3.1、初始化Actor网络、Critic网络以及训练参数,具体包括如下内容:
首先初始化当前Actor网络参数θ和当前Critic网络参数ω;
复制当前网络参数到目标网络,让目标Actor网络参数θ’=θ,目标Critic网络参数ω’=ω;
初始化各智能体的训练参数,对于经验回放集合大小D,这里设置为5000,因为在本方法中过大的集合大小对收敛会有反效果;衰减因子γ设置为0.9;软更新系数τ设置为0.01;1个batch包含m个记录,即每次从经验回放集合中取出的记录数为32;训练轮次M设置为200;每次训练迭代次数T设置为200。
3.2、初始化完参数后,根据训练轮次进行M次训练,每一次训练进行T次迭代,各智能体会对各自模型中的网络进行训练,其训练步骤如下:
(3.2.1)初始化各智能体的信道使用概率,本实例中将各智能体信道使用概率初始化为0.5,然后根据各智能体初始概率进行一次模拟,各智能体获得自己所能观测的状态S;
(3.2.2)智能体将观测到的状态S作为自己当前Actor网络的输入,基于S输出动作A;
(3.2.3)各智能体执行各自获得的动作A,与环境交互得到新的状态S’以及奖励R;
(3.2.4)各智能体将各自的{S,A,R,S’}存入自身的经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
(3.2.5)各智能体从各自的经验回放集合中随机取出m个记录用于网络参数优化,将S’输入目标Actor网络获取A’,将S’及A’输入目标Critic网络得到Q’(S’,A’),再将S及A输入当前Critic网络获得Q(S,A),使用m个记录的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前Critic网络进行参数优化;
对于当前Critic网络参数优化的损失函数,具体函数如下:
Figure BDA0003461280940000081
(3.2.6)使用(3.2.5)中的Q值来优化当前Actor函数的参数;
对于当前Actor网络参数优化的损失函数,具体函数如下:
Figure BDA0003461280940000082
(3.2.7)当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:
θ’=τθ+(1-τ)θ’
ω’=τω+(1-τ)ω’
(3.2.8)令S=S’,开始下一次迭代直到本轮训练的T次迭代完成。
其中Si为智能体i的状态,包括了智能体i能观测到的公有状态及其自己的私有状态,Ai为输入Si之后当前Actor网络输出的动作,Si'为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,
Figure BDA0003461280940000083
为在Si状态下采取动作Ai后智能体i获得的奖励值。
步骤4:使用训练完成的模型用于分布式信道竞争。
从图3可以看出,在4个智能体的实验环境下训练完模型之后,在应用于信道竞争时,在100个时间片内,各智能体的概率随着时间片起伏变化,并没有出现单一智能体概率极高而其它智能体概率极低的情况,较好地满足了本发明所提倡的信道竞争的公平性。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于多智能体强化学习的分布式信道竞争方法,其特征在于,包括如下步骤:
步骤1:构建分布式信道竞争场景,并且构建多智能体强化学习所需的基本元素,包括环境、智能体、状态、动作以及奖励函数;
步骤2:构建方法所需多智能体强化学习模型;
步骤3:智能体与环境进行交互,令各个智能体构建各自的经验回放集合,用以训练多智能体强化学习模型;
步骤4:将训练完成的模型用于分布式信道竞争。
2.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,分布式信道竞争场景为:
在一个网络系统中,K个网络接入点共享一个信道,这些网络接入点属于不同的网络结构,彼此之间不通信;将时间分为多个时间片,设定信道在某一时间片内只能被单个网络接入点使用,当某一时间片有多个网络接入点使用时则信道传输失败。
3.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的环境构建过程如下:
构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境,智能体可以获取到上一轮的信道状态,环境会依据智能体的动作,进行模拟,计算出信道状态以及给出各智能体相应的奖励值。
4.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,多智能体强化学习的智能体构建过程如下:
构建信道竞争智能体K个,各个智能体通过与环境交互,以此构建经验回放集合,不断从中选取批次用于训练;每个智能体只能观测到公共的信道状态以及自身的状态,各智能体之间无法进行信息交互,在没有信息交流的情况下,共同实现较为公平的基于多智能体强化学习的分布式信道竞争。
5.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,
构建多智能体强化学习所需状态,分为两类,一类是所有智能体都能观测到的,称之为公共状态Spub,为信道状态以及之后训练所用到的噪声方差;另一类是私有状态Spri,各个智能体只能观测到各自的私有状态,无法得知其它智能体的私有状态,私有状态包含智能体的传输概率以及传输成功率。
6.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,
构建智能体调整各自概率动作A={α12,...αK},其中,K表示智能体的个数,每个αi表示智能体i对自身传输概率值的调整,αi值的区间为[-0.5,0.5],智能体i的传输概率在采取动作后会更新为pi’=pi*(1+ai)。
7.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,构建智能体奖励函数,奖励函数主要由两部分组成:
结果奖励:根据某一时间片内信道的状态,会给予各个智能体相应的奖励,对于智能体i,其在第t个时间片的结果奖励为:
Figure FDA0003461280930000021
其中Z是一个给定的值,Ni(t)表示智能体i在t个时间片内的总的使用信道成功次数,Nj(t)表示智能体j在t个时间片内的总的使用信道成功次数,当某一时间片没有智能体使用信道时,则信道状态为空闲;当有两个或两个以上智能体使用信道时,则信道状态为繁忙;
经验奖励:根据某一时间片内智能体的动作以及信道状态的改变,给予智能体引导性奖励,对于智能体i,其在第t个时间片的经验奖励为:
Figure FDA0003461280930000022
其中Ai(t)表示智能体i在t时间片做出的动作,即对自身传输概率值的调整,pi(t)表示智能体i在t时间片的概率,经验奖励的大小与概率值的改变相关。
8.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,所构建的多智能体强化学习模型如下:
在每个智能体处构建两个Actor网络,输入为各智能体能观测到的公共状态和私有状态,输出为对自身概率的调整值,也就是在某一时间片的初始阶段应采取的动作;以及在每个智能体处构建两个Critic网络,通过输入状态以及动作,输出为对应的评估值。
9.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,所构建的多智能体强化学习模型训练过程如下:
步骤3.1初始化Actor网络、Critic网络以及训练参数,具体包括如下内容:
随机初始化当前Actor网络参数θ和当前Critic网络参数ω;
复制当前网络参数到目标网络,目标Actor网络参数θ’=θ,目标Critic网络参数ω’=ω;
初始化各智能体的经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包含m个记录、训练轮次M、每次训练迭代次数T、网络参数更新频率C。
步骤3.2根据训练轮次进行M次训练,每一次训练进行T次迭代,各智能体对各自的四个网络进行训练,其训练步骤如下:
3.2.1初始化各智能体的信道使用概率,然后进行一次模拟,各智能体获得自己所能观测的状态S;
3.2.2智能体将观测到的状态S作为自己当前Actor网络的输入,基于S输出动作A;
3.2.3各智能体执行各自获得的动作A,与环境交互得到新的状态S’以及奖励R;
3.2.4各智能体将各自的{S,A,R,S’}存入自身的经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;
3.2.5各智能体从各自的经验回放集合中随机取出m条记录用于网络参数优化,将S’输入目标Actor网络获取A’,将S’及A’输入目标Critic网络得到Q’(S’,A’),再将S及A输入当前Critic网络获得Q(S,A),根据这m个记录所计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数,对当前Critic网络进行参数优化;
3.2.6使用Q值来优化当前Actor函数的参数;
3.2.7当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:
θ’=τθ+(1-τ)θ’
ω’=τω+(1-τ)ω’
2.2.8令S=S’,开始下一次迭代直到本轮训练的T次迭代完成。
10.根据权利要求9所述的基于多智能体强化学习的分布式信道竞争方法,其特征在于,对于当前Critic网络参数优化的损失函数,具体函数如下:
Figure FDA0003461280930000041
使用Q值来优化当前Actor函数的参数;
对于当前Actor网络参数优化的损失函数,具体函数如下:
Figure FDA0003461280930000042
其中Si为智能体i的状态,包括了智能体i能观测到的公有状态及其自己的私有状态,Ai为输入Si之后当前Actor网络输出的动作,Si’为智能体i执行动作Ai之后得到的新的状态,A’为输入Si’后目标Actor网络输出的动作,
Figure FDA0003461280930000043
为在Si状态下采取动作Ai后智能体i获得的奖励值。
CN202210018613.2A 2022-01-08 2022-01-08 一种基于多智能体强化学习的分布式信道竞争方法 Active CN114375066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210018613.2A CN114375066B (zh) 2022-01-08 2022-01-08 一种基于多智能体强化学习的分布式信道竞争方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210018613.2A CN114375066B (zh) 2022-01-08 2022-01-08 一种基于多智能体强化学习的分布式信道竞争方法

Publications (2)

Publication Number Publication Date
CN114375066A true CN114375066A (zh) 2022-04-19
CN114375066B CN114375066B (zh) 2024-03-15

Family

ID=81144750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210018613.2A Active CN114375066B (zh) 2022-01-08 2022-01-08 一种基于多智能体强化学习的分布式信道竞争方法

Country Status (1)

Country Link
CN (1) CN114375066B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002720A (zh) * 2022-06-02 2022-09-02 中山大学 基于深度强化学习的车联网信道资源优化方法及系统
CN115355604A (zh) * 2022-10-19 2022-11-18 北京理工大学 一种基于区块链和强化学习的空调控制方法及其系统
CN117241409A (zh) * 2023-11-13 2023-12-15 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107094321A (zh) * 2017-03-31 2017-08-25 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN109068391A (zh) * 2018-09-27 2018-12-21 青岛智能产业技术研究院 基于边缘计算和Actor-Critic算法的车联网通信优化算法
CN109996294A (zh) * 2019-03-22 2019-07-09 东南大学 基于多智能体网络状态值差异的分布式自适应调节算法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111050413A (zh) * 2019-12-23 2020-04-21 电子科技大学 一种基于自适应调整策略的无人机csma接入方法
CN111163531A (zh) * 2019-12-16 2020-05-15 北京理工大学 一种基于ddpg的非授权频谱占空比共存方法
CN111601398A (zh) * 2020-05-19 2020-08-28 电子科技大学 一种基于增强学习的自组织网介质访问控制方法
CN113543342A (zh) * 2021-07-05 2021-10-22 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113795049A (zh) * 2021-09-15 2021-12-14 马鞍山学院 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN113905384A (zh) * 2021-05-31 2022-01-07 西北工业大学 一种用于认知无线电的多智能体协作频谱感知与接入方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107094321A (zh) * 2017-03-31 2017-08-25 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN109068391A (zh) * 2018-09-27 2018-12-21 青岛智能产业技术研究院 基于边缘计算和Actor-Critic算法的车联网通信优化算法
CN109996294A (zh) * 2019-03-22 2019-07-09 东南大学 基于多智能体网络状态值差异的分布式自适应调节算法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111163531A (zh) * 2019-12-16 2020-05-15 北京理工大学 一种基于ddpg的非授权频谱占空比共存方法
CN111050413A (zh) * 2019-12-23 2020-04-21 电子科技大学 一种基于自适应调整策略的无人机csma接入方法
CN111601398A (zh) * 2020-05-19 2020-08-28 电子科技大学 一种基于增强学习的自组织网介质访问控制方法
CN113905384A (zh) * 2021-05-31 2022-01-07 西北工业大学 一种用于认知无线电的多智能体协作频谱感知与接入方法
CN113543342A (zh) * 2021-07-05 2021-10-22 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113795049A (zh) * 2021-09-15 2021-12-14 马鞍山学院 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋波, 叶伟, 孟祥辉: "基于多智能体强化学习的动态频谱分配方法综述", 系统工程与电子技术, vol. 43, no. 11 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002720A (zh) * 2022-06-02 2022-09-02 中山大学 基于深度强化学习的车联网信道资源优化方法及系统
CN115355604A (zh) * 2022-10-19 2022-11-18 北京理工大学 一种基于区块链和强化学习的空调控制方法及其系统
CN115355604B (zh) * 2022-10-19 2022-12-23 北京理工大学 一种基于区块链和强化学习的空调控制方法及其系统
CN117241409A (zh) * 2023-11-13 2023-12-15 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法
CN117241409B (zh) * 2023-11-13 2024-03-22 湖南大学 基于近端策略优化的多类型终端随机接入竞争解决方法

Also Published As

Publication number Publication date
CN114375066B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN114375066A (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN109862610A (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN113795049B (zh) 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN113207127B (zh) 一种noma系统中基于分层深度强化学习的动态频谱接入方法
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
CN110233755A (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
CN112492686A (zh) 一种基于深度双q网络的蜂窝网络功率分配方法
CN109474960A (zh) 一种基于q学习的双连接流量分配方法
CN114828018A (zh) 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法
CN114599115A (zh) 一种无人机自组织网络信道接入方法
CN110461006A (zh) 降低wlan干扰方法、装置及终端设备
CN114189937A (zh) 基于深度强化学习的实时集中式无线网络调度方法和设备
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN114938543A (zh) 一种基于深度强化学习的蜂窝异构网络资源分配方法
CN115066036A (zh) 一种基于多智能体协作的多基站排队式前导码分配方法
CN109861774B (zh) 一种认知水声网络接入调度方法
CN115802465B (zh) 基于强化学习框架的d2d边缘缓存网络能耗管理方法
CN114756294B (zh) 一种基于深度强化学习的移动边缘计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant