CN114375066A

CN114375066A - 一种基于多智能体强化学习的分布式信道竞争方法

Info

Publication number: CN114375066A
Application number: CN202210018613.2A
Authority: CN
Inventors: 邹逸飞; 于东晓; 徐标; 徐明辉
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-01-08
Filing date: 2022-01-08
Publication date: 2022-04-19
Anticipated expiration: 2042-01-08
Also published as: CN114375066B

Abstract

本发明公开了一种基于多智能体强化学习的分布式信道竞争方法，包括如下步骤：步骤1：构建分布式信道竞争场景，并且构建多智能体强化学习所需的基本元素，包括环境、智能体、状态、动作以及奖励函数；步骤2：构建方法所需多智能体强化学习模型；步骤3：智能体与环境进行交互，令各个智能体构建各自的经验回放集合，用以训练多智能体强化学习模型；步骤4：将训练完成的模型用于分布式信道竞争。其优点在于，实现了一种去中心化的信道竞争策略，不需要像传统网络一样依赖于基础设施；相比于使用分布式随机算法有更好的自适应性；可以进行分布式训练，大幅减少训练时间，有较好的信道使用率以及较为公平的信道使用。

Description

一种基于多智能体强化学习的分布式信道竞争方法

技术领域

本发明属于无线通信领域，特别提供了一种基于多智能体强化学习的分布式信道竞争方法。

背景技术

传统的集中式网络，如蓝牙、蜂窝网和WiFi等，都是通过基站等设施对用户的需求信号进行统一调配处理，耗能较大。虽然在今天这个问题不是很严重，但当物联网时代来临时，方圆几公里内成千上万个传感器聚集在一起，传统网络就无法保障物与物之间的协同通信。

为了缓解集中式网络的压力，本发明提出了一种自适应的分布式信道竞争策略，该策略使用分布式的思想，不再通过基站等设施对用户需求统一分配，而是让用户自身通过感知信道环境，动态地检测和有效地利用信道资源，这种自适应性的分配方式可以作为一种很好的补充通信方式，和蜂窝网、WiFi等共同组成未来的5G网络，为物联网、车联网、智慧城市提供信息基础。

当前国内外有相当多的关于信道竞争的研究，但是大多没有关注去中心化这个点，而是注重于传统网络，依赖于基础网络设施，例如基站和AP。相比之下，采用分布式算法的信道竞争策略较少，在这些分布式算法中，大多采用了随机算法，鲜有与机器学习算法相结合的。而多智能体强化学习的思想与所述的这种分布式信道竞争策略的思想相吻合，将多智能体强化学习运用其中，具有重要的研究意义。

发明内容

为了缓解传统的集中式网络在未来物联网时代的压力，本发明提出了一种自适应性的、高效的、拓展性强的基于多智能体强化学习的分布式信道竞争方法。该方法通过构造多个智能体和仿真环境交互，通过训练，可以用于信道竞争的实际使用。其技术方案为，

一种基于多智能体强化学习的分布式信道竞争方法，包括如下步骤：

步骤1：构建分布式信道竞争场景，并且构建多智能体强化学习所需的基本元素，包括环境、智能体、状态、动作以及奖励函数；

步骤2：构建方法所需多智能体强化学习模型；

步骤3：智能体与环境进行交互，令各个智能体构建各自的经验回放集合，用以训练多智能体强化学习模型；

步骤4：将训练完成的模型用于分布式信道竞争。

进一步优选的，分布式信道竞争场景为：

在一个网络系统中，K个网络接入点共享一个信道，这些网络接入点属于不同的网络结构，彼此之间不通信；将时间分为多个时间片，设定信道在某一时间片内只能被单个网络接入点使用，当某一时间片有多个网络接入点使用时则信道传输失败。

进一步优选的，多智能体强化学习的环境构建过程如下：

构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境，智能体可以获取到上一轮的信道状态，环境会依据智能体的动作，进行模拟，计算出信道状态以及给出各智能体相应的奖励值。

进一步优选的，多智能体强化学习的智能体构建过程如下：

构建信道竞争智能体K个，各个智能体通过与环境交互，以此构建经验回放集合，不断从中选取批次用于训练；每个智能体只能观测到公共的信道状态以及自身的状态，各智能体之间无法进行信息交互，在没有信息交流的情况下，共同实现较为公平的基于多智能体强化学习的分布式信道竞争。

进一步优选的，构建多智能体强化学习所需状态，分为两类，一类是所有智能体都能观测到的，称之为公共状态S^pub，为信道状态以及之后训练所用到的噪声方差；另一类是私有状态S^pri，各个智能体只能观测到各自的私有状态，无法得知其它智能体的私有状态，私有状态包含智能体的传输概率以及传输成功率。

进一步优选的，构建智能体调整各自概率动作A＝{α₁,α₂,...α_K}，其中，K表示智能体的个数，每个α_i表示智能体i对自身传输概率值的调整，α_i值的区间为[-0.5,0.5]，智能体i的传输概率在采取动作后会更新为p_i'＝p_i*(1+a_i)。

进一步优选的，构建智能体奖励函数，奖励函数主要由两部分组成：

结果奖励：根据某一时间片内信道的状态，会给予各个智能体相应的奖励，对于智能体i，其在第t个时间片的结果奖励为：

其中Z是一个给定的值，N_i(t)表示智能体i在t个时间片内的总的使用信道成功次数，N_j(t)表示智能体j在t个时间片内的总的使用信道成功次数，当某一时间片没有智能体使用信道时，则信道状态为空闲；当有两个或两个以上智能体使用信道时，则信道状态为繁忙；

经验奖励：根据某一时间片内智能体的动作以及信道状态的改变，给予智能体引导性奖励，对于智能体i，其在第t个时间片的经验奖励为：

其中A_i(t)表示智能体i在t时间片做出的动作，即对自身传输概率值的调整，p_i(t)表示智能体i在t时间片的概率，经验奖励的大小与概率值的改变相关。

进一步优选的，所构建的多智能体强化学习模型如下：

在每个智能体处构建两个Actor网络，输入为各智能体能观测到的公共状态和私有状态，输出为对自身概率的调整值，也就是在某一时间片的初始阶段应采取的动作；以及在每个智能体处构建两个Critic网络，通过输入状态以及动作，输出为对应的评估值。

进一步优选的，所构建的多智能体强化学习模型训练过程如下：

步骤3.1初始化Actor网络、Critic网络以及训练参数，具体包括如下内容：

随机初始化当前Actor网络参数θ和当前Critic网络参数ω；

复制当前网络参数到目标网络，目标Actor网络参数θ’＝θ，目标Critic网络参数ω’＝ω；

初始化各智能体的经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包含m个记录、训练轮次M、每次训练迭代次数T、网络参数更新频率C。

步骤3.2根据训练轮次进行M次训练，每一次训练进行T次迭代，各智能体对各自的四个网络进行训练，其训练步骤如下：

3.2.1初始化各智能体的信道使用概率，然后进行一次模拟，各智能体获得自己所能观测的状态S；

3.2.2智能体将观测到的状态S作为自己当前Actor网络的输入，基于S输出动作A；

3.2.3各智能体执行各自获得的动作A，与环境交互得到新的状态S’以及奖励R；

3.2.4各智能体将各自的{S,A,R,S’}存入自身的经验回放集合D，当集合内记录数量大于集合设定容量时会删除较早插入的记录；

3.2.5各智能体从各自的经验回放集合中随机取出m条记录记录用于网络参数优化，将S’输入目标Actor网络获取A’，将S’及A’输入目标Critic网络得到Q’(S’,A’)，再将S及A输入当前Critic网络获得Q(S,A)，根据这m个记录所计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数，对当前Critic网络进行参数优化；

3.2.6使用Q值来优化当前Actor函数的参数；

3.2.7当前迭代总次数t_total为C的倍数时，会对目标网络进行软更新，更新方法如下：

θ’＝τθ+(1-τ)θ’

ω’＝τω+(1-τ)ω’

2.2.8令S＝S’，开始下一次迭代直到本轮训练的T次迭代完成。

进一步优选的，对于当前Critic网络参数优化的损失函数，具体函数如下：

使用Q值来优化当前Actor函数的参数；

对于当前Actor网络参数优化的损失函数，具体函数如下：

其中S_i为智能体i的状态，包括了智能体i能观测到的公有状态及其自己的私有状态，A_i为输入S_i之后当前Actor网络输出的动作，S_i'为智能体i执行动作A_i之后得到的新的状态，A’为输入S_i’后目标Actor网络输出的动作，

为在S_i状态下采取动作A_i后智能体i获得的奖励值。

有益效果

本发明提出了基于多智能体强化学习的分布式信道竞争方法，其优点在于：采用了多智能体强化学习的方法实现了一种去中心化的信道竞争策略，不需要像传统方法一样依赖于基础设施；通过智能体与环境交互学习竞争策略，对自身概率自动调整，相比于使用分布式随机算法有更好的自适应性；可以进行分布式训练，大幅减少训练时间；训练出来的模型有较好的信道使用率以及保证了较为公平的信道使用。

附图说明

图1是本发明所述基于多智能体强化学习的分布式信道竞争方法的流程示意图；

图2是本发明所述的多智能体强化学习模型中智能体的结构图；

图3是本发明所述基于多智能体强化学习的分布式信道竞争方法在一实验环境下训练完成后竞争信道时各智能体的概率变化图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

实施例1

附图1是本发明所述基于多智能体强化学习的分布式信道竞争方法的流程示意图。如附图1所示，本发明所述基于多智能体强化学习的分布式信道竞争方法具体步骤包括：

步骤1：构建分布式信道竞争的场景，并且构建多智能体强化学习所需的基本元素，包括环境、智能体、状态、动作以及奖励函数；

对于步骤1的场景构建，具体地，是构建一个网络系统，在此系统中会有K个网络接入点共享一个信道，这些网络接入点属于不同的网络结构，彼此之间很难进行通信，信道在某一时间片只能被单个网络接入点使用，当某一时间片有多个网络接入点竞争使用时则传输失败。

对于步骤1的强化学习基本元素构建，具体地，构建步骤如下：

a)、构建分布式信道竞争仿真场景作为多智能体强化学习的交互环境，智能体可以得知上一轮的信道状态，环境会依据在这一轮智能体的动作，进行模拟，计算出下一轮的信道状态以及这一轮各智能体应获得的奖励值；

b)、构建K个信道竞争智能体。智能体通过与环境交互，以构建经验回放集合，在训练阶段不断从中选取批次记录仪用于训练。每个智能体只能观测到公共的信道状态以及自身的状态，智能体们间无法进行信息交互，目的是在没有信息交流的情况下，实现较为公平的基于多智能体强化学习的分布式信道竞争；

c)、构建多智能体强化学习所需状态。本场景下状态分为两类，一类是所有智能体都能观测到的，称之为公共状态S^pub，在这里主要指的是信道状态以及之后训练所用到的噪声方差；还有一类是私有状态S^pri，由上述b)可知由于没有信息交流，各个智能体只能观测到各自的私有状态，无法得知其它智能体的私有状态，所述私有状态包含智能体的传输概率以及传输成功率，一个智能体所能观测到的状态为公共状态以及它自身的私有状态；

d)、构建智能体调整各自概率动作A＝{α₁,α₂,...α_K}，其中，K表示智能体的个数，每个α_i表示智能体i对自身传输概率值的调整，α_i值的区间为[-0.5,0.5]，智能体i的传输概率在采取动作后会更新为p_i'＝p_i*(1+a_i)；

e)、构建智能体奖励函数，奖励函数主要由两部分组成：

其中Z是一个给定的值，N_i(t)表示智能体i在t个时间片内的总的使用信道成功次数。N_j(t)表示智能体j在t个时间片内的总的使用信道成功次数。

设置上述结果奖励的原因是，本发明希望信道被成功使用，而当信道在某个时间片内没有被使用或者被两个及两个以上智能体竞争时，交互环境会给出一个负的奖励值作为惩罚；而在信道被成功使用的基础上，也就是在保证总的成功占用的基础上，本发明更注重各智能体公平地使用信道，所以本发明设定某一智能体成功使用信道所获得的奖励值会随着成功次数的增加而减少，以此来避免某一智能体一直占用信道从而影响了公平性。

其中A_i(t)表示智能体i在t时间片做出的动作，即对自身传输概率值的调整，p_i(t)表示智能体i在t时间片的概率，经验奖励的大小与概率值的改变相关。相比于结果奖励，经验奖励的值较小，对于智能体的参数优化更多起到的是引导作用。

步骤2：构建方法所需多智能体强化学习模型；

具体地，对于每个智能体，会构建DDPG算法模型。不同于MADDPG，由于各智能体隶属不同的网络结构，不存在彼此间的信息交互，所以MADDPG中的中心化训练，在本实验背景下是不适用的，本发明中采用了一般的DDPG算法，如附图2所示，在每个智能体处构建两个Actor网络，分别为当前Actor网络和目标Actor网络，两个Actor网络都是输入智能体能观测到的公共状态和私有状态，输出对自身概率的调整值，也就是在某一时间片应采取的动作。并且在每个智能体处构建两个Critic网络，Critic网络输入状态以及动作，输出对应的评估值。

步骤3：智能体与环境进行交互，各个智能体构建各自的经验回放集合，用以训练多智能体强化学习模型；

具体地，对于步骤3所述强化学习模型训练，其具体步骤如下：

3.1、初始化Actor网络、Critic网络以及训练参数，具体包括如下内容：

首先初始化当前Actor网络参数θ和当前Critic网络参数ω；

复制当前网络参数到目标网络，让目标Actor网络参数θ’＝θ，目标Critic网络参数ω’＝ω；

初始化各智能体的训练参数，对于经验回放集合大小D，这里设置为5000，因为在本方法中过大的集合大小对收敛会有反效果；衰减因子γ设置为0.9；软更新系数τ设置为0.01；1个batch包含m个记录，即每次从经验回放集合中取出的记录数为32；训练轮次M设置为200；每次训练迭代次数T设置为200。

3.2、初始化完参数后，根据训练轮次进行M次训练，每一次训练进行T次迭代，各智能体会对各自模型中的网络进行训练，其训练步骤如下：

(3.2.1)初始化各智能体的信道使用概率，本实例中将各智能体信道使用概率初始化为0.5，然后根据各智能体初始概率进行一次模拟，各智能体获得自己所能观测的状态S；

(3.2.2)智能体将观测到的状态S作为自己当前Actor网络的输入，基于S输出动作A；

(3.2.3)各智能体执行各自获得的动作A，与环境交互得到新的状态S’以及奖励R；

(3.2.4)各智能体将各自的{S,A,R,S’}存入自身的经验回放集合D，当集合内记录数量大于集合设定容量时会删除较早插入的记录；

(3.2.5)各智能体从各自的经验回放集合中随机取出m个记录用于网络参数优化，将S’输入目标Actor网络获取A’，将S’及A’输入目标Critic网络得到Q’(S’,A’)，再将S及A输入当前Critic网络获得Q(S,A)，使用m个记录的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数，对当前Critic网络进行参数优化；

对于当前Critic网络参数优化的损失函数，具体函数如下：

(3.2.6)使用(3.2.5)中的Q值来优化当前Actor函数的参数；

对于当前Actor网络参数优化的损失函数，具体函数如下：

(3.2.7)当前迭代总次数t_total为C的倍数时，会对目标网络进行软更新，更新方法如下：

θ’＝τθ+(1-τ)θ’

ω’＝τω+(1-τ)ω’

(3.2.8)令S＝S’，开始下一次迭代直到本轮训练的T次迭代完成。

为在S_i状态下采取动作A_i后智能体i获得的奖励值。

步骤4：使用训练完成的模型用于分布式信道竞争。

从图3可以看出，在4个智能体的实验环境下训练完模型之后，在应用于信道竞争时，在100个时间片内，各智能体的概率随着时间片起伏变化，并没有出现单一智能体概率极高而其它智能体概率极低的情况，较好地满足了本发明所提倡的信道竞争的公平性。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习的分布式信道竞争方法，其特征在于，包括如下步骤：

步骤2：构建方法所需多智能体强化学习模型；

步骤4：将训练完成的模型用于分布式信道竞争。

2.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，分布式信道竞争场景为：

3.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，多智能体强化学习的环境构建过程如下：

4.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，多智能体强化学习的智能体构建过程如下：

5.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，

构建多智能体强化学习所需状态，分为两类，一类是所有智能体都能观测到的，称之为公共状态S^pub，为信道状态以及之后训练所用到的噪声方差；另一类是私有状态S^pri，各个智能体只能观测到各自的私有状态，无法得知其它智能体的私有状态，私有状态包含智能体的传输概率以及传输成功率。

6.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，

构建智能体调整各自概率动作A＝{α₁,α₂,...α_K}，其中，K表示智能体的个数，每个α_i表示智能体i对自身传输概率值的调整，α_i值的区间为[-0.5,0.5]，智能体i的传输概率在采取动作后会更新为p_i’＝p_i*(1+a_i)。

7.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，构建智能体奖励函数，奖励函数主要由两部分组成：

8.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，所构建的多智能体强化学习模型如下：

9.根据权利要求1所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，所构建的多智能体强化学习模型训练过程如下：

随机初始化当前Actor网络参数θ和当前Critic网络参数ω；

3.2.5各智能体从各自的经验回放集合中随机取出m条记录用于网络参数优化，将S’输入目标Actor网络获取A’，将S’及A’输入目标Critic网络得到Q’(S’,A’)，再将S及A输入当前Critic网络获得Q(S,A)，根据这m个记录所计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数，对当前Critic网络进行参数优化；

3.2.6使用Q值来优化当前Actor函数的参数；

θ’＝τθ+(1-τ)θ’

ω’＝τω+(1-τ)ω’

10.根据权利要求9所述的基于多智能体强化学习的分布式信道竞争方法，其特征在于，对于当前Critic网络参数优化的损失函数，具体函数如下：

使用Q值来优化当前Actor函数的参数；

对于当前Actor网络参数优化的损失函数，具体函数如下：

其中S_i为智能体i的状态，包括了智能体i能观测到的公有状态及其自己的私有状态，A_i为输入S_i之后当前Actor网络输出的动作，S_i’为智能体i执行动作A_i之后得到的新的状态，A’为输入S_i’后目标Actor网络输出的动作，

为在S_i状态下采取动作A_i后智能体i获得的奖励值。