CN114375022B

CN114375022B - 一种无线网络中基于多智能体强化学习的信道抢占方法

Info

Publication number: CN114375022B
Application number: CN202210018612.8A
Authority: CN
Inventors: 邹逸飞; 于东晓; 徐标; 徐明辉
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-01-08
Filing date: 2022-01-08
Publication date: 2024-03-12
Anticipated expiration: 2042-01-08
Also published as: CN114375022A

Abstract

本发明公开了一种无线网络中基于多智能体强化学习的信道抢占方法，包括如下步骤：S1.构建无线网络信道抢占场景，用于与智能体交互；构建信道抢占所需多智能体强化学习模型；S2.对模型进行训练使模型参数最优化；S3.各智能体加载训练好的模型参数，根据模型做出决策，实现信道抢占。其优点在于，采用了多智能体强化学习的方法去解决信道抢占问题，参与信道抢占的各候补节点，彼此之间不需要进行通信，只需要与无线网络环境进行交互，可扩展性强；可以进行分布式训练，减少训练时间；训练出的模型可以很好地保证信道抢占过程的成功。

Description

一种无线网络中基于多智能体强化学习的信道抢占方法

技术领域

本发明涉及分布式系统领域，尤其是无线网络中基于多智能体强化学习的信道抢占方法。

背景技术

随着物联网的发展，越来越多的智能设备连入网络，传统的集中式系统中单个节点的能力难以满足如此爆炸增长的数据计算以及存储的需求，分布式系统便应运而生。与传统的集中式系统不同的是，分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统动态分配任务，节点的物理以及逻辑资源通过网络进行信息交换，从而实现了对复杂任务的分布式实现。

分布式系统在动态分配任务时，常常要从多个计算机节点中选择一个节点作为统筹管理其它节点的领导者，这种选举出一个节点作为其它节点的领导者的过程被称为信道抢占。信道抢占的方法有很多，常见的如使用Aloha协议来实现信道抢占，但是这些方法大多需要候补节点之间进行信息交流，当节点数量增多时会严重影响方法性能。而多智能体强化学习的理念在分布式系统中有很高的应用潜力，如今并没有较为成熟的基于多智能体强化学习的信道抢占方法，因此，本发明引入了多智能体强化学习方法，来解决信道抢占问题。

发明内容

针对现有技术的不足，本发明提供了一种高效的、可扩展的无线网络中基于多智能体强化学习的信道抢占方法，通过构建多个智能体作为候补节点与仿真无线网络环境交互训练，可以较好的实现信道抢占过程。

一种无线网络中基于多智能体强化学习的信道抢占方法，包括如下步骤：

S1.构建无线网络信道抢占场景，用于与智能体交互；

构建信道抢占所需多智能体强化学习模型；

S2.对模型进行训练使模型参数最优化；

S3.各智能体加载训练好的模型参数，根据模型做出决策，实现信道抢占。

进一步优选的，信道抢占场景为：

在无线网络环境中，存在K个领导人候补节点和一个无线信道，时间被分为多个时间片，各候补节点间彼此无法通信，且信道在某一时间片内只能被单个节点占用；在每个时间片内，各候补节点会对自身的选举概率进行调整，根据调整后的选举概率选择是否参与选举，参与选举的节点会去抢占信道，依据每个时间片内信道的状态，环境会给予各节点反馈，当参与选举的节点数量为1时，即信道被成功占用时，则为选举成功；当没有参与选举的节点或参与选举的节点数量不等于1时，即信道未被成功占用时，此时选举失败。

进一步优选的，多智能体强化学习模型为：

在各个智能体处都构建DDPG强化学习模型，每个智能体都被看作是参与信道抢占的候补节点；

每个智能体的DDPG模型包括四个全连接网络，分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络；

所述当前策略网络，输入为t时间片的状态，输出为t时间片的动作，及对t时间片的选举概率的增长百分比；

所述目标策略网络，输入为t+1时间片的状态，输出为t+1时间片的动作，及对t+1时间片的选举概率的增长百分比；

所述当前评论网络，输入为t时间片的状态和当前策略网络的输出，输出为对t时间片此状态下采取此动作的价值的评估值；

所述目标评论网络，输入为t+1时间片的状态和当前策略网络的输出，输出为对t+1时间片此状态下采取此动作的价值的评估值。

进一步优选的，当前策略网络和当前评论网络的输入为t时间片的状态，通过如下步骤获得：

在每个时间片内的初始阶段，各智能体会调整各自的选举概率，根据此概率选择在此时间片之后的阶段内是否参与信道抢占，即是否占用无线信道，根据此时间片内的信道使用情况，环境会给各智能体反馈选举结果；

对于t时间片当前策略网络和当前评论网络，t-1时间片的选举结果会作为它们输入的一部分；

各智能体将t时间片自己的选举概率以及上述t-1时间片的选举结果组合，作为各智能体t时间片的状态张量；

组合成的状态张量即为t时间片当前策略网络和当前评论网络的输入。

进一步优选的，各智能体学习模型中各网络训练过程如下：

步骤2.1初始化策略网络、评论网络以及网络参数，具体包括如下内容：

随机初始化当前策略网络参数θ和当前评论网络参数ω；

复制当前网络参数到目标网络，目标策略网络参数θ’＝θ，目标评论网络参数ω’＝ω；

初始化经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包含m个记录、训练轮次M、每次训练的迭代次数为T、网络参数更新频率C。

步骤2.2根据训练轮次进行M次迭代，各智能体对自己的四个全连接网络进行训练，步骤如下：

2.2.1初始化各智能体的选举概率，获取到初始状态张量S；

2.2.2将初始状态张量S输入当前策略网络，基于初始状态张量S获得动作A；

2.2.3执行动作A，与环境交互得到新的状态S’以及奖励R；

2.2.4各智能体将各自的{S,A,R,S’}存入经验回放集合D，当集合内记录数量大于集合设定容量时会删除较早插入的记录；

2.2.5从经验回放集合中拿出m条记录用于网络参数优化，将S’输入目标策略网络获取A’，将S’及A’输入目标评论网络得到Q’(S’,A’)，再将S及A输入当前评论网络获得Q(S,A)，使用m个记录计算出的(Q’(S’,A’)+R-Q(S,A))的均方误差作为损失函数，对当前评论网络进行参数优化；

2.2.6使用Q值来优化当前策略函数的参数；

2.2.7当前迭代总次数t_total为C的倍数时，会对目标网络进行软更新，更新方法如下：

θ’＝τθ+(1-τ)θ’

ω’＝τω+(1-τ)ω’

2.2.8令S＝S’，开始下一次迭代直到本轮迭代完成。

进一步优选的，在步骤2.2.3中，对于某个智能体n而言，将t时间片的状态张量输入其当前策略网络时，会获得一个动作A_n(t)，当获得A_n(t)之后，可以计算出t+1时间片智能体选举概率P_n(t+1)，计算公式为P_n(t+1)＝P_n(t)*(1+A_n(t))；在t+1时间片，获取到新的状态S’，根据每个时间片的选举结果，环境会给出对应的奖励R，当某个时间片选举结果为[0,1,0]时，即只有一个智能体参与选举时，所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励，对于其它情况，都是给予负的奖励值。

进一步优选的，在步骤2.2.5中，

策略网络通过输入状态输出动作，评论网络输入状态和动作获得一个Q值作为一个评估，对于智能体n而言，其从其经验回放集合中取出m条记录对网络参数进行训练，当前策略网络与当前评论网络的损失函数具体如下：

当前策略网络的损失函数为：

当前评论网络的损失函数为：

对当前策略网络和当前评论网络，通过梯度反向传播来更新两个网络的参数，其

中S_i为智能体i的状态，A_i为输入S_i之后当前Actor网络输出的动作，S_i为智能体i执行动作A_i之后得到的新的状态，A’为输入S_i’后目标Actor网络输出的动作，为在S_i状态下采取动作A_i后智能体i获得的奖励值。

有益效果

本发明提出了一种无线网络中基于多智能体强化学习的信道抢占方法，其优点在于：采用了多智能体强化学习的方法去解决信道抢占问题，参与信道抢占的各候补节点，彼此之间不需要进行通信，只需要与无线网络环境进行交互，可扩展性强；可以进行分布式训练，减少训练时间；训练出的模型可以很好地保证信道抢占过程的成功。

附图说明

图1是本发明所述无线网络中基于多智能体强化学习的信道抢占方法的流程示意图；

图2是本发明所述各智能体当前策略网络与目标策略网络结构示意图；

图3是本发明所述各智能体当前评论网络与目标评论网络结构示意图；

图4为本发明所述无线网络中基于多智能体强化学习的信道抢占方法在一实验环境下训练完成后进行信道抢占时各智能体的概率变化图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

实施例1

请参阅附图1，为本发明实施例1提供的一种基于多智能体强化学习的信道抢占方法的流程示意图。该方法具体包含以下步骤：

S1.构建无线网络信道抢占场景，用于与智能体交互；构建信道抢占所需多智能体强化学习模型；

信道抢占场景为：

构建所述信道抢占的多智能体强化学习模型：

在各个智能体处都构建DDPG强化学习模型，每个智能体都被看作是参与信道抢占的候补节点；每个智能体的DDPG模型包括四个全连接网络，分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络；

所述当前策略网络，输入为t时间片的状态，输出为t时间片的动作，及对t时间片的选举概率的增长百分比，这个百分比可以为负值；

所述目标策略网络，输入为t+1时间片的状态，输出为t+1时间片的动作，及对t+1时间片的选举概率的增长百分比，这个百分比可以为负值；

当前策略网络和当前评论网络的输入为t时间片的状态，通过如下步骤获得：

S2.对模型进行训练使模型参数最优化；

各智能体学习模型中各网络训练过程如下：

随机初始化当前策略网络参数θ和当前评论网络参数ω；

对训练参数进行初始化，如经验回放集合大小D、衰减因子γ、软更新系数τ、1个batch包括m条记录、训练轮次M、迭代次数T等，本发明将经验回放集合大小设为5000，衰减因子γ设为0.9，软更新系数τ设为0.01，批处理batch大小m，即每次从经验回放集合中取出的记录数为32，训练轮次M设为100，每次训练迭代次数T设为200。

在本发明内，时间被分为多个时间片，在每一个时间片内，各智能体会根据自己的概率选择是否在此轮参与选举，然后根据无线信道的使用状态，会生成此时间片内的选举结果，该结果会被各智能体所监听到。

其中，每个智能体所能观测到的状态是局限的，在每一个时间片，各智能体只能观测到自身的选举概率而无法得知其它智能体的概率，在下一个时间片，智能体会将上一个时间片内信道抢占的结果作为之后策略网络以及评论网络输入状态的一部分。

模型训练轮次根据给定参数M，也就是总共训练M轮，每一轮根据迭代次数T,时间片t从1到T，在各智能体处进行如下训练：

2.2.1、在t时间片，获取状态张量S；

具体地，获取t-1时间片选举结果以及t时间片智能体选举概率以组成t时间片的状态张量S。当t为1时，会初始化所有智能体的概率，这里取0.5，然后进行一次模拟，将这次模拟结果作为t-1时间片的选举结果。

具体地，对于构成t时间片的状态张量S的各个组成部分：t-1时间片的选举结果，此结果会以三维向量的形式表示，当t-1时间片没有智能体参与选举时，认为选举失败，表示为[1,0,0]；当t-1时间片仅有一个智能体参与选举时，此时表现为选举成功，表示为[0,1,0]；当t-1时间片有多个智能体参与选举时，选举失败，表示为[0,0,1]。对于t时间片噪音方差，因为进行动作选择时需要一定的探索率，所以本发明在获取到策略网络的输出时会给定一个噪声该噪声为正态分布，其标准差值σ会随着t的增大而减少。

2.2.2、将t时间片的当前策略网络，基于S获得动作A；

具体地，对于某个智能体n而言，将t时间片的状态张量输入其当前策略网络时，会获得一个动作A_n(t)，该动作实际上是个常量，取值范围为[-0.5,0.5]。

2.2.3、执行动作A，与环境交互得到新的状态S’以及奖励R；

具体地，对于某个智能体n而言，当获得A_n(t)之后，可以计算出t+1时间片智能体选举概率，计算公式为P_n(t+1)＝P_n(t)*(1+A_n(t))。在t+1时间片，可以获取到新的状态S’。根据每个时间片的选举结果，环境会给出对应的奖励R，在这本发明设置为，当某个时间片选举结果为[0,1,0]时，即只有一个智能体参与选举时，所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励。对于其它情况，都是给予负的奖励值。

2.2.4、各智能体将各自的{S,A,R,S’}存入经验回放集合D，当集合内记录数量大于集合设定容量时会删除较早插入的记录；

各智能体拥有自己的经验回放集合，集合中的记录用于进行网络参数的训练。在这里本发明将经验回放集合的大小设为5000，当记录数目小于5000时，直接将新产生的记录存入集合，当经验回放集合大小为5000时，假设要插入10条新的数据，就会删除其中最早插入的10条数据。

2.2.5、各智能体从经验回放集合中拿出m条记录用于网络参数优化，将S’输入目标策略网络获取A’，将S’及A’输入目标评论网络得到Q’(S’,A’)，再将S及A输入当前评论网络获得Q(S,A)，使用m条记录计算出的(γQ’(S’,A’)+R-Q(S,A))的均方误差作为损失函数，对当前评论网络进行参数优化，

2.2.6、使用Q值来优化当前策略函数的参数；

具体而言，策略网络通过输入状态输出动作，评论网络输入状态和动作获得一个Q值作为一个评估。对于智能体n而言，其从其经验回放集合中取出m条历史记录对网络参数进行训练，当前策略网络与当前评论网络的损失函数具体如下：

当前策略网络的损失函数为：

当前评论网络的损失函数为：

对当前策略网络和当前评论网络，通过梯度反向传播来更新两个网络的参数，

其中S_i为智能体i的状态，A_i为输入S_i之后当前Actor网络输出的动作，S_i为智能体i执行动作A_i之后得到的新的状态，A’为输入S_i’后目标Actor网络输出的动作，为在S_i状态下采取动作A_i后智能体i获得的奖励值。

2.2.7、当前迭代总次数t_total为C的倍数时，会对目标网络进行软更新；

具体地，对于目标策略网络，θ’＝τθ+(1-τ)θ’，对于目标评论网络，ω’＝τω+(1-τ)ω’。

S27、令S＝S’，开始下一次迭代直到本轮迭代完成。

其中，S’会作为下一时间片，即t+1时间片的状态张量，用于开始下一轮网络的训练。

实施例2

请参阅附图2和附图3，为本发明实施例2提供的策略网络与评论网络的网络结构示意图，网络结构如下：

当前策略网络和目标策略网络结构相同，如附图2所示，都包含了两个隐藏层，每个隐藏层都选择ReLU作为激活函数。策略网络通过输入某一时间片的状态，会输出应选择的动作，也就是对智能体概率的改变幅度。

当前评论网络和目标评论网络结构相同，如附图3所示，也是两层隐藏层，隐藏层的激活函数选择ReLU函数。评论网络的输入为某一时间片的状态S和动作A，输出是一个评估值Q(S,A)，可以看到这里网络分为了两部分，上半部分的网络仅仅获取输入中的S，作为状态S的价值函数，下半部分的网络获取状态S和动作A，作为优势函数，两个函数的相加值作为最终评论网络的输出值Q(S,A)。

从图4可以看出，在4个智能体的实验环境下训练完模型之后，在应用于信道竞争时，在100个时间片内，仅有一个智能体的选举概率在10个时间片内速升到接近1，而其它智能体的选举概率接近于0，很好的实现了信道抢占过程。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，包括如下步骤：

S1.构建无线网络信道抢占场景，用于与智能体交互；

在无线网络环境中，存在K个领导人候补节点和一个无线信道，时间被分为多个时间片，各候补节点间彼此无法通信，且信道在某一时间片内只能被单个节点占用；在每个时间片内，各候补节点会对自身的选举概率进行调整，根据调整后的选举概率选择是否参与选举，参与选举的节点会去抢占信道，依据每个时间片内信道的状态，环境会给予各节点反馈，当参与选举的节点数量为1时，即信道被成功占用时，则为选举成功；当没有参与选举的节点或参与选举的节点数量不等于1时，即信道未被成功占用时，此时选举失败；

构建信道抢占所需多智能体强化学习模型；在各个智能体处都构建DDPG强化学习模型，每个智能体都被看作是参与信道抢占的候补节点；

所述目标评论网络，输入为t+1时间片的状态和当前策略网络的输出，输出为对t+1时间片此状态下采取此动作的价值的评估值；

S2.对模型进行训练使模型参数最优化；

各智能体学习模型中各网络训练过程如下：

步骤2.1随机初始化当前策略网络参数θ和当前评论网络参数ω；

2.2.1初始化各智能体的选举概率，获取到初始状态张量S；

对于构成t时间片的状态张量S的各个组成部分：t-1时间片的选举结果，

此结果会以三维向量的形式表示，当t-1时间片没有智能体参与选举时，认为选举失败，表示为[1,0,0]；当t-1时间片仅有一个智能体参与选举时，此时表现为选举成功，表示为[0,1,0]；当t-1时间片有多个智能体参与选举时，

选举失败，表示为[0,0,1]；

2.2.3执行动作A，与环境交互得到新的状态S’以及奖励R；

根据每个时间片的选举结果，环境会给出对应的奖励R，当某个时间片选举结果为[0,1,0]时，即只有一个智能体参与选举时，所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励，对于其它情况，都是给予负的奖励值；

2.2.6使用Q值来优化当前策略函数的参数；

θ’＝τθ+(1-τ)θ’

ω’＝τω+(1-τ)ω’

2.2.8令S＝S’，开始下一次迭代直到本轮迭代完成；

2.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，当前策略网络和当前评论网络的输入为t时间片的状态，通过如下步骤获得：

3.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，各智能体学习模型中各网络训练过程如下：

随机初始化当前策略网络参数θ和当前评论网络参数ω；

初始化经验回放集合大小D、衰减因子γ、软更新系数τ、1个批处理batch包含m个记录、训练轮次M、每次训练的迭代次数为T、网络参数更新频率C。

4.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，在步骤2.2.3中，对于某个智能体n而言，将t时间片的状态张量输入其当前策略网络时，会获得一个动作A_n(t)，当获得A_n(t)之后，可以计算出t+1时间片智能体选举概率P_n(t+1)，计算公式为P_n(t+1)＝P_n(t)*(1+A_n(t))；在t+1时间片，获取到新的状态S’。

5.根据权利要求1所述的一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，在步骤2.2.5中，

当前策略网络的损失函数为：

当前评论网络的损失函数为：

对当前策略网络和当前评论网络，通过梯度反向传播来更新两个网络的参数，其中S_i为智能体i的状态，A_i为输入S_i之后当前Actor网络输出的动作，S_i’为智能体i执行动作A_i之后得到的新的状态，A’为输入S_i’后目标Actor网络输出的动作，为在S_i状态下采取动作A_i后智能体i获得的奖励值。