CN110958680A

CN110958680A - 面向能量效率的无人机群多智能体深度强化学习优化方法

Info

Publication number: CN110958680A
Application number: CN201911252410.4A
Authority: CN
Inventors: 姚昌华; 王修来; 党随虎; 李松柏; 阮郎; 田辉; 范浩人; 张海波
Original assignee: Yangtze Normal University
Current assignee: Yangtze Normal University
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-03
Anticipated expiration: 2039-12-09
Also published as: CN110958680B

Abstract

本发明公开了面向能量效率的无人机群多智能体深度强化学习优化方法，包括：采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值。本发明采用分布式多智能体深度强化学方法，设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律，解决传统强化学习面临的大状态空间无法得到收敛解的难题，实现多智能体分布式协同学习，提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

Description

面向能量效率的无人机群多智能体深度强化学习优化方法

技术领域

本发明涉及无人机集群通信网络接入技术领域，具体涉及面向能量效率的无人机群多智能体深度强化学习优化方法。

背景技术

当前，无人机技术的快速发展和应用推广是前沿和热点问题之一，受到广泛关注。其中，以无人机集群的研究最为引人注目。无人机集群能以低成本无人机按不同角色组成群体，发挥协同动作的巨大效用。

但是，无人机集群发挥协同效用的关键在于其健壮的通信网络。没有一个支撑无人机集群内部成员之间的通信系统，其协同动作无从谈起。

同时，小型无人机，尤其是电池供电无人机，其能量消耗的优化至关重要。无人机集群的通信网络构建与优化一方面要满足通信需求，另外一方面还要密切关注其能量消耗，两者必须同时兼顾优化。因此，需要研究无人机集群通信网络的通信能量效率问题。

然而，由于其动态性的存在，无人机集群通信能量效率优化决策面临大决策空间的严峻挑战。采用传统的强化学习方法，会遇到由于大决策空间而造成算法无法收敛或者收敛速度过慢的问题。因此，拟采用深度强化学习的方法，利用深度神经网络的函数拟合能力，解决收敛速度问题。同时，由于无人机集群个体成员的智能性，需要考虑多个智能体的协同学习问题。

综上所述，如何提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术存在的上述不足，本发明实际需要解决的问题是：如何提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

本发明采用了如下的技术方案：

面向能量效率的无人机群多智能体深度强化学习优化方法，包括如下步骤：

S1、获取无人机集群当前状态信息；

S2、获取无人机集群历史信息，所述历史信息包括历史状态信息及历史决策信息；

S3、采用基于Q学习的改进DQN深度强化学习方法，利用无人机集群历史信息对每个智能体的神经网络进行训练更新，得到无人机集群各智能体的信道选择及功率选择决策，训练过程中采用短时经验回放机制训练神经网络，每个神经网络的优化目标为最大化对应智能体的能量效率值；

S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。

优选地，步骤S3中，链路合集为L，对任一神经网络，智能体集合为L_m，非智能体的集合为L_s，L_s＝L-L_m，步骤S3包括：

S301、初始化回放空间，设置回放空间大小及回放空间清空周期；

S302、初始化智能体的DQN网络参数，智能体的目标Q值网络参数，设置智能体的学习速率和折扣系数；

S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合；

S304、设t＝1；

S305、利用目标无人机群在t时隙对应的状态信息，基于ε-greedy算法和DQN网络得到智能体决策并执行，得到回报值以及执行后所有链路可能达到的状态信息，将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间；

S306、从回放空间随机采样训练数据集，训练数据集样本数为k；

S307、从训练数据集中采集一个样本，设样本编号interation＝1；

S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络，得到新的Q值，取最大的Q值对应的决策作为智能体t时隙的决策；

S309、利用随机梯度下降法根据损失函数

更新DQN网络参数集

式中，Q()为Q值函数，

表示非智能体t时刻的状态信息，

表示表示智能体t时刻的状态信息，

表示第i个智能体在t时隙的决策，

表示第i个智能体在t时隙的网络参数，γ表示折扣系数，

表示

对应的决策下可能到达的所有状态的集合，

表示

对应的决策下可能到达的所有状态的集合，

表示第i个智能体在t时刻采用不同于的

其他决策，ΔI表示参数更新周期；

S310、当t％ΔI＝＝0时，

表示第i个智能体在t时隙的Q值网络参数；

S311、当样本编号等于k且t＝T时，结束；当样本编号等于k且t＜T时，使t的值加1并返回执行S305；当样本编号小于k时，使样本编号的值加1并返回执行步骤S308。

优选地，

式中，

表示第i个智能体在t时隙的决策的回报值，

表示第i个智能体在t时隙的决策，B_i表示第i个智能体在t时隙的信道带宽，

表示第i个智能体在t时隙的接收节点通信信噪比，

表示

对应的通信阈值，接收节点通信信噪比小于通信阈值这表示不能通信，

表示第i个智能体在t时隙的发送节点传输功率，

表示第i个智能体在t时隙的链路增益，

表示第i个智能体在t时隙的接收节点的干扰强度，σ表示干扰噪音，

表示t时隙第j条链路对第i个智能体的增益，当第j条链路与第i个智能体使用同一信道，

d_i表示第i个智能体的收发节点之间的距离，

d_ij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离，δ表示路径衰减因子，

表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。

优选地，任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。

综上所述，与现有技术相比，本发明具有以下有益效果：本发明提出面向能量效率的无人机群多智能体深度强化学习优化方法，着眼实现无人机集群通信能量效率的提升，采用分布式多智能体深度强化学方法，设计基于环境状态信息分解的深度神经网络，设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律，解决传统强化学习面临的大状态空间无法得到收敛解的难题，实现多智能体分布式协同学习，提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

附图说明

图1为通信网络拓扑示意图；

图2为多智能体强化学习模型示意图；

图3为本发明公开的面向能量效率的无人机群多智能体深度强化学习优化方法的一种具体实施方式的流程图；

图4为本发明具体实例中智能体A_o1算法性能对比曲线图；

图5为本发明具体实例中智能体A_o2算法性能对比曲线图；

图6为本发明具体实例中智能体A_o3算法性能对比曲线图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述说明。

如图3所示，本发明公开了面向能量效率的无人机群多智能体深度强化学习优化方法，包括如下步骤：

S1、获取无人机集群当前状态信息；

对于每一个时隙，都采集多个之前时隙的历史信息作为神经网络进行学习的输入，从而得到当前时隙的决策信息。

本发明中，每一个无人机可视为集群通信网络中的一个节点，每一条链路包括一个发送节点和一个接收节点，其链路的信道选择和功率选择视为该链路的决策。本发明中可以将每一条链路都视为一个可训练学习的智能体。本发明以每个智能体为主体分别进行神经网络的训练。

如图1所示，在本发明中，N表示无人机网络通信节点集，N＝{v₁,v₂,v₃,…v_u}，u表示通信节点个数，v_u表示第u个通信节点；L表示通信节点之间的通信链路集，L＝{l₁,l₂,l₃,…,l_n}，n表示通信链路数量，l_n表示第n条通信链路；

表示发送节点x方向坐标向量，

表示第n条通信链路的发送节点x方向坐标，

表示发送节点y方向坐标向量，

表示第n条通信链路的发送节点y方向坐标，

表示接收节点x方向坐标向量，

表示第n条通信链路的接收节点x方向坐标，

表示接收节点y方向坐标向量，

表示第n条通信链路的接收节点y方向坐标；C表示正交信道集合，C＝{c₁,c₂,…,c_k}，k表示正交信道数量，c_k表示第k条正交信道；P表示离散功率集合，m表示通信节点的可选传输功率等级数，p_m表示第m个可选功率等级；

表示在t时隙的发送节点发射功率向量，

为在t时隙第n条通信链路的发送节点的传输功率，

表示信道向量，

为在t时隙第n条通信链路信道的信道。

无人机集群的能量效率优化问题，事关集群工作的效率和生命期，对于能量有限的小型无人机来说，能量瓶颈问题是制约其功效发挥的核心问题之一。对于无人机集群通信优化中的能量效率提升问题，传统的强化学习等方法面临大决策空间挑战，难以实现算法的收敛。

本发明提出面向能量效率的无人机群多智能体深度强化学习优化方法，着眼实现无人机集群通信能量效率的提升，采用分布式多智能体深度强化学方法，设计基于环境状态信息分解的深度神经网络，设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律，解决传统强化学习面临的大状态空间无法得到收敛解的难题，实现多智能体分布式协同学习，提升无人机集群通信的能量效率，提高无人机集群的生命周期，增强无人机集群通信网络动态适应能力。

具体实施时，步骤S3中，链路合集为L，对任一神经网络，智能体集合为L_m，非智能体的集合为L_s，L_s＝L-L_m，步骤S3包括：

S304、设t＝1；

S309、利用随机梯度下降法根据损失函数

更新DQN网络参数集

式中，Q()为Q值函数，

表示非智能体t时刻的状态信息，

表示表示智能体t时刻的状态信息，

表示第i个智能体在t时隙的决策，

表示第i个智能体在t时隙的网络参数，γ表示折扣系数，

表示

对应的决策下可能到达的所有状态的集合，

表示

对应的决策下可能到达的所有状态的集合，

表示第i个智能体在t时刻采用不同于的

其他决策，ΔI表示参数更新周期；

S310、当t％ΔI＝＝0时，

表示第i个智能体在t时隙的Q值网络参数；

在每个时隙，各智能体根据状态信息和各自决策策略做出发送节点功率和信道选择的联合决策，从而提高链路数据传输能量效率。多智能体深度强化学习过程如图2所示。相关概述如下：强化学习(RL)是机器学习的一大分支，其中，Q学习是一种广为应用的强化学习方法，用来解决马尔可夫决策问题。DeepMind公司的研究人员提出了一种深度Q学习网络(DQN)，该方法利用了深度学习的优势学习最优决策策略的抽象表示，DQN将深度卷积神经网络与强化学习中的Q-learning相结合。本发明使用的方法也是基于Q学习的改进DQN深度强化学习方法。

马尔可夫决策过程是一个离散时序随机控制过程，它具有马尔可夫性质：过程的未来只取决于目前的观察状态。

在本发明中，每个时隙，根据智能体的状态信息做出决策，执行a_t后，基于新的状态信息得到对应的回报值。通过不断地基于状态信息进行学习，智能体朝着任务目标学习决策策略。通过定义值函数

式中，式中，E_π[]表示求期望，

表示第i个智能体在0时刻的状态。

为了找到最优策略，定义Q函数为状态决策对的值函数，Q函数为每对状态-决策对匹配一个Q值，并将所有Q值存储在一个Q值表中。

Q值的计算公式如下：

在每个时隙t，智能体根据更新公式对Q值表进行更新，这体现了智能体的学习过程。更新公式如下：

式中，γ∈[0,1]为折扣系数。

在本发明中，多智能体强化学习用多元组<L,S,A,R,Z,O,γ>其中,L为智能体集合；S为状态空间；A为所有智能体的动作空间；R表示奖励函数；Z是状态转换概率集合；O表示所有智能体的观测集，即所有智能体能观测到周围其他智能体的信息的集合。

在神经网络的构建过程中，本发明深度神经网络(DQN)的输入数据为一段回溯时间内智能体及非智能体的状态信息，其中ΔT为历史回溯时间长度。最终将两部分状态信息合并，逼近Q函数。由于智能体的决策策略在改变，智能体的参数集更新方式为动态更新方式，即

其中k为更新轮次(从样本空间提取的样本数)，

为各智能体人为设定的参数更新步长。这么做是为了防止不确定性的动态变化环境下的Q值过估计。

具体实施时，

式中，

表示第i个智能体在t时隙的决策的回报值，

表示第i个智能体在t时隙的接收节点通信信噪比，

表示

表示第i个智能体在t时隙的发送节点传输功率，

表示第i个智能体在t时隙的链路增益，

d_i表示第i个智能体的收发节点之间的距离，

根据香农公式，链路的通信速率可表示为

链路的能量效率值可定义为

对于每个时隙，每个智能体对应的神经网络的优化目标为最大化链路的能量效率值，即

具体实施时，任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。

下面通过仿真实例来验证本发明的有效性。

实验软件环境：UBUNTU16.04LTS操作系统、Python3.6+TensorFlow 1.12深度学习框架。

仿真场景设置：将分布式无人机集群通信网络中的20条通信链路分布在一个面积为1000m*1000m的正方形场地中，通信可用信道数为3，节点传输功率等级为离散的，数目同样为3，网络输出层的输出个数为9。将500个时隙作为一个Episode，每个Episode的链路EE值为500个时隙的链路能效均值，具体参数见表1及表2。

将选择网络中的三条链路分别作为智能体分别编号为l_o1、l_o2和l_o3，每条链路拥有的智能体编号为A_o2、A_o2和A_o3。

实验结果及分析：算法性能指标为链路的能量效率值。图4、图5和图6分别展示了智能体A_o1 A_o2和A_o3的算法性能对比曲线。从图中的结果可以看出，本发明所提方法均取得了较好的效果。这说明本发明的方法能根据网络的动态变化情况，通过神经网络训练，得出当前状态下的优化决策，获得更好的信道选择和功率参数优化结果，获得更高的能量效率。

表1网络场景设置表

参数	值
		信道带宽	1Mbps
链路数量	20
		可用功率值	(3，5,10)mw
信道噪声	-30dBm
		路径损失系数δ	2
最大传输距离	300m
		可用信道数目	3

表2算法参数设置

参数	值
		学习策略探索值ε	0.95-0.05
折扣系数γ	0.85
		卷积核大小	6*6
池化操作	Max
		全连接层神经元个数	256
激励函数	ReLU
		批训练数据大小	32
输入大小	120*120
		回放空间大小	80000

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。