CN111240356A

CN111240356A - 一种基于深度强化学习的无人机集群会合方法

Info

Publication number: CN111240356A
Application number: CN202010034427.9A
Authority: CN
Inventors: 张耀中; 许佳林; 姚康佳
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05
Anticipated expiration: 2040-01-14
Also published as: CN111240356B

Abstract

本发明提供了一种基于深度强化学习的无人机集群会合方法。训练阶段，在会合任务场景内设定一个固定区域作为无人机集群的会合区，获得区域中心点位置信息，建立评判无人机集群运动的深度神经网络，对深度神经网络进行训练，训练完成后，得到最终的深度神经网络；执行阶段，输入数据输入训练后的深度神经网络，进行判定。本发明扩展了无人机集群任务的状态空间和行为空间，面对不完整的场景信息实用性较强，构建了面向任务的无人机集群统一的决策网络，实现了决策网络对于不定数量的无人机的统一指挥控制。

Description

一种基于深度强化学习的无人机集群会合方法

技术领域

本发明涉及机器学习、路径规划领域，尤其是一种无人机集群会合方法。

背景技术

为了实现无人机集群对某一目标区域实行精确打击或者对完成某个区域的侦查搜索任务，提高完成任务的成功率，往往需要多无人机从不同方向飞向某一目标区域完成会合任务。传统解决无人机集群会合任务多使用基本一致性算法和基于过去状态差值的一致性算法，这些算法系统收敛速度慢，任务完成时间比较长，有效性和可行性较低。

当前使用人工智能方法对无人机的行为控制方向的研究主要停留在对单个无人机个体的研究与应用上，针对无人机集群方向的研究较少。当前研究下无人机集群的结构较为固定，灵活性不足，对于集群的规模变化的应对能力不足，未达到无人机集群的自治化要求。使用人工智能进行无人机集群任务规划的研究，任务层级仍然处在比较浅层的阶段。从国内实现的无人机集群的协同任务成果来看，我国的无人机集群较多研究无人机集群协同执行任务时如何有效的防碰撞，而关于无人机载荷，及其执行的更高层级的任务，诸如：协同探测、协同攻击、协同防御等任务层级的相关研究仍比较少。目前来看，我国的无人机集群研究仍然处在比较初级的阶段。

发明内容

为了克服现有技术的不足，本发明提供一种基于深度强化学习的无人机集群会合方法。本发明无需进行样本数据采集和处理，不需要人为参与，并且在状态空间结构相同的情况下，神经网络模型可以直接迁移到更多数量的无人机集群任务中，实现无人机集群的无中心化、自主化和自治化。本发明构建深度神经网络和强化学习实现可变规模无人机集群的指挥控制，保障在不同数量无人机集群下的控制稳定性，充分体现了无人机集群的无中心化、自主化和自治化的特点。

本发明解决其技术问题所采用的技术方案是包括以下步骤：

步骤1：训练阶段，具体步骤如下：

步骤1-1：在会合任务场景内设定一个固定区域作为无人机集群的会合区，获得区域中心点位置信息(x₀,y₀)，并随机初始化M架无人机于任务场景内，获取无人机状态信息，包括初始位置(x_i,y_i)，i＝1…M,初始速度(v_xi,v_yi),i＝1…M；

步骤1-2：建立评判无人机集群运动的深度神经网络，记为Net，具体步骤如下：

步骤1-2-1：深度神经网络Net中包含两个结构完全相同的子网络Net_Target和Net_Eval，Net_Target网络用于对状态行为的价值评估，评估的状态是下一时刻的无人机在环境中得到的状态s'；但行为的选取却并不是在Net_Target中选取的最优行为，而是将下一时刻的状态s'输入到Net_Eval，由Net_Eval选取估值最高的行为a'，并将选取的行为传递到Net_Target；因此Net_Target网络接收来自记忆回放单元的下一时刻状态信息和来自Net_Eval网络的下一时刻最优行为信息，进行价值估计并输出价值Q(s',a'；θ')；

构建两个结构相同的七层(不含输入层)深度神经网络Net_Target和Net_Eval，包括：一层输入层L_Input，六层全连接层L_full，一层输出层L_Output；

深度神经网络Net中，输入层L_Input的输入数据使用会合区域信息和无人机集群的状态信息；为了使无人机之间具有更好的行为决策，采用局部通信方式，每架无人机获取周围最近的三架无人机的状态信息，深度神经网络的输入数据包括会合区域坐标(x₀,y₀)，无人机自身的状态信息(x_i,y_i)和(v_xi,v_xi),i＝1…M，以及周围最近三个无人机的状态信息，总共2+4+3*4＝18个维度；

输出层L_Output的输出数据包含十个维度，每一个维度都代表了无人机加速度的选取概率；无人机加速度分为以无人机速度为基准的法向加速度a_⊥和切向加速度a_//，其中a_//的取值集合为(3,2,1，-1，-2)，每个值的选取概率依次对应前五个维度的输出值，a_⊥的取值集合为(2,1，-1，-2,0)，每个值的选取概率依次对应后五个维度的输出值，无人机在每个状态下分别选取a_//和a_⊥的最大选取概率对应的取值；

无人机根据基本运动学公式v_t+1＝v_t+at计算下一状态速度，变量v_t+1，v_t，a均为矢量，其中v_t+1为当前状态下无人机的合速度，v_t为下一个状态下无人机的合速度，a为当前状态下神经网络的输出加速度矢量和，t为一个状态下无人机运动时间，取t＝0.1s，从而无人机根据计算结果在下个状态执行对应动作；

步骤1-2-2：设置深度神经网络的神经元激活函数：对于全连接层L_full的深度神经网络的各个神经元内部使用Relu非线性激活函数，表达式为f(x)＝max(0,x)，对于输出层L_Output的深度神经网络的每个神经元内部使用softmax函数，表达式为

其中x_i为上一层神经网络十个维度的输出值，e为自然指数；

步骤1-2-3：初始化深度神经网络每一层的相关参数包括连接参数ω_i和偏置参数b_i；神经网络的层与层间为映射关系，表达式为a_i+1＝f(z_i+1)；其中z_i+1＝ω_i*a_i+b_i，a_i与a_i+1分别表示深度神经网络第i层与第i+1层的输出数据，f(·)为激励函数；在训练开始之前对权重参数进行初始化，偏置参数b_i全部初始化为0，而连接参数ω_i根据正态分布随机进行初始化；

步骤1-2-4：设置深度强化学习的奖惩函数(回报函数)r；由于强化学习是一种与场景交互，在试错的过程中进行主动学习的方法，需要设置回报函数，来表示无人机交互环境的结果，从而训练神经网络；无人机行为结果的评判标准为：

a、当无人机到达会合区域时，给予无人机正向回报r＝100；

b、当无人机没有到达会合区域时，观察无人机速度方向与无人机和会合区域中心点的连线的夹角β，若

则r＝d_{agent_target}-d'_{agent_target}+cos(β')-cos(β)；

c、当无人机没有到达回合区域时，若

则r＝d_{agent_target}-d'_{agent_target}+v；

其中abs为取绝对值，d_{agent_target}为当前状态下无人机与会合中心点的距离，d'_{agent_target}为下一状态下无人机与会合中心点的距离，v为当前无人机的速度大小，β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角。

步骤1-2-5：设置神经网络的记忆回放单元；构建大小为Size的样本存储空间即记忆回放单元，用来存储每次无人机与场景交互得到的状态、行为和奖惩信息。每一个单元信息表示为(s,a,r,s')，s为当前状态，a为执行动作，r为对应动作a的奖惩值，s’为执行动作a后的下一个状态；

步骤1-2-6：设定当前训练回合数M_xunlian，初始值取0；设置规定训练回合数M_guiding＝5000；

步骤1-3：对深度神经网络进行训练，训练完成后，得到最终的深度神经网络。具体步骤如下：

步骤1-3-1：获取M架无人机的位置(x_i,y_i)、速度信息(v_xi,v_yi),i＝1…M和会合区域中心点位置信息(x₀,y₀)，将它们作为神经网络Net的输入数据，根据Net_Eval网络的输出得到无人机加速度每个取值的预测概率大小，选取其中最大的一组表示为max_Q-Eval(s,a,w)，根据步骤1-2-1中运动学公式计算得到无人机下一状态速度，执行对应动作a，s为当前无人机状态，w为当前状态下Net_Eval网络的连接参数。

步骤1-3-2：无人机执行动作a后，与场景进行交互，到达下一个状态s'，根据奖惩函数r获得奖惩值；检验记忆回放单元中存储样本信息的数量，若样本信息数量等于Size，则去掉最早存入的样本信息，并将新得到的四元组信息(s,a,r,s')存储到记忆回放单元之中；若样本信息数量小于Size，则直接将新得到的样本信息存入即可；

步骤1-3-3：将状态s在Net_Eval网络的预测行为下得到的下一个状态s'代入到Net_Target神经网络中进行前馈操作并输出最大概率值max_Q-Tar(s',a',w^-)，其中a'为状态s'代入Net_Target神经网络后对应最大概率的加速度所对应的动作，w^-为Net_Target网络的权重参数；将状态s在记忆回放单元中的四元组信息对应的动作a的概率值max_Q-Eval(s,a,w)更新为r+γmax_Q-Tar(s',a',w^-)，其中γ为折扣因子；

步骤1-3-4：根据Net_Eval深度神经网络和Net_Target深度神经网络的输出构建损失函数为：

L(θ)＝E[(r+γmax_Q-Tar(s',a',w^-)-max_Q-_Eval(s,a,w))²]

其中E表示数学期望；

步骤1-3-5：应用梯度下降方法进行深度神经网络的参数更新，其中Net_Eval神经网络采用实时更新，Net_Target神经网络的参数采用周期性滑动平均的方式进行软更新，公式如下：θ_t'_arget＝k*θ_target+(1-k)*θ_eval；其中θ_target为更新前Net_Target神经网络的参数，θ_t'_arget为更新后Net_Target神经网络的参数，θ_eval为Net_Eval神经网络的参数，k为滑动因子，k∈(0,1)；

步骤1-3-6：判断训练过程是否结束：根据无人机与会合区域中心点距离判断是否所有无人机均到达会合区域，若是则一个训练回合结束，进行神经网络参数保存，当前训练回合数M_xunlian进行加一，和总规定训练回合数进行比较，当到达指定的总训练回合数时，训练结束，得到最终的深度神经网络模型，若没有到达训练总回合数，返回步骤1-3继续下一个回合训练；若没有均到达会合区域，则返回步骤1-3-1，继续当前回合的迭代训练。

步骤2：执行阶段，具体步骤如下：

步骤2-1：在无人机集群会合场景中随机初始化M架无人机；选取一个坐标位置作为会合区域的中心点；

步骤2-2：获取会合区域位置信息(x₀,y₀)和无人机集群初始的位置信息(x_i,y_i),i＝1…M和速度信息(v_xi,v_xi),i＝1…M，作为深度神经网络的输入数据输入；

步骤2-3：步骤1训练完成的深度神经网络模型Net_Eval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率，选取最大概率对应的加速度值，并根据步骤1-2-1中运动学公式计算对应的动作记为A，无人机集群执行该动作，进行判定；

步骤2-4：若无人机集群执行完动作A后到达会合区域，则无人机集群完成会合任务；否则返回步骤2-2，继续获取下一个动作进行执行判定。

本发明的有益效果在于：

1、扩展了无人机集群任务的状态空间和行为空间；

针对当前使用人工智能的方法对无人机智能体进行研究的过程中将无人机环境进行栅格化的做法，本发明构建了无人机智能体的连续环境状态，极大的扩展了无人机智能体的状态空间，同时也探索了对无人机的行为进行连续化的控制，扩展了无人机智能体的行为空间。

2、面对不完整的场景信息实用性较强；

本发明根据无人机集群执行行为与场景交互学习从而完成集群的会合任务，不需要完成的场景信息，仅仅根据无人机与环境交互得到的每步决策的回报进行优化学习，训练神经网络模型，完成会合任务。

3、构建了面向任务的无人机集群统一的决策网络；

针对当前无人机集群的研究中无人机个体数量必须确定的情况，通过构建面向任务的神经网路，使得在无人机具备统一的状态空间标准的条件下，实现对多个不同智能体的统一决策，通过此网络可以实现对多智能体的同一决策。

4、实现了决策网络对于不定数量的无人机的统一指挥控制；

本发明构建的神经网络实现了动态数量的无人机的指挥控制，保障在不同数量无人机下的指挥控制，充分体现了无人机集群的无中心化、自主化和自治化的特点。

附图说明

图1为本发明训练阶段流程图。

图2为本发明深度神经网络的结构框架图。

图3为本发明基于深度强化学习的无人机集群会合任务轨迹演示图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

一种基于深度强化学习的无人机集群会合方法，分为训练阶段和执行阶段，包括以下步骤：

步骤1：训练阶段，具体步骤如下：

步骤1-1：在会合任务场景内设定一个固定区域作为无人机集群的会合区，获得区域中心点位置信息(x₀,y₀)，并随机初始化M架无人机于任务场景内，获取无人机状态信息，包括初始位置(x_i,y_i),i＝1…M和初始速度(v_xi,v_xi),i＝1…M。本案例中场景为200*200的连续环境数据单元，并在任务场景中心设置固定大小的圆形会合区域，在场景中初始化随机分布的20架无人机，并产生每个无人机的初始速度v_i,i＝1…M，该方法中对无人机的速度大小做出限制，规定无人机的速度不会受到加速度无限制的影响，存在条件v_i∈(3,7)。

步骤1-2-1：深度神经网络Net中包含两个结构完全相同的子网络Net_Target和Net_Eval，Net_Target网络用于对状态行为的价值评估，评估的状态是下一时刻的无人机在环境中得到的状态s'；但行为的选取却并不是在Net_Target中选取的最优行为，而是将下一时刻的状态s'输入到Net_Eval，由Net_Eval选取估值最高的行为a'，并将选取的行为传递到Net_Target。因此Net_Target网络接收来自记忆回放单元的下一时刻状态信息和来自Net_Eval网络的下一时刻最优行为信息，进行价值估计并输出价值Q(s',a'；θ')。

构建两个结构相同的七层(不含输入层)深度神经网络Net_Target和Net_Eval，包括：一层输入层L_Input，六层全连接层L_full，一层输出层L_Output；这两个深度神经网络的每层网络神经元个数为[20,20,50,50,20,10,10]。

深度神经网络Net中，输入层L_Input的输入数据使用会合区域信息和无人机集群的状态信息；本发明为了使无人机之间具有更好的行为决策，采用局部通信方式，每架无人机可以获取周围最近的三架无人机的状态信息。所以深度神经网络的输入数据包括会合区域坐标(x₀,y₀)，无人机自身的状态信息(x_i,y_i)和(v_xi,v_xi),i＝1…M，以及周围最近三个无人机的状态信息，总共2+4+3*4＝18个维度。

输出层L_Output的输出数据包含十个维度，每一个维度都代表了无人机加速度的选取概率；无人机加速度分为以无人机速度为基准的法向加速度a_⊥和切向加速度a_//，其中a_//的取值集合为(3,2,1，-1，-2)，每个值的选取概率依次对应前五个维度的输出值，a_⊥的取值集合为(2,1，-1，-2,0)，每个值的选取概率依次对应后五个维度的输出值，无人机在每个状态下分别选取a_//和a_⊥的最大选取概率对应的取值。

无人机根据基本运动学公式v_t+1＝v_t+at计算下一状态速度，变量v_t+1，v_t，a均为矢量，其中v_t+1为当前状态下无人机的合速度，v_t为下一个状态下无人机的合速度，a为当前状态下神经网络的输出加速度矢量和，t为一个状态下无人机运动时间，本发明取t＝0.1s，从而无人机根据计算结果在下个状态执行对应动作；

步骤1-2-2：设置深度神经网络的神经元激活函数：对于全连接层L_full的深度神经网络的各个神经元内部使用Relu非线性激活函数，其表达式为f(x)＝max(0,x)。对于输出层L_Output的深度神经网络的每个神经元内部使用softmax函数，其表达式为

其中x_i为上一层神经网络十个维度的输出值，e为自然指数。

步骤1-2-3：初始化深度神经网络每一层的相关参数包括连接参数ω_i和偏置参数b_i。神经网络的层与层间为映射关系，表达式为a_i+1＝f(z_i+1)；其中z_i+1＝ω_i*a_i+b_i，a_i与a_i+1分别表示深度神经网络第i层与第i+1层的输出数据，f(·)为激励函数；在训练开始之前对权重参数进行初始化，偏置参数b_i全部初始化为0，而连接参数ω_i根据正态分布随机进行初始化。

步骤1-2-4：设置深度强化学习的奖惩函数(回报函数)r。由于强化学习是一种与场景交互，在试错的过程中进行主动学习的方法，所以需要设置回报函数，来表示无人机交互环境的结果，从而训练神经网络。本发明无人机行为结果的评判标准为：

a、当无人机到达会合区域时，给予无人机正向回报r＝100；

则r＝d_{agent_target}-d'_{agent_target}+cos(β')-cos(β)；

c、当无人机没有到达回合区域时，若

则r＝d_{agent_target}-d'_{agent_target}+v；

其中d_{agent_target}为当前状态下无人机与会合中心点的距离，d'_{agent_target}为下一状态下无人机与会合中心点的距离，v为当前无人机的速度大小，β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角。

步骤1-2-5：设置神经网络的记忆回放单元；构建大小为Size＝5000的样本存储空间即记忆回放单元，用来存储每次无人机与场景交互得到的状态、行为和奖惩信息。每一个单元信息表示为(s,a,r,s')，s为当前状态，a为执行动作，r为对应动作a的奖惩值，s’为执行动作a后的下一个状态。

步骤1-3-2：无人机执行动作a后，与场景进行交互，到达下一个状态s‘，根据奖惩函数r获得奖惩值。检验记忆回放单元中存储样本信息的数量，若样本信息数量等于Size，则去掉最早存入的样本信息，并将新得到的四元组信息(s,a,r,s')存储到记忆回放单元之中；若样本数量小于Size，则直接将新得到的样本信息存入即可。

步骤1-3-3：将状态s在Net_Eval网络的预测行为下得到的下一个状态s’代入到Net_Target神经网络中进行前馈操作并输出最大概率值max_Q-Tar(s',a',w^-)，其中a'为状态s'代入Net_Target神经网络后对应最大概率的加速度所对应的动作，w^-为Net_Target网络的权重参数；将状态s在记忆回放单元中的四元组信息对应的动作a的概率值max_Q-Eval(s,a,w)更新为r+γmax_Q-Tar(s',a',w^-)，其中γ为折扣因子，案例中取值0.85。

L(θ)＝E[(r+γmax_Q-Tar(s',a',w^-)-max_Q-Eval(s,a,w))²]，其中E表示数学期望。

步骤1-3-5：应用梯度下降方法进行深度神经网络的参数更新，其中Net_Eval神经网络采用实时更新，Net_Target神经网络的参数采用周期性滑动平均的方式进行软更新，式子如下：θ_target＝k*θ_target+(1-k)*θ_eval。其中θ_target为Net_Target神经网络的参数，θ_eval为Net_Eval神经网络的参数，k为滑动因子，k∈(0,1)，案例中k＝0.85。

步骤1-3-6：判断训练过程是否结束：判断是否所有无人机均到达会合区域，若是则一个训练回合结束，进行神经网络参数保存，当前训练回合数M_xunlian进行加一，和总规定训练回合数进行比较，当到达指定的总训练回合数时，训练结束，得到最终的深度神经网络模型，若没有到达训练总回合数，返回步骤1-3继续下一个回合训练；若没有均到达会合区域，则返回步骤1-3-1，继续本回合的迭代训练。

步骤2：执行阶段，具体步骤如下：

步骤2-1：在无人机集群会合场景中随机初始化M＝20架无人机；选取一个坐标位置作为会合区域的中心点。

步骤2-2：获取会合区域位置信息(x₀,y₀)和无人机集群初始的位置信息(x_i,y_i),i＝1…M和速度信息(v_xi,v_xi),i＝1…M，作为深度神经网络的输入数据输入。

步骤2-3：步骤1训练完成的深度神经网络模型Net_Eval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率，选取最大概率对应的加速度值并根据步骤1-2-1中运动学公式计算对应的动作记为A，无人机集群执行该动作，进行判定。

Claims

1.一种基于深度强化学习的无人机集群会合方法，其特征在于包括下述步骤：

步骤1：训练阶段，具体步骤如下：

构建两个结构相同的深度神经网络Net_Target和Net_Eval，包括：一层输入层L_Input，六层全连接层L_full，一层输出层L_Output；

深度神经网络Net中，输入层L_Input的输入数据使用会合区域信息和无人机集群的状态信息；采用局部通信方式，每架无人机获取周围最近的三架无人机的状态信息，深度神经网络的输入数据包括会合区域坐标(x₀,y₀)，无人机自身的状态信息(x_i,y_i)和(v_xi,v_xi),i＝1…M，以及周围最近三个无人机的状态信息，总共2+4+3*4＝18个维度；

无人机根据基本运动学公式v_t+1＝v_t+at计算下一状态速度，变量v_t+1，v_t，a均为矢量，其中v_t+1为当前状态下无人机的合速度，v_t为下一个状态下无人机的合速度，a为当前状态下神经网络的输出加速度矢量和，t为一个状态下无人机运动时间，从而无人机根据计算结果在下个状态执行对应动作；

k＝10，其中x_i为上一层神经网络十个维度的输出值，e为自然指数；

步骤1-2-4：设置深度强化学习的奖惩函数r；

无人机行为结果的评判标准为：

a、当无人机到达会合区域时，给予无人机正向回报r＝100；

则r＝d_{agent_target}-d'_{agent_target}+cos(β')-cos(β)；

c、当无人机没有到达回合区域时，若

则r＝d_{agent_target}-d'_{agent_target}+v；

其中abs为取绝对值，d_{agent_target}为当前状态下无人机与会合中心点的距离，d'_{agent_target}为下一状态下无人机与会合中心点的距离，v为当前无人机的速度大小，β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角；

步骤1-2-5：设置神经网络的记忆回放单元；构建大小为Size的样本存储空间即记忆回放单元，用来存储每次无人机与场景交互得到的状态、行为和奖惩信息，每一个单元信息表示为(s,a,r,s')，s为当前状态，a为执行动作，r为对应动作a的奖惩值，s’为执行动作a后的下一个状态；

步骤1-2-6：设定当前训练回合数M_xunlian，初始值取0；

步骤1-3：对深度神经网络进行训练，训练完成后，得到最终的深度神经网络；具体步骤如下：

步骤1-3-1：获取M架无人机的位置(x_i,y_i)、速度信息(v_xi,v_yi),i＝1…M和会合区域中心点位置信息(x₀,y₀)，将它们作为神经网络Net的输入数据，根据Net_Eval网络的输出得到无人机加速度每个取值的预测概率大小，选取其中最大的一组表示为max_Q-Eval(s,a,w)，根据步骤1-2-1中运动学公式计算得到无人机下一状态速度，执行对应动作a，s为当前无人机状态，w为当前状态下Net_Eval网络的连接参数；

L(θ)＝E[(r+γmax_Q-Tar(s',a',w^-)-max_Q-Eval(s,a,w))²]

其中E表示数学期望；

步骤1-3-5：应用梯度下降方法进行深度神经网络的参数更新，其中Net_Eval神经网络采用实时更新，Net_Target神经网络的参数采用周期性滑动平均的方式进行软更新，公式如下：θ′_target＝k*θ_target+(1-k)*θ_eval；

其中θ_target为更新前Net_Target神经网络的参数，θ′_target为更新后Net_Target神经网络的参数，θ_eval为Net_Eval神经网络的参数，k为滑动因子，k∈(0,1)；

步骤1-3-6：判断训练过程是否结束：根据无人机与会合区域中心点距离判断是否所有无人机均到达会合区域，若是则一个训练回合结束，进行神经网络参数保存，当前训练回合数M_xunlian进行加一，和总规定训练回合数进行比较，当到达指定的总训练回合数时，训练结束，得到最终的深度神经网络模型，若没有到达训练总回合数，返回步骤1-3继续下一个回合训练；若没有均到达会合区域，则返回步骤1-3-1，继续当前回合的迭代训练；

步骤2：执行阶段，具体步骤如下：