CN111240356A - 一种基于深度强化学习的无人机集群会合方法 - Google Patents

一种基于深度强化学习的无人机集群会合方法 Download PDF

Info

Publication number
CN111240356A
CN111240356A CN202010034427.9A CN202010034427A CN111240356A CN 111240356 A CN111240356 A CN 111240356A CN 202010034427 A CN202010034427 A CN 202010034427A CN 111240356 A CN111240356 A CN 111240356A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
neural network
net
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010034427.9A
Other languages
English (en)
Other versions
CN111240356B (zh
Inventor
张耀中
许佳林
姚康佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010034427.9A priority Critical patent/CN111240356B/zh
Publication of CN111240356A publication Critical patent/CN111240356A/zh
Application granted granted Critical
Publication of CN111240356B publication Critical patent/CN111240356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于深度强化学习的无人机集群会合方法。训练阶段,在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息,建立评判无人机集群运动的深度神经网络,对深度神经网络进行训练,训练完成后,得到最终的深度神经网络;执行阶段,输入数据输入训练后的深度神经网络,进行判定。本发明扩展了无人机集群任务的状态空间和行为空间,面对不完整的场景信息实用性较强,构建了面向任务的无人机集群统一的决策网络,实现了决策网络对于不定数量的无人机的统一指挥控制。

Description

一种基于深度强化学习的无人机集群会合方法
技术领域
本发明涉及机器学习、路径规划领域,尤其是一种无人机集群会合方法。
背景技术
为了实现无人机集群对某一目标区域实行精确打击或者对完成某个区域的侦查搜索任务,提高完成任务的成功率,往往需要多无人机从不同方向飞向某一目标区域完成会合任务。传统解决无人机集群会合任务多使用基本一致性算法和基于过去状态差值的一致性算法,这些算法系统收敛速度慢,任务完成时间比较长,有效性和可行性较低。
当前使用人工智能方法对无人机的行为控制方向的研究主要停留在对单个无人机个体的研究与应用上,针对无人机集群方向的研究较少。当前研究下无人机集群的结构较为固定,灵活性不足,对于集群的规模变化的应对能力不足,未达到无人机集群的自治化要求。使用人工智能进行无人机集群任务规划的研究,任务层级仍然处在比较浅层的阶段。从国内实现的无人机集群的协同任务成果来看,我国的无人机集群较多研究无人机集群协同执行任务时如何有效的防碰撞,而关于无人机载荷,及其执行的更高层级的任务,诸如:协同探测、协同攻击、协同防御等任务层级的相关研究仍比较少。目前来看,我国的无人机集群研究仍然处在比较初级的阶段。
发明内容
为了克服现有技术的不足,本发明提供一种基于深度强化学习的无人机集群会合方法。本发明无需进行样本数据采集和处理,不需要人为参与,并且在状态空间结构相同的情况下,神经网络模型可以直接迁移到更多数量的无人机集群任务中,实现无人机集群的无中心化、自主化和自治化。本发明构建深度神经网络和强化学习实现可变规模无人机集群的指挥控制,保障在不同数量无人机集群下的控制稳定性,充分体现了无人机集群的无中心化、自主化和自治化的特点。
本发明解决其技术问题所采用的技术方案是包括以下步骤:
步骤1:训练阶段,具体步骤如下:
步骤1-1:在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息(x0,y0),并随机初始化M架无人机于任务场景内,获取无人机状态信息,包括初始位置(xi,yi),i=1…M,初始速度(vxi,vyi),i=1…M;
步骤1-2:建立评判无人机集群运动的深度神经网络,记为Net,具体步骤如下:
步骤1-2-1:深度神经网络Net中包含两个结构完全相同的子网络NetTarget和NetEval,NetTarget网络用于对状态行为的价值评估,评估的状态是下一时刻的无人机在环境中得到的状态s';但行为的选取却并不是在NetTarget中选取的最优行为,而是将下一时刻的状态s'输入到NetEval,由NetEval选取估值最高的行为a',并将选取的行为传递到NetTarget;因此NetTarget网络接收来自记忆回放单元的下一时刻状态信息和来自NetEval网络的下一时刻最优行为信息,进行价值估计并输出价值Q(s',a';θ');
构建两个结构相同的七层(不含输入层)深度神经网络NetTarget和NetEval,包括:一层输入层LInput,六层全连接层Lfull,一层输出层LOutput
深度神经网络Net中,输入层LInput的输入数据使用会合区域信息和无人机集群的状态信息;为了使无人机之间具有更好的行为决策,采用局部通信方式,每架无人机获取周围最近的三架无人机的状态信息,深度神经网络的输入数据包括会合区域坐标(x0,y0),无人机自身的状态信息(xi,yi)和(vxi,vxi),i=1…M,以及周围最近三个无人机的状态信息,总共2+4+3*4=18个维度;
输出层LOutput的输出数据包含十个维度,每一个维度都代表了无人机加速度的选取概率;无人机加速度分为以无人机速度为基准的法向加速度a和切向加速度a//,其中a//的取值集合为(3,2,1,-1,-2),每个值的选取概率依次对应前五个维度的输出值,a的取值集合为(2,1,-1,-2,0),每个值的选取概率依次对应后五个维度的输出值,无人机在每个状态下分别选取a//和a的最大选取概率对应的取值;
无人机根据基本运动学公式vt+1=vt+at计算下一状态速度,变量vt+1,vt,a均为矢量,其中vt+1为当前状态下无人机的合速度,vt为下一个状态下无人机的合速度,a为当前状态下神经网络的输出加速度矢量和,t为一个状态下无人机运动时间,取t=0.1s,从而无人机根据计算结果在下个状态执行对应动作;
步骤1-2-2:设置深度神经网络的神经元激活函数:对于全连接层Lfull的深度神经网络的各个神经元内部使用Relu非线性激活函数,表达式为f(x)=max(0,x),对于输出层LOutput的深度神经网络的每个神经元内部使用softmax函数,表达式为
Figure BDA0002365438050000031
其中xi为上一层神经网络十个维度的输出值,e为自然指数;
步骤1-2-3:初始化深度神经网络每一层的相关参数包括连接参数ωi和偏置参数bi;神经网络的层与层间为映射关系,表达式为ai+1=f(zi+1);其中zi+1=ωi*ai+bi,ai与ai+1分别表示深度神经网络第i层与第i+1层的输出数据,f(·)为激励函数;在训练开始之前对权重参数进行初始化,偏置参数bi全部初始化为0,而连接参数ωi根据正态分布随机进行初始化;
步骤1-2-4:设置深度强化学习的奖惩函数(回报函数)r;由于强化学习是一种与场景交互,在试错的过程中进行主动学习的方法,需要设置回报函数,来表示无人机交互环境的结果,从而训练神经网络;无人机行为结果的评判标准为:
a、当无人机到达会合区域时,给予无人机正向回报r=100;
b、当无人机没有到达会合区域时,观察无人机速度方向与无人机和会合区域中心点的连线的夹角β,若
Figure BDA0002365438050000032
则r=dagent_target-d'agent_target+cos(β')-cos(β);
c、当无人机没有到达回合区域时,若
Figure BDA0002365438050000033
则r=dagent_target-d'agent_target+v;
其中abs为取绝对值,dagent_target为当前状态下无人机与会合中心点的距离,d'agent_target为下一状态下无人机与会合中心点的距离,v为当前无人机的速度大小,β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角。
步骤1-2-5:设置神经网络的记忆回放单元;构建大小为Size的样本存储空间即记忆回放单元,用来存储每次无人机与场景交互得到的状态、行为和奖惩信息。每一个单元信息表示为(s,a,r,s'),s为当前状态,a为执行动作,r为对应动作a的奖惩值,s’为执行动作a后的下一个状态;
步骤1-2-6:设定当前训练回合数Mxunlian,初始值取0;设置规定训练回合数Mguiding=5000;
步骤1-3:对深度神经网络进行训练,训练完成后,得到最终的深度神经网络。具体步骤如下:
步骤1-3-1:获取M架无人机的位置(xi,yi)、速度信息(vxi,vyi),i=1…M和会合区域中心点位置信息(x0,y0),将它们作为神经网络Net的输入数据,根据NetEval网络的输出得到无人机加速度每个取值的预测概率大小,选取其中最大的一组表示为maxQ-Eval(s,a,w),根据步骤1-2-1中运动学公式计算得到无人机下一状态速度,执行对应动作a,s为当前无人机状态,w为当前状态下NetEval网络的连接参数。
步骤1-3-2:无人机执行动作a后,与场景进行交互,到达下一个状态s',根据奖惩函数r获得奖惩值;检验记忆回放单元中存储样本信息的数量,若样本信息数量等于Size,则去掉最早存入的样本信息,并将新得到的四元组信息(s,a,r,s')存储到记忆回放单元之中;若样本信息数量小于Size,则直接将新得到的样本信息存入即可;
步骤1-3-3:将状态s在NetEval网络的预测行为下得到的下一个状态s'代入到NetTarget神经网络中进行前馈操作并输出最大概率值maxQ-Tar(s',a',w-),其中a'为状态s'代入NetTarget神经网络后对应最大概率的加速度所对应的动作,w-为NetTarget网络的权重参数;将状态s在记忆回放单元中的四元组信息对应的动作a的概率值maxQ-Eval(s,a,w)更新为r+γmaxQ-Tar(s',a',w-),其中γ为折扣因子;
步骤1-3-4:根据NetEval深度神经网络和NetTarget深度神经网络的输出构建损失函数为:
L(θ)=E[(r+γmaxQ-Tar(s',a',w-)-maxQ-Eval(s,a,w))2]
其中E表示数学期望;
步骤1-3-5:应用梯度下降方法进行深度神经网络的参数更新,其中NetEval神经网络采用实时更新,NetTarget神经网络的参数采用周期性滑动平均的方式进行软更新,公式如下:θt'arget=k*θtarget+(1-k)*θeval;其中θtarget为更新前NetTarget神经网络的参数,θt'arget为更新后NetTarget神经网络的参数,θeval为NetEval神经网络的参数,k为滑动因子,k∈(0,1);
步骤1-3-6:判断训练过程是否结束:根据无人机与会合区域中心点距离判断是否所有无人机均到达会合区域,若是则一个训练回合结束,进行神经网络参数保存,当前训练回合数Mxunlian进行加一,和总规定训练回合数进行比较,当到达指定的总训练回合数时,训练结束,得到最终的深度神经网络模型,若没有到达训练总回合数,返回步骤1-3继续下一个回合训练;若没有均到达会合区域,则返回步骤1-3-1,继续当前回合的迭代训练。
步骤2:执行阶段,具体步骤如下:
步骤2-1:在无人机集群会合场景中随机初始化M架无人机;选取一个坐标位置作为会合区域的中心点;
步骤2-2:获取会合区域位置信息(x0,y0)和无人机集群初始的位置信息(xi,yi),i=1…M和速度信息(vxi,vxi),i=1…M,作为深度神经网络的输入数据输入;
步骤2-3:步骤1训练完成的深度神经网络模型NetEval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率,选取最大概率对应的加速度值,并根据步骤1-2-1中运动学公式计算对应的动作记为A,无人机集群执行该动作,进行判定;
步骤2-4:若无人机集群执行完动作A后到达会合区域,则无人机集群完成会合任务;否则返回步骤2-2,继续获取下一个动作进行执行判定。
本发明的有益效果在于:
1、扩展了无人机集群任务的状态空间和行为空间;
针对当前使用人工智能的方法对无人机智能体进行研究的过程中将无人机环境进行栅格化的做法,本发明构建了无人机智能体的连续环境状态,极大的扩展了无人机智能体的状态空间,同时也探索了对无人机的行为进行连续化的控制,扩展了无人机智能体的行为空间。
2、面对不完整的场景信息实用性较强;
本发明根据无人机集群执行行为与场景交互学习从而完成集群的会合任务,不需要完成的场景信息,仅仅根据无人机与环境交互得到的每步决策的回报进行优化学习,训练神经网络模型,完成会合任务。
3、构建了面向任务的无人机集群统一的决策网络;
针对当前无人机集群的研究中无人机个体数量必须确定的情况,通过构建面向任务的神经网路,使得在无人机具备统一的状态空间标准的条件下,实现对多个不同智能体的统一决策,通过此网络可以实现对多智能体的同一决策。
4、实现了决策网络对于不定数量的无人机的统一指挥控制;
本发明构建的神经网络实现了动态数量的无人机的指挥控制,保障在不同数量无人机下的指挥控制,充分体现了无人机集群的无中心化、自主化和自治化的特点。
附图说明
图1为本发明训练阶段流程图。
图2为本发明深度神经网络的结构框架图。
图3为本发明基于深度强化学习的无人机集群会合任务轨迹演示图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种基于深度强化学习的无人机集群会合方法,分为训练阶段和执行阶段,包括以下步骤:
步骤1:训练阶段,具体步骤如下:
步骤1-1:在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息(x0,y0),并随机初始化M架无人机于任务场景内,获取无人机状态信息,包括初始位置(xi,yi),i=1…M和初始速度(vxi,vxi),i=1…M。本案例中场景为200*200的连续环境数据单元,并在任务场景中心设置固定大小的圆形会合区域,在场景中初始化随机分布的20架无人机,并产生每个无人机的初始速度vi,i=1…M,该方法中对无人机的速度大小做出限制,规定无人机的速度不会受到加速度无限制的影响,存在条件vi∈(3,7)。
步骤1-2:建立评判无人机集群运动的深度神经网络,记为Net,具体步骤如下:
步骤1-2-1:深度神经网络Net中包含两个结构完全相同的子网络NetTarget和NetEval,NetTarget网络用于对状态行为的价值评估,评估的状态是下一时刻的无人机在环境中得到的状态s';但行为的选取却并不是在NetTarget中选取的最优行为,而是将下一时刻的状态s'输入到NetEval,由NetEval选取估值最高的行为a',并将选取的行为传递到NetTarget。因此NetTarget网络接收来自记忆回放单元的下一时刻状态信息和来自NetEval网络的下一时刻最优行为信息,进行价值估计并输出价值Q(s',a';θ')。
构建两个结构相同的七层(不含输入层)深度神经网络NetTarget和NetEval,包括:一层输入层LInput,六层全连接层Lfull,一层输出层LOutput;这两个深度神经网络的每层网络神经元个数为[20,20,50,50,20,10,10]。
深度神经网络Net中,输入层LInput的输入数据使用会合区域信息和无人机集群的状态信息;本发明为了使无人机之间具有更好的行为决策,采用局部通信方式,每架无人机可以获取周围最近的三架无人机的状态信息。所以深度神经网络的输入数据包括会合区域坐标(x0,y0),无人机自身的状态信息(xi,yi)和(vxi,vxi),i=1…M,以及周围最近三个无人机的状态信息,总共2+4+3*4=18个维度。
输出层LOutput的输出数据包含十个维度,每一个维度都代表了无人机加速度的选取概率;无人机加速度分为以无人机速度为基准的法向加速度a和切向加速度a//,其中a//的取值集合为(3,2,1,-1,-2),每个值的选取概率依次对应前五个维度的输出值,a的取值集合为(2,1,-1,-2,0),每个值的选取概率依次对应后五个维度的输出值,无人机在每个状态下分别选取a//和a的最大选取概率对应的取值。
无人机根据基本运动学公式vt+1=vt+at计算下一状态速度,变量vt+1,vt,a均为矢量,其中vt+1为当前状态下无人机的合速度,vt为下一个状态下无人机的合速度,a为当前状态下神经网络的输出加速度矢量和,t为一个状态下无人机运动时间,本发明取t=0.1s,从而无人机根据计算结果在下个状态执行对应动作;
步骤1-2-2:设置深度神经网络的神经元激活函数:对于全连接层Lfull的深度神经网络的各个神经元内部使用Relu非线性激活函数,其表达式为f(x)=max(0,x)。对于输出层LOutput的深度神经网络的每个神经元内部使用softmax函数,其表达式为
Figure BDA0002365438050000071
其中xi为上一层神经网络十个维度的输出值,e为自然指数。
步骤1-2-3:初始化深度神经网络每一层的相关参数包括连接参数ωi和偏置参数bi。神经网络的层与层间为映射关系,表达式为ai+1=f(zi+1);其中zi+1=ωi*ai+bi,ai与ai+1分别表示深度神经网络第i层与第i+1层的输出数据,f(·)为激励函数;在训练开始之前对权重参数进行初始化,偏置参数bi全部初始化为0,而连接参数ωi根据正态分布随机进行初始化。
步骤1-2-4:设置深度强化学习的奖惩函数(回报函数)r。由于强化学习是一种与场景交互,在试错的过程中进行主动学习的方法,所以需要设置回报函数,来表示无人机交互环境的结果,从而训练神经网络。本发明无人机行为结果的评判标准为:
a、当无人机到达会合区域时,给予无人机正向回报r=100;
b、当无人机没有到达会合区域时,观察无人机速度方向与无人机和会合区域中心点的连线的夹角β,若
Figure BDA0002365438050000081
则r=dagent_target-d'agent_target+cos(β')-cos(β);
c、当无人机没有到达回合区域时,若
Figure BDA0002365438050000082
则r=dagent_target-d'agent_target+v;
其中dagent_target为当前状态下无人机与会合中心点的距离,d'agent_target为下一状态下无人机与会合中心点的距离,v为当前无人机的速度大小,β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角。
步骤1-2-5:设置神经网络的记忆回放单元;构建大小为Size=5000的样本存储空间即记忆回放单元,用来存储每次无人机与场景交互得到的状态、行为和奖惩信息。每一个单元信息表示为(s,a,r,s'),s为当前状态,a为执行动作,r为对应动作a的奖惩值,s’为执行动作a后的下一个状态。
步骤1-2-6:设定当前训练回合数Mxunlian,初始值取0;设置规定训练回合数Mguiding=5000;
步骤1-3:对深度神经网络进行训练,训练完成后,得到最终的深度神经网络。具体步骤如下:
步骤1-3-1:获取M架无人机的位置(xi,yi)、速度信息(vxi,vyi),i=1…M和会合区域中心点位置信息(x0,y0),将它们作为神经网络Net的输入数据,根据NetEval网络的输出得到无人机加速度每个取值的预测概率大小,选取其中最大的一组表示为maxQ-Eval(s,a,w),根据步骤1-2-1中运动学公式计算得到无人机下一状态速度,执行对应动作a,s为当前无人机状态,w为当前状态下NetEval网络的连接参数。
步骤1-3-2:无人机执行动作a后,与场景进行交互,到达下一个状态s‘,根据奖惩函数r获得奖惩值。检验记忆回放单元中存储样本信息的数量,若样本信息数量等于Size,则去掉最早存入的样本信息,并将新得到的四元组信息(s,a,r,s')存储到记忆回放单元之中;若样本数量小于Size,则直接将新得到的样本信息存入即可。
步骤1-3-3:将状态s在NetEval网络的预测行为下得到的下一个状态s’代入到NetTarget神经网络中进行前馈操作并输出最大概率值maxQ-Tar(s',a',w-),其中a'为状态s'代入NetTarget神经网络后对应最大概率的加速度所对应的动作,w-为NetTarget网络的权重参数;将状态s在记忆回放单元中的四元组信息对应的动作a的概率值maxQ-Eval(s,a,w)更新为r+γmaxQ-Tar(s',a',w-),其中γ为折扣因子,案例中取值0.85。
步骤1-3-4:根据NetEval深度神经网络和NetTarget深度神经网络的输出构建损失函数为:
L(θ)=E[(r+γmaxQ-Tar(s',a',w-)-maxQ-Eval(s,a,w))2],其中E表示数学期望。
步骤1-3-5:应用梯度下降方法进行深度神经网络的参数更新,其中NetEval神经网络采用实时更新,NetTarget神经网络的参数采用周期性滑动平均的方式进行软更新,式子如下:θtarget=k*θtarget+(1-k)*θeval。其中θtarget为NetTarget神经网络的参数,θeval为NetEval神经网络的参数,k为滑动因子,k∈(0,1),案例中k=0.85。
步骤1-3-6:判断训练过程是否结束:判断是否所有无人机均到达会合区域,若是则一个训练回合结束,进行神经网络参数保存,当前训练回合数Mxunlian进行加一,和总规定训练回合数进行比较,当到达指定的总训练回合数时,训练结束,得到最终的深度神经网络模型,若没有到达训练总回合数,返回步骤1-3继续下一个回合训练;若没有均到达会合区域,则返回步骤1-3-1,继续本回合的迭代训练。
步骤2:执行阶段,具体步骤如下:
步骤2-1:在无人机集群会合场景中随机初始化M=20架无人机;选取一个坐标位置作为会合区域的中心点。
步骤2-2:获取会合区域位置信息(x0,y0)和无人机集群初始的位置信息(xi,yi),i=1…M和速度信息(vxi,vxi),i=1…M,作为深度神经网络的输入数据输入。
步骤2-3:步骤1训练完成的深度神经网络模型NetEval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率,选取最大概率对应的加速度值并根据步骤1-2-1中运动学公式计算对应的动作记为A,无人机集群执行该动作,进行判定。
步骤2-4:若无人机集群执行完动作A后到达会合区域,则无人机集群完成会合任务;否则返回步骤2-2,继续获取下一个动作进行执行判定。

Claims (1)

1.一种基于深度强化学习的无人机集群会合方法,其特征在于包括下述步骤:
步骤1:训练阶段,具体步骤如下:
步骤1-1:在会合任务场景内设定一个固定区域作为无人机集群的会合区,获得区域中心点位置信息(x0,y0),并随机初始化M架无人机于任务场景内,获取无人机状态信息,包括初始位置(xi,yi),i=1…M,初始速度(vxi,vyi),i=1…M;
步骤1-2:建立评判无人机集群运动的深度神经网络,记为Net,具体步骤如下:
步骤1-2-1:深度神经网络Net中包含两个结构完全相同的子网络NetTarget和NetEval,NetTarget网络用于对状态行为的价值评估,评估的状态是下一时刻的无人机在环境中得到的状态s';但行为的选取却并不是在NetTarget中选取的最优行为,而是将下一时刻的状态s'输入到NetEval,由NetEval选取估值最高的行为a',并将选取的行为传递到NetTarget;因此NetTarget网络接收来自记忆回放单元的下一时刻状态信息和来自NetEval网络的下一时刻最优行为信息,进行价值估计并输出价值Q(s',a';θ');
构建两个结构相同的深度神经网络NetTarget和NetEval,包括:一层输入层LInput,六层全连接层Lfull,一层输出层LOutput
深度神经网络Net中,输入层LInput的输入数据使用会合区域信息和无人机集群的状态信息;采用局部通信方式,每架无人机获取周围最近的三架无人机的状态信息,深度神经网络的输入数据包括会合区域坐标(x0,y0),无人机自身的状态信息(xi,yi)和(vxi,vxi),i=1…M,以及周围最近三个无人机的状态信息,总共2+4+3*4=18个维度;
输出层LOutput的输出数据包含十个维度,每一个维度都代表了无人机加速度的选取概率;无人机加速度分为以无人机速度为基准的法向加速度a和切向加速度a//,其中a//的取值集合为(3,2,1,-1,-2),每个值的选取概率依次对应前五个维度的输出值,a的取值集合为(2,1,-1,-2,0),每个值的选取概率依次对应后五个维度的输出值,无人机在每个状态下分别选取a//和a的最大选取概率对应的取值;
无人机根据基本运动学公式vt+1=vt+at计算下一状态速度,变量vt+1,vt,a均为矢量,其中vt+1为当前状态下无人机的合速度,vt为下一个状态下无人机的合速度,a为当前状态下神经网络的输出加速度矢量和,t为一个状态下无人机运动时间,从而无人机根据计算结果在下个状态执行对应动作;
步骤1-2-2:设置深度神经网络的神经元激活函数:对于全连接层Lfull的深度神经网络的各个神经元内部使用Relu非线性激活函数,表达式为f(x)=max(0,x),对于输出层LOutput的深度神经网络的每个神经元内部使用softmax函数,表达式为
Figure FDA0002365438040000021
k=10,其中xi为上一层神经网络十个维度的输出值,e为自然指数;
步骤1-2-3:初始化深度神经网络每一层的相关参数包括连接参数ωi和偏置参数bi;神经网络的层与层间为映射关系,表达式为ai+1=f(zi+1);其中zi+1=ωi*ai+bi,ai与ai+1分别表示深度神经网络第i层与第i+1层的输出数据,f(·)为激励函数;在训练开始之前对权重参数进行初始化,偏置参数bi全部初始化为0,而连接参数ωi根据正态分布随机进行初始化;
步骤1-2-4:设置深度强化学习的奖惩函数r;
无人机行为结果的评判标准为:
a、当无人机到达会合区域时,给予无人机正向回报r=100;
b、当无人机没有到达会合区域时,观察无人机速度方向与无人机和会合区域中心点的连线的夹角β,若
Figure FDA0002365438040000022
则r=dagent_target-d'agent_target+cos(β')-cos(β);
c、当无人机没有到达回合区域时,若
Figure FDA0002365438040000023
则r=dagent_target-d'agent_target+v;
其中abs为取绝对值,dagent_target为当前状态下无人机与会合中心点的距离,d'agent_target为下一状态下无人机与会合中心点的距离,v为当前无人机的速度大小,β'为下一时刻状态无人机速度方向和无人机与敌方目标连线的夹角;
步骤1-2-5:设置神经网络的记忆回放单元;构建大小为Size的样本存储空间即记忆回放单元,用来存储每次无人机与场景交互得到的状态、行为和奖惩信息,每一个单元信息表示为(s,a,r,s'),s为当前状态,a为执行动作,r为对应动作a的奖惩值,s’为执行动作a后的下一个状态;
步骤1-2-6:设定当前训练回合数Mxunlian,初始值取0;
步骤1-3:对深度神经网络进行训练,训练完成后,得到最终的深度神经网络;具体步骤如下:
步骤1-3-1:获取M架无人机的位置(xi,yi)、速度信息(vxi,vyi),i=1…M和会合区域中心点位置信息(x0,y0),将它们作为神经网络Net的输入数据,根据NetEval网络的输出得到无人机加速度每个取值的预测概率大小,选取其中最大的一组表示为maxQ-Eval(s,a,w),根据步骤1-2-1中运动学公式计算得到无人机下一状态速度,执行对应动作a,s为当前无人机状态,w为当前状态下NetEval网络的连接参数;
步骤1-3-2:无人机执行动作a后,与场景进行交互,到达下一个状态s',根据奖惩函数r获得奖惩值;检验记忆回放单元中存储样本信息的数量,若样本信息数量等于Size,则去掉最早存入的样本信息,并将新得到的四元组信息(s,a,r,s')存储到记忆回放单元之中;若样本信息数量小于Size,则直接将新得到的样本信息存入即可;
步骤1-3-3:将状态s在NetEval网络的预测行为下得到的下一个状态s'代入到NetTarget神经网络中进行前馈操作并输出最大概率值maxQ-Tar(s',a',w-),其中a'为状态s'代入NetTarget神经网络后对应最大概率的加速度所对应的动作,w-为NetTarget网络的权重参数;将状态s在记忆回放单元中的四元组信息对应的动作a的概率值maxQ-Eval(s,a,w)更新为r+γmaxQ-Tar(s',a',w-),其中γ为折扣因子;
步骤1-3-4:根据NetEval深度神经网络和NetTarget深度神经网络的输出构建损失函数为:
L(θ)=E[(r+γmaxQ-Tar(s',a',w-)-maxQ-Eval(s,a,w))2]
其中E表示数学期望;
步骤1-3-5:应用梯度下降方法进行深度神经网络的参数更新,其中NetEval神经网络采用实时更新,NetTarget神经网络的参数采用周期性滑动平均的方式进行软更新,公式如下:θ′target=k*θtarget+(1-k)*θeval
其中θtarget为更新前NetTarget神经网络的参数,θ′target为更新后NetTarget神经网络的参数,θeval为NetEval神经网络的参数,k为滑动因子,k∈(0,1);
步骤1-3-6:判断训练过程是否结束:根据无人机与会合区域中心点距离判断是否所有无人机均到达会合区域,若是则一个训练回合结束,进行神经网络参数保存,当前训练回合数Mxunlian进行加一,和总规定训练回合数进行比较,当到达指定的总训练回合数时,训练结束,得到最终的深度神经网络模型,若没有到达训练总回合数,返回步骤1-3继续下一个回合训练;若没有均到达会合区域,则返回步骤1-3-1,继续当前回合的迭代训练;
步骤2:执行阶段,具体步骤如下:
步骤2-1:在无人机集群会合场景中随机初始化M架无人机;选取一个坐标位置作为会合区域的中心点;
步骤2-2:获取会合区域位置信息(x0,y0)和无人机集群初始的位置信息(xi,yi),i=1…M和速度信息(vxi,vxi),i=1…M,作为深度神经网络的输入数据输入;
步骤2-3:步骤1训练完成的深度神经网络模型NetEval根据初始输入数据进行计算输出无人机集群下个状态加速度的选取概率,选取最大概率对应的加速度值,并根据步骤1-2-1中运动学公式计算对应的动作记为A,无人机集群执行该动作,进行判定;
步骤2-4:若无人机集群执行完动作A后到达会合区域,则无人机集群完成会合任务;否则返回步骤2-2,继续获取下一个动作进行执行判定。
CN202010034427.9A 2020-01-14 2020-01-14 一种基于深度强化学习的无人机集群会合方法 Active CN111240356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034427.9A CN111240356B (zh) 2020-01-14 2020-01-14 一种基于深度强化学习的无人机集群会合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034427.9A CN111240356B (zh) 2020-01-14 2020-01-14 一种基于深度强化学习的无人机集群会合方法

Publications (2)

Publication Number Publication Date
CN111240356A true CN111240356A (zh) 2020-06-05
CN111240356B CN111240356B (zh) 2022-09-02

Family

ID=70880860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034427.9A Active CN111240356B (zh) 2020-01-14 2020-01-14 一种基于深度强化学习的无人机集群会合方法

Country Status (1)

Country Link
CN (1) CN111240356B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112348381A (zh) * 2020-11-12 2021-02-09 北京优云智翔航空科技有限公司 一种无人机设备调度数据的处理方法、装置以及服务器
CN112836852A (zh) * 2020-12-31 2021-05-25 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置
CN113657463A (zh) * 2021-07-28 2021-11-16 浙江大华技术股份有限公司 步态识别模型训练方法、步态识别方法及相关装置
CN113792843A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法
WO2022007179A1 (zh) * 2020-07-10 2022-01-13 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN113962031A (zh) * 2021-12-20 2022-01-21 北京航空航天大学 一种基于图神经网络强化学习的异质平台冲突消解方法
CN112836852B (zh) * 2020-12-31 2024-05-31 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020230A (zh) * 2016-05-20 2016-10-12 武汉科技大学 一种能耗约束下的多无人机任务分配方法
CN106125758A (zh) * 2016-07-07 2016-11-16 衢州赋腾信息科技有限公司 一种无人机编队控制系统及方法
CN106990792A (zh) * 2017-05-23 2017-07-28 西北工业大学 混合引力搜索算法的多无人机协同时序耦合任务分配方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN108664038A (zh) * 2018-05-14 2018-10-16 中国人民解放军火箭军工程大学 一种多无人机分布式合同竞拍在线任务规划方法
US20190107846A1 (en) * 2017-10-06 2019-04-11 The Charles Stark Draper Laboratory, Inc. Distributed system for management and control of aerial vehicle air traffic
CN110007688A (zh) * 2019-04-25 2019-07-12 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020230A (zh) * 2016-05-20 2016-10-12 武汉科技大学 一种能耗约束下的多无人机任务分配方法
CN106125758A (zh) * 2016-07-07 2016-11-16 衢州赋腾信息科技有限公司 一种无人机编队控制系统及方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN106990792A (zh) * 2017-05-23 2017-07-28 西北工业大学 混合引力搜索算法的多无人机协同时序耦合任务分配方法
US20190107846A1 (en) * 2017-10-06 2019-04-11 The Charles Stark Draper Laboratory, Inc. Distributed system for management and control of aerial vehicle air traffic
CN108664038A (zh) * 2018-05-14 2018-10-16 中国人民解放军火箭军工程大学 一种多无人机分布式合同竞拍在线任务规划方法
CN110007688A (zh) * 2019-04-25 2019-07-12 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全文: "基于 HMM 和信息熵的分布式传感器协同任务规划研究", 《电光与控制》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111708355B (zh) * 2020-06-19 2023-04-18 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
WO2022007179A1 (zh) * 2020-07-10 2022-01-13 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112068549B (zh) * 2020-08-07 2022-12-16 哈尔滨工业大学 一种基于深度强化学习的无人系统集群控制方法
CN112348381A (zh) * 2020-11-12 2021-02-09 北京优云智翔航空科技有限公司 一种无人机设备调度数据的处理方法、装置以及服务器
CN112836852A (zh) * 2020-12-31 2021-05-25 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置
CN112836852B (zh) * 2020-12-31 2024-05-31 中国电子科技集团公司信息科学研究院 一种基于强化学习的无人平台路径规划方法及装置
CN113657463A (zh) * 2021-07-28 2021-11-16 浙江大华技术股份有限公司 步态识别模型训练方法、步态识别方法及相关装置
CN113792843A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法
CN113792843B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 一种在行为克隆框架下基于群体方向一致性和稳定性的蜂拥涌现控制方法
CN113962031A (zh) * 2021-12-20 2022-01-21 北京航空航天大学 一种基于图神经网络强化学习的异质平台冲突消解方法

Also Published As

Publication number Publication date
CN111240356B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN111260031B (zh) 一种基于深度强化学习的无人机集群目标防卫方法
CN110134140B (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
Yang et al. Multi-Task Deep Reinforcement Learning for Continuous Action Control.
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN110587606B (zh) 一种面向开放场景的多机器人自主协同搜救方法
CN107179077B (zh) 一种基于elm-lrf的自适应视觉导航方法
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN112947575B (zh) 基于深度强化学习的无人机集群多目标搜索方法及系统
Yue et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Zhou et al. An efficient deep reinforcement learning framework for uavs
Kim et al. Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration
CN113110546A (zh) 一种基于离线强化学习的无人机自主飞行控制方法
Xia et al. Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning
Petrazzini et al. Proximal policy optimization with continuous bounded action space via the beta distribution
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN114077258A (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
Huang et al. A deep reinforcement learning approach to preserve connectivity for multi-robot systems
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant