CN111708355B - 基于强化学习的多无人机动作决策方法和装置 - Google Patents

基于强化学习的多无人机动作决策方法和装置 Download PDF

Info

Publication number
CN111708355B
CN111708355B CN202010568786.2A CN202010568786A CN111708355B CN 111708355 B CN111708355 B CN 111708355B CN 202010568786 A CN202010568786 A CN 202010568786A CN 111708355 B CN111708355 B CN 111708355B
Authority
CN
China
Prior art keywords
network
action
unmanned aerial
value
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010568786.2A
Other languages
English (en)
Other versions
CN111708355A (zh
Inventor
王克亮
高显忠
侯中喜
郭正
贾高伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010568786.2A priority Critical patent/CN111708355B/zh
Publication of CN111708355A publication Critical patent/CN111708355A/zh
Application granted granted Critical
Publication of CN111708355B publication Critical patent/CN111708355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • G05D1/0038Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement by providing the operator with simple or augmented images from one or more cameras located onboard the vehicle, e.g. tele-operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于强化学习的多无人机动作决策方法和装置。所述方法包括:构建多无人机的强化学习模型,获取训练样本,将训练样本作为状态信息输入所述策略网络,得到训练样本对应的动作,获取奖励值,将训练样本和动作输入状态价值网络,得到动作函数值,将训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中,从缓存区中提取多条记录,计算记录对应累计奖励值,根据累计奖励值和实际动作函数值构建平均最小损失函数,根据平均最小损失函数更新状态价值网络,根据梯度,更新各个无人机对应的策略网络的网络参数,根据各个无人机策略网络,进行对应的动作决策。采用本方法能够提高多无人机决策的准确率。

Description

基于强化学习的多无人机动作决策方法和装置
技术领域
本申请涉及无人机技术领域,特别是涉及一种基于强化学习的多无人机动作决策方法和装置。
背景技术
目前,无人机被广泛应用在各个领域,无人机上可以加载各式传感器,以加强对环境的感知能力。在执行群体任务时,多个无人机组成方阵或者阵列,由控制中心进行控制。无人机在进行决策时,不仅需要考虑环境中潜在的威胁或者任务目标,还需要考虑阵列中其他无人机的影响,因此,在进行自主决策时,准确率不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高多个无人机自主决策准确性的基于强化学习的多无人机动作决策方法和装置。
一种基于强化学习的多无人机动作决策方法,所述方法包括:
构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;
将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;
从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;
根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
根据各个无人机所述策略网络,进行对应的动作决策。
在其中一个实施例中,还包括:从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值为:
Figure BDA0002548739980000021
其中,yj表示累计奖励值,
Figure BDA0002548739980000022
表示第i个无人机对应策略网络输出动作的奖励值,γ表示折扣因子,
Figure BDA0002548739980000023
表示所述动作函数值;
根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数为:
Figure BDA0002548739980000024
其中,S表示记录的数量,
Figure BDA0002548739980000025
表示实际动作函数值。
在其中一个实施例中,还包括:获取梯度公式为:
Figure BDA0002548739980000026
其中,
Figure BDA0002548739980000027
表示策略网络的参数对应的梯度,
Figure BDA0002548739980000028
表示对应的所述动作,
Figure BDA0002548739980000029
表示所述动作对应的实际动作函数值;
根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数为:
Figure BDA00025487399800000210
其中,θi表示第i个无人机对应策略网络的参数。
在其中一个实施例中,还包括:根据所述记录对应动作的梯度,采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。
在其中一个实施例中,还包括:所述策略网络均为卷积神经网络,所述训练样本为图片数据。
在其中一个实施例中,还包括:获取训练样本和从环境特征中提取的环境参数,将所述训练样本和所述环境特征作为状态信息输入所述策略网络。
在其中一个实施例中,还包括:将执行不同飞行任务的无人机划分为不同的任务网络;所述任务网络由无人机对应的强化学习模型构成;将所述不同的任务网络在同一环境以及训练样本中进行训练,得到训练后的智能网络;将所述智能网络存入预先设置的子任务基元库,通过采样的方式从所述子任务基元库中提取智能网络,选择与替换当前所述任务网络。
一种基于强化学习的多无人机动作决策装置,所述装置包括:
模型构建模块,用于构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
训练模块,用于获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
决策模块,用于根据各个无人机所述策略网络,进行对应的动作决策。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;
将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;
从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;
根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
根据各个无人机所述策略网络,进行对应的动作决策。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;
将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;
从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;
根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
根据各个无人机所述策略网络,进行对应的动作决策。
上述基于强化学习的多无人机动作决策方法、装置、计算机设备和存储介质,通过构建多无人机强化学习模型,其中,每个无人机均对应一个策略网络,所有无人机共用状态价值网络,在训练时,通过状态价值网络,对输入的状态信息和动作进行判断,得到动作函数值,然后通过动作函数值对状态价值网络进行训练,以及根据梯度对策略网络进行训练,从而对多无人机的强化学习模型进行训练,本发明实施例,通过多无人机对应的强化学习模型,可以准确的对当前的状态进行决策。
附图说明
图1为一个实施例中基于强化学习的多无人机动作决策方法的流程示意图;
图2为一个实施例中强化学习模型的学习流程示意图;
图3为一个实施例中基于强化学习的多无人机动作决策装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于强化学习的多无人机动作决策方法,可以应用于无人机中。其中,无人机可以是包含存储器和处理器的无人机,存储器用于存储基于强化学习的多无人机动作决策方法对应的计算机程序,处理器用于执行计算机程序中的各个步骤,以实现基于强化学习的多无人机动作决策方法。另外,无人机可以包括多个感知模块,感知模块可以是摄像头、动力感知模块、电机状态检测模块等。
在一个具体的实施例中,可以将摄像头拍摄的图片作为训练样本,无人机根据拍摄的图片进行动作决策,动力感知模块、电机状态检测模块可以检测当前电量、剩余油量以及电机状态等等,以作为环境参数,辅助进行智能动作决策。
在一个实施例中,如图1所示,提供了一种构建多无人机的强化学习模型方法,以该方法应用于上述无人机中为例,包括以下步骤:
步骤102,构建多无人机的强化学习模型。
强化学习模型包括:状态价值网络和策略网络;状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;策略网络用于接收对应状态信息并输出决策结果。
强化学习模型指的是无人机可以作为一个智能体,与外部环境进行交互,利用反馈信息进行不断的自我学习,从而优化自身性能,从而达到准确输出决策动作的目的。
对于智能体,可以接收状态信息,并且根据当前的状态信息,进行动作决策,对于外部环境,可以设置一定的策略,根据动作决策,输出反馈信息,从而反馈给智能体进行强化学习。
一般而言,根据贝尔曼方程的理论,可以采用价值函数来表示状态信息的期望回报,因此,可以采用迭代的方式求解价值函数,价值函数如下:
V(s)=E[Rt+γV(St+1)|St=s]
其中,通过价值函数V(·)表示价值函数,Rt表示奖励值,St、St+1表示不同时序的状态信息,γ表示衰减因子,智能体可以感知每一个动作的价值,因此可以选择价值最大的动作进行输出,动作-价值函数如下:
Qπ(s,a)=E[rt+γrt+12rt+2+…+γT-trT|s,a]
       =Es'[rt+γQπ(s',a')|s,a]
根据动作-价值函数,可以得到最佳动作函数为:
Figure BDA0002548739980000061
从上式中可以获知,当前时刻的Q值的更新调整依赖于未来时刻的所有状态和动作的Q值,但是在实际场景中,遍历整个状态空间和动作空间是不现实的,只能获取有限的部分样本。因此为了解决这个问题,Q-Learning提出了调整Q值的可行方式,如公式:
Figure BDA0002548739980000062
公式中用
Figure BDA0002548739980000071
来作为目标值是基于时间差分方法得到的,因为真实的目标值要遍历所有状态和动作才能得到,实际并不可行。而利用当前真实的奖励值加上根据经验得到的最大Q值作为目标值来指导网络进行训练可行有效。用θ表示网络的参数,那么网络的损失函数和网络参数的更新如公式所示:
Figure BDA0002548739980000072
基于上述理论,本步骤采用更加直接的方式,构建了状态价值网络,用于输出状态信息对应的状态信息估计值,主要用于直接的对策略网络进行更新,从而由策略网络直接的进行动作决策。具体的,强化学习模型的实现过程如图2所示。
步骤104,获取训练样本,将训练样本作为状态信息输入策略网络,得到训练样本对应的动作,以及获取策略网络执行动作得到的奖励值,将训练样本作为状态信息和动作输入所述状态价值网络,得到训练样本对应的动作函数值。
样本数据可以是图片数据,无人机通过其安装的摄像头,拍摄图片,作为强化学习的状态信息,从而根据图片对动作进行决策。
奖励值是通过预先设置的奖励策略计算得到的,例如,策略网络输出的动作值正确,则奖励值为Rt,策略网络输出的动作值错误,则输出奖励值为0,值得说明的是,以上仅是一种奖励值设置的实施例,可以根据实际情况进行设置。
动作函数值是通过Q-Learning算法计算得到的,通过将状态信息和动作输入状态价值网络,可以得到动作函数值。
步骤106,将训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中。
缓存区可以缓存所有无人机策略网络训练时的记录。
步骤108,从缓存区中提取多条记录,计算记录对应累计奖励值,根据累计奖励值和训练样本对应的实际动作函数值构建平均最小损失函数。
多条记录是缓存区中记录的一部分,通过设置缓存区,便于对所有无人机的策略网络训练的参数进行共享。
步骤110,根据平均最小损失函数更新状态价值网络,根据记录对应动作的梯度,更新各个无人机对应的策略网络的网络参数。
步骤112,根据各个无人机策略网络,进行对应的动作决策。
上述基于强化学习的多无人机动作决策方法中,通过构建多无人机强化学习模型,其中,每个无人机均对应一个策略网络,所有无人机共用状态价值网络,在训练时,通过状态价值网络,对输入的状态信息和动作进行判断,得到动作函数值,然后通过动作函数值对状态价值网络进行训练,以及根据梯度对策略网络进行训练,从而对多无人机的强化学习模型进行训练,本发明实施例,通过多无人机对应的强化学习模型,可以准确的对当前的状态进行决策。
考虑马尔可夫决策过程的多智能体扩展(MDPs),称为部分可观察马尔可夫博弈。N个智能体的马尔可夫博弈定义为描述所有智能体的可能配置的一组状态S,动作A1,...,AN和每个智能体的观测值O1,...,ON。当选择action时,每个智能体使用随机policy
Figure BDA0002548739980000081
根据状态转移函数产生下一个状态
Figure BDA0002548739980000082
每个智能体都根据状态和动作获得reward,
Figure BDA0002548739980000083
并收到与各自状态相关的观测值:
Figure BDA0002548739980000084
初始状态由分布ρ确定:
Figure BDA0002548739980000085
每个智能体旨在最大化自己的总预期回报
Figure BDA0002548739980000086
其中γ是折扣因子,T是时间范围。因此与单智能体强化学习不同,多智能体中对每个智能体动作的奖励和状态转移函数不仅取决于智能体自身的动作和观测值,也取决于其他智能体的动作和观测值。
如图2所示,Actor1-ActorN表示策略网络,状态价值网络用语根据状态信息o1-oN以及接收到的动作a1-aN输出动作价值函数,通过采用分散执行,集中训练的框架来实现目标。在训练时,可以使用额外的信息来帮助训练,只要这些信息在测试时不被使用即可,因此,使用本发明的强化学习模型,可以采用状态价值网络帮助训练,而策略网络用来进行决策。集中训练时,状态价值网络可以输入所有智能体的观测值和动作策略,从而得到对于智能体动作策略的评价。因为状态价值网络输入了所有智能体的状态信息与动作策略,所以可以引导各个智能体策略网络进行协同,而策略网络仅需要输入智能体自身的状态信息,有利于各个智能体独立运行。
在其中一个实施例中,从缓存区中提取多条所述记录,计算记录对应累计奖励值为:
Figure BDA0002548739980000091
其中,yj表示累计奖励值,
Figure BDA0002548739980000092
表示第i个无人机对应策略网络输出动作的奖励值,γ表示折扣因子,
Figure BDA0002548739980000093
表示动作函数值;根据累计奖励值和训练样本对应的实际动作函数值构建平均最小损失函数为:
Figure BDA0002548739980000094
其中,S表示记录的数量,
Figure BDA0002548739980000095
表示实际动作函数值。
在其中一个实施例中,获取梯度公式为:
Figure BDA0002548739980000096
其中,
Figure BDA0002548739980000097
表示策略网络的参数对应的梯度,
Figure BDA0002548739980000098
表示对应的动作,
Figure BDA0002548739980000099
表示动作对应的实际动作函数值;根据记录对应动作的梯度,更新各个无人机对应的策略网络的网络参数为:
Figure BDA00025487399800000910
其中,θi表示第i个无人机对应策略网络的参数。
具体的,根据记录对应动作的梯度,采用多线程并行方式更新各个无人机对应的策略网络的网络参数。上述算法执行的伪代码如表1所示:
表1强化学习模型执行的伪代码
Figure BDA0002548739980000101
在其中一个实施例中,策略网络均为卷积神经网络,训练样本为图片数据。即,无人机观测数据是图片,通过卷积神经网络对图片数据的进行分类识别,可以输出动作决策。
在其中一个实施例中,获取训练样本和从环境特征中提取的环境参数,将训练样本和环境特征作为状态信息输入策略网络。通过加入当前环境参数,可以提高决策的准确率,并且可以更加智能的完成分类工作。
在其中一个实施例中,将执行不同飞行任务的无人机划分为不同的任务网络;任务网络由无人机对应的强化学习模型构成,将不同的任务网络在同一环境以及训练样本中进行训练,得到训练后的智能网络,将智能网络存入预先设置的子任务基元库,通过采样的方式从子任务基元库中提取智能网络,选择与替换当前所述任务网络。本实施例中,各个无人机之间通过强化学习进行博弈,通过进一步提升强化学习模型的智能化和对任务执行的把握。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于强化学习的多无人机动作决策装置,包括:模型构建模块302、训练模块304和决策模块306,其中:
模型构建模块302,用于构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
训练模块304,用于获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
决策模块306,用于根据各个无人机所述策略网络,进行对应的动作决策。
在其中一个实施例中,训练模块304还用于从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值为:
Figure BDA0002548739980000121
其中,yj表示累计奖励值,
Figure BDA0002548739980000122
表示第i个无人机对应策略网络输出动作的奖励值,γ表示折扣因子,
Figure BDA0002548739980000123
表示所述动作函数值;
根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数为:
Figure BDA0002548739980000124
其中,S表示记录的数量,
Figure BDA0002548739980000125
表示实际动作函数值。
在其中一个实施例中,训练模块304还用于获取梯度公式为:
Figure BDA0002548739980000126
其中,
Figure BDA0002548739980000127
表示策略网络的参数对应的梯度,
Figure BDA0002548739980000128
表示对应的所述动作,
Figure BDA0002548739980000129
表示所述动作对应的实际动作函数值;
根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数为:
Figure BDA00025487399800001210
其中,θi表示第i个无人机对应策略网络的参数。
在其中一个实施例中,训练模块304还用于根据所述记录对应动作的梯度,采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。
在其中一个实施例中,训练模块304还用于所述策略网络均为卷积神经网络,所述训练样本为图片数据。
在其中一个实施例中,训练模块304还用于获取训练样本和从环境特征中提取的环境参数,将所述训练样本和所述环境特征作为状态信息输入所述策略网络。
在其中一个实施例中,训练模块304还用于将执行不同飞行任务的无人机划分为不同的任务网络;所述任务网络由无人机对应的强化学习模型构成;将所述不同的任务网络在同一环境以及训练样本中进行训练,得到训练后的智能网络;将所述智能网络存入预先设置的子任务基元库,通过采样的方式从所述子任务基元库中提取智能网络,选择与替换当前所述任务网络。
关于基于强化学习的多无人机动作决策装置的具体限定可以参见上文中对于基于强化学习的多无人机动作决策方法的限定,在此不再赘述。上述基于强化学习的多无人机动作决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的多无人机动作决策方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于强化学习的多无人机动作决策方法,所述方法包括:
构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;
将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;
从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;
根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;
根据各个无人机所述策略网络,进行对应的动作决策;
从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值为:
Figure FDA0004058951790000011
其中,yj表示累计奖励值,
Figure FDA0004058951790000012
表示第i个无人机对应策略网络输出动作的奖励值,γ表示折扣因子,
Figure FDA0004058951790000013
表示所述动作函数值;
根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数为:
Figure FDA0004058951790000014
其中,S表示记录的数量,
Figure FDA0004058951790000015
表示实际动作函数值;
获取所述梯度公式为:
Figure FDA0004058951790000021
其中,
Figure FDA0004058951790000022
表示策略网络的参数对应的梯度,
Figure FDA0004058951790000023
表示对应的所述动作,
Figure FDA0004058951790000024
表示所述动作对应的实际动作函数值;
根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数为:
θ′i←εθi+(1-ε)θ′i
其中,θi表示第i个无人机对应策略网络的参数。
2.根据权利要求1所述的方法,其特征在于,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数,包括:
根据所述记录对应动作的梯度,采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述策略网络均为卷积神经网络,所述训练样本为图片数据。
4.根据权利要求1至2任一项所述的方法,其特征在于,所述获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,包括:
获取训练样本和从环境特征中提取的环境参数,将所述训练样本和所述环境特征作为状态信息输入所述策略网络。
5.根据权利要求1至2任一项所述的方法,其特征在于,所述方法还包括:
将执行不同飞行任务的无人机划分为不同的任务网络;所述任务网络由无人机对应的强化学习模型构成;
将所述不同的任务网络在同一环境以及训练样本中进行训练,得到训练后的智能网络;
将所述智能网络存入预先设置的子任务基元库,通过采样的方式从所述子任务基元库中提取智能网络,选择与替换当前所述任务网络。
6.一种基于强化学习的多无人机动作决策装置,其特征在于,所述装置包括:
模型构建模块,用于构建多无人机的强化学习模型;所述强化学习模型包括:状态价值网络和各个无人机对应的策略网络;所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值;所述策略网络用于接收对应所述状态信息并输出决策结果;
训练模块,用于获取训练样本,将所述训练样本作为所述状态信息输入所述策略网络,得到所述训练样本对应的动作,以及获取所述策略网络执行动作得到的奖励值,将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络,得到所述训练样本对应的动作函数值;将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录,并存储至缓存区中;从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值,根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数;根据所述平均最小损失函数更新所述状态价值网络,根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数;从所述缓存区中提取多条所述记录,计算所述记录对应累计奖励值为:
Figure FDA0004058951790000031
其中,yj表示累计奖励值,
Figure FDA0004058951790000034
表示第i个无人机对应策略网络输出动作的奖励值,γ表示折扣因子,
Figure FDA0004058951790000035
表示所述动作函数值;根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数为:
Figure FDA0004058951790000032
其中,S表示记录的数量,
Figure FDA0004058951790000036
表示实际动作函数值;获取所述梯度公式为:
Figure FDA0004058951790000033
其中,
Figure FDA0004058951790000037
表示策略网络的参数对应的梯度,
Figure FDA0004058951790000038
表示对应的所述动作,
Figure FDA0004058951790000039
表示所述动作对应的实际动作函数值;根据所述记录对应动作的梯度,更新各个无人机对应的所述策略网络的网络参数为:
θ′i←εθi+(1-ε)θ′i
其中,θi表示第i个无人机对应策略网络的参数;
决策模块,用于根据各个无人机所述策略网络,进行对应的动作决策。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010568786.2A 2020-06-19 2020-06-19 基于强化学习的多无人机动作决策方法和装置 Active CN111708355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010568786.2A CN111708355B (zh) 2020-06-19 2020-06-19 基于强化学习的多无人机动作决策方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010568786.2A CN111708355B (zh) 2020-06-19 2020-06-19 基于强化学习的多无人机动作决策方法和装置

Publications (2)

Publication Number Publication Date
CN111708355A CN111708355A (zh) 2020-09-25
CN111708355B true CN111708355B (zh) 2023-04-18

Family

ID=72542367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010568786.2A Active CN111708355B (zh) 2020-06-19 2020-06-19 基于强化学习的多无人机动作决策方法和装置

Country Status (1)

Country Link
CN (1) CN111708355B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329948B (zh) * 2020-11-04 2024-05-10 腾讯科技(深圳)有限公司 一种多智能体策略预测方法及装置
CN112364500B (zh) * 2020-11-09 2021-07-20 中国科学院自动化研究所 面向强化学习训练与评估的多并发实时对抗系统
CN112348175B (zh) * 2020-11-30 2022-10-28 福州大学 一种基于强化学习来进行特征工程的方法
CN112418349A (zh) * 2020-12-12 2021-02-26 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 一种大型复杂系统分布式多智能体确定性策略控制方法
CN112698572B (zh) * 2020-12-22 2022-08-16 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112894809B (zh) * 2021-01-18 2022-08-02 华中科技大学 一种基于强化学习的阻抗控制器设计方法和系统
CN112801290B (zh) * 2021-02-26 2021-11-05 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、系统及应用
CN113128699B (zh) * 2021-03-12 2022-11-15 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113032904B (zh) * 2021-03-22 2021-11-23 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质
CN113128705B (zh) * 2021-03-24 2024-02-09 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置
CN113377099A (zh) * 2021-03-31 2021-09-10 南开大学 一种基于深度强化学习的机器人追逃博弈方法
CN113382060B (zh) * 2021-06-07 2022-03-22 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及系统
CN113381824B (zh) * 2021-06-08 2023-01-31 清华大学 水声信道测量方法、装置、无人潜航器和存储介质
CN113392971B (zh) * 2021-06-11 2022-09-02 武汉大学 策略网络训练方法、装置、设备及可读存储介质
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN114282640B (zh) * 2021-12-31 2024-02-06 北京瑞莱智慧科技有限公司 多样性策略的生成方法、装置、介质和计算设备
CN114492718A (zh) * 2022-01-25 2022-05-13 南方科技大学 飞行决策生成方法和装置、计算机设备、存储介质
CN114489144B (zh) * 2022-04-08 2022-07-12 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN114900619B (zh) * 2022-05-06 2023-05-05 北京航空航天大学 一种自适应曝光驱动相机摄影水下图像处理系统
CN115392444B (zh) * 2022-10-31 2022-12-30 中国人民解放军国防科技大学 基于强化学习的无人机知识模型组合的参数寻优方法
CN115879377B (zh) * 2022-12-27 2023-11-28 清华大学 一种智能飞行汽车模态切换的决策网络的训练方法
CN116128013B (zh) * 2023-04-07 2023-07-04 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备
CN116892932B (zh) * 2023-05-31 2024-04-30 三峡大学 一种结合好奇心机制与自模仿学习的导航决策方法
CN116432690B (zh) * 2023-06-15 2023-08-18 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN116596060B (zh) * 2023-07-19 2024-03-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质
CN116880218B (zh) * 2023-09-06 2023-12-19 浙江大学 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN116909155B (zh) * 2023-09-14 2023-11-24 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111045445A (zh) * 2019-10-23 2020-04-21 浩亚信息科技有限公司 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111258219A (zh) * 2020-01-19 2020-06-09 北京理工大学 一种多智能体系统协同策略的反演辨识方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6854921B2 (ja) * 2017-05-19 2021-04-07 ディープマインド テクノロジーズ リミテッド タスク固有のポリシーおよび共有ポリシーをもつマルチタスクニューラルネットワークシステム
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
EP3769264A1 (en) * 2018-05-18 2021-01-27 Deepmind Technologies Limited Meta-gradient updates for training return functions for reinforcement learning systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196605A (zh) * 2019-04-26 2019-09-03 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN111045445A (zh) * 2019-10-23 2020-04-21 浩亚信息科技有限公司 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111258219A (zh) * 2020-01-19 2020-06-09 北京理工大学 一种多智能体系统协同策略的反演辨识方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪亮等.强化学习方法在通信拒止战场仿真环境中多无人机 目标搜寻问题上的适用性研究.中国科学.2020,第第50卷卷(第第50卷期),全文. *
陆天和.多无人机航迹规划算法及关键技术.战术导弹技术.2020,(第undefined期),全文. *

Also Published As

Publication number Publication date
CN111708355A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111708355B (zh) 基于强化学习的多无人机动作决策方法和装置
EP3523761B1 (en) Recurrent environment predictors
CN111091200A (zh) 训练模型的更新方法、系统、智能体、服务器及存储介质
US11388424B2 (en) Making object-level predictions of the future state of a physical system
CN111598213B (zh) 网络训练方法、数据识别方法、装置、设备和介质
CN113609786B (zh) 一种移动机器人导航方法、装置、计算机设备和存储介质
CN114781272A (zh) 碳排放量预测方法、装置、设备及存储介质
JP2019537136A (ja) 強化学習を用いた環境予測
US11093863B2 (en) Method for ascertaining a time characteristic of a measured variable, prediction system, actuator control system, method for training the actuator control system, training system, computer program, and machine-readable storage medium
CN113077052A (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113759724B (zh) 基于数据驱动的机器人控制方法、装置和计算机设备
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN110826695B (zh) 数据处理方法、装置和计算机可读存储介质
CN111898573A (zh) 图像预测方法、计算机设备和存储介质
CN115470894B (zh) 基于强化学习的无人机知识模型分时调用方法及装置
CN116339130B (zh) 基于模糊规则的飞行任务数据获取方法、装置及设备
CN114492905A (zh) 基于多模型融合的客诉率预测方法、装置和计算机设备
CN113134238A (zh) 关卡设置方法、装置、计算机设备和存储介质
CN113805587B (zh) 多无人车分布式编队控制方法、装置和设备
CN115392444B (zh) 基于强化学习的无人机知识模型组合的参数寻优方法
Coulson Data-enabled predictive control: Theory and practice
CN116432690B (zh) 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN115077549B (zh) 车辆状态跟踪方法、系统、计算机及可读存储介质
CN116451948A (zh) 基于圈次组合模型的卫星调度方法、装置和计算机设备
CN118276454A (zh) 多任务风险泛化的分布式多无人机策略获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant