CN111708355B

CN111708355B - 基于强化学习的多无人机动作决策方法和装置

Info

Publication number: CN111708355B
Application number: CN202010568786.2A
Authority: CN
Inventors: 王克亮; 高显忠; 侯中喜; 郭正; 贾高伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-04-18
Anticipated expiration: 2040-06-19
Also published as: CN111708355A

Abstract

本申请涉及一种基于强化学习的多无人机动作决策方法和装置。所述方法包括：构建多无人机的强化学习模型，获取训练样本，将训练样本作为状态信息输入所述策略网络，得到训练样本对应的动作，获取奖励值，将训练样本和动作输入状态价值网络，得到动作函数值，将训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中，从缓存区中提取多条记录，计算记录对应累计奖励值，根据累计奖励值和实际动作函数值构建平均最小损失函数，根据平均最小损失函数更新状态价值网络，根据梯度，更新各个无人机对应的策略网络的网络参数，根据各个无人机策略网络，进行对应的动作决策。采用本方法能够提高多无人机决策的准确率。

Description

基于强化学习的多无人机动作决策方法和装置

技术领域

本申请涉及无人机技术领域，特别是涉及一种基于强化学习的多无人机动作决策方法和装置。

背景技术

目前，无人机被广泛应用在各个领域，无人机上可以加载各式传感器，以加强对环境的感知能力。在执行群体任务时，多个无人机组成方阵或者阵列，由控制中心进行控制。无人机在进行决策时，不仅需要考虑环境中潜在的威胁或者任务目标，还需要考虑阵列中其他无人机的影响，因此，在进行自主决策时，准确率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高多个无人机自主决策准确性的基于强化学习的多无人机动作决策方法和装置。

一种基于强化学习的多无人机动作决策方法，所述方法包括：

构建多无人机的强化学习模型；所述强化学习模型包括：状态价值网络和各个无人机对应的策略网络；所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值；所述策略网络用于接收对应所述状态信息并输出决策结果；

获取训练样本，将所述训练样本作为所述状态信息输入所述策略网络，得到所述训练样本对应的动作，以及获取所述策略网络执行动作得到的奖励值，将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络，得到所述训练样本对应的动作函数值；

将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中；

从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值，根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数；

根据所述平均最小损失函数更新所述状态价值网络，根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数；

根据各个无人机所述策略网络，进行对应的动作决策。

在其中一个实施例中，还包括：从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值为：

其中，y^j表示累计奖励值，

表示第i个无人机对应策略网络输出动作的奖励值，γ表示折扣因子，

表示所述动作函数值；

根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数为：

其中，S表示记录的数量，

表示实际动作函数值。

在其中一个实施例中，还包括：获取梯度公式为：

其中，

表示策略网络的参数对应的梯度，

表示对应的所述动作，

表示所述动作对应的实际动作函数值；

根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数为：

其中，θ_i表示第i个无人机对应策略网络的参数。

在其中一个实施例中，还包括：根据所述记录对应动作的梯度，采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。

在其中一个实施例中，还包括：所述策略网络均为卷积神经网络，所述训练样本为图片数据。

在其中一个实施例中，还包括：获取训练样本和从环境特征中提取的环境参数，将所述训练样本和所述环境特征作为状态信息输入所述策略网络。

在其中一个实施例中，还包括：将执行不同飞行任务的无人机划分为不同的任务网络；所述任务网络由无人机对应的强化学习模型构成；将所述不同的任务网络在同一环境以及训练样本中进行训练，得到训练后的智能网络；将所述智能网络存入预先设置的子任务基元库，通过采样的方式从所述子任务基元库中提取智能网络，选择与替换当前所述任务网络。

一种基于强化学习的多无人机动作决策装置，所述装置包括：

模型构建模块，用于构建多无人机的强化学习模型；所述强化学习模型包括：状态价值网络和各个无人机对应的策略网络；所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值；所述策略网络用于接收对应所述状态信息并输出决策结果；

训练模块，用于获取训练样本，将所述训练样本作为所述状态信息输入所述策略网络，得到所述训练样本对应的动作，以及获取所述策略网络执行动作得到的奖励值，将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络，得到所述训练样本对应的动作函数值；将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中；从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值，根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数；根据所述平均最小损失函数更新所述状态价值网络，根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数；

决策模块，用于根据各个无人机所述策略网络，进行对应的动作决策。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据各个无人机所述策略网络，进行对应的动作决策。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据各个无人机所述策略网络，进行对应的动作决策。

上述基于强化学习的多无人机动作决策方法、装置、计算机设备和存储介质，通过构建多无人机强化学习模型，其中，每个无人机均对应一个策略网络，所有无人机共用状态价值网络，在训练时，通过状态价值网络，对输入的状态信息和动作进行判断，得到动作函数值，然后通过动作函数值对状态价值网络进行训练，以及根据梯度对策略网络进行训练，从而对多无人机的强化学习模型进行训练，本发明实施例，通过多无人机对应的强化学习模型，可以准确的对当前的状态进行决策。

附图说明

图1为一个实施例中基于强化学习的多无人机动作决策方法的流程示意图；

图2为一个实施例中强化学习模型的学习流程示意图；

图3为一个实施例中基于强化学习的多无人机动作决策装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于强化学习的多无人机动作决策方法，可以应用于无人机中。其中，无人机可以是包含存储器和处理器的无人机，存储器用于存储基于强化学习的多无人机动作决策方法对应的计算机程序，处理器用于执行计算机程序中的各个步骤，以实现基于强化学习的多无人机动作决策方法。另外，无人机可以包括多个感知模块，感知模块可以是摄像头、动力感知模块、电机状态检测模块等。

在一个具体的实施例中，可以将摄像头拍摄的图片作为训练样本，无人机根据拍摄的图片进行动作决策，动力感知模块、电机状态检测模块可以检测当前电量、剩余油量以及电机状态等等，以作为环境参数，辅助进行智能动作决策。

在一个实施例中，如图1所示，提供了一种构建多无人机的强化学习模型方法，以该方法应用于上述无人机中为例，包括以下步骤：

步骤102，构建多无人机的强化学习模型。

强化学习模型包括：状态价值网络和策略网络；状态价值网络用于接收所有无人机状态信息并输出状态信息估计值；策略网络用于接收对应状态信息并输出决策结果。

强化学习模型指的是无人机可以作为一个智能体，与外部环境进行交互，利用反馈信息进行不断的自我学习，从而优化自身性能，从而达到准确输出决策动作的目的。

对于智能体，可以接收状态信息，并且根据当前的状态信息，进行动作决策，对于外部环境，可以设置一定的策略，根据动作决策，输出反馈信息，从而反馈给智能体进行强化学习。

一般而言，根据贝尔曼方程的理论，可以采用价值函数来表示状态信息的期望回报，因此，可以采用迭代的方式求解价值函数，价值函数如下：

V(s)＝E[R_t+γV(S_t+1)|S_t＝s]

其中，通过价值函数V(·)表示价值函数，R_t表示奖励值，S_t、S_t+1表示不同时序的状态信息，γ表示衰减因子，智能体可以感知每一个动作的价值，因此可以选择价值最大的动作进行输出，动作-价值函数如下：

Q^π(s,a)＝E[r_t+γr_t+1+γ²r_t+2+…+γ^T-tr_T|s,a]

＝E_s'[r_t+γQ^π(s',a')|s,a]

根据动作-价值函数，可以得到最佳动作函数为：

从上式中可以获知，当前时刻的Q值的更新调整依赖于未来时刻的所有状态和动作的Q值，但是在实际场景中，遍历整个状态空间和动作空间是不现实的，只能获取有限的部分样本。因此为了解决这个问题，Q-Learning提出了调整Q值的可行方式，如公式：

公式中用

来作为目标值是基于时间差分方法得到的，因为真实的目标值要遍历所有状态和动作才能得到，实际并不可行。而利用当前真实的奖励值加上根据经验得到的最大Q值作为目标值来指导网络进行训练可行有效。用θ表示网络的参数，那么网络的损失函数和网络参数的更新如公式所示：

基于上述理论，本步骤采用更加直接的方式，构建了状态价值网络，用于输出状态信息对应的状态信息估计值，主要用于直接的对策略网络进行更新，从而由策略网络直接的进行动作决策。具体的，强化学习模型的实现过程如图2所示。

步骤104，获取训练样本，将训练样本作为状态信息输入策略网络，得到训练样本对应的动作，以及获取策略网络执行动作得到的奖励值，将训练样本作为状态信息和动作输入所述状态价值网络，得到训练样本对应的动作函数值。

样本数据可以是图片数据，无人机通过其安装的摄像头，拍摄图片，作为强化学习的状态信息，从而根据图片对动作进行决策。

奖励值是通过预先设置的奖励策略计算得到的，例如，策略网络输出的动作值正确，则奖励值为R_t，策略网络输出的动作值错误，则输出奖励值为0，值得说明的是，以上仅是一种奖励值设置的实施例，可以根据实际情况进行设置。

动作函数值是通过Q-Learning算法计算得到的，通过将状态信息和动作输入状态价值网络，可以得到动作函数值。

步骤106，将训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中。

缓存区可以缓存所有无人机策略网络训练时的记录。

步骤108，从缓存区中提取多条记录，计算记录对应累计奖励值，根据累计奖励值和训练样本对应的实际动作函数值构建平均最小损失函数。

多条记录是缓存区中记录的一部分，通过设置缓存区，便于对所有无人机的策略网络训练的参数进行共享。

步骤110，根据平均最小损失函数更新状态价值网络，根据记录对应动作的梯度，更新各个无人机对应的策略网络的网络参数。

步骤112，根据各个无人机策略网络，进行对应的动作决策。

上述基于强化学习的多无人机动作决策方法中，通过构建多无人机强化学习模型，其中，每个无人机均对应一个策略网络，所有无人机共用状态价值网络，在训练时，通过状态价值网络，对输入的状态信息和动作进行判断，得到动作函数值，然后通过动作函数值对状态价值网络进行训练，以及根据梯度对策略网络进行训练，从而对多无人机的强化学习模型进行训练，本发明实施例，通过多无人机对应的强化学习模型，可以准确的对当前的状态进行决策。

考虑马尔可夫决策过程的多智能体扩展(MDPs)，称为部分可观察马尔可夫博弈。N个智能体的马尔可夫博弈定义为描述所有智能体的可能配置的一组状态S，动作A1,...,A_N和每个智能体的观测值O₁,...,O_N。当选择action时，每个智能体使用随机policy

根据状态转移函数产生下一个状态

每个智能体都根据状态和动作获得reward，

并收到与各自状态相关的观测值：

初始状态由分布ρ确定：

每个智能体旨在最大化自己的总预期回报

其中γ是折扣因子，T是时间范围。因此与单智能体强化学习不同，多智能体中对每个智能体动作的奖励和状态转移函数不仅取决于智能体自身的动作和观测值，也取决于其他智能体的动作和观测值。

如图2所示，Actor1-ActorN表示策略网络，状态价值网络用语根据状态信息o₁-o_N以及接收到的动作a₁-a_N输出动作价值函数，通过采用分散执行，集中训练的框架来实现目标。在训练时，可以使用额外的信息来帮助训练，只要这些信息在测试时不被使用即可，因此，使用本发明的强化学习模型，可以采用状态价值网络帮助训练，而策略网络用来进行决策。集中训练时，状态价值网络可以输入所有智能体的观测值和动作策略，从而得到对于智能体动作策略的评价。因为状态价值网络输入了所有智能体的状态信息与动作策略，所以可以引导各个智能体策略网络进行协同，而策略网络仅需要输入智能体自身的状态信息，有利于各个智能体独立运行。

在其中一个实施例中，从缓存区中提取多条所述记录，计算记录对应累计奖励值为：

其中，y^j表示累计奖励值，

表示动作函数值；根据累计奖励值和训练样本对应的实际动作函数值构建平均最小损失函数为：

其中，S表示记录的数量，

表示实际动作函数值。

在其中一个实施例中，获取梯度公式为：

其中，

表示策略网络的参数对应的梯度，

表示对应的动作，

表示动作对应的实际动作函数值；根据记录对应动作的梯度，更新各个无人机对应的策略网络的网络参数为：

其中，θ_i表示第i个无人机对应策略网络的参数。

具体的，根据记录对应动作的梯度，采用多线程并行方式更新各个无人机对应的策略网络的网络参数。上述算法执行的伪代码如表1所示：

表1强化学习模型执行的伪代码

在其中一个实施例中，策略网络均为卷积神经网络，训练样本为图片数据。即，无人机观测数据是图片，通过卷积神经网络对图片数据的进行分类识别，可以输出动作决策。

在其中一个实施例中，获取训练样本和从环境特征中提取的环境参数，将训练样本和环境特征作为状态信息输入策略网络。通过加入当前环境参数，可以提高决策的准确率，并且可以更加智能的完成分类工作。

在其中一个实施例中，将执行不同飞行任务的无人机划分为不同的任务网络；任务网络由无人机对应的强化学习模型构成，将不同的任务网络在同一环境以及训练样本中进行训练，得到训练后的智能网络，将智能网络存入预先设置的子任务基元库，通过采样的方式从子任务基元库中提取智能网络，选择与替换当前所述任务网络。本实施例中，各个无人机之间通过强化学习进行博弈，通过进一步提升强化学习模型的智能化和对任务执行的把握。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种基于强化学习的多无人机动作决策装置，包括：模型构建模块302、训练模块304和决策模块306，其中：

模型构建模块302，用于构建多无人机的强化学习模型；所述强化学习模型包括：状态价值网络和各个无人机对应的策略网络；所述状态价值网络用于接收所有无人机状态信息并输出状态信息估计值；所述策略网络用于接收对应所述状态信息并输出决策结果；

训练模块304，用于获取训练样本，将所述训练样本作为所述状态信息输入所述策略网络，得到所述训练样本对应的动作，以及获取所述策略网络执行动作得到的奖励值，将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络，得到所述训练样本对应的动作函数值；将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中；从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值，根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数；根据所述平均最小损失函数更新所述状态价值网络，根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数；

决策模块306，用于根据各个无人机所述策略网络，进行对应的动作决策。

在其中一个实施例中，训练模块304还用于从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值为：

其中，y^j表示累计奖励值，

表示所述动作函数值；

其中，S表示记录的数量，

表示实际动作函数值。

在其中一个实施例中，训练模块304还用于获取梯度公式为：

其中，

表示策略网络的参数对应的梯度，

表示对应的所述动作，

表示所述动作对应的实际动作函数值；

其中，θ_i表示第i个无人机对应策略网络的参数。

在其中一个实施例中，训练模块304还用于根据所述记录对应动作的梯度，采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。

在其中一个实施例中，训练模块304还用于所述策略网络均为卷积神经网络，所述训练样本为图片数据。

在其中一个实施例中，训练模块304还用于获取训练样本和从环境特征中提取的环境参数，将所述训练样本和所述环境特征作为状态信息输入所述策略网络。

在其中一个实施例中，训练模块304还用于将执行不同飞行任务的无人机划分为不同的任务网络；所述任务网络由无人机对应的强化学习模型构成；将所述不同的任务网络在同一环境以及训练样本中进行训练，得到训练后的智能网络；将所述智能网络存入预先设置的子任务基元库，通过采样的方式从所述子任务基元库中提取智能网络，选择与替换当前所述任务网络。

关于基于强化学习的多无人机动作决策装置的具体限定可以参见上文中对于基于强化学习的多无人机动作决策方法的限定，在此不再赘述。上述基于强化学习的多无人机动作决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的多无人机动作决策方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的多无人机动作决策方法，所述方法包括：

根据各个无人机所述策略网络，进行对应的动作决策；

从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值为：

其中，y^j表示累计奖励值，

表示所述动作函数值；

其中，S表示记录的数量，

表示实际动作函数值；

获取所述梯度公式为：

其中，

表示策略网络的参数对应的梯度，

表示对应的所述动作，

表示所述动作对应的实际动作函数值；

θ′_i←εθ_i+(1-ε)θ′_i

其中，θ_i表示第i个无人机对应策略网络的参数。

2.根据权利要求1所述的方法，其特征在于，根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数，包括：

根据所述记录对应动作的梯度，采用多线程并行方式更新各个无人机对应的所述策略网络的网络参数。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述策略网络均为卷积神经网络，所述训练样本为图片数据。

4.根据权利要求1至2任一项所述的方法，其特征在于，所述获取训练样本，将所述训练样本作为所述状态信息输入所述策略网络，包括：

获取训练样本和从环境特征中提取的环境参数，将所述训练样本和所述环境特征作为状态信息输入所述策略网络。

5.根据权利要求1至2任一项所述的方法，其特征在于，所述方法还包括：

将执行不同飞行任务的无人机划分为不同的任务网络；所述任务网络由无人机对应的强化学习模型构成；

将所述不同的任务网络在同一环境以及训练样本中进行训练，得到训练后的智能网络；

将所述智能网络存入预先设置的子任务基元库，通过采样的方式从所述子任务基元库中提取智能网络，选择与替换当前所述任务网络。

6.一种基于强化学习的多无人机动作决策装置，其特征在于，所述装置包括：

训练模块，用于获取训练样本，将所述训练样本作为所述状态信息输入所述策略网络，得到所述训练样本对应的动作，以及获取所述策略网络执行动作得到的奖励值，将所述训练样本作为所述状态信息和所述动作输入所述状态价值网络，得到所述训练样本对应的动作函数值；将所述训练样本、动作、奖励值以及下一个状态信息保存为一条记录，并存储至缓存区中；从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值，根据所述累计奖励值和所述训练样本对应的实际动作函数值构建平均最小损失函数；根据所述平均最小损失函数更新所述状态价值网络，根据所述记录对应动作的梯度，更新各个无人机对应的所述策略网络的网络参数；从所述缓存区中提取多条所述记录，计算所述记录对应累计奖励值为：