CN115392444B

CN115392444B - 基于强化学习的无人机知识模型组合的参数寻优方法

Info

Publication number: CN115392444B
Application number: CN202211342407.3A
Authority: CN
Inventors: 张驭龙; 冯旸赫; 朱松岩; 刘忠; 黄金才; 黄魁华; 李敏; 张龙飞; 刘瑶; 阳方杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2022-12-30
Anticipated expiration: 2042-10-31
Also published as: CN115392444A

Abstract

本申请涉及一种基于强化学习的无人机知识模型组合的参数寻优方法。所述方法包括：利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络；根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络；根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，根据每个原子动作的评价值对预先构建的参数优化网络进行训练，利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。采用本方法能够提高无人机知识模型组合准确率。

Description

基于强化学习的无人机知识模型组合的参数寻优方法

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。

背景技术

随着无人机自主控制技术的发展，传统基于逻辑规划与运筹计算等无人机知识模型技术得到长足进展，相关模型通常具有两个特点：一是需要依托经验配置超参数才能实施计算，二是实际应用中需要将多个先验知识模型进行组合使用，即需要前序模型为后序模型计算提供输入。因此，当下针对此类超参数型模型组合通常是使用“固定模型组合+固定经验参数”的形式进行应用的。

然而，目前固定无人机知识模型组合基础上的固定经验参数组合的方式难以依据态势或情况的变化动态调整模型超参数值，因而无法最大化发挥模型效能，造成计算准确度降低、规划质量下降等问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高无人机知识模型组合准确率的基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。

一种基于强化学习的无人机知识模型组合的参数寻优方法，所述方法包括：

获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本；无人机知识模型组合对应的超参数作为组合动作；无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作；

对组合动作进行结构化分解，得到多个一维原子动作；

利用无人机知识模型组合在预先设置的周期内对目标区域执行任务，得到当前时刻无人机知识模型组合的环境及时反馈值；

根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络；

利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络；

根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络；

利用训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值；

根据每个原子动作的评价值对预先构建的参数优化网络进行训练，得到训练好的参数优化网络；

利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。

在其中一个实施例中，组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数；历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值；根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用组合动作损失函数对预先构建的组合动作网络进行训练，得到训练好的组合动作网络，包括：

根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数；评价值包含目标值和估计值；

根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。

在其中一个实施例中，根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数，包括：

根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为

其中，

表示基于贝尔曼公式评价值的误差期望值，

表示环境及时反馈值，

表示损失因子，

表示在t+1时刻无人机知识模型组合处于态势信息

时的对应的组合动作的目标值，

表示对态势信息

的编码，

表示时序状态编码

下的策略，即所述时序状态编码下采取相关动作的相应概率值，

表示在t时刻无人机知识模型组合处于态势信息

时的对应的组合动作

的估计值。

在其中一个实施例中，根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数，包括：

根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为

其中，m表示参数样本的数量，

表示在样本j+1中无人机知识模型组合处于态势信息

时的对应的组合动作

的目标值，

表示在样本j中无人机知识模型组合处于态势信息

时的对应的组合动作

的估计值。

在其中一个实施例中，利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，包括：

利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为

其中，

表示前一个原子动作Q值与其后原子动作差值和的期望值，Q值表示状态u下采用动作a的价值，N表示原子动作个数，

表示原子动作的序号，

表示第k个原子动作的状态值，

表示第k个原子动作，

表示第k个原子动作的Q值。

在其中一个实施例中，预先设置的训练约束条件为

，其中，

表示在t时刻处于态势信息

时的对应的组合动作

的评价值，

表示处于态势信息

时的第N-1个原子动作的状态值对应的原子动作

的评价值。

在其中一个实施例中，根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络，包括：

根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数；

利用混合损失函数对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络。

根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数，包括：

根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数为

其中，

表示处于态势信息

时的对应的组合动作

的评价值，

表示对态势信息

的编码，

表示处于态势信息

时的第N个原子动作的状态值对应的原子动作

的评价值，

表示对第k个原子动作的状态值的编码。

在其中一个实施例中，根据每个原子动作的评价值对预先构建的参数优化网络进行训练的损失函数为

其中，

表示参数优化网络中的可学习参数，

表示第k个原子动作的状态值的编码。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对组合动作进行结构化分解，得到多个一维原子动作；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对组合动作进行结构化分解，得到多个一维原子动作；

上述基于强化学习的无人机知识模型组合的参数寻优方法、计算机设备和存储介质，首先利用无人机知识模型组合在预先设置的周期内对目标区域执行任务，得到当前时刻无人机知识模型组合的环境及时反馈值；根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络，根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响，通过损失函数来训练组合神经网络后，训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数，进而决定是否需要继续优化，再利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络，根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络，利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性，即无人机知识模型和无人机知识模型组合之间的一致性，进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价，与组合动作一致，会更加准确，利用训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值是最优的评价值，利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值，在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数，即将无人机的工作模式调整到最优状态，进而在执行任务时提高了完成任务的效率和成功率。

附图说明

图1为一个实施例中基于强化学习的无人机知识模型组合的参数寻优方法的流程示意图；

图2为一个实施例中基于强化学习的无人机知识模型组合的参数寻优方法的框架图；

图3为一个实施例中每个原子动作的评价值对参数优化网络进行训练的过程；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于强化学习的无人机知识模型组合的参数寻优方法，包括以下步骤：

步骤102，获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本；无人机知识模型组合对应的超参数作为组合动作；无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作；对组合动作进行结构化分解，得到多个一维原子动作。

无人机知识模型包括侦察模型，巡航模型，打击模型，无人机知识模型组合表示在一段连续时间内无人机在执行任务时需要切换的几个工作模式的组合，工作模式包括侦察模式、巡航模式和打击模式，通过对无人机知识模型参数的优化可以提高无人机在执行任务时的准确率和效率。例如使用K-means聚类算法进行目标体系分析，可以基于全局态势动态地决定目标聚类簇数目构建最优目标体系,并作为后续打击模型的输入。

同样，组合动作表示在一段连续时间内无人机根据当下的态势信息切换多个工作模式对应的动作的组合，原子动作表示无人机在工作模式下做出的对应的动作。如图2所示，上层N维组合动作经结构化分解后，可以等效为N个的长度为1维的原子动作。

步骤104，利用无人机知识模型组合在预先设置的周期内对目标区域执行任务，得到当前时刻无人机知识模型组合的环境及时反馈值；根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络。

环境及时反馈值是指人工基无人机任务情况设定的一个描述任务是否成功或任务状态优劣的反馈值，如任务成功则为1、失败为-1、其余为0。历史时刻指当前时刻之前无人机知识模型组合已经做出动作的时刻，参数样本是指无人机知识模型组合中的无人机知识模型已经生成的超参数样本，根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响，通过损失函数来训练组合神经网络后，训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数，进而决定是否需要继续优化。预先构建的组合动作神经网络、原子动作神经网络、参数优化网络是现有技术中的神经网络，构建过程是现有技术，在本申请不做具体描述。

步骤106，利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络。

利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，实现了将一个组合动作分解为序列基础上的原子动作逐个评估，并生成最终组合策略网络的参数，从功能上实现了针对固定的超参数型无人机知识模型的智能化动态选参用参，最大程度发挥无人机知识模型效能。

步骤108，根据预先设置的训练约束条件、训练好的组合动作评价网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络。

利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性，即无人机知识模型和无人机知识模型组合之间的一致性，进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价，与组合动作一致，会更加准确，实现针对原子动作的准确评估。

步骤110，利用训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值；根据每个原子动作的评价值对预先构建的参数优化网络进行训练，得到训练好的参数优化网络；利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。

利用训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值是最优的评价值，利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值，在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数，即将无人机的工作模式调整到最优状态，进而在执行任务时提高了完成任务的效率和成功率。

上述基于强化学习的无人机知识模型组合的参数寻优方法中，首先利用无人机知识模型组合在预先设置的周期内对目标区域执行任务，得到当前时刻无人机知识模型组合的环境及时反馈值；根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络，根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响，通过损失函数来训练组合神经网络后，训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数，进而决定是否需要继续优化，再利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络，根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，得到训练好的原子动作评价网络，利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练，通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性，即无人机知识模型和无人机知识模型组合之间的一致性，进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价，与组合动作一致，会更加准确，利用训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值是最优的评价值，利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值，在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数，即将无人机的工作模式调整到最优状态，进而在执行任务时提高了完成任务的效率和成功率。

其中，

表示基于贝尔曼公式评价值的误差期望值，

表示环境及时反馈值，

表示损失因子，

表示在t+1时刻无人机知识模型组合处于态势信息

时的对应的组合动作的目标值，

表示对态势信息

的编码，

表示时序状态编码

表示在t时刻无人机知识模型组合处于态势信息

时的对应的组合动作

的估计值。

其中，m表示参数样本的数量，

表示在样本j+1中无人机知识模型组合处于态势信息

时的对应的组合动作

的目标值，

表示在样本j中无人机知识模型组合处于态势信息

时的对应的组合动作

的估计值。

其中，

表示原子动作的序号，

表示第k个原子动作的状态值，

表示第k个原子动作，

表示第k个原子动作的Q值。

在具体实施例中，Q值按强化学习的定义是状态u下采用动作a的价值，即完成对特定状态下各动作进行评估，可以表述为适配度，但更准确的应为表述为优劣评估值。

在其中一个实施例中，预先设置的训练约束条件为

，其中，

表示在t时刻处于态势信息

时的对应的组合动作

的评价值，

表示处于态势信息

时的前N-1个原子动作的状态值对应的原子动作的评价值。

其中，

表示处于态势信息

时的对应的组合动作

的评价值，

表示对态势信息

的编码，

表示处于态势信息

时的第N个原子动作的状态值对应的原子动作

的评价值，

表示对第k个原子动作的状态值的编码。

其中，

表示参数优化网络中的可学习参数，

表示第k个原子动作的状态值的编码。

在一个实施例中，如图3所示，主要训练三类网络，一是针对组合动作评估的组合动作评价网络、一是针对每个原子动作评估的原子动作评价网络，一是针对动作生成的原子动作策略网络，其训练过程主要先后关系是，先训练组合动作评价网络，在充分训练组合动作评价网络的基础上训练每个原子动作的原子动作评价网络，最后在每个原子动作评价网络的基础上训练原子动作策略网络。最终在使用过程中，主要依托原子动作策略网络生成无人机知识模型组合对应的超参数组合。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的无人机知识模型组合的参数寻优方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的无人机知识模型组合的参数寻优方法，其特征在于，所述方法包括：

获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本；所述无人机知识模型组合对应的超参数作为组合动作；所述无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作；

对所述组合动作进行结构化分解，得到多个一维原子动作；

根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练，得到训练好的组合动作评价网络；

利用多个原子动作对应的动作评价值的差值构建原子动作损失函数，根据所述原子动作损失函数对预先构建的原子动作神经网络进行训练，得到初始原子动作评价网络；

根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练，得到训练好的原子动作评价网络；

利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价，得到每个原子动作的评价值；

根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练，得到训练好的参数优化网络；

利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优化。

2.根据权利要求1所述的方法，其特征在于，所述组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数；所述历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值；根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数，利用所述组合动作损失函数对预先构建的组合动作网络进行训练，得到训练好的组合动作网络，包括：

根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数；所述评价值包含目标值和估计值；

根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。

3.根据权利要求2所述的方法，其特征在于，根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数，包括：

根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为