CN115470894B

CN115470894B - 基于强化学习的无人机知识模型分时调用方法及装置

Info

Publication number: CN115470894B
Application number: CN202211344077.1A
Authority: CN
Inventors: 张驭龙; 冯旸赫; 陈丽; 刘忠; 徐越; 李敏; 张龙飞; 梁星星; 刘昀; 阳方杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-31
Anticipated expiration: 2042-10-31
Also published as: CN115470894A

Abstract

本申请涉及一种基于强化学习的无人机知识模型分时调用方法及装置。所述方法包括：利用无人机知识模型在预先设置的周期内对目标区域执行任务，对所有无人机知识模型的环境及时反馈值进行计算，根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对神经网络进行更新，根据更新后的神经网络对不同时刻的无人机知识模型进行评估，利用得到的不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。采用本方法能够提高无人机工作效率。

Description

基于强化学习的无人机知识模型分时调用方法及装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。

背景技术

随着无人机技术的发展和对无人机的深入研究，无人机技术的不断发展，无人机在航拍、农业、快递运输、灾难救援、野生动物观测、传染病监控、测绘、新闻报道、电力巡检、救灾、影视拍摄等诸多领域有着广泛的应用。随着无人机平台功能的不断增强、应用场景需求不断增加，无人机需要根据场景切换不同的工作模式，以实现不同功能并提高工作效率。

然而，目前的无人机工作模式切换的方法，存在效率低下、准确率低等问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高无人机工作效率的基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。

一种基于强化学习的无人机知识模型分时调用方法，所述方法包括：

获取多个待调用的无人机知识模型；无人机知识模型包括巡航模型、侦察模型和打击模型；

利用无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；

对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；

根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；

将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对神经网络进行更新，得到更新后的神经网络；

根据更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；

利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。

在其中一个实施例中，对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈，包括：

对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈为

其中，

表示环境及时反馈值，

表示预先设置的周期，

表示周期内的任意时刻，

表示在i时刻的即时状态值，

表示无人机知识模型对应的无人机动作，

表示超参数，

表示当前时刻选择的无人机知识模型。

在其中一个实施例中，根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数，包括：

根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数为

其中，

表示当前时刻环境中的态势信息，

表示多步时长状态转移概率，

表示下一时刻环境中的态势信息，

表示下一时刻选择的无人机知识模型，

表示在当前时刻的态势信息的评估值，

表示当前态势信息下选择的知识模型的评估值。

在其中一个实施例中，根据选项策略函数构建评估值函数的更新公式，包括：

根据选项策略函数构建评估值函数的更新公式为

其中，

在

之间取值，表示无人机知识模型是否已被执行，

表示当前时刻的下一时刻态势信息下选择的知识模型的评估值，

表示下一时刻的态势信息的评估值，

表示决策周期态势为c并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为c并采用无人机知识模型

后下一决策周期

中各态势与各无人机知识模型的出现概率，

表示下一时刻选择的无人机知识模型的评估值。

在其中一个实施例中，利用更新公式对神经网络进行更新，得到更新后的神经网络，包括：

利用更新公式计算神经网络中的参数的梯度，根据梯度更新神经网络，得到更新后的神经网络。

在其中一个实施例中，利用所述更新公式计算神经网络中的参数的梯度，包括：

利用所述更新公式计算所述神经网络中的参数的梯度为

其中，

表示当下的无人机知识模型中具体执行的行为策略。

在其中一个实施例中，利用更新公式计算所述神经网络中的参数的梯度之前，还包括：

其中，

表示下一决策周期态势为c’，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期态势为

下采取无人机知识模型

的概率值，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为

并采用无人机知识模型

时的优势值。

一种基于强化学习的无人机知识模型分时调用装置，所述装置包括：

获取环境及时反馈值模块，用于获取多个待调用的无人机知识模型；无人机知识模型包括巡航模型、侦察模型和打击模型；利用无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；

选项策略函数模块，用于对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；

神经网络更新模块，用于将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对所述神经网络进行更新，得到更新后的神经网络；

分时调用模块，用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质，本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数；利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适，利用选项策略函数对后续无人知识模型的评估值函数进行更新，有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值，将神经网络作为无人机知识模型的评估值函数，神经网络针对连续值与图像具有优秀的表征能力，可以解决传统表述法无法表述的困境，为无法离散化或连续的状态值赋估无人机知识模型价值并更新，根据选项策略函数构建评估值函数的更新公式，利用更新后的神经网络对不同时刻的无人机知识模型进行评估，再根据评估值选择最适合当前时刻当前环境的无人机知识模型，进而在一段时间内，形成无人机的模式切换顺序，提高无人机在执行任务中的工作效率。

附图说明

图1为一个实施例中一种基于强化学习的无人机知识模型分时调用方法的流程示意图；

图2为一个实施例中一致时间尺度分时调用的强化学习训练流程示意图；

图3为一个实施例中一种基于强化学习的无人机知识模型分时调用装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于强化学习的无人机知识模型分时调用方法，包括以下步骤：

步骤102，获取多个待调用的无人机知识模型；无人机知识模型包括巡航模型、侦察模型和打击模型；利用无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值。

无人机知识模型表示无人机中包含的多个模式，比如侦察模式，巡航模式和打击模式，无人机在执行任务时需要根据当前环境状况随机切换工作模式来提高执行任务的效率和准确率，通过对无人机知识模型进行分时调用可以提高无人机工作效率和准确率，环境及时反馈值是指人工基无人机任务情况设定的一个描述任务是否成功或任务状态优劣的反馈值，如任务成功则为1、失败为-1、其余为0；针对无人机知识模型评估的价值Q是基于环境反馈值r计算的。

步骤104，对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数。

无人机知识模型的多步时长状态转移概率为

，累积折扣反馈主要反映当下执行相应无人机知识模型后至任务结束，期望得到的环境反馈累积值。多步时长状态转移概率主要出现在公式的理论中，主要用以表示已知一个决策周期内状态信息c下采取无人机知识模型ω，其后在下一决策周期状态信息c’下采取无人机知识模型ω’的概率值，主要用于无人机知识模型价值的理论分析；实际在求解过程中，相关期望值主要通过统计估计得出，利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适，利用选项策略函数对后续无人知识模型的评估值函数进行更新，有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值。

步骤106，将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对所述神经网络进行更新，得到更新后的神经网络。

传统方法在评估无人机知识模型价值时，是针对每个状态赋值，称为表格法，但由于状态可能是无限个（比如经纬度值）的或者无法离散化定义（比如一张态势图），则是无法使用表格法来为各无人机知识模型价值进行赋值并更新；本申请通过利用神经网络来作为评估值函数，神经网络针对连续值与图像具有优秀的表征能力，可以解决传统表述法无法表述的困境，为无法离散化或连续的状态值赋估无人机知识模型价值并更新。利用神经网络来作为评估值函数，需要计算期望折扣累积回报关于网络参数θ的梯度，根据梯度来更新神经网络中的可学习参数，使得更新后的神经网络可以用来对无人机当前时刻所处的环境进行无人机知识模型的评估。

步骤108，根据更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。

根据更新后的神经网络对不同时刻的无人机知识模型进行评估，根据评估值选择最适合当前时刻当前环境的无人机知识模型，进而在一段时间内，形成无人机的模式切换顺序，提高无人机的工作效率。

上述基于强化学习的无人机知识模型分时调用方法中，本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数；利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适，利用选项策略函数对后续无人知识模型的评估值函数进行更新，有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值，将神经网络作为无人机知识模型的评估值函数，神经网络针对连续值与图像具有优秀的表征能力，可以解决传统表述法无法表述的困境，为无法离散化或连续的状态值赋估无人机知识模型价值并更新，根据选项策略函数构建评估值函数的更新公式，利用更新后的神经网络对不同时刻的无人机知识模型进行评估，再根据评估值选择最适合当前时刻当前环境的无人机知识模型，进而在一段时间内，形成无人机的模式切换顺序，提高无人机在执行任务中的工作效率。

其中，

表示环境及时反馈值，

表示预先设置的周期，

表示周期内的任意时刻，

表示在i时刻的即时状态值，

表示无人机知识模型对应的无人机做出的动作，

表示超参数，

表示当前时刻选择的无人机知识模型。

其中，

表示当前时刻环境中的态势信息，

表示多步时长状态转移概率，

表示下一时刻环境中的态势信息，

表示下一时刻选择的无人机知识模型，

表示在当前时刻的态势信息的评估值，

表示当前态势信息下选择的知识模型的评估值。态势信息主要是依据任务场景由人工进行定义，如无人机与目标位置、航向航速等信息。

根据选项策略函数构建评估值函数的更新公式为

其中，

在

之间取值，表示无人机知识模型是否已被执行，

表示下一时刻的态势信息的评估值，

表示决策周期态势为c并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为c并采用无人机知识模型ω后下一决策周期

中各态势与各无人机知识模型的出现概率，

表示下一时刻选择的无人机知识模型的评估值。

在具体实施例中，如果

取0，表示该无人机知识模型已被执行，则在进行无人机知识模型选择时跳过已被执行的模型，如果

取1，表示该无人机知识模型未被执行。

在具体实施例中，如图2所示，根据梯度更新神经网络，将无人机知识模型输入到更新后的网络中会对应输出不同时刻的无人机知识模型的评分，无人机在执行任务的过程选择不同时刻得分最高的模型进行切换，比如当前环境属于预先设置的正常环境，则对应给出评分最高的为巡航模型，无人机会选择巡航模型进行飞行，当检测到环境发生异常变化时切换为侦察模式，如果遇到不属于己方编内的无人机时可以切换为打击模式对对方无人机进行打击，以确保执行任务过程中的安全性，对无人机知识模型进行分时调用使得无人机在任务执行周期内选择的都是最适宜当前环境的模式，进而提高了执行任务的工作效率。

利用所述更新公式计算所述神经网络中的参数的梯度为

其中，

表示当下的无人机知识模型中具体执行的行为策略。

其中，

表示下一决策周期态势为c’，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期态势为

下采取无人机知识模型

的概率值，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为

并采用无人机知识模型

时的优势值。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种基于强化学习的无人机知识模型分时调用装置，包括：获取环境及时反馈值模块302、选项策略函数模块304、神经网络更新模块306和分时调用模块308，其中：

获取环境及时反馈值模块302，用于获取多个待调用的无人机知识模型；无人机知识模型包括巡航模型、侦察模型和打击模型；利用无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；

选项策略函数模块304，用于对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；

神经网络更新模块306，用于将神经网络作为无人机知识模型的评估值函数，根据选项策略函数构建评估值函数的更新公式，利用更新公式对所述神经网络进行更新，得到更新后的神经网络；

分时调用模块308，用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。

在其中一个实施例中，选项策略函数模块304还用于对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈，包括：

其中，

表示环境及时反馈值，

表示预先设置的周期，

表示周期内的任意时刻，

表示在i时刻的即时状态值，

表示无人机知识模型对应的无人机动作，

表示超参数，

表示当前时刻选择的无人机知识模型。

在其中一个实施例中，选项策略函数模块304还用于根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数，包括：

其中，

表示当前时刻环境中的态势信息，

表示多步时长状态转移概率，

表示下一时刻环境中的态势信息，

表示下一时刻选择的无人机知识模型，

表示在当前时刻的态势信息的评估值，

表示当前态势信息下选择的知识模型的评估值。

在其中一个实施例中，神经网络更新模块306还用于根据选项策略函数构建评估值函数的更新公式，包括：

根据选项策略函数构建评估值函数的更新公式为

其中，

在

之间取值，表示无人机知识模型是否已被执行，

表示下一时刻的态势信息的评估值，

表示决策周期态势为c并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为c并采用无人机知识模型

后下一决策周期

中各态势与各无人机知识模型的出现概率，

表示下一时刻选择的无人机知识模型的评估值。

在其中一个实施例中，神经网络更新模块306还用于利用更新公式对神经网络进行更新，得到更新后的神经网络，包括：

在其中一个实施例中，神经网络更新模块306还用于利用所述更新公式计算神经网络中的参数的梯度，包括：

利用所述更新公式计算所述神经网络中的参数的梯度为

其中，

表示当下的无人机知识模型中具体执行的行为策略。

其中，

表示下一决策周期态势为c’，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期态势为

下采取无人机知识模型

的概率值，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为

并采用无人机知识模型

时的优势值。

关于一种基于强化学习的无人机知识模型分时调用装置的具体限定可以参见上文中对于一种基于强化学习的无人机知识模型分时调用方法的限定，在此不再赘述。上述一种基于强化学习的无人机知识模型分时调用装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的无人机知识模型分时调用方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的无人机知识模型分时调用方法，其特征在于，所述方法包括：

获取多个待调用的无人机知识模型；所述无人机知识模型包括巡航模型、侦察模型和打击模型；

利用所述无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；

根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；

将神经网络作为无人机知识模型的评估值函数，根据所述选项策略函数构建评估值函数的更新公式，利用所述更新公式对所述神经网络进行更新，得到更新后的神经网络；

根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；

利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用；

对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈，包括：

其中，

表示环境及时反馈值，

表示预先设置的周期，

表示周期内的任意时刻，

表示在i时刻的即时状态值，

表示无人机知识模型对应的无人机动作，

表示超参数，

表示当前时刻选择的无人机知识模型；

根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数，包括：

根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数为

其中，

表示当前时刻环境中的态势信息，

表示多步时长状态转移概率，

表示下一时刻环境中的态势信息，

表示下一时刻选择的无人机知识模型，

表示在当前时刻的态势信息的评估值，

表示当前态势信息下选择的知识模型的评估值；

根据所述选项策略函数构建评估值函数的更新公式，包括：

根据所述选项策略函数构建评估值函数的更新公式为

其中，

在

之间取值，表示无人机知识模型是否已被执行，

表示下一时刻的态势信息的评估值，

表示决策周期态势为c并采用无人机知识模型ω后下一决策周期采纳无人机知识模型

的价值，

中各态势与各无人机知识模型的出现概率，

表示下一时刻选择的无人机知识模型的评估值，

表示无人机知识模型ω的累积折扣反馈。

2.根据权利要求1所述的方法，其特征在于，利用所述更新公式对所述神经网络进行更新，得到更新后的神经网络，包括：

利用所述更新公式计算所述神经网络中的参数的梯度，根据所述梯度更新所述神经网络，得到更新后的神经网络。

3.根据权利要求2所述的方法，其特征在于，利用所述更新公式计算所述神经网络中的参数的梯度，包括：

利用所述更新公式计算所述神经网络中的参数的梯度为

其中，

表示当下的无人机知识模型中具体执行的行为策略。

4.根据权利要求3所述的方法，其特征在于，利用所述更新公式计算所述神经网络中的参数的梯度，还包括：

其中，

表示下一决策周期态势为

，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期态势为

下采取无人机知识模型

的概率值，

表示决策周期态势为

并采用无人机知识模型

后下一决策周期采纳无人机知识模型

的价值，

表示决策周期态势为

并采用无人机知识模型

时的优势值。

5.一种基于强化学习的无人机知识模型分时调用装置，其特征在于，所述装置包括：

获取环境及时反馈值模块，用于获取多个待调用的无人机知识模型；所述无人机知识模型包括巡航模型、侦察模型和打击模型；利用所述无人机知识模型在预先设置的周期内对目标区域执行任务，得到所有无人机知识模型的环境及时反馈值；

选项策略函数模块，用于对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈；根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算，得到每个无人机知识模型的选项策略函数；

神经网络更新模块，用于将神经网络作为无人机知识模型的评估值函数，根据所述选项策略函数构建评估值函数的更新公式，利用所述更新公式对所述神经网络进行更新，得到更新后的神经网络；

分时调用模块，用于根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估，得到不同时刻的无人机知识模型的最终评估值；利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用；

选项策略函数模块还用于对所有无人机知识模型的环境及时反馈值进行计算，得到所有无人机知识模型的累积折扣反馈，包括：

其中，

表示环境及时反馈值，

表示预先设置的周期，

表示周期内的任意时刻，

表示在i时刻的即时状态值，

表示无人机知识模型对应的无人机动作，

表示超参数，

表示当前时刻选择的无人机知识模型；

其中，

表示当前时刻环境中的态势信息，

表示多步时长状态转移概率，

表示下一时刻环境中的态势信息，

表示下一时刻选择的无人机知识模型，

表示在当前时刻的态势信息的评估值，

表示当前态势信息下选择的知识模型的评估值；

神经网络更新模块还用于根据所述选项策略函数构建评估值函数的更新公式，包括：

根据所述选项策略函数构建评估值函数的更新公式为

其中，

在

之间取值，表示无人机知识模型是否已被执行，

表示下一时刻的态势信息的评估值，

的价值，

中各态势与各无人机知识模型的出现概率，

表示下一时刻选择的无人机知识模型的评估值，

表示无人机知识模型ω的累积折扣反馈。