CN115470894B - 基于强化学习的无人机知识模型分时调用方法及装置 - Google Patents
基于强化学习的无人机知识模型分时调用方法及装置 Download PDFInfo
- Publication number
- CN115470894B CN115470894B CN202211344077.1A CN202211344077A CN115470894B CN 115470894 B CN115470894 B CN 115470894B CN 202211344077 A CN202211344077 A CN 202211344077A CN 115470894 B CN115470894 B CN 115470894B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- knowledge model
- vehicle knowledge
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种基于强化学习的无人机知识模型分时调用方法及装置。所述方法包括:利用无人机知识模型在预先设置的周期内对目标区域执行任务,对所有无人机知识模型的环境及时反馈值进行计算,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,根据更新后的神经网络对不同时刻的无人机知识模型进行评估,利用得到的不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。采用本方法能够提高无人机工作效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
背景技术
随着无人机技术的发展和对无人机的深入研究,无人机技术的不断发展,无人机在航拍、农业、快递运输、灾难救援、野生动物观测、传染病监控、测绘、新闻报道、电力巡检、救灾、影视拍摄等诸多领域有着广泛的应用。随着无人机平台功能的不断增强、应用场景需求不断增加,无人机需要根据场景切换不同的工作模式,以实现不同功能并提高工作效率。
然而,目前的无人机工作模式切换的方法,存在效率低下、准确率低等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机工作效率的基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
一种基于强化学习的无人机知识模型分时调用方法,所述方法包括:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
在其中一个实施例中,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
在其中一个实施例中,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值。
在其中一个实施例中,根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
其中,在之间取值,表示无人机知识模型是否已被执行,表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,表示下一时刻的态势信息的评估值,表示决策周期态势为c并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为c并采用无人机知识模型后下一决策周期中各态势与各无人机知识模型的出现概率,表示下一时刻选择的无人机知识模型的评估值。
在其中一个实施例中,利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在其中一个实施例中,利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
其中,表示下一决策周期态势为c’,表示决策周期态势为并采用无人机知识模型后下一决策周期态势为下采取无人机知识模型的概率值,表示决策周期态势为并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为并采用无人机知识模型时的优势值。
一种基于强化学习的无人机知识模型分时调用装置,所述装置包括:
获取环境及时反馈值模块,用于获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块,用于将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块,用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
上述基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质,本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数;利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值,将神经网络作为无人机知识模型的评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新,根据选项策略函数构建评估值函数的更新公式,利用更新后的神经网络对不同时刻的无人机知识模型进行评估,再根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机在执行任务中的工作效率。
附图说明
图1为一个实施例中一种基于强化学习的无人机知识模型分时调用方法的流程示意图;
图2为一个实施例中一致时间尺度分时调用的强化学习训练流程示意图;
图3为一个实施例中一种基于强化学习的无人机知识模型分时调用装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于强化学习的无人机知识模型分时调用方法,包括以下步骤:
步骤102,获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值。
无人机知识模型表示无人机中包含的多个模式,比如侦察模式,巡航模式和打击模式,无人机在执行任务时需要根据当前环境状况随机切换工作模式来提高执行任务的效率和准确率,通过对无人机知识模型进行分时调用可以提高无人机工作效率和准确率,环境及时反馈值是指人工基无人机任务情况设定的一个描述任务是否成功或任务状态优劣的反馈值,如任务成功则为1、失败为-1、其余为0;针对无人机知识模型评估的价值Q是基于环境反馈值r计算的。
步骤104,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数。
无人机知识模型的多步时长状态转移概率为,累积折扣反馈主要反映当下执行相应无人机知识模型后至任务结束,期望得到的环境反馈累积值。多步时长状态转移概率主要出现在公式的理论中,主要用以表示已知一个决策周期内状态信息c下采取无人机知识模型ω,其后在下一决策周期状态信息c’下采取无人机知识模型ω’的概率值,主要用于无人机知识模型价值的理论分析;实际在求解过程中,相关期望值主要通过统计估计得出,利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值。
步骤106,将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络。
传统方法在评估无人机知识模型价值时,是针对每个状态赋值,称为表格法,但由于状态可能是无限个(比如经纬度值)的或者无法离散化定义(比如一张态势图),则是无法使用表格法来为各无人机知识模型价值进行赋值并更新;本申请通过利用神经网络来作为评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新。利用神经网络来作为评估值函数,需要计算期望折扣累积回报关于网络参数θ的梯度,根据梯度来更新神经网络中的可学习参数,使得更新后的神经网络可以用来对无人机当前时刻所处的环境进行无人机知识模型的评估。
步骤108,根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机的工作效率。
上述基于强化学习的无人机知识模型分时调用方法中,本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数;利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值,将神经网络作为无人机知识模型的评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新,根据选项策略函数构建评估值函数的更新公式,利用更新后的神经网络对不同时刻的无人机知识模型进行评估,再根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机在执行任务中的工作效率。
在其中一个实施例中,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
在其中一个实施例中,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值。态势信息主要是依据任务场景由人工进行定义,如无人机与目标位置、航向航速等信息。
在其中一个实施例中,根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
其中,在之间取值,表示无人机知识模型是否已被执行,表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,表示下一时刻的态势信息的评估值,表示决策周期态势为c并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为c并采用无人机知识模型ω后下一决策周期中各态势与各无人机知识模型的出现概率,表示下一时刻选择的无人机知识模型的评估值。
在其中一个实施例中,利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在具体实施例中,如图2所示,根据梯度更新神经网络,将无人机知识模型输入到更新后的网络中会对应输出不同时刻的无人机知识模型的评分,无人机在执行任务的过程选择不同时刻得分最高的模型进行切换,比如当前环境属于预先设置的正常环境,则对应给出评分最高的为巡航模型,无人机会选择巡航模型进行飞行,当检测到环境发生异常变化时切换为侦察模式,如果遇到不属于己方编内的无人机时可以切换为打击模式对对方无人机进行打击,以确保执行任务过程中的安全性,对无人机知识模型进行分时调用使得无人机在任务执行周期内选择的都是最适宜当前环境的模式,进而提高了执行任务的工作效率。
在其中一个实施例中,利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
其中,表示下一决策周期态势为c’,表示决策周期态势为并采用无人机知识模型后下一决策周期态势为下采取无人机知识模型的概率值,表示决策周期态势为并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为并采用无人机知识模型时的优势值。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于强化学习的无人机知识模型分时调用装置,包括:获取环境及时反馈值模块302、选项策略函数模块304、神经网络更新模块306和分时调用模块308,其中:
获取环境及时反馈值模块302,用于获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块304,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块306,用于将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块308,用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
在其中一个实施例中,选项策略函数模块304还用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
在其中一个实施例中,选项策略函数模块304还用于根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值。
在其中一个实施例中,神经网络更新模块306还用于根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
其中,在之间取值,表示无人机知识模型是否已被执行,表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,表示下一时刻的态势信息的评估值,表示决策周期态势为c并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为c并采用无人机知识模型后下一决策周期中各态势与各无人机知识模型的出现概率,表示下一时刻选择的无人机知识模型的评估值。
在其中一个实施例中,神经网络更新模块306还用于利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在其中一个实施例中,神经网络更新模块306还用于利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
其中,表示下一决策周期态势为c’,表示决策周期态势为并采用无人机知识模型后下一决策周期态势为下采取无人机知识模型的概率值,表示决策周期态势为并采用无人机知识模型后下一决策周期采纳无人机知识模型的价值,表示决策周期态势为并采用无人机知识模型时的优势值。
关于一种基于强化学习的无人机知识模型分时调用装置的具体限定可以参见上文中对于一种基于强化学习的无人机知识模型分时调用方法的限定,在此不再赘述。上述一种基于强化学习的无人机知识模型分时调用装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的无人机知识模型分时调用方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于强化学习的无人机知识模型分时调用方法,其特征在于,所述方法包括:
获取多个待调用的无人机知识模型;所述无人机知识模型包括巡航模型、侦察模型和打击模型;
利用所述无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据所述选项策略函数构建评估值函数的更新公式,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络;
根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值;
根据所述选项策略函数构建评估值函数的更新公式,包括:
根据所述选项策略函数构建评估值函数的更新公式为
2.根据权利要求1所述的方法,其特征在于,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络,包括:
利用所述更新公式计算所述神经网络中的参数的梯度,根据所述梯度更新所述神经网络,得到更新后的神经网络。
5.一种基于强化学习的无人机知识模型分时调用装置,其特征在于,所述装置包括:
获取环境及时反馈值模块,用于获取多个待调用的无人机知识模型;所述无人机知识模型包括巡航模型、侦察模型和打击模型;利用所述无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块,用于将神经网络作为无人机知识模型的评估值函数,根据所述选项策略函数构建评估值函数的更新公式,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块,用于根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用;
选项策略函数模块还用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
其中,表示当前时刻环境中的态势信息,表示多步时长状态转移概率,表示下一时刻环境中的态势信息,表示下一时刻选择的无人机知识模型,表示在当前时刻的态势信息的评估值,表示当前态势信息下选择的知识模型的评估值;
神经网络更新模块还用于根据所述选项策略函数构建评估值函数的更新公式,包括:
根据所述选项策略函数构建评估值函数的更新公式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211344077.1A CN115470894B (zh) | 2022-10-31 | 2022-10-31 | 基于强化学习的无人机知识模型分时调用方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211344077.1A CN115470894B (zh) | 2022-10-31 | 2022-10-31 | 基于强化学习的无人机知识模型分时调用方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470894A CN115470894A (zh) | 2022-12-13 |
CN115470894B true CN115470894B (zh) | 2023-01-31 |
Family
ID=84337018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211344077.1A Active CN115470894B (zh) | 2022-10-31 | 2022-10-31 | 基于强化学习的无人机知识模型分时调用方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470894B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11984038B2 (en) * | 2019-03-26 | 2024-05-14 | Sony Corporation | Concept for designing and using an UAV controller model for controlling an UAV |
CN111880567B (zh) * | 2020-07-31 | 2022-09-16 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 |
CN112507622B (zh) * | 2020-12-16 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112947581B (zh) * | 2021-03-25 | 2022-07-05 | 西北工业大学 | 基于多智能体强化学习的多无人机协同空战机动决策方法 |
CN113255218B (zh) * | 2021-05-27 | 2022-05-31 | 电子科技大学 | 无线自供电通信网络的无人机自主导航及资源调度方法 |
CN114025330B (zh) * | 2022-01-07 | 2022-03-25 | 北京航空航天大学 | 一种空地协同的自组织网络数据传输方法 |
CN114741886B (zh) * | 2022-04-18 | 2022-11-22 | 中国人民解放军军事科学院战略评估咨询中心 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
-
2022
- 2022-10-31 CN CN202211344077.1A patent/CN115470894B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115470894A (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708355B (zh) | 基于强化学习的多无人机动作决策方法和装置 | |
CN111091200A (zh) | 训练模型的更新方法、系统、智能体、服务器及存储介质 | |
CN110929047A (zh) | 关注邻居实体的知识图谱推理方法和装置 | |
CN110334735B (zh) | 多任务网络生成方法、装置、计算机设备和存储介质 | |
CN113077052B (zh) | 用于稀疏奖励环境的强化学习方法、装置、设备及介质 | |
CN113609786B (zh) | 一种移动机器人导航方法、装置、计算机设备和存储介质 | |
CN111126668A (zh) | 基于图卷积网络的Spark作业时间预测方法和装置 | |
CN111209215B (zh) | 应用程序的测试方法、装置、计算机设备及存储介质 | |
CN112132278A (zh) | 模型压缩方法、装置、计算机设备及存储介质 | |
CN111923919A (zh) | 车辆控制方法、装置、计算机设备和存储介质 | |
CN112001937A (zh) | 基于视场感知的群体追逐与逃逸方法和装置 | |
CN115470894B (zh) | 基于强化学习的无人机知识模型分时调用方法及装置 | |
CN114997036A (zh) | 基于深度学习的网络拓扑重构方法、装置和设备 | |
CN111738126B (zh) | 基于贝叶斯网络和hmm的驾驶员疲劳检测方法和装置 | |
CN113566831A (zh) | 基于人机交互的无人机集群导航方法、装置和设备 | |
CN110824496B (zh) | 运动估计方法、装置、计算机设备和存储介质 | |
CN110826695B (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN111639523B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111898573A (zh) | 图像预测方法、计算机设备和存储介质 | |
CN114818484A (zh) | 驾驶环境模型的训练方法及驾驶环境信息的预测方法 | |
CN114119531A (zh) | 应用于校园智慧平台的火灾检测方法、装置及计算机设备 | |
CN111190574B (zh) | 多级联动组件的选项选择方法、装置、设备和存储介质 | |
CN115392444B (zh) | 基于强化学习的无人机知识模型组合的参数寻优方法 | |
CN113805587B (zh) | 多无人车分布式编队控制方法、装置和设备 | |
CN114389990A (zh) | 基于深度强化学习的最短路阻断方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |