CN115392444B - 基于强化学习的无人机知识模型组合的参数寻优方法 - Google Patents

基于强化学习的无人机知识模型组合的参数寻优方法 Download PDF

Info

Publication number
CN115392444B
CN115392444B CN202211342407.3A CN202211342407A CN115392444B CN 115392444 B CN115392444 B CN 115392444B CN 202211342407 A CN202211342407 A CN 202211342407A CN 115392444 B CN115392444 B CN 115392444B
Authority
CN
China
Prior art keywords
atomic
action
unmanned aerial
aerial vehicle
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211342407.3A
Other languages
English (en)
Other versions
CN115392444A (zh
Inventor
张驭龙
冯旸赫
朱松岩
刘忠
黄金才
黄魁华
李敏
张龙飞
刘瑶
阳方杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211342407.3A priority Critical patent/CN115392444B/zh
Publication of CN115392444A publication Critical patent/CN115392444A/zh
Application granted granted Critical
Publication of CN115392444B publication Critical patent/CN115392444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于强化学习的无人机知识模型组合的参数寻优方法。所述方法包括:利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,根据每个原子动作的评价值对预先构建的参数优化网络进行训练,利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。采用本方法能够提高无人机知识模型组合准确率。

Description

基于强化学习的无人机知识模型组合的参数寻优方法
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。
背景技术
随着无人机自主控制技术的发展,传统基于逻辑规划与运筹计算等无人机知识模型技术得到长足进展,相关模型通常具有两个特点:一是需要依托经验配置超参数才能实施计算,二是实际应用中需要将多个先验知识模型进行组合使用,即需要前序模型为后序模型计算提供输入。因此,当下针对此类超参数型模型组合通常是使用“固定模型组合+固定经验参数”的形式进行应用的。
然而,目前固定无人机知识模型组合基础上的固定经验参数组合的方式难以依据态势或情况的变化动态调整模型超参数值,因而无法最大化发挥模型效能,造成计算准确度降低、规划质量下降等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机知识模型组合准确率的基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。
一种基于强化学习的无人机知识模型组合的参数寻优方法,所述方法包括:
获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;
对组合动作进行结构化分解,得到多个一维原子动作;
利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;
利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;
根据每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;
利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。
在其中一个实施例中,组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数;历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作网络进行训练,得到训练好的组合动作网络,包括:
根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数;评价值包含目标值和估计值;
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。
在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数,包括:
根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为
Figure 468DEST_PATH_IMAGE001
其中,
Figure 236278DEST_PATH_IMAGE002
表示基于贝尔曼公式评价值的误差期望值,
Figure 43697DEST_PATH_IMAGE003
表示环境及时反馈值,
Figure 303996DEST_PATH_IMAGE004
表示损失因子,
Figure 931286DEST_PATH_IMAGE005
表示在t+1时刻无人机知识模型组合处于态势信息
Figure 174049DEST_PATH_IMAGE006
时的对应的组合动作的目标值,
Figure 304816DEST_PATH_IMAGE007
表示对态势信息
Figure 974831DEST_PATH_IMAGE008
的编码,
Figure 89418DEST_PATH_IMAGE009
表示时序状态编码
Figure 870292DEST_PATH_IMAGE010
下的策略,即所述时序状态编码下采取相关动作的相应概率值,
Figure 121145DEST_PATH_IMAGE011
表示在t时刻无人机知识模型组合处于态势信息
Figure 463527DEST_PATH_IMAGE012
时的对应的组合动作
Figure 65409DEST_PATH_IMAGE013
的估计值。
在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数,包括:
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为
Figure 649975DEST_PATH_IMAGE014
其中,m表示参数样本的数量,
Figure 20913DEST_PATH_IMAGE015
表示在样本j+1中无人机知识模型组合处于态势信息
Figure 32731DEST_PATH_IMAGE016
时的对应的组合动作
Figure 856331DEST_PATH_IMAGE017
的目标值,
Figure 244587DEST_PATH_IMAGE018
表示在样本j中无人机知识模型组合处于态势信息
Figure 204453DEST_PATH_IMAGE019
时的对应的组合动作
Figure 387172DEST_PATH_IMAGE020
的估计值。
在其中一个实施例中,利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,包括:
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为
Figure 465112DEST_PATH_IMAGE021
其中,
Figure 125901DEST_PATH_IMAGE022
表示前一个原子动作Q值与其后原子动作差值和的期望值,Q值表示状态u下采用动作a的价值,N表示原子动作个数,
Figure 205852DEST_PATH_IMAGE023
表示原子动作的序号,
Figure 825052DEST_PATH_IMAGE024
表示第k个原子动作的状态值,
Figure 357665DEST_PATH_IMAGE025
表示第k个原子动作,
Figure 87723DEST_PATH_IMAGE026
表示第k个原子动作的Q值。
在其中一个实施例中,预先设置的训练约束条件为
Figure 756602DEST_PATH_IMAGE027
,其中,
Figure 546703DEST_PATH_IMAGE028
表示在t时刻处于态势信息
Figure 832191DEST_PATH_IMAGE029
时的对应的组合动作
Figure 601826DEST_PATH_IMAGE030
的评价值,
Figure 390791DEST_PATH_IMAGE031
表示处于态势信息
Figure 351794DEST_PATH_IMAGE032
时的第N-1个原子动作的状态值对应的原子动作
Figure 858998DEST_PATH_IMAGE033
的评价值。
在其中一个实施例中,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数;
利用混合损失函数对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络。
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数为
Figure 930860DEST_PATH_IMAGE034
其中,
Figure 105489DEST_PATH_IMAGE035
表示处于态势信息
Figure 706235DEST_PATH_IMAGE036
时的对应的组合动作
Figure 966315DEST_PATH_IMAGE037
的评价值,
Figure 310708DEST_PATH_IMAGE038
表示对态势信息
Figure 339844DEST_PATH_IMAGE039
的编码,
Figure 872676DEST_PATH_IMAGE040
表示处于态势信息
Figure 620052DEST_PATH_IMAGE041
时的第N个原子动作的状态值对应的原子动作
Figure 768137DEST_PATH_IMAGE042
的评价值,
Figure 651779DEST_PATH_IMAGE043
表示对第k个原子动作的状态值的编码。
在其中一个实施例中,根据每个原子动作的评价值对预先构建的参数优化网络进行训练的损失函数为
Figure 859906DEST_PATH_IMAGE044
其中,
Figure 828999DEST_PATH_IMAGE045
表示参数优化网络中的可学习参数,
Figure 515196DEST_PATH_IMAGE046
表示第k个原子动作的状态值的编码。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;
对组合动作进行结构化分解,得到多个一维原子动作;
利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;
利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;
根据每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;
利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;
对组合动作进行结构化分解,得到多个一维原子动作;
利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;
利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;
根据每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;
利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。
上述基于强化学习的无人机知识模型组合的参数寻优方法、计算机设备和存储介质,首先利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响,通过损失函数来训练组合神经网络后,训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数,进而决定是否需要继续优化,再利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性,即无人机知识模型和无人机知识模型组合之间的一致性,进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价,与组合动作一致,会更加准确,利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值是最优的评价值,利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值,在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数,即将无人机的工作模式调整到最优状态,进而在执行任务时提高了完成任务的效率和成功率。
附图说明
图1为一个实施例中基于强化学习的无人机知识模型组合的参数寻优方法的流程示意图;
图2为一个实施例中基于强化学习的无人机知识模型组合的参数寻优方法的框架图;
图3为一个实施例中每个原子动作的评价值对参数优化网络进行训练的过程;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于强化学习的无人机知识模型组合的参数寻优方法,包括以下步骤:
步骤102,获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;对组合动作进行结构化分解,得到多个一维原子动作。
无人机知识模型包括侦察模型,巡航模型,打击模型,无人机知识模型组合表示在一段连续时间内无人机在执行任务时需要切换的几个工作模式的组合,工作模式包括侦察模式、巡航模式和打击模式,通过对无人机知识模型参数的优化可以提高无人机在执行任务时的准确率和效率。例如使用K-means聚类算法进行目标体系分析,可以基于全局态势动态地决定目标聚类簇数目构建最优目标体系,并作为后续打击模型的输入。
同样,组合动作表示在一段连续时间内无人机根据当下的态势信息切换多个工作模式对应的动作的组合,原子动作表示无人机在工作模式下做出的对应的动作。如图2所示,上层N维组合动作经结构化分解后,可以等效为N个的长度为1维的原子动作。
步骤104,利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络。
环境及时反馈值是指人工基无人机任务情况设定的一个描述任务是否成功或任务状态优劣的反馈值,如任务成功则为1、失败为-1、其余为0。历史时刻指当前时刻之前无人机知识模型组合已经做出动作的时刻,参数样本是指无人机知识模型组合中的无人机知识模型已经生成的超参数样本,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响,通过损失函数来训练组合神经网络后,训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数,进而决定是否需要继续优化。预先构建的组合动作神经网络、原子动作神经网络、参数优化网络是现有技术中的神经网络,构建过程是现有技术,在本申请不做具体描述。
步骤106,利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络。
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,实现了将一个组合动作分解为序列基础上的原子动作逐个评估,并生成最终组合策略网络的参数,从功能上实现了针对固定的超参数型无人机知识模型的智能化动态选参用参,最大程度发挥无人机知识模型效能。
步骤108,根据预先设置的训练约束条件、训练好的组合动作评价网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络。
利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性,即无人机知识模型和无人机知识模型组合之间的一致性,进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价,与组合动作一致,会更加准确,实现针对原子动作的准确评估。
步骤110,利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;根据每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。
利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值是最优的评价值,利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值,在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数,即将无人机的工作模式调整到最优状态,进而在执行任务时提高了完成任务的效率和成功率。
上述基于强化学习的无人机知识模型组合的参数寻优方法中,首先利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数可以知道不同时刻无人机知识模型组合的超参数对无人机在执行任务时完整任务的成功率的影响,通过损失函数来训练组合神经网络后,训练好的组合动作评价网络可以通过当前时刻无人机知识模型组合的超参数与完整任务的成功率之间的关系评价该超参数是否是当前时刻最优的超参数,进而决定是否需要继续优化,再利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,利用训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,通过不断缩小组合动作评价值和原子动作评价值之间的误差可以使得原子动作和组合动作的一致性,即无人机知识模型和无人机知识模型组合之间的一致性,进而在后续进行原子动作评价时是基于组合动作的超参数时做出的评价,与组合动作一致,会更加准确,利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值是最优的评价值,利用最优的评价值来训练参数优化网络可以使得参数优化网络中的可学习参数都对应着最优的评价值,在后续利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化时输出无人机知识模型组合中每个无人机知识模型的最优超参数,即将无人机的工作模式调整到最优状态,进而在执行任务时提高了完成任务的效率和成功率。
在其中一个实施例中,组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数;历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作网络进行训练,得到训练好的组合动作网络,包括:
根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数;评价值包含目标值和估计值;
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。
在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数,包括:
根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为
Figure 518924DEST_PATH_IMAGE047
其中,
Figure 897952DEST_PATH_IMAGE048
表示基于贝尔曼公式评价值的误差期望值,
Figure 855806DEST_PATH_IMAGE049
表示环境及时反馈值,
Figure 345694DEST_PATH_IMAGE050
表示损失因子,
Figure 203928DEST_PATH_IMAGE051
表示在t+1时刻无人机知识模型组合处于态势信息
Figure 753858DEST_PATH_IMAGE052
时的对应的组合动作的目标值,
Figure 697543DEST_PATH_IMAGE053
表示对态势信息
Figure 725542DEST_PATH_IMAGE054
的编码,
Figure 438283DEST_PATH_IMAGE055
表示时序状态编码
Figure 159115DEST_PATH_IMAGE056
下的策略,即所述时序状态编码下采取相关动作的相应概率值,
Figure 590096DEST_PATH_IMAGE057
表示在t时刻无人机知识模型组合处于态势信息
Figure 421786DEST_PATH_IMAGE058
时的对应的组合动作
Figure 989033DEST_PATH_IMAGE059
的估计值。
在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数,包括:
根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为
Figure 647810DEST_PATH_IMAGE060
其中,m表示参数样本的数量,
Figure 300508DEST_PATH_IMAGE061
表示在样本j+1中无人机知识模型组合处于态势信息
Figure 935889DEST_PATH_IMAGE062
时的对应的组合动作
Figure 357643DEST_PATH_IMAGE063
的目标值,
Figure 685856DEST_PATH_IMAGE064
表示在样本j中无人机知识模型组合处于态势信息
Figure 825851DEST_PATH_IMAGE065
时的对应的组合动作
Figure 264922DEST_PATH_IMAGE066
的估计值。
在其中一个实施例中,利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,包括:
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为
Figure 806762DEST_PATH_IMAGE067
其中,
Figure 305876DEST_PATH_IMAGE068
表示前一个原子动作Q值与其后原子动作差值和的期望值,Q值表示状态u下采用动作a的价值,N表示原子动作个数,
Figure 667588DEST_PATH_IMAGE069
表示原子动作的序号,
Figure 146236DEST_PATH_IMAGE070
表示第k个原子动作的状态值,
Figure 542582DEST_PATH_IMAGE071
表示第k个原子动作,
Figure 212598DEST_PATH_IMAGE072
表示第k个原子动作的Q值。
在具体实施例中,Q值按强化学习的定义是状态u下采用动作a的价值,即完成对特定状态下各动作进行评估,可以表述为适配度,但更准确的应为表述为优劣评估值。
在其中一个实施例中,预先设置的训练约束条件为
Figure 61605DEST_PATH_IMAGE073
,其中,
Figure 842479DEST_PATH_IMAGE074
表示在t时刻处于态势信息
Figure 358911DEST_PATH_IMAGE075
时的对应的组合动作
Figure 934249DEST_PATH_IMAGE076
的评价值,
Figure 536132DEST_PATH_IMAGE077
表示处于态势信息
Figure 855118DEST_PATH_IMAGE078
时的前N-1个原子动作的状态值对应的原子动作的评价值。
在其中一个实施例中,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数;
利用混合损失函数对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络。
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数为
Figure 226056DEST_PATH_IMAGE079
其中,
Figure 733480DEST_PATH_IMAGE080
表示处于态势信息
Figure 291500DEST_PATH_IMAGE081
时的对应的组合动作
Figure 679756DEST_PATH_IMAGE082
的评价值,
Figure 639622DEST_PATH_IMAGE083
表示对态势信息
Figure 822342DEST_PATH_IMAGE084
的编码,
Figure 133237DEST_PATH_IMAGE085
表示处于态势信息
Figure 59605DEST_PATH_IMAGE086
时的第N个原子动作的状态值对应的原子动作
Figure 139556DEST_PATH_IMAGE087
的评价值,
Figure 758757DEST_PATH_IMAGE088
表示对第k个原子动作的状态值的编码。
在其中一个实施例中,根据每个原子动作的评价值对预先构建的参数优化网络进行训练的损失函数为
Figure 291369DEST_PATH_IMAGE089
其中,
Figure 257313DEST_PATH_IMAGE090
表示参数优化网络中的可学习参数,
Figure 191771DEST_PATH_IMAGE091
表示第k个原子动作的状态值的编码。
在一个实施例中,如图3所示,主要训练三类网络,一是针对组合动作评估的组合动作评价网络、一是针对每个原子动作评估的原子动作评价网络,一是针对动作生成的原子动作策略网络,其训练过程主要先后关系是,先训练组合动作评价网络,在充分训练组合动作评价网络的基础上训练每个原子动作的原子动作评价网络,最后在每个原子动作评价网络的基础上训练原子动作策略网络。最终在使用过程中,主要依托原子动作策略网络生成无人机知识模型组合对应的超参数组合。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的无人机知识模型组合的参数寻优方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于强化学习的无人机知识模型组合的参数寻优方法,其特征在于,所述方法包括:
获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;所述无人机知识模型组合对应的超参数作为组合动作;所述无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;
对所述组合动作进行结构化分解,得到多个一维原子动作;
利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据所述原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;
利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;
根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;
利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优化。
2.根据权利要求1所述的方法,其特征在于,所述组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数;所述历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值;根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用所述组合动作损失函数对预先构建的组合动作网络进行训练,得到训练好的组合动作网络,包括:
根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数;所述评价值包含目标值和估计值;
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。
3.根据权利要求2所述的方法,其特征在于,根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数,包括:
根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为
Figure 619555DEST_PATH_IMAGE001
其中,
Figure 182255DEST_PATH_IMAGE002
表示基于贝尔曼公式评价值的误差期望值,
Figure 448151DEST_PATH_IMAGE003
表示环境及时反馈值,
Figure 534617DEST_PATH_IMAGE004
表示损失因子,
Figure 176951DEST_PATH_IMAGE005
表示在t+1时刻无人机知识模型组合处于态势信息
Figure 656474DEST_PATH_IMAGE006
时的对应的组合动作的目标值,
Figure 358851DEST_PATH_IMAGE007
表示对态势信息
Figure 923825DEST_PATH_IMAGE008
的编码,
Figure 104270DEST_PATH_IMAGE009
表示时序状态编码
Figure 438300DEST_PATH_IMAGE010
下的策略,即所述时序状态编码下采取相关动作的相应概率值,
Figure 45998DEST_PATH_IMAGE011
表示在t时刻无人机知识模型组合处于态势信息
Figure 98268DEST_PATH_IMAGE012
时的对应的组合动作
Figure 285667DEST_PATH_IMAGE013
的估计值。
4.根据权利要求3所述的方法,其特征在于,根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数,包括:
根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为
Figure 739782DEST_PATH_IMAGE014
其中,m表示参数样本的数量,
Figure 518382DEST_PATH_IMAGE015
表示在样本j+1中无人机知识模型组合处于态势信息
Figure 792369DEST_PATH_IMAGE016
时的对应的组合动作
Figure 314617DEST_PATH_IMAGE017
的目标值,
Figure 623239DEST_PATH_IMAGE018
表示在样本j中无人机知识模型组合处于态势信息
Figure 369478DEST_PATH_IMAGE019
时的对应的组合动作
Figure 127831DEST_PATH_IMAGE020
的估计值。
5.根据权利要求4所述的方法,其特征在于,利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,包括:
利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为
Figure 453770DEST_PATH_IMAGE021
其中,
Figure 616898DEST_PATH_IMAGE022
表示前一个原子动作Q值与其后原子动作差值和的期望值,Q值表示状态u下采用动作a的评价值,N表示原子动作个数,
Figure 471721DEST_PATH_IMAGE023
表示原子动作的序号,
Figure 985879DEST_PATH_IMAGE024
表示第k个原子动作的状态值,
Figure 849930DEST_PATH_IMAGE025
表示第k个原子动作,
Figure 664302DEST_PATH_IMAGE026
表示第k个原子动作的Q值。
6.根据权利要求5所述的方法,其特征在于,所述预先设置的训练约束条件为
Figure 221186DEST_PATH_IMAGE027
,其中,
Figure 957060DEST_PATH_IMAGE028
表示在t时刻处于态势信息
Figure 624802DEST_PATH_IMAGE029
时的对应的组合动作
Figure 231364DEST_PATH_IMAGE030
的评价值,
Figure 959149DEST_PATH_IMAGE031
表示处于态势信息
Figure 182319DEST_PATH_IMAGE032
时的第N-1个原子动作的状态值对应的原子动作
Figure 184911DEST_PATH_IMAGE033
的评价值。
7.根据权利要求6所述的方法,其特征在于,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数;
利用所述混合损失函数对所述初始原子动作评价网络进行训练,得到训练好的原子动作评价网络。
8.根据权利要求7所述的方法,其特征在于,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数,包括:
根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数为
Figure 177137DEST_PATH_IMAGE034
其中,
Figure 75823DEST_PATH_IMAGE035
表示处于态势信息
Figure 520711DEST_PATH_IMAGE036
时的对应的组合动作
Figure 264676DEST_PATH_IMAGE037
的评价值,
Figure 374059DEST_PATH_IMAGE038
表示对态势信息
Figure 974805DEST_PATH_IMAGE039
的编码,
Figure 172568DEST_PATH_IMAGE040
表示处于态势信息
Figure 720224DEST_PATH_IMAGE039
时的第N个原子动作的状态值对应的原子动作
Figure 687043DEST_PATH_IMAGE041
的评价值,
Figure 396373DEST_PATH_IMAGE042
表示对第N个原子动作的状态值的编码。
9.根据权利要求8所述的方法,其特征在于,根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练的损失函数为
Figure 81432DEST_PATH_IMAGE043
其中,
Figure 432779DEST_PATH_IMAGE044
表示参数优化网络中的可学习参数,
Figure 50842DEST_PATH_IMAGE045
表示第k个原子动作的状态值的编码。
CN202211342407.3A 2022-10-31 2022-10-31 基于强化学习的无人机知识模型组合的参数寻优方法 Active CN115392444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211342407.3A CN115392444B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型组合的参数寻优方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211342407.3A CN115392444B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型组合的参数寻优方法

Publications (2)

Publication Number Publication Date
CN115392444A CN115392444A (zh) 2022-11-25
CN115392444B true CN115392444B (zh) 2022-12-30

Family

ID=84115294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211342407.3A Active CN115392444B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型组合的参数寻优方法

Country Status (1)

Country Link
CN (1) CN115392444B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308401B2 (en) * 2018-01-31 2022-04-19 Royal Bank Of Canada Interactive reinforcement learning with dynamic reuse of prior knowledge
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN111708355B (zh) * 2020-06-19 2023-04-18 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112861442B (zh) * 2021-03-10 2021-12-03 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113962012B (zh) * 2021-07-23 2024-05-24 中国科学院自动化研究所 无人机对抗策略优化方法及装置

Also Published As

Publication number Publication date
CN115392444A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN111708355B (zh) 基于强化学习的多无人机动作决策方法和装置
Dai et al. Bayesian optimization meets Bayesian optimal stopping
CN104504460A (zh) 预测叫车平台的用户流失的方法和装置
CN111126668A (zh) 基于图卷积网络的Spark作业时间预测方法和装置
CN112053560A (zh) 基于神经网络的短时交通流量预测方法、系统和存储介质
CN111026881A (zh) 知识图谱中多跳实体关系预测方法和装置
CN112882909A (zh) 燃料电池系统故障预测方法、装置
CN110838364A (zh) 一种基于深度学习混合模型的克罗恩病预测方法及装置
Shitole et al. Optimizing earth moving operations via reinforcement learning
EP3926420A1 (en) Making time-series predictions of a computer-controlled system
CN114239974B (zh) 多智能体的位置预测方法、装置、电子设备及存储介质
CN114999182A (zh) 基于lstm回馈机制的车流量预测方法、装置及设备
Bai et al. Efficient and differentiable conformal prediction with general function classes
CN114881343A (zh) 基于特征选择的电力系统短期负荷预测方法及装置
CN113537591A (zh) 长期天气预测方法、装置、计算机设备及存储介质
CN114997036A (zh) 基于深度学习的网络拓扑重构方法、装置和设备
CN110795522A (zh) 一种移动用户轨迹位置的预测方法及装置
CN115392444B (zh) 基于强化学习的无人机知识模型组合的参数寻优方法
CN112016702A (zh) 基于迁移学习的医疗数据处理方法、装置、设备及介质
CN110826695A (zh) 数据处理方法、装置和计算机可读存储介质
CN115017819A (zh) 一种基于混合模型的发动机剩余使用寿命预测方法及装置
Baratchi et al. Automated machine learning: past, present and future
CN114792113A (zh) 基于多阶邻居信息传递融合聚类网络的图聚类方法和装置
Bang et al. Safe Merging in Mixed Traffic with Confidence
CN113759709A (zh) 策略模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant