CN115470894B - 基于强化学习的无人机知识模型分时调用方法及装置 - Google Patents

基于强化学习的无人机知识模型分时调用方法及装置 Download PDF

Info

Publication number
CN115470894B
CN115470894B CN202211344077.1A CN202211344077A CN115470894B CN 115470894 B CN115470894 B CN 115470894B CN 202211344077 A CN202211344077 A CN 202211344077A CN 115470894 B CN115470894 B CN 115470894B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
knowledge model
vehicle knowledge
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211344077.1A
Other languages
English (en)
Other versions
CN115470894A (zh
Inventor
张驭龙
冯旸赫
陈丽
刘忠
徐越
李敏
张龙飞
梁星星
刘昀
阳方杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211344077.1A priority Critical patent/CN115470894B/zh
Publication of CN115470894A publication Critical patent/CN115470894A/zh
Application granted granted Critical
Publication of CN115470894B publication Critical patent/CN115470894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于强化学习的无人机知识模型分时调用方法及装置。所述方法包括:利用无人机知识模型在预先设置的周期内对目标区域执行任务,对所有无人机知识模型的环境及时反馈值进行计算,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,根据更新后的神经网络对不同时刻的无人机知识模型进行评估,利用得到的不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。采用本方法能够提高无人机工作效率。

Description

基于强化学习的无人机知识模型分时调用方法及装置
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
背景技术
随着无人机技术的发展和对无人机的深入研究,无人机技术的不断发展,无人机在航拍、农业、快递运输、灾难救援、野生动物观测、传染病监控、测绘、新闻报道、电力巡检、救灾、影视拍摄等诸多领域有着广泛的应用。随着无人机平台功能的不断增强、应用场景需求不断增加,无人机需要根据场景切换不同的工作模式,以实现不同功能并提高工作效率。
然而,目前的无人机工作模式切换的方法,存在效率低下、准确率低等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机工作效率的基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质。
一种基于强化学习的无人机知识模型分时调用方法,所述方法包括:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
在其中一个实施例中,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
Figure 498820DEST_PATH_IMAGE001
其中,
Figure 406734DEST_PATH_IMAGE003
表示环境及时反馈值,
Figure 89519DEST_PATH_IMAGE005
表示预先设置的周期,
Figure 791896DEST_PATH_IMAGE007
表示周期内的任意时刻,
Figure 356869DEST_PATH_IMAGE009
表示在i时刻的即时状态值,
Figure 537315DEST_PATH_IMAGE010
表示无人机知识模型对应的无人机动作,
Figure 65817DEST_PATH_IMAGE011
表示超参数,
Figure 470254DEST_PATH_IMAGE012
表示当前时刻选择的无人机知识模型。
在其中一个实施例中,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
Figure 522523DEST_PATH_IMAGE013
Figure 241081DEST_PATH_IMAGE014
其中,
Figure 695196DEST_PATH_IMAGE015
表示当前时刻环境中的态势信息,
Figure 677058DEST_PATH_IMAGE016
表示多步时长状态转移概率,
Figure 216624DEST_PATH_IMAGE017
表示下一时刻环境中的态势信息,
Figure 738872DEST_PATH_IMAGE018
表示下一时刻选择的无人机知识模型,
Figure 47494DEST_PATH_IMAGE019
表示在当前时刻的态势信息的评估值,
Figure 996995DEST_PATH_IMAGE020
表示当前态势信息下选择的知识模型的评估值。
在其中一个实施例中,根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
Figure 23857DEST_PATH_IMAGE021
Figure 84217DEST_PATH_IMAGE022
其中,
Figure 247345DEST_PATH_IMAGE023
Figure 164486DEST_PATH_IMAGE024
之间取值,表示无人机知识模型是否已被执行,
Figure 678644DEST_PATH_IMAGE025
表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,
Figure 277115DEST_PATH_IMAGE026
表示下一时刻的态势信息的评估值,
Figure 291820DEST_PATH_IMAGE027
表示决策周期态势为c并采用无人机知识模型
Figure 645441DEST_PATH_IMAGE028
后下一决策周期采纳无人机知识模型
Figure 381316DEST_PATH_IMAGE029
的价值,
Figure 49057DEST_PATH_IMAGE030
表示决策周期态势为c并采用无人机知识模型
Figure 655619DEST_PATH_IMAGE031
后下一决策周期
Figure 180142DEST_PATH_IMAGE032
中各态势与各无人机知识模型的出现概率,
Figure 403313DEST_PATH_IMAGE033
表示下一时刻选择的无人机知识模型的评估值。
在其中一个实施例中,利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在其中一个实施例中,利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
Figure 609166DEST_PATH_IMAGE034
其中,
Figure 601393DEST_PATH_IMAGE035
表示当下的无人机知识模型中具体执行的行为策略。
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
Figure 500079DEST_PATH_IMAGE036
其中,
Figure 944966DEST_PATH_IMAGE037
表示下一决策周期态势为c’,
Figure 688931DEST_PATH_IMAGE038
表示决策周期态势为
Figure 66823DEST_PATH_IMAGE039
并采用无人机知识模型
Figure 870831DEST_PATH_IMAGE040
后下一决策周期态势为
Figure 803015DEST_PATH_IMAGE041
下采取无人机知识模型
Figure 350671DEST_PATH_IMAGE042
的概率值,
Figure 114228DEST_PATH_IMAGE043
表示决策周期态势为
Figure 89137DEST_PATH_IMAGE044
并采用无人机知识模型
Figure 774196DEST_PATH_IMAGE045
后下一决策周期采纳无人机知识模型
Figure 128473DEST_PATH_IMAGE046
的价值,
Figure 684219DEST_PATH_IMAGE047
表示决策周期态势为
Figure 95609DEST_PATH_IMAGE048
并采用无人机知识模型
Figure 799123DEST_PATH_IMAGE049
时的优势值。
一种基于强化学习的无人机知识模型分时调用装置,所述装置包括:
获取环境及时反馈值模块,用于获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块,用于将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块,用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;
利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对神经网络进行更新,得到更新后的神经网络;
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
上述基于强化学习的无人机知识模型分时调用方法、装置、计算机设备和存储介质,本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数;利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值,将神经网络作为无人机知识模型的评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新,根据选项策略函数构建评估值函数的更新公式,利用更新后的神经网络对不同时刻的无人机知识模型进行评估,再根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机在执行任务中的工作效率。
附图说明
图1为一个实施例中一种基于强化学习的无人机知识模型分时调用方法的流程示意图;
图2为一个实施例中一致时间尺度分时调用的强化学习训练流程示意图;
图3为一个实施例中一种基于强化学习的无人机知识模型分时调用装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于强化学习的无人机知识模型分时调用方法,包括以下步骤:
步骤102,获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值。
无人机知识模型表示无人机中包含的多个模式,比如侦察模式,巡航模式和打击模式,无人机在执行任务时需要根据当前环境状况随机切换工作模式来提高执行任务的效率和准确率,通过对无人机知识模型进行分时调用可以提高无人机工作效率和准确率,环境及时反馈值是指人工基无人机任务情况设定的一个描述任务是否成功或任务状态优劣的反馈值,如任务成功则为1、失败为-1、其余为0;针对无人机知识模型评估的价值Q是基于环境反馈值r计算的。
步骤104,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数。
无人机知识模型的多步时长状态转移概率为
Figure 688581DEST_PATH_IMAGE050
,累积折扣反馈主要反映当下执行相应无人机知识模型后至任务结束,期望得到的环境反馈累积值。多步时长状态转移概率主要出现在公式的理论中,主要用以表示已知一个决策周期内状态信息c下采取无人机知识模型ω,其后在下一决策周期状态信息c’下采取无人机知识模型ω’的概率值,主要用于无人机知识模型价值的理论分析;实际在求解过程中,相关期望值主要通过统计估计得出,利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值。
步骤106,将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络。
传统方法在评估无人机知识模型价值时,是针对每个状态赋值,称为表格法,但由于状态可能是无限个(比如经纬度值)的或者无法离散化定义(比如一张态势图),则是无法使用表格法来为各无人机知识模型价值进行赋值并更新;本申请通过利用神经网络来作为评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新。利用神经网络来作为评估值函数,需要计算期望折扣累积回报关于网络参数θ的梯度,根据梯度来更新神经网络中的可学习参数,使得更新后的神经网络可以用来对无人机当前时刻所处的环境进行无人机知识模型的评估。
步骤108,根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
根据更新后的神经网络对不同时刻的无人机知识模型进行评估,根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机的工作效率。
上述基于强化学习的无人机知识模型分时调用方法中,本申请根据无人机知识模型的累积折扣反馈和多步时长状态转移概率构建每个无人机知识模型的选项策略函数;利用累积折扣反馈和多步时长状态转移概率构建的选项策略函数可以反映在当前时刻和下一个时刻在某一状态信息下采用各个无人机知识模型是否合适,利用选项策略函数对后续无人知识模型的评估值函数进行更新,有利于得到更准确的无人机知识模型在某一态势信息中是否应该被调用的评估值,将神经网络作为无人机知识模型的评估值函数,神经网络针对连续值与图像具有优秀的表征能力,可以解决传统表述法无法表述的困境,为无法离散化或连续的状态值赋估无人机知识模型价值并更新,根据选项策略函数构建评估值函数的更新公式,利用更新后的神经网络对不同时刻的无人机知识模型进行评估,再根据评估值选择最适合当前时刻当前环境的无人机知识模型,进而在一段时间内,形成无人机的模式切换顺序,提高无人机在执行任务中的工作效率。
在其中一个实施例中,对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
Figure 364413DEST_PATH_IMAGE051
其中,
Figure 681125DEST_PATH_IMAGE052
表示环境及时反馈值,
Figure 75197DEST_PATH_IMAGE053
表示预先设置的周期,
Figure 768347DEST_PATH_IMAGE054
表示周期内的任意时刻,
Figure 361002DEST_PATH_IMAGE055
表示在i时刻的即时状态值,
Figure 114195DEST_PATH_IMAGE056
表示无人机知识模型对应的无人机做出的动作,
Figure 729984DEST_PATH_IMAGE057
表示超参数,
Figure 961245DEST_PATH_IMAGE058
表示当前时刻选择的无人机知识模型。
在其中一个实施例中,根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
Figure 611669DEST_PATH_IMAGE059
Figure 332500DEST_PATH_IMAGE060
其中,
Figure 701165DEST_PATH_IMAGE061
表示当前时刻环境中的态势信息,
Figure 470538DEST_PATH_IMAGE062
表示多步时长状态转移概率,
Figure 975468DEST_PATH_IMAGE063
表示下一时刻环境中的态势信息,
Figure 70463DEST_PATH_IMAGE064
表示下一时刻选择的无人机知识模型,
Figure 923494DEST_PATH_IMAGE065
表示在当前时刻的态势信息的评估值,
Figure 293296DEST_PATH_IMAGE066
表示当前态势信息下选择的知识模型的评估值。态势信息主要是依据任务场景由人工进行定义,如无人机与目标位置、航向航速等信息。
在其中一个实施例中,根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
Figure 918312DEST_PATH_IMAGE067
Figure 918629DEST_PATH_IMAGE068
其中,
Figure 996306DEST_PATH_IMAGE069
Figure 435378DEST_PATH_IMAGE070
之间取值,表示无人机知识模型是否已被执行,
Figure 914901DEST_PATH_IMAGE071
表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,
Figure 351699DEST_PATH_IMAGE072
表示下一时刻的态势信息的评估值,
Figure 916672DEST_PATH_IMAGE073
表示决策周期态势为c并采用无人机知识模型
Figure 565959DEST_PATH_IMAGE074
后下一决策周期采纳无人机知识模型
Figure 165568DEST_PATH_IMAGE075
的价值,
Figure 570004DEST_PATH_IMAGE076
表示决策周期态势为c并采用无人机知识模型ω后下一决策周期
Figure 622274DEST_PATH_IMAGE077
中各态势与各无人机知识模型的出现概率,
Figure 340831DEST_PATH_IMAGE078
表示下一时刻选择的无人机知识模型的评估值。
在具体实施例中,如果
Figure 529367DEST_PATH_IMAGE079
取0,表示该无人机知识模型已被执行,则在进行无人机知识模型选择时跳过已被执行的模型,如果
Figure 307967DEST_PATH_IMAGE080
取1,表示该无人机知识模型未被执行。
在其中一个实施例中,利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在具体实施例中,如图2所示,根据梯度更新神经网络,将无人机知识模型输入到更新后的网络中会对应输出不同时刻的无人机知识模型的评分,无人机在执行任务的过程选择不同时刻得分最高的模型进行切换,比如当前环境属于预先设置的正常环境,则对应给出评分最高的为巡航模型,无人机会选择巡航模型进行飞行,当检测到环境发生异常变化时切换为侦察模式,如果遇到不属于己方编内的无人机时可以切换为打击模式对对方无人机进行打击,以确保执行任务过程中的安全性,对无人机知识模型进行分时调用使得无人机在任务执行周期内选择的都是最适宜当前环境的模式,进而提高了执行任务的工作效率。
在其中一个实施例中,利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
Figure 644271DEST_PATH_IMAGE081
其中,
Figure 166519DEST_PATH_IMAGE082
表示当下的无人机知识模型中具体执行的行为策略。
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
Figure 475141DEST_PATH_IMAGE083
其中,
Figure 424642DEST_PATH_IMAGE084
表示下一决策周期态势为c’,
Figure 403835DEST_PATH_IMAGE085
表示决策周期态势为
Figure 526512DEST_PATH_IMAGE086
并采用无人机知识模型
Figure 424061DEST_PATH_IMAGE087
后下一决策周期态势为
Figure 544464DEST_PATH_IMAGE088
下采取无人机知识模型
Figure 58622DEST_PATH_IMAGE089
的概率值,
Figure 922673DEST_PATH_IMAGE090
表示决策周期态势为
Figure 940307DEST_PATH_IMAGE091
并采用无人机知识模型
Figure 293928DEST_PATH_IMAGE092
后下一决策周期采纳无人机知识模型
Figure 29803DEST_PATH_IMAGE093
的价值,
Figure 431965DEST_PATH_IMAGE094
表示决策周期态势为
Figure 304106DEST_PATH_IMAGE095
并采用无人机知识模型
Figure 31891DEST_PATH_IMAGE096
时的优势值。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于强化学习的无人机知识模型分时调用装置,包括:获取环境及时反馈值模块302、选项策略函数模块304、神经网络更新模块306和分时调用模块308,其中:
获取环境及时反馈值模块302,用于获取多个待调用的无人机知识模型;无人机知识模型包括巡航模型、侦察模型和打击模型;利用无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块304,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块306,用于将神经网络作为无人机知识模型的评估值函数,根据选项策略函数构建评估值函数的更新公式,利用更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块308,用于根据更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用。
在其中一个实施例中,选项策略函数模块304还用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
Figure 786220DEST_PATH_IMAGE097
其中,
Figure 257653DEST_PATH_IMAGE098
表示环境及时反馈值,
Figure 249880DEST_PATH_IMAGE099
表示预先设置的周期,
Figure 617407DEST_PATH_IMAGE100
表示周期内的任意时刻,
Figure 327874DEST_PATH_IMAGE101
表示在i时刻的即时状态值,
Figure 134156DEST_PATH_IMAGE103
表示无人机知识模型对应的无人机动作,
Figure 980889DEST_PATH_IMAGE105
表示超参数,
Figure 47547DEST_PATH_IMAGE107
表示当前时刻选择的无人机知识模型。
在其中一个实施例中,选项策略函数模块304还用于根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
Figure 714152DEST_PATH_IMAGE108
Figure 527387DEST_PATH_IMAGE109
其中,
Figure 494206DEST_PATH_IMAGE110
表示当前时刻环境中的态势信息,
Figure 265853DEST_PATH_IMAGE111
表示多步时长状态转移概率,
Figure 950912DEST_PATH_IMAGE112
表示下一时刻环境中的态势信息,
Figure 36680DEST_PATH_IMAGE113
表示下一时刻选择的无人机知识模型,
Figure 858005DEST_PATH_IMAGE114
表示在当前时刻的态势信息的评估值,
Figure 3816DEST_PATH_IMAGE115
表示当前态势信息下选择的知识模型的评估值。
在其中一个实施例中,神经网络更新模块306还用于根据选项策略函数构建评估值函数的更新公式,包括:
根据选项策略函数构建评估值函数的更新公式为
Figure 707330DEST_PATH_IMAGE116
Figure 862367DEST_PATH_IMAGE117
其中,
Figure 538199DEST_PATH_IMAGE118
Figure 854911DEST_PATH_IMAGE119
之间取值,表示无人机知识模型是否已被执行,
Figure 248983DEST_PATH_IMAGE120
表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,
Figure 738871DEST_PATH_IMAGE121
表示下一时刻的态势信息的评估值,
Figure 534788DEST_PATH_IMAGE122
表示决策周期态势为c并采用无人机知识模型
Figure 287981DEST_PATH_IMAGE123
后下一决策周期采纳无人机知识模型
Figure 638191DEST_PATH_IMAGE124
的价值,
Figure 135031DEST_PATH_IMAGE125
表示决策周期态势为c并采用无人机知识模型
Figure 788385DEST_PATH_IMAGE123
后下一决策周期
Figure 509216DEST_PATH_IMAGE126
中各态势与各无人机知识模型的出现概率,
Figure 877881DEST_PATH_IMAGE127
表示下一时刻选择的无人机知识模型的评估值。
在其中一个实施例中,神经网络更新模块306还用于利用更新公式对神经网络进行更新,得到更新后的神经网络,包括:
利用更新公式计算神经网络中的参数的梯度,根据梯度更新神经网络,得到更新后的神经网络。
在其中一个实施例中,神经网络更新模块306还用于利用所述更新公式计算神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
Figure 912833DEST_PATH_IMAGE129
其中,
Figure 152184DEST_PATH_IMAGE130
表示当下的无人机知识模型中具体执行的行为策略。
在其中一个实施例中,利用更新公式计算所述神经网络中的参数的梯度之前,还包括:
Figure 247179DEST_PATH_IMAGE131
其中,
Figure 634298DEST_PATH_IMAGE132
表示下一决策周期态势为c’,
Figure 472941DEST_PATH_IMAGE133
表示决策周期态势为
Figure 97958DEST_PATH_IMAGE134
并采用无人机知识模型
Figure 98275DEST_PATH_IMAGE135
后下一决策周期态势为
Figure 175952DEST_PATH_IMAGE136
下采取无人机知识模型
Figure 552707DEST_PATH_IMAGE137
的概率值,
Figure 828967DEST_PATH_IMAGE138
表示决策周期态势为
Figure 265765DEST_PATH_IMAGE139
并采用无人机知识模型
Figure 830738DEST_PATH_IMAGE140
后下一决策周期采纳无人机知识模型
Figure 745605DEST_PATH_IMAGE141
的价值,
Figure 345213DEST_PATH_IMAGE142
表示决策周期态势为
Figure DEST_PATH_IMAGE143
并采用无人机知识模型
Figure 218491DEST_PATH_IMAGE144
时的优势值。
关于一种基于强化学习的无人机知识模型分时调用装置的具体限定可以参见上文中对于一种基于强化学习的无人机知识模型分时调用方法的限定,在此不再赘述。上述一种基于强化学习的无人机知识模型分时调用装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于强化学习的无人机知识模型分时调用方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于强化学习的无人机知识模型分时调用方法,其特征在于,所述方法包括:
获取多个待调用的无人机知识模型;所述无人机知识模型包括巡航模型、侦察模型和打击模型;
利用所述无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
将神经网络作为无人机知识模型的评估值函数,根据所述选项策略函数构建评估值函数的更新公式,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络;
根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;
利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用;
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
Figure 629238DEST_PATH_IMAGE002
其中,
Figure 684394DEST_PATH_IMAGE004
表示环境及时反馈值,
Figure 995290DEST_PATH_IMAGE006
表示预先设置的周期,
Figure 656079DEST_PATH_IMAGE008
表示周期内的任意时刻,
Figure 611396DEST_PATH_IMAGE010
表示在i时刻的即时状态值,
Figure 965017DEST_PATH_IMAGE012
表示无人机知识模型对应的无人机动作,
Figure 497630DEST_PATH_IMAGE014
表示超参数,
Figure 837475DEST_PATH_IMAGE016
表示当前时刻选择的无人机知识模型;
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
Figure 37512DEST_PATH_IMAGE018
Figure 437401DEST_PATH_IMAGE020
其中,
Figure 457310DEST_PATH_IMAGE022
表示当前时刻环境中的态势信息,
Figure 725480DEST_PATH_IMAGE024
表示多步时长状态转移概率,
Figure 389811DEST_PATH_IMAGE026
表示下一时刻环境中的态势信息,
Figure 350813DEST_PATH_IMAGE028
表示下一时刻选择的无人机知识模型,
Figure 858018DEST_PATH_IMAGE030
表示在当前时刻的态势信息的评估值,
Figure 274087DEST_PATH_IMAGE032
表示当前态势信息下选择的知识模型的评估值;
根据所述选项策略函数构建评估值函数的更新公式,包括:
根据所述选项策略函数构建评估值函数的更新公式为
Figure 448716DEST_PATH_IMAGE034
Figure 49462DEST_PATH_IMAGE036
其中,
Figure 919329DEST_PATH_IMAGE038
Figure 529302DEST_PATH_IMAGE040
之间取值,表示无人机知识模型是否已被执行,
Figure 292859DEST_PATH_IMAGE042
表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,
Figure 205451DEST_PATH_IMAGE044
表示下一时刻的态势信息的评估值,
Figure 687248DEST_PATH_IMAGE046
表示决策周期态势为c并采用无人机知识模型ω后下一决策周期采纳无人机知识模型
Figure 835332DEST_PATH_IMAGE048
的价值,
Figure 591411DEST_PATH_IMAGE050
表示决策周期态势为c并采用无人机知识模型ω后下一决策周期
Figure 65118DEST_PATH_IMAGE052
中各态势与各无人机知识模型的出现概率,
Figure 643998DEST_PATH_IMAGE054
表示下一时刻选择的无人机知识模型的评估值,
Figure 595773DEST_PATH_IMAGE056
表示无人机知识模型ω的累积折扣反馈。
2.根据权利要求1所述的方法,其特征在于,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络,包括:
利用所述更新公式计算所述神经网络中的参数的梯度,根据所述梯度更新所述神经网络,得到更新后的神经网络。
3.根据权利要求2所述的方法,其特征在于,利用所述更新公式计算所述神经网络中的参数的梯度,包括:
利用所述更新公式计算所述神经网络中的参数的梯度为
Figure 333922DEST_PATH_IMAGE058
其中,
Figure 853896DEST_PATH_IMAGE060
表示当下的无人机知识模型中具体执行的行为策略。
4.根据权利要求3所述的方法,其特征在于,利用所述更新公式计算所述神经网络中的参数的梯度,还包括:
Figure 44706DEST_PATH_IMAGE062
Figure 675539DEST_PATH_IMAGE064
其中,
Figure 2615DEST_PATH_IMAGE066
表示下一决策周期态势为
Figure 818124DEST_PATH_IMAGE068
Figure 371597DEST_PATH_IMAGE070
表示决策周期态势为
Figure 930754DEST_PATH_IMAGE072
并采用无人机知识模型
Figure 377916DEST_PATH_IMAGE074
后下一决策周期态势为
Figure 974113DEST_PATH_IMAGE076
下采取无人机知识模型
Figure DEST_PATH_IMAGE078
的概率值,
Figure DEST_PATH_IMAGE080
表示决策周期态势为
Figure 811619DEST_PATH_IMAGE072
并采用无人机知识模型
Figure 908888DEST_PATH_IMAGE074
后下一决策周期采纳无人机知识模型
Figure 351502DEST_PATH_IMAGE078
的价值,
Figure DEST_PATH_IMAGE082
表示决策周期态势为
Figure 508814DEST_PATH_IMAGE072
并采用无人机知识模型
Figure 33949DEST_PATH_IMAGE074
时的优势值。
5.一种基于强化学习的无人机知识模型分时调用装置,其特征在于,所述装置包括:
获取环境及时反馈值模块,用于获取多个待调用的无人机知识模型;所述无人机知识模型包括巡航模型、侦察模型和打击模型;利用所述无人机知识模型在预先设置的周期内对目标区域执行任务,得到所有无人机知识模型的环境及时反馈值;
选项策略函数模块,用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈;根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数;
神经网络更新模块,用于将神经网络作为无人机知识模型的评估值函数,根据所述选项策略函数构建评估值函数的更新公式,利用所述更新公式对所述神经网络进行更新,得到更新后的神经网络;
分时调用模块,用于根据所述更新后的神经网络对不同时刻的无人机知识模型进行评估,得到不同时刻的无人机知识模型的最终评估值;利用所述不同时刻的无人机知识模型的最终评估值进行无人机知识模型的分时调用;
选项策略函数模块还用于对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈,包括:
对所有无人机知识模型的环境及时反馈值进行计算,得到所有无人机知识模型的累积折扣反馈为
Figure DEST_PATH_IMAGE084
其中,
Figure DEST_PATH_IMAGE086
表示环境及时反馈值,
Figure DEST_PATH_IMAGE088
表示预先设置的周期,
Figure DEST_PATH_IMAGE090
表示周期内的任意时刻,
Figure DEST_PATH_IMAGE092
表示在i时刻的即时状态值,
Figure DEST_PATH_IMAGE094
表示无人机知识模型对应的无人机动作,
Figure DEST_PATH_IMAGE096
表示超参数,
Figure DEST_PATH_IMAGE098
表示当前时刻选择的无人机知识模型;
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数,包括:
根据所述无人机知识模型的累积折扣反馈和多步时长状态转移概率进行计算,得到每个无人机知识模型的选项策略函数为
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE102
其中,
Figure DEST_PATH_IMAGE104
表示当前时刻环境中的态势信息,
Figure DEST_PATH_IMAGE106
表示多步时长状态转移概率,
Figure DEST_PATH_IMAGE108
表示下一时刻环境中的态势信息,
Figure DEST_PATH_IMAGE110
表示下一时刻选择的无人机知识模型,
Figure DEST_PATH_IMAGE112
表示在当前时刻的态势信息的评估值,
Figure DEST_PATH_IMAGE114
表示当前态势信息下选择的知识模型的评估值;
神经网络更新模块还用于根据所述选项策略函数构建评估值函数的更新公式,包括:
根据所述选项策略函数构建评估值函数的更新公式为
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE118
其中,
Figure DEST_PATH_IMAGE120
Figure DEST_PATH_IMAGE122
之间取值,表示无人机知识模型是否已被执行,
Figure DEST_PATH_IMAGE124
表示当前时刻的下一时刻态势信息下选择的知识模型的评估值,
Figure DEST_PATH_IMAGE126
表示下一时刻的态势信息的评估值,
Figure DEST_PATH_IMAGE128
表示决策周期态势为c并采用无人机知识模型ω后下一决策周期采纳无人机知识模型
Figure DEST_PATH_IMAGE130
的价值,
Figure DEST_PATH_IMAGE132
表示决策周期态势为c并采用无人机知识模型ω后下一决策周期
Figure DEST_PATH_IMAGE134
中各态势与各无人机知识模型的出现概率,
Figure DEST_PATH_IMAGE136
表示下一时刻选择的无人机知识模型的评估值,
Figure DEST_PATH_IMAGE138
表示无人机知识模型ω的累积折扣反馈。
CN202211344077.1A 2022-10-31 2022-10-31 基于强化学习的无人机知识模型分时调用方法及装置 Active CN115470894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211344077.1A CN115470894B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型分时调用方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211344077.1A CN115470894B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型分时调用方法及装置

Publications (2)

Publication Number Publication Date
CN115470894A CN115470894A (zh) 2022-12-13
CN115470894B true CN115470894B (zh) 2023-01-31

Family

ID=84337018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211344077.1A Active CN115470894B (zh) 2022-10-31 2022-10-31 基于强化学习的无人机知识模型分时调用方法及装置

Country Status (1)

Country Link
CN (1) CN115470894B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11984038B2 (en) * 2019-03-26 2024-05-14 Sony Corporation Concept for designing and using an UAV controller model for controlling an UAV
CN111880567B (zh) * 2020-07-31 2022-09-16 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112507622B (zh) * 2020-12-16 2022-06-21 中国人民解放军国防科技大学 一种基于强化学习的反无人机任务分配方法
CN112947581B (zh) * 2021-03-25 2022-07-05 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113255218B (zh) * 2021-05-27 2022-05-31 电子科技大学 无线自供电通信网络的无人机自主导航及资源调度方法
CN114025330B (zh) * 2022-01-07 2022-03-25 北京航空航天大学 一种空地协同的自组织网络数据传输方法
CN114741886B (zh) * 2022-04-18 2022-11-22 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及系统

Also Published As

Publication number Publication date
CN115470894A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN111708355B (zh) 基于强化学习的多无人机动作决策方法和装置
CN111091200A (zh) 训练模型的更新方法、系统、智能体、服务器及存储介质
CN110929047A (zh) 关注邻居实体的知识图谱推理方法和装置
CN110334735B (zh) 多任务网络生成方法、装置、计算机设备和存储介质
CN113077052B (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113609786B (zh) 一种移动机器人导航方法、装置、计算机设备和存储介质
CN111126668A (zh) 基于图卷积网络的Spark作业时间预测方法和装置
CN111209215B (zh) 应用程序的测试方法、装置、计算机设备及存储介质
CN112132278A (zh) 模型压缩方法、装置、计算机设备及存储介质
CN111923919A (zh) 车辆控制方法、装置、计算机设备和存储介质
CN112001937A (zh) 基于视场感知的群体追逐与逃逸方法和装置
CN115470894B (zh) 基于强化学习的无人机知识模型分时调用方法及装置
CN114997036A (zh) 基于深度学习的网络拓扑重构方法、装置和设备
CN111738126B (zh) 基于贝叶斯网络和hmm的驾驶员疲劳检测方法和装置
CN113566831A (zh) 基于人机交互的无人机集群导航方法、装置和设备
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN110826695B (zh) 数据处理方法、装置和计算机可读存储介质
CN111639523B (zh) 目标检测方法、装置、计算机设备和存储介质
CN111898573A (zh) 图像预测方法、计算机设备和存储介质
CN114818484A (zh) 驾驶环境模型的训练方法及驾驶环境信息的预测方法
CN114119531A (zh) 应用于校园智慧平台的火灾检测方法、装置及计算机设备
CN111190574B (zh) 多级联动组件的选项选择方法、装置、设备和存储介质
CN115392444B (zh) 基于强化学习的无人机知识模型组合的参数寻优方法
CN113805587B (zh) 多无人车分布式编队控制方法、装置和设备
CN114389990A (zh) 基于深度强化学习的最短路阻断方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant