CN116432690A - 基于马尔科夫的智能决策方法、装置、设备及存储介质 - Google Patents

基于马尔科夫的智能决策方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116432690A
CN116432690A CN202310709994.3A CN202310709994A CN116432690A CN 116432690 A CN116432690 A CN 116432690A CN 202310709994 A CN202310709994 A CN 202310709994A CN 116432690 A CN116432690 A CN 116432690A
Authority
CN
China
Prior art keywords
state
action
aerial vehicle
unmanned aerial
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310709994.3A
Other languages
English (en)
Other versions
CN116432690B (zh
Inventor
冯旸赫
国子婧
胡星辰
梁星星
张龙飞
杜航
吴克宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310709994.3A priority Critical patent/CN116432690B/zh
Publication of CN116432690A publication Critical patent/CN116432690A/zh
Application granted granted Critical
Publication of CN116432690B publication Critical patent/CN116432690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请涉及一种基于马尔科夫的智能决策方法、装置、设备及存储介质。所述方法包括:获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。采用本方法能够在无人机低采样率条件下,有效缩短智能体探索时间,加快无人机执行任务的速度。

Description

基于马尔科夫的智能决策方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于马尔科夫的智能决策方法、装置、设备及存储介质。
背景技术
随着人工智能在制造业、工业、航空航天领域等高芯领域的快速发展,出现了策略学习的人工智能技术,其中一类为优化理论与经验知识的无人机平台的任务搜索策略,一类为基于试错机制的无人机策略学习方法,前者需要借助过往实际经验形成完善的规则库,通过规则触发无人机决策,虽然可以借助经验知识在决策前期加快决策进度,但规则库的容量和设计的局限性导致策略固定化,第二类策略学习方法主要通过强化学习在信息不完全、规则不完备的情况下采用试错机制与无人机所处环境不断交互,最大化累积奖励来学习优化策略,虽然可以在智能体与环境的交互过程中加入随机因素,使其可以广泛应用于解决动态与随机性问题,常用的学习方法为深度强化学习(Deep ReinforcementLearning, DRL)结合深度学习的感知能力与强化学习的决策能力为复杂环境状态下的决策问题提供解决思路,通过利用神经网络强大的表征能力直接拟合状态-动作值或策略,然而无人机捕捉到的环境状态样本的复杂性,导致其需要更多的采样和智能体需要更久的探索时间对策略进行梯度更新,使得无人机执行任务时无法及时做出下一步控制动作,执行任务时间拉长,效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机任务执行效率的基于马尔科夫的智能决策方法、装置、设备及存储介质。
基于马尔科夫的智能决策方法,所述方法包括:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在其中一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在其中一个实施例中,包括:
Figure SMS_1
其中,
Figure SMS_2
为当前时刻的状态与状态执行的控制动作转换至下一时刻状态的转移概率,/>
Figure SMS_3
为下一时刻的状态空间,/>
Figure SMS_4
为当前时刻的期望奖励值,/>
Figure SMS_5
为当前时刻状态空间的转移概率。
在其中一个实施例中,还包括:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
Figure SMS_6
其中,
Figure SMS_7
为当前时刻的期望奖励值,/>
Figure SMS_8
为当前时刻的期望奖励值的集合,/>
Figure SMS_9
为当前时刻状态空间,/>
Figure SMS_10
为当前时刻的状态,,/>
Figure SMS_11
为当前时刻的状态对应的先验知识信息的集合,/>
Figure SMS_12
为当前时刻的动作空间,/>
Figure SMS_13
为当前时刻的动作。
在其中一个实施例中,还包括:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
Figure SMS_14
其中,
Figure SMS_15
为当前时刻的期望奖励值,/>
Figure SMS_16
为当前时刻状态空间的转移概率。根据当前时刻状态的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值。
在其中一个实施例中,还包括:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种基于马尔科夫的智能决策装置,所述装置包括:
策略获取模块,用于获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
结合空间获取模块,用于获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
期望奖励值生成模块,用于根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
期望奖励值转化模块,用于分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
决策结果生成模块,用于通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
上述基于马尔科夫的智能决策方法、装置、设备及存储介质,通过获取无人机执行任务的状态和包含先验信息的动作空间,其中动作空间是由历史时刻每一时间步对应的无人机执行任务时的控制动作组成,使得无人机获取的状态为结合状态,允许智能体据此结合状态进行马尔科夫决策分析,使得无人机飞行移动的过程中,可以利用捕获到的状态组成状态空间,使得无人机可以利用结合状态作为先验信息,以此形成初始策略生成动作空间,在复杂环境或者通信信号受到屏蔽的情况下,利用无人机有限的采样信息组成结合状态的状态空间,根据状态空间计算每一个控制动作对应的状态转移概率,获得控制动作与状态之间具备一定规律的对应关系,针对该对应关系进行期望奖励值的强化学习,最终取期望奖励值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。由此可以有效缩短无人机对状态的探索时间,进而,保障决策结果的精度的同时,加快无人机执行任务的速度。
附图说明
图1为一个实施例中基于马尔科夫的智能决策方法的流程示意图;
图2为一个实施例中基于马尔科夫的智能决策方法中结合状态下执行动作的示意图;
图3为一个实施例中基于马尔科夫的智能决策装置的结构框图;
图4为一个实施例中状态扩展的马尔科夫决策装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,本申请提供的基于马尔科夫的智能决策方法,如图1所示,具体包括以下步骤:
步骤102,获取无人机执行任务的马尔科夫策略。
马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。另外,状态的信息包括无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境等;控制动作可以是追踪或者识别。
无人机中内嵌CPU处理器处理数据计算,无人机中还内嵌GPU、DSP等处理不同功能数据的芯片组件或者芯片集合,以此获取自身状态。加之,无人机外接红外传感器、摄像头、雷达探测仪等硬件设备,无人机与其所在的周围环境,通过硬件设备进行地理三维数据采样,以此获取执行任务中的状态。
具体的,获取无人机执行任务的马尔科夫策略,采用无人机获取的当前时刻的状态空间和无人机执行任务时控制动作组成的动作空间作为先验信息组成二元组
Figure SMS_17
,其中,/>
Figure SMS_18
为包括无人机与环境互动的所有状态的集合(即状态空间)和每一个状态对应的动作空间作为先验信息,先验信息为智能体执行状态后生成的动作空间
Figure SMS_19
,/>
Figure SMS_20
,/>
Figure SMS_21
为先验信息策略的参数,/>
Figure SMS_22
为根据先验知识信息在当前状态的策略,由此获取结合状态的状态空间。
步骤104,获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
步骤106,根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
具体的,根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,基于马尔科夫决策理论,状态转移概率可以转化为:
Figure SMS_23
其中,
Figure SMS_24
为当前时刻的状态与状态执行的控制动作转换至下一时刻的状态的转移概率,/>
Figure SMS_25
为下一时刻的状态空间,/>
Figure SMS_26
为当前时刻状态-动作的期望奖励值,
Figure SMS_27
为当前时刻状态空间的转移概率。
具体的,根据执行任务的无人机自身策略采用选项理论,根据选项理论,将时刻
Figure SMS_29
执行一个二元组即结合状态/>
Figure SMS_33
,结合状态选择/>
Figure SMS_37
时刻的控制动作
Figure SMS_31
,其中/>
Figure SMS_35
,根据智能体自身策略与当前/>
Figure SMS_38
时刻的先验信息输出当前/>
Figure SMS_40
时刻的动作空间/>
Figure SMS_28
,通过当前/>
Figure SMS_32
时刻的动作空间确定当前/>
Figure SMS_36
时刻的动作/>
Figure SMS_39
,通过执行当前/>
Figure SMS_30
时刻的动作得到/>
Figure SMS_34
当前时刻的期望奖励值为:
Figure SMS_41
其中,
Figure SMS_43
为/>
Figure SMS_45
时刻对应的状态,/>
Figure SMS_48
为/>
Figure SMS_44
时刻选择的动作空间,/>
Figure SMS_46
为当前时刻选择的控制动作,/>
Figure SMS_49
为/>
Figure SMS_50
时刻的状态-动作的期望奖励值,/>
Figure SMS_42
为/>
Figure SMS_47
时刻期望奖励值的集合。
步骤108,分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
步骤110,通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
具体的,当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态空间的期望奖励值的集合可以转化为:
Figure SMS_51
其中,为当前时刻的期望奖励值,/>
Figure SMS_53
为当前时刻状态空间的转移概率。进一步的,根据当前时刻状态空间的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值,无人机通过芯片组或者芯片集合生成决策训练模型,采用强化学习将状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习,得到状态价值的最大值及其最大值对应的控制动作,进而以最大状态价值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
上述基于马尔科夫的智能决策方法、装置、设备及存储介质,通过获取无人机执行任务的状态和包含先验信息的动作空间,其中动作空间是由历史时刻每一时间步对应的无人机执行任务时的控制动作组成,使得无人机获取的状态为结合状态,允许智能体据此结合状态进行马尔科夫决策分析,使得无人机飞行移动的过程中,可以利用捕获到的状态组成状态空间,使得无人机可以利用结合状态作为先验信息,以此形成初始策略生成动作空间,在复杂环境或者通信信号受到屏蔽的情况下,利用无人机有限的采样信息组成结合状态的状态空间,根据状态空间计算每一个控制动作对应的状态转移概率,获得控制动作与状态之间具备一定规律的对应关系,针对该对应关系进行期望奖励值的强化学习,最终取期望奖励值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。由此可以有效缩短无人机对状态的探索时间,进而,保障决策结果的精度的同时,加快无人机执行任务的速度。
在其中一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
值得说明的是,无人机获取状态和控制动作的过程中,智能体只能利用马尔科夫决策理论,根据当前时刻获取的状态进行动作决策,因此,通过引入先验知识信息,将知识编码成控制动作
Figure SMS_54
与状态相关联,形成结合状态的状态空间,采用状态和与状态相关的先验信息策略的动作空间,用二元组形式表示:/>
Figure SMS_55
,其中,/>
Figure SMS_56
为先验信息策略的参数,/>
Figure SMS_57
为根据先验信息在当前状态的策略,/>
Figure SMS_58
为包括无人机获取的状态空间和每一个状态对应的先验信息,即下一时刻的状态空间。
在其中一个实施例中,
Figure SMS_59
其中,
Figure SMS_60
为当前时刻的状态与状态执行的控制动作转换至下一时刻状态的转移概率,/>
Figure SMS_61
为下一时刻的状态空间,/>
Figure SMS_62
为当前时刻的期望奖励值,/>
Figure SMS_63
为当前时刻状态空间的转移概率。
值得说明的是,如图2所示,先将任务目标的形式化为一个单一的MDP(马尔科夫策略),在
Figure SMS_75
时刻进入状态/>
Figure SMS_66
时,首先通过先验信息输出控制动作/>
Figure SMS_73
,其中/>
Figure SMS_68
,对应图2中时间轴下侧方框区域,/>
Figure SMS_76
为先验信息策略的参数,然后允许智能体根据结合状态/>
Figure SMS_70
选择控制动作/>
Figure SMS_72
,其中/>
Figure SMS_67
,对应图中时间轴上侧区域,/>
Figure SMS_77
为无人机自身策略的参数。通过执行/>
Figure SMS_64
获得奖励,根据状态转移概率在/>
Figure SMS_74
时刻进入状态空间/>
Figure SMS_65
,如果/>
Figure SMS_79
不是终止状态则继续执行/>
Figure SMS_69
的决策过程。因为结合状态并不会对原始状态产生影响,其中的动作空间只是用于帮助智能体选择控制动作/>
Figure SMS_78
,状态转移概率对于所有可能的下一时刻状态/>
Figure SMS_71
求和为1。由此可以在无人机低采样率的情况下,提高智能体决策精度。
在其中一个实施例中,根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
Figure SMS_80
其中,
Figure SMS_81
为当前时刻的期望奖励值,/>
Figure SMS_82
为当前时刻的期望奖励值的集合,
Figure SMS_83
为当前时刻状态空间,/>
Figure SMS_84
为当前时刻的状态,/>
Figure SMS_85
为当前时刻的状态对应的先验知识信息的集合,/>
Figure SMS_86
为当前时刻的动作空间,/>
Figure SMS_87
为当前时刻的动作。
值得说明的是,生成下一时刻状态空间的状态价值表示为:
Figure SMS_88
其中,
Figure SMS_89
为无人机自身策略参数,/>
Figure SMS_90
为无人机自身策略参数对应的策略集合,/>
Figure SMS_91
为当前时刻状态生成的下一时刻状态的状态价值,/>
Figure SMS_92
为当前时刻状态空间的终止函数的折扣因子,/>
Figure SMS_93
为当前时刻状态的终止状态。
在其中一个实施例中,生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
值得说明的是,通过对结合状态用于同一控制动作,提高了智能体在实时决策的探索时间,以及加快无人机执行任务的速度。
应该理解的是,虽然图1-图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于马尔科夫的智能决策装置,包括:策略获取模块302、结合空间获取模块304、期望奖励值生成模块306、期望奖励值转化模块308和决策结果生成模块310,其中:
策略获取模块302用于获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
结合空间获取模块304,用于获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
期望奖励值生成模块306,用于根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
期望奖励值转化模块308,用于分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
决策结果生成模块310,用于通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
关于基于马尔科夫的智能决策装置的具体限定可以参见上文中对于基于马尔科夫的智能决策方法的限定,在此不再赘述。上述基于马尔科夫的智能决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图4所示,提供了一种状态扩展的马尔科夫决策装置,包括:强化学习模块和先验知识模块,其中:
先验知识模块,用于生成控制动作的信息
Figure SMS_94
,连同环境状态/>
Figure SMS_95
生成结合状态/>
Figure SMS_96
强化学习模块,用于以结合状态
Figure SMS_97
为输入数据,输出控制动作,执行动作,按照图2所示流程执行控制动作,由此实现了先验知识与RL的有机融合。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于马尔科夫的智能决策方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3-图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
Figure SMS_98
其中,
Figure SMS_99
为当前时刻的状态与状态执行的控制动作转换至下一时刻状态的转移概率,/>
Figure SMS_100
为下一时刻的状态空间,/>
Figure SMS_101
为当前时刻的期望奖励值,/>
Figure SMS_102
为当前时刻状态空间的转移概率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
Figure SMS_103
其中,
Figure SMS_104
为当前时刻的期望奖励值,/>
Figure SMS_105
为当前时刻的期望奖励值的集合,/>
Figure SMS_106
为当前时刻状态空间,/>
Figure SMS_107
为当前时刻的状态,/>
Figure SMS_108
为当前时刻的状态对应的先验知识信息的集合,/>
Figure SMS_109
为当前时刻的动作空间,/>
Figure SMS_110
为当前时刻的动作。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
Figure SMS_111
其中,
Figure SMS_112
为当前时刻的期望奖励值,/>
Figure SMS_113
为当前时刻状态空间的转移概率。根据当前时刻状态的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
Figure SMS_114
其中,
Figure SMS_115
为当前时刻的期望奖励值,/>
Figure SMS_116
为当前时刻的期望奖励值的集合,
Figure SMS_117
为当前时刻状态空间,/>
Figure SMS_118
为当前时刻的状态,/>
Figure SMS_119
为当前时刻的状态对应的先验知识信息的集合,/>
Figure SMS_120
为当前时刻的动作空间,/>
Figure SMS_121
为当前时刻的动作。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
Figure SMS_122
其中,
Figure SMS_123
为当前时刻的期望奖励值,/>
Figure SMS_124
为当前时刻状态空间的转移概率。根据当前时刻状态的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (9)

1.基于马尔科夫的智能决策方法,其特征在于,所述方法包括:
获取无人机执行任务的马尔科夫策略;所述马尔科夫策略中的智能体为执行任务的无人机,所述智能体的动作为所述无人机执行任务时控制动作,所述智能体的状态为无人机所处任务环境中的状态;
获取所述马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间;所述动作空间是由历史时刻每一时间步对应的所述控制动作组成;所述状态空间由所述状态组成;
根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值;
分别采用所述控制动作对应的动作价值函数和所述状态对应的状态价值函数表示所述期望奖励值;
通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果。
2.根据权利要求1所述的方法,其特征在于,所述状态包括:所述无人机的位置坐标信息、所述无人机的姿态、所述无人机的飞行速度、所述无人机的飞行轨迹以及所述无人机在当前时刻所处的三维地理环境。
3.根据权利要求2所述的方法,其特征在于,根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,包括:
根据智能体自身策略与当前时刻的先验知识信息输出当前时刻的动作信息集合,通过当前时刻的所述动作信息集合确定当前时刻的动作,通过执行所述当前时刻的动作得到当前时刻的期望奖励为:
Figure QLYQS_1
其中
Figure QLYQS_2
为当前时刻的状态与所述状态执行的控制动作转换至下一时刻状态的状态转移概率,/>
Figure QLYQS_3
为下一时刻的状态空间,/>
Figure QLYQS_4
为当前时刻的期望奖励值,/>
Figure QLYQS_5
为当前时刻所述状态空间的转移概率。
4.根据权利要求3所述的方法,其特征在于,根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值,包括:
根据执行任务的无人机自身状态与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的所述动作空间确定当前时刻的控制动作,根据所述当前时刻的控制动作对应的所述状态转移概率执行所述当前时刻的控制动作,得到当前时刻的期望奖励值为:
Figure QLYQS_6
其中,
Figure QLYQS_7
为当前时刻的期望奖励值,/>
Figure QLYQS_8
为当前时刻的期望奖励值的集合,/>
Figure QLYQS_9
为当前时刻状态空间,/>
Figure QLYQS_10
为当前时刻的状态,/>
Figure QLYQS_11
为当前时刻的状态对应的先验知识信息的集合,/>
Figure QLYQS_12
为当前时刻的动作空间,/>
Figure QLYQS_13
为当前时刻的动作。
5.根据权利要求4所述的方法,其特征在于,分别采用所述控制动作对应的动作价值函数和所述状态对应的状态价值函数表示所述期望奖励值,包括:
所述当前时刻的期望奖励值通过所述状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
Figure QLYQS_14
其中,
Figure QLYQS_15
为当前时刻的期望奖励值,/>
Figure QLYQS_16
为当前时刻状态空间的所述状态转移概率;
根据当前时刻状态的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值。
6.根据权利要求5所述的方法,其特征在于,通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果,还包括:
生成决策训练模型,将执行任务的所述无人机的状态与所述无人机的预设策略作为训练样本输入至决策训练模型,所述决策训练模型通过强化学习优化所述动作价值函数和所述状态价值函数,得到状态价值的最大值及所述状态价值的最大值对应的控制动作,以所述状态价值的最大值对应的控制动作作为所述无人机下一时刻任务执行的智能决策结果。
7.一种基于马尔科夫的智能决策装置,其特征在于,所述装置包括:
策略获取模块,用于获取无人机执行任务的马尔科夫策略;所述马尔科夫策略中的智能体为执行任务的无人机,所述智能体的动作为所述无人机执行任务时控制动作,所述智能体的状态为无人机所处任务环境中的状态;
结合空间获取模块,用于获取所述马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间;所述动作空间是由历史时刻每一时间步对应的所述控制动作组成;所述状态空间由所述状态组成;
期望奖励值生成模块,用于根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值;
期望奖励值转化模块,用于分别采用所述控制动作对应的动作价值函数和所述状态对应的状态价值函数表示所述期望奖励值;
决策结果生成模块,用于通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310709994.3A 2023-06-15 2023-06-15 基于马尔科夫的智能决策方法、装置、设备及存储介质 Active CN116432690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310709994.3A CN116432690B (zh) 2023-06-15 2023-06-15 基于马尔科夫的智能决策方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310709994.3A CN116432690B (zh) 2023-06-15 2023-06-15 基于马尔科夫的智能决策方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116432690A true CN116432690A (zh) 2023-07-14
CN116432690B CN116432690B (zh) 2023-08-18

Family

ID=87083675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310709994.3A Active CN116432690B (zh) 2023-06-15 2023-06-15 基于马尔科夫的智能决策方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116432690B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
US20210125052A1 (en) * 2019-10-24 2021-04-29 Nvidia Corporation Reinforcement learning of tactile grasp policies
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN115454141A (zh) * 2022-10-14 2022-12-09 南京理工大学 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法
CN115860107A (zh) * 2023-01-30 2023-03-28 武汉大学 一种基于多智能体深度强化学习的多机探寻方法及系统
CN115907254A (zh) * 2022-11-23 2023-04-04 东北大学 一种基于进化的多目标强化学习的车辆路线规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210125052A1 (en) * 2019-10-24 2021-04-29 Nvidia Corporation Reinforcement learning of tactile grasp policies
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN115454141A (zh) * 2022-10-14 2022-12-09 南京理工大学 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法
CN115907254A (zh) * 2022-11-23 2023-04-04 东北大学 一种基于进化的多目标强化学习的车辆路线规划方法
CN115860107A (zh) * 2023-01-30 2023-03-28 武汉大学 一种基于多智能体深度强化学习的多机探寻方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨萍 等: "基于模糊马尔科夫理论的机动智能体决策模型", 《系统工程与电子技术》, vol. 30, no. 03, pages 511 - 514 *

Also Published As

Publication number Publication date
CN116432690B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US11842261B2 (en) Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks
US10853725B2 (en) Neural networks with relational memory
CN111708355A (zh) 基于强化学习的多无人机动作决策方法和装置
CN112288770A (zh) 基于深度学习的视频实时多目标检测与跟踪方法和装置
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
Peralta et al. Next-best view policy for 3d reconstruction
US11790661B2 (en) Image prediction system
KR102382448B1 (ko) 라이다 기반 객체 탐지를 위한 인공지능 모델의 입력 특징맵 생성방법, 장치 및 컴퓨터프로그램
CN111292377B (zh) 目标检测方法、装置、计算机设备和存储介质
CN111340190A (zh) 构建网络结构的方法与装置、及图像生成方法与装置
CN115860107A (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
CN111639523B (zh) 目标检测方法、装置、计算机设备和存储介质
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
CN116432690B (zh) 基于马尔科夫的智能决策方法、装置、设备及存储介质
Marchetti et al. Explainable sparse attention for memory-based trajectory predictors
Toubeh et al. Risk-aware planning by confidence estimation using deep learning-based perception
Zhu et al. Learning to disentangle latent physical factors for video prediction
CN116339130B (zh) 基于模糊规则的飞行任务数据获取方法、装置及设备
Li et al. Dra-odm: a faster and more accurate deep recurrent attention dynamic model for object detection
Benrachou et al. Improving Efficiency and Generalisability of Motion Predictions With Deep Multi-Agent Learning and Multi-Head Attention
US20230102866A1 (en) Neural deep equilibrium solver
Tziortziotis et al. Value function approximation through sparse bayesian modeling
Pardyl et al. AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant