CN116432690A - 基于马尔科夫的智能决策方法、装置、设备及存储介质 - Google Patents
基于马尔科夫的智能决策方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116432690A CN116432690A CN202310709994.3A CN202310709994A CN116432690A CN 116432690 A CN116432690 A CN 116432690A CN 202310709994 A CN202310709994 A CN 202310709994A CN 116432690 A CN116432690 A CN 116432690A
- Authority
- CN
- China
- Prior art keywords
- state
- action
- aerial vehicle
- unmanned aerial
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 237
- 230000007704 transition Effects 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims description 55
- 230000002787 reinforcement Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 6
- 239000003795 chemical substances by application Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Feedback Control In General (AREA)
Abstract
本申请涉及一种基于马尔科夫的智能决策方法、装置、设备及存储介质。所述方法包括:获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。采用本方法能够在无人机低采样率条件下,有效缩短智能体探索时间,加快无人机执行任务的速度。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于马尔科夫的智能决策方法、装置、设备及存储介质。
背景技术
随着人工智能在制造业、工业、航空航天领域等高芯领域的快速发展,出现了策略学习的人工智能技术,其中一类为优化理论与经验知识的无人机平台的任务搜索策略,一类为基于试错机制的无人机策略学习方法,前者需要借助过往实际经验形成完善的规则库,通过规则触发无人机决策,虽然可以借助经验知识在决策前期加快决策进度,但规则库的容量和设计的局限性导致策略固定化,第二类策略学习方法主要通过强化学习在信息不完全、规则不完备的情况下采用试错机制与无人机所处环境不断交互,最大化累积奖励来学习优化策略,虽然可以在智能体与环境的交互过程中加入随机因素,使其可以广泛应用于解决动态与随机性问题,常用的学习方法为深度强化学习(Deep ReinforcementLearning, DRL)结合深度学习的感知能力与强化学习的决策能力为复杂环境状态下的决策问题提供解决思路,通过利用神经网络强大的表征能力直接拟合状态-动作值或策略,然而无人机捕捉到的环境状态样本的复杂性,导致其需要更多的采样和智能体需要更久的探索时间对策略进行梯度更新,使得无人机执行任务时无法及时做出下一步控制动作,执行任务时间拉长,效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高无人机任务执行效率的基于马尔科夫的智能决策方法、装置、设备及存储介质。
基于马尔科夫的智能决策方法,所述方法包括:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在其中一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在其中一个实施例中,包括:
在其中一个实施例中,还包括:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
其中,为当前时刻的期望奖励值,/>为当前时刻的期望奖励值的集合,/>为当前时刻状态空间,/>为当前时刻的状态,,/>为当前时刻的状态对应的先验知识信息的集合,/>为当前时刻的动作空间,/>为当前时刻的动作。
在其中一个实施例中,还包括:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
在其中一个实施例中,还包括:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种基于马尔科夫的智能决策装置,所述装置包括:
策略获取模块,用于获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
结合空间获取模块,用于获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
期望奖励值生成模块,用于根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
期望奖励值转化模块,用于分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
决策结果生成模块,用于通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
上述基于马尔科夫的智能决策方法、装置、设备及存储介质,通过获取无人机执行任务的状态和包含先验信息的动作空间,其中动作空间是由历史时刻每一时间步对应的无人机执行任务时的控制动作组成,使得无人机获取的状态为结合状态,允许智能体据此结合状态进行马尔科夫决策分析,使得无人机飞行移动的过程中,可以利用捕获到的状态组成状态空间,使得无人机可以利用结合状态作为先验信息,以此形成初始策略生成动作空间,在复杂环境或者通信信号受到屏蔽的情况下,利用无人机有限的采样信息组成结合状态的状态空间,根据状态空间计算每一个控制动作对应的状态转移概率,获得控制动作与状态之间具备一定规律的对应关系,针对该对应关系进行期望奖励值的强化学习,最终取期望奖励值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。由此可以有效缩短无人机对状态的探索时间,进而,保障决策结果的精度的同时,加快无人机执行任务的速度。
附图说明
图1为一个实施例中基于马尔科夫的智能决策方法的流程示意图;
图2为一个实施例中基于马尔科夫的智能决策方法中结合状态下执行动作的示意图;
图3为一个实施例中基于马尔科夫的智能决策装置的结构框图;
图4为一个实施例中状态扩展的马尔科夫决策装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,本申请提供的基于马尔科夫的智能决策方法,如图1所示,具体包括以下步骤:
步骤102,获取无人机执行任务的马尔科夫策略。
马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。另外,状态的信息包括无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境等;控制动作可以是追踪或者识别。
无人机中内嵌CPU处理器处理数据计算,无人机中还内嵌GPU、DSP等处理不同功能数据的芯片组件或者芯片集合,以此获取自身状态。加之,无人机外接红外传感器、摄像头、雷达探测仪等硬件设备,无人机与其所在的周围环境,通过硬件设备进行地理三维数据采样,以此获取执行任务中的状态。
具体的,获取无人机执行任务的马尔科夫策略,采用无人机获取的当前时刻的状态空间和无人机执行任务时控制动作组成的动作空间作为先验信息组成二元组,其中,/>为包括无人机与环境互动的所有状态的集合(即状态空间)和每一个状态对应的动作空间作为先验信息,先验信息为智能体执行状态后生成的动作空间,/>,/>为先验信息策略的参数,/>为根据先验知识信息在当前状态的策略,由此获取结合状态的状态空间。
步骤104,获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
步骤106,根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
具体的,根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,基于马尔科夫决策理论,状态转移概率可以转化为:
具体的,根据执行任务的无人机自身策略采用选项理论,根据选项理论,将时刻执行一个二元组即结合状态/>,结合状态选择/>时刻的控制动作,其中/>,根据智能体自身策略与当前/>时刻的先验信息输出当前/>时刻的动作空间/>,通过当前/>时刻的动作空间确定当前/>时刻的动作/>,通过执行当前/>时刻的动作得到/>当前时刻的期望奖励值为:
步骤108,分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
步骤110,通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
具体的,当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态空间的期望奖励值的集合可以转化为:
其中,为当前时刻的期望奖励值,/>为当前时刻状态空间的转移概率。进一步的,根据当前时刻状态空间的期望奖励值的集合与下一时刻状态通过贝尔曼方程生成下一时刻状态的状态价值,无人机通过芯片组或者芯片集合生成决策训练模型,采用强化学习将状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习,得到状态价值的最大值及其最大值对应的控制动作,进而以最大状态价值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
上述基于马尔科夫的智能决策方法、装置、设备及存储介质,通过获取无人机执行任务的状态和包含先验信息的动作空间,其中动作空间是由历史时刻每一时间步对应的无人机执行任务时的控制动作组成,使得无人机获取的状态为结合状态,允许智能体据此结合状态进行马尔科夫决策分析,使得无人机飞行移动的过程中,可以利用捕获到的状态组成状态空间,使得无人机可以利用结合状态作为先验信息,以此形成初始策略生成动作空间,在复杂环境或者通信信号受到屏蔽的情况下,利用无人机有限的采样信息组成结合状态的状态空间,根据状态空间计算每一个控制动作对应的状态转移概率,获得控制动作与状态之间具备一定规律的对应关系,针对该对应关系进行期望奖励值的强化学习,最终取期望奖励值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。由此可以有效缩短无人机对状态的探索时间,进而,保障决策结果的精度的同时,加快无人机执行任务的速度。
在其中一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
值得说明的是,无人机获取状态和控制动作的过程中,智能体只能利用马尔科夫决策理论,根据当前时刻获取的状态进行动作决策,因此,通过引入先验知识信息,将知识编码成控制动作与状态相关联,形成结合状态的状态空间,采用状态和与状态相关的先验信息策略的动作空间,用二元组形式表示:/>,其中,/>为先验信息策略的参数,/>为根据先验信息在当前状态的策略,/>为包括无人机获取的状态空间和每一个状态对应的先验信息,即下一时刻的状态空间。
值得说明的是,如图2所示,先将任务目标的形式化为一个单一的MDP(马尔科夫策略),在时刻进入状态/>时,首先通过先验信息输出控制动作/>,其中/>,对应图2中时间轴下侧方框区域,/>为先验信息策略的参数,然后允许智能体根据结合状态/>选择控制动作/>,其中/>,对应图中时间轴上侧区域,/>为无人机自身策略的参数。通过执行/>获得奖励,根据状态转移概率在/>时刻进入状态空间/>,如果/>不是终止状态则继续执行/>的决策过程。因为结合状态并不会对原始状态产生影响,其中的动作空间只是用于帮助智能体选择控制动作/>,状态转移概率对于所有可能的下一时刻状态/>求和为1。由此可以在无人机低采样率的情况下,提高智能体决策精度。
在其中一个实施例中,根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
其中,为当前时刻的期望奖励值,/>为当前时刻的期望奖励值的集合,为当前时刻状态空间,/>为当前时刻的状态,/>为当前时刻的状态对应的先验知识信息的集合,/>为当前时刻的动作空间,/>为当前时刻的动作。
值得说明的是,生成下一时刻状态空间的状态价值表示为:
在其中一个实施例中,生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
值得说明的是,通过对结合状态用于同一控制动作,提高了智能体在实时决策的探索时间,以及加快无人机执行任务的速度。
应该理解的是,虽然图1-图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于马尔科夫的智能决策装置,包括:策略获取模块302、结合空间获取模块304、期望奖励值生成模块306、期望奖励值转化模块308和决策结果生成模块310,其中:
策略获取模块302用于获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
结合空间获取模块304,用于获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
期望奖励值生成模块306,用于根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
期望奖励值转化模块308,用于分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
决策结果生成模块310,用于通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
关于基于马尔科夫的智能决策装置的具体限定可以参见上文中对于基于马尔科夫的智能决策方法的限定,在此不再赘述。上述基于马尔科夫的智能决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图4所示,提供了一种状态扩展的马尔科夫决策装置,包括:强化学习模块和先验知识模块,其中:
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于马尔科夫的智能决策方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3-图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
其中,为当前时刻的期望奖励值,/>为当前时刻的期望奖励值的集合,/>为当前时刻状态空间,/>为当前时刻的状态,/>为当前时刻的状态对应的先验知识信息的集合,/>为当前时刻的动作空间,/>为当前时刻的动作。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
在一个实施例中,处理器执行计算机程序时还实现以下步骤:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取无人机执行任务的马尔科夫策略。马尔科夫策略中的智能体为执行任务的无人机,智能体的动作为无人机执行任务时控制动作,智能体的状态为无人机所处任务环境中的状态。
获取马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间。动作空间是由历史时刻每一时间步对应的控制动作组成。状态空间由状态组成。
根据状态空间计算动作空间中每一个控制动作对应的状态转移概率,根据状态转移概率得到控制动作与状态之间对应关系的期望奖励值。
分别采用控制动作对应的动作价值函数和状态对应的状态价值函数表示期望奖励值。
通过强化学习算法优化动作价值函数和状态价值函数,以此将期望奖励值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
在一个实施例中,状态包括:无人机的位置坐标信息、无人机的姿态、无人机的飞行速度、无人机的飞行轨迹以及无人机在当前时刻的三维地理环境。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据执行任务的无人机自身策略与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的动作空间确定当前时刻的控制动作,根据当前时刻的控制动作对应的状态转移概率执行当前时刻的控制动作,得到当前时刻的期望奖励值为:
其中,为当前时刻的期望奖励值,/>为当前时刻的期望奖励值的集合,为当前时刻状态空间,/>为当前时刻的状态,/>为当前时刻的状态对应的先验知识信息的集合,/>为当前时刻的动作空间,/>为当前时刻的动作。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当前时刻的期望奖励值通过状态转移概率进行转化,得到当前时刻状态的期望奖励值的集合:
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:生成决策训练模型,将执行任务的无人机的状态与无人机的预设策略作为训练样本输入至决策训练模型,决策训练模型通过强化学习优化动作价值函数和所述状态价值函数,得到状态价值的最大值及状态价值的最大值对应的控制动作,以状态价值的最大值对应的控制动作作为无人机下一时刻任务执行的智能决策结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (9)
1.基于马尔科夫的智能决策方法,其特征在于,所述方法包括:
获取无人机执行任务的马尔科夫策略;所述马尔科夫策略中的智能体为执行任务的无人机,所述智能体的动作为所述无人机执行任务时控制动作,所述智能体的状态为无人机所处任务环境中的状态;
获取所述马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间;所述动作空间是由历史时刻每一时间步对应的所述控制动作组成;所述状态空间由所述状态组成;
根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值;
分别采用所述控制动作对应的动作价值函数和所述状态对应的状态价值函数表示所述期望奖励值;
通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果。
2.根据权利要求1所述的方法,其特征在于,所述状态包括:所述无人机的位置坐标信息、所述无人机的姿态、所述无人机的飞行速度、所述无人机的飞行轨迹以及所述无人机在当前时刻所处的三维地理环境。
4.根据权利要求3所述的方法,其特征在于,根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值,包括:
根据执行任务的无人机自身状态与当前时刻的先验知识信息输出当前时刻的动作空间,通过当前时刻的所述动作空间确定当前时刻的控制动作,根据所述当前时刻的控制动作对应的所述状态转移概率执行所述当前时刻的控制动作,得到当前时刻的期望奖励值为:
6.根据权利要求5所述的方法,其特征在于,通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果,还包括:
生成决策训练模型,将执行任务的所述无人机的状态与所述无人机的预设策略作为训练样本输入至决策训练模型,所述决策训练模型通过强化学习优化所述动作价值函数和所述状态价值函数,得到状态价值的最大值及所述状态价值的最大值对应的控制动作,以所述状态价值的最大值对应的控制动作作为所述无人机下一时刻任务执行的智能决策结果。
7.一种基于马尔科夫的智能决策装置,其特征在于,所述装置包括:
策略获取模块,用于获取无人机执行任务的马尔科夫策略;所述马尔科夫策略中的智能体为执行任务的无人机,所述智能体的动作为所述无人机执行任务时控制动作,所述智能体的状态为无人机所处任务环境中的状态;
结合空间获取模块,用于获取所述马尔科夫策略中智能体当前时刻的状态空间,以及包含先验信息的动作空间;所述动作空间是由历史时刻每一时间步对应的所述控制动作组成;所述状态空间由所述状态组成;
期望奖励值生成模块,用于根据所述状态空间计算所述动作空间中每一个所述控制动作对应的状态转移概率,根据所述状态转移概率得到所述控制动作与所述状态之间对应关系的期望奖励值;
期望奖励值转化模块,用于分别采用所述控制动作对应的动作价值函数和所述状态对应的状态价值函数表示所述期望奖励值;
决策结果生成模块,用于通过强化学习算法优化所述动作价值函数和所述状态价值函数,以此将所述期望奖励值对应的所述控制动作作为所述无人机下一时刻任务执行的智能决策结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310709994.3A CN116432690B (zh) | 2023-06-15 | 2023-06-15 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310709994.3A CN116432690B (zh) | 2023-06-15 | 2023-06-15 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432690A true CN116432690A (zh) | 2023-07-14 |
CN116432690B CN116432690B (zh) | 2023-08-18 |
Family
ID=87083675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310709994.3A Active CN116432690B (zh) | 2023-06-15 | 2023-06-15 | 基于马尔科夫的智能决策方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432690B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708355A (zh) * | 2020-06-19 | 2020-09-25 | 中国人民解放军国防科技大学 | 基于强化学习的多无人机动作决策方法和装置 |
US20210125052A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Reinforcement learning of tactile grasp policies |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN115454141A (zh) * | 2022-10-14 | 2022-12-09 | 南京理工大学 | 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法 |
CN115860107A (zh) * | 2023-01-30 | 2023-03-28 | 武汉大学 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
CN115907254A (zh) * | 2022-11-23 | 2023-04-04 | 东北大学 | 一种基于进化的多目标强化学习的车辆路线规划方法 |
-
2023
- 2023-06-15 CN CN202310709994.3A patent/CN116432690B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210125052A1 (en) * | 2019-10-24 | 2021-04-29 | Nvidia Corporation | Reinforcement learning of tactile grasp policies |
CN111708355A (zh) * | 2020-06-19 | 2020-09-25 | 中国人民解放军国防科技大学 | 基于强化学习的多无人机动作决策方法和装置 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN115454141A (zh) * | 2022-10-14 | 2022-12-09 | 南京理工大学 | 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法 |
CN115907254A (zh) * | 2022-11-23 | 2023-04-04 | 东北大学 | 一种基于进化的多目标强化学习的车辆路线规划方法 |
CN115860107A (zh) * | 2023-01-30 | 2023-03-28 | 武汉大学 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨萍 等: "基于模糊马尔科夫理论的机动智能体决策模型", 《系统工程与电子技术》, vol. 30, no. 03, pages 511 - 514 * |
Also Published As
Publication number | Publication date |
---|---|
CN116432690B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842261B2 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
US10853725B2 (en) | Neural networks with relational memory | |
CN111708355A (zh) | 基于强化学习的多无人机动作决策方法和装置 | |
CN112288770A (zh) | 基于深度学习的视频实时多目标检测与跟踪方法和装置 | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
Peralta et al. | Next-best view policy for 3d reconstruction | |
US11790661B2 (en) | Image prediction system | |
KR102382448B1 (ko) | 라이다 기반 객체 탐지를 위한 인공지능 모델의 입력 특징맵 생성방법, 장치 및 컴퓨터프로그램 | |
CN111292377B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111340190A (zh) | 构建网络结构的方法与装置、及图像生成方法与装置 | |
CN115860107A (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
CN111639523B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110824496B (zh) | 运动估计方法、装置、计算机设备和存储介质 | |
CN110728359B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
CN116432690B (zh) | 基于马尔科夫的智能决策方法、装置、设备及存储介质 | |
Marchetti et al. | Explainable sparse attention for memory-based trajectory predictors | |
Toubeh et al. | Risk-aware planning by confidence estimation using deep learning-based perception | |
Zhu et al. | Learning to disentangle latent physical factors for video prediction | |
CN116339130B (zh) | 基于模糊规则的飞行任务数据获取方法、装置及设备 | |
Li et al. | Dra-odm: a faster and more accurate deep recurrent attention dynamic model for object detection | |
Benrachou et al. | Improving Efficiency and Generalisability of Motion Predictions With Deep Multi-Agent Learning and Multi-Head Attention | |
US20230102866A1 (en) | Neural deep equilibrium solver | |
Tziortziotis et al. | Value function approximation through sparse bayesian modeling | |
Pardyl et al. | AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |