CN107844460A - 一种基于p‑maxq的多水下机器人的围捕方法 - Google Patents
一种基于p‑maxq的多水下机器人的围捕方法 Download PDFInfo
- Publication number
- CN107844460A CN107844460A CN201710606786.5A CN201710606786A CN107844460A CN 107844460 A CN107844460 A CN 107844460A CN 201710606786 A CN201710606786 A CN 201710606786A CN 107844460 A CN107844460 A CN 107844460A
- Authority
- CN
- China
- Prior art keywords
- action
- maxq
- state
- mauvs
- auv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1669—Programme controls characterised by programming, planning systems for manipulators characterised by special application, e.g. multi-arm co-operation, assembly, grasping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Life Sciences & Earth Sciences (AREA)
Abstract
本发明公开了一种基于P‑MAXQ的多水下机器人的围捕方法,该方法采用概率统计Bayes公式和MAXQ算法结合的行为预测方法,并建立了相应的预测P‑MAXQ(Predication MAXQ)算法理论;在P‑MAXQ理论建立了基础上构建了动作状态预测表;并且在P‑MAXQ中增加了即时评价函数以及相应的完成函数使得MAUVS在围捕过程中行为得到即时的调整,因此,本发明一种基于P‑MAXQ的多水下机器人的围捕方法,提高整个MAUVS系统围捕时的准确率,进而提高MAUVS的分工和协作的效率。
Description
技术领域
本发明涉及计算机软件技术领域,具体涉及一种基于P-MAXQ的多水下机器人(Multiple Autonomous Underwater Vehicles System,MAUVS)的围捕方法。
背景技术
近年来,基于行为的移动机器人系统因其具有突出的鲁棒性、容错性及灵活性等优点,获得了越来越多的关注。多机器人系统是典型的多Agent系统,在非结构化环境中如何有效组织协调多个机器人完成复杂任务,已成为人工智能和机器人学研究的热点问题。但是一个很重要的问题是,随着机器人数目的增多,受到系统中的有限资源的限制,甚至会发生死锁导致整个多机器人系统瘫痪。为保证强化学习的收敛性,难免要采取组合动作,有时还需采用组合状态,这样的情况下,每个智能体的Q值表都是组合状态到组合动作的映射,学习空间的规模是机器人个数的指数函数,因此,它所具有的动作空间和状态空间都异常庞大,会造成维数灾难问题,而且学习速度及其慢,迫切需要加速的方法来支持,以提高多机器人强化学习算法的收敛速度。
近年来,一些多层前馈神经网络已用于实现强化学习算法,但是,神经网络不能利用经验知识,使得网络学习时间较长,也较难收敛到全局极值,基于FIS的Q学习算法也已提出,但是FIS的自学习能力和自适应能力较差。专利公开号CN101587329提出一种机器人预测的方法和系统,它根据此刻机器人在作业场景中的位姿信息和多个自由度的角度信息来预测下一时刻机器人的位姿信息和多个自由度的角度信息,这种方法虽然在机器人预测中取得良好的效果,但是没有考虑到机器人的自主学习性能,智能化学习程度不够,而且预测的结果是根据上一时刻执行结果得来,会造成空间复杂度增加,因此亟须提出一种更优的、动态性更好的围捕策略研究。
发明内容
本发明目的是为了解决多水下机器人MAUVS在围捕运行过程中随着学习时间的推移或者MAUVS团队中AUV数量的增多,会导致状态空间集成指数型增加,造成维数灾难问题,提出了一种基于P-MAXQ的多水下机器人的围捕方法。
本发明为了实现上述目的,采用以下技术方案实现:
一种基于P-MAXQ的多水下机器人的围捕方法,该方法采用概率统计Bayes公式和MAXQ算法结合的行为预测方法,并建立了相应的预测P-MAXQ(Predication MAXQ)算法理论;在P-MAXQ理论建立了基础上构建了动作状态预测表;并且在P-MAXQ中增加了即时评价函数以及相应的完成函数
所述的研究对象为AUVj具有一般性,并不表示特定AUV,以下括号里出现的i表示子任务或者分层下的子动作;所述的P-MAXQ算法理论的工作基本理论包括以下几个步骤:
(1)建立执行子任务Mi的状态动作序列seq{}:
表示为四元组{子任务,原子动作,前置条件,后置条件},子任务代表多水下机器人(MAUVS)当前任务;原子动作代表单个AUV的动作(如左行、右行、前行、后行以及停止),每个子任务都是由若干个原子动作完成;前置条件为动作执行之前环境需要满足的状态;后置条件为动作执行完毕后环境需满足的状态;建立动作预测表,当完成一个子任务,即seq序列输入完整后,将seq序列输入到动作预测表中,并把seq序列清空,以便于下次执行不同的子任务使再应用;其中,Mi表示第i个子任务,i为正整数;
(2)SMDP模型说明:
半马尔可夫决策过程SMDP(Semi-Markov decision process)是对马尔可夫决策过程MDP
(Markov decision process)的扩展,它允许动作在多个时的扩展,它允许动作在多个时间步内完成;系统状态可以在动作执行时连续变化,而不是像马尔可夫过程一样,状态变化由动作决定;在分层强化学习中,所建立的模型都是以半马尔可夫决策过程为基础的;一个SMDP可以描述成一个五元组{S,A,P,R,I};其中S,A分别是有限状态和动作的集合;P:P(s',N|s,a)表示采取动作a,在N步内系统状态由s转移到s'的概率;R:S*A→R是奖赏函数,R(s,a)是系统在状态s选择动作a后期望获得的总的奖赏值,它包含了分析MDP获得的报酬的所有必要信息;I是初始的状态分别;和MDP一样,在SMDP中,我们的目的是找到一个最优策略使得获得的奖赏值最大;
(3)构建基于MAUVS的SMDP模型:
将步骤(2)所述SMDP理论扩展到MAUVS领域,建立MAUVS SMDP(MSMDP)模型;假设AUV之间存在协作,并且在一定时间内具有相同的完成任务的能力;MAUVS中的个体行为彼此之间会有影响,且同一组的AUV在执行时延动作时,这些动作不一定在同一时间步完成,因此,需要对SMDP中决策时间的概念进行扩展;
(4)所述一个MSMDP包含七个组成部分{Ag,S,A,P,R,I,T},各部分定义如下:
Ag是n个MAUVS的有限集合,对任意AUVj∈Ag存在一个个体行为的有限集Aj;联合-动作空间中的元素表示AUVj,j=1,2,...,n当前执行的动作aj;S,P,R,I的定义与SMDP一致;表示采取动作在N步内系统状态由s转移到s’的概率;因为组成联合-动作是时延的,因此多步转移概率P依赖于怎么定义决策时刻,即终止方案T;这里T的终止方案采取Tcontinue终止方案;
所述步骤(2)中的MAUVS在围捕目标过程中发现障碍物,完成以下步骤:
(1)根据当前遇到障碍的AUV的状态s作为前置条件,查询看当前状态s的避障策略是否在动作预测表中,如果在动作预测表中则执行表中的动作直至后置条件满足;如果不满足则根据子任务和前置条件s,计算出满足后置条件的状态动作序列seq,并将新的seq加入到动作预测表中;
(2)MAUVS在围捕目标过程中如果没有发现障碍物,则根据当前子策略选择动作a并执行。
本发明的有益效果在于:
本发明一种基于P-MAXQ的多水下机器人的围捕方法,提出了P-MAXQ(PredicationMAXQ)算法理论,并且在此基础上构建了动作状态预测表,以及在P-MAXQ中增加了即时评价函数以及相应的完成函数使得MAUVS在围捕过程中行为得到即时的调整,提高整个MAUVS系统围捕时的准确率,进而提高MAUVS的分工和协作的效率。
附图说明
图1为本发明的根节点值函数的计算方法示意图;
图2为本发明MAUVS围捕的MAXQ流程图;
图3为本发明P-MAXQ的原理流程图;
图4为本发明基于P-MAXQ的MAUVS的围捕方法流程图。
具体实施方式
本发明与现有技术相比,通过采用概率统计方法Bayes公式和MAXQ算法相结合,建立P-MAXQ理论方法,并且为了使得学习经验能够得到很好的复用,构建动作状态预测表,在P-MAXQ理论中增加即时评价函数以及相应的完成函数使得MAUVS在围捕过程中行为得到即时的调整,提高整个MAUVS系统围捕时的准确率,进而提高MAUVS的分工和协作的效率。下面结合附图对本发明方法进行进一步的解释和说明。
本发明以AUVj为研究对象是具有一般性,并不表示特定AUV,下文若括号里出现的i表示子任务或者分层下的子动作;若出现诸如aj此类,i在字母上标的全部看做为AUVi的具体动作包括如下步骤:
(1)满足P-MAXQ(Predication MAXQ)的工作原理的基础理论包括以下几个步骤:
(1.1)建立执行子任务Mi的状态动作序列seq{}:表示为四元组{子任务,原子动作,前置条件,后置条件},子任务代表MAUVS当前任务;原子动作代表单个AUV的动作(如左行、右行、前行、后行以及停止),每个子任务都是由若干个原子动作完成;前置条件为动作执行之前环境需要满足的状态例如:避障行为,要满足的前置条件为:AUV运动方向发现障碍物;围捕行为,要满足的前置条件为:围捕AUV发现目标或者收到有关于目标所在的位置信息;搜索行为,要满足的前置条件:没有发现目标AUV;后置条件为动作执行完毕后环境需满足的状态例如:避障行为,要满足的后置条件为:AUV运动方向没有障碍物;围捕行为,要满足的后置条件为:参与围捕的MAUVS构成了包围圈;搜索行为,要满足的后置条件为:发现目标AUV或者接受到有关于目标所在的位置信息)。建立动作预测表,当完成一个子任务,即seq序列输入完整后,将seq序列输入到动作预测表中,并把seq序列清空,以便于下次执行不同的子任务使再应用,其中,Mi表示第i个子任务,i为正整数。
(1.2)SMDP模型说明:
半马尔可夫决策过程SMDP(Semi-Markov decision process)是对马尔可夫决策过程MDP
(Markov decision process)的扩展,它允许动作在多个时的扩展,它允许动作在多个时间步内完成;系统状态可以在动作执行时连续变化,而不是像马尔可夫过程一样,状态变化由动作决定;在分层强化学习中,所建立的模型都是以半马尔可夫决策过程为基础的;一个SMDP可以描述成一个五元组{S,A,P,R,I};其中S,A分别是有限状态和动作的集合;P:P(s',N|s,a)表示采取动作a,在N步内系统状态由s转移到s'的概率;R:S*A→R是奖赏函数,R(s,a)是系统在状态s选择动作a后期望获得的总的奖赏值,它包含了分析MDP获得的报酬的所有必要信息;I是初始的状态分别;和MDP一样,在SMDP中,我们的目的是找到一个最优策略使得获得的奖赏值最大;
(1.3)构建基于MAUVS的SMDP模型:
将步骤(2)所述SMDP理论扩展到MAUVS领域,建立MAUVS SMDP(MSMDP)模型;假设AUV之间存在协作,并且在一定时间内具有相同的完成任务的能力;MAUVS中的个体行为彼此之间会有影响,且同一组的AUV在执行时延动作时,这些动作不一定在同一时间步完成,因此,需要对SMDP中决策时间的概念进行扩展;
(1.4)所述一个MSMDP包含七个组成部分{Ag,S,A,P,R,I,T},各部分定义如下:
Ag是n个MAUVS的有限集合,对任意AUVj∈Ag存在一个个体行为的有限集Aj;联合-动作空间中的元素表示AUVj,j=1,2,...,n当前执行的动作aj;S,P,R,I的定义与SMDP一致;表示采取动作在N步内系统状态由s转移到s’的概率;因为组成联合-动作是时延的,因此多步转移概率P依赖于怎么定义决策时刻,即终止方案T;这里T的终止方案采取Tcontinue终止方案;其特点是:当联合动作中第一个动作完成时,其他为完成的动作不被终止,而是继续执行,只有完成动作的AUV重新选择动作。
(2)P-MAXQ分层强化学习模型与算法,包括以下几个步骤:
(2.1)构建分层结构模型:
设给定任务为M,并将它分解成一系列子任务的集合{M0,M1,...,Mn},习惯上,定义M0为根任务,每个子任务可以定义为一个四元组表示{Si,Ai,Ti,Ri};其中Si为Mi的状态集合;Ai为子任务Mi允许的行动集合,Ai既可以是M的基本行动集合,也可以是子任务集合;Ti为Mi的终止状态集,当状态变迁到集合Ti中时Mi的求解过程结束;Ri表示完成子任务Mi的奖励值,细化说明R(s',N|s,a)为从状态s∈Si变迁到状态s'∈Ti的奖赏函数,它表明了上级子任务对在状态s采取行动a对于到达终止状态s'的偏好程度,对于Mi的终止态s',如果它不是上层期待的目标状态比如围捕过程中,某一AUV应该进行左转围捕目标,但是执行的动作却不是左转行为,则R(s'|s,a)会给出一个较大的负评价抑制Mi子任务产生这个终止态。
参照Q学习算法,定义V(i,s,a)为Mi在状态s执行动作a得到的期望奖赏,动作a是由策略π决定的,下面公式中是表示为Mi在状态s时根据策略π所得到的动作a,得到:
V(i,s,a)=V(a,s)+C(i,s,a)
a=πi(s)
其中,a'表示在状态s'时所执行的动作,R(s'|s,a)是叶节点上定义的即时奖赏函数。上述公式表达了MAXQ分层结构某一分层策略评价函数的分解方程,这些方程递归地将根层的项目评价函数V(0,s)分解成单个子任务{M0,M1,...,Mn}的项目评价函数和完成函数C(i,s,a),i=1,2,...,n。表达评价函数分解的最基本内容包括所有非基本动作子任务的C函数和基本动作V函数。
根据上面的公式,在状态s下按照策略π,假设顶层子任务M0的策略选择了子任务M1,M1的策略选择了M2,如此依次选择下去,直到子任务Mn-1的策略选择了基本动作an(an是指子任务Mn-1下面的原子动作),则根节点子任务的值函数V(0,s)分解为:
V(0,s)=V(n,s)+C(n-1,s,an)+...+C(1,s,a2)+C(0,s,a1)
其中,假设(0,M1,M2,...,Mn)为按照策略π得到的一条自上而下的节点路径,结合图1所示,显示了V(0,s)的计算方法。
结合图2所示,为MAUVS围捕的MAXQ流程图。以MAUVS围捕作为分层模型进行分层学习说明,每个子任务是由子目标定义的,当子目标达到时子任务结束。假设对每一个子任务用一个策略来完成,可以将完成这些子任务的策略看作是一个个子程序,上层子任务的完成就可以看成调用下一层子任务程序的过程。若具备每个子任务的策略,则可以获得整个任务策略。如协调规划任务是通过调用躲避子任务策略或趋向目标点子任务策略程序来实现的,而躲避子任务策略又调用子层的三个子任务策略程序等。称这些策略的集合为一个分层策略,在这个分层策略中,执行每一个子程序直到进入该子任务的终止状态。
根据上述方法,从图2可以看出,在状态s1下计算项目评价函数V(围捕,s1)。围捕根据它的策略π围捕(s1),获得其策略动作为避障子任务,于是调用V避障计算V(围捕,s1,避障),为完成围捕任务而执行完避障子任务获得完成函数C(围捕,s1,避障),这仅仅是完成了子任务避障获得的报酬,还要估计执行避障自身的期望报酬,这里我们选择避障策略的其中一个子任务躲避静态障碍物作为讨论,于是调用V(躲避静态障碍物)计算V(壁障,s1,躲避静态障碍物),以及子任务躲避静态障碍物的完成函数C(避障,s1,躲避静态障碍物),并调用C(躲避静态障碍物),搜索躲避静态障碍物子任务的策略获得子任务为左转,于是调用V(左转),由于子任务是基本动作,因此执行完基本动作后终止,计算执行次基本动作的评价函数V(左转,s1),这样可得到任务的项目评价函数为:
V(围捕,s1)=V(左转,s1)+C(躲避静态障碍物,s1,左转)+
C(避障,s1,躲避静态障碍物)+C(围捕,s1,避障)
每个Mi子节点的学习得到的策略首先是局部化,每次学习最终会到达Mi的一个终止态,但如果这个终止态不是上层的目标子状态,该次学习的策略就是一个对全局不利的局部优化策略,对这种策略应该增加惩罚函数项,因此在各个子任务中增加即时评价函数为此刻AUV所处的状态,对Mi中不利的终止态进行负评价,然后在Vi节点中在增加考虑的完成函数由决定当前的行为策略,而Mi节点向上层计算Vi时仍使用C。因此每个子任务的V节点需要维护两张表Ci(s,a),而基本动作子任务i只需要维护V(i,s)∑P(s'|s,i)R(s'|s,i),P(s'|s,i)表示在执行子任务i时所处的状态为s,当执行完毕后所处状态为s'的概率;R(s'|s,i)表示在执行子任务i时所处的状态为s,当执行完毕后所处状态为s'的奖励值),定义(为子任务的完成函数,V表示子任务的值函数)为根据当前完成函数和值函数V确定的在状态s'可采取的最佳动作。
为学习率,意思为在t时刻执行i任务AUVj的学习率;为即时评价函数的即时完成函数,其意思是t时刻处于s状态的AUVj选择了aj动作执行任务i的即时完成函数;为子任务的全局评价函数R(s'|s,i)的完成函数,其意思是t时刻处于s状态的AUVj选择了aj动作执行任务i的完成函数;(a*,s'意思是t时刻处于s'状态的AUVj完成任务执行最优动作时获得的值函数;γ为折扣率,这里规定γ=0.9。
(3)P-MAXQ分层强化学习预测概率的理论构建,包括以下几个步骤:
(3.1)采用概率统计方法和Bayes公式来估计其他AUV动作概率,起步骤包括以下内容:
设pj(s,i,ak)表示AUVj认为AUVi在s状态下可能采取的动作ak的概率。若AUVi在状态s下探索不同行为的次数为(Ni)s,以及AUVi探索动作ak的次数为那么pj(s,i,ak)的表达式为:
当AUVj发现自己处于状态s时,预计出对其影响最大的围捕AUV将要采取的动作来做出自己的最优反应策略选择。比如每个AUV在状态s都有自己动作,AUVj在观察完联合动作后最可能处于的新状态s',那么就可以根据AUVj当前的动作aj和它最有可能处于的新状态s'为基础来预测出其他AUV下一时刻的动作集合,更新它对其他AUV在状态s时可能采取各自行为的概率。根据贝叶斯公式得出:
其中,上式中p(ai|aj,s')表示AUVj发现自己处于状态s时,采取行为aj时AUVi采取动作aj的概率;其中p(ai|aj,s')是AUVi,AUVj采取联合动作后到达状态s'的状态转移概率,p(s'|ai)为AUVj采取单独行动后到达s'状态的转移概率。由此可将公式作为推广:AUVj所有的行为策略记为ak,其他AUV的所有组合行为策略记为(不含ak),所以得到计算公式为:
(4)结合图3所示,是P-MAXQ的原理流程图,包括下面几个步骤:
(4.1)如果Mi是基本动作,包括以下步骤:
(4.1.1)在状态s下执行动作(或者子任务)i,收到回报值为r(s,i),观察新状态s';
(4.1.2)更新原子动作奖励;
表示围捕MAUVS处于s状态时,执行基本动作i能在t+1时刻完成j任务的值函数,为其学习率,Rt(i,s)为其奖赏函数;
(4.1.3)将s,完成协作任务Mi的所有MAUVS的动作以及s'压入序列seq的开头。
(4.2)如果Mi没有达到终止状态集Ti时,包括以下步骤:
(4.2.1)如果Mi为协作子任务时,包括如下:
(4.2.1.1)采用模拟退火算法来选择动作aj,令ChildSeq=P-MAXQ(Mi,aj,s)当Mi为协作子任务,以(Mi,aj,s)为研究对象,并且将其输入到P-MAXQ算法中进行迭代求最优策略,ChildSeq为Seq的子序列,当每个ChildSeq完全求解成功后,Seq序列组合成功。,其中ChildSeq为执行子任务Mi所执行的状态-动作序列(包括访问过的状态,和MAUVS为完成协作任务所执行的动作;
(4.2.1.2)上述中a表示的是研究对象AUVj的动作,实际上是为了方便讨论,这里的是指除了研究对象AUVj以外的所有MAUVS的动作组合。根据所选择的动作aj和当前状态s得到新状态s',当前状态s,以及得到的新状态s'所对应的MAUVS执行Mi中的动作分别为:
(4.2.1.3)令
(4.2.1.4)令N=0,对于序列中每一个都进行如下运算:
N=N+1;
(4.2.2)如果Mi为基本动作时,包括如下内容:
(4.2.2.1)采用模拟退火算法来选择动作aj,令ChildSeq=P-MAXQ(Mi,aj,s),其中ChildSeq为执行子任务Mi时的状态-动作序列(访问过的状态,其他MAUVS为完成协作任务所执行的动作);(Ak代表动作集合)
(4.2.2.2)观察新状态s';
(4.2.2.3)令
(4.2.2.4)令N=1,并且对于ChildSeq序列中每一状态s,进行如下计算:
N=N+1
(4.2.2.5)将ChildSeq添加到序列seq前面,并且s用s'代替;
(4.2.2.6)将seq序列按层次顺序填入到Ptable中。
(5)奖赏函数、学习率以及动作选择策略的设置,步骤包括如下:
(5.1)奖赏函数的作用是对学习行为的优劣做出评价。我们将奖赏函数分为三个部分:目标奖赏函数、躲避固定障碍物信号和躲避其他机器人奖赏函数,分别定义如下:三个参数在前边出现过了,需要在前边第一次出现该参数的时候在适应参数后面
(5.2)动作选择策略的作用是AUV如果想获得较高的奖赏值,则在每个状态下都必须选择具有最高Q值的动作。但是,在学习的初始阶段,Q值并不能准确地反映正确的奖赏值。选择最高Q值的动作往往导致机器人总是采用相同的高Q值动作,不能探索其它动作,所以不能发现更好的动作组合。为了使AUV能够有效地探索和比较各种动作,在AUV选择动作时引入一定的随机性,本专利采用的是Boltzmann分布探索方法并且此分布探索策略是由决定的,在状态s下选择动作aj的概率定义为:
(5.3)将学习率设置(此处学习率表示AUVj在时间t时完成动作或子任务i时的学习效率:
其中统计了在t次学习过程中对状态动作对出现的次数,β为常数。学习率的选取基于以下思想:对出现次数多的状态动作对因为已进行了多次Q值迭代逼近,较多考虑上次的Q值;对出现次数少的状态动作对较多考虑后继学习的效用性,引入参数β≥1是为了增加统计量的影响,加快学习收敛的速度;随着的增大,该效率削弱了Q值每次迭代的修改量,这使得学习过程逐渐趋于平稳;此学习率还满足并且随着n→∞,以概率1趋近于这表明的选取是有效的。
(6)结合图4所示,为一种基于P-MAXQ的MAUVS的围捕方法流程图,以MAUVS的围捕为例进行层次分析,结合图2所示的MAUVS围捕的MAXQ图,根据MAUVS不同层次的任务,基于MAXQ方法为MAUVS决策设计了一个自底向上的学习模型,AUV根据所观察的状态,相应的任务层次进行决策,并且可对下层任务进行调用。此过程包括如下步骤:
(6.1)MAUVS在围捕目标过程中如果发现障碍物,则完成以下步骤:
(6.1.1)根据当前遇到障碍的AUV的状态s作为前置条件,查询看当前状态s的避障策略是否在动作预测表中:如果在动作预测表中则执行表中的动作直至后置条件满足;如果不满足则根据子任务和前置条件s来调用步骤(1)和(2)计算出满足后置条件的状态动作序列seq,并将新的seq加入到动作预测表中;
(6.2)MAUVS在围捕目标过程中如果没有发现障碍物,则完成以下内容:
(6.2.1)根据当前子策略选择动作a并执行。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于P-MAXQ的多水下机器人的围捕方法,其特征在于:该方法采用概率统计Bayes公式和MAXQ算法结合的行为预测方法,并建立了相应的预测P-MAXQ(PredicationMAXQ)算法理论;在P-MAXQ理论建立了基础上构建了动作状态预测表;并且在P-MAXQ中增加了即时评价函数以及相应的完成函数
2.根据权利要求1所述的一种基于P-MAXQ的多水下机器人的围捕方法,其特征在于:所述的研究对象为AUVj具有一般性,并不表示特定AUV,以下括号里出现的i表示子任务或者分层下的子动作;所述的P-MAXQ算法理论的工作基本理论包括以下几个步骤:
(1)建立执行子任务Mi的状态动作序列seq{}:
表示为四元组{子任务,原子动作,前置条件,后置条件},子任务代表多水下机器人(MAUVS)当前任务;原子动作代表单个AUV的动作(如左行、右行、前行、后行以及停止),每个子任务都是由若干个原子动作完成;前置条件为动作执行之前环境需要满足的状态;后置条件为动作执行完毕后环境需满足的状态;建立动作预测表,当完成一个子任务,即seq序列输入完整后,将seq序列输入到动作预测表中,并把seq序列清空,以便于下次执行不同的子任务使再应用;其中,Mi表示第i个子任务,i为正整数;
(2)SMDP模型说明:
半马尔可夫决策过程SMDP(Semi-Markov decision process)是对马尔可夫决策过程MDP(Markov decision process)的扩展,它允许动作在多个时的扩展,它允许动作在多个时间步内完成;系统状态可以在动作执行时连续变化,而不是像马尔可夫过程一样,状态变化由动作决定;在分层强化学习中,所建立的模型都是以半马尔可夫决策过程为基础的;一个SMDP可以描述成一个五元组{S,A,P,R,I};其中S,A分别是有限状态和动作的集合;P:P(s',N|s,a)表示采取动作a,在N步内系统状态由s转移到s'的概率;R:S*A→R是奖赏函数,R(s,a)是系统在状态s选择动作a后期望获得的总的奖赏值,它包含了分析MDP获得的报酬的所有必要信息;I是初始的状态分别;和MDP一样,在SMDP中,我们的目的是找到一个最优策略使得获得的奖赏值最大;
(3)构建基于MAUVS的SMDP模型:
将步骤(2)所述SMDP理论扩展到MAUVS领域,建立MAUVS SMDP(MSMDP)模型;假设AUV之间存在协作,并且在一定时间内具有相同的完成任务的能力;MAUVS中的个体行为彼此之间会有影响,且同一组的AUV在执行时延动作时,这些动作不一定在同一时间步完成,因此,需要对SMDP中决策时间的概念进行扩展;
(4)所述一个MSMDP包含七个组成部分{Ag,S,A,P,R,I,T},各部分定义如下:
Ag是n个MAUVS的有限集合,对任意AUVj∈Ag存在一个个体行为的有限集Aj;联合-动作空间中的元素表示AUVj,j=1,2,...,n当前执行的动作aj;S,P,R,I的定义与SMDP一致;表示采取动作在N步内系统状态由s转移到s’的概率;因为组成联合-动作是时延的,因此多步转移概率P依赖于怎么定义决策时刻,即终止方案T;这里T的终止方案采取Tcontinue终止方案。
3.根据权利要求2所述的一种基于P-MAXQ的多水下机器人的围捕方法,其特征在于:所述步骤(2)中的MAUVS在围捕目标过程中发现障碍物,完成以下步骤:
(1)根据当前遇到障碍的AUV的状态s作为前置条件,查询看当前状态s的避障策略是否在动作预测表中,如果在动作预测表中则执行表中的动作直至后置条件满足;如果不满足则根据子任务和前置条件s,计算出满足后置条件的状态动作序列seq,并将新的seq加入到动作预测表中;
(2)MAUVS在围捕目标过程中如果没有发现障碍物,则根据当前子策略选择动作a并执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710606786.5A CN107844460B (zh) | 2017-07-24 | 2017-07-24 | 一种基于p-maxq的多水下机器人的围捕方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710606786.5A CN107844460B (zh) | 2017-07-24 | 2017-07-24 | 一种基于p-maxq的多水下机器人的围捕方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107844460A true CN107844460A (zh) | 2018-03-27 |
CN107844460B CN107844460B (zh) | 2020-12-25 |
Family
ID=61683173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710606786.5A Active CN107844460B (zh) | 2017-07-24 | 2017-07-24 | 一种基于p-maxq的多水下机器人的围捕方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844460B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110658827A (zh) * | 2019-10-25 | 2020-01-07 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
CN110940985A (zh) * | 2019-12-13 | 2020-03-31 | 哈尔滨工程大学 | 一种多uuv跟踪围捕系统及围捕方法 |
CN111538349A (zh) * | 2020-04-17 | 2020-08-14 | 中国海洋大学 | 面向多任务的长航程auv自主决策方法 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112925319A (zh) * | 2021-01-25 | 2021-06-08 | 哈尔滨工程大学 | 一种基于深度强化学习的水下自主航行器动态避障方法 |
CN112969558A (zh) * | 2018-06-08 | 2021-06-15 | 米兰理工大学 | 机器人的预测控制方法及相关控制系统 |
CN117350326A (zh) * | 2023-11-29 | 2024-01-05 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007094451A1 (ja) * | 2006-02-16 | 2007-08-23 | Japan Science And Technology Agency | 運動解析方法、運動解析装置、コンピュータプログラム、及び記録媒体 |
US20110295425A1 (en) * | 2010-05-28 | 2011-12-01 | Fu-Kuan Hsu | Automatic machine and method for controlling the same |
CN102521203A (zh) * | 2011-11-18 | 2012-06-27 | 东南大学 | 基于因果图的分层强化学习任务图进化方法 |
CN102566572A (zh) * | 2011-12-06 | 2012-07-11 | 山东交通学院 | 一种基于贝叶斯方法的多软件机器人演化定位方法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
-
2017
- 2017-07-24 CN CN201710606786.5A patent/CN107844460B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007094451A1 (ja) * | 2006-02-16 | 2007-08-23 | Japan Science And Technology Agency | 運動解析方法、運動解析装置、コンピュータプログラム、及び記録媒体 |
US20110295425A1 (en) * | 2010-05-28 | 2011-12-01 | Fu-Kuan Hsu | Automatic machine and method for controlling the same |
CN102521203A (zh) * | 2011-11-18 | 2012-06-27 | 东南大学 | 基于因果图的分层强化学习任务图进化方法 |
CN102566572A (zh) * | 2011-12-06 | 2012-07-11 | 山东交通学院 | 一种基于贝叶斯方法的多软件机器人演化定位方法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
Non-Patent Citations (1)
Title |
---|
柯文德 等: "一种基于π-MaxQ学习的多机器人协作方法", 《智能计算机与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112969558A (zh) * | 2018-06-08 | 2021-06-15 | 米兰理工大学 | 机器人的预测控制方法及相关控制系统 |
CN110658827A (zh) * | 2019-10-25 | 2020-01-07 | 嘉应学院 | 一种基于物联网的运输车自动引导系统及其方法 |
CN110940985A (zh) * | 2019-12-13 | 2020-03-31 | 哈尔滨工程大学 | 一种多uuv跟踪围捕系统及围捕方法 |
CN111538349A (zh) * | 2020-04-17 | 2020-08-14 | 中国海洋大学 | 面向多任务的长航程auv自主决策方法 |
CN111538349B (zh) * | 2020-04-17 | 2021-03-23 | 中国海洋大学 | 面向多任务的长航程auv自主决策方法 |
CN112596515A (zh) * | 2020-11-25 | 2021-04-02 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112596515B (zh) * | 2020-11-25 | 2023-10-24 | 北京物资学院 | 一种多物流机器人移动控制方法及装置 |
CN112925319A (zh) * | 2021-01-25 | 2021-06-08 | 哈尔滨工程大学 | 一种基于深度强化学习的水下自主航行器动态避障方法 |
CN117350326A (zh) * | 2023-11-29 | 2024-01-05 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
CN117350326B (zh) * | 2023-11-29 | 2024-04-09 | 北京航空航天大学 | 层次协同学习的多机围捕方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107844460B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844460A (zh) | 一种基于p‑maxq的多水下机器人的围捕方法 | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
Yesil et al. | Fuzzy cognitive maps learning using artificial bee colony optimization | |
CN110014428B (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
Lee et al. | Monte-carlo tree search in continuous action spaces with value gradients | |
CN111950735A (zh) | 一种基于双向模型的强化学习方法 | |
CN116167415A (zh) | 一种多智能体协同及对抗中的策略决策方法 | |
Hafez et al. | Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination | |
CN116663416A (zh) | 一种基于行为树的cgf决策行为仿真方法 | |
Chen et al. | Policy gradient from demonstration and curiosity | |
Parker | Case study for life-long learning and adaptation in coopertive robot teams | |
Panda et al. | Autonomous mobile robot path planning using hybridization of particle swarm optimization and Tabu search | |
Chen et al. | Survey of multi-agent strategy based on reinforcement learning | |
Liu | RETRACTED: Research on decision-making strategy of soccer robot based on multi-agent reinforcement learning | |
Liu et al. | A pursuit-evasion algorithm based on hierarchical reinforcement learning | |
Bansal et al. | A bayesian framework for nash equilibrium inference in human-robot parallel play | |
Butz | Learning classifier systems | |
Kuperwajs et al. | Planning to plan: a Bayesian model for optimizing the depth of decision tree search | |
Zhan et al. | Dueling network architecture for multi-agent deep deterministic policy gradient | |
Mishra et al. | Model-free reinforcement learning for mean field games | |
Kwon et al. | Proactive planning using a hybrid temporal influence diagram for human assistive robots | |
Raza et al. | Survivable robotic control through guided bayesian policy search with deep reinforcement learning | |
Ananthakrishnan et al. | Automated gait generation for simulated bodies using deep reinforcement learning | |
Altay | Solution of process synthesis problem using metaheuristic optimization algorithms | |
Dong et al. | D3pg: Decomposed deep deterministic policy gradient for continuous control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |