CN114355947B - 基于强化学习的机器人复杂时序逻辑任务路径规划方法 - Google Patents
基于强化学习的机器人复杂时序逻辑任务路径规划方法 Download PDFInfo
- Publication number
- CN114355947B CN114355947B CN202210028141.9A CN202210028141A CN114355947B CN 114355947 B CN114355947 B CN 114355947B CN 202210028141 A CN202210028141 A CN 202210028141A CN 114355947 B CN114355947 B CN 114355947B
- Authority
- CN
- China
- Prior art keywords
- robustness
- robot
- task
- reinforcement learning
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Feedback Control In General (AREA)
- Numerical Control (AREA)
Abstract
本发明涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;将设定环境下的机器人的任务需求描述成信号时序逻辑任务;设计鲁棒度;基于鲁棒度设计奖励函数;在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。与现有技术相比,本发明强化学习训练过程中使用到的奖励函数在体现信号时序逻辑任务的特征的基础上更具有合理性,使得路径规划结果更加合理、有效。
Description
技术领域
本发明涉及机器人路径规划技术领域,尤其是涉及一种基于强化学习的机器人复杂时序逻辑任务路径规划方法。
背景技术
机器人是为解放人类双手、适应复杂环境而产生的,针对机器人的研究具有实际应用前景,是眼下的热点方向。机器人路径规划是机器人研究中的重要内容,研究中通常只要求到达指定目标点,如在不发生碰撞的前提下到达某个目标区域,并保证包括如步数最少、时间最短、消耗能量最小等指标的最优,任务整体相对简单,对时间约束、目标需求等任务复杂性指标的描述能力有限;而且采用手工设计,没有实现自动化的设计,工作量大,调试周期长。而信号时序逻辑(STL,Signal Temporal Logic)填补了这部分空白,具有诸多优势。信号时序逻辑归属于形式化方法领域,是一种符号化的工具,具有丰富的符号语义——不仅可以表征时间约束,还可以表征大量的时序特征和逻辑特征,具有系统性表述复杂任务的能力。而任务经由基本符号表示,也可根据基本符号进行拆分,因此只要设计好基本符号在不同控制或学习框架内的转化,即可实现任务流程及后续操作的自动化设计。
在任务流程自动化的基础上,形成了通过传统控制解决复杂信号时序逻辑任务的方法。现有的传统控制大多是把时序逻辑任务看作是一种约束条件,再整合到针对原有对象的控制过程当中。因此首先,控制对象的模型必不可少。但实际中对于复杂对象,很难得到其模型,即使得到,模型的精确性也难以保证,而这势必会对控制造成较大影响。除了需要得到精确模型之外,传统控制也必须将由信号时序逻辑描述的任务转化为包含二值变量的约束,而这是个递归迭代定义的过程——即由基本符号组合形成的总任务需要根据基本符号进行逐语句的“翻译”。外加上原有控制对象的模型约束,形成一个总的优化问题,再运用混合整数规划求解。但是这样会引入大量的变量和约束条件,计算成本显著上升,求解困难。近期的另一种方法是针对信号时序逻辑任务构造相应的控制障碍函数(CBF,ControlBarrier Function),通过将状态的约束转化为控制量的约束,使得问题变成控制量的解的存在性问题。但控制障碍函数的设计过程复杂,有时可能会有较大的保守性,因此需要较多的实践经验,难以快速上手。
而强化学习是当下人工智能领域的热点研究内容之一,是一种通过学习处理决策问题的方法,具有广泛的应用前景。智能体通过采取类似于生物学习的机制——即通过与环境进行互动,来获取当前决策的环境反馈信息,表现为价值,再在经验整理的基础上进行最优决策。这种基于数据学习环境信息的方式,相比传统控制方法,首先不需要模型,将对模型的需求转化为数据的需求,更能反映真实模型的情况;可以在线学习,智能体与环境互动不断更新模型,并根据更新后的模型做出更好地决策;只需要设计合理的奖励函数,正确反映对目标的需求,从而引导最优决策。因此在信号时序逻辑任务场景下,如何设计奖励函数成为重中之重。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的机器人复杂时序逻辑任务路径规划方法。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:
将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;
将设定环境下的机器人的任务需求描述成信号时序逻辑任务;
设计鲁棒度;
基于鲁棒度设计奖励函数;
在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。
优选地,马尔可夫决策过程模型表示为:(S,A,P,R,γ),其中S表示状态集合,A表示机器人的动作集合,P为转移概率,表示从状态s1采取动作a到状态s2的概率,R为奖励函数,反映发生状态转移后获取的奖励值,γ为折扣因子,反映的是未来奖励在当下时刻的估值比。
优选地,机器人与环境之间的马尔可夫决策过程模型建模方式具体包括:
将机器人运动的整个区域划分为网格,每个网格为一个状态,代表机器人可能的位置,进而组成状态集合;
将机器人的动作定义为上、下、左、右四个动作,组成机器人的动作集合,同时转移概率设置为未知。
优选地,鲁棒度通过如下方式得到:
设计初始鲁棒度,初始鲁棒度在基本谓词命题μ的基础上递归得到:
ρTrue(S,t)=ρmax(≥0)
ρμ(S,t)=d-h(S(t))
(S,t)表示位置序列S从时刻t开始的子序列,μ为谓词命题,为任务,/>表示任务/>“取反”,/>表示任务的“交”,U[a,b]表示“直到”之意,下标表示在[a,b]的时间区间内,/>是/>中/>的等效效果,/>等效为/>True表示“真”,False表示“假”,h(s)为与位置相关的函数,d为一般性描述,ρ表示初始鲁棒度,t1、t2表示时刻点;
对初始鲁棒度进行优化,得到优化后的鲁棒度,进而基于优化后的鲁棒度设计奖励函数。
优选地,优化初始鲁棒度的方式包括:
其中,ρ′为优化后的鲁棒度,k为鲁棒度上限阈值。
优选地,优化初始鲁棒度的方式包括:
其中,ρ′为优化后的鲁棒度,k为鲁棒度上限阈值。
优选地,计算初始鲁棒度时,对于具有时间约束的任务,计算完成任务的时间窗口,时间窗口通过递归计算得到:
length(u)=1
如果/>或者G[a,b]u
其中,length为时间窗口的长度,u为任务,表示任务的“并”,[a,b]为时间区间。
优选地,所述的奖励函数表示为实时奖励之和,所述的实时奖励对应取为鲁棒度的大小。
优选地,强化学习算法采用Q-Learning算法。
优选地,采用Q-Learning算法求解的目标表示为:
其中,π为路径规划策略,E表示期望,γt为t时刻的折扣因子,T为整条路径规划的时域长度,R(St,At)表示当前位置St执行动作At所获取到的奖励。
与现有技术相比,本发明具有如下优点:
(1)本发明建立了一套系统性求解复杂任务(使用STL进行描述)的强化学习方法,拓展了任务的表述范围,相比自然语言,新采取的任务描述的方式增加了逻辑层面、时序层面以及时间层面上的约束,表征复杂任务的能力更强,也避免了任务的二义性。
(2)本发明对奖励函数进行了重要改进,原有的方法直接使用初步定义的鲁棒度,在这个设定的基础上,由于“满足”和“满足程度”两者本身就是不同的概念,因此,“最大化STL任务的满足概率”和“最优化鲁棒度”两者之间存在不合理之处,在未限制上界的前提下,这个矛盾点就比较突出。因此,本文在此基础上通过提出两种设计方法设计了新型的鲁棒度,从而在一定程度上缓和了这个矛盾点,使得可以选取到更多在满足任务要求的同时更实际的策略解;另外,由于STL任务依赖于时间,因此需要时间窗口才能判定是否满足,则在开始状态序列未将时间窗口填满时,此时序列的意义性不大,因此对鲁棒度小于0即任务不满足情况下的奖励设置很慎重,使得在奖励控制住的同时表现出对未来的乐观预期,与不给奖励相比,更能体现动作导致的差异性,方便更好地筛选符合要求的动作。
(3)本发明采取强化学习的方法进行任务求解,无需预先知道系统的准确模型,可在线更新计算。
附图说明
图1为本发明一种基于强化学习的机器人复杂时序逻辑任务路径规划方法的流程图;
图2为MDP转移过程模型示例;
图3为本发明实施例中机器人路径规划场景示例;
图4为本发明机器人路径规划示例场景的相关区域边界指定示意图;
图5为鲁棒度优化示意图;
图6为优化后的鲁棒度的直观感受示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
本发明面向复杂信号时序逻辑任务,设计一套整体的采用强化学习方法学习完成上述任务的流程。本发明的目的在于使强化学习训练过程中使用到的奖励函数,在体现信号时序逻辑任务的特征的基础上,更具有合理性,即将信号时序逻辑任务语义定义过程中的局限性限制到一定范围内。最终,设计出一套新型奖励驱动下的基于强化学习的机器人路径规划方法。在这套新型奖励驱动下,一方面使得在最终学习到的最优策略下信号时序逻辑任务的满足概率最大,另一方面也使得奖励函数设计得更加合理。
如图1所示,本实施例提供的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,该方法包括:
将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;
将设定环境下的机器人的任务需求描述成信号时序逻辑任务;
设计鲁棒度;
基于鲁棒度设计奖励函数;
在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大。
以下对该方法的具体实施步骤进行详细说明:
(1)将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程(MDP)
在机器人路径规划问题中,机器人需要知道自己的状态信息,如位置等,自己的动作信息,如动作的速度大小、朝向等,这样机器人就可以从某个位置,从规定的动作空间中选取好当前一步下的动作,在计算机控制下,即在固定的时间采样间隔内保持动作策略不变,便可最终到达下一个位置。这是将连续的动作状态空间抽象建模为离散的马尔可夫决策过程模型的基本思想。
首先介绍一下离散模型。离散模型采用马尔可夫决策过程模型(Markov DecisionProcess,MDP),由(S,A,P,R,γ)组成,这是强化学习的模型基础。其中S表示状态集合,A表示动作集合,P是转移概率,反映从状态s1采取动作a到状态s2的概率情况;R代表奖励函数,反映的是发生状态转移后获取的奖励值;γ是折扣因子,反映的是未来奖励在当下时刻的估值比,同时也是为了保证计算求和有界收敛。图2所示,就代表了一个MDP转移过程模型示例,图中的圆圈代表是状态;圆圈之间的曲线代表的是状态之间的转移关系,由两部份构成——动作及概率。需要注意的是,这只是一个简易的马尔科夫决策过程模型的示意图,而具体结构依赖于真实的机器人路径规划场景及建模尺度选择。
因此,按照机器人路径规划的实际问题场景,这里列举一个场景,图3所示,图中有一些障碍物区域A1、A2、A3,有两个和任务完成关系较大的目标区域G1、G2,以及机器人的初始区域S,其中,机器人用初始区域S中的圆圈表示。按照之前的要求,将机器人与场景的交互过程抽象为MDP模型。
可以将整个区域分成100*100的网格。这里,网格的大小根据精度要求设置,要求精度较高时可以将网格分的更小,较大时又会影响计算复杂度,可自行根据实际场景下的需要设置。在连续区域分割完成后,需要对一些网格进行处理,其中避免撞到障碍物是控制过程需要保持的指标,因此,这里对网格进行保守性操作,即(1)将存在与原有障碍物区域有交集的网格全部划分为障碍物区域;(2)对剩余网格相对于目标区域以及初始区域再进行相同操作。
这样操作完成后,(1)这些网格即构成马尔可夫决策过程模型的状态空间,具体到机器人路径规划场景,每个网格为一个状态,代表机器人可能的位置;(2)机器人的动作定义为上、下、左、右四个动作,动作的直接效果表现为到达相邻的网格,在机器人本身具有的动力学约束和环境噪声(如地面摩擦力不同、机器人里程计误差等)的加持下,机器人采取上述四个动作会带来概率意义下的到达对应相邻网格的行为效果,即机器人选择往左走则真正到达左边网格是概率意义下的,但这个概率目前未知,后续将使用强化学习可以在学习这个MDP模型同时学习到任务的最优控制策略;(3)奖励函数的设置,到目前位置只是一个环境建模的过程,奖励函数描述的是机器人从一个位置到达另一个位置会收到一个人为给定的奖励,这个奖励是反映任务特征的,后续给出奖励函数的设计方法。
(2)将环境下的任务需求描述成信号时序逻辑(STL)形式
第(1)步的工作是获取系统模型的过程,第(2)步这里将在这个模型的基础上,构建路径规划场景下的任务需求。不同于传统自然语言描述的任务具有迁移性差、语义模糊的缺点,这里选择一种具有较高拓展性的语言描述工具——信号实现逻辑语言STL,这种语言规定了逻辑层面(如当前时刻下满足/不满足的要求)、时序层面(先满足A还是先满足B/满足A前需要满足B)以及时间层面(具体哪个时间区间内满足)的约束,从而可以表征十分复杂的任务需求。
首先,给出STL的定义,如下所示:
其中:
(1)True代表为在任何情况下都为“真”,从任务的角度可以理解为此时不管采取什么样的行为策略都是满足任务的;
(2)
是任务组成的基本元素,“谓词命题”μ定义了函数h(s)和d的大小关系,当位置s满足h(s)<d时为True,否则为False,d代表一般性的表述。在机器人路径规划场景下,μ与h(s)的具体意义可以参考后续例子:如一个网格由四条边组成,这些边在给定坐标系的情况下可以给出其函数形式h(s),在这基础上给定一个点,可以确定这个点与这条直线的关系,是在这条直线的左侧还是在这条直线的右侧,这个左右就代表True或False,h(s)将这种左右的关系变成一个连续区间内的值——在左侧多远或右侧多远,而非简单的二值——左或右。但实际上因为h(s)定义形式是函数,这个可以更一般,这里不做过多介绍;因此,总的来看,“谓词”μ在路径规划场景下定义了机器人的位置x与环境中一些人为规定的区域分割线h(s)之间的关系;
(3)都是在上述“谓词”的基础上递归定义出来的,/>表示任务“取反”;/>表示任务的“交”;/>中U[a,b]表示“Until,直到”之意,下标表示时间约束,表征需要在[a,b]的时间区间内在/>满足之前一直满足/>理论上,这里对时间区间的定义是连续的,但实际过程常需要离散化,因此考虑将原有网格之间的一步转移花费的时间定义为一个基本时间间隔,长度为1,时间单位可以根据场景需要设置,这反映的是机器人一次基本转移所花费的时间。假定基本单位为秒s,则[a,b]表示在[t+a,t+b]秒内的时间区间,其中,共有b-a+1个时刻点,其中t为初始时刻,表示在初始时刻t需要在接下来的a~b秒内完成任务。
上述描述都是文字描述下的语义,需要从数学层面给出其严格的语义定义,即在机器人路径规划场景下,什么样的路径是符合给定的任务语义要求的。因此,对于机器人在环境中产生的位置序列S,其在时刻t之后的子序列满足任务的定义如下:
是/>由/>的等效效果,意为“Finally,最终”,在路径规划场景下描述任务可以在时刻区间[a,b]内被满足,可以描述如在时刻区间[a,b]内到达目标点G的任务需求。而/>是/>和/>结合在一起,即/>的效果,意为“Globally,一直总是”,在路径规划场景下描述任务在时刻区间[a,b]内一直被满足,可以描述如在时刻区间内[a,b]一直待在目标区域G内或一直不撞到障碍物A等任务需求。
因此,在图3路径规划场景下,如需要满足任务“机器人从初始区域出发,在10s内到达目标区域G1,在20s内到达目标区域G2,中途不能撞到A1、A2、A3等障碍区域”可以用来表示。具体可以参考图4,图4在图3的基础上进行了区域边界以及坐标系的指定。
接下来使用hi_上、hi_下、hi_左、hi_右来表示直线hi的上、下、左、右(仅考虑有效方向)领域,且这个方向下的区域可以使用hi<di或其他变换等价表示,这里仅关注方向带来的逻辑层面的定义,即这一侧或另一侧,如用hi_上可以使用hi<d等价表示,且其意义是指代hi上侧的区域。则:
G1=h1_下∧h4_右∧h5_上∧h6_左,G2=h7_下∧h8_右∧hg_上∧h10_左,A2=h11_下∧h12_左∧h13_左∧h14_上∧h15_右∧h16_右,
谓词命题集合可以选取:
在上述语义的定义下,给定机器人在环境中的位置序列,可以判断此序列是否满足任务。可以注意到,这种语义是基于二值的,即要么满足,要么不满足。回到之前“谓词命题”μ的定义,μ的定义与h(s)相关,因此可以利用h(s)将二值结果(True或False)转化为一个连续的量(True的程度多少或False的程度多少),量与标准值d的比较大小与原二值结果等价。但量值本身的连续性带来了别的信息,即可以用来刻画机器人的位置距离感兴趣区域的边界的远近程度。因此,将使用这个特征来设计奖励函数,相比二值奖励,这个连续的根据距离远近设计的奖励更具有引导性。因此,可以正式地给出其定义,即鲁棒度(robustness或robust degree)ρ的数学定义,(S,t)是表示位置序列S从时刻t开始的子序列:
ρTrue(S,t)=ρmax(≥0)
ρμ(S,t)=d-h(S(t))
鲁棒度是在基本谓词命题μ的基础上递归定义出来的。如(1)当前时刻满足μ代表需要满足h(S(t))<d,而ρμ(S,t)>0,即d-h(S(t))>0等价于h(S(t))<d,因此鲁棒度的正负反映了是否满足规定任务,这与原有语义等价。(2)对应于需要满足任务/>等价于不满足/>因此/> 即代表满足任务/>(3)对应于需要满足任务/>和/>因此,要考虑/>和/>的最小值,只有最小值大于0才代表两个任务都被满足。(4)/>对应于在时间区间[t+a,t+b]满足/>F对应的语义是最终满足或者存在一个时刻满足,因此,取区间内时刻对应的鲁棒度的最大值即可。其余情况类似,不再列举。
以图4对应的机器人路径规划场景为例介绍鲁棒度的计算,当机器人处于目标区域G1内时,此时位置为s,考虑到G1=h1_下∧h4_右∧h5_上∧h6_左,因此此时鲁棒度为min(d1-h1,d4-h4,d5-h5,d6-h6),表示当前位置s距h1、h4、h5、h6这四条直线的最短距离,而这也是实际问题所关注的,即考虑最会被违反的情形。
这种形式的鲁棒度由于实际上只关注其正负,而容易导致对大小的限制的忽略。因此,本发明对这一点进行改进,主要针对上下界进行限制。(1)对于不满足情况,由于距离任务不满足的程度还很大或很小对问题研究是有必要的,因此优化空间不大;(2)对于满足的情况,实际上更多关注的是从不满足到满足的过程,满足一定程度后后续再优化满足程度意义不大,因此,对此进行改进,即限制上界的大小。
包括两种具体的设计方案,如图5所示:
方案一:如图5中(a)所示,表示为:
ρ代表初始鲁棒度,ρ′代表优化后的鲁棒度,对于ρ大于0的情况将其设置成一个小的固定值;
方案二:如图5中(b)所示,表示为:
在上述方案一的基础上进行了条件放松,重在对较大的原值用小的固定值加以限制,很小的固定值可能不是很好,保留下来以在学习过程中根据值大小剔除。原则上k不宜较小也不宜较大,需结合实际场景中基本谓词代表区域的上下界。
上述两种方案都对鲁棒度的上界进行了限制,但中间在是否过渡上存在一些区别。理论上,存在过渡的新型鲁棒度效果较好,可以避免仅优化在区域边界处的满足而不继续优化到一个可以接受的程度。后续将利用这种新型鲁棒度设计奖励函数,通过奖励函数的引导,机器人更容易获取到自己距目标区域的远近信息,从而更趋向于选择朝目标区域运动的策略。
图6刻画了新型鲁棒度与原有鲁棒度的区别。外边三条直线(L1,L2,L3)唯一确定一个机器人路径规划中的一个区域D。在原有的鲁棒度的定义下,三条直线围成的区域都是有意义的,且机器人距中心点越近,奖励越高。但实际上考虑命题“机器人到达区域D”,机器人只需要进入区域D一定范围内即可认为任务完成,再继续深入对STL(如在现有场景下描述距离直线多远)与原子命题(如在直线左侧还是右侧)之间转化上没有实际帮助,反而容易导致机器人过度注重局部效果,即到达中心最优点,实际意义不强。因此,新型鲁棒度限制了最大鲁棒度的大小,在最大鲁棒度的限制下,有效区域仅为图中的“重要区域”,剩余区域内新型鲁棒度不会继续增大。
由于STL任务具有时间上的约束条件,可能一步内无法判断当前任务是否满足,如对于STL任务F[0,10]G1,在未来10个时刻内哪个时刻访问G1预先是未知的,最坏情况下需要10个时刻才能判断是否满足。因此,需要引入时间窗口的概念。如上述任务的时间窗口是10,这样给定一个长度为10的状态序列就可以判断这个序列是否满足上述任务。时间窗口是保守意义下对任务判定的状态序列最少长度的规定,具体的计算方法可以递归地列举如下(使用length表示时间窗口的长度):
length(u)=1
如果/>或者G[a,b]u
其中,length(u)=1表示对于任务u只需要当前一步就可以确定任务是否满足;这里是针对任务/>或者G[a,b]u,选取这种任务为研究的基本类型。/>则由两个任务中时间窗口大的决定。/>则首先是F语义的要求,需要在[t+a,t+b]内满足,首先需要长度为b的时间窗口;然后还需要满足任务/>最坏情况下在时刻t+b处满足,此时还需要/>长度的时间窗口判定/>是否满足,因此,最终需要/>长度的时间窗口才能进行判定。剩余情况均可在前述基础上推出,这里不再赘述。
这样在时间窗口的设定下,就可以判断哪些任务被满足,哪些任务没有被满足。当机器人位置序列的长度未达到时间窗口长度要求时,此时无法判断任务是否被满足,这种情况多出现在机器人从初始状态出发,经历的时间步长还很少的情况下。考虑到任务满足与否与鲁棒度的计算存在关联,所以当任务无法被判断是否被满足时,鲁棒度也没有办法进行计算,但强化学习需要利用鲁棒度给机器人反馈每一步的奖励情况,这在任务刚开始执行时也是需要的,不给奖励存在不合理之处,第(3)步也将对这种情况进行奖励值的设计。
(3)针对STL任务用强化学习求解,设计奖励函数
正如上面所述,强化学习的基础是MDP模型。根据是否需要知道MDP模型——即主要体现在状态转移概率P是否已知,强化学习可以分为基于模型和无模型两类。基于模型的强化学习采用动态规划结合全概率公式的方式将后续值叠加在当前值上面,但通常环境未知,因此多采用无模型的强化学习。无模型强化学习是在探索中获取(S,A,R)三元组经验序列,并在每步将这个经验整合反映在Q表的变化中,常见的方法有SARSA和Q-Learning。实际中通常采用Q-Learning方法,Q-Learning是一种基于时序差分的异策略RL方法,要解决的问题如下:
其中,π为路径规划策略,E表示期望,γt为t时刻的折扣因子,T为整条路径规划的时域长度,R(St,At)表示当前位置St执行动作At所获取到的奖励,因此Q-Learning的目标是找到最优策略使期望累计和最大。其更新规则如下:
其中α是学习率参数,Q值的更新量取决于下一个状态的最大动作对应的Q值。
针对Q-Learning的奖励函数设计是基于之前设计的新型鲁棒度。鲁棒度在任务满足的过程中总体趋势应当是不断地非减式增加,这反映了任务完成的阶段性过程,即每步的奖励叠加过程。因此,需要保持两个量的计算。其一是鲁棒度的计算,在状态演变过程中,状态历史S0S1…St是记录下来的,根据这段状态历史序列,我们可以计算出其鲁棒度作为“当前时刻的总体表现”;其二就是“当前时刻”与“下个时刻”鲁棒度的差值,当前时刻采取动作At可以到达一个新的状态,而这个状态在采取动作At后是已知的,因此可以将这个鲁棒度的差值作为奖励函数,即/>这样每步动作都具有一个实时量化的价值,是趋近于完成任务还是保持任务状态没有更新,甚至不利于任务完成,都可以用这个差值进行刻画。
在计算鲁棒度过程中,需要依赖状态序列,初始状态序列是只有初始的几个状态,但在时间窗口的设定下,这个计算值依赖于至少时间窗口长度的状态序列。显然在初始情况下不会被满足,因此,需要对这种特殊情况进行处理,可以采用下面方法。首先,依赖未来的状态序列进行判定的基本是F和G语义,其对应的鲁棒度的基本类型为min/max(S0,S1,…,St)(其中t为时间窗口的长度,也就是St已知时才会有实际值,t时刻之前未知),假设当前只知道S0,S1,…,Sj,而min(S0,S1,…,St)=min(min(S0,S1,…,Sj),Sj+1,…,St)。因此可定义:
因此k一般较小(这里k即为新型鲁棒度的定义中的k),β原则上应大于1小于10,这主要是考虑了未来依赖的状态具有的不确定性,使得奖励小于k的同时保证在这样的奖励值的设计下存在对机器人学习过程的影响力。
(4)使用强化学习进行训练求解
最后,根据设计的奖励函数(采取新型鲁棒度)训练强化学习智能体,目标是最优化鲁棒度。并将最终学到的策略复现执行过程来验证STL任务是否满足以及是否是概率意义下的最优满足。具体算法如下:
输入:STL任务需球抽象环境世界W(转移概率未知)
输出:最优控制策略π*:Historystates→Action
①参数设置及确定:初始状态S0,初始化判定STL所需的时间窗口队列Window为空(记录历史状态序列Scur-len(Window):cur,其中cur表示当前时刻),学习率α,折扣因子γ,探索率ε,初始化Q表Q(Historystates,action),周期训练最大次数maxEpisode,,每次训练最长步数maxLength,当前周期序号currentEpisode,更新周期updateStep(每隔一个更新周期学习率α衰减为原有的const/(const+currentEpisode),(const为一常值),探索率ε衰减为原有的λ(λ<1)),初始化新设计的鲁棒度ρ(Scur-len(Window):cur)=0;
②机器人位置初始化为s=s0,currentEpisode+=1,将s加入到时间窗口中,cur=1:
③判断currentEpisode是否大于maxEpisode,是则跳转到步骤⑥,否则执行步骤④;
④机器人计算当前状态下的鲁棒度ρ(Scur-len(Window):cur),并按照ε-greedy算法(1-ε的概率选最优,ε的概率随机选)在当前位置s处选取需要执行的动作a,并执行,得到下一个状态s′,计算新的鲁棒度将s′加入到时间窗口Window中,计算当前一步的奖励值/>更新Q函数:
其中Scur-len(Window):cur到当前时刻未知的时间窗口内的状态序列,对应剔除时间窗口内第一个状态后且加入新状态s′后的时间窗口内的状态序列(时间窗口被填满后才需剔除第一个状态);更新cur+=1;
⑤判断s′是否是终止状态或cur是否超出maxLength,满足条件之一则跳转到步骤②,否则执行步骤④;
⑥输出最优策略其中,Historystates即代表机器人在环境中从初始区域出发产生的状态序列,最大长度不超过时间窗口Window的长度。
综合一下,本发明基于强化学习的复杂信号时序逻辑任务的设计流程为:(1)连续物理世界抽象为MDP模型,任务需求描述为STL任务,其中任务描述需要与物理世界相联系;(2)STL任务不仅具有二值语义,也具有鲁棒语义,且鲁棒度的正负与二值语义等价;(3)在鲁棒度的基础上设置上界限制,定义新型鲁棒度,奖励函数设计将基于新型鲁棒度;(4)奖励函数的设计是基于当前时刻与前一时刻的鲁棒度的差值进行当前价值(奖励)的表征,其中依赖于时间窗口;时间窗口规定了机器人的位置序列,鲁棒度计算依赖于时间窗口内的位置序列;也设计了时间窗口未被填满情况下的奖励函数;(5)在MDP的基础上使用上步设计的奖励函数,运用Q-learning强化学习算法进行求解,得到针对STL任务的最优策略π*使得任务满足概率最大。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (9)
1.一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,该方法包括:
将机器人与环境之间的交互过程抽象建模为马尔可夫决策过程模型;
将设定环境下的机器人的任务需求描述成信号时序逻辑任务;
设计鲁棒度;
基于鲁棒度设计奖励函数;
在马尔可夫决策过程模型上使用设计的奖励函数,运动强化学习算法求解得到针对信号时序逻辑任务的最优路径规划策略使得任务满足概率最大;
鲁棒度通过如下方式得到:
设计初始鲁棒度,初始鲁棒度在基本谓词命题μ的基础上递归得到:
ρTrue(S,t)=ρmax(≥0)
ρμ(S,t)=d-h(S(t))
(S,t)表示位置序列S从时刻t开始的子序列,μ为谓词命题,为任务,/>表示任务/>“取反”,/>表示任务的“交”,U[a,b]表示“直到”之意,下标表示在[a,b]的时间区间内,/>是/>中/>的等效效果,/>等效为/>True表示“真”,False表示“假”,h(s)为与位置相关的函数,d为一般性描述,ρ表示初始鲁棒度,t1、t2表示时刻点;
对初始鲁棒度进行优化,得到优化后的鲁棒度,进而基于优化后的鲁棒度设计奖励函数。
2.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,马尔可夫决策过程模型表示为:(S,A,P,R,γ),其中S表示状态集合,A表示机器人的动作集合,P为转移概率,表示从状态s1采取动作a到状态s2的概率,R为奖励函数,反映发生状态转移后获取的奖励值,γ为折扣因子,反映的是未来奖励在当下时刻的估值比。
3.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,机器人与环境之间的马尔可夫决策过程模型建模方式具体包括:
将机器人运动的整个区域划分为网格,每个网格为一个状态,代表机器人可能的位置,进而组成状态集合;
将机器人的动作定义为上、下、左、右四个动作,组成机器人的动作集合,同时转移概率设置为未知。
4.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,优化初始鲁棒度的方式包括:
其中,ρ′为优化后的鲁棒度,k为鲁棒度上限阈值。
5.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,优化初始鲁棒度的方式包括:
其中,ρ′为优化后的鲁棒度,k为鲁棒度上限阈值。
6.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,计算初始鲁棒度时,对于具有时间约束的任务,计算完成任务的时间窗口,时间窗口通过递归计算得到:
length(u)=1
如果/>或者G[a,b]u
其中,length为时间窗口的长度,u为任务,表示任务的“并”,[a,b]为时间区间。
7.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,所述的奖励函数表示为实时奖励之和,所述的实时奖励对应取为鲁棒度的大小。
8.根据权利要求1所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,强化学习算法采用Q-Learning算法。
9.根据权利要求8所述的一种基于强化学习的机器人复杂时序逻辑任务路径规划方法,其特征在于,采用Q-Learning算法求解的目标表示为:
其中,π为路径规划策略,E表示期望,γt为t时刻的折扣因子,T为整条路径规划的时域长度,R(St,At)表示当前位置St执行动作At所获取到的奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028141.9A CN114355947B (zh) | 2022-01-11 | 2022-01-11 | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028141.9A CN114355947B (zh) | 2022-01-11 | 2022-01-11 | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114355947A CN114355947A (zh) | 2022-04-15 |
CN114355947B true CN114355947B (zh) | 2023-09-29 |
Family
ID=81110085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210028141.9A Active CN114355947B (zh) | 2022-01-11 | 2022-01-11 | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114355947B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793657B (zh) * | 2022-12-09 | 2023-08-01 | 常州大学 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899026A (zh) * | 2017-03-24 | 2017-06-27 | 三峡大学 | 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902347B2 (en) * | 2017-04-11 | 2021-01-26 | International Business Machines Corporation | Rule creation using MDP and inverse reinforcement learning |
US11034019B2 (en) * | 2018-04-19 | 2021-06-15 | Brown University | Sequence-to-sequence language grounding of non-Markovian task specifications |
-
2022
- 2022-01-11 CN CN202210028141.9A patent/CN114355947B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106899026A (zh) * | 2017-03-24 | 2017-06-27 | 三峡大学 | 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
Non-Patent Citations (7)
Title |
---|
Bengt Lennartson.Reinforcement Learning with Temporal Logic Constraints.IFAC-PapersOnLine.2020,第53卷(第4期),全文. * |
Philipp Schillinger.Adaptive heterogeneous multi-robot collaboration from formal task specifications.Robotics and Autonomous Systems.2021,第145卷全文. * |
Xiaohua Ren.Synthesis of Controllers for Co-Safe Linear Temporal Logic Specifications using Reinforcement Learning.2021 40th Chinese Control Conference (CCC) .2021,全文. * |
宋志伟.基于逻辑马尔可夫决策过程的关系强化学习研究. 中国博士学位论文电子期刊网.2009,(第9期),全文. * |
武虎.基于局部信息的滚动优化与机器人路径规划.系统仿真学报.2004,第16卷(第8期),全文. * |
王程博 ; 张新宇 ; 邹志强 ; 王少博 ; .基于Q-Learning的无人驾驶船舶路径规划.船海工程.2018,(05),全文. * |
陈仲瑶 ; 方浩 ; .基于线性时序逻辑的智能体不确定行为规划.中国科学:技术科学.(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114355947A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11836625B2 (en) | Training action selection neural networks using look-ahead search | |
Wirth et al. | A survey of preference-based reinforcement learning methods | |
US11972353B2 (en) | Character controllers using motion variational autoencoders (MVAEs) | |
Lison | A hybrid approach to dialogue management based on probabilistic rules | |
Vanegas et al. | Inverse design of urban procedural models | |
Sheh | " Why Did You Do That?" Explainable Intelligent Robots | |
CN114460943B (zh) | 服务机器人自适应目标导航方法及系统 | |
CN117492447B (zh) | 自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质 | |
CN114261400B (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN110014428B (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
Buffet et al. | The factored policy-gradient planner | |
Xu et al. | Zone scheduling optimization of pumps in water distribution networks with deep reinforcement learning and knowledge-assisted learning | |
KR101002125B1 (ko) | 부분 관측 마코프 의사결정 과정 기반의 정책 모델링 장치및 그 방법 | |
CN114355947B (zh) | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 | |
CN111950735A (zh) | 一种基于双向模型的强化学习方法 | |
Cui et al. | Stochastic planning with lifted symbolic trajectory optimization | |
Ferreira et al. | Expert-based reward shaping and exploration scheme for boosting policy learning of dialogue management | |
CN118394090A (zh) | 一种基于深度强化学习的无人车决策与规划方法及系统 | |
Busoniu et al. | Learning and coordination in dynamic multiagent systems | |
Xu et al. | Generalization of temporal logic tasks via future dependent options | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
Liu | Decision-theoretic planning under risk-sensitive planning objectives | |
Keurulainen et al. | The Role of Higher-Order Cognitive Models in Active Learning | |
Navarro et al. | Towards real-time agreements | |
Kazemi Mehrabadi | Data-driven approaches for formal synthesis of cyber-physical systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |