CN115793657A - 基于时态逻辑控制策略的配送机器人路径规划方法 - Google Patents
基于时态逻辑控制策略的配送机器人路径规划方法 Download PDFInfo
- Publication number
- CN115793657A CN115793657A CN202211582969.5A CN202211582969A CN115793657A CN 115793657 A CN115793657 A CN 115793657A CN 202211582969 A CN202211582969 A CN 202211582969A CN 115793657 A CN115793657 A CN 115793657A
- Authority
- CN
- China
- Prior art keywords
- reward
- state
- function
- robot
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011217 control strategy Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002123 temporal effect Effects 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 85
- 238000005381 potential energy Methods 0.000 claims abstract description 55
- 238000012546 transfer Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000007704 transition Effects 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000005314 correlation function Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 241001505400 Strix Species 0.000 claims description 3
- 229940013840 strix Drugs 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 abstract description 7
- 230000001680 brushing effect Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009257 reactivity Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010048669 Terminal state Diseases 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于时态逻辑控制策略的配送机器人路径规划方法,包括步骤:基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略可作为顶层策略引导配送机器人学习底层强化学习方法;基于奖励自动机状态图的拓扑排序设计势能函数,解决状态图中存在有向有环图的情况和避免出现配送机器人循环刷分的行为。本发明能提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优。
Description
技术领域
本发明涉及机器人路径规划方法,尤其涉及一种基于时态逻辑控制策略的配送机器人路径规划方法。
背景技术
强化学习是一种训练智能体在探索环境时学习最优策略以获得最大奖励的人工智能技术。但是经典的强化学习RL仍然存在一些缺陷,比如收敛慢、奖励稀疏、收敛至局部最优等问题。Q-学习是强化学习中一种经典的算法,但在初始化过程中通常将Q值均设为等值或随机值,即在无先验知识的环境下学习,这使得算法收敛速度变慢。
LTL(Linear Temporal Logic,线性时态逻辑)是一种可以描述非马尔可夫的复杂规约的形式化语言。在智能体的多任务学习中引入LTL来设计任务规约,可以捕捉环境和任务的时态属性来表达复杂任务约束。LTL的综合策略可以用来编写强化学习的奖励函数,有效地训练人工因子。如何在复杂环境下合成LTL规约的策略,并将其作为顶层策略引导底层强化学习方法,这对于智能体多任务学习有着重要的理论意义和应用价值。
发明内容
发明目的:本发明的目的是提供一种提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优的基于时态逻辑控制策略的配送机器人路径规划方法。
技术方案:本发明的配送机器人路径规划方法,包括步骤如下:
S1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;
S2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略作为顶层策略引导底层强化学习方法;
S3,基于奖励自动机状态图的拓扑排序设计势能函数,并计算配送机器人每个状态的势能函数,将每个任务点赋予势能值;若配送机器人从高势能前往低势能,则赋予配送机器人负奖励;若配送机器人从低势能前往高势能,则赋予正奖励。
进一步,步骤S1中,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约的具体实现步骤如下:
S11,采用Strix工具作为LTL策略合成工具,将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈;LTL公式的具体表达式如下:
并通过策略迭代算法计算控制器获得成功的策略,将成功的策略作为符合LTL规约的控制策略S;所述控制策略S的形式可表示为:
S=〈A,a0,M,δa,δi>
其中A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数;
S12,通过基于控制策略S定义带有势能的奖励自动机,来对配送机器人行为赋予奖励值,奖励自动机的定义为
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,M′A′表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,表示带有转移函数的状态奖励函数,表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa;
进一步,步骤S2中,添加奖励机基于控制策略的经验回放机制到Q-学习中,具体实现步骤如下:
S21,设配送机器人目前所处的奖励机状态为u,配送机器人采取了动作a,则配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由下式确定:
δu(u,L(s,a,s′))
其中,L(s,a,s′)是标签函数,δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态;
获得的奖励r′由δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数;
S22,在MDP上定义一个带有势能的奖励自动机器,则表达式如下:
MDP上扩展带有势能的奖励自动机的表达式如下:
进一步,步骤S3中,采用基于拓扑排序来计算配送机器人每个状态的势能函数的具体实现步骤如下:
S31,将策略自动机转化为状态图,进行深度优先搜索,表达式如下:
DFS(i,j,m,n,dcg)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表;
S32,配送机器人在对某些任务点之间进行循环配送时,这些任务点组成一个强连通分量;所述强连通分量中每个任务点的势能函数w[scc]的表达为:
进一步,每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;其中m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序;
如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,则将当前正访问的顶点序号换成m[i]和n[v]中的最小值;其中n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点;
如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
本发明与现有技术相比,其显著效果如下:
1、传统的强化学习方法训练配送机器人进行路径规划,配送机器人通常需要在完成整个配送任务后才能获得应有的奖励,因而导致配送机器人需要较多的时间才能学习到最优的配送策略;在本发明中,通过设置中间奖励,配送机器人完成某部分配送任务后就能获得奖励,因而配送机器人能够获得有效的反馈,进而缩短了配送机器人学习整个配送流程所需要的时间;
2、由于配送机器人所需完成的配送任务是一种多任务规约,传统的强化学习难以处理多任务规约,因而需要较多的时间去学习最优策略;本发明将配送机器人的路径规划问题转化为由LTL生成的控制策略作为顶层策略来引导底层强化学习方法,能够有效降低配送机器人在面对多任务规约时学习最优策略所需的时间;
3、当配送机器人的配送任务中出现对某些任务点进行循环配送时,由LTL生成的控制策略便存在有向有环图的形式,此时若采用标准值迭代算法则学习效率低下;在本发明中提出基于拓扑排序的奖励塑造算法计算每个状态的势能函数,将每个任务点赋予势能值,若配送机器人从高势能前往低势能,则赋予配送机器人负奖励,反之则赋予正奖励,不仅能解决配送机器人出现循环刷分的问题,同时也有效提高了配送机器人的学习效率。
附图说明
图1为本发明的总流程示意图;
图2(a)为在Ψ1控制策略下的状态转移图,
图2(b)为在Ψ1控制策略下的状态转移图中不同算法的收敛速度和单步获得的奖励大小比较结果示意图;
图3基于控制策略的经验回放机制到Q-学习中算法流程图;
图4基于拓扑排序的奖励塑造算法流程图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
本发明基于时态逻辑捕捉任务的时态属性,通过设计一种基于时态逻辑控制策略的强化学习奖励约束方法,以及通过设置中间奖励和势能函数从而提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优。
如图1所示,本发明的配送机器人路径规划方法,包括如下:
步骤1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值。具体实现步骤如下:
步骤11,在本发明中,LTL规约的控制策略合成旨在生成一个满足LTL规约的策略使得配送机器人能在指定路径上通过采取这个策略完成设定的配送任务。本发明采用Strix工具作为LTL策略合成工具,简化后的LTL公式具体表达式如下:
将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈,并通过策略迭代算法计算控制器获得成功的策略,即为符合LTL规约的控制策略S。此控制策略S的形式可表示为转换器:
S=〈A,a0,M,δa,δi> (02)
其中,A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数。
配送机器人需要按顺序分别对指定区域进行配送,并且当配送机器人在某些区域完成配送任务后必须到下一个区域进行配送,在配送的过程中保证配送机器人并不触及任何障碍区域,并在配送任务完成后停在某一区域。上述针对配送机器人的配送策略的制定分别对应了LTL规约中顺序性、反应性、安全性、活性。
步骤12,定义带有势能的奖励自动机来对配送机器人行为赋予奖励值,奖励自动机的定义为:
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,M′A′表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,表示带有转移函数的状态奖励函数,表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa。
给定原子命题分别表示在配送机器人执行动作a后的状态转移函数、带有转移函数的状态奖励函数和势能函数,三者的计算都取决于配送机器人执行的动作a的状态。当状态间转移函数得出的状态不属于接受状态集合时,则赋予配送机器人奖励为0,取值在0和之间;当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励也取值其中为固有奖励。公式表达如下:
步骤2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略可作为顶层策略引导配送机器人学习底层强化学习方法;具体实现步骤如下:
步骤21,在本发明中,添加奖励机基于控制策略的经验回放机制到Q-学习中,从而帮助配送机器人能够更快地学习到最优配送策略。假设配送机器人目前所处的奖励机状态为u,由于配送机器人采取了动作a,所以配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由公式(06)确定:
δu(u,L(s,a,s′)) (06)
其中,L(s,a,s′)是标签函数,其定义如下:标签功能其中P代表原子命题,给P中的符号赋真值,P中给定环境经验exp=(u,t,u′),其中状态u′是从状态u执行动作t之后的状态。δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态,获得的奖励r′由式子δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数。
奖励机基于控制策略的经验回放机制的主要思想为配送机器人每采取一步动作之后,基于控制策略的经验回放机制就给予其一些经验。
步骤22,在马尔可夫决策过程(MDP)上定义一个带有势能的奖励自动机器
MDP上扩展带有势能的奖励自动机被定义为
步骤3,基于奖励自动机状态图的拓扑排序设计势能函数,解决状态图中存在有向有环图的情况和避免配送机器人出现循环刷分的行为。
利用LTL所生成的控制策略通常会存在两种形式的状态图,分别为有向无环图和有向有环图。标准值迭代算法计算出的势能函数的值主要取决于MDP中的折损因子γ,当初始状态和终端状态相邻时,配送机器人学习到最优配送策略的学习效率会降低,不利于训练。另外,当配送机器人的配送任务需要在某些任务点进行循环配送时,可能会出现配送机器人在某些任务点进行循环刷分的行为,即持续在某些点进行配送任务获得奖励,这不符合预期对于配送机器人的任务规约,因此本发明提出基于拓扑排序来计算配送机器人每个状态的势能函数的算法,详细的算法流程图如图4所示。具体实现步骤如下:
步骤31,首先将策略自动机转化为状态图,进行深度优先搜索:
DFS(i,j,m,n,dcg) (012)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表。
定义m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序。n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点。每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,就将当前正访问的顶点序号换成m[i]和n[v]中的最小值。如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
步骤32,配送机器人在对某些任务点之间进行循环配送时,这些任务点即组成一个强连通分量,势能函数定义了强连通分量内的每个任务点的势能值都相同,因而有效解决了传统标准值迭代算法难以处理的问题,大大缩短配送机器人学习到最优配送的策略所需的时间。
本实施例以配送机器人路径规划完成循环配送任务为例。选用一台配送机器人,首先配送机器人处在一个被划分为a1、b1、c1、d1这4个区域的空间内。如图2(a)所示,本实施例中采用时态逻辑描述任务规约:如始终避开某些障碍区(安全性)、巡回并按顺序经过某几个区域(顺序性)、途径某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等。Ψ1为本次配送机器人的任务规约,Ψ1仅包含配送机器人的初始位置、路径规划规则、以及无限频繁执行的区域a1-d1相应的任务。
实施例中的规约Ψ1式子如下:
在本实施例中,配送机器人在任务点a1所需要完成的任务是对货物进行装载,然后在b1、c1、d1任务点处所需完成的任务是对指定货物进行配送。在上式(014)中,a′1、b′1、c′1、d′1表示配送机器人下一步到达的区域,子公式(1)表示配送机器人在初始位置执行任务点a1的任务;子公式(2)表示配送机器人不在任务点c1、d1执行配送任务的情况下前往任务点d1执行配送任务;子公式(3)表示配送机器人在执行任务点d1任务但未执行任务点c1任务的条件下前往任务点c1执行任务;子公式(4)表示配送机器人在执行完任务点c1、d1的任务后会结束任务点d1的任务;子公式(5)表示配送机器人在到达任务点c1后前往任务点b1;子公式(6)表示配送机器人在到达任务点b1、c1后前往任务点d1;子公式(7)表示配送机器人在到达了任务点b1、c1、d1后前往a1;子公式(8)表示配送机器人在同时执行任务a1、b1、c1、d1后会结束任务点d1的任务;子公式(9)表示配送机器人不断执行任务点a1、b1、c1、d1的任务。
其中通过添加基于控制策略的经验回放机制到Q-学习中,从而帮助智能体能够更快的学习到最优策略,具体算法见表1,流程图如图3所示。
表1添加基于控制策略的经验回放机制到Q-学习中
在得到配送机器人的顶层控制策略后,应用于配送机器人的连续控制中。在整个配送任务中,通过添加中间奖励,能有效提高配送机器人的学习效率。如果配送机器人每完成一步就赋予一定的奖励,就会导致配送机器人出现重复刷分的问题,那么便无法保证全局最优策略的要求,因而提出了基于势能的奖励函数的塑造,具体算法见表2。给每一个状态一个势能,从高势能到低势能时会给予负奖励,反之则为正奖励,从而解决了反复刷分的问题,同时也保证了最优策略的一致性。
表2基于拓扑排序的奖励塑造
本发明针对配送机器人路径规划问题,提出了基于时态逻辑控制策略的Q-学习奖励约束方法,并针对有向有环的状态图形式提出了基于奖励自动机状态图的拓扑排序设计势能函数。将添加基于控制策略的经验回放机制到Q-学习中、基于势能的奖励函数的塑造算法融入到配送机器人实施例中,配送机器人需要在指定规约下完成配送任务。为了验证实验结论,通过比较分层强化学习算法(HRL)、Q学习算法(QL)、基于线性时态逻辑的Q学习算法(LTL-QL)、基于线性时态逻辑且结合Q学习的标准值迭代算法(LTL-QL-VIRS)、基于拓扑排序的奖励塑造算法(LTL-QL-TSRS)这五种算法在Ψ1控制策略下的状态转移图中学习速度和获得奖励大小,对比结果如图2(b)所示。实验结果表明:配送机器人在LTL-QL算法和LTL-QL-TSRS算法下能够更快速的学习到最优的配送策略,同时也能够获得更高的累积奖励。
Claims (6)
1.一种基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,包括步骤如下:
S1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;
S2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略作为顶层策略引导底层强化学习方法;
S3,基于奖励自动机状态图的拓扑排序设计势能函数,并计算配送机器人每个状态的势能函数,将每个任务点赋予势能值;若配送机器人从高势能前往低势能,则赋予配送机器人负奖励;若配送机器人从低势能前往高势能,则赋予正奖励。
2.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S1中,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约的具体实现步骤如下:
S11,采用Strix工具作为LTL策略合成工具,将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈;LTL公式的具体表达式如下:
其中A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数;
S12,通过基于控制策略S定义带有势能的奖励自动机,来对配送机器人行为赋予奖励值,奖励自动机的定义为
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,表示带有转移函数的状态奖励函数,表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa;
3.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S2中,添加奖励机基于控制策略的经验回放机制到Q-学习中,具体实现步骤如下:
S21,设配送机器人目前所处的奖励机状态为u,配送机器人采取了动作a,则配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由下式确定:
δu(u,L(s,a,s′))
其中,L(s,a,s′)是标签函数,δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态;
获得的奖励r′由δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数;
S22,在MDP上定义一个带有势能的奖励自动机器,则表达式如下:
MDP上扩展带有势能的奖励自动机的表达式如下:
5.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S3中,采用基于拓扑排序来计算配送机器人每个状态的势能函数的具体实现步骤如下:
S31,将策略自动机转化为状态图,进行深度优先搜索,表达式如下:
DFS(i,j,m,n,dcg)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表;
S32,配送机器人在对某些任务点之间进行循环配送时,这些任务点组成一个强连通分量;所述强连通分量中每个任务点的势能函数w[scc]的表达为:
6.根据权利要5所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;其中m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序;
如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,则将当前正访问的顶点序号换成m[i]和n[v]中的最小值;其中n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点;
如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582969.5A CN115793657B (zh) | 2022-12-09 | 2022-12-09 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211582969.5A CN115793657B (zh) | 2022-12-09 | 2022-12-09 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115793657A true CN115793657A (zh) | 2023-03-14 |
CN115793657B CN115793657B (zh) | 2023-08-01 |
Family
ID=85418649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211582969.5A Active CN115793657B (zh) | 2022-12-09 | 2022-12-09 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115793657B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116021527A (zh) * | 2023-03-27 | 2023-04-28 | 中国科学技术大学 | 一种任务驱动的机器人操作技能学习方法、介质及设备 |
CN117111522A (zh) * | 2023-09-18 | 2023-11-24 | 扬州大学 | 一种动态环境下移动机器人控制方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105467997A (zh) * | 2015-12-21 | 2016-04-06 | 浙江工业大学 | 基于线性时序逻辑理论的仓储机器人路径规划方法 |
CN106527448A (zh) * | 2016-12-16 | 2017-03-22 | 浙江工业大学 | 适用于仓库环境的改进a*机器人最优路径规划方法 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113255967A (zh) * | 2021-04-28 | 2021-08-13 | 北京理工大学 | 信号时序逻辑约束下基于终点回溯的任务规划方法和装置 |
CN113259246A (zh) * | 2021-06-28 | 2021-08-13 | 东禾软件(江苏)有限责任公司 | 一种不确定网络环境下ryu控制器流表自动生成方法 |
CN113490578A (zh) * | 2019-03-08 | 2021-10-08 | 罗伯特·博世有限公司 | 运行多智能体系统中的机器人的方法、机器人和多智能体系统 |
WO2021221801A1 (en) * | 2020-04-27 | 2021-11-04 | Microsoft Technology Licensing, Llc | Training reinforcement machine learning systems with a sub-goal based shaped reward function |
CN114265674A (zh) * | 2021-09-29 | 2022-04-01 | 鹏城实验室 | 时序逻辑约束下基于强化学习的任务规划方法及相关装置 |
CN114355947A (zh) * | 2022-01-11 | 2022-04-15 | 上海交通大学 | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 |
WO2022101452A1 (en) * | 2020-11-12 | 2022-05-19 | UMNAI Limited | Architecture for explainable reinforcement learning |
CN115390455A (zh) * | 2022-09-15 | 2022-11-25 | 中国科学技术大学 | 基于时序逻辑的安全强化学习方法及系统 |
-
2022
- 2022-12-09 CN CN202211582969.5A patent/CN115793657B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105467997A (zh) * | 2015-12-21 | 2016-04-06 | 浙江工业大学 | 基于线性时序逻辑理论的仓储机器人路径规划方法 |
CN106527448A (zh) * | 2016-12-16 | 2017-03-22 | 浙江工业大学 | 适用于仓库环境的改进a*机器人最优路径规划方法 |
CN113490578A (zh) * | 2019-03-08 | 2021-10-08 | 罗伯特·博世有限公司 | 运行多智能体系统中的机器人的方法、机器人和多智能体系统 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
WO2021221801A1 (en) * | 2020-04-27 | 2021-11-04 | Microsoft Technology Licensing, Llc | Training reinforcement machine learning systems with a sub-goal based shaped reward function |
WO2022101452A1 (en) * | 2020-11-12 | 2022-05-19 | UMNAI Limited | Architecture for explainable reinforcement learning |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113255967A (zh) * | 2021-04-28 | 2021-08-13 | 北京理工大学 | 信号时序逻辑约束下基于终点回溯的任务规划方法和装置 |
CN113259246A (zh) * | 2021-06-28 | 2021-08-13 | 东禾软件(江苏)有限责任公司 | 一种不确定网络环境下ryu控制器流表自动生成方法 |
CN114265674A (zh) * | 2021-09-29 | 2022-04-01 | 鹏城实验室 | 时序逻辑约束下基于强化学习的任务规划方法及相关装置 |
CN114355947A (zh) * | 2022-01-11 | 2022-04-15 | 上海交通大学 | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 |
CN115390455A (zh) * | 2022-09-15 | 2022-11-25 | 中国科学技术大学 | 基于时序逻辑的安全强化学习方法及系统 |
Non-Patent Citations (5)
Title |
---|
BOZKURT, A.K.等: "Control Synthesis from Linear Temporal Logic Specifications using Model-Free Reinforcement Learning", 《2020 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 * |
CHENYANG ZHU等: "Real-Time Trigger-Response Properties for Event-B Applied to the Pacemaker", 《2020 INTERNATIONAL SYMPOSIUM ON THEORETICAL ASPECTS OF SOFTWARE ENGINEERING》 * |
LAVAEI, A等: "Formal Controller Synthesis for Continuous-Space MDPs via Model-Free Reinforcement Learning", 《11TH ACM/IEEE INTERNATIONAL CONFERENCE ON CYBER-PHYSICAL SYSTEMS》 * |
ZHU CHENYANG等: "GR(1)-Guided Deep Reinforcement Learning for Multi-Task Motion Planning under a Stochastic Environment", 《ELECTRONICS》, vol. 11, no. 22 * |
李保罗等: "动态不确定环境中时序逻辑引导的强化学习方法研究", 《控制与决策》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116021527A (zh) * | 2023-03-27 | 2023-04-28 | 中国科学技术大学 | 一种任务驱动的机器人操作技能学习方法、介质及设备 |
CN117111522A (zh) * | 2023-09-18 | 2023-11-24 | 扬州大学 | 一种动态环境下移动机器人控制方法及系统 |
CN117111522B (zh) * | 2023-09-18 | 2024-03-12 | 扬州大学 | 一种动态环境下移动机器人控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115793657B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115793657A (zh) | 基于时态逻辑控制策略的配送机器人路径规划方法 | |
Li et al. | A reinforcement learning based RMOEA/D for bi-objective fuzzy flexible job shop scheduling | |
CN108053119B (zh) | 一种求解零等待流水车间调度问题的改进粒子群优化方法 | |
Meloni et al. | A rollout metaheuristic for job shop scheduling problems | |
Chang et al. | An adaptive sampling algorithm for solving Markov decision processes | |
CN112325897B (zh) | 基于启发式深度强化学习的路径规划方法 | |
Wen et al. | Correct-by-synthesis reinforcement learning with temporal logic constraints | |
CN111191934A (zh) | 一种基于强化学习策略的多目标云工作流调度方法 | |
CN110014428B (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
CN113988508B (zh) | 一种基于强化学习的电网调控策略优化方法 | |
Wang et al. | Solving task scheduling problems in cloud manufacturing via attention mechanism and deep reinforcement learning | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
CN104360906B (zh) | 一种基于差分约束系统与迭代模的高层次综合调度方法 | |
Martín et al. | Optimized execution of pddl plans using behavior trees | |
Chen et al. | Policy gradient from demonstration and curiosity | |
CN118245607A (zh) | 一种基于强化学习的电力业务数据辅助知识图谱构建方法 | |
Cai et al. | Deep reinforcement learning for solving resource constrained project scheduling problems with resource disruptions | |
Almalki et al. | Exploration of reinforcement learning to play snake game | |
Ma et al. | Control of state tree structures | |
Panov et al. | Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering | |
Morales | Deep Reinforcement Learning | |
CN114995818A (zh) | 一种Simulink模型到C语言的优化参数自动配置方法 | |
Marchesano et al. | Deep Reinforcement Learning Approach for Maintenance Planning in a Flow-Shop Scheduling Problem | |
Liao et al. | Learning to schedule job-shop problems via hierarchical reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |