CN115793657A - 基于时态逻辑控制策略的配送机器人路径规划方法 - Google Patents

基于时态逻辑控制策略的配送机器人路径规划方法 Download PDF

Info

Publication number
CN115793657A
CN115793657A CN202211582969.5A CN202211582969A CN115793657A CN 115793657 A CN115793657 A CN 115793657A CN 202211582969 A CN202211582969 A CN 202211582969A CN 115793657 A CN115793657 A CN 115793657A
Authority
CN
China
Prior art keywords
reward
state
function
robot
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211582969.5A
Other languages
English (en)
Other versions
CN115793657B (zh
Inventor
朱晨阳
朱金宇
蔡玉洁
孙广辉
陈缪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202211582969.5A priority Critical patent/CN115793657B/zh
Publication of CN115793657A publication Critical patent/CN115793657A/zh
Application granted granted Critical
Publication of CN115793657B publication Critical patent/CN115793657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于时态逻辑控制策略的配送机器人路径规划方法,包括步骤:基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略可作为顶层策略引导配送机器人学习底层强化学习方法;基于奖励自动机状态图的拓扑排序设计势能函数,解决状态图中存在有向有环图的情况和避免出现配送机器人循环刷分的行为。本发明能提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优。

Description

基于时态逻辑控制策略的配送机器人路径规划方法
技术领域
本发明涉及机器人路径规划方法,尤其涉及一种基于时态逻辑控制策略的配送机器人路径规划方法。
背景技术
强化学习是一种训练智能体在探索环境时学习最优策略以获得最大奖励的人工智能技术。但是经典的强化学习RL仍然存在一些缺陷,比如收敛慢、奖励稀疏、收敛至局部最优等问题。Q-学习是强化学习中一种经典的算法,但在初始化过程中通常将Q值均设为等值或随机值,即在无先验知识的环境下学习,这使得算法收敛速度变慢。
LTL(Linear Temporal Logic,线性时态逻辑)是一种可以描述非马尔可夫的复杂规约的形式化语言。在智能体的多任务学习中引入LTL来设计任务规约,可以捕捉环境和任务的时态属性来表达复杂任务约束。LTL的综合策略可以用来编写强化学习的奖励函数,有效地训练人工因子。如何在复杂环境下合成LTL规约的策略,并将其作为顶层策略引导底层强化学习方法,这对于智能体多任务学习有着重要的理论意义和应用价值。
发明内容
发明目的:本发明的目的是提供一种提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优的基于时态逻辑控制策略的配送机器人路径规划方法。
技术方案:本发明的配送机器人路径规划方法,包括步骤如下:
S1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;
S2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略作为顶层策略引导底层强化学习方法;
S3,基于奖励自动机状态图的拓扑排序设计势能函数,并计算配送机器人每个状态的势能函数,将每个任务点赋予势能值;若配送机器人从高势能前往低势能,则赋予配送机器人负奖励;若配送机器人从低势能前往高势能,则赋予正奖励。
进一步,步骤S1中,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约的具体实现步骤如下:
S11,采用Strix工具作为LTL策略合成工具,将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈;LTL公式的具体表达式如下:
Figure BDA0003990294690000021
其中p为原子命题;
Figure BDA0003990294690000022
表示不满足
Figure BDA0003990294690000023
表示同时满足
Figure BDA0003990294690000024
Figure BDA0003990294690000025
表示满足
Figure BDA0003990294690000026
或者满足
Figure BDA0003990294690000027
表示不满足
Figure BDA0003990294690000028
或者满足
Figure BDA0003990294690000029
表示
Figure BDA00039902946900000210
Figure BDA00039902946900000211
都不满足;
Figure BDA00039902946900000212
表示在满足
Figure BDA00039902946900000213
之前,
Figure BDA00039902946900000214
一直满足;
Figure BDA00039902946900000215
表示在下一刻满足
Figure BDA00039902946900000216
表示总是满足
Figure BDA00039902946900000217
表示最终满足
Figure BDA00039902946900000218
并通过策略迭代算法计算控制器获得成功的策略,将成功的策略作为符合LTL规约的控制策略S;所述控制策略S的形式可表示为:
S=〈A,a0,M,δa,δi>
其中A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数;
S12,通过基于控制策略S定义带有势能的奖励自动机,来对配送机器人行为赋予奖励值,奖励自动机的定义为
Figure BDA00039902946900000226
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,M′
Figure BDA00039902946900000227
A′表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,
Figure BDA00039902946900000220
表示带有转移函数的状态奖励函数,
Figure BDA00039902946900000219
表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa
当状态间转移函数得出的状态不属于接受状态集合时,则赋予配送机器人奖励为0,
Figure BDA00039902946900000221
取值在0和
Figure BDA00039902946900000223
之间;
当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励
Figure BDA00039902946900000225
Figure BDA00039902946900000222
也取值
Figure BDA00039902946900000224
进一步,步骤S2中,添加奖励机基于控制策略的经验回放机制到Q-学习中,具体实现步骤如下:
S21,设配送机器人目前所处的奖励机状态为u,配送机器人采取了动作a,则配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由下式确定:
δu(u,L(s,a,s′))
其中,L(s,a,s′)是标签函数,δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态;
获得的奖励r′由δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数;
S22,在MDP上定义一个带有势能的奖励自动机器,则表达式如下:
Figure BDA0003990294690000031
Figure BDA0003990294690000032
其中,标签函数
Figure BDA0003990294690000033
T代表配送机器人状态的集合,t0代表初始位置,Q表示采取的动作,V是状态转移的概率函数,K是奖励转移的相关函数,γ代表MDP中的折扣因子;
MDP上扩展带有势能的奖励自动机的表达式如下:
Figure BDA0003990294690000034
其中,
Figure BDA0003990294690000035
为带有势能的奖励自动机中的状态转移概率函数,
Figure BDA0003990294690000036
为带有势能的奖励自动机中的奖励转移的相关函数。
进一步,如果配送机器人在状态<t,a>,而且在MDP中采取动作i从状态t转变到t′,且
Figure BDA0003990294690000037
将从状态a转换成
Figure BDA0003990294690000038
如果
Figure BDA0003990294690000039
奖励机状态保持在a不变;
配送机器人转移的下一个状态如果是可接受的状态,则将奖励函数
Figure BDA00039902946900000310
更新成势能函数
Figure BDA00039902946900000311
如果不是可接受的状态,则赋值为0,则表达如下:
Figure BDA0003990294690000041
Figure BDA0003990294690000042
其中,K和
Figure BDA0003990294690000043
在同一标量中,K表示奖励转移的相关函数,
Figure BDA0003990294690000044
表示势能函数。
进一步,步骤S3中,采用基于拓扑排序来计算配送机器人每个状态的势能函数的具体实现步骤如下:
S31,将策略自动机转化为状态图,进行深度优先搜索,表达式如下:
DFS(i,j,m,n,dcg)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表;
S32,配送机器人在对某些任务点之间进行循环配送时,这些任务点组成一个强连通分量;所述强连通分量中每个任务点的势能函数w[scc]的表达为:
Figure BDA0003990294690000045
其中,
Figure BDA0003990294690000046
为父节点的权重,scc.size为强连通分量内的任务点总数,num为状态图中的总任务点数。
进一步,每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;其中m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序;
如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,则将当前正访问的顶点序号换成m[i]和n[v]中的最小值;其中n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点;
如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
本发明与现有技术相比,其显著效果如下:
1、传统的强化学习方法训练配送机器人进行路径规划,配送机器人通常需要在完成整个配送任务后才能获得应有的奖励,因而导致配送机器人需要较多的时间才能学习到最优的配送策略;在本发明中,通过设置中间奖励,配送机器人完成某部分配送任务后就能获得奖励,因而配送机器人能够获得有效的反馈,进而缩短了配送机器人学习整个配送流程所需要的时间;
2、由于配送机器人所需完成的配送任务是一种多任务规约,传统的强化学习难以处理多任务规约,因而需要较多的时间去学习最优策略;本发明将配送机器人的路径规划问题转化为由LTL生成的控制策略作为顶层策略来引导底层强化学习方法,能够有效降低配送机器人在面对多任务规约时学习最优策略所需的时间;
3、当配送机器人的配送任务中出现对某些任务点进行循环配送时,由LTL生成的控制策略便存在有向有环图的形式,此时若采用标准值迭代算法则学习效率低下;在本发明中提出基于拓扑排序的奖励塑造算法计算每个状态的势能函数,将每个任务点赋予势能值,若配送机器人从高势能前往低势能,则赋予配送机器人负奖励,反之则赋予正奖励,不仅能解决配送机器人出现循环刷分的问题,同时也有效提高了配送机器人的学习效率。
附图说明
图1为本发明的总流程示意图;
图2(a)为在Ψ1控制策略下的状态转移图,
图2(b)为在Ψ1控制策略下的状态转移图中不同算法的收敛速度和单步获得的奖励大小比较结果示意图;
图3基于控制策略的经验回放机制到Q-学习中算法流程图;
图4基于拓扑排序的奖励塑造算法流程图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
本发明基于时态逻辑捕捉任务的时态属性,通过设计一种基于时态逻辑控制策略的强化学习奖励约束方法,以及通过设置中间奖励和势能函数从而提高配送机器人在复杂任务规约下学习配送路径规划的效率和避免收敛到局部最优。
如图1所示,本发明的配送机器人路径规划方法,包括如下:
步骤1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值。具体实现步骤如下:
步骤11,在本发明中,LTL规约的控制策略合成旨在生成一个满足LTL规约的策略使得配送机器人能在指定路径上通过采取这个策略完成设定的配送任务。本发明采用Strix工具作为LTL策略合成工具,简化后的LTL公式具体表达式如下:
Figure BDA0003990294690000061
其中p为原子命题;
Figure BDA0003990294690000062
表示不满足
Figure BDA0003990294690000063
表示同时满足
Figure BDA0003990294690000064
Figure BDA0003990294690000065
表示满足
Figure BDA0003990294690000066
或者满足
Figure BDA0003990294690000067
表示不满足
Figure BDA0003990294690000068
或者满足
Figure BDA0003990294690000069
表示
Figure BDA00039902946900000610
Figure BDA00039902946900000611
部不满足;
Figure BDA00039902946900000612
表示在满足
Figure BDA00039902946900000613
之前,
Figure BDA00039902946900000614
一直满足;
Figure BDA00039902946900000615
表示在下一刻满足
Figure BDA00039902946900000616
表示总是满足
Figure BDA00039902946900000617
表示最终满足
Figure BDA00039902946900000618
将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈,并通过策略迭代算法计算控制器获得成功的策略,即为符合LTL规约的控制策略S。此控制策略S的形式可表示为转换器:
S=〈A,a0,M,δa,δi> (02)
其中,A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数。
配送机器人需要按顺序分别对指定区域进行配送,并且当配送机器人在某些区域完成配送任务后必须到下一个区域进行配送,在配送的过程中保证配送机器人并不触及任何障碍区域,并在配送任务完成后停在某一区域。上述针对配送机器人的配送策略的制定分别对应了LTL规约中顺序性、反应性、安全性、活性。
步骤12,定义带有势能的奖励自动机来对配送机器人行为赋予奖励值,奖励自动机的定义为:
Figure BDA00039902946900000619
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,M′
Figure BDA00039902946900000623
A′表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,
Figure BDA00039902946900000620
表示带有转移函数的状态奖励函数,
Figure BDA00039902946900000621
表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa
给定原子命题
Figure BDA00039902946900000622
分别表示在配送机器人执行动作a后的状态转移函数、带有转移函数的状态奖励函数和势能函数,三者的计算都取决于配送机器人执行的动作a的状态。当状态间转移函数得出的状态不属于接受状态集合时,则赋予配送机器人奖励为0,
Figure BDA0003990294690000071
取值在0和
Figure BDA0003990294690000072
之间;当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励
Figure BDA0003990294690000073
也取值
Figure BDA0003990294690000074
其中
Figure BDA0003990294690000075
为固有奖励。公式表达如下:
Figure BDA0003990294690000076
Figure BDA0003990294690000077
步骤2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略可作为顶层策略引导配送机器人学习底层强化学习方法;具体实现步骤如下:
步骤21,在本发明中,添加奖励机基于控制策略的经验回放机制到Q-学习中,从而帮助配送机器人能够更快地学习到最优配送策略。假设配送机器人目前所处的奖励机状态为u,由于配送机器人采取了动作a,所以配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由公式(06)确定:
δu(u,L(s,a,s′)) (06)
其中,L(s,a,s′)是标签函数,其定义如下:标签功能
Figure BDA0003990294690000078
其中P代表原子命题,
Figure BDA0003990294690000079
给P中的符号赋真值,P中给定环境经验exp=(u,t,u′),其中状态u′是从状态u执行动作t之后的状态。δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态,获得的奖励r′由式子δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数。
奖励机基于控制策略的经验回放机制的主要思想为配送机器人每采取一步动作之后,基于控制策略的经验回放机制就给予其一些经验。
步骤22,在马尔可夫决策过程(MDP)上定义一个带有势能的奖励自动机器
Figure BDA00039902946900000710
Figure BDA00039902946900000711
其中包含了标签函数
Figure BDA0003990294690000081
T代表配送机器人状态的集合,t0代表初始位置,Q表示采取的动作,V是状态转移的概率函数,K是奖励转移的相关函数,γ代表MDP中的折扣因子。
MDP上扩展带有势能的奖励自动机被定义为
Figure BDA0003990294690000082
其中
Figure BDA0003990294690000083
为带有势能的奖励自动机中的状态转移概率函数,
Figure BDA0003990294690000084
为带有势能的奖励自动机中的奖励转移的相关函数。
如果配送机器人在状态<t,a>,而且在MDP中采取动作i从状态t转变到t′,如果
Figure BDA0003990294690000085
将从状态a转换成
Figure BDA0003990294690000086
如果
Figure BDA0003990294690000087
则奖励机状态保持在a不变。
配送机器人转移的下一个状态如果是可接受的状态,则将奖励函数
Figure BDA0003990294690000088
更新成势能函数
Figure BDA0003990294690000089
如果不是可接受的状态,则赋值为0,其中K和
Figure BDA00039902946900000810
在同一标量中。公式表达如下:
Figure BDA00039902946900000811
Figure BDA00039902946900000812
其中,
Figure BDA00039902946900000813
表示势能函数。
步骤3,基于奖励自动机状态图的拓扑排序设计势能函数,解决状态图中存在有向有环图的情况和避免配送机器人出现循环刷分的行为。
利用LTL所生成的控制策略通常会存在两种形式的状态图,分别为有向无环图和有向有环图。标准值迭代算法计算出的势能函数的值主要取决于MDP中的折损因子γ,当初始状态和终端状态相邻时,配送机器人学习到最优配送策略的学习效率会降低,不利于训练。另外,当配送机器人的配送任务需要在某些任务点进行循环配送时,可能会出现配送机器人在某些任务点进行循环刷分的行为,即持续在某些点进行配送任务获得奖励,这不符合预期对于配送机器人的任务规约,因此本发明提出基于拓扑排序来计算配送机器人每个状态的势能函数的算法,详细的算法流程图如图4所示。具体实现步骤如下:
步骤31,首先将策略自动机转化为状态图,进行深度优先搜索:
DFS(i,j,m,n,dcg) (012)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表。
定义m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序。n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点。每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,就将当前正访问的顶点序号换成m[i]和n[v]中的最小值。如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
步骤32,配送机器人在对某些任务点之间进行循环配送时,这些任务点即组成一个强连通分量,势能函数定义了强连通分量内的每个任务点的势能值都相同,因而有效解决了传统标准值迭代算法难以处理的问题,大大缩短配送机器人学习到最优配送的策略所需的时间。
强连通分量中每个任务点的势能函数w[scc]为父节点的权重
Figure BDA0003990294690000091
加上强连通分量内的任务点总数scc.size与状态图中的总任务点数num的比值。公式表达为:
Figure BDA0003990294690000092
本实施例以配送机器人路径规划完成循环配送任务为例。选用一台配送机器人,首先配送机器人处在一个被划分为a1、b1、c1、d1这4个区域的空间内。如图2(a)所示,本实施例中采用时态逻辑描述任务规约:如始终避开某些障碍区(安全性)、巡回并按顺序经过某几个区域(顺序性)、途径某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等。Ψ1为本次配送机器人的任务规约,Ψ1仅包含配送机器人的初始位置、路径规划规则、以及无限频繁执行的区域a1-d1相应的任务。
实施例中的规约Ψ1式子如下:
Figure BDA0003990294690000093
Figure BDA0003990294690000101
在本实施例中,配送机器人在任务点a1所需要完成的任务是对货物进行装载,然后在b1、c1、d1任务点处所需完成的任务是对指定货物进行配送。在上式(014)中,a′1、b′1、c′1、d′1表示配送机器人下一步到达的区域,子公式(1)表示配送机器人在初始位置执行任务点a1的任务;子公式(2)表示配送机器人不在任务点c1、d1执行配送任务的情况下前往任务点d1执行配送任务;子公式(3)表示配送机器人在执行任务点d1任务但未执行任务点c1任务的条件下前往任务点c1执行任务;子公式(4)表示配送机器人在执行完任务点c1、d1的任务后会结束任务点d1的任务;子公式(5)表示配送机器人在到达任务点c1后前往任务点b1;子公式(6)表示配送机器人在到达任务点b1、c1后前往任务点d1;子公式(7)表示配送机器人在到达了任务点b1、c1、d1后前往a1;子公式(8)表示配送机器人在同时执行任务a1、b1、c1、d1后会结束任务点d1的任务;子公式(9)表示配送机器人不断执行任务点a1、b1、c1、d1的任务。
其中通过添加基于控制策略的经验回放机制到Q-学习中,从而帮助智能体能够更快的学习到最优策略,具体算法见表1,流程图如图3所示。
表1添加基于控制策略的经验回放机制到Q-学习中
Figure BDA0003990294690000102
Figure BDA0003990294690000111
在得到配送机器人的顶层控制策略后,应用于配送机器人的连续控制中。在整个配送任务中,通过添加中间奖励,能有效提高配送机器人的学习效率。如果配送机器人每完成一步就赋予一定的奖励,就会导致配送机器人出现重复刷分的问题,那么便无法保证全局最优策略的要求,因而提出了基于势能的奖励函数的塑造,具体算法见表2。给每一个状态一个势能,从高势能到低势能时会给予负奖励,反之则为正奖励,从而解决了反复刷分的问题,同时也保证了最优策略的一致性。
表2基于拓扑排序的奖励塑造
Figure BDA0003990294690000112
Figure BDA0003990294690000121
本发明针对配送机器人路径规划问题,提出了基于时态逻辑控制策略的Q-学习奖励约束方法,并针对有向有环的状态图形式提出了基于奖励自动机状态图的拓扑排序设计势能函数。将添加基于控制策略的经验回放机制到Q-学习中、基于势能的奖励函数的塑造算法融入到配送机器人实施例中,配送机器人需要在指定规约下完成配送任务。为了验证实验结论,通过比较分层强化学习算法(HRL)、Q学习算法(QL)、基于线性时态逻辑的Q学习算法(LTL-QL)、基于线性时态逻辑且结合Q学习的标准值迭代算法(LTL-QL-VIRS)、基于拓扑排序的奖励塑造算法(LTL-QL-TSRS)这五种算法在Ψ1控制策略下的状态转移图中学习速度和获得奖励大小,对比结果如图2(b)所示。实验结果表明:配送机器人在LTL-QL算法和LTL-QL-TSRS算法下能够更快速的学习到最优的配送策略,同时也能够获得更高的累积奖励。

Claims (6)

1.一种基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,包括步骤如下:
S1,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约,根据合成策略的接受条件构建带有势能函数的奖励自动机来对配送机器人的行为赋予奖励值;
S2,在原环境的马尔可夫决策过程的基础上设计奖励自动机引导的状态转移函数,使得基于时态逻辑的控制策略作为顶层策略引导底层强化学习方法;
S3,基于奖励自动机状态图的拓扑排序设计势能函数,并计算配送机器人每个状态的势能函数,将每个任务点赋予势能值;若配送机器人从高势能前往低势能,则赋予配送机器人负奖励;若配送机器人从低势能前往高势能,则赋予正奖励。
2.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S1中,基于奇偶校验博弈合成时态逻辑的控制策略来表述配送机器人的任务规约的具体实现步骤如下:
S11,采用Strix工具作为LTL策略合成工具,将简化后的LTL公式转化为确定型奇偶自动机,并将确定型奇偶自动机组合为控制器与环境间的奇偶博弈;LTL公式的具体表达式如下:
Figure FDA0003990294680000011
其中p为原子命题;
Figure FDA0003990294680000012
表示不满足
Figure FDA0003990294680000013
Figure FDA0003990294680000014
表示同时满足
Figure FDA0003990294680000015
Figure FDA0003990294680000016
Figure FDA0003990294680000017
表示满足
Figure FDA0003990294680000018
或者满足
Figure FDA0003990294680000019
Figure FDA00039902946800000110
表示不满足
Figure FDA00039902946800000111
或者满足
Figure FDA00039902946800000112
Figure FDA00039902946800000113
表示
Figure FDA00039902946800000114
Figure FDA00039902946800000115
都不满足;
Figure FDA00039902946800000116
表示在满足
Figure FDA00039902946800000117
之前,
Figure FDA00039902946800000118
一直满足;
Figure FDA00039902946800000119
表示在下一刻满足
Figure FDA00039902946800000120
Figure FDA00039902946800000121
表示总是满足
Figure FDA00039902946800000122
Figure FDA00039902946800000123
表示最终满足
Figure FDA00039902946800000124
并通过策略迭代算法计算控制器获得成功的策略,将成功的策略作为符合LTL规约的控制策略
Figure FDA00039902946800000125
所述控制策略
Figure FDA00039902946800000126
的形式可表示为:
Figure FDA00039902946800000127
其中A表示的有限状态集合,a0表示初始状态,M表示有限终止状态集合,δa表示状态转移函数,δi表示状态奖励函数;
S12,通过基于控制策略S定义带有势能的奖励自动机,来对配送机器人行为赋予奖励值,奖励自动机的定义为
Figure FDA0003990294680000021
其中,A′表示一个有限状态集合,a0′∈A′表示初始状态,
Figure FDA00039902946800000211
表示接受状态集合,δa′∈A′×2p→A′表示状态间的转移函数,
Figure FDA0003990294680000022
表示带有转移函数的状态奖励函数,
Figure FDA0003990294680000023
表示势能函数,其中A′=A,a′0=a0,M′=M,δa′=δa
当状态间转移函数得出的状态不属于接受状态集合时,则赋予配送机器人奖励为0,
Figure FDA0003990294680000024
取值在0和
Figure FDA0003990294680000025
之间;
当状态间转移函数得出的状态属于接受状态集合时,则会赋予配送机器人连续奖励
Figure FDA0003990294680000026
Figure FDA0003990294680000027
也取值
Figure FDA0003990294680000028
3.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S2中,添加奖励机基于控制策略的经验回放机制到Q-学习中,具体实现步骤如下:
S21,设配送机器人目前所处的奖励机状态为u,配送机器人采取了动作a,则配送机器人所处环境的状态从s转换为了s′,奖励机的下一个状态u′由下式确定:
δu(u,L(s,a,s′))
其中,L(s,a,s′)是标签函数,δu是奖励机的状态转移函数,s′表示配送机器人执行动作a之后的环境状态;
获得的奖励r′由δr(u,L(s,a,s′))确定,其中δr表示状态奖励函数;
S22,在MDP上定义一个带有势能的奖励自动机器,则表达式如下:
Figure FDA0003990294680000029
Figure FDA00039902946800000210
其中,标签函数
Figure FDA0003990294680000031
T代表配送机器人状态的集合,t0代表初始位置,Q表示采取的动作,V是状态转移的概率函数,K是奖励转移的相关函数,γ代表MDP中的折扣因子;
MDP上扩展带有势能的奖励自动机的表达式如下:
Figure FDA0003990294680000032
其中,
Figure FDA0003990294680000033
Figure FDA0003990294680000034
为带有势能的奖励自动机中的状态转移概率函数,
Figure FDA0003990294680000035
为带有势能的奖励自动机中的奖励转移的相关函数。
4.根据权利要求3所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,如果配送机器人在状态<t,a>,而且在MDP中采取动作i从状态t转变到t′,且
Figure FDA0003990294680000036
将从状态a转换成
Figure FDA0003990294680000037
如果
Figure FDA0003990294680000038
奖励机状态保持在a不变;
配送机器人转移的下一个状态如果是可接受的状态,则将奖励函数
Figure FDA0003990294680000039
更新成势能函数
Figure FDA00039902946800000310
如果不是可接受的状态,则赋值为0,则表达如下:
Figure FDA00039902946800000311
Figure FDA00039902946800000312
其中,K和
Figure FDA00039902946800000313
在同一标量中,K表示奖励转移的相关函数,
Figure FDA00039902946800000314
表示势能函数。
5.根据权利要求1所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,步骤S3中,采用基于拓扑排序来计算配送机器人每个状态的势能函数的具体实现步骤如下:
S31,将策略自动机转化为状态图,进行深度优先搜索,表达式如下:
DFS(i,j,m,n,dcg)
其中,i用来递增变量,m存储配送机器人正在访问的顶点的序号,n表示配送机器人当前访问节点的邻近节点,dcg表示按照拓扑排序存储强连通分量的列表;
S32,配送机器人在对某些任务点之间进行循环配送时,这些任务点组成一个强连通分量;所述强连通分量中每个任务点的势能函数w[scc]的表达为:
Figure FDA0003990294680000041
其中,
Figure FDA0003990294680000042
为父节点的权重,scc.size为强连通分量内的任务点总数,num为状态图中的总任务点数。
6.根据权利要5所述基于时态逻辑控制策略的配送机器人路径规划方法,其特征在于,每个访问过的顶点都被存入栈中,与顶点邻接的点v如果邻接点还未访问,则递归调用深度优先搜索函数,并将m[i]更新为m[i]和m[v]中的最小值;其中m[i]存储配送机器人顶点的访问顺序,m[v]存储配送机器人邻近节点的访问顺序;
如果已经被访问且邻接点v位于栈中,表示找到一个强连通分量,则将当前正访问的顶点序号换成m[i]和n[v]中的最小值;其中n[i]为被推入堆栈中的顶点、n[v]为被推入堆栈中的邻近节点;
如果m[i]和n[i]相等,将栈中连接点的所有顶点和连接点标记在同一个强连通分量内。
CN202211582969.5A 2022-12-09 2022-12-09 基于时态逻辑控制策略的配送机器人路径规划方法 Active CN115793657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211582969.5A CN115793657B (zh) 2022-12-09 2022-12-09 基于时态逻辑控制策略的配送机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211582969.5A CN115793657B (zh) 2022-12-09 2022-12-09 基于时态逻辑控制策略的配送机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN115793657A true CN115793657A (zh) 2023-03-14
CN115793657B CN115793657B (zh) 2023-08-01

Family

ID=85418649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211582969.5A Active CN115793657B (zh) 2022-12-09 2022-12-09 基于时态逻辑控制策略的配送机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN115793657B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116021527A (zh) * 2023-03-27 2023-04-28 中国科学技术大学 一种任务驱动的机器人操作技能学习方法、介质及设备
CN117111522A (zh) * 2023-09-18 2023-11-24 扬州大学 一种动态环境下移动机器人控制方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105467997A (zh) * 2015-12-21 2016-04-06 浙江工业大学 基于线性时序逻辑理论的仓储机器人路径规划方法
CN106527448A (zh) * 2016-12-16 2017-03-22 浙江工业大学 适用于仓库环境的改进a*机器人最优路径规划方法
CN110014428A (zh) * 2019-04-23 2019-07-16 北京理工大学 一种基于强化学习的时序逻辑任务规划方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113255967A (zh) * 2021-04-28 2021-08-13 北京理工大学 信号时序逻辑约束下基于终点回溯的任务规划方法和装置
CN113259246A (zh) * 2021-06-28 2021-08-13 东禾软件(江苏)有限责任公司 一种不确定网络环境下ryu控制器流表自动生成方法
CN113490578A (zh) * 2019-03-08 2021-10-08 罗伯特·博世有限公司 运行多智能体系统中的机器人的方法、机器人和多智能体系统
WO2021221801A1 (en) * 2020-04-27 2021-11-04 Microsoft Technology Licensing, Llc Training reinforcement machine learning systems with a sub-goal based shaped reward function
CN114265674A (zh) * 2021-09-29 2022-04-01 鹏城实验室 时序逻辑约束下基于强化学习的任务规划方法及相关装置
CN114355947A (zh) * 2022-01-11 2022-04-15 上海交通大学 基于强化学习的机器人复杂时序逻辑任务路径规划方法
WO2022101452A1 (en) * 2020-11-12 2022-05-19 UMNAI Limited Architecture for explainable reinforcement learning
CN115390455A (zh) * 2022-09-15 2022-11-25 中国科学技术大学 基于时序逻辑的安全强化学习方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105467997A (zh) * 2015-12-21 2016-04-06 浙江工业大学 基于线性时序逻辑理论的仓储机器人路径规划方法
CN106527448A (zh) * 2016-12-16 2017-03-22 浙江工业大学 适用于仓库环境的改进a*机器人最优路径规划方法
CN113490578A (zh) * 2019-03-08 2021-10-08 罗伯特·博世有限公司 运行多智能体系统中的机器人的方法、机器人和多智能体系统
CN110014428A (zh) * 2019-04-23 2019-07-16 北京理工大学 一种基于强化学习的时序逻辑任务规划方法
WO2021221801A1 (en) * 2020-04-27 2021-11-04 Microsoft Technology Licensing, Llc Training reinforcement machine learning systems with a sub-goal based shaped reward function
WO2022101452A1 (en) * 2020-11-12 2022-05-19 UMNAI Limited Architecture for explainable reinforcement learning
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113255967A (zh) * 2021-04-28 2021-08-13 北京理工大学 信号时序逻辑约束下基于终点回溯的任务规划方法和装置
CN113259246A (zh) * 2021-06-28 2021-08-13 东禾软件(江苏)有限责任公司 一种不确定网络环境下ryu控制器流表自动生成方法
CN114265674A (zh) * 2021-09-29 2022-04-01 鹏城实验室 时序逻辑约束下基于强化学习的任务规划方法及相关装置
CN114355947A (zh) * 2022-01-11 2022-04-15 上海交通大学 基于强化学习的机器人复杂时序逻辑任务路径规划方法
CN115390455A (zh) * 2022-09-15 2022-11-25 中国科学技术大学 基于时序逻辑的安全强化学习方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BOZKURT, A.K.等: "Control Synthesis from Linear Temporal Logic Specifications using Model-Free Reinforcement Learning", 《2020 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 *
CHENYANG ZHU等: "Real-Time Trigger-Response Properties for Event-B Applied to the Pacemaker", 《2020 INTERNATIONAL SYMPOSIUM ON THEORETICAL ASPECTS OF SOFTWARE ENGINEERING》 *
LAVAEI, A等: "Formal Controller Synthesis for Continuous-Space MDPs via Model-Free Reinforcement Learning", 《11TH ACM/IEEE INTERNATIONAL CONFERENCE ON CYBER-PHYSICAL SYSTEMS》 *
ZHU CHENYANG等: "GR(1)-Guided Deep Reinforcement Learning for Multi-Task Motion Planning under a Stochastic Environment", 《ELECTRONICS》, vol. 11, no. 22 *
李保罗等: "动态不确定环境中时序逻辑引导的强化学习方法研究", 《控制与决策》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116021527A (zh) * 2023-03-27 2023-04-28 中国科学技术大学 一种任务驱动的机器人操作技能学习方法、介质及设备
CN117111522A (zh) * 2023-09-18 2023-11-24 扬州大学 一种动态环境下移动机器人控制方法及系统
CN117111522B (zh) * 2023-09-18 2024-03-12 扬州大学 一种动态环境下移动机器人控制方法及系统

Also Published As

Publication number Publication date
CN115793657B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN115793657A (zh) 基于时态逻辑控制策略的配送机器人路径规划方法
Li et al. A reinforcement learning based RMOEA/D for bi-objective fuzzy flexible job shop scheduling
CN108053119B (zh) 一种求解零等待流水车间调度问题的改进粒子群优化方法
Meloni et al. A rollout metaheuristic for job shop scheduling problems
Chang et al. An adaptive sampling algorithm for solving Markov decision processes
CN112325897B (zh) 基于启发式深度强化学习的路径规划方法
Wen et al. Correct-by-synthesis reinforcement learning with temporal logic constraints
CN111191934A (zh) 一种基于强化学习策略的多目标云工作流调度方法
CN110014428B (zh) 一种基于强化学习的时序逻辑任务规划方法
CN113988508B (zh) 一种基于强化学习的电网调控策略优化方法
Wang et al. Solving task scheduling problems in cloud manufacturing via attention mechanism and deep reinforcement learning
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN104360906B (zh) 一种基于差分约束系统与迭代模的高层次综合调度方法
Martín et al. Optimized execution of pddl plans using behavior trees
Chen et al. Policy gradient from demonstration and curiosity
CN118245607A (zh) 一种基于强化学习的电力业务数据辅助知识图谱构建方法
Cai et al. Deep reinforcement learning for solving resource constrained project scheduling problems with resource disruptions
Almalki et al. Exploration of reinforcement learning to play snake game
Ma et al. Control of state tree structures
Panov et al. Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering
Morales Deep Reinforcement Learning
CN114995818A (zh) 一种Simulink模型到C语言的优化参数自动配置方法
Marchesano et al. Deep Reinforcement Learning Approach for Maintenance Planning in a Flow-Shop Scheduling Problem
Liao et al. Learning to schedule job-shop problems via hierarchical reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant