CN111026110B - 面向含软、硬约束线性时序逻辑的不确定动作规划方法 - Google Patents
面向含软、硬约束线性时序逻辑的不确定动作规划方法 Download PDFInfo
- Publication number
- CN111026110B CN111026110B CN201911144064.8A CN201911144064A CN111026110B CN 111026110 B CN111026110 B CN 111026110B CN 201911144064 A CN201911144064 A CN 201911144064A CN 111026110 B CN111026110 B CN 111026110B
- Authority
- CN
- China
- Prior art keywords
- state
- task
- layer
- model
- soft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000010391 action planning Effects 0.000 title claims abstract description 14
- 238000012546 transfer Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000011217 control strategy Methods 0.000 claims abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000007704 transition Effects 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 26
- 230000006399 behavior Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 6
- 238000010521 absorption reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Description
技术领域
本发明属于智能体控制技术领域,尤其涉及一种面向含软、硬约束线性时序逻辑的不确定动作规划方法。
背景技术
线性时序逻辑是藉由通过原子命题的形式表示的环境信息、智能体信息经过一系列语法规范定义下的布尔符号与时序符号连接组成的用以描述系统规范的描述方式。线性时序逻辑公式由原子命题集AP与布尔运算符,时序运算符组成,公式形式为:这里p∈AP是原子命题集中的命题,线性时序逻辑(LTL)公式中包含的时序运算符包括○(下一步),∪(直到),□(总是),◇(最终),(指示符)。
软、硬任务约束是以LTL任务公式作为基础,用以强化任务描述,刻画任务间重要程度的不同。硬约束表示指定公式对应任务一定完成,任务执行中不允许存在风险,软约束任表示任务可以不完成或部分完成,存在任务失败的风险,其设定往往为节省资源或提高任务效率。两者之间从任务描述方式和规划过程的处理方式上都有明显区别。
针对传统智能体动作规划问题,面向由线性时序逻辑公式描述的任务,现有的解决方案主要有以下几种:
方案1:文献(Guo M,Dimarogonas D V.Multi-agent plan reconfigurationunder local LTL specifications[J].The International Journal of RoboticsResearch,2014,34(2):218-235.)中提到了软、硬约束任务的概念,最初是用于初始环境未知的情况,给出确定性智能体规划的方法,通过建立双层Büchi自动机模型实现对软、硬约束两子公式代指内容的表征,但规划没有涉及智能体长期不确定动作规划的部分。
方案2:文献(Ding X C,Smith S L,Belta C,et al.MDP Optimal Control underTemporal Logic Constraints[J].Mathematics,2011,413(1):532-538.)提出了不确定性因素存在时智能体动作规划的方法,通过值迭代求解运行成本上的最优策略。但假设条件是由智能体与环境组成的系统中不会出现任务失败的情况,在策略生成过程中不需要考虑风险的控制,使得方法适用的环境受到局限。
方案3:文献(Guo M,Zavlanos M M.Probabilistic Motion Planning underTemporal Tasks and Soft Constraints[J].IEEE Transactions on AutomaticControl,2018,63(12):4051-4066.)提出了面向单一的LTL任务公式智能体动作规划的方法,同时优化任务完成成功率与运行成本,但在任务描述上缺少对任务重要性方面更为细致的划分。面向描述更为复杂的任务时,求解方法框架也体现出不足,无法满足对软、硬约束中任务风险的要求。
本发明受上述方案的启发,在充分借鉴吸收其优势的同时,针对其自身所存在的不足,提出一种面向复杂线性时序逻辑任务的不确定动作规划方法。通过强化任务层模型的构建,实现面向软、硬约束两类任务的动作规划,规划所得策略既满足了硬约束任务的无风险,同时体现了软约束任务执行中允许风险存在的特性,使该动作规划方法框架可以面向更加复杂的任务描述。
发明内容
有鉴于此,本发明针对面向LTL任务的智能体长期不确定动作规划问题,提出了双层自动机任务模型表征LTL任务公式中软、硬约束,求解满足成本最优的控制策略,硬约束部分任务全过程无风险,软约束部分任务允许存在风险。
为了解决上述技术问题,本发明是这样实现的:
一种面向含软、硬约束线性时序逻辑的不确定动作规划方法,包括:
步骤一、建立双层自动机任务模型:
基于软、硬约束子任务公式,建立由DRA自动机描述的软约束任务模型和硬约束任务模型,并以此为基础建立双层自动机模型,重新确定状态描述与状态间的转移关系,划分自动机中软、硬约束任务各自的常返态与非常返态;
其中,在双层自动机模型中,每层的任务状态是硬约束任务模型和软约束任务模型中任务状态经任意组合形成的状态集;初始状态位于第一层;硬约束任务的常返态被放置在第一层,软约束任务的常返态被放置在第二层,非常返态同时放置在第一层和第二层;通过状态转移关系的设置使得双层间的转换条件为只有当所在层级对应的任务完成时可转换至另一层;
步骤二、面向软约束任务修改任务模型:
双层自动机模型上建立非法连接,构建从软约束任务非常返态出发,终止于软约束任务常返态的转移;将该非法连接加入双层自动机模型的状态间转移关系中;
步骤三、将双层自动机模型、智能体模型结合,设计优化问题,获得最优控制策略。
优选地,所述步骤一所建立的双层自动机模型为:
其中,
为任务状态集;表示是硬约束任务模型的任务状态Q与软约束任务模型的任务状态Q'进行任意组合形成的状态集,给该状态集打上标志位1或2,标志位用于区分应用于双层自动机模型的第一层还是第二层;符号×表示任意组合;
其中,H表示非常返态集合,I表示常返态集合,上角标的1和2区分属于硬约束任务模型还是软约束任务模型,下角标N1和N2表示可接受状态对的个数;则:
描述自动机中的状态间转移关系,存在(q1',q2',c')=δ((q1,q2,c),l),q1,q1'∈Q,q2,q2'∈Q';其中状态转移条件l需要满足的条件为:如果在硬约束任务模型中l令状态从q1转移到q1',且在软约束任务模型中状态转移条件l下令状态从q2转移到q2';层次切换条件为:当且c=1时,c'=2,即当硬约束任务完成,且当前在第一层,则转移到第二层;当且c=2时,c'=1,即当软约束任务完成,且当前在第二层,则转移到第一层;其余情况保持在当前层继续任务执行,令c'=c。
优选地,所述步骤二面向软约束任务修改任务模型为:对于(q1',q2',c')=δ((q1,q2,c),l)中的q2,如果q2是软约束任务模型的非常返态,且q2'是软约束任务模型中的常返态,则l只需要满足l1∈χ(q1,q1'),χ表示满足两个状态的合法转移条件的集合。
优选地,所述步骤三为:
由一含标签的马尔可夫决策过程表征智能体状态模型M,应用模型检测方法的思路,生成Product自动机Product自动机以智能体状态、环境属性、任务状态的组合状态s为基础,转移关系兼顾智能体状态模型M与双层任务自动机的转移条件和性质;通过约束状态点可行行为的方式在Product自动机上面向硬约束任务提取可接受最大终止集AMEC,AMEC的性质可保证系统状态进入其中后硬约束任务不会失败;
根据AMEC内状态集划分系统轨迹的前缀部分、后缀部分,硬约束任务非常返态只存在于前缀部分,并根据初始态与AMEC状态集的可达关系对Product自动机中状态做划分,将系统轨迹前缀部分模型转化成存在两个吸收态集合的概率转移图模型,由初始状态可达但不可转移至AMEC的状态集合记为Sd,AMEC状态集合记为Sc作为后缀模型,前缀部分模型剩余状态中初始态可达状态组成的集合记为Sn;
设集合Sn为原集合,遍历该集合Sn中所有状态元素,若状态s下的动作存在概率使系统状态由Sn转移至Sd,则将该动作从状态s的动作集中移除,若该状态s在动作约束后无可行动作,则将状态s从原集合中移除,重复此过程直至原集合状态集大小不再改变,得到适应硬约束任务的前缀部分Product自动机;
在修改后的自动机模型上重新进行点集划分并进行最优策略的求解。
有益效果:
面向含软、硬约束线性时序逻辑的不确定动作规划方法,加强了现有方法对复杂任务的适用性,其创新点主要体现在以下几方面。
一,双层自动机任务模型提供了一个面向软、硬任务进行各自独立规划的环境,将该任务模型与环境层模型做运算可通过传统规划方法加以处理,提高了智能体规划方法在复杂任务上的适用性。
二,规划过程同时考虑了任务风险与运行成本,在任务风险方面又同时考虑了软、硬约束对风险要求的差别,既强化了硬约束任务的安全性,又加大了软约束任务完成的自由度,提高了整个任务完成的效率。
附图说明
图1—双层自动机任务模型;
图2—运动机器人仿真示意图;
图3—任务效率对比示意图;
图4—软约束任务风险示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种面向含软、硬约束线性时序逻辑的不确定动作规划方法,包括如下步骤:
步骤一、建立双层自动机任务模型。本步骤基于软、硬约束子任务公式,建立各自独立的任务模型,由DRA(determinisitcrabinautometa)自动机描述,并以此为基础建立双层自动机模型,重新确定状态描述与状态间的转移关系,划分自动机中软、硬约束任务各自的常返态与非常返态。
步骤二、面向软约束任务修改任务模型。本步骤在双层自动机上建立非法连接,构建从软约束任务非常返态出发,终止于软约束任务常返态的转移,强化任务层模型的连通性。
步骤三、将双层自动机模型、智能体模型结合,设计优化问题,获得最优控制策略。
本步骤与应用马尔可夫过程表征的环境层模型做组合运算得到Product自动机模型,划分可接受终止集得到面向硬约束任务的无风险子图,同时考虑硬约束任务对整体状态集与该子图状态集的差集与其中的转移关系做调整,强化系统轨迹前缀对应模型结构对任务风险的满足。最后通过耦合线性规划求解满足任务风险要求同时在成本上达到最优的控制策略。
下面针对每个步骤进行详细描述。
步骤一、建立双层自动机任务模型
对于复杂任务的描述,任务公式可以由两个子公式给出,一个用以描述硬约束部分,另一个用以描述软约束部分,任务由两个子公式表述,体现两任务间重要程度的差异。硬约束任务要求一定完成,而软约束任务的完成可以存在风险,或出现任务失败,任务进程应以硬约束为主,软约束任务的进行不能影响硬约束要求。
这里通过改变任务模型结构来更好地描述软、约束下组合任务。
首先,组合任务的描述方式为
Ahard=(Q,2AP,δ,q0,AccA);
Asoft=(Q',2AP',δ',q0',AccA'),
任务模型给出了任务状态(Q,Q')、转移条件(2AP,2AP')(每个条件以二进制码形式给出,由与任务内容相关环境命题生成)、状态间转移(δ,δ')、初始状态(q0,q0')以及接受条件的描述(AccA,AccA'),其中接受条件由接受状态对的集合表示,每个状态对包含状态转移的常返态集合与非常返态集合,任务完成对应在任务模型上为某一状态对的要求被满足。
其中是自动机任务状态集,表示是硬约束任务模型的任务状态Q与软约束任务模型的任务状态Q'进行任意组合形成的状态集。最后一位为标志位(1或2);标志位用于区分应用于双层自动机模型的第一层还是第二层,那么带有不同标志位的状态分布在图1中不同层;符号×表示集合直积,即对集合中元素的任意组合;
H表示非常返态集合,I表示常返态集合,上角标的标注区分其属于硬约束任务模型还是软约束任务模型,下角标N1和N2表示可接受状态对的个数;
常返态集合生成方式同理。
可见,H表示在任务要求下后缀循环过程不可访问的状态集,本发明将两个层次的H进行融合,形成新的H,应用到两层中。I是标志任务完成的状态集合。因此下文中Hhard、Ihard表示中硬约束接受条件中某一状态对的非常返与常返状态集;Hsoft、Isoft表示中软约束接受条件中某一状态对的非常返与常返状态集。
(i)l需要满足的条件:l对应Ahard的命题l1∈χ(q1,q1'),对应Asoft的命题l2∈χ(q2,q2'),即如果l在硬约束背景下从q1转移到q1’,且在软约束背景下从q2转移到q2’;考虑对应软约束的任务状态位,如果q2是软约束任务接受条件Accsoft的非常返态,且q2’是Accsoft中的常返态,l则只需要满足l1∈χ(q1,q1'),即离开的转移的末端状态或自循环的转移的末端状态设置为Accsoft中的常返态;χ表示满足两个状态的合法转移条件的集合。
(ii)c需要满足的条件(定义了双层间的转换条件):当且c=1时,c'=2,表示当硬约束任务完成,且当前在硬约束层,则转移到软约束层;当且c=2时,c'=1,表示当软约束任务完成,且当前在软约束层,则转移到硬约束层;其余情况保持在当前层继续任务执行,令c'=c。本条件(ii)排除了当完成本层次任务执行,但没有跳转层次的各种转移关系,以及没有完成本层次任务就进行跳转的转移关系。
以上是对自动机的完整描述。将自动机拓展为双层结构,由标志位标明层数,每层的状态与转换关系都是相似的,层内的转换严格按照转移条件l的要求。从接受状态的定义上可看出,硬约束任务的常返态位于第一层,软约束任务的常返态位于第二层,非常返态的分布不局限于某一层,在第一、二层均有分布,双层间的转换条件是只有当系统所在层级对应的任务完成时可转换至另一层,具体解释为,初始状态在第一层,系统状态由初始状态出发,只有完成硬约束要求,才能进入第二层,在第二层中只有完成软约束要求,才能返回第一层。总任务的完成过程就是交替完成硬约束任务与软约束任务,从自动机的角度上看就是任务状态在双层结构间做循环转移。
步骤二、面向软约束任务修改任务模型
在得到组合任务模型后,沿用传统模型检测方法需将双层DRA任务模型与智能体状态模型组合生成Product自动机。考虑到硬约束任务风险的满足,需通过行为约束在Product自动机上建立可接受最大终止集(AMEC),但对AMEC的直接提取会对轨迹后缀对应图模型循环部分造成过度裁剪。这里为体现软约束任务对风险的可容忍性,需对任务模型做相应调整。
AMEC的提取需选取Hhard由相关算法生成,系统状态进入AMEC后,硬约束任务一定得到满足,假设AMEC得到后,检验其中是否包含Isoft元素,如果存在,则说明软约束任务可在保证硬约束任务完成的前提下完成,如果不存在,则说明两任务间不相容,组合任务的规划只能单独面向硬约束任务。由于现有AMEC是根据Hhard得到的,里面可能存在Hsoft中元素,这些状态在AMEC内部对于软约束任务是不良状态,可能会在后缀策略πsuf下反复经过使软约束任务失败。在提取AMEC过程中,考虑到系统状态到达或接近Hsoft中一些元素时会难以从局部脱离,造成后缀模型要求的连通性的违背,所以大量状态会排除在AMEC外,使后缀模型缩小,状态转移过于严格,在双层DRA中,若系统状态一直不能到达Isoft,会影响硬约束任务的进度,从而使整个任务进度停滞,这违反了对软约束任务的要求。通常研究中,此类问题的解决方法是设置在Product自动机层面的临时策略,这类方法在任务层面外考虑了智能体状态层,方法较为繁琐,需要考虑很多环境因素,且无法处理任务模型中进入吸收态的问题。
本发明通过调整任务层模型结构解决这一问题:将所有从Hsoft中状态离开的转移的末端状态或自循环的转移的末端状态设置为Isoft中状态,这样做的目的是一旦任务状态在后缀循环中到达不良状态中,说明软约束任务失败,此时将其随机引导到Isoft中的状态,由于常返态的访问标志此轮任务完成,因此此时视此轮任务已经完成,软约束任务终止而直接进入硬约束任务层,仅仅对任务层结构的改变仍然可使系统在Product自动机上状态转移时满足合法。此时提取得到的AMEC既能满足硬约束任务的要求,同时也体现了软、硬约束任务之间的差异。
步骤三、与智能体模型结合求解策略
在智能体模型方面,控制对象设定为单智能体,智能体在行为上存在不确定性,同一行为可使智能体状态发生不同的变化。同时智能体具有感知所处位置环境属性的能力,地图环境以栅格形式给出,地图信息包括每一区域坐标及针对智能体行为的转移关系,此外通过标签化处理体现环境属性的描述,每个区域环境标签具有随机性且概率分布已知。由一含标签的马尔可夫决策过程表征智能体状态模型,以元组形式表示。
M=(X,U,D,pD,(x0,l0),APM,LM,pL,cD)
其中X是有限状态集合;
U(x)是X中单个状态对应的可行动作集;
D={(x,u)|x∈X,u∈U(x)}为智能体状态与可行行为对的集合
pD:X×U×X→[0,1],表示智能体状态间转移的概率;
(x0,l0)是初始组合状态,其中l0∈L(x0);
P=(S,U,E,pE,cE,s0,Accp),
pE:S×U×S→[0,1]是状态转移的概率,满足pE(s,u,s')=pD(x,u,x')·pL(x',l'),其中s=<x,l,q>,s'=<x',l',q'>,(x,u)∈D且q'=δ(q,l);
s0=<x0,l0,q0>∈S是Product自动机上的初始状态;
Product自动机以智能体状态,环境属性,任务状态的组合状态为基础,转移关系兼顾MDPM与任务自动机的转移条件和性质,MDP表示由马尔可夫过程描述的智能体模型。通过约束状态点可行行为的方式在Product自动机上面向硬约束任务提取AMEC,AMEC的性质可保证系统状态进入其中后硬约束任务不会失败。根据AMEC内状态集划分状态转移模型,系统状态由初始态进入AMEC前的序列为轨迹前缀,进入AMEC后的无穷序列为轨迹后缀。硬约束任务对应非常返态只存在于前缀部分,并根据初始态与AMEC状态集的可达关系对Product自动机中状态做划分,由初始状态可达但不可转移至AMEC的状态集合记为Sd,AMEC状态集合记为Sc,AMEC外剩余状态中初始态可达状态组成的集合记为Sn,系统轨迹前缀对应在Product自动机上是存在两个吸收态集合Sc,Sd的概率转移图模型。
为确保硬约束任务以概率1完成,同时考虑智能体状态转移,环境属性的不确定性。这里应用了MDP中行为约束的思想,对系统前缀的规划前,预先对状态转移图模型做处理,从每个状态可行动作的层面控制系统不进入失败状态。
这里设集合Sn为原集合,遍历该集合中所有状态元素,若状态s下的动作存在概率使系统状态由Sn转移至Sd,则将该动作从状态s的动作集U(s)中移除,若该状态在动作约束后无可行动作,则将状态s从原集合中移除,重复此过程直至原集合状态集大小不再改变,得到适应硬约束任务的Product自动机。这一方法下所有可能使系统进入Sd的转移均被移除,因此在执行过程中不会出现任务失败的情况。得到修改后的自动机模型后,可搜索由初始状态到集合Sc的可行路径以推断是否存在满足给定硬约束的策略。
在修改后的自动机模型上重新完成点集划分并进行最优策略的求解。面向同一动作策略πpre:s×u→[0,1],s∈Sn,u∈U(s)生成的所有状态序列,以从初始态出发无限时长内系统在轨迹前缀部分状态s使用动作u的次数的期望值ys,u为规划变量,优化执行前缀部分任务的总成本。
规划问题以优化任务执行成本为目标,约束条件表示受轨迹前缀对应图模型约束下规划变量间的递推关系。
后缀部分的策略同样以线性规划的方式求解,首先定义AMEC内部硬约束任务常返态集合定义一子其中Sr为状态集,Ur表示可行行为集,Er为状态-行为对集合,y0为系统状态进入AMEC后状态的概率分布初值,pr表示状态转移概率,cr表示行为成本。将AMEC中状态复制为两份Iin,Iout,一份继承进入该集合的转移,一份继承脱离该集合的转移,规划中定义sbad代表位于AMEC内的Hsoft中状态。定义
面向同一动作策略πsuf:s×u→[0,1],s∈Sc,u∈U(s)生成的所有状态序列,序列定义为从出发最终返回的一次循环过程。以无限时长内系统在后缀部分状态s使用动作u的次数的期望值zs,u为规划变量,优化执行后缀部分任务的总成本。优化目标为加权形式,考虑行为成本与进入{sbad}的惩罚,约束表示规划变量在AMEC内的递推关系。
通过相似方式可以得到后缀部分最优策略。考虑前缀部分与后缀部分独立规划中存在联系y0(s),即后缀规划中系统初次访问AMEC状态的概率分布受前缀部分策略生成的影响,设计耦合线性规划以得到面向全程成本最优的策略。同时以ys,u,zs,u为规划变量,考虑前、后缀约束条件,以加权形式组合前、后缀成本作为规划目标,控制权重因子调整最优策略生成,其中后缀成本需考虑系统状态在不同AMEC内成本累计。
s.t.Constraints for prefix and suffix part
在仿真中,智能体工作环境是一个10m×10m的环境,并做栅格化处理,分为2m×2m的小区域。区域坐标原点位于左下角,整个地图分为25个离散位置,智能体起始位置位于(1m,1m)的位置。环境属性包括{“风险区”,“障碍”,“基地1”,“基地2”,“基地3”},每个位置都有对每个环境属性概率分布的描述,其中基地设置在固定位置,障碍根据不同任务设置在不同位置。智能体状态为自身所在位置的坐标,以及正前方的方向。自身动作包括“前进”,“后退”,“向左转”,“向右转”,“保持静止”,每个动作都有较大概率正确完成,实现期望的智能体状态改变,小概率出现“故障转移”,在仿真实验中,“前进”动作以小概率向侧前方移动,“后退”动作以小概率向侧后方移动,“向左转”,“向右转”动作以小概率按原方向旋转180°,“保持静止”动作以小概率向左、右方向旋转90°,概率通过人为给定。
图2为运动机器人在给定环境下完成时序逻辑任务的仿真示意图,其中地图角落为3个基地,中间深色区域为障碍,周围浅色区域为风险区,任务要求3基地间巡回并避开障碍,尽量不经过风险区。由图可知,根据规划所得最优策略,智能体能够满足风险要求地执行任务。
图3为软、硬约束形式任务与单一任务任务完成效率的对比图,效率定义为规定时长内在Product自动机上循环到达接受状态的次数,改变时长的设定,每次实验观察100次运行结果并求得每次执行过程的效率均值。由图可知,通过软、硬约束的描述,加之以合理的建模与策略规划,可以大大地提高任务整体的工作效率,而不是停滞于某一任务状态。给定环境与任务,通过添加非法转移,后缀部分模型状态数由328增加至510,后缀部分任务完成自由度得以提高。
图4为规划惩罚项对软约束任务规划的影响示意图,改变规划中罚项的权重,记录规定时长内系统违反软约束任务的次数。改变罚项权值系数取值,记录100次运行结果中每次运行违反软约束任务的次数并求得均值作为软约束任务违反程度的测量值。由图可知,随着罚项权重的增大,违反任务程度逐渐降低,对软约束任务完成的要求也更为严格。
本方法面向含软、硬约束的时序逻辑任务,给出了优化任务风险与成本的智能体规划方法。通过双层自动机任务模型表征复杂LTL任务;硬约束任务风险的处理集中在前缀部分,通过对Product自动机图模型做行为约束满足对任务安全性的要求,实现硬约束任务无风险,软约束任务的风险在后缀部分中考虑,通过添加非法转移提高了系统动作的自由度,提高了整体任务的效率,同时设置惩罚项控制软约束任务违反频率;最终由一耦合线性规划解得可行策略中面向全程成本的最优解。
通过仿真验证,可以说明,使用面向含软、硬约束线性时序逻辑的不确定动作规划方法,可以较好地处理LTL语言描述的软、硬约束任务,满足任务各自的风险要求以及整体运行成本的最优。
以上所述的仅为本发明的较佳实施例而已,本发明不仅仅局限于上述实施例,凡在本发明的精神和原则之内所做的局部改动、等同替换、改进等均应包含在本发明的保护范围之内。
Claims (4)
1.一种面向含软、硬约束线性时序逻辑的不确定动作规划方法,其特征在于,包括:
步骤一、建立双层自动机任务模型:
基于软、硬约束子任务公式,建立由DRA自动机描述的软约束任务模型和硬约束任务模型,并以此为基础建立双层自动机模型,重新确定状态描述与状态间的转移关系,划分自动机中软、硬约束任务各自的常返态与非常返态;
其中,在双层自动机模型中,每层的任务状态是硬约束任务模型和软约束任务模型中任务状态经任意组合形成的状态集;初始状态位于第一层;硬约束任务的常返态被放置在第一层,软约束任务的常返态被放置在第二层,非常返态同时放置在第一层和第二层;通过状态转移关系的设置使得双层间的转换条件为只有当所在层级对应的任务完成时可转换至另一层;
步骤二、面向软约束任务修改任务模型:
双层自动机模型上建立非法连接,构建从软约束任务非常返态出发,终止于软约束任务常返态的转移;将该非法连接加入双层自动机模型的状态间转移关系中;
步骤三、将双层自动机模型、智能体模型结合,设计优化问题,获得最优控制策略。
2.如权利要求1所述的方法,其特征在于,所述步骤一所建立的双层自动机模型为:
其中,
为任务状态集;表示是硬约束任务模型的任务状态Q与软约束任务模型的任务状态Q'进行任意组合形成的状态集,给该状态集打上标志位1或2,标志位用于区分应用于双层自动机模型的第一层还是第二层;符号×表示任意组合;
其中,H表示非常返态集合,I表示常返态集合,上角标的1和2区分属于硬约束任务模型还是软约束任务模型,下角标N1和N2表示可接受状态对的个数;则:
4.如权利要求2所述的方法,其特征在于,所述步骤三为:
由一含标签的马尔可夫决策过程表征智能体状态模型M,应用模型检测方法的思路,生成Product自动机Product自动机以智能体状态、环境属性、任务状态的组合状态s为基础,转移关系兼顾智能体状态模型M与双层任务自动机的转移条件和性质;通过约束状态点可行行为的方式在Product自动机上面向硬约束任务提取可接受最大终止集AMEC,AMEC的性质可保证系统状态进入其中后硬约束任务不会失败;
根据AMEC内状态集划分系统轨迹的前缀部分、后缀部分,硬约束任务非常返态只存在于前缀部分,并根据初始态与AMEC状态集的可达关系对Product自动机中状态做划分,将系统轨迹前缀部分模型转化成存在两个吸收态集合的概率转移图模型,由初始状态可达但不可转移至AMEC的状态集合记为Sd,AMEC状态集合记为Sc作为后缀模型,前缀部分模型剩余状态中初始态可达状态组成的集合记为Sn;
设集合Sn为原集合,遍历该集合Sn中所有状态元素,若状态s下的动作存在概率使系统状态由Sn转移至Sd,则将该动作从状态s的动作集中移除,若该状态s在动作约束后无可行动作,则将状态s从原集合中移除,重复此过程直至原集合状态集大小不再改变,得到适应硬约束任务的前缀部分Product自动机;
在修改后的自动机模型上重新进行点集划分并进行最优策略的求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911144064.8A CN111026110B (zh) | 2019-11-20 | 2019-11-20 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911144064.8A CN111026110B (zh) | 2019-11-20 | 2019-11-20 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026110A CN111026110A (zh) | 2020-04-17 |
CN111026110B true CN111026110B (zh) | 2021-04-30 |
Family
ID=70201770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911144064.8A Active CN111026110B (zh) | 2019-11-20 | 2019-11-20 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026110B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108680155A (zh) * | 2018-02-01 | 2018-10-19 | 苏州大学 | 基于部分感知马氏决策过程的机器人最优路径规划方法 |
CN108803609A (zh) * | 2018-06-11 | 2018-11-13 | 苏州大学 | 基于约束在线规划的部分可观察自动驾驶决策方法及系统 |
CN109657868A (zh) * | 2018-12-26 | 2019-04-19 | 北京理工大学 | 一种任务时序逻辑约束的概率规划识别方法 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
US10379538B1 (en) * | 2017-03-20 | 2019-08-13 | Zoox, Inc. | Trajectory generation using motion primitives |
CN110304074A (zh) * | 2019-06-28 | 2019-10-08 | 电子科技大学 | 一种基于分层状态机的混合式驾驶方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194612B (zh) * | 2017-06-20 | 2020-10-13 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及系统 |
US11169528B2 (en) * | 2018-05-11 | 2021-11-09 | Uatc, Llc | Initial trajectory generator for motion planning system of autonomous vehicles |
CN110069885B (zh) * | 2019-05-05 | 2022-11-01 | 重庆师范大学 | 一种基于外部生态功能定位的“三生”空间优化方法 |
-
2019
- 2019-11-20 CN CN201911144064.8A patent/CN111026110B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10379538B1 (en) * | 2017-03-20 | 2019-08-13 | Zoox, Inc. | Trajectory generation using motion primitives |
CN108680155A (zh) * | 2018-02-01 | 2018-10-19 | 苏州大学 | 基于部分感知马氏决策过程的机器人最优路径规划方法 |
CN108803609A (zh) * | 2018-06-11 | 2018-11-13 | 苏州大学 | 基于约束在线规划的部分可观察自动驾驶决策方法及系统 |
CN109657868A (zh) * | 2018-12-26 | 2019-04-19 | 北京理工大学 | 一种任务时序逻辑约束的概率规划识别方法 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110014428A (zh) * | 2019-04-23 | 2019-07-16 | 北京理工大学 | 一种基于强化学习的时序逻辑任务规划方法 |
CN110304074A (zh) * | 2019-06-28 | 2019-10-08 | 电子科技大学 | 一种基于分层状态机的混合式驾驶方法 |
Non-Patent Citations (2)
Title |
---|
Constructing Universally Rigid Tensegrity Frameworks With Application in Multiagent Formation Control;Fang Hao;《IEEE TRANSACTIONS ON AUTOMATIC CONTROL》;20190131;第64卷(第1期);全文 * |
线性时序逻辑描述下自主机器人运动与动作动态规划方法;徐宁等;《第35届中国控制会议论文集(B)》;20160727;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111026110A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kohler et al. | PSO+: A new particle swarm optimization algorithm for constrained problems | |
Wen et al. | Correct-by-synthesis reinforcement learning with temporal logic constraints | |
WO2021164118A1 (zh) | 交直流大电网动态安全风险态势滚动前瞻预警方法及系统 | |
Zou et al. | Verifying Chinese train control system under a combined scenario by theorem proving | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
JP2004171423A (ja) | サービス効果向上方式 | |
CN111026110B (zh) | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 | |
CN115793657A (zh) | 基于时态逻辑控制策略的配送机器人路径规划方法 | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
James et al. | Autonomous learning of object-centric abstractions for high-level planning | |
Dhakan et al. | Intrinsic rewards for maintenance, approach, avoidance, and achievement goal types | |
de Mues et al. | Towards a distributed intelligent ICT architecture for the smart grid | |
Hu et al. | Knowledge-enhanced deep reinforcement learning for intelligent event-based load shedding | |
CN115759199B (zh) | 基于层次化图神经网络的多机器人环境探索方法及系统 | |
CN116402142A (zh) | 一种基于决策路径图的强化学习策略可解释方法 | |
Hirayama et al. | Local search for distributed SAT with complex local problems | |
CN115719478A (zh) | 一种独立于无关信息的加速强化学习的端到端自动驾驶方法 | |
Peng et al. | Modeling and simulation of offshore wind farm installation with multi-leveled cgspn approach | |
Ghosh et al. | On combining cognitive and formal modeling: A case study involving strategic reasoning | |
Zaw et al. | Verifying the gaming strategy of self-learning game by using PRISM-games | |
Li et al. | Research on expert system in power network operation ticket | |
Brihaye et al. | Good friends are hard to find! | |
Nickles | Integrating relational reinforcement learning with reasoning about actions and change | |
Chen et al. | Semantic Interaction Strategy of Multiagent System in Large‐Scale Intelligent Sensor Network Environment | |
CN116562299B (zh) | 文本信息的论元抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |