CN111026110B

CN111026110B - 面向含软、硬约束线性时序逻辑的不确定动作规划方法

Info

Publication number: CN111026110B
Application number: CN201911144064.8A
Authority: CN
Inventors: 方浩; 陈仲瑶; 杨庆凯; 曾宪琳; 尉越; 田戴荧; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-04-30
Anticipated expiration: 2039-11-20
Also published as: CN111026110A

Abstract

本发明公开了一种面向含软、硬约束线性时序逻辑的不确定动作规划方法，求解满足成本最优的控制策略，硬约束部分任务全过程无风险，软约束部分任务允许存在风险。首先建立双层自动机任务模型，该模型中，每层的任务状态

是硬约束任务模型和软约束任务模型中任务状态经任意组合形成的状态集；初始状态位于第一层；硬约束任务的常返态被放置在第一层，软约束任务的常返态被放置在第二层，非常返态同时放置在第一层和第二层；通过状态转移关系的设置使得双层间的转换条件为只有当所在层级对应的任务完成时可转换至另一层；然后面向软约束任务修改任务模型；最后，将双层自动机模型、智能体模型结合，设计优化问题，获得最优控制策略。

Description

面向含软、硬约束线性时序逻辑的不确定动作规划方法

技术领域

本发明属于智能体控制技术领域，尤其涉及一种面向含软、硬约束线性时序逻辑的不确定动作规划方法。

背景技术

线性时序逻辑是藉由通过原子命题的形式表示的环境信息、智能体信息经过一系列语法规范定义下的布尔符号与时序符号连接组成的用以描述系统规范的描述方式。线性时序逻辑公式由原子命题集AP与布尔运算符，时序运算符组成，公式形式为：

这里

p∈AP是原子命题集中的命题，

线性时序逻辑(LTL)公式中包含的时序运算符包括○(下一步)，∪(直到)，□(总是)，◇(最终)，

(指示符)。

软、硬任务约束是以LTL任务公式作为基础，用以强化任务描述，刻画任务间重要程度的不同。硬约束表示指定公式对应任务一定完成，任务执行中不允许存在风险，软约束任表示任务可以不完成或部分完成，存在任务失败的风险，其设定往往为节省资源或提高任务效率。两者之间从任务描述方式和规划过程的处理方式上都有明显区别。

针对传统智能体动作规划问题，面向由线性时序逻辑公式描述的任务，现有的解决方案主要有以下几种：

方案1：文献(Guo M,Dimarogonas D V.Multi-agent plan reconfigurationunder local LTL specifications[J].The International Journal of RoboticsResearch,2014,34(2):218-235.)中提到了软、硬约束任务的概念，最初是用于初始环境未知的情况，给出确定性智能体规划的方法，通过建立双层Büchi自动机模型实现对软、硬约束两子公式代指内容的表征，但规划没有涉及智能体长期不确定动作规划的部分。

方案2：文献(Ding X C,Smith S L,Belta C,et al.MDP Optimal Control underTemporal Logic Constraints[J].Mathematics,2011,413(1):532-538.)提出了不确定性因素存在时智能体动作规划的方法，通过值迭代求解运行成本上的最优策略。但假设条件是由智能体与环境组成的系统中不会出现任务失败的情况，在策略生成过程中不需要考虑风险的控制，使得方法适用的环境受到局限。

方案3：文献(Guo M,Zavlanos M M.Probabilistic Motion Planning underTemporal Tasks and Soft Constraints[J].IEEE Transactions on AutomaticControl,2018,63(12):4051-4066.)提出了面向单一的LTL任务公式智能体动作规划的方法，同时优化任务完成成功率与运行成本，但在任务描述上缺少对任务重要性方面更为细致的划分。面向描述更为复杂的任务时，求解方法框架也体现出不足，无法满足对软、硬约束中任务风险的要求。

本发明受上述方案的启发，在充分借鉴吸收其优势的同时，针对其自身所存在的不足，提出一种面向复杂线性时序逻辑任务的不确定动作规划方法。通过强化任务层模型的构建，实现面向软、硬约束两类任务的动作规划，规划所得策略既满足了硬约束任务的无风险，同时体现了软约束任务执行中允许风险存在的特性，使该动作规划方法框架可以面向更加复杂的任务描述。

发明内容

有鉴于此，本发明针对面向LTL任务的智能体长期不确定动作规划问题，提出了双层自动机任务模型表征LTL任务公式中软、硬约束，求解满足成本最优的控制策略，硬约束部分任务全过程无风险，软约束部分任务允许存在风险。

为了解决上述技术问题，本发明是这样实现的：

一种面向含软、硬约束线性时序逻辑的不确定动作规划方法，包括：

步骤一、建立双层自动机任务模型：

基于软、硬约束子任务公式，建立由DRA自动机描述的软约束任务模型和硬约束任务模型，并以此为基础建立双层自动机模型，重新确定状态描述与状态间的转移关系，划分自动机中软、硬约束任务各自的常返态与非常返态；

其中，在双层自动机模型中，每层的任务状态

是硬约束任务模型和软约束任务模型中任务状态经任意组合形成的状态集；初始状态位于第一层；硬约束任务的常返态被放置在第一层，软约束任务的常返态被放置在第二层，非常返态同时放置在第一层和第二层；通过状态转移关系的设置使得双层间的转换条件为只有当所在层级对应的任务完成时可转换至另一层；

步骤二、面向软约束任务修改任务模型：

双层自动机模型上建立非法连接，构建从软约束任务非常返态出发，终止于软约束任务常返态的转移；将该非法连接加入双层自动机模型的状态间转移关系中；

步骤三、将双层自动机模型、智能体模型结合，设计优化问题，获得最优控制策略。

优选地，所述步骤一所建立的双层自动机模型为：

其中，

为任务状态集；

表示

是硬约束任务模型的任务状态Q与软约束任务模型的任务状态Q'进行任意组合形成的状态集，给该状态集打上标志位1或2，标志位用于区分应用于双层自动机模型的第一层还是第二层；符号×表示任意组合；

为原子命题集，

表示

是硬约束任务和软约束任务对应命题集AP和AP'的并集；

是双层自动机任务状态初始态，其由硬约束任务初始态q₀与软约束任务初始态q₀'组成，1是标志位，表示属于双层自动机模型的第一层；

为双层自动机的接受状态集合；定义硬约束任务模型中的接受状态集合Acc_A和软约束任务模型中的接受状态集合Acc_A'分别为：

其中，H表示非常返态集合，I表示常返态集合，上角标的1和2区分属于硬约束任务模型还是软约束任务模型，下角标N₁和N₂表示可接受状态对的个数；则：

其中，

和

均是新的非常返态集合；

其中

和

组成新的非常返态集合，其中状态位于双层自动机模型的第一层以及第二层；

和

为常返态集合，

中状态位于双层自动机模型的第一层，

中状态位于双层自动机模型的第二层；

描述自动机中的状态间转移关系，存在(q₁',q₂',c')＝δ((q₁,q₂,c),l)，q₁,q₁'∈Q，q₂,q₂'∈Q'；其中状态转移条件l需要满足的条件为：如果在硬约束任务模型中l令状态从q₁转移到q₁'，且在软约束任务模型中状态转移条件l下令状态从q₂转移到q₂'；层次切换条件为：当

且c＝1时，c'＝2，即当硬约束任务完成，且当前在第一层，则转移到第二层；当

且c＝2时，c'＝1，即当软约束任务完成，且当前在第二层，则转移到第一层；其余情况保持在当前层继续任务执行，令c'＝c。

优选地，所述步骤二面向软约束任务修改任务模型为：对于(q₁',q₂',c')＝δ((q₁,q₂,c),l)中的q₂，如果q₂是软约束任务模型的非常返态，且q₂'是软约束任务模型中的常返态，则l只需要满足l₁∈χ(q₁,q₁')，χ表示满足两个状态的合法转移条件的集合。

优选地，所述步骤三为：

由一含标签的马尔可夫决策过程表征智能体状态模型M，应用模型检测方法的思路，生成Product自动机

Product自动机以智能体状态、环境属性、任务状态的组合状态s为基础，转移关系兼顾智能体状态模型M与双层任务自动机

的转移条件和性质；通过约束状态点可行行为的方式在Product自动机上面向硬约束任务提取可接受最大终止集AMEC，AMEC的性质可保证系统状态进入其中后硬约束任务不会失败；

根据AMEC内状态集划分系统轨迹的前缀部分、后缀部分，硬约束任务非常返态只存在于前缀部分，并根据初始态与AMEC状态集的可达关系对Product自动机中状态做划分，将系统轨迹前缀部分模型转化成存在两个吸收态集合的概率转移图模型，由初始状态可达但不可转移至AMEC的状态集合记为S_d，AMEC状态集合记为S_c作为后缀模型，前缀部分模型剩余状态中初始态可达状态组成的集合记为S_n；

设集合S_n为原集合，遍历该集合S_n中所有状态元素，若状态s下的动作存在概率使系统状态由S_n转移至S_d，则将该动作从状态s的动作集中移除，若该状态s在动作约束后无可行动作，则将状态s从原集合中移除，重复此过程直至原集合状态集大小不再改变，得到适应硬约束任务的前缀部分Product自动机；

在修改后的自动机模型上重新进行点集划分并进行最优策略的求解。

有益效果：

面向含软、硬约束线性时序逻辑的不确定动作规划方法，加强了现有方法对复杂任务的适用性，其创新点主要体现在以下几方面。

一，双层自动机任务模型提供了一个面向软、硬任务进行各自独立规划的环境，将该任务模型与环境层模型做运算可通过传统规划方法加以处理，提高了智能体规划方法在复杂任务上的适用性。

二，规划过程同时考虑了任务风险与运行成本，在任务风险方面又同时考虑了软、硬约束对风险要求的差别，既强化了硬约束任务的安全性，又加大了软约束任务完成的自由度，提高了整个任务完成的效率。

附图说明

图1—双层自动机任务模型；

图2—运动机器人仿真示意图；

图3—任务效率对比示意图；

图4—软约束任务风险示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种面向含软、硬约束线性时序逻辑的不确定动作规划方法，包括如下步骤：

步骤一、建立双层自动机任务模型。本步骤基于软、硬约束子任务公式，建立各自独立的任务模型，由DRA(determinisitcrabinautometa)自动机描述，并以此为基础建立双层自动机模型，重新确定状态描述与状态间的转移关系，划分自动机中软、硬约束任务各自的常返态与非常返态。

步骤二、面向软约束任务修改任务模型。本步骤在双层自动机上建立非法连接，构建从软约束任务非常返态出发，终止于软约束任务常返态的转移，强化任务层模型的连通性。

本步骤与应用马尔可夫过程表征的环境层模型做组合运算得到Product自动机模型，划分可接受终止集得到面向硬约束任务的无风险子图，同时考虑硬约束任务对整体状态集与该子图状态集的差集与其中的转移关系做调整，强化系统轨迹前缀对应模型结构对任务风险的满足。最后通过耦合线性规划求解满足任务风险要求同时在成本上达到最优的控制策略。

下面针对每个步骤进行详细描述。

步骤一、建立双层自动机任务模型

对于复杂任务的描述，任务公式可以由两个子公式给出，一个用以描述硬约束部分，另一个用以描述软约束部分，任务由两个子公式表述，体现两任务间重要程度的差异。硬约束任务要求一定完成，而软约束任务的完成可以存在风险，或出现任务失败，任务进程应以硬约束为主，软约束任务的进行不能影响硬约束要求。

这里通过改变任务模型结构来更好地描述软、约束下组合任务。

首先，组合任务的描述方式为

其中，

分别表示硬约束与软约束任务公式，由上述描述方式，两部分任务都需要满足，通过转化得到DRA自动机

A_hard＝(Q,2^AP,δ,q₀,Acc_A)；

A_soft＝(Q',2^AP',δ',q₀',Acc_A')，

任务模型给出了任务状态(Q,Q')、转移条件(2^AP,2^AP')(每个条件以二进制码形式给出，由与任务内容相关环境命题生成)、状态间转移(δ,δ')、初始状态(q₀,q₀')以及接受条件的描述(Acc_A,Acc_A')，其中接受条件由接受状态对的集合表示，每个状态对包含状态转移的常返态集合与非常返态集合，任务完成对应在任务模型上为某一状态对的要求被满足。

由于任务间重要程度的差异，这里通过构建双层自动机体现在规划过程中两任务处理方式的差异，如图1所示，组合任务

对应的双层

定义如下：

其中

是自动机任务状态集，表示

是硬约束任务模型的任务状态Q与软约束任务模型的任务状态Q'进行任意组合形成的状态集。最后一位为标志位(1或2)；标志位用于区分应用于双层自动机模型的第一层还是第二层，那么带有不同标志位的状态分布在图1中不同层；符号×表示集合直积，即对集合中元素的任意组合；

原子命题集，为硬约束任务和软约束任务对应命题集AP和AP'的并集，这决定了状态转移单词的合法格式；

是双层自动机任务状态初始态，其由硬约束任务初始态q₀与软约束任务初始态q₀'组成，1是标志位，表示属于双层自动机模型的第一层，也就是说本发明将初始态定义在自动机中与硬约束相关的第1层；

为双层自动机的接受状态对集合；定义硬约束任务模型中的接受状态对集合Acc_A和软约束任务模型中的接受状态对集合Acc_A'分别为：

H表示非常返态集合，I表示常返态集合，上角标的标注区分其属于硬约束任务模型还是软约束任务模型，下角标N₁和N₂表示可接受状态对的个数；

其中，

和

均是新的非常返态集合；

其中

对于硬约束的非常返态集合，将其与软约束的全部任务状态进行组合运算，得到新的非常返态集合。

常返态集合生成方式同理。

软约束对应的非常返态与常返态集合的集合生成方式同上述硬约束。

和

和

为常返态集合，

中状态位于双层自动机模型的第一层，

中状态位于双层自动机模型的第二层；

可见，H表示在任务要求下后缀循环过程不可访问的状态集，本发明将两个层次的H进行融合，形成新的H，应用到两层中。I是标志任务完成的状态集合。因此下文中H_hard、I_hard表示

中硬约束接受条件中某一状态对的非常返与常返状态集；H_soft、I_soft表示

中软约束接受条件中某一状态对的非常返与常返状态集。

中第一个集合为硬约束任务对应接受条件，第二个集合为软约束任务对应接受条件。

描述自动机中状态间转移关系，存在(q₁',q₂',c')＝δ((q₁,q₂,c),l)，其中，l为状态转移条件，c和c’表示状态所处的层级信息，q₁,q₁'∈Q，q₂,q₂'∈Q'；当满足：

(i)l需要满足的条件：l对应A_hard的命题l₁∈χ(q₁,q₁')，对应A_soft的命题l₂∈χ(q₂,q₂')，即如果l在硬约束背景下从q₁转移到q₁’，且在软约束背景下从q₂转移到q₂’；考虑对应软约束的任务状态位，如果q₂是软约束任务接受条件Acc_soft的非常返态，且q₂’是Acc_soft中的常返态，l则只需要满足l₁∈χ(q₁,q₁')，即离开的转移的末端状态或自循环的转移的末端状态设置为Acc_soft中的常返态；χ表示满足两个状态的合法转移条件的集合。

(ii)c需要满足的条件(定义了双层间的转换条件)：当

且c＝1时，c'＝2，表示当硬约束任务完成，且当前在硬约束层，则转移到软约束层；当

且c＝2时，c'＝1，表示当软约束任务完成，且当前在软约束层，则转移到硬约束层；其余情况保持在当前层继续任务执行，令c'＝c。本条件(ii)排除了当完成本层次任务执行，但没有跳转层次的各种转移关系，以及没有完成本层次任务就进行跳转的转移关系。

以上是对自动机的完整描述。将自动机拓展为双层结构，由标志位标明层数，每层的状态与转换关系都是相似的，层内的转换严格按照转移条件l的要求。从接受状态的定义上可看出，硬约束任务的常返态位于第一层，软约束任务的常返态位于第二层，非常返态的分布不局限于某一层，在第一、二层均有分布，双层间的转换条件是只有当系统所在层级对应的任务完成时可转换至另一层，具体解释为，初始状态在第一层，系统状态由初始状态出发，只有完成硬约束要求，才能进入第二层，在第二层中只有完成软约束要求，才能返回第一层。总任务的完成过程就是交替完成硬约束任务与软约束任务，从自动机的角度上看就是任务状态在双层结构间做循环转移。

步骤二、面向软约束任务修改任务模型

在得到组合任务模型后，沿用传统模型检测方法需将双层DRA任务模型与智能体状态模型组合生成Product自动机。考虑到硬约束任务风险的满足，需通过行为约束在Product自动机上建立可接受最大终止集(AMEC)，但对AMEC的直接提取会对轨迹后缀对应图模型循环部分造成过度裁剪。这里为体现软约束任务对风险的可容忍性，需对任务模型做相应调整。

AMEC的提取需选取H_hard由相关算法生成，系统状态进入AMEC后，硬约束任务一定得到满足，假设AMEC得到后，检验其中是否包含I_soft元素，如果存在，则说明软约束任务可在保证硬约束任务完成的前提下完成，如果不存在，则说明两任务间不相容，组合任务的规划只能单独面向硬约束任务。由于现有AMEC是根据H_hard得到的，里面可能存在H_soft中元素，这些状态在AMEC内部对于软约束任务是不良状态，可能会在后缀策略π_suf下反复经过使软约束任务失败。在提取AMEC过程中，考虑到系统状态到达或接近H_soft中一些元素时会难以从局部脱离，造成后缀模型要求的连通性的违背，所以大量状态会排除在AMEC外，使后缀模型缩小，状态转移过于严格，在双层DRA中，若系统状态一直不能到达I_soft，会影响硬约束任务的进度，从而使整个任务进度停滞，这违反了对软约束任务的要求。通常研究中，此类问题的解决方法是设置在Product自动机层面的临时策略，这类方法在任务层面外考虑了智能体状态层，方法较为繁琐，需要考虑很多环境因素，且无法处理任务模型中进入吸收态的问题。

本发明通过调整任务层模型结构解决这一问题：将所有从H_soft中状态离开的转移的末端状态或自循环的转移的末端状态设置为I_soft中状态，这样做的目的是一旦任务状态在后缀循环中到达不良状态中，说明软约束任务失败，此时将其随机引导到I_soft中的状态，由于常返态的访问标志此轮任务完成，因此此时视此轮任务已经完成，软约束任务终止而直接进入硬约束任务层，仅仅对任务层结构的改变仍然可使系统在Product自动机上状态转移时满足合法。此时提取得到的AMEC既能满足硬约束任务的要求，同时也体现了软、硬约束任务之间的差异。

步骤三、与智能体模型结合求解策略

在智能体模型方面，控制对象设定为单智能体，智能体在行为上存在不确定性，同一行为可使智能体状态发生不同的变化。同时智能体具有感知所处位置环境属性的能力，地图环境以栅格形式给出，地图信息包括每一区域坐标及针对智能体行为的转移关系，此外通过标签化处理体现环境属性的描述，每个区域环境标签具有随机性且概率分布已知。由一含标签的马尔可夫决策过程表征智能体状态模型，以元组形式表示。

M＝(X,U,D,p_D,(x₀,l₀),AP_M,L_M,p_L,c_D)

其中X是有限状态集合；

U(x)是X中单个状态对应的可行动作集；

D＝{(x,u)|x∈X,u∈U(x)}为智能体状态与可行行为对的集合

AP_M表示用于描述环境属性的原子命题集，与

中的

保持一致，即智能体感知获得的环境属性命题是与任务状态转移相关的命题；

是在当前状态下所有可能的环境属性描述的集合；

是在当前状态下不同环境属性描述的概率分布，满足

p_D:X×U×X→[0,1],表示智能体状态间转移的概率；

(x₀,l₀)是初始组合状态，其中l₀∈L(x₀)；

是在当前状态下不同环境属性描述的概率分布，满足

这里应用模型检测方法的思路，生成Product自动机

可由7元组表示：

P＝(S,U,E,p_E,c_E,s₀,Acc_p)，

其中

是Product自动机中的状态集，是由位置信息、环境信息与任务状态形成的组合状态；

U与上文定义相同，仍是状态对应的动作集，

E＝{(s,u)|s∈S,u∈U(s)}是Product自动机中状态与动作的组合；

p_E:S×U×S→[0,1]是状态转移的概率，满足p_E(s,u,s')＝p_D(x,u,x')·p_L(x',l')，其中s＝<x,l,q>,s'＝<x',l',q'>,(x,u)∈D且q'＝δ(q,l)；

c_E是成本函数，满足

s₀＝<x₀,l₀,q₀>∈S是Product自动机上的初始状态；

是可接受状态对的集合。

Product自动机以智能体状态，环境属性，任务状态的组合状态为基础，转移关系兼顾MDPM与任务自动机

的转移条件和性质，MDP表示由马尔可夫过程描述的智能体模型。通过约束状态点可行行为的方式在Product自动机上面向硬约束任务提取AMEC，AMEC的性质可保证系统状态进入其中后硬约束任务不会失败。根据AMEC内状态集划分状态转移模型，系统状态由初始态进入AMEC前的序列为轨迹前缀，进入AMEC后的无穷序列为轨迹后缀。硬约束任务对应非常返态只存在于前缀部分，并根据初始态与AMEC状态集的可达关系对Product自动机中状态做划分，由初始状态可达但不可转移至AMEC的状态集合记为S_d，AMEC状态集合记为S_c，AMEC外剩余状态中初始态可达状态组成的集合记为S_n，系统轨迹前缀对应在Product自动机上是存在两个吸收态集合S_c，S_d的概率转移图模型。

为确保硬约束任务以概率1完成，同时考虑智能体状态转移，环境属性的不确定性。这里应用了MDP中行为约束的思想，对系统前缀的规划前，预先对状态转移图模型做处理，从每个状态可行动作的层面控制系统不进入失败状态。

这里设集合S_n为原集合，遍历该集合中所有状态元素，若状态s下的动作

存在概率使系统状态由S_n转移至S_d，则将该动作从状态s的动作集U(s)中移除，若该状态在动作约束后无可行动作，则将状态s从原集合中移除，重复此过程直至原集合状态集大小不再改变，得到适应硬约束任务的Product自动机。这一方法下所有可能使系统进入S_d的转移均被移除，因此在执行过程中不会出现任务失败的情况。得到修改后的自动机模型后，可搜索由初始状态到集合S_c的可行路径以推断是否存在满足给定硬约束的策略。

在修改后的自动机模型上重新完成点集划分并进行最优策略的求解。面向同一动作策略π_pre:s×u→[0,1],s∈S_n,u∈U(s)生成的所有状态序列，以从初始态出发无限时长内系统在轨迹前缀部分状态s使用动作u的次数的期望值y_s,u为规划变量，优化执行前缀部分任务的总成本。

规划问题以优化任务执行成本为目标，约束条件表示受轨迹前缀对应图模型约束下规划变量间的递推关系。

其中

1(s'＝s₀)是指当状态取初始状态时函数值为1，其余为0，设线性规划结果为

通过下式得出系统轨迹前缀最优控制策略

若状态s被访问的次数期望为0，即

则在该状态随机选取动作，不考虑

的结果。

后缀部分的策略同样以线性规划的方式求解，首先定义AMEC内部硬约束任务常返态集合

定义一子

其中S_r为状态集，U_r表示可行行为集，E_r为状态-行为对集合，y₀为系统状态进入AMEC后状态的概率分布初值，p_r表示状态转移概率，c_r表示行为成本。将AMEC中

状态复制为两份I_in,I_out，一份继承进入该集合的转移，一份继承脱离该集合的转移，规划中定义s_bad代表位于AMEC内的H_soft中状态。定义

面向同一动作策略π_suf:s×u→[0,1],s∈S_c,u∈U(s)生成的所有状态序列，序列定义为从

出发最终返回

的一次循环过程。以无限时长内系统在后缀部分状态s使用动作u的次数的期望值z_s,u为规划变量，优化执行后缀部分任务的总成本。优化目标为加权形式，考虑行为成本与进入{s_bad}的惩罚，约束表示规划变量在AMEC内的递推关系。

通过相似方式可以得到后缀部分最优策略。考虑前缀部分与后缀部分独立规划中存在联系y₀(s)，即后缀规划中系统初次访问AMEC状态的概率分布受前缀部分策略生成的影响，设计耦合线性规划以得到面向全程成本最优的策略。同时以y_s,u，z_s,u为规划变量，考虑前、后缀约束条件，以加权形式组合前、后缀成本作为规划目标，控制权重因子调整最优策略生成，其中后缀成本需考虑系统状态在不同AMEC内成本累计。

s.t.Constraints for prefix and suffix part

在仿真中，智能体工作环境是一个10m×10m的环境，并做栅格化处理，分为2m×2m的小区域。区域坐标原点位于左下角，整个地图分为25个离散位置，智能体起始位置位于(1m，1m)的位置。环境属性包括{“风险区”，“障碍”，“基地1”，“基地2”，“基地3”}，每个位置都有对每个环境属性概率分布的描述，其中基地设置在固定位置，障碍根据不同任务设置在不同位置。智能体状态为自身所在位置的坐标，以及正前方的方向。自身动作包括“前进”，“后退”，“向左转”，“向右转”，“保持静止”，每个动作都有较大概率正确完成，实现期望的智能体状态改变，小概率出现“故障转移”，在仿真实验中，“前进”动作以小概率向侧前方移动，“后退”动作以小概率向侧后方移动，“向左转”，“向右转”动作以小概率按原方向旋转180°，“保持静止”动作以小概率向左、右方向旋转90°，概率通过人为给定。

图2为运动机器人在给定环境下完成时序逻辑任务的仿真示意图，其中地图角落为3个基地，中间深色区域为障碍，周围浅色区域为风险区，任务要求3基地间巡回并避开障碍，尽量不经过风险区。由图可知，根据规划所得最优策略，智能体能够满足风险要求地执行任务。

图3为软、硬约束形式任务与单一任务任务完成效率的对比图，效率定义为规定时长内在Product自动机上循环到达接受状态的次数，改变时长的设定，每次实验观察100次运行结果并求得每次执行过程的效率均值。由图可知，通过软、硬约束的描述，加之以合理的建模与策略规划，可以大大地提高任务整体的工作效率，而不是停滞于某一任务状态。给定环境与任务，通过添加非法转移，后缀部分模型状态数由328增加至510，后缀部分任务完成自由度得以提高。

图4为规划惩罚项对软约束任务规划的影响示意图，改变规划中罚项的权重，记录规定时长内系统违反软约束任务的次数。改变罚项权值系数取值，记录100次运行结果中每次运行违反软约束任务的次数并求得均值作为软约束任务违反程度的测量值。由图可知，随着罚项权重的增大，违反任务程度逐渐降低，对软约束任务完成的要求也更为严格。

本方法面向含软、硬约束的时序逻辑任务，给出了优化任务风险与成本的智能体规划方法。通过双层自动机任务模型表征复杂LTL任务；硬约束任务风险的处理集中在前缀部分，通过对Product自动机图模型做行为约束满足对任务安全性的要求，实现硬约束任务无风险，软约束任务的风险在后缀部分中考虑，通过添加非法转移提高了系统动作的自由度，提高了整体任务的效率，同时设置惩罚项控制软约束任务违反频率；最终由一耦合线性规划解得可行策略中面向全程成本的最优解。

通过仿真验证，可以说明，使用面向含软、硬约束线性时序逻辑的不确定动作规划方法，可以较好地处理LTL语言描述的软、硬约束任务，满足任务各自的风险要求以及整体运行成本的最优。

以上所述的仅为本发明的较佳实施例而已，本发明不仅仅局限于上述实施例，凡在本发明的精神和原则之内所做的局部改动、等同替换、改进等均应包含在本发明的保护范围之内。