CN109657868B - 一种任务时序逻辑约束的概率规划识别方法 - Google Patents

一种任务时序逻辑约束的概率规划识别方法 Download PDF

Info

Publication number
CN109657868B
CN109657868B CN201811599707.3A CN201811599707A CN109657868B CN 109657868 B CN109657868 B CN 109657868B CN 201811599707 A CN201811599707 A CN 201811599707A CN 109657868 B CN109657868 B CN 109657868B
Authority
CN
China
Prior art keywords
task
target
planning
agent
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811599707.3A
Other languages
English (en)
Other versions
CN109657868A (zh
Inventor
方浩
宇文涛
陈杰
田戴荧
刘得明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201811599707.3A priority Critical patent/CN109657868B/zh
Publication of CN109657868A publication Critical patent/CN109657868A/zh
Application granted granted Critical
Publication of CN109657868B publication Critical patent/CN109657868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

本发明公开了一种任务时序逻辑约束的概率规划识别方法,以智能体、任务集、环境为已知信息,对任务集用线性时序逻辑语言描述并转换成相应Büchi自动机,对环境用有限状态转移系统进行建模,将两者合并形成规划库,规划器以智能体的观测信息和规划库为输入,形成规划结果集;以目标智能体的观测信息和规划库为输入,综合考虑智能体当前位置,姿态,历史轨迹以及任务进程,其中,智能体的姿态计算以智能体与目标点的朝向角为基准,在乘积式Büchi自动机的基础上,设计基于Dijkstra算法的规划器,得出规划结果集,由规划器计算出规划结果集和对应整体代价集,在满足观测序列的情况下对目标智能体的意图和行为的预测,根据设计概率计算公式得出目标概率和任务概率。

Description

一种任务时序逻辑约束的概率规划识别方法
技术领域
本发明属于人工智能技术领域,具体涉及一种任务时序逻辑约束的概率规划识别方法。
背景技术
规划识别(plan recognition)在人工智能领域中是一个很有研究前景和具有一定热度的研究方向,是指根据通过各种途径获得的目标智能体的轨迹、动作等信息,预测/辨识该智能体目标/规划的过程。能够设计出合适的规划识别器推理出的预测/辨识结果,一方面填补在实际环境中已经发生但是未能观测到的信息,另一方面可以对目标智能体的未来目标和当前行为进行预测和辨识,推断出智能体未来可能的行为。规划识别应用在多个不同领域,例如:军事指挥、对手规划/敌意规划/应对规划、自然语言理解、智能帮助系统以及多智能体系统协作等。因此,针对规划识别这一类问题的研究具有很高的研究意义和实际价值,吸引着大量研究人员参与进来。
针对实际应用中的任务时序逻辑和规划识别问题,已有的解决方案有如下几种:
方案1:文献(Guo M,Dimos D V.Multi-agent plan reconfiguration underlocal LTL specifications[J].International Journal of Robotics Research, 2015,34(2):218—235.)提出了一种分层的分布式多智能体系统混合决策-控制架构,并提出了一种具有时序逻辑任务的多智能体系统协同任务规划策略,每个智能体分配一个线性时序逻辑公式作为一个任务,对智能体的工作环境、运动和动作进行建模,多智能体间通过实时的请求和响应完善模型并完成协同任务。
方案2:文献(Ramirez M,Geffner H.Plan Recognition As Planning[C], theIEEE International Joint Conference on Artificial Intelligence,2009, 38(4):1778—1783.)在基于规划执行的规划识别思路上,提出了Plan recognition as planning的思想。不同于之前的规划识别算法,该算法不需要规划库作为输入,通过使用智能体当前状态和周围环境作为输入,利用规划器模拟出多种规划结果,根据智能体当前位置与各目标点之间的距离,利用贝叶斯推理得出目标概率和规划概率,并且该算法在观测数据不可靠情况下同样具有较高的准确性,具有一定的鲁棒性。
方案3:文献(Shirin S,Anton V R,Octavian U.Plan recognition as planningrevisited[C],the IEEE International Joint Conference on ArtificialIntelligence,2016:3258—3264.)在方案2基础上,将多种规划结果与观察得到的智能体移动轨迹进行比较,选取符合历史轨迹的规划结果,再利用贝叶斯推理进行目标概率和规划概率计算,相比于方案2的方法,提高了规划识别的准确性。
发明内容
有鉴于此,本发明的目的是提供一种任务时序逻辑约束的概率规划识别方法,
一种任务时序逻辑约束的概率规划识别方法,包括如下步骤:
步骤一,建立面向实际环境的时序逻辑任务模型:利用有限状态转移系统对实际环境建模,再利用线性时序逻辑语言对任务进行描述并转换成对应Büchi 自动机,将两者相结合建立同时具有环境信息和任务信息的乘积式Büchi自动机;将任务集中的所有任务建立形成对应乘积式Büchi自动机,组成规划库;
步骤二,根据对目标智能体的观测信息和规划库信息,综合考虑智能体当前位置、姿态、历史轨迹以及任务进程,基于Dijkstra算法设计规划器,并得出规划结果集和整体代价集,其中,智能体的姿态计算以智能体与目标点的朝向角为基准;
步骤三,将规划和规划识别相结合形成统一的整体,对于非合作智能体的未来目标和当前执行任务进行预测和辨识,提取规划器的规划结果集中反映的目标和任务,以规划器的整体代价集为衡量标准,计算目标概率和任务概率。
进一步的,所述步骤三中,计算得到目标概率和任务概率后,得到预测目标准确率和辨识任务准确率,给出针对所设计概率规划识别算法的评价标准。
较佳的,所述步骤一中,具体包括如下步骤:
(1)带权的有限状态转移系统:
针对智能体的实际环境建模问题,采用带权的有限状态转移系统WFTS进行描述,定义如下:
定义1.带权的有限状态转移系统(WFTS)由一个多元组组成:
Τc=(Π,→c0,AP,Lc,Wc)
其中:
Π={π12,...,πN}表示栅格化后实际环境的各个区域;
c:表示两两栅格区域之间的路径连通关系;
Π0:表示智能体在初始时刻的实际位置;
AP:表示描述不可再划分任务的原子命题;
Lc:表示栅格区域对应的标签函数,即栅格区域对应的任务原子命题的属性;
Wc:表示权重,即智能体在栅格区域之间互相转移所需的代价;
状态πi可到达的状态表示为Post(πi)={πj∈Π|πicπj};将待观察目标智能体的移动轨迹用一个无穷状态序列表示,τ=π1→π2...,其中,πi∈Post(πi-1);
(2)非确定性Büchi自动机:
利用线性时序逻辑LTL语言对原子命题AP进行描述,形成表达式
Figure RE-GDA0001970639020000031
相对于表达式
Figure RE-GDA0001970639020000041
存在一个与其对应的非确定性Büchi自动机NBA,记为
Figure RE-GDA0001970639020000042
定义2.
Figure RE-GDA0001970639020000043
定义为五元组:
Figure RE-GDA0001970639020000044
其中,Q表示由自动机中的各个状态q1,q2,...,qn组成的有限状态集合;
Figure RE-GDA0001970639020000045
表示由自动机中的初始状态组成的初始状态集合;2AP表示由任务原子命题组成的字母表;δ表示自动机中各状态之间的转移关系,
Figure RE-GDA0001970639020000046
表示由自动机中的可接受状态组成的可接受集合;
(3)利用LTL语言对每个待辨识任务进行描述,并转换成相应Büchi自动机;将WFTS和NBA相结合形成面向实际环境的时序逻辑任务模型:
定义3.带权的乘积式Büchi自动机PBA表示为
Figure RE-GDA0001970639020000047
其中:
Figure RE-GDA0001970639020000048
δ′=Q′→2Q′.<πj,qn>∈δ′(<πi,qm>)当且仅当(πij)∈→c并且qn∈δ(qm,Lci));
Q0′={<π,q>|π∈Π0,q∈Q0},是初始状态集;
F′={<π,q>|π∈Π0,q∈F},是可接受集;
Figure RE-GDA0001970639020000049
是权重函数:
Wp(<πi,qm>,<πj,qn>)=Wcij)
其中<πj,qn>∈δ′(<πi,qm>);
所述步骤二具体步骤包括:
定义4.针对时序逻辑任务的规划问题定义为Pl={Apc,Qc,Rs},其中,Ap表示任务对应的乘积式自动机,πc表示智能体的当前位置,Qc表示当前时刻智能体可能对应的自动机中的状态集,Rs表示以q′c∈Q′c为起始点的Ap的所有可接受序列组成的集合,
Figure RE-GDA00019706390200000410
根据定义4,设定可接受序列的结构为:
R=<Rpre,Rsuf>=q′cq′c+1…q′f[q′fq′f+1…q′n]
其中qf′=<πf,qf>∈F′;
定义整体代价:
Figure RE-GDA0001970639020000051
式中,第一个累加部分表示沿前缀部分的累积,第一个累加部分表示沿后缀部分的累积;γ≥0是一个常数,表示前缀代价与后缀代价的相对权重系数;
定义5.针对时序逻辑任务的概率规划识别问题定义为 Pr={Apc,Qc,Rs,Os,Gs,Ps},其中:
Os表示智能体的历史移动轨迹;
Figure RE-GDA0001970639020000052
表示目标概率集,
Figure RE-GDA0001970639020000053
表示智能体下一步目标是πi的概率,Πg表示待预测目标集;
Figure RE-GDA0001970639020000054
表示任务概率集,
Figure RE-GDA0001970639020000055
表示当前执行任务是
Figure RE-GDA00019706390200000515
的概率,
Figure RE-GDA0001970639020000057
表示所有任务的集合;
当构建完成Ap之后,以Ap作为输入参数,计算可接受序列集Rs,获取多种规划路径;使用Dijkstra算法,计算带权图中从单点出发到一组目标点的路径,具体步骤如下:
①对于用线性时序逻辑语言描述的任务集
Figure RE-GDA0001970639020000058
将其中每个任务
Figure RE-GDA0001970639020000059
转换成对应Büchi自动机
Figure RE-GDA00019706390200000510
利用FTS对目标智能体工作环境建模形成Tc,并确定待预测目标集Πg;利用PBA对
Figure RE-GDA00019706390200000511
和Tc进行乘积操作构成
Figure RE-GDA00019706390200000512
并建立规划库
Figure RE-GDA00019706390200000513
②通过观测获取目标智能体历史移动轨迹Os=π0,...,πc,对于πi,0≤i<c,有;
Figure RE-GDA00019706390200000514
当i=c时,πc表示目标智能体当前位置信息,有:
Figure RE-GDA0001970639020000061
③考虑历史移动轨迹Os的影响:
1)、令i=1
2)、对于
Figure RE-GDA0001970639020000062
如果
Figure RE-GDA0001970639020000063
则保留q′i;否则,将q′i从集合Q′i中删除;
3)、i=i+1
4)、判断i>c是否成立:如果成立,结束步骤3),得到经过处理后Q′c;否则返回2);
Figure RE-GDA0001970639020000064
使用Dijkstra算法计算从当前状态q′c∈Q′c到一个可接受状态
Figure RE-GDA0001970639020000065
的最短路径,
Figure RE-GDA0001970639020000066
Figure RE-GDA0001970639020000067
的可接受状态集,记为
Figure RE-GDA0001970639020000068
⑤使用Dijkstra算法计算
Figure RE-GDA0001970639020000069
中每一个可接受状态
Figure RE-GDA00019706390200000610
回到自身的最短循环路径,记为
Figure RE-GDA00019706390200000611
⑥对于
Figure RE-GDA00019706390200000612
定义:
Figure RE-GDA00019706390200000613
Figure RE-GDA00019706390200000614
Figure RE-GDA00019706390200000615
定义规划结果
Figure RE-GDA00019706390200000616
序列中第一个属于待识别目标集Πg的πi
Figure RE-GDA00019706390200000617
下的智能体下一步目标,记为
Figure RE-GDA00019706390200000618
规划器根据观测所得目标智能体的信息,计算出符合实际环境和任务集的规划结果集Rsum为:
Figure RE-GDA00019706390200000619
根据所得规划结果集Rsum,得出智能体下一步目标集Πgsum为:
Figure RE-GDA00019706390200000620
根据整体代价R计算公式得到
Figure RE-GDA00019706390200000621
的整体代价
Figure RE-GDA00019706390200000622
整体代价集Costsum为:
Figure RE-GDA0001970639020000071
其中,在设计规划器过程中,考虑智能体朝向与目标之间夹角的影响,则令Xi表示第i时刻智能体X的位置,朝向由
Figure RE-GDA0001970639020000072
表示,则在第i时刻,智能体X 朝向与目标A之间的夹角为:
Figure RE-GDA0001970639020000073
所述步骤四具体包括如下步骤:
①对
Figure RE-GDA0001970639020000074
作处理,定义:
Figure RE-GDA0001970639020000075
其中,exp{x}表示ex
Figure RE-GDA0001970639020000076
是正则化惩罚系数,由智能体姿态决定,λ是常数,
Figure RE-GDA0001970639020000077
②在规划结果集Rsum中,将所有规划目标为πk且任务为
Figure RE-GDA0001970639020000078
的规划结果对应的整体代价相加,得到:
Figure RE-GDA0001970639020000079
Figure RE-GDA00019706390200000710
将所有规划目标任务为
Figure RE-GDA00019706390200000711
的规划结果对应的整体代价相加,得到:
Figure RE-GDA00019706390200000712
将规划结果集所有规划对应的整体代价相加,有:
Figure RE-GDA00019706390200000713
③针对目标智能体当前执行任务的辨识,根据观测轨迹Os计算任务集Φ中的任务概率
Figure RE-GDA00019706390200000714
规划结果集中符合
Figure RE-GDA00019706390200000715
的整体代价所占比重,即为后验概率
Figure RE-GDA00019706390200000716
Figure RE-GDA0001970639020000081
Figure RE-GDA0001970639020000082
首先,假设任务集Φ中的任务
Figure RE-GDA0001970639020000083
相互独立,计算在任务
Figure RE-GDA0001970639020000084
的情况下,目标为πk的后验概率
Figure RE-GDA0001970639020000085
Figure RE-GDA0001970639020000086
之后,根据观测轨迹Os计算待预测目标集Πg中的目标概率
Figure RE-GDA0001970639020000087
即后验概率 P(πk|Os):
Figure RE-GDA0001970639020000088
Figure RE-GDA0001970639020000089
进一步的,还包括对预测目标准确率和辨识任务准确率的计算,具体为:
智能体的实际目标集为Gtrue(i)={gt(0),...,~gt(i)},预测目标集为 Gpred(i)={max(Gs(0)),...,max(Gs(i))},其中,gt(i),max(Gs(i))分别表示第i时刻智能体的实际目标和预测目标概率最大的目标,gt(i),max(Gs(i))∈Πg。智能体的实际执行任务集为
Figure RE-GDA00019706390200000810
预测执行任务集为Φpred(i)={max(Ps(0)),..., max(Ps(i))},其中,
Figure RE-GDA00019706390200000811
max(Ps(i))表示第i时刻智能体的实际执行任务和预测任务概率最大的任务,
Figure RE-GDA00019706390200000812
第i时刻,目标预测准确率GA(i)为:
GA(i)=plen(Gtrue(i)∩Gpred(i))/len(Gtrue(i))
其中,len(G)表示集合G的长度。
第i时刻,任务辨识准确率TA(i)为
TA(i)=len(Φtrue(i)∩Φpred(i))/len(Φtrue(i))。
本发明具有如下有益效果:
本发明针对如何将时序逻辑任务和目标/任务的预测/辨识置于统一的规划识别框架,并给出概率规划识别结果,其创新点主要体现在以下几方面:
一,任务时序逻辑约束的概率规划识别框架。以智能体、任务集、环境为已知信息,对任务集用线性时序逻辑语言描述并转换成相应Büchi自动机,对环境用有限状态转移系统进行建模,将两者合并形成规划库。规划器以智能体的观测信息和规划库为输入,形成规划结果集。规划识别器接受规划结果集得出目标概率和任务概率。
二,规划器的设计。以目标智能体的观测信息和规划库为输入,综合考虑智能体当前位置,姿态,历史轨迹以及任务进程。其中,智能体的姿态计算以智能体与目标点的朝向角为基准。在乘积式Büchi自动机的基础上,设计基于 Dijkstra算法的规划器,得出规划结果集。
三,规划识别器的设计。由规划器计算出规划结果集和对应整体代价集。在满足观测序列的情况下对目标智能体的意图和行为的预测,根据设计概率计算公式得出目标概率和任务概率。并给出了针对所设计概率规划识别算法的评价标准,包括预测目标准确率和辨识任务准确率。
附图说明
图1为本发明任务时序逻辑约束的概率规划识别方法流程图;
图2为本发明智能体朝向与目标之间夹角示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
首先,建立面向实际环境的时序逻辑任务模型,利用有限状态转移系统对实际环境建模,再利用线性时序逻辑语言对任务进行描述并转换成对应Büchi 自动机,将两者相结合建立同时具有环境信息和任务信息的乘积式Büchi自动机。将任务集中的所有任务建立形成对应乘积式Büchi自动机,组成规划库。
其次,根据对目标智能体的观测信息和规划库信息,综合考虑智能体当前位置,姿态,历史轨迹以及任务进程。其中,智能体的姿态计算以智能体与目标点的朝向角为基准。设计基于Dijkstra算法的规划器,并得出规划结果集和整体代价集。
然后,将规划和规划识别相结合形成统一的整体,对于非合作智能体的未来目标和当前执行任务进行预测和辨识,提取规划器的规划结果集中反映的目标和任务,以规划器的整体代价集为衡量标准,设计概率计算公式计算目标概率和任务概率。
最后,给出了针对所设计概率规划识别算法的评价标准,包括预测目标准确率和辨识任务准确率。
本发明提出了一种针对任务时序逻辑约束的基于规划的规划识别方法,如图1所示。将规划和规划识别统一起来,规划识别器根据观测信息利用规划器得出规划结果集并计算目标概率和任务概率。其中,任务时序逻辑约束下的规划识别问题可以描述为:已知目标智能体的任务集,任务集中含有智能体可能会执行的,多个相互之间独立且具有时序逻辑特性的任务,根据实时观测得到的智能体轨迹,对智能体的未来目标和当前执行任务进行预测和辨识。因此,需要对实际环境和执行任务进行建模。
步骤一、面向实际环境的时序逻辑任务建模:
(1)带权的有限状态转移系统:
针对智能体的实际环境建模问题,采用带权的有限状态转移系统(weightedfinite-state transition system,WFTS)进行描述,定义如下:
定义1.带权的有限状态转移系统(WFTS)由一个多元组组成:
Τc=(Π,→c0,AP,Lc,Wc)
其中:
Π={π12,...,πN}表示栅格化后实际环境的各个区域;
c:(其中
Figure RE-GDA0001970639020000111
)表示两两栅格区域之间的路径连通关系;
Π0:(其中
Figure RE-GDA0001970639020000112
)表示智能体在初始时刻的实际位置;
AP表示描述不可再划分任务的原子命题;
Lc:(Π→2AP)表示栅格区域对应的标签函数,即栅格区域对应的任务原子命题的属性;
Wc:
Figure RE-GDA0001970639020000113
表示权重,即智能体在栅格区域之间互相转移所需的代价。
状态πi可到达的状态表示为Post(πi)={πj∈Π|πicπj}。待观察目标智能体的移动轨迹可以用一个无穷状态序列表示,τ=π1→π2...,其中,πi∈Post(πi-1)。
(2)非确定性Büchi自动机
利用线性时序逻辑(Linear Temporal Logic,LTL)语言对原子命题AP进行描述,形成表达式
Figure RE-GDA0001970639020000114
相对于表达式
Figure RE-GDA0001970639020000115
存在一个与其对应的非确定性Büchi自动机(Nondeterministic Büchi automaton,NBA),记为
Figure RE-GDA0001970639020000116
定义2.
Figure RE-GDA0001970639020000117
定义为五元组:
Figure RE-GDA0001970639020000118
其中,Q表示由自动机中的各个状态(q1,q2,...,qn)组成的有限状态集合;
Figure RE-GDA0001970639020000119
表示由自动机中的初始状态组成的初始状态集合;2AP表示由任务原子命题组成的字母表;δ:(Q×2AP→2Q)表示自动机中各状态之间的转移关系,
Figure RE-GDA00019706390200001110
表示由自动机中的可接受状态组成的可接受集合。
(3)带权的乘积式Büchi自动机
本发明为有库的规划识别,需要预先描述任务以形成规划库,作为规划识别的依据。利用LTL语言对每个待辨识任务进行描述,并转换成相应Büchi自动机。由WFTS和NBA的定义可以得知,WFTS具有环境信息而不具有任务信息,NBA具有任务信息而不具有环境信息,需要将两者相结合形成面向实际环境的时序逻辑任务模型。
定义3.带权的乘积式Büchi自动机(weighted product Büchi automation, PBA)表示为
Figure RE-GDA0001970639020000121
其中:
Figure RE-GDA0001970639020000122
δ′=Q′→2Q′.<πj,qn>∈δ′(<πi,qm>)当且仅当(πij)∈→c并且qn∈δ(qm,Lci));
Q0′={<π,q>|π∈Π0,q∈Q0},是初始状态集;
F′={<π,q>|π∈Π0,q∈F},是可接受集;
Wp:
Figure RE-GDA0001970639020000123
是权重函数:
Wp(<πi,qm>,<πj,qn>)=Wcij)
其中<πj,qn>∈δ′(<πi,qm>)。
步骤二、规划器的设计
定义4.针对时序逻辑任务的规划问题定义为Pl={Apc,Qc,Rs},其中,Ap表示任务对应的乘积式自动机,πc表示智能体的当前位置,Qc表示当前时刻智能体可能对应的自动机中的状态集,Rs表示以q′c∈Q′c为起始点的Ap的所有可接受序列组成的集合,
Figure RE-GDA0001970639020000124
由定义4可知,时序逻辑任务规划问题的目标是找到同时满足实际环境转移条件和时序逻辑约束的路径,也就是Ap的可接受序列,根据定义4,设定可接受序列的结构为:
R=<Rpre,Rsuf>=q′cq′c+1…q′f[q′fq′f+1…q′n]
其中qf′=<πf,qf>∈F′。
在这种前缀后缀结构形式的基础上,我们定义整体代价:
Figure RE-GDA0001970639020000131
式中,第一个累加部分表示沿前缀部分的累积,第一个累加部分表示沿后缀部分的累积。γ≥0是一个常数,表示前缀代价与后缀代价的相对权重系数。
定义5.针对时序逻辑任务的概率规划识别问题定义为 Pr={Apc,Qc,Rs,Os,Gs,Ps},其中
Apc,Qc,Rs的定义与定义5相同;
Os表示智能体的历史移动轨迹;
Figure RE-GDA0001970639020000132
表示目标概率集,
Figure RE-GDA0001970639020000133
表示智能体下一步目标是πi的概率,Πg表示待预测目标集;
Figure RE-GDA0001970639020000134
表示任务概率集,
Figure RE-GDA0001970639020000135
表示当前执行任务是
Figure RE-GDA0001970639020000136
的概率,
Figure RE-GDA0001970639020000137
表示所有任务的集合。
当构建完成Ap之后,以Ap作为输入参数,计算可接受序列集Rs,获取多种规划路径。Ap的本质是一个带权的有向图,考虑使用Dijkstra算法,计算带权图中从单点出发到一组目标点的路径。具体步骤如下:
①对于用线性时序逻辑语言描述的任务集
Figure RE-GDA0001970639020000138
将其中每个任务
Figure RE-GDA0001970639020000139
转换成对应Büchi自动机
Figure RE-GDA00019706390200001315
利用FTS对目标智能体工作环境建模形成Tc,并确定待预测目标集Πg。利用PBA对
Figure RE-GDA00019706390200001311
和Tc进行乘积操作构成
Figure RE-GDA00019706390200001312
并建立规划库
Figure RE-GDA00019706390200001313
②通过观测获取目标智能体历史移动轨迹Os=π0,...,πc,对于πi,0≤i<c,有
Figure RE-GDA00019706390200001314
特殊的,当i=c时,πc表示目标智能体当前位置信息,有
Figure RE-GDA0001970639020000141
③考虑历史移动轨迹Os的影响。
1)、令i=1
2)、对于
Figure RE-GDA0001970639020000142
如果
Figure RE-GDA0001970639020000143
则保留q′i;否则,将q′i从集合Q′i中删除。
3)、i=i+1
4)、判断i>c是否成立:如果成立,结束步骤3),得到经过处理后Q′c;否则返回2。
Figure RE-GDA0001970639020000144
使用Dijkstra算法计算从当前状态q′c∈Q′c到一个可接受状态
Figure RE-GDA0001970639020000145
的最短路径,
Figure RE-GDA0001970639020000146
Figure RE-GDA0001970639020000147
的可接受状态集,记为
Figure RE-GDA0001970639020000148
⑤同样使用Dijkstra算法计算
Figure RE-GDA0001970639020000149
中每一个可接受状态
Figure RE-GDA00019706390200001410
回到自身的最短循环路径,记为
Figure RE-GDA00019706390200001411
⑥对于
Figure RE-GDA00019706390200001412
定义:
Figure RE-GDA00019706390200001413
Figure RE-GDA00019706390200001414
Figure RE-GDA00019706390200001415
定义规划结果
Figure RE-GDA00019706390200001416
序列中第一个属于待识别目标集Πg的πi
Figure RE-GDA00019706390200001417
下的智能体下一步目标,记为
Figure RE-GDA00019706390200001418
规划器根据观测所得目标智能体的信息,计算出符合实际环境和任务集的规划结果集Rsum为:
Figure RE-GDA00019706390200001419
根据所得规划结果集Rsum,得出智能体下一步目标集Πgsum为:
Figure RE-GDA00019706390200001420
根据整体代价R计算公式可以得到
Figure RE-GDA00019706390200001421
的整体代价
Figure RE-GDA00019706390200001422
整体代价集Costsum为:
Figure RE-GDA0001970639020000151
步骤三、智能体姿态:
在实际环境中,目标智能体的姿态往往蕴含着意图和行为信息。为提高概率规划识别算法的准确性,本发明将智能体姿态作为影响因素。因为涉及对二维平面的规划识别,所以考虑智能体朝向与目标之间夹角的影响。如图2所示, Xi表示第i时刻智能体X的位置,智能体X的朝向由
Figure RE-GDA0001970639020000152
表示,则在第i时刻,智能体X朝向与目标A之间的夹角为:
Figure RE-GDA0001970639020000153
当-90°≤α≤90°,即Cos(Xi,A)≥0,表示目标处在智能体前方,且
Figure RE-GDA0001970639020000154
智能体靠近目标A,去向A的可能性较大;当90°<α<270°,即Cos(Xi,A)<0,表示目标处在智能体后方,且
Figure RE-GDA0001970639020000155
智能体远离目标A,去向A的可能性较小。
在图2中,尽管
Figure RE-GDA0001970639020000156
智能体Y比智能体X更加接近目标A,但是, cosα≥0,cosβ<0,因此,Y的目标概率gA小于X。
步骤四、设计概率规划识别器:
对于非合作性目标智能体,根据观测轨迹信息由规划器计算出规划结果集 Rsum和整体代价集Costsum,Rsum是在满足观测序列的情况下对目标智能体的意图和行为的预测,根据Costsum设计概率计算公式得出目标概率和任务概率。规划识别器算法具体步骤如下:
①规划结果
Figure RE-GDA0001970639020000157
对应的整体代价
Figure RE-GDA0001970639020000158
越小,则更有可能被执行,即整体代价与被执行可能性成反比。对
Figure RE-GDA0001970639020000159
作处理,定义:
Figure RE-GDA00019706390200001510
其中,exp{x}表示ex
Figure RE-GDA00019706390200001511
是正则化惩罚系数,由智能体姿态决定,λ是常数,
Figure RE-GDA0001970639020000161
②在规划结果集Rsum中,将所有规划目标为πk且任务为
Figure RE-GDA0001970639020000162
的规划结果对应的整体代价相加,得到:
Figure RE-GDA0001970639020000163
Figure RE-GDA0001970639020000164
将所有规划目标任务为
Figure RE-GDA0001970639020000165
的规划结果对应的整体代价相加,得到:
Figure RE-GDA0001970639020000166
将规划结果集所有规划对应的整体代价相加,有:
Figure RE-GDA0001970639020000167
③针对目标智能体当前执行任务的辨识,根据观测轨迹Os计算任务集Φ中的任务概率
Figure RE-GDA0001970639020000168
规划结果集中符合
Figure RE-GDA0001970639020000169
的整体代价所占比重,即为后验概率
Figure RE-GDA00019706390200001610
Figure RE-GDA00019706390200001611
Figure RE-GDA00019706390200001612
对于智能体下一步目标的预测,不同任务对应的目标可能相同。
首先,假设任务集Φ中的任务
Figure RE-GDA00019706390200001613
相互独立,计算在任务
Figure RE-GDA00019706390200001614
的情况下,目标为πk的后验概率
Figure RE-GDA00019706390200001615
Figure RE-GDA00019706390200001616
之后,根据观测轨迹Os计算待预测目标集Πg中的目标概率
Figure RE-GDA00019706390200001617
即后验概率 P(πk|Os)。
Figure RE-GDA0001970639020000171
Figure RE-GDA0001970639020000172
④智能体的实际目标集为Gtrue(i)={gt(0),...,~gt(i)},预测目标集为 Gpred(i)={max(Gs(0)),...,max(Gs(i))},其中,gt(i),max(Gs(i))分别表示第i时刻智能体的实际目标和预测目标概率最大的目标,gt(i),max(Gs(i))∈Πg。智能体的实际执行任务集为
Figure RE-GDA0001970639020000173
预测执行任务集为Φpred(i)={max(Ps(0)),.. max(Ps(i))},其中,
Figure RE-GDA0001970639020000174
max(Ps(i))表示第i时刻智能体的实际执行任务和预测任务概率最大的任务,
Figure RE-GDA0001970639020000175
第i时刻,目标预测准确率GA(i)为:
GA(i)=plen(Gtrue(i)∩Gpred(i))/len(Gtrue(i))
其中,len(G)表示集合G的长度。
第i时刻,任务辨识准确率TA(i)为
TA(i)=len(Φtrue(i)∩Φpred(i))/len(Φtrue(i))
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种任务时序逻辑约束的概率规划识别方法,其特征在于,包括如下步骤:
步骤一,建立面向实际环境的时序逻辑任务模型:利用有限状态转移系统对实际环境建模,再利用线性时序逻辑语言对任务进行描述并转换成对应Büchi自动机,将两者相结合建立同时具有环境信息和任务信息的乘积式Büchi自动机;将任务集中的所有任务建立形成对应乘积式Büchi自动机,组成规划库;
步骤二,根据对目标智能体的观测信息和规划库信息,综合考虑智能体当前位置、姿态、历史轨迹以及任务进程,基于Dijkstra算法设计规划器,并得出规划结果集和整体代价集,其中,智能体的姿态计算以智能体与目标点的朝向角为基准;
步骤三,将规划和规划识别相结合形成统一的整体,对于非合作智能体的未来目标和当前执行任务进行预测和辨识,提取规划器的规划结果集中反映的目标和任务,以规划器的整体代价集为衡量标准,计算目标概率和任务概率;
其中,所述步骤三中,计算得到目标概率和任务概率后,得到预测目标准确率和辨识任务准确率,给出针对所设计概率规划识别算法的评价标准;
所述步骤一中,具体包括如下步骤:
(1)带权的有限状态转移系统:
针对智能体的实际环境建模问题,采用带权的有限状态转移系统WFTS进行描述,定义如下:
定义1.带权的有限状态转移系统(WFTS)由一个多元组组成:
Tc=(Π,→c0,AP,Lc,Wc)
其中:
Π={π12,...,πN}表示栅格化后实际环境的各个区域;
c:表示两两栅格区域之间的路径连通关系;
Π0:表示智能体在初始时刻的实际位置;
AP:表示描述不可再划分任务的原子命题;
Lc:表示栅格区域对应的标签函数,即栅格区域对应的任务原子命题的属性;
Wc:表示权重,即智能体在栅格区域之间互相转移所需的代价;
状态πi可到达的状态表示为Post(πi)={πj∈Π|πicπj};将待观察目标智能体的移动轨迹用一个无穷状态序列表示,τ=π1→π2...,其中,πi∈Post(πi-1);
(2)非确定性Büchi自动机:
利用线性时序逻辑LTL语言对原子命题AP进行描述,形成表达式
Figure FDA0002800815090000021
相对于表达式
Figure FDA0002800815090000022
存在一个与其对应的非确定性Büchi自动机NBA,记为
Figure FDA0002800815090000023
定义2.
Figure FDA0002800815090000024
定义为五元组:
Figure FDA0002800815090000025
其中,Q表示由自动机中的各个状态q1,q2,...,qn组成的有限状态集合;
Figure FDA0002800815090000026
表示由自动机中的初始状态组成的初始状态集合;2AP表示由任务原子命题组成的字母表;δ表示自动机中各状态之间的转移关系,
Figure FDA0002800815090000027
表示由自动机中的可接受状态组成的可接受集合;
(3)利用LTL语言对每个待辨识任务进行描述,并转换成相应Büchi自动机;将WFTS和NBA相结合形成面向实际环境的时序逻辑任务模型:
定义3.带权的乘积式Büchi自动机PBA表示为
Figure FDA0002800815090000028
其中:
Figure FDA0002800815090000029
δ'=Q'→2Q'.<πj,qn>∈δ'(<πi,qm>)当且仅当(πij)∈→c并且qn∈δ(qm,Lci));
Q0'={<π,q>|π∈Π0,q∈Q0},是初始状态集;
F'={<π,q>|π∈Π0,q∈F},是可接受集;
Wp:
Figure FDA00028008150900000210
是权重函数:
Wp(<πi,qm>,<πj,qn>)=Wcij)
其中<πj,qn>∈δ'(<πi,qm>);
所述步骤二具体步骤包括:
定义4.针对时序逻辑任务的规划问题定义为Pl={Apc,Qc,Rs},其中,Ap表示任务对应的乘积式自动机,πc表示智能体的当前位置,Qc表示当前时刻智能体可能对应的自动机中的状态集,Rs表示以q′c∈Q′c为起始点的Ap的所有可接受序列组成的集合,
Figure FDA0002800815090000034
根据定义4,设定可接受序列的结构为:
R=<Rpre,Rsuf>=q'cq'c+1…q'f[q'fq'f+1…q'n]
其中qf'=<πf,qf>∈F';
定义整体代价:
Figure FDA0002800815090000031
式中,第一个累加部分表示沿前缀部分的累积,第一个累加部分表示沿后缀部分的累积;γ≥0是一个常数,表示前缀代价与后缀代价的相对权重系数;
定义5.针对时序逻辑任务的概率规划识别问题定义为Pr={Apc,Qc,Rs,Os,Gs,Ps},其中:
Os表示智能体的历史移动轨迹;
Figure FDA0002800815090000032
表示目标概率集,
Figure FDA0002800815090000037
表示智能体下一步目标是πi的概率,Πg表示待预测目标集;
Figure FDA0002800815090000033
表示任务概率集,
Figure FDA0002800815090000035
表示当前执行任务是
Figure FDA0002800815090000036
的概率,
Figure FDA0002800815090000038
表示所有任务的集合;
当构建完成Ap之后,以Ap作为输入参数,计算可接受序列集Rs,获取多种规划路径;使用Dijkstra算法,计算带权图中从单点出发到一组目标点的路径,具体步骤如下:
①对于用线性时序逻辑语言描述的任务集
Figure FDA0002800815090000039
将其中每个任务
Figure FDA00028008150900000310
转换成对应Büchi自动机
Figure FDA00028008150900000311
利用FTS对目标智能体工作环境建模形成Tc,并确定待预测目标集Πg;利用PBA对
Figure FDA00028008150900000312
和Tc进行乘积操作构成
Figure FDA00028008150900000313
并建立规划库
Figure FDA0002800815090000046
②通过观测获取目标智能体历史移动轨迹Os=π0,...,πc,对于πi,0≤i<c,有;
Figure FDA0002800815090000047
当i=c时,πc表示目标智能体当前位置信息,有:
Figure FDA00028008150900000410
③考虑历史移动轨迹Os的影响:
1)、令i=1
2)、对于
Figure FDA0002800815090000048
q′i∈Q′i,如果
Figure FDA0002800815090000049
则保留q′i;否则,将q′i从集合Q′i中删除;
3)、i=i+1
4)、判断i>c是否成立:如果成立,结束步骤3),得到经过处理后Q′c;否则返回2);
Figure FDA00028008150900000411
使用Dijkstra算法计算从当前状态q′c∈Q′c到一个可接受状态
Figure FDA00028008150900000412
的最短路径,
Figure FDA00028008150900000413
Figure FDA00028008150900000414
的可接受状态集,记为
Figure FDA0002800815090000041
⑤使用Dijkstra算法计算
Figure FDA00028008150900000415
中每一个可接受状态
Figure FDA00028008150900000420
回到自身的最短循环路径,记为
Figure FDA00028008150900000416
⑥对于
Figure FDA00028008150900000417
定义:
Figure FDA0002800815090000042
Figure FDA0002800815090000043
Figure FDA0002800815090000044
定义规划结果
Figure FDA00028008150900000418
序列中第一个属于待识别目标集Πg的πi
Figure FDA00028008150900000421
下的智能体下一步目标,记为
Figure FDA00028008150900000419
规划器根据观测所得目标智能体的信息,计算出符合实际环境和任务集的规划结果集Rsum为:
Figure FDA0002800815090000045
根据所得规划结果集Rsum,得出智能体下一步目标集Πgsum为:
Figure FDA0002800815090000051
根据整体代价R计算公式得到
Figure FDA0002800815090000058
的整体代价
Figure FDA0002800815090000059
整体代价集Costsum为:
Figure FDA0002800815090000052
其中,在设计规划器过程中,考虑智能体朝向与目标之间夹角的影响,则令Xi表示第i时刻智能体X的位置,朝向由
Figure FDA00028008150900000510
表示,则在第i时刻,智能体X朝向与目标A之间的夹角为:
Figure FDA0002800815090000053
所述步骤四具体包括如下步骤:
①对
Figure FDA00028008150900000511
作处理,定义:
Figure FDA00028008150900000512
其中,exp{x}表示ex
Figure FDA00028008150900000513
是正则化惩罚系数,由智能体姿态决定,λ是常数,
Figure FDA00028008150900000514
②在规划结果集Rsum中,将所有规划目标为πk且任务为
Figure FDA00028008150900000518
的规划结果对应的整体代价相加,得到:
Figure FDA0002800815090000054
Figure FDA0002800815090000055
将所有规划目标任务为
Figure FDA00028008150900000515
的规划结果对应的整体代价相加,得到:
Figure FDA0002800815090000056
将规划结果集所有规划对应的整体代价相加,有:
Figure FDA0002800815090000057
③针对目标智能体当前执行任务的辨识,根据观测轨迹Os计算任务集Φ中的任务概率
Figure FDA00028008150900000517
规划结果集中符合
Figure FDA00028008150900000516
的整体代价所占比重,即为后验概率
Figure FDA0002800815090000061
Figure FDA0002800815090000062
Figure FDA0002800815090000063
首先,假设任务集Φ中的任务
Figure FDA0002800815090000066
相互独立,计算在任务
Figure FDA0002800815090000067
的情况下,目标为πk的后验概率
Figure FDA0002800815090000068
Figure FDA0002800815090000064
之后,根据观测轨迹Os计算待预测目标集Πg中的目标概率
Figure FDA0002800815090000069
即后验概率P(πk|Os):
Figure FDA0002800815090000065
2.如权利要求1所述的一种任务时序逻辑约束的概率规划识别方法,其特征在于,还包括对预测目标准确率和辨识任务准确率的计算,具体为:
智能体的实际目标集为Gtrue(i)={gt(0),...,~gt(i)},预测目标集为Gpred(i)={max(Gs(0)),...,max(Gs(i))},其中,gt(i),max(Gs(i))分别表示第i时刻智能体的实际目标和预测目标概率最大的目标,gt(i),max(Gs(i))∈Πg;智能体的实际执行任务集为
Figure FDA00028008150900000610
预测执行任务集为Φpred(i)={max(Ps(0)),...,max(Ps(i))},其中,
Figure FDA00028008150900000611
max(Ps(i))表示第i时刻智能体的实际执行任务和预测任务概率最大的任务,
Figure FDA00028008150900000612
max(Ps(i))∈Φ;
第i时刻,目标预测准确率GA(i)为:
GA(i)=plen(Gtrue(i)∩Gpred(i))/len(Gtrue(i))
其中,len(G)表示集合G的长度;
第i时刻,任务辨识准确率TA(i)为
TA(i)=len(Φtrue(i)∩Φpred(i))/len(Φtrue(i))。
CN201811599707.3A 2018-12-26 2018-12-26 一种任务时序逻辑约束的概率规划识别方法 Active CN109657868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599707.3A CN109657868B (zh) 2018-12-26 2018-12-26 一种任务时序逻辑约束的概率规划识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599707.3A CN109657868B (zh) 2018-12-26 2018-12-26 一种任务时序逻辑约束的概率规划识别方法

Publications (2)

Publication Number Publication Date
CN109657868A CN109657868A (zh) 2019-04-19
CN109657868B true CN109657868B (zh) 2021-02-09

Family

ID=66116772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599707.3A Active CN109657868B (zh) 2018-12-26 2018-12-26 一种任务时序逻辑约束的概率规划识别方法

Country Status (1)

Country Link
CN (1) CN109657868B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026110B (zh) * 2019-11-20 2021-04-30 北京理工大学 面向含软、硬约束线性时序逻辑的不确定动作规划方法
CN111340348B (zh) * 2020-02-21 2022-07-26 北京理工大学 一种基于线性时序逻辑的分布式多智能体任务协作方法
CN111522264B (zh) * 2020-04-02 2024-01-23 青岛海尔科技有限公司 设备的控制方法及装置、存储介质、电子装置
CN112231350B (zh) * 2020-10-13 2022-04-12 汉唐信通(北京)科技有限公司 一种基于知识图谱的企业商机挖掘方法和装置
CN112882380B (zh) * 2021-01-07 2022-06-14 上海交通大学 时序逻辑任务下多无人艇系统协同控制方法、终端及介质
CN113031593B (zh) * 2021-02-25 2022-02-11 上海交通大学 主动感知的任务路径规划方法、系统、机器人及控制器
CN112861377B (zh) * 2021-03-11 2023-02-10 中国人民解放军国防科技大学 环境部分可观条件下的规划识别方法及装置
CN113255967A (zh) * 2021-04-28 2021-08-13 北京理工大学 信号时序逻辑约束下基于终点回溯的任务规划方法和装置
CN113672362B (zh) * 2021-07-20 2023-11-07 中国科学技术大学先进技术研究院 防疫机器群复杂多环境下智能协同作业方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383569A (zh) * 2013-05-31 2013-11-06 浙江工业大学 基于线性时序逻辑的移动机器人最优巡回路径设定方法
CN104865825A (zh) * 2015-03-19 2015-08-26 杭州电子科技大学 一种多机器人合作时序预测控制方法
CN107169591A (zh) * 2017-04-21 2017-09-15 浙江工业大学 基于线性时序逻辑的移动端快递派送路径规划方法
CN108536916A (zh) * 2018-03-14 2018-09-14 中国人民解放军国防科技大学 一种基于时序监控的无人飞行器安全防护方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383569A (zh) * 2013-05-31 2013-11-06 浙江工业大学 基于线性时序逻辑的移动机器人最优巡回路径设定方法
CN104865825A (zh) * 2015-03-19 2015-08-26 杭州电子科技大学 一种多机器人合作时序预测控制方法
CN107169591A (zh) * 2017-04-21 2017-09-15 浙江工业大学 基于线性时序逻辑的移动端快递派送路径规划方法
CN108536916A (zh) * 2018-03-14 2018-09-14 中国人民解放军国防科技大学 一种基于时序监控的无人飞行器安全防护方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Activity Recognition: Linking low-level sensors to high-level intelligence;Nicolas Vidal;《2010 22nd International Conference on Tools with Artificial Intelligence》;20101217;129-137页 *
基于自主运动状态估计及信息交互的多移动机器人协作定位;庄严;《信息科学》;20101031;1352-1361页 *

Also Published As

Publication number Publication date
CN109657868A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657868B (zh) 一种任务时序逻辑约束的概率规划识别方法
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Rehder et al. Pedestrian prediction by planning using deep neural networks
Ivanovic et al. Mats: An interpretable trajectory forecasting representation for planning and control
Vasquez Novel planning-based algorithms for human motion prediction
Liu et al. A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving
CN110014428B (zh) 一种基于强化学习的时序逻辑任务规划方法
CN112148008A (zh) 一种基于深度强化学习的实时无人机路径预测方法
Schaefer et al. Leveraging neural network gradients within trajectory optimization for proactive human-robot interactions
Chaves et al. Opportunistic sampling-based active visual SLAM for underwater inspection
Eiffert et al. Predicting responses to a robot's future motion using generative recurrent neural networks
Dezert et al. Environment perception using grid occupancy estimation with belief functions
Qiu Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm
Zhao et al. Path planning of unmanned vehicles based on adaptive particle swarm optimization algorithm
Silva et al. Online social robot navigation in indoor, large and crowded environments
Jacinto et al. Navigation of autonomous vehicles using reinforcement learning with generalized advantage estimation
Undurti et al. A decentralized approach to multi-agent planning in the presence of constraints and uncertainty
Parunak et al. Agent interaction, multiple perspectives, and swarming simulation.
Gan et al. DP-A*: For Path Planing of UGV and Contactless Delivery
Dhiman et al. A review of path planning and mapping technologies for autonomous mobile robot systems
Tang et al. Multi-Sensors Fusion for Trajectory Tracking Based on Variational Normalizing Flow
Ding et al. Capture uncertainties in deep neural networks for safe operation of autonomous driving vehicles
CN112907644B (zh) 一种面向机器地图的视觉定位方法
CN115145280A (zh) 一种基于装配过程的零件搬运路径规划方法及系统
Xu et al. TrafficEKF: A learning based traffic aware extended Kalman filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant