CN115390455A - 基于时序逻辑的安全强化学习方法及系统 - Google Patents

基于时序逻辑的安全强化学习方法及系统 Download PDF

Info

Publication number
CN115390455A
CN115390455A CN202211121828.3A CN202211121828A CN115390455A CN 115390455 A CN115390455 A CN 115390455A CN 202211121828 A CN202211121828 A CN 202211121828A CN 115390455 A CN115390455 A CN 115390455A
Authority
CN
China
Prior art keywords
mdp
security
reinforcement learning
state
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211121828.3A
Other languages
English (en)
Inventor
阚震
章可易
李保罗
李智军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211121828.3A priority Critical patent/CN115390455A/zh
Publication of CN115390455A publication Critical patent/CN115390455A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于时序逻辑的安全强化学习方法及系统,涉及安全强化学习技术领域,包括:步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。本发明能够获得最大化LTL任务完成概率的最优策略且保证学习过程中的安全性。

Description

基于时序逻辑的安全强化学习方法及系统
技术领域
本发明涉及安全强化学习技术领域,具体地,涉及一种基于时序逻辑的安全强化学习方法及系统。
背景技术
随着机器人技术的不断发展,机器人逐渐应用于办公室、医院和家庭等场景,这些应用场景通常要求机器人能够自主学习、规划和执行由一系列逻辑动作组成的复杂操作任务。机器人运动规划领域的新趋势是研究完成高层复杂任务的计算框架,不同于仅能实现到达单个目标位置的传统方法,这类新框架能解决包含复杂的逻辑和时序约束的高层规划任务,如:序列性任务(依次到达目标区域A、B和C);持续监视任务(无限次访问目标区域A、B和C)等,以及这些任务复杂的逻辑组合。
强化学习是探索式的学习方法,机器人需要尽可能充分地探索MDP状态空间才能得到较好的控制策略,无法保证系统在探索过程中的安全性,易导致系统损坏,因而保证机器人在学习过程中的安全性至关重要。
时序逻辑作为一种形式化语言,能够以简洁和人类可解释的形式描述广泛的复杂任务,因此越来越多地用于机器人系统的运动规划。常见的用于描述机器人任务的时序逻辑有信号时序逻辑(Signal temporal logic)、截断线性时序逻辑(Truncated lineartemporal logic)等。LTL提供了一种较为接近人类自然语言的任务描述方式,能够用来描述序列性和安全性等多种任务属性,并提供了任务进度的检验机制,适合用于带有时序性和逻辑性约束的高层复杂运动规划任务中。
相关的现有技术:例如控制屏障函数法(Control Barrier Functions,CBFs),该方法仅考虑控制仿射系统(Control Affine Systems)中的安全性保证,研究者通过安全函数在状态空间中定义安全集,通过对安全函数关于时间的导数施加约束使之变为CBF,并且使安全集成为不变集,只要采取满足CBF的约束的动作,就能保证系统始终在安全集中运行。
针对上述现有技术,存在以下技术缺陷,例如控制屏障函数法只能用于有限任务的运动规划规划,并且使用CBFs需要系统模型精确已知,模型不准确时CBFs过滤危险动作的效果就会显著下降。而用神经网络拟合CBFs的方法依赖于好的专家轨迹,并且在通过强化学习过程收集更多数据得到较好的CBFs表示之前,实际难以保证强化学习智能体的安全性。
发明内容
针对现有技术中的缺陷,本发明提供一种基于时序逻辑的安全强化学习方法及系统。
根据本发明提供的一种基于时序逻辑的安全强化学习方法及系统,所述方案如下:
第一方面,提供了一种基于时序逻辑的安全强化学习方法,所述方法包括:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
优选地,所述步骤S1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
记状态s处的可行动作集为
Figure BDA0003847454290000026
对任意状态s∈S,若有a∈A(S),则∑s′∈SP(s,a,s′)=1;否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π∶S*→A;其中,S*表示全部有限路径的集合;无记忆确定性策略为
Figure BDA0003847454290000021
优选地,所述步骤S1还包括:LTL公式由布尔真值True、原子命题a∈AP、合取∧、非
Figure BDA0003847454290000027
接下来〇和直到∪递归地构成,具体语法如下:
Figure BDA0003847454290000022
优选地,所述步骤S2包括:
Figure BDA0003847454290000023
称为tLDGBA,若tGBA的输入字母表扩充为Σ=2AP∪{∈},且其状态集被划分为互不相交的两个集合:Q=QI∪QD,
Figure BDA0003847454290000024
使得:
Figure BDA0003847454290000025
Figure BDA0003847454290000031
Figure BDA0003847454290000032
Figure BDA0003847454290000033
给定
Figure BDA0003847454290000034
其对应的ctLDGBA为
Figure BDA0003847454290000035
其中,
Figure BDA0003847454290000036
是増广状态集;
Figure BDA0003847454290000037
是初始状态;T是接受边界集,记录未被访问的接受集,初始化为F并且由接受边界函数更新:
Figure BDA0003847454290000038
新的转移函数定义为
Figure BDA0003847454290000039
v′=v_next(v,q,T)};其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Figure BDA00038474542900000310
新的接受条件变为
Figure BDA00038474542900000311
Figure BDA00038474542900000312
优选地,所述步骤S3包括:
将MDP和ctLDGBA融合为乘积MDP,用于强化学习搜索最优策略:给定MDP M=(S,A,P,s0,AP,L)和
Figure BDA00038474542900000313
乘积MDP定义为
Figure BDA00038474542900000314
Figure BDA00038474542900000315
其中,
Figure BDA00038474542900000316
是乘积状态集;A×=A∪A,
Figure BDA00038474542900000317
是动作集;
Figure BDA00038474542900000318
是初始状态;乘积MDP的状态转移概率函数定义为:
Figure BDA00038474542900000319
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
Figure BDA00038474542900000320
Figure BDA00038474542900000321
是接受条件。
第二方面,提供了一种基于时序逻辑的安全强化学习系统,所述系统包括:
模块M1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
模块M2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
模块M3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
优选地,所述模块M1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
记状态s处的可行动作集为
Figure BDA0003847454290000041
对任意状态s∈S,若有a∈A(S),则∑s′∈SP(s,a,s′)=1;否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π∶S*→A;其中,S*表示全部有限路径的集合;无记忆确定性策略为
Figure BDA0003847454290000042
优选地,所述模块M1还包括:LTL公式由布尔真值True、原子命题a∈AP、合取∧、非
Figure BDA00038474542900000417
接下来〇和直到∪递归地构成,具体语法如下:
Figure BDA0003847454290000043
优选地,所述模块M2包括:
Figure BDA0003847454290000044
称为tLDGBA,若tGBA的输入字母表扩充为Σ=2AP∪{∈},且其状态集被划分为互不相交的两个集合:Q=QI∪QD,
Figure BDA0003847454290000045
使得:
Figure BDA0003847454290000046
Figure BDA0003847454290000047
Figure BDA0003847454290000048
Figure BDA0003847454290000049
给定
Figure BDA00038474542900000410
其对应的ctLDGBA为
Figure BDA00038474542900000411
其中,
Figure BDA00038474542900000412
是増广状态集;
Figure BDA00038474542900000413
是初始状态;T是接受边界集,记录未被访问的接受集,初始化为F并且由接受边界函数更新:
Figure BDA00038474542900000414
新的转移函数定义为
Figure BDA00038474542900000415
v′=v_next(v,q,T)};其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Figure BDA00038474542900000416
新的接受条件变为
Figure BDA0003847454290000051
Figure BDA0003847454290000052
优选地,所述模块M3包括:
将MDP和ctLDGBA融合为乘积MDP,用于强化学习搜索最优策略:给定MDP M=(S,A,P,s0,AP,L)和
Figure BDA0003847454290000053
乘积MDP定义为
Figure BDA0003847454290000054
Figure BDA0003847454290000055
其中,
Figure BDA0003847454290000056
是乘积状态集;A×=A∪A
Figure BDA0003847454290000057
是动作集;
Figure BDA0003847454290000058
是初始状态;乘积MDP的状态转移概率函数定义为:
Figure BDA0003847454290000059
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
Figure BDA00038474542900000511
Figure BDA00038474542900000512
是接受条件。
与现有技术相比,本发明具有如下的有益效果:
1、本发明将复杂任务编码为LTL公式,能够提供一种可解释的安全规范;
2、本发明由LTL形成的tLDGBA扩展得到的ctLDGBA,适用于与MDP结合形成乘积MDP,进而实现在MDP中使用安全强化学习方法;
3、本发明与传统的强化学习方法相比,能够解决在保证安全的前提下,在未知MDP中完成预定LTL任务的运动规划问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于时序逻辑的安全强化学习方法的体系结构示意图;
图2为本发明提供的LTL引导的安全强化学习算法伪代码。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于时序逻辑的安全强化学习方法,用于解决机器人强化学习过程中的安全强化学习问题。参照图1和图2所示,将tLDGBA扩展为ctLDGBA,并将ctLDGBA与MDP结合形成乘积MDP,最后设计安全盾机制保证强化学习的学习过程安全性,从而完成安全强化学习任务。
ctLDGBA为约束型基于转移的有限确定性广义布奇自动机(constrainedtransition-based Limit-Deterministic Generalized Büchi Automaton,以下简称ctLDGBA),由LTL公式转化而来。
MDP用于建模实际应用场景,用转移概率函数来描述各种不确定性,并使用强化学习算法通过交互学习最优策略。
安全盾用于保证强化学习过程的安全性,由安全规范和环境抽象而来,其中安全规范是用LTL描述的系统需要遵守的安全约束;抽象是传感器感知到的环境信息的模型,仅能用于确认安全规范是否被违反。
方法步骤具体如下:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务。
该步骤具体包括:马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数。
记状态s处的可行动作集为
Figure BDA0003847454290000067
对任意状态s∈S,若有a∈A(S),则∑s′∈SP(s,a,s′)=1;否则∑s′∈SP(s,a,s′)=0。
MDP上的确定性策略π定义为π∶S*→A;其中,S*表示全部有限路径的集合;无记忆确定性策略为
Figure BDA0003847454290000061
LTL公式由布尔真值True、原子命题a∈AP、合取∧、非
Figure BDA0003847454290000068
接下来〇和直到∪递归地构成,具体语法如下:
Figure BDA0003847454290000062
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA。
该步骤具体包括:
Figure BDA0003847454290000063
称为tLDGBA,若tGBA的输入字母表扩充为Σ=2AP∪{∈},且其状态集被划分为互不相交的两个集合:Q=QI∪QD,
Figure BDA0003847454290000064
Figure BDA0003847454290000065
使得:
Figure BDA0003847454290000066
Figure BDA0003847454290000071
Figure BDA0003847454290000072
Figure BDA0003847454290000073
给定
Figure BDA0003847454290000074
其对应的ctLDGBA为
Figure BDA0003847454290000075
其中,
Figure BDA0003847454290000076
是増广状态集;
Figure BDA0003847454290000077
是初始状态;T是接受边界集,记录未被访问的接受集,初始化为F并且由接受边界函数更新:
Figure BDA0003847454290000078
新的转移函数定义为
Figure BDA0003847454290000079
Figure BDA00038474542900000710
其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Figure BDA00038474542900000711
新的接受条件变为
Figure BDA00038474542900000712
Figure BDA00038474542900000713
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
该步骤具体包括:将MDP和ctLDGBA融合为乘积MDP,用于强化学习搜索最优策略。给定MDPM=(S,A,P,s0,AP,L)和
Figure BDA00038474542900000714
乘积MDP定义为
Figure BDA00038474542900000715
其中,
Figure BDA00038474542900000716
是乘积状态集;A×=A∪A,
Figure BDA00038474542900000717
是动作集;
Figure BDA00038474542900000718
是初始状态;乘积MDP的状态转移概率函数定义为:
Figure BDA00038474542900000719
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
Figure BDA00038474542900000721
Figure BDA00038474542900000722
是接受条件。
安全盾的构建是基于安全规范和环境的抽象,安全规范是用LTL描述的系统需要遵守的安全约束;抽象是传感器感知到的环境信息的模型,仅能用于确认安全规范是否被违反。给定MDPM=(S,A,P,s0,AP,L)和观测函数f:S→O,观测函数是状态空间S到观测集O的映射,抽象定义为
Figure BDA0003847454290000081
其中,∑e=O×A是输入字母表;δe:Qe×∑e→Qe是转移函数。用LTL描述系统的安全规范,安全规范可转化为确定性有限自动机(Deterministic FiniteAutomaton,DFA),DFA为
Figure BDA0003847454290000082
Figure BDA0003847454290000083
其中,输入字母表同为∑s=O×A;
Figure BDA0003847454290000084
是安全状态集。给定抽象Ae和安全自动机As,二玩家安全博弈可构建为G=(G,g0,∑1,∑2g,Fg),其中,G=Qe×Qs是博弈状态集;
Figure BDA0003847454290000085
是初始状态;∑1=O和∑2=A分别是环境和智能体的输入字母表;
Figure BDA0003847454290000086
Figure BDA0003847454290000087
是转移函数;Fg=Qe×Fs是安全状态集。安全博弈的获胜区域
Figure BDA0003847454290000088
可用标准方法求得。通过安全博弈G、获胜区域W和动作集A×=A∪A合成安全盾S=(Q,q0,∑I,∑O,δ,λ),其中,Q=G;q0=g0;∑I=O×A×;∑O=A×
Figure BDA0003847454290000089
Figure BDA00038474542900000810
输出函数定义为:
Figure BDA00038474542900000811
安全盾是LTL引导的强化学习算法的一个独立组件,在学习过程中,智能体根据当前策略选择动作
Figure BDA00038474542900000812
然后把
Figure BDA00038474542900000813
输入安全盾检验该动作是否安全,若该动作不安全,安全盾输出修改后的安全动作
Figure BDA00038474542900000814
否则直接输出
Figure BDA00038474542900000815
本发明实施例提供了一种基于时序逻辑的安全强化学习方法及系统,通过将复杂任务规范编码为可解释的LTL公式,并转化为ctLDGBA,与MDP结合之后形成乘积MDP,并通过设计的安全盾机制保证强化学习中的安全性,从而提升强化学习的效率。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于时序逻辑的安全强化学习方法,其特征在于,包括:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
2.根据权利要求1所述的基于时序逻辑的安全强化学习方法,其特征在于,所述步骤S1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
记状态s处的可行动作集为
Figure FDA00038474542800000112
对任意状态s∈S,若有a∈A(S),则∑s′∈SP(s,a,s′)=1;否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π∶S*→A;其中,S*表示全部有限路径的集合;无记忆确定性策略为π(σ[:n])=π(σ[n]),
Figure FDA00038474542800000113
a∈A(σ[n])。
3.根据权利要求2所述的基于时序逻辑的安全强化学习方法,其特征在于,所述步骤S1还包括:LTL公式由布尔真值True、原子命题a∈AP、合取∧、非
Figure FDA00038474542800000114
接下来〇和直到∪递归地构成,具体语法如下:
Figure FDA0003847454280000011
4.根据权利要求1所述的基于时序逻辑的安全强化学习方法,其特征在于,所述步骤S2包括:
Figure FDA0003847454280000012
称为tLDGBA,若tGBA的输入字母表扩充为Σ=2AP∪{∈},且其状态集被划分为互不相交的两个集合:Q=QI∪QD,
Figure FDA0003847454280000013
使得:
Figure FDA0003847454280000014
Figure FDA0003847454280000015
Figure FDA0003847454280000016
Figure FDA0003847454280000017
给定
Figure FDA0003847454280000018
其对应的ctLDGBA为
Figure FDA0003847454280000019
其中,
Figure FDA00038474542800000110
是増广状态集;
Figure FDA00038474542800000111
是初始状态;T是接受边界集,记录未被访问的接受集,初始化为F并且由接受边界函数更新:
Figure FDA0003847454280000021
新的转移函数定义为
Figure FDA0003847454280000022
Figure FDA0003847454280000023
其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Figure FDA0003847454280000024
新的接受条件变为
Figure FDA0003847454280000025
Figure FDA0003847454280000026
5.根据权利要求1所述的基于时序逻辑的安全强化学习方法,其特征在于,所述步骤S3包括:
将MDP和ctLDGBA融合为乘积MDP,用于强化学习搜索最优策略:给定MDPM=(S,A,P,s0,AP,L)和
Figure FDA0003847454280000027
乘积MDP定义为
Figure FDA0003847454280000028
Figure FDA0003847454280000029
其中,
Figure FDA00038474542800000210
是乘积状态集;A×=A∪A,
Figure FDA00038474542800000211
是动作集;
Figure FDA00038474542800000212
是初始状态;乘积MDP的状态转移概率函数定义为:
Figure FDA00038474542800000213
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
Figure FDA00038474542800000214
Figure FDA00038474542800000215
是接受条件。
6.一种基于时序逻辑的安全强化学习系统,其特征在于,包括:
模块M1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
模块M2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
模块M3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
7.根据权利要求6所述的基于时序逻辑的安全强化学习系统,其特征在于,所述模块M1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
记状态s处的可行动作集为
Figure FDA00038474542800000318
对任意状态s∈S,若有a∈A(S),则∑s′∈SP(s,a,s′)=1;否则∑s′∈SP(s,a,s′)=0;
MDP上的确定性策略π定义为π∶S*→A;其中,S*表示全部有限路径的集合;无记忆确定性策略为
Figure FDA0003847454280000031
8.根据权利要求7所述的基于时序逻辑的安全强化学习系统,其特征在于,所述模块M1还包括:LTL公式由布尔真值True、原子命题a∈AP、合取∧、非
Figure FDA00038474542800000319
、接下来〇和直到∪递归地构成,具体语法如下:
Figure FDA0003847454280000032
9.根据权利要求6所述的基于时序逻辑的安全强化学习系统,其特征在于,所述模块M2包括:
Figure FDA0003847454280000033
称为tLDGBA,若tGBA的输入字母表扩充为Σ=2AP∪{∈},且其状态集被划分为互不相交的两个集合:Q=QI∪QD,
Figure FDA0003847454280000034
使得:
Figure FDA0003847454280000035
Figure FDA0003847454280000036
Figure FDA0003847454280000037
Figure FDA0003847454280000038
给定
Figure FDA0003847454280000039
其对应的ctLDGBA为
Figure FDA00038474542800000310
其中,
Figure FDA00038474542800000311
是増广状态集;
Figure FDA00038474542800000312
是初始状态;T是接受边界集,记录未被访问的接受集,初始化为F并且由接受边界函数更新:
Figure FDA00038474542800000313
新的转移函数定义为
Figure FDA00038474542800000314
Figure FDA00038474542800000315
其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Figure FDA00038474542800000316
新的接受条件变为
Figure FDA00038474542800000317
Figure FDA0003847454280000041
10.根据权利要求6所述的基于时序逻辑的安全强化学习系统,其特征在于,所述模块M3包括:
将MDP和ctLDGBA融合为乘积MDP,用于强化学习搜索最优策略:给定MDPM=(S,A,P,s0,AP,L)和
Figure FDA0003847454280000042
乘积MDP定义为
Figure FDA0003847454280000043
Figure FDA0003847454280000044
其中,
Figure FDA0003847454280000045
是乘积状态集;A×=A∪A,
Figure FDA0003847454280000046
是动作集;
Figure FDA0003847454280000047
是初始状态;乘积MDP的状态转移概率函数定义为:
Figure FDA0003847454280000048
δ×={(s×,a×,(s×)′)∈S××A××S×|P×(s×,a×,(s×)′)>0}是可行转移集;
Figure FDA0003847454280000049
Figure FDA00038474542800000410
是接受条件。
CN202211121828.3A 2022-09-15 2022-09-15 基于时序逻辑的安全强化学习方法及系统 Pending CN115390455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211121828.3A CN115390455A (zh) 2022-09-15 2022-09-15 基于时序逻辑的安全强化学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211121828.3A CN115390455A (zh) 2022-09-15 2022-09-15 基于时序逻辑的安全强化学习方法及系统

Publications (1)

Publication Number Publication Date
CN115390455A true CN115390455A (zh) 2022-11-25

Family

ID=84126873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211121828.3A Pending CN115390455A (zh) 2022-09-15 2022-09-15 基于时序逻辑的安全强化学习方法及系统

Country Status (1)

Country Link
CN (1) CN115390455A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793657A (zh) * 2022-12-09 2023-03-14 常州大学 基于时态逻辑控制策略的配送机器人路径规划方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793657A (zh) * 2022-12-09 2023-03-14 常州大学 基于时态逻辑控制策略的配送机器人路径规划方法

Similar Documents

Publication Publication Date Title
Könighofer et al. Shield synthesis
Mhenni et al. Automatic fault tree generation from SysML system models
Lavaei et al. Formal controller synthesis for continuous-space MDPs via model-free reinforcement learning
Valette Nets in production systems
Ingrand Recent trends in formal validation and verification of autonomous robots software
Gelen et al. The synthesis and PLC implementation of hybrid modular supervisors for real time control of an experimental manufacturing system
Hartonas-Garmhausen et al. ProbVerus: Probabilistic symbolic model checking
Foster et al. Formally verified simulations of state-rich processes using interaction trees in Isabelle/HOL
CN115390455A (zh) 基于时序逻辑的安全强化学习方法及系统
Bonet et al. High-level programming via generalized planning and LTL synthesis
Schlingloff Cyber-physical systems engineering
Nejati et al. Context-triggered Games for Reactive Synthesis over Stochastic Systems via Control Barrier Certificates
Karmakar Symbolic model checking: a comprehensive review for critical system design
Ting et al. A fuzzy reasoning design for fault detection and diagnosis of a computer-controlled system
Pretschner et al. Model based testing in incremental system development
Gordon-Spears et al. Reconfigurable robot teams: modeling and supervisory control
Kulkarni et al. Opportunistic qualitative planning in stochastic systems with preferences over temporal logic objectives
Hussain et al. System Identification Methods for Industrial Control Systems
Silva et al. Modeling extended Petri nets compatible with GHENeSys IEC61131 for industrial automation
DeCastro et al. Dynamics-based reactive synthesis and automated revisions for high-level robot control
Hartonas-Garmhausen Probabilistic Symbolic Model Checking with Engineering Models and Applications
Grimmeisen et al. Case study on automated and continuous reliability assessment of software-defined manufacturing based on digital twins
Castillo et al. A three-level knowledge-based system for the generation of live and safe petri nets for manufacturing systems
Firouzmand et al. Robust temporal logic motion planning based on invariant set theory
Xia et al. Design and implementation of automatic verification for PLC systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination