CN115390455A - 基于时序逻辑的安全强化学习方法及系统 - Google Patents
基于时序逻辑的安全强化学习方法及系统 Download PDFInfo
- Publication number
- CN115390455A CN115390455A CN202211121828.3A CN202211121828A CN115390455A CN 115390455 A CN115390455 A CN 115390455A CN 202211121828 A CN202211121828 A CN 202211121828A CN 115390455 A CN115390455 A CN 115390455A
- Authority
- CN
- China
- Prior art keywords
- mdp
- security
- reinforcement learning
- state
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002787 reinforcement Effects 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000005728 strengthening Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 22
- 230000007704 transition Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于时序逻辑的安全强化学习方法及系统,涉及安全强化学习技术领域,包括:步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。本发明能够获得最大化LTL任务完成概率的最优策略且保证学习过程中的安全性。
Description
技术领域
本发明涉及安全强化学习技术领域,具体地,涉及一种基于时序逻辑的安全强化学习方法及系统。
背景技术
随着机器人技术的不断发展,机器人逐渐应用于办公室、医院和家庭等场景,这些应用场景通常要求机器人能够自主学习、规划和执行由一系列逻辑动作组成的复杂操作任务。机器人运动规划领域的新趋势是研究完成高层复杂任务的计算框架,不同于仅能实现到达单个目标位置的传统方法,这类新框架能解决包含复杂的逻辑和时序约束的高层规划任务,如:序列性任务(依次到达目标区域A、B和C);持续监视任务(无限次访问目标区域A、B和C)等,以及这些任务复杂的逻辑组合。
强化学习是探索式的学习方法,机器人需要尽可能充分地探索MDP状态空间才能得到较好的控制策略,无法保证系统在探索过程中的安全性,易导致系统损坏,因而保证机器人在学习过程中的安全性至关重要。
时序逻辑作为一种形式化语言,能够以简洁和人类可解释的形式描述广泛的复杂任务,因此越来越多地用于机器人系统的运动规划。常见的用于描述机器人任务的时序逻辑有信号时序逻辑(Signal temporal logic)、截断线性时序逻辑(Truncated lineartemporal logic)等。LTL提供了一种较为接近人类自然语言的任务描述方式,能够用来描述序列性和安全性等多种任务属性,并提供了任务进度的检验机制,适合用于带有时序性和逻辑性约束的高层复杂运动规划任务中。
相关的现有技术:例如控制屏障函数法(Control Barrier Functions,CBFs),该方法仅考虑控制仿射系统(Control Affine Systems)中的安全性保证,研究者通过安全函数在状态空间中定义安全集,通过对安全函数关于时间的导数施加约束使之变为CBF,并且使安全集成为不变集,只要采取满足CBF的约束的动作,就能保证系统始终在安全集中运行。
针对上述现有技术,存在以下技术缺陷,例如控制屏障函数法只能用于有限任务的运动规划规划,并且使用CBFs需要系统模型精确已知,模型不准确时CBFs过滤危险动作的效果就会显著下降。而用神经网络拟合CBFs的方法依赖于好的专家轨迹,并且在通过强化学习过程收集更多数据得到较好的CBFs表示之前,实际难以保证强化学习智能体的安全性。
发明内容
针对现有技术中的缺陷,本发明提供一种基于时序逻辑的安全强化学习方法及系统。
根据本发明提供的一种基于时序逻辑的安全强化学习方法及系统,所述方案如下:
第一方面,提供了一种基于时序逻辑的安全强化学习方法,所述方法包括:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
优选地,所述步骤S1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
优选地,所述步骤S2包括:
新的转移函数定义为v′=v_next(v,q,T)};其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
优选地,所述步骤S3包括:
第二方面,提供了一种基于时序逻辑的安全强化学习系统,所述系统包括:
模块M1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
模块M2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
模块M3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
优选地,所述模块M1包括:
马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数;
优选地,所述模块M2包括:
新的转移函数定义为v′=v_next(v,q,T)};其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
优选地,所述模块M3包括:
与现有技术相比,本发明具有如下的有益效果:
1、本发明将复杂任务编码为LTL公式,能够提供一种可解释的安全规范;
2、本发明由LTL形成的tLDGBA扩展得到的ctLDGBA,适用于与MDP结合形成乘积MDP,进而实现在MDP中使用安全强化学习方法;
3、本发明与传统的强化学习方法相比,能够解决在保证安全的前提下,在未知MDP中完成预定LTL任务的运动规划问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于时序逻辑的安全强化学习方法的体系结构示意图;
图2为本发明提供的LTL引导的安全强化学习算法伪代码。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于时序逻辑的安全强化学习方法,用于解决机器人强化学习过程中的安全强化学习问题。参照图1和图2所示,将tLDGBA扩展为ctLDGBA,并将ctLDGBA与MDP结合形成乘积MDP,最后设计安全盾机制保证强化学习的学习过程安全性,从而完成安全强化学习任务。
ctLDGBA为约束型基于转移的有限确定性广义布奇自动机(constrainedtransition-based Limit-Deterministic Generalized Büchi Automaton,以下简称ctLDGBA),由LTL公式转化而来。
MDP用于建模实际应用场景,用转移概率函数来描述各种不确定性,并使用强化学习算法通过交互学习最优策略。
安全盾用于保证强化学习过程的安全性,由安全规范和环境抽象而来,其中安全规范是用LTL描述的系统需要遵守的安全约束;抽象是传感器感知到的环境信息的模型,仅能用于确认安全规范是否被违反。
方法步骤具体如下:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务。
该步骤具体包括:马尔可夫决策过程由多元组M=(S,A,P,s0,AP,L)表示;其中,S是有限状态集;A是有限动作集;P:S×A×S→[0,1]是状态转移概率函数;s0∈S是初始状态;AP是有限原子命题集;L:S→2AP是标签函数。
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA。
新的转移函数定义为 其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
安全盾的构建是基于安全规范和环境的抽象,安全规范是用LTL描述的系统需要遵守的安全约束;抽象是传感器感知到的环境信息的模型,仅能用于确认安全规范是否被违反。给定MDPM=(S,A,P,s0,AP,L)和观测函数f:S→O,观测函数是状态空间S到观测集O的映射,抽象定义为其中,∑e=O×A是输入字母表;δe:Qe×∑e→Qe是转移函数。用LTL描述系统的安全规范,安全规范可转化为确定性有限自动机(Deterministic FiniteAutomaton,DFA),DFA为 其中,输入字母表同为∑s=O×A;是安全状态集。给定抽象Ae和安全自动机As,二玩家安全博弈可构建为G=(G,g0,∑1,∑2,δg,Fg),其中,G=Qe×Qs是博弈状态集;是初始状态;∑1=O和∑2=A分别是环境和智能体的输入字母表; 是转移函数;Fg=Qe×Fs是安全状态集。安全博弈的获胜区域可用标准方法求得。通过安全博弈G、获胜区域W和动作集A×=A∪A∈合成安全盾S=(Q,q0,∑I,∑O,δ,λ),其中,Q=G;q0=g0;∑I=O×A×;∑O=A×; 输出函数定义为:
本发明实施例提供了一种基于时序逻辑的安全强化学习方法及系统,通过将复杂任务规范编码为可解释的LTL公式,并转化为ctLDGBA,与MDP结合之后形成乘积MDP,并通过设计的安全盾机制保证强化学习中的安全性,从而提升强化学习的效率。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于时序逻辑的安全强化学习方法,其特征在于,包括:
步骤S1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
步骤S2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
步骤S3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
4.根据权利要求1所述的基于时序逻辑的安全强化学习方法,其特征在于,所述步骤S2包括:
新的转移函数定义为 其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
6.一种基于时序逻辑的安全强化学习系统,其特征在于,包括:
模块M1:构建马尔可夫决策过程MDP,用LTL描述智能体的复杂任务;
模块M2:构建有多接受集的tLDGBA,并通过接受边界函数构建ctLDGBA;
模块M3:构建乘积MDP用于强化学习搜索最优策略并基于LTL对安全性的描述和MDP的观测函数构建安全博弈,设计安全盾机制保证系统在学习过程中的安全性。
9.根据权利要求6所述的基于时序逻辑的安全强化学习系统,其特征在于,所述模块M2包括:
新的转移函数定义为 其中,v_next(v,q,T)是ctLDGBA状态分量v的转移函数,v_next(v,q,T)等于i,若在接受边界集T更新之后Fi是T的首个集合,即:v_next(v,q,T)=i,Fi=T[0];v_next(v,q,T)被重置为0,若
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121828.3A CN115390455A (zh) | 2022-09-15 | 2022-09-15 | 基于时序逻辑的安全强化学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211121828.3A CN115390455A (zh) | 2022-09-15 | 2022-09-15 | 基于时序逻辑的安全强化学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115390455A true CN115390455A (zh) | 2022-11-25 |
Family
ID=84126873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211121828.3A Pending CN115390455A (zh) | 2022-09-15 | 2022-09-15 | 基于时序逻辑的安全强化学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115390455A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793657A (zh) * | 2022-12-09 | 2023-03-14 | 常州大学 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
-
2022
- 2022-09-15 CN CN202211121828.3A patent/CN115390455A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115793657A (zh) * | 2022-12-09 | 2023-03-14 | 常州大学 | 基于时态逻辑控制策略的配送机器人路径规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Könighofer et al. | Shield synthesis | |
Mhenni et al. | Automatic fault tree generation from SysML system models | |
Lavaei et al. | Formal controller synthesis for continuous-space MDPs via model-free reinforcement learning | |
Valette | Nets in production systems | |
Ingrand | Recent trends in formal validation and verification of autonomous robots software | |
Gelen et al. | The synthesis and PLC implementation of hybrid modular supervisors for real time control of an experimental manufacturing system | |
Hartonas-Garmhausen et al. | ProbVerus: Probabilistic symbolic model checking | |
Foster et al. | Formally verified simulations of state-rich processes using interaction trees in Isabelle/HOL | |
CN115390455A (zh) | 基于时序逻辑的安全强化学习方法及系统 | |
Bonet et al. | High-level programming via generalized planning and LTL synthesis | |
Schlingloff | Cyber-physical systems engineering | |
Nejati et al. | Context-triggered Games for Reactive Synthesis over Stochastic Systems via Control Barrier Certificates | |
Karmakar | Symbolic model checking: a comprehensive review for critical system design | |
Ting et al. | A fuzzy reasoning design for fault detection and diagnosis of a computer-controlled system | |
Pretschner et al. | Model based testing in incremental system development | |
Gordon-Spears et al. | Reconfigurable robot teams: modeling and supervisory control | |
Kulkarni et al. | Opportunistic qualitative planning in stochastic systems with preferences over temporal logic objectives | |
Hussain et al. | System Identification Methods for Industrial Control Systems | |
Silva et al. | Modeling extended Petri nets compatible with GHENeSys IEC61131 for industrial automation | |
DeCastro et al. | Dynamics-based reactive synthesis and automated revisions for high-level robot control | |
Hartonas-Garmhausen | Probabilistic Symbolic Model Checking with Engineering Models and Applications | |
Grimmeisen et al. | Case study on automated and continuous reliability assessment of software-defined manufacturing based on digital twins | |
Castillo et al. | A three-level knowledge-based system for the generation of live and safe petri nets for manufacturing systems | |
Firouzmand et al. | Robust temporal logic motion planning based on invariant set theory | |
Xia et al. | Design and implementation of automatic verification for PLC systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |