CN114222952A - 用于强化学习控制的约束适配器 - Google Patents

用于强化学习控制的约束适配器 Download PDF

Info

Publication number
CN114222952A
CN114222952A CN202080057129.XA CN202080057129A CN114222952A CN 114222952 A CN114222952 A CN 114222952A CN 202080057129 A CN202080057129 A CN 202080057129A CN 114222952 A CN114222952 A CN 114222952A
Authority
CN
China
Prior art keywords
machine
control
state
reward
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080057129.XA
Other languages
English (en)
Other versions
CN114222952B (zh
Inventor
U·卡拉比克
李照剑
A·古德史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN114222952A publication Critical patent/CN114222952A/zh
Application granted granted Critical
Publication of CN114222952B publication Critical patent/CN114222952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Feedback Control In General (AREA)

Abstract

提供了一种用于控制机器的操作的系统,该机器经受机器的连续状态空间中的状态约束并且经受机器的连续控制输入空间中的控制输入约束。该设备包括:输入接口,输入接口用于接受指示机器状态的数据;存储器,存储器被配置为存储优化问题和控制策略,优化问题用于计算满足状态约束的状态和动作对的安全裕度,控制策略将机器的在控制不变集合CIS内的状态映射到满足控制输入约束的控制输入;以及处理器,处理器被配置为迭代地执行强化学习RL算法以联合地控制机器并更新控制策略。

Description

用于强化学习控制的约束适配器
技术领域
本发明总体上涉及系统控制,并且更具体地,涉及用于受约束机器(constrainedmachine)的数据驱动控制的方法和设备。
背景技术
控制系统工程(control systems engineering)中的控制理论是工程的子域,其对工程过程和机器中的连续操作的动态系统的控制进行处理。目标是开发一种用于使用控制动作来控制这种系统以防止延迟或过冲(overshoot)并确保控制稳定性和稳健性的控制策略。次要目标是以最优方式做到这一点。
例如,基于优化的控制和估计技术(例如,模型预测控制(MPC))允许其中可以直接考虑系统动态和约束的基于模型的设计框架。MPC在许多应用中用于控制具有各种复杂性的动态系统。这种系统的示例包括生产线、汽车引擎、机器人、数控加工、卫星和发电机。然而,在许多情况下,受控系统的模型不可用,难以实时更新,或者不准确。这种情况的示例在机器人、建筑物控制(HVAC)、车辆、智能电网、工厂自动化、运输、自调谐机器和交通网络中是普遍的。
在仅存在动态系统的局部或不确定模型的情况下,一些控制方法利用由这些系统生成的操作数据,以便于构建使系统动态稳定的反馈控制策略,或者嵌入可量化的控制相关性能。使用数据来设计控制策略被称为数据驱动的控制。存在两种数据驱动的控制方法:间接方法,其首先构建系统的模型,然后利用(leverage)模型来设计控制器;或直接方法,其从数据直接构建控制策略而没有中间模型建立步骤。间接方法的缺点是在模型建立阶段中对大量数据的潜在需求。相反,直接方法需要更少的数据。然而,即使最先进的直接控制方法在处理状态和输入约束方面也会遇到困难,而这些约束对于维持闭环控制系统的安全操作是必不可少的,因为违反约束通常可能是灾难性的并且可能破坏系统。
例如,强化学习(RL)是机器学习的领域,涉及如何在环境中采取动作以便于使某种累积奖励的概念(notion of cumulative reward)最大化(或等效地,使累积损失/成本最小化)。强化学习与连续状态输入空间中的优化控制(其主要涉及优化控制策略的存在和特性描述)以及在没有受控系统和/或环境的数学模型的情况下用于其计算的算法密切相关。
然而,当前RL方法不考虑约束系统的数据驱动控制。这是因为传统RL方法不考虑连续状态动作空间中的状态和输入约束满足;也就是说,传统RL不保证在控制输入的存在下操作的受控系统的状态在整个操作中满足状态和输入约束。传统RL的问题是在探索阶段(exploration stage)期间,RL利用不同的输入扰动系统以学习与控制输入相对应的状态。此外,为了更好地学习系统,使用接近可能约束的物理边界的控制输入是有益的。因为没有受控系统或受控机器的完整并且准确的模型,所以不保证任意所选控制输入和/或边界值控制输入不将系统状态引导到指定状态约束集(state constraint set)之外的区域,从而导致对状态约束的违反。
因此,需要一种系统和方法来控制具有未建模动态的系统,该系统受到状态和控制输入约束以实现操作安全。
发明内容
一些实施方式的目的是提供一种用于对受到状态和控制输入约束的机器进行数据驱动控制的系统和方法。附加地或另选地,一些实施方式的目的是提供这样的系统和方法,该系统和方法扩展强化学习(RL)的一些原则以保证或至少改善在受控机器的连续状态空间中的状态和/或控制输入约束的满足。
附加地或另选地,一些实施方式的目的是使针对无约束控制设计的传统RL控制器适应于对受约束机器的控制。实际上,一些实施方式的目的是提供针对RL控制的约束适配器,以将无约束的机器的RL控制器变换为受约束的机器的RL控制器。
一些实施方式基于对强化学习的分段结构的理解。强化学习包括在多次迭代上重复的三个不同的部分。第一部分是使用将机器的状态从当前状态转换为下一状态的控制策略来控制机器。下一个部分是执行针对当前控制策略的质量估计奖励的奖励函数。第三部分是使用通过奖励函数确定的奖励来更新控制策略。
一些实施方式是基于以下认识:强化学习的本质在于控制策略的更新。这样的更新可以是机器相关的,并且可能需要时间和专业知识来设计。另外,尽管事实是对控制策略的更新基于由奖励函数确定的奖励,但是更新独立于奖励函数本身,这意味着强化学习的相同更新过程可以在没有修改的情况下与各种类型的奖励函数一起工作。
因此,一些实施方式基于以下理解,为了使针对无约束控制设计的传统RL控制器适应于对受约束的机器的控制,可以在保持控制策略更新的完整性的同时在奖励函数处执行适应性修改。这是有利的,因为它不需要重新设计RL控制器来显式地考虑约束。这避免了创建新的RL算法的困难工作。
为此,一些实施方式的目的是设计可以在各种奖励函数中使用的适应项,以考虑在受约束的RL控制期间违反约束的危险。此外,一些实施方式的目的是设计这样的适应项,其考虑到这种危险的逐渐增加或减少,与指示存在约束违反或不存在约束违反的二元术语相反。这样的渐进的适应项是有利的,因为它通知RL控制器可能违反约束,给它足够的时间在约束违反出现之前修改其行为。据我们所知,这种渐进式的适应还不存在。
一些实施方式基于以下认识:用于控制受到所述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束的机器的操作的控制问题可以被表述为在状态在满足状态约束的机器状态的控制不变集合(CIS)内的机器的控制问题。CIS被联接到对应的控制策略或与对应的控制策略相关联,该控制策略保证当机器在CIS内并且根据该控制策略受到控制时,机器的状态维持在CIS内,并且因此这样的控制总是满足约束。一些实施方式基于以下认识:受控机器的当前状态相对于CIS的位置可以用作用于指示违反约束的危险的渐进适应项。
具体地,一些实施方式利用被确定为停留在CIS中所需的最小努力量的适应项增强奖励函数。一些实施方式基于以下认识:这样的适应项是有利的,因为其中需要更小的努力量来停留在CIS内的区域与其中在RL探索错误时出现约束违反的可能性更小的区域相对应。这是因为根据定义,所需的最小控制努力不超过在优化奖励函数的同时从约束边界恢复系统所需的控制努力,即前者是后者的下限。
因此,在各种实施方式中,适应项是在CIS的需要零努力来将状态维持在CIS内的零努力子集处具有零值的有界函数,零努力子集之外但在CIS内的连续地变化的值被确定为到零努力集合的边界的距离的函数的值,并且在CIS之外具有预定大的值以指示违反约束的灾难性结果。
实际上,这样的适应项增强了传统RL控制器的传统奖励函数,以使传统控制器适应受约束的控制。附加地或另选地,适应项可以修改专门设计用于控制机器的新的奖励函数。这种修改的结果是,从第一个控制动作开始,控制器就知道最大奖励的路径是将状态带入零努力子集的最短路径。一旦状态进入零努力子集,奖励函数的距离惩罚部分就处于其最小值(通常设置为0),并且控制器仅因驱动实际状态尽可能接近期望状态的动作而获得奖励。控制不变集合是其中存在将导致约束执行的控制序列所有状态的集合。根据定义,当状态在控制不变集合之外时,不存在将避免约束违反的解。在这些情况下,上面定义的距离是未定义的。各个实施方式将其设置为非常大的数以严厉惩罚这种情况并防止其再次出现。
一些实施方式是基于以下认识:具有安全保证的控制器通常是基于机器模型确定的,其对于许多实际系统来说是不确定的。然而,被确定为停留在CIS中所需的最小努力量的适应项仍然是用于RL控制器的有效约束适配器。因为控制策略是使用操作数据更新的并且渐近地收敛到用于考虑增强的奖励函数而控制受约束的机器的优化的控制策略,所以这些实施方式考虑模型的不确定性。
因此,一个实施方式公开了一种用于控制机器的操作的设备,所述机器受到所述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束,该设备包括:输入接口,所述输入接口用于接受指示所述机器状态的数据;存储器,所述存储器被配置为存储优化问题和控制策略,所述优化问题用于计算满足所述状态约束的状态和动作对(state and action pair)的安全裕度,所述控制策略将所述机器的在控制不变集合CIS内的状态映射到满足所述控制输入约束的控制输入,其中,根据所述控制策略对具有在所述CIS内的状态的系统的控制将所述系统的状态保持在所述CIS内;以及处理器,所述处理器被配置为迭代地执行强化学习RL算法以联合地控制所述机器并更新所述控制策略,其中,为了执行所述联合控制和更新。在这种情况下,所述处理器被配置为:使用所述控制策略控制所述机器以收集包括使用所述控制策略生成的控制输入序列和与所述控制输入序列相对应的所述机器的状态序列的数据;使用所述机器的状态序列和所述控制输入序列的利用适应项增强的奖励函数来确定对所述机器的状态的所述控制策略的质量的奖励,所述适应项被确定为使所述机器的状态保持在所述CIS内所需的最小努力量;以及根据所确定的奖励来更新所述控制策略,所述控制策略改善所述机器的操作的成本函数。
此外,本发明的一些实施方式可以提供一种用于控制机器的操作的计算机实现的方法,所述机器经受到述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束。在这种情况下,该方法包括以下步骤:接受指示所述机器的状态的数据;计算满足所述状态约束的状态和动作对的安全裕度以及将所述机器的在控制不变集合CIS内的状态映射到满足所述控制输入约束的控制输入的控制策略,其中,根据所述控制策略对具有所述CIS内的状态的所述机器的控制将所述机器的状态保持在所述CIS内;以及迭代地执行强化学习RL算法以联合地控制所述机器并更新所述控制策略,其中,为了执行所述联合控制和更新,其中,迭代地执行的步骤包括以下步骤:使用所述控制策略控制所述机器以收集包括使用所述控制策略生成的控制输入序列和与所述控制输入序列相对应的所述机器的状态序列的数据;使用所述机器的状态序列和所述控制输入序列的利用适应项增强的奖励函数来确定对所述机器的状态所述控制策略的质量的奖励,所述适应项被确定为将所述机器的状态保持在所述CIS内所需的最小努力量;以及根据所确定的奖励来更新所述控制策略,所述控制策略改善所述机器的操作的成本函数。
将参照附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制,相反,重点通常放在说明当前公开的实施方式的原理上。
附图说明
图1A展示了通过传统强化学习控制器控制系统的传统方案;
图1B是展示约束集合的示意图;
图1C是传统强化学习算法的流程图;
图2A是指示根据本发明的实施方式的用于通过强化学习控制器控制系统的安全监督器方案的图;
图2B是根据本发明的实施方式的指示安全监督器算法的流程图;
图3是根据本发明的实施方式的基于安全监督器算法的四分之一汽车模型的示意图;
图4示出了根据本发明的实施方式的将噪声添加到深度确定性策略梯度算法的输出;
图5示出了根据本发明的实施方式的指示用于安全强化学习的方案的整个操作的图;以及
图6是示出根据本发明的实施方式的用于控制机器的操作的控制设备的示例的图,该机器受到机器的连续状态空间中的状态约束并且受到机器的连续控制输入空间中的控制输入约束。
具体实施方式
下文中参照附图描述本发明的各个实施方式。应当注意的是,附图未按比例绘制,在所有附图中由相同的附图标记表示具有类似的结构或功能的元件。还应注意的是,附图仅旨在便利于对本发明的具体实施方式的描述。它们不旨在作为对本发明的穷尽式描述或对本发明的范围的限制。另外,结合本发明的特定实施方式描述的方面不一定限于该实施方式,并且可以在本发明的任何其它实施方式中实践。
一些实施方式的目的是提供一种用于使用数据驱动的状态反馈优化控制器控制机器的操作的系统和方法。一些实施方式的另一目的是提供这样的控制器,该控制器适合于控制受安全约束的机器。这样的数据驱动的优化控制器的示例使用强化学习(RL)来基于在受控机器和监督器的操作期间获得的数据来确定控制策略,以向基于RL的控制器提供关于控制的安全操作的反馈。
图1A示出了接收系统109的反馈的普通RL控制器100的示例。控制器将命令106传递给系统,并且系统根据该命令执行动作。当系统是线性的时,它可以根据差分方程来建模:
x(t+1)=Ax(t)+Bu(t)+Bww(t) (1)
其中,x是包含系统状态的矢量,u是命令的矢量,并且w是干扰的矢量。当系统是非线性的时,在大多数实际应用中,它可以被建模为线性系统。RL控制器接收来自系统的反馈信号112,该反馈信号112通常是系统状态和命令矢量两者的函数,而不是干扰输入矢量的函数(因为它通常是未知的)。控制器根据反馈来修改命令。通常,反馈q(t)是上面的所有矢量的函数。
q(t)=f(x(t),u(t),w(t)) (2)
系统109是输出受约束的,意指输出115受到约束。输出可以在数学上描述为系统状态矢量、命令矢量和干扰输入矢量的线性组合。
y(t)=Cx(t)+Du(t)+Dww(t) (3)
输出是一个矢量并且它所受的约束被建模为一个集合(set)。图1B示出了相对于一组轴绘制的二维输出矢量120和约束集合123。这些轴共同形成描述输出的矢量空间的基础。假设
Figure BDA0003501695180000071
是与轴121平行的矢量,并且
Figure BDA0003501695180000072
是与轴122平行的矢量。然后,输出y(t)可以被表示为
Figure BDA0003501695180000073
其中,y1(t)和y2(t)是适当值的标量。针对安全操作,输出必须保持在约束集合123中。在数学上,约束被表示为线性不等式要求:
Sy(t)≤s·(4) (4)
其表现为在几何上表示约束的多面体或多边形。
RL中使用的算法通常不能防止违反约束。传统RL算法通过旨在使折扣奖励(discounted reward)的累积最大化的试错处理来工作:
Figure BDA0003501695180000074
其中,r(t)是奖励函数并且γ<1是正折扣因子。图1A将奖励113示出为获得反馈112并且计算奖励的函数的输出。试错处理用于确定作为将反馈112映射到命令106并且由某个参数矢量θ进行参数化的函数的策略πθ。策略是将反馈映射到命令的函数:
u(t)=πθ(q(t)). (6)
图lC示出根据本发明的RL控制器的一般工作。在系统的每个采样时间t期间,奖励132被发送到RL算法134,其确定参数矢量θ以参数化策略136,πθ。反馈信号130通过策略136变换为控制命令138。
本发明背后的主要思想是将奖励函数r(t)修改为奖励函数减去测量约束违反危险的成本函数c(t)。因此,更新后的奖励为:
Figure BDA0003501695180000075
成本函数c(t)由被称为监督器(supervisor)的附加元件来确定。
图2A是指示根据本发明的实施方式的在用于通过强化学习控制器控制系统的控制系统20中使用的安全监督器方案(方法)的图。
图2A示出了包括布置在RL控制器200和受约束的系统209之间的监督器203的控制系统20。监督器203从系统209获得状态测量或估计220,并计算期望的安全裕度,该安全裕度被转换为惩罚217并被发送到奖励计算218以获得经修改的奖励213。同时,在命令206被认为不安全的情况下,监督器发送安全命令216。安全命令是根据优化(SO)确定的不安全命令的修改:
Figure BDA0003501695180000081
受以下约束:
Figure BDA0003501695180000082
其中,k=0,...,N-1并且受以下约束:
Figure BDA0003501695180000083
项y(k|t)是根据动态在时间t的预测值y(t+k):
x(k+1|t)=Ax(k|t)+Bu(k|t) (11)
y(k|t)=Cx(k|t)+Du(k|t) (12)
具有初始条件x(0|t)=x(t)(其从系统获得)和u(0|t)=u(t)(其从RL控制器获得)。该项
Figure BDA0003501695180000084
是概率为β的对干扰集和的支持。该集合
Figure BDA0003501695180000085
是满足以下的集合Ξk
Pr(yw(t+k)-y(k|t)∈Ξk)=β (13)
因此,
Figure BDA0003501695180000086
是以下问题的解:
min STyw (14)
受以下约束:
yw∈Ξk (15)
(SO)问题中的乘法因子α是修改成本c(t)的大小的缩放因子。在上面,k、N是整数,并且t是系统的当前时间。
(SO)问题的解是根据系统模型将系统保持在约束内所需的最小努力。系统模型是不完美的,因此需要RL来获得更优化的控制。此外,RL不能处理约束,因此需要监督器(或监督器算法)来向RL通知约束违反。以这种方式,RL算法和监督器的功能彼此互补。监督器是基于模型的,并且可以通过相对简单的计算根据线性模型来确定优化值。例如,在监督器的情况下,我们可以获得关于值N的强约束,其是返回到零努力集合所需的最大步数。为了获得N,我们计算控制不变集合(CIS),其是存在根据系统动态将状态返回到CIS中并满足集合成员资格约束Sy(t)≤s.的命令u(t)的所有系统状态x(t)的集合。因此,如果状态不在CIS中,则系统保证最终违反约束。
计算CIS的一种方法是计算保证约束实施的初始状态和命令的所有组合的集合并将其投影到x轴上。一旦投影不再增长结果集合,我们就找到了极限N。具体地,我们通过定义以下集合来计算CIS。
C0={(x,u0):S(Cx+Du0)≤s} (16)
然后递归地计算集合:
Ck={(x,u0,...,uk):Ax+Bui∈Ck-1,i=1,...,k,(x,u0)∈C0} (17)
CIS是limk→∞ Ck到x轴上的投影。当步骤k处的投影与步骤k-1处的投影尺寸相同时,我们设置N=k-1。出于实际目的,当投影中的差异被认为是可忽略的时,我们可以略微更早地停止算法。
CIS集合的存在意味着有时不存在(SO)问题的解,因为状态可能不在CIS内。此外,如果状态在CIS之外,则根据模型,系统将不可避免地违反约束,因为不存在对(SO)问题的解。如果发生这种情况,则我们将惩罚设置为c(t)=-G,其中,G是比任何其它可能惩罚更大的非常大的数,并且执行确定经修改的命令的过程。
零努力集合本身是针对(SO)问题的解是零(nil)的状态的集合。该集合可以被表征为线性不等式的集合
Figure BDA0003501695180000091
针对k=0,...,N*。迄今为止,还不知道如何计算N*,但是知道该值是有限的并且它与线性系统的衰减速率有关。因此,我们选择比线性系统的稳定时间(settling time)大得多的N*
图2B是根据本发明的实施方式的指示安全监督器算法的流程图。图2B描述了确定控制设备的安全监督器算法的函数的过程。监督器获得状态240并尝试求解(SO)问题241。如果存在解,则监督器将惩罚c(t)设置为问题的解244,并且将从RL控制器接收到的命令传递给系统245。如果不存在解,则意指将很可能违反约束;因此,监督器将惩罚c(t)设置为最大惩罚242并且修改从RL控制器接收到的命令并将经修改的命令传递给系统243。
在一些实验之后,我们认识到应该随机选择安全命令。当命令被认为不安全时,它意指应用它将导致约束违反。如果我们应用经稍微修改的命令,则其不会极大地减少违反约束的风险。此外,停留在不安全区域的附近内导致RL控制器不探索所有可能的区域。因此,我们改为采取激烈的动作并且随机地采样满足约束的命令。我们使用击跑配合(hit-and-run)技术进行此操作。我们生成以下命令序列
{u(0|t),u(1|t),...,u(N-1|t)}={u0(0|t),u0(1|t),...,u0(N-1|t)} (19)
该命令序列满足以下约束:
Figure BDA0003501695180000101
Figure BDA0003501695180000102
然后,我们挑选随机序列{p0,p1,...,pN-1}并且设置
{u(0|t),u(1|t),...,u(N-1|t)}={u1(0|t),u1(1|t),...,u1(N-1|t)} (22)
其中
u1(k|t)=u0(k|t)+λpk (23)
针对k=0,...,N-1,k′=0,...,N*和一些标量λ。我们然后找到满足上述约束的最小值λ。我们重复上述操作以找到序列u2,u3,...,因为我们被保证针对ukk→∞,于是序列uk将是真正随机的,并且我们将均匀地随机地对约束进行采样。
根据本发明的一些实施方式,实现了一种用于控制机器的操作的控制系统或控制设备,该机器受到在机器的连续状态空间中的状态约束并且受到在机器的连续控制输入空间中的控制输入约束。为此,系统或设备可以包括:输入接口,其用于接受指示机器的状态的数据;存储器,其被配置为存储用于计算满足状态约束的状态和动作对的安全裕度的优化问题以及将控制不变集合(CIS)内的机器的状态映射到满足控制输入约束的控制输入的控制策略,其中,根据控制策略对具有CIS内的状态的系统的控制将系统的状态保持在CIS内;以及处理器,其被配置为迭代地执行强化学习(RL)以联合地控制机器并更新控制策略,其中,用于执行联合控制和更新。在这种情况下,处理器被配置为:使用控制策略来控制机器以收集数据,所述数据包括使用控制策略生成的控制输入序列和与控制输入序列相对应的机器的状态序列;使用所述控制输入序列和机器的状态序列的利用适应项(adaptationterm)增强的奖励函数来确定对机器的状态的控制策略的质量的奖励,所述适应项被确定为使机器的状态保持在所述CIS内所需的最小努力量;以及根据所确定的奖励来更新改善机器的操作的成本函数的控制策略。
在根据本发明的控制系统或设备中使用的控制方法(安全监督器算法)可以应用于工厂自动化系统、机器人系统或车辆中使用的致动器和悬架或者工厂系统中的机器。
图3是根据本发明的实施方式的安全监督器算法的四分之一汽车模型的示意图。可以根据作为复杂悬架系统动态的简化模型的四分之一汽车模型来对悬架系统进行建模。例如,简化模型假设悬架弹簧是线性的,这不是真正的情况,尤其是当弹簧被极大地拉伸时;在这种情况下,弹簧力通过例如与弹簧位移的立方关系被更好地建模。
尽管在下面作为示例描述了车辆悬架系统,但是根据本发明的安全监督器(安全监督器控制方法)不限于车辆悬架,可以应用安全监督器来控制在机器人系统或工厂自动化系统中使用的致动器和悬架。
图3提供四分之一汽车的示意图,其中簧载质量(sprung mass)304对静止在悬架上的车辆主体质量的四分之一进行建模,非簧载质量305对车轮进行建模。簧载质量高度从平衡301的位移由zs表示,并且非簧载质量高度从平衡302的位移由zus表示。簧载质量和非簧载质量通过活动悬架系统306连接,活动悬架系统306被建模为具有来自致动器的致动力F的弹簧-减震器组件。致动器由控制器命令,该控制器在车载计算机311上运行。该计算机上的算法确定作为力F的致动器命令310。道路308和车轮之间的接触被建模为弹簧减震器系统。道路303的高度由zr表示。由于系统被建模为质量、弹簧和减震器的互连,所以其动态由两个自由度集合的动态等式给出:
Figure BDA0003501695180000111
Figure BDA0003501695180000112
由于它们是线性的,这些等式可以通过以下方式变换为所需的格式:
Figure BDA0003501695180000113
v(t)=F(t)(27)
Figure BDA0003501695180000114
我们然后让:
v(t)=-Kx(t)+u(t) (29)
其中,K是稳定反馈,即,矩阵A-BK是稳定矩阵,并且因此动态x(t)是稳定的。矩阵K表示已经被设计为控制活动悬架的稳定反馈控制器。我们的意图是在存在约束的情况下使用RL算法来改进控制器。在该解释中,假设使用一些仪器直接测量反馈状态x(t)。这是因为在我们的实验中,我们能够测量所有状态。然而,可能在现实世界应用中,我们将实现状态估计器314以通过使用位移传感器(例如,线性可变位移传感器)测量簧载质量301的垂直位移来获得状态估计315。标称的反馈控制器尚未被设计为考虑到约束,并且因此RL算法应当提高控制器性能,特别是在存在约束的情况下。
我们考虑的约束为:1)zs-zus≥ls,-以保护弹簧免于由于压缩而破裂;2)zs-zus≤ls,+以保护弹簧免于由于拉伸而破裂;3)
Figure BDA0003501695180000121
以确保车辆的乘客的乘坐舒适性;以及4)zs-zus≥lus,-以保护车轮不会由于轮胎的压缩而损坏;项ls,-、ls,+、fs和lus,-是对上述变量的函数的正标量限制。由于这些约束是线性的,因此它们可以被建模为所需的形式。
我们应用的RL算法是深度确定性策略梯度(DDPG)算法,这是由于其处理连续控制系统的能力。DDPG学习批评者网络(critic network)以估计给定策略的长期价值,并且学习行动者网络以对优化动作进行采样。在对悬架系统的应用中,批评者网络由分别具有160个神经元和120个神经元的两个隐藏全连接层组成,并且行动者网络由分别具有160个神经元和120个神经元的两个隐藏全连接层和一个softmax层组成来采样优化动作。针对DDPG算法的其余设计,已经使用默认超参数。重要的是,由于它用于更好的学习,所以DDPG不应用它所学习到的优化控制:
u(t)=πθ(q(t)) (30)
相反,它应用利用一些有色噪声信号修改的优化控制:
u(t)=πθ(q(t))+∈OU (31)
其中,∈OU是有色噪声(也称为Ohrstein-Uhlenbeck)处理的输出。
图4示出该过程的示意图。有色噪声403是具有白噪声401作为输入的滤色器402的输出。策略404的输出是优化命令405。该命令与噪声求和406,并且输出是测试命令407。测试命令407不是实际的实际致动命令。在命令可以被传递给致动器之前,其需要被监督器203检查,并且如果被确定为违反安全约束,则被修改以遵守安全约束。
图5示出了在控制系统或控制设备中使用的完全安全RL方法的步骤。算法修改普通DDPG算法501以提高系统的安全性。通过策略503生成优化命令505。算法将有色噪声507添加到优化命令以确定测试命令并通过求解(SO)问题来检查安全509。作为求解(SO)问题的结果,获得安全裕度511,如果不存在解,则将该安全裕度设置为最大惩罚。如果存在解,则表示测试命令是安全的并且将其作为致动器命令传递517;如果不存在解,则表示测试命令是不安全的,因此算法生成随机的安全致动器命令。将安全致动器命令传递到经由测量装置返回反馈信号521的系统519。反馈信号被发送到生成奖励513的奖励计算523。将安全裕度添加到奖励515,并且将经修改的奖励传递给DDPG算法。
仍然需要解释特定于悬架系统的实现方式细节。我们希望最大化的奖励函数是乘坐者的舒适度:
Figure BDA0003501695180000131
换句话说,我们希望使簧载质量舒适的运动最小化。如上所述,乘客舒适度被约束在±fs之间。这表示奖励也被约束在这些界限之间。通过对CIS的计算以及对安全RL算法的应用的实验,我们已经发现,(SO)问题中的缩放因子α的良好选择是确保成本函数c(t)总是在±cb之间的因子,其中,cb是成本函数的边界,通过实验,我们将其设置为:
cb=100fs (33)
这是因为在CIS的边界处恢复到安全所需的努力非常大,并且因此缩放因子需要足够大以确保成本足够高以更接近零努力集合。通过实验,我们还发现,最大惩罚G应该始终是cb值的约两倍,也就是说:
G≈2cb (34)
如果最大惩罚太大,则它会对RL算法的学习处理产生主要影响,并且算法生成过度避免约束的命令。因此,选择G为(SO)问题的最大可能解的数量级是合适的。
图6示出了根据本发明的一些实施方式的控制系统(设备)600的框图,该控制系统(设备)600控制受到机器的连续状态空间中的状态约束并且受到机器的连续控制输入空间中的控制输入约束的机器的操作。系统600可以包括:人机接口(HMI)610,其能够与键盘611和定点装置/介质612连接;处理器620;储存装置630;存储器640;网络接口控制器650(NIC),其能够与包括局域网和互联网的数据通信网络690连接;控制接口670,其用于向机器发送控制输入675。控制系统600可以经由连接到NIC 650的网络690接收指示机器的状态的数据695。储存装置630包括强化学习(RL)算法(程序)631、监督器算法633、针对RL和监督器算法的奖励函数、成本函数和最大惩罚参数634,描述对系统600的约束的不等式632以及描述零努力集合的不等式635。定点装置/介质612可以包括读取存储在计算机可读记录介质上的程序的模块。
因此,本发明的一些实施方式可以提供一种用于控制机器的操作的计算机实现的方法,该机器受到机器的连续状态空间中的状态约束并且受到机器的连续控制输入空间中的控制输入约束。在这种情况下,该方法可以包括以下步骤:接受指示机器状态的数据;计算满足状态约束的状态和动作对的安全裕度以及将在控制不变集合(CIS)内的机器的状态映射到满足控制输入约束的控制输入的控制策略,其中,根据控制策略的对具有CIS内的状态的机器的控制将机器状态保持在CIS内;以及迭代地执行强化学习(RL)算法以联合地控制机器并更新控制策略,其中,用于执行联合控制和更新,其中,迭代地执行步骤包括使用控制策略控制机器以收集包括使用控制策略生成的控制输入序列和与控制输入序列相对应的机器状态序列的数据;使用控制输入序列和机器状态序列的利用适应项增强的奖励函数来确定针对机器状态的控制策略的质量的奖励,适应项被确定为将机器的状态的保持在CIS内所需的最小努力量;以及根据所确定的奖励来更新改善所述机器的操作的成本函数的控制策略。在一些情况下,计算机实现的方法可以用于控制车辆的悬架系统。
尽管在上文作为示例描述了车辆悬架系统,根据本发明的安全监督器(安全监督器控制方法)不限于车辆悬架,可以应用安全监督器以控制在机器人系统或工厂自动化系统中使用的致动器和悬架。
本发明的上述实施方式可以以许多方式中的任何方式来实现。例如,这些实施方式可以使用硬件、软件或其组合来实现。当以软件实现时,无论是设置在单个计算机中还是分布在多个计算机当中,软件代码都可以在任何合适的处理器或处理器的集合上执行。这样的处理器可以被实现为集成电路,在集成电路组件中具有一个或更多个处理器。然而,可以使用任何合适格式的电路来实现处理器。
此外,本发明的实施方式可以被实现为已经提供了其示例的方法。作为该方法的一部分执行的动作可以以任何合适的方式排序。因此,即使在说明性实施方式中被例示为依次进行的动作,可以构建以与所示的顺序不同的顺序执行动作的实施方式,其中可以包括同时执行一些动作。
在权利要求中用来修饰权利要求要素的诸如“第一”、“第二”的序数词本身并不意味着一个权利要求要素相对于另一权利要求要素的任何优先级、优先次序或顺序,或者方法的动作被执行的时间顺序,而是仅用作标签来区分具有某一名称的一个权利要求要素与(在不使用序数词的情况下)具有相同名称的另一要素,以区分这些权利要求要素。
尽管已经通过优选实施方式的示例描述了本发明,但是应当理解,可以在本发明的精神和范围内进行各种其它调整和修改。
因此,所附权利要求的目的是覆盖落入本发明的真实精神和范围内的所有这样的变化和修改。

Claims (20)

1.一种用于控制机器的操作的系统,所述机器受到所述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束,所述系统包括:
输入接口,所述输入接口用于接受指示所述机器的状态的数据;
存储器,所述存储器被配置为存储用于计算满足所述状态约束的状态和动作对的安全裕度的优化问题和将所述机器的在控制不变集合CIS内的状态映射到满足所述控制输入约束的控制输入的控制策略,其中,根据所述控制策略对具有在所述CIS内的状态的所述机器的控制将所述机器的状态保持在所述CIS内;以及
处理器,所述处理器被配置为迭代地执行强化学习RL算法以联合地控制所述机器并更新所述控制策略,其中,为了执行联合控制和更新,所述处理器被配置为:
使用所述控制策略控制所述机器以收集包括使用所述控制策略生成的控制输入序列和与所述控制输入序列相对应的所述机器的状态序列的数据;
使用所述机器的所述状态序列和所述控制输入序列的利用适应项增强的奖励函数来确定对所述机器的状态的所述控制策略的质量的奖励,所述适应项被确定为使所述机器的状态保持在所述CIS内所需的最小努力量;以及
根据所确定的奖励来更新所述控制策略,所述控制策略改善所述机器的操作的成本函数。
2.根据权利要求1所述的系统,其中,所述RL算法是深度确定性策略梯度DDPG算法。
3.根据权利要求2所述的系统,其中,所述DDPG算法学习批评者网络以估计针对给定策略的长期值,并且学习行动者网络以根据所估计的长期值来对优化动作进行采样。
4.根据权利要求1所述的系统,其中,通过从所述奖励函数中减去所述成本函数来将所述奖励函数修改为经更新的奖励,其中,所述经更新的奖励由下式表示:
Figure FDA0003501695170000011
其中,
Figure FDA0003501695170000012
是所述经更新的奖励,r(t)是所述奖励函数,c(t)是所述成本函数,并且t是所述系统的当前时间。
5.根据权利要求1所述的系统,其中,所述存储器包括获得所述机器的状态并且计算期望的安全裕度的监督器算法。
6.根据权利要求5所述的系统,其中,当所述RL算法生成被认为不安全的命令时,监督器生成安全命令。
7.根据权利要求6所述的系统,其中,所述安全命令是根据优化SO对所述不安全的命令的修改:
Figure FDA0003501695170000021
其中,α是缩放因子,k、N是整数,t是所述系统的当前时间。
8.根据权利要求7所述的系统,其中,选择所述缩放因子α以使得所述成本c(t)在±cb之间。
9.根据权利要求1所述的系统,其中,用于执行所述RL算法的最大惩罚G是cb的值的约两倍:G≈2cb
10.根据权利要求1所述的系统,其中,所述机器是车辆的悬架系统。
11.一种用于控制机器的操作的计算机实现的方法,所述机器受到所述机器的连续状态空间中的状态约束并且受到所述机器的连续控制输入空间中的控制输入约束,所述方法包括以下步骤:
接受指示所述机器的状态的数据;
计算满足所述状态约束的状态和动作对的安全裕度以及将所述机器的在控制不变集合CIS内的状态映射到满足所述控制输入约束的控制输入的控制策略,其中,根据所述控制策略对具有在所述CIS内的状态的所述机器的控制将所述机器的状态保持在所述CIS内;以及
迭代地执行强化学习RL算法以联合地控制所述机器并更新所述控制策略,其中,为了执行联合控制和更新,迭代地执行的步骤包括以下步骤:
使用所述控制策略控制所述机器以收集包括使用所述控制策略生成的控制输入序列和与所述控制输入序列相对应的所述机器的状态序列的数据;
使用所述机器的所述状态序列和所述控制输入序列的利用适应项增强的奖励函数来确定对所述机器的状态的所述控制策略的质量的奖励,所述适应项被确定为使所述机器的状态保持在所述CIS内所需的最小努力量;以及
根据所确定的奖励来更新所述控制策略,所述控制策略改善所述机器的操作的成本函数。
12.根据权利要求11所述的方法,其中,所述RL算法是深度确定性策略梯度DDPG算法。
13.根据权利要求12所述的方法,其中,所述DDPG算法学习批评者网络以估计针对给定策略的长期值,并且学习行动者网络以根据所估计的长期值来对优化动作进行采样。
14.根据权利要求11所述的方法,其中,通过从所述奖励函数中减去所述成本函数来将所述奖励函数修改为经更新的奖励,其中,所述经更新的奖励由下式表示:
Figure FDA0003501695170000031
其中,
Figure FDA0003501695170000032
是所述经更新的奖励,r(t)是所述奖励函数,c(t)是所述成本函数,并且t是系统的当前时间。
15.根据权利要求11所述的方法,其中,所述存储器包括获得所述机器的状态并且计算期望的安全裕度的监督器算法。
16.根据权利要求15所述的方法,其中,当所述RL算法生成被认为不安全的命令时,监督器生成安全命令。
17.根据权利要求16所述的方法,其中,所述安全命令是根据优化SO对所述不安全的命令的修改:
Figure FDA0003501695170000033
其中,α是缩放因子,k、N是整数,t是系统的当前时间。
18.根据权利要求17所述的方法,其中,选择所述缩放因子α以使得所述成本c(t)在±cb之间。
19.根据权利要求11所述的方法,其中,用于执行所述RL算法的最大惩罚G是cb的值的约两倍:G≈2cb
20.根据权利要求11所述的方法,其中,所述机器是车辆的悬架系统。
CN202080057129.XA 2019-08-16 2020-05-13 用于强化学习控制的约束适配器 Active CN114222952B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/542,299 US11676064B2 (en) 2019-08-16 2019-08-16 Constraint adaptor for reinforcement learning control
US16/542,299 2019-08-16
PCT/JP2020/019836 WO2021033380A1 (en) 2019-08-16 2020-05-13 Constraint adaptor for reinforcement learning control

Publications (2)

Publication Number Publication Date
CN114222952A true CN114222952A (zh) 2022-03-22
CN114222952B CN114222952B (zh) 2024-08-13

Family

ID=71069900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080057129.XA Active CN114222952B (zh) 2019-08-16 2020-05-13 用于强化学习控制的约束适配器

Country Status (5)

Country Link
US (1) US11676064B2 (zh)
EP (1) EP3824356B1 (zh)
JP (1) JP7297155B2 (zh)
CN (1) CN114222952B (zh)
WO (1) WO2021033380A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7263980B2 (ja) * 2019-08-27 2023-04-25 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習装置
WO2022018798A1 (ja) * 2020-07-20 2022-01-27 日本電信電話株式会社 制御装置、仮想ネットワーク割当方法、及びプログラム
CN115046433B (zh) * 2021-03-09 2023-04-07 北京理工大学 基于深度强化学习的飞行器时间协同制导方法
EP4075337A1 (en) * 2021-03-15 2022-10-19 Honeywell Limited Process controller with meta-reinforcement learning
US20230020503A1 (en) * 2021-07-08 2023-01-19 Ford Global Technologies, Llc Machine control
US11884287B2 (en) 2021-08-19 2024-01-30 Ford Global Technologies, Llc Enhanced vehicle operation
US12097614B2 (en) 2021-09-10 2024-09-24 Honda Motor Co., Ltd. Object manipulation
US20230084968A1 (en) * 2021-09-10 2023-03-16 Honda Motor Co., Ltd. Object manipulation
EP4174711A1 (en) * 2021-10-27 2023-05-03 Siemens Aktiengesellschaft System and computer-implemented method for designing an engineering system
EP4307055A1 (en) * 2022-07-11 2024-01-17 Robert Bosch GmbH Constrained controlling of a computer-controlled system
CN115454122B (zh) * 2022-08-15 2024-06-14 北京航空航天大学 一种高速飞行器追逃微分博弈的邻近凸优化方法
CN115421390A (zh) * 2022-09-23 2022-12-02 三峡大学 计及深度强化学习的热电联产机组多工况自适应控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5379210A (en) * 1992-07-24 1995-01-03 M&M Software Products, Inc. Natural tracking controller
JP2009230645A (ja) * 2008-03-25 2009-10-08 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
US20130318023A1 (en) * 2012-05-22 2013-11-28 International Business Machines Corporation Updating policy parameters under markov decision process system environment
US20140277744A1 (en) * 2013-03-15 2014-09-18 Olivier Coenen Robotic training apparatus and methods
US20160147203A1 (en) * 2014-11-25 2016-05-26 Mitsubishi Electric Research Laboratories, Inc. Model Predictive Control with Uncertainties
US20170200076A1 (en) * 2016-01-13 2017-07-13 Google Inc. Processing and generating sets using recurrent neural networks
US20180129974A1 (en) * 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
CN109415089A (zh) * 2016-07-14 2019-03-01 三菱电机株式会社 控制车辆的控制器和方法以及非暂时性计算机可读存储器
CN109804206A (zh) * 2016-10-11 2019-05-24 三菱电机株式会社 用于操作空调系统的控制器和空调系统的控制方法
CN109991992A (zh) * 2019-03-27 2019-07-09 天津大学 基于浸入不变集的小型无人直升机无模型自适应控制方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5750657B2 (ja) 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
CN115338859A (zh) 2016-09-15 2022-11-15 谷歌有限责任公司 机器人操纵的深度强化学习
JP6926203B2 (ja) * 2016-11-04 2021-08-25 ディープマインド テクノロジーズ リミテッド 補助タスクを伴う強化学習
JP6939162B2 (ja) 2017-07-13 2021-09-22 横河電機株式会社 プラント制御支援装置、プラント制御支援方法、プラント制御支援プログラム及び記録媒体
JP6680730B2 (ja) 2017-08-08 2020-04-15 ファナック株式会社 制御装置及び学習装置
JP6884685B2 (ja) 2017-12-08 2021-06-09 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム
WO2019155511A1 (en) * 2018-02-06 2019-08-15 Nec Corporation Inverse model predictive control system, inverse model predictive control method, and inverse model predictive control program
WO2020018394A1 (en) * 2018-07-14 2020-01-23 Moove.Ai Vehicle-data analytics

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5379210A (en) * 1992-07-24 1995-01-03 M&M Software Products, Inc. Natural tracking controller
JP2009230645A (ja) * 2008-03-25 2009-10-08 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
US20130318023A1 (en) * 2012-05-22 2013-11-28 International Business Machines Corporation Updating policy parameters under markov decision process system environment
US20140277744A1 (en) * 2013-03-15 2014-09-18 Olivier Coenen Robotic training apparatus and methods
US20160147203A1 (en) * 2014-11-25 2016-05-26 Mitsubishi Electric Research Laboratories, Inc. Model Predictive Control with Uncertainties
US20170200076A1 (en) * 2016-01-13 2017-07-13 Google Inc. Processing and generating sets using recurrent neural networks
CN109415089A (zh) * 2016-07-14 2019-03-01 三菱电机株式会社 控制车辆的控制器和方法以及非暂时性计算机可读存储器
CN109804206A (zh) * 2016-10-11 2019-05-24 三菱电机株式会社 用于操作空调系统的控制器和空调系统的控制方法
US20180129974A1 (en) * 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
CN109991992A (zh) * 2019-03-27 2019-07-09 天津大学 基于浸入不变集的小型无人直升机无模型自适应控制方法

Also Published As

Publication number Publication date
US20210049501A1 (en) 2021-02-18
EP3824356B1 (en) 2022-06-08
EP3824356A1 (en) 2021-05-26
US11676064B2 (en) 2023-06-13
CN114222952B (zh) 2024-08-13
WO2021033380A1 (en) 2021-02-25
JP7297155B2 (ja) 2023-06-23
JP2022537606A (ja) 2022-08-26

Similar Documents

Publication Publication Date Title
CN114222952B (zh) 用于强化学习控制的约束适配器
EP3948440B1 (en) Nonlinear optimization method for stochastic predictive control
Li et al. Neural network adaptive output-feedback optimal control for active suspension systems
Shi et al. Robust design of integrated feedback and iterative learning control of a batch process based on a 2D Roesser system
US10895854B1 (en) System and method for control constrained operation of machine with partially unmodeled dynamics using Lipschitz constant
JP7183446B2 (ja) 機械の動作を制御する装置及び方法、並びに記憶媒体
Jiang et al. Robust adaptive dynamic programming
Ting Stability analysis and design of Takagi–Sugeno fuzzy systems
JP7357813B2 (ja) データ駆動型モデル適応を用いる制御のための装置および方法
CN117581166A (zh) 基于借助高斯假设密度滤波器的不确定性传播的随机非线性预测控制器及方法
Morato et al. Sub‐optimal recursively feasible Linear Parameter‐Varying predictive algorithm for semi‐active suspension control
Salgado et al. Proportional derivative fuzzy control supplied with second order sliding mode differentiation
Van Kien et al. Adaptive fuzzy sliding mode control for nonlinear uncertain SISO system optimized by differential evolution algorithm
Rego et al. Learning‐based robust neuro‐control: A method to compute control Lyapunov functions
Kalaria et al. Delay-aware robust control for safe autonomous driving
Fu et al. Adaptive optimal control of unknown nonlinear systems with different time scales
Chiang et al. Optimized sensorless antivibration control for semiactive suspensions with cosimulation analysis
Dastider et al. Learning adaptive control in dynamic environments using reproducing kernel priors with bayesian policy gradients
Bahrami et al. Developing a reinforcement learning-based actor–critic neural network controller for general form of serial chain robots with torque constraints
Izadbakhsh et al. Adaptive control of cooperative robots in the presence of disturbances and uncertainties: A Bernstein–Chlodowsky approach
JP7520238B2 (ja) ダイナミクスにおける不確実性を有するシステムを制御するための装置および方法
JP7484504B2 (ja) 制御装置、制御方法及びプログラム
Dani et al. Adaptive Actor-Critic Based Optimal Regulation for Drift-Free Uncertain Nonlinear Systems
Lee Adaptive Tsallis Entropy Regularization for Efficient Reinforcement Learning
Goto et al. Formation and Trajectory Tracking of Mobile Robots with Uncertainties and Disturbances Using an Adaptive Immune Fuzzy Quasi-Sliding Mode Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant