CN111406237B - 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 - Google Patents

操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 Download PDF

Info

Publication number
CN111406237B
CN111406237B CN201880067677.3A CN201880067677A CN111406237B CN 111406237 B CN111406237 B CN 111406237B CN 201880067677 A CN201880067677 A CN 201880067677A CN 111406237 B CN111406237 B CN 111406237B
Authority
CN
China
Prior art keywords
actuator
variable
function
regulating
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880067677.3A
Other languages
English (en)
Other versions
CN111406237A (zh
Inventor
巴斯蒂安·比朔夫
朱莉娅·维诺格拉德斯卡
简·彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN111406237A publication Critical patent/CN111406237A/zh
Application granted granted Critical
Publication of CN111406237B publication Critical patent/CN111406237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/041Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种用于操作致动器调节系统(45)的方法,其设计为将致动器(20)的调节变量(x)调节为可预定义的目标变量(x),致动器调节系统(45)被设计为根据表征调节策略(π)的变量(θ)来生成校正变量,并根据所述校正变量(u)来控制致动器(20),表征调节策略(π)的变量(θ)根据值函数(V*)来确定。

Description

操作致动器调节系统的方法和装置、计算机程序和机器可读 存储介质
技术领域
本发明涉及一种用于操作致动器调节系统的方法、一种学习系统、一种致动器调节系统、一种用于执行该方法的计算机程序以及一种存储有该计算机程序的机器可读存储介质。
背景技术
从尚未预公开的DE 10 2017 211 209可知一种用于自动设置致动器调节系统的至少一个参数的方法,该方法被设计用于将致动器的调节变量调节为可预定义的目标变量,其中,根据前述的至少一个参数、目标变量和调节变量来设计致动器调节系统,以产生校正变量并根据该校正变量来控制致动器,
其中,根据长期成本函数选择前述至少一个参数的新值,其中,根据致动器的调节变量的概率分布的预测时间演变来确定该长期成本函数,然后将该参数设置为这个新值。
发明内容
相反,具有独立权利要求1的特征的方法特别具有的优点是,可以保证致动器调节系统的最佳调节。有利的进一步改进是从属权利要求的主题。
在第一方面,本发明涉及一种用于操作致动器调节系统的方法,其设置为用于将致动器的调节变量调节为可预定义的目标变量,其中,致动器调节系统设置为根据表征调节策略的变量、尤其还根据目标变量和/或调节变量来产生校正变量,并根据该校正变量来驱动致动器,
其中,根据值函数来确定表征调节策略的变量。
通过确定值函数,即使在状态变量和/或动作不限于离散值而是可以达到连续值的情况下,也可以保证致动器调节系统的最佳调节。
特别地,可以以这样的方式确定调节策略,即,对于每个调节变量,确定导出校正变量的动作,其中,该动作使值函数最大化。
在进一步的扩展方案中,规定:借助于贝尔曼方程通过迭代值函数的后续迭代逐步地接近该值函数,来迭代地确定值函数,其中,后一迭代的迭代值函数是借助贝尔曼方程从前一迭代的迭代值函数确定的,
其中,仅将后一迭代的迭代值函数在基本函数的集合所覆盖的线性函数空间上的投影用于求解贝尔曼方程,而不使用前一迭代的迭代值函数。
特别地,这确保了迭代确定的值函数最大化预定义的奖励,尤其是在长期并考虑到系统动力学的情况下。通过使用这些投影,可以求解贝尔曼方程,由于其中包含最大值的形成,因此只能逐点解析求解,尤其容易地通过近似值。
特别有利的是,如果不确定后一迭代的迭代值函数而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。
因此,可以确定该投影而不必完全计算后一迭代本身的迭代值函数。
当将高斯函数用作基本函数时,可以获得特别易于解析求解的贝尔曼方程的积分。这使得该方法在数值上特别高效。
由于贝尔曼方程的最大值形成,通常只能在单点上对其进行评估。但是,如果贝尔曼方程的积分是使用数值积分法计算的,则可能是一个全解。因此,使用数字积分法在数值上特别高效。
在本发明的另一方面,如果通过向基础函数的集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合,规定了迭代值函数和其在这个集合所跨越的函数空间上的投影之间的最大残差有多大。
通过该迭代过程,可以特别有效地将方法的数值误差限制在可预定义的最大值,从而可以特别可靠地操作致动器调节系统。
在另一种改进方案中可以规定:根据调节变量的最大点来选择至少一个另外的基本函数,其中,在该最大点处残差变成最大。
这使得该方法特别有效,因为通过在基本函数的集合所覆盖的函数空间上的投影,可以特别快速地减少数值误差。
如果在最大点处的所述至少一个另外的基本函数取其最大值,则效率特别高。
替代地或附加地,如果根据表征在最大点处的残差的曲率的量、特别是在最大点处的残差的黑塞矩阵来选择至少一个另外的基本函数,则进一步提高了方法的效率。
尤其是在多维调节变量的情况下,如果至少一个另外的基本函数的选择使得:其最大点处的黑塞矩阵等于残差的黑塞矩阵,则特别容易。
在本发明的另一方面,可以规定:通过致动器的模型来确定贝尔曼方程所依赖的条件概率。这也使该方法特别有效,因为不必再次确定致动器的实际性能。
如果模型是高斯过程,则在此特别有利。如果基本函数由高斯函数给出,则这特别有利,因为随后可以通过高斯函数的乘积将出现的积分解析求解为积分,从而实现特别有效的实施。
为了获得致动器调节系统的特别良好的调节性能,根据本发明的另一方面,可以规定:致动器调节系统的教导和模型的教导以情节性过程(episodic procedure)来确定,这意味着在确定表征调节策略的变量之后,根据校正变量形成模型并使其适应于得到的调节变量,其中在参考调节策略通过致动器调节系统进行致动器调节的情况下,将该校正变量馈送到致动器,其中在模型适应之后,通过上述方法再次确定表征调节策略的变量,其中然后借助现在适应后的模型来确定条件概率。
在另一方面,本发明涉及一种学习系统,该学习系统用于自动设定表征致动器调节系统的调节策略的变量,致动器调节系统被设置为将致动器的调节变量调节为可预定义的目标变量,学习系统被设置为执行上述方法之一。
在另一方面,本发明涉及一种方法,其中根据前述方法之一确定表征调节策略的变量,然后根据表征调节策略的变量来生成操纵变量,并且根据这一校正变量来控制致动器。
在另一方面,本发明涉及一种致动器调节系统,其被设置为使用该方法来控制致动器。
在又一方面,本发明涉及一种计算机程序,其被设置为执行前述方法之一。换句话说,计算机程序包括当在计算机上执行时使该计算机执行该方法的指令。
本发明还涉及一种机器可读存储介质,其上存储有该计算机程序。
附图说明
随后,参考附图更详细地解释本发明的实施例。其中:
图1是学习系统和致动器之间的交互作用的示意图。
图2是致动器调节系统和致动器之间的交互作用的示意图。
图3是以流程图表示的用于训练致动器调节系统的方法的实施例。
图4是以流程图表示的用于确定迭代值函数的方法的实施例。
图5是以流程图表示的用于确定一组基本函数的方法的实施例。
图6是以流程图表示的用于确定校正变量的方法的实施例。
具体实施方式
图1示出了致动器10,其处于与学习系统40交互的环境20中。致动器 10和环境20在下文中统称为致动器系统。致动器系统的状态由传感器30检测,其也可以由多个传感器提供。传感器30的输出信号S被传送到学习系统 40。学习系统40从中确定致动器10接收的驱动信号A。
致动器10可以是例如(部分)自主机器人,例如(部分)自主机动车辆、 (部分)自主割草机。它也可以是机动车辆的致动器的致动,例如用于怠速控制的节流阀或旁路致动器。它也可以是加热设备或加热设备的一部分,例如阀门致动器。致动器10尤其也可以是较大的系统,例如内燃机或机动车辆的(可能是混合动力的)传动系,甚至是制动系统。
传感器30可以是例如一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个位置传感器(例如GPS)。可以设想其他传感器,例如温度传感器。
在另一个实施例示例中,致动器10可以是制造机器人,并且传感器30 然后可以是例如检测制造机器人的制造产品的特性的光学传感器。
学习系统40将传感器30的输出信号S接收在可选的接收单元50中,接收单元50将输出信号S转换成调节变量x(或者,输出信号S也可以直接被接收作为调节变量x)。调节变量x可以是例如输出信号S的一部分或其进一步处理。调节变量x被提供给调节器60。在调节器中,可以实施调节策略或值函数V*。
在参数存储器70中,存储参数θ,参数θ被提供给调节器60。参数将调节策略π或值函数V*参数化。参数θ可以是单个或多个参数。
模块90向调节器60提供可预定义的目标变量xd。可以规定:模块90例如根据针对模块90预定义的传感器信号来产生可预定义的目标变量xd。模块90也可以从目标变量xd所在的专用内存区域中读取该目标变量xd。
取决于调节策略π或值函数V*,针对目标变量xd和调节变量x,调节器 60产生校正变量u。例如,这可以根据调节变量x和目标变量xd之间的差x- xd来确定。
调节器60将校正变量u传输到输出单元80,输出单元80从中确定驱动信号A。例如,输出单元可以首先检查校正变量u是否在预定变量范围内。如果是这种情况,则根据校正变量u来确定控制信号A,例如根据校正变量u从特征场读取相关的驱动信号A。这是正常情况。另一方面,如果确定校正变量u不在预定值范围内,则可以规定:控制信号A被设计为其使致动器A 进入安全模式。
接收单元50将调节变量x发送到模块100。类似地,调节器60将相应的校正变量u传送到模块100。模块100存储以时间顺序接收到的调节变量x 的时间序列以及各个相应的校正变量u。然后,模块100可以基于这些时间序列来适配模型g的模型参数Λ,σn,σf。模型参数Λ,σn,σf被提供给模块110,模块110将其存储在例如专用存储位置。这将在下面的图4的步骤1010中更详细地描述。
在一个实施例中,学习系统40包括具有计算机可读存储介质42的计算机41,计算机可读存储介质42上存储有计算机程序,当该计算机程序被计算机41执行时使计算机41执行学习系统40的所描述的功能。在该实施例中,计算机41包括GPU 43。
模型g可以用于确定值函数V*。这在下面说明。
图2示出了致动器调节系统45与致动器10的交互作用。致动器调节系统45的结构及其与致动器10和传感器30的交互作用在许多部分上与学习系统40的结构相似,这就是为什么这里仅描述其区别的原因。与学习系统40 相反,致动器调节系统45不具有模块100和模块110。因此,省略了向模块 100的变量传输。在致动器调节系统45的参数存储器70中,存储了参数θ,其例如通过根据本发明的方法确定,如图4所示。
图3示出了根据本发明的方法的实施例。首先(1000),从可预定义的初始概率分布p(x0)中选择调节变量x的初始值x0。将情节索引e初始化为值 e=1,将分配给该情节索引e的值函数
Figure BDA0002454150680000061
初始化为值
Figure BDA0002454150680000062
另外,校正变量u0、u1、...,uT-1被随机地选择,直到如图1所描述的用于控制致动器10的可预定义的时间范围T。致动器10经由环境20与传感器30 交互作用,传感器30的信号S作为调节变量x1、…、xT-1、xT间接或直接从调节器60接收。
这些组合成数据集D={(x0,u0,x1),...,(xT-1,uT-1,xT}。
模块100接收并汇总(1030)校正变量u和调节变量x的时间序列,它们一起产生调节变量x和校正变量u的配对z,
Figure BDA0002454150680000063
D是调节变量x的维数,F是校正变量u的维数,即,
Figure BDA0002454150680000064
然后根据此状态轨迹来适用高斯过程g,使得在相继的时间t、t+1之间以下条件适用
xt+1=xt+g(xt,ut) (1)。
这里,ut=πθ(xt) (1‘)。
高斯过程g的协方差函数k例如由以下公式给出:
Figure BDA0002454150680000065
参数
Figure BDA0002454150680000066
是信号方差,
Figure BDA0002454150680000067
是D+F个输入维数中每个维数的平方长度尺度
Figure BDA0002454150680000068
的集合。
协方差矩阵K由以下定义
K(Z,Z)i,j=k(zi,zj) (3)。
接着,高斯过程g的特征在于两个函数:平均值μ和方差Var,由下式给出:
Figure BDA0002454150680000069
Figure BDA00024541506800000610
这里,y由常用方式给出,即yi=f(zi)+∈i,带有白噪声∈i
然后,通过最大化对数边际似然函数,以已知方式将参数Λ,σnf与对(zi, yi)匹配。
然后(1020)确定与情节索引e相关联的迭代值函数
Figure BDA00024541506800000611
这些迭代值函数中的最后一个是与情节索引e相关联的收敛的迭代值函数
Figure BDA00024541506800000612
在图5中示出了用于确定分配给情节索引e的迭代值函数
Figure BDA0002454150680000071
的方法的实施例。
然后(1030),例如通过检查与情节索引e相关联的收敛迭代值函数
Figure BDA0002454150680000072
和分配给前一情节索引e-1的迭代值函数
Figure BDA0002454150680000073
相差小于函数Δ1的第一可预定义极限,即
Figure BDA0002454150680000074
来检查确认与情节索引e相关联的收敛的迭代值函数
Figure BDA0002454150680000075
是否收敛。如果收敛,则进行步骤1080。
然而,如果尚未实现收敛(1040),则与情节索引e相关联的最优调节策略πe定义为:
Figure BDA0002454150680000076
然后(1050)再次从初始概率分布p(x0)中选择调节变量x的初始值x0
现在(1060),使用公式(6)中定义的最优调节策略πe,迭代地确定一系列调节变量πe(x0),…,πe(xT-1),用其来控制致动器10。然后从传感器30 的接收到的输出信号S中确定结果状态变量x1,…,xT
现在(1070),将情节索引e递增1,并且其分支回到步骤1030。
如果在步骤1030中确定情节上的迭代已导致分配给情节索引e的迭代值函数
Figure BDA0002454150680000077
的收敛,则将值函数V*设置为等于分配给情节索引e的迭代值函数
Figure BDA0002454150680000078
这样就结束了该方法的这一方面。
图4示出了用于确定分配给情节索引e的迭代值函数
Figure BDA0002454150680000079
的方法的实施例。为了清楚起见,下面省略情节索引e。上标索引在下文中用字母t 表示。该方法总是基于前一值函数
Figure BDA00024541506800000710
来计算后一迭代值函数
Figure BDA00024541506800000711
前一迭代值函数
Figure BDA00024541506800000712
给出为基本函数
Figure BDA00024541506800000713
和系数
Figure BDA00024541506800000714
的线性组合
Figure BDA00024541506800000715
这些系数
Figure BDA00024541506800000716
也简要地总结在系数向量αt中。该方法以索引t=0开始 (1500)。
首先,确定(1510)基本函数
Figure BDA00024541506800000717
的集合B。这些可以是预定义的,也可以使用图6中所示的算法确定。
然后(1520)确定i,j=1...Nt+1的标积
Figure BDA00024541506800000718
随后(1530),使用数值积分法定义节点ξ1,…,ξK和相关权重w1,…,wK
然后(1540),借助于这些节点ξ1,…,ξK和权重w1,…,wK,将所有索引i= 1...Nt+1的向量bt+1的系数
Figure BDA00024541506800000719
确定为:
Figure BDA00024541506800000720
现在(1550)将系数向量αt+1确定为αt+1=M-1bt+1,其中,质量矩阵M 由
Figure BDA0002454150680000081
给出。
运算符Α定义为:
Figure BDA0002454150680000082
这里,0<γ<1是指定的加权因子,例如γ=0.85。r是将奖励值分配给调节变量x的值的奖励函数。有利地,以这样的方式选择奖励函数r:使得调节变量x与目标变量xd的偏差越小,其取值越大。
给定调节变量x’的条件概率p(x′|x,u),前一调节变量x和操纵变量u可以使用高斯过程g在公式(8)中确定。
应当指出,解析解法无法访问公式(8)中的max运算符。但是,对于给定的调节变量x,在每种情况下都可以通过梯度上升方法进行最大化。
这些定义确保以此方式定义的后一迭代值函数
Figure BDA0002454150680000083
对应于实际迭代值函数Vt+1在基本函数B覆盖的空间上的投影,其中,实际迭代值函数满足贝尔曼方程(Bellmann equation):
Figure BDA0002454150680000084
因此,向量bt+1近似满足方程
Figure BDA0002454150680000085
其中,需要认知的是:如果将实际值函数Vt+1替换为其在基本函数B所覆盖的空间上的投影(即,通过迭代值函数
Figure BDA0002454150680000086
),并且用数值积分法近似求解所得的积分方程,则仅在特殊情况下才能完全求解该方程。
现在(1560),检查是否满足终止条件。例如,如果迭代值函数
Figure BDA0002454150680000087
被收敛,例如,如果与前一迭代值函数
Figure BDA0002454150680000088
的差变得小于函数Δ2的第二极限,即,
Figure BDA0002454150680000089
则可以满足终止条件。如果索引t已达到可预定义的时间范围T,则也可以视为已满足终止条件。
如果不满足终止条件,则将索引t增加1(1570)。另一方面,如果满足终止条件,则将值函数V*设置为等于上一次迭代的迭代值函数
Figure BDA00024541506800000810
至此,方法的这一部分结束。
图5示出了用于确定用于贝尔曼方程的实际迭代值函数Vt的基本函数的集合B的方法的实施例。为此,首先(1600)将基本函数的集合B初始化为空集,将索引l初始化为值l=0。投影到基本函数的集合B上的迭代值函数
Figure BDA00024541506800000811
也被初始化为值0。
然后(1610),残差
Figure BDA00024541506800000812
定义为迭代值函数
Figure BDA00024541506800000813
与相应的投影迭代值函数
Figure BDA0002454150680000091
之间的偏差。
然后(1620),例如用梯度上升法,确定残差的最大点x*= argmaxsRt,l(x),在最大数x*处确定残差Rt,l的黑塞矩阵Ht,l
现在(1630),确定要被添加到基本函数集合B的新的基本函数
Figure BDA0002454150680000092
优选将要添加的新的基本函数
Figure BDA0002454150680000093
选择为具有平均值s*和协方差矩阵Σ*的高斯函数。以满足以下方程的方式计算协方差矩阵Σ*
Figure BDA0002454150680000094
然后(1640),将该基本函数
Figure BDA0002454150680000095
添加到基本函数的集合B中。
现在(1650),通过迭代值函数
Figure BDA0002454150680000096
在现在扩展后的基本函数的集合B所覆盖的函数空间上的投影来确定投影迭代值函数
Figure BDA0002454150680000097
随后(1660),例如,通过检查偏差的相关范数(例如,L范数)是否低于函数Δ3的第三可预定义极限,即
Figure BDA0002454150680000098
来检查投影迭代值函数
Figure BDA0002454150680000099
的确定是否充分收敛。
如果不是这种情况,则将索引l加1,并且该方法分支回到步骤1610。
否则,将确定的集合
Figure BDA00024541506800000910
作为基本函数的搜索集合返回,并且该方法的这一部分结束。
图6示出用于确定校正变量的方法的实施例,并且图6a) 示出在参数存储器70中存储的参数θ对调节策略π进行参数化的情况下的实施例。为此,首先 (1700)定义一组测试点xi,例如作为Sobol设计计划。
然后(1710),使用以下公式计算分配给测试点ui的最佳校正变量xi
ui=argmaxu∈U∫p(x′|xi,u)V*(x′)dx′ (11)。
例如是通过梯度上升方法确定的,根据成对的测试点xi和各自分配的最佳操纵变量ui创建训练集M={(x1,u1),(x2,u2),…}。
然后(1720),利用该训练集M,得出基于数据的模型,例如高斯过程 gθ,使得基于数据的模型有效地确定针对调节变量x的分配的最佳校正变量 u。表征高斯过程θ的参数gθ被存储在参数存储器70中。
步骤(1700)至(1720)优选地在学习系统40中执行。
然后(1730),在致动器调节系统45的操作期间,该系统使用高斯过程 gθ为给定的调节变量x确定相关的校正变量u。
如此就结束了该方法。
图6b ) 示出了在参数存储器70中存储的参数θ对值函数V*进行参数化的情况下的实施例。为此,在步骤(1800)中,对于给定的调节变量x,类似于步骤(1710),采用梯度上升方法来确定由以下方程定义的相关校正变量u,
u=argmaxu∫p(x′|x,u)V*(x′)dx′。
如此就结束了该方法。

Claims (16)

1.一种用于操作致动器调节系统的方法,其设置为用于将致动器的调节变量调节为可预定义的目标变量,所述致动器调节系统被设置为根据表征调节策略的变量来生成校正变量并根据所述校正变量来控制所述致动器,
其中,表征所述调节策略的所述变量是根据值函数来确定的,其中,所述值函数是利用贝尔曼方程通过对迭代值函数进行连续迭代而逐渐逼近所述值函数而迭代地确定的,其中,通过贝尔曼方程从前一次迭代的迭代值函数来确定后一次迭代的迭代值函数,
其中,对于贝尔曼方程的求解,替代使用前一次迭代的迭代值函数,而仅使用其在基本函数的集合所覆盖的函数空间上的投影。
2.根据权利要求1所述的方法,其中,替代确定所述后一次迭代的迭代值函数,而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。
3.根据权利要求1所述的方法,其中,将高斯函数用作基本函数。
4.根据权利要求1所述的方法,其中,通过数值积分法来确定贝尔曼方程的积分的值。
5.根据权利要求1所述的方法,其中,根据所述迭代值函数与其在所述集合所覆盖的函数空间上的投影之间的最大残差有多大,通过向所述集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合。
6.根据权利要求5所述的方法,其中,根据所述调节变量的最大点来选择所述至少一个另外的基本函数,其中,在所述最大点处所述残差变成最大。
7.根据权利要求6所述的方法,其中,在最大点处所述至少一个另外的基本函数取其最大值。
8.根据权利要求6所述的方法,其中,根据在所述最大点处表征所述残差的曲率的变量、在所述最大点处使用所述残差的黑塞矩阵,来选择所述至少一个另外的基本函数。
9.根据权利要求8所述的方法,其中,以如下方式选择所述至少一个另外的基本函数:使得在所述最大点处,其黑塞矩阵等于所述残差的黑塞矩阵。
10.根据权利要求1所述的方法,其中,利用所述致动器的模型来确定贝尔曼方程所依赖的条件概率。
11.根据权利要求10所述的方法,其中,所述模型是高斯过程。
12.根据权利要求10所述的方法,其中,在确定表征所述调节策略的所述变量之后,根据所述校正变量和之后所得的调节变量来适应所述模型,其中,所述校正变量在考虑所述调节策略而使用所述致动器调节系统来调节所述致动器的过程中被馈送至所述致动器,其中,在调整所述模型之后,再次确定表征所述调节策略的所述变量,其中,然后通过现在适应后的模型来确定所述条件概率。
13.根据权利要求1所述的方法,其中,根据表征所述调节策略的所述变量来生成所述校正变量,并且根据所述校正变量来控制所述致动器。
14.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序由计算机执行时使得所述计算机执行根据权利要求1所述的方法。
15.一种学习系统,用于自动设置表征致动器调节系统的调节策略的变量,其被设置为用于将所述致动器的调节变量调节为可预定义的目标变量,其中,所述学习系统设置为执行根据权利要求1至12中任一项所述的方法。
16.一种致动器调节系统,其被设置为依据根据权利要求13所述的方法来控制致动器。
CN201880067677.3A 2017-10-20 2018-08-10 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 Active CN111406237B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102017218811.1 2017-10-20
DE102017218811.1A DE102017218811A1 (de) 2017-10-20 2017-10-20 Verfahren und Vorrichtung zum Betreiben eines Aktorregelungssystems, Computerprogramm und maschinenlesbares Speichermedium
PCT/EP2018/071753 WO2019076512A1 (de) 2017-10-20 2018-08-10 Verfahren und vorrichtung zum betreiben eines aktorregelungssystems, computerprogramm und maschinenlesbares speichermedium

Publications (2)

Publication Number Publication Date
CN111406237A CN111406237A (zh) 2020-07-10
CN111406237B true CN111406237B (zh) 2023-02-17

Family

ID=63244585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880067677.3A Active CN111406237B (zh) 2017-10-20 2018-08-10 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质

Country Status (7)

Country Link
US (2) US20210003976A1 (zh)
EP (1) EP3698223B1 (zh)
JP (1) JP7191965B2 (zh)
KR (1) KR102326733B1 (zh)
CN (1) CN111406237B (zh)
DE (1) DE102017218811A1 (zh)
WO (1) WO2019076512A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111505936B (zh) * 2020-06-09 2021-10-01 吉林大学 一种基于高斯过程pid控制参数的自动安全整定方法
US11712804B2 (en) 2021-03-29 2023-08-01 Samsung Electronics Co., Ltd. Systems and methods for adaptive robotic motion control
US11724390B2 (en) 2021-03-29 2023-08-15 Samsung Electronics Co., Ltd. Systems and methods for automated preloading of actuators
US11731279B2 (en) 2021-04-13 2023-08-22 Samsung Electronics Co., Ltd. Systems and methods for automated tuning of robotics systems

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208981A (en) * 1989-01-19 1993-05-11 Bela Puzsik Drive shaft support
DE19527323A1 (de) * 1995-07-26 1997-01-30 Siemens Ag Schaltungsanordnung zum Steuern einer Einrichtung in einem Kraftfahrzeug
DE102007017259B4 (de) * 2007-04-12 2009-04-09 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
EP2296062B1 (de) 2009-09-09 2021-06-23 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP4924693B2 (ja) * 2009-11-02 2012-04-25 株式会社デンソー エンジン制御装置
FI126110B (fi) * 2011-01-19 2016-06-30 Ouman Oy Menetelmä, laitteisto ja tietokoneohjelmatuote toimilaitteen ohjaamiseksi lämpötilan säätelyssä
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
JP6111913B2 (ja) 2013-07-10 2017-04-12 東芝三菱電機産業システム株式会社 制御パラメータ調整システム
GB201319681D0 (en) * 2013-11-07 2013-12-25 Imp Innovations Ltd System and method for drug delivery
AT517251A2 (de) * 2015-06-10 2016-12-15 Avl List Gmbh Verfahren zur Erstellung von Kennfeldern
US10429800B2 (en) * 2015-06-26 2019-10-01 Honeywell Limited Layered approach to economic optimization and model-based control of paper machines and other systems
JP6193961B2 (ja) 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
AT518850B1 (de) * 2016-07-13 2021-11-15 Avl List Gmbh Verfahren zur simulationsbasierten Analyse eines Kraftfahrzeugs
DE102017211209A1 (de) 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz

Also Published As

Publication number Publication date
US20210003976A1 (en) 2021-01-07
JP7191965B2 (ja) 2022-12-19
KR20200081407A (ko) 2020-07-07
JP2020537801A (ja) 2020-12-24
WO2019076512A1 (de) 2019-04-25
EP3698223B1 (de) 2022-05-04
KR102326733B1 (ko) 2021-11-16
CN111406237A (zh) 2020-07-10
US20220075332A1 (en) 2022-03-10
EP3698223A1 (de) 2020-08-26
DE102017218811A1 (de) 2019-04-25

Similar Documents

Publication Publication Date Title
CN111406237B (zh) 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质
US8447706B2 (en) Method for computer-aided control and/or regulation using two neural networks wherein the second neural network models a quality function and can be used to control a gas turbine
US20220236698A1 (en) Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method
US10036338B2 (en) Condition-based powertrain control system
US11366433B2 (en) Reinforcement learning method and device
CN110869858B (zh) 用于设定致动器控制系统的至少一个参数的方法和装置、致动器控制系统以及数据集
JP7297155B2 (ja) マシンの動作を制御するためのシステムおよびコンピュータ実施方法
US11550272B2 (en) Method and device for setting at least one parameter of an actuator control system and actuator control system
JP7379833B2 (ja) 強化学習方法、強化学習プログラム、および強化学習システム
US20200072146A1 (en) Control device and control method
US11762346B2 (en) Method and device for determining a control strategy for a technical system
CN112051731A (zh) 用于确定针对技术系统的控制策略的方法和设备
CN112749617A (zh) 通过聚集父实例确定输出信号
US20200333795A1 (en) Method and apparatus for controlling movement of real object using intelligent agent trained in virtual environment
US20220297290A1 (en) Device and method to improve learning of a policy for robots
JP2023008922A (ja) 信号の分類及び/又は信号に対する回帰分析を行うためのデバイス及び方法
CN113939775B (zh) 用于确定针对技术系统的调节策略的方法和设备
US11280514B1 (en) System and method for thermal control based on invertible causation relationship
de Broissia et al. Actor-critic versus direct policy search: a comparison based on sample complexity
US11640162B2 (en) Apparatus and method for controlling a system having uncertainties in its dynamics
Shin et al. On Task-Relevant Loss Functions in Meta-Reinforcement Learning and Online LQR
CN117348410A (zh) 一种amt离合器执行机构控制方法、装置、设备及介质
CN117823010A (zh) 智能开关窗系统及方法
CN116745513A (zh) 用于使热力发动机的致动器模型的学习功能安全化的方法
CN116596085A (zh) 用于操作物理系统的主动学习的设备、计算机实现的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant