CN111406237B - 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 - Google Patents
操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 Download PDFInfo
- Publication number
- CN111406237B CN111406237B CN201880067677.3A CN201880067677A CN111406237B CN 111406237 B CN111406237 B CN 111406237B CN 201880067677 A CN201880067677 A CN 201880067677A CN 111406237 B CN111406237 B CN 111406237B
- Authority
- CN
- China
- Prior art keywords
- actuator
- variable
- function
- regulating
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004590 computer program Methods 0.000 title claims description 10
- 238000003860 storage Methods 0.000 title claims description 7
- 230000001105 regulatory effect Effects 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims description 112
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001667 episodic effect Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/041—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/021—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种用于操作致动器调节系统(45)的方法,其设计为将致动器(20)的调节变量(x)调节为可预定义的目标变量(x),致动器调节系统(45)被设计为根据表征调节策略(π)的变量(θ)来生成校正变量,并根据所述校正变量(u)来控制致动器(20),表征调节策略(π)的变量(θ)根据值函数(V*)来确定。
Description
技术领域
本发明涉及一种用于操作致动器调节系统的方法、一种学习系统、一种致动器调节系统、一种用于执行该方法的计算机程序以及一种存储有该计算机程序的机器可读存储介质。
背景技术
从尚未预公开的DE 10 2017 211 209可知一种用于自动设置致动器调节系统的至少一个参数的方法,该方法被设计用于将致动器的调节变量调节为可预定义的目标变量,其中,根据前述的至少一个参数、目标变量和调节变量来设计致动器调节系统,以产生校正变量并根据该校正变量来控制致动器,
其中,根据长期成本函数选择前述至少一个参数的新值,其中,根据致动器的调节变量的概率分布的预测时间演变来确定该长期成本函数,然后将该参数设置为这个新值。
发明内容
相反,具有独立权利要求1的特征的方法特别具有的优点是,可以保证致动器调节系统的最佳调节。有利的进一步改进是从属权利要求的主题。
在第一方面,本发明涉及一种用于操作致动器调节系统的方法,其设置为用于将致动器的调节变量调节为可预定义的目标变量,其中,致动器调节系统设置为根据表征调节策略的变量、尤其还根据目标变量和/或调节变量来产生校正变量,并根据该校正变量来驱动致动器,
其中,根据值函数来确定表征调节策略的变量。
通过确定值函数,即使在状态变量和/或动作不限于离散值而是可以达到连续值的情况下,也可以保证致动器调节系统的最佳调节。
特别地,可以以这样的方式确定调节策略,即,对于每个调节变量,确定导出校正变量的动作,其中,该动作使值函数最大化。
在进一步的扩展方案中,规定:借助于贝尔曼方程通过迭代值函数的后续迭代逐步地接近该值函数,来迭代地确定值函数,其中,后一迭代的迭代值函数是借助贝尔曼方程从前一迭代的迭代值函数确定的,
其中,仅将后一迭代的迭代值函数在基本函数的集合所覆盖的线性函数空间上的投影用于求解贝尔曼方程,而不使用前一迭代的迭代值函数。
特别地,这确保了迭代确定的值函数最大化预定义的奖励,尤其是在长期并考虑到系统动力学的情况下。通过使用这些投影,可以求解贝尔曼方程,由于其中包含最大值的形成,因此只能逐点解析求解,尤其容易地通过近似值。
特别有利的是,如果不确定后一迭代的迭代值函数而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。
因此,可以确定该投影而不必完全计算后一迭代本身的迭代值函数。
当将高斯函数用作基本函数时,可以获得特别易于解析求解的贝尔曼方程的积分。这使得该方法在数值上特别高效。
由于贝尔曼方程的最大值形成,通常只能在单点上对其进行评估。但是,如果贝尔曼方程的积分是使用数值积分法计算的,则可能是一个全解。因此,使用数字积分法在数值上特别高效。
在本发明的另一方面,如果通过向基础函数的集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合,规定了迭代值函数和其在这个集合所跨越的函数空间上的投影之间的最大残差有多大。
通过该迭代过程,可以特别有效地将方法的数值误差限制在可预定义的最大值,从而可以特别可靠地操作致动器调节系统。
在另一种改进方案中可以规定:根据调节变量的最大点来选择至少一个另外的基本函数,其中,在该最大点处残差变成最大。
这使得该方法特别有效,因为通过在基本函数的集合所覆盖的函数空间上的投影,可以特别快速地减少数值误差。
如果在最大点处的所述至少一个另外的基本函数取其最大值,则效率特别高。
替代地或附加地,如果根据表征在最大点处的残差的曲率的量、特别是在最大点处的残差的黑塞矩阵来选择至少一个另外的基本函数,则进一步提高了方法的效率。
尤其是在多维调节变量的情况下,如果至少一个另外的基本函数的选择使得:其最大点处的黑塞矩阵等于残差的黑塞矩阵,则特别容易。
在本发明的另一方面,可以规定:通过致动器的模型来确定贝尔曼方程所依赖的条件概率。这也使该方法特别有效,因为不必再次确定致动器的实际性能。
如果模型是高斯过程,则在此特别有利。如果基本函数由高斯函数给出,则这特别有利,因为随后可以通过高斯函数的乘积将出现的积分解析求解为积分,从而实现特别有效的实施。
为了获得致动器调节系统的特别良好的调节性能,根据本发明的另一方面,可以规定:致动器调节系统的教导和模型的教导以情节性过程(episodic procedure)来确定,这意味着在确定表征调节策略的变量之后,根据校正变量形成模型并使其适应于得到的调节变量,其中在参考调节策略通过致动器调节系统进行致动器调节的情况下,将该校正变量馈送到致动器,其中在模型适应之后,通过上述方法再次确定表征调节策略的变量,其中然后借助现在适应后的模型来确定条件概率。
在另一方面,本发明涉及一种学习系统,该学习系统用于自动设定表征致动器调节系统的调节策略的变量,致动器调节系统被设置为将致动器的调节变量调节为可预定义的目标变量,学习系统被设置为执行上述方法之一。
在另一方面,本发明涉及一种方法,其中根据前述方法之一确定表征调节策略的变量,然后根据表征调节策略的变量来生成操纵变量,并且根据这一校正变量来控制致动器。
在另一方面,本发明涉及一种致动器调节系统,其被设置为使用该方法来控制致动器。
在又一方面,本发明涉及一种计算机程序,其被设置为执行前述方法之一。换句话说,计算机程序包括当在计算机上执行时使该计算机执行该方法的指令。
本发明还涉及一种机器可读存储介质,其上存储有该计算机程序。
附图说明
随后,参考附图更详细地解释本发明的实施例。其中:
图1是学习系统和致动器之间的交互作用的示意图。
图2是致动器调节系统和致动器之间的交互作用的示意图。
图3是以流程图表示的用于训练致动器调节系统的方法的实施例。
图4是以流程图表示的用于确定迭代值函数的方法的实施例。
图5是以流程图表示的用于确定一组基本函数的方法的实施例。
图6是以流程图表示的用于确定校正变量的方法的实施例。
具体实施方式
图1示出了致动器10,其处于与学习系统40交互的环境20中。致动器 10和环境20在下文中统称为致动器系统。致动器系统的状态由传感器30检测,其也可以由多个传感器提供。传感器30的输出信号S被传送到学习系统 40。学习系统40从中确定致动器10接收的驱动信号A。
致动器10可以是例如(部分)自主机器人,例如(部分)自主机动车辆、 (部分)自主割草机。它也可以是机动车辆的致动器的致动,例如用于怠速控制的节流阀或旁路致动器。它也可以是加热设备或加热设备的一部分,例如阀门致动器。致动器10尤其也可以是较大的系统,例如内燃机或机动车辆的(可能是混合动力的)传动系,甚至是制动系统。
传感器30可以是例如一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个位置传感器(例如GPS)。可以设想其他传感器,例如温度传感器。
在另一个实施例示例中,致动器10可以是制造机器人,并且传感器30 然后可以是例如检测制造机器人的制造产品的特性的光学传感器。
学习系统40将传感器30的输出信号S接收在可选的接收单元50中,接收单元50将输出信号S转换成调节变量x(或者,输出信号S也可以直接被接收作为调节变量x)。调节变量x可以是例如输出信号S的一部分或其进一步处理。调节变量x被提供给调节器60。在调节器中,可以实施调节策略或值函数V*。
在参数存储器70中,存储参数θ,参数θ被提供给调节器60。参数将调节策略π或值函数V*参数化。参数θ可以是单个或多个参数。
模块90向调节器60提供可预定义的目标变量xd。可以规定:模块90例如根据针对模块90预定义的传感器信号来产生可预定义的目标变量xd。模块90也可以从目标变量xd所在的专用内存区域中读取该目标变量xd。
取决于调节策略π或值函数V*,针对目标变量xd和调节变量x,调节器 60产生校正变量u。例如,这可以根据调节变量x和目标变量xd之间的差x- xd来确定。
调节器60将校正变量u传输到输出单元80,输出单元80从中确定驱动信号A。例如,输出单元可以首先检查校正变量u是否在预定变量范围内。如果是这种情况,则根据校正变量u来确定控制信号A,例如根据校正变量u从特征场读取相关的驱动信号A。这是正常情况。另一方面,如果确定校正变量u不在预定值范围内,则可以规定:控制信号A被设计为其使致动器A 进入安全模式。
接收单元50将调节变量x发送到模块100。类似地,调节器60将相应的校正变量u传送到模块100。模块100存储以时间顺序接收到的调节变量x 的时间序列以及各个相应的校正变量u。然后,模块100可以基于这些时间序列来适配模型g的模型参数Λ,σn,σf。模型参数Λ,σn,σf被提供给模块110,模块110将其存储在例如专用存储位置。这将在下面的图4的步骤1010中更详细地描述。
在一个实施例中,学习系统40包括具有计算机可读存储介质42的计算机41,计算机可读存储介质42上存储有计算机程序,当该计算机程序被计算机41执行时使计算机41执行学习系统40的所描述的功能。在该实施例中,计算机41包括GPU 43。
模型g可以用于确定值函数V*。这在下面说明。
图2示出了致动器调节系统45与致动器10的交互作用。致动器调节系统45的结构及其与致动器10和传感器30的交互作用在许多部分上与学习系统40的结构相似,这就是为什么这里仅描述其区别的原因。与学习系统40 相反,致动器调节系统45不具有模块100和模块110。因此,省略了向模块 100的变量传输。在致动器调节系统45的参数存储器70中,存储了参数θ,其例如通过根据本发明的方法确定,如图4所示。
另外,校正变量u0、u1、...,uT-1被随机地选择,直到如图1所描述的用于控制致动器10的可预定义的时间范围T。致动器10经由环境20与传感器30 交互作用,传感器30的信号S作为调节变量x1、…、xT-1、xT间接或直接从调节器60接收。
这些组合成数据集D={(x0,u0,x1),...,(xT-1,uT-1,xT}。
然后根据此状态轨迹来适用高斯过程g,使得在相继的时间t、t+1之间以下条件适用
xt+1=xt+g(xt,ut) (1)。
这里,ut=πθ(xt) (1‘)。
高斯过程g的协方差函数k例如由以下公式给出:
协方差矩阵K由以下定义
K(Z,Z)i,j=k(zi,zj) (3)。
接着,高斯过程g的特征在于两个函数:平均值μ和方差Var,由下式给出:
这里,y由常用方式给出,即yi=f(zi)+∈i,带有白噪声∈i。
然后,通过最大化对数边际似然函数,以已知方式将参数Λ,σn,σf与对(zi, yi)匹配。
然后(1030),例如通过检查与情节索引e相关联的收敛迭代值函数和分配给前一情节索引e-1的迭代值函数相差小于函数Δ1的第一可预定义极限,即来检查确认与情节索引e相关联的收敛的迭代值函数是否收敛。如果收敛,则进行步骤1080。
然而,如果尚未实现收敛(1040),则与情节索引e相关联的最优调节策略πe定义为:
然后(1050)再次从初始概率分布p(x0)中选择调节变量x的初始值x0。
现在(1060),使用公式(6)中定义的最优调节策略πe,迭代地确定一系列调节变量πe(x0),…,πe(xT-1),用其来控制致动器10。然后从传感器30 的接收到的输出信号S中确定结果状态变量x1,…,xT。
现在(1070),将情节索引e递增1,并且其分支回到步骤1030。
图4示出了用于确定分配给情节索引e的迭代值函数的方法的实施例。为了清楚起见,下面省略情节索引e。上标索引在下文中用字母t 表示。该方法总是基于前一值函数来计算后一迭代值函数前一迭代值函数给出为基本函数和系数的线性组合这些系数也简要地总结在系数向量αt中。该方法以索引t=0开始 (1500)。
随后(1530),使用数值积分法定义节点ξ1,…,ξK和相关权重w1,…,wK。
运算符Α定义为:
这里,0<γ<1是指定的加权因子,例如γ=0.85。r是将奖励值分配给调节变量x的值的奖励函数。有利地,以这样的方式选择奖励函数r:使得调节变量x与目标变量xd的偏差越小,其取值越大。
给定调节变量x’的条件概率p(x′|x,u),前一调节变量x和操纵变量u可以使用高斯过程g在公式(8)中确定。
应当指出,解析解法无法访问公式(8)中的max运算符。但是,对于给定的调节变量x,在每种情况下都可以通过梯度上升方法进行最大化。
因此,向量bt+1近似满足方程其中,需要认知的是:如果将实际值函数Vt+1替换为其在基本函数B所覆盖的空间上的投影(即,通过迭代值函数),并且用数值积分法近似求解所得的积分方程,则仅在特殊情况下才能完全求解该方程。
现在(1560),检查是否满足终止条件。例如,如果迭代值函数被收敛,例如,如果与前一迭代值函数的差变得小于函数Δ2的第二极限,即,则可以满足终止条件。如果索引t已达到可预定义的时间范围T,则也可以视为已满足终止条件。
至此,方法的这一部分结束。
图5示出了用于确定用于贝尔曼方程的实际迭代值函数Vt的基本函数的集合B的方法的实施例。为此,首先(1600)将基本函数的集合B初始化为空集,将索引l初始化为值l=0。投影到基本函数的集合B上的迭代值函数也被初始化为值0。
然后(1620),例如用梯度上升法,确定残差的最大点x*= argmaxsRt,l(x),在最大数x*处确定残差Rt,l的黑塞矩阵Ht,l。
如果不是这种情况,则将索引l加1,并且该方法分支回到步骤1610。
图6示出用于确定校正变量的方法的实施例,并且图6a) 示出在参数存储器70中存储的参数θ对调节策略π进行参数化的情况下的实施例。为此,首先 (1700)定义一组测试点xi,例如作为Sobol设计计划。
然后(1710),使用以下公式计算分配给测试点ui的最佳校正变量xi,
ui=argmaxu∈U∫p(x′|xi,u)V*(x′)dx′ (11)。
例如是通过梯度上升方法确定的,根据成对的测试点xi和各自分配的最佳操纵变量ui创建训练集M={(x1,u1),(x2,u2),…}。
然后(1720),利用该训练集M,得出基于数据的模型,例如高斯过程 gθ,使得基于数据的模型有效地确定针对调节变量x的分配的最佳校正变量 u。表征高斯过程θ的参数gθ被存储在参数存储器70中。
步骤(1700)至(1720)优选地在学习系统40中执行。
然后(1730),在致动器调节系统45的操作期间,该系统使用高斯过程 gθ为给定的调节变量x确定相关的校正变量u。
如此就结束了该方法。
图6b ) 示出了在参数存储器70中存储的参数θ对值函数V*进行参数化的情况下的实施例。为此,在步骤(1800)中,对于给定的调节变量x,类似于步骤(1710),采用梯度上升方法来确定由以下方程定义的相关校正变量u,
u=argmaxu∫p(x′|x,u)V*(x′)dx′。
如此就结束了该方法。
Claims (16)
1.一种用于操作致动器调节系统的方法,其设置为用于将致动器的调节变量调节为可预定义的目标变量,所述致动器调节系统被设置为根据表征调节策略的变量来生成校正变量并根据所述校正变量来控制所述致动器,
其中,表征所述调节策略的所述变量是根据值函数来确定的,其中,所述值函数是利用贝尔曼方程通过对迭代值函数进行连续迭代而逐渐逼近所述值函数而迭代地确定的,其中,通过贝尔曼方程从前一次迭代的迭代值函数来确定后一次迭代的迭代值函数,
其中,对于贝尔曼方程的求解,替代使用前一次迭代的迭代值函数,而仅使用其在基本函数的集合所覆盖的函数空间上的投影。
2.根据权利要求1所述的方法,其中,替代确定所述后一次迭代的迭代值函数,而仅确定其在由基本函数的第二集合所覆盖的函数空间上的投影。
3.根据权利要求1所述的方法,其中,将高斯函数用作基本函数。
4.根据权利要求1所述的方法,其中,通过数值积分法来确定贝尔曼方程的积分的值。
5.根据权利要求1所述的方法,其中,根据所述迭代值函数与其在所述集合所覆盖的函数空间上的投影之间的最大残差有多大,通过向所述集合中添加至少一个另外的基本函数来迭代地确定基本函数的后一集合。
6.根据权利要求5所述的方法,其中,根据所述调节变量的最大点来选择所述至少一个另外的基本函数,其中,在所述最大点处所述残差变成最大。
7.根据权利要求6所述的方法,其中,在最大点处所述至少一个另外的基本函数取其最大值。
8.根据权利要求6所述的方法,其中,根据在所述最大点处表征所述残差的曲率的变量、在所述最大点处使用所述残差的黑塞矩阵,来选择所述至少一个另外的基本函数。
9.根据权利要求8所述的方法,其中,以如下方式选择所述至少一个另外的基本函数:使得在所述最大点处,其黑塞矩阵等于所述残差的黑塞矩阵。
10.根据权利要求1所述的方法,其中,利用所述致动器的模型来确定贝尔曼方程所依赖的条件概率。
11.根据权利要求10所述的方法,其中,所述模型是高斯过程。
12.根据权利要求10所述的方法,其中,在确定表征所述调节策略的所述变量之后,根据所述校正变量和之后所得的调节变量来适应所述模型,其中,所述校正变量在考虑所述调节策略而使用所述致动器调节系统来调节所述致动器的过程中被馈送至所述致动器,其中,在调整所述模型之后,再次确定表征所述调节策略的所述变量,其中,然后通过现在适应后的模型来确定所述条件概率。
13.根据权利要求1所述的方法,其中,根据表征所述调节策略的所述变量来生成所述校正变量,并且根据所述校正变量来控制所述致动器。
14.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序由计算机执行时使得所述计算机执行根据权利要求1所述的方法。
15.一种学习系统,用于自动设置表征致动器调节系统的调节策略的变量,其被设置为用于将所述致动器的调节变量调节为可预定义的目标变量,其中,所述学习系统设置为执行根据权利要求1至12中任一项所述的方法。
16.一种致动器调节系统,其被设置为依据根据权利要求13所述的方法来控制致动器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017218811.1 | 2017-10-20 | ||
DE102017218811.1A DE102017218811A1 (de) | 2017-10-20 | 2017-10-20 | Verfahren und Vorrichtung zum Betreiben eines Aktorregelungssystems, Computerprogramm und maschinenlesbares Speichermedium |
PCT/EP2018/071753 WO2019076512A1 (de) | 2017-10-20 | 2018-08-10 | Verfahren und vorrichtung zum betreiben eines aktorregelungssystems, computerprogramm und maschinenlesbares speichermedium |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111406237A CN111406237A (zh) | 2020-07-10 |
CN111406237B true CN111406237B (zh) | 2023-02-17 |
Family
ID=63244585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880067677.3A Active CN111406237B (zh) | 2017-10-20 | 2018-08-10 | 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 |
Country Status (7)
Country | Link |
---|---|
US (2) | US20210003976A1 (zh) |
EP (1) | EP3698223B1 (zh) |
JP (1) | JP7191965B2 (zh) |
KR (1) | KR102326733B1 (zh) |
CN (1) | CN111406237B (zh) |
DE (1) | DE102017218811A1 (zh) |
WO (1) | WO2019076512A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111505936B (zh) * | 2020-06-09 | 2021-10-01 | 吉林大学 | 一种基于高斯过程pid控制参数的自动安全整定方法 |
US11712804B2 (en) | 2021-03-29 | 2023-08-01 | Samsung Electronics Co., Ltd. | Systems and methods for adaptive robotic motion control |
US11724390B2 (en) | 2021-03-29 | 2023-08-15 | Samsung Electronics Co., Ltd. | Systems and methods for automated preloading of actuators |
US11731279B2 (en) | 2021-04-13 | 2023-08-22 | Samsung Electronics Co., Ltd. | Systems and methods for automated tuning of robotics systems |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5208981A (en) * | 1989-01-19 | 1993-05-11 | Bela Puzsik | Drive shaft support |
DE19527323A1 (de) * | 1995-07-26 | 1997-01-30 | Siemens Ag | Schaltungsanordnung zum Steuern einer Einrichtung in einem Kraftfahrzeug |
DE102007017259B4 (de) * | 2007-04-12 | 2009-04-09 | Siemens Ag | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
DE102008020380B4 (de) * | 2008-04-23 | 2010-04-08 | Siemens Aktiengesellschaft | Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems |
EP2296062B1 (de) | 2009-09-09 | 2021-06-23 | Siemens Aktiengesellschaft | Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems |
JP4924693B2 (ja) * | 2009-11-02 | 2012-04-25 | 株式会社デンソー | エンジン制御装置 |
FI126110B (fi) * | 2011-01-19 | 2016-06-30 | Ouman Oy | Menetelmä, laitteisto ja tietokoneohjelmatuote toimilaitteen ohjaamiseksi lämpötilan säätelyssä |
DE102013212889A1 (de) * | 2013-07-02 | 2015-01-08 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit |
JP6111913B2 (ja) | 2013-07-10 | 2017-04-12 | 東芝三菱電機産業システム株式会社 | 制御パラメータ調整システム |
GB201319681D0 (en) * | 2013-11-07 | 2013-12-25 | Imp Innovations Ltd | System and method for drug delivery |
AT517251A2 (de) * | 2015-06-10 | 2016-12-15 | Avl List Gmbh | Verfahren zur Erstellung von Kennfeldern |
US10429800B2 (en) * | 2015-06-26 | 2019-10-01 | Honeywell Limited | Layered approach to economic optimization and model-based control of paper machines and other systems |
JP6193961B2 (ja) | 2015-11-30 | 2017-09-06 | ファナック株式会社 | 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置 |
AT518850B1 (de) * | 2016-07-13 | 2021-11-15 | Avl List Gmbh | Verfahren zur simulationsbasierten Analyse eines Kraftfahrzeugs |
DE102017211209A1 (de) | 2017-06-30 | 2019-01-03 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz |
-
2017
- 2017-10-20 DE DE102017218811.1A patent/DE102017218811A1/de active Pending
-
2018
- 2018-08-10 CN CN201880067677.3A patent/CN111406237B/zh active Active
- 2018-08-10 WO PCT/EP2018/071753 patent/WO2019076512A1/de unknown
- 2018-08-10 JP JP2020542498A patent/JP7191965B2/ja active Active
- 2018-08-10 EP EP18755774.9A patent/EP3698223B1/de active Active
- 2018-08-10 US US16/756,953 patent/US20210003976A1/en not_active Abandoned
- 2018-08-10 KR KR1020207014310A patent/KR102326733B1/ko active IP Right Grant
-
2021
- 2021-09-15 US US17/475,911 patent/US20220075332A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210003976A1 (en) | 2021-01-07 |
JP7191965B2 (ja) | 2022-12-19 |
KR20200081407A (ko) | 2020-07-07 |
JP2020537801A (ja) | 2020-12-24 |
WO2019076512A1 (de) | 2019-04-25 |
EP3698223B1 (de) | 2022-05-04 |
KR102326733B1 (ko) | 2021-11-16 |
CN111406237A (zh) | 2020-07-10 |
US20220075332A1 (en) | 2022-03-10 |
EP3698223A1 (de) | 2020-08-26 |
DE102017218811A1 (de) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111406237B (zh) | 操作致动器调节系统的方法和装置、计算机程序和机器可读存储介质 | |
US8447706B2 (en) | Method for computer-aided control and/or regulation using two neural networks wherein the second neural network models a quality function and can be used to control a gas turbine | |
US20220236698A1 (en) | Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method | |
US10036338B2 (en) | Condition-based powertrain control system | |
US11366433B2 (en) | Reinforcement learning method and device | |
CN110869858B (zh) | 用于设定致动器控制系统的至少一个参数的方法和装置、致动器控制系统以及数据集 | |
JP7297155B2 (ja) | マシンの動作を制御するためのシステムおよびコンピュータ実施方法 | |
US11550272B2 (en) | Method and device for setting at least one parameter of an actuator control system and actuator control system | |
JP7379833B2 (ja) | 強化学習方法、強化学習プログラム、および強化学習システム | |
US20200072146A1 (en) | Control device and control method | |
US11762346B2 (en) | Method and device for determining a control strategy for a technical system | |
CN112051731A (zh) | 用于确定针对技术系统的控制策略的方法和设备 | |
CN112749617A (zh) | 通过聚集父实例确定输出信号 | |
US20200333795A1 (en) | Method and apparatus for controlling movement of real object using intelligent agent trained in virtual environment | |
US20220297290A1 (en) | Device and method to improve learning of a policy for robots | |
JP2023008922A (ja) | 信号の分類及び/又は信号に対する回帰分析を行うためのデバイス及び方法 | |
CN113939775B (zh) | 用于确定针对技术系统的调节策略的方法和设备 | |
US11280514B1 (en) | System and method for thermal control based on invertible causation relationship | |
de Broissia et al. | Actor-critic versus direct policy search: a comparison based on sample complexity | |
US11640162B2 (en) | Apparatus and method for controlling a system having uncertainties in its dynamics | |
Shin et al. | On Task-Relevant Loss Functions in Meta-Reinforcement Learning and Online LQR | |
CN117348410A (zh) | 一种amt离合器执行机构控制方法、装置、设备及介质 | |
CN117823010A (zh) | 智能开关窗系统及方法 | |
CN116745513A (zh) | 用于使热力发动机的致动器模型的学习功能安全化的方法 | |
CN116596085A (zh) | 用于操作物理系统的主动学习的设备、计算机实现的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |