CN111433688B - 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 - Google Patents

用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 Download PDF

Info

Publication number
CN111433688B
CN111433688B CN201880062854.9A CN201880062854A CN111433688B CN 111433688 B CN111433688 B CN 111433688B CN 201880062854 A CN201880062854 A CN 201880062854A CN 111433688 B CN111433688 B CN 111433688B
Authority
CN
China
Prior art keywords
variable
actuator
control
parameter
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880062854.9A
Other languages
English (en)
Other versions
CN111433688A (zh
Inventor
巴斯蒂安·比朔夫
朱莉娅·维诺格拉德斯卡
简·彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN111433688A publication Critical patent/CN111433688A/zh
Application granted granted Critical
Publication of CN111433688B publication Critical patent/CN111433688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种用于自动设置致动器控制系统(45)的至少一个参数(θ)的方法,所述致动器控制系统设计为将致动器(20)的控制变量(x)控制为可预定义设定值(xd)。所述致动器控制系统(45)设计为取决于所述至少一个参数(θ)、所述设定值(xd)和所述控制变量(x)来产生控制变量(u),且设计为取决于这一控制变量(u)来致动所述致动器(20)。取决于所述控制变量(x)的平稳概率分布(p,θ)来确定所述至少一个参数(θ)的新值(θ*),且所述参数(θ)随后设置为这一新值(θ*)。

Description

用于设置致动器控制系统的至少一个参数的方法和装置以及 致动器控制系统
技术领域
本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法、一种用于实行所述方法的计算机程序和学习系统、一种在其上存储计算机程序的机器可读存储媒体以及一种使用所述方法来设置参数的致动器控制系统。
背景技术
从不是先前公开文件的DE 10 2017 211 209,已知方法用于自动设置致动器控制系统的至少一个参数,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,其中致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量,且设计为取决于所述操纵变量来致动所述致动器,
取决于长期代价函数来选择所述至少一个参数的新值,取决于致动器的控制变量的概率分布的预测时间演变来确定所述长期代价函数,且随后参数设置为这一新值。
发明内容
然而,具有独立权利要求1的特征的方法具有的优势是其使得具有无限控制时间范围的致动器控制系统的最佳设置成为可能。有利的发展是独立权利要求项的主题。
在第一方面中,本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法,所述致动器控制系统用于将致动器的控制变量控制为可预定义目标变量,致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量且设计为取决于所述操纵变量来致动所述致动器,取决于控制变量的平稳概率分布来选择至少一个参数的新值,且参数随后设置为所述新值。
平稳概率分布在取决于参数的致动器控制系统的控制策略的持续使用期间是在这种情况中控制变量的概率分布朝其收敛的概率分布。根据本发明,已特别地认识到用于包括根据本发明的致动器和致动器控制系统的许多系统的所述平稳概率分布很大程度上独立于初始需求而存在且是显而易见的。
因此如果不预定义控制时间范围的限制性,那么也有可能使控制策略最佳化。
提供一种有利发展的模型。确切地说,所述模型可以是高斯过程,有利地稀疏高斯过程。随后使用这一模型确定平稳概率分布。这使得方法特别有效。
在这个方面的发展中,可取决于操纵变量来调适模型,当致动器控制系统控制所述致动器时,所述操纵变量供应到致动器。还取决于由模型得出的控制变量来调适模型。“模型调适”可在这种情况下理解为意指调适模型参数,所述模型参数表征模型的行为。
在已调适模型后,取决于致动器的控制变量的平稳概率分布来重新确定至少一个参数的(最佳)新值(且参数随后重置为这一新值)。在这种情况下取决于目前调适的模型来确定至少一个参数的新值的重新确定。
也就是说,在这一发展中,提供一种间歇性方法,其中(通过当真实致动器由致动器控制系统控制时正观测的真实致动器的行为)首先改进模型。致动器控制系统随后由参数改进,所述参数表征在致动器反应的模拟期间由模型最佳化的致动器控制系统的控制策略。改进所述模型和调适所述参数的序列可重复多次。
这一程序的优势是顺次地改进模型和致动器控制系统,因此引起致动器控制系统的特别良好的调适。
在另一特别有利方面中,可通过使用控制变量的可能值估算积分来确定控制变量的平稳概率分布,使用数字正交实行所述估算。“数字正交”在这种情况下是指一种估算方法,其通过评估支撑点和与支撑点相关联的支撑权重处的被积函数(intergrand)来估算积分。
在这种情况下可借助于具有一或多个时间步的(高斯)过程来确定平稳概率分布。在时间步的每一固定状态处,高斯过程在这种情况下模拟具有后续状态的(即,下一时间步处的状态的)相关联平均值和相关联偏差的概率分布。
数字正交的使用(确切地说,与高斯过程结合的使用)的优势是解决方案在数值上特别简单,同时估算的精确性极好,使得以这种方式产生的致动器控制系统特别有效。
在一有利发展中,从根据初始概率分布(伪)随机确定的控制变量的初始值开始,即在这种情况下确切地说根据初始概率分布对初始值进行“采样”,取决于控制变量的确定时间演变来确定支撑点的密度,确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。控制变量的时间演变(即,状态空间中的轨迹)因此得以确定,在所述时间演变的起点处控制变量假定随机确定的初始值。随后取决于这一时间演变来选择支撑点的密度。这引起支撑点的有效选择,因为控制变量的实际轨迹以足够的概率影响支撑点的选择。确切地说,因此可确保当并没有很好地调适致动器控制系统的参数时,方法还可靠地运作。
在一个发展中,还可从作为控制变量的初始值的目标值开始,取决于控制变量的确定时间演变来确定支撑点的密度,确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。这种情况的优势是特别有效地选择支撑点,因为当方法收敛时,可假定控制变量的实际轨迹接近控制变量对其假定目标值的轨迹。
具体地说,可取决于变量来选择支撑点的密度,所述变量表征在控制变量的确定时间演变中的控制变量的至少一个值下的模型的平滑度。更精确地说,表述“模型的平滑度”可理解为意指模型预测的平滑度,即为后续以下时间步所预测的概率分布的平滑度。模型的低水平平滑度在这种情况下意指可预期在时间演变中的连续时间步之间比在模型的平滑度具有较高值的情况下有更大差异。
表征模型的平滑度的这一变量可确切地说是高斯过程的偏差,所述偏差与控制变量在确定时间演变中所假定的值中的至少一个相关联。所述偏差越大,模型的平滑度水平越低。
以此方式可确保选择支撑点的选择,使得估算(确切地说,数字正交)的误差变得特别小。
为了以最佳方式实行这种操作,可取决于最小值来选择区域中的支撑点的密度,所述最小值是变量的最小值,所述变量表征介于这一范围内的控制变量的值下的模型的平滑度。也就是说,将控制变量的一或多个时间演变确定为控制变量假定的值的离散序列。值的离散序列中,随后仅考虑介于前述范围内的那些值。变量与这些值中的每一个相关联,所述变量表征此时的模型的平滑度。最小值选自这些相关联值。
还可替代或另外地取决于区域中的支撑点的平均密度来选择所述区域中的支撑点的密度。确切地说,当支撑点的平均密度与最小值的商低于可预定义阈值(确切地说,值1)时,支撑点的密度可增大。这类方法特别容易实施。
可通过减少体积元素来实现支撑点的平均密度的增大,用于产生支撑点的公式应例如通过将当前体积元素划分为多个较小体积元素且随后借助于用于产生支撑点的公式针对这些较小体积元素中的每一个产生来用于所述体积元素。
在另一方面,可取决于矩阵的主要本征向量来确定数字正交的结果,所述主要本征向量通过以下得出:支撑权重的对角矩阵与转移矩阵的乘积,转移矩阵的分量各自表征控制变量从第一支撑点转移到第二支撑点的概率。
这种情况的优势是对基于重复的矩阵乘法来将主要本征向量确定为操作的阈值特别有效。在这种情况下,只需在每一支撑点处评估描述概率密度的函数一次。这种方法可特别好地并行化且因此对在一或多个GPU上实行特别有效。
在本发明的另一方面中,可取决于局部代价函数来选择长期代价函数,取决于高斯函数和/或多项式函数来选择局部代价函数,所述多项式函数取决于操纵变量与可预定义目标值之间的差。可例如将代价函数选择为高斯函数与多项式函数的线性组合。以此方式选择代价函数是特别简单的。
在又一方面中,可有利地借助于限制函数来将操纵变量限制到可预定义操纵变量范围内的值。这使得以特别简单的方式来限制操纵变量。
在其它方面,本发明涉及一种用于自动设置致动器控制系统的至少一个参数的学习系统,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,学习系统设计为实行上述方法中的一种。
如所提及,方法的各方面可在一或多个GPU上特别有效地实行。学习系统可因此有利地包括用于实行方法的一或多个GPU。
附图说明
下文参照附图更详细地描述本发明的实施例,在附图中:
图1示意性地示出学习系统与致动器之间的交互;
图2示意性地示出学习系统的部分的结构;
图3示意性地示出致动器控制系统与致动器之间的交互;
图4在流程图中示意性地示出用于训练致动器控制系统的方法的实施例;
图5在流程图中示意性地示出用于确定新的最佳参数的方法的实施例;
图6在流程图中示意性地示出用于确定支撑点的方法的实施例。
具体实施方式
图1示出与学习系统40交互的在其环境20中的致动器10。致动器10和环境20随后还联合地称作致动器系统。使用传感器30检测致动器系统的状态,其还可使用多个传感器来提供。传感器30的输出信号S传输到学习系统40。从所述信号,学习系统40确定致动器10接收的控制信号A。
致动器10可以是例如(部分)自主机器人,例如(部分)自主机动车辆或(部分)自主割草机。其还可以是机动车辆的致动部件的致动构件,例如用于空转控制的节流阀或旁路致动器。其还可以是加热系统或加热系统的一部分,如阀门致动器。致动器10可确切地说是较大系统,如内燃机或机动车辆的(任选混合)传动系统,例如或还以是制动系统。
传感器30可以是例如一或多个视频传感器和/或一或多个雷达传感器和/或一或多个超声波传感器和/或一或多个位置传感器(例如GPS)。其它传感器也是可能的,例如温度传感器。
在另一实施例中,致动器10可以是制造机器人,且传感器可以是光学传感器30,例如其检测制造机器人的所制造制品的特性。
学习系统40从任选接收单元50中的传感器接收输出信号S,所述任选接收单元将输出信号S转换成控制变量x(替代地,输出信号S还可直接用作控制变量x)。举例来说,控制变量x可以是输出信号S的一部分或进一步处理。控制变量x供应到控制器60,其中实施控制策略π。
供应到控制器60的参数θ存储于参数存储器70中。参数θ使控制策略π参数化。参数θ可以是单个参数或多个参数。
块90将可预定义目标变量xd供应到控制器60。块90可例如取决于针对块90而预定义的传感器信号来产生可预定义目标变量xd。还有可能块90从存储变量的专用存储区中读出目标变量xd。
取决于目标变量xd和控制变量x的控制策略π(θ)(且因此取决于参数θ),控制器60产生操纵变量u。可例如取决于控制变量x与目标变量xd之间的差x-xd来确定这一操纵变量。
控制器60将操纵变量u传输到输出单元80,所述输出单元根据所述变量来确定控制信号A。有可能例如输出单元首先检查操纵变量u是否介于可预定义值的范围内。如果是这种情况,那么取决于操纵变量u,例如通过取决于操纵变量u从特征图中读出的相关联控制信号A来确定控制信号A。这是惯例。然而,如果确定操纵变量u不介于可预定义值的范围内,那么控制信号A可因此设计成使得其将致动器A切换成保护模式。
接收单元50将控制变量x传输到块100。控制器60还将对应操纵变量u传输到块100。块100存储在一系列时间点处接收的控制变量x的时间序列,和相关对应操纵变量u的时间序列。块100可随后取决于所述时间序列来调适模型g的模型参数Λ、σn、σf。模型参数Λ、σn、σf供应到块110,所述块例如存储专用存储区中的所述参数。这在下文描述于图4、步骤1030中。
学习系统40在一个实施例中包括计算机41,所述计算机具有机器可读存储媒体42,计算机程序存储在所述机器可读存储媒体上,当由计算机41实行时所述计算机程序促使计算机实行学习系统40的所描述功能。在实施例中,计算机41包括GPU 43。
模型g可用于使控制策略π的参数θ最佳化。这示意性地示出于图2中。
块120将模型参数Λ、σn、σf传输到块140和块150。块130确定噪声偏差Σ和最大分区深度Lmax(例如通过预定义的和从存储器中的专用存储区中读出的这些值),且将其传输到块140。参数存储器70将参数θ传输到块140,且块90将目标值xd传输到块140。
块140根据所述值来确定支撑点ξi和相关联支撑权重wi。所述确定的算法的一个实施例示出于图6中。所确定的支撑点ξi和相关联支撑权重wi传送到块150。
块150根据所述点和权重来确定新参数θ*。这描述于图4、步骤1050中。新参数θ*传送到参数存储器70,其中用新参数θ*的相应对应值替换参数θ的值。
图2中示出的块可以是学习系统40的部分,且此处,如结合图1所描述,所述块可实施为计算机程序的部分且存储于机器可读存储媒体42上。
图3示出致动器控制系统45与致动器10的交互。致动器控制系统45和其与致动器10和传感器30的交互的结构很大程度上与学习系统40的结构相同,因此此处仅描述差异。相比于学习系统40,致动器控制系统45并不具有块100,且也并不具有块110。变量到块100的传输因此不适用。如图4中所示出的已使用根据本发明的方法确定的参数θ存储于致动器控制系统45的参数存储器70中。
图4示出根据本发明的方法的实施例。首先(1000),以初始值设置参数θ。在这种情况下,参数θ可随机初始化,但其还可固定地加以预定义。
控制器60随后(1010)取决于控制策略π(θ)来产生操纵变量u,如图1中所描述,使用所述变量控制致动器10,如图1中所描述。致动器10经由环境20与传感器30交互,所述环境的传感器的传感器信号S由控制器60直接或间接接收为控制变量x。
块100接收操纵变量u和控制变量x的时间序列且聚集(1020)所述时间序列,所述操纵变量和所述控制变量一起在各情况下形成包括控制变量x和操纵变量x的配对z,z=(x1,…,xD,u1…uF)T
在这种情况下,D是控制变量x的维数,且F是操纵变量u的维数,即x∈
取决于这一状态轨迹,高斯过程g随后(1030)调适成使得在连续时间点t、t+1之间以下适用:
xt+1=xt+g(xt,ut)。 (1)
在这种情况下
ut=πθ(xt)。 (1')
高斯过程g的协方差函数k例如由以下得出
参数在这种情况下是信号偏差,且/>是D+F输入尺寸中的每一个的平方长度尺度/>的集合。
协方差矩阵K由下式限定
K(Z,Z)i,j=k(zi,zj)。 (3)
高斯过程g随后由两个函数表征:由平均值μ和偏差Var,其由下式得出
y在这种情况下由yi=f(zi)+∈i以常见方式得出,其中白噪声是∈i
参数Λ,σn,σf随后通过最大化的对数边缘似然函数以已知方式适用于配对(z1,y1)。
随后(1040)确定支撑点ξi和相关联支撑权重wi(例如,如图6中所描述)。具有N分量的初始向量a0例如初始化为随机选择值且标准化为1长度。
随后(1050)确定新的最佳参数θ*(例如,如图5中所描述)。
以这种方式确定的新最佳参数θ*至少大致上求解等式
在这种情况下,p*,θ表示控制策略πθ的持续使用的系统(图1中所示出)朝其收敛的平稳概率分布。r(x)表示例如可由特征图限定的局部代价函数或数学函数。
等式(6)的结果需要以下等式的结果
p*,θ(xt+1)=∫p(xt+1|xt,πθ(xt))p*,θ(xt)dxt。 (7)
由于积分核的形式,这一等式不能以闭合形式求解。
这个等式的结果因此必须通过数字估算法来实现。这需要达到充足精确性而不变得计算密集。因此,图5中描述的方法对应于使用下式的具有支撑点ξi
相关联支撑权重wi的数字正交
且意外地实现这个目标。
随后(1060)用新参数θ*替换参数θ。
随后(1070)任选地检查确定参数θ的方法是否已收敛。如果不是这种情况(“n”),那么跳转回到步骤1010。然而,如果是这种情况(“j”),最佳参数θ已得出且方法完成(1080)。方法还可在单次迭代后自然地完成。
图5说明根据可能实施例的用于确定新最佳参数θ*的方法。
首先(1500),借助于高斯过程g和支撑点ξi来将基础函数φi(x)确定为针对指数变量i=1…N的每一值的φi=g(ξi,πθi))。随后确定所有指数变量i,j=1…N的矩阵条目Φi,j=φji)。也就是说,矩阵条目Φi,j一起形成转移矩阵(Φ),每一矩阵条目Φi,j表征在高斯过程g期间给定的每一概率,使得控制变量x从状态x=ξj转移为状态x=ξi
目前(1510)矩阵
M=diag(w)Φ (8)
由下式确定
diag(w)i,j=wiδi,j
在这种情况下,各列还可通过用替换矩阵Mi,j的条目而标准化。
从初始向量α0开始,随后(1520)使用下式迭代地产生权重向量α1,α2
αt+1=Mαt, (9)
且产生所述权重向量直到以这种方式产生的权重向量收敛为止,即符合可预定义收敛准则,例如用于固定可预定义值∈的||αt+1t||<∈。最后一个产生的权重向量αt+1是等式(8)中限定的矩阵M的主要本征向量
已特别认识到矩阵M是正的和随机的(“随机”在此内容背景中意指每行的元素求和为值一),且根据配龙-弗罗贝尼乌斯(Perron-Frobenius)理论,恰好一个本征向量为最大可能本征值λ=1而存在,使得所描述的方法(在数字精确性方面)始终明确收敛。
主要本征向量因此借助于/>而表征,即本征向量借助于基础函数φi(x)来表征平稳概率分布p*,θ的表示。
作为正矩阵M的主要本征向量,可借助于使矩阵M参数化的参数θ来区分因此目前(1540)估计偏导数/>这可例如通过借助于步骤(1500)到(1520)确定参数θ的区域中的各种参数θΔ的对应主要本征向量/>且例如根据下式使用差来估计偏导数来实现,
在步骤(1540)之前,任选地在一个步骤(1530)中,初始向量α0可设置成等于主要本征向量以便改进收敛。
随后(1550)优选地使用梯度上升法,以便根据式(6)使用主要本征向量的偏导数/>的所确定估计值来改变的最大值/>的方向上的参数θ的方向上的θ。这优选地借助于以下估算等式实行
其中表示主要本征向量/>的分量。
随后(1560)例如通过检查步骤(1550)中的参数θ的改变是否低于可预定义阈值来检查用于确定参数θ的方法是否已收敛。如果是这种情况,那么方法(1570)完成。否则,在步骤(1500)中开始新的迭代。
图6示出用于确定支撑点ξi和口相关联支撑权重wi的方法。
首先使控制变量的所有可能值的状态空间X的分区初始化。分区起初可选择作为状态空间X的不重要分区,例如,即状态空间X并不划分,但通过全部状态空间X给出。
计数器s初始化为值s=1。根据数字正交公式(例如,克卜勒桶(Kepler's barrel)公式、梯形(trapeziodal)公式、辛普森(Simpson's)公式或高斯正交)确定状态空间X的支撑点ξi,以同样方式确定相关联支撑权重wi
随后(2010)检查计数器s是否已达到最大分区深度Lmax。如果是这种情况,那么方法在步骤(2100)中完成。
否则,假定目标值xd作为用于控制变量x的值τ′0,且使用式(1)、(1')确定(2020)时间演变τ′0,τ′0…τ′T
随后任选地还根据初始概率分布p(x0)随机地选择另一值τ0用于控制变量x,且类似于使用式(1)、(1')的步骤2020确定(2030)另一时间演变τ0,τ1,...τT
随后(2040)使另一计数器1初始化为值1=1,且检查(2050)另一计数器1是否已达到计数器s的值。如果是这种情况,那么步骤2060进行,其中计数器s逐一递增,且有可能跳转回到步骤2010。如果不是这样的情况,那么确定(2070)变量ρl(τ),所述变量表征支撑点ξi的密度是否足够。密度可例如确定为
在这种情况下,Xl是状态空间X的分区的第1部分体积元素,Vol(Xl)是其体积且Nl是其中的支撑点ξi的数目。随后检查(2070)这一变量是否是ρl(τ)<1,除值“1”外的其它阈值也是可能的。
如果是这种情况(“j”),那么部分体积元素Xl例如通过沿一个或沿其所有尺寸减半的部分体积元素Xl来分割(2080)成多个较小部分体积元素。随后去除与部分体积元素Xl和相关联支撑权重wi相关联的支撑点ξi,且将支撑点ξi和相关联支撑权重wi添加用于较小的最新产生的部分体积元素中的每一个。步骤2090随后进行,其中另一计数器1逐一递增。随后有可能跳转回到步骤2050。
如果步骤2070中的检查显示尚未满足要求(“n”),那么步骤2090紧接着进行。

Claims (15)

1.一种用于自动设置致动器控制系统的至少一个参数的方法,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,其中所述致动器控制系统设计为取决于所述至少一个参数、所述目标变量和所述控制变量来产生操纵变量,且设计为取决于所述操纵变量来致动所述致动器,
其中,取决于所述控制变量的平稳概率分布来确定所述至少一个参数的新值,且所述参数随后设置为这一新值;所述平稳概率分布为:在取决于参数的致动器控制系统的控制策略的使用期间,所述控制变量的概率分布朝向其收敛的概率分布;
其中,通过使用所述控制变量的可能值估算积分来确定所述控制变量的所述平稳概率分布,其中使用数字正交来进行所述估算;
其中,从根据初始概率分布随机确定的所述控制变量的初始值开始,取决于所述控制变量的确定时间演变来确定支撑点的密度,借助于模型和/或所述致动器控制系统来确定所述演变。
2.根据权利要求1所述的方法,其中取决于所述致动器的模型来确定所述平稳概率分布。
3.根据权利要求2所述的方法,其中取决于所述操纵变量和所得控制变量来调适所述模型,当使用所述致动器控制系统来控制所述致动器时,所述操纵变量供应到所述致动器,其中在调适所述模型后,取决于所述致动器的所述控制变量的所述平稳概率分布来重新确定所述至少一个参数的新值,其中取决于目前调适的模型来确定所述至少一个参数的所述新值的所述重新确定。
4.根据权利要求1所述的方法,其中从作为所述控制变量的初始值的目标值开始,还取决于所述控制变量的确定时间演变来确定所述支撑点的所述密度,借助于所述模型和/或所述致动器控制系统来确定所述确定时间演变。
5.根据权利要求1所述的方法,其中取决于变量来选择所述支撑点的密度,所述变量表征在所述控制变量的确定时间演变中的所述控制变量的至少一个值下的模型的平滑度。
6.根据权利要求5所述的方法,其中取决于最小值来选择区域中的支撑点的所述密度,其中所述最小值是所述变量的所述最小值,所述变量表征介于这一范围内的所述控制变量的所述值下的所述模型的平滑度。
7.根据权利要求1所述的方法,其中还可取决于区域中的所述支撑点的平均密度来选择所述区域中的所述支撑点的所述密度。
8.根据权利要求6所述的方法,其中如果支撑点的平均密度与所述最小值的商低于可预定义阈值,那么支撑点的所述密度增大。
9.根据权利要求1所述的方法,其中取决于矩阵的主要本征向量来确定所述数字正交的结果,所述主要本征向量通过以下得出:支撑权重的对角矩阵与转移矩阵的乘积,其中所述转移矩阵的分量各自表征所述控制变量从第一支撑点转移到第二支撑点的概率。
10.根据权利要求1所述的方法,其中取决于局部代价函数来选择长期代价函数,其中取决于高斯函数和/或多项式函数来选择所述局部代价函数,所述多项式函数取决于所述操纵变量与可预定义目标值之间的差。
11.根据权利要求1所述的方法,其中所述操纵变量通过限制函数受限于可预定义操纵变量范围内的值。
12.一种用于自动设置致动器控制系统的至少一个参数的学习系统,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,其中所述学习系统设计为实行根据权利要求1所述的方法。
13.根据权利要求12所述的学习系统,其设计为实行根据权利要求9所述的方法,其中所述方法借助于GPU实行。
14.一种机器可读存储媒体,其上存储执行根据权利要求1所述的方法的计算机程序。
15.一种致动器控制系统,其设计为将致动器的控制变量控制为可预定义目标变量,所述致动器控制系统设计为取决于至少一个参数、所述目标变量和所述控制变量来产生操纵变量,且设计为取决于所述操纵变量来致动所述致动器,其中使用根据权利要求1所述的方法来设置所述至少一个参数。
CN201880062854.9A 2017-10-20 2018-08-10 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 Active CN111433688B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102017218813.8A DE102017218813A1 (de) 2017-10-20 2017-10-20 Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems und Aktorregelungssystem
DE102017218813.8 2017-10-20
PCT/EP2018/071742 WO2019076511A1 (de) 2017-10-20 2018-08-10 Verfahren und vorrichtung zum einstellen mindestens eines parameters eines aktorregelungssystems und aktorregelungssyste

Publications (2)

Publication Number Publication Date
CN111433688A CN111433688A (zh) 2020-07-17
CN111433688B true CN111433688B (zh) 2023-08-25

Family

ID=63209396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880062854.9A Active CN111433688B (zh) 2017-10-20 2018-08-10 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统

Country Status (5)

Country Link
US (1) US11550272B2 (zh)
EP (1) EP3698222B1 (zh)
CN (1) CN111433688B (zh)
DE (1) DE102017218813A1 (zh)
WO (1) WO2019076511A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017211209A1 (de) * 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz
US11574094B2 (en) * 2019-06-09 2023-02-07 BWXT Advanced Technologies LLC Rapid digital nuclear reactor design using machine learning
US11753023B2 (en) * 2020-01-19 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. Adaptive control of autonomous or semi-autonomous vehicle
DE102020102863A1 (de) 2020-02-05 2021-08-05 Festo Se & Co. Kg Parametrierung einer Komponente in der Automatisierungsanlage

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449511A (zh) * 2000-06-30 2003-10-15 陶氏化学公司 多变量矩阵处理控制
CN101763083A (zh) * 2009-12-29 2010-06-30 浙江大学 一种有效的控制变量参数化的工业过程动态优化系统及方法
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
DE102015203210A1 (de) * 2015-02-23 2016-08-25 Volkswagen Ag Verfahren zum Regeln einer Regelstrecke, Vorrichtung zur Erzeugung von Reglerparametern und Steuergerät

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024750A1 (en) * 2002-07-31 2004-02-05 Ulyanov Sergei V. Intelligent mechatronic control suspension system based on quantum soft computing
US7251290B2 (en) * 2002-12-16 2007-07-31 Nortel Networks Limited Adaptive controller for linearization of transmitter
US7917332B2 (en) * 2007-11-12 2011-03-29 Bae Systems Plc Sensor control
US20170200089A1 (en) * 2016-01-11 2017-07-13 National Central University Method and system for data analyzing by intrinsic probability distribution function
DE102017211209A1 (de) 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449511A (zh) * 2000-06-30 2003-10-15 陶氏化学公司 多变量矩阵处理控制
CN101763083A (zh) * 2009-12-29 2010-06-30 浙江大学 一种有效的控制变量参数化的工业过程动态优化系统及方法
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
DE102015203210A1 (de) * 2015-02-23 2016-08-25 Volkswagen Ag Verfahren zum Regeln einer Regelstrecke, Vorrichtung zur Erzeugung von Reglerparametern und Steuergerät

Also Published As

Publication number Publication date
DE102017218813A1 (de) 2019-04-25
WO2019076511A8 (de) 2019-07-11
CN111433688A (zh) 2020-07-17
EP3698222A1 (de) 2020-08-26
US11550272B2 (en) 2023-01-10
WO2019076511A1 (de) 2019-04-25
EP3698222B1 (de) 2024-06-05
US20210191347A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
CN111433688B (zh) 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统
CN110869858B (zh) 用于设定致动器控制系统的至少一个参数的方法和装置、致动器控制系统以及数据集
KR101961421B1 (ko) 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품
JP4510739B2 (ja) 車両挙動推定予測装置および車両安定化制御システム
CN110955974B (zh) 一种火箭回收仿真平台及实现方法
JP2012208789A5 (zh)
CN110275531B (zh) 障碍物的轨迹预测方法、装置及无人驾驶设备
RU2719355C1 (ru) Устройство управления и способ управления
CN113874865A (zh) 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置
KR20200081407A (ko) 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체
KR20150088195A (ko) 자동차의 클러치 액추에이터의 포지셔닝 방법
US20210011447A1 (en) Method for ascertaining a time characteristic of a measured variable, prediction system, actuator control system, method for training the actuator control system, training system, computer program, and machine-readable storage medium
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
KR101021797B1 (ko) 적응함수 근사화를 이용한 무인항공기의 개선제어방법
JP5405252B2 (ja) 学習制御システム及び学習制御方法
US20100063946A1 (en) Method of performing parallel search optimization
Puccetti et al. Speed tracking control using model-based reinforcement learning in a real vehicle
CN115511043A (zh) 用于训练机器学习算法的方法
JP2019125021A (ja) 情報処理装置、情報処理方法、コンピュータプログラム、内燃機関の制御装置
CN110533189B (zh) 机器学习系统
Bao et al. Model-free control design using policy gradient reinforcement learning in lpv framework
CN101943889A (zh) 使电气传动系统调节器自动启动和/或运行的方法及装置
CN111077769A (zh) 用于控制或调节技术系统的方法
CN113939775B (zh) 用于确定针对技术系统的调节策略的方法和设备
JP2007071600A (ja) 航跡生成システム、その誤差共分散行列初期値設定装置、航跡生成方法およびその誤差共分散行列初期値設定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant