CN111433688A - 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 - Google Patents

用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 Download PDF

Info

Publication number
CN111433688A
CN111433688A CN201880062854.9A CN201880062854A CN111433688A CN 111433688 A CN111433688 A CN 111433688A CN 201880062854 A CN201880062854 A CN 201880062854A CN 111433688 A CN111433688 A CN 111433688A
Authority
CN
China
Prior art keywords
variable
actuator
control
parameter
dependence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880062854.9A
Other languages
English (en)
Other versions
CN111433688B (zh
Inventor
巴斯蒂安·比朔夫
朱莉娅·维诺格拉德斯卡
简·彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN111433688A publication Critical patent/CN111433688A/zh
Application granted granted Critical
Publication of CN111433688B publication Critical patent/CN111433688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种用于自动设置致动器控制系统(45)的至少一个参数(θ)的方法,所述致动器控制系统设计为将致动器(20)的控制变量(x)控制为可预定义设定值(xd)。所述致动器控制系统(45)设计为取决于所述至少一个参数(θ)、所述设定值(xd)和所述控制变量(x)来产生控制变量(u),且设计为取决于这一控制变量(u)来致动所述致动器(20)。取决于所述控制变量(x)的平稳概率分布(p,θ)来确定所述至少一个参数(θ)的新值(θ*),且所述参数(θ)随后设置为这一新值(θ*)。

Description

用于设置致动器控制系统的至少一个参数的方法和装置以及 致动器控制系统
技术领域
本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法、一种用于实行所述方法的计算机程序和学习系统、一种在其上存储计算机程序的机器可读存储媒体以及一种使用所述方法来设置参数的致动器控制系统。
背景技术
从不是先前公开文件的DE 10 2017 211 209,已知方法用于自动设置致动器控制系统的至少一个参数,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,其中致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量,且设计为取决于所述操纵变量来致动所述致动器,
取决于长期代价函数来选择所述至少一个参数的新值,取决于致动器的控制变量的概率分布的预测时间演变来确定所述长期代价函数,且随后参数设置为这一新值。
发明内容
然而,具有独立权利要求1的特征的方法具有的优势是其使得具有无限控制时间范围的致动器控制系统的最佳设置成为可能。有利的发展是独立权利要求项的主题。
在第一方面中,本发明涉及一种用于自动设置致动器控制系统的至少一个参数的方法,所述致动器控制系统用于将致动器的控制变量控制为可预定义目标变量,致动器控制系统设计为取决于至少一个参数、目标变量和控制变量来产生操纵变量且设计为取决于所述操纵变量来致动所述致动器,取决于控制变量的平稳概率分布来选择至少一个参数的新值,且参数随后设置为所述新值。
平稳概率分布在取决于参数的致动器控制系统的控制策略的持续使用期间是在这种情况中控制变量的概率分布朝其收敛的概率分布。根据本发明,已特别地认识到用于包括根据本发明的致动器和致动器控制系统的许多系统的所述平稳概率分布很大程度上独立于初始需求而存在且是显而易见的。
因此如果不预定义控制时间范围的限制性,那么也有可能使控制策略最佳化。
提供一种有利发展的模型。确切地说,所述模型可以是高斯过程,有利地稀疏高斯过程。随后使用这一模型确定平稳概率分布。这使得方法特别有效。
在这个方面的发展中,可取决于操纵变量来调适模型,当致动器控制系统控制所述致动器时,所述操纵变量供应到致动器。还取决于由模型得出的控制变量来调适模型。“模型调适”可在这种情况下理解为意指调适模型参数,所述模型参数表征模型的行为。
在已调适模型后,取决于致动器的控制变量的平稳概率分布来重新确定至少一个参数的(最佳)新值(且参数随后重置为这一新值)。在这种情况下取决于目前调适的模型来确定至少一个参数的新值的重新确定。
也就是说,在这一发展中,提供一种间歇性方法,其中(通过当真实致动器由致动器控制系统控制时正观测的真实致动器的行为)首先改进模型。致动器控制系统随后由参数改进,所述参数表征在致动器反应的模拟期间由模型最佳化的致动器控制系统的控制策略。改进所述模型和调适所述参数的序列可重复多次。
这一程序的优势是顺次地改进模型和致动器控制系统,因此引起致动器控制系统的特别良好的调适。
在另一特别有利方面中,可通过使用控制变量的可能值估算积分来确定控制变量的平稳概率分布,使用数字正交实行所述估算。“数字正交”在这种情况下是指一种估算方法,其通过评估支撑点和与支撑点相关联的支撑权重处的被积函数(intergrand)来估算积分。
在这种情况下可借助于具有一或多个时间步的(高斯)过程来确定平稳概率分布。在时间步的每一固定状态处,高斯过程在这种情况下模拟具有后续状态的(即,下一时间步处的状态的)相关联平均值和相关联偏差的概率分布。
数字正交的使用(确切地说,与高斯过程结合的使用)的优势是解决方案在数值上特别简单,同时估算的精确性极好,使得以这种方式产生的致动器控制系统特别有效。
在一有利发展中,从根据初始概率分布(伪)随机确定的控制变量的初始值开始,即在这种情况下确切地说根据初始概率分布对初始值进行“采样”,取决于控制变量的确定时间演变来确定支撑点的密度,确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。控制变量的时间演变(即,状态空间中的轨迹)因此得以确定,在所述时间演变的起点处控制变量假定随机确定的初始值。随后取决于这一时间演变来选择支撑点的密度。这引起支撑点的有效选择,因为控制变量的实际轨迹以足够的概率影响支撑点的选择。确切地说,因此可确保当并没有很好地调适致动器控制系统的参数时,方法还可靠地运作。
在一个发展中,还可从作为控制变量的初始值的目标值开始,取决于控制变量的确定时间演变来确定支撑点的密度,确切地说借助于模型和/或致动器控制系统来确定所述确定时间演变。这种情况的优势是特别有效地选择支撑点,因为当方法收敛时,可假定控制变量的实际轨迹接近控制变量对其假定目标值的轨迹。
具体地说,可取决于变量来选择支撑点的密度,所述变量表征在控制变量的确定时间演变中的控制变量的至少一个值下的模型的平滑度。更精确地说,表述“模型的平滑度”可理解为意指模型预测的平滑度,即为后续以下时间步所预测的概率分布的平滑度。模型的低水平平滑度在这种情况下意指可预期在时间演变中的连续时间步之间比在模型的平滑度具有较高值的情况下有更大差异。
表征模型的平滑度的这一变量可确切地说是高斯过程的偏差,所述偏差与控制变量在确定时间演变中所假定的值中的至少一个相关联。所述偏差越大,模型的平滑度水平越低。
以此方式可确保选择支撑点的选择,使得估算(确切地说,数字正交)的误差变得特别小。
为了以最佳方式实行这种操作,可取决于最小值来选择区域中的支撑点的密度,所述最小值是变量的最小值,所述变量表征介于这一范围内的控制变量的值下的模型的平滑度。也就是说,将控制变量的一或多个时间演变确定为控制变量假定的值的离散序列。值的离散序列中,随后仅考虑介于前述范围内的那些值。变量与这些值中的每一个相关联,所述变量表征此时的模型的平滑度。最小值选自这些相关联值。
还可替代或另外地取决于区域中的支撑点的平均密度来选择所述区域中的支撑点的密度。确切地说,当支撑点的平均密度与最小值的商低于可预定义阈值(确切地说,值1)时,支撑点的密度可增大。这类方法特别容易实施。
可通过减少体积元素来实现支撑点的平均密度的增大,用于产生支撑点的公式应例如通过将当前体积元素划分为多个较小体积元素且随后借助于用于产生支撑点的公式针对这些较小体积元素中的每一个产生来用于所述体积元素。
在另一方面,可取决于矩阵的主要本征向量来确定数字正交的结果,所述主要本征向量通过以下得出:支撑权重的对角矩阵与转移矩阵的乘积,转移矩阵的分量各自表征控制变量从第一支撑点转移到第二支撑点的概率。
这种情况的优势是对基于重复的矩阵乘法来将主要本征向量确定为操作的阈值特别有效。在这种情况下,只需在每一支撑点处评估描述概率密度的函数一次。这种方法可特别好地并行化且因此对在一或多个GPU上实行特别有效。
在本发明的另一方面中,可取决于局部代价函数来选择长期代价函数,取决于高斯函数和/或多项式函数来选择局部代价函数,所述多项式函数取决于操纵变量与可预定义目标值之间的差。可例如将代价函数选择为高斯函数与多项式函数的线性组合。以此方式选择代价函数是特别简单的。
在又一方面中,可有利地借助于限制函数来将操纵变量限制到可预定义操纵变量范围内的值。这使得以特别简单的方式来限制操纵变量。
在其它方面,本发明涉及一种用于自动设置致动器控制系统的至少一个参数的学习系统,所述致动器控制系统设计为将致动器的控制变量控制为可预定义目标变量,学习系统设计为实行上述方法中的一种。
如所提及,方法的各方面可在一或多个GPU上特别有效地实行。学习系统可因此有利地包括用于实行方法的一或多个GPU。
附图说明
下文参照附图更详细地描述本发明的实施例,在附图中:
图1示意性地示出学习系统与致动器之间的交互;
图2示意性地示出学习系统的部分的结构;
图3示意性地示出致动器控制系统与致动器之间的交互;
图4在流程图中示意性地示出用于训练致动器控制系统的方法的实施例;
图5在流程图中示意性地示出用于确定新的最佳参数的方法的实施例;
图6在流程图中示意性地示出用于确定支撑点的方法的实施例。
具体实施方式
图1示出与学习系统40交互的在其环境20中的致动器10。致动器10和环境20随后还联合地称作致动器系统。使用传感器30检测致动器系统的状态,其还可使用多个传感器来提供。传感器30的输出信号S传输到学习系统40。从所述信号,学习系统40确定致动器10接收的控制信号A。
致动器10可以是例如(部分)自主机器人,例如(部分)自主机动车辆或(部分)自主割草机。其还可以是机动车辆的致动部件的致动构件,例如用于空转控制的节流阀或旁路致动器。其还可以是加热系统或加热系统的一部分,如阀门致动器。致动器10可确切地说是较大系统,如内燃机或机动车辆的(任选混合)传动系统,例如或还以是制动系统。
传感器30可以是例如一或多个视频传感器和/或一或多个雷达传感器和/或一或多个超声波传感器和/或一或多个位置传感器(例如GPS)。其它传感器也是可能的,例如温度传感器。
在另一实施例中,致动器10可以是制造机器人,且传感器可以是光学传感器30,例如其检测制造机器人的所制造制品的特性。
学习系统40从任选接收单元50中的传感器接收输出信号S,所述任选接收单元将输出信号S转换成控制变量x(替代地,输出信号S还可直接用作控制变量x)。举例来说,控制变量x可以是输出信号S的一部分或进一步处理。控制变量x供应到控制器60,其中实施控制策略π。
供应到控制器60的参数θ存储于参数存储器70中。参数θ使控制策略π参数化。参数θ可以是单个参数或多个参数。
块90将可预定义目标变量xd供应到控制器60。块90可例如取决于针对块90而预定义的传感器信号来产生可预定义目标变量xd。还有可能块90从存储变量的专用存储区中读出目标变量xd。
取决于目标变量xd和控制变量x的控制策略π(θ)(且因此取决于参数θ),控制器60产生操纵变量u。可例如取决于控制变量x与目标变量xd之间的差x-xd来确定这一操纵变量。
控制器60将操纵变量u传输到输出单元80,所述输出单元根据所述变量来确定控制信号A。有可能例如输出单元首先检查操纵变量u是否介于可预定义值的范围内。如果是这种情况,那么取决于操纵变量u,例如通过取决于操纵变量u从特征图中读出的相关联控制信号A来确定控制信号A。这是惯例。然而,如果确定操纵变量u不介于可预定义值的范围内,那么控制信号A可因此设计成使得其将致动器A切换成保护模式。
接收单元50将控制变量x传输到块100。控制器60还将对应操纵变量u传输到块100。块100存储在一系列时间点处接收的控制变量x的时间序列,和相关对应操纵变量u的时间序列。块100可随后取决于所述时间序列来调适模型g的模型参数Λ、σn、σf。模型参数Λ、σn、σf供应到块110,所述块例如存储专用存储区中的所述参数。这在下文描述于图4、步骤1030中。
学习系统40在一个实施例中包括计算机41,所述计算机具有机器可读存储媒体42,计算机程序存储在所述机器可读存储媒体上,当由计算机41实行时所述计算机程序促使计算机实行学习系统40的所描述功能。在实施例中,计算机41包括GPU 43。
模型g可用于使控制策略π的参数θ最佳化。这示意性地示出于图2中。
块120将模型参数Λ、σn、σf传输到块140和块150。块130确定噪声偏差Σ和最大分区深度Lmax(例如通过预定义的和从存储器中的专用存储区中读出的这些值),且将其传输到块140。参数存储器70将参数θ传输到块140,且块90将目标值xd传输到块140。
块140根据所述值来确定支撑点ξi和相关联支撑权重wi。所述确定的算法的一个实施例示出于图6中。所确定的支撑点ξi和相关联支撑权重wi传送到块150。
块150根据所述点和权重来确定新参数θ*。这描述于图4、步骤1050中。新参数θ*传送到参数存储器70,其中用新参数θ*的相应对应值替换参数θ的值。
图2中示出的块可以是学习系统40的部分,且此处,如结合图1所描述,所述块可实施为计算机程序的部分且存储于机器可读存储媒体42上。
图3示出致动器控制系统45与致动器10的交互。致动器控制系统45和其与致动器10和传感器30的交互的结构很大程度上与学习系统40的结构相同,因此此处仅描述差异。相比于学习系统40,致动器控制系统45并不具有块100,且也并不具有块110。变量到块100的传输因此不适用。如图4中所示出的已使用根据本发明的方法确定的参数θ存储于致动器控制系统45的参数存储器70中。
图4示出根据本发明的方法的实施例。首先(1000),以初始值设置参数θ。在这种情况下,参数θ可随机初始化,但其还可固定地加以预定义。
控制器60随后(1010)取决于控制策略π(θ)来产生操纵变量u,如图1中所描述,使用所述变量控制致动器10,如图1中所描述。致动器10经由环境20与传感器30交互,所述环境的传感器的传感器信号S由控制器60直接或间接接收为控制变量x。
块100接收操纵变量u和控制变量x的时间序列且聚集(1020)所述时间序列,所述操纵变量和所述控制变量一起在各情况下形成包括控制变量x和操纵变量x的配对z,z=(x1,…,xD,u1…uF)T
在这种情况下,D是控制变量x的维数,且F是操纵变量u的维数,即x∈
Figure BDA0002427324070000081
取决于这一状态轨迹,高斯过程g随后(1030)调适成使得在连续时间点t、t+1之间以下适用:
xt+1=xt+g(xt,ut)。 (1)
在这种情况下
ut=πθ(xt)。 (1')
高斯过程g的协方差函数k例如由以下得出
Figure BDA0002427324070000091
参数
Figure BDA0002427324070000092
在这种情况下是信号偏差,且
Figure BDA0002427324070000093
是D+F输入尺寸中的每一个的平方长度尺度
Figure BDA0002427324070000094
的集合。
协方差矩阵K由下式限定
K(Z,Z)i,j=k(zi,zj)。 (3)
高斯过程g随后由两个函数表征:由平均值μ和偏差Var,其由下式得出
Figure BDA0002427324070000095
Figure BDA0002427324070000096
y在这种情况下由yi=f(zi)+∈i以常见方式得出,其中白噪声是∈i
参数Λ,σn,σf随后通过最大化的对数边缘似然函数以已知方式适用于配对(z1,y1)。
随后(1040)确定支撑点ξi和相关联支撑权重wi(例如,如图6中所描述)。具有N分量的初始向量a0例如初始化为随机选择值且标准化为1长度。
随后(1050)确定新的最佳参数θ*(例如,如图5中所描述)。
以这种方式确定的新最佳参数θ*至少大致上求解等式
Figure BDA0002427324070000097
在这种情况下,p*,θ表示控制策略πθ的持续使用的系统(图1中所示出)朝其收敛的平稳概率分布。r(x)表示例如可由特征图限定的局部代价函数或数学函数。
等式(6)的结果需要以下等式的结果
p*,θ(xt+1)=∫p(xt+1|xt,πθ(xt))p*,θ(xt)dxt。 (7)
由于积分核的形式,这一等式不能以闭合形式求解。
这个等式的结果因此必须通过数字估算法来实现。这需要达到充足精确性而不变得计算密集。因此,图5中描述的方法对应于使用下式的具有支撑点ξi
相关联支撑权重wi的数字正交
Figure BDA0002427324070000101
且意外地实现这个目标。
随后(1060)用新参数θ*替换参数θ。
随后(1070)任选地检查确定参数θ的方法是否已收敛。如果不是这种情况(“n”),那么跳转回到步骤1010。然而,如果是这种情况(“j”),最佳参数θ已得出且方法完成(1080)。方法还可在单次迭代后自然地完成。
图5说明根据可能实施例的用于确定新最佳参数θ*的方法。
首先(1500),借助于高斯过程g和支撑点ξi来将基础函数φi(x)确定为针对指数变量i=1…N的每一值的φi=g(ξi,πθi))。随后确定所有指数变量i,j=1…N的矩阵条目Φi,j=φji)。也就是说,矩阵条目Φi,j一起形成转移矩阵(Φ),每一矩阵条目Φi,j表征在高斯过程g期间给定的每一概率,使得控制变量x从状态x=ξj转移为状态x=ξi
目前(1510)矩阵
M=diag(w)Φ (8)
由下式确定
diag(w)i,j=wiδi,j
在这种情况下,各列还可通过用
Figure BDA0002427324070000102
替换矩阵Mi,j的条目而标准化。
从初始向量α0开始,随后(1520)使用下式迭代地产生权重向量α1,α2
αt+1=Mαt, (9)
且产生所述权重向量直到以这种方式产生的权重向量收敛为止,即符合可预定义收敛准则,例如用于固定可预定义值∈的||αt+1t||<∈。最后一个产生的权重向量αt+1是等式(8)中限定的矩阵M的主要本征向量
Figure BDA0002427324070000103
已特别认识到矩阵M是正的和随机的(“随机”在此内容背景中意指每行的元素求和为值一),且根据配龙-弗罗贝尼乌斯(Perron-Frobenius)理论,恰好一个本征向量为最大可能本征值λ=1而存在,使得所描述的方法(在数字精确性方面)始终明确收敛。
主要本征向量
Figure BDA0002427324070000111
因此借助于
Figure BDA0002427324070000112
而表征,即本征向量借助于基础函数φi(x)来表征平稳概率分布p*,θ的表示。
作为正矩阵M的主要本征向量,可借助于使矩阵M参数化的参数θ来区分
Figure BDA0002427324070000113
因此目前(1540)估计偏导数
Figure BDA0002427324070000114
这可例如通过借助于步骤(1500)到(1520)确定参数θ的区域中的各种参数θΔ的对应主要本征向量
Figure BDA0002427324070000115
且例如根据下式使用差来估计偏导数来实现,
Figure BDA0002427324070000116
在步骤(1540)之前,任选地在一个步骤(1530)中,初始向量α0可设置成等于主要本征向量
Figure BDA0002427324070000117
以便改进收敛。
随后(1550)优选地使用梯度上升法,以便根据式(6)使用主要本征向量
Figure BDA0002427324070000118
的偏导数
Figure BDA0002427324070000119
的所确定估计值来改变的最大值
Figure BDA00024273240700001110
的方向上的参数θ的方向上的θ。这优选地借助于以下估算等式实行
Figure BDA00024273240700001111
其中
Figure BDA00024273240700001112
表示主要本征向量
Figure BDA00024273240700001113
的分量。
随后(1560)例如通过检查步骤(1550)中的参数θ的改变是否低于可预定义阈值来检查用于确定参数θ的方法是否已收敛。如果是这种情况,那么方法(1570)完成。否则,在步骤(1500)中开始新的迭代。
图6示出用于确定支撑点ξi和口相关联支撑权重wi的方法。
首先使控制变量的所有可能值的状态空间X的分区初始化。分区起初可选择作为状态空间X的不重要分区,例如,即状态空间X并不划分,但通过全部状态空间X给出。
计数器s初始化为值s=1。根据数字正交公式(例如,克卜勒桶(Kepler's barrel)公式、梯形(trapeziodal)公式、辛普森(Simpson's)公式或高斯正交)确定状态空间X的支撑点ξi,以同样方式确定相关联支撑权重wi
随后(2010)检查计数器s是否已达到最大分区深度Lmax。如果是这种情况,那么方法在步骤(2100)中完成。
否则,假定目标值xd作为用于控制变量x的值τ′0,且使用式(1)、(1')确定(2020)时间演变τ′0,τ′0…τ′T
随后任选地还根据初始概率分布p(x0)随机地选择另一值τ0用于控制变量x,且类似于使用式(1)、(1')的步骤2020确定(2030)另一时间演变τ0,τ1,...τT
随后(2040)使另一计数器1初始化为值1=1,且检查(2050)另一计数器1是否已达到计数器s的值。如果是这种情况,那么步骤2060进行,其中计数器s逐一递增,且有可能跳转回到步骤2010。如果不是这样的情况,那么确定(2070)变量ρl(τ),所述变量表征支撑点ξi的密度是否足够。密度可例如确定为
Figure BDA0002427324070000121
在这种情况下,Xl是状态空间X的分区的第1部分体积元素,Vol(Xl)是其体积且Nl是其中的支撑点ξi的数目。随后检查(2070)这一变量是否是ρl(τ)<1,除值“1”外的其它阈值也是可能的。
如果是这种情况(“j”),那么部分体积元素Xl例如通过沿一个或沿其所有尺寸减半的部分体积元素Xl来分割(2080)成多个较小部分体积元素。随后去除与部分体积元素Xl和相关联支撑权重wi相关联的支撑点ξi,且将支撑点ξi和相关联支撑权重wi添加用于较小的最新产生的部分体积元素中的每一个。步骤2090随后进行,其中另一计数器1逐一递增。随后有可能跳转回到步骤2050。
如果步骤2070中的检查显示尚未满足要求(“n”),那么步骤2090紧接着进行。

Claims (18)

1.一种用于自动设置致动器控制系统(45)的至少一个参数(θ)的方法,所述致动器控制系统设计为将致动器(20)的控制变量(x)控制为可预定义目标变量(xd),其中所述致动器控制系统(45)设计为取决于所述至少一个参数(θ)、所述目标变量(xd)和所述控制变量(x)来产生操纵变量(u),且设计为取决于所述操纵变量(u)来致动所述致动器(20),
其中取决于所述控制变量(x)的平稳概率分布(p*,θ)来确定所述至少一个参数(θ)的新值(θ*),且所述参数(θ)随后设置为这一新值(θ*)。
2.根据权利要求1所述的方法,其中取决于所述致动器(20)的模型(g),确切地说取决于高斯过程,有利地取决于稀疏高斯过程来确定所述平稳概率分布(p*,θ)。
3.根据权利要求2所述的方法,其中取决于所述操纵变量(u)和所得控制变量(x)来调适所述模型(g),当使用所述致动器控制系统(45)来控制所述致动器(20)时,所述操纵变量供应到所述致动器(20),其中在调适所述模型(g)后,取决于所述致动器(20)的所述控制变量(x)的所述平稳概率分布(p*,θ)来重新确定所述至少一个参数(θ)的新值(θ*),其中取决于目前调适的模型(g)来确定所述至少一个参数(θ)的所述新值(θ*)的所述重新确定。
4.根据权利要求1或权利要求3所述的方法,其中通过使用所述控制变量(x)的可能值估算积分来确定所述控制变量(x)的所述平稳概率分布(p*,θ),其中使用数字正交来进行所述估算。
5.根据权利要求4所述的方法,其中从根据初始概率分布(p(x0))随机确定的所述控制变量(x)的初始值(τ0)开始,取决于所述控制变量(x)的确定时间演变(τ1…τT)来确定支撑点(ξ)的密度,确切地说借助于所述模型(g)和/或所述致动器控制系统(45)来确定所述演变。
6.根据权利要求5所述的方法,其中从作为所述控制变量(x)的初始值(τ'0)的目标值(xd)开始,还取决于所述控制变量(x)的确定时间演变(τ1…τT)来确定所述支撑点(ξ)的所述密度,确切地说借助于所述模型(g)和/或所述致动器控制系统(45)来确定所述确定时间演变。
7.根据权利要求5或权利要求6所述的方法,其中取决于变量(Var)来选择所述支撑点(ξ)的密度,所述变量表征在所述控制变量(x)的确定时间演变中的所述控制变量(x)的至少一个值(τ0…τT,τ'0…τ'T)下的模型(g)的平滑度。
8.根据权利要求7所述的方法,其中取决于最小值(minVar)来选择区域(Xi)中的支撑件点(ξ)的所述密度,其中所述最小值(minVar)是所述变量(Var)的所述最小值,所述变量表征介于这一范围(Xi)内的所述控制变量(x)的所述值(τ0…τT,τ'0…τ'T)下的所述模型的平滑度。
9.根据权利要求4到8中任一项所述的方法,其中还可取决于区域(Xl)中的所述支撑点(ξ)的平均密度来选择所述区域(Xl)中的所述支撑点(ξ)的所述密度。
10.根据权利要求8和权利要求9所述的方法,其中如果支撑件点(ξ)的所述平均密度与所述最小值(minVar)的商低于可预定义阈值,那么支撑件点(ξ)的所述密度增大。
11.根据权利要求4到10中任一项所述的方法,其中取决于矩阵(M)的主要本征向量
Figure FDA0002427324060000021
来确定所述数字正交的结果,所述主要本征向量通过以下得出:支撑权重(wi)的对角矩阵(diag(w))与转移矩阵(Φ)的乘积,其中所述转移矩阵(Φ)的分量(Φi,j)各自表征所述控制变量(x)从第一支撑点(ξj)转移到第二支撑点(ξi)的概率。
12.根据前述权利要求中任一项所述的方法,其中取决于局部代价函数(r)来选择长期代价函数(R),其中取决于高斯函数和/或多项式函数来选择所述局部代价函数(r),所述多项式函数取决于所述操纵变量(x)与可预定义目标值(xd)之间的差。
13.根据前述权利要求中任一项所述的方法,其中所述操纵变量(u)通过限制函数(σ)受限于可预定义操纵变量范围内的值。
14.一种用于自动设置致动器控制系统(45)的至少一个参数(θ)的学习系统(40),所述致动器控制系统设计为将致动器(20)的控制变量(x)控制为可预定义目标变量(xd),其中所述学习系统(40)设计为实行根据权利要求1到13中任一项所述的方法。
15.根据权利要求14所述的学习系统(40),其设计为实行根据权利要求11所述的方法,其中所述方法借助于GPU(43)实行。
16.一种计算机程序,其设计为实行根据权利要求1到13中任一项所述的方法。
17.一种机器可读存储媒体(42),其上存储根据权利要求16所述的计算机程序。
18.一种致动器控制系统(45),其设计为将致动器(20)的控制变量(x)控制为可预定义目标变量(xd),所述致动器控制系统(45)设计为取决于至少一个参数(θ)、所述目标变量(xd)和所述控制变量(x)来产生操纵变量(u),且设计为取决于所述操纵变量(u)来致动所述致动器(20),其中使用根据权利要求1到13中任一项所述的方法来设置所述至少一个参数(θ)。
CN201880062854.9A 2017-10-20 2018-08-10 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统 Active CN111433688B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102017218813.8 2017-10-20
DE102017218813.8A DE102017218813A1 (de) 2017-10-20 2017-10-20 Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems und Aktorregelungssystem
PCT/EP2018/071742 WO2019076511A1 (de) 2017-10-20 2018-08-10 Verfahren und vorrichtung zum einstellen mindestens eines parameters eines aktorregelungssystems und aktorregelungssyste

Publications (2)

Publication Number Publication Date
CN111433688A true CN111433688A (zh) 2020-07-17
CN111433688B CN111433688B (zh) 2023-08-25

Family

ID=63209396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880062854.9A Active CN111433688B (zh) 2017-10-20 2018-08-10 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统

Country Status (5)

Country Link
US (1) US11550272B2 (zh)
EP (1) EP3698222B1 (zh)
CN (1) CN111433688B (zh)
DE (1) DE102017218813A1 (zh)
WO (1) WO2019076511A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017211209A1 (de) * 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz
US11574094B2 (en) * 2019-06-09 2023-02-07 BWXT Advanced Technologies LLC Rapid digital nuclear reactor design using machine learning
US11753023B2 (en) * 2020-01-19 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. Adaptive control of autonomous or semi-autonomous vehicle
DE102020102863A1 (de) 2020-02-05 2021-08-05 Festo Se & Co. Kg Parametrierung einer Komponente in der Automatisierungsanlage

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449511A (zh) * 2000-06-30 2003-10-15 陶氏化学公司 多变量矩阵处理控制
CN101763083A (zh) * 2009-12-29 2010-06-30 浙江大学 一种有效的控制变量参数化的工业过程动态优化系统及方法
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
DE102015203210A1 (de) * 2015-02-23 2016-08-25 Volkswagen Ag Verfahren zum Regeln einer Regelstrecke, Vorrichtung zur Erzeugung von Reglerparametern und Steuergerät

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024750A1 (en) * 2002-07-31 2004-02-05 Ulyanov Sergei V. Intelligent mechatronic control suspension system based on quantum soft computing
US7251290B2 (en) * 2002-12-16 2007-07-31 Nortel Networks Limited Adaptive controller for linearization of transmitter
US7917332B2 (en) * 2007-11-12 2011-03-29 Bae Systems Plc Sensor control
US20170200089A1 (en) * 2016-01-11 2017-07-13 National Central University Method and system for data analyzing by intrinsic probability distribution function
DE102017211209A1 (de) 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1449511A (zh) * 2000-06-30 2003-10-15 陶氏化学公司 多变量矩阵处理控制
CN101763083A (zh) * 2009-12-29 2010-06-30 浙江大学 一种有效的控制变量参数化的工业过程动态优化系统及方法
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
DE102015203210A1 (de) * 2015-02-23 2016-08-25 Volkswagen Ag Verfahren zum Regeln einer Regelstrecke, Vorrichtung zur Erzeugung von Reglerparametern und Steuergerät

Also Published As

Publication number Publication date
EP3698222B1 (de) 2024-06-05
DE102017218813A1 (de) 2019-04-25
EP3698222A1 (de) 2020-08-26
US11550272B2 (en) 2023-01-10
CN111433688B (zh) 2023-08-25
US20210191347A1 (en) 2021-06-24
WO2019076511A8 (de) 2019-07-11
WO2019076511A1 (de) 2019-04-25

Similar Documents

Publication Publication Date Title
CN111433688B (zh) 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统
CN110869858B (zh) 用于设定致动器控制系统的至少一个参数的方法和装置、致动器控制系统以及数据集
CN111670415B (zh) 用于控制系统的预测控制器、车辆及方法
EP3948440B1 (en) Nonlinear optimization method for stochastic predictive control
CN110275531B (zh) 障碍物的轨迹预测方法、装置及无人驾驶设备
US20220236698A1 (en) Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method
RU2719355C1 (ru) Устройство управления и способ управления
CN111971628B (zh) 求得可被致动器调节的被测变量的时间曲线的方法
JP2012208789A5 (zh)
JP2019087096A (ja) 行動決定システム及び自動運転制御装置
JP2003013794A (ja) 車両用制御パラメータの適合方法及び適合装置
KR102326733B1 (ko) 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체
CN112459890A (zh) 热管理系统及基于神经网络的热管理方法和装置
CN109976153B (zh) 控制无人驾驶设备及模型训练的方法、装置及电子设备
CN113939775A (zh) 用于确定针对技术系统的调节策略的方法和设备
CN110187707B (zh) 无人驾驶设备运行轨迹的规划方法、装置及无人驾驶设备
JP4432723B2 (ja) 制御装置
CN113548059B (zh) 车辆控制装置、车辆控制方法及车辆控制用计算机程序
JP2018181144A (ja) 電子制御装置
JP2019125021A (ja) 情報処理装置、情報処理方法、コンピュータプログラム、内燃機関の制御装置
JP2006072735A (ja) モデル予測制御装置およびモデル予測制御方法
CN108571388A (zh) 用于阻力矩适应的方法和装置
KR20210138516A (ko) 테스트 벤치를 작동하기 위한 장치 및 방법
JP2024059253A (ja) 車両制御装置及び車両制御プログラム
JP2022013263A (ja) 学習用データの車載処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant