CN111971628A - 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质 - Google Patents

求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质 Download PDF

Info

Publication number
CN111971628A
CN111971628A CN201980010792.1A CN201980010792A CN111971628A CN 111971628 A CN111971628 A CN 111971628A CN 201980010792 A CN201980010792 A CN 201980010792A CN 111971628 A CN111971628 A CN 111971628A
Authority
CN
China
Prior art keywords
actuator
state
variable
control
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980010792.1A
Other languages
English (en)
Inventor
阮东·德义
克里斯廷·丹尼尔
塞巴斯蒂安·特里姆佩
马丁·希格
安德烈亚斯·多尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Original Assignee
Robert Bosch GmbH
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH, Max Planck Gesellschaft zur Foerderung der Wissenschaften eV filed Critical Robert Bosch GmbH
Publication of CN111971628A publication Critical patent/CN111971628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/26Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using computer, e.g. microprocessor
    • F02D41/28Interface circuits
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25316Control unit and actuator in one unit, module
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B5/00Anti-hunting arrangements
    • G05B5/01Anti-hunting arrangements electric
    • HELECTRICITY
    • H10SEMICONDUCTOR DEVICES; ELECTRIC SOLID-STATE DEVICES NOT OTHERWISE PROVIDED FOR
    • H10NELECTRIC SOLID-STATE DEVICES NOT OTHERWISE PROVIDED FOR
    • H10N30/00Piezoelectric or electrostrictive devices
    • H10N30/80Constructional details
    • H10N30/802Circuitry or processes for operating piezoelectric or electrostrictive devices not otherwise provided for, e.g. drive circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

一种求得可被致动器(20)调节的被测变量(y)的时间曲线的方法,其中对所述致动器(20)施加某个控制变量(u)的时间曲线,其中所述求得是借助所述致动器(20)的特性的高斯过程状态模型来实施,其中根据可参数化的函数族(q(x1:T,f2:T,z))来求得所述致动器(20)的被测变量(y)的时间曲线,其中在所述可参数化的函数族(q(x1:T,f2:T,z))中,所述致动器(20)的特别是用过渡函数(ft)求得的下一潜在状态(xt)与所述致动器(20)的前一潜在状态(xt‑1)以及与所述致动器(20)的前一控制变量(ut‑1)的时间关联,等于所述高斯过程状态模型的相应关联。

Description

求得被测变量的时间曲线的方法、预测系统、致动器控制系 统、训练致动器控制系统的方法、训练系统、计算机程序和机 器可读的存储介质
背景技术
Roger Frigola、Yutian Chan和Carl E.Rasmussen所著《Variational GaussianProcess State-Space Models》(变分高斯过程状态空间模型,arXiv preprint arXiv:1406.4905v2,2014)揭示一种借助稀疏高斯过程(英语:sparse Gaussian processes)来变分贝叶斯学习非线性状态空间模型(英语:state-space model)的方法。
Thomas F.W.Nicholson、Marc Peter Deisenroth和James Hensman所著《Identification of Gaussian Process State Space Models》(高斯过程状态空间模型的识别,arXiv preprint arXiv:1705.10888v2,2017)以及Andreas Svensson和Thomas B.
Figure BDA0002608198880000011
所著《A flexible state space model for leaming nonlinear dynamicalSystems》(学习非线性动力学系统的柔性状态空间模型,arXiv preprint arXiv:1603.05486v2,2017)揭示了学习状态空间模型的其他方法。
本发明的优点
与此相比,具有独立权利要求1的特征的方法的优点在于:一种特别有效且可靠的方法,即使在高维潜在状态空间下也能学习非线性状态空间模型。
有利改进方案参阅独立权利要求。
发明内容
在第一方面中,本发明涉及一种求得可被致动器调节的被测变量y的时间曲线的方法,其中对该致动器施加某个控制变量u的时间曲线。
借助高斯过程状态模型(英语:Gaussian process state space model,简称GP-SSM)来求得,该高斯过程状态模型描述致动器的特性。根据可参数化的函数族q(x1:T,f2:T,z)来求得致动器的控制变量。
状态空间模型,也称状态模型,是在过渡模型f和过程噪声(英语:process noise)εx下借助潜在变量x来描述系统的特性。根据潜在变量x,借助具有测量噪声εy的观察函数g来求得被测变量y借助下标“t”通常就能描述时间变化,在此情况下,状态空间模型通过以下方式而产生,
Figure BDA0002608198880000021
用高斯过程就能通过函数来展示分布。从而将关于系统特性的先验假设考虑在内。针对一组观察X=[x1,...,xN],将对应的函数值f=[f(x1),...,f(xN)]作为共同高斯分布,亦即
Figure BDA0002608198880000022
其中均值矢量mX为项mi=m(xi),协方差矩阵KX,X为要素Kij=k(xi,xj)。
Figure BDA0002608198880000023
通常表示正态分布。均值矢量的项mX例如可以选择等于零。函数k(xi,xj)可以用适宜的超参数
Figure BDA0002608198880000024
例如由下式给出:
Figure BDA0002608198880000025
在观察X的函数值f给出的情况下,新观察点x*的相关概率分布就能被写成
Figure BDA0002608198880000026
其中
Figure BDA0002608198880000027
其中
Figure BDA0002608198880000028
其中kA,B表示A、B中每个要素对的协方差的标量或矢量。此处重要之处在于,如此地选择核,使得函数μ,σ可根据x*而求微分。
通过缩写
Figure BDA0002608198880000029
就能将过渡模型写成
Figure BDA00026081988800000210
经观察的被测变量y从时间点a至未来时间点b的时间序列被缩写成ya:b(类似于其他变量)。
有利地,描述性高斯过程可以实现为稀疏高斯过程。为此,可以在可预设的伪输入点(英语:pseudo input points)ζ=[ζ1,...,ζP]上设置诱导高斯过程目标状态(英语:inducingGaussian process targets)z=[z1,...,zP]。此举特别是在训练数据组较大的情况下会降低高斯过程的参数的调整计算量。
既可以针对过渡模型f又可以针对观察函数g来选择高斯过程。但为了识别表征高斯过程的参数,优选选择已知的参数化观察模型,例如
Figure BDA00026081988800000211
其中对角协方差矩阵
Figure BDA00026081988800000212
且观察函数
g(xt)=Cxt, (5)
其中如此地选择矩阵C,使其选择潜在变量xt的Dy第一项,即
Figure BDA00026081988800000213
其中I为单位矩阵。Dx表示潜在变量x的空间的维度,Dy表示被测变量y的空间的维度。在Dy<Dx的情况下,这个模型尤为合适,这种情况通常会出现在实体传感器数目有限的系统中,如机器人中。观察函数g也可以由另一参数的可求微分的图像产生。就高维观察空间,即较大的Dy而言,例如也可以将另一可求微分的函数,如神经网络,用作观察函数g。
这样就能将GP-SSM的变量的共同分布函数写成
Figure BDA0002608198880000031
其中
Figure BDA0002608198880000032
可以将过程噪声选为具有对角协方差
Figure BDA0002608198880000033
Figure BDA0002608198880000034
潜在状态p(x1)的初始分布是未知的。针对每个潜在维度d独立地用
Figure BDA0002608198880000035
来描述过渡动态。这个概率可以通过稀疏高斯后验概率分布
Figure BDA0002608198880000036
类似于等式(3)地选择。诱导目标状态zd的后验概率分布p(zd)也可以正态分布地用适宜的参数mζ、Kζ,ζ来选择:
Figure BDA0002608198880000037
用来求得等式(6)所给出的模型的对数似然或后验概率分布的积分极难求解。这样就产生了使用变异函数的方法。
César Lincoln C.Mattos、Zhenwen Dai、Andreas Damianou、Jeremy Forth、Guilherme A.Barreto、Neil D.Lawrence所著《Recurrent Gaussian processes》(递归高斯过程,arXiv preprint arXiv:1511.06644.v6,2016)例如揭示过:将所谓的平均场近似应用于潜在状态x1:T。该案用下式的因子分解的近似函数族q来对等式(6)所给出的模型的后验概率分布p(x1:T,f2:T,z|y1:T)
Figure BDA0002608198880000038
进行近似计算。通过改变将这个族参数化的参数,就能尝试尽可能对实际的后验概率分布进行近似计算。
为了更好地保持模型(6)中各状态间的时间关系,作为前述方案的替代方案,可以如此地选择可参数化的函数族q(x1:T,f2:T,z),使得致动器的相继的潜在状态x的时间关联保持不变。亦即,该致动器的下一潜在状态xt(其例如用过渡函数求得)与该致动器的此前,特别是前一潜在状态x以及与该致动器的此前,特别是前一控制变量u的关联,应等于该高斯过程状态模型的相应关联,特别是对应于等式(6)。亦即,项
Figure BDA0002608198880000039
或(在稀疏表述的情况下)
Figure BDA00026081988800000310
在等式(6)中所表述的关联应在可参数化的函数族q(x1:T,f2:T,z)中同样保持。
特定而言,可参数化的函数族q(x1:T,f2:T,z)被配置成,针对所测训练数据组ymess尽可能对后验概率分布p(x1:T,f2:T,z|y1:T)进行近似计算。
优选通过以下方式来求得训练数据组ymess:用可预设的控制变量u的可预设的训练曲线u1:n来控制致动器并且求得被测变量y的所产生的时间训练曲线y1:n。这样就能通过(y1;n,u1:n)来产生训练数据组ymess
有利地,可参数化的函数族q(x1:T,f2:T,z)与致动器的初始潜在状态x1的关联由与这个初始潜在状态相关(特别是仅与该状态相关)的因子给出,其中这个因子由可参数化的变异函数q(x1),特别是由正态分布
Figure BDA0002608198880000041
产生。
作为替代或补充方案,可参数化的函数族q(x1:T,f2:T,z)与高斯过程目标状态zd的关联可以由第二因子给出,其中这个第二因子为可参数化的第二变异函数q(zd),其作为自变量而具有相应的高斯过程目标状态zd
其中,该可参数化的第二变异函数q(zd)可以由正态分布函数
Figure BDA0002608198880000042
产生。
在此情况下,该可参数化的函数族具有下式
Figure BDA0002608198880000043
在此情况下,用来将这个可参数化的函数族参数化的参数由以下给出:
-过程噪声
-传感器噪声
-针对诱导高斯过程目标状态的变异参数
-可预设的伪输入点
-核-超参数。
采用该可参数化的函数族后,便能通过以下方式来求得致动器的潜在状态
Figure BDA0002608198880000044
的预测时间变化:根据下一时间点上的预测潜在状态的可参数化的变异函数以给出前一时间点上的预测潜在状态
Figure BDA0002608198880000045
的方式,来递归地求得下一时间点上的潜在状态
Figure BDA0002608198880000046
的预测时间变化的样本,其中根据该潜在状态的预测时间变化来选择致动器的控制变量。
这样就能像实施例所详细阐述的那样简单地求得证据下界,即ELBO。
通过潜在状态x的马可夫结构和稀疏高斯过程近似计算,在某个时间点t,q(xt)上的潜在状态的(边缘化)近似分布,在前一时间点t-1的分布给出的情况下,与此前的时步无关。这样就能实施前述的递归操作。
但需要规定初始的潜在状态
Figure BDA0002608198880000051
可以指定,特别是随机规定该潜在状态的预测时间变化的初始潜在状态
Figure BDA0002608198880000052
此举非常简单。
但也可以根据可参数化的变异函数q(x1)通过初始状态x1的分布函数以给出所测训练数据组q(x1|y1:n,u1:n)的方式来求得初始潜在状态
Figure BDA0002608198880000053
该分布函数的表征参数通过反向传播而被训练。
在另一方面中,本发明涉及一种方法,其中根据被测变量y的借助前述方法中的一个所测得的曲线来求得用来控制致动器的最佳控制变量uopt。这样就能非常简单地对致动器进行最佳控制。
在另一方面中,本发明涉及一种学习控制策略的方法,也称“policy leaming”。其中,求得至少一个最佳参数ξopt。这个最佳参数ξopt表征致动器控制系统的控制策略。该致动器控制系统被配置成根据该控制策略来用控制变量u控制致动器。亦即,可以根据控制策略并且根据最佳参数ξopt来求得控制变量u。借助前述方法中的一个来求得被测变量y的应用该控制策略时所产生的时间曲线,并且根据被测变量y的该所测曲线来求得该至少一个最佳参数ξopt
在另一方面中,本发明涉及一种训练致动器控制系统的方法,该致动器控制系统被配置成实施前述方法中的一个,其中对表征可参数化的函数族q(x1:T,f2:T,z)的参数和/或确定性模型参数进行调整,使其针对所测训练数据组尽可能至少对所述致动器的至少潜在状态x1:T和所述过渡函数f2:T的时间曲线的后验概率分布p(x1:T,f2:T,z|y1:T),以给出所述致动器的被测变量y1:T的时间曲线的方式,进行近似计算。
下面参照所附图式对本发明的实施方式进行详细说明,图中:
图1为本发明的实施方式的结构的示意图;
图2为本发明的其他实施方式的结构的示意图;
图3为本发明的一个方面中的方法的流程的流程图;
图4为本发明的另一方面中的方法的流程的流程图;
图5为本发明的又一方面中的方法的流程的流程图。
具体实施方式
图1示出本发明的实施方式的结构。图1在一个实施方式中示出在环境20中与致动器控制系统40相互作用的致动器10。下文也将致动器10和环境20共同称为致动器系统。例如定期地用传感器30检测致动器系统的状态,该传感器也可以由多个传感器构成。将传感器30的每个传感器信号S传输至致动器控制系统40。据此,致动器控制系统40接收一个序列的传感器信号S。致动器控制系统40由此而求得一个序列的控制信号A,致动器10接收该控制信号。
致动器10例如可以指(半)自主机器人,如(半)自主汽车,或指对田地里的某类杂草进行处理(如加以拔除或喷洒相应的化学品)的机器人。
传感器30例如可以指一或多个视频传感器以及/或者一或多个雷达传感器以及/或者一或多个超声波传感器以及/或者一或多个位置传感器(如GPS)。作为替代或补充方案,传感器30也可以包括求得关于致动器系统的状态的信息的信息系统,如求得环境20中的当前或未来的天气状态的天气信息系统。
在另一实施例中,致动器10可以指制造机器人,在此情况下,传感器30例如可以指检测制造机器人的制造产品的特性的光学传感器。
在另一实施例中,致动器10可以指用来释放或不释放某个设备的活动的释放系统。传感器30例如可以指用来进行脸部检测的光学传感器(例如用于检测图像或视频数据)。致动器10根据控制信号A的序列来求得释放信号,其作用在于:根据该释放信号的值来释放设备。该设备例如可以指物理或逻辑上的访问控制。如此便能根据控制信号A的值来设置访问控制,从而允许或者不允许进行访问。
在另一实施例中,致动器10例如可以指楼宇控制的一部分,如暖气的控制器。
致动器控制系统40在可选的接收单元50中接收传感器的传感器信号S的序列,该接收单元将传感器信号S的序列转换成被测变量y的序列(作为替代方案,也可以分别将传感器信号S直接用作被测变量y)。被测变量y例如可以为传感器信号S的片段或后续处理。将被测变量y输送至机器学习系统60,该学习系统的工作方式参阅图4。
机器学习系统60从被测变量y求得控制变量u。根据存储在参数存储器P中的参数Φ来求得控制变量。这些参数Φ特别是可以包括参数ξopt,其对致动器控制系统40的控制策略进行表征。参数存储器P可以整合在致动器控制系统40中,但该参数存储器也可以与致动器控制系统40空间分离且例如通过网络连接而与致动器控制系统40连接。将控制变量u输送至可选的转换单元80,其从中求得控制信号A,该控制信号被输送至致动器10。
在其他实施方式中,致动器控制系统40包括致动器10。
在其他优选实施方式中,致动器控制系统40包括一或多个处理器45和至少一个用来存储指令的机器可读的存储介质46,当在处理器45上执行这些指令时,这些指令使得致动器控制系统40实施用于控制致动器10的方法。
图2示出用来训练致动器控制系统40的机器学习系统60的机器训练系统140。
测量值装置150求得训练数据组ymess,其既包括控制变量u又包括对应的被测变量y。这些变量例如可以通过借助控制变量u来控制致动器10以及求得所产生的被测变量y来求得,并且存储在数据载体(未予绘示)上,该数据载体可以是测量值装置150的一部分。为了求得训练数据组ymess,测量值装置150可以从数据载体读取。
将训练数据组ymess输送至训练块190,其根据存储在参数存储器P中的参数Φ借助图3所示方法来求得经优化的参数Φ',其在参数存储器P中取代所存储的参数Φ。
作为替代或补充方案,可以借助图5所示方法来求得经优化的参数ξopt,其可以是经优化的参数Φ'的一部分并同样被存储在参数存储器P中。
在其他优选实施方式中,训练系统140包括一或多个处理器200和至少一个用来存储指令的机器可读的存储介质210,当在处理器200上执行这些指令时,这些指令使得训练系统140实施用于训练该机器学习系统60的方法。
图3示出训练机器学习系统60的方法的一种实施方式。首先(1000)将参数Φ初始化并提供具有控制变量u和被测变量y的时间曲线的训练数据组。相应的时间曲线用u1:T或y1:T表示。
随后(1100)可选地将这些时间曲线分解成规定长度的子曲线Tsub
而后针对该曲线或者针对多个子曲线中的一或多个而分别求得预测一或多个相应轨迹的潜在变量
Figure BDA0002608198880000071
为此,首先例如根据参数化分布函数q(x1)来求得初始预测潜在状态
Figure BDA0002608198880000072
在此情况下,这个分布函数的参数优选同样为待优化参数Φ的一部分,因为初始潜在状态所引起的错误特别是在时间曲线较短时无法迅速减轻。随后,根据该时间曲线的长度而递归地求得其他预测潜在状态
Figure BDA0002608198880000073
在此情况下,从分布函数q(xt)中获得样本
Figure BDA0002608198880000074
为此,例如获得样本
Figure BDA0002608198880000075
而后针对所有d和所有时间点t>l
Figure BDA0002608198880000076
而获得。其中
Figure BDA0002608198880000077
随后对参数Φ进行调整,从而将Kullback-Leibler散度KL(q(x1:T,f2:T,z)||p(x1 :T,f2:T,z|y1:T))最小化,其中在分成若干子曲线的情况下,长度T当然被Tsub取代。通过通常的证据下界(英语:evidence lower bound,简称:ELBO),
这个KL散度的最小化与ELBO的最大化等效,其由下式给出:
Figure BDA0002608198880000081
这样就能(1200)根据等式(13)来估算ELBO。为此,借助潜在变量x的预测时间曲线并依据
Figure BDA0002608198880000082
来估算等式(13)中的右边第一项,其中N表示潜在变量x的在步骤1100中产生的预测时间曲线。
基于对ELBO的这种随机求得来求得函数
Figure BDA0002608198880000083
的梯度,并且实施参数Φ的随机梯度上升,以便求得新的参数Φ'(1300)。
随后(1400)检验是否达到某项散度标准。如果是(1500),则新的参数Φ'取代存储在参数存储器P中的参数Φ,该方法结束。否则,返回步骤1150。
图4示出用于控制致动器10的方法的一种实施方式。可选地,首先(2000)实施图3所示训练方法。随后(2010-2050)在控制变量u上针对可预设的预测水平线Tpred实施模型预测控制。
为此,首先(2010)产生控制变量u的时间曲线。随后(2020)求得(如随机选择或者选择等于0)初始潜在状态
Figure BDA0002608198880000084
此举是可行的,因为就稳定瞬态活跃度而言,错误选择的初始潜在状态
Figure BDA0002608198880000085
所引起的瞬态效应是会急速消退的。随后,例如借助等式(11)来求得潜在状态
Figure BDA0002608198880000086
并且借助观察函数g(例如由等式(5)产生)来求得被测变量y1:Tpred
而后(2030)根据被测变量y1:Tpred的所测曲线来求得成本函数。
随后(2040)检验是否达到成本函数的散度标准。如果是(2050),则将控制变量u的当前所测曲线用作最佳控制变量uopt,并且根据该最佳控制变量uopt的曲线来控制致动器10。
如果否(2060),则改变控制变量u的曲线。例如可以采用梯度下降法,其中例如可以用类似于步骤(2020)的评价步骤来数值求得梯度或者解析预设梯度。而后,随着控制变量u的经改变的曲线而返回步骤2020。
图5示出用于求得参数ξopt的方法的一种实施方式。可选地,首先(3000)实施图3所示训练方法。
随后(3010)产生控制变量u的初始值和参数ξopt的初始值。同样,以类似于步骤(2020)的方式求得潜在状态x的初始值。随后(3020)借助等式(5)和(11)以及参数ξopt所表征的当前控制策略,来求得潜在状态u、被测变量y和控制变量u的时间曲线。而后(4030)根据被测变量的所测曲线来求得成本函数。
随后(3040)检验是否达到成本函数的散度标准。如果是(3050),则将当前所测参数ξopt用作最佳参数ξopt
如果否(3060),则改变参数ξopt。例如可以采用梯度下降法。而后,随着参数ξopt的经改变的曲线而返回步骤3020。
所有方法当然既可以在软件中实施,也可以在硬件中实施,或者在由硬件与软件构成的混合形式中实施。

Claims (18)

1.一种求得可被致动器(20)调节的被测变量(y)的时间曲线的方法,其中对所述致动器(20)施加某个控制变量(u)的时间曲线,
其中所述求得是借助所述致动器(20)的特性的高斯过程状态模型来实施,其中根据可参数化的函数族(q(x1:T,f2:T,z))来求得所述致动器(20)的被测变量(y)的时间曲线,其中在所述可参数化的函数族(q(x1:T,f2:T,z))中,所述致动器(20)的特别是用过渡函数(ft)求得的下一潜在状态(xt)与所述致动器(20)的前一潜在状态(xt-1)以及与所述致动器(20)的前一控制变量(ut-1)的时间关联,等于所述高斯过程状态模型的相应关联。
2.根据权利要求1所述的方法,其中所述可参数化的函数族(q(x1:T,f2:T,z))被配置成,针对所测训练数据组(ymess)尽可能至少对所述致动器(20)的至少所述潜在状态(x1:T)和所述过渡函数(f2:T)的时间曲线的后验概率分布(p(x1:T,f2:T,z|y1:T)),以给出所述被测变量(y1:T)的时间曲线的方式,进行近似计算。
3.根据权利要求1或2所述的方法,其中所述可参数化的函数族(q(x1:T,f2:T,z))与所述致动器(20)的初始潜在状态(x1)的关联由与所述初始潜在状态(x1)相关的因子给出,其中所述因子由可参数化的变异函数(q(x1)),特别是由正态分布(N(mx1,Sx1))产生。
4.根据权利要求1至3中任一项所述的方法,其中所述高斯过程状态模型为在可预设的伪输入点(ζ1,...,ζP)上具有诱导高斯过程目标状态(z1,...,zP)的稀疏高斯过程状态模型。
5.根据权利要求3和4所述的方法,其中所述可参数化的函数族(q(x1:T,f2:T,z))与高斯过程目标状态(zd)的关联由第二因子给出,其中所述第二因子为可参数化的第二变异函数(q(zd)),其作为自变量而具有相应的高斯过程目标状态(zd)。
6.根据权利要求5所述的方法,其中所述可参数化的第二变异函数(q(zd))由正态分布函数(N(zd|md,Sd))产生。
7.根据权利要求4至6中任一项所述的方法,其中通过以下方式来求得所述致动器(20)的潜在状态
Figure FDA0002608198870000011
的预测时间变化:根据下一时间点上的预测潜在状态的可参数化的变异函数(q)以给出前一时间点上的预测潜在状态
Figure FDA0002608198870000012
的方式,来递归地求得下一时间点上的潜在状态
Figure FDA0002608198870000013
的预测时间变化的样本,其中根据所述潜在状态(x)的预测时间变化来选择所述致动器(20)的被测变量(y)的时间曲线。
8.根据权利要求7所述的方法,其中指定,特别是随机规定所述潜在状态的预测时间变化的初始潜在状态
Figure FDA0002608198870000021
9.根据权利要求7所述的方法,其中根据可参数化的变异函数(q(x1))通过所述初始状态(x1)的分布函数以给出所测训练数据组(q(x1|y0:n,u0:n))的方式来求得初始潜在状态
Figure FDA0002608198870000022
所述分布函数的表征参数可通过反向传播而被训练。
10.根据上述权利要求中任一项所述的方法,其中根据所述被测变量(y)的借助权利要求1至9中任一项所述的方法所测得的曲线来求得最佳控制变量(uopt)。
11.根据权利要求10所述的方法,其中借助所述最佳控制变量(uopt)来控制所述致动器(20)。
12.一种求得至少一个最佳参数(ξopt)的方法,所述参数表征致动器控制系统(40)的控制策略,所述致动器控制系统被配置成根据所述控制策略来用控制变量(u)控制致动器(20),
其中借助根据权利要求1至10中任一项所述的方法来求得可被所述致动器(20)调节的被测变量(y)的应用所述控制策略时所产生的时间曲线,并且根据所述被测变量(y)的所测曲线来求得所述至少一个最佳参数(ξopt)。
13.一种预测系统(60),其被配置成实施根据权利要求1至10中任一项所述的方法。
14.一种致动器控制系统(40),其被配置成借助根据权利要求11所述的方法来控制致动器(20)。
15.一种训练根据权利要求14所述的致动器控制系统(40)的方法,其中对所述可参数化的函数族(q(x1:T,f2:T,z))的参数(Φ)和/或确定性参数进行调整,使其针对所测训练数据组尽可能至少对所述致动器的至少所述潜在状态(x1:T)和所述过渡函数(f2:T)的时间曲线的后验概率分布(p(x1:T,f2:T,z|y1:T)),以给出所述被测变量(y1:T)的时间曲线的方式,进行近似计算。
16.一种机器训练系统(140),其被配置成借助根据权利要求15所述的方法来训练根据权利要求14所述的致动器控制系统(40)。
17.一种计算机程序,其被配置成实施根据权利要求1至12或权利要求15中任一项所述的方法的所有步骤。
18.一种机器可读的存储介质(46,2010),根据权利要求17所述的计算机程序存储在所述存储介质上。
CN201980010792.1A 2018-01-30 2019-01-28 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质 Pending CN111971628A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018201411.6A DE102018201411A1 (de) 2018-01-30 2018-01-30 Verfahren zum Ermitteln eines zeitlichen Verlaufs einer Messgröße, Prognosesystem, Aktorsteuerungssystem, Verfahren zum Trainieren des Aktorsteuerungssystems,Trainingssystem, Computerprogramm und maschinenlesbares Speichermedium
DE102018201411.6 2018-01-30
PCT/EP2019/052026 WO2019149664A1 (de) 2018-01-30 2019-01-28 Verfahren zum ermitteln eines zeitlichen verlaufs einer messgrösse, prognosesystem, aktorsteuerungssystem, verfahren zum trainieren des aktorsteuerungssystems, trainingssystem, computerprogramm und maschinenlesbares speichermedium

Publications (1)

Publication Number Publication Date
CN111971628A true CN111971628A (zh) 2020-11-20

Family

ID=65324332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980010792.1A Pending CN111971628A (zh) 2018-01-30 2019-01-28 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质

Country Status (5)

Country Link
US (1) US11093863B2 (zh)
EP (1) EP3746850B1 (zh)
CN (1) CN111971628A (zh)
DE (1) DE102018201411A1 (zh)
WO (1) WO2019149664A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020206913B4 (de) 2020-06-03 2022-12-22 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Betreiben eines Roboters
DE102021124928A1 (de) 2021-09-27 2023-03-30 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Vorrichtung und Verfahren zum Abschätzen von Unsicherheiten
EP4276712A1 (en) * 2022-05-13 2023-11-15 Robert Bosch GmbH Method and the device for operating a technical system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070032890A1 (en) * 2005-03-21 2007-02-08 The Board Of Regents For Oklahoma State University Method and apparatus for robust vibration suppression
CN101538941A (zh) * 2008-03-17 2009-09-23 西法股份公司 控制用于泵送混凝土的关节臂的振动的方法及相关装置
CN102052183A (zh) * 2009-11-02 2011-05-11 株式会社电装 带有用于致动器控制算法的发动机控制系统
CN102147602A (zh) * 2010-02-08 2011-08-10 普瑞玛工业股份有限公司 用于监控激光加工工艺的质量的方法及相应的系统
CN102574526A (zh) * 2009-08-05 2012-07-11 罗伯特·博世有限公司 用于校准自动转向的泊入辅助装置的方法和控制装置
CN104823119A (zh) * 2012-10-01 2015-08-05 谷歌公司 用于环境控制系统的辐射供热控制和方法
CN105774905A (zh) * 2015-01-08 2016-07-20 通用汽车环球科技运作有限责任公司 与电动助力转向控制器和后转向一体化的防碰撞控制
DE202017102235U1 (de) * 2017-04-13 2017-05-12 Robert Bosch Gmbh Trainingssystem
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5010473A (en) * 1989-08-31 1991-04-23 Duke University Method and apparatus for model-based control of an open-loop process
US7158840B2 (en) * 2001-06-29 2007-01-02 Cymer, Inc. Tuning control parameters of vibration reduction and motion control systems for fabrication equipment and robotic systems
CN1305100C (zh) * 2001-07-26 2007-03-14 皇家菲利浦电子有限公司 测量扫描电子显微镜的性能的方法
US8046090B2 (en) * 2007-01-31 2011-10-25 Honeywell International Inc. Apparatus and method for automated closed-loop identification of an industrial process in a process control system
DE102010028259A1 (de) * 2010-04-27 2011-10-27 Robert Bosch Gmbh Mikrocontroller mit einer Recheneinheit und einer Logikschaltung sowie Verfahrung zur Durchführung von Rechnungen durch einen Mikrocontroller für eine Regelung oder eine Steuerung in einem Fahrzeug
EP3086703B1 (en) * 2013-12-27 2021-03-10 University Of Washington Through Its Center For Commercialization Adaptive control of a fiber scanner with piezoelectric sensing
EP2996001A1 (de) * 2014-09-10 2016-03-16 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Analyse eines Datensatzes aus Beobachtungen
DE102016220096B3 (de) * 2016-10-14 2018-02-08 Siemens Healthcare Gmbh Verfahren zur Generierung von Röntgenbilddaten

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070032890A1 (en) * 2005-03-21 2007-02-08 The Board Of Regents For Oklahoma State University Method and apparatus for robust vibration suppression
CN101538941A (zh) * 2008-03-17 2009-09-23 西法股份公司 控制用于泵送混凝土的关节臂的振动的方法及相关装置
CN102574526A (zh) * 2009-08-05 2012-07-11 罗伯特·博世有限公司 用于校准自动转向的泊入辅助装置的方法和控制装置
CN102052183A (zh) * 2009-11-02 2011-05-11 株式会社电装 带有用于致动器控制算法的发动机控制系统
CN102147602A (zh) * 2010-02-08 2011-08-10 普瑞玛工业股份有限公司 用于监控激光加工工艺的质量的方法及相应的系统
CN104823119A (zh) * 2012-10-01 2015-08-05 谷歌公司 用于环境控制系统的辐射供热控制和方法
CN105774905A (zh) * 2015-01-08 2016-07-20 通用汽车环球科技运作有限责任公司 与电动助力转向控制器和后转向一体化的防碰撞控制
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
DE202017102235U1 (de) * 2017-04-13 2017-05-12 Robert Bosch Gmbh Trainingssystem

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STEFANOS ELEFTHERIADIS, ET AL.: "Identification or Gaussian Process State Space Models", 31 December 2017, pages: 1 - 20 *

Also Published As

Publication number Publication date
US20210011447A1 (en) 2021-01-14
US11093863B2 (en) 2021-08-17
DE102018201411A1 (de) 2019-08-01
EP3746850A1 (de) 2020-12-09
EP3746850B1 (de) 2022-02-23
WO2019149664A1 (de) 2019-08-08

Similar Documents

Publication Publication Date Title
Heess et al. Memory-based control with recurrent neural networks
JP4970408B2 (ja) 物体特性のロバストな推定を用いる適応型運転者支援システム
CN111971628A (zh) 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质
KR20190136893A (ko) 강건한 자동화 학습 시스템을 생성하고 훈련된 자동화 학습 시스템을 시험하기 위한 방법, 장치 및 컴퓨터 프로그램
US11531899B2 (en) Method for estimating a global uncertainty of a neural network
EP2715459A1 (en) Machine-implemented method for obtaining data from a nonlinear dynamic real system during a test run
CN110799949A (zh) 用于消除两个或更多个冗余模块的冗余的方法、设备和具有指令的计算机可读存储介质
JP2004199692A (ja) 確率計算時間アルゴリズムによるリアルタイムアプリケーションを実現するシステム及び方法
CN113379064A (zh) 用于预测机器学习系统的适合于训练数据记录的配置的方法、设备和计算机程序
Kreucher et al. Adaptive multi-modality sensor scheduling for detection and tracking of smart targets
CN111433688A (zh) 用于设置致动器控制系统的至少一个参数的方法和装置以及致动器控制系统
Louati Cloud-assisted collaborative estimation for next-generation automobile sensing
Kreucher et al. Non-myopic approaches to scheduling agile sensors for multistage detection, tracking and identification
CN114391109A (zh) 使用不同的传感器信息确定物体位置的方法
JP4882544B2 (ja) 追尾処理装置及びその方法並びにプログラム
CN115221921A (zh) 传感器的感知性能评估方法、车辆以及存储介质
JP6945029B2 (ja) スパースセンサ測定値を用いる機器の予測保守システム
US11599827B2 (en) Method and apparatus for improving the robustness of a machine learning system
Feddaoui et al. A Kalman filter for linear continuous-discrete systems with asynchronous measurements
Huang et al. Bayesian Real-Time System Identification: From Centralized to Distributed Approach
US20230153691A1 (en) Method for Generating Training Data for Training a Machine Learning Algorithm
US20210232489A1 (en) Method for validating a software
US20230306234A1 (en) Method for assessing model uncertainties with the aid of a neural network and an architecture of the neural network
Tang Synthesis of Data-Driven Nonlinear State Observers using Lipschitz-Bounded Neural Networks
CN114296350B (zh) 一种基于模型参考强化学习的无人船容错控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination