CN113939775A - 用于确定针对技术系统的调节策略的方法和设备 - Google Patents

用于确定针对技术系统的调节策略的方法和设备 Download PDF

Info

Publication number
CN113939775A
CN113939775A CN202080041201.XA CN202080041201A CN113939775A CN 113939775 A CN113939775 A CN 113939775A CN 202080041201 A CN202080041201 A CN 202080041201A CN 113939775 A CN113939775 A CN 113939775A
Authority
CN
China
Prior art keywords
model parameters
model
function
regulation
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080041201.XA
Other languages
English (en)
Other versions
CN113939775B (zh
Inventor
L·弗勒利希
E·克伦斯科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN113939775A publication Critical patent/CN113939775A/zh
Application granted granted Critical
Publication of CN113939775B publication Critical patent/CN113939775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种计算机实施的用于借助贝叶斯优化方法来创建针对技术系统(2)的调节的方法,其中基于调节模型的模型参数(
Figure 100004_DEST_PATH_IMAGE001
)创建和可实施所述调节,其中为了优化所述调节而实施下列步骤:‑提供质量函数(
Figure 551953DEST_PATH_IMAGE002
),所述质量函数(
Figure 734672DEST_PATH_IMAGE002
)对应于可训练的回归函数,并且所述质量函数(
Figure 779989DEST_PATH_IMAGE002
)基于模型参数(
Figure 440777DEST_PATH_IMAGE001
)来评价技术系统(2)的调节的质量;‑基于质量函数(
Figure 379783DEST_PATH_IMAGE002
)来执行贝叶斯优化方法,以便迭代地确定具有模型参数(
Figure 467825DEST_PATH_IMAGE001
)的经过优化的模型参数集;其中在执行贝叶斯优化方法期间,关于如下那些维度来扩展说明模型参数的允许的值域的模型参数域(
Figure DEST_PATH_IMAGE004AAA
)、尤其是扩展了扩展程度(
Figure DEST_PATH_IMAGE006A
):针对所述维度,在当前迭代中确定的模型参数(
Figure 593913DEST_PATH_IMAGE001
)处在范围界限处。

Description

用于确定针对技术系统的调节策略的方法和设备
技术领域
本发明涉及一种用于找到针对技术系统的合适的调节策略(Regelungsstrategie)的方法,尤其是在使用贝叶斯优化方法的情况下找到该调节策略的方法。尤其是,本发明涉及一种用于更高效地优化调节模型的模型参数的计算机实施的方法,用于实施针对技术系统的调节策略。
背景技术
在所谓的强化学习(Reinforcement Learning)中,调节系统反复地与环境相互作用,并且自动地从系统特性中学习行动策略。学习过程通过最小化通过成本函数或质量函数说明的成本值来进行,该成本值评价调节系统的性能。
尤其是无模型的强化学习方法是有利的,因为不需要关于环境的知识和环境与系统的共同作用,可是系统与环境在学习过程期间的交互时间非常长。与此相反,在传统的基于模型的方法中,初始地预先给定模型结构,所述模型结构原则上描述了调节系统在该环境中的特性。借此,可以映射调节系统与环境的交互的影响。可以简单且高效地执行通过参数适配来适配模型结构。可是,传统方法有缺点,因为所选择的模型结构可能是不合适的,并且借此通过优化调节模型进行的参数适配并未导致最优的结果。
与强化学习相结合的对调节模型的创建和优化可以与贝叶斯优化相组合地来执行,其中成本函数被建模为高斯过程模型。这能够实现针对调节模型创建高效的黑箱优化器(Black-Box-Optimierer),否则可能要费力地创建/参数化所述调节模型。可是,由于这样的调节模型的高数目的模型参数,优化非常费力,以致需要大数目的测定过程(Vermessungsvorgaengen),并且由于大量的测量数据,长的训练时间是惯例。
发明内容
根据本发明,设置了根据权利要求1所述的一种用于创建针对技术系统的调节的方法,以及设置了根据并列的权利要求所述的一种设备和一种系统。
其他构建方案在从属权利要求中予以说明。
根据第一方面,设置了一种用于借助贝叶斯优化方法来创建针对技术系统的调节的方法,其中基于模型参数来创建和可实施所述调节,其中为了优化所述调节而实施下列步骤:
- 提供质量函数,所述质量函数的形式对应于可训练的回归函数,并且所述质量函数基于模型参数来评价技术系统的调节的质量;
- 基于质量函数来执行贝叶斯优化方法,以便迭代地优化具有模型参数的模型参数集;
其中在执行贝叶斯优化方法期间,关于如下那些维度来扩展说明模型参数的允许的值域的模型参数域:针对所述维度,在当前迭代中确定的模型参数分别处在范围界限处。
为了对调节系统的调节进行建模,创建调节模型。调节模型限定了调节策略,并表示函数关系,利用该函数关系,基于调节的一个或者多个输入量来计算可调量(Stellgroesse)。输入量中的至少一个输入量在此对应于要调节的技术系统的状态量。
调节模型的形式可以以各式各样的方式来预先给定。这样,调节模型可以包含公式关系(Formelbeziehung)或者基于此,该公式关系基于物理定律、如例如运动方程、振荡方程、衰减特性等。调节模型也可以基于自由选择的或者以别的方式确定的公式关系。该公式关系常常必须考虑技术系统的非线性特性。
用于确定调节模型的贝叶斯优化方法在一个技术系统的情况下迭代地应用不同的调节策略,并以高效的方式优化调节。在此,质量函数可以借助可训练的回归函数而被建模,尤其是可以借助高斯过程回归而被建模,以便将系统模型的性能建模为调节模型的模型参数的函数,其中高斯过程回归基于带有噪声的(那里测量的)状态量来创建。
原则上,涉及找到如下调节策略的问题:所述调节策略将系统状态映射到输入量向量上。为此,在预先确定的时间范围期间,基于(由多个状态量构成的)状态量向量和(由多个输入量构成的)输入量向量来评估技术系统的调节的与调节策略的模型参数有关的特性,以便确定技术系统的特性的品质。技术系统的特性的品质可以通过关于期望的特性进行评价来确定。例如,可以评价如振荡倾向(Schwingungsneigung)、起振持续时间、干扰灵敏度、稳健性和/或诸如此类的标准。技术系统的调节的特性也被称为未知函数。质量函数(成本函数)对应于如下数学模型:该数学模型根据所基于的调节策略的模型参数来评价技术系统的调节的特性的品质。
一般而言,如果应使未知函数f、即对应于技术系统的特性的所谓“黑箱”函数最小化,则应用贝叶斯优化。该未知函数f可以仅仅针对值x被评估或被测定,并且(可能由于噪声而受到牵连地)被观测。所观测的值y得出为y=f(x)+e,其中e标明噪声分量。再者假设,在未知函数的评估造成高开支的意义下,未知函数f的每次评估/每次测定都是高昂的,也就是说造成成本,如例如在测试台上实施实验时情况如此。由于对未知函数的评估高昂,所以值得去追求的是,在优化期间,仅仅必须进行少许评估。
在一定的预先假设(Vorannahmen)、如例如系统特性或未知函数的连续性下,未知函数可以利用高斯过程回归通过质量函数来近似。为此,在在多个评估点(x1、...、xn)处对未知函数进行评估和借助高斯过程观测相对应的函数值(y1、...、yn)之后,可以训练质量函数。高斯过程的性质是,在评估点周围的范围中,模型预测非常好,并且未知函数(也就是说系统特性)被良好地近似。这反映在质量函数的低不确定性中。远离评估点,经由未知函数对质量函数的模型预测变差,并且不确定性随着距评估点的距离的增加而增加。
为了优化调节策略的模型参数并由此优化系统特性的可能策略是,在许多不同部位处(例如在有规律的网格上)评估未知函数,并假设最低观测的函数值作为优化的结果。这种行为方式是低效率的,并且需要具有相对应的高开支的许多评估,以找到最优值。
代替这种方案,使用质量函数,以便选出新的评估点。为此,选出用于评估/测定系统特性的新的评估点,使得借此一方面改进质量函数的说服力,以致减小质量函数的所估计的期望值的不确定性。为此,通常在如下范围中选择评估点:在所述范围中,还不曾评估未知函数,或还不曾测定技术系统,(探索(Exploration))。另一方面,用于评估未知函数或用于测定技术系统的新评估点被选出为使得,找到最优值的目标尽可能快地或以在评估点处的小数量的测定来实现。对此,基于高斯过程,优选承诺低函数值的评估点用于选出,(开发(Exploitation))。这两个相反的标准通过如下方式权衡:借助预先给定的采集函数来选出评估点。
采集函数利用质量函数的参数,所述质量函数通过高斯过程模型来描述,如例如通过期望值μ(x)和分配给所述期望值的标准偏差σ(x)来描述。实例是所谓的置信下限(Lower-Confidence-Bound(LCB))采集函数,该置信下限采集函数被描述如下:LCB(x)=μ(x)-kσ(x)。在实践中,因子k常常成为恒定的,例如固定到确定的值,如例如k=2。该新标准可以高效地利用常见的基于梯度的方法被最小化,并且接着,LCB(x)的最小值形成针对未知函数f或技术系统的测定的新评估点。在这种情况下应注意的是,必须为质量函数的优化限定模型参数域,说明针对相应的模型参数的值域,在所述值域之内搜索下一个评估点。该模型参数域典型地根据经验和/或专家知识来选择。
在(例如通过在评估点处的测定)评估技术系统的特性之后,利用新数据来更新或重新训练可训练的回归函数,并按照上面所描述的方法选出下一个评估点。典型地,该方法被重复,一直到满足中止标准,亦即例如满足为优化未知函数f(也就是说技术系统的特性)而应花费的持续时间。
在优化方法结束之后,函数值x被推荐为质量函数的最小值的地点,也就是说最小化高斯过程的期望值的值。
LCB标准并不是在文献中曾建议的唯一采集函数。另外的标准例如是预期改进(EI,Expected Improvement)、置信上限(UCB,Upper Confidence Bound)、改进概率(PI,Probability of Improvement)或者基于信息理论考虑的所谓的熵搜索方法(EntropySearch Methoden)。
根据上述方法,贝叶斯优化方法被用于,通过最小化首先未知的质量函数来找到调节策略的模型参数。目标是,创建调节模型,使得技术系统的特性尽可能精确地对应于期望的规范。必要时根据调节系统的性能,可以与相应的模型参数有关地始终更新质量函数。为了更新质量函数,需要对相应的模型参数进行评价,这使得必需在真实环境中运行具有相应的模型参数的调节系统。在调节系统运行期间,反映这样经过调节的技术系统的特性的品质的质量度量被检测,并被分配给当前模型参数。由于针对测定过程真实地运行调节系统的必需性,所以通过要连续更新的质量函数来改进成本的评价变得非常费力。因而值得想望的是,在真实的技术系统上尽可能地最小化测定过程的数目。
分别在一个或者多个测定过程之后,可以利用最后测定的模型参数来更新质量函数,并且可以更新最终得到的质量度量,而且可以选出测试模型参数的新集合,其方式是:最小化或者最大化评价质量函数的参数或者变化过程的预先给定的采集函数。采集函数预先给定为使得,该采集函数保证在探索和开发之间的折衷。在根据本发明的方法的上下文中,探索意味着:可能的模型参数空间的范围被优选用于选出新的测试模型参数,在这些范围中,还没有通过先前的测定过程已确定了质量度量或已评价了所述系统特性。在根据本发明的方法的上下文中的开发意味着:通过被估算为最优模型参数的集合的测定过程,为下一次评价选出测试模型参数。
在下文,示例性地假设,该调节策略对应于为
Figure DEST_PATH_IMAGE001
的线性状态调节策略,其中K是表征调节的调节矩阵。线性调节策略具有如下优点:这些线性调节策略与另外的调节模型相比具有少的维度。此外,线性调节策略能够实现,该线性调节策略可以以简单的方式在调节器中被实现,并且这样提高贝叶斯优化的效率。
调节策略优化通过如下方式来执行:适配调节矩阵的元素。调节矩阵的元素可以直接被假设为模型参数,或者可以被假设为与模型参数有关。
在贝叶斯优化的进程期间,存在模型参数值的最优值的估计值,也就是说存在经过训练的质量函数的最小值位于其处的模型参数值。模型参数值被确定在通过当前预先给定的模型参数域确定的值域之内。如果从贝叶斯优化中得出质量函数的所估计的最优值的地点导致一个或者多个模型参数,所述模型参数处在相对应的值域的范围界限处,则很可能的是,“更好”的模型参数处在相对应的值域之外,也就是说系统特性的最优值通过有关的模型参数的如下值来达到:所述值处在相对应的值域之外。因而建议,将其值处在模型参数域的界限处的那个模型参数的值域扩展了扩展程度(Erweiterungsmass)。随着优化方法的每次递归而进行模型参数域的动态适配,并且可以以不同的方式来实施所述动态适配。
模型参数的值域的适配能够实现,从有限的值域开始,在优化期间,动态地仅针对模型参数向量的如下那些维度来适配所述值域:在所述维度中,优化碰到模型参数域的界限范围。借此,可以总体上更高效地进行优化,以致显著地改进收敛。此外,可以更好地补偿潜在的模型误差,以致经过优化的系统模型变得更有效率。通过改进效率,可能将贝叶斯优化缩放成高维调节策略。
此外,针对分别为当前的模型参数,与高斯过程成本函数的高斯过程后验均值的梯度有关地,可以说明关于有关的维度的扩展程度,其中梯度越大,则扩展程度取越高的相对值或者绝对值。
替选地或者附加地,可以根据与高斯过程成本函数有关的相应模型参数的长度标尺来说明关于有关的维度的扩展程度,其中长度标尺越大,则扩展程度取越高的相对值或者绝对值。
替选地或者附加地,根据有关的模型参数的相应值域的伸展,可以说明关于有关的维度的扩展程度,其中尤其是,有关的值域越大,则扩展程度取越高的相对值或者绝对值。
根据实施形式,模型参数可以对应于或者确定线性状态调节的调节矩阵的元素。
尤其是,模型参数的值域可以根据相应的分布的均值、比例因子和标准偏差来说明。
此外,可以设置一种用于自适应调节技术系统的方法,其中调节的模型参数在基于上述方法之一来调节所述技术系统期间被适配。
根据其他方面,设置了一种用于借助贝叶斯优化方法来创建针对技术系统的调节的设备,其中基于调节模型的模型参数创建和可实施该调节,其中该设备构造成,为了优化调节而实施下列步骤:
- 提供质量函数,所述质量函数对应于可训练的回归函数,并且所述质量函数基于模型参数来评价该技术系统的调节的质量;
- 基于质量函数来执行贝叶斯优化方法,以便迭代地确定具有模型参数的经过优化的模型参数集;
其中在执行贝叶斯优化方法期间,关于如下那些维度扩展说明模型参数的允许的值域的模型参数域、尤其是扩展了扩展程度:针对所述维度,在当前迭代中确定的模型参数处在范围界限处。
根据其他方面,设置了一种调节系统,该调节系统具有技术系统和用于调节所述技术系统的调节单元,其中在所述调节单元中,根据所述技术系统的状态量来实施调节模型,以提供输入量向量,其中设置有模型创建块,以便基于在优化块中实施的贝叶斯优化方法来确定调节模型的模型参数,其中基于预先给定的质量函数来执行贝叶斯优化方法,该质量函数在质量函数块中被确定或被预先给定,其中在执行贝叶斯优化方法期间,关于如下那些维度来扩展说明模型参数的允许的值域的模型参数域、尤其是扩展了扩展程度:针对所述维度,在当前迭代中确定的模型参数处在范围界限处。
附图说明
随后,依据随附的附图,更详细地阐述了实施形式。
图1示出了具有调节单元和要调节的技术系统的调节系统的示意图;
图2示出了用于阐明用于借助贝叶斯优化方法来执行对调节策略的优化的方法的流程图;
图3示出了具有模型参数域的动态适配的作用方式的示意性图示的图表。
具体实施方式
图1示出了自适应调节系统1的示意图,该调节系统构造用于调节技术系统2。技术系统2例如可以是机动车的内燃机或者其子系统。调节单元3利用一系列输入量u作为如下可调量来调控技术系统2:所述可调量导致技术系统2的确定的工作点(系统状态)。输入量u通常包括一数目的多个输入量,这些输入量组合成输入量向量
Figure 870053DEST_PATH_IMAGE002
。再者,允许的值域适用于所述输入量中的每个输入量(输入量向量u的元素)。此外,对技术系统2的操控产生一个或者多个状态量,这些状态量在要测定的输入量向量u处被测量并且这些状态量以状态量向量x的形式表示。
借助为技术系统2的部分的一个或者多个传感器21,可以检测一个或者多个测量量x1、...、xD的变化过程,所述测量量x1、...、xD分别代表相对应的状态量x1(t)、...、xD(t),所述状态量x1(t)、...、xD(t)分别说明技术系统2的系统状态x。D在此对应于状态量的数目。因此,技术系统2的系统状态借助一个或者多个传感器21来检测,并且向调节单元3传送技术系统2的系统状态作为状态量向量x的状态量。
输入量u对应于调节单元3的如下可调量:所述可调量基于状态量x和调节策略πθ(x)来确定。根据输入量u(t),借助技术系统2的一个或者多个执行元件22,进行技术系统2的运行。例如,这样可以控制机器人或者车辆的运动,或者可以进行对车辆的驱动单元或者驾驶员辅助系统的控制。例如,输入量u可以对应于施加到作为执行元件22的电动机械可调发生器(Stellgeber)的电压。根据一个或者多个输入量u,操控执行元件22,并实施相对应的动作。在这种情况下,执行元件22可以包括(不一定在结构上集成的)如下操控逻辑:该操控逻辑从输入量u中确定操控量,利用所述操控量来操控有关的执行元件22。
在实施例中,采用调节单元3,用于调节作为技术系统的内燃机。为此,节气门位置、燃料输送和/或类似的可以作为输入量被预先给定给节气门调节器或喷射阀的操控装置,并且相对应的状态量、如例如转速、负载、发动机温度可以被接收。
在实施例中,采用调节单元3,用于调节作为技术系统2的至少部分自主的机器人、尤其是至少部分自主的机动车。传感器21例如可以是一个或者多个优选地布置在机动车中的视频传感器,和/或一个或者多个雷达传感器,和/或一个或者多个超声波传感器,和/或一个或者多个激光雷达(LiDAR)传感器,和/或一个或多个位置传感器(例如GPS)。替选地或者附加地,传感器21也可以包括信息系统,所述信息系统确定关于技术系统(机动车)的状态的信息,所述信息系统如例如天气信息系统,所述天气信息系统确定在机动车的环境中的天气的当前的或者将来的状态。
在其他实施例中,采用调节单元3,用于调节作为技术系统的机动车中的功能。为此,加速踏板位置、呈腕扭矩(Handgelenkmoment)或者转向位置形式的转向干预(Lenkeingriff)、如例如环境对象的位置之类的环境信息、制动干预和/或诸如此类的可以作为输入量被预先给定,并且说明机动车的行驶特性的相对应的状态量、如例如车辆速度、转弯行驶特性(Kurvenlage)、距环境对象的距离和诸如此类的可以被接收。
调节单元3可以利用多个测量量x1、...、xD来探测例如至少部分自主的机器人的状态或状态变化过程,如例如探测发动机转速、车辆速度、燃料消耗、发动机温度、纵向速度和/或横向速度、转向角、偏航率和诸如此类的。优选地布置在机动车中的执行元件32例如可以是机动车的制动器、驱动装置或者转向装置。
替选地,至少部分自主的机器人也可以是另外的移动机器人(未绘出),例如可以是通过飞行、漂浮、潜水或者步行而前进的移动机器人。移动机器人例如也可以是至少部分自主的割草机或者至少部分自主的清洁机器人。
在又一替选方案中,至少部分自主的机器人也可以是家用电器(未绘出)、尤其是洗衣机、火炉、烤箱、微波炉或者洗碗机。利用传感器21(例如光学传感器),可以检测利用家用电器来处理的对象的状态,例如在洗衣机的情况下可以检测位于洗衣机中的洗涤物的状态。利用调节单元3,那么该对象的类型或者状态可以被确定,并且可以通过测量量x1、...、xD 来表征。输入量接着可以被确定为使得:根据对象的所确定的类型或者所确定的状态来操控家用电器。例如,在洗衣机的情况下,根据位于其中的洗涤物由何种材料制成,可以操控洗衣机。那么,根据已确定洗涤物的何种材料,可以选择输入量u(t)。
在其他实施形式中,调节单元3可被用于操控生产系统的生产机器(技术系统3),其方式是:控制该生产机器的执行元件22通过输入量来操控。生产机器11例如可以是用于冲压、锯割、钻孔、铣削、旋转和/或切割的机器。
传感器21接着例如是如下光学传感器:该光学传感器例如检测生产产品的性质。可能的是,控制生产机器的执行元件22根据生产产品的所确定的性质而被操控,以便生产机器相对应地实施生产产品的随后的加工步骤。也可能的是,传感器21确定由生产机器加工的生产产品的性质,并且据此针对随后的生产产品来适配对生产机器的操控。
调节单元3的调节遵循调节策略。通过动态过程,应适配调节策略,以致系统特性关于质量函数变得最优。为此,实施如下优化方法:优化调节策略所基于的调节模型的模型参数,使得优化所调节的技术系统2的性能。为此,在模型创建块4中创建调节模型(动态模型),所述调节模型是调节单元3的调节策略的基础。模型创建块4基于在优化块5中实施的贝叶斯优化方法来确定调节模型的模型参数。这基于在质量函数块6中确定或预先给定的预先给定的质量函数来进行。
在其他优选实施形式中,调节单元3、模型创建块4、优化块5和质量函数块6实施在计算单元中。该计算单元包括控制设备2、一个或者多个处理器和至少一个机器可读的存储介质,在所述存储介质上存储有如下指令:当所述指令实施在处理器上时,那么所述指令促使计算单元实施根据本发明的方法。
技术系统2对应于动态系统,该动态系统借助调节单元3利用合适的调节策略以经过优化的方式被调节,该调节策略应相对应地借助贝叶斯优化方法来创建。贝叶斯优化方法被使用,以便通过如下方式来确定调节模型:在优化方法期间,迭代地应用不同的测试模型参数集,以调节技术系统2,并且基于最终得到的状态量来适配模型参数。在此,质量函数借助高斯过程回归或利用别的可训练的回归方法来建模,通过其,技术系统2的调节的性能被限定为模型参数的函数。
调节的性能从预先给定的质量标准(质量度量)中得出,该质量标准基于与通过基于模型参数的调节模型所调节的技术系统2的所期望的特性的比较将调节的品质指派给技术系统2的最终得到的状态量(尤其是这些状态量的变化过程)。状态量是带有容差的,以致质量函数优选地通过高斯过程回归来映射。
原则上涉及找到调节策略的问题,其将系统状态x映射到输入量向量
Figure DEST_PATH_IMAGE003
,其中
Figure 521614DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
,其中
Figure 504613DEST_PATH_IMAGE006
表示调节策略的在模型参数域
Figure DEST_PATH_IMAGE008A
中的模型参数。在预先确定的时间范围t=0、...、T期间,基于状态向量x和输入量向量u,预先给定与模型参数θ有关的质量函数J,其中模型参数θ应通过优化方法来优化:
Figure DEST_PATH_IMAGE009
其中
Figure 775189DEST_PATH_IMAGE010
对应于期望值,c(xt,ut)表示通过状态向量xt给定的状态在附着的输入量向量ut的情况下的质量度量,并且
Figure DEST_PATH_IMAGE011
表示状态转移模型,所述状态转移模型描述了技术系统2的动态性,并且所述状态转移模型此外通过噪声量
Figure 58402DEST_PATH_IMAGE012
来加载。质量度量可以通过将系统特性与期望的系统特性进行比较来确定,其中质量标准可以说明调节的稳健性、振荡倾向、起振时间和品质。
贝叶斯优化方法用于,通过最小化质量函数(所述质量函数例如表示成本),找到调节策略的经过优化的模型参数
Figure DEST_PATH_IMAGE013
。替选地,调节策略的经过优化的模型参数
Figure 349707DEST_PATH_IMAGE013
可以视质量度量的陈述内容而定也通过最大化质量函数来确定。目标是,调节策略能够实现利用调节单元3尽可能最优地调节技术系统2,其中“最优地”说明质量度量的最小化/最大化(优化),所述质量度量通过质量函数根据模型参数来确定并且说明了由调节单元3和技术系统2构成的整个系统的预先给定的性能。
质量函数因此可以说明如下质量度量:该质量度量评价真实的技术系统2在时间窗t=0、...、T期间的特性关于预先给定的期望的性能(理想的系统特性)的偏差。因此,对质量函数的评估要求在测定过程中技术系统2在真实环境中的运行。由于真实地运行包括技术系统2和调节单元3的调节系统的必需性,对技术系统2的特性的质量度量的评价变得非常费力,以致为了评价确定的调节策略而应使在真实的技术系统2上的测定过程的数目尽可能最小化。
在下文假设,调节策略对应于具有
Figure 616740DEST_PATH_IMAGE001
的线性状态调节策略,其中K对应于调节矩阵,该调节矩阵的元素对应于调节策略的模型参数或者与调节策略的模型参数有关。
线性调节策略有如下优点:这些线性调节策略与另外的调节模型相比具有少的维度。此外,线性调节策略能够实现,可以以简单的方式在调节器中实现该线性调节策略,并且这样提高贝叶斯优化的效率。
在优化过程期间可能发生,最优的模型参数向量不在所选出的模型参数域之内。因而,可以动态地在优化期间适配模型参数域。
在贝叶斯优化的进程期间,存在模型参数值的最优值的估计值、也就是说所近似的质量函数在当前模型参数域中的最小值。如果从贝叶斯优化中得出所估计的最优值的地点处在模型参数域的范围界限处,则很可能的是,更好的模型参数处在当前模型参数域之外。因而建议,扩展如下那个模型参数的值域:所述模型参数的值处在模型参数域的界限处。模型参数域的这种动态适配可以以不同方式来实施。
模型参数的值域的适配能够实现,从有限的值域开始,在优化期间,动态地仅针对模型参数向量的如下那些维度来适配所述值域:在所述维度中,优化碰到模型参数域的界限范围。借此,可以总体上更高效地进行优化,以致显著地改进收敛。此外,可以更好地补偿潜在的模型误差,以致经过优化的系统模型变得更有效率。通过改进效率,可能将贝叶斯优化缩放成高维调节策略。
为了阐明对技术系统的调节的创建和适配,在下文依据图2的流程图来描述本方法。
在步骤S1中,首先提供用于确定质量函数的数据,用于关于模型参数集确定调节系统的性能。
Figure 550061DEST_PATH_IMAGE014
,其中i=1、...、n。
由此,在步骤S2中,如下初始高斯过程模型被训练为质量函数:所述初始高斯过程模型将测试模型参数映射到质量度量上。
Figure DEST_PATH_IMAGE015
其中K 对应于协方差矩阵,其中
Figure 687781DEST_PATH_IMAGE016
并且
Figure DEST_PATH_IMAGE017
借此,高斯过程模型不仅供应了期望值、也就是说质量度量,而且供应了该期望值的不确定性。
同样可以设置,在执行第一次实验以确定数据之前,首先确定初始模型参数域。借此,可以避免,初始模型参数不在所选择的模型参数域中,并且由此是无用的。再者,在定下模型参数域之前,存在选出初始模型参数的困难。
现在,在步骤S3中,确定初始模型参数域。目标是,针对模型参数选出合适的搜索范围,以致减小测定过程的数目,并且可以总体上更高效地执行优化方法。这尤其是在高维度的情况下是必要的。常常,手动地基于专家知识,进行模型参数域的初始预给定。模型参数域的自动确定也是可设想的。
在步骤S4中,开始优化过程。
为此,选出测试模型参数
Figure 149986DEST_PATH_IMAGE018
的新集合,其中利用Dn+1使预先给定的采集函数
Figure DEST_PATH_IMAGE019
最大化或最小化。采集函数
Figure 373157DEST_PATH_IMAGE020
预先给定为使得,采集函数利用由探索和开发构成的组合,以便在采集函数的最小值或者最大值(视所选择的采集函数而定)处确定新的测试模型参数集。采样函数利用作为高斯过程模型创建的质量函数的参数,如例如利用高斯过程期望值
Figure DEST_PATH_IMAGE021
和分配给该期望值的高斯过程标准偏差
Figure 579011DEST_PATH_IMAGE022
。在根据本发明的方法的上下文中,探索意味着:优选可能的模型参数空间的范围,用于选出新的测试模型参数,在所述可能的模型参数空间的范围中,通过在前面的测定过程还未曾评价技术系统的特性。在根据本发明的方法的上下文中的开发意味着,通过测定过程选出用于下一次评价技术系统的特性的模型参数集,所述测定过程被估算为最优模型参数的集合。
Figure DEST_PATH_IMAGE023
采集函数的实例是所谓的置信下限(LCB)采集函数,该置信下限(LCB)采集函数被描述如下:LCB(x)=μ(x)-kσ(x)。该新标准可以高效地利用常见的基于梯度的方法而被最小化,并且接着LCB(x)的最小值形成针对未知函数f或技术系统2的测定的新评估点。
LCB标准并不是文献中已建议的唯一采集函数。另外的标准例如是预期改进(EI)、置信上限(UCB)、改进概率(PI)或者基于信息理论考虑的所谓的熵搜索方法。
在步骤S5中,实施测定过程,并且基于测试模型参数集,评价在时间窗t=0、...、T期间通过调节单元3对技术系统2的调节,以便相对应地检测呈输入量u和最终得到的状态量x的形式的测试数据。
基于测试数据,在步骤S6中确定质量度量。例如,这可以通过将系统特性(系统状态)与期望的系统状态进行比较来实现。例如,可以在数量方面对调节的调节偏差进行积分或累加,以便获得说明调节的稳健性的质量度量。
在可选的步骤S7中,用于创建质量函数的数据被补充了测试模型参数集
Figure 836817DEST_PATH_IMAGE024
和所属的质量度量
Figure DEST_PATH_IMAGE025
、也就是说最终得到的调节的品质,以及重新训练或者更新形成质量函数的高斯过程模型。
在步骤S8中检查:测试模型参数集的模型参数之一是否处在模型参数域的界限上。如果情况如此(替选地:是),则在步骤S9中将参数值域的如下那个界限扩展了扩展程度:模型参数之一处在所述界限上。要不然(替选地:否),该方法以步骤S10继续。
在图3中,示意性地针对一维情况,示出了真实质量度量(K1)和所建模的质量度量(K2)与输入量的维度有关的变化过程的图表。
Figure 735503DEST_PATH_IMAGE026
说明优化方法的模型参数域的有关模型参数的值域,并且点P1说明处在模型参数域的界限处的模型参数值。在该情况下,模型参数域被扩展了扩展程度
Figure DEST_PATH_IMAGE027
,以便通过贝叶斯优化方法的随后迭代来达到经过优化的模型参数P2(表征为三角形)。
在贝叶斯优化的进程期间,存在模型参数值的最优值的估计值、也就是说所近似的质量函数在当前模型参数域
Figure 445970DEST_PATH_IMAGE028
中的最小值。如果从贝叶斯优化中得出,所估计的最优值的地点处在模型参数域的范围界限处,则很可能的是,更好的模型参数处在当前的模型参数域之外。因而建议了,扩展其值处在模型参数域
Figure DEST_PATH_IMAGE029
的界限处的那个模型参数的值域。模型参数域
Figure 189935DEST_PATH_IMAGE028
的这种动态适配可以以不同方式来实施。
根据下列说明中的一个或者多个,可以说明扩展程度
Figure 567826DEST_PATH_IMAGE030
- 高斯过程后验均值在最优值的正在进行中的估计的点处的梯度
Figure DEST_PATH_IMAGE031
。梯度是高斯过程后验均值对有关的模型参数
Figure 365975DEST_PATH_IMAGE032
的导数。如果在界限范围处的梯度高,则模型参数的潜在更好的值比在梯度小时更远地远离界限范围。也就是说,在高梯度情况下,有关的模型参数的值域被扩展了比在小梯度的情况下更高的值。
- 处在模型参数域的界限上的那个模型参数关于高斯过程的长度标尺,所述高斯过程近似质量函数。对于大的长度标尺,模型假设:质量函数仅缓慢变化,并因此应相对应地提高用于扩展有关的模型参数的值域的度量。
- 有关的模型参数的值域
Figure DEST_PATH_IMAGE033
的伸展。如果值域大,则扩展的程度相对应地高,反之亦然。
紧接着,在步骤S10中检查中止条件,亦即例如检查为了优化质量函数而应花费的持续时间,或者检查迭代次数或者合适的收敛标准,以及在继续优化方法(替选地:否)时,跳回至步骤S4。要不然(替选地:是),该方法结束。
调节策略的模型参数可以在调节技术系统2期间连续地或者在有规律的或者预先确定的时刻被适配,以致对技术系统2的调节在正在进行中的运行中明显地得以改进。
下表阐明了上述的用于评价轨迹的方法的示例性的使用范围:
使用目的 对于进行优化的调节
机床、机器人 电机的位置调节,用于进行位置设定或者机器人的运动控制
无人机或者自主机器人 平衡调节
内燃机 空气系统调节,尤其是拉姆达调节、喷射调节

Claims (11)

1.一种计算机实施的用于借助贝叶斯优化方法来创建针对技术系统(2)的调节的方法,其中基于调节模型的模型参数(
Figure 50991DEST_PATH_IMAGE001
)来创建和能实施所述调节,其中为了优化所述调节,实施下列步骤:
- 提供质量函数(
Figure 702552DEST_PATH_IMAGE002
),所述质量函数(
Figure 216710DEST_PATH_IMAGE002
)对应于可训练的回归函数,并且所述质量函数(
Figure 346340DEST_PATH_IMAGE002
)基于模型参数(
Figure 895133DEST_PATH_IMAGE001
)来评价所述技术系统(2)的调节的质量;
- 基于所述质量函数(
Figure 717596DEST_PATH_IMAGE002
),执行贝叶斯优化方法,以便迭代地确定具有模型参数(
Figure 719050DEST_PATH_IMAGE001
)的经过优化的模型参数集;
其中在执行所述贝叶斯优化方法期间,关于如下那些维度来扩展说明所述模型参数的允许的值域的模型参数域(
Figure 652371DEST_PATH_IMAGE003
)、尤其是扩展了扩展程度(
Figure 55670DEST_PATH_IMAGE004
):针对所述维度,在当前迭代中确定的所述模型参数(
Figure 783455DEST_PATH_IMAGE001
)处在范围界限处。
2.根据权利要求1所述的方法,其中,根据所述质量函数(
Figure 272205DEST_PATH_IMAGE002
)的高斯过程后验均值在最优值的正在进行中的估计的点处的梯度
Figure 743638DEST_PATH_IMAGE005
,说明关于有关的维度的所述扩展程度(
Figure 1444DEST_PATH_IMAGE004
),其中所述梯度越大,则所述扩展程度取越高的相对值或者绝对值。
3.根据权利要求1或者2所述的方法,其中,根据相应的模型参数(
Figure 165709DEST_PATH_IMAGE001
)关于所述质量函数(
Figure 141755DEST_PATH_IMAGE002
)的长度标尺,说明关于所述有关的维度的所述扩展程度(
Figure 151299DEST_PATH_IMAGE004
),其中所述长度标尺越大,则所述扩展程度(
Figure 529191DEST_PATH_IMAGE004
)取越高的相对值或者绝对值。
4.根据权利要求1至3中任一项所述的方法,其中,关于所述有关的维度的所述扩展程度(
Figure 598778DEST_PATH_IMAGE004
)与有关的模型参数(
Figure 62121DEST_PATH_IMAGE001
)的相应的值域的伸展有关,其中尤其是,有关的值域越大,则所述扩展程度(
Figure 875356DEST_PATH_IMAGE004
)取越高的相对值或者绝对值。
5.根据权利要求1至4中任一项所述的方法,其中,所述模型参数(
Figure 107754DEST_PATH_IMAGE001
)对应于线性状态调节的调节矩阵的元素,或者通过所述元素来确定。
6.根据权利要求5所述的方法,其中,根据相应的分布的均值、比例因子和标准偏差,说明所述模型参数(
Figure 613822DEST_PATH_IMAGE001
)的所述值域。
7.一种用于自适应调节技术系统(2)的方法,其中,在调节所述技术系统(2)期间,基于根据权利要求1至6中任一项所述的方法,连续地或者在有规律的或者预先确定的时刻适配调节模型的模型参数(
Figure 298881DEST_PATH_IMAGE001
)。
8.一种用于借助贝叶斯优化方法来创建针对技术系统(2)的调节的设备,其中基于调节模型的模型参数(
Figure 915807DEST_PATH_IMAGE001
)来创建和能实施所述调节,其中所述设备构造成,为了优化所述调节而实施下列步骤:
- 提供质量函数(
Figure 2712DEST_PATH_IMAGE006
),所述质量函数(
Figure 679681DEST_PATH_IMAGE007
)对应于可训练的回归函数,并且所述质量函数(
Figure 852036DEST_PATH_IMAGE007
)基于模型参数(
Figure 7074DEST_PATH_IMAGE001
)来评价所述技术系统(2)的调节的质量;
- 基于所述质量函数(
Figure 214065DEST_PATH_IMAGE006
),执行贝叶斯优化方法,以便迭代地确定具有模型参数(
Figure 892013DEST_PATH_IMAGE001
)的经过优化的模型参数集;
其中在执行所述贝叶斯优化方法期间,关于如下那些维度来扩展说明所述模型参数的允许的值域的模型参数域(
Figure 551664DEST_PATH_IMAGE003
)、尤其是扩展了扩展程度(
Figure 510393DEST_PATH_IMAGE004
):针对所述维度,在当前迭代中确定的模型参数(
Figure 306311DEST_PATH_IMAGE001
)处在范围界限处。
9.一种调节系统(1),其具有技术系统(2)和用于调节所述技术系统(2)的调节单元(3),其中在所述调节单元(3)中,根据所述技术系统(2)的状态量,实施调节模型,以提供输入量向量,其中设置有模型创建块(4),以便基于在优化块(5)中实施的贝叶斯优化方法来确定针对所述调节模型的模型参数,其中基于预先给定的质量函数来执行所述贝叶斯优化方法,所述预先给定的质量函数在质量函数块(6)中被确定或被预先给定,其中在执行所述贝叶斯优化方法期间,关于如下那些维度来扩展说明所述模型参数的允许的值域的模型参数域(
Figure 325082DEST_PATH_IMAGE008
)、尤其是扩展了扩展程度(
Figure 737609DEST_PATH_IMAGE004
):针对所述维度,在当前迭代中确定的模型参数(
Figure 500029DEST_PATH_IMAGE009
)处在范围界限处。
10.一种计算机程序,其具有程序代码装置,所述计算机程序设立为,当在计算单元上实施所述计算机程序时,实施根据权利要求1至7中任一项所述的方法。
11.一种机器可读的存储介质,其具有存储在其上的根据权利要求10所述的计算机程序。
CN202080041201.XA 2019-06-06 2020-06-03 用于确定针对技术系统的调节策略的方法和设备 Active CN113939775B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102019208263.7 2019-06-06
DE102019208263.7A DE102019208263A1 (de) 2019-06-06 2019-06-06 Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System
PCT/EP2020/065378 WO2020245218A1 (de) 2019-06-06 2020-06-03 Verfahren und vorrichtung zum ermitteln einer regelungsstrategie für ein technisches system

Publications (2)

Publication Number Publication Date
CN113939775A true CN113939775A (zh) 2022-01-14
CN113939775B CN113939775B (zh) 2024-05-31

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566830A (zh) * 2008-04-23 2009-10-28 西门子公司 用于计算机支持地学习技术系统的控制和/或调节的方法
US20100070098A1 (en) * 2007-01-02 2010-03-18 Volkmar Sterzing Method for the computer-aided regulation and/or control of a technical system, especially a gas turbine
CN102023570A (zh) * 2009-09-09 2011-04-20 西门子公司 用于计算机辅助地学习对技术系统的控制和/或调节的方法
US20110208680A1 (en) * 2008-10-03 2011-08-25 Bae Systems Plc Assisting with updating a model for diagnosing failures in a system
US20130110749A1 (en) * 2010-04-27 2013-05-02 Robert Bosch Gmbh Control device and method for calculating an output parameter for a controller
WO2013172052A1 (ja) * 2012-05-14 2013-11-21 住友重機械工業株式会社 循環流動層ボイラの運転制御システム
CN105556401A (zh) * 2013-09-25 2016-05-04 西门子公司 用于计算机辅助地控制和/或调节技术系统的方法
DE102015216953A1 (de) * 2015-09-04 2017-03-09 Robert Bosch Gmbh Verfahren und Vorrichtung zum Vermessen einer zu testenden Einheit

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070098A1 (en) * 2007-01-02 2010-03-18 Volkmar Sterzing Method for the computer-aided regulation and/or control of a technical system, especially a gas turbine
CN101566830A (zh) * 2008-04-23 2009-10-28 西门子公司 用于计算机支持地学习技术系统的控制和/或调节的方法
US20110208680A1 (en) * 2008-10-03 2011-08-25 Bae Systems Plc Assisting with updating a model for diagnosing failures in a system
CN102023570A (zh) * 2009-09-09 2011-04-20 西门子公司 用于计算机辅助地学习对技术系统的控制和/或调节的方法
US20130110749A1 (en) * 2010-04-27 2013-05-02 Robert Bosch Gmbh Control device and method for calculating an output parameter for a controller
WO2013172052A1 (ja) * 2012-05-14 2013-11-21 住友重機械工業株式会社 循環流動層ボイラの運転制御システム
CN105556401A (zh) * 2013-09-25 2016-05-04 西门子公司 用于计算机辅助地控制和/或调节技术系统的方法
DE102015216953A1 (de) * 2015-09-04 2017-03-09 Robert Bosch Gmbh Verfahren und Vorrichtung zum Vermessen einer zu testenden Einheit

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOBAK SHAHRIARI ET AL.: "Taking the Human Out of the Loop A Review of Bayesian Optimization", PROCEEDINGS OF THE IEEE, vol. 104, no. 148, 31 January 2016 (2016-01-31) *
ERIC BROCHU ET AL.: "a tutorial on Bayesian optimization of expensive cost functions,with application to active user modeling and hierarchical reinforcement learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, vol. 1, no. 1, pages 31 - 34 *
MATTHIAS NEUMANN-BROSIG ET AL.: "Data-Efficient Autotuning With Bayesian Optimization: An Industrial Control Study", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, no. 1, pages 1 - 6 *

Also Published As

Publication number Publication date
DE102019208263A1 (de) 2020-12-10
US11762346B2 (en) 2023-09-19
US20220197229A1 (en) 2022-06-23
WO2020245218A1 (de) 2020-12-10

Similar Documents

Publication Publication Date Title
US20220236698A1 (en) Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method
CN113498523B (zh) 用于控制机器对象的操作的装置和方法以及存储介质
Di Cairano et al. An MPC design flow for automotive control and applications to idle speed regulation
EP3289415B1 (en) Formulating steady-state targets using prioritized objective functions
US10953891B2 (en) Method and system for providing an optimized control of a complex dynamical system
CN110869858B (zh) 用于设定致动器控制系统的至少一个参数的方法和装置、致动器控制系统以及数据集
KR102326733B1 (ko) 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체
US11550272B2 (en) Method and device for setting at least one parameter of an actuator control system and actuator control system
US11762346B2 (en) Method and device for determining a control strategy for a technical system
CN111830822A (zh) 配置与环境交互的系统
CN112051731A (zh) 用于确定针对技术系统的控制策略的方法和设备
CN113614743A (zh) 用于操控机器人的方法和设备
CN109249393B (zh) 一种基于经验控制的多参数机器人实时行为校正方法
JP7357813B2 (ja) データ駆動型モデル適応を用いる制御のための装置および方法
CN114193443A (zh) 用于控制机器人设备的设备和方法
CN113939775B (zh) 用于确定针对技术系统的调节策略的方法和设备
US20230090127A1 (en) Device and method for controlling an agent
CN104345637B (zh) 用于自适应基于数据的函数模型的方法和设备
CN110588654A (zh) 一种自动整定车辆速度相应pid控制参数的方法
Kostadinov et al. Online weight-adaptive nonlinear model predictive control
JP6981579B2 (ja) 位置決め制御装置及び位置決め制御方法
KR20210138498A (ko) 테스트 벤치를 작동하기 위한 장치 및 방법
CN112632860B (zh) 一种基于强化学习的动力传动系统模型参数辨识方法
JP2020003893A (ja) ロバスト調整装置及びモデル作成方法
US11790247B2 (en) Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant