CN113874865A - 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置 - Google Patents
借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置 Download PDFInfo
- Publication number
- CN113874865A CN113874865A CN202080041182.0A CN202080041182A CN113874865A CN 113874865 A CN113874865 A CN 113874865A CN 202080041182 A CN202080041182 A CN 202080041182A CN 113874865 A CN113874865 A CN 113874865A
- Authority
- CN
- China
- Prior art keywords
- model
- model parameters
- function
- technical system
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000005457 optimization Methods 0.000 title claims abstract description 85
- 238000011217 control strategy Methods 0.000 title description 9
- 230000006870 function Effects 0.000 claims description 116
- 239000013598 vector Substances 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 3
- 230000008569 process Effects 0.000 description 45
- 238000005259 measurement Methods 0.000 description 24
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 21
- 230000001105 regulatory effect Effects 0.000 description 20
- 230000006399 behavior Effects 0.000 description 16
- 238000009826 distribution Methods 0.000 description 14
- 238000004519 manufacturing process Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000005406 washing Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007514 turning Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000003801 milling Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/25—Pc structure of the system
- G05B2219/25298—System identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/10—Noise analysis or noise optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
Abstract
Description
技术领域
本发明涉及一种尤其是在使用贝叶斯优化方法的情况下为技术系统寻找出合适的调节策略的方法。尤其是,本发明涉及一种用于更有效地优化调节模型的模型参数以实现技术系统的调节策略的计算机实现的方法。此外,本发明涉及用于加速贝叶斯优化方法的实施以减少调节策略的参数化的计算开支的措施。
背景技术
用于调节或运行技术系统的调节策略或调节模型的确定视技术系统的复杂性而定是耗费的。虽然在技术系统的线性动态行为情况下可以通过经典方法确定最佳调节,但是尤其是在非线性物理系统情况下,基于物理相互关系创建或参数化相对应的调节模型是耗费的。
可替换地,可以使用所谓的强化学习来寻找出合适的调节策略。强化学习包括观察技术系统与环境之间的相互作用,并从中学习相对应的函数模型,该函数模型描述技术系统在其与环境交互时的行为。通过最小化由成本函数或质量函数说明的成本值来进行学习过程,所述成本值评估调节系统的性能以获得用于在环境中自动化地经调节地引导技术系统的调节模型的模型参数。
尤其是无模型的强化学习方法是有利的,因为不需要关于环境以及环境与系统的相互作用的知识,但是在学习过程期间系统与环境的交互时间非常长。相比之下,在传统的基于模型的方法情况下,模型结构在最初被预先给定,该模型结构基本上描述了调节系统在环境中的行为。由此可以映射出调节系统和环境之间的交互的影响。通过参数适配来适配模型结构可以简单且有效地执行。然而,传统方法具有缺点,因为选择的模型结构可能不合适,并且由此通过调节模型的优化进行参数适配并不能导致最佳结果。
与强化学习相关的调节模型的创建和优化可以结合贝叶斯优化来执行,其中质量函数被建模为高斯过程模型。这使得能够为调节模型创建一个高效的黑盒优化器,所述调节模型在其他情况下会很耗费地创建/参数化。但是,由于此类调节模型的模型参数的数量众多,因此优化非常复杂,从而大量的测量过程是必要的,并且由于测量数据量大,长训练时间成为规则。
发明内容
根据本发明,提供了根据权利要求1的用于借助于贝叶斯优化方法来确定技术系统的调节策略的方法以及根据并列独立权利要求的相对应的装置、调节系统和调节方法。
在从属权利要求中说明了进一步的构型方案。
根据第一方面,提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的方法,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;并且
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
创建调节模型以对调节系统的调节进行建模。调节模型定义了一种调节策略并表示一种函数关系,利用该函数关系可以基于调节的一个或多个输入参量来计算操纵参量。输入参量中至少一个输入参量在此对应于要调节的技术系统的状态参量。
可以通过多种方式预先给定调节模型的形式。因此,调节模型可以包含基于物理定律的公式关系,例如运动方程、振动方程、阻尼行为等。调节模型也可以基于自由选择的公式关系。公式关系通常必须考虑技术系统的非线性行为。
用于确定调节模型的贝叶斯优化方法与技术系统迭代地应用不同的调节策略,并以有效的方式优化调节。在此,质量函数借助于高斯过程回归建模,以便将系统模型的性能建模为调节模型的模型参数的函数,其中高斯过程回归基于有噪声的状态参量来创建。基本上,问题涉及寻找出一种将系统状态映射到输入参量向量上的调节策略。为此,基于状态参量向量(来自多个状态参量)和输入参量向量(来自多个输入参量)在预定时间范围内评估取决于调节策略的模型参数的质量函数(成本函数)。
一般在应当最小化未知函数、即所谓的“黑盒(Black-Box)”函数时应用贝叶斯优化。该未知函数只能对值 x 被评估和(可能受噪声影响地)观察。所观察的值 y 得出为,其中 e 表示噪声。此外假设,对未知函数的每次评估都是昂贵的,也就是说在如下意义上导致成本,即未知函数的评估导致高的耗费,例如在试验台上实施实验时是这种情况。由于对未知函数的评估昂贵,因此值得追求的是在优化期间只须进行少量评估。
在某些假设条件下,例如未知函数的连续性,可以在函数模型中用高斯过程回归来近似未知函数。为此,在多个评估点处对未知函数进行评估并使用高斯过程观察对应的函数值之后,可以建立未知函数的模型。高斯过程的一个特性是,模型预测在评估点周围的范围中非常好并且可以良好地近似未知函数。这反映在功能模型的低不确定性中。远离评价点,关于未知函数的预测变差,并且不确定性随着距评价点的距离增加而增加。
代替这种方案,使用高斯过程来选择新的评估点。为此,将用于评估未知函数的新评估点选择为,使得由此一方面改进了模型,从而降低了质量函数的估计期望值的不确定性。为此,通常在未知功能尚未被评估(Exploration(探索))的区域中选择评估点。另一方面,将用于评估未知函数的新评估点选择为,使得尽可能快地或以在评估点处的少量测量来实现最小化函数的目标。为此,优选基于高斯过程(Exploitation(采用))承诺低函数值的评估点。这两个对立的标准由所谓的获取功能来权衡。
获取函数使用通过高斯过程模型描述的质量函数的参数,例如期望值和分配给该期望值的标准偏差。一个例子是所谓的Lower Confidence Bound (置信下限,LCB) 获取函数,其描述如下:。在实践中,因子 k 通常恒定地例如规定为一个特定值,例如 k = 2。可以利用常见的基于梯度的方法有效地最小化该新标准,并且然后 LCB (x) 的最小值形成未知函数的新的评估点。在此情况下要注意的是,对于获取函数的优化,必须定义优化域,在该优化域中搜索下一个评估点。该域通常根据经验和/或专业知识来选择。
根据上述方法,将贝叶斯优化方法用于通过最小化最初未知的质量函数来寻找出调节策略的模型参数。目标是以这样一种方式创建调节模型,即技术系统的行为尽可能精确地符合希望的规范。如有必要,质量函数可以根据调节系统的性能根据相应的模型参数被不断更新。为了更新质量函数,需要对相应模型参数进行评估,这使得有必要在真实环境中利用相应的模型参数来运行调节系统。由于需要实际运行调节系统,通过不断要更新的质量函数来改进成本评估变得非常耗费。因此,值得希望的是,在实际技术系统处尽可能地将测量过程的数量最小化。
分别在一个或多个测量过程之后,可以利用最近测量的模型参数和结果得到的成本来更新质量函数,并且可以选择一组新的测试模型参数,在其中评估质量函数的参数的预先给定的采集函数被最小化或最大化。预先给定获取函数,以便在权衡探索和采用的情况下通过最小化/最大化来确定新的测试模型参数组。在根据本发明的方法的上下文中,探索意味着为了选择新的测试模型参数优选可能的模型参数空间的如下区域,在所述区域中成本尚未通过先前的测量过程进行评估。在根据本发明的方法的上下文中采用意味着通过测量过程为下一次成本评估选择模型参数组,该模型参数组被估计为一组最佳的模型参数。
上述方法的思想在于,在先前受限的优化域中借助于贝叶斯优化方法来确定调节模型的模型参数。虽然在传统的贝叶斯优化方法情况下不容易确定各个模型参数的在其中应当执行对调节策略的搜索的模型参数域,使得以更有效的方式、即利用更少数量的评估过程/测量来实施优化,但是可以根据来自最初实施的系统识别的先前确定的最大后验估计值(MAP估计)来确定模型参数的用于其优化的值范围。
这样,用于质量函数的贝叶斯优化的模型参数域可以自动缩小,即无需手动地预先给定模型参数的值范围,从而可以显着减少用于优化的测量过程的数量。
此外,参数回归模型可以将输入参量向量和系统状态映射到随后的系统状态上,并且尤其是可以被相应地训练以获得加权矩阵。
此外,模型参数可以借助于用于 LQR 调节器的 AB 学习方法来确定,其中针对至少一个最大后验估计值分别确定不确定性度量,其中至少一个模型参数的值范围被规定在最大后验估计值周围。
除了最大后验估计值之外,还可以确定最大后验估计值的不确定性度量,并且所述不确定性度量允许确定所分配的模型参数的相应值范围的大小。这使得能够单独适配模型参数的优化的搜索范围,即将受高度不确定性影响的模型参数的搜索范围规定为大于受较低不确定性影响的模型参数的情况。
可以规定,借助用于 LQR 调节器的 K 学习方法来确定模型参数,其中至少一个模型参数的值范围被规定在最大后验估计值周围。
此外,在最大后验估计值周围以如下度量确定至少一个模型参数的值范围,所述度量被确定为0 和 1 之间的预先给定的因子与相关最大后验估计值的乘积。
根据另一实施方式,优化方法可以以通过对先验平均值函数最小化得出的初始模型参数开始,其中所述技术系统的非参数近似模型被训练来获得先验平均值函数。
根据另一方面,提供了一种借助于贝叶斯优化方法来确定技术系统的调节策略的装置,其中基于调节模型的模型参数创建和能实施调节策略,其中所述装置被构造用于为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
根据另一方面,提供了一种具有技术系统和用于调节技术系统的调节单元的调节系统,其中在调节单元中实现用于根据技术系统的状态参量来提供输入参量向量的调节模型,其中设置模型创建块以便基于在优化块中实施的贝叶斯优化方法来确定调节模型的模型参数,其中基于调节模型的模型参数创建和能实施调节策略,其中为了优化调节实施以下步骤:
- 提供质量函数,所述质量函数的形式对应于回归函数并且基于模型参数评估技术系统的调节质量;
- 基于质量函数执行贝叶斯优化方法,以便在说明模型参数的允许值范围的模型参数域内迭代地确定具有模型参数的模型参数组;
- 根据质量函数的所属的最大后验估计值来确定模型参数中至少一个模型参数的模型参数域。
附图说明
下面根据附图更详细地解释实施方式。其中:
图1示出了具有调节单元和待调节的技术系统的调节系统的示意图;和
图2是流程图,用于说明借助强化学习方法创建调节模型的方法。
具体实施方式
图1示出了构造用于调节技术系统2的自适应调节系统1的示意图。技术系统2例如可以是机动车辆的内燃机或其子系统。调节单元 3 用一系列输入参量作为操纵参量来调节技术系统 2,所述输入参量导致技术系统 2 的某些运行点。输入参量通常包括多个输入参量,这些输入参量组合在一个输入参量向量中。此外,对于输入参量(输入参量向量的元素)中的每一个都有一个允许的值范围。此外,技术系统2的操控导致一个或多个状态参量,所述状态参量在待测量的输入参量向量u处被测量并且以状态参量向量的形式表示。
借助于作为技术系统2的一部分的一个或多个传感器21,可以检测一个或多个测量参量的变化过程,所述一个或多个测量参量分别代表相对应的状态参量,所述状态参量分别说明技术系统 2 的系统状态 x。D在此对应于状态参量的数量。因此,技术系统2的系统状态借助于一个或多个传感器21被检测并且作为状态参量向量x的状态参量被传送到调节单元3。
输入参量对应于基于状态参量和调节策略确定的调节单元3的操纵参量。技术系统2的运行借助于技术系统2的一个或多个致动器22根据输入参量u(t)进行。例如,因此可以控制机器人或车辆的运动或可以对车辆的驱动单元或驾驶员辅助系统进行控制。例如,输入参量 u 可以对应于施加到作为致动器 22 的机电执行器的电压。根据一个或多个输入参量u操控致动器22并实施相对应的动作。在这种情况下,致动器22可以包括(不一定在结构上集成的)操控逻辑,其从输入参量确定操控参量,相关致动器22利用该操控参量来操控。
在一个实施例中,调节单元3被用于调节作为技术系统的内燃机。为此,可以将节气门位置、燃料输送和/或类似的作为输入参量预给定到节气门执行器或喷射阀的操控装置,并且接收相对应的状态参量,例如转速、负载、发动机温度。
在一个实施例中,调节单元3被用于调节作为技术系统2的至少部分自主的机器人,尤其是至少部分自主的机动车辆。传感器21可以是例如优选地布置在机动车辆中的一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR(激光雷达)传感器和/或一个或多个位置传感器(例如 GPS)。替代地或附加地,传感器21还可以包括确定关于技术系统(机动车辆)的状态的信息的信息系统,例如确定机动车辆附近的当前或未来天气状态的天气信息系统。
在另一实施例中,调节单元3被用于调节作为技术系统的机动车辆中的功能。为此,可以将加速踏板位置、以手腕力矩或转向位置为形式的转向干预、诸如周围对象的位置的环境信息、制动干预和/或类似的预先给定为输入参量并且接收相对应的状态参量,所述状态参量说明机动车辆的驾驶行为,例如车速、转弯位置、与周围对象的距离等。
调节单元3可以利用多个测量参量来探测,例如至少部分自主机器人的状态或状态变化过程,例如发动机转速、车速、燃料消耗、发动机温度、纵向速度和/或横向速度、转向角、偏航率等。优选地布置在机动车辆中的致动器32可以是例如机动车辆的制动器、驱动器或转向器。
可替代地,至少部分自主的机器人还可以是另一移动机器人(未示出),例如通过飞行、游泳、潜水或步行来移动的机器人。移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。
在另外的替代方案中,至少部分自主的机器人还可以是家用电器(未示出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器21、例如光学传感器,可以检测用家用电器处理的对象的状态,例如在洗衣机的情况下,位于洗衣机中衣物的状态。然后可以利用调节单元3来确定该对象的类型或状态并且通过测量参量来表征。然后可以这样确定输入参量,即根据对象的所确定的类型或所确定的状态来操控家用电器。例如,在洗衣机的情况下,该洗衣机可以根据位于其中的衣物由什么材料构成来进行控制。然后可以根据确定了衣物的何种材料来选择输入参量u(t)。
在另一实施方式中,调节单元3可用于操控生产系统的生产机器(技术系统3),其方式是控制该生产机器的致动器22通过输入参量被操控。生产机器11可以是例如用于冲压、锯切、钻孔、铣削、车削和/或切割的机器。
传感器21则可以是例如检测生产产品的特性的光学传感器。可能的是,控制生产机器的致动器32根据生产产品的所确定的特性被操控,从而生产机器相对应地实施该生产产品的后续处理步骤。还可能的是,传感器31确定由生产机器处理的生产产品的特性,并据此针对后续生产产品来适配对生产机器的操控。
调节单元3的调节遵循调节策略。调节策略应当通过动态过程来适配,使得系统行为在质量函数方面变得最佳。为此,实施优化方法,即调节策略所基于的调节模型的模型参数优化为使得对经调解的技术系统2的性能进行优化。为此,在模型创建块 4 中创建调节模型(动态模型),该调解模型是调节单元 3的调节策略的基础。模型创建块 4 基于在优化块 5 中实施的贝叶斯优化方法确定调节模型的模型参数。这基于在质量函数块 6 中确定或预给定的预给定质量函数进行。
在进一步优选的实施方式中,调节单元3、模型创建块4、优化块5和成本函数块6在计算单元中实现。计算单元包括控制设备 2、一个或多个处理器和至少一个机器可读存储介质,指令存储在所述机器可读存储介质上,所述指令当其在处理器上实施时促使所述计算单元实施根据本方法的发明。
技术系统2对应于动态系统,该动态系统借助于调节单元3以合适的调节策略以优化的方式被调解,所述调节策略应当相对应地借助于贝叶斯优化方法来创建。贝叶斯优化方法用于确定调解模型,其方式是在优化方法期间迭代地应用各种测试模型参数组来调解技术系统2并基于结果得到的状态参量来适配模型参数。在此,质量函数借助于高斯过程回归来建模,通过所述高斯过程回归,技术系统的调解性能被定义为模型参数的函数。调节的性能从预给定的质量标准中得出,该质量标准将调节的品质分配给结果得到的状态参量。状态参量具有容差,使得质量函数优选地通过高斯过程回归创建。
基本上,该问题涉及寻找出一种调节策略,该调解策略将系统状态映射到输入参量向量其中 ,其中表示模型参数域中调节策略的模型参数。基于状态向量和输入参量向量在预先确定的时间范围上预给定依赖于模型参数的质量函数J,其中模型参数应当通过优化方法被优化,
贝叶斯优化方法用于通过最小化质量函数来寻找到调节策略的优化模型参数。目标是调节策略能够利用调节单元 3来实现对技术系统 2 的尽可能最佳的调节,其中通过质量函数确定的成本最小化“最佳地”涉及由调节单元 3 和技术系统2组成的总系统的预给定性能。
因此,质量函数因此提供了在时间窗口期间实际技术系统 2 的行为相对于相应地具有成本J的预给定性能的偏差。因此,质量函数的评估要求技术系统 2在测量过程中在真是环境中运行。由于需要实际运行包括技术系统2和调节单元3的调节系统,成本J的评估变得非常复杂,使得在真实的技术系统2处用于评估特定调节策略的测量过程的数量应当被尽可能地最小化。
可以借助于 LQR 调节器实施对调节的创建,所述LQR调节器需要待调节系统的线性动态模型。该 LQR 调节器可以通过反馈矩阵 K 来描述,而反馈矩阵的元素可以作为模型参数完全或部分地针对优化被适配。
线性调节策略所具有的优点是,它们与其他调节模型相比具有少的维度。此外,线性调节策略使其能够以简单的方式在调节器中实现并且从而提高贝叶斯优化的效率。
结合贝叶斯优化,可以使用线性二次调节器,即所谓的 LQR 调节器,如在创建调节策略的领域中已知的那样。在 LQR 调节器情况下,测量过程中的系统行为和与环境的交互通过具有一组变化的输入参量向量和结果得出检测的状态参量向量的受控运行来确定。在此,系统动态性根据
被线性化,并且成本相应地被乘方
通过这些近似,可以在模型创建块 4 中创建 LQR 反馈矩阵,该矩阵表示动态模型并且一般地称为。调节策略优化通过直接适配反馈矩阵(K学习(K-Learning))来执行,其中反馈矩阵中的一部分项或每个项对应于用于优化的一个模型参数。此外,只有反馈矩阵K的与系统矩阵A和B对应的组成部分被假设为待优化的模型参数,其中矩阵A和B的每个项对应于一个模型参数。
可替代地,在没有矩阵 Q 和 R(加权矩阵)的反馈矩阵 K 中可以假设为要优化的模型参数。在此,仅适配具有以下形式的权重矩阵的对角线项就足够了:
根据模型参数与上述矩阵的从属关系,这些方法被称为K学习(K-Learning)、AB学习(AB-Learning)和QR学习(QR-Learning)。在贝叶斯优化情况下,必须充分关于质量函数的长度尺度覆盖参数空间,以便找出优化的模型参数的良好估计。
然而,在没有先验知识的情况下,很难为优化选择各个模型参数的值范围,即模型参数域。然而,这对于没有过多数量的测量过程的有效优化方法来说是重要的。因此,上述方法规定选择模型参数的合适的搜索范围,从而可以减少测量过程的数量。这尤其是在高维的情况下是必要的,因为在那里不容易手动设置模型参数中每一个模型参数的值范围。因此,模型参数的值范围首先通过学习动态模型上的分布来确定,并且然后使用该分布来选择模型参数中每个模型参数的值范围。该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值来获得,以便获得系统动态性的近似线性模型。这导致模型上的高斯分布
在选择模型参数取值范围之后,可能的是,在某些维度中模型参数的值范围选择过于保守。例如,如果缩放参数 ß 太小或由于模型偏差,就可能发生这种情况。因此可能发生的是,最优模型参数向量并不位于所选择的模型参数域内。因此,模型参数域可以在优化期间动态地适配。
在贝叶斯优化的过程期间,存在对模型参数值的最优值的估计,即在当前的模型参数域中近似质量函数的最小值。如果从贝叶斯优化得出所估计的最优值的位置位于模型参数域的范围边界处,则更好的模型参数有可能位于当前模型参数域之外。因此提出,对其值位于模型参数域的边界处的模型参数的值范围进行扩大。模型参数域的这种动态适配可以通过不同方式实施。
模型参数的值范围的适配使得能够从有限的值范围出发,在优化期间仅针对模型参数向量的那些优化满足模型参数域的边界范围的维度来动态适配所述值范围。由此,可以整体上更有效地进行优化,从而显着改善收敛性。此外,可以更好地补偿潜在的模型误差,从而经优化的系统模型变得性能更高。通过改善效率,可以将贝叶斯优化缩放到高维调节策略。
为了与模型参数组有关地创建针对调节系统的性能的质量函数,首先提供数据
因此,初始高斯过程模型被训练为质量函数,该初始高斯过程模型以一定代价映射测试模型参数
其中 K 对应于协方差矩阵,其中
因此,高斯过程模型既提供了预期值,即成本 J,又提供了该预期值的不确定性。
现在可以由此确定初始模型参数域,因为在没有先验知识的情况下很难为优化选择各个模型参数的值范围,即模型参数域。选择合适的模型参数域对于没有过多数量的测量过程的有效优化方法来说是重要的。在步骤S3中,因此为模型参数选择合适的搜索范围,从而可以减少测量过程的数量。这在高维的情况下尤其必要,因为在那里不容易手动调整模型参数中每个模型参数的值范围。因此,基于先前训练的高斯过程模型来确定模型参数的值范围,并且随后使用该分布来选择模型参数中每个模型参数的值范围。
该分布通过贝叶斯线性回归通过状态参量向量和输入参量向量的所记录的数据值获得,以便获得系统动态性的近似线性模型。这导致模型上的高斯分布
图1的装置1还包括优化单元22。优化单元22可以设置在控制设备2中,或者可替代地与控制设备2分开地设置。优化单元22的目的是为调节器21确定调节模型,通过该调节模型可以调节动态技术系统3。为此,优化单元22执行迭代优化方法,通过该迭代优化方法创建调节模型,其方式是对质量函数进行最小化。质量函数的最小化可以表达为:
其中初始条件通过预先给定。在此对应于系统状态在时间点 t 的状态向量,并且对应于在时间点t的输入参量向量。成本矩阵 和 被假定为正半定或正定。基于动态行为的线性近似,并且在假设具有调节策略的线性状态反馈控制器的情况下,利用
和
最后提到的方程的解在调节理论中已知为 LQR 调节器(LQR:线性二次调节器)。由于系统动态性的线性近似,LQR 调节器的建模通常导致不令人满意的结果,所述系统动态性的线性近似通常只是在工作点附近的足够精确的近似。
下面应基于贝叶斯优化方法执行调节策略搜索。所述贝叶斯优化方法规定了高斯过程回归。高斯过程回归是对先验未知函数建模的非参数方法。借助高斯过程回归,在对系统行为进行有噪声观察的情况下,既可以确定函数值的进程,也可以确定函数值中每个函数值的预测的不确定性。高斯过程可以理解为函数上的分布,并且由先验平均值函数和协方差函数定义。平均值函数说明关于要映射的质量函数的先验知识,并且通常假定为零。协方差函数也称为核心,并且定义了分别两个函数值和之间的相关性,其中。
其中
高斯过程回归被用于对技术系统 2 的行为建模并评估其最优性。由调节器和技术系统2构成的装置的行为由质量函数表示,该质量函数表示模型参数与基于由模型参数定义的调节策略所调节的技术系统的结果得到的成本之间的函数关系。然后应用贝叶斯优化方法来优化质量函数。该质量函数在分析上是不可能的,并且因此必须反复执行。因此,用于优化的耗费应限制于尽可能小的迭代次数。
在每个测量过程之后,通过最大化获取函数来选择新的评估点,这可以有效地通过数值优化技术、如 L-BFGS来执行。替换于获取函数,可以使用例如改进概率(probability of improvement,PI)、预期改进(expected improvement,El)和置信上限(upper confidence bound,UCB)。所有这些函数都提供了在采用、即优选其中质量函数尚未被评估的输入参量向量的范围与采用、即优选质量函数的所估计的最优值(最小值)所在的范围之间的权衡。
对于贝叶斯优化,仅评估通过测量过程所运行的技术系统的整体行为,而通常丢弃轨迹数据或进程数据。对于借助于贝叶斯线性回归的系统识别,可以高频采样状态参量,以获得待估计模型的不确定性度量。
其中n对应于数据点的数量,对应于描述数据中噪声的预给定常数,对应于待估计模型参数的先验平均值(模型参数的高斯先验的平均值),对应于待估计的模型参数的先验协方差(模型参数的高斯先验的协方差),对应于数据点的位置(汇总在一个矩阵中),t 对应于数据点的函数值(汇总在一个向量中),对应于待估计的模型参数的后验期望值(平均值)并且对应于待估计的模型参数的后验协方差。
调节模型的确定通过强化学习进行,以便借助于贝叶斯优化方法确定线性状态反馈控制器的参数化。
下面提出了用于加速优化过程的收敛的措施。
该方法称为AB学习方法。
根据图2的流程图,现在借助于贝叶斯优化方法来描述用于创建调节模型的方法。
在步骤S2中,确定调节模型的待确定模型参数的值范围。贝叶斯优化必须也在质量函数的长度尺度方面尽可能充分地覆盖模型参数的值范围。先验地,通常很难确定为了实现良好的调节行为必须在哪些值范围中优化模型参数、即矩阵 K 的项。
其中 i 可以优选地假定在 1 和 4 之间,尤其是假定为 2。
因此,在贝叶斯优化方法期间,具有更高不确定性的模型参数被分配了更大值范围用于优化,并且相反地,被良好识别的模型参数、即具有低不确定性的模型参数被分配了更小的值范围。
在 K 学习方法情况下,借助于 LQR 调节器为估计系统构建值范围:
调节模型的模型参数的值范围可以在此情况下设置在0与相应模型参数的MAP估计值的两倍之间
一般来说,可以预给定调节模型的模型参数的值范围:
在步骤S3中,确定先验平均值函数。这使用技术系统 2 的近似模型来确定技术系统 2 的简单模拟器。该模拟器用于估计质量函数的形式。技术系统2的近似模型例如借助于高斯过程基于几个测量点来确定。为此使用的测量点的数量可以在 10 到 100 之间。然后可以例如通过高斯过程回归构建成本的近似先验平均值函数。
然后,在步骤S8中,将最后确定的数据对添加到训练数据中
然后在步骤S9中检查终止标准,该终止标准例如说明是否已经实现调节模型的足够性能或者是否存在足够的收敛。如果满足终止标准(二选一:是),则该方法以步骤S10结束,否则(二选一:否)系统跳回到步骤S6。
在步骤S10中,最后确定的模型参数被应用于调节策略。
Claims (11)
7.根据权利要求1至6中任一项所述的方法,其中所述优化方法以通过对先验平均值函数最小化得出的初始模型参数开始,其中所述技术系统(2)的非参数近似模型被训练来获得先验平均值函数。
9.一种具有技术系统(2)和用于调节技术系统(2)的调节单元(3)的调节系统(1),其中在调节单元(3)中实现用于根据技术系统(2)的状态参量来提供输入参量向量的调节模型,其中设置模型创建块(4)以便基于在优化块(5)中实施的贝叶斯优化方法来确定调节模型的模型参数(),其中基于调节模型的模型参数()创建和能实施调节策略,其中为了优化调节实施以下步骤:
10.一种具有程序代码装置的计算机程序,所述计算机程序被设置为当计算机程序在计算单元上实施时实施根据权利要求1至7中任一项所述的方法。
11.一种机器可读存储介质,具有其上存储的根据权利要求10所述的计算机程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019208262.9A DE102019208262A1 (de) | 2019-06-06 | 2019-06-06 | Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes'schen Optimierungsverfahrens |
DE102019208262.9 | 2019-06-06 | ||
PCT/EP2020/064676 WO2020244987A1 (de) | 2019-06-06 | 2020-05-27 | Verfahren und vorrichtung zur ermittlung von modellparametern für eine regelungsstrategie eines technischen systems mithilfe eines bayes'schen optimierungsverfahrens |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113874865A true CN113874865A (zh) | 2021-12-31 |
Family
ID=70861495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080041182.0A Pending CN113874865A (zh) | 2019-06-06 | 2020-05-27 | 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220236698A1 (zh) |
CN (1) | CN113874865A (zh) |
DE (1) | DE102019208262A1 (zh) |
WO (1) | WO2020244987A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115755606A (zh) * | 2022-11-16 | 2023-03-07 | 上海友道智途科技有限公司 | 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018215061A1 (de) * | 2018-09-05 | 2020-03-05 | Robert Bosch Gmbh | Verfahren zum sicheren Trainieren eines dynamischen Modells |
US11915181B2 (en) * | 2019-11-14 | 2024-02-27 | Schlumberger Technology Corporation | Upper confidence bound algorithm for oilfield logic |
CN113469561B (zh) * | 2021-07-19 | 2024-09-24 | 交叉信息核心技术研究院(西安)有限公司 | 连接到电网的氢能的环境价值评估方法和系统 |
MX2024004239A (es) * | 2021-10-07 | 2024-04-24 | Linde Gmbh | Metodo para poner en funcionamiento un sistema de proceso, sistema de proceso y metodo para convertir un sistema de proceso. |
CN113962654B (zh) * | 2021-10-21 | 2023-10-31 | 天津大学 | 基于仿真的公交排班优化方法、系统及可存储介质 |
DE102022104313A1 (de) | 2022-02-23 | 2023-08-24 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs |
DE102022124791A1 (de) | 2022-09-27 | 2024-03-28 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Verfahren und Vorrichtung zur Abstimmung der Parameter eines Antriebsstranges |
WO2024182977A1 (zh) * | 2023-03-06 | 2024-09-12 | 浙江大学 | 基于变分贝叶斯高斯-泊松混合回归模型的计数型质量变量预测方法 |
CN117909886B (zh) * | 2024-03-18 | 2024-05-24 | 南京海关工业产品检测中心 | 一种基于优化随机森林模型的锯齿棉品级分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030099350A1 (en) * | 2001-10-03 | 2003-05-29 | Alcatel | System and method for upstream power backoff for xDSL |
US20090271340A1 (en) * | 2008-04-23 | 2009-10-29 | Siemens Aktiengesellschaft | Method for the computer-aided learning of a control or adjustment of a technical system |
US20180349158A1 (en) * | 2017-03-22 | 2018-12-06 | Kevin Swersky | Bayesian optimization techniques and applications |
CN109740757A (zh) * | 2019-01-25 | 2019-05-10 | 电子科技大学 | 一种基于序贯蒙特卡罗方法的贝叶斯优化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102421676B1 (ko) * | 2017-05-29 | 2022-07-14 | 프랜카 에미카 게엠바하 | 다관절 로봇의 액추에이터들을 제어하기 위한 시스템 및 방법 |
CN108508856B (zh) * | 2018-03-28 | 2020-09-22 | 西安西电电气研究院有限责任公司 | 一种工业设备智能控制系统及方法 |
US20200327435A1 (en) * | 2019-04-12 | 2020-10-15 | General Electric Company | Systems and methods for sequential power system model parameter estimation |
DE102019208263A1 (de) * | 2019-06-06 | 2020-12-10 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System |
-
2019
- 2019-06-06 DE DE102019208262.9A patent/DE102019208262A1/de active Pending
-
2020
- 2020-05-27 WO PCT/EP2020/064676 patent/WO2020244987A1/de active Application Filing
- 2020-05-27 CN CN202080041182.0A patent/CN113874865A/zh active Pending
- 2020-05-27 US US17/611,549 patent/US20220236698A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030099350A1 (en) * | 2001-10-03 | 2003-05-29 | Alcatel | System and method for upstream power backoff for xDSL |
US20090271340A1 (en) * | 2008-04-23 | 2009-10-29 | Siemens Aktiengesellschaft | Method for the computer-aided learning of a control or adjustment of a technical system |
US20180349158A1 (en) * | 2017-03-22 | 2018-12-06 | Kevin Swersky | Bayesian optimization techniques and applications |
CN109740757A (zh) * | 2019-01-25 | 2019-05-10 | 电子科技大学 | 一种基于序贯蒙特卡罗方法的贝叶斯优化方法 |
Non-Patent Citations (2)
Title |
---|
杨斌, 聂在平: "一种支持向量回归中超参数自适应方法", 广西师范大学学报(自然科学版), no. 01, 25 March 2003 (2003-03-25) * |
王新;孟玲玲;: "基于EEMD-LSSVM的超短期负荷预测", 电力系统保护与控制, no. 01, 1 January 2015 (2015-01-01) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115755606A (zh) * | 2022-11-16 | 2023-03-07 | 上海友道智途科技有限公司 | 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
US20220236698A1 (en) | 2022-07-28 |
DE102019208262A1 (de) | 2020-12-10 |
WO2020244987A1 (de) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113874865A (zh) | 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置 | |
CN113498523B (zh) | 用于控制机器对象的操作的装置和方法以及存储介质 | |
CN113939775B (zh) | 用于确定针对技术系统的调节策略的方法和设备 | |
US20130013543A1 (en) | Method for the computer-aided control of a technical system | |
Di Cairano et al. | An MPC design flow for automotive control and applications to idle speed regulation | |
CN112051731A (zh) | 用于确定针对技术系统的控制策略的方法和设备 | |
JP6841852B2 (ja) | 制御装置及び制御方法 | |
CN111433689B (zh) | 用于目标系统的控制系统的生成 | |
US11840224B2 (en) | Apparatus and method for control with data-driven model adaptation | |
US11550272B2 (en) | Method and device for setting at least one parameter of an actuator control system and actuator control system | |
KR102326733B1 (ko) | 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체 | |
KR102382047B1 (ko) | Pso를 이용한 모터 제어기의 자동 학습 튜닝 시스템 | |
CN116819973B (zh) | 一种轨迹跟踪控制方法 | |
CN111240201B (zh) | 一种扰动抑制控制方法 | |
CN104345637B (zh) | 用于自适应基于数据的函数模型的方法和设备 | |
US11790247B2 (en) | Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems | |
Menées et al. | Fuzzy model predictive control for nonlinear processes | |
Minami et al. | Two-step reinforcement learning for model-free redesign of nonlinear optimal regulator | |
JP7207474B1 (ja) | 情報処理装置 | |
JP2024524771A (ja) | フィードバックコントローラを較正するためのシステムおよび方法 | |
Xakimovich et al. | Structural-Parametric Synthesis of an Adaptive Fuzzy-Logical System | |
Nandhini et al. | An Efficient Model Predictive Control method for Real-time complex nonlinear systems | |
CN112947078A (zh) | 一种基于值迭代的伺服电机智能优化控制方法 | |
Tamimi | Design and implementation of a soft computing-based controller for a complex mechanical system | |
CN116317766A (zh) | 一种超声电机无模型转速控制的二次规划寻优方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |