CN112051731A - 用于确定针对技术系统的控制策略的方法和设备 - Google Patents
用于确定针对技术系统的控制策略的方法和设备 Download PDFInfo
- Publication number
- CN112051731A CN112051731A CN202010504677.4A CN202010504677A CN112051731A CN 112051731 A CN112051731 A CN 112051731A CN 202010504677 A CN202010504677 A CN 202010504677A CN 112051731 A CN112051731 A CN 112051731A
- Authority
- CN
- China
- Prior art keywords
- model
- adjustment
- model parameters
- technical system
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 129
- 238000011217 control strategy Methods 0.000 title abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 80
- 230000003750 conditioning effect Effects 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 92
- 230000008569 process Effects 0.000 description 45
- 238000004458 analytical method Methods 0.000 description 23
- 238000005259 measurement Methods 0.000 description 23
- 238000012360 testing method Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000001105 regulatory effect Effects 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 5
- 238000005406 washing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000010355 oscillation Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 235000000332 black box Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 2
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003801 milling Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000007514 turning Methods 0.000 description 1
- 230000028838 turning behavior Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Feedback Control In General (AREA)
Abstract
用于确定针对技术系统的控制策略的方法和设备。本发明涉及用于借助贝叶斯优化方法来创建针对技术系统的调节的计算机实现的方法,其中基于调节模型的模型参数创建并且能实施调节,其中为了优化调节实施如下步骤:‑提供质量函数,其形式对应于可训练的回归函数,并且质量函数基于模型参数来评估对技术系统的调节的质量;‑基于质量函数来执行贝叶斯优化方法,以便在初始预先给定的模型参数域之内迭代地优化具有模型参数的模型参数组;其中在执行贝叶斯优化方法之前基于多个动态系统模型来创建初始调节模型并且确定说明了模型参数的所容许的值域的模型参数域。
Description
技术领域
本发明涉及用于尤其是在使用贝叶斯优化方法的情况下找到适合于技术系统的控制策略的方法。本发明尤其涉及一种用于更高效地优化调节模型的模型参数来实现针对技术系统的控制策略的计算机实现的方法。
背景技术
在所谓的强化学习(Reinforcement Learning)的情况下,调节系统与周围环境反复进行交互并且从系统特性中自动学习行动策略。学习过程通过使由成本函数或质量函数来说明的成本值最小化来进行,该成本值评估调节系统的性能。
尤其是无模型的强化学习方法是有利的,因为不需要知道周围环境以及周围环境与系统的相互作用,然而在学习过程期间系统与周围环境的交互时间很多。而在传统的基于模型的方法中,初始预先给定模型结构,该模型结构基本上描述了调节系统在周围环境中的特性。由此,可以描绘调节系统与周围环境的交互的影响。通过参数适配进行的模型结构的适配能简单且高效地来执行。然而,传统方法具有缺点,因为所选择的模型结构可能不合适并且由此通过优化调节模型来进行的参数适配并不导致最佳结果。
与强化学习相关地对调节模型的创建和优化可以与贝叶斯优化相结合地来执行,其中成本函数被建模成高斯过程模型。这使得能够创建针对调节模型的高效的黑匣子(Black-Box)优化器,在其它情况下,所述调节模型要花费高地来创建/参数化。然而,由于这种调节模型的模型参数的数目多,优化花费很高,使得需要大量的测量过程并且由于测量数据量大而导致训练时间长。
发明内容
按照本发明,规定了一种根据权利要求1所述的用于创建针对技术系统的调节的方法以及一种根据并列权利要求所述的设备和系统。
其它的设计方案在从属权利要求中说明。
按照第一方面,规定了一种用于借助于贝叶斯优化方法来创建针对技术系统的调节的方法,其中基于模型参数来创建并且能实施该调节,其中为了优化该调节而实施如下步骤:
- 提供质量函数,该质量函数的形式对应于可训练的回归函数,并且该质量函数基于模型参数来评估对技术系统的调节的质量;
- 基于该质量函数来执行贝叶斯优化方法,以便迭代地优化具有模型参数的模型参数组;
- 其中在执行贝叶斯优化方法之前基于多个动态系统模型来创建初始调节模型并且确定说明了这些模型参数的所容许的值域的模型参数域,其方式是确定这些初始调节模型的模型参数的分布并且根据所属的最大后验(Maximum-a-Posteriori)估计值以及这些初始调节模型的模型参数的分布的相应标准差来初始定义这些模型参数的值域。
为了对调节系统的调节进行建模,创建调节模型。调节模型定义了调节策略并且表示一种函数关系,利用该函数关系,基于该调节的一个或多个输入参量来计算调定量(Stellgröße)。在此,这些输入参量中的至少一个输入参量对应于所要调节的技术系统的状态参量。
调节模型的形式可以以多种方式来预先给定。这样,调节模型可包含公式关系或者基于该公式关系,该公式关系基于物理定律,诸如运动方程、振动方程、阻尼特性等等。调节模型也可以基于自由选择的或者以其它方式来确定的公式关系。该公式关系常常必须考虑技术系统的非线性特性。
用于确定调节模型的贝叶斯优化方法迭代地对一个技术系统应用不同的调节策略并且高效地对调节进行优化。在此,质量函数可以借助于可训练的回归函数、尤其是借助于高斯过程回归来建模,以便将系统模型的性能建模成调节模型的模型参数的函数,其中高斯过程回归基于有噪声的(那时被测量的)状态参量来创建。
原则上,问题涉及找到将系统状态映射到输入参量矢量的调节策略。为此,基于(由多个状态参量构成的)状态参量矢量和(由多个输入参量构成的)输入参量矢量来分析在预先确定的时间范围内对技术系统的调节的与调节策略的模型参数有关的特性,以便确定技术系统的特性的品质(Güte)。技术系统的特性的品质可以通过关于所希望的特性方面的评估来确定。例如,可以评估如下标准,如振荡趋势、振荡时长,干扰灵敏度、鲁棒性等等。对技术系统的调节的特性也被称作未知函数。质量函数(成本函数)对应于数学模型,该数学模型根据作为基础的调节策略的模型参数来评估对技术系统的调节的特性的品质。
一般来说,如果应该使对应于技术系统的特性的未知函数f、即所谓的“黑匣子(Black-Box)”函数最小化,则应用贝叶斯优化。该未知函数f可以仅针对值x来分析或测量以及(可能由于有噪声)被观察。得到所观察的值y为y = f(x) + e,其中e表示噪声分量。还假定:对未知函数f的每次分析/每次测量都是昂贵的,也就是说在对未知函数的分析造成高花费方面造成成本,如其例如在实验台上实施实验时就是如此情况。由于对未知函数的分析昂贵,值得追求的是:在优化期间仅须进行少量分析。
在一定的预设条件、诸如系统特性或未知函数的连续性的情况下,可以利用高斯过程回归通过质量函数来对该未知函数进行近似。为此,根据在多个分析点(x 1 , ..., x n )处对该未知函数的分析和对相对应的函数值(y 1 , ... y n )的观察,可以借助于高斯过程来对质量函数进行训练。高斯过程的特征是:在分析点周围的范围内,模型预测非常好并且该未知函数、也就是说系统特性良好地被近似。这在质量函数的不确定性低方面反映出来。如果远离分析点,则对关于该未知函数的质量函数的模型预测变差并且不确定性随着距分析点的距离增加而升高。
优化调节策略的模型参数并且借此优化系统特性的可能的策略是在多个不同的位置处(例如在规则网格上)分析该未知函数并且假定所观察到的最低的函数值作为优化结果。该做法并不高效,并且需要花费相对应地高的许多分析来找到最佳值。
替代该方案,使用质量函数来选择新的分析点。为此,用于分析/测量系统特性的新的分析点被选择为使得由此一方面改善了质量函数的说服力,使得质量函数的所估计的期望值的不确定性降低。为此,通常在如下范围内选择分析点,在所述范围内,该未知函数还不曾被分析或技术系统还不曾被测量(Exploration(勘探))。另一方面,选择新的分析点用于分析该未知函数或用于测量技术系统,使得找到最佳值的目标尽可能快地或利用在分析点处的少次测量来实现。为此,基于高斯过程,优选预示着功能值低的分析点用于选择(Exploitation(开采))。这两个矛盾的标准通过如下方式来权衡:借助于预先给定的采集函数来选择分析点。
采集函数使用质量函数的通过高斯过程模型来描述的参数,诸如期望值和被分配给该期望值的标准差。例子是所谓的置信下界(Lower-Confidence-Bound,LCB)采集函数,该采集函数按如下来描述:。因子k在实际中常常恒定地被例如规定在确定的值,诸如k = 2。该新标准可以利用常见的基于梯度的方法来高效地最小化,并且LCB(x)的最小值接着形成用于该未知函数f或对技术系统的测量的新的分析点。在这种情况下要注意:为了优化质量函数,必须事先定义模型参数域,所述模型参数域说明了相应的模型参数的值域,在所述值域之内搜索下一个分析点。到目前为止,这些模型参数域通常基于经验和/或专家知识来选择。
根据(例如通过在分析点处的测量)对技术系统的特性的分析,利用新的数据来更新或重新训练该可训练的回归函数并且根据上文所描述的方法来选择下一个分析点。通常,该方法一直重复,直至满足中断标准,即例如应被用于对未知函数f(也就是说技术系统的特性)的优化的时长。
在优化方法结束之后,推荐将函数值x作为质量函数的最小值的位置、也就是说使高斯过程的期望值最小化的值。
LCB标准并不是唯一在文献中被提出的采集函数。其它标准例如是预期改进(Expected Improvement,EI)、置信上界(Upper Confidence Bound,UCB)、概率改进(Probability of Improvement,PI)或所谓的熵搜索(Entropy Search)方法,所述熵搜索方法基于信息理论的考虑。
按照上述方法,贝叶斯优化方法被用于通过将起初未知的质量函数最小化来找到调节策略的模型参数。目标是:将调节模型创建为使得技术系统的特性尽可能精确地对应于所希望的规范。质量函数必要时可以与调节系统的性能相对应地根据相应的模型参数始终被更新。为了更新质量函数,需要评估相应的模型参数,这需要在真实环境中利用相应的模型参数来运行调节系统。在调节系统的运行期间,检测反映这样被调节的技术系统的特性的品质的质量量度并且将该质量量度分配给当前的模型参数。由于需要针对测量过程来真实地运行调节系统,通过要持续地更新的质量函数对成本的评估的改善花费很高。因而值得期望的是:将在真实的技术系统处的测量过程的数目尽可能最小化。
分别在一个或多个测量过程之后,可以更新具有最终被测量的模型参数的质量函数以及所得到的质量量度并且选择新的测试模型参数组,其方式是使评估质量函数的变化过程或参数的预先给定的采集函数最小化或最大化。采集函数被预先给定为使得该采集函数确保了在勘探与开采之间的折衷。在按照本发明的方法的上下文中,勘探意味着:优选可能的模型参数空间的如下范围用于选择新的测试模型参数,在所述范围内,还不曾通过先前的测量过程来确定质量量度或评估系统特性。在按照本发明的方法的上下文中,开采意味着:选择如下测试模型参数用于通过测量过程来进行下一次评估,该测试模型参数被估计为最佳模型参数组。
在下文示例性地假定:调节策略对应于为的线性状态调节策略,其中K是表征该调节的调节矩阵。线性调节策略具有如下优点:该线性调节策略与其它调节模型相比维度少。线性调节策略还能够实现:该线性调节策略可以在调节器中简单地被实现并且这样提高了贝叶斯优化的效率。
执行调节策略优化,其方式是使调节矩阵的元素适配。调节矩阵的元素可以直接被假定为模型参数或者被假定为与模型参数有关。
上述方法的思路在于:在所限制的模型参数域中借助于贝叶斯优化方法来确定调节模型。在传统的贝叶斯优化方法中可能难以确定各个模型参数的其中应该执行对调节策略的搜索的值域,使得该搜索更高效地、也就是说利用数目更少的测量过程来实施,而按照当前方法可以通过初始预先给定动态系统模型以及将其转换成初始调节模型来确定调节模型的模型参数的合理的值域。
以这种方式,可以自动地、也就是说在不手动地预先给定模型参数的值域的情况下在优化方法之前自动地规定用于贝叶斯优化的模型参数域,使得可以显著减少用于优化的测量过程的数目。
尤其是可以通过调节矩阵K=dlqr(A,B,Q,R)来预先给定调节模型。在此,模型参数的值域可以根据调节矩阵K的元素的最大后验估计值(MAP估计值)来确定。还可以根据公差范围来预先给定值域。
所述调节模型的模型参数还可以在对技术系统进行调节期间基于上述方法持续地或在有规律的或预先确定的时间点来适配。
按照另一方面,规定了一种用于借助于贝叶斯优化方法来创建针对技术系统的调节的设备,其中基于调节模型的模型参数来创建并且能实施所述调节,其中所述设备被构造为,为了优化所述调节实施如下步骤:
- 提供质量函数,所述质量函数对应于可训练的回归函数,并且所述质量函数基于模型参数来评估对所述技术系统的调节的质量;
- 基于所述质量函数来执行贝叶斯优化方法,以便在初始预先给定的模型参数域之内迭代地优化具有模型参数的模型参数组;
其中在执行所述贝叶斯优化方法之前基于多个动态系统模型来创建初始调节模型并且确定说明了所述模型参数的所容许的值域的模型参数域,其方式是确定所述初始调节模型的模型参数的分布并且根据所属的最大后验估计值以及所述初始调节模型的模型参数的分布的相应标准差来初始定义所述模型参数的值域。
按照另一方面,规定了一种调节系统,该调节系统具有技术系统和用于对该技术系统进行调节的调节单元,其中在调节单元中实现调节模型以用于根据该技术系统的状态参量来提供输入参量矢量,其中设置模型创建块,以便在初始预先给定的模型参数域之内基于在优化块中实施的贝叶斯优化方法来迭代地优化具有用于调节模型的模型参数的模型参数组,其中贝叶斯优化方法基于预先给定的质量函数来执行,该质量函数在质量函数块中被确定或预先给定,其中在执行贝叶斯优化方法之前基于多个动态系统模型来创建初始调节模型并且确定说明了这些模型参数的所容许的值域的模型参数域,其方式是确定这些初始调节模型的模型参数的分布并且根据所属的最大后验估计值以及这些初始调节模型的模型参数的分布的相应标准差来初始定义这些模型参数的值域。
附图说明
实施方式随后依据随附的附图进一步予以阐述。其中:
图1示出了调节系统的示意图,该调节系统具有调节单元和所要调节的技术系统;
图2示出了用来阐明用于借助于贝叶斯优化方法来执行对调节策略的优化的方法的流程图;
图3示出了具有对模型参数域的动态适配的工作原理的示意图的图表。
具体实施方式
图1示出了自适配的调节系统1的示意图,该调节系统构造用于调节技术系统2。技术系统2例如可以是机动车的内燃机或者该内燃机的子系统。调节单元3利用输入参量的序列作为调定量来对技术系统2进行调节,所述调定量导致技术系统2的特定的工作点(系统状态)。输入参量通常包括多个输入参量,所述输入参量组合在输入参量矢量中。此外,对于这些输入参量(输入参量矢量的元素)中的每个输入参量来说都适用所容许的值域。对技术系统2的操控还造成一个或多个状态参量,所述一个或多个状态参量在所要测量的输入参量矢量处被测量并且所述一个或多个状态参量以状态参量矢量的形式来示出。
借助于是技术系统2的部分的一个或多个传感器21,可以检测一个或多个测量参量x1 …xD的变化过程,所述变化过程分别表示相对应的状态参量x1(t)…xD(t),所述状态参量分别说明了技术系统2的系统状态x。在此,D对应于状态参量的数目。因此,技术系统2的系统状态借助于一个或多个传感器21来检测并且作为状态参量矢量的状态参量被传送给调节单元3。
输入参量对应于调节单元3的调定量,所述调定量基于状态参量和调节策略来确定。借助于技术系统2的一个或多个执行器22根据输入参量u(t)来运行技术系统2。例如,这样可以控制机器人或车辆的运动或者控制车辆的驱动单元或驾驶员辅助系统。输入参量u例如可以对应于被施加给作为执行器22的机电调整器(Stellgeber)的电压。执行器22根据一个或多个输入参量u来操控并且实施相对应的动作。在这种情况下,执行器22可包括(不一定在结构上集成的)操控逻辑,该操控逻辑根据输入参量来确定用来操控相关的执行器22的操控参量。
在一个实施例中,调节单元3被用于调节作为技术系统的内燃机。为此,可以向节气门调节器或针对喷油阀的操控装置预先给定节气门位置、燃料供应等等作为输入参量,并且可以接收相对应的状态参量,诸如转速、负载、发动机温度。
在一个实施例中,调节单元3被用于调节作为技术系统2的至少部分自主机器人、尤其是至少部分自主机动车。传感器21例如可以是一个或多个优选地布置在机动车中的视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个LiDAR(激光雷达)传感器和/或一个或多个位置传感器(例如GPS)。替选地或附加地,传感器21也可以包括确定关于技术系统(机动车)的状态的信息的信息系统、诸如天气信息系统,该天气信息系统确定了在机动车的周围环境中的天气的当前或将来的状态。
在另一实施例中,调节单元3被用于调节在作为技术系统的机动车中的功能。为此,可以预先给定油门踏板位置、以手腕转矩或转向位置为形式的转向干预、周围环境信息(诸如周围环境对象的位置)、制动干预等等作为输入参量,并且可以接收说明了机动车的行驶特性的相对应的状态参量,诸如车速、转弯特性、距周围环境对象的距离等等。
调节单元3可以利用多个测量参量x1 …xD探测例如至少部分自主机器人的状态或状态变化过程,诸如发动机转速、车速、燃料消耗、发动机温度、纵向速度和/或横向速度、转向角、偏航率等等。优选地布置在机动车中的执行器32例如可以是机动车的制动装置、驱动装置或转向装置。
替选地,该至少部分自主机器人也可以是其它移动机器人(未绘出),例如是这种通过飞行、漂浮、潜水或步行来前进的机器人。该移动机器人例如也可以是至少部分自主割草机或者至少部分自主清洁机器人。
在还有其它替选方案中,该至少部分自主机器人也可以是家用电器(未描绘)、尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器21、例如光学传感器可以检测用家用电器来处理的对象的状态,例如在洗衣机的情况下可以检测处在洗衣机中的洗涤物的状态。接着,利用调节单元3可以确定该对象的类型或状态并且通过测量参量x1 …xD来表征该对象的类型或状态。接着,输入参量可以被确定为使得家用电器根据该对象的所确定的类型或所确定的状态来操控。例如,在洗衣机的情况下,该洗衣机可以根据处在其中的洗涤物由何种材料构成来被操控。接着,输入参量u(t)可以根据确定了洗涤物的何种材料来被选择。
在另一实施方式中,调节单元3可以被用于操控生产系统的生产机器(技术系统3),其方式是通过输入参量来操控控制该生产机器的执行器22。生产机器11例如可以是用于冲压、锯切、钻孔、铣切、车削和/或切割的机器。
传感器21于是例如可以是光学传感器,该光学传感器例如检测制成品的特征。可能的是:控制生产机器的执行器22根据所确定的制成品的特征来操控,以便生产机器相对应地实施该制成品的随后的加工步骤。也可能的是:传感器21确定由生产机器来加工的制成品的特征,并且据此针对下一个制成品来适配对生产机器的操控。
调节单元3的调节遵循调节策略。应该通过动态过程来使调节策略适配,使得关于质量函数方面的系统特性变得最佳。为此,实施如下优化方法,该优化方法对调节策略所基于的调节模型的模型参数进行优化,使得所调节的技术系统2的性能被优化。为此,在模型创建块4中创建调节模型(动态模型),该调节模型是调节单元3的调节策略的基础。模型创建块4基于在优化块5中实施的贝叶斯优化方法来确定调节模型的模型参数。这基于预先给定的质量函数来进行,该质量函数在质量函数块6中被确定或预先给定。
在其它优选的实施方式中,调节单元3、模型创建块4、优化块5和质量函数块6在计算单元中实现。该计算单元包括控制设备2、一个或多个处理器和至少一个机器可读存储介质,在该机器可读存储介质上存储有命令,当这些命令在处理器上被实施时,这些命令促使计算单元实施按照本发明的方法。
技术系统2对应于动态系统,借助于调节单元3利用适合的调节策略以经优化的方式调节该动态系统,所述适合的调节策略应该相对应地借助于贝叶斯优化方法来创建。贝叶斯优化方法被用于确定调节模型,其方式是在该优化方法期间迭代地使用不同的测试模型参数组来调节技术系统2并且基于所得到的状态参量来使模型参数适配。在此,借助于高斯过程回归或利用其它可训练的回归方法来对质量函数进行建模,通过该质量函数将对技术系统2的调节的性能定义为模型参数的函数。
该调节的性能根据预先给定的质量标准(质量量度)来得到,基于与通过基于模型参数的调节模型所调节的技术系统2的所希望的特性的比较,该质量标准(质量量度)给技术系统2的所得到的状态参量(尤其是这些状态参量的变化过程)分派该调节的品质(Güte)。这些状态参量有公差,使得质量函数优选地通过高斯过程回归来描绘。
原则上,问题涉及找到将系统状态映射到输入参量矢量(其中)的调节策略,其中该调节策略的模型参数在模型参数域内。与模型参数有关的质量函数J在预先确定的时间范围t=0…T内基于状态矢量和输入参量矢量来预先给定,其中模型参数应该通过该优化方法来优化:
其中对应于期望值,是在附上输入参量矢量的情况下通过状态矢量来给定的状态的质量量度,并且是状态过渡模型,该状态过渡模型描述了技术系统2的动态性并且该状态过渡模型还被施加噪声参量。该质量量度可以通过该系统特性与所希望的系统特性的比较来确定,其中该质量标准可以说明该调节的鲁棒性、振荡趋势、振荡时间和品质。
贝叶斯优化方法用于:通过使质量函数(该质量函数例如表示成本)最小化来找到调节策略的经优化的模型参数。替选地,视质量量度的含义内容而定,该调节策略的经优化的模型参数也可以通过将质量函数最大化来确定。目标是:该调节策略能够利用调节单元3来实现对技术系统2的尽可能最佳的控制,其中“最佳”是指质量量度的最小化/最大化(优化),该质量量度通过质量函数根据模型参数来确定并且说明了由调节单元3和技术系统2构成的总系统的预先给定的性能。
质量函数因此可以说明质量量度,该质量量度评估真实的技术系统2的特性在时间窗t=0...T期间相对于预先给定的所希望的性能(理想的系统特性)的偏差。因此,对质量函数的分析需要在测量过程中在真实环境中运行技术系统2。由于需要使包括技术系统2和调节单元3的调节系统真实运行,对技术系统2的特性的质量量度的评估变得花费很高,使得应该使在真实的技术系统2处用于评估特定的调节策略的测量过程的数目尽可能最小化。
线性调节策略具有如下优点:所述线性调节策略与其它调节模型相比维度少。线性调节策略还能够实现:该线性调节策略可以在调节器中简单地被实现并且因此提高了贝叶斯优化的效率。
结合贝叶斯优化,可以使用线性二次型调节器(Linear Quadratic Regulator)、即所谓的LQR调节器,如在制订调节策略的领域里所公知的那样。在LQR调节器的情况下,系统特性和与周围环境的交互在测量过程中通过利用变化的输入参量矢量组和对所得到的状态参量矢量的检测的受控制的运行来确定。在此,系统动态性按照
来线性化并且成本相对应地被平方
通过这些近似,可以在模型创建块4中创建LQR反馈矩阵,该LQR反馈矩阵是动态模型并且该LQR反馈矩阵一般被称作调节矩阵。调节策略优化通过如下方式被执行:直接对调节矩阵的元素进行适配作为所要优化的模型参数(K-Learning(K学习)),其中该调节矩阵的录入项中的一部分或每个录入项(元素)都对应于用于优化的模型参数。此外,也可以只假定调节矩阵K的对应于系统矩阵A和B的组成部分作为所要优化的模型参数,其中矩阵A和B的每个录入项都对应于模型参数(AB-Learning(AB学习))。
替选地,在调节矩阵K中可以只假定矩阵Q和R(加权矩阵)作为所要优化的模型参数(QR-Learning(QR学习))。在此,只适配加权矩阵的具有如下形式的对角线录入项就足够了:
根据所要优化的模型参数的归属,这些方法被称作K学习、AB学习和QR学习。
在贝叶斯优化中,必须在优化开始之前定义模型参数域,以便找到对经优化的模型参数的良好的估计。然而,在不预先知道的情况下,难以针对优化选择各个模型参数的值域、也就是说模型参数域。然而,这对于不需要多余数目的测量过程的高效的优化方法来说是重要的。
因而,上述方法规定:选择适合于模型参数的搜索范围,使得可以减少测量过程的数目。这尤其是在高维度的情况下需要,因为在高维度的情况下可能难以手动设置这些模型参数中的每个模型参数的值域。因而,这些模型参数的值域首先通过学习关于动态模型的分布来确定并且随后使用该分布,以便选择这些模型参数中的每个模型参数的值域。该分布通过贝叶斯线性回归通过状态参量矢量和输入参量矢量的所记录的数据值来得到,以便得到系统动态性的近似的线性模型。这导致关于模型的高斯分布
借助于对多个预先给定的动态系统模型的调节矩阵的确定,可以确定调节矩阵K的元素的模型参数的分布。这些分布被用于选择对于这些模型参数来说合理的值域。为了得到关于可能的调节矩阵的分布,通过上述dlqr函数来计算NS对,以便得到示例分布(后验分布)。紧接着,通过独立的正态分布的乘积来说明值分布:
在此,缩放参数β确定模型参数的值域的有效大小。
随着缩放参数β升高,贝叶斯优化方法变得更灵活,以便找到更好的解,其中然而需要更多测量过程来确定这些模型参数。因此,需要在将这些模型参数的值域限制到合适大小与值域足够大之间做出权衡(Trade-off),使得不发生由于系统模型的错误适配而引起的错误。例如可以在优化期间使模型参数的值域动态地适配。
为了利用在这些模型参数之间的潜在相关,可以利用多变量高斯过程来对值分布进行近似。现在,这里提出:将这些模型参数变换成协方差矩阵的本征空间,其中,其中变换矩阵T由本征矢量组成。接着,在该本征空间内,将这些模型参数的值域变成,其中说明了的第i个本征值。基本上,执行原则上的成分分析PCA。
在选择了这些模型参数的值域之后,可能的是:在某些维度中,这些模型参数的值域被选择得过于保守。这例如当缩放参数β太小时出现或者由于模型偏差而出现。因此,在优化过程期间可能出现:最佳的模型参数矢量不在所选择的模型参数域之内。因而,模型参数域可以在优化期间动态地被适配。
在贝叶斯优化的过程中,存在模型参数域的最佳值的估计值,也就是说在当前的模型参数域内的所近似的质量函数的最小值。如果根据贝叶斯优化得出:所估计的最佳值的位置处在模型参数域的范围边界处,则有可能有更好的模型参数处在当前的模型参数域之外。因而提出:将其值处在模型参数域的边界处的那个模型参数的值域扩展。对模型参数域的该动态适配可以以不同的方式来实施。
对模型参数的值域的适配能够实现:从所限制的值域出发,在优化期间只针对模型参数矢量的其中该优化涉及模型参数域的边界范围的那些维度来使该值域动态地适配。由此,该优化可以在整体上更高效地进行,使得收敛性得以显著改善。还可以更好地补偿潜在的模型错误,使得经优化的系统模型变得性能更强。通过改善效率,可能将贝叶斯优化缩放成高维调节策略。
为了阐明对技术系统的调节的创建和自适应,在下文依据图2的流程图来描述该方法。
为此,在步骤S1中预先给定一系列系统模型,这些系统模型分别基于物理模型方程并且根据上述方法来确定调节矩阵K=dlqr(A,B,Q,R)。系统模型优选地具有不同的参数化。
通过创建关于控制矩阵K的模型参数中的每个模型参数的高斯分布来得到初始调节模型的分布
其中n对应于数据点的数目,对应于描述数据中的噪声的预先给定的常数,对应于所要估计的模型参数的先验平均值,对应于所要估计的模型参数的先验协方差,对应于(组合在矩阵中的)数据点的位置,t对应于(组合在矢量中的)数据点的函数值,对应于所要估计的模型参数的后验期望值(平均值)并且对应于所要估计的模型参数的后验协方差。
紧接着,通过独立的正态分布的乘积来说明值分布:
在此,缩放参数β确定模型参数的值域的有效大小。
随着缩放参数β升高,贝叶斯优化方法变得更灵活,以便找到更好的解,其中然而需要更多测量过程来确定这些模型参数。因此,需要在将这些模型参数的值域限制到合适大小与值域足够大之间做出权衡(Trade-off),使得不发生由于系统模型的错误适配而引起的错误。例如可以在优化期间使模型参数的值域动态地适配。
为了利用在这些模型参数之间的潜在相关,替选地,可以利用多变量高斯过程来对值分布进行近似。现在,这里提出:将这些模型参数变换成协方差矩阵的本征空间,其中,其中变换矩阵T由本征矢量组成。接着,在该本征空间内,将这些模型参数的值域变成,其中说明了的第i个本征值。基本上,执行原则上的成分分析PCA。
在步骤S3中,规定调节模型的所要确定的调节参数的值域。在成本函数的长度尺度方面,贝叶斯优化也必须尽可能充分地覆盖调节参数的值域。先验常常难以确定必须在哪些值域内对调节参数、也就是说调节矩阵K的录入项进行优化使得实现良好的调节特性。
在步骤S4中,开始优化过程。
为此,选择新的测试模型参数组,在该新的测试模型参数组中利用来使预先给定的采集函数最大化或最小化。采集函数被预先给定为使得该采集函数使用勘探和开采的组合,以便在该采集函数的最小值或最大值(视所选择的采集函数而定)处确定新的测试模型参数组。该采集函数使用被创建为高斯过程模型的质量函数的参数(诸如高斯过程平均值(期望值))和高斯过程标准差。在按照本发明的方法的上下文中,勘探意味着:优选可能的模型参数空间的如下范围用于选择新的测试模型参数,在所述范围内,还不曾通过先前的测量过程来评估技术系统的特性。在按照本发明的方法的上下文中,开采意味着:选择如下模型参数组用于通过测量过程来对技术系统的特性进行下一次评估,该模型参数组被估计为最佳的模型参数组。
采集函数使用质量函数的通过高斯过程模型来描述的参数,诸如期望值和被分配给该期望值的标准差。例子是所谓的置信下界(Lower-Confidence-Bound,LCB)采集函数,该采集函数按如下来描述:。该新标准可以利用常见的基于梯度的方法来高效地最小化,并且LCB(x)的最小值接着形成用于该未知函数f或对技术系统2的测量的新的分析点。
LCB标准并不是唯一在文献中被提出的采集函数。其它标准例如是预期改进(Expected Improvement,EI)、置信上界(Upper Confidence Bound,UCB)、概率改进(Probability of Improvement,PI)或所谓的熵搜索(Entropy Search)方法,所述熵搜索方法基于信息理论的考虑。
在步骤S5中,实施测量过程并且由调节单元3在时间窗t=0…T期间基于测试模型参数组来评估对技术系统2的调节,以便相对应地检测以输入参量u和所得到的状态参量x为形式的测试数据。
在步骤S6中,基于这些测试数据来确定质量量度。这例如可以通过系统特性(系统状态)与所希望的系统状态之间的比较来实现。例如,该调节的调节偏差可以在数值上被积分或累积,以便得到质量量度,该质量量度说明了该调节的鲁棒性。
在步骤S8中,检查测试模型参数组的模型参数之一是否处在模型参数域的边界上。如果情况如此(替选方案:是),则在步骤S9中使参数值域的这些模型参数之一所处的那个边界扩展一个扩展尺寸(Erweitungsmaß)。否则(替选方案:否),该方法以步骤S10继续。
在图3中,针对一维情况示意性地示出了真实的质量量度(K1)和所建模的质量量度(K2)的与输入参量的维度相关的变化过程的图表。说明了该优化方法的模型参数域的相关模型参数的值域,并且点P1说明了处在模型参数域的边界处的模型参数值。在这种情况下,模型参数域被扩展该扩展尺寸,以便通过贝叶斯优化方法的随后迭代来实现经优化的模型参数P2(表征为三角形)。
在贝叶斯优化过程期间,存在模型参数值的最佳值的估计值、也就是说在当前的模型参数域内所近似的质量函数的最小值。如果根据贝叶斯优化得出:所估计的最佳值的位置处在模型参数域的范围边界处,则有可能有更好的模型参数处在当前的模型参数域之外。因而提出:将其值处在模型参数域的边界处的那个模型参数的值域扩展。可以以不同的方式来实施对模型参数域的该动态适配。
- 高斯过程后验平均值在对最佳值正在进行估计的点处的梯度。该梯度是该高斯过程后验平均值根据相关的模型参数的导数。如果该梯度在边界区域处高,则与该梯度小时相比,模型参数的潜在更好的值离该边界区域更远。也就是说,在梯度高时,相关的模型参数的值域比在梯度小时被扩展更高的值。
- 处在模型参数域的边界上的那个模型参数相对于对质量函数进行近似的高斯过程的长度标尺。对于大的长度标尺来说,模型假定:质量函数只是缓慢地发生变化并且因此应该相对应地提高用于扩展相关的模型参数的值域的程度。
紧接着,在步骤S10中,检查中断条件,即例如应被用于优化质量函数的时长或者迭代的数目或者适合的收敛标准,并且在继续该优化方法时(替选方案:否)跳回到步骤S4。否则(替选方案:是),将该方法结束。
该调节策略的模型参数可以在对技术系统2的调节期间持续地或在有规律的或预先确定的时间点被适配,使得在正在运行时明显改善对技术系统2的调节。
下列表格阐明了上述用于评估轨迹的方法的示例性的使用范围:
使用目的 | 所要优化的调节 |
机床、机器人 | 对电机的用于位置设置的轴承调节或者机器人的运动调节 |
无人机或自主机器人 | 平衡调节 |
内燃机 | 空气系统调节、尤其是Lambda调节、喷射调节 |
Claims (10)
2.根据权利要求1所述的方法,
其中预先给定所述动态系统模型,尤其是基于物理模型方程来预先给定所述动态系统模型。
4.根据权利要求3所述的方法,
其中所述调节模型分别通过调节矩阵K=dlqr(A,B,Q,R)来预先给定。
8.具有技术系统(2)和用于对所述技术系统(2)进行调节的调节单元(3)的调节系统(1),其中在所述调节单元(3)中实现调节模型以用于根据所述技术系统(2)的状态参量来提供输入参量矢量,其中设置模型创建块(4),以便在初始预先给定的模型参数域()之内基于在优化块(5)中实施的贝叶斯优化方法来迭代地优化具有用于所述调节模型的模型参数()的模型参数组,其中所述贝叶斯优化方法基于预先给定的质量函数来执行,所述质量函数在质量函数块(6)中被确定或预先给定,其中在执行所述贝叶斯优化方法之前基于多个动态系统模型来创建初始调节模型并且确定说明了所述模型参数()的所容许的值域的模型参数域(),其方式是确定所述初始调节模型的模型参数()的分布并且根据所属的最大后验估计值()以及所述初始调节模型的模型参数()的分布的相应标准差来初始定义所述模型参数()的值域。
9.具有程序代码装置的计算机程序,所述计算机程序被设立为:当所述计算机程序在计算单元上被实施时,实施根据权利要求1至6中任一项所述的方法。
10.机器可读的存储介质,其具有被存储在其上的根据权利要求9所述的计算机程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019208264.5A DE102019208264A1 (de) | 2019-06-06 | 2019-06-06 | Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein technisches System |
DE102019208264.5 | 2019-06-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112051731A true CN112051731A (zh) | 2020-12-08 |
Family
ID=70736664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010504677.4A Pending CN112051731A (zh) | 2019-06-06 | 2020-06-05 | 用于确定针对技术系统的控制策略的方法和设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3748556A1 (zh) |
CN (1) | CN112051731A (zh) |
DE (1) | DE102019208264A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022202795A1 (de) * | 2022-03-22 | 2023-09-28 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zur Ermittlung einer Wiederholstreuung |
CN115755606B (zh) * | 2022-11-16 | 2023-07-07 | 上海友道智途科技有限公司 | 基于贝叶斯优化的运载体控制器自动优化方法、介质及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013537671A (ja) * | 2010-08-17 | 2013-10-03 | アーベーベー・テクノロジー・アーゲー | 技術的設備を制御する方法 |
CN110662634B (zh) * | 2017-05-29 | 2022-12-23 | 富兰卡爱米卡股份有限公司 | 用于控制关节型机器人的致动器的系统和方法 |
CN108508856B (zh) * | 2018-03-28 | 2020-09-22 | 西安西电电气研究院有限责任公司 | 一种工业设备智能控制系统及方法 |
-
2019
- 2019-06-06 DE DE102019208264.5A patent/DE102019208264A1/de active Pending
-
2020
- 2020-05-14 EP EP20174595.7A patent/EP3748556A1/de active Pending
- 2020-06-05 CN CN202010504677.4A patent/CN112051731A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3748556A1 (de) | 2020-12-09 |
DE102019208264A1 (de) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220236698A1 (en) | Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method | |
Neumann-Brosig et al. | Data-efficient autotuning with bayesian optimization: An industrial control study | |
US8265854B2 (en) | Configurable automotive controller | |
JP6863930B2 (ja) | 寿命予測装置及び機械学習装置 | |
CN107909179B (zh) | 一种插电式混合动力车辆行驶工况的预测模型构建方法及车辆能量管理方法 | |
CN113498523B (zh) | 用于控制机器对象的操作的装置和方法以及存储介质 | |
CN112051731A (zh) | 用于确定针对技术系统的控制策略的方法和设备 | |
Di Cairano et al. | An MPC design flow for automotive control and applications to idle speed regulation | |
US11254315B2 (en) | Friction adaptive vehicle control | |
WO2016047118A1 (ja) | モデル評価装置、モデル評価方法、及び、プログラム記録媒体 | |
KR102326733B1 (ko) | 엑츄에이터 조절 시스템을 작동시키기 위한 방법 및 장치, 컴퓨터 프로그램 및 기계 판독가능한 저장 매체 | |
US11762346B2 (en) | Method and device for determining a control strategy for a technical system | |
US20190031204A1 (en) | Method and system for providing an optimized control of a complex dynamical system | |
Lawrence et al. | Optimal pid and antiwindup control design as a reinforcement learning problem | |
KR101576004B1 (ko) | 동적 행렬 제어를 이용한 보일러-터빈 협조 제어 방법 및 그 장치 | |
CN113939775B (zh) | 用于确定针对技术系统的调节策略的方法和设备 | |
JP2023517142A (ja) | データ駆動型モデル適応を用いる制御のための装置および方法 | |
US11761623B2 (en) | Apparatus for combustion optimization and method therefor | |
CN104345637B (zh) | 用于自适应基于数据的函数模型的方法和设备 | |
US20210379761A1 (en) | Controller and method for selecting evaluation points for a bayesian optimization method | |
KR20210138498A (ko) | 테스트 벤치를 작동하기 위한 장치 및 방법 | |
KR102107586B1 (ko) | 연소 최적화를 관리하기 위한 장치 및 이를 위한 방법 | |
CN113743442A (zh) | 元学习演化策略黑盒优化分类器 | |
US11790247B2 (en) | Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems | |
Xakimovich et al. | Structural-Parametric Synthesis of an Adaptive Fuzzy-Logical System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |