CN112987563A

CN112987563A - 用于控制机器人的方法和机器人控制器

Info

Publication number: CN112987563A
Application number: CN202011472999.1A
Authority: CN
Inventors: L·罗佐; N·贾奎尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-12-16
Filing date: 2020-12-15
Publication date: 2021-06-18
Also published as: EP3838503B1; EP3838503A1; US20210178585A1

Abstract

根据各种实施例，描述了一种用于使用来自非欧几里得原始控制参数空间的控制参数值来控制机器人的方法，包括：在原始控制参数空间上执行表示机器人的期望控制目标的目标函数的贝叶斯优化；以及根据在贝叶斯优化中找到的来自原始控制参数空间的控制参数值来控制机器人；其中所述贝叶斯优化包括：使用所述观测控制参数值将所述原始控制参数空间变换到降低的控制参数空间，其中所述原始控制参数空间包括第一数量的维度，其中所述降低的控制参数空间包括第二数量的维度，并且其中所述第一数量的维度高于所述第二数量的维度；通过在迭代搜索中搜索采集函数的最优值来确定目标函数在降低的控制参数空间中的评估点，其包括，在每次迭代中，使用候选评估点处的降低的控制参数空间的切空间中的搜索方向来更新候选评估点；将更新的候选评估点从切空间映射到降低的控制参数空间；以及使用所映射的更新的候选评估点作为下一迭代的评估点，直到满足停止准则；以及将所确定的评估点从降低的控制参数空间映射到原始控制参数空间。

Description

用于控制机器人的方法和机器人控制器

技术领域

本公开涉及用于控制机器人的方法和机器人控制器。

背景技术

贝叶斯优化（BO）由于其数据效率和无梯度方法，最近在机器人学中变得流行，以在直接强化学习中优化控制参数和参数策略。

然而，当参数空间为高维空间时，贝叶斯优化算法优化机器人控制参数的性能可能会受到严重影响。此外，应当注意，机器人控制中的参数空间可以是非欧几里得空间。例如，刚度可以由正定矩阵表示（即，参数空间形成对称正定矩阵的流形），并且单位球面上的向量可以用于表示取向。

鉴于以上所述，期望用于对高维非欧几里得参数空间执行贝叶斯优化的有效方法。

在Wang等的“ Bayesian Optimization in High Dimensions via RandomEmbeddings” （Proceedings of the Twenty-Third International Joint Conferenceon Artificial Intelligence（第二十三届国际人工智能联合会议论文集），2013年）中，描述了一种利用有效低维的贝叶斯优化方法。

在Zang等的“High Dimensional Bayesian Optimization via SupervisedDimension Reduction”（arXiv:1907.08953，2019年）中，描述了一种用于学习低维参数子空间的有监督降维方法。

在Moriconi等的“High-dimensional Bayesian optimization using low-dimensional feature spaces”（arXiv:1902.10675，2019年）中，描述了编码器-解码器贝叶斯优化，其中编码器学习参数空间的非线性低维表示。

在Antonova等的“Bayesian Optimization in Variational Latent Spaceswith Dynamic Compression”（arXiv:1907.04796，2019年）中，描述了一种贝叶斯优化方法，其中在低维空间中对目标函数进行建模，并且其中在高维空间中对采集函数进行优化。

在Rana等的“High Dimensional Bayesian Optimization with ElasticGaussian Process”（Proceedings of the 34th International Conference on MachineLearning（第34届国际机器学习会议论文集），2017年）中，描述了一种使用弹性高斯过程的贝叶斯优化方法。

在 Li等的“ High Dimensional Bayesian Optimization Using Dropout”（Proceedings of the Twenty-Sixth International Joint Conference on ArtificialIntelligence（第二十六届国际人工智能联合会议论文集），2017年）中，描述了一种贝叶斯优化方法，其中在每次迭代中仅优化维度的子集。

在Yuan等的“Bayesian Optimization for Whole-Body Control of HighDegrees of Freedom Robots through Reduction of Dimensionality”（IEEE Roboticsand Automation Letters（IEEE机器人与自动化通讯），2019年）中，描述了一种贝叶斯优化方法，其中将参数空间划分为多个组，并且其中每个组都被迭代优化。

在Kandasamy等的“High Dimensional Bayesian Optimization and Banditsvia Additive Models”（arXiv:1503.01673，2016年）中，描述了一种贝叶斯优化方法，其中将目标函数被分解为多个组。

在Li等的“ High Dimensional Bayesian Optimization via RestrictedProjection Pursuit Models”（Proceedings of the 19th International Conferenceon Artificial Intelligence and Statistics（第19届国际人工智能与统计会议纪要），2016年）中描述了一种贝叶斯优化方法，其中将目标函数分解为输入的低维投影的函数之和。

在Mutny等的“Effective High Dimensional Bayesian Optimization withAdditivity and Quadrature Fourier Features”（32nd Conference on NeuralInformation Processing Systems（第32届神经信息处理系统会议），2018年）中，描述了一种贝叶斯优化方法，其中将目标函数分解为多个组，并且所述组可以重叠。

发明内容

具有独立权利要求1的特征的机器人控制方法（第一示例）和具有独立权利要求13的特征的机器人控制器（第二十一示例）允许将几何感知降维引入高维参数空间的贝叶斯优化中，从而改进其性能和可扩展性，特别是在与无几何感知贝叶斯优化实现相比时，提供更快的收敛、更好的准确性和更低的解方差，并且，更进一步地，与其他几何感知贝叶斯优化实施方式相比，改进高维参数空间的性能和可扩展性。

因此，机器人控制方法和机器人控制器通过在所考虑的系统的参数显示非欧几里得几何形状时修改这些参数，来为机器人技能学习或适配不可见的条件提供有效方法。

在下面给出附加的示例。

可以使用主嵌套球面算法将原始控制参数空间变换成降低的控制参数空间，其中原始参数空间可以是球面流形。本段中提及的特征与第一示例相组合提供了第二示例。

可以使用正交投影算法将原始控制参数空间变换成降低的控制参数空间，其中原始参数空间可以是对称正定（SPD）矩阵的流形。本段中提及的特征与第一示例相组合提供了第三示例。

该方法可进一步包括：使用希尔伯特-施密特独立性准则。本段中提及的特征与第二示例或第三示例中的任一项相组合提供了第四示例。

观测控制参数值中的至少一个观测控制参数值可以是在执行贝叶斯优化之前测量的原始控制参数空间中的控制参数值。本段中提及的特征与第一示例至第四示例中的任一项相组合提供了第五示例。

非欧几里得原始控制参数空间可以是黎曼流形或黎曼流形的子空间。本段中提及的特征与第一示例至第五示例中的任一项相组合提供了第六示例。

原始控制参数空间和降低的控制参数空间可以是相同类型的参数空间。本段中提及的特征与第一示例至第六示例中的任一项相组合提供了第七示例。

可以通过高斯混合模型的模型参数值来描述控制参数值。可以将目标函数分解成多个辅助目标函数，并且可以将采集函数分解成多个辅助采集函数，其中，可以将所述多个辅助目标函数中的每个辅助目标函数分派给辅助采集函数。可以在降低的控制参数空间中针对所述多个辅助目标函数中的每个辅助目标函数通过在迭代搜索中搜索相应辅助采集函数的最优值，来确定辅助目标函数的中间评估点，并且可以使用所述多个中间评估点来确定评估点。本段中提及的特征与第一示例至第七示例中的任一项相组合提供了第八示例。

每个辅助目标函数可以包括所述多个模型参数值中的一个模型参数值。本段中提及的特征与第八示例相组合提供了第九示例。

高斯混合模型的模型参数值可以包括至少一个均值、至少一个协方差和/或至少一个混合系数。本段中提及的特征与第八示例或第九示例中的任一项相组合提供了第十示例。

该方法可以包括根据共轭梯度法确定搜索方向。通过使用共轭梯度进行优化，可以实现快速收敛。本段中提及的特征与第一示例至第十示例中的任一项相组合提供了第十一示例。

该方法可以包括：通过将所映射的更新的候选评估点处的采集函数的梯度修改为候选评估点处的搜索方向的倍数，来确定所映射的更新的候选评估点的搜索方向，所述候选评估点通过平行搬运被映射到所映射的更新的候选评估点处的降低的控制参数空间的切空间。本段中提及的特征与第一示例至第十一示例中的任一项相组合提供了第十二示例。

该方法可以包括使用候选评估点处的切空间的指数映射将更新的候选评估点从切空间映射到降低的控制参数空间。本段中提及的特征与第一示例至第十二示例中的任一项相组合提供了第十三示例。

降低的控制参数空间可以是黎曼流形或黎曼流形的子空间，并且贝叶斯优化可以使用高斯过程作为代理模型，该替代模型具有依赖于黎曼流形或黎曼流形的子空间的诱导度量的核。换句话说，使用了几何感知的核，它允许对控制参数的相似性进行适当度量。本段中提及的特征与第一示例至第十三示例中的任一项相组合提供了第十四示例。

该方法可以进一步包括设置核的参数以使核是正定的。这允许将高斯代理模型有效地应用于非欧几里得控制参数流形。本段中提及的特征与第一示例至第十四示例中的任一项相组合提供了第十五示例。

该方法可以包括针对降低的控制参数空间的多个随机采样点对来计算核矩阵，并将核的参数设置为据其核矩阵为正定的最小值。通过该过程，可以有效地找到核参数，从而确保高斯代理模型的核是正定的。本段中提及的特征与第十四示例或第十五示例中的任一项相组合提供了第十六示例。

对候选评估点进行更新可以包括沿着搜索方向的线性搜索。应用线性搜索来更新候选评估点允许实现到最优值的快速收敛。本段中提及的特征与第一示例至第十六示例中的任一项相组合提供了第十七示例。

原始控制参数空间和/或降低的控制参数空间可以是对称正定矩阵的球面或流形。这些参数空间对于机器人控制尤其有用。本段中提及的特征与第一示例至第十七示例中的任一项相组合提供了第十八示例。

目标函数可以表示机器人的一部分的期望定位。本段中提及的特征与第一示例至第十八示例中的任一项相组合提供了第十九示例。

参数值可以表示刚度、惯性、可操纵性、取向或姿态。本段中提及的特征与第一示例至第十九示例中的任一项相组合提供了第二十示例。

计算机程序可以包括当由处理器执行时使得处理器执行根据第一示例至第二十示例中的任一项的方法的指令。本段中提及的特征提供了第二十二示例。

计算机可读介质可以存储当由处理器执行时使得处理器执行根据第一示例至第二十示例中的任一项的方法的指令。本段中提及的特征提供了第二十三示例。

附图说明

在附图中，相同的附图标记贯穿于不同的视图通常指代相同的部件。附图不一定按比例绘制，相反重点通常放在图示本发明的原理上。在以下描述中，参考以下附图描述了各个方面，其中：

图1示出了机器人设备布置；

图2示出了球面流形S2的图示，它的点例如可以每个都表示机器人末端执行器的可能取向；

图3示出了SPD流形

的图示，它的点例如可以每个都表示一个刚度椭球面；

图4示出了正定测地线核矩阵的百分比以及它们的最小特征值

分别作为

和

的β的函数的分布；

图5示出了图示根据一个实施例的用于使用来自非欧几里得控制原始参数空间的控制参数值来控制机器人的方法的流程图。

具体实施方式

下面的详细描述参考了随附附图，所述随附附图通过图示的方式示出了可以以其实践本发明的本公开的具体细节和方面。在不脱离本发明的范围的情况下，可以利用其他方面，并且可以进行结构、逻辑和电气改变。本公开的各个方面不一定相互排斥，因为本公开的一些方面可以与本公开的一个或多个其他方面相组合以形成新的方面。

用于优化高维控制参数的贝叶斯优化伴随着高计算成本。提供了一种机器人控制方法和机器人控制器，其中原始控制参数空间的维数被降低，并且其中使用几何感知贝叶斯优化在降低的控制参数空间中优化贝叶斯优化的采集函数，从而降低计算成本。

在下文中，将更详细地描述各种示例。

图1示出了机器人设备布置100。

机器人设备布置100包括机器人设备101，例如用于处置、组装或加工工件的工业机器人。机器人设备101包括操纵器102、103、104和基座（或支撑件）105，操纵器102、103、104由基座（或支撑件）105支撑。术语“操纵器”指代机器人设备101的可移动构件，对其的致动使得能够与环境进行物理交互，例如执行任务。为了进行控制，机器人设备布置100包括控制器106，控制器106被配置成根据控制程序实现与环境的交互。操纵器102、103、104的最后一个构件104（当从支撑件105观测时）也被称为末端执行器104，并且可以包括一个或多个工具，诸如焊炬、抓取工具或喷涂装备等。

其他操纵器102、103（更靠近支撑件105）可以形成定位设备，使得与末端执行器104一起，提供末端执行器104位于其末端处的机器人臂（更通常被称为铰接臂）。机器人臂是一种机械臂，其可以提供与人类手臂类似的功能（可能在其末端处具有工具）。

机器人设备101可以包括将操纵器102、103、104彼此互连并与支撑件105互连的接头元件107、108、109。接头元件107、108、109可以具有一个或多个接头，所述接头中的每个可以向相关联的操纵器提供相对于彼此的可旋转运动（即旋转运动）和/或平移运动（即位移）。操纵器102、103、104的移动可以借助于由控制器106控制的致动器来发起。

术语“致动器”可以理解为适配于响应于被驱动而影响机构或处理的部件。致动器可以将控制器106发出的指令（所谓的激活）实现为机械移动。致动器，例如机电转换器，可以被配置成响应于驱动而将电能转换成机械能。

术语“控制器”可以理解为任何类型的逻辑实现实体，其可以包括例如能够执行存储在存储介质、固件或其组合中的软件的电路和/或处理器，并且其可以发出指令，例如在本示例中向致动器发出指令。控制器可以例如通过程序代码（例如，软件）来配置，以控制系统的操作，所述系统在本示例中为机器人。

在本示例中，控制器106包括一个或多个处理器110和存储代码和数据的存储器111，处理器110基于所述代码和数据来控制机器人设备101。根据各种实施例，控制器106基于存储在存储器111中的统计模型112来控制机器人设备101。

诸如由机器人设备布置100实现的机器人可以利用从示范中学习的方法来学习执行任务或与人类伙伴协作。人类示范可以由概率模型（也称为统计模型）编码，该概率模型表示机器人任务的标称计划。控制器106随后可以使用统计模型来生成期望的机器人移动，可能根据人类伙伴和环境这两者的状态的函数。

当机器人（即，机器人设备101及其控制器106）学习新的技能或应当使其行为适配不可见的条件时，其学习过程应该是安全、快速且数据高效的，因为机器人是与环境交互的物理系统，因此使得每次交互成本很高。在机器人学的强化学习（RL）中，诸如根据各种实施例应用强化学习，贝叶斯优化（BO）由于其在几个挑战性场景中在优化参数策略方面的成功而获得了越来越多的兴趣。它之所以受欢迎，是由于它与深度RL中使用的数据饥渴型（data-hungry）方法相比，能够以数据高效的方式对复杂噪声的代价函数进行建模。然而，贝叶斯优化性能随着搜索空间维数的增加而劣化，这为处理维数灾难的不同方法打开了大门。它的性能还取决于高斯过程（GP）模型（BO的典型代理模型）的泛化能力，这受到均值和核函数这两者的定义的强烈影响。

贝叶斯优化可以广泛用于各种机器人应用中，诸如腿部受损机器人的行为适配、用于平衡的控制器调谐、双足运动、全身控制、物理人机交互和操纵。在类似于图1所图示的具有机器人臂的实施例中，贝叶斯优化可以例如用于在接头中的一个发生故障的情况下适配机器人控制。然而，实施例不限于机器人臂，而是也可应用于其他形式的机器人和应用，诸如前面提及的那些，特别是包括找到用于调节任务的最佳取向，找到阻抗控制策略的最佳刚度矩阵，这是可变阻抗学习方法所感兴趣的方面。

可以从域知识的使用中看出贝叶斯优化成功的一个关键方面，域知识主要被引入到代理模型或采集函数中。该先验信息降低了问题的复杂性，并且提高了贝叶斯优化的收敛性和准确性。根据各种实施例，关于参数空间的几何形状的知识被引入到贝叶斯优化中。

贝叶斯优化（BO）是一种顺序搜索算法，其旨在找到未知目标函数f的全局最大化点（或最小化点），即找到：

其中，

是一些感兴趣的设计空间（即，从其中选取参数值的参数空间），其中

是参数空间的维数。黑盒函数f不具有简单闭合形式，但是可以通过在域中的任意查询点x处评估其值来逐点观测。该评估产生噪声104破坏的（随机）输出

，使得

，具有观测噪声σ。

在该设置下，贝叶斯优化指定在可能的目标函数上的先验可信度，然后，在每次迭代n处，根据观测到的数据

经由贝叶斯后验更新来细化该模型。构造采集函数

来引导对最优值的搜索。

该函数评估候选点的效用以用于进行f的下一评估；因此通过最大化γn来选择下一查询点 xn+1，即，

。

在N次查询之后，结果是最终建议xN，其表示对优化点的最佳估计（针对迭代限制为N）。

根据各种实施例，如典型地所做的那样，使用具有均值函数

和正定核（或协方差函数）

的高斯过程

来对f的先验和后验进行建模。

因此，函数f遵循高斯先验

，其中

并且K是K

的协方差矩阵。在

表示任意测试点的情况下，以观测值为条件的随机变量

也是具有以下后验均值和方差函数的正态分布：

以及

其中

是

与观测值

之间的协方差项的向量。在任何点

处评估的后验均值和方差分别表示目标函数在

处的模型预测和不确定性。在贝叶斯优化中，利用这些函数借助于采集函数选择下一查询xn+1 。均值和核函数完全指定GP，并且因此指定函数f的模型。均值函数最常见的选择是常数值，而核函数典型地具有在输入空间中的近点比远点具有更强相关性的特性。一个流行的核是平方指数（SE）核

，其中d（.,.）指示两个观测值之间的距离，并且参数β和θ控制函数的水平和竖直标度。核参数和观测噪声可以经由最大似然估计（MLE）来推断。

采集函数使用由后验函数给出的信息来平衡利用（例如，选择具有最高后验均值的点）和探索（例如，选择具有最高后验方差的点）。根据各种实施例，使用基于改进的采集函数，即预期改进（EI）。

对于EI，下一个查询直观地对应于在其处对前一最佳观测值

的预期改进最大的点。

根据各种实施例，通过利用处置位于黎曼流形上的参数的几何感知优化，将域知识包括在采集函数中。

当参数空间不是欧几里得空间时，几何感知特别相关，这在其中出现各种流形的机器人应用中很常见。例如，力和力矩属于欧几里得流形RD，刚度、惯性和可操纵性位于对称正定矩阵 S++的流形中，特殊的正交群SO（3）或单位球面S3用于表示取向，并且特殊的欧几里得群SE（3）描述机器人姿态。

为了将几何感知引入贝叶斯优化，根据各种实施例，可以看到来自黎曼流形理论的知识被引入贝叶斯优化。更具体地，根据各种实施例，例如由控制器106使用几何感知核，几何感知核允许GP适当地测量位于黎曼流形上的参数之间的相似性。此外，例如在适配于新的场景时（包括不可见的条件，例如在接头故障的情况下），控制器106使用黎曼流形工具来在优化采集函数时考虑搜索空间的几何形状。这两个特征提供了完全几何感知的贝叶斯优化框架，该框架自然地处置位于光滑可微流形上的参数的约束。

在机器人学中，不同类型的数据不属于一个向量空间，并且因此使用经典的欧几里得空间方法来处理和分析这些变量是不够的。一个示例是单位四元数，其可以被控制器106用来表示取向，例如末端执行器104的取向。单位四元数具有单位范数，并且因此可以表示为3-球面表面上的一个点。控制器也可以使用对称正定（SPD）矩阵，例如以刚度和惯性矩阵的形式，或者可操纵性椭球面的形式。球面和SPD矩阵空间这两者都可以被赋予黎曼度量以形成黎曼流形。

直观地说，黎曼流形

是一个空间，其中每个点在局部上类似于欧几里得空间。对于每个点

，都存在一个配备有平滑变化的正定内积（称为黎曼度量）的切空间

。该度量允许定义流形上的曲线长度。表示黎曼流形上最短路径的曲线称为测地线，并且是欧几里得空间上的直线到黎曼流形的泛化，因为它们表示

中两点之间的最小长度曲线。

图2示出了球面流形S2 的图示，它的点例如可以每个都表示机器人末端执行器的可能取向。

球面上指示了两个点x和y，控制器106可以使用这两个点来表示机器人末端执行器104的两个不同取向。

周围空间中两点之间的最短距离将是直线201，而流形上的最短路径是测地线202。

图3示出了SPD流形

（具有圆锥形状）的图示，该流形的每个点可以例如表示刚度椭球面。

SPD流形上指示了两个点X和Y，控制器106可以使用这两个点来表示机器人末端执行器104的两个不同的刚度椭球面。每个点对应于流形

嵌入在其中的空间

中的矩阵

。

同样，周围空间中两点之间的最短距离是直线301，而流形上的最短路径是测地线302。

在图2和图3中，最短欧几里得路径201、301不同于测地线202、302。

为了利用欧几里得切空间，可以使用切空间

（在图3中的

）之间的来回映射，它们分别被表示为指数映射和对数映射。

指数映射

将x的切空间中的点u映射到流形上的点y，使得它位于u方向上从x（图3中的X）处开始的测地线上（图3中的U），使得x 和 y（图3中的Y）之间的测地线距离dM等于x 和 u之间的距离的范数。逆运算被称为对数映射

，即

。

流形上另一个有用的运算是平行搬运

，其在切空间之间移动元素，使得切空间中两个元素之间的内积保持恒定。

例如，在图2中，

是从

到

平行搬运的向量

和

。类似于图3中的向量V1 and V2。

更一般地说，单位球面

是嵌入在

中的d维流形。切空间

是在点x处与球面相切的超平面。

的SPD矩阵

的流形可以表示为嵌入在

中的凸锥的内部。表1中给出了针对D =2的在上面描述并且在图2和图3中图示的操作。

在下文中，描述了几何感知贝叶斯优化（GaBO）框架，该框架例如可以由控制器106用来自然地处置其中参数

的设计空间是黎曼流形或黎曼流形的子空间的情况，即描述了

。

为此，控制器106借助于适配于流形值数据的高斯过程来对未知目标函数f进行建模。这是通过定义对流形上参数的相似性进行测量的几何感知核来实现的。此外，控制器106通过优化流形

上的采集函数来选择下一个查询点xn+1 。

核函数的选取对于GP来说可以被看作是至关重要的，因为它编码了关于函数f的先验知识。由于参数x属于黎曼流形，因此这种先验知识被包括在核的选取中。一种使基于距离的核适配于黎曼流形的直接方法是用核的定义中的测地距离

代替欧几里得距离d。因此，SE核的测地线泛化由下式给出：

。

可以示出，只有当流形与欧氏空间等距时，这样的核才是有效的，即对于所有的参数值都是正定（PD）的。这暗示测地线SE核对于诸如

和

之类的弯曲流形无效。为了解决该问题，根据各种实施例，确定最小长度标度参数

，使得对于

，核是正定的。

对于感兴趣的流形，可以通过实验来确定据其核矩阵为正定的长度标度β的间隔。例如，为了计算

，利用随机均值和协方差矩阵I对来自流形上10个高斯分布的500个点进行采样。然后，针对θ = 1的β值范围计算对应的核矩阵

。例如，对每个β值重复10次，并计算所得到的PD测地线核矩阵K的百分比。根据一个实施例，因为最小特征值函数相对于β是单调的，并且

，所以

将被固定设置为等于β的最小值，针对该最小值，100%的矩阵K是 PD。

图4示出了示图401、402，针对

（示图401）和

（示图402），示出了作为β的函数的PD测地线核矩阵的百分比及其最小特征值

的分布。

表2示出了各种流形的

值，所述的值例如可以被控制器106用作参数空间。

应当注意，用于特定流形的其他类型的核也可以用于贝叶斯优化。例如，测地线拉普拉斯核在球面和双曲空间上是有效的。特别地，可以使用为特定流形（诸如Grassmann流形）专门设计的核。

当机器人控制器（例如控制器106）执行贝叶斯优化时，例如为了适配于新的场景（例如为了补偿机器人臂中的接头故障或利用多条腿行走时的肢体损伤），控制器随后评估未知函数f，所述未知函数f要被针对来自参数集的特定xi进行优化，即针对特定机器人控制配置进行优化。未知函数f可以例如反映对象放置在距离期望位置多近或者机器人相对于期望方向移动了多近等。一般来说，f可以是代价函数，其定义应当满足的某些要求。一个示例是例如末端执行器104的期望取向。这对于其中控制器的取向参考需要被细化以改进任务执行的任务可以是有用的。

例如，速度控制机器人的控制器以使代价函数

最小化为目标，围绕由用户固定的先验取向

对取向参考

进行采样，其中qo是当前末端执行器取向，并且cond（M）是线速度可操纵性椭球面的条件数量。该代价函数的目的是利用低接头力矩和各向同性可操纵性椭球面，使先验和当前末端执行器取向之间的误差最小化。

另一个示例是找到实现笛卡尔控制策略

的扭矩控制机器人臂的最佳笛卡尔刚度，其中

和

是机器人末端执行器的线性位置和速度，

和

是刚度和阻尼矩阵，f是控制力（经由

变换成期望的扭矩）。机器人的任务由跟踪期望的笛卡尔定位

同时将恒定的外力

施加到其末端执行器构成。策略参数对应于刚度矩阵，即

。例如，刚度-阻尼比固定为是临界阻尼的。在该情况下，代价函数例如可以是：

和

的

。代价函数f1目的在于使用低体积各向同性刚度矩阵来准确跟踪期望的位置，而f2目的在于利用低扭矩来准确跟踪期望的位置。对于f2，如果达到期望的位置，则例如可以添加-1奖励。

当控制器106已经评估了函数f时，它可以根据评估调节对函数进行建模的高斯过程。

在以该方式细化对未知函数f进行建模的几何感知GP之后，控制器106通过最大化采集函数γn来选择下一个查询点xn+1（即，来自函数f要在其中被评估的参数空间的下一个点）。根据各种实施例，为了考虑域

的几何形状，控制器使用流形上的优化技术来优化γn（即，搜索γn的最佳值）。应当注意，因此，采集函数没有变化，但是其搜索空间被修改（与在整个参数空间上优化相比）。在该上下文中，黎曼流形上的优化算法构成约束优化的有力替代。这些几何感知算法将约束问题重构为流形上的无约束优化，并考虑了感兴趣空间的内在结构。此外，它们倾向于示出更低的计算复杂性和更好的数值特性。

根据各种实施例，控制器106使用黎曼流形上的共轭梯度（CG）算法，以在每次迭代处最大化采集函数γn （或最小化

）。一个示例是下面的算法1。

应当注意，在算法的步骤3中在黎曼流形上的线性搜索意味着对于每个候选α，切空间中的对应候选点经由指数映射被映射到流形，并且针对流形上的点评估采集函数。

算法1的递归过程涉及与欧几里得CG相同的步骤，即:（i）沿着搜索方向的线最小化（算法1的步骤3）；（ii）沿着搜索方向的迭代更新（算法1的步骤4）和（iii）计算将新一迭代处的函数梯度与前一搜索方向相组合的下一搜索方向（算法1的步骤5和6）。与欧几里得版本的不同之处在于：

● 由于梯度

以及因此搜索方向 ηk属于zk的切空间，因此指数映射被用于更新沿着搜索方向的迭代；（2）步长通过利用流形上的线性搜索求解

来固定

● 前一搜索方向ηk平行搬运到zk+1 的切空间，以与新一迭代的梯度

相组合。

应当注意，在该示例中，CG（在流形上）具有 Hastenes-Stiefel更新参数

，但是其他更新技术也可以扩展到根据各种实施例使用的黎曼流形。

应当进一步注意，对于一些问题，控制器106可以将搜索域绑定到（参数空间流形的）子空间，例如，以在优化末端执行器取向或阻抗参数时应对机器人设备101的物理限制或安全约束。在这样的情况下，特别是当流形不是闭合空间时，控制器106可以通过定义参数流形内部的边界条件来限制GaBO的搜索域。这意味着在该情况下，控制器在参数流形

的真子集

上优化采集函数。

为此，控制器106应用扩展到黎曼流形的有界约束CG方法来处理优化中的边界条件。例如，为了做到这一点，算法1的步骤4-6如算法2中所描述的那样被更新。

在每次迭代处，如果更新的迭代

，则将它投影回到可行域上，并且重新初始化搜索方向。例如，在

中，设计空间（即参数空间）通过对

的分量设置限制来界定。如果分量在限制之外，则它被固定为等于最接近的限制，并且其余分量被重新格式化（例如缩放），使得x仍然属于流形。例如，对于

，可以定义SPD矩阵的特征值λ的限制。如果迭代

，则通过减少/增加迭代的最大/最小特征值将其投射回到搜索域上。

应当注意，当参数空间（即搜索域）被限制于流形的子空间时，可以为该子空间确定βmin 。因此，与确定整个参数流形的βmin 相比，可以实现更低的βmin 值。由于高βmin限制对函数f的建模的空间影响，因此更低的βmin 可以导致更快的转换。

然而，如上所述，贝叶斯优化性能随着搜索空间维数的增加而劣化。根据各种实施例，通过将几何感知降维引入上述几何感知贝叶斯优化（GaBO）框架来降低原始控制参数空间的维数，其中GaBo框架可以在降低的控制参数空间中使用。

在下文中，描述了高维几何感知贝叶斯优化（HDGaBO）框架，该框架例如可以由控制器106用来自然地处置其中原始控制参数空间

（即，来自其中的控制参数值被用于例如控制机器人的控制参数空间）是黎曼流形或黎曼流形的子空间的情况，即

，以及其中原始控制参数空间是高维的（即，具有大量维度，例如10个维度，例如多于10个维度）。

为此，控制器106可以被配置成将原始控制参数空间变换成降低的控制参数空间，其中原始控制参数空间可以包括第一数量的维度，其中降低的控制参数空间可以包括第二数量的维度，并且其中第一数量的维度可以高于第二数量的维度。换句话说，控制器106可以将原始控制参数空间变换成与原始控制参数空间相比具有更低数量的维度（即，降低的维数）的降低的控制参数空间。原始控制参数空间和降低的控制参数空间可以是相同类型的参数空间（例如球面流形，例如SPD流形）。

控制器106可以被配置成使用观测的数据，诸如观测控制参数值（即，具有对应的未知函数观测值的控制参数值），将原始控制参数空间变换成降低的控制参数空间。观测控制参数值中的至少一个观测控制参数值可以是在执行贝叶斯优化之前观测的（例如测量的）原始控制参数空间中的控制参数值。

在下文中，针对其中原始控制参数空间是D维球面流形S ^D的情况，描述了例如可以由控制器106执行的原始控制参数空间到降低的控制参数空间的变换。

的子球面

可以由点

和距离

定义为

。子球面

可以是具有D维超平面的球面

的交集

。点

可以被投影到子球面

作为：

。

子球面

的半径可以与“1”不同。点

可以被映射到低维球面

，其中低维球面

可以具有等于“1”的半径，如下：

，

其中

是将

移动到原点的旋转矩阵。通常，点

到低维球面

的投影可以由

给出。原始控制参数空间到降低的控制参数空间的变换可以包括原始控制参数空间中的点

到球面

上的点

的至少一个投影（例如多个投影）,其中

是投影的数量，并且其中降低的控制参数空间是d维球面流形。因此，原始控制参数空间可以包括第一数量的维度D，并且降低的控制参数空间可以包括第二数量的维度d，其中第一数量的维度D可以高于第二数量的维度d。

为了将控制参数值从原始控制参数空间

投影到降低的控制参数空间

，必须确定参数

。可以使用希尔伯特-施密特独立性准则（HSIC）来确定参数

。HSIC是两个随机变量之间相关性的度量，所述两个随机变量是通过计算与其再生核希尔伯特空间（RKHS）相关联的互协方差算子的希尔伯特-施密特范数来获得的。如果

是从

到

的函数的希尔伯特空间，并且如果

是从输出空间

到

的函数的希尔伯特空间，则HSIC的经验估计可以由下式给出：

，

其中

是

以及

的核矩阵，并且其中

是定义为

的中心矩阵，其中

是n个1的列向量。如果两个随机变量是独立的，则HSIC等于“0”。

为了确定降低的控制参数空间

，可以确定使

最大化的参数，其中M是投影点或投影点

的核矩阵。换句话说，必须求解以下方程：

，

其中

且

。

核函数m可以使用上述平方指数（SE）核的测地线泛化来确定，其中核的参数β和θ可以通过流形上的优化技术来确定，其中流形是

。

在下文中，针对其中原始控制参数空间是D维SPD流形

的情况，描述了例如可以由控制器106执行的原始控制参数空间到降低的控制参数空间的变换。

原始控制参数空间

可以被变换到降低的控制参数空间

，其中原始控制参数空间可以包括第一数量的维度D，其中降低的控制参数空间可以包括第二数量的维度d，并且其中第一数量的维度D可以高于第二数量的维度d。

SPD矩阵

，即包括原始控制参数空间中的控制参数值的矩阵

，可以被投影到矩阵

，即包括降低的控制参数空间中的控制参数值的矩阵

。矩阵

可以通过

（其中

）投影到矩阵

。如果矩阵

是满秩的，则矩阵

是正定的，这可以通过对

施加正交约束使得

来实现，而不失去仿射不变度量的一般性。因此，一般来说，

可以位于Stiefel流形上。由于度量的仿射不变性，可以定义

，其中

是对应于

的d维子空间的Grassmann流形。

为了将控制参数值从原始控制参数空间

投影到降低的控制参数空间

，必须确定参数

。可以使用如上所述的希尔伯特-施密特独立性准则（HSIC）来确定参数

，其中可以通过最大化

来确定降低的控制参数空间

，其中

是投影点或投影点

的核矩阵。换句话说，必须求解以下方程：

，

其中

且

。

。

根据各种实施例，控制参数值可以由高斯混合模型（GMM）的模型参数值（即，多个模型参数值）来描述。换句话说，目标函数可以具有GMM的形式。例如，在机器人学中，GMM经常用于对轨迹进行编码，并且所述轨迹可以从示范中学习。

GMM的概率分布可以由下式给出：

，

其中

是具有均值

和协方差

的正态分布，其中是

混合系数或先验，并且其中

是GMM的分量的数量。

根据各种实施例，控制器106被配置成使用贝叶斯优化来细化GMM参数，即

。然而，当使用贝叶斯优化来优化GMM参数时，诸如原始控制参数空间之类的参数空间的维数随着分量

的数量和数据的维数而增加。

贝叶斯优化（BO）是一种顺序搜索算法，在GMM的情况下，其目标在于找到未知目标函数f的全局最大化点（或最小化点），使得：

。

根据各种实施例，控制器106被配置成将目标函数分解成多个辅助目标函数。这里，目标函数f可以分解成以下的组加法形式：

，

其中

、

、以及

是多个辅助函数中的辅助函数。因此，所述多个辅助目标函数中的每个辅助目标函数可以包括多个模型参数值中的一个模型参数值，并且GMM的模型参数值可以包括至少一个均值、至少一个协方差和/或至少一个混合系数。

因此，代理高斯过程的均值函数可以分解成：

，

并且代理高斯过程的核函数可以分解成：

。

根据各种实施例，控制器106被配置成将采集函数分解成多个辅助采集函数，其中所述多个辅助目标函数中的每个辅助目标函数可以被分派给辅助采集函数。换句话说，控制器106可以被配置成为所述多个辅助目标函数中的每个辅助目标函数确定辅助采集函数。

根据各种实施例，使用GaBo框架来优化与多个模型分量中的模型分量相关联的至少一个辅助目标函数和所分派的辅助采集函数。例如，协方差参数矩阵

可以属于SPD流形，并且GaBo框架可以用于优化协方差参数。

根据各种实施例，轨迹本质上属于黎曼流形，并且GMM的概率分布可以由下式给出：

，

其中，利用

在流形上定义高斯分布，并且其中

是位于切空间中的协方差。在该情况下，例如，GaBo框架可以用于优化均值

和/或协方差

。

根据各种实施例，通过在迭代搜索中搜索相应辅助采集函数的最优值，在降低的控制参数空间中为所述多个辅助目标函数中的每个辅助目标函数确定辅助目标函数的中间评估点。可以使用多个中间评估点来确定评估点。

根据各种实施例，在贝叶斯优化的每次迭代处（例如在GaBo框架或HDGaBo框架的每次迭代处），仅优化GMM参数的子集，其中GMM参数的子集可以包括与优化相关的GMM参数。换句话说，控制器106可以被配置成使用GaBo框架来执行上述方法，或者可以被配置成使用HDGaBo框架来执行上述方法。在HDGaBo框架的情况下，控制器106可以被配置成将原始控制参数空间变换到降低的控制参数空间，并且使用降低的控制参数空间中的GaBo框架来执行上述GMM模型分量的分解和优化。

根据各种实施例，控制器106被配置成将可以使用GaBo来确定的评估点从降低的控制参数空间映射到原始控制参数空间。将评估点从降低的控制参数空间映射到原始控制参数空间可以包括在将原始控制参数空间变换到降低的控制参数空间的上下文中使用的上述等式。

总而言之，根据各种实施例，提供了如图5中图示的方法。

图5示出了图示根据实施例的方法的流程图500，该方法用于使用来自非欧几里得原始控制参数空间的控制参数值来控制机器人（或机器人设备）。

该方法包括针对原始控制参数空间中的观测控制参数值，在原始控制参数空间上执行对表示机器人的期望控制目标的目标函数的贝叶斯优化，其中所述贝叶斯优化包括：

在501中，使用观测控制参数值将原始控制参数空间变换到降低的控制参数空间。原始控制参数空间可以具有第一数量的维度，并且降低的控制参数空间可以具有第二数量的维度，其中第一数量的维度可以高于第二数量的维度。

在502中，通过在迭代搜索中搜索采集函数的最优值来确定降低的控制参数空间中的目标函数的评估点，包括，在每次迭代中：

在502A中，使用候选评估点处的降低的控制参数空间的切空间中的搜索方向来更新候选评估点。

在502B中，将更新的候选评估点从切空间映射到降低的控制参数空间。

在502C中，使用所映射的更新的候选评估点作为下一迭代的评估点，直到满足停止准则。

在503中，将所确定的评估点从第二控制参数空间映射到原始控制参数空间。

根据各种实施例，贝叶斯优化包括上述方法的多次迭代（即，步骤501、502和503）。

然后，根据在贝叶斯优化中找到的来自原始控制参数空间的控制参数值来控制机器人。

根据各种实施例，换句话说，针对原始搜索空间确定降低的搜索空间，并且当在降低的搜索空间中执行贝叶斯优化时，几何信息被包括在采集函数的优化中，并且通过降低的搜索空间中的贝叶斯优化确定的评估点被从降低的搜索空间映射到原始搜索空间，例如用于优化降低的搜索空间（即降低的控制参数空间）中的控制参数（或直接强化学习情况中的参数策略），以最大化/最小化原始搜索空间（即原始控制参数空间）中的未知目标函数，其中所述控制参数属于具有特定几何形状（黎曼流形）的高维原始搜索空间。在降低的搜索空间中执行贝叶斯优化显著减少了计算成本。

具体地说，在降低的搜索空间中的采集函数优化中的（当前）估计的更新取决于当前估计下的切空间。更进一步地，在将共轭梯度法用于搜索采集函数的最优值时，搜索方向的更新取决于（前一）估计和更新的估计处的切空间之间的关系。另外，贝叶斯优化的（例如）高斯过程代理模型的核可以是几何相关的（或几何感知的），使得该方法变得完全几何感知，因为核函数和采集函数这两者的优化都考虑了搜索空间（即，降低的控制参数空间）的几何形状。

因此，提供了一种几何感知贝叶斯优化（GaBO）框架，该框架利用搜索空间的几何形状来适当地寻找位于黎曼流形上的最佳参数。为了做到这一点，使用了几何感知核，它允许GP适当地测量位于黎曼流形上的参数之间的相似性。此外，在优化采集函数时，利用黎曼流形工具来考虑搜索空间的几何形状。

可以在贝叶斯优化过程中借助于由各种类型的传感器采集的传感器信号来评估目标函数，所述传感器包括例如任何类型的力或扭矩传感器，例如附接在机器人末端执行器处的传感器，或者通过使用机器人的接头扭矩传感器来评估。

更进一步地，提供了高维几何感知贝叶斯优化（HDGaBo）框架，该框架降低了高维原始搜索空间的搜索空间，并且根据GaBo框架利用了降低的搜索空间的几何形状。

该方法可用于控制任何类型的机器人设备的机械部分，例如机器人臂或通常的物理系统（具有其移动被控制的机械部分），如计算机控制的机器、载具、家用电器、电动工具、制造机器、个人助理或访问控制系统。基于本文描述的方法，机器学习系统可以被训练和适配，并且可以用于上面的应用。

图5的方法可以由一个或多个处理器来执行。术语“处理器”可以理解为允许处理数据或信号的任何类型的实体。例如，可以根据由处理器执行的至少一个（即，一个或多个）特定功能来处理数据或信号。处理器可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、中央处理单元（CPU）、图形处理单元（GPU）、数字信号处理器（DSP）、可编程门阵列（FPGA）集成电路或其任何组合，或者从其中形成。将在下面更详细地描述的实现相应功能的任何其他方式也可以理解为处理器或逻辑电路。应当理解，本文中详细描述的方法步骤中的一个或多个可以由处理器通过由处理器执行的一个或多个特定功能来执行（例如，实现）。

根据一个实施例，该方法用于优化流形值参数以最大化/最小化未知目标函数。最初，测试原始控制参数空间中的一些控制参数值，并测量函数的对应值。然后，该方法包括：

（1）借助于代理模型对未知目标函数进行建模。例如，它对应于适配于流形值数据的高斯过程，在观测控制参数值（即，具有对应的未知函数观测值的控制参数值）上进行训练。

（2）使用观测控制参数值将原始控制参数空间变换到降低的控制参数空间。原始控制参数空间具有第一数量的维度，并且降低的控制参数空间具有第二数量的维度，其中第一数量的维度高于第二数量的维度。换句话说，控制参数的维数降低了。

（3）最大化在降低的控制参数空间中的参数流形上的代理模型函数中构造的采集函数。对应于采集函数最大值的参数是降低的维数的下一查询点（即，降低的控制参数空间中的下一查询点）。

（4）将降低的维数的下一个查询点投影到原始控制参数空间。

（5）测量所计算的下一个查询点在原始控制参数空间中的函数值。

该过程被迭代地重复确定的迭代次数（N）。在N次迭代后，选择对应于函数的最佳测量值的参数。

根据各种实施例，最大化采集函数（步骤（3））包括：将目标函数分解成多个辅助目标函数；将所述采集函数分解成多个采集函数，其中所述多个辅助目标函数中的每个辅助目标函数被分派给所述多个辅助采集函数中的辅助采集函数；最大化所述多个辅助采集函数中的每个辅助采集函数，其中对应于相应辅助采集函数的最大值的参数是降低的维数的中间下一查询点；以及使用降低的维数的多个中间下一查询点来确定降低的维数的下一查询点。

尽管本文中已经说明和描述了特定的实施例，但是本领域的普通技术人员应当领会，在不脱离本发明的范围的情况下，可以用各种替代和/或等同的实施方式来代替所示出和描述的特定实施例。本申请旨在覆盖本文中讨论的特定实施例的任何修改或变化。因此，旨在仅由权利要求及其等同物来对本发明进行限制。

Claims

1.一种用于使用来自非欧几里得原始控制参数空间的控制参数值来控制机器人的方法，包括：

针对在原始控制参数空间中的观测控制参数值，在原始控制参数空间上执行对表示机器人的期望控制目标的目标函数的贝叶斯优化；和

根据在所述贝叶斯优化中找到的来自原始控制参数空间的控制参数值来控制机器人；

其中所述贝叶斯优化包括：

使用观测控制参数值将原始控制参数空间变换到降低的控制参数空间，其中所述原始控制参数空间包括第一数量的维度，其中降低的控制参数空间包括第二数量的维度，并且其中，第一数量的维度高于第二数量的维度；

通过在迭代搜索中搜索采集函数的最优值来确定降低的控制参数空间中的目标函数的评估点包括，在每次迭代中，

● 使用候选评估点处的降低的控制参数空间的切空间中的搜索方向来更新候选评估点；

● 将更新的候选评估点从切空间映射到降低的控制参数空间；和

● 使用所映射的更新的候选评估点作为下一迭代的评估点，直到满足停止准则；和

将所确定的评估点从降低的控制参数空间映射到原始控制参数空间。

2.根据权利要求1所述的方法，其中，所述控制参数值由高斯混合模型的模型参数值描述，其中，所述目标函数被分解成多个辅助目标函数，其中，所述采集函数被分解成多个辅助采集函数，其中，所述多个辅助目标函数中的每个辅助目标函数被分派给辅助采集函数，其中，通过在迭代搜索中搜索相应辅助采集函数的最优值，在降低的控制参数空间中为所述多个辅助目标函数中的每个辅助目标函数确定辅助目标函数的中间评估点，并且其中使用所述多个中间评估点来确定评估点。

3.根据权利要求2所述的方法，其中，每个辅助目标函数包括所述多个模型参数值中的一个模型参数值。

4.根据权利要求1至3中任一项所述的方法，其中，所述观测控制参数值中的至少一个观测控制参数值是在执行贝叶斯优化之前测量的原始控制参数空间中的控制参数值。

5.根据权利要求1至4中任一项所述的方法，其中，所述非欧几里得原始控制参数空间是黎曼流形或黎曼流形的子空间。

6.根据权利要求1至5中任一项所述的方法，其中，所述原始控制参数空间和所述降低的控制参数空间是相同类型的参数空间。

7.根据权利要求1至6中任一项所述的方法，其中，所述原始控制参数空间和/或所述降低的控制参数空间是对称正定矩阵的球面或流形。

8.根据权利要求1至7中任一项所述的方法，包括通过将所映射的更新的候选评估点处的采集函数的梯度修改候选评估点处的搜索方向的倍数，来确定所映射的更新的候选评估点的搜索方向，所述候选评估点通过平行搬运映射到所映射的更新的候选评估点处的降低的控制参数空间的切空间。

9.根据权利要求1至8中任一项所述的方法，包括使用候选评估点处的切空间的指数映射，将更新的候选评估点从切空间映射到降低的控制参数空间。

10.根据权利要求1至9中任一项所述的方法，其中，所述降低的控制参数空间是黎曼流形或黎曼流形的子空间，并且其中所述贝叶斯优化使用高斯过程作为代理模型，所述代理模型具有依赖于黎曼流形或黎曼流形的子空间的诱导度量的核。

11.根据权利要求1至10中任一项所述的方法，其中，所述目标函数表示机器人的一部分的期望位置。

12.根据权利要求1至11中任一项所述的方法，其中，所述参数值表示刚度、惯性、可操纵性、取向或姿态。

13.一种机器人控制器，被配置成执行权利要求1至12中任一项所述的方法。

14.一种包括指令的计算机程序，所述指令在由处理器执行时，使得所述处理器执行根据权利要求1至12中任一项所述的方法。

15.一种存储指令的计算机可读介质，所述指令在由处理器执行时，使得所述处理器执行根据权利要求1至12中任一项所述的方法。