CN112045675B

CN112045675B - 机器人设备控制器、机器人设备系统及其控制方法

Info

Publication number: CN112045675B
Application number: CN202010505129.3A
Authority: CN
Inventors: L·洛佐
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2023-04-07
Anticipated expiration: 2040-06-05
Also published as: EP3747604B1; CN112045675A; US10913152B2; US20200384639A1; EP3747604A1

Abstract

提供了机器人设备控制器、机器人设备系统及其控制方法。根据各种实施例，描述了一种机器人设备控制器，其包括：存储器，被配置为存储统计模型，该统计模型被训练为实施机器人设备的行为；一个或多个处理器，被配置为：确定由统计模型表示的标称轨迹，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的预期力，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的测量力，并且基于测量力和预期力之间的差的减小来适配统计模型。

Description

机器人设备控制器、机器人设备系统及其控制方法

本发明涉及机器人设备、机器人设备系统和用于控制机器人设备的方法。

灵活的制造过程要求机器人轻松适应环境中的改变并与人类交互。在这样的动态场景中，机器人任务可以通过示教学习方法来编程，其中机器人学习任务的标称计划。然而，为了满足附加要求或克服意料之外的环境改变，学习到的计划可能需要被改善或适配。当所要求的适配发生在末端执行器轨迹水平处时，人类操作员可能希望通过与机器人进行物理交互来直观地向机器人示出期望改变。在这样的场景中，机器人要求从有噪触觉数据中理解人类所意图的改变，相应地快速适配，并能够在不需要进一步适配时执行标称任务计划。

在S.Losey和M.Malley的“Trajectory deformations from physical human-robot interaction”(IEEE T-RO，2018年第34卷第1期第126-138页)中，使用轨迹的分析平滑族来找到作为所施加力的函数的局部空间轨迹变形。

鉴于以上内容，允许物理交互式的轨迹适配的高效方法是合期望的。

根据各种实施例，提供了一种机器人设备控制器，包括：存储器，被配置为存储统计模型，该统计模型被训练为实施机器人设备的行为；一个或多个处理器，被配置为确定由统计模型表示的标称轨迹，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的预期力，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的测量力，并基于测量力和预期力之间的差的减小来适配统计模型。

根据另外的实施例，提供了一种包括机器人设备和如上机器人设备控制器的机器人设备系统，以及一种用于根据以上机器人设备控制器来控制机器人设备的方法。

根据各种实施例提供的机器人设备控制器、机器人设备系统和用于控制机器人设备的方法允许借助于根据感测到的交互力对统计模型的适配(特别是在线适配)而对机器人设备的轨迹进行高效适配。

下文中描述了各种示例：

示例1是机器人设备控制器，包括：存储器，被配置为存储统计模型，该统计模型被训练为实施机器人设备的行为；和一个或多个处理器，被配置为确定由统计模型表示的标称轨迹，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的预期力，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的测量力，并基于测量力和预期力之间的差的减小来适配统计模型。

因此，机器人(例如机器人末端执行器)的期望轨迹可以通过基于预期力和测量力之间的差的物理交互以及对充当用于机器人控制的基础的统计模型的适配来成形。这允许机器人轨迹的高效适配。

示例2是根据示例1的机器人设备控制器，其中一个或多个处理器被配置为通过适配统计模型的一个或多个参数来适配统计模型，该一个或多个参数包括一个或多个概率分布的至少一个参数。

示例3是根据示例1或2的机器人设备控制器，其中一个或多个处理器被配置为通过适配统计模型的一个或多个参数来适配统计模型，该一个或多个参数包括一个或多个高斯分布的均值和标准偏差中的至少一个。

示例4是根据示例2或3的机器人设备控制器，其中一个或多个处理器被配置为基于优化来适配该一个或多个参数。

示例5是根据示例4的机器人设备控制器，其中优化基于目标函数，该目标函数基于实际力和经历力之间的差。

示例6是根据示例4或5的机器人设备控制器，其中优化基于贝叶斯优化或协方差矩阵自适应进化策略。

示例7是根据示例1至6中任一个的机器人设备控制器，其中统计模型具有多个隐藏状态，每个状态与观察概率分布相关联。

示例8是根据示例7的机器人设备控制器，其中一个或多个处理器被配置为基于测量力和预期力之间的差来检测轨迹适配事件，确定表示其中已经发生轨迹适配事件的标称轨迹部分的统计模型的状态，并且对观察概率分布的参数执行优化。

示例9是根据示例8的机器人设备控制器，其中一个或多个处理器被配置为进一步对与所确定的状态相关联的持续时间概率分布的参数执行优化。

示例10是根据示例8或9的机器人设备控制器，其中一个或多个处理器被配置为从优化中省略与除了所确定的状态之外的其他状态相关联的概率分布的参数。

示例11是根据示例8或9的机器人设备控制器，其中一个或多个处理器被配置为将优化限制到与所确定的状态相关联的概率分布的参数。

示例12是根据示例1至11中任一个的机器人设备控制器，其中一个或多个处理器被配置为基于至少一个轨迹的一个或多个示教来训练统计模型。

示例13是根据示例1至12中任一个的机器人设备控制器，其中统计模型是高斯混合模型、隐马尔可夫模型或隐半马尔可夫模型。

示例14是根据示例1至13中任一个的机器人设备控制器，其中一个或多个处理器被配置为：根据标称轨迹控制机器人设备，直到基于测量力和预期力之间的差检测到的轨迹适配事件；适配统计模型；并且在轨迹适配事件之后根据由适配统计模型表示的适配轨迹继续控制机器人。

示例15是包括机器人设备和根据示例1至14中任一个的机器人设备控制器的机器人设备系统。

示例16是根据示例15的机器人设备系统，其中机器人设备包括一个或多个传感器，该一个或多个传感器被配置为当机器人设备被控制为根据标称轨迹移动时测量机器人设备所经历的测量力。

示例17是用于控制机器人设备的方法，包括：存储统计模型，该统计模型被训练为实施机器人设备的行为；确定由统计模型表示的标称轨迹；当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的预期力；当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的测量力；以及基于测量力和预期力之间的差的减小来适配统计模型。

示例18是根据示例17的方法，包括通过适配统计模型的一个或多个参数来适配统计模型，该一个或多个参数包括一个或多个概率分布的至少一个参数。

示例19是根据示例17或18的方法，包括通过适配统计模型的一个或多个参数来适配统计模型，该一个或多个参数包括一个或多个高斯分布的均值和标准偏差中的至少一个。

示例20是根据示例18或19的方法，包括基于优化来适配该一个或多个参数。

示例21是根据示例20的方法，其中优化基于目标函数，该目标函数基于实际力和经历力之间的差。

示例22是根据示例20或21的方法，其中优化基于贝叶斯优化或协方差矩阵自适应进化策略。

示例23是根据示例17至22中任一个的方法，其中统计模型具有多个隐藏状态，每个状态与观察概率分布相关联。

示例24是根据示例23的方法，包括基于测量力和预期力之间的差来检测轨迹适配事件，确定表示其中已经发生轨迹适配事件的标称轨迹部分的统计模型的状态，以及对观察概率分布的参数执行优化。

示例25是根据示例24的方法，进一步包括对与所确定的状态相关联的持续时间概率分布的参数执行优化。

示例26是根据示例24或25的方法，包括从优化中省略与除了所确定的状态之外的其他状态相关联的概率分布的参数。

示例27是根据示例24或25的方法，包括将优化限制到与所确定的状态相关联的概率分布的参数。

示例28是根据示例17至27中任一个的方法，包括基于至少一个轨迹的一个或多个示教来训练统计模型。

示例29是根据示例17至28中任一个的方法，其中统计模型是高斯混合模型、隐马尔可夫模型或隐半马尔可夫模型。

示例30是根据示例17至29中任一个的方法，包括：根据标称轨迹控制机器人设备，直到基于测量力和预期力之间的差检测到的轨迹适配事件；适配统计模型；以及在轨迹适配事件之后根据由适配统计模型表示的适配轨迹继续控制机器人。

示例31是根据示例17至30中任一个的方法，包括当机器人设备被控制为根据标称轨迹移动时借助于一个或多个传感器来测量机器人设备所经历的测量力。

根据另外的示例，提供了存储指令的计算机可读介质，当由处理器执行时，该指令使处理器执行根据示例17至31中任一个的方法。

在附图中，同样的参考字符贯穿不同的视图一般指代相同的部分。附图不一定是按比例的，而是一般将重点放在说明本发明的原理上。在以下描述中，参考以下附图描述了各个方面，其中：

图1示出了机器人设备系统。

图2A和图2B分别示出了执行标称计划的机器人手臂和处于交互式轨迹适配阶段中的机器人手臂。

图3A和图3B图示了标称任务计划和轨迹以及适配任务计划和轨迹。

图4示出了根据一实施例的机器人设备控制器。

图5示出了一流程图，该流程图图示了根据一实施例的用于控制机器人设备的方法。

以下详细描述参考了附图，附图通过图示的方式示出了其中可以实践本发明的具体细节和方面。在不脱离本发明的范围的情况下，可以利用其他方面，并且可以进行结构、逻辑和电气改变。本发明的各个方面不一定相互排斥，因为本发明的一些方面可以与本发明的一个或多个其他方面组合以形成新的方面。

在下文中，将更详细地描述各种示例。

图1示出了机器人设备系统100。

机器人设备系统100包括机器人设备101，例如用于处理、组装或加工工件的工业机器人。机器人设备101包括操控器102、103、104和基座(或支撑件)105，操控器102、103、104通过该基座(或支撑件)105得以支撑。术语“操控器”是指机器人设备101的可移动部件，其致动使能实现与环境的物理交互，例如施行任务。为了控制，机器人设备系统100包括控制器106，控制器106被配置为根据控制程序实施与环境的交互。操控器102、103、104的最后一个部件104(当从支撑件105查看时)也被称为末端执行器104，并且可以包括一个或多个工具，诸如焊接炬、抓取器械、喷涂装备等等。

其他操控器102、103(更靠近支撑件105)可以形成定位设备，使得与末端执行器104一起来提供机器人手臂(更通常称为铰接手臂)，其中末端执行器104处于其末端。机器人手臂是一种机械手臂，其可以提供与人类手臂相似的功能(可能在其末端具有工具)。

机器人设备101可以包括将操控器102、103、104彼此互连并且将其与支撑件105互连的关节元件107、108、109。关节元件107、108、109可以具有一个或多个关节，其中每个关节可以向相关联的操控器提供相对于彼此的可旋转运动(即旋转运动)和/或平移运动(即位移)。操控器102、103、104的移动可以借助于由控制器106控制的致动器来启动。

术语“致动器”可以理解为被适配为响应于被驱动而影响机构或过程的组件。致动器可以将控制器106发出的指令(所谓的激活)实施为机械移动。致动器(例如机电转换器)可以被配置为响应于驱动而将电能转换成机械能。

术语“控制器”可以被理解为任何类型的逻辑实施实体，其可以包括例如能够执行存储在存储介质、固件或其组合中的软件的电路和/或处理器，并且其可以例如向本示例中的致动器发出指令。控制器可以例如通过程序代码(例如，软件)来配置，以控制系统(在本示例中是机器人)的操作。

在本示例中，控制器106包括一个或多个处理器110和存储代码和数据的存储器111，处理器110基于该代码和数据控制机器人设备101。根据各种实施例，控制器106在存储于存储器111中的统计模型112的基础上控制机器人设备101。

诸如由机器人设备系统100实施的机器人可以利用示教学习方法来学习执行任务或与人类伙伴协作。人类示教可以由概率模型(也称为统计模型)编码，该概率模型表示机器人的任务的标称计划。控制器106随后可以使用统计模型来生成期望的机器人移动，该移动可能作为人类伙伴和环境两者的状态的函数。

根据各种实施例，生成隐半马尔可夫模型(HSMM)，并将其用作统计模型112，以表示机器人的标称任务计划。HSMM不仅允许囊括(encapsulate)观察到的感觉运动模式，而且还允许囊括任务的(例如示教的)时间结构。控制器106可以将模型112与轨迹生成过程相组合，该轨迹生成过程利用任务动态特征来检索建立在标称任务计划上的感觉运动轨迹的平滑参考分布。控制器可以使用此来既执行期望任务又监视指示适配过程的偏差。在下文中，描述了感觉运动轨迹的检索和学习模型。

应当注意，一般来说，将标称计划编码为高斯分布集合的任何统计方法也可以用于适配参考分布。在这个意义上，也可以使用诸如高斯混合模型(GMM)或隐马尔可夫模型(HMM)的模型。然而，这些模型示出的限制是缺乏持续时间模型(HSMM中的持续时间概率)。因为这点，基于那些模型的方法不能适配标称计划的持续时间(而在以下示例中正是这种情况)，但是将仍然能够适配感觉运动模式。

K状态隐马尔可夫模型(HMM)的特征在于模型中每个状态i的初始状态分布

转移概率矩阵

以及观察分布，该观察分布通常由高斯分布

表示，其具有均值μ_i和协方差矩阵∑_i。在HMM中，自转移概率a_i,i仅允许状态持续时间的粗略隐式建模，其遵循随时间呈指数下降的几何分布

因此，HMM不适于对其中时间模式相关的任务进行编码。

诸如隐半马尔可夫模型(HSMM)的可变持续时间建模技术通过嵌入潜在随机过程的时间信息来扩展标准的HMM。也就是说，当在HMM中时，潜在的隐藏过程被假设为马尔可夫，即转移到下一个状态的概率仅取决于当前状态，在HSMM中，状态过程被假设为半马尔可夫。这意味着到下一个状态的转移取决于当前状态以及自进入该状态以来经过的时间。因为状态持续时间总是正的，所以它的分布应当优选由保持该性质的函数来建模。因此，根据各种实施例，具有均值

和相关联的方差

的单变量对数正态分布

用于对持续时间的对数进行建模，这等效于使用对数正态分布来拟合持续时间数据。因此，例如使用由参数

表征的HSMM，其可以例如基于人类用户的示教通过预期最大化过程来训练。

训练过程的示例如下：

1.人类操作员若干次向机器人示教期望移动。为此，人类操作员可以使用不同教学形式，诸如动觉教学(即物理移动机器人连杆)或遥操作(即使用3D鼠标或触觉设备)，来生成由训练向量

构成的训练数据集，该训练向量表示机器人末端执行器的笛卡尔位置和每个时间步长t处的感测力。通过以特定采样速率记录位置和感测力来获得训练向量集合。

a.例如，如果一个移动的示教持续10秒，并且采样速率设置为50Hz，则该示教由500个训练向量构成。

b.在每个示教持续10秒(具有50Hz的固定采样速率)的假设下，如果一示教阶段由5个不同的示教构成，那么最终的训练数据集由2500个训练向量构成。注意，示教持续时间不影响训练过程。

2.给定训练向量集合，使用下面的等式(6)计算该训练数据集的动态特征。

3.给定动态特征集合ζ_1：t＝{ζ1_，ζ₂，...，ζ_t}，可以使用预期最大化算法的修改版本来训练HSMM，该修改版本例如在S.Yu的“Hidden semi-Markov models”(人工智能，第174卷第2期第215-243页，2010年)中详述。为了实施该训练方法，有必要为HSMM定义状态数目K。这可以由用户定义设置，或者使用狄利克雷(Dirichlet)过程自动设置。

a.训练HSMM的第一步骤是要初始化参数集合。为此，k均值可以用于给出HSMM高斯分布的第一估计，而转移概率矩阵可以被初始化为随机值。

b.施行迭代过程来重新估计HSMM参数集合，其中首先计算前向和后向变量，并且然后将其用于计算中间变量(例如，根据以上引用的S.Yu的论文中的等式(4-9))。这些中间变量稍后用于重新估计HSMM参数集合。

c.在每次训练迭代处，计算并检查训练数据集的可能性，以确定它是否收敛到固定点。如果是，则迭代过程停止。

训练过程的输出是HSMM参数集合

一旦被训练，HSMM就可以被用于针对给定时间长度范围T和离散状态集合s_t∈{1，...，K}导出以期望的状态序列s_1：T＝{s₁，s₂，...，s_T}的形式的标称任务计划。为此，可以利用HSMM中的前向变量的定义来计算时间步长t处在状态i中的概率，并观察部分观察ζ_1：t＝{ζ₁，ζ₂，...，ζ_t}，即

其利用下式递归计算

其中

对于t<d^max，初始化由下式给出

等，其对应于更新规则

HSMM可以被视为表示任务的高水平抽象的模型，该模型通过设置的观察、持续时间和转移概率而囊括了观察到的感觉运动和时间模式。根据各种实施例，控制器106使用该统计模型来检索平滑参考轨迹分布，以驱动机器人运动并使该统计模型的力引导的适配局部化。

根据各种实施例，为了从HSMM检索参考轨迹分布，使用了一种方法，该方法利用被囊括在观察和持续时间概率分布中的观察数据的静态和动态特征两者。

在机器人学中，这提供合成平滑轨迹的简单方法，该方法是通过协调所考虑的时间序列中的静态和动态特征两者的分布来实现的。根据各种实施例，该方法用于检索平滑参考轨迹分布，该平滑参考轨迹分布将根据由HSMM编码的标称任务计划来驱动机器人运动。

形式上，使机器人的状态被定义为

它可以表示机器人末端执行器姿态、其关节配置，或者由附加的感测信息(诸如感测到的笛卡尔力或关节扭矩)构成。

为简单起见，针对

(其中D＝3)呈现了机器人末端执行器位置的轨迹的参考分布的检索。然而，该方法可以直接应用于替代的机器人状态表示。

对于编码机器人移动，笛卡尔速度

和加速度

可以用作机器人运动的动态特征。通过考虑欧拉近似，它们被计算为

通过使用(4)，观察向量ζ_t可以用于表示时间步长t处的连接的(concatenated)位置、速度和加速度向量，如下

其中

是单位矩阵，并且Δt是采样时间。应当注意，导数数目被设置为上至加速度，但是结果可以被推广到更高或更低的导数数目。然后，变量ζ和x通过连接所有时间步长的ζ_t和x_t而被定义为大向量，即

和

类似于为单个时间步长定义的矩阵算子(5)，可定义大稀疏矩阵Φ，使得ζ＝Φx，即

这里可以利用表示标称任务计划的状态序列s_1:T来检索用于驱动机器人末端执行器移动的参考轨迹分布。

为此，针对给定序列s，移动ζ的可能性被定义为

其中，μ_st和∑_st是时间步长t处的状态s_t的均值和协方差矩阵。该乘积可以改写为

其中

并且

通过使用关系ζ＝Φx，控制器106确定使(8)的对数最大化的轨迹x，即

取决于x的log P(Φx|s)的部分采用二次误差形式

可以通过对c(x)进行微分并使其等于0来找到解，从而提供轨迹(以向量形式)

其中加权最小二乘估计的协方差误差由下式给出

其中σ是比例因子。(10)和(11)两者描述了参考轨迹分布

其表示机器人设备系统100从示教中学习的标称任务计划。应当注意，通过利用矩阵的正定对称带结构，以上提到的等式可以利用Cholesky和/或QR分解来高效地计算。

根据各种实施例，利用用户的触觉提示来指示对所学习的标称计划的期望适配。因此，根据一实施例，机器人状态被定义为

其中

表示在机器人末端执行器104处感测的笛卡尔力，从而导致

和

因此，在(9)的基础上，该增强状态的轨迹检索被公式化为

其解具有与(10)和(11)相同的形式。该增强状态ξ不仅允许检索期望的末端执行器轨迹分布

而且还允许检索参考力分布

后者可以用于设置参考力轮廓，以在任务执行期间进行跟踪，以及识别指示任务适配阶段的外力。根据各种实施例，控制器106使用参考力分布

以从物理交互中检测适配阶段。

一旦根据以上内容已经学习了标称计划，机器人设备系统100就准备好施行任务。然而，在再现期间，可能出现新的任务要求(例如，替代运动轨迹、感兴趣对象的新位置)，因此要求机器人将其标称计划适配到新的情形。如图2中所图示的，一种用以指示期望任务适配的方式是触觉通信。

图2A示出了机器人设备的机器人手臂201(例如对应于机器人设备101)，该机器人手臂201执行如先前从人类示教中学习到的标称计划。

当不需要适配时，机器人201通过遵循从标称任务计划(由椭圆204表示，其可以对应于HSMM的状态)提取的参考轨迹分布(实线202描绘了均值，并且阴影区域203表示方差)来执行任务。

图2B示出了处于交互式轨迹适配阶段中的机器人手臂201。

人类操作员205可以通过与机器人进行物理交互(在这种情况下是推力206)来引入局部轨迹适配。控制器106基于力206将标称任务计划适配为适配任务计划207，使得不一致力(即，(多个)预期力和(多个)经历(测量)力206之间的差被最小化)并将对机器人的控制改变至适配轨迹208。

因此，人类操作员205可以与机器人201进行物理交互，以便通过基于力的提示来示出所要求的适配。应当注意，在其中物理交互不可能的情况下，可以从虚拟环境中计算人工引导力，在该虚拟环境中，人类操作员命令虚拟代理来指示必要的适配。

在下文中，假设交互力传递关于人类205所要求的任务适配的信息。换句话说，基于力的提示提供了信息，该信息关于人类205正试图通过轨迹适配来优化的不可观察的奖励/目标函数。由于制定奖励/目标函数相当麻烦，并且当机器人201与人类205交互时数据高效的适配是必需的，因此根据各种实施例，使用贝叶斯优化(BayesOpt)来适配标称任务计划的参数。应当注意，贝叶斯优化仅是示例，并且也可以使用其他优化方法，例如CMA-ES(协方差矩阵自适应进化策略)。

在下文中，提供了对BayesOpt的简短介绍，并且稍后解释了控制器106可以如何将其用于力引导的机器人轨迹适配。

一般来说，找到未知目标函数f的全局最大化(或最小化)的问题

其中

是某个感兴趣的参数空间，其中D_χ是参数空间(即优化发生在其上的参数值的空间)的维数。此外，假设黑盒函数f没有简单的封闭形式，而是可以在参数空间中的任一任意查询点θ处进行评估。该评估产生噪声污染的(随机)输出

使得

换句话说，函数f只能通过无偏置有噪逐点观察y来观察。在这种设置中，考虑依次搜索算法，该算法在迭代n处选择位置θ_n+1，在该位置θ_n+1处查询f并观察y_n+1。在N次查询之后，算法做出最终的推荐θ_N，它表示算法对优化器的最佳估计。

BayesOpt规定了对可能的目标函数的先验信念，并且然后经由贝叶斯后验更新来随着数据被观察而依次改善该模型。配备有该概率模型，BayesOpt可以依次引入采集函数

其以后验中的不确定性为杠杆来引导探索。直观地，采集函数评估候选点对于f的下一次评估的效用；因此，通过最大化n来选择θ_n+1，其中索引n指示对当前可用数据的隐式依赖。

一种用以对f的先验和后验进行建模的方式是通过使用高斯过程

其具有均值函数

和正定核(或协方差函数)

使

标示观察集合，并且

表示任意测试点。以观察

为条件的随机变量

也是正态分布的，其具有以下后验均值和方差函数：

其中

是

和θ_1：n之间的协方差项的向量，并且K是所有θ_i和θ_j对的协方差矩阵。在任一点

处评估的后验均值和方差分别表示在该点

处，目标函数中的模型预测和不确定性。利用这些后验函数来借助于采集函数选择下一个查询点θ_n+1。

采集函数使用由后验函数给出的信息来在利用(例如选择具有最高后验均值的点)和探索(例如选择具有最高后验方差的点)之间执行权衡。这里，使用基于改进的采集函数，即预期改进(EI)，其建立在并入τ上的改进量的函数上，并且可以如下被分析计算

其中Φ是正态累积分布函数，φ表示对应的概率密度函数，并且τ是阈值改进。直观地，EI选择下一个参数点，在该参数点处，τ之上的预期改进最大。

如先前所提到的，人类伙伴205可以与机器人201物理交互，以通过基于力的提示来指示所学习的标称计划的期望适配。为了使机器人根据人类意图(机器人设备例如借助于在其末端执行器104处的力传感器113在有噪声的情况下观察该人类意图)协商其适配，控制器106使用BayesOpt来施行标称模型的局部适配，使得(多个)预期力和测量力之间的差(其指定人类-机器人的不一致)最小化。由于如上所述的学习模型囊括了感觉运动和持续时间模式两者，所以时空适配是可能的。

形式上，感觉运动模式和持续时间信息被局部编码为高斯分布

和

如上所述。这些分布通过(1)和(9)直接影响机器人任务执行。为了局部适配机器人轨迹，局部模型参数的向量被定义为

其中

和

分别表示状态i的运动命令和持续时间的均值向量(为了简单，省略了协方差参数)。控制器106使用BayesOpt搜索参数θ_i的向量，以找到优化解

从而在用户205触发期望适配时使人类-机器人的不一致最小化。应当注意，当针对任务不要求期望力轮廓时，不一致力直接对应于安装在机器人末端执行器104(例如，在机器人手腕处)的力传感器113的有噪读数f^s。

相反，如果给出了参考力分布

则不一致力可以容易地被计算为参考力

和感测力f^s之间的差的L-2范数。因此，在当前情况下，用于计算后验均值和方差函数的观察集合是

学习模型使用状态集合(由高斯分布表示)对标称计划进行编码的事实允许在触发期望适配时通过识别机器人处于其中的状态i来施行最优参数的局部搜索。为此，使用前向变量(1)的定义，并且将局部适配参数θ_i选择为对应于如下状态的那些

与由学习模型的运动命令和持续时间的所有均值向量构成的高维向量θ形成对比，这减小参数空间的维数。此外，域(参数空间)χ可以从人类示教中自动提取，其中

和

两者指定其中BayesOpt搜索优化解θ_i，N的局部界限。例如，针对θ_i的感觉运动分量的下界和上界可以被定义为

其中

是

中的方差向量。

控制器106可以在线适配机器人的轨迹。当它检测到人类干预(基于传感器113处不同于预期力的测量力)——这意味着应当发生轨迹适配时，它在任务进程内更新参考轨迹。为此，每次控制器106借助于基于力的局部BayesOpt而找到最优参数θ_i，N的集合，控制器106就通过针对长度为T_w的时间窗经由(1)计算状态s_t：T_w的新的序列，来生成轨迹的新的参考分布。

控制器106根据等式(1)通过针对每个t的最可能状态来确定状态序列，等式(1)指定了处于某个状态t中的概率并具有直到时间t为止的某个观察序列。

控制器106可以使用状态序列通过(10)和(11)生成新的(即，适配的)轨迹分布。应当注意，时间窗的指定假设交互式轨迹适配在相对短的时间段内发生，这意味着一旦人类操作员不触发任何适配，就预期机器人201恢复标称计划的执行。此外，时间窗有利于整个适配过程的计算成本。

图3A和3B图示了轨迹适配。

在该示例中，任务是具有C形轨迹的取放任务。取放任务是一种标准设置，其中要求机器人手臂伸向一对象，抓取它，并且后续将它移动到目标位置至其工作空间中，在该目标位置处，对象被释放。

图3A和3B的示例基于六个合成示教的集合，其中当机器人遵循C形轨迹时，生成2D笛卡尔轨迹和感测力轮廓两者。应当注意，在该特定任务中，机器人在移动对象时不要求施加特定的力，这意味着记录的感测力是零均值的。在本示例中，六状态的HSMM已经被训练来学习任务的标称计划，该标称计划主要由正态分布集合

囊括，该集合对局部感觉运动模式和持续时间信息进行编码。

在任务再现期间，机器人末端执行器移动主要由通过(10)和(11)计算的参考轨迹分布驱动。通过监视参考力分布

和感测力f^s之间的差来施行对人类干预的检测。

使用五个时间步长的时间窗来计算这些不一致力。如果检测到人类干预，则通过运行上述力引导的局部搜索来触发局部适配过程。该局部搜索是通过根据采集函数(16)在每个时间步长t处确定新的局部参数θ_i，t+1来实施的。一旦已经找到了由优化得到的局部参数

的集合，就使用具有新均值

和

的状态i的更新的观察和持续时间概率来重新计算参考轨迹分布。

在图3A中，2D轨迹的示教数据被显示为点。由HSMM编码的标称任务计划被示出为白色椭圆，并且适配模型被示出为阴影椭圆。该示例中的所施加力由箭头301表示。椭圆表示HSMM观察概率分布

在图3B中，参考轨迹302及其通过使用HSMM检索的分布正确地编码在示教中观察到的感觉运动模式。作为响应于力301的局部适配的结果，当没有施加外力时，适配轨迹303与标称计划匹配，并且它根据由力引导的BayesOpt强加的局部改变而变形。更具体地，通过BayesOpt计算的新均值

和

直接影响经由(10)计算的适配轨迹分布。

该局部适配允许用户在不影响任务的相关模式的情况下在轨迹中引入小改变(诸如图3中参考分布的开始和结束)，这对于伸向和释放操控对象是至关重要的。

总之，根据各种实施例，提供了如图4中所图示的机器人设备控制器。

图4示出了根据一实施例的机器人设备控制器400。

机器人设备控制器400包括存储器401，存储器401被配置为存储统计模型，该统计模型被训练为实施机器人设备的行为。

此外，机器人设备控制器400包括一个或多个处理器402，该一个或多个处理器402被配置为确定由统计模型表示的标称轨迹，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的预期力，当机器人设备被控制为根据标称轨迹移动时确定机器人设备所经历的测量力，并且基于测量力和预期力之间的差的减小来适配统计模型。

根据各种实施例，换句话说，关于机器人末端执行器水平处(或机器人设备的一个或多个其他位置处)的交互力的信息被用作用户对期望局部轨迹变形的指示。这样的感测信息用于引导统计模型的适配过程，机器人是基于该统计模型被控制的。该适配修改标称模型参数，使得所得轨迹分布以平滑的方式根据感测力被局部适配。应当注意，“力”可以对应于力向量，该力向量具有针对空间中不同方向并且还针对机器人设备上的不同作用点的分量。

可以看出，图4的方法基于如下假设：即人类产生的力数据传递关于人类所意图的适配的信息。这些数据用于计算机器人试图通过局部适配其任务模型来最小化的不一致力，该任务模型是先前从示教中学习的。

因此，机器人(例如机器人末端执行器)的期望轨迹可以通过基于预期力和测量力之间的差的物理交互以及对充当用于机器人控制的基础的统计模型的适配来成形。轨迹可以从已经被训练的统计模型中导出，例如机器人设备先前学习了手头任务的标称计划(表示为参考轨迹分布)。

借助于统计模型的适配，轨迹可以作为例如在机器人的末端执行器处感测到的交互力的函数被在线适配。假设交互力指示参考轨迹的期望(可能)局部变形。

在一个实施例中，贝叶斯优化被用于适配标称任务计划，并且因此，在HSMM状态已改变时，参考轨迹被适配。根据等式10和11检索适配轨迹。

一个或多个处理器可以根据传感器信号(包括例如任何类型的力或扭矩传感器，例如附接在机器人末端执行器处)或者通过使用机器人的关节扭矩传感器来确定机器人设备所经历的力。

一个或多个处理器被配置为计算控制信号，该控制信号用于控制机器人设备的机械部分(例如机器人手臂)或一般而言的物理系统(具有其移动被控制的机械部分)的机械部分，物理系统如计算机控制的机器、车辆、家用电器、电动工具、制造机器、个人助理或访问控制系统。基于图4的方法，机器学习系统可以被训练和适配，并且可以用于上面的应用。

根据各种实施例，机器人设备的控制器(包括一个或多个处理器)被配置为生成(或至少存储)对机器人的任务的感觉运动模式进行编码的概率学习模型(例如，隐半马尔可夫模型HSMM)，检索参考轨迹分布并根据参考轨迹分布驱动机器人末端执行器运动，监视人类干预(通过(多个)物理交互力)并执行力引导的优化(例如，局部贝叶斯优化)，以根据(多个)感测到的交互力修改模型参数。

一个或多个处理器可以被配置为首先控制机器人设备根据标称轨迹移动，并且在适配统计模型之后根据由适配统计模型表示的适配轨迹移动。然而，应当注意，这可以在线发生，即，机器人设备可以根据标称轨迹、并且然后在适配事件已经发生时根据适配轨迹而被部分地控制。

术语“处理器”可以理解为允许处理数据或信号的任何类型的实体。例如，可以根据由处理器执行的至少一个(即，一个或多于一个)特定功能来处置数据或信号。处理器可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)集成电路或其任何组合，或者由其形成。实施相应功能的任何其他方式(其将在下面更详细地描述)也可以被理解为处理器或逻辑电路。将理解，本文详细描述的一个或多个方法步骤可以通过由处理器执行的一个或多个特定功能来由处理器执行(例如，实施)。

图5示出了流程图500，其图示了根据一实施例的用于控制机器人设备的方法。

在501中，存储统计模型，该统计模型被训练为实施机器人设备的行为。

在502中，确定由统计模型表示的标称轨迹。

在503中，确定当机器人设备被控制为根据标称轨迹移动时机器人设备所经历的预期力。

在504中，确定当机器人设备被控制为根据标称轨迹移动时机器人设备所经历的测量力，并且

在505中，基于测量力和预期力之间的差的减小来适配统计模型。

尽管本文已经说明和描述了特定的实施例，但是本领域普通技术人员将领会，在不脱离本发明的范围的情况下，可以用各种替代和/或等效的实施方式来代替所示出和描述的特定实施例。本申请意图覆盖本文讨论的特定实施例的任何改编或变型。因此，意图本发明仅由权利要求及其等效物来限制。

Claims

1.一种机器人设备控制器（106），包括：

存储器（111），被配置为存储统计模型（112），所述统计模型（112）被训练为实施所述机器人设备（101）的行为；和

一个或多个处理器（110），被配置为

确定由所述统计模型（112）表示的标称轨迹；

当所述机器人设备（101）被控制为根据所述标称轨迹移动时确定所述机器人设备（101）所经历的预期力；

当所述机器人设备（101）被控制为根据所述标称轨迹移动时确定所述机器人设备（101）所经历的测量力；和

基于所述测量力和所述预期力之间的差的减小来适配所述统计模型（112）。

2.根据权利要求1所述的机器人设备控制器，其中所述一个或多个处理器被配置为通过适配所述统计模型的一个或多个参数来适配所述统计模型，所述一个或多个参数包括一个或多个概率分布的至少一个参数。

3.根据权利要求1或2所述的机器人设备控制器，其中所述一个或多个处理器被配置为通过适配所述统计模型的一个或多个参数来适配所述统计模型，所述一个或多个参数包括一个或多个高斯分布的均值和标准偏差中的至少一个。

4.根据权利要求3所述的机器人设备控制器，其中所述一个或多个处理器被配置为基于优化来适配所述一个或多个参数。

5.根据权利要求4所述的机器人设备控制器，其中所述优化基于目标函数，所述目标函数基于实际力和经历力之间的差。

6.根据权利要求4所述的机器人设备控制器，其中所述优化基于贝叶斯优化或协方差矩阵自适应进化策略。

7.根据权利要求4所述的机器人设备控制器，其中所述统计模型具有多个隐藏状态，每个状态与观察概率分布相关联。

8.根据权利要求7所述的机器人设备控制器，其中所述一个或多个处理器被配置为基于所述测量力和所述预期力之间的差来检测轨迹适配事件，确定表示其中已经发生所述轨迹适配事件的标称轨迹部分的统计模型的状态，并且对所述观察概率分布的参数执行所述优化。

9.根据权利要求8所述的机器人设备控制器，其中所述一个或多个处理器被配置为进一步对与所确定的状态相关联的持续时间概率分布的参数执行所述优化。

10.根据权利要求8或9所述的机器人设备控制器，其中所述一个或多个处理器被配置为从所述优化中省略与除了所确定的状态之外的其他状态相关联的概率分布的参数。

11.根据权利要求8或9所述的机器人设备控制器，其中所述一个或多个处理器被配置为将所述优化限制到与所确定的状态相关联的概率分布的参数。

12.根据权利要求1或2所述的机器人设备控制器，其中所述一个或多个处理器被配置为基于至少一个轨迹的一个或多个示教来训练所述统计模型。

13.根据权利要求1或2所述的机器人设备控制器，其中所述统计模型是高斯混合模型、隐马尔可夫模型或隐半马尔可夫模型。

14.一种机器人设备系统，包括机器人设备和根据权利要求1至13中任一项所述的机器人设备控制器，其中所述机器人设备包括一个或多个传感器，所述一个或多个传感器被配置为测量所述机器人设备所经历的测量力。

15.一种用于控制机器人设备（101）的方法，包括：

存储统计模型（112），所述统计模型（112）被训练为实施所述机器人设备（101）的行为；

确定由所述统计模型（112）表示的标称轨迹；

当所述机器人设备（101）被控制为根据所述标称轨迹移动时确定所述机器人设备（101）所经历的测量力，以及

16.一种包括指令的计算机程序，当所述程序由根据权利要求14的机器人设备系统执行时，所述指令使得所述机器人设备系统实行权利要求15的方法。

17.一种计算机可读存储装置，包括根据权利要求16的计算机程序。