CN105082132A

CN105082132A - 力-扭矩任务的快速机器人模仿学习

Info

Publication number: CN105082132A
Application number: CN201410335997.6A
Authority: CN
Inventors: J.W.威尔斯; D.W.佩顿; R.M.尤伦布洛克; L.库
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-05-23
Filing date: 2014-07-15
Publication date: 2015-11-25
Anticipated expiration: 2034-07-15
Also published as: US20150336268A1; DE102014108287A1; CN105082132B; US9403273B2; DE102014108287B4

Abstract

一种训练机器人以自主执行机器人任务的方法，包括让末端执行器运动通过预定机器人任务的多个状态，以在一组n个训练示范中将任务示范给机器人。方法包括测量训练数据，包括在末端执行器运动通过多个状态时经由力-扭矩传感器测量至少直线力和扭矩。从训练数据提取关键特征，其被分段为控制基元的时间序列。识别相邻时间序列段之间的转变。在同一任务的自主执行期间，控制器检测转变且在控制模式之间自动地切换。机器人系统包括机器人、力-扭矩传感器、编程为执行方法的控制器。

Description

力-扭矩任务的快速机器人模仿学习

技术领域

本发明涉及力-扭矩任务的快速机器人模仿学习。

背景技术

机器人是电机械装置，其能使用一系列机器人联动件(link)来操作物体。机器人联动件通过关节互连，每一个关节可以独立地或互相依赖地被一个或多个促动器驱动。每一个机器人关节代表独立的控制变量或自由度。末端执行器是直接执行任务(例如抓持工作工具或叠放部件)的末端联动件。通常，经由闭环的基于力、阻抗或位置的控制规则将机器人控制到期望目标值。

在制造中，存在对更灵活的制造和加工的需要，其能以最小量的停机时间生产新的或更具变化的产品。为了完成该目标，机器人平台应该能快速使其自身适应新的任务，而不需要重新编程和编译的时间。任务示范(也称为模仿学习)是用于实现这种性能灵活性的进化方法。然而，现有的基于任务示范的训练方法在所需的训练示范的数量和总的静态计算工作量方面并不理想。

发明内容

本文公开一种机器人系统和相关的控制方法。系统和方法目的是改善现有的人辅助的任务示范方法，其中人操作者实体地给机器人示范任务，例如经由手动或机器人通过具体轨迹、停止位置和末端执行器动作的自动命令的运动。本方法使得机器人系统中的机器人从给定任务的一小组示范中获得具有任务知识的基元组(primitiveset)，其中示范任务具体需要施加直线和旋转力/扭矩，以便实现期望的最终结果。具体说，预设方法有助于(基于不多于两个或三个的总任务示范)实现机器人数据分析，以便确定有用的不变任务特征组。不变任务特征随后用于通过同一任务的自主执行而引导机器人通过许多变量条件的未来动作。

通过本发明的控制器提供的控制架构的实施例包括两个主任务模块，即训练阶段模块(TPM)和执行阶段模块(EPM)，其有效地将总的处理分为分开的训练和执行(后训练)阶段。本文使用的术语“模块”在计算机领域意味着所有必需的硬件(例如处理器、数据总线、存储器装置、输入/输出(IO)装置)和所有其他必要的相关硬件以及任何下层软件编程指令，其执行最终使得控制器和机器人以下文所述的方式发挥功能。

在公开的控制架构中，TPM允许用户提供小量示例性任务示范，例如正好1-3个任务示范。机器人的直线力-扭矩传感器(其可以连接到或嵌入在机器人的腕部或其他合适结构中，且是位于机器人工作环境中的可选环境传感器)在示范任务(一个或多个)期间收集机器人性能数据。从任务示范，控制器确定机器人的末端执行器经过末端执行器相对于任务示范环境中物体的运动范围的位置和取向。控制器还处理来自力-扭矩传感器的数据。组合的收集数据组在本文被称为训练数据组且可被暂时地记录在存储器中。

使用收集的训练数据组，控制器接下来执行时间分段处理，其中控制器的处理器将任务示范的时间序列分为不同任务段。即时间序列经由控制器的逻辑模块而被分析，以识别某些段之间的转变事件。该功能可以在控制器的事件描述符训练器模块(EDTM)中实现。可以分析任务段以识别特征事件描述符，如下所述其随后被控制器使用以检测通过机器人进行的任务的实际自主执行中相同或相似的转变。

EPM(其是本发明控制器的第二主控制模块，用于任务执行)施加控制基元的训练序列，即基本控制动作，例如在任务示范/模仿学习之后让末端执行器朝向或沿目标表面运动。EPM还在任务执行期间施加学习参数和将运行时间数据中的特征匹配所学习的特征，以便精确地确定在不同控制策略之间何时转变，“控制策略”是指用于在相应的任务段中获得给定动作的具体必要控制命令。如上所述的各种概念和术语将参考各种附图在下文详细描述。

所公开的发明的益处是能从很少的简单任务示范中快速学习涉及直线和旋转力目标的机器人任务，下文称为力和扭矩目标。在基于训练的以前的方法中，力和扭矩目标可以仅通过消耗时间的统计过程来知晓，统计过程要求数百训练例子以生产统计相关数据。从工厂应用的方面看，本发明可以提供优于这样的统计学方法的优点。

本发明也可以提供优于其他模仿学习方法(基于末端执行器的获得位置目标)的优点。通过包括直线力和扭矩目标，本方法提供一种机器人能力，其中给定工作任务的成功完成更取决于检测实际的感知线索，随后获得具体的实体末端执行器位置或取向。示例性工作任务(其中该优势可以是尤其有益的)例如包括抓持和插入电灯泡或其他部件到套筒，或固定使用卡扣连接的部件。在本文使用电灯泡例子是为了说明简单和一致。

根据优选实施例，提供一种用于训练机器人的方法，以自主执行机器人任务，上述机器人任务需要通过机器人的末端执行器对物体施加直线力和扭矩，方法包括：末端执行器运动通过预定机器人任务的多个状态，以由此在n个训练示范的组中将预定机器人任务示范给机器人；测量一组训练数据，包括在末端执行器运动通过预定机器人任务的多个状态时经由力-扭矩传感器测量至少直线力和扭矩；经由控制器从测量的一组训练数据提取关键特征，包括将测量的一组训练数据分段为控制基元的时间序列和识别时间序列的相邻段之间的转变；在通过机器人进行的示范任务随后的自主执行期间经由控制器检测转变；和响应于所检测的转变在多个不同控制模式之间自动地切换。

根据一个优选方面，其中n≤5。

根据更优选的方面，其中n≤2。

根据一个优选方面，其中检测转变包括检测位置控制基元、混合力控制基元、和目标力控制基元每一个之间的转变，且其中将测量的一组训练数据分段为控制基元的时间序列包括将测量的一组训练数据分段为位置控制基元、混合力控制基元、和目标力控制基元的组合。

根据优选实施例，提供一种用于训练机器人的方法，以自主执行机器人任务，上述机器人任务需要通过机器人的末端执行器对物体施加直线力和扭矩，方法包括：反驱动末端执行器通过预定机器人任务的多个状态，以由此在一组n个训练示范中将预定机器人任务示范给机器人，其中n≤3；测量一组训练数据，包括在反驱动末端执行器通过预定机器人任务的多个状态时经由嵌入机器人腕部中的力-扭矩传感器测量至少直线力和扭矩；经由控制器从测量的一组训练数据提取关键特征，包括使用测量的一组训练数据的滚动平均将测量的一组训练数据分段为控制基元的时间序列和识别时间序列的相邻段之间的转变；在随后通过机器人进行的示范任务自主执行期间经由力-扭矩传感器测量至少直线力和扭矩作为联机/实时数据；在通过机器人进行的示范任务随后的自主执行期间检测联机/实时数据中的转变包括检测位置控制基元、混合力控制基元、和目标力控制基元每一个之间的转变；和响应于检测的转变在多个不同控制模式之间自动地切换。

优选地，其中检测转变包括执行评分函数，所述评分函数计算联机/实时数据中的数据点代表其中一个转变的可能性。

在下文结合附图进行的对实施本发明的较佳模式做出的详尽描述中能容易地理解上述的本发明的特征和优点以及其他的特征和优点。

附图说明

图1是机器人系统的示意图，其具有机器人和用于经由有限数量的力和扭矩任务示范训练机器人的控制器。

图2是具有学习控制基元的示例性力-扭矩任务的示意图。

图3是示例性训练数据的时间曲线图，其形式是图1所示的机器人的示例性力测量，垂直轴线显示力且水平轴线显示时间，且训练数据被分段和分类为控制基元的序列。

图4A-C共同描述了根据三个可能情况的图1所示机器人的末端执行器的各示意性轨迹。

图5是用于图1所示控制器的系统架构的示意图。

图6是可作为本文公开方法一部分使用的坐标变换步骤的示意图。

具体实施方式

参考附图，其中几幅图中相同的附图标记指示相同或相似的部件，在图1中显示例性机器人系统10。机器人系统10包括机器人12和控制器(C)20，所述控制器被编程为执行方法100，且由此经由人辅助的任务示范训练机器人12来执行力-扭矩任务。机器人12可以包括躯干15、具有末端执行器21的臂16，且可能地在示例性拟人实施例中包括头部19。末端执行器21可以配置为任何合适的装置，以用于执行示范任务，例如抓持器或具有指状物22的拟人的手，所述指状物22附接到腕部24或其他臂段17，如所示的。这样的实施例中指状物22可以是马达驱动的指部、延伸部或其他抓持器。

非限制性的示例性力-扭矩工作任务(出于简单和一致的目的在下文使用)是对电灯泡形式的物体18的抓持。然而，可在本发明的范围内使用任何数量的其他力-扭矩任务。人操作者13(出于简单的目的，在图1中仅显示其手臂)可简单地通过示范任务对机器人12示范新的力-扭矩工作任务。例如，在图1所示的例子中，操作者13通过将电灯泡抓持且插入到套筒形式的固定结构14中而手动地引导机器人12，如通过箭头A的轨迹示出的。

经由操作者13通过机器人12施加的直线力和扭矩(即旋转力)在任务示范期间通过一个或多个力-扭矩传感器(S_FT)测量，所述传感器定位在机器人的末端执行器21处或附近，例如嵌入在腕部24中。通过以这种方式反驱动机器人12而进行的任务示范允许操作者13在任务的示范过程中感觉和施加适当的力和扭矩，例如相对于固定结构14抓持、旋转和定位物体18，例如将物体18插入固定结构14的套筒23中。即操作者13抓持给定的力-扭矩传感器(S_FT)后方的腕部24，从而力-扭矩传感器(S_FT)可检测与操作者13相同的力。还有，操作者13可以伸缩机器人12，在这种情况下操作者13观察而不是感觉力，例如根据各种显示器或软件提供的读数。

图1的控制器20包括逻辑模块50，其包括两个主控制模块：训练阶段模块(TPM)和执行阶段模块(EPM)。参考图5在下文详细描述TPM和EPM。通常，逻辑模块50进行两个不同阶段的操作，即任务训练阶段(阶段I)和任务执行阶段(阶段II)。在任务训练阶段期间，操作者13提供期望任务的相对小量的示例性任务示范，术语“小”在本文的意义是在一个实施例中总共不多于五个任务示范，在大多数情况下不多于两个或三个的示范就足够。

从该相对有限数量的训练例子，控制器20从力和扭矩传感器S_FT获得力-扭矩信号(箭头11)以及末端执行器21的位置和取向的有关细节，例如经由性能数据(箭头27)。性能数据(箭头27)被一个或多个额外传感器25收集且从其输出，例如关节角度传感器、视觉系统传感器、点云摄像头、和/或类似物。性能数据(箭头27)可以包括末端执行器21相对于物体18运动的数据追踪。任务示范期间收集的数据的组合在本文中被称为训练数据组(箭头11T)。

简要地参见图5，力-扭矩逻辑模块50包括训练阶段(阶段I)和执行阶段(阶段II)，如上所述。图1的控制器20接收训练数据组11T且经由基元分段模块(PSM)52对接收的训练数据组11T执行分段操作。这种操作可以包括将被示范任务的时间序列分为不同的活动段，其中每一个作为结果的段对应于图1所示的机器人12的单个控制模式或“任务基元”。

简要地参见图3，提供这种分段的例子。给定任务示范的量(F_M)以其三维形式绘制，如示例性测量的力分量F_X、F_Y和F_Z，同时针对时间(t)绘制测量的力分量，以产生示范任务的时间序列48。其他示范数据可以包括机器人12和/或其末端执行器21的位置、取向、扭矩和关节角度。出于简单的目的，在图3的例子中仅显示力。

分段过程可以形成任务段S1、S2、S3和S4。在测量的力中，阈值改变，例如阈值可被控制器使用，以区别在段S1和S2、S2和S3、S3和S4之间的过渡，例如整个示范任务跨过持续时间t₀–t₄的情况下在t₁、t₂和t₃发生的那样。线L₁、L₂、L₃、L₄指示了每一个段S1-S4的相对力水平，例如X、Y、Z分量的滚动平均值。尽管在图3的例子中显示了力，但是图1的控制器20可以对例如位置、取向和扭矩这样的值执行相似的操作。

再次参见图5，在已经确定如图3中的活动段(其共同限定任务基元序列(TPS)58)之后，图1的控制器20接下来分析这些段，以识别段之间的过渡事件，例如t₁、t₂、t₃处在图3中的垂直线。这可以在事件描述符训练器(EDT)60中实现，例如处理这些段的计算机模块，以获得一组特征事件描述符(CED)68。特性事件描述符68随后被控制器20使用，以在任务执行阶段(阶段II)期间检测之前示范任务的实际执行中的控制模式或段之间的转变。

图5的逻辑模块50的其余结构和操作细节描述如下。这种描述以任务训练阶段(阶段I)中的训练数据组11T的处理的描述为开始，且随后描述构建特征事件描述符68过程中得到的任务基元序列58的使用，以便允许图1的机器人12执行之前示范的力-扭矩任务。

再次参见图1，控制器20可以包括任何所需的硬件和处理指令，其适用于执行本方法100，且按照需要用于输出控制信号(箭头CC)到机器人12，例如执行例如抓持和插入物体18到套筒23中的自主任务的命令，如之前通过操作者13示范的。控制器20可以实施为一个或多个数字计算机或主机，其每一个具有一个或多个处理器(P)和存储器(M)，即有形的、非瞬时存储器，例如光学或磁只读存储器(ROM)，以及随机存取存储器(RAM)，电可编程只读存储器(EPROM)等。

控制器20也可以包括高速时钟、模拟数字(A/D)电路、数字模拟D/A电路、和任何所需的输入/输出(I/O)电路、I/O装置、通信界面、信号调节和缓冲器电子器件等。输入装置26可以与控制器20分开或集成在一起。输入装置26可以是鼠标、控制杆或其他控制装置，适用于在图5的任务训练阶段(阶段I)通过人示范的任务来遥控机器人12。

任务示范

参见图2，示例性基元序列30示出了基本训练例子。在图1的操作者13与机器人12关联地执行任务(通过手动地反驱动机器人12、通过经由来自输入装置26的输入信号遥控操作机器人12或两种情况都有)时，任务示范数据通过控制器20而被记录。图1的机器人12的状态(包括末端执行器21的位置、其取向、抓持器/工具状态和力/扭矩传感器信号(箭头11))被周期性地记录在存储器M中。

例如，在图2中，图1的机器人12可以在第一点P₁开始，且随后经由接近轨迹33直线地运动到第二点P₂，直到图1的末端执行器21在第二点P₂(例如墙壁上的点)处接触第一表面32。在第二点P₂处，末端执行器21可以以力F₁压靠第一表面32，且可能地以扭矩T₁绕第二点P₂旋转，所述扭矩T₁以与力F₁同样的方式被收集。

接下来，图1的操作者13可以将末端执行器21从第二点P₂沿第一表面32通过运动轨迹35滑动到第三点P₃。末端执行器21可以施加力F₂直到形成与第二表面34(例如地面)的接触。图1的末端执行器21可能这样运动：通过第二扭矩T₂而绕第三点P₃旋转，且其后经由离开轨迹37运动到第四点P₄以由此完成示例性任务基元序列30。图2的示范的任务基元序列30仅仅是说明性的。本领域技术人员应理解力-扭矩任务的其他组合可以以相似的方式示范。

基元库

再次参见图5，在本文使用的术语“行为基元”描述相对简单的机器人动作。行为基元依赖于可被图1的机器人12执行的一些控制参数。可存在多于一种类型的行为基元，其可以从可用任务基元的基元库(L_P)56中选择。每一个任务基元类型可以具有下列性能：(1)相关的机器人控制器，例如图1的控制器20，其能执行任务基元，(2)用于在任务示范数据的给定时间段将控制参数调试为“最佳拟合”的逻辑，和(3)用于评估性能(2)最佳拟合控制参数和示范数据段之间相对成本或误差的逻辑，图3显示了示例性任务段S1-S4。

在具体实施例中，图1的控制器20可以使用三个不同基元类型的基元库56：自由运动、约束力运动、和目标力运动。将依次描述这些示例性基元类型每一个。

自由运动

术语“自由运动”是指基于位置的运动，其不取决于力-扭矩传感，例如图2中从第一点P₁到第二点P₂的运动。自由运动包括图1的末端执行器21从开始位置和取向到目标位置和取向的控制，例如经由位置的线性内插和取向的四元数插值。

本发明的控制器20从给定时间段的第一和最后时步(timestep)提取位置和取向参数，形成三维(3D)笛卡尔空间中的线l_p和3D翻滚-俯仰-摆动空间(roll-pitch-yawspace)中的l_r。n时步的段上的成本可以如下计算：

\cos t (prim) = Σ_{i = 1}^{n} α | | P_{rlp &perp;} ({pos}_{i}) | | + β | | P_{rlp &perp;} ({rot}_{i}) | | + γ | | {force}_{i} | |

其是收集的数据和线性近似值之间总几何误差加上对任何观察到的力的校准罚值(calibratedpenalty)。

约束力运动

术语“约束力运动”是指混合力-位置值，其具有运动所沿的一个方向和维持恒定约束力的另一方向。这对模拟沿表面滑动或拖曳行为来说是适当的基元，例如沿表面32发生在图2的第二点P₂和第三点P₃之间的运动。针对该基元以与自由运动参数中发生的同样的方式提取位置和取向参数。还提取针对约束力向量f_c的约束值，作为所述段期间观察的力的方向和平均大小。由此在n时步的段上确定成本，例如如下：

\cos t (prim) = Σ_{i = 1}^{n} α | | P_{rlp &perp;} ({pos}_{i}) | | + β | | P_{rlp &perp;} ({rot}_{i}) | | + γ | | {force}_{i} - f_{c} | | + δ 1 ({force}_{i} | | \leq f_{thresh})

其是位置和取向与其线性近似之间的总几何误差加上来自约束力的偏差，加上力大小低于阈值(f_thresh)时的罚值。

目标力运动

术语“目标力运动”在本文用于另一基元，其是描述直到目标力被保持的运动的混合力-位置值。该基元适用于模拟插入或接触行为。图1的控制器20以与如上所述的自由运动参数相同的方式提取位置和取向参数，且还提取目标力作为运动结束期间观察的平均力，具体说是在图1的末端执行器21被定位在结束位置的距离阈值中时。n时步的段上运动的成本可以如下计算：

\begin{matrix} Σ_{i = 1}^{n} α | | P_{rlp &perp;} ({pos}_{i}) | | + β | | P_{rlp &perp;} (r {ot}_{i}) | | + γ | | {force}_{i} - f_{c} | | \cdot 1 (| | {pos}_{i} - {pos}_{n} | | \leq {pos}_{thresh}) \\ + δ (| | {force}_{i} | | \cdot 1 (| | {pos}_{i} - {pos}_{n} | | > {pos}_{thresh}) \end{matrix}

其是位置和取向与其线性近似之间的总几何误差加上来自运动结束期间目标力的偏差，加上运动结束之前用于任何力的罚值。

优化

在图5中，在训练阶段(阶段I)，控制器20使用优化模块(OB)54。在该逻辑阶段，控制器20分析给定任务的示范数据和产生任务基元序列(TPS)58，即将用于模仿和进一步分析示范任务的行为基元。控制器20经由TPS58找出对任务示范数据最佳拟合的基元序列，且可以针对全部基元、其类型、基元何时开始和结束以及其每一个控制参数来优化该基元序列。

用于优化模块54的一个可行方案是迭代爬山优化的一种变体，其是本领域已知的过程。在该方法中每一次爬山从随机产生的基元序列和转变时间开始。在每一次迭代中，图1的控制器20对解决方案施加离散数量的修改，评估每一个经修改的解决方案的成本，且用最低成本的修改替换解决方案。一些修改可以依赖于比例因数，其可在检测到局部最小值时增加，以发现更好的序列。在最大比例因数下发现局部最小值时结束爬山。从不同的随机初始该状态执行少次数爬山，以找到总的最小值。

在N段上具有i任务基元的序列S的成本可以如下计算：

\cos t (S) = Σ_{i = 1}^{N} \cos t ({prim}_{i}, {seg}_{i}) + αN

其中相对于具有许多步骤的更复杂序列，α用于支持具有更少步骤的序列。可在优化期间在序列上执行的修改是将两个基元之间的转变时间向前或向后移动x个时步，其中x为比例因数，将两个相邻基元合并为覆盖这两段的一个基元，将一段分为两个小段，或将一个基元类型换为另一个。

简要地参见图4A-C，示出了用于给定的简化二维任务示范的几个可能的段，X和Y维度绘制在相应的水平和垂直轴线上。如上所述的优化效果显示在图4C中。线42A显示了图1的示例性的电灯泡插入任务期间自由空间中末端执行器21的位置的轨迹。线41A显示了基元序列，任务基元之间的转变通过点43标记。图4A显示了随机初始化基元序列，其对示范数据是相对差(poor)的匹配。图4B显示了另一任意序列，其更好地匹配任务示范，但是其使用许多不必要的基元。图4C显示了通过图5的优化模块54产生的优化段，其更接近地匹配训练数据且使用少量基元。

事件描述符训练器

再次参见图5，事件描述符训练器(EDT)60代表在事件已经发生时的力-功信息，且用于检测应该导致机器人12动作改变的有意义的力-扭矩事件。因为如上所述，示范的任务在不同任务阶段被分段为不同运动基元，所以重要的发现是正好在这些转变必须发生之前发生的特征感知事件。这些事件随后在任务被执行时变成可触发运动基元之间转变的信号。示例性实施例中的事件描述符训练器60可以包括三个部分：(1)凸点检测器(SPD)62，(2)力-扭矩描述符产生器(FTDG)64，和(3)描述符选择器(DS)66。

凸点检测器62在训练数据组11T中找出时间点，在该点处事件更可能发生，且将该点标记为凸点。力-扭矩描述符产生器64随后接收该信息63且产生用于每一个凸点的力-扭矩描述符65。力-扭矩描述符产生器64可以通过将凸点的力-扭矩数据映射到不同坐标系(其更好地区分不同事件)来操作。

描述符选择器66随后在所有训练例子中将相似的力-扭矩描述符65分组且将凸点力-扭矩描述符67的组输出。每一个组可以被赋予评分(score)。在该事件下最可能由凸点构成的组随后被控制器20选择。特征事件描述符(CED)68随后从凸点力-扭矩描述符67产生。将依次描述这些要素每一个的细节。

凸点检测器

图5的阶段I中的凸点检测器62运行为在训练数据组11T中找出事件更可能发生的时间点。这些时间点在控制器20的逻辑中被标记为凸点。被标记为凸点的时间点越多则所需训练时间越长。例如，图1的机器人系统10可以使用以下等式，以将从给定传感器(i)收集的原始力-扭矩数据D_i中的凸点进行标记：

(t) = \{\begin{matrix} true, & if &Exists; i : Δ D_{i} (t + 1) \cdot {ΔD}_{i} (t) \leq 0 \\ false, & otherwise \end{matrix}

上述等式在时间点t处标记凸点，在该时间点处任一维度下的力或扭矩值形成顶点或底点。图5的凸点检测器62实质上用作一类第一阶段过滤器，其将“不可能具有”的事件的时间点过滤掉。

力-扭矩描述符产生器

力-扭矩描述符产生器64产生用于通过凸点检测器62检测的每一个凸点的力-扭矩描述符65。为了产生力-扭矩描述符65，图1中收集的原始力-扭矩数据的部分使用固定时间窗被首先提取，上述时间窗具有以凸点s为中心的长度L。分段的原始数据W(s)为LxK矩阵，其中K为使用的传感器的数量。F-T描述符65随后通过将用于每一个凸点的分段的原始数据W(s)进行转变而形成，所使用的步骤如下：(1)维度增加，(2)解除偏置，(3)坐标变换，将描述这些步骤每一个。

维度增加：在该可选步骤中，来自图1的机器人12的示例性的六维(六轴线)原始数据的维度被增加，包括额外信息，例如力-扭矩的衍生或末端执行器21的运动方向。包含该步骤可以增加公开本文的方法的总体鲁棒性。

解除偏置：不同力-扭矩传感器具有不同偏开值，如本领域已知的。解除偏置数据U(s)可以如下获得：

U_{lk} (S) = W_{lk} (s) - \frac{Σ_{l = 1}^{L} W_{lk} (s)}{L}, &ForAll; l &ForAll; k

其减去了分段数据中用于每一个传感器维度的分段的原始数据W_lk(s)的平均值。

坐标变换：简要地参见图6所示的示意性变换90，该步骤通过将解除偏置的原始数据U(s)92(例如收集的用于力分量F_X、F_Y、F_Z的原始力数据)变换到过滤器坐标96而产生力-扭矩描述符65。过滤器坐标96使用校准的一组过滤器94作为输入基础。过滤器坐标96中每一个基础f_t具有与原始数据的时间窗相同的长度。Haar小波集、Daubechies小波集和经设计的非正交小波集对该步骤来说都是有效的替换。变换等式可以是如下的：

D (s) = (\begin{matrix} f_{1} \\ f_{2} \\ \cdot \\ \cdot \\ \cdot \\ f_{n} \end{matrix}) \cdot U (s)

其中n为使用的过滤器的数量。变化到过滤器坐标的数据为产生的力-扭矩描述符65。

描述符选择器：再次参见图5，描述符选择器(DS)66将通过力-扭矩描述符产生器64产生的相似的力-扭矩描述符65分组成多个组G_j，j∈J,其中J为组的总数量。代表被训练事件的组被图1的控制器20基于评分功能和现有的知识来选择。事件描述符68随后从包含在选择的组中的力-扭矩描述符65产生。将依次描述这两个步骤每一个(即描述符的分组和描述符的选择)。

将描述符分组：通过图5的力-扭矩描述符产生器64产生的所有力-扭矩描述符65被自动地重新分组为多个组G_j。每一个组含有来自每一个训练例子的一个力-扭矩描述符65。产生所有可能的组。每一个组随后被赋予类似的评分，取决于这些力-扭矩描述符65在欧几里得空间中彼此有多靠近。用于此的示例性等式如下：

similarity score (G_{j}) = \frac{1}{Σ_{i = 1}^{M} Σ_{k = 1}^{M} {| | D_{i} - D_{k} | |}_{2}} D_{i}, D_{k} &Element; G_{j}

其中M为被使用的训练例子的数量。

描述符选择：在该步骤中代表被训练的力-扭矩事件的事件组从在先步骤中产生的所有组中选择。事件组选择基于事件评分功能，其是有关事件更可能发生的时间点的在先评分和相似性评分的函数。

eventscore＝similarityscore(G_j)·priorscore(G_j)

prior score (G_{j}) = \underset{D &Element; G_{j}}{Π} \frac{1}{1 + e^{{- α}^{\frac{t_{D}}{L_{D}}}}}

在先评分G_j为s型函数的乘积，其在分段的训练数据端部具有更高可能性。变量α是常数，变量t_D是描述符D的时间点，且变量L_D是含有描述符t_D的具体训练段的长度。在先函数可用提供额外信息的任何函数代替。事件描述符E通过计算具有最高评分的组中描述符的平均值而产生，即：

E_{ij} = \frac{Σ_{D &Element; G} D_{ij}}{M}

执行阶段

参考图5的阶段II，任务执行阶段，仅图1的机器人系统10的两个或三个训练例子就足以获得足够信息来执行示范任务。通过重复之前所学习的控制基元序列，且随后使用用于这些基元的所学习的力-扭矩约束和目标，从而运行执行阶段。为了精确地知道在学习的序列中何时从一个基元切换到下一个，机器人系统10还依赖于检测转变事件的能力。从任务训练阶段(阶段I)，事件描述符69已经被学习，其对每一个转变来说是具体的，且这些事件描述符69将允许事件检测器(ED)70、另一计算机或逻辑模块确定何时触发行为控制模块(BCM)86，例如控制器20的行为控制逻辑和硬件，且由此切换到新的控制策略。

行为控制模块86被编程为或配置为管理图1的机器人12的动作的执行。行为控制模块86使用如前所述的三个控制策略，自由运动、约束力运动、目标力运动，以控制机器人12的动作。这些控制策略每一个具有其自身的具体反馈控制需求，其在学习的基元分段阶段被参数化。基元之间的切换通过来自事件检测器70的事件触发。

事件检测器

事件检测器70使用从阶段I的事件描述符训练器68产生的事件描述符69，以检测实际的/联机数据中的具体事件。因为每一个事件与被训练的事件描述符68相关，以检测不同事件，所以需要不同的事件描述符68。阶段II中的事件检测器70包括两个部分：另一力-扭矩描述符产生器(FTDG)72(与阶段I的64处所示的不同)和事件分类器(EC)74。力-扭矩描述符产生器72产生力用于联机/运行时间数据的扭矩描述符73。事件分类器74随后将来自联机数据的力-扭矩描述符73是否是阶段I中通过事件描述符训练器60在先训练的具体事件进行分类。

力-扭矩描述符产生器

阶段II的力-扭矩描述符产生器72从联机数据85产生力-扭矩描述符73，例如从图1的传感器S_FT和25，其在图5中被共同示出为传感器套件82。联机数据85被设定为具有等于事件描述符训练器60中使用的时间窗长度的时间长度。力-扭矩描述符72通过在阶段I的事件描述符训练器60的力-扭矩描述符产生器64中应用相同的三个步骤而产生，即维度增加、解除偏置、和坐标变换，如上所述。

事件分类器

阶段II的事件分类器74将联机数据85是否为与事件描述符E相同的数据进行分类，即通过特征事件描述符68从阶段I输出事件描述符69。这可如下获得：(1)评分函数可以用于计算联机数据代表事件的可能性。评分函数可以使用通过力-扭矩描述符产生器64产生的力-扭矩描述符65(D_T)和事件描述符E之间的欧几里得距离：

Scoring function = \frac{1}{{| | D_{T} - E | |}_{2}}

(2)如果评分函数的输出超过校准的分类阈值，则联机数据被分类为事件，其在图5的决定模块75发生。

分类阈值可以使用事件描述符训练器60和事件检测器70两者经由训练数据的“弃一法交叉验证(leaveoneoutcrossvalidating)”而通过控制器20学习。给予最小数量误报的值随后被选择为分类阈值。通过经由图1的控制信号(箭头CC)从其促动器84而来的命令动作，机器人12随后运动通过用于完成所命令之前学习的任务的必要轨迹。由此，总的任务被表示为通过参数化基元(具有如上所述的特征事件描述符)限定的运动段序列。在执行时，通过调用相关的控制基元执行初始运动段，直到通过事件分类器74检测到事件。事件必须匹配与当前段的结束对应的事件描述符。在该事件被触发时，控制器20自动地切换到下一段。

使用上述方法，图1的操作者13能在比少量示范更多地示范任务，且让机器人12从有限数量的示范中学习。如此，操作者13能为控制器20传授任务知识，而不必是机器人编程或机器人控制方面的专家。图1的系统10和相关的方法100(经由图5的逻辑模块50举例说明)可以在不能用常规的工业机器人技术执行的各种情况下实施。

尽管已经对执行本发明的较佳模式进行了详尽的描述，但是本领域技术人员可得知在所附的权利要求的范围内的用来实施本发明的许多替换设计和实施例。

Claims

1.一种用于训练机器人以自主执行机器人任务的方法，上述机器人任务需要通过机器人的末端执行器对物体施加直线力和扭矩，方法包括：

让末端执行器运动通过预定机器人任务的多个状态，以由此在n个训练示范的组中将预定机器人任务示范给机器人；

测量一组训练数据，包括在末端执行器运动通过预定机器人任务的多个状态时经由力-扭矩传感器测量至少直线力和扭矩；

经由控制器从测量的一组训练数据提取关键特征，包括将所述测量的一组训练数据分段为控制基元的时间序列以及识别时间序列的相邻段之间的转变；

在通过机器人进行的示范任务的随后自主执行期间，经由控制器检测转变；和

响应于所检测的转变，在多个不同控制模式之间自动地切换。

2.如权利要求1所述的方法，其中让末端执行器运动包括反驱动末端执行器。

3.如权利要求1所述的方法，其中让末端执行器运动包括经由用户输入装置命令末端执行器。

4.如权利要求1所述的方法，其中检测转变包括经由控制器执行评分函数，以计算联机/实时数据中的数据点代表其中一个转变的可能性。

5.一种机器人系统，包括：

机器人，具有末端执行器；

至少一个力-扭矩传感器，相对于机器人定位且可操作以测量通过末端执行器施加到物体的直线和旋转力；和

控制器，与机器人和所述至少一个力-扭矩传感器通信，且具有处理器和在其上记录了指令的存储器，所述指令用于训练机器人以自主执行机器人任务，所述机器人任务需要通过末端执行器将直线力和扭矩施加到物体，其中控制器配置为执行所述指令以使得控制器进行：

在一组n个机器人任务示范期间，记录末端执行器通过多个机器人任务状态的运动；

测量一组训练数据，包括在末端执行器运动通过多个状态时经由至少一个力-扭矩传感器测量通过机器人施加到物体的直线力和扭矩；

从测量的一组训练数据提取关键特征，包括将所述测量的一组训练数据分段为分开的控制基元的时间序列以及识别时间序列的段之间的转变；

在通过机器人进行的示范任务的随后自主执行期间检测转变；和

响应于检测的转变在多个不同控制模式之间切换。

6.如权利要求5所述的机器人系统，其中控制器配置为通过记录通过末端执行器的反驱动赋予的运动而记录末端执行器的运动。

7.如权利要求5所述的机器人系统，进一步包括用户输入装置，其编程为在所述一组n个任务示范期间命令末端执行器运动。

8.如权利要求5所述的机器人系统，其中机器人包括腕部，且其中力-扭矩传感器嵌入腕部中。

9.如权利要求5所述的机器人系统，其中控制基元包括位置控制基元、混合力控制基元、和目标力控制基元，且其中控制器被编程为检测每一个控制基元之间相应的转变。

10.如权利要求5所述的机器人系统，其中控制器通过执行评分函数而检测转变，以由此计算联机/实时数据中的数据点代表其中一个转变的可能性。