CN117260701A

CN117260701A - 训练机器学习模型以实现控制规则的方法

Info

Publication number: CN117260701A
Application number: CN202310744899.7A
Authority: CN
Inventors: F·奥图; G·纽曼; A·V·吴; H·齐舍
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-06-22
Filing date: 2023-06-21
Publication date: 2023-12-22
Also published as: JP2024001878A; DE102022206273A1

Abstract

本发明描述了一种用于训练机器学习模型以实现控制规则的方法，具有：针对多个控制运行中的每一个，向所述机器学习模型输送指定相应控制场景的输入数据，其中所述机器学习模型响应于所输送的输入数据输出指定轨迹参数值的概率分布的输出数据，从所述概率分布中采样轨迹参数值，根据所述轨迹参数值确定轨迹并且评估所述轨迹和适配所述机器学习模型，使得采样从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到提高。

Description

训练机器学习模型以实现控制规则的方法

技术领域

本公开涉及用于训练机器学习模型以实现控制规则的方法。

背景技术

在强化学习(Reinforcement Learning，RL)中，代理(例如机器人)学习仅仅通过与其环境的交互来最佳地处理。因此，为了发现奖励行为，代理必须有效地侦察(探索)其环境。可以从基于轨迹和步骤的角度来观察RL问题。在基于轨迹的方案中，例如机器人臂所遵循的轨迹在整个情节(即控制运行)期间被视为一个整体，并且探索也在轨迹层面进行。在基于步骤的方案中，轨迹的每个中间状态都被单独观察，并且因此探索仅基于该中间状态。

基于步骤的方案受到马尔可夫假设的限制，并且不能用于在具有非马尔可夫奖励的环境中的训练，所述非马尔可夫奖励通常被简单得多地定义。相反，基于轨迹的方案的缺点是基于轨迹的方案在其复杂性方面通常受到限制，并且不是为状态变化等而设计的。

希望组合基于步骤的方案和基于轨迹的方案的优点或避免它们各自的缺点的措施。

发明内容

根据各种实施方式，提供了一种用于训练机器学习模型以实现控制规则的方法，具有：针对多个控制运行中的每一个，向所述机器学习模型输送指定相应控制场景的输入数据，其中所述机器学习模型响应于所输送的输入数据输出指定轨迹参数值的概率分布的输出数据，从所述概率分布中采样轨迹参数值，根据所述轨迹参数值确定轨迹并且评估所述轨迹和适配所述机器学习模型，使得采样从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到提高。

上述方法使得可以使用基于轨迹的探索和基于轨迹的行为，从而导致比基于步骤的方案更均匀的性能。总的来说，这导致更节能的策略，并且行为远比基于步骤的方案更接近于最佳控制解决方案。上述方法使得可以使用高度非线性的上下文信息。同时，探索不依赖于不相关的基于步骤的预测。根据各种实施方式，实现了最佳控制的优点与强化学习的组合、通过轨迹优化得到的改进的稳定性和节能的控制、改进的渐近性能以及更强相关的探索。

下面说明各种实施例。

实施例1是一种用于训练机器学习模型以实现控制规则的方法，如上所述。

实施例2是根据实施例1的方法，其中所述轨迹参数值是轨迹基函数的权重，并且通过根据权重组合所述轨迹基函数来确定所述轨迹。

使用基函数来实现轨迹的运动基元提供了可能轨迹的大空间的有效参数化。为此的示例是DMP(Dynamic Movement Primitives，动态运动基元)和ProMP(ProbabilisticMovement Primitives，概率运动基元)。

实施例3是根据实施例1或2的方法，其中所述轨迹的评估具有控制机器人设备遵循所述轨迹并且评估由此产生的控制结果。

因此执行多个控制运行，并且分别评估控制结果，例如是否实现了目标(或实现目标的良好程度)、消耗了多少能量等。由此将(控制)环境(包括机器人设备本身的行为)的反应一并包含到运动中，并且因此训练了控制规则，使得所述控制规则在实际使用中达到良好的结果。

实施例4是根据实施例1至3中任一项的方法，其中借助于调节器控制所述机器人设备遵循所述轨迹，并且所述调节器与所述机器学习模型一起被适配为使得采样从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到提高。

通过例如一起训练PD调节器(或其他调节器)的参数，可以提高采样效率。

实施例5是根据实施例1至4中任一项的方法，其中所述机器学习模型为神经网络。

这使得可以使用任何深度RL方法来基于所评估的轨迹进行训练。

实施例6是一种控制方法，具有根据实施例1至5中任一项训练机器学习模型，并根据经过训练的机器学习模型针对指定预给定控制场景的输入数据输出的输出数据，针对所述预给定控制场景来控制机器人设备。

实施例7是一种具有指令的计算机程序，当所述指令由处理器执行时，所述指令引起所述处理器执行根据实施例1-6中任一项的方法。

实施例8是一种存储指令的计算机可读介质，当所述指令由处理器执行时，所述指令引起所述处理器执行根据实施例1-6中任一项的方法。

附图说明

在附图中，类似的附图标记通常涉及在完全不同视图中的相同部分。附图不一定按比例绘制，而是通常将重点放在显示本发明的原理上。在以下描述中，参考以下附图描述各个方面。

图1示出了机器人。

图2说明了根据一种实施方式的强化学习。

图3示出了表示根据一种实施方式的用于训练机器学习模型以实现控制规则的方法的流程图。

以下详细描述涉及附图，所述附图为了解释示出了本公开的可以执行本发明的具体细节和方面。在不脱离本发明的范围的情况下，可以使用其他方面并且可以进行结构的、逻辑的和电气的更改。本公开的各个方面不一定相互排斥，因为本公开的一些方面可以与本公开的一个或多个其他方面组合以形成新的方面。

具体实施方式

下面更详细地描述各种示例。

图1示出了机器人100。

机器人100包括用于操作或组装工件(或一个或多个其他对象)的机器人臂101，例如工业机器人臂。机器人臂101包括操纵器102、103、104和支撑操纵器102、103、104的基座(或支撑件)105。术语“操纵器”涉及机器人臂101的可运动元件，这些可运动元件的致动使得能够与环境进行物理交互，以例如执行任务。为了进行控制，机器人100包括(机器人)控制装置106，该控制装置被设置为根据控制程序实现与环境的交互。操纵器102、103、104的最后一个元件104(离支撑件105最远)也称为末端执行器104，并且可以包括一个或多个工具，例如焊枪、夹具、涂漆工具等。

其他操纵器102、103(更靠近支撑件105)可以形成定位设备，使得与末端执行器104一起，机器人臂101在其端部设置有末端执行器104。机器人臂101是可以满足类似于人臂(可能在其端部带有工具)的功能的机械臂。

机器人臂101可以包括关节元件107、108、109，这些关节元件将操纵器102、103、104彼此连接并与支撑件105连接。关节元件107、108、109可以具有一个或多个关节，每个关节可以提供相关联的操纵器相对于彼此的可旋转运动(即旋转运动)和/或平移运动(即平移)。操纵器102、103、104的运动可以借助于由控制装置106控制的致动器启动。

术语“致动器”可以理解为被设计为响应于受到驱动而影响机制或过程的组件。致动器可以将由控制装置106输出的指令(所谓的激活)实现为机械运动。致动器(例如机电转换器)可以配置为响应于其激活将电能转换为机械能。

术语“控制装置”可以理解为实现实体的任何类型的逻辑，所述逻辑例如可以包括电路和/或处理器、固件或其组合，所述处理器能够执行存储在存储介质中的软件，并且所述逻辑可以输出指令，例如输出到本示例中的致动器。控制装置可以例如通过程序代码(例如，软件)被配置为控制机器人设备的运行。

在本示例中，控制装置106包括一个或多个处理器110和存储代码和数据的存储器111，处理器110基于这些代码和数据来控制机器人臂101。根据各种实施方式，控制装置106基于存储在存储器111中并实现控制规则(英语：policy)的机器学习模型112来控制机器人臂101。机器人100应当例如操纵对象113。

在任何时间点，由机器人臂101和待操纵的对象113或一个或多个(例如不同类型和形状的)另外的对象114构成的整个系统具有关于位置、定向、末端执行器状态(夹持器打开/关闭)等的特定状态st，其中t从开始时间点t＝1至结束时间点t＝T。系统、机器人或对象的这种状态也称为(控制)配置。该控制配置的至少一部分例如借助于相机115(或者也由机器人上的传感器)检测，使得控制装置具有关于整个系统的当前状态的信息。

由例如机器人臂101执行的操纵任务由一系列动作α_t组成，即每个控制时间点一个动作。

根据各种实施方式，强化学习(例如深度RL，即基于被训练的神经网络的强化学习)与基于轨迹的方案(可以被视为基于轨迹的规划)组合。与典型的基于步骤的方案不同，在基于步骤的方案中控制策略在状态s_t中直接输出待执行动作α_t，根据各种实施方式由控制规则提供运动基元(即显然是参数化轨迹)的参数值。然后将这些参数值转换为轨迹(即位置和速度的变化过程，例如末端执行器104的位置和速度的变化过程)并使用(经典)调节器(例如PD调节器或类似的调节器)转换为由机器人执行的一系列动作α_t。

为了根据参数(在下文中是权重w)来表示轨迹，例如可以使用DMP(动态运动基元)或ProMP。

DMP是具有非线性干扰函数f的二阶线性动态系统：

其中y＝y(t)，代表该动态系统的位置、速度和加速度，α和β是正弹簧阻尼常数，g是目标吸引子，并且τ是影响执行速度的时间常数。干扰函数本身通过指数递减的相位变量/>定义：

其中是基函数，并且w是具有针对每个基函数的权重w_i的权重向量。由于相位项x，干扰函数渐近地接近0。因此，针对t→∞的系统动力学由稳定的目标吸引子主导。权重w_i的轨迹是通过对动态系统进行积分来获得的。

在ProMP的情况下，权重向量w的运动基元提供轨迹分布(可以从该分布中采样或者该分布的平均值例如可以用作轨迹)。这允许检测轨迹分量之间随时间的相关性。与DMP不同，ProMP直接对轨迹进行建模。在给定权重向量w情况下轨迹(具有一个自由度)的概率可以表达为线性基函数模型：

其中是白噪声，并且Φ_t表示基函数(使用(2)中使用的书写方式)。与DMP一样，这些基函数可以通过相位信号而不是通过时间来定义。

通过将概率运算符应用于p(w)，例如制约，ProMP提供了用于操纵轨迹的灵活的可能性，例如以直通连接点、组合和叠加为制约。此外，通过对w进行采样并借助于基函数投影到轨迹空间中，可以轻松获得不同的样本轨迹。然而，由于ProMP典型地在参数空间w中使用高斯分布，因此将制约操作限制于线性关系。在教导关节空间中的轨迹时，可以以达到期望的关节位置为制约，但要以达到期望的末端执行器状态或甚至更高维度的传感器输入(例如图像)为制约并不简单。

根据各种实施方式，深度RL的优点与运动基元的优点相组合。这提供了深度RL方案的灵活性和泛化性以及基于轨迹的方案的平滑性和稳定性。此外，在根据各种实施方式的方案中，不需要MDP(马尔可夫决策过程)并且探索比深度RL方案中的逐步探索更强相关。

图2说明了根据一个实施方式的强化学习。

在强化学习时，即在例如由控制装置106但也可以由分离的训练设备特别是也基于模拟来执行的训练时，学习由机器学习模型201(这里是神经网络)代表的控制规则π_θ(w|c)，机器学习模型201例如对应于机器学习模型112。在此情况下，控制规则的参数是机器学习模型201的对应参数，例如神经网络的权重，在训练机器学习模型201时适配所述对应参数。控制规则的输出是运动基元的参数值的概率分布(例如平均值(向量)和协方差矩阵)的说明，所述参数值在这里即权重向量w。神经网络201的输入是上下文信息c，例如控制场景的起始配置、对象的目标位置等。对于每个控制运行(即迭代、推广或情节)，在202中从概率分布对权重向量w采样(以用于探索)。在203中根

据该权重向量产生相关联的轨迹Ψ(ω)(例如，位置和相关联速度的期望序列)。对于DMP，这是根据(2)进行的，而对于ProMP，这是根据(3)进行的，其中在ProMP的情况下可以在此时再采样一次或从(3)中获取轨迹分布的平均值。使用调节器(例如PD调节器)，将产生的轨迹映射为基于步骤的动作，即对于每个控制时间点在考虑相应的当前状态s_t的情况下映射为基于步骤的动作α_t，该动作被执行并通过与环境的交互提供新状态s_t+1。因此，针对相应控制场景的初始上下文c，权重向量的采样隐含地提供了一系列动作。

与基于步骤的方案不同，这种方案对每个轨迹仅产生一个样本(c，ω，R)(其中是整个奖励或轨迹的其他评估)。每个这样的样本对应于一个完整的情节，并且被添加到再现(英语：Replay)缓冲区并用于训练。

可以借助于任何深度RL方法进行该训练。然而，在此应当注意的是，使用Q函数的RL方法可能具有较差的训练行为，因为Q函数获得运动基元的(任意大的)参数化作为输入。因此根据一种实施方式，例如使用TRL(信任区域层)方法作为稳定且数学上正确的on-policy方法。这包括例如使用样本(c，ω，R)批次来更新V函数和机器学习模型201，其中适配机器学习模型201，使得具有更高评估R的样本变得概率更大。

为了提高采样效率，可以使用可微分调节器204并作为控制规则的一部分。

总之，根据各种实施方式提供了如图3中所示的方法。

图3示出了表示根据一种实施方式的用于训练机器学习模型以实现控制规则的方法的流程图300。

在301中，对多个控制运行中的每个控制运行

·在302中，将指定相应控制场景的输入数据输送给机器学习模型，其中该机器学习模型响应于所输送的输入数据输出指定轨迹参数值的概率分布的输出数据，

·在303中，从概率分布中采样(即“抽取”)轨迹参数值。

·在304中，根据轨迹参数值确定轨迹(例如根据(2)或(3))，以及

·在305中，评估该轨迹(例如基于奖励等)。

在306中，适配机器学习模型，使得(针对相应的控制场景)采样(在控制运行中)从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到了提高。例如，适配神经网络的权重，使得由神经网络输出(针对相应的控制场景)指定的概率分布的平均值朝着以下轨迹参数值的方向平移，所述轨迹参数值(针对所述控制场景)已经提供了一个或多个具有良好评估的轨迹(例如类似于协方差矩阵)。

根据各种实施方式，轨迹包含多个时间步骤上的控制动作。如果对轨迹参数值进行采样，则意味着对于多个时间步骤中的每一个都从中得出了控制动作。因此，采样(所述采样在机器人设备达到执行所述控制动作的状态之前执行)确定已设定了在不同时间步骤中执行的控制动作(即使这些控制动作事先尚不完全已知，因为例如出现了由相应调节器考虑的干扰)。因此，轨迹参数值的采样设定了所有后续(多个)时间步骤的控制动作(必要时像在ProMP中那样与来自轨迹分布的样本组合)。例如，所述概率分布是所有轨迹参数值的共同概率分布，即例如多维概率分布。

图3的方法可以由具有一个或多个数据处理单元的一个或多个计算机执行。术语“数据处理单元”可以理解为使得能够处理数据或信号的任何类型的实体。所述数据或信号例如可以根据由数据处理单元执行的至少一个(即一个或多于一个)具体功能来处理。数据处理单元可以包括模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央处理器(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)的集成电路或它们的任何组合或由模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央处理器(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)的集成电路或它们的任何组合形成。实现本文更详细描述的相应功能的任何其他方式也可以理解为数据处理单元或逻辑电路装置。这里详细描述的一个或多个方法步骤可以由数据处理单元通过由所述数据处理单元执行的一个或多个具体功能来执行(例如，实现)。

图3的措施用于为机器人设备产生控制信号。术语“机器人设备”可以理解为指代任何技术系统(具有运动受到控制的机械部件)，例如计算机控制的机器、车辆、家用电器、电动工具、制造机器、个人助理或访问控制系统。学习用于所述技术系统的控制规则，然后对应地控制所述技术系统。为此(由控制规则和另外的组件，例如上面示例中的调节器)产生一个或多个连续值，例如距离、速度和加速度。从这个意义上来说执行了回归。

各种实施方式可以接收来自各种传感器的传感器信号，例如视频、雷达、LiDAR、超声、运动、热成像等，并例如用于获得关于场景和系统(机器人和一个或多个对象)的状态的传感器数据。实施方式可以用于训练机器学习系统和控制机器人，例如自主地控制机器人操纵器，以完成不同场景下的不同操纵任务。特别地，实施方式可应用于控制和监视操纵任务的执行，例如在组装线上。

尽管这里已经示出和描述了具体实施方式，但是本领域技术人员认识到，在不脱离本发明的范围的情况下，所示出和描述的具体实施方式可以更换为各种替代和/或等效的实现方案。本申请应当涵盖这里所讨论的具体实施方式的任何适配或变化。因此，本发明旨在仅由权利要求及其等同物来限制。

Claims

1.一种用于训练机器学习模型以实现控制规则的方法，具有：

针对多个控制运行中的每一个，

向所述机器学习模型输送指定相应控制场景的输入数据，其中所述机器学习模型响应于所输送的输入数据输出指定轨迹参数值的概率分布的输出数据，

从所述概率分布中采样轨迹参数值，

根据所述轨迹参数值确定轨迹，以及

评估所述轨迹；以及

适配所述机器学习模型，使得采样从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到提高。

2.根据权利要求1所述的方法，其中所述轨迹参数值是轨迹基函数的权重，并且通过根据权重组合所述轨迹基函数来确定所述轨迹。

3.根据权利要求1或2所述的方法，其中所述轨迹的评估具有控制机器人设备遵循所述轨迹并且评估由此产生的控制结果。

4.根据权利要求1至3中任一项所述的方法，其中借助于调节器控制所述机器人设备遵循所述轨迹，并且所述调节器与所述机器学习模型一起被适配为使得采样从中确定了具有较高评估的轨迹的轨迹参数值的概率相对于采样从中确定了具有较低评估的轨迹的轨迹参数值的概率得到提高。

5.根据权利要求1至4中任一项所述的方法，其中所述机器学习模型是神经网络。

6.一种控制方法，具有根据权利要求1至5中任一项来训练机器学习模型，并根据经过训练的机器学习模型针对指定预给定控制场景的输入数据而输出的输出数据，针对所述预给定控制场景来控制机器人设备。

7.一种计算机程序，具有指令，当所述指令由处理器执行时，所述指令引起所述处理器执行根据权利要求1至6中任一项所述的方法。

8.一种存储指令的计算机可读介质，在所述指令由处理器执行时，所述指令引起所述处理器执行根据权利要求1至6中任一项所述的方法。