CN115771139A - 用于训练控制策略的方法 - Google Patents

用于训练控制策略的方法 Download PDF

Info

Publication number
CN115771139A
CN115771139A CN202211077498.2A CN202211077498A CN115771139A CN 115771139 A CN115771139 A CN 115771139A CN 202211077498 A CN202211077498 A CN 202211077498A CN 115771139 A CN115771139 A CN 115771139A
Authority
CN
China
Prior art keywords
control
control strategy
distribution
training
conditional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211077498.2A
Other languages
English (en)
Inventor
C-N·斯特拉勒
D·博博尔齐
J·S·布赫纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN115771139A publication Critical patent/CN115771139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40519Motion, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

用于训练控制策略的方法。根据不同的实施方式,描述一种用于训练控制策略的方法,所述方法包括获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练。

Description

用于训练控制策略的方法
技术领域
本公开涉及用于训练控制策略的方法。
背景技术
训练机器人设备(诸如机械臂,然而还有自主车辆)使得所述机器人设备即使在所述机器人设备在训练中未明确面对的状况中也能够对付的一种有效方法是模仿学习。
模仿学习的目的在于在使用包含专家演示的专家数据的情况下训练控制策略,使得所述控制策略表现得像“专家”(即专家演示源自的实例)。模仿学习的有前途的方案基于有争议的(英语:adversarial(对抗性))方法,并且在与示例和模拟器交互时显示良好的效率。但是,有争议的方法经常是不稳定的且难以优化。
模仿学习可以根据在专家数据中哪些信息可用被划分;将专家演示作为由状态和所执行的动作组成的对的序列的方法用从演示中学习(LfD)来表示。从观察中学习(LfO)描述仅状态信息、即尤其是关于相继的状态的信息在专家数据中可用的方法。
从观察中学习使得能够更简单地收集专家数据,但是在此由于专家数据中的较少信息,训练典型地更加困难。相应地用于从观察中学习的有效训练方法是值得期望的。
Jaegle A., Sulsky Y., Ahuja A., Bruce J., Fergus R., Wayne G.:Imitation by Predicting Observations. In: Proceedings of the 38thInternational Conference on Machine Learning, https://arxiv.org/pdf/2107.03851.pdf公开一种用于仅仅从观察中进行模仿的方法,所述方法在连续控制任务的情况下获得与专家可类比的性能以及即使在存在与任务无关的观察的情况下也显示稳健性。
发明内容
根据各种实施方式,提供一种用于训练控制策略的方法,所述方法包括获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练。
上面描述的方法能够实现从观察中的高效非争议学习。使得能够以高数据效率训练成功的控制策略。目标函数(或对应的损失函数)对应于两个分布之间的拒绝量度(Abweisungsmaß)(例如散度)。因此,所述目标函数是可解释的并且如果经训练的控制策略提供与所演示的控制行为(即“专家”)相同的状态过渡,则损失为零。经训练的控制策略然后像专家一样表现,并且因此拒绝量度提供客观规范:经训练的控制策略如何好。在有争议的学习情况下,这样的量度很难计算。
根据不同的实施方式,根据要训练的控制策略的轨迹分布和根据专家控制策略的轨迹分布(由专家数据演示)之间的散度的最小化被重新表述为所述最小化处于具有熵的最大化的加强学习的方法的(要最大化的)目标函数的形式。尤其是,这包含奖励项的适当表达,所述奖励项被设计为使得所述奖励项具有可以从专家数据或从控制历程(即与环境的交互)中学习概率模型所针对的项(概率)。
这种方案使得能够在使用任意具有熵的最大化的加强学习的方法的情况下训练控制策略,并且从而实现用于从观察中学习的有效训练。
在下面说明不同的实施例。
实施例1是如上面描述的一种用于训练控制策略的方法。
实施例2是根据实施例1的方法,其中所述偏差量度是在根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的Kullback-Leibler散度或在根据所演示的控制行为的状态过渡的分布和根据所述控制策略的状态过渡的分布之间的Kullback-Leibler散度。
为要优化的目标函数使用Kullback-Leibler散度使得能够使用目标函数作为具有可高效估计的奖励项的最大熵RL方法的目标函数。
实施例3是根据实施例1或2的方法,其中通过以下方式最小化所述偏差量度,即将最大熵加强学习方法应用于奖励,所述奖励与熵的共同最大化对应于最小化所述偏差量度的控制策略。
这使得能够利用存在的最大熵加强学习方法进行高效训练,所述最大熵加强学习方法可以根据应用情况适当地被选择。
实施例是根据实施例3的方法,所述方法此外包括对用于过渡分布的条件归一化流概率模型和用于逆动作分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。条件归一化流是一类归一化流,其中基本分布到所得到的分布的映射以输入(在这里例如状态)为条件,以便对条件概率进行建模。
实施例5是根据实施例4的方法,所述方法此外包括对用于根据所演示的控制行为的状态过渡的分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
条件归一化流概率模型使得能够对给定的分布进行精确近似,并且可以高效地被评估。
条件归一化流概率模型可以至少部分离线地被训练。从而可以避免如在有争议的学习时出现的稳定性问题。
实施例6是一种用于产生控制动作的方法,所述方法包括:
根据示例性实施例1至5中任一项训练控制策略并且根据经训练的控制策略产生控制动作。
实施例7是一种控制装置,所述控制装置被设立用于执行根据实施例1至6中任一项所述的方法。
实施例8是一种用于测试用于机器人设备的控制方法的方法,所述方法包括利用多个其他机器人设备模拟控制场景,其中机器人设备按照通过根据实施例6的方法确定的控制动作被控制。
模仿学习使得能够模拟机器人设备的切合实际的行为,例如如在真实交通参与者情况下的行为。从而可以在切合实际的条件下测试控制方法。
实施例9是一种测试装置,所述测试装置被设立用于执行根据实施例8所述的方法。
实施例10是一种计算机程序,所述计算机程序具有指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据实施例1至6中任一项所述的方法。
实施例11是一种计算机可读介质,所述计算机可读介质存储指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据实施例1至6中任一项所述的方法。
附图说明
在附图中,类似的附图标记通常涉及在全部不同的视图中相同的部分。附图不一定是按比例的,其中代替地通常强调描绘本发明的原理。在以下描述中,参考以下附图描述各个方面。
图1示出机器人。
图2阐明根据一种实施方式对控制策略的训练。
图3示出表示用于训练控制策略的方法的流程图。
以下详尽的描述涉及所附附图,所述附图为了阐述而示出本公开的特定细节和方面,其中可以实施本发明。可以使用其他方面,并且可以进行结构、逻辑和电气上的改变,而不偏离本发明的保护范围。本公开的各个方面不一定相互排斥,因为本公开的一些方面可以与本公开的一个或多个其他方面组合以构成新的方面。
具体实施方式
下面更详细地描述不同的示例。
图1示出机器人100。
机器人100包括用于操纵或安装工件(或一个或多个其他对象)的机械臂101、例如工业机械臂。机械臂101包括机械手102、103、104和基座(或支柱)105,通过所述基座支撑机械手102、103、104。术语“机械手”涉及机械臂101的可移动元件,所述可移动元件的操作使得能够与环境进行物理交互,例如以便执行任务。为了控制机械臂101,机器人100包括(机器人)控制装置106,所述控制装置被配置用于根据控制程序实现与环境的交互。机械手102、103、104的(离支柱105最远的)最后的元件104也被称为末端执行元件104,并且可以包含一个或多个工具、例如焊炬、抓取仪器、涂装工具等。
(较靠近基座105的)其他机械手102、103可以构成定位设备,使得机械臂101与末端执行元件104一起在其末端处被设置有末端执行元件104。机械臂101是可以(可能利用在其末端的工具)履行与人类手臂类似的功能的机械手臂。
机械臂101可以包括关节元件107、108、109,所述关节元件将机械手102、103、104相互连接并且与基座105连接。关节元件107、108、109可以具有一个或多个关节,所述关节中的每一个关节可以提供所属机械手相对于彼此的可旋转的运动(旋转运动)和/或平移运动(即移位)。可以借助于执行器来引起机械手102、103、104的运动,通过控制装置106控制所述执行器。
术语“执行器”可以被理解为以下组件,所述组件被设计用于响应于所述组件被驱动来影响机械装置或过程。执行器可以以机械运动的方式实现通过控制装置106输出的指令(所谓的激活)。执行器、例如机电转换器可以被配置用于根据其激活以响应的方式将电能转换成机械能。
术语“控制装置”可以被理解为实体实现的任何类型的逻辑,所述实体例如可以包括电路和/或能够执行存储在存储介质中的软件的处理器、固件或其组合并且可以输出指令,例如输出给在本示例中的执行器。例如,控制装置可以通过程序代码(例如软件)被配置,以便控制机器人的运行。
在本示例中,控制装置106包括一个或多个处理器110和存储器111,所述存储器存储代码和数据,所述处理器110根据所述代码和数据来控制机械臂101。根据不同的实施方式,控制装置106基于控制策略112控制机械臂101,所述控制策略存储在存储器111中。机器人100应该例如拾取对象113。例如,末端执行元件104是夹钳,并且应该拾取对象113,但是末端执行元件104也可以例如被设立用于吸入对象113来进行拾取。
在下面描述的方法不仅可以用于机械臂,而且可以用于对于不同的机器人设备进行控制,诸如行走机器人、自主车辆、机器等。
在以下实施例中,控制机器人设备的任务被建模为马尔可夫决策过程,即通过元组 (S, A, p, r)建模,其中S表示状态,A表示动作,
Figure RE-DEST_PATH_IMAGE001
表示过渡函数,
Figure RE-DEST_PATH_IMAGE002
表示(受限)奖励函数。状态空间S和动作空间A被认为是连续的。
在每个时间步t中,代理(所述代理根据控制策略行动,例如根据控制策略112行动的机器人100之一,)与环境(即受控系统,例如机器人连同其环境、例如对象113)互相作用,其方式是所述代理观察状态
Figure RE-RE-DEST_PATH_IMAGE003
并且根据该状态采取行动
Figure RE-DEST_PATH_IMAGE004
。状态(或配置)包含关于机器人设备(例如关节位置)以及其环境(诸如对象113的位姿)的信息。在状态
Figure RE-745571DEST_PATH_IMAGE003
中应用行动
Figure RE-928291DEST_PATH_IMAGE004
根据过渡函数(即过渡概率)和奖励函数导致新的状态
Figure RE-RE-DEST_PATH_IMAGE005
和奖励
Figure RE-DEST_PATH_IMAGE006
。随机控制策略
Figure RE-RE-DEST_PATH_IMAGE007
通过适配其参数θ被训练为使得所获得的奖励(在训练数据或训练批次上平均地)变得尽可能大。
在具有熵最大化的加强学习的情况下,控制策略不仅以被训练为使得增益(即跨越训练的奖励)变得尽可能大,而且(概率)分布的熵
Figure RE-DEST_PATH_IMAGE008
变得尽可能大,控制策略根据所述(概率)分布选择控制动作。这导致(要最大化的)目标函数
Figure RE-RE-DEST_PATH_IMAGE009
参数α控制最优控制策略的随机性,其方式是所述参数规定熵项与奖励相比有多重要。
在模仿学习的情况下,真正的奖励函数
Figure RE-DEST_PATH_IMAGE010
不可用于训练。而控制策略被训练为使得所述控制策略模仿在训练数据集
Figure RE-RE-DEST_PATH_IMAGE011
中显示的专家控制策略(即参考控制策略)
Figure RE-DEST_PATH_IMAGE012
的行为。
从观察中学习(LfO)是模仿学习的子领域,其中考虑专家动作是未知的情况。这意味着专家数据是以下形式的
Figure RE-RE-DEST_PATH_IMAGE013
即包含从一个状态到下一状态的多个过渡序列(即专家轨迹)。此外假设在训练过程中与环境(即受控系统,但是这为了训练也可以被模拟)交互是可能的。这意味着控制装置106例如可以控制机械臂101,并且然后可以通过传感器(例如摄像机114)确定环境(机械臂101加上对象113等)的所得出的状态。
因此,目标是训练控制策略,使得所述控制策略基于环境的行为和过渡从专家数据中学习最佳地适用于环境的相应状态的动作。
根据不同的实施方式,这通过适配概率分布来进行。使用概率模型用于以非争议的方式估计概率适配目标。特别地例如使用归一化流来根据经训练的控制策略连同专家控制策略估计状态过渡的相似性。根据不同的实施方式,此外使用前向和后向动力学模型来估计在训练时要优化的目标函数的值。
根据不同的实施方式,将如控制策略产生的轨迹
Figure RE-DEST_PATH_IMAGE014
的分布适配于如专家控制策略产生的轨迹
Figure RE-RE-DEST_PATH_IMAGE015
的分布,其中在所述分布之间的Kullback-Leibler散度(KLD)被最小化。两个轨迹分布
Figure RE-691716DEST_PATH_IMAGE014
Figure RE-149243DEST_PATH_IMAGE015
由初始状态分布
Figure RE-DEST_PATH_IMAGE016
和相应的条件状态过渡分布来定义:
Figure RE-RE-DEST_PATH_IMAGE017
这两个分布之间的Kullback-Leibler散度由
Figure RE-DEST_PATH_IMAGE018
给出,并且描述分布
Figure RE-232124DEST_PATH_IMAGE014
有多靠近分布
Figure RE-RE-DEST_PATH_IMAGE019
。通过(例如通过控制装置106)最小化Kullback-Leibler散度来实现:控制策略(例如控制策略112)产生与由专家数据组成的轨迹尽可能相似的轨迹。
控制策略
Figure RE-DEST_PATH_IMAGE020
因此应该如此被训练,即根据优化问题
Figure RE-DEST_PATH_IMAGE021
设置所述控制策略的参数集θ(例如神经网络的权重)。
在使用
Figure RE-RE-DEST_PATH_IMAGE022
的情况下改写该优化问题提供
Figure RE-DEST_PATH_IMAGE023
其中奖励通过
Figure RE-RE-DEST_PATH_IMAGE024
来定义,并且
Figure RE-DEST_PATH_IMAGE025
是逆动作分布(或环境动力学的后向分布)。
根据不同的实施方式,逆动作分布函数
Figure RE-RE-DEST_PATH_IMAGE026
的模型和过渡分布
Figure RE-DEST_PATH_IMAGE027
(或环境动力学的前向分布)模型通过在使用存储在缓冲器(重复缓冲器,英文replay buffer)中并且基于控制过程(所谓的Rollout(推出))收集的数据的情况下训练条件归一化流被确定。所述数据包含具有所属动作和奖励的轨迹,并且可以通过真实控制(例如机械臂101)产生然而也可以通过模拟控制过程产生。
条件专家状态过渡分布
Figure RE-DEST_PATH_IMAGE028
可以离线地(即在控制过程之外或之前)被学习,例如通过在由专家数据给出的由状态和后续状态组成的对上训练条件归一化流被学习。
例如如此训练的分布可以在使用根据(1)的目标函数的情况下训练控制策略在使用标准最大熵强化学习(加强学习)方法、诸如Soft Actor Critic(软演员评论家,SAC)的情况下被训练,所述目标函数可以被看作是最大熵目标函数,其中奖励(根据(2))借助于针对
Figure RE-RE-DEST_PATH_IMAGE029
Figure RE-DEST_PATH_IMAGE030
Figure RE-RE-DEST_PATH_IMAGE031
的经训练的概率模型(例如归一化流)被估计。
图2阐明根据一种实施方式对控制策略的训练(例如,由控制装置106执行)。
针对
Figure RE-DEST_PATH_IMAGE032
的概率模型202从专家数据201中被训练。
从来自重复缓冲器204的通过(必要时经模拟的)控制过程、也即通过与环境203(例如机械臂101包括其工作范围、诸如对象113)交互获得的数据中训练针对
Figure RE-RE-DEST_PATH_IMAGE033
Figure RE-DEST_PATH_IMAGE034
的概率模型205。
RL训练方法206(例如具有演员207和评论家208的训练方法)使用概率模型205(用于根据(2)估计奖励)并且确定控制策略。在此,演员207为了训练过程与环境203交互。
下面以伪代码(具有常用的英文关键字,如“for”、“do”、“end”、“range”、 “procedure”等)说明训练算法的示例。 
1: procedure SOIL-TDM(
Figure RE-RE-DEST_PATH_IMAGE035
)
2: 利用
Figure RE-DEST_PATH_IMAGE036
训练
Figure RE-RE-DEST_PATH_IMAGE037
3: for Episoden do
4: for range(T) do 产生数据
5:
Figure RE-DEST_PATH_IMAGE038
Figure RE-RE-DEST_PATH_IMAGE039
sample(
Figure RE-DEST_PATH_IMAGE040
)
6:
Figure RE-RE-DEST_PATH_IMAGE041
Figure RE-225225DEST_PATH_IMAGE039
Figure RE-DEST_PATH_IMAGE042
应用动作 (通过与环境交互或模拟)
7: 存储
Figure RE-RE-DEST_PATH_IMAGE043
Figure RE-DEST_PATH_IMAGE044
存储在重复缓冲器中
8: end for
9: for range(N) do 更新动力学模型
10:
Figure RE-RE-DEST_PATH_IMAGE045
来自重复缓冲器的样本批
11: 训练
Figure RE-DEST_PATH_IMAGE046
Figure RE-RE-DEST_PATH_IMAGE047
12: end for
13: for range(N) do SAC优化
14:
Figure RE-637400DEST_PATH_IMAGE045
15:
Figure RE-DEST_PATH_IMAGE048
Figure RE-898617DEST_PATH_IMAGE039
sample(
Figure RE-RE-DEST_PATH_IMAGE049
)
来自控制策略的样本动作
16: 利用
Figure RE-DEST_PATH_IMAGE050
(
Figure RE-RE-DEST_PATH_IMAGE051
)优化
Figure RE-629813DEST_PATH_IMAGE049
利用Q函数更新控制策略
17:
Figure RE-DEST_PATH_IMAGE052
Figure RE-623177DEST_PATH_IMAGE039
Figure RE-RE-DEST_PATH_IMAGE053
估计奖励
18: 利用
Figure RE-DEST_PATH_IMAGE054
(
Figure RE-RE-DEST_PATH_IMAGE055
优化
Figure RE-DEST_PATH_IMAGE056
更新 Q函数
19: end for
20: end for
21: end procedure
在此情况下,
Figure RE-RE-DEST_PATH_IMAGE057
Figure RE-DEST_PATH_IMAGE058
Figure RE-RE-DEST_PATH_IMAGE059
是Q函数。为了增加稳定性,使用具有参数
Figure RE-DEST_PATH_IMAGE060
的目标Q函数
Figure RE-DEST_PATH_IMAGE061
,所述目标Q函数缓慢地遵循实际Q函数。
Figure RE-DEST_PATH_IMAGE062
是与这些参数对应的值函数(英语:value function)。参数γ是折扣因子(英语:discount factor)。
总之,根据不同的实施方式,提供一种方法,如图3中所示的。
图3示出表示用于训练控制策略的方法的流程图300。
在301中,获得训练数据,所述训练数据演示控制行为,可以根据所述控制行为产生控制动作。
在302中,借助于模仿学习通过最小化根据控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用训练数据的情况下对控制策略进行训练。
在控制策略的参数值的搜索空间、例如神经网络的权重上进行最小化。
例如,通过记录演示来获得训练数据。例如,用户可以演示机械臂来执行特定任务(例如,针对不同的状况,诸如要拾取的对象的初始位置),或者对于针对自主车辆的控制策略的情况,可以使用真实车辆的记录。
图3的方法可以由具有一个或多个数据处理单元的一个或多个计算机执行。术语“数据处理单元”可以被理解为使得能够处理数据或信号的任意类型的实体。例如,可以根据由数据处理单元执行的至少一种(即一种或多于一种)特定功能来处理数据或信号。数据处理单元可以包括模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、集成可编程门阵列(FPGA)电路或其任意组合或由这些构造。用于实现在这里更详细描述的相应功能的任何其他方式也可以理解为数据处理单元或逻辑电路装置。在这里详细描述的方法步骤中的一个或多个方法步骤可以通过数据处理单元通过一个或多个特定功能来实施(例如实现),所述功能通过数据处理单元执行。
图3的方法用于为机器人设备产生控制信号。术语“机器人设备”可以被理解为涉及任何物理系统(具有机械部件,所述机械部件的运动被控制),诸如计算机控制机器、车辆、家用电器、电动工具、生产机器、个人助理或访问控制系统。学习用于物理系统的控制准则并且然后相应地控制物理系统。
例如,图3的方法可以用于其中存在专家演示作为不具有附加传感器信号的视频记录的应用。示例是在模拟中训练交通代理,以便交通代理像真实的交通参与者那样行驶,其中专家数据包含鸟瞰图中道路交通的记录。在此,例如关于车辆物理学、油门踏板和转向角的直接信息不可用。因此,必须根据有时不完整的信息来估计这些值,以便训练代理来模仿所观察的行为。因为需要估计较少的值,所以不依赖于来自该专家数据的动作的方法因此具有优点。
根据不同的实施方式,在使用先前记载的和收集的专家演示作为训练数据(例如高D数据集)的情况下训练用于控制车辆的控制策略。在此,控制策略被优化为使得所述控制策略(根据相应的状态)选择控制动作,所述控制动作导致如在专家演示中存在的状态轨迹。鉴于类似控制动作的控制策略的优化在此间接地发生:优化控制策略以产生与专家状态轨迹类似的状态轨迹。
不同的实施方式可以接收并且使用如例如视频、雷达、激光雷达、超声波、运动、热成像等之类的不同的传感器的传感器信号,例如以便获取关于系统(例如机器人和对象或对象)的演示或状态以及配置和场景的传感器数据。可以处理传感器数据。这可能包括对传感器数据进行分类或对传感器数据执行语义分割,例如以便(在获取传感器数据的环境中)探测对象的存在。实施方式可以被用于训练机器学习系统并且控制机器人、例如自主地控制机器人机械手,以便在不同的场景下实现不同的操纵任务。尤其是,实施方式可以被应用于例如在装配线中控制和监控操纵任务的实施。
尽管在这里已经示出和描述了特定实施方式,但是本领域技术人员认识到,示出的和描述的特定实施方式可以针对各种各样的可替代的和/或等效的实现被更换,而不偏离本发明的保护范围。本申请应该涵盖在这里讨论的特定实施方式的任何适配或变化。因此企图仅由权利要求和其等效物来限制本发明。

Claims (9)

1.一种用于训练控制策略的方法,所述方法包括:
获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和
借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练,
其中通过以下方式最小化所述偏差量度,即将最大熵加强学习方法应用于奖励,所述奖励与熵的共同最大化对应于最小化所述偏差量度的控制策略,
其特征在于,对用于所述过渡分布的条件归一化流概率模型以及用于逆动作分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,并且在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
2.根据权利要求1所述的方法,其特征在于,所述偏差量度是在根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的Kullback-Leibler散度或在根据所演示的控制行为的状态过渡的分布和根据所述控制策略的状态过渡的分布之间的Kullback-Leibler散度。
3.根据权利要求1所述的方法,所述方法此外包括对用于根据所演示的控制行为的状态过渡的分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
4.一种用于产生控制动作的方法,所述方法包括:
根据权利要求1至3中任一项对控制策略进行训练,并且根据经训练的控制策略产生控制动作。
5.一种控制装置,所述控制装置被设立用于执行根据权利要求1至4中任一项所述的方法。
6.一种用于测试用于机器人设备的控制方法的方法,所述方法包括:
利用多个其他机器人设备模拟控制场景,其中按照通过根据权利要求4所述的方法确定的控制动作来控制所述机器人设备。
7.一种测试装置,所述测试装置被设立用于执行根据权利要求6所述的方法。
8.一种计算机程序,所述计算机程序具有指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据权利要求1至4中任一项所述的方法。
9.一种计算机可读介质,所述计算机可读介质存储指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据权利要求1至4中任一项所述的方法。
CN202211077498.2A 2021-09-06 2022-09-05 用于训练控制策略的方法 Pending CN115771139A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021209761.8 2021-09-06
DE102021209761.8A DE102021209761A1 (de) 2021-09-06 2021-09-06 Verfahren zum Trainieren einer Steuerungsstrategie

Publications (1)

Publication Number Publication Date
CN115771139A true CN115771139A (zh) 2023-03-10

Family

ID=85226399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211077498.2A Pending CN115771139A (zh) 2021-09-06 2022-09-05 用于训练控制策略的方法

Country Status (3)

Country Link
US (1) US20230081738A1 (zh)
CN (1) CN115771139A (zh)
DE (1) DE102021209761A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3108717A1 (en) * 2020-02-06 2021-08-06 Royal Bank Of Canada Systems and methods for modeling continuous stochastic processes with dynamic normalizing flows

Also Published As

Publication number Publication date
DE102021209761A1 (de) 2023-03-09
US20230081738A1 (en) 2023-03-16

Similar Documents

Publication Publication Date Title
Nagabandi et al. Deep dynamics models for learning dexterous manipulation
Radosavovic et al. State-only imitation learning for dexterous manipulation
US20240017405A1 (en) Viewpoint invariant visual servoing of robot end effector using recurrent neural network
CN112109079B (zh) 用于机器人操控规划的方法和系统
CN113677485A (zh) 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应
US20240173854A1 (en) System and methods for pixel based model predictive control
US11759947B2 (en) Method for controlling a robot device and robot device controller
US20220161424A1 (en) Device and method for controlling a robotic device
JP7387920B2 (ja) ロボットを制御するための方法及びロボットコントローラ
JP2022061022A (ja) 力及びトルク誘導ロボット組立のための技術
Kilinc et al. Reinforcement learning for robotic manipulation using simulated locomotion demonstrations
US12042938B2 (en) Method for controlling a robotic device and robot control unit
CN115319734A (zh) 用于控制机器人设备的方法
JP2022061968A (ja) ロボット装置を制御するための装置及び方法
US20220410380A1 (en) Learning robotic skills with imitation and reinforcement at scale
JP7375587B2 (ja) 軌道生成装置、多リンクシステム、及び軌道生成方法
Gutzeit et al. The besman learning platform for automated robot skill learning
US12032343B2 (en) Control system for controlling a machine using a control agent with parallel training of the control agent
JP2023113133A (ja) ロボット装置を制御する方法
CN115771139A (zh) 用于训练控制策略的方法
JP7531733B2 (ja) 異なるドメイン内のタスク間の転送
Akbulut et al. Bimanual rope manipulation skill synthesis through context dependent correction policy learning from human demonstration
Carvalho et al. Adapting object-centric probabilistic movement primitives with residual reinforcement learning
TWI811156B (zh) 機器人的運動步態的過渡方法
Raina et al. AI-Based Modeling and Control of Robotic Systems: A Brief Tutorial

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination