CN115771139A - 用于训练控制策略的方法 - Google Patents
用于训练控制策略的方法 Download PDFInfo
- Publication number
- CN115771139A CN115771139A CN202211077498.2A CN202211077498A CN115771139A CN 115771139 A CN115771139 A CN 115771139A CN 202211077498 A CN202211077498 A CN 202211077498A CN 115771139 A CN115771139 A CN 115771139A
- Authority
- CN
- China
- Prior art keywords
- control
- control strategy
- distribution
- training
- conditional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000011217 control strategy Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 title claims abstract description 54
- 238000009826 distribution Methods 0.000 claims abstract description 39
- 230000007704 transition Effects 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 27
- 230000006399 behavior Effects 0.000 claims abstract description 17
- 230000002787 reinforcement Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 239000012636 effector Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 239000013643 reference control Substances 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40519—Motion, trajectory planning
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
用于训练控制策略的方法。根据不同的实施方式,描述一种用于训练控制策略的方法,所述方法包括获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练。
Description
技术领域
本公开涉及用于训练控制策略的方法。
背景技术
训练机器人设备(诸如机械臂,然而还有自主车辆)使得所述机器人设备即使在所述机器人设备在训练中未明确面对的状况中也能够对付的一种有效方法是模仿学习。
模仿学习的目的在于在使用包含专家演示的专家数据的情况下训练控制策略,使得所述控制策略表现得像“专家”(即专家演示源自的实例)。模仿学习的有前途的方案基于有争议的(英语:adversarial(对抗性))方法,并且在与示例和模拟器交互时显示良好的效率。但是,有争议的方法经常是不稳定的且难以优化。
模仿学习可以根据在专家数据中哪些信息可用被划分;将专家演示作为由状态和所执行的动作组成的对的序列的方法用从演示中学习(LfD)来表示。从观察中学习(LfO)描述仅状态信息、即尤其是关于相继的状态的信息在专家数据中可用的方法。
从观察中学习使得能够更简单地收集专家数据,但是在此由于专家数据中的较少信息,训练典型地更加困难。相应地用于从观察中学习的有效训练方法是值得期望的。
Jaegle A., Sulsky Y., Ahuja A., Bruce J., Fergus R., Wayne G.:Imitation by Predicting Observations. In: Proceedings of the 38thInternational Conference on Machine Learning, https://arxiv.org/pdf/2107.03851.pdf公开一种用于仅仅从观察中进行模仿的方法,所述方法在连续控制任务的情况下获得与专家可类比的性能以及即使在存在与任务无关的观察的情况下也显示稳健性。
发明内容
根据各种实施方式,提供一种用于训练控制策略的方法,所述方法包括获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练。
上面描述的方法能够实现从观察中的高效非争议学习。使得能够以高数据效率训练成功的控制策略。目标函数(或对应的损失函数)对应于两个分布之间的拒绝量度(Abweisungsmaß)(例如散度)。因此,所述目标函数是可解释的并且如果经训练的控制策略提供与所演示的控制行为(即“专家”)相同的状态过渡,则损失为零。经训练的控制策略然后像专家一样表现,并且因此拒绝量度提供客观规范:经训练的控制策略如何好。在有争议的学习情况下,这样的量度很难计算。
根据不同的实施方式,根据要训练的控制策略的轨迹分布和根据专家控制策略的轨迹分布(由专家数据演示)之间的散度的最小化被重新表述为所述最小化处于具有熵的最大化的加强学习的方法的(要最大化的)目标函数的形式。尤其是,这包含奖励项的适当表达,所述奖励项被设计为使得所述奖励项具有可以从专家数据或从控制历程(即与环境的交互)中学习概率模型所针对的项(概率)。
这种方案使得能够在使用任意具有熵的最大化的加强学习的方法的情况下训练控制策略,并且从而实现用于从观察中学习的有效训练。
在下面说明不同的实施例。
实施例1是如上面描述的一种用于训练控制策略的方法。
实施例2是根据实施例1的方法,其中所述偏差量度是在根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的Kullback-Leibler散度或在根据所演示的控制行为的状态过渡的分布和根据所述控制策略的状态过渡的分布之间的Kullback-Leibler散度。
为要优化的目标函数使用Kullback-Leibler散度使得能够使用目标函数作为具有可高效估计的奖励项的最大熵RL方法的目标函数。
实施例3是根据实施例1或2的方法,其中通过以下方式最小化所述偏差量度,即将最大熵加强学习方法应用于奖励,所述奖励与熵的共同最大化对应于最小化所述偏差量度的控制策略。
这使得能够利用存在的最大熵加强学习方法进行高效训练,所述最大熵加强学习方法可以根据应用情况适当地被选择。
实施例是根据实施例3的方法,所述方法此外包括对用于过渡分布的条件归一化流概率模型和用于逆动作分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。条件归一化流是一类归一化流,其中基本分布到所得到的分布的映射以输入(在这里例如状态)为条件,以便对条件概率进行建模。
实施例5是根据实施例4的方法,所述方法此外包括对用于根据所演示的控制行为的状态过渡的分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
条件归一化流概率模型使得能够对给定的分布进行精确近似,并且可以高效地被评估。
条件归一化流概率模型可以至少部分离线地被训练。从而可以避免如在有争议的学习时出现的稳定性问题。
实施例6是一种用于产生控制动作的方法,所述方法包括:
根据示例性实施例1至5中任一项训练控制策略并且根据经训练的控制策略产生控制动作。
实施例7是一种控制装置,所述控制装置被设立用于执行根据实施例1至6中任一项所述的方法。
实施例8是一种用于测试用于机器人设备的控制方法的方法,所述方法包括利用多个其他机器人设备模拟控制场景,其中机器人设备按照通过根据实施例6的方法确定的控制动作被控制。
模仿学习使得能够模拟机器人设备的切合实际的行为,例如如在真实交通参与者情况下的行为。从而可以在切合实际的条件下测试控制方法。
实施例9是一种测试装置,所述测试装置被设立用于执行根据实施例8所述的方法。
实施例10是一种计算机程序,所述计算机程序具有指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据实施例1至6中任一项所述的方法。
实施例11是一种计算机可读介质,所述计算机可读介质存储指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据实施例1至6中任一项所述的方法。
附图说明
在附图中,类似的附图标记通常涉及在全部不同的视图中相同的部分。附图不一定是按比例的,其中代替地通常强调描绘本发明的原理。在以下描述中,参考以下附图描述各个方面。
图1示出机器人。
图2阐明根据一种实施方式对控制策略的训练。
图3示出表示用于训练控制策略的方法的流程图。
以下详尽的描述涉及所附附图,所述附图为了阐述而示出本公开的特定细节和方面,其中可以实施本发明。可以使用其他方面,并且可以进行结构、逻辑和电气上的改变,而不偏离本发明的保护范围。本公开的各个方面不一定相互排斥,因为本公开的一些方面可以与本公开的一个或多个其他方面组合以构成新的方面。
具体实施方式
下面更详细地描述不同的示例。
图1示出机器人100。
机器人100包括用于操纵或安装工件(或一个或多个其他对象)的机械臂101、例如工业机械臂。机械臂101包括机械手102、103、104和基座(或支柱)105,通过所述基座支撑机械手102、103、104。术语“机械手”涉及机械臂101的可移动元件,所述可移动元件的操作使得能够与环境进行物理交互,例如以便执行任务。为了控制机械臂101,机器人100包括(机器人)控制装置106,所述控制装置被配置用于根据控制程序实现与环境的交互。机械手102、103、104的(离支柱105最远的)最后的元件104也被称为末端执行元件104,并且可以包含一个或多个工具、例如焊炬、抓取仪器、涂装工具等。
(较靠近基座105的)其他机械手102、103可以构成定位设备,使得机械臂101与末端执行元件104一起在其末端处被设置有末端执行元件104。机械臂101是可以(可能利用在其末端的工具)履行与人类手臂类似的功能的机械手臂。
机械臂101可以包括关节元件107、108、109,所述关节元件将机械手102、103、104相互连接并且与基座105连接。关节元件107、108、109可以具有一个或多个关节,所述关节中的每一个关节可以提供所属机械手相对于彼此的可旋转的运动(旋转运动)和/或平移运动(即移位)。可以借助于执行器来引起机械手102、103、104的运动,通过控制装置106控制所述执行器。
术语“执行器”可以被理解为以下组件,所述组件被设计用于响应于所述组件被驱动来影响机械装置或过程。执行器可以以机械运动的方式实现通过控制装置106输出的指令(所谓的激活)。执行器、例如机电转换器可以被配置用于根据其激活以响应的方式将电能转换成机械能。
术语“控制装置”可以被理解为实体实现的任何类型的逻辑,所述实体例如可以包括电路和/或能够执行存储在存储介质中的软件的处理器、固件或其组合并且可以输出指令,例如输出给在本示例中的执行器。例如,控制装置可以通过程序代码(例如软件)被配置,以便控制机器人的运行。
在本示例中,控制装置106包括一个或多个处理器110和存储器111,所述存储器存储代码和数据,所述处理器110根据所述代码和数据来控制机械臂101。根据不同的实施方式,控制装置106基于控制策略112控制机械臂101,所述控制策略存储在存储器111中。机器人100应该例如拾取对象113。例如,末端执行元件104是夹钳,并且应该拾取对象113,但是末端执行元件104也可以例如被设立用于吸入对象113来进行拾取。
在下面描述的方法不仅可以用于机械臂,而且可以用于对于不同的机器人设备进行控制,诸如行走机器人、自主车辆、机器等。
在以下实施例中,控制机器人设备的任务被建模为马尔可夫决策过程,即通过元组 (S, A, p, r)建模,其中S表示状态,A表示动作,表示过渡函数,表示(受限)奖励函数。状态空间S和动作空间A被认为是连续的。
在每个时间步t中,代理(所述代理根据控制策略行动,例如根据控制策略112行动的机器人100之一,)与环境(即受控系统,例如机器人连同其环境、例如对象113)互相作用,其方式是所述代理观察状态并且根据该状态采取行动。状态(或配置)包含关于机器人设备(例如关节位置)以及其环境(诸如对象113的位姿)的信息。在状态中应用行动根据过渡函数(即过渡概率)和奖励函数导致新的状态和奖励。随机控制策略通过适配其参数θ被训练为使得所获得的奖励(在训练数据或训练批次上平均地)变得尽可能大。
在具有熵最大化的加强学习的情况下,控制策略不仅以被训练为使得增益(即跨越训练的奖励)变得尽可能大,而且(概率)分布的熵变得尽可能大,控制策略根据所述(概率)分布选择控制动作。这导致(要最大化的)目标函数
参数α控制最优控制策略的随机性,其方式是所述参数规定熵项与奖励相比有多重要。
从观察中学习(LfO)是模仿学习的子领域,其中考虑专家动作是未知的情况。这意味着专家数据是以下形式的
即包含从一个状态到下一状态的多个过渡序列(即专家轨迹)。此外假设在训练过程中与环境(即受控系统,但是这为了训练也可以被模拟)交互是可能的。这意味着控制装置106例如可以控制机械臂101,并且然后可以通过传感器(例如摄像机114)确定环境(机械臂101加上对象113等)的所得出的状态。
因此,目标是训练控制策略,使得所述控制策略基于环境的行为和过渡从专家数据中学习最佳地适用于环境的相应状态的动作。
根据不同的实施方式,这通过适配概率分布来进行。使用概率模型用于以非争议的方式估计概率适配目标。特别地例如使用归一化流来根据经训练的控制策略连同专家控制策略估计状态过渡的相似性。根据不同的实施方式,此外使用前向和后向动力学模型来估计在训练时要优化的目标函数的值。
根据不同的实施方式,将如控制策略产生的轨迹的分布适配于如专家控制策略产生的轨迹的分布,其中在所述分布之间的Kullback-Leibler散度(KLD)被最小化。两个轨迹分布和由初始状态分布和相应的条件状态过渡分布来定义:
这两个分布之间的Kullback-Leibler散度由
设置所述控制策略的参数集θ(例如神经网络的权重)。
在使用
的情况下改写该优化问题提供
其中奖励通过
来定义,并且
是逆动作分布(或环境动力学的后向分布)。
根据不同的实施方式,逆动作分布函数的模型和过渡分布(或环境动力学的前向分布)模型通过在使用存储在缓冲器(重复缓冲器,英文replay buffer)中并且基于控制过程(所谓的Rollout(推出))收集的数据的情况下训练条件归一化流被确定。所述数据包含具有所属动作和奖励的轨迹,并且可以通过真实控制(例如机械臂101)产生然而也可以通过模拟控制过程产生。
例如如此训练的分布可以在使用根据(1)的目标函数的情况下训练控制策略在使用标准最大熵强化学习(加强学习)方法、诸如Soft Actor Critic(软演员评论家,SAC)的情况下被训练,所述目标函数可以被看作是最大熵目标函数,其中奖励(根据(2))借助于针对、和的经训练的概率模型(例如归一化流)被估计。
图2阐明根据一种实施方式对控制策略的训练(例如,由控制装置106执行)。
RL训练方法206(例如具有演员207和评论家208的训练方法)使用概率模型205(用于根据(2)估计奖励)并且确定控制策略。在此,演员207为了训练过程与环境203交互。
下面以伪代码(具有常用的英文关键字,如“for”、“do”、“end”、“range”、
“procedure”等)说明训练算法的示例。
1: | procedure SOIL-TDM() | |
2: | 利用训练 | |
3: | for Episoden do | |
4: | for range(T) do | 产生数据 |
5: | sample() | |
6: | 应用动作 (通过与环境交互或模拟) | |
7: | 存储 在 中 | 存储在重复缓冲器中 |
8: | end for | |
9: | for range(N) do | 更新动力学模型 |
10: | 来自重复缓冲器的样本批 | |
11: | 训练 和 | |
12: | end for | |
13: | for range(N) do | SAC优化 |
14: | ||
15: | sample() | 来自控制策略的样本动作 |
16: | 利用 ()优化 | 利用Q函数更新控制策略 |
17: | 估计奖励 | |
18: | 利用 (优化 | 更新 Q函数 |
19: | end for | |
20: | end for | |
21: | end procedure |
在此情况下,
是Q函数。为了增加稳定性,使用具有参数的目标Q函数,所述目标Q函数缓慢地遵循实际Q函数。是与这些参数对应的值函数(英语:value function)。参数γ是折扣因子(英语:discount factor)。
总之,根据不同的实施方式,提供一种方法,如图3中所示的。
图3示出表示用于训练控制策略的方法的流程图300。
在301中,获得训练数据,所述训练数据演示控制行为,可以根据所述控制行为产生控制动作。
在302中,借助于模仿学习通过最小化根据控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用训练数据的情况下对控制策略进行训练。
在控制策略的参数值的搜索空间、例如神经网络的权重上进行最小化。
例如,通过记录演示来获得训练数据。例如,用户可以演示机械臂来执行特定任务(例如,针对不同的状况,诸如要拾取的对象的初始位置),或者对于针对自主车辆的控制策略的情况,可以使用真实车辆的记录。
图3的方法可以由具有一个或多个数据处理单元的一个或多个计算机执行。术语“数据处理单元”可以被理解为使得能够处理数据或信号的任意类型的实体。例如,可以根据由数据处理单元执行的至少一种(即一种或多于一种)特定功能来处理数据或信号。数据处理单元可以包括模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、集成可编程门阵列(FPGA)电路或其任意组合或由这些构造。用于实现在这里更详细描述的相应功能的任何其他方式也可以理解为数据处理单元或逻辑电路装置。在这里详细描述的方法步骤中的一个或多个方法步骤可以通过数据处理单元通过一个或多个特定功能来实施(例如实现),所述功能通过数据处理单元执行。
图3的方法用于为机器人设备产生控制信号。术语“机器人设备”可以被理解为涉及任何物理系统(具有机械部件,所述机械部件的运动被控制),诸如计算机控制机器、车辆、家用电器、电动工具、生产机器、个人助理或访问控制系统。学习用于物理系统的控制准则并且然后相应地控制物理系统。
例如,图3的方法可以用于其中存在专家演示作为不具有附加传感器信号的视频记录的应用。示例是在模拟中训练交通代理,以便交通代理像真实的交通参与者那样行驶,其中专家数据包含鸟瞰图中道路交通的记录。在此,例如关于车辆物理学、油门踏板和转向角的直接信息不可用。因此,必须根据有时不完整的信息来估计这些值,以便训练代理来模仿所观察的行为。因为需要估计较少的值,所以不依赖于来自该专家数据的动作的方法因此具有优点。
根据不同的实施方式,在使用先前记载的和收集的专家演示作为训练数据(例如高D数据集)的情况下训练用于控制车辆的控制策略。在此,控制策略被优化为使得所述控制策略(根据相应的状态)选择控制动作,所述控制动作导致如在专家演示中存在的状态轨迹。鉴于类似控制动作的控制策略的优化在此间接地发生:优化控制策略以产生与专家状态轨迹类似的状态轨迹。
不同的实施方式可以接收并且使用如例如视频、雷达、激光雷达、超声波、运动、热成像等之类的不同的传感器的传感器信号,例如以便获取关于系统(例如机器人和对象或对象)的演示或状态以及配置和场景的传感器数据。可以处理传感器数据。这可能包括对传感器数据进行分类或对传感器数据执行语义分割,例如以便(在获取传感器数据的环境中)探测对象的存在。实施方式可以被用于训练机器学习系统并且控制机器人、例如自主地控制机器人机械手,以便在不同的场景下实现不同的操纵任务。尤其是,实施方式可以被应用于例如在装配线中控制和监控操纵任务的实施。
尽管在这里已经示出和描述了特定实施方式,但是本领域技术人员认识到,示出的和描述的特定实施方式可以针对各种各样的可替代的和/或等效的实现被更换,而不偏离本发明的保护范围。本申请应该涵盖在这里讨论的特定实施方式的任何适配或变化。因此企图仅由权利要求和其等效物来限制本发明。
Claims (9)
1.一种用于训练控制策略的方法,所述方法包括:
获得训练数据,所述训练数据演示控制行为,根据所述控制行为能够产生控制动作;和
借助于模仿学习通过最小化根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的偏差量度在使用所述训练数据的情况下对所述控制策略进行训练,
其中通过以下方式最小化所述偏差量度,即将最大熵加强学习方法应用于奖励,所述奖励与熵的共同最大化对应于最小化所述偏差量度的控制策略,
其特征在于,对用于所述过渡分布的条件归一化流概率模型以及用于逆动作分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,并且在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
2.根据权利要求1所述的方法,其特征在于,所述偏差量度是在根据所述控制策略的状态过渡的分布与根据所演示的控制行为的状态过渡的分布之间的Kullback-Leibler散度或在根据所演示的控制行为的状态过渡的分布和根据所述控制策略的状态过渡的分布之间的Kullback-Leibler散度。
3.根据权利要求1所述的方法,所述方法此外包括对用于根据所演示的控制行为的状态过渡的分布的条件归一化流概率模型进行训练,并且在使用经训练的条件归一化流概率模型的情况下最小化所述偏差量度,其中在使用经训练的条件归一化流概率模型的情况下估计所述奖励。
4.一种用于产生控制动作的方法,所述方法包括:
根据权利要求1至3中任一项对控制策略进行训练,并且根据经训练的控制策略产生控制动作。
5.一种控制装置,所述控制装置被设立用于执行根据权利要求1至4中任一项所述的方法。
6.一种用于测试用于机器人设备的控制方法的方法,所述方法包括:
利用多个其他机器人设备模拟控制场景,其中按照通过根据权利要求4所述的方法确定的控制动作来控制所述机器人设备。
7.一种测试装置,所述测试装置被设立用于执行根据权利要求6所述的方法。
8.一种计算机程序,所述计算机程序具有指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据权利要求1至4中任一项所述的方法。
9.一种计算机可读介质,所述计算机可读介质存储指令,在由处理器实施所述指令时,所述指令引起所述处理器执行根据权利要求1至4中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021209761.8 | 2021-09-06 | ||
DE102021209761.8A DE102021209761A1 (de) | 2021-09-06 | 2021-09-06 | Verfahren zum Trainieren einer Steuerungsstrategie |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115771139A true CN115771139A (zh) | 2023-03-10 |
Family
ID=85226399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211077498.2A Pending CN115771139A (zh) | 2021-09-06 | 2022-09-05 | 用于训练控制策略的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230081738A1 (zh) |
CN (1) | CN115771139A (zh) |
DE (1) | DE102021209761A1 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3108717A1 (en) * | 2020-02-06 | 2021-08-06 | Royal Bank Of Canada | Systems and methods for modeling continuous stochastic processes with dynamic normalizing flows |
-
2021
- 2021-09-06 DE DE102021209761.8A patent/DE102021209761A1/de active Pending
-
2022
- 2022-09-02 US US17/902,258 patent/US20230081738A1/en active Pending
- 2022-09-05 CN CN202211077498.2A patent/CN115771139A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102021209761A1 (de) | 2023-03-09 |
US20230081738A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nagabandi et al. | Deep dynamics models for learning dexterous manipulation | |
Radosavovic et al. | State-only imitation learning for dexterous manipulation | |
US20240017405A1 (en) | Viewpoint invariant visual servoing of robot end effector using recurrent neural network | |
CN112109079B (zh) | 用于机器人操控规划的方法和系统 | |
CN113677485A (zh) | 使用基于元模仿学习和元强化学习的元学习的用于新任务的机器人控制策略的高效自适应 | |
US20240173854A1 (en) | System and methods for pixel based model predictive control | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
US20220161424A1 (en) | Device and method for controlling a robotic device | |
JP7387920B2 (ja) | ロボットを制御するための方法及びロボットコントローラ | |
JP2022061022A (ja) | 力及びトルク誘導ロボット組立のための技術 | |
Kilinc et al. | Reinforcement learning for robotic manipulation using simulated locomotion demonstrations | |
US12042938B2 (en) | Method for controlling a robotic device and robot control unit | |
CN115319734A (zh) | 用于控制机器人设备的方法 | |
JP2022061968A (ja) | ロボット装置を制御するための装置及び方法 | |
US20220410380A1 (en) | Learning robotic skills with imitation and reinforcement at scale | |
JP7375587B2 (ja) | 軌道生成装置、多リンクシステム、及び軌道生成方法 | |
Gutzeit et al. | The besman learning platform for automated robot skill learning | |
US12032343B2 (en) | Control system for controlling a machine using a control agent with parallel training of the control agent | |
JP2023113133A (ja) | ロボット装置を制御する方法 | |
CN115771139A (zh) | 用于训练控制策略的方法 | |
JP7531733B2 (ja) | 異なるドメイン内のタスク間の転送 | |
Akbulut et al. | Bimanual rope manipulation skill synthesis through context dependent correction policy learning from human demonstration | |
Carvalho et al. | Adapting object-centric probabilistic movement primitives with residual reinforcement learning | |
TWI811156B (zh) | 機器人的運動步態的過渡方法 | |
Raina et al. | AI-Based Modeling and Control of Robotic Systems: A Brief Tutorial |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |