CN113168553A - 机器人移动设备及相关方法 - Google Patents
机器人移动设备及相关方法 Download PDFInfo
- Publication number
- CN113168553A CN113168553A CN201880096962.8A CN201880096962A CN113168553A CN 113168553 A CN113168553 A CN 113168553A CN 201880096962 A CN201880096962 A CN 201880096962A CN 113168553 A CN113168553 A CN 113168553A
- Authority
- CN
- China
- Prior art keywords
- sequence
- loss function
- robot
- movement
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/1653—Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Manipulator (AREA)
Abstract
公开了用于机器人移动的设备、系统、制造产品和方法。示例机器人移动设备包括生成上下文变量向量和策略变量向量的序列的序列生成器。上下文变量向量与移动目标相关,以及策略变量向量与移动轨迹相关。示例设备包括基于该序列来计算上层策略和损失函数的计算器。上层策略指示机器人移动,以及损失函数指示满足移动目标的程度。示例设备还包括确定损失函数是否满足阈值的比较器以及当损失函数满足阈值时使机器人执行上层策略的机器人移动的致动器。
Description
技术领域
本公开一般涉及机器人,以及更特别涉及机器人移动设备及相关方法。
背景技术
机器人可被编程为实行某些移动。另外,人工神经网络用来实现机器人移动,而无需机器人被编程用于机器人移动。
附图说明
图1是按照本公开的教导,实行机器人移动的示例系统的框图,该示例系统包括示例机器学习上下文策略搜索器。
图2是图1的示例机器学习上下文策略搜索器的框图。
图3是表示机器或计算机可读指令的流程图,所述指令可被执行,以实现图1的示例系统以及图1和图2的示例机器学习上下文策略搜索器。
图4是图2的示例模型训练器的示例操作的示意图。
图5是图2的示例模型推导器的示例操作的示意图。
图6是示例处理平台的框图,该示例处理平台被构造成执行图3的指令,以实现图1的示例系统以及图1和图2的示例机器学习上下文策略搜索器。
附图不按比例绘制。另外,一般来说,相同附图标记在(一个或多个)附图和所附书面描述中将通篇用来指相同或相似部件。
具体实施方式
包括机器人导航的机器人移动对于机器人实行特定任务的利用是重要的。在机器人遭遇变化天气、多样地形和/或包括例如冲突检测和避免和/或功能性的丢失(例如机器人丢失腿的全程运动并且需要继续行走)的非预计或变化状况的环境中,机器人移动的适应性是有用的。另外,在一些示例中,在机器人要学习新技能、动作或任务的情况下,适配机器人移动是有益的。
机器人移动的适应性能够通过机器学习来实现。机器学习给予计算机系统在没有显式编程的情况下逐渐改进性能的能力。示例机器学习方法是元学习,其中对元数据应用自动学习算法。另一种示例机器学习方法是深度学习,所述深度学习使用深度神经网络或循环神经网络以基于数据表示而不是任务特定的算法来增强计算机系统的性能。
另外的示例是强化学习,所述强化学习涉及机器人或其他计算机系统代理应该如何在环境中采取动作,以便使长期回报的某个概念最大化。强化学习算法尝试查找策略,该策略将世界的状态映射到机器人在那些状态应该采取的动作。因此,基于环境条件和/或机器人的条件或特性,策略提供将要由机器人所实行或执行的动作的参数。利用强化学习,机器人与其环境进行交互,并且接收采取回报形式的反馈。机器人的效用通过回报函数来定义,以及机器人学习行动,以便使预计回报最大化。机器或强化学习基于结果的所观察样本。强化学习与监督学习的不同之处在于,不呈现正确输入/输出对,也不显式校正未达最佳的动作。
强化学习可包括基于步长(step-based)的策略搜索或者基于情节(episode-based)的策略搜索。基于步长的策略搜索在学习过程的每个时间步长中使用探索动作。基于情节的策略搜索在学习过程中的情节的开始改变策略的参数向量。
作为机器人强化学习的解决方案,基于情节的策略搜索通过尝试来改进机器人的技能参数。这种方法的核心挑战之一是以高样本效率来生成上下文策略。贝叶斯(Bayesian)优化是上下文策略搜索的样本有效方法,但是贝叶斯优化具有计算负担(其是样本数量的立方)的缺点。另一种示例方法是上下文协方差矩阵自适应演化策略,其使用协方差矩阵自适应演化策略来查找最佳参数。上下文协方差矩阵自适应演化策略具有比贝叶斯优化上下文策略搜索要低得多的样本效率。
本文所公开的示例确保上下文策略搜索的样本效率,所述上下文策略搜索具有对样本数量的线性时间成本。本文所公开的示例还具有样本效率以及计算效率两者。在机器人活动仿真情节能够花费大约每情节0.1秒至大约1秒的情况下,这些效率是重要的,以及学习过程可包括众多尝试(例如数百至数百万)。
本文所公开的示例包括训练过程和推导过程。示例训练过程涉及成本函数,该成本函数使取样过程同时实现样本的高值和样本的加权回归两者。样本经过加权回归,以生成上层策略(upper policy),该上层策略通过参数化函数来表示。如本文所公开,上层策略与理想上层策略的距离用作机器学习过程中的成本考虑因素的部分。
在示例推导过程中,被训练的长短期记忆(LSTM)模型用来在上下文策略搜索过程中进行取样。推导过程还使用样本通过加权回归来生成上层策略。LSTM是一种类型的循环神经网络(RNN)。RNN是具有网络中的环路的网络,从而允许信息持续,使得例如先前信息能够由机器人用于当前任务。环路采取神经网络的重复模块链的形式。在一些RNN中,重复模块将具有简单结构,诸如例如单tanh层。LSTM还具有链状结构,但是重复模块具有更复杂的结构。替代具有单个神经网络层,LSTM包括多个(例如四个)交互神经网络层。
图1是实行机器人移动的示例系统100的框图。示例系统100包括示例机器人102,该示例机器人102包括示例机器学习上下文策略搜索器104、(一个或多个)示例传感器106和(一个或多个)示例致动器108。
机器人102的(一个或多个)传感器106接收输入110。输入110能够是与环境有关的信息,包括例如天气信息、地形信息、与其他机器人有关的信息和/或可用来评估机器人周围环境的状态的其他信息。另外,输入110可以是所得到的与机器人102的内部机能有关的信息或者与机器人102有关的其他信息,包括例如与机器人的系统中的任一个系统的物理和/或处理功能和/或能力有关的信息。
输入110由机器学习上下文策略搜索器104用来基于上下文(例如预期输出)来确定策略。策略基于输入110和上下文来识别将要由机器人102所采取的动作。机器人102的(一个或多个)致动器108用来按照策略所识别的动作来输送输出112。
考虑例如机器人102持有球并且控制机器人102将球抛到目标位置。在这里,目标位置是上下文。不同轨迹将被生成,以按照不同目标位置或者不同上下文来控制机器人手臂或者其他致动器108。生成轨迹的参数称作策略参数或策略。在这个示例中,由机器学习上下文策略搜索器104自动生成策略。
为了促进为机器人102添加新技能,与上下文相关的回报函数由机器学习联络策略搜索器104来定义,以判断机器人102是否将活动做好。机器人102执行多次尝试,以便在仿真中、在现实中和/或联合地在仿真和现实中改进上下文策略搜索。在这个过程期间,学习上层策略,该上层策略是从上下文到机器人关节轨迹参数的投影。这个学习过程通过优化过程进行,以改进回报函数。
图2是图1的示例机器学习上下文策略搜索器104的框图。示例机器学习上下文策略搜索器104包括示例模型训练器202和示例模型推导器204。示例模型训练器202包括示例高斯(Gaussian)过程样本生成器206、示例上下文训练样本生成器208、示例序列生成器210、示例向量输入212、示例计算器(例如示例损失函数计算器214)和示例比较器216、示例数据库218以及示例序列增加器220。示例模型推导器204包括示例序列输入222、示例系数输入224、以及示例策略计算器226、以及示例数据库228。
示例机器学习上下文策略搜索器104及其组件形成基于上下文策略来移动机器人102的设备的部分。机器学习上下文策略搜索器104在两个部分中进行操作:利用模型训练器202所执行的训练部分以及利用模型推导器204所执行的推导部分。在这个示例中,在训练部分,训练LSTM模型。在其他示例中,可存在除了LSTM之外的其他RNN,包括例如可微神经计算机(DNC)。又在这个示例中,在推导部分,LSTM用来对新上下文策略搜索任务进行取样,以及上层策略按照样本序列来生成。使用上层策略,机器人102能够具有按照任务的任何上下文来获得不定策略(fitful policy)的能力。
在示例训练过程中,高斯过程样本生成器206生成高斯过程样本。例如,高斯过程样本生成器206生成高斯过程样本:
高斯过程是未知随机过程的描述,所述未知随机过程仅假定每个时间点的随机分布是高斯分布,并且每两个时间点分布之间的协方差仅与两个时间点的时间差相关。高斯分布按照中心极限定理(Central Limit theorem)来描述未知点分布。
上下文训练样本生成器208生成上下文训练样本。例如,上下文训练样本生成器208生成上下文训练样本:
序列生成器210生成上下文变量向量和策略变量向量的序列。例如,序列生成器210生成和的序列。例如,当给出LSTM参数时,取样过程能够生成和的序列。上下文变量向量与移动目标或靶相关,以及策略变量向量与移动轨迹相关。序列基于高斯过程样本和上下文训练样本。例如,可生成N1个高斯过程样本,并且对高斯过程样本的每个生成N2个上下文样本。每个上下文样本是多项式函数。在这个示例中,所生成序列用于这些N1×N2个样本的子集。系统和方法优化的目标是确保对N1×N2个样本的全部或大多数的取样过程收敛。另外,在一些示例中,在线生成高斯过程样本和上下文样本,这还可增加在线样本的RNN中的模型的得分。
示例模型训练器202还包括示例损失函数计算器214,所述损失函数计算器214将基于序列来计算上层策略和损失函数。上层策略指示机器人移动,以及损失函数指示满足移动目标或靶的程度。在一些示例中,损失函数计算器214计算损失函数:
损失函数由两个部分组成:第一部分,其鼓励取样更优值点:
(称作BVP);以及第二部分,其鼓励生成更优上层策略的取样:
(称作BUP)。
损失函数计算器将BVP计算为:
损失函数计算器将BUP计算为:
例如:
在这里:
在一些示例中,能够是任意——上下文的维度特征函数。另外,在一些示例中,被选择为对上下文的线性概括,而其他示例可具有其他概括。另外,在一些示例中,BUP()也能够是矩阵距离的其他形式。另外,在一些示例中,损失函数也能够是函数的其他形式,其具有作为输入的和。
在一些示例中,LSTM网络能够被训练成减少来自数据的损失函数。例如,模型训练器202包括比较器216,以确定损失函数是否满足阈值。如果损失函数不满足阈值,则序列增加器220将使t的值增加,以及模型训练器202再次遍历仿真,其具有更新的序列生成、BVP、BUP以及损失函数计算等。例如,对于新任务,RNN生成s_t和x_t,环境返回y_t,以及RNN然后生成s_(t+1)和x_(t+1)。该过程将继续进行。
如果比较器216确定损失函数确实满足阈值,则机器学习上下文策略搜索器104考虑所训练的模型,以及RNN的系数被设置为利用模型训练器202的操作在训练阶段期间所计算的那些系数。在一些示例中,系数称作模型。模型训练器202能够在数据库218中存储系数、模型、样本和/或与训练过程相关的其他数据,以供后续操作中的访问。利用所训练的模型,机器学习上下文策略搜索器104触发模型推导器204的操作。
在推导阶段中,模型推导器204经由序列输入222来输入或访问为新任务所生成的序列。例如,样本序列:
模型推导器204还经由系数输入224来输入或访问系数(被训练模型)。
模型推导器204进一步包括策略计算器226,所述策略计算器226计算上层策略。例如,策略计算器226通过下式来确定上层策略:
利用在损失函数满足阈值后训练模型之后所确定的策略,如上所详述,机器学习上下文策略搜索器104能够向致动器108发信号,以便使机器人102执行上层策略的机器人移动。所计算的上层策略、策略和/或与推导过程相关的其他数据能够由模型推导器204来存储,以供后续操作的访问。在这些示例中,通过(一个或多个)致动器108按照该策略所实行的机器人移动在序列生成器210生成该序列之后首先由机器人102来执行,以及机器学习上下文策略搜索器104按照前述教导来操作。
由上下文训练样本生成器208所使用的所选上下文具有与现实世界中将要由机器人102所采取的实际动作相同的范围。因为任何上层策略能够通过多项式函数来近似计算,所以随机生成的上层策略(上下文样本)的训练能够确保被训练结果近似最佳上层策略,所述被训练结果是机器人102所采取的移动。
虽然图2中示出实现图1的机器学习上下文策略搜索器104的示例方式,但是图2所示的元件、过程和/或装置中的一个或多个可以相组合、划分、重新布置、省略、消除和/或按照任何其他方式来实现。此外,示例模型训练器202、示例模型推导器204、示例高斯过程样本生成器206、示例上下文训练样本生成器208、示例序列生成器210、示例向量输入212、示例比较器216、示例损失函数计算器214、示例数据库218、示例序列增加器220、示例序列输入222、示例系数输入224、示例策略计算器226、示例数据库228和/或更一般来说的图2的示例机器学习上下文策略搜索器104可通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,示例模型训练器202、示例模型推导器204、示例高斯过程样本生成器206、示例上下文训练样本生成器208、示例序列生成器210、示例向量输入212、示例比较器216、示例损失函数计算器214、示例数据库218、示例序列增加器220、示例序列输入222、示例系数输入224、示例策略计算器226、示例数据库228和/或更一般来说的示例机器学习上下文策略搜索器104中的任一个可通过一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元(GPU)、(一个或多个)数字信号处理器(DSP)、(一个或多个)专用集成电路(ASIC)、(一个或多个)可编程逻辑装置(PLD)和/或(一个或多个)现场可编程逻辑装置(FPLD)来实现。当阅读本专利的设备或系统权利要求的任一个涵盖纯软件和/或固件实现时,示例模型训练器202、示例模型推导器204、示例高斯过程样本生成器206、示例上下文训练样本生成器208、示例序列生成器210、示例向量输入212、示例比较器216、示例损失函数计算器214、示例数据库218、示例序列增加器220、示例序列输入222、示例系数输入224、示例策略计算器226、示例数据库228和/或示例机器学习上下文策略搜索器104中的至少一个由此明确被定义成包括非暂时计算机可读存储装置或存储盘,例如存储器、数字多功能盘(DVD)、致密盘(CD)、蓝光盘等,其中包括软件和/或固件。更进一步,除了图2所示的那些元件、过程和/或装置以外或者作为对图2所示的那些元件、过程和/或装置的替代,图1和图2的示例机器学习上下文策略搜索器104可包括一个或多个元件、过程和/或装置,和/或可包括多于一个所示元件、过程和装置中的任一个或全部。如本文所使用的短语“在通信”(包括其变化)包含直接通信和/或经过一个或多个中间组件的间接通信,并且并不要求直接物理(例如有线)通信和/或恒定通信,而是还包括以周期间隔、所调度间隔、非周期间隔和/或一次性事件的选择性通信。
图3中示出表示用于实现图2的示例机器学习上下文策略搜索器104的示例硬件逻辑、机器或计算机可读指令、硬件实现的状态机和/或其任何组合的流程图。机器可读指令可以是可执行程序或者可执行程序的部分,以供计算机处理器(例如下面结合图6所讨论的示例处理器平台600中所示的处理器612)执行。程序可采用软件来体现,所述软件被存储在非暂时计算机可读存储介质(例如CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或者与处理器612关联的存储器)上,但是整个程序和/或其部分备选地可由除了处理器612之外的装置来执行和/或采用固件或专用硬件来体现。此外,虽然参照图3所示的流程图来描述示例程序,但是备选地可使用实现示例机器学习上下文策略搜索器104的许多其他方法。例如,框的执行顺序可被改变,和/或所述框中的一些框可被改变、消除或组合。附加地或备选地,框中的任一个或全部可通过一个或多个硬件电路(例如分立和/或集成模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路等)来实现,所述硬件电路被构造成在不执行软件或固件的情况下执行对应操作。
如上所述,可使用可执行指令(例如计算机和/或机器可读指令)来实现图3的示例过程,所述可执行指令被存储在非暂时计算机和/或机器可读介质上,所述非暂时计算机和/或机器可读介质例如是硬盘驱动器、闪速存储器、只读存储器、致密盘、数字多功能盘、高速缓存、随机存取存储器和/或其中信息被存储任何时长(例如延长时间段、永久地、短暂时刻、暂时缓冲和/或信息的缓存)的任何其他存储装置或存储盘。如本文所使用的术语“非暂时计算机可读介质”显式定义成包括任何类型的计算机可读存储装置和/或存储盘,而不包括传播信号并且不包括传输介质。
“包括”和“包含”(及其全部形式和时态)在本文中用作开放式术语。因此,每当权利要求作为导言或者在任何种类的权利要求叙述之内采用“包括”或“包含”的任何形式(例如包括、包含、具有等)时,要理解,附加元件、术语等可存在,而没有落在对应权利要求或叙述的范围之外。如本文所使用,当短语“至少”用作例如权利要求的导言中的过渡术语时,它按照与术语“包含”和“包括”是开放式的相同的方式是开放式的。术语“和/或”在例如采取诸如A、B和/或C之类的形式所使用时表示诸如(1)仅A、(2)仅B、(3)仅C、(4)A与B、(5)A与C、(6)B与C以及(7)A与B与C之类的A、B、C的任何组合或子集。如本文在描述结构、组件、项、对象和/或事物的上下文中所使用,短语“A和B的至少一个”意在表示包括(1)至少一个A、(2)至少一个B以及(3)至少一个A和至少一个B中的任一个的实现。类似地,如本文在描述结构、组件、项、对象和/或事物的上下文中所使用,短语“A或B的至少一个”意在表示包括(1)至少一个A、(2)至少一个B以及(3)至少一个A和至少一个B中的任一个的实现。如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用,短语“A和B的至少一个”意在表示包括(1)至少一个A、(2)至少一个B以及(3)至少一个A和至少一个B中的任一个的实现。类似地,如本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中所使用,短语“A或B的至少一个”意在表示包括(1)至少一个A、(2)至少一个B以及(3)至少一个A和至少一个B中的任一个的实现。
图3的程序300用来训练模型,诸如例如LSTM模型。程序300包括机器人102的机器学习上下文策略搜索器104的模型训练器202的高斯过程样本生成器206生成诸如例如高斯过程样本之类的策略变量向量(框302)。示例程序300还包括上下文训练样本生成器208生成上下文训练样本(框304)。
序列生成器210基于高斯过程样本和上下文训练样本来生成序列(框306)。向量输入212将向量输入到序列的LSTM模型的RNN的每个单元中(框308)。在一些示例中,向量包括隐变量向量、输入-上下文向量和策略向量以及回报值。
计算器(例如损失函数计算器214)基于序列和输入向量来计算更优值点(BVP)、更优上层策略(BUP)和损失函数(框310)。比较器216确定损失函数是否达到或满足阈值(框312)。如果损失函数不满足阈值,则序列增加器220使t增加序列中的某个计数(框314)。随着t被增加,示例程序300继续进行,其中序列生成器210在增加的t生成序列(框306)。示例程序300继续确定新的损失函数等。
如果比较器216确定损失函数确实满足阈值(框312),则示例程序300具有被训练模型。例如,满足阈值的损失函数可指示满足预期减小的损失函数的网络或LSTM模型。在这个示例中,通过可接受减小的损失函数,机器人102已经学习满足上下文或者以其他方式采取预期动作。
示例程序300继续进行,其中序列生成器210生成新任务的序列(框316),该序列由模型推导器204经由序列输入222来访问或接收。模型推导器204的系数输入224从被训练模型来导入系数(框318)。策略计算器226计算BUP(框320)。另外,策略计算器226基于BUP来确定策略(框322)。通过所确定的策略,机器人102的(一个或多个)致动器108执行或实行由策略所指示的移动(框324)。
图4是图2的示例模型训练器202的示例操作的示意图,以及图5是图2的示例模型推导器204的示例操作的示意图。图4和图5示出多个RNN单元的高斯过程样本和上下文训练样本的序列(和)。另外,单元的输入由三个部分组成:
(1)隐变量向量:
(2)输入-上下文变量向量和策略变量向量:
回报值:
图4的训练阶段确定损失函数(图中标记为“损失”)。图4中的损失表示回报函数。训练过程中的回报函数由两个部分组成:(1)更优值(y_t) (BVP);以及(2)回归上层策略(BUP)。BVP和BUP两者均将要被计算和优化。用来确定图4中的损失的输入是f(x)的输出。图4(训练阶段)中的RNN的系数被计算并且重新计算以供优化。
图5的推导阶段使用训练阶段中确定的损失作为RNN单元中的输入,以确定上层策略(图中标记为“A”)。用来确定图5中的A的输入是s_t和h_t。在图5的推导器阶段中,RNN的系数是固定的。
图6是示例处理器平台1000的框图,该示例处理器平台1000被构造成执行图4的指令,以实现图1和图2的机器学习上下文策略搜索器104。处理器平台1000能够是例如服务器、个人计算机、工作站、自学习机器(例如神经网络)、移动装置(例如蜂窝电话、智能电话、平板(例如iPad™))、个人数字助理(PDA)、因特网设备、DVD播放器、CD播放器、数字摄像机、蓝光播放器、游戏控制台、个人摄像机、机顶盒、耳机或其他可佩戴装置或者任何其他类型的计算装置。
所示示例的处理器平台600包括处理器612。所示示例的处理器612是硬件。例如,处理器612能够通过来自任何预期系列或制造商的一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实现。硬件处理器可以是基于半导体(例如基于硅)的装置。在这个示例中,处理器612实现示例模型训练器202、示例模型推导器204、示例高斯过程样本生成器206、示例上下文训练样本生成器208、示例序列生成器210、示例向量输入212、示例比较器216、示例损失函数计算器214、示例序列增加器220、示例序列输入222、示例系数输入224、示例策略计算器226和/或示例机器学习上下文策略搜索器104。
所示示例的处理器612包括本地存储器613(例如高速缓存)。所示示例的处理器612经由总线618与主存储器(包括易失性存储器614和非易失性存储器616)进行通信。易失性存储器614可通过同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS®动态随机存取存储器(RDRAM®)和/或其他任何类型的随机存取存储器装置来实现。非易失性存储器616可通过闪速存储器和/或任何其它预期类型的存储器装置来实现。对主存储器614、616的存取由存储器控制器来控制。
所示示例的处理器平台600还包括接口电路620。接口电路620可通过任何类型的接口标准来实现,例如以太网接口、通用串行总线(USB)、Bluetooth®接口、近场通信(NFC)接口和/或PCI express接口。
在所示示例中,一个或多个输入装置622、106、110被连接到接口电路620。(一个或多个)输入装置622、106、110准许用户将数据和/或命令输入到处理器612中。(一个或多个)输入装置能够通过例如音频传感器、麦克风、照相装置(静态照相机或摄像机)、键盘、按钮、鼠标、触摸屏、跟踪板、轨迹球、等值点(isopoint)和/或语音识别系统来实现。
一个或多个输出装置624、108、112也被连接到所示示例的接口电路620。输出装置624、108、112能够例如通过显示装置(例如发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管显示器(CRT)、就地切换(IPS)显示器、触摸屏等)、触觉输出装置、打印机和/或扬声器来实现。因此,所示示例的接口电路620通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。
所示示例的接口电路620还包括通信装置(例如发射器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口),以促进经由网络626与外部机器(例如任何种类的计算装置)交换数据。通信能够经由例如以太网连接、数字用户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、视线无线系统、蜂窝电话系统等进行。
所示示例的处理器平台600还包括用于存储软件和/或数据的一个或多个大容量存储装置628。这类大容量存储装置628的示例包括软盘驱动器、硬盘驱动器盘、致密盘驱动器、蓝光盘驱动器、独立盘冗余阵列(RAID)系统和数字多功能盘(DVD)驱动器。
图3的机器可执行指令300和其他机器可执行指令632可被存储在大容量存储装置628中、易失性存储器614中、非易失性存储器616中和/或诸如CD或DVD之类的可拆卸非暂时计算机可读存储介质上。
通过以上所述将会理解,已经公开示例设备、系统、制造产品和方法,它们实行机器人移动,以及特别实现由机器人在机器人标准或原始编程之外所学习的移动。这些示例使用输入,例如所采集或者以其他方式被传递给传感器的数据,所述数据在机器学习上下文中用来输出策略,以供机器人用来改变机器人的活动(包括机器人的移动)。通过使机器人能够学习新任务和动作(这允许机器人适合变化环境或者变化功能能力),所公开的设备、系统、制造产品和方法改进使用计算装置的效率。所公开的设备、系统、制造产品和方法相应地针对计算机的机能中的一个或多个改进。
因为上下文策略是连续函数,并且上下文和策略参数两者均是多维的,所以本文所公开的机器学习上下文策略搜索器可多次(例如数百至数百万次)执行学习过程。甚至在仿真设定中,这种大量执行的计算成本(例如每尝试或者每仿真大约0.1秒至大约1.0秒)是显著的。本文所公开的示例具有以高样本效率和有效计算成本来实现上下文策略的学习的线性计算复杂度。另外,本公开的示例为机器人仿真提供合理时间和样本效率,所述机器人仿真与较低计算能力(针对云计算而言)相比具有更好的性能。因此,使机器人能够有效地适合新任务的这些示例对边缘计算是有用的。
本文公开用于机器人移动的示例设备、系统、制造产品和方法。示例1包括一种移动机器人的机器人移动设备,其中该设备包括生成上下文变量向量和策略变量向量的序列的序列生成器,上下文变量向量与移动目标相关,以及策略变量向量与移动轨迹相关。该设备还包括基于该序列来计算上层策略和损失函数的计算器,上层策略指示机器人移动,以及损失函数指示满足移动目标的程度。另外,该设备包括:比较器,用于确定损失函数是否满足阈值;以及致动器,用于当损失函数满足阈值时使机器人执行上层策略的机器人移动。
示例2包括示例1的机器人移动设备,其中计算器将使用序列的对角加权来计算上层策略。
示例3包括示例1或2的机器人移动设备,其中计算器将进一步基于上层策略来计算损失函数。
示例4包括示例1-3的机器人移动设备,其中序列是第一序列,上层策略是第一上层策略,机器人移动是第一机器人移动,以及损失函数是第一损失函数,该设备进一步包括当第一损失函数不满足阈值时将第一序列改变成第二序列的序列增加器。
示例5包括示例4的机器人移动设备,其中计算器将基于第二序列来计算第二上层策略和第二损失函数,第二上层策略指示第二机器人移动,以及第二损失函数指示满足移动目标的程度。比较器将确定第二损失函数是否满足阈值,以及致动器用于当第二损失函数满足阈值时使机器人执行第二上层策略的第二机器人移动。
示例6包括示例1-5的机器人移动设备,其中序列基于长短期记忆参数。
示例7包括示例1-6的机器人移动设备,其中计算器将进一步基于矩阵距离来确定上层策略。
示例8包括示例1-7的机器人移动设备,其中机器人移动在序列生成器生成序列之后首先由机器人来执行。
示例9是一种移动机器人的机器人移动设备,其中该设备包括用于生成上下文变量向量和策略变量向量的序列的部件,上下文变量向量与移动目标相关,以及策略变量向量与移动轨迹相关。示例9还包括用于基于该序列来计算上层策略和损失函数的部件,上层策略指示机器人移动,以及损失函数指示满足移动目标的程度。另外,示例9包括用于确定损失函数是否满足阈值的部件以及用于当损失函数满足阈值时驱使机器人执行上层策略的机器人移动的部件。
示例10包括示例9的机器人移动设备,其中用于计算的部件将使用序列的对角加权来计算上层策略。
示例11包括示例9或10的机器人移动设备,其中用于计算的部件将进一步基于上层策略来计算损失函数。
示例12包括示例9-11的机器人移动设备,其中序列是第一序列,上层策略是第一上层策略,机器人移动是第一机器人移动,以及损失函数是第一损失函数,该设备进一步包括用于当第一损失函数不满足阈值时将第一序列改变成第二序列的部件。
示例13包括示例12的机器人移动设备,其中用于计算的部件将基于第二序列来计算第二上层策略和第二损失函数,第二上层策略指示第二机器人移动,以及第二损失函数指示满足移动目标的程度。用于确定的部件将确定第二损失函数是否满足阈值,以及用于致动的部件将在第二损失函数满足阈值时驱使机器人执行第二上层策略的第二机器人移动。
示例14包括示例9-13的机器人移动设备,其中序列基于长短期记忆参数。
示例15包括示例9-14的机器人移动设备,其中用于计算的部件将进一步基于矩阵距离来确定上层策略。
示例16包括示例9-15的机器人移动设备,其中机器人移动在用于生成序列的部件生成序列之后首先由机器人来执行。
示例17是一种包含机器可读指令的非暂时计算机可读存储介质,所述机器可读指令在被执行时使机器至少生成上下文变量向量和策略变量向量的序列,上下文变量向量与移动目标相关,以及策略变量向量与移动轨迹相关。所述指令进一步使机器基于该序列来计算上层策略和损失函数,上层策略指示机器人移动,以及损失函数指示满足移动目标的程度。另外,所述指令使机器确定损失函数是否满足阈值,并且当损失函数满足阈值时驱使机器人执行上层策略的机器人移动。
示例18包括示例17的存储介质,其中指令使机器使用序列的对角加权来计算上层策略。
示例19包括示例17或18的存储介质,其中指令使机器进一步基于上层策略来计算损失函数。
示例20包括示例17-19的存储介质,其中序列是第一序列,上层策略是第一上层策略,机器人移动是第一机器人移动,以及损失函数是第一损失函数,指令进一步使机器在第一损失函数不满足阈值时将第一序列改变成第二序列。
示例21包括示例20的存储介质,其中指令进一步使机器基于第二序列来计算第二上层策略和第二损失函数,第二上层策略指示第二机器人移动,以及第二损失函数指示满足移动目标的程度。另外,指令使机器确定第二损失函数是否满足阈值,并且当第二损失函数满足阈值时驱使机器人执行第二上层策略的第二机器人移动。
示例22包括示例17-21的存储介质,其中序列基于长短期记忆参数。
示例23包括示例17-22的存储介质,其中指令进一步使机器进一步基于矩阵距离来确定上层策略。
示例24包括示例17-23的存储介质,其中机器人移动在指令使机器生成序列之后首先由机器人来执行。
示例25是一种移动机器人的方法,该方法包括生成上下文变量向量和策略变量向量的序列,上下文变量向量与移动目标相关,以及策略变量向量与移动轨迹相关。该方法还包括基于该序列来计算上层策略和损失函数,上层策略指示机器人移动,以及损失函数指示满足移动目标的程度。另外,该方法包括确定损失函数是否满足阈值,并且当损失函数满足阈值时驱使机器人执行上层策略的机器人移动。
示例26包括示例25的方法,进一步包括使用序列的对角加权来计算上层策略。
示例27包括示例25或26的方法,进一步包括进一步基于上层策略来计算损失函数。
示例28包括示例25-27的方法,其中序列是第一序列,上层策略是第一上层策略,机器人移动是第一机器人移动,以及损失函数是第一损失函数,该方法进一步包括当第一损失函数不满足阈值时将第一序列改变成第二序列。
示例29包括示例28的方法,并且进一步包括基于第二序列来计算第二上层策略和第二损失函数,第二上层策略指示第二机器人移动,以及第二损失函数指示满足移动目标的程度。该示例方法还包括确定第二损失函数是否满足阈值,并且当第二损失函数满足阈值时驱使机器人执行第二上层策略的第二机器人移动。
示例30包括示例25-29的方法,其中序列基于长短期记忆参数。
示例31包括示例25-30的方法,进一步包括进一步基于矩阵距离来确定上层策略。
示例32包括示例25-31的方法,其中机器人移动在序列的生成之后首先由机器人来执行。
虽然本文已经公开了某些示例方法、设备和制造产品,但是本专利的涵盖范围并不局限于此。相反,本专利涵盖完全落入本专利的权利要求范围之内的所有方法、设备和制造产品。
Claims (32)
1.一种移动机器人的机器人移动设备,所述设备包括:
序列生成器,生成上下文变量向量和策略变量向量的序列,所述上下文变量向量与移动目标相关,以及所述策略变量向量与移动轨迹相关;
计算器,基于所述序列来计算上层策略和损失函数,所述上层策略指示机器人移动,以及所述损失函数指示满足移动目标的程度;
比较器,确定所述损失函数是否满足阈值;以及
致动器,当所述损失函数满足所述阈值时使所述机器人执行所述上层策略的所述机器人移动。
2.如权利要求1所述的机器人移动设备,其中所述计算器将使用所述序列的对角加权来计算所述上层策略。
3.如权利要求1或2所述的机器人移动设备,其中所述计算器将进一步基于所述上层策略来计算所述损失函数。
4.如权利要求1-3所述的机器人移动设备,其中所述序列是第一序列,所述上层策略是第一上层策略,所述机器人移动是第一机器人移动,以及所述损失函数是第一损失函数,所述设备进一步包括当所述第一损失函数不满足所述阈值时将所述第一序列改变成第二序列的序列增加器。
5.如权利要求4所述的机器人移动设备,
其中所述计算器将基于所述第二序列来计算第二上层策略和第二损失函数,所述第二上层策略指示第二机器人移动,以及所述第二损失函数指示满足所述移动目标的程度;
其中所述比较器将确定所述第二损失函数是否满足所述阈值;以及
其中所述致动器用于当所述第二损失函数满足所述阈值时使所述机器人执行所述第二上层策略的所述第二机器人移动。
6.如权利要求1-5所述的机器人移动设备,其中所述序列基于长短期记忆参数。
7.如权利要求1-6所述的机器人移动设备,其中所述计算器将进一步基于矩阵距离来确定所述上层策略。
8.如权利要求1-7所述的机器人移动设备,其中所述机器人移动在所述序列生成器生成所述序列之后首先由所述机器人来执行。
9.一种移动机器人的机器人移动设备,所述设备包括:
用于生成上下文变量向量和策略变量向量的序列的部件,所述上下文变量向量与移动目标相关,以及所述策略变量向量与移动轨迹相关;
用于基于所述序列来计算上层策略和损失函数的部件,所述上层策略指示机器人移动,以及所述损失函数指示满足移动目标的程度;
用于确定所述损失函数是否满足阈值的部件;以及
用于当所述损失函数满足所述阈值时驱使所述机器人执行所述上层策略的所述机器人移动的部件。
10.如权利要求9所述的机器人移动设备,其中用于计算的所述部件将使用所述序列的对角加权来计算所述上层策略。
11.如权利要求9或10所述的机器人移动设备,其中用于计算的所述部件将进一步基于所述上层策略来计算所述损失函数。
12.如权利要求9-11所述的机器人移动设备,其中所述序列是第一序列,所述上层策略是第一上层策略,所述机器人移动是第一机器人移动,以及所述损失函数是第一损失函数,所述设备进一步包括用于当所述第一损失函数不满足所述阈值时将所述第一序列改变成第二序列的部件。
13.如权利要求12所述的机器人移动设备,
其中用于计算的所述部件将基于所述第二序列来计算第二上层策略和第二损失函数,所述第二上层策略指示第二机器人移动,以及所述第二损失函数指示满足所述移动目标的程度;
其中用于确定的所述部件将确定所述第二损失函数是否满足所述阈值;以及
其中用于致动的所述部件将当所述第二损失函数满足所述阈值时驱使所述机器人执行所述第二上层策略的所述第二机器人移动。
14.如权利要求9-13所述的机器人移动设备,其中所述序列基于长短期记忆参数。
15.如权利要求9-14所述的机器人移动设备,其中用于计算的所述部件将进一步基于矩阵距离来确定所述上层策略。
16.如权利要求9-15所述的机器人移动设备,其中所述机器人移动在用于生成的所述部件生成所述序列之后首先由所述机器人来执行。
17.一种包含机器可读指令的非暂时计算机可读存储介质,所述机器可读指令在被执行时使机器至少:
生成上下文变量向量和策略变量向量的序列,所述上下文变量向量与移动目标相关,以及所述策略变量向量与移动轨迹相关;
基于所述序列来计算上层策略和损失函数,所述上层策略指示机器人移动,以及所述损失函数指示满足移动目标的程度;
确定所述损失函数是否满足阈值;以及
当所述损失函数满足所述阈值时驱使机器人执行所述上层策略的所述机器人移动。
18.如权利要求17所述的存储介质,其中所述指令使所述机器使用所述序列的对角加权来计算所述上层策略。
19.如权利要求17或18所述的存储介质,其中指令使所述机器进一步基于所述上层策略来计算所述损失函数。
20.如权利要求17-19所述的存储介质,其中所述序列是第一序列,所述上层策略是第一上层策略,所述机器人移动是第一机器人移动,以及所述损失函数是第一损失函数,所述指令进一步使所述机器在所述第一损失函数不满足所述阈值时将所述第一序列改变成第二序列。
21.如权利要求20所述的存储介质,其中所述指令进一步使所述机器:
基于所述第二序列来计算第二上层策略和第二损失函数,所述第二上层策略指示第二机器人移动,以及所述第二损失函数指示满足所述移动目标的程度;
确定所述第二损失函数是否满足所述阈值;以及
当所述第二损失函数满足所述阈值时驱使所述机器人执行所述第二上层策略的所述第二机器人移动。
22.如权利要求17-21所述的存储介质,其中所述序列基于长短期记忆参数。
23.如权利要求17-22所述的存储介质,其中所述指令进一步使所述机器进一步基于矩阵距离来确定所述上层策略。
24.如权利要求17-23所述的存储介质,其中所述机器人移动在所述指令使所述机器生成所述序列之后首先由所述机器人来执行。
25.一种移动机器人的方法,所述方法包括:
生成上下文变量向量和策略变量向量的序列,所述上下文变量向量与移动目标相关,以及所述策略变量向量与移动轨迹相关;
基于所述序列来计算上层策略和损失函数,所述上层策略指示机器人移动,以及所述损失函数指示满足移动目标的程度;
确定所述损失函数是否满足阈值;以及
当所述损失函数满足所述阈值时驱使所述机器人执行所述上层策略的所述机器人移动。
26.如权利要求25所述的方法,进一步包括使用所述序列的对角加权来计算所述上层策略。
27.如权利要求25或26所述的方法,进一步包括进一步基于所述上层策略来计算所述损失函数。
28.如权利要求25-27所述的方法,其中所述序列是第一序列,所述上层策略是第一上层策略,所述机器人移动是第一机器人移动,以及所述损失函数是第一损失函数,所述方法进一步包括当所述第一损失函数不满足所述阈值时将所述第一序列改变成第二序列。
29.如权利要求28所述的方法,进一步包括:
基于所述第二序列来计算第二上层策略和第二损失函数,所述第二上层策略指示第二机器人移动,以及所述第二损失函数指示满足所述移动目标的程度;
确定所述第二损失函数是否满足所述阈值;以及
当所述第二损失函数满足所述阈值时驱使所述机器人执行所述第二上层策略的所述第二机器人移动。
30.如权利要求25-29所述的方法,其中所述序列基于长短期记忆参数。
31.如权利要求25-30所述的方法,进一步包括进一步基于矩阵距离来确定所述上层策略。
32.如权利要求25-31所述的方法,其中所述机器人移动在所述序列的所述生成之后首先由所述机器人来执行。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/108253 WO2020062002A1 (en) | 2018-09-28 | 2018-09-28 | Robot movement apparatus and related methods |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168553A true CN113168553A (zh) | 2021-07-23 |
Family
ID=69950938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880096962.8A Pending CN113168553A (zh) | 2018-09-28 | 2018-09-28 | 机器人移动设备及相关方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11850752B2 (zh) |
CN (1) | CN113168553A (zh) |
WO (1) | WO2020062002A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113168553A (zh) * | 2018-09-28 | 2021-07-23 | 英特尔公司 | 机器人移动设备及相关方法 |
US11712799B2 (en) * | 2019-09-13 | 2023-08-01 | Deepmind Technologies Limited | Data-driven robot control |
DE102020209281A1 (de) * | 2020-07-23 | 2022-01-27 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Lernen einer Strategie und Betreiben der Strategie |
EP4102405A1 (en) * | 2021-06-10 | 2022-12-14 | Naver Corporation | Demonstration-conditioned reinforcement learning for few-shot imitation |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9015093B1 (en) * | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN103135549A (zh) | 2012-12-21 | 2013-06-05 | 北京邮电大学 | 一种具有视觉反馈的球形机器人运动控制系统及运动控制方法 |
US9358685B2 (en) * | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
CN103926839A (zh) | 2014-04-23 | 2014-07-16 | 浙江师范大学 | 一种轮式移动机器人的运动分段控制方法 |
WO2015171593A1 (en) | 2014-05-05 | 2015-11-12 | Georgia Tech Research Corporation | Control of swarming robots |
US10788836B2 (en) * | 2016-02-29 | 2020-09-29 | AI Incorporated | Obstacle recognition method for autonomous robots |
US20180025664A1 (en) * | 2016-07-25 | 2018-01-25 | Anna Clarke | Computerized methods and systems for motor skill training |
US20180218262A1 (en) * | 2017-01-31 | 2018-08-02 | Panasonic Intellectual Property Corporation Of America | Control device and control method |
CN106951512A (zh) | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
US11086317B2 (en) * | 2018-03-30 | 2021-08-10 | Intel Corporation | Emotional adaptive driving policies for automated driving vehicles |
US10860629B1 (en) * | 2018-04-02 | 2020-12-08 | Amazon Technologies, Inc. | Task-oriented dialog systems utilizing combined supervised and reinforcement learning |
US11340079B1 (en) * | 2018-05-21 | 2022-05-24 | AI Incorporated | Simultaneous collaboration, localization, and mapping |
US11833681B2 (en) * | 2018-08-24 | 2023-12-05 | Nvidia Corporation | Robotic control system |
GB2577312B (en) * | 2018-09-21 | 2022-07-20 | Imperial College Innovations Ltd | Task embedding for device control |
CN113168553A (zh) * | 2018-09-28 | 2021-07-23 | 英特尔公司 | 机器人移动设备及相关方法 |
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
US20220143820A1 (en) * | 2020-11-11 | 2022-05-12 | Sony Interactive Entertainment Inc. | Domain adaptation for simulated motor backlash |
-
2018
- 2018-09-28 CN CN201880096962.8A patent/CN113168553A/zh active Pending
- 2018-09-28 WO PCT/CN2018/108253 patent/WO2020062002A1/en active Application Filing
- 2018-09-28 US US17/271,779 patent/US11850752B2/en active Active
-
2023
- 2023-10-23 US US18/492,458 patent/US20240123617A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240123617A1 (en) | 2024-04-18 |
US20210308863A1 (en) | 2021-10-07 |
US11850752B2 (en) | 2023-12-26 |
WO2020062002A1 (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113168553A (zh) | 机器人移动设备及相关方法 | |
US11213947B2 (en) | Apparatus and methods for object manipulation via action sequence optimization | |
JP4803212B2 (ja) | データ処理装置、データ処理方法、及びプログラム | |
CN107844460B (zh) | 一种基于p-maxq的多水下机器人的围捕方法 | |
Ota et al. | Trajectory optimization for unknown constrained systems using reinforcement learning | |
CN110530373B (zh) | 一种机器人路径规划方法、控制器及系统 | |
Khansari-Zadeh et al. | Learning to play minigolf: A dynamical system-based approach | |
CN110442129A (zh) | 一种多智能体编队的控制方法和系统 | |
Bossens et al. | Learning behaviour-performance maps with meta-evolution | |
Liu et al. | Path planning based on improved deep deterministic policy gradient algorithm | |
CN118201742A (zh) | 使用图神经网络的多机器人协调 | |
Zuo et al. | Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations | |
CN115097814A (zh) | 基于改进pso算法的移动机器人路径规划方法、系统及应用 | |
CN114529010A (zh) | 一种机器人自主学习方法、装置、设备及存储介质 | |
Huang et al. | Hierarchical reinforcement learning with adaptive scheduling for robot control | |
WO2023172365A1 (en) | Remote agent implementation of reinforcement learning policies | |
Zeng et al. | AHEGC: Adaptive Hindsight Experience Replay With Goal-Amended Curiosity Module for Robot Control | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Hachiya et al. | Efficient sample reuse in EM-based policy search | |
Chen et al. | Policy Sharing Using Aggregation Trees for ${Q} $-Learning in a Continuous State and Action Spaces | |
Kicki et al. | Bridging the gap between learning-to-plan, motion primitives and safe reinforcement learning | |
Kim et al. | Visual Hindsight Self-Imitation Learning for Interactive Navigation | |
de Bakker3Atalay et al. | Air Hockey Challenge 2023: Air-HocKIT Team Report | |
Gao et al. | Hybrid path planning algorithm of the mobile agent based on Q-learning | |
Chen et al. | Distributed continuous control with meta learning on robotic arms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |