CN116542310B

CN116542310B - 一种机器人的模型训练、运动指令预测方法、装置及系统

Info

Publication number: CN116542310B
Application number: CN202310795903.2A
Authority: CN
Inventors: 蔡亚谚; 许晋诚
Original assignee: Parsini Perception Technology Zhangjiagang Co ltd
Current assignee: Parsini Perception Technology Zhangjiagang Co ltd
Priority date: 2023-07-01
Filing date: 2023-07-01
Publication date: 2023-09-22
Anticipated expiration: 2043-07-01
Also published as: CN116542310A

Abstract

本申请实施例属于人工智能技术领域，涉及一种机器人的模型训练方法，包括获取单任务训练样本；获取预设的通用技能模型和单任务技能模型；其中，单任务技能模型的网络结构和初始参数值与预设的通用技能模型的网络结构和参数值相同；基于单任务训练样本，结合预设的通用技能模型和单任务技能模型的叠加输出，训练单任务技能模型。本申请还提供一种运动指令预测方法、机器人的模型训练、运动指令预测装置及系统等。本申请采用的技术方案可以减少机器人的模型训练成本，提高模型学习效率。

Description

一种机器人的模型训练、运动指令预测方法、装置及系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种机器人的模型训练、运动指令预测方法、装置及系统。

背景技术

在目前机器人学习技术里，神经网络模型有一定的通用性和泛化能力，所以一个神经网络模型可以同时学习多个类似的策略或动作。但是对于完全不同的任务，因为观测数据和对应的动作指令的分布会有很大的区别，所以一个神经网络模型很难同时学会不同任务的策略。

为解决上述技术问题，目前的方法包含训练一个更大的网络模型来拟合更复杂的映射关系，或是对于每一个任务训练单个策略模型，并在任务执行前选择相应的策略执行，但是这两种方法所需要的数据量和训练成本都比较大。对于大模型而言，它需要更多的数据量拟合更复杂映射，这会增加训练时长和算力需求；而且大型网络模型通常训练的复杂度和难度都是小模型的好几倍；另外，大模型学习到的策略通常会比较难进行调整，因此会减少该方法的灵活度。而对于上面提到的训练多个策略模型的方法，每一个策略模型需要独立而且大量的训练数据进行训练，而且可能很多算力成本会浪费在训练一个通用技能或是一种通用特征提取方面。

发明内容

本申请实施例的目的在于提出一种机器人的模型训练、运动指令预测方法、装置及系统，以减少机器人的模型训练成本，提高机器人的模型训练的效率。

第一方面，本申请实施例提供一种机器人的模型训练方法，采用了如下所述的技术方案：

一种机器人的模型训练方法，所述方法包括下述步骤：

获取单任务训练样本；所述单任务训练样本为单任务观测数据和对应的单任务动作指令构成的训练样本；

获取预设的通用技能模型和单任务技能模型；其中，所述单任务技能模型的网络结构和初始参数值与所述预设的通用技能模型的网络结构和参数值相同；

基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型。

进一步的，所述获取预设的通用技能模型和单任务技能模型之前，还包括下述步骤：

提取所述预设的通用技能模型的所述参数值，将提取的所述参数值赋值给对应的所述单任务技能模型，以作为所述单任务技能模型的所述初始参数值。

进一步的，所述获取预设的通用技能模型之前，还包括下述步骤：

获取通用任务训练样本；所述通用任务训练样本为执行通用任务的通用观测数据和对应的通用动作指令构成的训练样本；

以所述通用任务训练样本对所述通用技能模型的初始模型进行训练，以得到所述预设的通用技能模型。

进一步的，所述基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型包括下述步骤：

以所述单任务训练样本分别作为所述通用技能模型和所述单任务技能模型的输入；

结合所述通用技能模型的输出和所述单任务技能模型的输出，得到结合输出；

基于所述结合输出训练所述单任务技能模型。

进一步的，将所述单任务技能模型中间层的输出加入到所述通用技能对应的中间层；则所述基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型包括下述步骤：

基于所述通用技能模型的输出训练所述单任务技能模型。

进一步的，所述获取单任务训练样本之前，还包括下述步骤：

获取操作者的单任务动作数据；所述单任务动作数据为通过主端交互器采集的操作者基于从端传感器采集的通用观测数据主观执行单个任务过程中的数据；

将所述单任务动作数据转换为机器人可执行的所述单任务动作指令，以指示从端机器人模仿单任务动作；

重复上述步骤，直到完成目标任务；

将所述单任务观测数据和对应的所述单任务动作指令进行保存，以形成所述单任务训练样本。

第二方面，本申请实施例提供一种运动指令预测方法，所述方法包括下述步骤：

获取观测数据；

以所述观测数据作为所述预设的通用技能模型和预训练的单任务技能模型的输入，基于所述预设的通用技能模型和所述预训练的单任务技能模型的叠加输出，得到运动指令；所述预训练的单任务技能模型为经过上面任一项所述的机器人的模型训练方法训练后的单任务技能模型。

第三方面，本申请实施例提供一种机器人的模型训练装置，所述装置包括：

样本获取模块，用于获取单任务训练样本；所述单任务训练样本为单任务观测数据和对应的单任务动作指令构成的训练样本；

模型获取模块，用于获取预设的通用技能模型和单任务技能模型；其中，所述单任务技能模型的网络结构和初始参数值与所述预设的通用技能模型的网络结构和参数值相同；

机器人的模型训练模块，用于基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型。

第四方面，本申请实施例提供一种运动指令预测装置，所述装置包括：

观测获取模块，用于获取观测数据；

指令输出模块，用于以所述观测数据作为所述预设的通用技能模型和预训练的单任务技能模型的输入，基于所述预设的通用技能模型和所述预训练的单任务技能模型的叠加输出，得到运动指令；所述预训练的单任务技能模型为经过上面任一项所述的机器人的模型训练方法训练后的单任务技能模型。

第五方面本申请实施例提供一种机器人的模型训练系统，所述系统包括：主端交互器、从端机器人、从端传感器和控制器；所述从端传感器与所述从端机器人存在预设标定关系；

所述控制器至少分别与所述主端交互器和所述从端机器人通信连接；

所述从端传感器，用于采集所述从端机器人的单任务观测数据；

所述主端交互器，用于采集操作者执行单任务动作的单任务动作数据，并将所述单任务动作数据发送给所述控制器；其中，操作者基于所述单任务观测数据主观执行单任务动作；

所述控制器，用于实现将所述单任务动作数据转换成所述单任务动作指令，以指示所述从端机器人模仿操作者动作；以及上面部分所述的机器人的模型训练方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例通过将通用技能模型和单任务技能模型相结合，因为单任务技能模型的初始参数是通用技能模型预训练之后的结果，所以在训练单任务技能模型时只需要少量的数据即可调整或优化单任务技能模型的输出目标，从而可以减少训练数据量、训练复杂度以及训练成本。

另外，对于新的任务，不需要重新训练通用技能模型，可以在原来的通用技能模型基础上增加新的单任务技能，从而增加了机器人学习的灵活性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请提供的基于遥操作的训练系统的一个实施例的架构图；

图3是本申请的通用技能模型和单任务技能模型的一个实施例的架构示意图；

图4是本申请的通用技能模型和单任务技能模型的另一个实施例的架构示意图；

图5是本申请的单任务技能机器人的模型训练方法的一个实施例的流程示意图；

图6是本申请的运动指令预测方法的一个实施例的流程示意图；

图7是本申请的单任务技能机器人的模型训练装置的一个实施例的结构示意图；

图8是本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1是本申请可以应用于其中的示例性系统架构图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105；以及传感器（有关传感器的描述可以参见后面实施例中基于遥操作的训练系统中的从端传感器的描述）。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的机器人的模型训练方法和运动指令预测方法一般由服务器/终端设备执行，相应地，机器人的模型训练装置和运动指令预测装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

如图2所示，图2为本申请提供的基于遥操作的训练系统的结构示意图。

在另一个实施例中，本申请还提供一种基于遥操作的训练系统，该系统包括：主端交互器110、从端机器人120、从端传感器130和控制器150。

主端交互器110

主端交互器110，用于采集操作者执行目标动作的动作数据，并将动作数据发送给控制器150；其中，操作者基于观测数据主观执行目标动作。

主端交互器110可以但不限于是：主端交互器、设置主端交互器的执行器主体、触控屏、录音器（比如：动作数据也可以是操作者生成的口头指令）等等。

具体地，主端交互器可以为可采集动作数据的任何传感器，比如：IMU、图像传感器、位置编码器、生化传感器（比如：肌电从端传感器）。其中，IMU是惯性测量单元，用于测量操作者相关的运动数据，包括：三维加速度和三维旋转角度。在一个实施例中，图像传感器可以采集操作者执行目标动作中的连续帧图像，以图像或经过预处理后的图像作为上述动作数据。

在一个实施例中，上述主端交互器可以直接固定在操作者的预设关键部位。

在另一个实施例中，也可以将主端交互器预先设置于执行器主体（比如：主端机器人、可穿戴装置（比如：外骨骼或数据手套）），基于操作者主观操作控制执行器主体运动，从而通过设置于执行器主体的主端交互器采集操作者的动作数据。

在一个实施例中，主端交互器与操作者或者执行器本体存在预设的标定关系，这样可以基于主端交互器采集的运动数据直接或者间接反应操作者的动作。

示例性的，以手臂骨骼为例，多个连杆等构成执行器本体，执行器本体对应手臂关节位置可以设置IMU从端传感器，将手臂骨骼穿戴在操作者手臂上，从而可以通过IMU采集在操作者的手臂运动过程中相应关节的运动数据。

需要说明的是，本申请实施例所述的操作者并不限于人，也可以根据需要为其他生命体，为方便理解，本申请实施例主要以操作者为人为例进行说明。

从端机器人120

具体地，从端机器人可以为人形机器人；通过串联或者并联方式连接的机械臂（比如：Delta机械手、四轴机械手或六轴机械手）；无人驾驶设备；或者手术/护理/家务/服务机器人等等可模仿人类或其他生命体操作的自动化设备。以从端机器人为机械臂为例，通常机械臂末端还设置末端执行器（比如：夹爪）。

从端传感器130

从端传感器130，用于采集从端机器人120执行单任务过程中的单任务观测数据。在一个实施例中，还可以用于采集从端机器人120执行通用任务过程中的通用观测数据。

通过观测数据可以反应从端机器人的工作状况，比如：机器人周边的环境或者机器人目标任务的完成情况等等。

具体地，从端传感器可以但不限于是：图像传感器、力/力矩传感器（比如：二维或多维压力传感、触觉传感器）、机器人的关节位置编码器（比如：可以基于编码器得到关节运动量，进而可以求取机器人的姿态）和/或电流或电压计（比如：可以基于电流大小得到某个关节的运动速度相关的信息），以及其他任何可采集观测数据的传感器。

在一个实施例中，从端传感器130与机器人120存在预设标定关系，这样通过从端传感器采集的观测数据（比如：单任务观测数据）可以与机器人相互映射。

示例性的，图像传感器和机器人之间可以预先通过眼手标定的方式进行标定；机器人的关节位置编码器需要与关节的输出法兰同轴固定；力/力矩从端传感器需要通过弹性梁固定于关节预设位置等等，以实现从端传感器与机器人的标定。

控制器150

本申请实施例所述的控制器150可以是指遥操作模块的控制器，也可以是指演示器、主端交互器或从端传感器等的控制器，为方便理解，本申请实施例统称为控制器。上述各个控制器可以集成为一个独立的控制器，也可以分别集成在各自所述的演示器、主端交互器或从端传感器等等中，本申请不做限定。

本申请实施例中的控制器可以但不限于是：计算机终端(Personal Computer，PC)；工业控制计算机终端(Industrial Personal Computer， IPC)；移动终端；服务器；包括终端和服务器的系统，并通过终端和服务器的交互实现；可编程逻辑控制器(Programmable Logic Controller，PLC)；现场可编程门阵列(Field-Programmable GateArray，FPGA)；数字信号处理器(Digital SignalProcesser，DSP)或微控制单元(Microcontroller unit，MCU)。控制器根据预先固定的程序，结合外部的主端交互器、从端传感器等采集的数据等生成程序指令。

示例性的，可以应用于如图8所示的计算机设备中，该计算机设备可以是终端,也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)，以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音响、智能手表等，但并不局限于此。终端以及服务器可以通过有线或者无线通信方式进行直接或间接地连接，本申请在此不做限定。

在一个实施例中，上述从端传感器可以直接向操作者展示观测数据。

在另一个实施例中，该机器人的模型训练系统还包括：演示器140。

演示器140，用于将观测数据或经可演示化处理后的观测数据向操作者进行演示，通过演示器的演示帮助操作者更好地了解从端机器人的工作状况。

具体地，演示器140可以直接与从端传感器130通信连接（如图2所示）；除此之外，演示器140也可以通过控制器150与从端传感器通信连接（图未示意出）。

比如：从端传感器采集的观测数据需要通过控制器进行可演示化处理后，向操作者演示（比如：将观测数据转换为虚拟可视化数据后发送给VR演示）；或者，当控制器为服务器时，需要将观测数据发送给服务器，再通过服务器发送给演示器，以实现远程观测数据传输。

具体地，上述演示器可以但不限于是：显示屏、AR/VR类似虚拟显示设备、施力组件、声音播放器。

控制器150至少分别与主端交互器110和从端机器人120通信连接。

需要指出的是，本申请实施例所述的通信连接可以指通过有线或者无线的方式通信连接。其中，无线连接方式可以但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。

主端交互器110，采集操作者执行目标动作的动作数据，并将动作数据发送给控制器150；其中，操作者基于观测数据主观执行目标动作。

以执行单任务为例，本申请实施例通过上述各个器件的配合，操作者可以基于从端传感器采集的单任务观测数据主观执行相应的目标动作，进而通过主端交互器采集操作者对应的动作数据；控制器基于动作数据，生成与该单任务观测数据对应的单任务动作指令，以指示从端机器人模仿操作者动作，并通过位于从端的从端传感器采集变化后的新的单任务观测数据，重复上述步骤，直到完成目标任务；将所述单任务观测数据和对应的单任务动作指令进行保存，以形成下面实施例所述的单任务训练样本；除此之外，控制器还可以实现下面实施例中所述的模型训练方法和/或运动指令预测方法等的方法步骤。有关控制器的具体限定可以参见下面的实施例。

需要说明的是，本申请实施例所提供的模型训练方法一般由上面实施例图1所示的终端设备/服务器，和/或图2所示的控制器/执行，相应地，用于模型训练的装置一般设置于图1所示的终端设备/服务器，和/或图2所示的控制器中。

如图5所示，图5是本申请的机器人的模型训练方法的一个实施例的流程示意图。本申请实施例提供一种机器人的模型训练方法，可以包括以下方法步骤：

步骤210 获取单任务训练样本；单任务训练样本为单任务观测数据和对应的单任务动作指令构成的训练样本。

在一个实施例中，控制器按照预设地址从存储器或者服务器所存储的单任务训练样本中随机采样N组训练样本数据。这里每一组数据包含了单任务观测数据和对应的单任务动作指令。

其中，单任务训练样本是指执行某个具体任务得到的训练样本，通常单任务是通用技能模型训练中多任务中的其中一种任务。单任务技能模型主要学习任务内容，任务目标，和组合元动作以完成目标任务，比如：单任务可以是机器人推物体，抓物体，抛物体等等；而通用技能模型主要是用来学习一些基础能力，包含机器人的手眼协作，机器人拟人动作，观测数据的特征提取，机器人的元动作，避障方法或路径规划方法等。

步骤220 获取预设的通用技能模型和单任务技能模型；其中，单任务技能模型的网络结构和初始参数值与预设的通用技能模型的网络结构和参数值相同。

其中，预设的通用技能模型是指基于通用训练样本完成训练的通用技能模型。

预设的通用技能模型和单任务技能模型具有相同的网络结构。示例性的，如图3或图4所示，两个模型都包括两个编辑器和三个隐藏层。

在一个实施例中，步骤220之前，还可以包括如下方法步骤：

步骤240提取预设的通用技能模型的参数值，将提取的参数值赋值给对应的单任务技能模型，以作为单任务技能模型的初始参数值。

在一个实施例中，控制器提取通用技能模型每层网络结构的参数值，并将该参数值赋值给单任务技能模型对应的网络结构中对应的参数。

本申请实施例通过将预设的通用技能模型的参数值作为单任务技能模型的初始参数值，因为单任务技能模型的初始参数是通用技能模型预训练之后的结果，所以在训练单任务技能模型时只需要少量的数据即可调整或优化单任务技能模型的输出目标。

需要说明的是，本申请实施例所述的通用技能模型和单任务技能模型可以包含任意一种能够以神经元组成的网络。比如：Feed-Forward Networks, RNN, LSTM，Transformer, GNN, GAN, AE,卷积神经网络(CNN)，常见的CNN 模型可以包括但不限于：LeNet，AlexNet，ZFNet，VGG，GoogLeNet，Residual Net，DenseNet，R-CNN，SPP-NET，Fast-RCNN，Faster-RCNN，FCN，Mask-RCNN， YOLO，SSD， GCN以及其它现在已知或将来开发的网络模型结构。

步骤230基于单任务训练样本，结合预设的通用技能模型和单任务技能模型的叠加输出，训练单任务技能模型。

如图3所示，图3是本申请的通用技能模型和单任务技能模型的一个实施例的架构示意图。在一个实施例中，步骤230具体可以包括如下方法步骤：

步骤231以单任务训练样本分别作为通用技能模型的输入和单任务技能模型的输入；

步骤233结合通用技能模型的输出和单任务技能模型的输出，得到结合输出；

步骤235基于结合输出训练单任务技能模型。

在上述训练过程中，只针对单任务技能模型进行训练，而通用模型的参数值会被冻结，即训练过程中，预设的通用模型的参数值是固定不变的。

本申请实施例通过将单任务训练样本分别直接作为通用技能模型的输入和单任务技能模型的输入，比较容易实现叠加输出，另外，也减少了因中间隐藏层结合过程中可能引起的多因素干扰，提高了模型训练效率。

具体地，可以通过各种现在已有或者将来开发的训练方法对模型进行预训练，比如：通过监督学习或是强化学习。

以监督学习为例，可以反向传播的方式迭代更新单任务技能模型的参数值，从而完成单任务技能模型的训练。

示例性的，单任务技能模型是由多个神经元相互连接组成的。每个神经元有多个输入和一个输出。每个输入会有一个对应的权值（即上面实施例所述的“参数值”）将输入和对应的权值相乘然后求和可以得到一个数字。再把该数字代入到一个激活函数后得到的结果为该神经元的输出值。

单任务技能模型训练的目标是要找到每个神经元的权值使得单任务技能模型可以得到机器人单任务观测数据和单任务动作指令的映射。

在一个实施例中，训练是以迭代的方式对单任务技能模型里神经元的权值进行更新。在每一轮更新中，会先从单任务训练样本中随机采样N组数据。这里每一组数据包含了单任务观测数据和对应的单任务动作指令。此单任务动作指令可以称为groundtruth。训练时，这N组观测数据会被分别输入到单任务训练模型和通用技能模型里，单任务训练模型和通用技能模型分别生成N组动作指令输出，将两个模型分别输出的对应动作指令相结合（比如：直接相加或者按照某个权重比例相加）从而得到结合动作指令；损失函数会计算N组结合动作指令和groundtruth的loss，然后以反向传播的方式对单任务技能模型的每个神经元的权值更新。此更新会一直迭代直到满足预设终止条件，比如：完成了指定的迭代次数或损失函数里算出的距离最小化。

如图4所示，图4是本申请的通用技能模型和单任务技能模型的另一个实施例的架构示意图。在另一个实施例中，可以将单任务技能模型中间层的输出输入到通用技能模型对应的中间层以改变通用技能模型的输出。在一个实施例中，步骤234之前，可以通过人工写代码或自动执行预设代码的方式确定如何把单任务技能模型中间层的输出加入到通用模型对应的中间层。

基于此，在一个实施例中，步骤230具体可以包括如下方法步骤：

步骤232以单任务训练样本分别作为通用技能模型的输入和单任务技能模型的输入；

步骤234基于通用技能模型的输出训练单任务技能模型。

示例性的，如图4所示，单任务技能模型每个中间隐藏层的输出都分别加入到通用技能模型对应的中间隐藏层。

本申请实施例通过将单任务技能模型每个中间隐藏层的输出都分别加入到通用技能模型对应的中间隐藏层，能够在不改变通用技能模型的参数情况下改变单任务技能模型每层输出的数据分布，从而在某些情况下，可以更精准的训练和控制单任务技能模型每层输出网络的输出结果。

在本申请实施例中，单任务技能模型训练时，这N组观测数据会被分别输入到单任务训练模型和通用技能模型里，将单任务技能模型中间层的输出输入到通用技能模型对应的中间层，以改变通用技能模型最终输出的动作指令；损失函数会计算N组动作指令和groundtruth的loss，然后以反向传播的方式对单任务技能模型的每个神经元的权值迭代更新，直到满足预设终止条件。

在本申请实施例中，结合通用技能模型和单任务技能模型可以解耦机器人通用动作和任务相关动作。如果需要学习一个新的任务，机器人不需要重新学习通用技能，只需要学习任务相关的技能即可。相比于对每个任务技能训练单独任务技能模型的方法而言，因为学习的目标更少，所以此方法不需要对每个任务提供大量单独的训练样本，而且也不需要重复学习已学过的技能，这可以大量减少训练数据量和训练成本。

在一个实施例中，步骤220 获取预设的通用技能模型之前，可以包括如下方法步骤：

步骤250获取通用训练样本。

步骤260以通用训练样本对通用模型的初始模型进行训练，以得到预设的通用模型。

示例性的，控制器按照预设地址从存储器或者服务器获取预先存储的通用观测数据和对应的通用动作指令构成的通用训练样本；将一组或多组观测数据输入通用模型，并以对应的动作指令作为标注，不断对模型进行迭代训练。

有关通用技能模型的训练方法也可以参见上面单任务机器人的模型训练方法的相关描述，在此不再赘述。

在一个实施例中，步骤210之前，还可以包括如下方法步骤：

步骤270获取操作者的动作数据；所述动作数据为通过主端交互器采集的操作者基于从端传感器采集的观测数据主观执行单任务目标动作过程中的动作数据。

步骤280将动作数据转换为机器人可执行的单任务动作指令，以指示从端机器人模仿目标动作。

步骤290重复上述步骤，直到完成目标任务。

步骤300将单任务观测数据和对应的单任务动作指令进行保存，以形成单任务训练样本。

示例性的，以前面实施例所述的基于遥操作的训练系统为例，操作者基于从端传感器采集并发送的观测数据主观执行单任务目标动作，主端交互器采集动作数据并发送给控制器，控制器将动作数据转换为机器人可执行的动作指令，重复上述步骤，直到完成目标任务（比如：从端机器人完成目标物的抓取），并将每组单任务观测数据和对应的单任务动作指令进行保存，从而形成单任务训练样本。

本申请实施例通过基于遥操作的系统生成训练样本，使得训练过程可以透过自身的观察数据模仿出类似操作者的反应动作，从而使得采用基于此训练后的模型的机器人可以更好的模仿人的操作动作。

在一个实施例中，步骤250之前，有关通用训练样本的生成方法也可以参见上面实施例中有关单任务训练样本生成方法的方法步骤，在此不再赘述。

基于上面实施例所述的机器人的模型训练方法，本申请实施例还提供一种运动指令预测方法，本申请实施例所提供的运动指令预测方法一般由控制器/终端设备执行，相应地，用于运动指令预测的装置一般设置于控制器/终端设备中。

如图6所示，图6是本申请的运动指令预测方法的一个实施例的流程示意图。本申请实施例提供一种运动指令预测方法，可以包括以下步骤：

步骤410获取观测数据。

在一个实施例中，控制器可以按照预设地址从存储器或者服务器获取通过传感器采集的机器人的观测数据。

步骤420以观测数据作为预设的通用技能模型和预训练的单任务技能模型的输入，基于预设的通用技能模型和单任务技能模型的叠加输出，得到运动指令；预训练的单任务技能模型为经过上面实施例的机器人的模型训练方法训练后得到的单任务技能模型。

如图3所示，在一个实施例中，基于上面实施例所述，控制器将观测数据分别输入预设的通用技能模型和完成预训练的单任务技能模型，分别得到通用技能模型的输出和单任务技能模型的输出；将通用技能模型的输出和单任务技能模型的输出相结合，从而得到运动指令。

如图4所示，在一个实施例中，基于上面实施例所述，控制器将观测数据分别输入预设的通用技能模型和完成预训练的单任务技能模型，通过预设的通用模型最终输出得到运动指令。

本申请实施例通过将通用技能模型和单任务技能模型相结合，因为单任务技能模型的初始参数是通用技能模型预训练之后的结果，所以在训练单任务技能模型时只需要少量的数据即可调整或优化单任务技能模型的输出目标，从而可以减少训练数据量、训练复杂度以及训练成本，从而降低了基于此的运动指令预测的成本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图7，作为对上述图5所示方法的实现，本申请提供了一种机器人的模型训练装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于各种控制器中。

如图7所示，本实施例的单任务技能机器人的模型训练装置400包括：

样本获取模块410，用于获取单任务训练样本；单任务训练样本为单任务观测数据和对应的单任务动作指令构成的训练样本；

模型获取模块420，用于获取预设的通用技能模型和单任务技能模型；其中，单任务技能模型的网络结构和初始参数值与预设的通用技能模型的网络结构和参数值相同；

机器人的模型训练模块430，用于基于单任务训练样本，结合预设的通用技能模型和单任务技能模型的叠加输出，训练单任务技能模型。

在一个实施例中，单任务技能机器人的模型训练装置400还包括：

参数赋值模块440，用于提取预设的通用技能模型的参数值，将提取的参数值赋值给对应的单任务技能模型，以作为单任务技能模型的初始参数值。

通用获取模块，用于获取通用任务训练样本；通用任务训练样本为执行通用任务的通用观测数据和对应的通用动作指令构成的训练样本；

通用训练模块，用于以通用任务训练样本对通用技能模型的初始模型进行训练，以得到预设的通用技能模型。

在一个实施例中，机器人的模型训练模块430包括：

数据输入子模块，用于以单任务训练样本分别作为通用技能模型和单任务技能模型的输入；

数据结合子模块，用于结合通用技能模型的输出和单任务技能模型的输出，得到结合输出；

第一更新子模块，用于基于结合输出训练单任务技能模型。

在一个实施例中，将单任务技能模型中间层的输出加入到通用技能对应的中间层；机器人的模型训练模块430包括：

第二更新子模块，用于基于通用技能模型的输出训练单任务技能模型。

动作获取模块，用于获取操作者的单任务动作数据；单任务动作数据为通过主端交互器采集的操作者基于从端传感器采集的通用观测数据主观执行单个任务过程中的数据；

数据转换模块，用于将单任务动作数据转换为机器人可执行的单任务动作指令，以指示从端机器人模仿单任务动作；

步骤重复模块，用于重复上述步骤，直到完成目标任务；

样本保存模块，用于将单任务观测数据和对应的单任务动作指令进行保存，以形成单任务训练样本。

本申请还提供了一种运动指令预测装置的一个实施例，该装置实施例与上面实施例所示的运动指令预测方法实施例相对应，该装置具体可以应用于各种控制器中。

本实施例的运动指令预测装置包括：

观测获取模块，用于获取观测数据；

指令输出模块，用于以观测数据作为预设的通用技能模型和预训练的单任务技能模型的输入，基于预设的通用技能模型和预训练的单任务技能模型的叠加输出，得到运动指令；预训练的单任务技能模型为经过上面任一项的机器人的模型训练方法训练后的单任务技能模型。

具体请参阅图8，为解决上述技术问题，本申请实施例还提供计算机设备。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如机器人的模型训练方法和/或运动指令预测的程序代码等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据，例如运行机器人的模型训练方法和/或运动指令预测的程序代码。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器人的模型训练方法和/或运动指令预测程序，所述机器人的模型训练程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述机器人的模型训练方法和/或运动指令预测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种机器人的模型训练方法，其特征在于，所述方法包括下述步骤：

获取单任务训练样本；所述单任务训练样本为机器人的单任务观测数据和对应的机器人的单任务动作指令构成的训练样本；

获取预设的通用技能模型和单任务技能模型；其中，所述单任务技能模型的网络结构和初始参数值与所述预设的通用技能模型的网络结构和参数值相同；所述预设的通用技能模型为基于通用任务训练样本训练后的模型；所述通用任务训练样本为执行通用任务的通用观测数据和对应的通用动作指令构成的训练样本；

基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型，包括下述步骤：

以所述单任务训练样本分别作为所述通用技能模型和所述单任务技能模型的输入；结合所述通用技能模型的输出和所述单任务技能模型的输出，得到结合输出；基于所述结合输出训练所述单任务技能模型；或，

将所述单任务技能模型中间层的输出加入到所述通用技能对应的中间层；以所述单任务训练样本分别作为所述通用技能模型和所述单任务技能模型的输入；基于所述通用技能模型的输出训练所述单任务技能模型。

2.根据权利要求1所述的机器人的模型训练方法，其特征在于，获取单任务技能模型之前，还包括下述步骤：

3.根据权利要求1或2所述的机器人的模型训练方法，其特征在于，所述获取单任务训练样本之前，还包括下述步骤：

重复上述步骤，直到完成目标任务；

4.一种运动指令预测方法，其特征在于，所述方法包括下述步骤：

获取观测数据；

以所述观测数据作为所述预设的通用技能模型和预训练的单任务技能模型的输入，基于所述预设的通用技能模型和所述预训练的单任务技能模型的叠加输出，得到运动指令；所述预训练的单任务技能模型为经过权利要求1至3中任一项所述的机器人的模型训练方法训练后的单任务技能模型。

5.一种机器人的模型训练装置，其特征在于，所述装置包括：

模型获取模块，用于获取预设的通用技能模型和单任务技能模型；其中，所述单任务技能模型的网络结构和初始参数值与所述预设的通用技能模型的网络结构和参数值相同；所述预设的通用技能模型为基于通用任务训练样本训练后的模型；所述通用任务训练样本为执行通用任务的通用观测数据和对应的通用动作指令构成的训练样本；

机器人的模型训练模块，用于基于所述单任务训练样本，结合所述预设的通用技能模型和所述单任务技能模型的叠加输出，训练所述单任务技能模型，包括下述步骤：

6.一种运动指令预测装置，其特征在于，所述装置包括：

观测获取模块，用于获取观测数据；

指令输出模块，用于以所述观测数据作为所述预设的通用技能模型和预训练的单任务技能模型的输入，基于所述预设的通用技能模型和所述预训练的单任务技能模型的叠加输出，得到运动指令；所述预训练的单任务技能模型为经过权利要求1至3中任一项所述的机器人的模型训练方法训练后的单任务技能模型。

7.一种机器人的模型训练系统，其特征在于，所述系统包括：主端交互器、从端机器人、从端传感器和控制器；所述从端传感器与所述从端机器人存在预设标定关系；

所述控制器，用于实现将所述单任务动作数据转换成所述单任务动作指令，以指示所述从端机器人模仿操作者动作；以及权利要求1至3中任一项所述的机器人的模型训练方法的步骤。