CN116394276A

CN116394276A - 一种样本生成、模型训练方法、装置及系统

Info

Publication number: CN116394276A
Application number: CN202310658907.6A
Authority: CN
Inventors: 蔡亚谚; 许晋诚
Original assignee: Parsini Perception Technology Zhangjiagang Co ltd
Current assignee: Parsini Perception Technology Zhangjiagang Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-07
Anticipated expiration: 2043-06-06
Also published as: CN116394276B

Abstract

本申请实施例属于人工智能技术领域，涉及一种样本生成方法，包括获取从端机器人基于观测数据得到的自主学习运动指令；基于自主学习运动指令生成可视化的自主学习预测轨迹；向操作者发送自主学习运动轨迹是否正确的询问；响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于动作数据生成从端机器人可执行的遥操作运动指令；以观测数据和对应的自主学习运动指令或遥操作运动指令构建样本。本申请还提供一种模型训练方法、装置及系统。本申请采用的技术方案可以减少机器人训练成本，提高机器人学习效率。

Description

一种样本生成、模型训练方法、装置及系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种样本生成、模型训练方法、装置及系统。

背景技术

为了使机器人能够模仿人的操作动作像是抓取，组装，开门等，操作员可以利用遥操作或是其他示教的方式实现正确的操作动作。在操作过程中，记录机器人实时的观测状态和动作变化。之后可以透过机器学习的方式让机器人学到状态和动作的映射，从而模仿操作员自动操作的动作。但是对于训练数据中没出现过的一些场景，比如：物体种类、物体位姿或物体的其他物理状态环境发生变换，在自动操作过程中，机器人都有可能给出错误的动作。

在目前已有技术方案里，一般会事先提供大量的和不同场景下的操作数据，以确保在机器人自动执行过程中遇到的场景是之前有在训练数据集出现过的。但是，此方法有以下几个不足的地方：一方面，有些同样或类似的操作场景下，机器人只需要少量的数据就足以学习自动操作，但现有的训练方式一般都会提供非常多类似的训练数据以确保机器人在自动操作中能顺利进行；另一方面，在采集训练数据过程中，很难事先预知需要采集的场景包含哪些，所以往往会出现很多不必要的训练数据；再者，这种方法对于新的操作任务往往无法提供一个有效的解决方案或是让机器人有效学习到新的操作技能任务。

发明内容

本申请实施例的目的在于提出一种样本生成、模型训练方法、装置及系统，以减少机器人训练成本，提高机器人学习效率。

第一方面，本申请实施例提供一种样本生成方法，采用了如下所述的技术方案：

一种样本生成方法，所述方法包括下述步骤：

获取从端机器人基于观测数据得到的自主学习运动指令；

基于所述自主学习运动指令生成可视化的自主学习预测轨迹；

向操作者发送所述自主学习运动轨迹是否正确的询问；

响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于所述动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件；

以所述观测数据和对应的所述自主学习运动指令或所述遥操作运动指令构建所述样本。

进一步的，所述方法还包括下述步骤：

响应于操作者触发的自主学习运动轨迹为正确的应答，将所述自主学习运动指令发送给从端机器人，以指示从端机器人执行所述自主学习运动指令；返回执行所述获取从端机器人基于观测数据得到的自主学习运动指令；所述基于所述自主学习运动指令生成可视化的自主学习预测轨迹；以及所述向操作者发送所述自主学习运动轨迹是否正确的询问的步骤，直到满足自主预设终止条件；和/或

所述获取从端机器人基于观测数据得到的自主学习运动指令之前；所述基于所述自主学习运动指令生成可视化的自主学习预测轨迹之后，所述方法还包括下述步骤：

将所述自主学习运动指令发送给从端机器人，以指示从端机器人执行所述自主学习运动指令；和/或

响应于操作者触发的自主学习运动轨迹为正确的应答，维持原操作模式。

进一步的，所述获取从端机器人基于观测数据得到的自主学习运动指令之前，还包括下述步骤：

将所述观测数据输入预设的映射模型，得到所述自主学习运动指令。

进一步的，所述以所述观测数据和对应的所述自主学习运动指令或所述遥操作运动指令构建所述样本之后，还包括下述步骤：

以所述观测数据和对应的所述遥操作运动指令构建的所述样本作为补充训练样本，更新训练所述预设的映射模型。

进一步的，所述响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于所述动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件包括下述步骤：

启动遥操作模式；

获取遥操作过程中与所述观测数据对应的操作者的动作数据；

基于所述动作数据生成从端机器人可执行的所述遥操作运动指令，以指示从端机器人模仿目标动作；

返回执行所述获取遥操作过程中与所述观测数据对应的操作者的动作数据；所述基于所述动作数据生成从端机器人可执行的所述遥操作运动指令的步骤，直到满足所述遥操作终止条件。

第二方面，本申请实施例提供一种映射模型训练方法，其特征在于，所述方法包括下述步骤：

基于初始样本对映射模型进行训练，得到预设的映射模型，以基于输入的所述观测数据，得到所述自主学习运动指令；

以上面任一项所述的样本生成方法得到的所述观测数据和对应的所述遥操作运动指令构建的样本作为补充训练样本，更新训练所述预设的映射模型。

第三方面，本申请实施例提供一种预测模型训练方法，所述方法包括下述步骤：

基于上面任一项所述的样本生成方法得到的所述样本训练所述预测模型。

第四方面，本申请实施例提供一种样本生成装置，所述装置包括：

指令获取模块，用于获取从端机器人基于观测数据得到的自主学习运动指令；

轨迹可视模块，用于基于所述自主学习运动指令生成可视化的自主学习预测轨迹；

询问发送模块，用于向操作者发送所述自主学习运动轨迹是否正确的询问；

指令生成模块，用于响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于所述动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件；

样本构建模块，用于以所述观测数据和对应的所述自主学习运动指令或所述遥操作运动指令构建所述样本。

第五方面，本申请实施例提供一种模型训练装置，所述装置包括：

映射训练模块，用于基于初始样本对映射模型进行训练，得到预设的映射模型，以基于输入的所述观测数据，得到所述自主学习运动指令；

更新训练模块，用于以上面任一项所述的样本生成方法得到的所述观测数据和对应的所述遥操作运动指令构建的样本作为补充训练样本，更新训练所述预设的映射模型；和/或

预测训练模块，用于基于上面任一项所述样本生成方法得到的所述训练样本训练所述预测模型。

第六方面，本申请实施例提供一种基于遥操作的系统，所述系统包括：主端交互器、从端机器人、从端传感器、演示器和控制器；所述从端传感器与所述从端机器人存在预设标定关系；

所述控制器分别与所述主端交互器、所述从端机器人和显示器通信连接；

所述从端传感器，用于采集所述从端机器人的观测数据；

所述主端交互器，用于采集操作者执行目标动作的动作数据，并将所述动作数据发送给所述控制器；其中，操作者基于所述观测数据主观执行目标动作；

所述演示器，用于至少向操作者展示所述控制器发送的所述可视化的自主学习预测轨迹；

所述控制器，用于实现上面任一项所述样本生成方法；上面所述映射模型训练方法；和/或上面所述的预测模型训练方法的步骤。

第七方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上面任一项所述样本生成方法；上面所述映射模型训练方法；和/或上面所述的预测模型训练方法的步骤。

第八方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上面任一项所述样本生成方法；上面所述映射模型训练方法；和/或上面所述的预测模型训练方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例可以预先提供少量的训练数据使得机器人基于观测数据可以生成自主学习运动指令，通过基于遥操作的共享控制，解决机器人无法实时学习新策略的问题；还可以避免采集大量无效数据，从而可以减缓操作员的负担和机器人训练的资源浪费，以减少机器人训练成本，提高机器人学习效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的样本生成方法的一个实施例的流程示意图；

图3是本申请的预测模型训练方法的一个实施例的流程示意图；

图4是本申请的映射模型训练方法的一个实施例的流程示意图；

图5是本申请的样本生成装置的一个实施例的结构示意图；

图6是本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1是本申请可以应用于其中的示例性系统架构图。

本申请实施例提供一种基于遥操作的模型训练系统100，该系统包括：主端交互器110、从端机器人120、从端传感器130和控制器150。

主端交互器110

主端交互器110，用于采集操作者执行目标动作的动作数据，并将动作数据发送给控制器150；其中，操作者基于观测数据主观执行目标动作。

主端交互器110可以但不限于是：主端传感器、设置主端传感器的执行器主体、触控屏、录音器（比如：动作数据也可以是操作者生成的口头指令）等等。

具体地，主端传感器可以为可采集动作数据的任何传感器，比如：IMU、图像传感器、位置编码器、生化传感器（比如：肌电从端传感器）。其中，IMU是惯性测量单元，用于测量操作者相关的运动数据，包括：三维加速度和三维旋转角度。在一个实施例中，图像传感器可以采集操作者执行目标动作中的连续帧图像，以图像或经过预处理后的图像作为上述动作数据。

在一个实施例中，上述主端传感器可以直接固定在操作者的预设关键部位。

在另一个实施例中，也可以将主端传感器预先设置于执行器主体（比如：主端机器人、可穿戴装置（比如：外骨骼或数据手套）），基于操作者主观操作控制执行器主体运动，从而通过设置于执行器主体的主端传感器采集操作者的动作数据。

在一个实施例中，主端传感器与操作者或者执行器本体存在预设的标定关系，这样可以基于主端传感器采集的运动数据直接或者间接反应操作者的动作。

示例性的，以手臂骨骼为例，多个连杆等构成执行器本体，执行器本体对应手臂关节位置可以设置IMU从端传感器，将手臂骨骼穿戴在操作者手臂上，从而可以通过IMU采集在操作者的手臂运动过程中相应关节的运动数据。

需要说明的是，本申请实施例所述的操作者并不限于人类，也可以根据需要为其他生命体，为方便理解，本申请实施例主要以操作者为人类为例进行说明。

从端机器人120

具体地，从端机器人可以为人形机器人；通过串联或者并联方式连接的机械臂（比如：Delta机械手、四轴机械手或六轴机械手）；无人驾驶设备；或者手术/护理/家务/服务机器人等等可模仿人类或其他生命体操作的自动化设备。以从端机器人为机械臂为例，通常机械臂末端还设置末端执行器（比如：夹爪）。

从端传感器130

从端传感器130，用于采集从端机器人120的观测数据。

通过观测数据可以反应从端机器人的工作状况，比如：机器人周边的环境或者机器人目标任务的完成情况等等。

具体地，从端传感器可以但不限于是：图像传感器、力/力矩传感器（比如：二维或多维压力传感、触觉传感器）、机器人的关节位置编码器感器（比如：可以基于编码器得到关节运动量，进而可以求取机器人的姿态）和/或电流或电压计（比如：可以基于电流大小得到某个关节的运动速度相关的信息），以及其他任何可采集观测数据的传感器。

在一个实施例中，从端传感器130与机器人120存在预设标定关系，这样通过从端传感器采集的观测数据可以与机器人相互映射。

示例性的，图像传感器和机器人之间可以预先通过眼手标定的方式进行标定；机器人的关节位置编码器需要与关节的输出法兰同轴固定；力/力矩从端传感器需要通过弹性梁固定于关节预设位置等等，以实现从端传感器与机器人的标定。

控制器150

本申请实施例所述的控制器150可以是指遥操作模块的控制器，也可以是指演示器、主端交互器或从端传感器等的控制器，为方便理解，本申请实施例统称为控制器。上述各个控制器可以集成为一个独立的控制器，也可以分别集成在各自的遥操作模块、演示器、主端交互器或从端传感器等等中，本申请不做限定。

本申请实施例中的控制器可以但不限于是：计算机终端(Personal Computer，PC)；工业控制计算机终端(Industrial Personal Computer， IPC)；移动终端；服务器；包括终端和服务器的系统，并通过终端和服务器的交互实现；可编程逻辑控制器(Programmable Logic Controller，PLC)；现场可编程门阵列(Field-Programmable GateArray，FPGA)；数字信号处理器(Digital SignalProcesser，DSP)或微控制单元(Microcontroller unit，MCU)。控制器根据预先固定的程序，结合外部的主端交互器、从端传感器等采集的数据等生成程序指令。有关控制器的具体限定可以参见下面实施例中样本生成方法、预测模型训练方法、映射模型训练方法等的限定。

示例性的，可以应用于如图6所示的计算机设备中，该计算机设备可以是终端,也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)，以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音响、智能手表等，但并不局限于此。终端以及服务器可以通过有线或者无线通信方式进行直接或间接地连接，本申请在此不做限定。

在一个实施例中，上述从端传感器可以直接向操作者展示观测数据。

在另一个实施例中，该模型训练系统还包括：演示器140。

演示器140，用于将观测数据或经可演示化处理后的观测数据向操作者进行演示，通过演示器的演示帮助操作者更好地了解从端机器人的工作状况。

具体地，演示器140可以直接与从端传感器130通信连接（如图1所示）；除此之外，演示器140也可以通过控制器150与从端传感器通信连接（图未示意出）。

比如：从端传感器采集的观测数据需要通过控制器进行可演示化处理后，向操作者演示（比如：将观测数据转换为虚拟可视化数据后发送给VR演示）；或者，当控制器为服务器时，需要将观测数据发送给服务器，再通过服务器发送给演示器，以实现远程观测数据传输。

具体地，上述演示器可以但不限于是：显示屏、AR/VR类似虚拟显示设备、施力组件、声音播放器，下面举例进行说明：

进一步，在一个实施例中，演示器可以是显示屏，或者具有AR/VR类似虚拟显示功能的设备。

进一步，在一个实施例中，演示器也可以为施力组件等等，可以将从端力从端传感器采集的某物体的施力数据等等转换为相对应的作用力施加给操作者。

进一步，在一个实施例中，演示器也可以为声音播放器，用于通过声音向操作者演示机器人周边环境（比如：在哪个方位存在障碍物、距离目标的距离等等。

本申请实施例中，一方面，至少主端交互器、从端机器人、从端传感器和控制器构成一个遥操作模块；另一方面，控制器还在遥操作模块执行目标动作过程中加入机器人自主学习内容，并记录操作者不同动作下的从端观测数据以及对应的自主学习运动指令或者遥操作运动指令，并作为一训练样本进行存储，从而构成训练样本集；控制器基于该训练样本集训练模型，使得后续执行该模型的机器人可以透过自身的观测数据模仿出类似操作者的反应动作，从而帮助机器人更好地模仿操作者的目标动作等等。

为方便理解，下面进一步对包括上述器件的遥操作模块进行说明。

控制器150分别与主端交互器110、从端机器人120和从端传感器130通信连接。

需要指出的是，本申请实施例所述的通信连接可以指通过有线或者无线的方式通信连接。其中，无线连接方式可以但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。

主端交互器110，采集操作者执行目标动作的动作数据，并将动作数据发送给控制器150；其中，操作者基于观测数据主观执行目标动作。

控制器150，基于动作数据生成从端机器人可执行的运动指令，以指示从端机器人模仿目标动作。

本申请通过上述各个器件的配合，操作者可以基于位于从端的从端传感器采集的观测数据主观执行相应的目标动作，进而通过主端交互器采集操作者对应的动作数据；控制器基于动作数据，生成与该观测数据对应的运动指令，以指示从端机器人模仿操作者动作，并通过位于从端的从端传感器采集变化后的新的观测数据，不断重复上述步骤，则最终可以得到不同观测数据和对应的遥操作运动指令构建的训练样本集。

在另一个实施例中，该遥操作系统还包括：演示器140。

需要说明的是，本申请实施例所提供的模型训练方法一般由控制器150执行，相应地，用于模型训练的装置一般设置于控制器150中。

如图2所示，图2是本申请的样本生成方法的一个实施例的流程示意图。本申请实施例提供一种样本生成方法，可以包括以下步骤：

步骤210获取从端机器人基于观测数据得到的自主学习运动指令。

在一个实施例中，控制器可以将通过从端传感器采集的观测数据输入预设的预测模型，从而输出得到自主学习运动指令。

步骤220基于自主学习运动指令生成可视化的自主学习预测轨迹。

在一个实施例中，控制器基于自主学习运动指令生成预测轨迹；并将该预测轨迹进行可视化，从而生成可视化的自主学习预测轨迹。

比如：控制器可以基于该预测轨迹映射得到有关预测轨迹的图像，再将该图像发送给显示屏向操作者展示出来。

步骤230 向操作者发送自主学习运动轨迹是否正确的询问。

示例性的，控制器可以按照预设地址从存储器调取预先存储的询问相关的程序指令，并将用户选择指令输入界面发送给触控显示屏，以供操作者进行自主学习运动轨迹是否正确的触控选择。

步骤250响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件。

示例性的，控制器响应于操作者触发的自主学习运动轨迹不正确的选择，获取通过主端交互器发送的操作者的动作数据，并基于预设程序指令等将该动作数据转换为从端机器人可执行的遥操作运动指令。

上述遥操作终止条件可以根据需要进行任意设定，比如：完成目标任务操作；接收到操作者触发的自主学习运动轨迹为正确的应答视为终止；或者达到预设重复执行的阈值次数等。

步骤260 以观测数据和对应的自主学习运动指令或遥操作运动指令构建训练样本。

具体地，每个观测数据及其对应的自主学习运动指令或遥操作运动指令构成一组训练样本，多组训练样本构成了训练样本集合。

在一个实施例中，控制器可以将上述训练样本按照预设地址发送至存储器存储，或者发送到服务器进行存储。

继续如图2所示，在一个实施例中，步骤230之后，本申请实施例所述的样本生成方法还包括如下方法步骤：

步骤240响应于操作者触发的自主学习运动轨迹为正确的应答，将自主学习运动指令发送给从端机器人，以指示从端机器人执行自主学习运动轨迹；返回执行上述步骤210-步骤230，直到满足自主预设终止条件。

示例性的，控制器响应于操作者触发的自主学习运动轨迹正确的选择，按照预设地址从存储器或者服务器调取自主学习运动指令，并将该运动指令发送给从端机器人。

上述自主预设终止条件可以根据需要进行任意设定，比如：完成目标任务操作。

在另一个实施例中，在步骤210之后，步骤220之前，本申请实施例所述的样本生成方法还包括如下方法步骤：

步骤340将自主学习运动指令发送给从端机器人，以指示从端机器人执行自主学习运动轨迹。

在本申请实施例中，在默认情况下机器人执行自主学习运动指令，即不需要执行步骤240响应于操作者触发的自主学习运动轨迹为正确的应答才向机器人发送运动指令；只有当收到操作者触发的自主学习运动轨迹为不正确的应答时，才切换到遥操作模式。

进一步，在一个实施例中，步骤230之后，本申请实施例所述的样本生成方法还包括如下方法步骤：

当接收到操作者触发的自主学习运动轨迹为正确的应答时，继续维持原有的直接将获取的自主学习运动指令发送给从端机器人，以指示从端机器人执行自主学习运动轨迹；而不选择启动遥操作模式。

本申请实施例中，机器人可以透过当前场景自主预测未来执行轨迹，并将预测轨迹呈现给操作员。如果经操作员判断该预测要执行的轨迹是正确的，机器人可以按照该预测轨迹执行该动作；如果是错误的，可以基于操作员介入遥操作并提供正确的操作动作数据以完成任务。我们可以预先提供少量的训练数据使得机器人基于观测数据可以生成自主学习运动指令，通过基于遥操作的共享控制，解决机器人无法实时学习新策略的问题；还可以避免采集大量无效数据，从而可以减缓操作员的负担和机器人训练的资源浪费，以减少机器人训练成本，提高机器人学习效率。

在一个实施例中，步骤S210之前，还可以包括如下方法步骤：

步骤270 将观测数据输入预设的映射模型，得到自主学习运动指令。

在一个实施例中，控制器按照预设地址从存储器或者服务器获取预先存储的经过一定训练的预设的映射模型；以观测数据作为该预设的映射模型的输入，从而输出得到与观测数据对应的运动指令；除此之外，也可预先构建观测数据和自主学习运动指令的映射关系模型以及基于各种现在已有或将来开发的方法得到自主学习运动指令。优选通过步骤270的方法得到自主学习运动指令，从而可以提高整个模型训练的鲁棒性。

进一步，在一个实施例中，步骤270之前，可以包括如下方法步骤：

步骤370基于初始样本对映射模型进行训练，以得到预设的映射模型。

具体地，可以基于遥操作或者其他示教方法生成有关观测数据和运动指令的少量的初始样本。

在一个实施例中，控制器可以基于一定量的观测数据和运动指令，利用类似transformer或是其他时序模型训练一个预测未来机器人的预测模型，可以用相对较少数量的训练样本对模型进行训练。

进一步，在一个实施例中，步骤260所述以观测数据和对应的遥操作运动指令构建训练样本之后，还包括：

步骤380以观测数据和对应的遥操作运动指令构建的训练样本作为补充训练样本，更新训练预设的映射模型。

基于观测数据和遥操作运动指令对映射模型进行更新训练，从而使得映射模型能够预测更广的数据分布，从而也可以提高后续预测模型的预测精度，提高预测模型的训练效率，进而提高模型训练的效率。

在一个实施例中，步骤220基于自主学习运动指令生成可视化的自主学习预测轨迹可以包括如下方法步骤：

步骤221基于自主学习运动指令生成预测轨迹。

在一个实施例中，控制器基于该运动指令，可以预测得到实施该运动指令后的机器人的轨迹，比如：以机械臂为例，基于各个关节的运动量指令，可以得到机械臂末端的姿态。

步骤222将该预测轨迹进行可视化，从而生成可视化的自主学习预测轨迹。

在一个实施例中，控制器基于步骤221生成的各个关节的姿态，将各个关节姿态转换到显示器显示的图像坐标系下的显示坐标；并对各个显示坐标进行标记，从而生成可视化的自主学习预测轨迹。

通过上面实施例所述，可以基于自主学习运动指令生成从端机器人可视化预测轨迹，并将该可视化预测轨迹发送给演示器进行演示，从而可以方便操作者对自主学习得到的预测轨迹是否正确进行更直观的判断。

在一个实施例中，步骤240响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件包括下述步骤：

步骤280启动遥操作模式。

在一个实施例中，控制器响应于接收到的操作者触发的自主学习运动轨迹为不正确的应答，可以按照预设地址调取预先存储的遥操作启动指令。

示例性的，基于上述遥操作启动遥操作启动指令，一方面，控制器将该遥操作提醒发送给演示器，以提示操作者开始进入遥操作模式；另一方面，控制器还同时调取预设的遥操作相关的程序指令等。

步骤290获取操作者基于观测数据主观执行目标动作的动作数据。

在一个实施例中，控制器可以按照预设存储地址从存储器或者服务器调取主端交互器在操作者基于观测数据主观执行目标动作过程中采集并输出的操作者的动作数据。

示例性的，动作数据可以是通过固定于穿戴于操作者的可穿戴设备的姿态传感器采集的操作者的关节的姿态或者运动矢量数据；和/或运动的速度、加速度、加加速度等数据信息。

步骤300基于动作数据生成从端机器人可执行的遥操作运动指令，以指示从端机器人模仿操作者的目标动作。

具体地，对于步骤300基于动作数据生成从端机器人可执行的运动指令，可以基于任何现在已有或将来开发的遥操作相关的方法步骤实现。

在一个实施例中，可以将主端交互器输出的运动数据进行滤波（或者某些传感器自带滤波功能）；基于运动数据映射得到机器人的关节运动量（比如：基于运动数据映射得到从端机器人的关节旋转角度；或者基于笛卡尔坐标系将运动数据映射得到机械臂末端关节姿态，再基于逆运动学方程求取各个关节运动量）；基于机器人的关节运动量进行轨迹规划，生成运动指令，以指示机器人模仿操作者的目标动作。

在一个实施例中，控制器基于主端交互器输出的操作者的动作数据（比如：基于IMU可以采集手臂各个关节的加速度和角速度等），基于预设的映射关系得到从端机器人末端或者各个关节的姿态、运动速度和/或加速度/加加速度等等，基于逆运动学方程等生成从端机器人的各个关节运动量的运动指令，从而控制从端机器人模仿操作者的动作。

在一个实施例中，动作数据也可以是操作者生成的口头指令，控制器获取通过录音设备记录操作者生成的口头指令，基于预定的翻译程序或者预设的人工智能翻译模型等将该记录的口头指令翻译成从端机器人的运动指令。

步骤310重复执行获取遥操作过程中与观测数据对应的操作者的动作数据；基于动作数据生成从端机器人可执行的遥操作运动指令的步骤，直到满足遥操作终止条件。

示例性的，在一个遥操作抓取任务里，操作者会利用显示器（比如：VR设备）感知机器人的观测数据，这些信息可以包含机器人工作的图像，机械臂和末端执行器的力矩数据和姿态，还有触觉的反馈等。操作者会利用这些信息估计机器人的当前状态，像是机器人离目标抓取物体的距离，附近的障碍物是否与物体已经接触等并执行相应的目标动作。IMU采集操作者执行目标动作过程中的动作数据，并将该动作数据发送给控制器；控制器基于该动作数据生成运动指令，以指示从端机器人进行模仿运动；在执行完一轮动作后，操作者会再透过从端机器人的从端传感器采集得到新一轮的观测数据，然后控制器再生成并发送下一个运动指令给从端机器人。上述步骤会持续进行直到目标物体被抓取。在执行遥操作过程中的观测数据和对应的遥操作运动指令会被记录存储下来作为本申请实施例所述的样本的一部分。

在一个实施例中，本申请实施例还提供一种预测模型训练方法，本申请实施例所提供的预测模型训练方法一般由控制器150执行，相应地，用于预测模型训练的装置一般设置于控制器150中。

步骤320基于样本训练预测模型。

本申请实施例所述的样本为基于上面实施例所述的样本生成方法得到训练样本，在一个实施例中，如图3所示，图3为一种预测模型训练方法的实施例的流程示意图。则，步骤320之前，可以包括上面实施例所述的样本生成方法的步骤。

具体地，每个模型是由多个神经元相互连接组成的。每个神经元有多个输入和一个输出。每个输入会有一个对应的权值。将输入和对应的权值相乘然后求和可以得到一个数字。再把该数字代入到一个激活函数后得到的结果为该神经元的输出值。模型训练的目标是要找到每个神经元的权值使得神经网络可以得到观测数据和运动指令的映射。

在一个实施例中，在训练神经网络时，要先对所有神经元的权值进行随机初始化。训练是以迭代的方式对神经网络里神经元的权值进行更新。在每一轮更新中，会先从训练数据中随机采样N组数据。这里每一组数据包含了观测数据和对应的运动指令。此运动指令可以称为groundtruth。训练时，这N组观测数据会被输入到神经网络里，神经网络会生成N组运动指令输出。一个损失函数会计算N组生成的结果和groundtruth的距离，然后以反向传播的方式对每个神经元的权值更新。此更新会一直迭代直到完成了指定的迭代次数或损失函数里算出的距离最小化。

在一个实施例中，步骤320可以包括如下方法步骤：

步骤321基于样本训练初始的预测模型，得到预训练模型；

步骤322对预训练模型进行训练，得到训练后的预测模型。

本申请实施例通过先对模型基于上述方法进行训练之后得到的模型作为预训练模型，再以其他模型训练方法（比如：强化学习或是机器人自行探索的方式）对预训练模型进行进一步训练，使得执行基于此方法训练后得到的最终模型的机器人，可以进一步提升模仿操作者动作的能力。

在一个实施例中，本申请实施例还提供一种映射模型训练方法，本申请实施例所提供的映射模型训练方法一般由控制器150执行，相应地，用于映射模型训练的装置一般设置于控制器150中。

如图4所示，图4为一种映射模型训练方法的实施例的流程示意图。在一个实施例中，映射模型训练方法可以包括如下步骤：

步骤410基于初始样本对映射模型进行训练，得到预设的映射模型，以基于输入的观测数据，得到自主学习运动指令。

进一步，在一个实施例中，步骤260以观测数据和对应的遥操作运动指令构建训练样本之后，以及步骤410之后，还包括：

步骤420以观测数据和对应的遥操作运动指令构建的训练样本作为补充训练样本，更新训练预设的映射模型。

有关模型训练的其他描述可以参见上面的实施例，在此不再赘述。

基于观测数据和遥操作运动指令对映射模型进行更新训练，从而使得映射模型预测的精度更高，从而也可以提高后续预测模型的预测精度，进而提高模型训练的效率。

需要说明的是，本申请实施例所述的预测模型或映射模型可以包含任意一整能够以神经元组成的网络。比如：Feed-Forward Networks, RNN, LSTM，Transformer, GNN,GAN, AE,卷积神经网络(CNN)，常见的CNN 模型可以包括但不限于：LeNet，AlexNet，ZFNet，VGG，GoogLeNet，Residual Net，DenseNet，R-CNN，SPP-NET，Fast-RCNN，Faster-RCNN，FCN，Mask-RCNN， YOLO，SSD， GCN以及其它现在已知或将来开发的网络模型结构。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5，作为对上述图2所示方法的实现，本申请提供了一种样本生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种控制器中。

如图5所示，在一个实施例中，本实施例的样本生成装置500包括：

指令获取模块510，用于获取从端机器人基于观测数据得到的自主学习运动指令；

轨迹可视模块520，用于基于自主学习运动指令生成可视化的自主学习预测轨迹；

询问发送模块530，用于向操作者发送自主学习运动轨迹是否正确的询问；

指令生成模块550，用于响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件；

样本构建模块560，用于以观测数据和对应的自主学习运动指令或遥操作运动指令构建样本。

本申请还提供一种模型训练装置的一个实施例，该装置实施例与映射模型训练方法、预测模型训练方法的实施例相对应，该装置具体可以应用于各种控制器中。

在一个实施例中，样本生成装置500还包括：

第一发送模块，用于响应于操作者触发的自主学习运动轨迹为正确的应答，将自主学习运动指令发送给从端机器人，以指示从端机器人执行自主学习运动指令；返回执行获取从端机器人基于观测数据得到的自主学习运动指令；基于自主学习运动指令生成可视化的自主学习预测轨迹；以及向操作者发送自主学习运动轨迹是否正确的询问的步骤，直到满足自主预设终止条件。

在一个实施例中，样本生成装置500还包括：

第二发送模块，用于将自主学习运动指令发送给从端机器人，以指示从端机器人执行所述自主学习运动指令；和/或

在一个实施例中，样本生成装置500还包括：

自主生成模块，用于将观测数据输入预设的映射模型，得到自主学习运动指令。

在一个实施例中，样本生成装置500还包括：

补充训练模块，用于以观测数据和对应的遥操作运动指令构建的样本作为补充训练样本，更新训练预设的映射模型。

在一个实施例中，指令生成模块550包括：

模式启动子模块，用于启动遥操作模式；

动作获取子模块，用于获取遥操作过程中与观测数据对应的操作者的动作数据；

指令生成子模块，用于基于动作数据生成从端机器人可执行的遥操作运动指令，以指示从端机器人模仿目标动作；

步骤重复子模块，用于返回执行所述获取遥操作过程中与观测数据对应的操作者的动作数据；基于动作数据生成从端机器人可执行的遥操作运动指令的步骤，直到满足遥操作终止条件。

在一个实施例中，本实施例的模型训练装置包括：

映射训练模块，用于基于初始样本对映射模型进行训练，得到预设的映射模型，以基于输入的观测数据，得到自主学习运动指令；

更新训练模块，用于以上面任一项的样本生成方法得到的观测数据和对应的遥操作运动指令构建的样本作为补充训练样本，更新训练预设的映射模型；和/或

预测训练模块，用于基于上面任一项的样本生成方法得到的样本训练预测模型。

具体请参阅图6，为解决上述技术问题，本申请实施例还提供计算机设备。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如样本生成、映射模型训练、预测模型训练方法的程序代码等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据，例如运行所述样本生成、映射模型训练、预测模型训练方法的程序代码。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有样本生成、模型训练等程序，所述样本生成、模型训练程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的样本生成、映射模型训练、预测模型训练方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种样本生成方法，其特征在于，所述方法包括下述步骤：

获取从端机器人基于观测数据得到的自主学习运动指令；

向操作者发送所述自主学习运动轨迹是否正确的询问；

2.根据权利要求1所述样本生成方法，其特征在于，所述方法还包括下述步骤：

3.根据权利要求1或2所述样本生成方法，其特征在于，所述获取从端机器人基于观测数据得到的自主学习运动指令之前，还包括下述步骤：

4.根据权利要求3所述样本生成方法，其特征在于，所述以所述观测数据和对应的所述自主学习运动指令或所述遥操作运动指令构建所述样本之后，还包括下述步骤：

5.根据权利要求1或2所述样本生成方法，其特征在于，所述响应于操作者触发的自主学习运动轨迹为不正确的应答，启动遥操作模式；获取遥操作过程中与观测数据对应的操作者的动作数据，基于所述动作数据生成从端机器人可执行的遥操作运动指令，直到满足遥操作终止条件包括下述步骤：

启动遥操作模式；

6.一种映射模型训练方法，其特征在于，所述方法包括下述步骤：

以权利要求1至5任一项所述的样本生成方法得到的所述观测数据和对应的所述遥操作运动指令构建的样本作为补充训练样本，更新训练所述预设的映射模型。

7.一种预测模型训练方法，其特征在于，所述方法包括下述步骤：

基于权利要求1至5任一项所述的样本生成方法得到的所述样本训练所述预测模型。

8.一种样本生成装置，其特征在于，所述装置包括：

9.一种模型训练装置，其特征在于，所述装置包括：

更新训练模块，用于以权利要求1至5中任一项所述的样本生成方法得到的所述观测数据和对应的所述遥操作运动指令构建的样本作为补充训练样本，更新训练所述预设的映射模型；和/或

预测训练模块，用于基于权利要求1至5中任一项所述样本生成方法得到的所述样本训练所述预测模型。

10.一种基于遥操作的系统，其特征在于，所述系统包括：主端交互器、从端机器人、从端传感器、演示器和控制器；所述从端传感器与所述从端机器人存在预设标定关系；

所述从端传感器，用于采集所述从端机器人的观测数据；

所述控制器，用于实现权利要求1-5中任一项所述样本生成方法；权利要求6所述映射模型训练方法；和/或权利要求7所述的预测模型训练方法的步骤。