CN116629373A - 一种模型训练系统、训练方法、装置及存储介质 - Google Patents

一种模型训练系统、训练方法、装置及存储介质 Download PDF

Info

Publication number
CN116629373A
CN116629373A CN202310284706.4A CN202310284706A CN116629373A CN 116629373 A CN116629373 A CN 116629373A CN 202310284706 A CN202310284706 A CN 202310284706A CN 116629373 A CN116629373 A CN 116629373A
Authority
CN
China
Prior art keywords
training
slave
action
data
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310284706.4A
Other languages
English (en)
Inventor
蔡亚谚
许晋诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Passini Perception Technology Shenzhen Co ltd
Original Assignee
Passini Perception Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Passini Perception Technology Shenzhen Co ltd filed Critical Passini Perception Technology Shenzhen Co ltd
Priority to CN202310284706.4A priority Critical patent/CN116629373A/zh
Publication of CN116629373A publication Critical patent/CN116629373A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Manipulator (AREA)

Abstract

本申请实施例属于模型训练技术领域,涉及一种模型训练系统,包括:主端交互器、从端机器人、从端传感器和控制器;控制器分别与主端交互器和从端机器人通信连接;从端传感器,用于采集从端机器人的观测数据;主端交互器,用于采集操作者执行目标动作的动作数据,并将动作数据发送给控制器;其中,操作者基于所述观测数据主观执行目标动作;控制器,用于基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作;以及基于观测数据和对应的动作指令构建的训练样本集训练所述模型。本申请还提供一种模型训练装置、计算机设备及存储介质。本申请采用的技术方案可以帮助机器人更好地模仿操作者的目标动作。

Description

一种模型训练系统、训练方法、装置及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练系统、训练方法、装置及存储介质。
背景技术
目前,在机器人学习自动操作过程中,使用深度学习让机器人学习新的技能通常需要大量数据进行训练。目前普遍的做法是用强化学习的方法先让机器人在环境中利用随机策略采集数据,再透过人为定义的奖励函数进行学习的策略。
但是,在真实环境下利用随机策略取得数据存在安全风险,而且容易造成硬件损坏。虽然也可以透过搭建仿真环境的方法取得数据,但是仿真和真实环境的数据分布存在差异,容易导致训练结果无法有效地迁移和部署在真实环境中,从而影响机器人对人动作模仿的精度。
发明内容
本申请实施例的目的在于提出一种模型训练系统、训练方法、装置及存储介质,以帮助机器人更好地模仿操作者的目标动作。
第一方面,本申请实施例提供一种模型训练系统,采用了如下所述的技术方案:
一种模型训练系统,包括:主端交互器、从端机器人、从端传感器和控制器;所述从端传感器与所述从端机器人存在预设标定关系;
所述控制器分别与所述主端交互器和所述从端机器人通信连接;
所述从端传感器,用于采集所述从端机器人的观测数据;
所述主端交互器,用于采集操作者执行目标动作的动作数据,并将所述动作数据发送给所述控制器;其中,操作者基于所述观测数据主观执行目标动作;
所述控制器,用于基于所述动作数据生成从端机器人可执行的动作指令,以指示所述从端机器人模仿所述目标动作;以及基于所述观测数据和对应的所述动作指令构建的训练样本集训练所述模型。
进一步的,所述模型训练系统还包括演示器;
所述演示器与所述从端传感器通信连接;或
所述演示器通过所述控制器与所述传感器通信连接;
所述演示器,用于将所述观测数据或者经过可演示化处理后的所述观测数据向操作者进行演示。
进一步的,所述从端传感器包括:图像传感器、力/力矩传感器、测距传感器、机器人的关节位置编码器、电流计和/或电压计。
进一步的,所述主端交互器包括:主端传感器、设置所述主端传感器的执行器主体、触控屏和/或录音器;和/或
所述主端交互器与操作者之间存在预设的标定关系。
第二方面,本申请实施例提供一种模型训练方法,所述方法包括下述步骤:
获取从端机器人的观测数据和对应的动作指令构建的训练样本集;其中,所述动作指令为基于通过主端交互器输出的操作者执行目标动作的动作数据生成的指令;
基于所述训练样本集训练所述模型。
进一步的,所述获取所述从端观测数据和对应的所述动作指令构建的练样本集之前,还包括下述步骤:
获取操作者基于观测数据执行目标动作的动作数据;
基于所述动作数据生成从端机器人可执行的动作指令,以指示所述从端机器人模仿所述目标动作;
重复上述步骤,直到完成目标任务。
进一步的,所述基于所述训练样本集训练模型包括:
基于所述训练样本集训练初始模型,得到训练后的模型;或
基于所述训练样本集训练初始模型,得到预训练模型;
对所述预训练模型进行训练,得到训练后的模型。
进一步的,所述获取操作者基于观测数据执行目标动作的动作数据之前,还包括下述步骤:
获取通过从端传感器采集的从端机器人的所述观测数据;
将所述观测数据或者经过可演示化处理后的所述观测数据发送给演示器,以通过演示器向操作者进行演示。
第三方面,本申请实施例提供一种模型训练装置,所述装置包括:
获取模块,用于获取从端机器人的观测数据和对应的动作指令构建的训练样本集;其中,所述动作指令为基于通过主端交互器输出的操作者执行目标动作的动作数据生成的指令;
训练模块,用于基于所述训练样本集训练所述模型。
第四方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上面任一项所述的模型训练方法的步骤。
第五方面,本申请实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上面任一项所述的模型训练方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,一方面,至少主端交互器、从端机器人、从端传感器和控制器构成一个遥操作模块;另一方面,控制器还在遥操作模块执行目标动作过程中记录操作者不同动作下的从端观测数据以及对应的动作指令,并作为一组训练样本进行存储,从而构成训练样本集;控制器基于该训练样本集训练模型,以学习观测数据到动作指令的映射关系,使得后续执行该模型的机器人可以透过自身的观测数据模仿出类似操作者的反应动作,从而帮助机器人更好地模仿操作者的目标动作。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的模型训练方法的一个实施例的流程示意图;
图3是本申请的模型训练方法的另一个实施例的流程示意图;
图4是本申请的模型训练装置的一个实施例的结构示意图;
图5是本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,图1是本申请可以应用于其中的示例性系统架构图。
本申请实施例提供一种模型训练系统100,该系统包括:主端交互器110、从端机器人120、从端传感器130和控制器150。
主端交互器110
主端交互器110,用于采集操作者执行目标动作的动作数据,并将动作数据发送给控制器150;其中,操作者基于观测数据主观执行目标动作。
主端交互器110可以但不限于是:主端传感器、设置主端传感器的执行器主体、触控屏、录音器(比如:动作数据也可以是操作者生成的口头指令)等等。
具体地,主端传感器可以为可采集动作数据的任何传感器,比如:IMU、图像传感器、位置编码器、生化传感器(比如:肌电从端传感器)。其中,IMU是惯性测量单元,用于测量操作者相关的运动数据,包括:三维加速度和三维旋转角度。在一个实施例中,图像传感器可以采集操作者执行目标动作中的连续帧图像,以图像或经过预处理后的图像作为上述动作数据。
在一个实施例中,上述主端传感器可以直接固定在操作者的预设关键部位。
在另一个实施例中,也可以将主端传感器预先设置于执行器主体(比如:主端机器人、可穿戴装置(比如:外骨骼或数据手套)),基于操作者主观操作控制执行器主体运动,从而通过设置于执行器主体的主端传感器采集操作者的动作数据。
在一个实施例中,主端传感器与操作者或者执行器本体存在预设的标定关系,这样可以基于主端传感器采集的运动数据直接或者间接反应操作者的动作。
示例性的,以手臂骨骼为例,多个连杆等构成执行器本体,执行器本体对应手臂关节位置可以设置IMU从端传感器,将手臂骨骼穿戴在操作者手臂上,从而可以通过IMU采集在操作者的手臂运动过程中相应关节的运动数据。
需要说明的是,本申请实施例所述的操作者并不限于人类,也可以根据需要为其他生命体,为方便理解,本申请实施例主要以操作者为人类为例进行说明。
从端机器人120
具体地,从端机器人可以为人形机器人;通过串联或者并联方式连接的机械臂(比如:Delta机械手、四轴机械手或六轴机械手);无人驾驶设备;或者手术/护理/家务/服务机器人等等可模仿人类或其他生命体操作的自动化设备。以从端机器人为机械臂为例,通常机械臂末端还设置末端执行器(比如:夹爪)。
从端传感器130
从端传感器130,用于采集从端机器人120的观测数据。
通过观测数据可以反应从端机器人的工作状况,比如:机器人周边的环境或者机器人目标任务的完成情况等等。
具体地,从端传感器可以但不限于是:图像传感器、力/力矩传感器(比如:二维或多维压力传感、触觉传感器)、机器人的关节位置编码器感器(比如:可以基于编码器得到关节运动量,进而可以求取机器人的姿态)和/或电流或电压计(比如:可以基于电流大小得到某个关节的运动速度相关的信息),以及其他任何可采集观测数据的传感器。
在一个实施例中,从端传感器130与机器人120存在预设标定关系,这样通过从端传感器采集的观测数据可以与机器人相互映射。
示例性的,图像传感器和机器人之间可以预先通过眼手标定的方式进行标定;机器人的关节位置编码器需要与关节的输出法兰同轴固定;力/力矩从端传感器需要通过弹性梁固定于关节预设位置等等,以实现从端传感器与机器人的标定。
控制器150
控制器,用于基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作;以及基于观测数据和对应的动作指令构建的训练样本集训练模型等等。
需要说明的是,本申请实施例所述的控制器150可以是指遥操作模块的控制器,也可以是指演示器、主端交互器或从端传感器等的控制器,为方便理解,本申请实施例统称为控制器。上述各个控制器可以集成为一个独立的控制器,也可以分别集成在各自的遥操作模块、演示器、主端交互器或从端传感器等等中,本申请不做限定。
本申请实施例中的控制器可以但不限于是:计算机终端(Personal Computer,PC);工业控制计算机终端(Industrial Personal Computer,IPC);移动终端;服务器;包括终端和服务器的系统,并通过终端和服务器的交互实现;可编程逻辑控制器(ProgrammableLogic Controller,PLC);现场可编程门阵列(Field-Programmable Gate Array,FPGA);数字信号处理器(Digital Signal Processer,DSP)或微控制单元(Microcontroller unit,MCU)。控制器根据预先固定的程序,结合外部的主端交互器、从端传感器等采集的数据等生成程序指令。有关控制器的具体限定可以参见下面实施例中模型训练方法的限定。
示例性的,可以应用于如图5所示的计算机设备中,该计算机设备可以是终端,也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络),以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音响、智能手表等,但并不局限于此。终端以及服务器可以通过有线或者无线通信方式进行直接或间接地连接,本申请在此不做限定。
在一个实施例中,上述从端传感器可以直接向操作者展示观测数据。
在另一个实施例中,该模型训练系统还包括:演示器140。
演示器140,用于将观测数据或经可演示化处理后的观测数据向操作者进行演示,通过演示器的演示帮助操作者更好地了解从端机器人的工作状况。
具体地,演示器140可以直接与从端传感器130通信连接(如图1所示);除此之外,演示器140也可以通过控制器150与从端传感器通信连接(图未示意出)。
比如:从端传感器采集的观测数据需要通过控制器进行可演示化处理后,向操作者演示(比如:将观测数据转换为虚拟可视化数据后发送给VR演示);或者,当控制器为服务器时,需要将观测数据发送给服务器,再通过服务器发送给演示器,以实现远程观测数据传输。
具体地,上述演示器可以但不限于是:显示屏、AR/VR类似虚拟显示设备、施力组件、声音播放器,下面举例进行说明:
进一步,在一个实施例中,演示器可以是显示屏,或者具有AR/VR类似虚拟显示功能的设备。
进一步,在一个实施例中,演示器也可以为施力组件等等,可以将从端力从端传感器采集的某物体的施力数据等等转换为相对应的作用力施加给操作者。
进一步,在一个实施例中,演示器也可以为声音播放器,用于通过声音向操作者演示机器人周边环境(比如:在哪个方位存在障碍物、距离目标的距离等等。
需要说明的是,操作者也可以直接基于眼睛观测,而无需借助演示器对观测数据的演示主观执行目标动作。
本申请实施例中,一方面,至少主端交互器、从端机器人、从端传感器和控制器构成一个遥操作模块;另一方面,控制器还在遥操作模块执行目标动作过程中记录操作者不同动作下的从端观测数据以及对应的动作指令,并作为一组训练样本进行存储,从而构成训练样本集;控制器基于该训练样本集训练模型,以学习观测数据到动作指令的映射关系,使得后续执行该模型的机器人可以透过自身的观测数据模仿出类似操作者的反应动作,从而帮助机器人更好地模仿操作者的目标动作。
为方便理解,下面进一步对包括上述器件的遥操作模块进行说明。
控制器150分别与主端交互器110、从端机器人120和从端传感器130通信连接。
需要指出的是,本申请实施例所述的通信连接可以指通过有线或者无线的方式通信连接。其中,无线连接方式可以但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
主端交互器110,采集操作者执行目标动作的动作数据,并将动作数据发送给控制器140;其中,操作者基于观测数据主观执行目标动作。
控制器150,基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作。
本申请通过上述各个器件的配合,操作者可以基于位于从端的从端传感器采集的观测数据主观执行相应的目标动作,进而通过主端交互器采集操作者对应的动作数据;控制器基于动作数据,生成与该观测数据对应的动作指令,以指示从端机器人模仿操作者动作,并通过位于从端的从端传感器采集变化后的新的观测数据,不断重复上述步骤,则最终可以得到不同观测数据和对应的动作指令构建的训练样本集。
在一个实施例中,该遥操作系统中还包括演示器140,将观测数据或者经过可演示化处理后的观测数据向操作者进行演示,以通过演示器的演示帮助操作者了解从端机器人的工作情况。
本申请实施例通过设置演示器,可以使得操作者即使在远程遥操作情况下,在操作者无法直接感受从端机器人工作状况的情况下,通过演示器对观测数据的演示,仍然可以帮助操作者对从端机器人的工作状况有更清楚地了解。
需要说明的是,本申请实施例所提供的模型训练方法一般由控制器140执行,相应地,用于模型训练的装置一般设置于控制器140中。
如图2所示,图2是本申请的模型训练方法的一个实施例的流程示意图。本申请实施例提供一种模型训练方法,可以包括以下步骤:
步骤210获取从端观测数据和对应的动作指令构成的训练样本集。
步骤220基于训练样本集训练模型。
在一个实施例中,步骤220可以包括如下方法步骤:
步骤221基于训练样本集训练初始模型,得到训练后的模型。
具体地,每个模型是由多个神经元相互连接组成的。每个神经元有多个输入和一个输出。每个输入会有一个对应的权值。将输入和对应的权值相乘然后求和可以得到一个数字。再把该数字代入到一个激活函数后得到的结果为该神经元的输出值。模型训练的目标是要找到每个神经元的权值使得神经网络可以得到机器人观测状态和模仿动作的映射。
在一个实施例中,在训练神经网络时,要先对所有神经元的权值进行随机初始化。训练是以迭代的方式对神经网络里神经元的权值进行更新。在每一轮更新中,会先从训练数据中随机采样N组数据。这里每一组数据包含了观测数据和对应的动作指令。此动作指令可以称为groundtruth。训练时,这N组观测数据会被输入到神经网络里,神经网络会生成N组动作指令输出。一个损失函数会计算N组生成的动作和groundtruth的距离,然后以反向传播的方式对每个神经元的权值更新。此更新会一直迭代直到完成了指定的迭代次数或损失函数里算出的距离最小化。
在一个实施例中,步骤220可以包括如下方法步骤:
步骤222基于训练样本集训练初始模型,得到预训练模型;
步骤224对预训练模型进行训练,得到训练后的模型。
本申请实施例通过先对模型基于上述方法进行训练之后得到的模型作为预训练模型,再以其他模型训练方法(比如:强化学习或是机器人自行探索的方式)对预训练模型进行进一步训练,使得执行基于此方法训练后得到的最终模型的机器人,可以进一步提升模仿操作者动作的能力。
在一个实施例中,本申请实施例所述的模型可以包含任意一整能够以神经元组成的网络。比如:Feed-Forward Networks,RNN,LSTM,Transformer,GNN,GAN,AE,卷积神经网络(CNN),常见的CNN模型可以包括但不限于:LeNet,AlexNet,ZFNet,VGG,GoogLeNet,Residual Net,DenseNet,R-CNN,SPP-NET,Fast-RCNN,Faster-RCNN,FCN,Mask-RCNN,YOLO,SSD,GCN以及其它现在已知或将来开发的网络模型结构。
本申请实施例通过在遥操作模块执行目标动作过程中记录操作者不同动作下的从端观测数据以及对应的动作指令,并作为一组训练样本进行存储,从而构成训练样本集;控制器基于该训练样本集训练模型,以学习观测数据到动作指令的映射关系,使得后续执行该模型的机器人可以透过自身的观测数据模仿出类似操作者的反应动作,从而帮助机器人更好地模仿操作者的目标动作。
如图3所示,图3是本申请的模型训练方法的另一个实施例的流程示意图。在一个实施例中,步骤210之前,还可以包括以下方法步骤:
步骤230获取操作者基于观测数据执行目标动作的动作数据。
进一步,在一个实施例中,控制器可以按照预设存储地址从存储器或者服务器调取从端传感器在操作者执行目标动作中采集并输出的动作数据。
示例性的,动作数据可以是通过固定于穿戴于操作者的可穿戴设备的姿态从端传感器采集的操作者的关节的姿态或者运动矢量数据;和/或运动的速度、加速度、加加速度等数据信息。
步骤240基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作。
在一个实施例中,控制器基于主端交互器输出的操作者的动作数据(比如:从端传感器上对应各个关节设置IMU,基于IMU可以采集手臂各个关节的位置),基于预设的映射关系得到从端机器人末端或者各个关节的姿态、运动速度、加速度/加加速度等等,基于逆运动学方程等生成从端机器人的各个关节运动量的动作指令,从而控制从端机器人模仿操作者的动作。
在一个实施例中,动作数据也可以是操作者生成的口头指令,控制器获取通过录音设备记录操作者生成的口头指令,基于预定的翻译程序或者预设的人工智能翻译模型等将该记录的口头指令翻译成从端机器人的动作指令。
步骤250重复上述步骤,直到完成目标任务。
示例性的,在一个遥操作抓取任务里,操作者会利用演示器(比如:穿戴式设备)感知机器人的观测数据,这些信息可以包含机器人工作的图像,机械臂和末端执行器的力矩数据和姿态,还有触觉的反馈等。操作者会利用这些信息估计机器人的当前状态,像是机器人离目标抓取物体的距离,附近的障碍物,是否与物体已经接触等并执行相应的目标动作;IMU采集操作者执行目标动作过程中的动作数据,并将该动作数据发送给控制器;控制器基于该动作数据生成动作指令,以指示从端机器人手臂关节和末端执行器的变化。在执行完动作后,操作者会再透过从端机器人的从端传感器采集得到新一轮的观测数据,然后控制器再生成并发送下一个动作指令给从端机器人。这几个步骤会持续进行直到目标物体被抓取。为了使从端机器人能够自动抓取。
需要说明的是,对于步骤240基于动作数据生成从端机器人可执行的动作指令,可以基于任何现在已有或将来开发的遥操作相关的方法实现。
在一个实施例中,步骤240可以包括:将主端交互器输出的运动数据进行滤波(或者某些传感器自带滤波功能);基于运动数据映射得到机器人的关节运动量(比如:基于运动数据映射得到从端机器人的关节旋转角度;或者基于笛卡尔坐标系将运动数据映射得到机械臂末端关节姿态,再基于逆运动学方程求取各个关节运动量);基于机器人的关节运动量进行轨迹规划,生成运动指令,以指示机器人模仿操作者的目标动作。为方便理解,下面举例进行说明:
在一个实施例中,以主端交互传感器为IMU为例,可以预先将姿态传感器直接或者间接固定于操作者一个或者多个关节。以其中一个关节为例,步骤240基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作具体可以包括如下方法步骤:
步骤241基于运动数据求取关节旋转量。
具体地,可以基于IMU输出的运动感数据(比如:三维旋转角度)结合IMU与操作者关节的标定结果,将该运动数据转换到操作者预设关节坐标系下,从而求取操作者的关节旋转量Δt。
步骤242对关节旋转量基于公式(1)进行分解,得到从端机器人的关节旋转角度。
示例性的,基于上述矩阵可以求取z、y、x角度,并根据机械臂的结构以及机械臂关节的转角范围选择合适的值,其中,s代表sin,c代表cos。由于z、y、x角度是操作者某个预设关节第1,2,3旋转轴分别旋转的角度,从而可以分别映射得到从端机器人三个关节的旋转角度。
步骤243基于从端机器人的关节旋转角度进行轨迹规划,生成运动指令。
基于上述关节旋转角度,结合角速度/角加速度和/或从端机器人本身模型限制等等因素,进行轨迹规划,生成运动指令,以使得的从端机器人实际运动轨迹尽可能接近操作者的目标动作。
通过上述方法,可以直接基于运动数据映射得到从端机器人的关节旋转角度,减少中间转换过程带来的误差。
在一个实施例中,该观测数据也可以直接基于设置于从端的从端传感器采集得到,则从端传感器采集得到的观测数据可以直接发送给演示器以通过演示器直接演示给操作者;或者,从端传感器将观测数据发送给控制器,经控制器处理后发送给演示器演示,则步骤S230之前,还可以包括以下步骤:
步骤260获取通过从端传感器采集的从端机器人的观测数据。
步骤270将观测数据转换为可供演示器演示的数据。
在一个实施例中,控制器与从端传感器通信连接,获取从端传感器采集的观测数据。
具体地,观测数据可以是通过位于从端的测距仪或图像从端传感器等从端传感器反馈的距离目标物的距离信息,或从端机器人周边的环境观测数据;从端机器人及其执行器基于编码器采集的关节运动量数据生成的的姿态信息;或者基于力/触觉从端传感器反馈的机器人的末端执行器相对目标物的作用力/触觉信息等等。
对于上述可供演示器演示的数据,可以基于演示器的不同而不同,具体可以参考上面实施例中有关演示器的相关描述,在此不再赘述。
本申请实施例,基于上面实施例所述的遥操作模块的工作过程,操作者基于演示器对从端传感器采集的观测数据进行演示,判断执行相应的目标动作,进而生成相对应的动作数据;基于该动作数据,控制器控制从端机器人模仿操作者动作,从而产生变化后的新的观测数据。相对与直接通过操作者人员观察等,可以提高该训练系统用于远端遥控,从而提供该系统的应用范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图2所示方法的实现,本申请提供了一种模型训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种控制器中。
如图4所示,本实施例所述的模型训练装置300包括:样本获取模块310以及模型训练模块320。其中:
样本获取模块310,用于获取从端机器人的观测数据和对应的动作指令构建的训练样本集;其中,动作指令为基于通过主端交互器输出的操作者执行目标动作的动作数据生成的指令;
模型训练模块320,用于基于训练样本集训练模型。
在一个可选的实施例中,模型训练装置300还包括:
动作获取模块,用于获取操作者基于观测数据执行目标动作的动作数据;
指令生成模块,用于基于动作数据生成从端机器人可执行的动作指令,以指示从端机器人模仿目标动作;
步骤重复模块,用于重复上述步骤,直到完成目标任务。
进一步,在一个可选的实施例中,指令生成模块包括:
旋转求取子模块,用于基于运动数据求取关节旋转量;
旋转分解子模块,用于对关节旋转量基于公式(1)进行分解,得到从端机器人的关节旋转角度。
指令生成子模块,用于基于从端机器人的关节旋转角度进行轨迹规划,生成运动指令。
在一个可选的实施例中,模型训练模块320包括:
第一训练子模块,用于基于训练样本集训练初始模型,得到训练后的模型;或
预训练子模块,用于基于训练样本集训练初始模型,得到预训练模型;
第二训练子模块,用于对预训练模型进行训练,得到训练后的模型。
在一个可选的实施例中,模型训练装置300还包括:
观测获取模块,用于获取通过从端传感器采集的从端机器人的观测数据;
数据发送模块,用于将观测数据或者经过可演示化处理后的观测数据发送给演示器,以通过演示器向操作者进行演示。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如模型训练方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述模型训练方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有模型训练程序,所述模型训练程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的模型训练方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (11)

1.一种模型训练系统,其特征在于,包括:主端交互器、从端机器人、从端传感器和控制器;所述从端传感器与所述从端机器人存在预设标定关系;
所述控制器分别与所述主端交互器和所述从端机器人通信连接;
所述从端传感器,用于采集所述从端机器人的观测数据;
所述主端交互器,用于采集操作者执行目标动作的动作数据,并将所述动作数据发送给所述控制器;其中,操作者基于所述观测数据主观执行目标动作;
所述控制器,用于基于所述动作数据生成从端机器人可执行的动作指令,以指示所述从端机器人模仿所述目标动作;以及基于所述观测数据和对应的所述动作指令构建的训练样本集训练所述模型。
2.根据权利要求1所述的模型训练系统,其特征在于,所述模型训练系统还包括演示器;
所述演示器与所述从端传感器通信连接;或
所述演示器通过所述控制器与所述传感器通信连接;
所述演示器,用于将所述观测数据或者经过可演示化处理后的所述观测数据向操作者进行演示。
3.根据权利要求1或2所述的模型训练系统,其特征在于,所述从端传感器包括:图像传感器、力/力矩传感器、测距传感器、机器人的关节位置编码器、电流计和/或电压计。
4.根据权利要求1或2所述的模型训练系统,其特征在于,所述主端交互器包括:主端传感器、设置所述主端传感器的执行器主体、触控屏和/或录音器;和/或
所述主端交互器与操作者之间存在预设的标定关系。
5.一种模型训练方法,其特征在于,所述方法包括下述步骤:
获取从端机器人的观测数据和对应的动作指令构建的训练样本集;其中,所述动作指令为基于通过主端交互器输出的操作者执行目标动作的动作数据生成的指令;
基于所述训练样本集训练所述模型。
6.根据权利要求5所述的模型训练方法,其特征在于,所述获取所述从端观测数据和对应的所述动作指令构建的练样本集之前,还包括下述步骤:
获取操作者基于观测数据执行目标动作的动作数据;
基于所述动作数据生成从端机器人可执行的动作指令,以指示所述从端机器人模仿所述目标动作;
重复上述步骤,直到完成目标任务。
7.根据权利要求5或6所述的模型训练方法,其特征在于,所述基于所述训练样本集训练模型包括:
基于所述训练样本集训练初始模型,得到训练后的模型;或
基于所述训练样本集训练初始模型,得到预训练模型;
对所述预训练模型进行训练,得到训练后的模型。
8.根据权利要求5或6所述的模型训练方法,其特征在于,所述获取操作者基于观测数据执行目标动作的动作数据之前,还包括下述步骤:
获取通过从端传感器采集的从端机器人的所述观测数据;
将所述观测数据或者经过可演示化处理后的所述观测数据发送给演示器,以通过演示器向操作者进行演示。
9.一种模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取从端机器人的观测数据和对应的动作指令构建的训练样本集;其中,所述动作指令为基于通过主端交互器输出的操作者执行目标动作的动作数据生成的指令;
训练模块,用于基于所述训练样本集训练所述模型。
10.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求5至8中任一项所述的模型训练方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求5至8中任一项所述的模型训练方法的步骤。
CN202310284706.4A 2023-03-17 2023-03-17 一种模型训练系统、训练方法、装置及存储介质 Pending CN116629373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310284706.4A CN116629373A (zh) 2023-03-17 2023-03-17 一种模型训练系统、训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310284706.4A CN116629373A (zh) 2023-03-17 2023-03-17 一种模型训练系统、训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116629373A true CN116629373A (zh) 2023-08-22

Family

ID=87620039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310284706.4A Pending CN116629373A (zh) 2023-03-17 2023-03-17 一种模型训练系统、训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116629373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095809A (zh) * 2023-10-20 2023-11-21 中国科学院自动化研究所 康复机器人主动训练柔性控制方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095809A (zh) * 2023-10-20 2023-11-21 中国科学院自动化研究所 康复机器人主动训练柔性控制方法及装置
CN117095809B (zh) * 2023-10-20 2024-01-16 中国科学院自动化研究所 康复机器人主动训练柔性控制方法及装置

Similar Documents

Publication Publication Date Title
CN109397285B (zh) 一种装配方法、装配装置及装配设备
US20170151667A1 (en) Systems, devices, and methods for the distribution and collection of multimodal data associated with robots
CN116629373A (zh) 一种模型训练系统、训练方法、装置及存储介质
Odesanmi et al. Skill learning framework for human–robot interaction and manipulation tasks
CN113119104B (zh) 机械臂控制方法、机械臂控制装置、计算设备及系统
CN108446442B (zh) 类神经肌肉骨骼机器人上肢模型的简化方法
Xu et al. Dexterous manipulation from images: Autonomous real-world rl via substep guidance
Rossmann erobotics: The symbiosis of advanced robotics and virtual reality technologies
Nguyen et al. Reaching development through visuo-proprioceptive-tactile integration on a humanoid robot-a deep learning approach
CN116394276B (zh) 一种样本生成、模型训练方法、装置及系统
CN116542310B (zh) 一种机器人的模型训练、运动指令预测方法、装置及系统
CN116079747A (zh) 机器人跨具身控制方法、系统、计算机设备和存储介质
CN116383667B (zh) 一种模型训练、运动指令预测方法、装置及系统
CN112276947B (zh) 一种机器人动作模仿方法、装置、设备及存储介质
US10906178B2 (en) Systems, devices, and methods for distributed graphical models in robotics
CN112894794A (zh) 人体手臂动作模仿方法、装置、终端设备及存储介质
Ciocarlie Low-dimensional robotic grasping: Eigengrasp subspaces and optimized underactuation
Roßmann From space to the forest and to construction sites: virtual testbeds pave the way for new technologies
Almeida et al. Design and simulation of micro servo robot in robot operating system
CN112936282B (zh) 一种提高工业机器人体感控制精确度的方法及系统
Gupta et al. Real-Time Hand Gesture Replication System using 3D Modelling Software
CN114683280B (zh) 对象控制方法、装置、存储介质及电子设备
Otarbay Development and Control of a Shoulder Joint for Humanoid Robotics Application
Mariappan et al. Real Time Robotic Arm using Leap Motion Controller
Son et al. Usefulness of using Nvidia IsaacSim and IsaacGym for AI robot manipulation training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination