CN110293560A

CN110293560A - 机器人行为训练、规划方法、装置、系统、存储介质及设备

Info

Publication number: CN110293560A
Application number: CN201910509236.0A
Authority: CN
Inventors: 何德裕; 朱文飞
Original assignee: Luban's Robot (shenzhen) Co Ltd
Current assignee: Luban's Robot (shenzhen) Co Ltd
Priority date: 2019-01-12
Filing date: 2019-06-13
Publication date: 2019-10-01
Also published as: CN109760050A

Abstract

本申请涉及一种机器人行为训练方法、装置、系统、存储介质及设备。其中，机器人行为训练方法包括：获取执行专家的行为过程中的决策数据；基于所述决策数据，对初始模型进行训练得到预处理模型；基于所述预处理模型进行自主学习，得到机器人行为模型。采用本发明的技术方案，提高了训练后的机器人模型行为动作的适应性和准确性。

Description

机器人行为训练、规划方法、装置、系统、存储介质及设备

技术领域

本申请涉及机器人控制技术领域，特别是涉及一种机器人行为训练方法、装置、系统、存储介质及设备。

背景技术

随着科技水平的提高，整个社会都向着智能化、自动化的方向发展。越来越多的行为依赖于机器人的实现。比如：通过机器人执行抓取的动作、装配的动作、带动目标物运动等等的动作行为。

人工智能为机器人未来发展带来了无限的可能，通过对神经网络模型进行训练，从而使得基于该网络模型控制的机器人能够自主的学习执行各种动作。

但是应该看到基于机器学习的方法进行机器人的行为训练学习，还存在对训练数据过于依赖、学习效果不好等等的问题。

发明内容

基于此，本发明提供一种机器人行为训练方法、装置、系统、存储介质及设备。

本发明第一方面提供一种机器人行为训练方法，所述机器人行为训练方法包括：

获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个行为数据和对应的观测数据；

基于所述决策数据，进行模型自主学习，得到机器人行为模型。

进一步，所述基于所述决策数据，进行模型自主学习，得到机器人行为模型包括：

基于所述决策数据，训练初始模型，得到预处理模型；

进行所述预处理模型自主学习，得到所述机器人行为模型。

基于所述决策数据，进行初始模型自主学习，得到所述机器人行为模型。

进一步，所述获取执行专家的行为过程中的决策数据包括：

获取所述执行专家的行为过程中的多个当前时刻的行为数据；

获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据；其中，所述当前时刻的行为数据与所述当前时刻的观测数据相对应。

进一步，所述获取执行专家的行为过程中的决策数据包括：

获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述行为数据的相关信息；

根据所述相关信息，得到多个上一时刻的所述行为数据；

获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据；其中，所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。

进一步，所述观测数据包括：

图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据、温度数据、运动状态数据和/或障碍物探测数据。

进一步，所述行为数据包括：目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。

进一步，所述行为包括：

从散装物或规则摆放物中抓取目标物；

装配目标物；

放置目标物；

从一个位置运动到另一位置或在所述运动中躲避障碍物；和/或

抓取静止或运动中的物体。

本发明第二方面提供一种机器人行为训练方法，所述机器人行为训练方法包括：

基于所述决策数据，进行模型学习，得到机器人行为模型。

进一步，所述获取执行专家的行为过程中的决策数据包括：

根据所述相关信息，得到多个上一时刻的所述行为数据；

进一步，所述观测数据包括：

图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据、温度数据和/或运动状态数据。

进一步，所述行为包括：

从散装物或规则摆放物中抓取目标物；

装配目标物；

放置目标物；

抓取静止或运动中的物体。

本发明第三方面提供一种机器人行为规划方法，所述机器人行为规划方法包括：

获取当前观测数据；

获取机器人行为模型；

将所述当前观测数据输入所述机器人行为模型，生成机器人指令。

本发明第四方面提供一种机器人行为训练控制装置，所述机器人行为训练控制装置包括：

决策数据获取模块，用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个行为数据和对应的观测数据；

第一行为模型生成模块，用于基于所述决策数据，进行模型自主学习，得到机器人行为模型；或

第二行为模型生成模块，用于基于所述决策数据，训练初始模型，得到所述机器人行为模型。

本发明第五方面提供一种机器人行为规划装置，所述机器人行为规划装置包括：

当前数据获取模块，用于获取当前观测数据；

模型获取模块，用于获取机器人行为模型；

目标结果生成模块，用于将所述当前观测数据输入所述机器人行为模型，生成机器人指令。

本发明第六方面提供一种机器人行为训练系统，包括：

行为数据生成装置，用于生成行为数据，并将所述行为数据发送给所述控制装置；

第一传感器，用于获取所述行为数据对应的观测数据，并将所述观测数据发送给所述控制装置；

控制装置，用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个所述行为数据和对应的所述观测数据；基于所述决策数据，进行模型自主学习，得到机器人行为模型；或

用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个行为数据和对应的观测数据；

基于所述决策数据，训练初始模型，得到所述机器人行为模型。

进一步，所述机器人行为训练系统还包括：

机器人，用于在示教下执行所述专家的行为。

进一步，所述传感器包括：

图像传感器，用于获取某一时刻的机器人的图像数据；

力传感器，用于获取某一时刻的机器人的力反馈数据；

编码器，用于获取某一时刻机器人的驱动单元的运动反馈数据；

测距器，用于获取某一时刻机器人的距离相关的测距数据；

速度或加速度数据测量器，用于获取某一时刻机器人的速度或加速度测量数据；

电流或电压测量器，用于获取某一时刻机器人的电流或电压测量数据；

计时器，用于获取某一时刻的具体时间数据；

温度传感器，用于获取某一时刻机器人的温度数据；和/或

障碍物探测器，用于探测障碍物。

进一步，所述行为数据生成装置包括：控制单元；

所述控制单元，用于生成所述行为数据。

进一步，所述行为数据生成装置包括：第二传感器和控制单元；

所述第二传感器，用于获取多个当前时刻所述行为数据的相关信息，将所述相关信息发送给所述控制单元；

所述控制单元，用于根据所述相关信息，得到多个上一时刻的所述行为数据。

本发明第七方面提供一种机器人行为规划系统，所述机器人行为规划系统包括第三传感器、第二控制装置和机器人；

所述第三传感器，用于采集当前观测数据，将所述当前观测数据发送给所述第二控制装置；

所述第二控制装置，用于获取所述当前观测数据；获取机器人行为模型；将所述当前观测数据输入所述机器人行为模型，生成机器人指令；

所述机器人，用于根据所述机器人指令执行对应的行为。

本发明第八方面提供一种机器人系统，所述机器人系统包括上面任一项所述的机器人行为训练系统；和/或机器人行为规划系统。

本发明第九方面提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上面任一项所述的机器人行为训练方法；和/或机器人行为规划方法。

本发明第十方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上面任一项所述的机器人行为训练方法；和/或机器人行为规划方法。

采用本发明的技术方法，由于基于所述决策数据，进行模型自主学习，得到机器人行为模型，因此提高了训练后的机器人模型在各种情况下完成行为动作的适应性和准确性。

附图说明

图1为一个实施例中机器人行为训练方法的第一流程示意图；

图2为一个实施例中机器人行为训练方法的第二流程示意图；

图3为一个实施例中机器人行为训练方法的第三流程示意图；

图4为一个实施例中机器人行为训练方法的第四流程示意图；

图5为一个实施例中机器人行为训练方法的第五流程示意图；

图6为一个实施例中机器人行为规划方法的第一流程示意图；

图7为机器人系统的实施例的第一结构示意图；

图8为机器人系统的实施例的第二结构示意图；

图9为机器人系统的实施例的第三结构示意图；

图10为一个实施例中机器人训练装置的第一结构框图；

图11为一个实施例中机器人训练装置的第三结构框图；

图12为一个实施例中机器人训练装置的第四结构框图；

图13为一个实施例中机器人训练装置的第五结构框图；

图14为一个实施例中机器人训练装置的第六结构框图；

图15为一个实施例中机器人训练系统的第一结构框图；

图16为一个实施例中机器人训练系统的第二结构框图；

图17为一个实施例中机器人的行为数据生成装置的第一结构框图；

图18为一个实施例中机器人的行为数据生成装置的第二结构框图；

图19为一个实施例中机器人行为规划装置的第一结构框图；

图20为一个实施例中机器人行为规划系统的第一结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供一种机器人行为训练方法，该机器人行为训练方法包括以下步骤：

步骤S100获取执行专家的行为过程中的决策数据；其中，决策数据为多个观测数据及对应的行为数据。

具体的，决策数据是指某一时刻下获取的观测数据及该时刻获取的对应的行为数据对汇总的集合。

具体的，行为过程可以包括但不限于：从散装物或规则排列的物中抓取目标物体的动作(如图7所示)；装配目标物体的动作(如图6所示)；放下目标物的动作(省略附图)，从一个位置运动到另一个位置的动作或在运动中躲避障碍物(省略附图)；抓取静止或运动中的物体(如图8所示)；或者上述各个动作中的部分或全部动作的组合。

在一个实施例中，决策数据为通过示教机器人执行专家的行为过程中获取的。具体的，可以通过操作人员直接或者通过控制器生成的控制指令或目标的位置或位姿等等带动机器人执行专家行为；比如：机器人在操作人员的带动下完成积木的装配行为动作；又比如：根据控制器发送的机器人的各个驱动单元的运动量指令完成积木的装配行为动作，其中，控制器包括但不限于：PC、PAD、移动终端等等；又比如：通过虚拟现实技术(VirtualReality,简称VR)的方式间接控制机器人完成VR对应的动作，采用VR的方式可以控制机器人执行更精细的动作；又比如：通过控制设置重力传感器等其它速度或加速度数据测量器的设备的运动，比如：移动终端、PAD等等，从而生成控制指令或相关的目标的位置或位姿等，从而控制机器人的运动。

进一步，在一些实施例中，通过行为数据生成装置生成的指令带动机器人执行专家行为的情况下：

行为数据可以包括但不限于：执行专家的行为过程中的每一步对应的通过控制器输出的机器人执行每一步的目标位姿(X、Y、Z、U、V、W坐标)、位置(X、Y坐标)或某一感兴趣的区域(平面或立体区域)；或者是根据目标位姿或位置，基于运动学方程计算的对应的机器人的驱动单元的运动量(旋转量和/或平移量)；或机器人的运动量。

控制装置获取第一传感器获取并发送的观测数据。具体的，观测数据可以包括但不限于：图像传感器获取并发送的图像数据或根据该图像数据提取的机器人(比如：机器人的末端执行器)的位姿或位置、测距传感器获取并发送的测距数据、力传感器获取并发送的力(力/力矩)反馈数据、编码器获取并发送的机器人的驱动单元运动量(旋转量和/或平移量)数据、速度或加速度测量器获取并发送的速度或加速度数据、电流或电压测量器获取并发送的电流或电压测量数据、计时器获取并发送的时间数据、温度计获取并发送的温度数据、重力传感器发送的由于重力引起的加速度数据、探测器或者图像传感器采集并发送的障碍物探测的相关数据。

比如：如图7所示，以训练机器人装配行为(比如：将物体M2装配到物体M1上)为例，获取在执行专家的行为过程中的多组决策数据；具体的，行为数据可以是在某一时刻下获取的通过行为数据生成装置输出的机器人下一步的目标位姿或位置，或驱动单元的运动量；而对应的观测数据可以为该时刻下获取的各个第一传感器发送的图像数据或位姿或位置、力反馈数据、编码器反馈数据、速度或加速度数据和/或电流或电压数据等等；在执行专家的行为过程中，将获取的多组决策数据发送给机器人的控制单元。在一些实施例中，执行专家的行为过程中的多组决策数据需要至少包括装配成功状态下的决策数据。

在一些实施例中，当控制装置获取的为图像数据，可以直接将图像数据作为观测数据，也可以为根据图像数据提取出机器人的位姿或者位置后，将位姿或者位置作为观测数据，或者根据图像数据提取出目标物体的位姿或者位置后，将目标物体的位姿或者位置作为观测数据。

进一步，在一些实施例中，在通过操作员带动机器人执行专家的行为的情况下：

由于在这种情况下，没有一个很明确的行为指令作为行为数据，为了获取行为数据，可以通过某些第二传感器间接的获取行为数据或行为数据的相关信息。这时，第一传感器和第二传感器可以包括相同种类的传感器，比如：图像传感器和编码器，在一些实施例中，可以将第一传感器和第二传感器中相同的传感器合并成一个传感器，即获取的数据即可以作为行为数据，也可以作为状态数据。比如：在当前时刻下获取的编码器发送的驱动单元的运动量数据；该运动量数据即可以做该时刻下的观测数据，也可以作为上个时刻的行为数据。又比如：在当前时刻下根据获取的图像传感器获取并发送图像获取机器人的位姿或位置即可以作为上一时刻的行为数据；又可以作为当前时刻下的机器人的观测数据。

比如：如图8所示，以训练机器人从散装物中抓取目标物的行为为例。其中，散装物是指多个物体M以无规律的状态分散放置。获取在执行专家的行为过程中的多组决策数据(行为数据和对应的观测数据)；具体的，某一当前时刻的行为数据可以为根据下一时刻获取的图像传感器发送的图像提取的机器人的位姿或位置，或根据当前时刻和下一时刻的图像提取的机器人的位姿或位置获取的机器人的运动量；而当前时刻的观测数据则可以为当前时刻下的获取的各个第一传感器发送的信息，比如：力传感器的力反馈数据(比如：在手指上设置的压力传感器，获取完成抓取动作时的力的数值和/或方向信息；或者在机器人的末端轴输出端设置多维力传感器，获取在抓取过程中输出端的力或力矩的变化等等)、驱动单元反馈数据(比如：马达旋转或移动的角度)、速度或加速度数据(机器人在运动过程中的速度或加速度)和/或电流或电压数据(比如：输入马达电流或电压值)等等，另外，根据当前时刻的图像数据也可以提取机器人的当前时刻的位姿或位置数据。

具体的，行为数据可以包括但不限于：目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。

在一些实施例中，执行专家的行为过程中的多组决策数据需要至少包括抓取成功时刻下的决策数据。

又比如：以训练机器人从一个位置运动(平移和/或旋转)到另一个位置为例。获取在执行专家的行为过程中的多组决策数据；具体的，行为数据可以包括图像传感器获取的机器人的运动动作的各个时刻下的图像提取的机器人的执行器的位姿；以及该时刻对应的观测数据：比如：通过测距数据反馈的距离目标位置的距离信息，比如：在机器人上安装测距仪(比如：红外测距仪)，通过测距仪反馈距离目标位置的距离信息驱动单元反馈数据、速度或加速度数据等等。具体的，执行专家的行为过程中的多组决策数据需要至少包括移动到目标位置时刻下的决策数据。

如图9所示，又比如：以抓取运动中的物体为例，比如：将物体放置在传输装置上，随传输装置运动，获取在执行专家的行为过程中的多组决策数据。具体的，决策数据除可以包括上述提到的行为数据和观测数据外，还需要至少将运动物体的运动状态数据作为观测数据的其中之一，具体的，运动状态数据可以包括但不限于：运动的速度、加速度、运动的开始或停止等等数据。

在一个实施例中，决策数据为专家在执行专家的行为过程中获取的。

具体的，专家可以为操作员或者其它的机器人，比如：获取某个操作员在实现装配行为中的决策数据；具体的，比如：可以通过获取多个当前时刻图像传感器拍摄并发送的操作员在执行装配过程的图像数据以获取操作员在装配过程中的上一时刻的行为数据和当前时刻的观测数据；除此之外，也可以在人的手上安装力传感器，通过力传感器反馈在人执行装配行为过程中的观测数据等等。

具体的，在执行物体抓取、装配等等各种专家的行为的过程中，获取的多个状态下的图像数据可以是3D图像、2D图像或视频图像。图像传感器可以包括但不限于：照相机、摄像机、扫描仪或其他带有相关功能的设备(手机、电脑等)等等。图像传感器可以为大于等于1的任意个。

具体的，图像传感器可以设置在机器人上或者固定在机器人外某一位置，预先对图像传感器、图像传感器和机器人(简称“眼手”)和机器人进行标定。

具体的，机器人可以为多个关节和连杆通过串联或者并联形成的各种类型的机械手，每个关节即是一个驱动单元，比如：四轴机械手、六轴机械手等串联机械手或并联机械手。在一些实施例中，机械手的末端轴的输出端还固定末端执行器，末端执行器可以是吸盘或者夹爪等等。在一些实施例中，上面实施例中的机器人的运动量，可以指机器人的任意部位的运动量，比如；末端执行器的运动量。

步骤S200基于决策数据，进行模型自主学习，得到机器人行为模型；

通过采用上面的学习方法，由于基于决策数据，进行模型自主学习，得到机器人行为模型，因此提高了训练后的机器人模型在各种情况下完成行为动作的适应性和准确性。

如图2所示，在一些实施例中，步骤S200包括如下方法步骤：

S210基于决策数据，训练初始模型，得到预处理模型；

把状态数据作为特征(feature)，行为数据作为标记(label)进行分类(对于离散动作)或回归(对于连续动作)的学习，不断更新初始模型的参数，从而得到预处理模型。

S220，基于所述预处理模型进行自主学习，得到机器人行为模型。

自主学习过程就是让机器人基于预处理模型生成一些行为轨迹，然后定义一个标准来判断这些轨迹和示教阶段获取的专家的行为轨迹之间的差异，然后根据这个差异来更新预处理模型的策略，使其下一次生成的轨迹可以更为接近专家的行为，直到根据标准判断基于预处理模型生成的行为轨迹足够接近专家的行为轨迹，则得到的模型为最终的机器人行为模型。

具体的，上面实施例所述的标准可以根据经验值、机器学习、随机值等等各种方法获取，在一些实施例中，可以用经过学习的神经网络来表示这个标准。

通过采用上面的学习方法，由于基于专家的行为中获取的决策数据对初始模型进行训练得到预处理模型，基于预处理模型进行自主学习，最终得到机器学习的模型，因此提高了训练后的机器人模型在各种情况下完成行为动作的适应性和准确性。

另外，也可以减少了机器人行为模型训练的时间。

在一些实施例中，步骤S200包括如下方法步骤：

S230用于基于决策数据，进行初始模型自主学习，得到机器人行为模型。

自主学习过程就是让机器人基于初始模型生成一些行为轨迹，定义一个标准来判断这些轨迹和示教阶段获取的专家的行为轨迹之间的差异，然后根据这个差异来更新预处理模型的策略，使其下一次生成的轨迹可以更为接近专家的行为，直到根据标准判断基于初始模型生成的行为轨迹足够接近专家的行为轨迹，则得到的模型为最终的机器人行为模型。

如图3所示，在一些实施例中，步骤S100获取执行专家的行为过程中的决策数据可以包括如下方法步骤：

S110获取执行专家的行为过程中的多个当前时刻的行为数据；

S130获取执行专家的行为过程中第一传感器发送的多个当前时刻的观测数据；其中，当前时刻的行为数据与当前时刻的观测数据相对应。

如图4所示，在一些实施例中，步骤S100所述获取执行专家的行为过程中的决策数据可以包括如下方法步骤：

S120获取所述执行专家的行为过程中第二传感器发送的多个当前时刻的行为数据的相关信息；

S140根据所述相关信息，得到多个上一时刻的所述行为数据；

比如：当相关信息为图像传感器发送的图像信息时，解析图像信息，从而生成机器人的位姿或者位置，或者根据当前时刻和下一时刻的位姿或者位置生成机器人的运动量作为上一时刻的行为数据。

又比如：当相关信息为编码器发送的各个驱动单元的运动量时，直接将该运动量信息作为上一时刻的行为数据。

S160获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的观测数据；其中，所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。

如图5所示，在一些实施例中，提供一种机器人行为训练方法，该机器人行为训练方法包括以下步骤：

步骤S100获取执行专家的行为过程中的决策数据；其中，决策数据为多个观测数据及对应的行为数据；

具体的，有关获取执行专家的行为过程中的决策数据的相关方法参见上面的实施例，在此不再重复赘述。

步骤S300基于决策数据，进行模型学习，得到机器人行为模型。

具体的，可以把状态数据作为特征(feature)，行为数据作为标记(label)进行分类(对于离散动作)或回归(对于连续动作)的学习，不断更新初始模型的参数，从而得到机器人行为模型。

如图6所示，在一些实施例中，提供一种机器人行为规划方法，该方法包括：

步骤400获取当前观测数据；

获取当前时刻的观测数据，有关观测数据的其它相关描述参见上面实施例，在此不再赘述。

步骤500获取机器人行为模型；

有关机器人行为模型的生成方法参见上面的实施例，在此不再重复赘述。

步骤600将当前观测数据输入机器人行为模型，生成机器人指令。

具体的，所述机器人指令根据模型具体设计的不同而不同。比如：在一个实施例中，机器人指令可以是机器人的下一时刻的目标的位置或位姿；在另一实施例中，机器人指令可以为直接得到为使得机器人(比如：末端执行器)运动到下一时刻的目标处生成的机器人的驱动单元的控制指令(比如：电流、速度、PWM等等)，将该控制指令发送给机器人的驱动单元，从而控制机器人运动到下一时刻的目标处。

应该理解的是，虽然图1、2、3、4、5或6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、2、3、4、5或6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图10所示，提供一种机器人行为训练控制装置，该机器人行为训练控制装置包括决策数据获取模块100和第一行为模型生成模块200。

决策数据获取模块100，用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个行为数据和对应的观测数据；

第一行为模型生成模块200，用于基于所述决策数据，进行模型自主学习，得到机器人行为模型。

如图12所示，在一些实施例中，所述第一行为模型生成模块200包括：预处理模型生成部210和第一行为生成部230；

所述预处理模型生成部210，用于基于所述决策数据，训练初始模型，得到预处理模型；

所述第一行为生成部230，用于进行预处理模型自主学习，得到机器人行为模型。

在一些实施例中，所述第一行为模型生成模块200包括：第二行为生成部220；

所述第二行为生成部220，用于基于所述决策数据，进行初始模型自主学习，得到机器人行为模型。

如图13所示，在一些实施例中，决策数据获取模块100包括：当前行为数据生成部110和当前观测数据生成部130；

当前行为数据生成部110，用于获取所述执行专家的行为过程中的多个当前时刻的行为数据；

当前观测数据生成部130，用于获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据；其中，所述当前时刻的行为数据与所述当前时刻的观测数据相对应。

如图14所示，在一些实施例中，决策数据获取模块100包括：当前信息获取部120、上一行为数据生成部140和上一观测数据生成部160；

当前信息获取部120，用于获取所述执行专家的行为过程中第二传感器发送的多个当前时刻行为数据的相关信息；

上一行为数据生成部140，用于根据所述相关信息，得到多个上一时刻的所述行为数据；

上一观测数据生成部160，用于获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据；其中，所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。

在一些实施例中，如图11所示，提供一种机器人行为训练控制装置，该机器人行为训练控制装置包括决策数据获取模块100和第二行为模型生成模块300。

第二行为模型生成模块200，用于基于决策数据，进行模型学习，得到机器人行为模型。

如图12所示，在一些实施例中，决策数据获取模块100包括：当前行为数据生成部110和当前观测数据生成部130；

如图13所示，在一些实施例中，决策数据获取模块100包括：当前信息获取部120、上一行为数据生成部140和上一观测数据生成部160；

如图19所示，在一些实施例中，还提供一种机器人行为规划装置，该装置包括：

当前数据获取模块810，用于获取当前观测数据；

模型获取模块820，用于获取机器人行为模型；

目标结果生成模块830，用于将所述当前观测数据输入所述机器人行为模型，生成机器人指令。

关于机器人行为训练控制装置的具体限定可以参见上文中对于机器人行为训练方法的限定，以及关于机器人行为规划装置的具体限定可以参见上文中对于机器人行为规划方法的限定在此不再赘述。上述机器人行为训练控制装置和行为规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图7、8、9或15所示，提供一种机器人行为训练系统，包括控制装置400、第一传感器500和行为数据生成装置600。

行为数据生成装置600，用于生成行为数据，并将所述行为数据发送给所述控制装置。

第一传感器500，用于获取专家行为过程中的观测数据，将所述观测数据发送给控制装置。

控制装置400，用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个所述行为数据和对应的所述观测数据；基于所述决策数据，进行模型自主学习，得到机器人行为模型；或

用于获取执行专家的行为过程中的决策数据；其中，所述决策数据包括多个所述行为数据和对应的所述观测数据；基于决策数据，进行模型学习，得到机器人行为模型。

关于控制装置的具体限定可以参见上文中对于机器人行为训练方法的限定，在此不再赘述。

在一个实施例中，如图7、8、9或16所示，该机器人训练系统还包括：机器人700，用于在示教下执行专家的行为。

具体的，第一传感器包括但不限于：

图像传感器，用于获取某一时刻的机器人的图像数据；

力传感器，用于获取某一时刻的机器人的力反馈数据；

测距器，用于获取某一时刻机器人的距离相关的测距数据；

计时器，用于获取某一时刻的具体时间数据；

温度传感器，用于获取某一时刻机器人的温度数据。

如图17所示，在一些实施例中，所述行为数据生成装置600包括：控制单元610；

所述控制单元610，用于生成所述行为数据。

如图18所示，在一些实施例中，所述行为数据生成装置600包括：第二传感器620和控制单元610；

所述第二传感器620，用于获取多个当前时刻所述行为数据的相关信息，发送给所述控制单元；

所述控制单元610，用于解析所述相关信息，生成多个上一时刻的所述行为数据。

具体的，第二传感器620可以包括但不限于：图像传感器和编码器。

需要说明的是，当第一传感器500包括比如：图像传感器和编码器时，可以与第二传感器620的包括的图像传感器和编码器分开独立设置，除此之外，也可以共用图像传感器和编码器，即经过对某一当前时刻图像传感器和编码器拍摄的相关信息进行解析，即可以生成为上一时刻的行为数据，也可以生成为当前时刻的观测数据。

如图20所示，在一些实施例中，提供一种机器人行为规划系统，包括第二控制装置910、第三传感器920和机器人930。

所述第三传感器920，用户采集当前观测数据，将当前观测数据发送给第二控制装置；

所述第二控制装置910，用于获取当前观测数据；获取机器人行为模型；将所述当前观测数据输入所述机器人行为模型，生成机器人指令；

所述机器人，用于根据所述机器人指令执行对应的行为。

具体的，机器人的各个驱动单元根据收到的第二控制装置生成并直接发送的机器人指令；或者根据收到的第二控制装置生成的机器人指令进一步处理后的指令执行对应的各个行为。

具体的，第三传感器包括但不限于：

图像传感器，用于获取某一时刻的机器人的图像数据；

力传感器，用于获取某一时刻的机器人的力反馈数据；

测距器，用于获取某一时刻机器人的距离相关的测距数据；

计时器，用于获取某一时刻的具体时间数据；

温度传感器，用于获取某一时刻机器人的温度数据。

具体的，控制装置400、控制单元610和第二控制装置910可以独立分开设置，也可以合为一个装置(比如：控制装置400和控制单元610合并，统一由控制装置400实现控制装置400和控制单元610的机器人行为训练方法和行为数据生成方法等等。)

控制装置400、第二控制装置和控制单元610可以为可编程逻辑控制器(Programmable Logic Controller，PLC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)、计算机(Personal Computer,PC)、工业控制计算机(Industrial PersonalComputer,IPC)或服务器等等。控制装置根据预先固定的程序，结合人工输入的信息、参数或者外部的第一传感器和/或第二传感器(比如图像传感器)采集的数据等生成程序指令。

在一个实施例中，本发明还提供一种包括上面实施例所述的机器人行为训练系统；和/或机器人行为规划系统的机器人系统。有关机器人行为训练系统和机器人行为规划系统的相关描述参见上面的实施例，在此不再重复赘述。

需要说明的是，上述机器人行为训练方法、行为规划方法、行为训练控制装置、行为规划装置、行为训练系统、行为规划系统或机器人系统等等中提到的机器人和/或传感器，即可以是真实环境下的真实机器人和传感器，也可以是仿真平台下的虚拟机器人和/或传感器，通过仿真环境以达到连接真实智能体和/或传感器的效果。将依赖虚拟环境完成行为训练后的控制装置，移植到真实环境下，对真实的机器人和传感器进行控制或者再训练，可以节省训练过程的资源和时间。

在一个实施例中，提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上面所述的机器人行为训练方法；和/或机器人行为规划方法。

在一个实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上面实施例所述的机器人行为训练方法；和/或机器人行为规划方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的属于只是为了描述具体的实施方式的目的，不是用于限制本发明。

本文术语中“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如：A和/或B,可以表示单独存在A,同时存在A和B,单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明的权利要求书和说明书及上述附图中的术语“第一”、“第二”、“第三”、“S110”、“S120”“S130”等等(如果存在)是用来区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如：包括了一系列步骤或者模块的过程、方法、系统、产品或机器人不必限于清楚地列出的那些步骤或者模块，而是包括没有清楚地列出的或对于这些过程、方法、系统、产品或机器人固有的其它步骤或模块。

需要说明的是，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的结构和模块并不一定是本发明所必须的。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器人行为训练方法，其特征在于，所述机器人行为训练方法包括：

2.根据权利要求1所述的机器人行为训练方法，其特征在于，所述基于所述决策数据，进行模型自主学习，得到机器人行为模型包括：

基于所述决策数据，训练初始模型，得到预处理模型；

进行所述预处理模型自主学习，得到所述机器人行为模型。

3.根据权利要求1所述的机器人行为训练方法，其特征在于，所述基于所述决策数据，进行模型自主学习，得到机器人行为模型包括：

4.根据权利要求1、2或3所述的机器人行为训练方法，其特征在于，所述获取执行专家的行为过程中的决策数据包括：

5.根据权利要求1、2或3所述的机器人行为训练方法，其特征在于，所述获取执行专家的行为过程中的决策数据包括：

根据所述相关信息，得到多个上一时刻的所述行为数据；

6.根据权利要求1、2或3所述的机器人行为训练方法，其特征在于，所述观测数据包括：

7.根据权利要求1、2或3所述的机器人行为训练方法，其特征在于，所述行为数据包括：目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。

8.根据权利要求1、2或3所述的机器人行为训练方法，其特征在于，所述行为包括：

从散装物或规则摆放物中抓取目标物；

装配目标物；

放置目标物；

抓取静止或运动中的物体。

9.一种机器人行为训练方法，其特征在于，所述机器人行为训练方法包括：

基于所述决策数据，进行模型学习，得到机器人行为模型。

10.根据权利要求9所述的机器人行为训练方法，其特征在于，所述获取执行专家的行为过程中的决策数据包括：

11.根据权利要求9或10所述的机器人行为训练方法，其特征在于，所述获取执行专家的行为过程中的决策数据包括：

根据所述相关信息，得到多个上一时刻的所述行为数据；

12.根据权利要求9或10所述的机器人行为训练方法，其特征在于，所述观测数据包括：

13.根据权利要求9或10所述的机器人行为训练方法，其特征在于，所述行为数据包括：目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。

14.根据权利要求9或10所述的机器人行为训练方法，其特征在于，所述行为包括：

从散装物或规则摆放物中抓取目标物；

装配目标物；

放置目标物；

抓取静止或运动中的物体。

15.一种机器人行为规划方法，其特征在于，所述机器人行为规划方法包括：

获取当前观测数据；

获取机器人行为模型；

16.一种机器人行为训练控制装置，其特征在于，所述机器人行为训练控制装置包括：

17.一种机器人行为规划装置，其特征在于，所述机器人行为规划装置包括：

当前数据获取模块，用于获取当前观测数据；

模型获取模块，用于获取机器人行为模型；

18.一种机器人行为训练系统，其特征在于，包括：

19.根据权利要求18所述的机器人行为训练系统，其特征在于，所述机器人行为训练系统还包括：

机器人，用于在示教下执行所述专家的行为。

20.根据权利要求18或19所述的机器人行为训练系统，其特征在于，所述传感器包括：

图像传感器，用于获取某一时刻的机器人的图像数据；

力传感器，用于获取某一时刻的机器人的力反馈数据；

测距器，用于获取某一时刻机器人的距离相关的测距数据；

计时器，用于获取某一时刻的具体时间数据；

温度传感器，用于获取某一时刻机器人的温度数据；和/或

障碍物探测器，用于探测障碍物。

21.根据权利要求18或19所述的机器人行为训练系统，其特征在于，所述行为数据生成装置包括：控制单元；

所述控制单元，用于生成所述行为数据。

22.根据权利要求18或19所述的机器人行为训练系统，其特征在于，所述行为数据生成装置包括：第二传感器和控制单元；

23.根据权利要求18或19所述的机器人行为训练系统，其特征在于，所述行为数据包括：目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。

24.一种机器人行为规划系统，其特征在于，所述机器人行为规划系统包括第三传感器、第二控制装置和机器人；

所述第二控制装置，用于获取当前观测数据；获取机器人行为模型；将所述当前观测数据输入所述机器人行为模型，生成机器人指令；

所述机器人，用于根据所述机器人指令执行对应的行为。

25.一种机器人系统，其特征在于，所述机器人系统包括权利要求18-23任一项所述的机器人行为训练系统；和/或权利要求24所述的机器人行为规划系统。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-14任一项所述的机器人行为训练方法；和/或权利要求15所述的机器人行为规划方法。

27.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-14任一项所述的机器人行为训练方法；和/或权利要求15所述的机器人行为规划方法。