CN108115681B - 机器人的模仿学习方法、装置、机器人及存储介质 - Google Patents

机器人的模仿学习方法、装置、机器人及存储介质 Download PDF

Info

Publication number
CN108115681B
CN108115681B CN201711122785.XA CN201711122785A CN108115681B CN 108115681 B CN108115681 B CN 108115681B CN 201711122785 A CN201711122785 A CN 201711122785A CN 108115681 B CN108115681 B CN 108115681B
Authority
CN
China
Prior art keywords
pose
end effector
learning machine
preset
machine model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711122785.XA
Other languages
English (en)
Other versions
CN108115681A (zh
Inventor
欧勇盛
王志扬
段江哗
金少堃
徐升
熊荣
吴新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201711122785.XA priority Critical patent/CN108115681B/zh
Publication of CN108115681A publication Critical patent/CN108115681A/zh
Application granted granted Critical
Publication of CN108115681B publication Critical patent/CN108115681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明适用机器人和智能控制领域,提供了一种机器人的模仿学习方法、装置、机器人及存储介质,该方法包括:当接收到运动指令时,获取末端执行器当前时刻的位姿,检测当前时刻的位姿是否为目标位姿,是则,确定末端执行器完成预设的模仿学习任务,否则,根据该位姿和动态预测模型,生成末端执行器下一时刻的预测位姿,根据该预测位姿调节各个关节的关节角度,将末端执行器调节后的位姿设置为当前时刻的位姿,并跳转至检测当前时刻的位姿是否为目标位姿的步骤,动态预测模型由极限学习机模型结合预设的稳定性约束条件训练得到,从而同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度,有效地提高了机器人运动的人性化程度。

Description

机器人的模仿学习方法、装置、机器人及存储介质
技术领域
本发明属于机器人和智能控制技术领域,尤其涉及一种机器人的模仿学习方法、装置、机器人及存储介质。
背景技术
在现阶段机器人应用中,尤其是在机器人的工业应用中,用户通常预先定义机器臂的运动轨迹,或者预先设定某种任务环境,让机械臂按照计划重复执行即可。在这种控制模式下,机械臂无法面对任务环境的变化或者突如其来的扰动,或者需要较为繁重的人工编程才能实现复杂场景下的任务或较困难任务,更重要的是,机械臂的运动轨迹没有隐含人的操作习惯。机器人的模仿学习正是解决这些问题的重要方法。
在通过模仿学习对机器人运动进行建模时,研究人员通常希望实现以下三个目标:第一,希望机器人能够始终运动到我们所期望的目标,从控制的角度来说,希望系统具有一定的稳定性,即机器人在运动过程中遇到某种时间或空间的干扰而偏离了轨迹时,仍然能够准确地收敛到目标;第二,希望机器人在运动时运动轨迹能够尽可能与之前人类的示教轨迹具有相似的轮廓,即机器人复现时的“精度”;第三,希望尽量减小机器学习方法训练模型参数时所需的时间,也即提高模型训练的“速度”。
“稳定性”、“精度”和“速度”通常是相互牵制和矛盾的关系,实现精度、速度、稳定性三者的最佳权衡是机器人模仿学习的关键。目前,国际上较为著名的机器人模仿学习方法是通过建立一个“动态系统”来对机器人的运动进行建模,“动态系统”最初通过高斯混合模型来建模,并考虑到了稳定性约束,但由于模型训练较为复杂,无法对“稳定性”、“精度”和“速度”进行有效权衡,国内的机器人模仿学习方法也大多基于高斯混合模型、高斯过程,且未考虑到稳定性问题,同样无法对“稳定性”、“精度”和“速度”三者进行有效权衡。
发明内容
本发明的目的在于提供一种机器人的模仿学习方法、装置、机器人及存储介质,旨在解决由于现有技术中机器人模仿学习的稳定性、复现精度、模型训练速度无法同时得到保证的问题。
一方面,本发明提供了一种机器人的模仿学习方法,所述方法包括下述步骤:
当接收到预设的运动指令时,获取末端执行器当前时刻的位姿;
检测所述当前时刻的位姿是否为预设的目标位姿,是则,确定所述末端执行器完成预设的模仿学习任务,否则,根据所述当前时刻的位姿和预先训练好的动态预测模型,生成所述末端执行器下一时刻的预测位姿,所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到;
根据所述下一时刻的预测位姿,调节各个关节的关节角,获取所述末端执行器调节后的位姿;
将所述调节后的位姿设置为所述当前时刻的位姿,并跳转至检测所述当前时刻的位姿是否为预设的目标位姿的步骤。
另一方面,本发明提供了一种机器人的模仿学习装置,所述装置包括:
位姿获取单元,用于当接收到预设的运动指令时,获取末端执行器当前时刻的位姿;
位姿判断单元,用于检测所述当前时刻的位姿是否为预设的目标位姿,是则,确定所述末端执行器完成预设的模仿学习任务,否则,根据所述当前时刻的位姿和预先训练好的动态预测模型,生成所述末端执行器下一时刻的预测位姿,所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到;
运动调节单元,用于根据所述下一时刻的预测位姿,调节各个关节的关节角,获取所述末端执行器调节后的位姿;以及
位姿设置单元,用于将所述调节后的位姿设置为所述当前时刻的位姿,并由所述位姿判断单元执行生成检测所述当前时刻的位姿是否为预设的目标位姿的操作。
另一方面,本发明还提供了一种机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述机器人的模仿学习方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述机器人的模仿学习方法所述的步骤。
本发明预先构建了极限学习机模型,并推导出极限学习机模型的稳定性约束条件,由极限学习机模型结合稳定性约束条件训练得到动态预测模型,在接收到运动指令时,检测末端执行器当前时刻的位姿是否为目标位姿,是则确定末端执行器完成模仿学习任务,否则根据末端执行器当前时刻的位姿和动态预测模型,生成末端执行器下一时刻的预测位姿,根据该预测位姿调节末端执行器的关节,并跳转至检测末端执行器当前时刻的位姿是否为目标位姿的步骤,从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
附图说明
图1是本发明实施例一提供的机器人的模仿学习方法的实现流程图;
图2是本发明实施例二提供的机器人的模仿学习方法中采集数据样本集和训练动态预测模型的实现流程图;
图3是本发明实施例三提供的机器人的模仿学习装置的结构示意图;
图4是本发明实施例四提供的机器人的模仿学习装置的结构示意图;以及
图5是本发明实施例五提供的机器人的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的机器人的模仿学习方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到预设的运动指令时,获取末端执行器当前时刻的位姿。
本发明实施例适用于但不限于带有关节、连杆等结构、可实现伸缩、抓取等动作的机器人。在接收到用户或者控制系统发送的运动或移动指令时,机器人可获取各个关节的关节角,再根据这些关节角和正运动学,计算得到末端执行器当前时刻的位姿,此外,若机器人自身带有末端执行器的位置传感器,可通过该位置传感器直接获得末端执行器当前时刻的位姿,其中,位姿包括末端执行器的位置和方向。
在步骤S102中,检测当前时刻的位姿是否为预设的目标位姿。
在本发明实施例中,检测末端执行器当前时刻的位姿是否为预设的目标位姿,当末端执行器当前时刻的位姿为目标位姿时,执行步骤S106,否则执行步骤S103。
在步骤S103中,根据当前时刻的位姿和预先训练好的动态预测模型,生成末端执行器下一时刻的预测位姿,动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。
在本发明实施例中,当末端执行器当前时刻的位姿不是预设的目标位姿时,需要对末端执行器的位姿进行调整。预先训练得到的动态预测模型用来根据末端执行器的当前状态预测出末端执行器当前状态的变化,因此在将末端执行器当前时刻的位姿输入动态预测模型后,可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度,可计算得到末端执行器下一时刻的预测位姿,计算公式可表示为:
Figure BDA0001467739640000051
其中,xt+1为末端执行器下一时刻t+1的预测位姿,xt为末端执行器当前时刻t的预测位姿,
Figure BDA0001467739640000052
为动态预测模型的输出,δt为预设的采样时间间隔。
在本发明实施例中,预先在动态预测模型的训练过程中,构建极限学习机模型,并根据李雅普诺夫定理构建极限学习机模型对应的稳定性约束条件,结合该稳定性约束条件对极限学习机模型进行有监督的训练,训练好的极限学习机模型即训练好的动态预测模型,从而通过极限学习机与李雅普诺夫定理推导的稳定性约束条件的结合,有效地同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度。
其中,用于极限学习机模型训练的训练样本在用户的示教过程采集得到,训练样本的采集、动态预测模型的训练过程可参照实施例二中各步骤的详细描述,在此不再赘述。
在步骤S104中,根据下一时刻的预测位姿,调节各个关节的关节角,获取末端执行器调节后的位姿。
在本发明实施例中,在获得末端执行器下一时刻的预测位姿后,可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿,当前机器人各个关节分别需要变化的关节角,进而调节机器人各个关节的关节角,由于调节过程中的误差和精度,末端执行器调节后的位姿和预测位姿存在差异,可根据机器人调节后各个关节的角度,通过正运动学计算得到末端执行器调节后的位姿。
在步骤S105中,将调节后的位姿设置为当前时刻的位姿。
在本发明实施例中,将末端执行器调节后的位置设置为末端执行器当前时刻的位姿,并跳转至步骤S102中执行检测末端执行器当前时刻的位姿是否为预设的目标位姿操作,如此循环,直到末端执行器当前时刻的位姿与预设目标位姿相同。
在步骤S106中,确定末端执行器完成预设的模仿学习任务。
在本发明实施例中,当末端执行器调节后的位姿为目标位姿时,可认为末端执行器成功模仿人的运动特性、收敛到了目标点,确定末端执行器完成了预设的模仿学习任务。
在本发明实施例中,在末端执行器当前时刻的位姿不是目标位姿时,将当前时刻的位姿输入动态预测模型,得到末端执行器下一时刻的预测位姿,根据该预测位姿调节各个关节的角度,获得末端执行器调节后的位姿,继续判断末端执行器当前时刻的位姿是否为目标位姿,如此循环,直至末端执行器的位姿达到目标位姿,从而根据极限学习机模型和基于李雅普诺夫定理的稳定性约束条件的结合,同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
实施例二:
图2示出了本发明实施例二提供的机器人的模仿学习方法中采集训练样本集和训练动态预测模型的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,在示教过程中按照预设的采样时间间隔,在末端执行器的每条示教轨迹上采集末端执行器的位姿。
在本发明实施例中,在示教过程中可由示教者或者用户给出示教动作,末端执行器按照示教动作进行运动,通过机器人自身或者外部的动作捕捉器按照预设的采样时间间隔,在每条运动轨迹(示教轨迹)上采集末端执行器的位姿,采集到的末端执行器的位姿可表示为
Figure BDA0001467739640000061
其中,i=1,...,Ntraj,k=1,...,Ni,Ntraj为示教轨迹的数量,Ni为第i条示教轨迹上的采样点数目。
在本发明实施例中,对示教过程中的示教方式不做限制,作为示例地,示教者可通过遥控器或示教器对机器人进行操纵来给出示教动作,也可通过抓握住末端执行器在平面或空间中运动出一条轨迹来给出示教动作,还可通过戴着数据手套亲自完成运动任务由数据手套采集示教动作。
在步骤S202中,根据采样时间间隔和末端执行器每个采样点处的位姿,计算末端执行器每个采样点处的速度,将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本。
在本发明实施例中,在采样得到末端执行器每个采样点处的位姿后,可计算末端执行器每个采样点处的速度,作为示例地,末端执行器每个采样点处的速度的计算公式可表示为:
Figure BDA0001467739640000071
其中,δt为预设的采样时间间隔,
Figure BDA0001467739640000072
Figure BDA0001467739640000073
为末端执行器在第i条示教轨迹上第k个采样点处的速度。之后,将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本,训练样本可表示为
Figure BDA0001467739640000074
在步骤S203中,构建极限学习机模型,并根据在预设的示教过程中采集的训练样本集,初始化极限学习机模型的输入和目标输出。
在本发明实施例中,极限学习机模型是一种特殊的前向神经网络模型,其特殊之处在于仅含有一个隐藏层,且隐藏层的神经元个数、权值和偏置是随机确定的,在极限学习机模型训练的过程中,隐藏层的权值和偏置保持不变,仅修改输出层的权值,因此采用极限学习机模型作为机器人模仿学习的动态预测模型,在不需要大规模的训练数据的情况下就能够获得很好的训练效果,也便于为极限学习机模型添加稳定性约束。
在本发明实施例中,构建极限学习机模型,极限学习机模型可表示为:
Figure BDA0001467739640000075
其中,
Figure BDA0001467739640000076
Figure BDA0001467739640000077
为极限学习机模型中隐藏层的神经元个数、偏置和权重,
Figure BDA0001467739640000081
为极限学习机网络模型中输出层的权重,x、g(x)分别为极限学习机模型的输入和激活函数,激活函数可为S形函数(sigmoid函数)或双曲正切函数(tanh函数),在此对激活函数不做限制。
另外地,极限学习机模型的输入层和输出层应该具有相同的维度,即具有相同的神经元个数d,若末端执行器在二维平面运动,d=2,若末端执行器在三维空间运动,d=3。
在本发明实施例中,将训练样本集中训练样本中末端执行器的位姿设置为极限学习机模型的输入,将训练样本中末端执行器的速度设置为极限学习机模型的目标输出,从而可得到极限学习机模型的优化目标为:
Figure BDA0001467739640000082
其中,
Figure BDA0001467739640000083
O为训练样本中末端执行器的速度,也为极限学习机模型的目标输出。
在步骤S204中,根据预设的李雅普诺夫定理,构建稳定性约束条件,稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件。
在本发明实施例中,基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件,稳定性约束条件通过对极限学习机模型中的权值进行条件约束,使得训练得到的极限学习机模型能够保证机器人模仿学习的稳定性。稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件,全局渐近稳定的约束条件可表示为:
对于
Figure BDA0001467739640000084
且Φi
Figure BDA0001467739640000085
个特征值中存在d个特征值线性无关,其中,Φi
Figure BDA0001467739640000086
的“对称部分”,
Figure BDA0001467739640000087
为矩阵的负定。局部渐近稳定的约束条件可表示为:
对于
Figure BDA0001467739640000088
在步骤S205中,根据稳定性约束条件,对极限学习机模型进行有监督的训练,将训练好的极限学习机模型设置为动态预测模型。
在本发明实施例中,对极限学习机模型的优化目标
Figure BDA0001467739640000091
进行优化,得到满足稳定性约束条件、且使得优化目标最优的一组输出层权值β。作为示例地,可通过最小二乘法对优化目标
Figure BDA0001467739640000092
进行求解,得到
Figure BDA0001467739640000093
再通过稳定性约束条件对
Figure BDA0001467739640000094
进行约束,其中,H+是矩阵H的Moore-Penrose广义逆矩阵。最后,训练好的极限学习机模型即训练好的动态预测模型。
在本发明实施例中,构建极限学习机模型,基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件,根据示教过程中采集的训练样本集、稳定性约束条件,对极限学习机模型进行训练,训练好的极限学习机模型即训练好的动态预测模型,从而有效地提高了机器人模仿学习的模型训练速度,同时保证了机器人模仿学习的稳定性和复现精度。
实施例三:
图3示出了本发明实施例三提供的机器人的模仿学习装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
位姿获取单元31,用于当接收到预设的运动指令时,获取末端执行器当前时刻的位姿。
在本发明实施例中,在接收到用户或者控制系统发送的运动或移动指令时,机器人可获取各个关节的关节角,再根据这些关节角和正运动学,计算得到末端执行器当前时刻的位姿,此外,若机器人自身带有末端执行器的位置传感器,可通过该位置传感器直接获得末端执行器当前时刻的位姿。
位姿判断单元32,用于检测当前时刻的位姿是否为预设的目标位姿,是则,确定末端执行器完成预设的模仿学习任务,否则,根据当前时刻的位姿和预先训练好的动态预测模型,生成末端执行器下一时刻的预测位姿,动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。
在本发明实施例中,检测当前时刻的位姿是否为预设的目标位姿,是则,可认为末端执行器成功模仿人的运动特性、收敛到了目标点,确定末端执行器完成了预设的模仿学习任务,否则需要对末端执行器的位姿进行调整,直至末端执行器的位姿为目标位姿。预先训练得到的动态预测模型用来根据末端执行器的当前状态预测出末端执行器当前状态的变化,因此在将末端执行器当前时刻的位姿输入动态预测模型后,可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度,可计算得到末端执行器下一时刻的预测位姿,计算公式可表示为:
Figure BDA0001467739640000101
其中,xt+1为末端执行器下一时刻t+1的预测位姿,xt为末端执行器当前时刻t的预测位姿,
Figure BDA0001467739640000102
为动态预测模型的输出,δt为预设的采样时间间隔。
在本发明实施例中,预先在动态预测模型的训练过程中,构建极限学习机模型,并根据李雅普诺夫定理构建极限学习机模型对应的稳定性约束条件,结合该稳定性约束条件对极限学习机模型进行有监督的训练,训练好的极限学习机模型即训练好的动态预测模型,从而通过极限学习机与李雅普诺夫定理推导的稳定性约束条件的结合,有效地同时保证了机器人模仿学习的稳定性、复现精度和模型训练速度。
其中,用于极限学习机模型训练的训练样本在用户的示教过程采集得到,训练样本的采集、动态预测模型的训练过程可参照实施例四中相应单元的详细描述,在此不再赘述。
运动调节单元33,用于根据下一时刻的预测位姿,调节各个关节的关节角,获取末端执行器调节后的位姿。
在本发明实施例中,在获得末端执行器下一时刻的预测位姿后,可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿,当前机器人各个关节分别需要变化的关节角,进而调节机器人各个关节的关节角,由于调节过程中的误差和精度,末端执行器调节后的位姿和预测位姿存在差异,可根据机器人调节后各个关节的角度,通过正运动学计算得到末端执行器调节后的位姿。
位姿设置单元34,用于将调节后的位姿设置为当前时刻的位姿,并由位姿判断单元32执行检测当前时刻的位姿是否为预设的目标位姿的操作。
在本发明实施例中,将末端执行器调节后的位置设置为末端执行器当前时刻的位姿,并由位姿判断单元32执行检测末端执行器当前时刻的位姿是否为预设的目标位姿操作,如此循环,直到末端执行器当前时刻的位姿与预设目标位姿相同。
在本发明实施例中,在末端执行器当前时刻的位姿不是目标位姿时,将当前时刻的位姿输入动态预测模型,得到末端执行器下一时刻的预测位姿,根据该预测位姿调节各个关节的角度,获得末端执行器调节后的位姿,继续判断末端执行器当前时刻的位姿是否为目标位姿,如此循环,直至末端执行器的位姿达到目标位姿,从而根据极限学习机模型和基于李雅普诺夫定理的稳定性约束条件的结合,同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
实施例四:
图4示出了本发明实施例四提供的机器人的模仿学习装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
示教采集单元41,用于在示教过程中按照预设的采样时间间隔,在末端执行器的每条示教轨迹上采集末端执行器的位姿。
在本发明实施例中,在示教过程中可由示教者或者用户给出示教动作,末端执行器按照示教动作进行运动,通过机器人自身或者外部的动作捕捉器按照预设的采样时间间隔,在每条运动轨迹(示教轨迹)上采集末端执行器的位姿,采集到的末端执行器的位姿可表示为
Figure BDA0001467739640000111
其中,i=1,...,Ntraj,k=1,...,Ni,Ntraj为示教轨迹的数量,Ni为第i条示教轨迹上的采样点数目。在此对示教过程中的示教方式不做限制。
样本生成单元42,用于根据采样时间间隔和末端执行器每个采样点处的位姿,计算末端执行器每个采样点处的速度,将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本。
在本发明实施例中,在采样得到末端执行器每个采样点处的位姿后,可计算末端执行器每个采样点处的速度,作为示例地,末端执行器每个采样点处的速度的计算公式可表示为:
Figure BDA0001467739640000121
其中,δt为预设的采样时间间隔,
Figure BDA0001467739640000122
Figure BDA0001467739640000123
为末端执行器在第i条示教轨迹上第k个采样点处的速度。之后,将末端执行器每个采样点处的位姿、速度组合构成训练样本集的训练样本,训练样本可表示为
Figure BDA0001467739640000124
模型构建单元43,用于构建极限学习机模型,并根据在预设的示教过程中采集的训练样本集,初始化极限学习机模型的输入和目标输出。
在本发明实施例中,构建极限学习机模型,极限学习机模型可表示为:
Figure BDA0001467739640000125
其中,
Figure BDA0001467739640000126
Figure BDA00014677396400001210
为极限学习机模型中隐藏层的神经元个数、偏置和权重,β=(β1,,βi,,βN)为极限学习机网络模型中输出层的权重,x、g(x)分别为极限学习机模型的输入和激活函数,在此对激活函数不做限制。
另外地,极限学习机模型的输入层和输出层应该具有相同的维度,即具有相同的神经元个数d,若末端执行器在二维平面运动,d=2,若末端执行器在三维空间运动,d=3。
在本发明实施例中,将训练样本集中训练样本中末端执行器的位姿设置为极限学习机模型的输入,将训练样本中末端执行器的速度设置为极限学习机模型的目标输出,从而可得到极限学习机模型的优化目标为:
Figure BDA0001467739640000128
其中,
Figure BDA0001467739640000129
O为训练样本中末端执行器的速度,也为极限学习机模型的目标输出。
约束构建单元44,用于根据预设的李雅普诺夫定理,构建稳定性约束条件,稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件。
在本发明实施例中,基于李雅普诺夫定理推导出适用于极限学习机模型的稳定性约束条件,稳定性约束条件通过对极限学习机模型中的权值进行条件约束,使得训练得到的极限学习机模型能够保证机器人模仿学习的稳定性。稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件,全局渐近稳定的约束条件可表示为:
对于
Figure BDA0001467739640000131
且Φi
Figure BDA0001467739640000132
个特征值中存在d个特征值线性无关,其中,Φi
Figure BDA0001467739640000133
的“对称部分”,
Figure BDA0001467739640000134
<为矩阵的负定。局部渐近稳定的约束条件可表示为:
对于
Figure BDA0001467739640000135
模型训练单元45,用于根据稳定性约束条件,对极限学习机模型进行有监督的训练,将训练好的极限学习机模型设置为动态预测模型。
在本发明实施例中,对极限学习机模型的优化目标
Figure BDA0001467739640000136
进行优化,得到满足稳定性约束条件、且使得优化目标最优的一组输出层权值β。作为示例地,可通过最小二乘法对优化目标
Figure BDA0001467739640000137
进行求解,得到
Figure BDA0001467739640000138
再通过稳定性约束条件对
Figure BDA0001467739640000139
进行约束,其中,H+是矩阵H的Moore-Penrose广义逆矩阵。最后,训练好的极限学习机模型即训练好的动态预测模型。
位姿获取单元46,用于当接收到预设的运动指令时,获取末端执行器当前时刻的位姿。
在本发明实施例中,在接收到用户或者控制系统发送的运动或移动指令时,机器人可获取各个关节的关节角,再根据这些关节角和正运动学,计算得到末端执行器当前时刻的位姿,此外,若机器人自身带有末端执行器的位置传感器,可通过该位置传感器直接获得末端执行器当前时刻的位姿。
位姿判断单元47,用于检测当前时刻的位姿是否为预设的目标位姿,是则,确定末端执行器完成预设的模仿学习任务,否则,根据当前时刻的位姿和预先训练好的动态预测模型,生成末端执行器下一时刻的预测位姿,动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到。
在本发明实施例中,检测当前时刻的位姿是否为预设的目标位姿,是则,可认为末端执行器成功模仿人的运动特性、收敛到了目标点,确定末端执行器完成了预设的模仿学习任务,否则需要对末端执行器的位姿进行调整,直至末端执行器的位姿为目标位姿。
在本发明实施例中,当末端执行器当前时刻的位姿不是目标位姿时,将末端执行器当前时刻的位姿输入动态预测模型,可得到动态预测模型输出的末端执行器当前时刻的运动速度。根据末端执行器当前时刻的位姿和运动速度,可计算得到末端执行器下一时刻的预测位姿,计算公式可表示为:
Figure BDA0001467739640000141
其中,xt+1为末端执行器下一时刻t+1的预测位姿,xt为末端执行器当前时刻t的预测位姿,
Figure BDA0001467739640000142
为动态预测模型的输出,δt为预设的采样时间间隔。
运动调节单元48,用于根据下一时刻的预测位姿,调节各个关节的关节角,获取末端执行器调节后的位姿。
在本发明实施例中,在获得末端执行器下一时刻的预测位姿后,可通过逆向运动学计算使得末端执行器从当前位姿运动到预测位姿,当前机器人各个关节分别需要变化的关节角,进而调节机器人各个关节的关节角,由于调节过程中的误差和精度,末端执行器调节后的位姿和预测位姿存在差异,可根据机器人调节后各个关节的角度,通过正运动学计算得到末端执行器调节后的位姿。
位姿设置单元49,用于将调节后的位姿设置为当前时刻的位姿,并由位姿判断单元47执行检测当前时刻的位姿是否为预设的目标位姿的操作。
在本发明实施例中,预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件,训练得到动态预测模型,在获得末端执行器当前时刻的位姿时,通过动态预设模型对末端执行器的位姿进行调节,直至末端执行器当前时刻的位姿为目标位姿,从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
在本发明实施例中,机器人的模仿学习装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例五:
图5示出了本发明实施例五提供的机器人的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的机器人5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件,训练得到动态预测模型,在获得末端执行器当前时刻的位姿时,通过动态预设模型对末端执行器的位姿进行调节,直至末端执行器当前时刻的位姿为目标位姿,从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
实施例六:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个方法实施例中的步骤,例如,图1所示的步骤S101至S106。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,预先根据极限学习机模型、基于李雅普诺夫定理的稳定性约束条件,训练得到动态预测模型,在获得末端执行器当前时刻的位姿时,通过动态预设模型对末端执行器的位姿进行调节,直至末端执行器当前时刻的位姿为目标位姿,从而同时保证了机器人模仿学习的稳定性、复现精度以及模型训练速度,有效地提高了机器人运动的人性化程度。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器人的模仿学习方法,其特征在于,所述方法包括下述步骤:
当接收到预设的运动指令时,获取末端执行器当前时刻的位姿;
检测所述当前时刻的位姿是否为预设的目标位姿,是则,确定所述末端执行器完成预设的模仿学习任务,否则,根据所述当前时刻的位姿和预先训练好的动态预测模型,生成所述末端执行器下一时刻的预测位姿,所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到;
根据所述下一时刻的预测位姿,调节各个关节的关节角,获取所述末端执行器调节后的位姿;
将所述调节后的位姿设置为所述当前时刻的位姿,并跳转至检测所述当前时刻的位姿是否为预设的目标位姿的步骤。
2.如权利要求1所述的方法,其特征在于,当接收到预设的运动指令时,获取末端执行器当前时刻的位姿步骤之前,所述方法还包括:
构建所述极限学习机模型,并根据在预设的示教过程中采集的训练样本集,初始化所述极限学习机模型的输入和目标输出;
根据预设的李雅普诺夫定理,构建所述稳定性约束条件,所述稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件;
根据所述稳定性约束条件,对所述极限学习机模型进行有监督的训练,将训练好的所述极限学习机模型设置为所述动态预测模型。
3.如权利要求2所述的方法,其特征在于,构建所述极限学习机模型的步骤之前,所述方法还包括:
在所述示教过程中按照预设的采样时间间隔,在所述末端执行器的每条示教轨迹上采集所述末端执行器的位姿;
根据所述采样时间间隔和所述末端执行器每个采样点处的位姿,计算所述末端执行器每个采样点处的速度,将所述末端执行器每个采样点处的位姿、速度组合构成所述训练样本集的训练样本。
4.如权利要求3所述的方法,其特征在于,构建所述极限学习机模型,并根据在预设的示教过程中采集的训练样本集,初始化所述极限学习机模型的输入和目标输出的步骤,包括:
构建所述极限学习机模型,所述极限学习机模型表示为:
Figure FDA0002303235100000011
其中,所述
Figure FDA0002303235100000012
Figure FDA0002303235100000013
Figure FDA0002303235100000014
分别为所述极限学习机模型中隐藏层的神经元个数、偏置和权重,所述β=(β1,...,βN)为所述极限学习机模型中输出层的权重,所述x、g(x)分别为所述极限学习机模型的输入和激活函数;
将所述训练样本集的训练样本中所述末端执行器的位姿和所述末端执行器的速度分别设置为所述极限学习机模型的输入和目标输出,以获得所述极限学习机模型的优化目标,所述优化目标表示为:
Figure FDA0002303235100000015
其中,所述
Figure FDA0002303235100000016
所述O为所述训练样本集的训练样本中所述末端执行器的速度,也为所述极限学习机模型的目标输出。
5.如权利要求4所述的方法,其特征在于,根据预设的李雅普诺夫定理,构建所述稳定性约束条件的步骤,包括:
根据所述李雅普诺夫定理,构建所述全局渐近稳定的约束条件,所述全局渐近稳定的约束条件为:
Figure FDA0002303235100000021
且Φi中的所述
Figure FDA0002303235100000022
个特征值中存在d个特征值线性无关,其中,所述
Figure FDA0002303235100000023
根据所述李雅普诺夫定理,构建所述局部渐近稳定的约束条件,所述局部渐近稳定的约束条件为:
Figure FDA0002303235100000024
6.一种机器人的模仿学习装置,其特征在于,所述装置包括:
位姿获取单元,用于当接收到预设的运动指令时,获取末端执行器当前时刻的位姿;
位姿判断单元,用于检测所述当前时刻的位姿是否为预设的目标位姿,是则,确定所述末端执行器完成预设的模仿学习任务,否则,根据所述当前时刻的位姿和预先训练好的动态预测模型,生成所述末端执行器下一时刻的预测位姿,所述动态预测模型由预先构建的极限学习机模型结合预设的稳定性约束条件训练得到;
运动调节单元,用于根据所述下一时刻的预测位姿,调节各个关节的关节角,获取所述末端执行器调节后的位姿;以及
位姿设置单元,用于将所述调节后的位姿设置为所述当前时刻的位姿,并由所述位姿判断单元执行检测所述当前时刻的位姿是否为预设的目标位姿的操作。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
模型构建单元,用于构建所述极限学习机模型,并根据在预设的示教过程中采集的训练样本集,初始化所述极限学习机模型的输入和目标输出;
约束构建单元,用于根据预设的李雅普诺夫定理,构建所述稳定性约束条件,所述稳定性约束条件包括全局渐近稳定的约束条件和局部渐近稳定的约束条件;以及
模型训练单元,用于根据所述稳定性约束条件,对所述极限学习机模型进行有监督的训练,将训练好的所述极限学习机模型设置为所述动态预测模型。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
示教采集单元,用于在所述示教过程中按照预设的采样时间间隔,在所述末端执行器的每条示教轨迹上采集所述末端执行器的位姿;以及
样本生成单元,用于根据所述采样时间间隔和所述末端执行器每个采样点处的位姿,计算所述末端执行器每个采样点处的速度,将所述末端执行器每个采样点处的位姿、速度组合构成所述训练样本集的训练样本。
9.一种机器人,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201711122785.XA 2017-11-14 2017-11-14 机器人的模仿学习方法、装置、机器人及存储介质 Active CN108115681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711122785.XA CN108115681B (zh) 2017-11-14 2017-11-14 机器人的模仿学习方法、装置、机器人及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711122785.XA CN108115681B (zh) 2017-11-14 2017-11-14 机器人的模仿学习方法、装置、机器人及存储介质

Publications (2)

Publication Number Publication Date
CN108115681A CN108115681A (zh) 2018-06-05
CN108115681B true CN108115681B (zh) 2020-04-07

Family

ID=62228405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711122785.XA Active CN108115681B (zh) 2017-11-14 2017-11-14 机器人的模仿学习方法、装置、机器人及存储介质

Country Status (1)

Country Link
CN (1) CN108115681B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7034035B2 (ja) * 2018-08-23 2022-03-11 株式会社日立製作所 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法
CN109670416B (zh) * 2018-12-03 2023-04-28 深圳市越疆科技有限公司 基于前置姿态判断的学习方法、学习系统和存储介质
CN109500815B (zh) * 2018-12-03 2023-06-02 日照市越疆智能科技有限公司 用于前置姿态判断学习的机器人
CN109702740B (zh) * 2018-12-14 2020-12-04 中国科学院深圳先进技术研究院 机器人柔顺性控制方法、装置、设备及存储介质
CN109760050A (zh) * 2019-01-12 2019-05-17 鲁班嫡系机器人(深圳)有限公司 机器人行为训练方法、装置、系统、存储介质及设备
CN109784400A (zh) * 2019-01-12 2019-05-21 鲁班嫡系机器人(深圳)有限公司 智能体行为训练方法、装置、系统、存储介质及设备
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109984688A (zh) * 2019-04-18 2019-07-09 深圳乐行天下科技有限公司 一种机器人沿边清洁的方法及机器人
CN110524544A (zh) * 2019-10-08 2019-12-03 深圳前海达闼云端智能科技有限公司 一种机械臂运动的控制方法、终端和可读存储介质
CN110977965B (zh) * 2019-11-26 2023-02-28 中国科学院深圳先进技术研究院 机器人及其控制方法、计算机存储介质
CN111203854B (zh) * 2019-12-27 2021-05-25 深圳市越疆科技有限公司 机器人轨迹复现方法、控制装置、设备及可读存储介质
CN113119098B (zh) * 2019-12-30 2022-12-02 深圳市优必选科技股份有限公司 机械臂控制方法、机械臂控制装置及终端设备
CN111325768B (zh) * 2020-01-31 2022-08-30 武汉大学 一种基于3d视觉和模仿学习的自由漂浮目标抓捕方法
CN111452039B (zh) * 2020-03-16 2022-05-17 华中科技大学 动态系统下机器人姿态调整方法、装置、电子设备及介质
CN111890350A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN111890351A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN112666939B (zh) * 2020-12-09 2021-09-10 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112757275B (zh) * 2020-12-30 2022-02-25 中国科学院自动化研究所 基于速度精度权衡的肌肉骨骼系统控制方法、系统和装置
CN112959326B (zh) * 2021-03-29 2022-06-07 深圳市优必选科技股份有限公司 机器人正运动学求解方法、装置、可读存储介质及机器人
CN114274147B (zh) * 2022-02-10 2023-09-22 北京航空航天大学杭州创新研究院 目标跟踪控制方法及装置、机械臂控制设备和存储介质
CN114880888B (zh) * 2022-07-08 2022-09-09 四川大学 多旋转关节机器人末端效应器位姿相关动力学的预测方法
CN116400813B (zh) * 2023-06-08 2023-09-26 之江实验室 一种训练样本的生成方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101049697A (zh) * 2006-04-05 2007-10-10 中国科学院自动化研究所 一种移动机器人的位姿传感系统及其方法
CN101587329A (zh) * 2009-06-18 2009-11-25 北京理工大学 机器人预测的方法和系统
CN104002307A (zh) * 2014-05-23 2014-08-27 智慧城市系统服务(中国)有限公司 穿戴式救援机器人控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009054421A1 (de) * 2009-11-24 2011-06-01 Kuka Roboter Gmbh Verfahren zum Erstellen eines Robotermodells und Industrieroboter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101049697A (zh) * 2006-04-05 2007-10-10 中国科学院自动化研究所 一种移动机器人的位姿传感系统及其方法
CN101587329A (zh) * 2009-06-18 2009-11-25 北京理工大学 机器人预测的方法和系统
CN104002307A (zh) * 2014-05-23 2014-08-27 智慧城市系统服务(中国)有限公司 穿戴式救援机器人控制方法及系统

Also Published As

Publication number Publication date
CN108115681A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN108115681B (zh) 机器人的模仿学习方法、装置、机器人及存储介质
US11529733B2 (en) Method and system for robot action imitation learning in three-dimensional space
Ijspeert et al. Movement imitation with nonlinear dynamical systems in humanoid robots
Billard et al. Learning human arm movements by imitation:: Evaluation of a biologically inspired connectionist architecture
CN109702740B (zh) 机器人柔顺性控制方法、装置、设备及存储介质
WO2020118730A1 (zh) 机器人柔顺性控制方法、装置、设备及存储介质
Romano et al. The codyco project achievements and beyond: Toward human aware whole-body controllers for physical human robot interaction
CN106598058A (zh) 内在动机驱动的极限学习机自发育系统及其运行方法
Jetchev et al. Task Space Retrieval Using Inverse Feedback Control.
Kim et al. Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration
Li et al. Neural learning and kalman filtering enhanced teaching by demonstration for a baxter robot
Xi et al. Walking control of a biped robot on static and rotating platforms based on hybrid reinforcement learning
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
Khadivar et al. Adaptive fingers coordination for robust grasp and in-hand manipulation under disturbances and unknown dynamics
Yan et al. Hierarchical policy learning with demonstration learning for robotic multiple peg-in-hole assembly tasks
Wochner et al. Learning with muscles: Benefits for data-efficiency and robustness in anthropomorphic tasks
Ma et al. A Human-Robot Collaboration Controller Utilizing Confidence for Disagreement Adjustment
Hou et al. A hierarchical compliance-based contextual policy search for robotic manipulation tasks with multiple objectives
WO2019095108A1 (zh) 机器人的模仿学习方法、装置、机器人及存储介质
Gu et al. An Equilibrium Point based Model Unifying Movement Control in Humanoids.
Fachantidis et al. Model-based reinforcement learning for humanoids: A study on forming rewards with the iCub platform
Belter et al. Evolving feasible gaits for a hexapod robot by reducing the space of possible solutions
Jiang et al. Sim-to-real: Quadruped robot control with deep reinforcement learning and parallel training
Malone et al. Efficient motion-based task learning
Tilki et al. Imitation of basic hand preshapes by fluid based method: fluidics formation control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant