CN112605973A - 一种机器人运动技能学习方法及系统 - Google Patents

一种机器人运动技能学习方法及系统 Download PDF

Info

Publication number
CN112605973A
CN112605973A CN202011300615.8A CN202011300615A CN112605973A CN 112605973 A CN112605973 A CN 112605973A CN 202011300615 A CN202011300615 A CN 202011300615A CN 112605973 A CN112605973 A CN 112605973A
Authority
CN
China
Prior art keywords
robot
learning
data
model
hidden space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011300615.8A
Other languages
English (en)
Other versions
CN112605973B (zh
Inventor
徐智浩
周雪峰
程韬波
吴鸿敏
苏泽荣
李晓晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Original Assignee
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Intelligent Manufacturing of Guangdong Academy of Sciences filed Critical Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority to CN202011300615.8A priority Critical patent/CN112605973B/zh
Publication of CN112605973A publication Critical patent/CN112605973A/zh
Priority to PCT/CN2021/129342 priority patent/WO2022105635A1/zh
Application granted granted Critical
Publication of CN112605973B publication Critical patent/CN112605973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0081Programme-controlled manipulators with master teach-in means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J17/00Joints
    • B25J17/02Wrist joints
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Numerical Control (AREA)

Abstract

本发明公开了一种机器人运动技能学习方法及系统,其方法包括:获取人类拖动示教的数据样本集;基于主成分分析法对所述数据样本集进行降维处理;在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量。在本发明实施例中,通过利用少量人类示教数据且同时兼顾机器人本体的固有约束可实现机器人运动技能的自主学习,有效地提高算法的泛化能力与编程效率。

Description

一种机器人运动技能学习方法及系统
技术领域
本发明涉及机器人与人工智能领域,尤其涉及一种机器人运动技能学习方法及系统。
背景技术
机器人运动技能可实现机器人对给定任务的运动规划与运动指令生成,是机器人智能化的基础。针对实现机器人在复杂环境与任务下的自主运动这一研究热点,如何将人类的操作技能赋予机器人成为关键所在。传统上通常采用离线编程或者示教式编程,通过对运动任务进行几何化描述以及结合机器人运动学模型与插值方法进行计算求解,但这类方法存在对复杂任务的适应性不强、任务描述困难、对同类型任务需要重复编程等缺点。
随着人工智能技术的兴起,相关技术人员提出以数据驱动的方式从人类操作数据中提取出人类操作特点,并通过模拟人类操作特点来实现机器人的运行生成。这种纯数据驱动的学习方法能够有效提高机器人的任务适应性与编程效率,但是在运行过程中为借鉴人类对复杂任务与环境的适应能力,存在以下不足:(1)人类示教数据有限,尤其当机器人位型不佳(如临近关节限幅、临近奇异点等)时缺乏有效的训练数据;(2)需要大量实验数据进行采集标注,使得所搭建的神经网络结构庞大,算法的硬件实现较为困难。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种机器人运动技能学习方法及系统,通过利用少量人类示教数据且同时兼顾机器人本体的固有约束可实现机器人运动技能的自主学习,有效地提高算法的泛化能力与编程效率。
为了解决上述问题,本发明提出了一种机器人运动技能学习方法,所述方法包括:
获取人类拖动示教的数据样本集;
基于主成分分析法对所述数据样本集进行降维处理;
在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
可选的,所述获取人类拖动示教的数据样本集包括:
基于人类对机器人所执行的若干次拖动示教,依次记录所述机器人在每一次拖动示教过程中的采样时间与采样数据,其中所述采样数据包括所述机器人的关节角矩阵与末端执行位置矩阵。
可选的,所述基于主成分分析法对所述数据样本集进行降维处理包括:
对所述数据样本集进行归一化处理,获取归一化数据集;
计算所述数据样本集的协方差矩阵,并计算所述协方差矩阵的特征值;
基于所述特征值确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
可选的,所述在隐空间内建立变量约束条件包括:
根据机器人的运动学性质,构建所述机器人的关节速度与末端速度之间的等式约束条件以及所述机器人关节角度的不等式约束条件,并结合所述转换矩阵分别将所述等式约束条件与所述不等式约束条件映射到隐空间内表示。
可选的,所述采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型包括:
确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型;
以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理,输出机器人运动控制训练模型。
可选的,所述基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习包括:
以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;
将所述模型优化解从隐空间映射到初始采样空间,获取所述机器人的实际控制量,实现机器人运动技能的学习。
另外,本发明实施例还提供了一种机器人运动技能学习系统,所述系统包括:
获取模块,用于获取人类拖动示教的数据样本集;
处理模块,用于基于主成分分析法对所述数据样本集进行降维处理;
转换模块,用于在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
学习模块,用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
求解模块,用于基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
可选的,所述处理模块用于对所述数据样本集进行归一化处理,获取归一化数据集;计算所述数据样本集的协方差矩阵,并计算所述协方差矩阵的特征值;基于所述特征值确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
可选的,所述学习模块用于确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型;以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理,输出机器人运动控制训练模型。
可选的,所述求解模块用于以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;将所述模型优化解从隐空间映射到初始采样空间,获取所述机器人的实际控制量,实现机器人运动技能的学习。
在本发明实施例中,基于少量人类示教数据以及机器人系统模型的先验知识,通过增加考虑机器人的物理约束特征与示教数据的等式性质特征,可实现机器人运动技能的自主学习,同时兼顾人类对复杂任务与环境的高适应能力,能够有效地提高算法的泛化能力与编程效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的机器人运动技能学习方法的流程示意图;
图2是本发明实施例中的机器人运动技能学习系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1示出了本发明实施例中的机器人运动技能学习方法的流程示意图。
如图1所示,一种机器人运动技能学习方法,所述方法包括如下步骤:
S101、获取人类拖动示教的数据样本集;
本发明实施过程包括:基于人类对机器人所执行的若干次拖动示教,依次记录所述机器人在每一次拖动示教过程中的采样时间Xt,i,j与采样数据Xs,i,j,其中所述采样数据Xs,i,j包括所述机器人的关节角矩阵θs,i,j与末端执行位置矩阵xs,i,j,最终可获取到数据样本集为Xs={θs,xs}。
需要说明的是,本发明设定人类对所述机器人执行n(i=1,...,n)次拖动示教,且每一次拖动示教可采集到T(j=1,...,T)个样本数据,此时所述数据样本集Xs中包含有N=n×T组样本数据。
S102、基于主成分分析法对所述数据样本集进行降维处理;
本发明实施过程包括:
(1)对所述数据样本集进行归一化处理,获取归一化数据集;
具体的,计算所述数据样本集Xs中的每一类数据样本的均值,以此形成所述数据样本集Xs所对应的均值矩阵
Figure BDA0002786713400000051
此时可得到归一化数据集为
Figure BDA0002786713400000052
(2)计算所述数据样本集Xs的协方差矩阵为
Figure BDA0002786713400000053
并利用现有的正交三角分解法或者其他典型算法计算出所述协方差矩阵∑的特征值为λi(i=1,2,...,d),其中d为所述数据样本集Xs的信息维度,同时获取特征值λi所对应的特征向量为vi
(3)基于所述特征值λi确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
具体的,首先由技术人员设定降维的阈值为0.98,此时可根据不等式
Figure BDA0002786713400000054
确定所述数据样本集Xs在降维处理后的隐空间维度D,即说明隐空间内包含有D个特征向量,并基于该隐空间维度D构建出转换矩阵为A=[v1,...,vD]∈{Aθ,Ax,Ay};其次将所述数据样本集Xs转换到该隐空间内表示为:
Figure BDA0002786713400000055
其中,Aθ、Ax、Ay均为转换矩阵A的拆分形式,Ax为最左侧几列向量所组成的矩阵,Ay为最右侧几列向量所组成的矩阵,Aθ为中间几列向量所组成的矩阵,具体列数将根据实际降维后特征值的数量所决定。
S103、在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
本发明实施过程包括:
(1)提取所述机器人的速度信息为:
Figure BDA0002786713400000061
Figure BDA0002786713400000062
其中,Xs,i,j为第i次拖动示教所采集到的第j个样本数据,ξs,i,j为样本数据Xs,i,j映射到该隐空间内的对应样本数据,
Figure BDA0002786713400000063
为Xs,i,j的时间导数;
(2)根据机器人的运动学性质,构建所述机器人的关节速度与末端速度之间的等式约束条件为:
Figure BDA0002786713400000064
结合所述转换矩阵A将上述等式约束条件映射到隐空间内表示为:
Figure BDA0002786713400000065
其中,
Figure BDA0002786713400000066
为所述机器人的末端速度,
Figure BDA0002786713400000067
为映射到该隐空间内的末端速度,
Figure BDA0002786713400000068
为所述机器人的关节角速度,
Figure BDA0002786713400000069
为映射到该隐空间内的关节角速度,
Figure BDA00027867134000000610
为映射到该隐空间内的关节角,
Figure BDA00027867134000000611
为所述数据样本集中的所有关节角数据的均值,且各个参数可从上述速度信息中直接获取,J(x)为所述机器人的雅克比矩阵;
(3)构建所述机器人关节角度的不等式约束条件为:
Figure BDA00027867134000000612
结合所述转换矩阵A将上述不等式约束条件映射到隐空间内表示为:
Figure BDA00027867134000000613
其中,
Figure BDA00027867134000000614
为所述机器人的关节角下限,
Figure BDA00027867134000000615
为所述机器人的关节角上限,
Figure BDA00027867134000000616
为映射到该隐空间内的关节角速度下限,
Figure BDA00027867134000000617
为映射到该隐空间内的关节角速度上限,k为正常数;
(4)根据上述所规定的两个约束条件,对降维处理后的数据样本集(即所述降维数据集ξs)进行内部筛选并剔除出异常数据,形成隐空间数据集。
S104、采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
本发明实施过程包括:
(1)确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型为:
Figure BDA0002786713400000071
p(k)=πk
Figure BDA0002786713400000072
其中,ξj为映射到该隐空间内的示教信息,且ξj={ξt,ξs}={Xt,ξs},ξi∈ξs,p(k)为先验值,p(ξi|k)为其对应的概率密度函数,πk、uk、∑k均为第k个高斯混合模型的参数,可采用极大似然估计法求解而来;
需要说明的是,对于每一个高斯混合模型,均应区分开时间分量和空间变量,即第k个高斯混合模型的均值矩阵uk应表示为:uk={ut,k,us,k},以及协方差矩阵∑k应表示为:
Figure BDA0002786713400000073
(2)以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理,输出机器人运动控制训练模型。
具体的,首先在给定隐空间时间信息ξt的条件下,采用混合高斯回归法可估计第k个高斯混合模型的条件期望
Figure BDA0002786713400000074
以及条件协方差
Figure BDA0002786713400000075
分别为:
Figure BDA0002786713400000076
Figure BDA0002786713400000077
其次可通过结合K个高斯混合模型,搭建机器人运动控制训练模型为:
Figure BDA0002786713400000078
其中,βk为第k个高斯混合模型对隐空间时间信息ξt的贡献,p(ξt|k)为第k个高斯混合模型的概率密度分布,p(ξt|i)为特定第i个高斯混合模型的概率密度分布。
S105、基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
本发明实施过程包括:
(1)以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;
具体的,首先定义学习评价指标H为:
Figure BDA0002786713400000081
Figure BDA0002786713400000082
Figure BDA0002786713400000083
其次,结合所述学习评价指标H,并利用所述机器人运动控制训练模型构建相应的递归神经网络为:
Figure BDA0002786713400000084
再对上述递归神经网络进行迭代更新与最优化问题求解,获取模型优化解为:
Figure BDA0002786713400000085
其中,ε为正常数,PΩ为投影算子,且其下限为
Figure BDA0002786713400000086
Figure BDA0002786713400000087
其上限为
Figure BDA0002786713400000088
c1、c2、Wθ、Wx
Figure BDA0002786713400000089
均为辅助变量,λ为递归神经网络的对偶变量,
Figure BDA00027867134000000810
为模型最优解
Figure BDA00027867134000000811
的变化率;
(2)将所述模型优化解
Figure BDA00027867134000000812
从隐空间映射到初始采样空间,获取所述机器人的实际控制量为:
Figure BDA00027867134000000813
且以该实际控制量操作所述机器人,实现所述机器人运动技能的学习。
在本发明实施例中,基于少量人类示教数据以及机器人系统模型的先验知识,通过增加考虑机器人的物理约束特征与示教数据的等式性质特征,可实现机器人运动技能的自主学习,同时兼顾人类对复杂任务与环境的高适应能力,能够有效地提高算法的泛化能力与编程效率。
实施例
请参阅图2,图2示出了本发明实施例中的机器人运动技能学习系统的结构组成示意图。
如图2所示,一种机器人运动技能学习系统,所述系统包括如下:
获取模块201,用于获取人类拖动示教的数据样本集;
本发明实施过程包括:基于人类对机器人所执行的若干次拖动示教,依次记录所述机器人在每一次拖动示教过程中的采样时间Xt,i,j与采样数据Xs,i,j,其中所述采样数据Xs,i,j包括所述机器人的关节角矩阵θs,i,j与末端执行位置矩阵xs,i,j,最终可获取到数据样本集为Xs={θs,xs}。
需要说明的是,本发明设定人类对所述机器人执行n(i=1,...,n)次拖动示教,且每一次拖动示教可采集到T(j=1,...,T)个样本数据,此时所述数据样本集Xs中包含有N=n×T组样本数据。
处理模块202,用于基于主成分分析法对所述数据样本集进行降维处理;
本发明实施过程包括:
(1)对所述数据样本集进行归一化处理,获取归一化数据集;
具体的,计算所述数据样本集Xs中的每一类数据样本的均值,以此形成所述数据样本集Xs所对应的均值矩阵
Figure BDA0002786713400000091
此时可得到归一化数据集为
Figure BDA0002786713400000092
(2)计算所述数据样本集Xs的协方差矩阵为
Figure BDA0002786713400000093
并利用现有的正交三角分解法或者其他典型算法计算出所述协方差矩阵∑的特征值为λi(i=1,2,...,d),其中d为所述数据样本集Xs的信息维度,同时获取特征值λi所对应的特征向量为vi
(3)基于所述特征值λi确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
具体的,首先由技术人员设定降维的阈值为0.98,此时可根据不等式
Figure BDA0002786713400000094
确定所述数据样本集Xs在降维处理后的隐空间维度D,即说明隐空间内包含有D个特征向量,并基于该隐空间维度D构建出转换矩阵为A=[v1,...,vD]∈{Aθ,Ax,Ay};其次将所述数据样本集Xs转换到该隐空间内表示为:
Figure BDA0002786713400000095
其中,Aθ、Ax、Ay均为转换矩阵A的拆分形式,Ax为最左侧几列向量所组成的矩阵,Ay为最右侧几列向量所组成的矩阵,Aθ为中间几列向量所组成的矩阵,具体列数将根据实际降维后特征值的数量所决定。
转换模块203,用于在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
本发明实施过程包括:
(1)提取所述机器人的速度信息为:
Figure BDA0002786713400000101
Figure BDA0002786713400000102
其中,Xs,i,j为第i次拖动示教所采集到的第j个样本数据,ξs,i,j为样本数据Xs,i,j映射到该隐空间内的对应样本数据,
Figure BDA0002786713400000103
为Xs,i,j的时间导数;
(2)根据机器人的运动学性质,构建所述机器人的关节速度与末端速度之间的等式约束条件为:
Figure BDA0002786713400000104
结合所述转换矩阵A将上述等式约束条件映射到隐空间内表示为:
Figure BDA0002786713400000105
其中,
Figure BDA0002786713400000106
为所述机器人的末端速度,
Figure BDA0002786713400000107
为映射到该隐空间内的末端速度,
Figure BDA0002786713400000108
为所述机器人的关节角速度,
Figure BDA0002786713400000109
为映射到该隐空间内的关节角速度,
Figure BDA00027867134000001010
为映射到该隐空间内的关节角,
Figure BDA00027867134000001011
为所述数据样本集中的所有关节角数据的均值,且各个参数可从上述速度信息中直接获取,J(x)为所述机器人的雅克比矩阵;
(3)构建所述机器人关节角度的不等式约束条件为:
Figure BDA00027867134000001012
结合所述转换矩阵A将上述不等式约束条件映射到隐空间内表示为:
Figure BDA00027867134000001013
其中,
Figure BDA00027867134000001014
为所述机器人的关节角下限,
Figure BDA00027867134000001015
为所述机器人的关节角上限,
Figure BDA00027867134000001016
为映射到该隐空间内的关节角速度下限,
Figure BDA00027867134000001017
为映射到该隐空间内的关节角速度上限,k为正常数;
(4)根据上述所规定的两个约束条件,对降维处理后的数据样本集(即所述降维数据集ξs)进行内部筛选并剔除出异常数据,形成隐空间数据集。
学习模块204,用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
本发明实施过程包括:
(1)确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型为:
Figure BDA0002786713400000111
p(k)=πk
Figure BDA0002786713400000112
其中,ξj为映射到该隐空间内的示教信息,且ξj={ξt,ξs}={Xt,ξs},ξi∈ξs,p(k)为先验值,p(ξi|k)为其对应的概率密度函数,πk、uk、∑k均为第k个高斯混合模型的参数,可采用极大似然估计法求解而来;
需要说明的是,对于每一个高斯混合模型,均应区分开时间分量和空间变量,即第k个高斯混合模型的均值矩阵uk应表示为:uk={ut,k,us,k},以及协方差矩阵∑k应表示为:
Figure BDA0002786713400000113
(2)以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理,输出机器人运动控制训练模型。
具体的,首先在给定隐空间时间信息ξt的条件下,采用混合高斯回归法可估计第k个高斯混合模型的条件期望
Figure BDA0002786713400000114
以及条件协方差
Figure BDA0002786713400000115
分别为:
Figure BDA0002786713400000116
Figure BDA0002786713400000117
其次可通过结合K个高斯混合模型,搭建机器人运动控制训练模型为:
Figure BDA0002786713400000118
其中,ξj为映射到该隐空间内的示教信息,且ξj={ξt,ξs}={Xt,ξs},ξi∈ξs,p(k)为先验值,p(ξi|k)为其对应的概率密度函数,πk、uk、∑k均为第k个高斯混合模型的参数,可采用极大似然估计法求解而来;
求解模块205,用于基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
本发明实施过程包括:
(1)以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;
具体的,首先定义学习评价指标H为:
Figure BDA0002786713400000121
Figure BDA0002786713400000122
Figure BDA0002786713400000123
其次,结合所述学习评价指标H,并利用所述机器人运动控制训练模型构建相应的递归神经网络为:
Figure BDA0002786713400000124
再对上述递归神经网络进行迭代更新与最优化问题求解,获取模型优化解为:
Figure BDA0002786713400000125
其中,ε为正常数,PΩ为投影算子,且其下限为
Figure BDA0002786713400000126
Figure BDA0002786713400000127
其上限为
Figure BDA0002786713400000128
c1、c2、Wθ、Wx
Figure BDA0002786713400000129
均为辅助变量,λ为递归神经网络的对偶变量,
Figure BDA00027867134000001210
为模型最优解
Figure BDA00027867134000001211
的变化率;
(2)将所述模型优化解
Figure BDA00027867134000001212
从隐空间映射到初始采样空间,获取所述机器人的实际控制量为:
Figure BDA00027867134000001213
且以该实际控制量操作所述机器人,实现所述机器人运动技能的学习。
在本发明实施例中,基于少量人类示教数据以及机器人系统模型的先验知识,通过增加考虑机器人的物理约束特征与示教数据的等式性质特征,可实现机器人运动技能的自主学习,同时兼顾人类对复杂任务与环境的高适应能力,能够有效地提高算法的泛化能力与编程效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可存储于一计算机可读存储介质中,存储介质可包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种机器人运动技能学习方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种机器人运动技能学习方法,其特征在于,所述方法包括:
获取人类拖动示教的数据样本集;
基于主成分分析法对所述数据样本集进行降维处理;
在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
2.根据权利要求1所述的机器人运动技能学习方法,其特征在于,所述获取人类拖动示教的数据样本集包括:
基于人类对机器人所执行的若干次拖动示教,依次记录所述机器人在每一次拖动示教过程中的采样时间与采样数据,其中所述采样数据包括所述机器人的关节角矩阵与末端执行位置矩阵。
3.根据权利要求2所述的机器人运动技能学习方法,其特征在于,所述基于主成分分析法对所述数据样本集进行降维处理包括:
对所述数据样本集进行归一化处理,获取归一化数据集;
计算所述数据样本集的协方差矩阵,并计算所述协方差矩阵的特征值;
基于所述特征值确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
4.根据权利要求3所述的机器人运动技能学习方法,其特征在于,所述在隐空间内建立变量约束条件包括:
根据机器人的运动学性质,构建所述机器人的关节速度与末端速度之间的等式约束条件以及所述机器人关节角度的不等式约束条件,并结合所述转换矩阵分别将所述等式约束条件与所述不等式约束条件映射到隐空间内表示。
5.根据权利要求4所述的机器人运动技能学习方法,其特征在于,所述采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型包括:
确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型;
以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行回归处理与空间值估计,输出机器人运动控制训练模型。
6.根据权利要求5所述的机器人运动技能学习方法,其特征在于,所述基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习包括:
以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;
将所述模型优化解从隐空间映射到初始采样空间,获取所述机器人的实际控制量,实现机器人运动技能的学习。
7.一种机器人运动技能学习系统,其特征在于,所述系统包括:
获取模块,用于获取人类拖动示教的数据样本集;
处理模块,用于基于主成分分析法对所述数据样本集进行降维处理;
转换模块,用于在隐空间内建立变量约束条件,并结合所述变量约束条件对降维处理后的数据样本集进行筛选,生成隐空间数据集;
学习模块,用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习,输出机器人运动控制训练模型;
求解模块,用于基于递归神经网络对所述机器人运动控制训练模型进行预测,求解模型优化解,并将所述模型优化解转换为机器人实际控制量,实现机器人运动技能的学习。
8.根据权利要求7所述的机器人运动技能学习系统,其特征在于,所述处理模块用于对所述数据样本集进行归一化处理,获取归一化数据集;计算所述数据样本集的协方差矩阵,并计算所述协方差矩阵的特征值;基于所述特征值确定降维处理所利用到的转换矩阵,并结合所述归一化数据集构建出降维数据集。
9.根据权利要求7所述的机器人运动技能学习系统,其特征在于,所述学习模块用于确定所述隐空间数据集中所包含的样本数量为K,并为每一组样本数据构建一个高斯混合模型;以导入的隐空间时间信息为查询点,基于混合高斯回归法对K个高斯混合模型进行回归处理与空间值估计,输出机器人运动控制训练模型。
10.根据权利要求7所述的机器人运动技能学习系统,其特征在于,所述求解模块用于以学习评价指标为判定条件,构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解,获取模型优化解;将所述模型优化解从隐空间映射到初始采样空间,获取所述机器人的实际控制量,实现机器人运动技能的学习。
CN202011300615.8A 2020-11-19 2020-11-19 一种机器人运动技能学习方法及系统 Active CN112605973B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011300615.8A CN112605973B (zh) 2020-11-19 2020-11-19 一种机器人运动技能学习方法及系统
PCT/CN2021/129342 WO2022105635A1 (zh) 2020-11-19 2021-11-08 一种机器人运动技能学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011300615.8A CN112605973B (zh) 2020-11-19 2020-11-19 一种机器人运动技能学习方法及系统

Publications (2)

Publication Number Publication Date
CN112605973A true CN112605973A (zh) 2021-04-06
CN112605973B CN112605973B (zh) 2022-11-01

Family

ID=75224791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011300615.8A Active CN112605973B (zh) 2020-11-19 2020-11-19 一种机器人运动技能学习方法及系统

Country Status (2)

Country Link
CN (1) CN112605973B (zh)
WO (1) WO2022105635A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113618717A (zh) * 2021-09-07 2021-11-09 浙江理工大学 人体上肢技能动作感测学习装置及方法
CN114102600A (zh) * 2021-12-02 2022-03-01 西安交通大学 一种多空间融合的人机技能迁移与参数补偿方法及系统
WO2022105635A1 (zh) * 2020-11-19 2022-05-27 广东省科学院智能制造研究所 一种机器人运动技能学习方法及系统
WO2023124346A1 (zh) * 2021-12-28 2023-07-06 广东省科学院智能制造研究所 一种协作机器人可变刚度运动技能学习与调控方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115256375B (zh) * 2022-07-08 2024-05-31 广东工业大学 基于工业机器人的末端操作器位姿标定方法及系统
CN115990875B (zh) * 2022-11-10 2024-05-07 华南理工大学 一种基于隐空间插值的柔性线缆状态预测与控制系统
CN115730475B (zh) * 2023-01-09 2023-05-19 广东省科学院智能制造研究所 一种云边端协同的柔性产线机器人学习系统及方法
CN116117826B (zh) * 2023-04-12 2023-07-25 佛山科学技术学院 基于仿射变换与行为树的机器人任务规划方法及系统
CN117558174B (zh) * 2023-11-13 2024-04-12 山东卓朗检测股份有限公司 面向教学机器人训练的数据采集和分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130067345A (ko) * 2011-12-13 2013-06-24 한양대학교 산학협력단 작업 솜씨를 학습하는 방법 및 이를 이용한 로봇
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
KR20180047391A (ko) * 2016-10-31 2018-05-10 한국생산기술연구원 학습 로봇, 그리고 이를 이용한 작업 솜씨 학습 방법
CN108656119A (zh) * 2018-07-15 2018-10-16 宓建 一种类人机器人的控制方法
CN109382828A (zh) * 2018-10-30 2019-02-26 武汉大学 一种基于示教学习的机器人轴孔装配系统及方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN110682286A (zh) * 2019-05-28 2020-01-14 广东省智能制造研究所 一种协作机器人实时避障方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110977965B (zh) * 2019-11-26 2023-02-28 中国科学院深圳先进技术研究院 机器人及其控制方法、计算机存储介质
CN112605973B (zh) * 2020-11-19 2022-11-01 广东省科学院智能制造研究所 一种机器人运动技能学习方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130067345A (ko) * 2011-12-13 2013-06-24 한양대학교 산학협력단 작업 솜씨를 학습하는 방법 및 이를 이용한 로봇
CN105956601A (zh) * 2016-04-15 2016-09-21 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
KR20180047391A (ko) * 2016-10-31 2018-05-10 한국생산기술연구원 학습 로봇, 그리고 이를 이용한 작업 솜씨 학습 방법
CN108656119A (zh) * 2018-07-15 2018-10-16 宓建 一种类人机器人的控制方法
CN109382828A (zh) * 2018-10-30 2019-02-26 武汉大学 一种基于示教学习的机器人轴孔装配系统及方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN110682286A (zh) * 2019-05-28 2020-01-14 广东省智能制造研究所 一种协作机器人实时避障方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105635A1 (zh) * 2020-11-19 2022-05-27 广东省科学院智能制造研究所 一种机器人运动技能学习方法及系统
CN113618717A (zh) * 2021-09-07 2021-11-09 浙江理工大学 人体上肢技能动作感测学习装置及方法
CN114102600A (zh) * 2021-12-02 2022-03-01 西安交通大学 一种多空间融合的人机技能迁移与参数补偿方法及系统
CN114102600B (zh) * 2021-12-02 2023-08-04 西安交通大学 一种多空间融合的人机技能迁移与参数补偿方法及系统
WO2023124346A1 (zh) * 2021-12-28 2023-07-06 广东省科学院智能制造研究所 一种协作机器人可变刚度运动技能学习与调控方法及系统

Also Published As

Publication number Publication date
WO2022105635A1 (zh) 2022-05-27
CN112605973B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112605973B (zh) 一种机器人运动技能学习方法及系统
Su et al. An incremental learning framework for human-like redundancy optimization of anthropomorphic manipulators
Rai et al. Driven by data or derived through physics? a review of hybrid physics guided machine learning techniques with cyber-physical system (cps) focus
Pong et al. Skew-fit: State-covering self-supervised reinforcement learning
Böhmer et al. Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN112765896A (zh) 一种基于lstm的水处理时序数据异常检测方法
CN110653824B (zh) 基于概率模型的机器人离散型轨迹的表征与泛化方法
CN109940614B (zh) 一种融合记忆机制的机械臂多场景快速运动规划方法
Makondo et al. Knowledge transfer for learning robot models via local procrustes analysis
CN113657573B (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
Wen et al. End-to-end semi-supervised learning for differentiable particle filters
Wu et al. Towards deep reinforcement learning based Chinese calligraphy robot
Ghadirzadeh et al. Data-efficient visuomotor policy training using reinforcement learning and generative models
Kim et al. Learning reachable manifold and inverse mapping for a redundant robot manipulator
Jiang et al. Vision-based deep reinforcement learning for UR5 robot motion control
Cai et al. Ccan: Constraint co-attention network for instance grasping
CN113276119A (zh) 一种基于图Wasserstein自编码网络的机器人运动规划方法及系统
CN113011081B (zh) 一种基于元学习的无人机导航方法
Prados et al. Learning and generalization of task-parameterized skills through few human demonstrations
CN112507940A (zh) 一种基于差分指导表示学习网络的骨骼动作识别方法
Tonchev et al. Human Skeleton Motion Prediction Using Graph Convolution Optimized GRU Network
Yu et al. LSTM learn policy from dynamical system of demonstration motions for robot imitation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant