CN114683287B

CN114683287B - 一种基于元动作分层泛化的机械臂模仿学习方法

Info

Publication number: CN114683287B
Application number: CN202210465064.3A
Authority: CN
Inventors: 张文安; 姜国栋; 付明磊; 刘锦元; 刘安东; 杨旭升; 史秀纺; 仇翔; 滕游; 周叶剑; 吴麒; 胡佛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-10-20
Anticipated expiration: 2042-04-25
Also published as: CN114683287A

Abstract

一种基于元动作分层泛化的机械臂模仿学习方法，包括：获取专家示教数据集，表示为φ(s,a)，其中s表示机械臂各个关节的状态数据，包括空间位姿、力矩、方向角，a表示当前状态映射的机械臂动作；采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合；求出各个元动作占示教动作整体的权重{π₁，π₂，…，π_k}，其中权重系数π_k与元动作一一对应；根据各个元动作的权重系数，按不同比重进行泛化，生成泛化动作；从泛化后的元动作τ(A₁，A₂，…，A_k)中随机挑选子动作进行组合，得到泛化示教ψ，其中子动作的次序按照专家示教进行排列，形成与原专家示教相同的目标动作；将泛化示教ψ输入卷积神经网络进行监督学习得到目标动作的执行策略。本发明提高了训练效率和元动作的准确性。

Description

一种基于元动作分层泛化的机械臂模仿学习方法

技术领域

本发明属于机械臂模仿学习领域，具体涉及一种基于元动作分层泛化的机械臂模仿学习方法。

背景技术

随着智能机器人及机械臂在医疗辅助、工业制造、快递分拣等领域中的使用比重日益提高，传统示教式编程的方法虽然能够实现特定场景下简单动作的模仿学习及输出，但其学习过程需要获取大量人工示教数据集，使得产生大量的人工劳动冗余；同时在连续动作下工作的系统稳定性与鲁棒性有待提高。在发明专利CN 111983922 A中，广州中国科学院先进技术研究所的雷渠江、李秀昊等公开了一种基于元模仿学习的机器人演示示教方法。能够使得机器人在少量专家示例中泛化到新的场景，实现演示快速示教，但其泛化对象无偏差的包含了整个示教过程，弱针对性导致泛化效率不高；在发明专利CN 113677485 A中，谷歌有限责任公司的姆里纳尔·卡拉斯南等公开了一种基于元模仿学习和元强化学习的方法，采用强化学习试错的方式，训练出元学习模型从而建立新的任务。该方法虽能快速适应新的环境任务，但由于采用试错的方式来训练元模型，时间依赖性较强并且耗时较高。此外，目前已有的模仿学习方法多采用高斯混合模型或隐马尔科夫过程进行轨迹拟合与预测，难以满足机器人在日益复杂的动作与多变的环境下的动作执行需求。

因此，需要一种能够利用少量专家示教经过元动作分层泛化系统实现模仿，并在卷积神经网络中学习到执行目标动作的策略的方法。

发明内容

针对模仿学习在策略训练过程中需要大量专家示教数据，而重复的手把手示教需要大量人工成本，且一些特殊环境下专家示教成本太高的问题，本发明提供了一种基于元动作分层泛化的方法。

本发明旨在实现仅需要少量专家示例就能完成模仿学习任务的目标。该方法可以概括为以下过程：利用聚类算法将专家示教的目标动作分解为多个元动作、根据各个元动作占总目标动作的权重对元动作进行分层次泛化、从元动作中随机选取泛化后的子动作，并组合为泛化示教动作、将泛化示教动作输入卷积神经网络，通过自监督学习获得目标动作的执行策略。

为实现上述目的，本发明的一种基于元动作分层泛化的机械臂模仿学习方法是根据以下技术方案实现的：

步骤S1：获取专家示教数据集，表示为φ(s,a)，其中s表示机械臂各个关节的状态数据，包括空间位姿、力矩、方向角等；a表示当前状态映射的机械臂动作；

步骤S2：将采集到的专家示教数据集φ(s,a)输入泛化系统，采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合表示为τ(A₁，A₂，…，A_k)，其中A₁表示第一个元动作，下标k表示专家示教所包含的元动作数量；

步骤S3：求出各个元动作占示教动作整体的权重{π₁，π₂，…，π_k)，其中权重系数π_k与元动作一一对应；

步骤S4：根据各个元动作的权重系数，按不同比重进行泛化，生成泛化动作其中/>表示元动作A_k的泛化；

步骤S5：从泛化后的元动作τ(A₁，A₂，…，A_k)中随机挑选子动作进行组合，得到泛化示教ψ，其中子动作的次序按照专家示教进行排列，形成与原专家示教相同的目标动作；

步骤S6：将泛化示教ψ输入卷积神经网络进行监督学习得到目标动作的执行策略。

进一步地，步骤S1中所述的专家示教数据集φ(s，a)记录了示教机器人机械臂的状态(s)及当前状态所映射的动作(a)。其中状态数据包括机械臂关节的空间位姿、力矩、方向角等；动作数据包括语义级技能或动作，诸如“拿取”、“放置”、“托举”等，并与过渡动作结合成为高级技能或动作，诸如“铺展床单”、“更换吊瓶”、“康复辅助”等。

优选地，步骤S1中所述的数据采集过程能够通过双目摄像头按一定频率拍摄图片，采集专家示例来简化数据采集过程；或对视频进行抽帧处理，记录图片数据，形成专家示教数据。

进一步地，步骤S2中所述的泛化系统包括以下四个步骤：元动作分解、求各元动作权重、泛化占高权重的元动作、将泛化动作与原分解动作随机结合生成大量示教数据。其中元动作分解可表示为动作数据聚类过程。例如在给出先验元动作数量k的基础上，采用k-means聚类算法，对各个状态进行动作划分及聚类为τ(A₁，A₂，…，A_k)；其中先验元动作数量k由专家通过经验获得。具体地，确定k个聚类中心后，最小化数据数据对象到聚类中心的距离平方和，由下式表示：

该准则函数结果越小则代表动作连续性、相似性越强，则该数据归为一类元动作；针对元动作聚类中心，为了提高归类的精确度，每一轮都采用公式(2)重新定位，

其中c_i表示属于该元动作类的动作数据，之后重复进行上述过程，直到各个元动作中心之间距离最大，最终得到分解后的元动作τ(A₁，A₂，…，A_k)。

进一步地，步骤S3中所述的元动作占目标动作整体的权重求解过程采用高斯混合模型(GMM)，建立分解后元动作的高斯混合模型，由式(3)表示，

其中，N(x|μ_k，∑_k)为第k个元动作的高斯混合模型，π_k为对应高斯模型的权重，μ_k与∑_k分别表示高斯分布中的均值和方差。并且将该问题转化为利用最大期望算法求解GMM中各个参数的过程，各参数的编程求解式如下：

其中θ＝{μ，∑}表示高斯模型的参数，g代表当前高斯模型。从而得出组成目标动作的元动作重要性的排序，其中权重用参数{π₁，π₂，…，π_n}表示；

进一步地，步骤S4中所述的泛化过程包括：首先将步骤S3中得到的权重进行由高到低的排序，得到权重系数例如π₁＞π₂＞…＞π_k，泛化规则为，在元动作中挑选比例为γ的数据加入高斯噪声，其中高斯噪声的概率密度分布均值和方差参数来自于对应元动作的高斯混合模型的μ_k与∑_k。并且高权重元动作进行高数量(n₁)次泛化，低权重元动作进行低数量(n₂)次泛化，其中n₁＞n₂。生成泛化结果可表示为其中/>表示元动作A_k泛化后的动作集。

进一步地，步骤S5所述组合泛化后的元动作的过程采用随机挑选子动作的方式，在泛化后的元动作中随机选取子动作，并按照专家示教过程中元动作执行的顺序进行排列得到泛化示教ψ，最后将泛化示教ψ输入卷积神经网络进行监督学习得到目标动作的执行策略。

本发明的工作原理在于，根据分解后元动作在完整示教轨迹中所占的不同权重，采用分层次泛化的方式，对复杂高难度的元动作进行针对性、大数量的泛化，而对简单元动作进行少量泛化，以此达到提高泛化效率和准确度的目的。

与现有技术相比，本发明具有以下优点：

1、传统的示教动作泛化过程是对专家示教整个过程无差别泛化，虽然扩大了数据量，却难以对重难点动作进行针对性泛化，本发明利用高斯混合模型得出各个元动作的复杂程度，有针对性的对元动作进行分层次泛化，扩大了示教数据的同时，避免了对简单元动作进行重复训练的问题，提高了训练效率。

2、现有的泛化方法一般是通过变换初始点和目标点，根据映射函数进行泛化，但由于原始示教数据较少，映射函数存在误差导致泛化数据也存在较大偏差。本发明设计的泛化方法是在分解后的元动作上添加高斯噪声，能够更好的模拟外界噪声扰动，提高准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例1中提供的基于元动作泛化的模仿学习方法的流程图；

图2为本发明实施例1中提供的卷积神经网络结构示意图；

具体实施方式

为了使本发明的上述目的、优点能够更清晰易懂，下面将结合附图和具体实施例对本发明的技术方案进行详细说明。

实施例1

步骤S1：通过专家手把手移动机械臂，多个异构传感器记录机械臂关节的状态，获取专家示教数据集，表示为φ(s,a)，其中s表示机械臂各个关节的状态数据，包括空间位姿、力矩、方向角等；a表示当前状态映射的机械臂动作，记录在一个稀疏矩阵中；

步骤S2：将采集到的专家示教数据集φ(s,a)输入图1中的泛化系统，采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合表示为τ(A₁，A₂，…，A_k)，其中A₁表示第一个元动作，下标k表示专家示教所包含的元动作数量；

步骤S3：求出各个元动作占示教动作整体的权重{π₁，π₂，…，π_k｝，其中权重系数π_k与元动作一一对应；

图1给出了本发明方法的整体流程图，如图1所示，首先专家手把手移动机械臂，多个异构传感器每隔一定的时间间隔就记录一次机械臂关节的状态，由此采集到专家示教数据，记作φ(s₁，a₁；s₂，a₂；…s_n，a_n)，其中s和a分别表示机械臂/机器人当前的状态与该状态所属的动作，诸如“拿取”、“放置”、“托举”等；并与过渡动作结合成为高级技能或动作，诸如“铺展床单”、“更换吊瓶”、“康复辅助”等。

将采集到的专家示教数据φ(s₁，a₁；s₂，a₂；…s_n，a_n)输入泛化系统。泛化系统包括以下四个步骤：元动作分解、求各元动作权重、泛化占高权重的元动作、将泛化动作与原分解动作随机结合生成大量示教数据。

步骤S2所述的元动作分解过程采用k-means方法聚类，首先通过先验知识确定完整专家示教的元动作数量k，并将其作为k-means聚类算法的k个中心点。初始化元动作聚类中心A＝{a₁，a₁，…，a_k}，针对状态数据集s中的{s₁，s₁，…，s_k}，最小化数据数据对象到聚类中心的距离平方和由(1)式表示，得到最佳分类距离。

针对元动作聚类中心，为了提高归类的精确度，每一轮都采用公式(2)重新定位，

其中，N(x|μ_k，∑_k)为第k个元动作的高斯混合模型，π_k为对应高斯模型的权重，μ_k与∑_k分别表示高斯分布中的均值和方差。将该问题转化为利用最大期望算法求解GMM中各个参数的过程，各参数的编程求解式如下：

进一步地，步骤S4中所述的泛化过程将得到的权重进行由高到低的排序，得到权重系数例如π₁＞π₂＞…＞π_k，则泛化的规则为，在元动作中挑选比例为γ的数据加入高斯噪声，其中高斯噪声的概率密度分布均值和方差参数来自于对应元动作的高斯混合模型的μ_k与∑_k。并且高权重元动作进行高数量(n₁)次泛化，低权重元动作进行低数量(n₂)次泛化，其中n₁＞n₂，之后生成加噪后的泛化元动作

进一步地，步骤S5中所述的获取泛化示教的过程先对泛化后的元动作进行预处理，从每组元动作中随机抽取一次泛化动作，根据完整专家示教的组合顺序完成泛化演示的组合表示为δ，数量由后续监督学习的需求而定，之后将泛化演示输入深度监督学习过程进行训练。

进一步地，图2展示了步骤S6所述卷积神经网络结构示意图，该网络包括3个卷积层，2个全连接层以及1个隐藏层。具体地，卷积层的卷积核采用3×3的高斯滤波器，其权重在行和列上的分布服从高斯分布，第一层卷积的步长为2，用于加快数据的收敛，第二和第三层卷积的步长为1；每个卷积层都采用ReLu作为激活函数，隐藏层将dropout比例设为元动作中添加噪声的比例相同，即γ，使得减小泛化引入的噪声的影响，提高策略学习的精度与鲁棒性。

最后，完成卷积神经网络训练后输出学习到的运动策略ζ。

本发明所提出的元动作分层泛化模仿学习的完整算法如下：

当前机器人与机械臂常位于非结构化、多变的现实场景中，减少现有的机器人演示学习方法需要大量人工示教带来的低效与繁复的局限性，本发明公开了一种基于元动作分层次泛化的机械臂模仿学习方法，能够将少量专家示教进行元动作分解，按照元动作的复杂与重要程度进行分层次泛化，并重新组合成后续训练所需的足量泛化演示示例，无需大量的专家示教，实现少量演示产生足量示教，并且训练精度较高的学习策略。

Claims

1.一种基于元动作分层泛化的机械臂模仿学习方法，包括如下步骤：

步骤S1：获取专家示教数据集，表示为φ(s,a)，其中s表示机械臂各个关节的状态，包括空间位姿、力矩、方向角，a表示当前状态映射的机械臂动作；动作a包括语义级技能或动作，并与过渡动作结合成为高级技能或动作；所述的语义级技能或动作包含“拿取”、“放置”、“托举”；所述的高级技能或动作包含“铺展床单”、“更换吊瓶”、“康复辅助”；

所述的获取专家示教数据集的过程通过双目摄像头按一定频率拍摄图片，采集专家示例来简化数据采集过程；或对视频进行抽帧处理，记录图片数据，形成专家示教数据；将采集到的专家示教数据集φ(s,a)输入泛化系统；泛化系统包括以下四个步骤：元动作分解、求各元动作权重、泛化占高权重的元动作、将泛化动作与原分解动作随机结合生成大量示教数据；

步骤S2：采用聚类的方式将专家示教数据集进行分解，得到分解后的元动作集合表示为τ(A₁，A₂，…，A_k)，其中A₁表示第一个元动作，下标k表示专家示教所包含的元动作数量；所述的将专家示教数据集进行分解表示为动作聚类过程，在给出元动作数量k的基础上，采用k-means聚类算法，对各个状态进行动作划分及聚类为τ(A₁，A₂，…，A_k)；其中元动作数量k由专家通过经验获得，确定k个聚类中心后，最小化数据对象到聚类中心的距离平方和，由准则函数表示：

该准则函数结果越小则代表动作连续性、相似性越强，则该数据归为一类元动作；

之后重复进行上述过程，直到各个元动作聚类中心之间距离最大，最终得到分解后的元动作集合τ(A₁，A₂，…，A_k)；

步骤S3：求出各个元动作占示教动作整体的权重{π₁，π₂，…，π_k}，其中权重系数π_k与元动作一一对应；所述的元动作占示教动作整体的权重求解过程采用高斯混合模型GMM，建立分解后元动作的高斯混合模型，由式(3)表示，

其中，N(x|μ_k，∑_k)为第k个元动作的高斯混合模型，π_k为对应高斯模型的权重系数，μ_k与∑_k分别表示高斯分布中的均值和方差；并且利用最大期望算法求解GMM中各个参数，各参数的编程求解式如下：

其中θ＝{μ，∑}表示高斯模型的参数，g代表当前高斯模型；

步骤S4：根据各个元动作的权重系数，按不同比重进行泛化，生成泛化后的元动作集合其中/>表示元动作A_k的泛化；所述的泛化过程包括：首先将步骤S3中得到的权重系统进行由高到低的排序，得到π₁＞π₂＞…＞π_k，泛化规则为，在元动作中挑选比例为γ的数据加入高斯噪声，其中高斯噪声的概率密度分布均值和方差参数来自于对应元动作的高斯混合模型的μ_k与∑_k；并且高权重元动作进行高数量n₁次泛化，低权重元动作进行低数量n₂次泛化，其中n₁＞n₂；

步骤S5：从泛化后的元动作集合中随机挑选子动作进行组合，得到泛化示教ψ，其中子动作的次序按照专家示教进行排列，形成与专家示教相同的目标动作；所述的得到泛化示教ψ的过程先对泛化后的元动作进行预处理，从每组元动作中随机抽取一次泛化动作，根据专家示教的组合顺序完成泛化演示的组合表示为δ，数量由后续监督学习的需求而定，之后将泛化演示输入深度监督学习过程进行训练；

2.如权利要求1所述的一种基于元动作分层泛化的机械臂模仿学习方法，其特征在于：步骤S6所述卷积神经网络包括3个卷积层，2个全连接层以及1个隐藏层；具体地，卷积层的卷积核采用3×3的高斯滤波器，其权重在行和列上的分布服从高斯分布，第一层卷积的步长为2，用于加快数据的收敛，第二和第三层卷积的步长为1；每个卷积层都采用ReLu作为激活函数，隐藏层将dropout比例设为元动作中添加噪声的比例相同，即γ；最后，完成卷积神经网络训练后输出学习到的执行策略ζ。