CN114170454A

CN114170454A - 基于关节分组策略的智能体元动作学习方法

Info

Publication number: CN114170454A
Application number: CN202111303088.0A
Authority: CN
Inventors: 钱智丰; 尤鸣宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-11

Abstract

一种基于关节分组策略的智能体元动作学习方法，用于机器人自动控制，通过关节分组和元动作的时空融合来控制机器人快速学会新任务，从而避免了花费大量时间进行从头训练。提出了一个信息论目标来优化强化学习算法训练机器人，从而学会一系列多样的元动作策略；基于动态时间规整算法进行关节之间的轨迹相似性计算，进而基于层次聚类算法实现机器人关节的分组；根据关节组对应掩码得到不同关节组的元动作控制策略；构建层次结构的机器人总控制策略网络，通过线性组合各个关节组元动作策略的权重，实现在时间层面和空间层面上的元动作融合，从而能够快速学会新任务；同时，增强机器人动作的协调性和连贯性，在新任务上能够达到更好的表现。

Description

基于关节分组策略的智能体元动作学习方法

技术领域

本发明涉及基于关节分组策略的智能体元动作学习技术，属于智能体自主动作学习技术领域。

背景技术

随着人工智能算法的兴起和各硬件设备的高速发展，机器人技术已在医疗、服务、装配、安保、救援、运输等多个领域中发挥着重要的作用。各个领域中所需要的机器人技能之间相似度低，而针对单一任务进行机器人的定制化部署是费时费力的。因此，如何让机器人从不同任务中学习一系列的基础元动作，从而进一步组合成在不同的技能是我们一直以来追求的目标。机器人作为任务的主要执行机构，研究如何发掘不同动作轨迹下的相似性知识并加以利用尤为重要。

传统的机器人控制方法极度依赖于技术人员的专业知识和软件编程水平，且针对特定的任务目标需要设计不同的机器人轨迹分布。当应用场景变化后，之前部署的机器人技能无法重复利用。深度强化学习方法能够通过探索和利用的方式来使得机器人自主学习任务相关的技能，然而某些任务无法设计合适的奖励函数来清晰描述任务目标。此外，这种学习方式也需要针对不同的任务手工设计对应的奖励函数，智能体根据不同的奖励函数从头开始探索，直到完成训练得到较好的控制策略，这种学习方式数据利用率低，在仿真环境中可能需要成百上千个小时来收集数据和训练策略，这在现实场景中是不切实际的。

在日常生活和工作中，人类往往能够将动作分解为不同的关节组，比如手臂、躯干、腿部等等，再经过不同的动作组合来完成各种任务。机器人如何学习所需的基础元动作从而快速学会新技能仍是一个挑战。基于此，本发明提出了一种基于关节分组策略的智能体元动作学习方法。通过这个方法，机器人可以基于一个信息论优化目标学习一系列可区分的元动作，再经过层次结构组合不同关节角的元动作来完成新的任务，从而保证了元动作在时空上进行组合，避免了从头开始的强化学习训练。

发明内容

针对现有技术中存在的局限和不足，本发明提出了一种基于关节分组策略的智能体元动作学习方法，思路为：将机器人的序贯决策问题建模为马尔科尔决策过程，基于一个信息论目标优化深度强化学习算法来训练机器人，从而建立元动作库。在采样得到各个关节的动作轨迹后，根据动态时间规整算法和层次聚类算法进行关节分组，并将元动作分解成多个关节组元动作。当机器人需要执行新任务时，机器人能够基于层次结构在时空层面组合各个关节组元动作，从而快速进行强化学习训练并完成新任务。

本发明的创新点在于：

(一)提出一个信息论目标代替与任务高度相关的奖励函数，来优化深度强化学习，通过最大熵策略学习区分度高、相似性低的元动作，探索元动作的多样性，从而建立机器人的元动作库。

(二)提出基于轨迹相似度的机器人关节分组算法。在基础任务的强化学习训练后，采样各关节的动作轨迹。根据动态时间规整算法计算关节间的相似性，最终基于层积聚类算法得到关节分组，降低了元动作学习的难度，同时使得各关节组元动作组合后的整体动作更加平滑。

(三)提出了基于元动作时空融合的分层控制策略，能够避免从头开始训练，大大缩短了深度强化学习算法的训练时间，利用动作的先验知识来更快、更好地学会新任务。

技术方案

一种基于关节分组策略的智能体元动作学习方法，其特征在于，提出一个信息论目标来优化强化学习算法来训练机器人，从而学会一系列多样的元动作策略；提出基于动态时间规整算法进行关节之间的轨迹相似性计算，进而基于层次聚类算法实现机器人关节的分组；根据关节组对应掩码得到不同关节组的元动作控制策略；构建层次结构的机器人总控制策略网络，通过线性组合各个关节组元动作策略的权重，实现在时间层面和空间层面上的元动作融合，从而能够快速学会新任务，避免了从头训练强化学习算法，大大降低了训练时间；同时，增强机器人动作的协调性和连贯性，在新任务上能够达到更好的表现。

一种基于关节分组策略的智能体元动作学习方法，其特征在于，所述方法通过如下步骤实现：

S1：首先搭建元动作策略网络，然后提出一个信息论优化目标来代替与任务高度相关的奖励函数，在仿真环境中对机器人进行深度强化学习训练，利用元动作的可区分性得到一系列丰富多样的元动作；

S2：利用已有的元动作策略采样大量的轨迹，并根据各个关节的轨迹进行时间规整算法计算相似度，再根据层次聚类对关节进行分组，得到关节组；

S3：基于S2的关节组生成对应的关节组掩码，结合步骤S1中得到的元动作策略得到不同关节组的元动作策略网络；

S4：在新的机器人应用场景下，搭建层次结构的强化学习控制网络，通过组合步骤S3得到的关节组元动作来更快地学习新任务，同时能够得到较好的奖励函数。

进一步地，步骤S1中，所述的元动作策略网络为一个神经网络，表示为π(A|S，Z)，其中输入为状态S，具体为单目相机拍摄的包含环境和机器人自身的观察图像；输出为机器人的动作A，具体为控制机器人的各关节角度和关节角速度组成的56维向量，表示为Joint_j＝[1∶56]。在网络中，将中间的潜在变量Z约束到一个均匀分布上，表示为Z～P(z)。设定基于一个潜在变量z_i的策略网络为一个元动作，表示为π_i(A|S，z_i)，i＝0，1，..，N。

进一步地，步骤S1中，对于深度强化学习来说，不采用特定任务的奖励函数来进行训练，而是设计一个信息论优化目标来约束深度强化学习算法。所述的信息论优化目标包含三个设计原则，分别为(1)所有状态都要访问到，不同元动作访问的不同状态能够被区分，因此需最大化元动作和状态的互信息I(S；Z)；(2)用状态来区分元动作，因为不改变环境和机器人自身状态的动作不会被观察到，因此要最小化在状态为条件下元动作和动作的互信息I(A；Z|S)；(3)学习尽可能随机的技能来探索多样性，使得元动作的熵尽可能高，因此需最大化在元动作为条件下动作的熵H(A|Z)。综上所述，通过本发明提出的信息论优化目标表示如下：

R＝I(S；Z)+H(A|S)-I(A；Z|S)

＝(H(Z)-H(Z|S))+H(A|S)-(H(A|S)-H(A|S，Z))

＝H(Z)-H(Z|S)+H(A|S，Z)

机器人通过最大化以上的信息论优化目标来进行机器人深度强化学习训练，最终得到N个元动作策略。

进一步地，步骤S2中，所述的时间动态规整算法是一个典型的优化算法，该算法用满足一定条件的时间规整函数来描述测试模板和参考模板的时间对应关系，求解出两模板匹配时累计距离最小所对应的规整函数。首先在Mujoco仿真环境中随机初始化状态，并利用步骤S1中所得到的元动作策略生成K条轨迹T＝{τ₁，τ₂，..，τ_K}，由此得到了每个关节的轨迹

通过时间规整算法对每两个关节进行轨迹的相似度计算，并基于相似度进行层次聚类。所述的层次聚类算法是一种比较直观的算法，可以从下而上的将小的簇合并聚集。具体而言，首先将每个关节都看成独立的簇，然后每一步找到相似度最短的两个簇，再合并成一个大的簇，直到全部样本合并为一个整体簇，最终建立一个树状结构。该算法聚类的优点在于一次性得到了整个聚类树，能够根据聚类的需求改变聚类的簇数量，不需要因为改变了簇数量而再次计算样本点的归属。本发明可以通过实验比较不同层级的聚类结果对于强化学习算法学习新技能的影响，并选取整体效果较优的聚类结果作为最终的关节分组，表示为C_m＝cluster_m＝[Joint_1∶j]。

进一步地，步骤S3中，所述的关节组掩码为一个只包含0和1的56维向量。根据步骤S2中得到的关节聚类结果，每一个关节组生成对应的关节掩码Mask_m，其中不属于该关节组的关节位置上为0，输入该关节组的关节位置上为1。将关节组掩码按位相乘在步骤S1中得到的元动作策略输出上，从而得到了不同关节组的元动作策略，表示为

进一步地，步骤S4中，所述的层次结构的强化学习控制网络为步骤S3中得到的关节组元动作策略的线性组合。总控制网络具体表达形式如下：

本发明将关节组元动作策略作为总控制网络的权值初始化。在新任务的奖励函数约束下，通过强化学习近端策略优化算法(Proximal Policy Optimization，PPO)来训练总控制网络输出合适的元动作系数α_i，从而能够更快、更好地完成新任务。

附图说明

图1为本发明实施例的机器人关节分组和元动作策略的示意图；

图2为本发明基于关节分组策略的智能体元动作学习流程图；

图3为本发明中控制机器人的控制模型网络结构图。

具体实施方式

以下将结合附图和实施例对本发明的构思、具体方法及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。如非进行特殊说明，本示例中的各环节计算方法与一般通用方法一致。需要注意的是，本实施例以发明技术方案为前提进行实施，但本发明的保护范围不限于下述实施例。

机器人关节分组和元动作策略，如图1所示。基于关节分组策略的智能体元动作学习方法，用于机器人自动控制，能够通过关节分组和元动作的时空融合来控制机器人快速学会新任务，从而避免了花费大量时间进行从头训练。

本发明方法构成：

提出一个信息论目标来优化强化学习算法来训练机器人，从而学会一系列多样的元动作策略；提出基于动态时间规整算法进行关节之间的轨迹相似性计算，进而基于层次聚类算法实现机器人关节的分组；根据关节组对应掩码得到不同关节组的元动作控制策略；构建层次结构的机器人总控制策略网络，通过线性组合各个关节组元动作策略的权重，实现在时间层面和空间层面上的元动作融合，从而能够快速学会新任务，避免了从头训练强化学习算法，大大降低了训练时间；同时，增强机器人动作的协调性和连贯性，在新任务上能够达到更好的表现。

如图2所示，包括如下步骤：

S1：基于OpenAI Gym和Mujoco仿真平台搭建机器人仿真环境，机器人示意图如图1所示。搭建一个神经网络作为元动作控制策略网络π(A|S，Z)，详细的网络结构如图3所示。网络输入为状态S，具体为单目相机拍摄的包含环境和机器人自身的观察图像，可以通过Mujoco自带函数导出机器人视角下对系统的观测。输出为机器人的动作A，具体为控制机器人的各关节角度和关节角速度组成的56维向量，表示为Joint_j＝[1∶56]。由图3所示，将观察图像这类状态S输入控制策略网络后，经过由3个卷积大小为5、步长为2、激活函数为ReLU组成的卷积神经网络层(Convolutional Neural Networks，CNN)，再经过2层全连接层(FullyConnected，FC)得到中间潜在变量Z。将输入的观察状态S经过另一个卷积层后与潜在变量z拼接在一起，再经过另外两层全连接层，最终得到机器人的动作A。在网络中，将中间的潜在变量Z约束到一个均匀分布上，表示为Z～P(z)。设定基于一个潜在变量z_i的策略网络为一个元动作，表示为π_i(A|S，z_i)，i＝0，1，...，N，N表示元动作个数。

此外，本仿真环境没有特定的奖励函数，希望机器人能够学习到任务无关的元动作。本发明设计了一个信息论优化目标来约束深度强化学习算法，具体表示如下：

R＝I(S；Z)+H(A|S)-I(A；Z|S)

＝(H(Z)-H(Z|S))+H(A|S)-(H(A|S)-H(A|S，Z))

＝H(Z)-H(Z|S)+H(A|S，Z)

通过最大化以上的信息论优化目标来进行机器人深度强化学习近端策略优化算法PPO训练，最终得到N个元动作策略。

S2：利用已得到的N个元动作策略进行轨迹采样，得到每个关节的多条轨迹

通过时间规整算法对每两个关节进行轨迹的相似度计算。考虑到不同关节的轨迹可能具有滞后性，即认为一个关节轨迹的第i个点和另一关节轨迹的第j个点是相似的。所有相似点的距离之和作为规整路径距离，最终用规整路径距离来衡量两个关节轨迹的相似性。通过动态规划，能够求解出两轨迹之间的最短距离。对于规整路径距离矩阵D(i，j)，有

D(i，j)＝Dist(i，j)+min{D(i-1，j)，D(i，j-1)，D(i-1，j-1)}

其中，Dist(i，j)表示第一个关节轨迹中第i个点和另一关节轨迹的第j个点之间的距离，本发明用关节的旋转角之差计算。利用动态规划算法的递推公式，最终能够求解出规整路径距离矩阵D(i，j)。规整路径距离矩阵越小，则表示这两个关节的相似性越大。

通过计算不同关节之间的规整路径距离矩阵，得到关节之间的相似性关系，从而对机器人所有关节进行层次聚类。首先将每个关节看做独立的簇，然后每一个聚类轮次将素有簇中相似性最大，也就是规整路径距离矩阵最小的两个簇合并成一个大簇，直到全部合并为一个簇，建立一个聚类的树结构。根据多次实验后的经验，本发明选择保留5个关节簇作为层次聚类的分类结果。

S3：根据上述关节组的分类结果，生成五个对应的关节组掩码Mas_nk＝{M₁，M₂，M₃，M₄，M₅}。关节组掩码为一个只包含0和1的56维向量。其中不属于该关节组的关节位置上为0，属于该关节组的关节位置上为1。将关节组掩码按位相乘在步骤S1中得到的元动作策略输出A上，从而得到了不同关节组的元动作策略

如图3所示。

S4：搭建层次结构的强化学习控制网络，网络结构为步骤S3中得到的关节组元动作策略的线性组合。总控制网络具体表达形式如下：

本发明将关节组元动作策略作为总控制网络的权值初始化。在新任务的奖励函数约束下，通过强化学习近端策略优化算法PPO(Proximal Policy Optimization)来训练总控制网络输出合适的元动作系数α_i，最终能够基于多个关节组元动作控制策略在时空层面的组合来学会新任务。该方法避免了从头开始训练强化学习算法，节省了大量时间成本，通过在时空层面组合元动作，利用动作的先验知识来更快、更好地学会新任务。

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用网络结构来实现。以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于关节分组策略的智能体元动作学习方法，其特征在于，提出信息论目标来优化强化学习算法来训练机器人，从而学会一系列多样的元动作策略；提出基于动态时间规整算法进行关节之间的轨迹相似性计算，进而基于层次聚类算法实现机器人关节的分组；根据关节组对应掩码得到不同关节组的元动作控制策略；构建层次结构的机器人总控制策略网络，通过线性组合各个关节组元动作策略的权重，实现在时间层面和空间层面上的元动作融合，从而能够快速学会新任务；同时，增强机器人动作的协调性和连贯性，在新任务上能够达到更好的表现。

2.如权利要求1所述的方法，其特征在于，所述方法通过如下步骤实现：

3.如权利要求2所述的方法，其特征是，步骤S1中，所述的元动作策略网络为一个神经网络，表示为π(A|S，Z)，其中

输入为状态S，具体为单目相机拍摄的包含环境和机器人自身的观察图像；

输出为机器人的动作A，具体为控制机器人的各关节角度和关节角速度组成的56维向量，表示为Joint_j＝[1：56]；

在网络中，将中间的潜在变量Z约束到一个均匀分布上，表示为Z～P(z)；设定基于一个潜在变量z_i的策略网络为一个元动作，表示为π_i(A|S，z_i)，i＝0，1，..，N。

4.如权利要求2所述的方法，其特征是，步骤S1中，对于深度强化学习来说，设计一个信息论优化目标来约束深度强化学习算法；所述的信息论优化目标包含三个设计原则，分别为(1)所有状态都要访问到，不同元动作访问的不同状态能够被区分，最大化元动作和状态的互信息I(S；Z)；(2)用状态来区分元动作，最小化在状态为条件下元动作和动作的互信息I(A；Z|S)；(3)最大化在元动作为条件下动作的熵H(A|Z)；

综上所述，通过本发明提出的信息论优化目标表示如下：

5.如权利要求2所述的方法，其特征是，步骤S2中，所述的时间动态规整算法满足一定条件的时间规整函数来描述测试模板和参考模板的时间对应关系，求解出两模板匹配时累计距离最小所对应的规整函数；

首先在Mujoco仿真环境中随机初始化状态，并利用步骤S1中所得到的元动作策略生成K条轨迹T＝{τ₁，τ₂，..，τ_K}，由此得到了每个关节的轨迹

通过时间规整算法对每两个关节进行轨迹的相似度计算，并基于相似度进行层次聚类；

所述的层次聚类算法：从下而上的将小的簇合并聚集；具体而言，首先将每个关节都看成独立的簇，然后每一步找到相似度最短的两个簇，再合并成一个大的簇，直到全部样本合并为一个整体簇，最终建立一个树状结构；选取整体效果较优的聚类结果作为最终的关节分组，表示为C_m＝cluster_m＝[Joint_1：j]。

6.如权利要求2所述的方法，其特征是，进一步地，步骤S3中，所述的关节组掩码为一个只包含0和1的56维向量；根据步骤S2中得到的关节聚类结果，每一个关节组生成对应的关节掩码Mask_m，其中不属于该关节组的关节位置上为0，输入该关节组的关节位置上为1；将关节组掩码按位相乘在步骤S1中得到的元动作策略输出，从而得到了不同关节组的元动作策略，表示为

7.如权利要求2所述的方法，其特征是，进一步地，步骤S4中，所述的层次结构的强化学习控制网络为步骤S3中得到的关节组元动作策略的线性组合；总控制网络具体表达形式如下：

将关节组元动作策略作为总控制网络的权值初始化；在新任务的奖励函数约束下，通过强化学习近端策略优化算法(Proximal Policy Optimization，PPO)来训练总控制网络输出合适的元动作系数α_i，从而能够更快、更好地完成新任务。