CN116330290A

CN116330290A - 基于多智能体深度强化学习的五指灵巧机器手控制方法

Info

Publication number: CN116330290A
Application number: CN202310373017.0A
Authority: CN
Inventors: 李轩衡; 贾沛达; 孙怡
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-27
Anticipated expiration: 2043-04-10
Also published as: CN116330290B

Abstract

本发明提供一种基于多智能体深度强化学习的五指灵巧机器手控制方法。考虑一个与人手大小和结构相同的五指灵巧机器手，场景中有一个放置在桌面的物体，通过将五根手指以及手腕和手臂视作单独的智能体分别进行训练，彼此分工协作，最终完成抓取物体的任务。本发明考虑到了机器手各关节的协作关系，通过多智能体方法在保证机器手完成抓取物体的任务前提下，将整个抓取过程进一步细致化和精细化，让机器手的抓取动作更加贴近理想的姿态、各手指更加灵活自由，完成更多单智能体无法完成的细节抓取动作。同时，本发明可以在不需要数据集的情况下对抓取物体任务进行有效的学习，减轻了收集大量数据的负担，并提高了机器五指手对陌生物体和环境的适应能力。

Description

基于多智能体深度强化学习的五指灵巧机器手控制方法

技术领域

本发明属于机器人控制技术领域，具体涉及一种基于多智能体深度强化学习的五指灵巧机器手控制方法。

背景技术

机器手最早在工业界被提出并应用，其目的是代替人类完成各种工序重复的流程性任务。最早的工业机器手在外观设计上大多采用两指机器手，仅限于简单的推拉或夹取操作；在控制方法上，早期的工业机器手也仅仅是在电路控制下完成简易的动作。随着人类对工业机器手的需求增大，具备传感器的五指机器手逐渐被投入使用，但依旧仅能完成简单的行为。

近年来，得益于人工智能与神经网络的快速发展，以深度学习为代表的监督学习方法使机器人抓取控制研究取得重大突破，对五指灵巧机器手的研究内容不再局限于简单重复的机械运动，而是进入了更智能、更灵活、更拟人化的新阶段。五指灵巧手不仅可以协助人类完成各种精细操作，提高工作效率，还可以代替人类执行更多具有危险性的任务，使人类的生活越来越智能化。然而，基于深度学习的灵巧手控制方法很难摆脱需要依赖大量数据协助机器手进行训练的问题，这会给机器人以及研究人员带来很大的负担。除此之外，在面对陌生未知环境时，适应能力差也是深度学习控制机器手的一个缺点。

针对上述问题，基于强化学习的五指机器手抓取控制方法被提出，并迅速得到业界广泛关注。强化学习是一种模仿人的行为过程的学习方式，类似蹒跚学步的幼儿。强化学习的主要思想是将机器手置于一个陌生的环境中，令其自行对环境进行探索，每次探索学习到的结果是好是坏是随机的。在学习过程中，会使用到奖励和惩罚机制：如果机器手做出正确的行为则会得到一定的奖励，做出错误的行为就会受到惩罚，为了使最终奖励最大化，机器手就会尽量减少自己的错误行为，并不断进行动作修正，从而使自己的行为越来越符合设计要求，最终学习到一个符合人类行为逻辑的最佳策略。强化学习对五指灵巧机器手的发展具有重大意义，一是有效减少了机器手在训练过程中对大量数据集的需求，因为机器手可以根据每次的探索结果进行自我学习和更新，而不再需要人为给予其他的经验数据。二是大大提高了机器手对陌生环境的适应能力，比如在面对从未见过的物体时，机器手依旧可以在不断探索中学习到成功抓住物体的行为。然而，目前基于强化学习的机器手控制方法的研究思想都停留在将手指、手掌以及手臂分别视作单一智能体进行动作学习，而没有考虑到机器手各个关节在抓取过程中的协调作用。

发明内容

本发明的目的是提供一种基于不依赖数据集的多智能体深度强化学习的五指灵巧机器手控制方法，将每根手指、手掌以及手臂视作协作的多智能体，不仅可以分别实现各自最适合的策略，还可以分工协作，最终完成抓取及拾起物体的任务，同时对陌生环境具有一定自适应性。不同于将机器手视作单智能体的传统思想，该方法采用将每根手指、手掌以及手臂均视作智能体的思想，训练各自的神经网络，并为它们设定一个需要共同实现的最终任务，使机器手完成靠近物体、抓取物体以及拾起物体的行为。

本发明的基本思想是在每个决策周期内，机器手的各部分(即手指，手掌和手臂)会根据上一个周期结束时观测到的物体位置以及自己的关节角度信息(即环境状态)去选择动作，即产生对应大小的关节力，以此来控制手上各关节在本周期内的角度和位置，并根据本周期内的环境状态来计算手掌与物体中心以及各手指与目标抓取点之间的距离，以此计算各自的奖励值，用于评价该动作的优劣。将每个周期中的状态、动作、动作结束后跳转的下一状态以及计算得到的奖励值四组信息组成一条经验信息，存入经验缓存区中，用于神经网络的训练，使其能够根据不断变化的环境信息实时的改进决策，以实现对物体的抓取操作。

本发明的技术方案：

一种基于多智能体深度强化学习的五指灵巧机器手控制方法，建立于以下系统环境：

场景中有一个物体放置在一张平整的桌面上，一个包含M个关节可以自由移动的五指灵巧机器手将自主学习实现对物体的抓取。在本发明中，机器手的每根手指、手掌以及手臂会根据自身与物体的相对位置制定各自的抓取策略，最终在训练结束的时候以接近人类的姿态抓住并拾起物体，然后进行后续操作，比如移动物体至其他位置。

具体步骤如下：

(1)建立动作空间与状态空间。智能体包括手指、手掌和手臂，每个智能体都包含一个用于生成下一时刻动作的动作决策主网络和一个用于评价该动作好坏的动作评价主网络，以及一个动作决策目标网络和一个动作评价目标网络。动作决策主网络和动作决策目标网络的结构相同，具体如下：网络共包含三层全连接层，第一层网络的输入维度与当前智能体的状态维度相同，输出维度为64维；第二层网络的输入与输出维度都为64维；第三层网络的输入维度为64维，输出维度与当前智能体的动作维度相同；每层网络的输出均使用Tanh函数作为激活函数，三层网络级联，第三层网络的输出作为当前智能体的动作使用。动作评价主网络和动作评价目标网络的结构相同，具体如下：网络共包含三层全连接层，第一层网络的输入维度是当前智能体的状态维度和动作维度之和，输出维度为64维；第二层网络的输入与输出维度都为64维；第三层网络的输入维度为64维，输出维度为1；前两层网络的输出均使用ReLU激活函数激活，三层网络级联，第三层网络的输出作为评价当前智能体动作好坏的评分使用。对于任意第t个决策周期，每个智能体的状态定义略有不同。对于五个手指，各自的状态由当前手指上的关节角度以及当前手指指尖到物体目标抓取点的距离组成。对于手掌和手臂，状态分别由对应智能体上的关节角度以及手掌中心点到物体中心的距离组成。各智能体的状态按照大拇指、食指、中指、无名指、小拇指、手掌、手臂的顺序分别记为

分别输入到各自的动作决策主网络。动作决策主网络会输出对应智能体的关节力，分别记为/>

每个智能体的状态/>

和动作/>

输入至各自的动作评价主网络，输出一个评价当前智能体动作好坏的评分Q(s,a|μ)，μ为动作评价主网络的参数。

(2)设定奖励函数。对于每个智能体，动作决策主网络输出的动作是一个确定值，为了增加智能体训练初期随机探索的程度，将关节力

与一个均值为0、方差为δ的高斯噪声叠加，随着训练的进行，方差δ逐渐减少至0，即智能体随机探索的程度会逐渐减弱，直至收敛到一个准确值。在智能体将上一个决策周期的状态/>

输入动作决策主网络，输出动作/>

后，智能体根据执行动作/>

后观测到的新状态/>

来计算奖励值/>

为了让机器手更好的完成一个完整的抓取任务，将任务细分为三个阶段：靠近阶段，抓握阶段以及拾起阶段。根据机器手处于不同阶段设置了三种奖励函数/>

具体来说，在靠近阶段，奖励设置如下：

其中，d₁表示的是手掌中心点与物体中心点之间距离，奖励

为距离d₁的负数，该奖励表明当手掌离物体越近，奖励值越大，越接近零。公式(1)的奖励仅作用于手掌和手臂两个智能体。

在抓取阶段，奖励设置如下：

奖励

对应三种情况：一是当手掌距离物体距离d₁大于0.1米时，该奖励值为-3；二是当手掌与物体距离d₁小于等于0.1米但大于0时，该奖励值设置为手指指尖到物体表面对应抓取点之间的距离d₂的负数；三是当指尖完全接触到物体表面预设点位置时，此时d₁＝0，奖励值最大为0。公式(2)奖励仅作用于五根手指对应的五个智能体。

在拾取阶段，奖励设置如下：

奖励的作用是鼓励灵巧手在抓住物体后将物体拾起，对应两种情况：一是当物体中心当前的高度与物体中心在初始时刻的高度差h大于等于0.01米时，该奖励值为物体当前决策周期和初始周期的中心高度差乘以一个权重100，即物体被拾起的越高，该奖励越大；二是当物体当前决策周期和初始周期的中心高度差h小于0.01米时，该奖励值保持0不变。公式(3)的奖励作用于全部智能体。

当各智能体计算得到对应的奖励值后，将经验元组(S_t-1,A_t-1,S_t,R_t)存入经验缓存区中。

(3)训练神经网络。每一个决策周期，各智能体都会执行步骤(2)和步骤(3)。当经验缓存区中的信息条数超出设定值时，智能体从经验缓存区随机采样数量为N的训练样本数据作为输入来训练神经网络。具体而言，对于一个智能体，为了更新其动作评价主网络的网络参数，通过最小化均方误差计算损失函数：

L(μ)＝E[(Q(s,a|μ)-(R+γQ_T(s,a|μ_T)))²] (4)

其中Q(s,a|μ)为动作评价主网络输出，Q_T(s,a|μ_T)为动作评价目标网络输出，μ和μ_T分别为动作评价主网络和动作评价目标网络的参数，R为当前决策周期所有智能体的奖励总和，γ为折扣因子。对于动作决策网络，其主网络会利用动作评价主网络生成的Q(s,a|μ)进行网络参数更新，其损失函数表示为：

L(θ)＝-E[Q(s,a|μ)] (5)

其中θ是动作决策主网络的参数。最后，利用软更新方法更新动作决策目标网络以及动作评价目标网络的相关参数：

θ_T＝τθ+(1-τ)θ_T (6)

μ_T＝τμ+(1-τ)μ_T (7)

其中θ_T是动作决策目标网络的参数，τ为更新系数，一般比较小，如0.01，即两个目标网络参数每次都只更新一点。其他几个智能体也通过公式(4)、公式(5)、公式(6)、公式(7)更新自己的四个神经网络。

综上，组成五指灵巧机器手的各个智能体在观察到当前环境状态后不断执行新的动作，与环境进行交互，并通过此过程中获得的奖励值持续引导自己的行为策略更新。在训练的初始阶段，机器手会产生较大的随机动作，以此来保证对未知环境的充分探索，随着其不断地与环境进行交互，叠加在动作上的噪声会逐渐减弱，训练的网络也将逐渐收敛，最终找到最优的抓取物体策略。

本发明的效果和益处：

(1)相比于工业传统机器手，本发明引入了机器学习神经网络，使五指机器手具有更多的拟人性和智能性。机器手也不再是机械重复相同的单一动作，而是可以完成更多拟人化的精细复杂操作。

(2)相比深度学习机器手控制方法，本发明可以在不需要数据集的情况下对抓取物体任务进行有效的学习，减轻了收集大量数据的负担。同时本发明提高了机器五指手对陌生物体和环境的适应能力，可以应用于多种场景下。

(3)相比目前将机器手作为单一智能体进行强化学习训练的方法，本发明考虑到了机器手各关节的协作关系，通过多智能体方法在保证机器手完成抓取物体的任务前提下，将整个抓取过程进一步细致化和精细化，让机器手的抓取动作更加贴近理想的姿态，同时让各手指更加灵活自由，可以完成更多单智能体无法完成的细节抓取动作。

附图说明

图1是本发明的基于多智能体深度强化学习的五指灵巧机器手控制流程图。

具体实施方式

以下结合抓取小球的技术方案，进一步说明本发明的具体实施方式。

考虑一个与人手大小和结构相同的五指灵巧手。该机器手的手指、手掌和手臂共包含30个关节(大、小拇指含5个，食指、中指和无名指含4个，手掌含2个，手臂含6个)。场景中有一个半径为3.5cm的小球放置在一张平整的桌面上，桌面的长宽均为40cm，桌面距离地面的高度为50cm。在初始状态下，机器手以完全展开的姿态位于小球斜上方，手掌中心与小球中心的距离为20cm。

图1表示了整个工作流程，具体步骤如下：

每个智能体首先会建立一个用于选择下一时刻动作的动作决策网络和一个评价该动作好坏的动作评价网络，以及与上述两个网络结构完全相同的目标神经网络，并对网络中的各类参数进行初始化设置。即带有网络参数θ的动作决策主网络、带有网络参数θ_T的动作决策目标网络以及带有网络参数μ的动作评价主网络、带有网络参数μ_T的动作评价目标网络。各个智能体在初始时刻会基于确定性策略制定一个抓取策略，并将输出的动作添加一个方差为0.5的高斯噪声，然后将该动作作用于环境。各个智能体收集当前决策周期内自身所需的状态信息并进入下一个决策周期。在下一个决策周期开始时，各个智能体首先观测得到当前的状态信息，并根据公式(1)，公式(2)以及公式(3)计算得到对应的奖励值，然后，各智能体按照顺序依次将经验元组信息存入经验池中形成一条记录。当经验池内信息数量达到采样标准后，智能体会从中随机采样一小批经验元组利用公式(5)对动作决策主网络的参数进行更新。在每个决策周期，动作评价主网络以公式(4)的形式更新参数，而动作决策目标网络和动作评价目标网络的参数会以公式(6)和公式(7)的形式进行软更新。最后重复上述步骤。

在算法的初始阶段，动作叠加噪声的方差δ设置为一个合适的值，如0.5，在算法迭代过程中，令δ＝0.9995*δ，使其逐渐减小。随着δ的减小，网络的训练也将逐渐完成。当δ的值逐渐趋近于0时，网络也逐渐达到收敛状态。当训练收敛后，灵巧手能直接通过训练完成的网络指导其在不同的状态下准确做出靠近、抓取并拾起目标物体的行为。

Claims

1.一种基于多智能体深度强化学习的五指灵巧机器手控制方法，其特征在于，具体步骤如下：

(1)建立动作空间与状态空间：智能体包括手指、手掌和手臂，每个智能体都包含一个用于生成下一时刻动作的动作决策主网络和一个用于评价该动作好坏的动作评价主网络，以及一个动作决策目标网络和一个动作评价目标网络；动作决策主网络和动作决策目标网络的结构相同，具体如下：网络共包含三层全连接层，第一层网络的输入维度与当前智能体的状态维度相同，输出维度为64维；第二层网络的输入与输出维度都为64维；第三层网络的输入维度为64维，输出维度与当前智能体的动作维度相同；每层网络的输出均使用Tanh函数作为激活函数，三层网络级联，第三层网络的输出作为当前智能体的动作使用；动作评价主网络和动作评价目标网络的结构相同，具体如下：网络共包含三层全连接层，第一层网络的输入维度是当前智能体的状态维度和动作维度之和，输出维度为64维；第二层网络的输入与输出维度都为64维；第三层网络的输入维度为64维，输出维度为1；前两层网络的输出均使用ReLU激活函数激活，三层网络级联，第三层网络的输出作为评价当前智能体动作好坏的评分使用；对于任意第个决策周期，每个智能体的状态定义如下：对于五个手指，各自的状态由当前手指上的关节角度以及当前手指指尖到物体目标抓取点的距离组成；对于手掌和手臂，状态分别由对应智能体上的关节角度以及手掌中心点到物体中心的距离组成；各智能体的状态按照大拇指、食指、中指、无名指、小拇指、手掌、手臂的顺序分别记为

分别输入到各自的动作决策主网络；动作决策主网络会输出对应智能体的关节力，分别记为/>

每个智能体的状态/>

和动作/>

输入至各自的动作评价主网络，其中，i＝1,2,…,7，输出一个评价当前智能体动作好坏的评分Q(s,a|μ)，μ为动作评价主网络的参数；

(2)设定奖励函数：对于每个智能体，动作决策主网络输出的动作是一个确定值，为了增加智能体训练初期随机探索的程度，将关节力

与一个均值为0、方差为δ的高斯噪声叠加，随着训练的进行，方差δ逐渐减少至0，即智能体随机探索的程度会逐渐减弱，直至收敛到一个准确值；在智能体将上一个决策周期的状态/>

输入动作决策主网络，输出动作

后，智能体根据执行动作/>

后观测到的新状态/>

来计算奖励值/>

为了让机器手更好的完成一个完整的抓取任务，将任务细分为三个阶段：靠近阶段，抓握阶段以及拾起阶段；根据机器手处于不同阶段设置了三种奖励函数/>

具体来说，在靠近阶段，奖励设置如下：

其中，d₁表示的是手掌中心点与物体中心点之间距离，奖励

为距离d₁的负数，该奖励表明当手掌离物体越近，奖励值越大，越接近零；公式(1)的奖励仅作用于手掌和手臂两个智能体；

在抓取阶段，奖励设置如下：

奖励

对应三种情况：一是当手掌距离物体距离d₁大于0.1米时，该奖励值为-3；二是当手掌与物体距离d₁小于等于0.1米但大于0时，该奖励值设置为手指指尖到物体表面对应抓取点之间的距离d₂的负数；三是当指尖完全接触到物体表面预设点位置时，此时d₁＝0，奖励值最大为0；公式(2)奖励仅作用于五根手指对应的五个智能体；

在拾取阶段，奖励设置如下：

奖励的作用是鼓励灵巧手在抓住物体后将物体拾起，对应两种情况：一是当物体中心当前的高度与物体中心在初始时刻的高度差h大于等于0.01米时，该奖励值为物体当前决策周期和初始周期的中心高度差乘以一个权重100，即物体被拾起的越高，该奖励越大；二是当物体当前决策周期和初始周期的中心高度差h小于0.01米时，该奖励值保持0不变；公式(3)的奖励作用于全部智能体；

当各智能体计算得到对应的奖励值后，将经验元组(S_t-1,A_t-1,S_t,R_t)存入经验缓存区中；

(3)训练神经网络：每一个决策周期，各智能体都会执行步骤(2)和步骤(3)；当经验缓存区中的信息条数超出设定值时，智能体从经验缓存区随机采样数量为N的训练样本数据作为输入来训练神经网络；具体而言，对于一个智能体，为了更新其动作评价主网络的网络参数，通过最小化均方误差计算损失函数：

L(μ)＝E[(Q(s,a|μ)-(R+γQ_T(s,a|μ_T)))²] (4)

其中Q(s,a|μ)为动作评价主网络输出，Q_T(s,a|μ_T)为动作评价目标网络输出，μ和μ_T分别为动作评价主网络和动作评价目标网络的参数，R为当前决策周期所有智能体的奖励总和，γ为折扣因子；对于动作决策网络，其主网络会利用动作评价主网络生成的Q(s,a|μ)进行网络参数更新，其损失函数表示为：

L(θ)＝-E[Q(s,a|μ)] (5)

其中θ是动作决策主网络的参数；最后，利用软更新方法更新动作决策目标网络以及动作评价目标网络的相关参数：

θ_T＝τθ+(1-τ)θ_T (6)

μ_T＝τμ+(1-τ)μ_T (7)

其中θ_T是动作决策目标网络的参数，τ为更新系数，其他几个智能体也通过公式(4)、公式(5)、公式(6)、公式(7)更新自己的四个神经网络；

组成五指灵巧机器手的各个智能体在观察到当前环境状态后不断执行新的动作，与环境进行交互，并通过过程中获得的奖励值持续引导自己的行为策略更新；在训练的初始阶段，机器手会产生较大的随机动作，以此来保证对未知环境的充分探索，随着其不断地与环境进行交互，叠加在动作上的噪声逐渐减弱，训练的网络也将逐渐收敛，最终找到最优的抓取物体策略。