CN116330290A - 基于多智能体深度强化学习的五指灵巧机器手控制方法 - Google Patents

基于多智能体深度强化学习的五指灵巧机器手控制方法 Download PDF

Info

Publication number
CN116330290A
CN116330290A CN202310373017.0A CN202310373017A CN116330290A CN 116330290 A CN116330290 A CN 116330290A CN 202310373017 A CN202310373017 A CN 202310373017A CN 116330290 A CN116330290 A CN 116330290A
Authority
CN
China
Prior art keywords
network
action
agent
decision
finger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310373017.0A
Other languages
English (en)
Other versions
CN116330290B (zh
Inventor
李轩衡
贾沛达
孙怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310373017.0A priority Critical patent/CN116330290B/zh
Publication of CN116330290A publication Critical patent/CN116330290A/zh
Application granted granted Critical
Publication of CN116330290B publication Critical patent/CN116330290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种基于多智能体深度强化学习的五指灵巧机器手控制方法。考虑一个与人手大小和结构相同的五指灵巧机器手,场景中有一个放置在桌面的物体,通过将五根手指以及手腕和手臂视作单独的智能体分别进行训练,彼此分工协作,最终完成抓取物体的任务。本发明考虑到了机器手各关节的协作关系,通过多智能体方法在保证机器手完成抓取物体的任务前提下,将整个抓取过程进一步细致化和精细化,让机器手的抓取动作更加贴近理想的姿态、各手指更加灵活自由,完成更多单智能体无法完成的细节抓取动作。同时,本发明可以在不需要数据集的情况下对抓取物体任务进行有效的学习,减轻了收集大量数据的负担,并提高了机器五指手对陌生物体和环境的适应能力。

Description

基于多智能体深度强化学习的五指灵巧机器手控制方法
技术领域
本发明属于机器人控制技术领域,具体涉及一种基于多智能体深度强化学习的五指灵巧机器手控制方法。
背景技术
机器手最早在工业界被提出并应用,其目的是代替人类完成各种工序重复的流程性任务。最早的工业机器手在外观设计上大多采用两指机器手,仅限于简单的推拉或夹取操作;在控制方法上,早期的工业机器手也仅仅是在电路控制下完成简易的动作。随着人类对工业机器手的需求增大,具备传感器的五指机器手逐渐被投入使用,但依旧仅能完成简单的行为。
近年来,得益于人工智能与神经网络的快速发展,以深度学习为代表的监督学习方法使机器人抓取控制研究取得重大突破,对五指灵巧机器手的研究内容不再局限于简单重复的机械运动,而是进入了更智能、更灵活、更拟人化的新阶段。五指灵巧手不仅可以协助人类完成各种精细操作,提高工作效率,还可以代替人类执行更多具有危险性的任务,使人类的生活越来越智能化。然而,基于深度学习的灵巧手控制方法很难摆脱需要依赖大量数据协助机器手进行训练的问题,这会给机器人以及研究人员带来很大的负担。除此之外,在面对陌生未知环境时,适应能力差也是深度学习控制机器手的一个缺点。
针对上述问题,基于强化学习的五指机器手抓取控制方法被提出,并迅速得到业界广泛关注。强化学习是一种模仿人的行为过程的学习方式,类似蹒跚学步的幼儿。强化学习的主要思想是将机器手置于一个陌生的环境中,令其自行对环境进行探索,每次探索学习到的结果是好是坏是随机的。在学习过程中,会使用到奖励和惩罚机制:如果机器手做出正确的行为则会得到一定的奖励,做出错误的行为就会受到惩罚,为了使最终奖励最大化,机器手就会尽量减少自己的错误行为,并不断进行动作修正,从而使自己的行为越来越符合设计要求,最终学习到一个符合人类行为逻辑的最佳策略。强化学习对五指灵巧机器手的发展具有重大意义,一是有效减少了机器手在训练过程中对大量数据集的需求,因为机器手可以根据每次的探索结果进行自我学习和更新,而不再需要人为给予其他的经验数据。二是大大提高了机器手对陌生环境的适应能力,比如在面对从未见过的物体时,机器手依旧可以在不断探索中学习到成功抓住物体的行为。然而,目前基于强化学习的机器手控制方法的研究思想都停留在将手指、手掌以及手臂分别视作单一智能体进行动作学习,而没有考虑到机器手各个关节在抓取过程中的协调作用。
发明内容
本发明的目的是提供一种基于不依赖数据集的多智能体深度强化学习的五指灵巧机器手控制方法,将每根手指、手掌以及手臂视作协作的多智能体,不仅可以分别实现各自最适合的策略,还可以分工协作,最终完成抓取及拾起物体的任务,同时对陌生环境具有一定自适应性。不同于将机器手视作单智能体的传统思想,该方法采用将每根手指、手掌以及手臂均视作智能体的思想,训练各自的神经网络,并为它们设定一个需要共同实现的最终任务,使机器手完成靠近物体、抓取物体以及拾起物体的行为。
本发明的基本思想是在每个决策周期内,机器手的各部分(即手指,手掌和手臂)会根据上一个周期结束时观测到的物体位置以及自己的关节角度信息(即环境状态)去选择动作,即产生对应大小的关节力,以此来控制手上各关节在本周期内的角度和位置,并根据本周期内的环境状态来计算手掌与物体中心以及各手指与目标抓取点之间的距离,以此计算各自的奖励值,用于评价该动作的优劣。将每个周期中的状态、动作、动作结束后跳转的下一状态以及计算得到的奖励值四组信息组成一条经验信息,存入经验缓存区中,用于神经网络的训练,使其能够根据不断变化的环境信息实时的改进决策,以实现对物体的抓取操作。
本发明的技术方案:
一种基于多智能体深度强化学习的五指灵巧机器手控制方法,建立于以下系统环境:
场景中有一个物体放置在一张平整的桌面上,一个包含M个关节可以自由移动的五指灵巧机器手将自主学习实现对物体的抓取。在本发明中,机器手的每根手指、手掌以及手臂会根据自身与物体的相对位置制定各自的抓取策略,最终在训练结束的时候以接近人类的姿态抓住并拾起物体,然后进行后续操作,比如移动物体至其他位置。
具体步骤如下:
(1)建立动作空间与状态空间。智能体包括手指、手掌和手臂,每个智能体都包含一个用于生成下一时刻动作的动作决策主网络和一个用于评价该动作好坏的动作评价主网络,以及一个动作决策目标网络和一个动作评价目标网络。动作决策主网络和动作决策目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度与当前智能体的状态维度相同,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度与当前智能体的动作维度相同;每层网络的输出均使用Tanh函数作为激活函数,三层网络级联,第三层网络的输出作为当前智能体的动作使用。动作评价主网络和动作评价目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度是当前智能体的状态维度和动作维度之和,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度为1;前两层网络的输出均使用ReLU激活函数激活,三层网络级联,第三层网络的输出作为评价当前智能体动作好坏的评分使用。对于任意第t个决策周期,每个智能体的状态定义略有不同。对于五个手指,各自的状态由当前手指上的关节角度以及当前手指指尖到物体目标抓取点的距离组成。对于手掌和手臂,状态分别由对应智能体上的关节角度以及手掌中心点到物体中心的距离组成。各智能体的状态按照大拇指、食指、中指、无名指、小拇指、手掌、手臂的顺序分别记为
Figure BDA0004169288100000041
分别输入到各自的动作决策主网络。动作决策主网络会输出对应智能体的关节力,分别记为/>
Figure BDA0004169288100000042
每个智能体的状态/>
Figure BDA0004169288100000043
和动作/>
Figure BDA0004169288100000044
输入至各自的动作评价主网络,输出一个评价当前智能体动作好坏的评分Q(s,a|μ),μ为动作评价主网络的参数。
(2)设定奖励函数。对于每个智能体,动作决策主网络输出的动作是一个确定值,为了增加智能体训练初期随机探索的程度,将关节力
Figure BDA0004169288100000045
与一个均值为0、方差为δ的高斯噪声叠加,随着训练的进行,方差δ逐渐减少至0,即智能体随机探索的程度会逐渐减弱,直至收敛到一个准确值。在智能体将上一个决策周期的状态/>
Figure BDA0004169288100000046
输入动作决策主网络,输出动作/>
Figure BDA0004169288100000047
Figure BDA0004169288100000048
后,智能体根据执行动作/>
Figure BDA0004169288100000049
后观测到的新状态/>
Figure BDA00041692881000000410
Figure BDA00041692881000000411
来计算奖励值/>
Figure BDA00041692881000000412
为了让机器手更好的完成一个完整的抓取任务,将任务细分为三个阶段:靠近阶段,抓握阶段以及拾起阶段。根据机器手处于不同阶段设置了三种奖励函数/>
Figure BDA00041692881000000413
具体来说,在靠近阶段,奖励设置如下:
Figure BDA00041692881000000414
其中,d1表示的是手掌中心点与物体中心点之间距离,奖励
Figure BDA00041692881000000415
为距离d1的负数,该奖励表明当手掌离物体越近,奖励值越大,越接近零。公式(1)的奖励仅作用于手掌和手臂两个智能体。
在抓取阶段,奖励设置如下:
Figure BDA0004169288100000051
奖励
Figure BDA0004169288100000052
对应三种情况:一是当手掌距离物体距离d1大于0.1米时,该奖励值为-3;二是当手掌与物体距离d1小于等于0.1米但大于0时,该奖励值设置为手指指尖到物体表面对应抓取点之间的距离d2的负数;三是当指尖完全接触到物体表面预设点位置时,此时d1=0,奖励值最大为0。公式(2)奖励仅作用于五根手指对应的五个智能体。
在拾取阶段,奖励设置如下:
Figure BDA0004169288100000053
Figure BDA0004169288100000054
奖励的作用是鼓励灵巧手在抓住物体后将物体拾起,对应两种情况:一是当物体中心当前的高度与物体中心在初始时刻的高度差h大于等于0.01米时,该奖励值为物体当前决策周期和初始周期的中心高度差乘以一个权重100,即物体被拾起的越高,该奖励越大;二是当物体当前决策周期和初始周期的中心高度差h小于0.01米时,该奖励值保持0不变。公式(3)的奖励作用于全部智能体。
当各智能体计算得到对应的奖励值后,将经验元组(St-1,At-1,St,Rt)存入经验缓存区中。
(3)训练神经网络。每一个决策周期,各智能体都会执行步骤(2)和步骤(3)。当经验缓存区中的信息条数超出设定值时,智能体从经验缓存区随机采样数量为N的训练样本数据作为输入来训练神经网络。具体而言,对于一个智能体,为了更新其动作评价主网络的网络参数,通过最小化均方误差计算损失函数:
L(μ)=E[(Q(s,a|μ)-(R+γQT(s,a|μT)))2] (4)
其中Q(s,a|μ)为动作评价主网络输出,QT(s,a|μT)为动作评价目标网络输出,μ和μT分别为动作评价主网络和动作评价目标网络的参数,R为当前决策周期所有智能体的奖励总和,γ为折扣因子。对于动作决策网络,其主网络会利用动作评价主网络生成的Q(s,a|μ)进行网络参数更新,其损失函数表示为:
L(θ)=-E[Q(s,a|μ)] (5)
其中θ是动作决策主网络的参数。最后,利用软更新方法更新动作决策目标网络以及动作评价目标网络的相关参数:
θT=τθ+(1-τ)θT (6)
μT=τμ+(1-τ)μT (7)
其中θT是动作决策目标网络的参数,τ为更新系数,一般比较小,如0.01,即两个目标网络参数每次都只更新一点。其他几个智能体也通过公式(4)、公式(5)、公式(6)、公式(7)更新自己的四个神经网络。
综上,组成五指灵巧机器手的各个智能体在观察到当前环境状态后不断执行新的动作,与环境进行交互,并通过此过程中获得的奖励值持续引导自己的行为策略更新。在训练的初始阶段,机器手会产生较大的随机动作,以此来保证对未知环境的充分探索,随着其不断地与环境进行交互,叠加在动作上的噪声会逐渐减弱,训练的网络也将逐渐收敛,最终找到最优的抓取物体策略。
本发明的效果和益处:
(1)相比于工业传统机器手,本发明引入了机器学习神经网络,使五指机器手具有更多的拟人性和智能性。机器手也不再是机械重复相同的单一动作,而是可以完成更多拟人化的精细复杂操作。
(2)相比深度学习机器手控制方法,本发明可以在不需要数据集的情况下对抓取物体任务进行有效的学习,减轻了收集大量数据的负担。同时本发明提高了机器五指手对陌生物体和环境的适应能力,可以应用于多种场景下。
(3)相比目前将机器手作为单一智能体进行强化学习训练的方法,本发明考虑到了机器手各关节的协作关系,通过多智能体方法在保证机器手完成抓取物体的任务前提下,将整个抓取过程进一步细致化和精细化,让机器手的抓取动作更加贴近理想的姿态,同时让各手指更加灵活自由,可以完成更多单智能体无法完成的细节抓取动作。
附图说明
图1是本发明的基于多智能体深度强化学习的五指灵巧机器手控制流程图。
具体实施方式
以下结合抓取小球的技术方案,进一步说明本发明的具体实施方式。
考虑一个与人手大小和结构相同的五指灵巧手。该机器手的手指、手掌和手臂共包含30个关节(大、小拇指含5个,食指、中指和无名指含4个,手掌含2个,手臂含6个)。场景中有一个半径为3.5cm的小球放置在一张平整的桌面上,桌面的长宽均为40cm,桌面距离地面的高度为50cm。在初始状态下,机器手以完全展开的姿态位于小球斜上方,手掌中心与小球中心的距离为20cm。
图1表示了整个工作流程,具体步骤如下:
每个智能体首先会建立一个用于选择下一时刻动作的动作决策网络和一个评价该动作好坏的动作评价网络,以及与上述两个网络结构完全相同的目标神经网络,并对网络中的各类参数进行初始化设置。即带有网络参数θ的动作决策主网络、带有网络参数θT的动作决策目标网络以及带有网络参数μ的动作评价主网络、带有网络参数μT的动作评价目标网络。各个智能体在初始时刻会基于确定性策略制定一个抓取策略,并将输出的动作添加一个方差为0.5的高斯噪声,然后将该动作作用于环境。各个智能体收集当前决策周期内自身所需的状态信息并进入下一个决策周期。在下一个决策周期开始时,各个智能体首先观测得到当前的状态信息,并根据公式(1),公式(2)以及公式(3)计算得到对应的奖励值,然后,各智能体按照顺序依次将经验元组信息存入经验池中形成一条记录。当经验池内信息数量达到采样标准后,智能体会从中随机采样一小批经验元组利用公式(5)对动作决策主网络的参数进行更新。在每个决策周期,动作评价主网络以公式(4)的形式更新参数,而动作决策目标网络和动作评价目标网络的参数会以公式(6)和公式(7)的形式进行软更新。最后重复上述步骤。
在算法的初始阶段,动作叠加噪声的方差δ设置为一个合适的值,如0.5,在算法迭代过程中,令δ=0.9995*δ,使其逐渐减小。随着δ的减小,网络的训练也将逐渐完成。当δ的值逐渐趋近于0时,网络也逐渐达到收敛状态。当训练收敛后,灵巧手能直接通过训练完成的网络指导其在不同的状态下准确做出靠近、抓取并拾起目标物体的行为。

Claims (1)

1.一种基于多智能体深度强化学习的五指灵巧机器手控制方法,其特征在于,具体步骤如下:
(1)建立动作空间与状态空间:智能体包括手指、手掌和手臂,每个智能体都包含一个用于生成下一时刻动作的动作决策主网络和一个用于评价该动作好坏的动作评价主网络,以及一个动作决策目标网络和一个动作评价目标网络;动作决策主网络和动作决策目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度与当前智能体的状态维度相同,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度与当前智能体的动作维度相同;每层网络的输出均使用Tanh函数作为激活函数,三层网络级联,第三层网络的输出作为当前智能体的动作使用;动作评价主网络和动作评价目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度是当前智能体的状态维度和动作维度之和,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度为1;前两层网络的输出均使用ReLU激活函数激活,三层网络级联,第三层网络的输出作为评价当前智能体动作好坏的评分使用;对于任意第个决策周期,每个智能体的状态定义如下:对于五个手指,各自的状态由当前手指上的关节角度以及当前手指指尖到物体目标抓取点的距离组成;对于手掌和手臂,状态分别由对应智能体上的关节角度以及手掌中心点到物体中心的距离组成;各智能体的状态按照大拇指、食指、中指、无名指、小拇指、手掌、手臂的顺序分别记为
Figure FDA0004169288080000011
分别输入到各自的动作决策主网络;动作决策主网络会输出对应智能体的关节力,分别记为/>
Figure FDA0004169288080000012
每个智能体的状态/>
Figure FDA0004169288080000013
和动作/>
Figure FDA0004169288080000014
输入至各自的动作评价主网络,其中,i=1,2,…,7,输出一个评价当前智能体动作好坏的评分Q(s,a|μ),μ为动作评价主网络的参数;
(2)设定奖励函数:对于每个智能体,动作决策主网络输出的动作是一个确定值,为了增加智能体训练初期随机探索的程度,将关节力
Figure FDA0004169288080000021
与一个均值为0、方差为δ的高斯噪声叠加,随着训练的进行,方差δ逐渐减少至0,即智能体随机探索的程度会逐渐减弱,直至收敛到一个准确值;在智能体将上一个决策周期的状态/>
Figure FDA0004169288080000022
输入动作决策主网络,输出动作
Figure FDA0004169288080000023
后,智能体根据执行动作/>
Figure FDA0004169288080000024
后观测到的新状态/>
Figure FDA0004169288080000025
来计算奖励值/>
Figure FDA0004169288080000026
为了让机器手更好的完成一个完整的抓取任务,将任务细分为三个阶段:靠近阶段,抓握阶段以及拾起阶段;根据机器手处于不同阶段设置了三种奖励函数/>
Figure FDA0004169288080000027
具体来说,在靠近阶段,奖励设置如下:
Figure FDA0004169288080000028
其中,d1表示的是手掌中心点与物体中心点之间距离,奖励
Figure FDA00041692880800000212
为距离d1的负数,该奖励表明当手掌离物体越近,奖励值越大,越接近零;公式(1)的奖励仅作用于手掌和手臂两个智能体;
在抓取阶段,奖励设置如下:
Figure FDA0004169288080000029
奖励
Figure FDA00041692880800000211
对应三种情况:一是当手掌距离物体距离d1大于0.1米时,该奖励值为-3;二是当手掌与物体距离d1小于等于0.1米但大于0时,该奖励值设置为手指指尖到物体表面对应抓取点之间的距离d2的负数;三是当指尖完全接触到物体表面预设点位置时,此时d1=0,奖励值最大为0;公式(2)奖励仅作用于五根手指对应的五个智能体;
在拾取阶段,奖励设置如下:
Figure FDA00041692880800000210
Figure FDA0004169288080000031
奖励的作用是鼓励灵巧手在抓住物体后将物体拾起,对应两种情况:一是当物体中心当前的高度与物体中心在初始时刻的高度差h大于等于0.01米时,该奖励值为物体当前决策周期和初始周期的中心高度差乘以一个权重100,即物体被拾起的越高,该奖励越大;二是当物体当前决策周期和初始周期的中心高度差h小于0.01米时,该奖励值保持0不变;公式(3)的奖励作用于全部智能体;
当各智能体计算得到对应的奖励值后,将经验元组(St-1,At-1,St,Rt)存入经验缓存区中;
(3)训练神经网络:每一个决策周期,各智能体都会执行步骤(2)和步骤(3);当经验缓存区中的信息条数超出设定值时,智能体从经验缓存区随机采样数量为N的训练样本数据作为输入来训练神经网络;具体而言,对于一个智能体,为了更新其动作评价主网络的网络参数,通过最小化均方误差计算损失函数:
L(μ)=E[(Q(s,a|μ)-(R+γQT(s,a|μT)))2] (4)
其中Q(s,a|μ)为动作评价主网络输出,QT(s,a|μT)为动作评价目标网络输出,μ和μT分别为动作评价主网络和动作评价目标网络的参数,R为当前决策周期所有智能体的奖励总和,γ为折扣因子;对于动作决策网络,其主网络会利用动作评价主网络生成的Q(s,a|μ)进行网络参数更新,其损失函数表示为:
L(θ)=-E[Q(s,a|μ)] (5)
其中θ是动作决策主网络的参数;最后,利用软更新方法更新动作决策目标网络以及动作评价目标网络的相关参数:
θT=τθ+(1-τ)θT (6)
μT=τμ+(1-τ)μT (7)
其中θT是动作决策目标网络的参数,τ为更新系数,其他几个智能体也通过公式(4)、公式(5)、公式(6)、公式(7)更新自己的四个神经网络;
组成五指灵巧机器手的各个智能体在观察到当前环境状态后不断执行新的动作,与环境进行交互,并通过过程中获得的奖励值持续引导自己的行为策略更新;在训练的初始阶段,机器手会产生较大的随机动作,以此来保证对未知环境的充分探索,随着其不断地与环境进行交互,叠加在动作上的噪声逐渐减弱,训练的网络也将逐渐收敛,最终找到最优的抓取物体策略。
CN202310373017.0A 2023-04-10 2023-04-10 基于多智能体深度强化学习的五指灵巧机器手控制方法 Active CN116330290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310373017.0A CN116330290B (zh) 2023-04-10 2023-04-10 基于多智能体深度强化学习的五指灵巧机器手控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310373017.0A CN116330290B (zh) 2023-04-10 2023-04-10 基于多智能体深度强化学习的五指灵巧机器手控制方法

Publications (2)

Publication Number Publication Date
CN116330290A true CN116330290A (zh) 2023-06-27
CN116330290B CN116330290B (zh) 2023-08-18

Family

ID=86884058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310373017.0A Active CN116330290B (zh) 2023-04-10 2023-04-10 基于多智能体深度强化学习的五指灵巧机器手控制方法

Country Status (1)

Country Link
CN (1) CN116330290B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104589356A (zh) * 2014-11-27 2015-05-06 北京工业大学 基于Kinect人手运动捕捉的灵巧手遥操作控制方法
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制系统及其控制方法
CN111496794A (zh) * 2020-04-29 2020-08-07 华中科技大学 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
US20210125052A1 (en) * 2019-10-24 2021-04-29 Nvidia Corporation Reinforcement learning of tactile grasp policies
CN114820802A (zh) * 2022-07-01 2022-07-29 深圳大学 高自由度灵巧手抓取规划方法、装置和计算机设备
CN114882113A (zh) * 2022-05-23 2022-08-09 大连理工大学 基于同类物体形状对应性的五指机械灵巧手抓取迁移方法
CN115042185A (zh) * 2022-07-04 2022-09-13 杭州电子科技大学 一种基于持续强化学习的机械臂避障抓取方法
CN115293227A (zh) * 2022-06-21 2022-11-04 华为技术有限公司 一种模型训练方法及相关设备
US20230031545A1 (en) * 2015-08-18 2023-02-02 Mbl Limited Robotic kitchen systems and methods in an instrumented environment with electronic cooking libraries

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104589356A (zh) * 2014-11-27 2015-05-06 北京工业大学 基于Kinect人手运动捕捉的灵巧手遥操作控制方法
US20230031545A1 (en) * 2015-08-18 2023-02-02 Mbl Limited Robotic kitchen systems and methods in an instrumented environment with electronic cooking libraries
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制系统及其控制方法
US20210125052A1 (en) * 2019-10-24 2021-04-29 Nvidia Corporation Reinforcement learning of tactile grasp policies
CN114845842A (zh) * 2019-10-24 2022-08-02 辉达公司 触觉抓取策略的强化学习
CN111496794A (zh) * 2020-04-29 2020-08-07 华中科技大学 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
WO2022100363A1 (zh) * 2020-11-13 2022-05-19 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备、存储介质及程序产品
CN114882113A (zh) * 2022-05-23 2022-08-09 大连理工大学 基于同类物体形状对应性的五指机械灵巧手抓取迁移方法
CN115293227A (zh) * 2022-06-21 2022-11-04 华为技术有限公司 一种模型训练方法及相关设备
CN114820802A (zh) * 2022-07-01 2022-07-29 深圳大学 高自由度灵巧手抓取规划方法、装置和计算机设备
CN115042185A (zh) * 2022-07-04 2022-09-13 杭州电子科技大学 一种基于持续强化学习的机械臂避障抓取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨扬;韦君玉;: "基于强化学习的三指灵巧手抓取方法研究", 北方工业大学学报, no. 02 *

Also Published As

Publication number Publication date
CN116330290B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
Geng et al. Transferring human grasping synergies to a robot
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
Qu et al. Human-like coordination motion learning for a redundant dual-arm robot
CN109702740B (zh) 机器人柔顺性控制方法、装置、设备及存储介质
Shahid et al. Learning continuous control actions for robotic grasping with reinforcement learning
CN114888801B (zh) 一种基于离线策略强化学习的机械臂控制方法及系统
CN113524186B (zh) 基于演示示例的深度强化学习双臂机器人控制方法及系统
Oyama et al. Inverse kinematics learning for robotic arms with fewer degrees of freedom by modular neural network systems
CN117207186A (zh) 一种基于强化学习的流水线双机械臂协同抓取方法
Ju et al. Dynamic grasp recognition using time clustering, gaussian mixture models and hidden markov models
CN112959330B (zh) 基于主从动态运动基元的机器人双臂运动人机对应装置及方法
CN116330290B (zh) 基于多智能体深度强化学习的五指灵巧机器手控制方法
Gräve et al. Learning motion skills from expert demonstrations and own experience using gaussian process regression
Palm et al. Learning of grasp behaviors for an artificial hand by time clustering and Takagi-Sugeno modeling
Saito et al. Task-grasping from human demonstration
Tu et al. Moving object flexible grasping based on deep reinforcement learning
CN114055471B (zh) 一种结合神经运动规划算法和人工势场法的机械臂在线运动规划方法
Gorce et al. Grasping posture learning with noisy sensing information for a large scale of multifingered robotic systems
CN111015676B (zh) 基于无手眼标定的抓取学习控制方法、系统、机器人及介质
Wang et al. Learning adaptive grasping from human demonstrations
Gorce et al. A method to learn hand grasping posture from noisy sensing information
Hu et al. Learn to grasp objects with dexterous robot manipulator from human demonstration
Ma et al. Continuous Estimation of Multijoint Kinematics from Surface EMG during Daily Grasping Tasks
Tascillo et al. Neural and fuzzy robotic hand control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant