CN111881772A - 基于深度强化学习的多机械臂协同装配方法和系统 - Google Patents

基于深度强化学习的多机械臂协同装配方法和系统 Download PDF

Info

Publication number
CN111881772A
CN111881772A CN202010641629.XA CN202010641629A CN111881772A CN 111881772 A CN111881772 A CN 111881772A CN 202010641629 A CN202010641629 A CN 202010641629A CN 111881772 A CN111881772 A CN 111881772A
Authority
CN
China
Prior art keywords
mechanical arm
neural network
reward
mechanical
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010641629.XA
Other languages
English (en)
Other versions
CN111881772B (zh
Inventor
乐心怡
李霏
马国财
方晓猛
李钧正
庞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Beijing Institute of Electronic System Engineering
Original Assignee
Shanghai Jiaotong University
Beijing Institute of Electronic System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Beijing Institute of Electronic System Engineering filed Critical Shanghai Jiaotong University
Priority to CN202010641629.XA priority Critical patent/CN111881772B/zh
Publication of CN111881772A publication Critical patent/CN111881772A/zh
Application granted granted Critical
Publication of CN111881772B publication Critical patent/CN111881772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1682Dual arm manipulator; Coordination of several manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了一种基于深度强化学习的多机械臂协同装配方法和系统,包括:多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。本发明直接从高维原始数据中学习,是端到端的控制模式,并且对多模态传感信号进行融合表征,充分提取关键特征信息的同时降低样本的复杂性,提高样本的有效性。

Description

基于深度强化学习的多机械臂协同装配方法和系统
技术领域
本发明涉及机械臂装配技术领域,具体地,涉及一种基于深度强化学习的多机械臂协同装配方法和系统。尤其地,涉及一种基于深度强化学习的机械臂孔轴装配方法。
背景技术
单件小批量的航空航天类产品要求生产线具备多品种、多自由度和高可靠性的个性化生产能力。多机械臂系统具有更高的负载能力和执行耦合任务的灵活性,人工神经网络具有较强的拟合非线性映射的能力。因此,将人工神经网络算法应用于多机械臂协同控制系统,有助于提高产品生产线的柔性、智能化和自适应能力,从而满足航空航天类及其类似产品的个性化生产需求。
多机械臂协同装配是非嵌入式的、高维的和依赖多源传感输入的复杂控制任务。近五年来,结合深度学习在处理数据方面的优势和强化学习在决策控制方面的优势而诞生的深度强化学习,在很多类似多机械臂协同装配的复杂任务中表现出了与人类水平接近的能力,尤其表现在使用未经处理的像素信号作为输入的许多ATARI视频游戏。因此,本发明使用深度强化学习来解决多机械臂协同装配任务的控制问题。
专利文献CN109543823A(申请号:201811454906.5)公开了一种基于多模信息描述的柔性装配系统及方法,包括:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度强化学习的多机械臂协同装配方法和系统。
根据本发明提供的基于深度强化学习的多机械臂协同装配方法,包括:
步骤1:利用多源异构传感网络从环境中采集状态信息;
步骤2:对状态信息进行特征提取,得到抽象特征;
步骤3:对抽象特征进行融合表征;
步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
优选的,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
优选的,所述步骤3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
优选的,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
优选的,所述步骤6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
根据本发明提供的基于深度强化学习的多机械臂协同装配系统,包括:
模块M1:利用多源异构传感网络从环境中采集状态信息;
模块M2:对状态信息进行特征提取,得到抽象特征;
模块M3:对抽象特征进行融合表征;
模块M4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
模块M5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
模块M6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
模块M7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
模块M8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
模块M9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
优选的,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
优选的,所述模块M3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
优选的,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
优选的,所述模块M6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明直接从高维原始数据中学习,是端到端的控制模式,并且对多模态传感信号进行融合表征,充分提取关键特征信息的同时降低样本的复杂性,提高样本的有效性;
2、本发明引入神经网络,能充分逼近复杂的非线性映射关系;
3、本发明结合了深度学习的感知能力和强化学习的决策能力,更接近人类思维方式,对未知的情况具备一定的容错决策和纠正优化能力;
4、本发明的多机械臂协同操作系统具有更高的负载能力和执行耦合任务的灵活性,配合本发明所提出的智能控制算法,使相应的生产线具备更好的柔性、智能化和自适应能力;
5、神经网络的引入使策略模型能拟合复杂非线性映射关系,使装配方案拥有局部优化和实时修正的能力。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为多机械臂协同操作系统完成孔轴装配任务示意图;
图2为孔轴装配过程的三个阶段;
图3为基于深度强化学习的多机械臂协同装配方案流程图;
图4为基于深度确定性策略梯度的装配算法框架图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
根据本发明提供的基于深度强化学习的机械臂协同装配方法,包括:机械臂、控制器、六分力传感器、深度相机和服务器;
不同的机械臂分别夹持不同的零件,包括孔和轴;
根据机械臂本体信息、六分力传感器信号和深度相机信号构成多源异构传感网络,根据多源异构传感网络感知机械臂、零件和环境(整个多机械臂协同装配系统)的本体状态和相对关系,在服务器上构建策略模型根据实时状态选择最优行为,并向控制器发送控制指令,控制各个机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
如图1所示,两个机械臂分别夹持轴与孔进行装配,假定移动过程中,机械臂末端执行器(夹爪)与轴、孔之间没有相对滑动。孔轴装配过程也可称为插孔操作,直观上可以将此过程分为如图2所示的三个阶段:机械臂夹持孔和轴相互靠近但尚未接触的接近阶段,孔和轴相互接触的寻孔阶段,经过位姿调整使得孔和轴的轴线重合后的插入阶段。在孔轴装配过程的三个阶段中,孔和轴的相对位姿关系直接影响装配效率和成功率,也就是说,孔轴装配过程可以理解为是调整各个机械臂末端位姿到给定目标的过程,进而追溯到对于机械臂控制策略的设计。
对于上述实施例的执行,主要依靠图3所示的基于深度强化学习的多机械臂协同装配方案,具体包括以下详细步骤:
步骤1:多机械臂协同操作系统利用多源异构数据传感网络从环境中采集状态信息,包括机械臂本体信息、六分力传感器信号以及来自深度相机的图像信号(包括RGB图像和深度图像)。
步骤2:对步骤1中获得的三个模态的信号进行特征提取:这里针对三个模态的信号分别设计并训练了三个编码器网络用于提取原始传感信号的特征,对高维的原始输入数据进行降维处理,该编码器使用自编码网络进行训练。具体地说,使用全连接神经网络处理机械臂本体信息和六分力传感器信号,使用类似于Resnet的卷积神经网络来处理图像信号。
步骤3:将步骤2中获得的抽象特征信息进行融合表征:设计一个表征神经网络,来自深度相机的图像信号经过特征提取后从神经网络的第一层神经元输入,机械臂本体信息和力传感器信号经过特征提取后从神经网络的倒数第二个隐藏层输入。
步骤4:将步骤3中融合表征的信号作为输入样本用于训练神经网络的参数,进而得到最优策略模型。
步骤5:步骤4中学习到的策略模型可以理解为从状态空间到动作空间的映射,动作是控制器对于机械臂的控制指令,既可以通过发送关节指令控制机械臂,也可以发送位姿指令通过机械臂逆运动学来控制机械臂。为了降低深度强化学习拟合函数的复杂性,本实施例的动作直接采用笛卡尔空间的位姿指令(在机械臂当前位姿状态下,动作增加/动作减少),逆运动学方面由人为设计。理论上,单个机械臂的动作空间的维度为6,n个机械臂组成的多机械臂操作系统的动作空间维度为n×6。
步骤6:机械臂根据步骤5的控制指令执行相应的动作,使环境发生改变,环境将发生改变后的状态和奖励反馈给机械臂用于修正步骤4中学到的策略模型。此步骤的状态设计与步骤1相同,奖励由人为设计的奖励函数得到。主要使用奖励重塑的方法,将机械臂在完成孔轴装配过程中的奖励细化,保证其在每个状态都能获得不同的奖励。奖励函数的设计原则:孔轴完全配合(即轴完全插入孔中)时的奖励值最大,越远离这个状态的奖励值逐渐减小。而这里的远离成功插孔的状态包括距离和力,距离很好理解,从力的角度来说是当孔与轴接触后,轴偏离孔时,会产生较大的接触力,也可以表示轴离正确插孔的状态较远。在实际程序中,奖励最大值为0,即奖励函数值是非正的,轴距离孔越远、相互接触力越大,则奖励值为负且越小,且奖励函数输出的绝对值应该增大。换言之,是对未完成任务的行为进行惩罚。
步骤7:将多机械臂协同操作系统完成上述步骤1到步骤6定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要与环境进行若干次交互,也就是不断重复执行步骤1到步骤6,直到满足交互终止条件。交互终止条件包括三个方面:达到最大交互次数,触发安全限制,成功完成装配。
步骤8:满足终止条件的多机械臂系统进入下一个回合,并记录该回合的奖励值总和,步骤4中的神经网络沿着最大化奖励值总和的梯度方向更新参数。
步骤9:经过若干回合的迭代训练,深度强化学习算法收敛,多机械臂能协作完成装配任务,此时得到的神经网络就是用于控制机械臂完成装配任务的最优策略模型。本发明通过图4所示的深度确定性策略梯度框架训练,寻找一组神经网络参数,使得图4所示的估计策略网络所代表的策略模型能控制机械臂成功完成孔轴装配任务。算法的具体实现细节如下:
步骤9.1:初始化估计策略网络的参数θ和估计Q网络的参数φ;
步骤9.2:将估计网络的参数复制到目标网络:φtarg←φ,θtarg←θ;
φtarg表示目标Q网络的参数;
θtarg表示目标策略网络的参数;
步骤9.3:初始化空的回放缓存区;
步骤9.4:重置机器人仿真/实体环境,并观测当前状态st
步骤9.5:执行器Actor根据当前策略选择动作at,注意,这里的动作在训练初期会被添加高斯噪声;
步骤9.6:机械臂执行动作at,返回奖励rt和新的状态st+1
步骤9.7:执行器Actor将(st,at,rt,st+1)作为一组过渡数据transition存储到回放缓存区中,形成训练估计网络的数据集;
步骤9.8:从回放缓存区中随机采样小批量数据minibatch,作为估计网络和目标网络的训练数据,大小为N,同时将minibatch中的单个transition记为(si,ai,ri,si+1);
si表示所采样的minibatch中的状态;ai表示所采样的minibatch中的动作;r表示所采样的minibatch中的奖励;si+1表示所采样的minibatch中的下一步状态;i表示所采样的minibatch中的transition计数;
步骤9.9:计算目标Q值yi,其中,γ∈[0,1]是折扣因子,μ是确定性策略函数:
Figure BDA0002571691940000071
Figure BDA0002571691940000072
表示目标Q值函数;
Figure BDA0002571691940000073
表示目标策略函数;
步骤9.10:利用梯度下降的方法更新Q网络的参数:
Figure BDA0002571691940000074
Figure BDA0002571691940000075
表示对于估计Q网络参数的梯度;N表示所采样的minibatch的大小;Qφ表示估计Q值函数;
步骤9.11:利用梯度上升的方法更新估计策略网络的参数:
Figure BDA0002571691940000081
Figure BDA0002571691940000082
表示对于估计策略网络参数的梯度;μθ表示估计策略函数;
步骤9.12:利用软目标更新的方式更新目标Q网络和目标策略网络的参数,其中,ρ是一个取值趋近于1的超参数:
φtarg←ρφtarg+(1-ρ)φ
θtarg←ρθtarg+(1-ρ)θ
步骤9.13:重复执行步骤9.5到步骤9.12,直到满足交互终止条件;
步骤9.14:重复执行步骤9.4到步骤9.13,直到算法收敛。
本发明使多机械臂协同操作系统由传统的示教模式转变为拥有类脑决策思维的智能体,从而提高工业生产线的智能化水平和自适应能力。不仅可以在机械臂孔轴装配任务中得到成功应用,也能用于自动化插孔、齿轮组装等其他任务。
实施例2:
根据本发明提供的基于深度强化学习的多机械臂协同装配系统,包括:
模块M1:利用多源异构传感网络从环境中采集状态信息;
模块M2:对状态信息进行特征提取,得到抽象特征;
模块M3:对抽象特征进行融合表征;
模块M4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
模块M5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
模块M6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
模块M7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
模块M8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
模块M9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
优选的,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
优选的,所述模块M3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
优选的,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
优选的,所述模块M6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度强化学习的多机械臂协同装配方法,其特征在于,包括:
步骤1:利用多源异构传感网络从环境中采集状态信息;
步骤2:对状态信息进行特征提取,得到抽象特征;
步骤3:对抽象特征进行融合表征;
步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
2.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
3.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
4.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
5.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
6.一种基于深度强化学习的多机械臂协同装配系统,其特征在于,包括:
模块M1:利用多源异构传感网络从环境中采集状态信息;
模块M2:对状态信息进行特征提取,得到抽象特征;
模块M3:对抽象特征进行融合表征;
模块M4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
模块M5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
模块M6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
模块M7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
模块M8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
模块M9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
7.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统,其特征在于,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
8.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统,其特征在于,所述模块M3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
9.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统,其特征在于,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
10.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统,其特征在于,所述模块M6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
CN202010641629.XA 2020-07-06 2020-07-06 基于深度强化学习的多机械臂协同装配方法和系统 Active CN111881772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010641629.XA CN111881772B (zh) 2020-07-06 2020-07-06 基于深度强化学习的多机械臂协同装配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010641629.XA CN111881772B (zh) 2020-07-06 2020-07-06 基于深度强化学习的多机械臂协同装配方法和系统

Publications (2)

Publication Number Publication Date
CN111881772A true CN111881772A (zh) 2020-11-03
CN111881772B CN111881772B (zh) 2023-11-07

Family

ID=73150246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010641629.XA Active CN111881772B (zh) 2020-07-06 2020-07-06 基于深度强化学习的多机械臂协同装配方法和系统

Country Status (1)

Country Link
CN (1) CN111881772B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434464A (zh) * 2020-11-09 2021-03-02 中国船舶重工集团公司第七一六研究所 基于maddpg强化学习算法的船舶多机械臂弧焊协同焊接方法
CN112965372A (zh) * 2021-02-01 2021-06-15 中国科学院自动化研究所 基于强化学习的微零件精密装配方法、装置和系统
CN112975977A (zh) * 2021-03-05 2021-06-18 西北大学 一种高效的机械臂抓取深度强化学习奖励训练方法及系统
CN113344332A (zh) * 2021-05-10 2021-09-03 山东师范大学 一种带运输过程和机器状态的车间调度方法及系统
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN113472430A (zh) * 2021-07-30 2021-10-01 中国电子科技集团公司第五十四研究所 一种星间路由多路径组合优化方法
CN113878588A (zh) * 2021-11-12 2022-01-04 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法
CN114102579A (zh) * 2021-10-15 2022-03-01 佛山智能装备技术研究院 一种基于圆锥运动的轴孔力控装配搜孔方法及系统
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114789443A (zh) * 2022-04-29 2022-07-26 广东工业大学 一种基于多源信息深度强化学习的机械臂控制方法及系统
CN114918651A (zh) * 2022-06-23 2022-08-19 清华大学 一种任务条件自适应机器人轴孔装配方法及装置
CN115070767A (zh) * 2022-07-04 2022-09-20 中国科学院沈阳自动化研究所 一种基于Actor Critic的动态装配方法
CN115648213A (zh) * 2022-10-31 2023-01-31 北京精密机电控制设备研究所 一种适用于非结构化环境的机械臂自主装配方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107053179A (zh) * 2017-04-21 2017-08-18 哈尔滨思哲睿智能医疗设备有限公司 一种基于模糊强化学习的机械臂柔顺力控制方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108297083A (zh) * 2018-02-09 2018-07-20 中国科学院电子学研究所 机械臂系统
CN109543823A (zh) * 2018-11-30 2019-03-29 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN109591013A (zh) * 2018-12-12 2019-04-09 山东大学 一种柔性装配仿真系统及其实现方法
CN110253577A (zh) * 2019-06-19 2019-09-20 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107053179A (zh) * 2017-04-21 2017-08-18 哈尔滨思哲睿智能医疗设备有限公司 一种基于模糊强化学习的机械臂柔顺力控制方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108297083A (zh) * 2018-02-09 2018-07-20 中国科学院电子学研究所 机械臂系统
CN109543823A (zh) * 2018-11-30 2019-03-29 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN109591013A (zh) * 2018-12-12 2019-04-09 山东大学 一种柔性装配仿真系统及其实现方法
CN110253577A (zh) * 2019-06-19 2019-09-20 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫冬;陈盛;彭国政;谈元鹏;张玉天;吴凯;: "基于层次深度强化学习的带电作业机械臂控制技术", 高电压技术, no. 02 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434464A (zh) * 2020-11-09 2021-03-02 中国船舶重工集团公司第七一六研究所 基于maddpg强化学习算法的船舶多机械臂弧焊协同焊接方法
CN112434464B (zh) * 2020-11-09 2021-09-10 中国船舶重工集团公司第七一六研究所 基于maddpg算法的船舶多机械臂弧焊协同焊接方法
CN112965372A (zh) * 2021-02-01 2021-06-15 中国科学院自动化研究所 基于强化学习的微零件精密装配方法、装置和系统
CN112975977A (zh) * 2021-03-05 2021-06-18 西北大学 一种高效的机械臂抓取深度强化学习奖励训练方法及系统
CN113344332A (zh) * 2021-05-10 2021-09-03 山东师范大学 一种带运输过程和机器状态的车间调度方法及系统
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN113472430A (zh) * 2021-07-30 2021-10-01 中国电子科技集团公司第五十四研究所 一种星间路由多路径组合优化方法
CN114102579A (zh) * 2021-10-15 2022-03-01 佛山智能装备技术研究院 一种基于圆锥运动的轴孔力控装配搜孔方法及系统
CN114102579B (zh) * 2021-10-15 2024-05-17 佛山智能装备技术研究院 一种基于圆锥运动的轴孔力控装配搜孔方法及系统
CN113878588A (zh) * 2021-11-12 2022-01-04 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法
CN114527666A (zh) * 2022-03-09 2022-05-24 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114527666B (zh) * 2022-03-09 2023-08-11 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN114789443A (zh) * 2022-04-29 2022-07-26 广东工业大学 一种基于多源信息深度强化学习的机械臂控制方法及系统
CN114789443B (zh) * 2022-04-29 2024-02-23 广东工业大学 一种基于多源信息深度强化学习的机械臂控制方法及系统
CN114918651A (zh) * 2022-06-23 2022-08-19 清华大学 一种任务条件自适应机器人轴孔装配方法及装置
CN114918651B (zh) * 2022-06-23 2023-08-08 清华大学 一种任务条件自适应机器人轴孔装配方法及装置
CN115070767A (zh) * 2022-07-04 2022-09-20 中国科学院沈阳自动化研究所 一种基于Actor Critic的动态装配方法
CN115648213A (zh) * 2022-10-31 2023-01-31 北京精密机电控制设备研究所 一种适用于非结构化环境的机械臂自主装配方法和系统

Also Published As

Publication number Publication date
CN111881772B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN111881772B (zh) 基于深度强化学习的多机械臂协同装配方法和系统
Sadeghi et al. Sim2real viewpoint invariant visual servoing by recurrent control
Breyer et al. Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning
Van Baar et al. Sim-to-real transfer learning using robustified controllers in robotic tasks involving complex dynamics
Ito et al. Dynamic and interactive generation of object handling behaviors by a small humanoid robot using a dynamic neural network model
Yan et al. Sim-to-real transfer of accurate grasping with eye-in-hand observations and continuous control
Rahmatizadeh et al. From virtual demonstration to real-world manipulation using LSTM and MDN
CN109397285B (zh) 一种装配方法、装配装置及装配设备
Ma et al. Efficient insertion control for precision assembly based on demonstration learning and reinforcement learning
CN113043275B (zh) 基于专家演示和强化学习的微零件装配方法
Fu et al. Active learning-based grasp for accurate industrial manipulation
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
Song et al. Skill learning for robotic assembly based on visual perspectives and force sensing
CN110253577A (zh) 基于机器人操作技能获得的弱刚度零部件装配系统及方法
Rana et al. Learning generalizable robot skills from demonstrations in cluttered environments
CN114789454A (zh) 基于lstm和逆运动学的机器人数字孪生轨迹补全方法
Zhang et al. A residual reinforcement learning method for robotic assembly using visual and force information
Bogunowicz et al. Sim2real for peg-hole insertion with eye-in-hand camera
CN112975968B (zh) 基于第三视角可变主体演示视频的机械臂模仿学习方法
CN114571456A (zh) 基于机器人技能学习的电连接器装配方法及系统
Suzuki et al. Deep predictive learning: Motion learning concept inspired by cognitive robotics
CN117798919A (zh) 一种基于动态交互表征的灵巧机械手抓取方法
Li et al. Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
Xiao et al. One-shot sim-to-real transfer policy for robotic assembly via reinforcement learning with visual demonstration
CN111496794B (zh) 一种基于仿真工业机器人的运动学自抓取学习方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant