CN111881772A

CN111881772A - 基于深度强化学习的多机械臂协同装配方法和系统

Info

Publication number: CN111881772A
Application number: CN202010641629.XA
Authority: CN
Inventors: 乐心怡; 李霏; 马国财; 方晓猛; 李钧正; 庞栋
Original assignee: Shanghai Jiaotong University; Beijing Institute of Electronic System Engineering
Current assignee: Shanghai Jiaotong University; Beijing Institute of Electronic System Engineering
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-03
Anticipated expiration: 2040-07-06
Also published as: CN111881772B

Abstract

本发明提供了一种基于深度强化学习的多机械臂协同装配方法和系统，包括：多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成，所述多源异构传感网络感知机械臂、零件和环境的状态信息，在服务器上构建策略模型，根据实时状态选择最优行为，并向控制器发送控制指令，控制各机械臂相互靠近、调整位姿以及定位装配，实现最大化奖励，完成智能化装配。本发明直接从高维原始数据中学习，是端到端的控制模式，并且对多模态传感信号进行融合表征，充分提取关键特征信息的同时降低样本的复杂性，提高样本的有效性。

Description

基于深度强化学习的多机械臂协同装配方法和系统

技术领域

本发明涉及机械臂装配技术领域，具体地，涉及一种基于深度强化学习的多机械臂协同装配方法和系统。尤其地，涉及一种基于深度强化学习的机械臂孔轴装配方法。

背景技术

单件小批量的航空航天类产品要求生产线具备多品种、多自由度和高可靠性的个性化生产能力。多机械臂系统具有更高的负载能力和执行耦合任务的灵活性，人工神经网络具有较强的拟合非线性映射的能力。因此，将人工神经网络算法应用于多机械臂协同控制系统，有助于提高产品生产线的柔性、智能化和自适应能力，从而满足航空航天类及其类似产品的个性化生产需求。

多机械臂协同装配是非嵌入式的、高维的和依赖多源传感输入的复杂控制任务。近五年来，结合深度学习在处理数据方面的优势和强化学习在决策控制方面的优势而诞生的深度强化学习，在很多类似多机械臂协同装配的复杂任务中表现出了与人类水平接近的能力，尤其表现在使用未经处理的像素信号作为输入的许多ATARI视频游戏。因此，本发明使用深度强化学习来解决多机械臂协同装配任务的控制问题。

专利文献CN109543823A(申请号：201811454906.5)公开了一种基于多模信息描述的柔性装配系统及方法，包括：在机械臂末端零部件与待装配零部件未接触阶段，通过视觉引导将机械臂快速定位在目标位置附近，实现视觉引导粗定位；当机械臂末端零部件与待装配零部件接触后，借助力觉信息和机械臂自身的参数，形成装配状态的多模信息描述，基于深度强化学习方法进行姿态调整，实现装配零部件的力觉调姿精装配。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度强化学习的多机械臂协同装配方法和系统。

根据本发明提供的基于深度强化学习的多机械臂协同装配方法，包括：

步骤1：利用多源异构传感网络从环境中采集状态信息；

步骤2：对状态信息进行特征提取，得到抽象特征；

步骤3：对抽象特征进行融合表征；

步骤4：将融合表征后的抽象特征作为神经网络的输入参数进行训练，得到策略模型；

步骤5：策略模型为从状态空间到动作空间的映射，根据输入的状态输出控制机械臂的控制指令；

步骤6：根据控制指令，机械臂执行相应的动作后环境改变，将新的状态信息和奖励值反馈给机械臂用于修正策略模型；

步骤7：修正一次策略模型的行为定义为一次交互，并将机械臂完成一次装配任务定义为一个回合，机械臂在一个回合中需要进行多次交互，直到满足终止条件；

步骤8：满足终止条件后进入下一个回合，并记录上一个回合的奖励值总和，神经网络沿着最大化奖励值总和的梯度方向更新参数；

步骤9：进行多个回合的迭代训练，深度确定性策略梯度算法收敛，多机械臂协同装配任务完成，得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型；

所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成，所述多源异构传感网络感知机械臂、零件和环境的状态信息，在服务器上构建策略模型，根据实时状态选择最优行为，并向控制器发送控制指令，控制各机械臂相互靠近、调整位姿以及定位装配，实现最大化奖励，完成智能化装配。

优选的，机械臂、六分力传感器和深度相机的传感数据是原始高维信号；

所述深度相机信号包括RGB图像和深度图像；

机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取，深度相机的图像信号依靠卷积神经网络进行特征提取；

全连接神经网络和卷神经网络利用自编码器框架进行训练，收敛后进行特征提取。

优选的，所述步骤3包括：构建表征神经网络，深度相机信号经过特征提取后，从表征神经网络的第一层神经元输入；机械臂本体信息和六分力传感器信号经过特征提取后，从表征神经网络的倒数第二个隐藏层输入。

优选的，使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练；

策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。

优选的，所述步骤6包括：使用奖励重塑的方法，将机械臂在完成装配过程中的奖励细化，在每个状态都获得不同的奖励值，针对不同的装配使用相同的奖励函数。

根据本发明提供的基于深度强化学习的多机械臂协同装配系统，包括：

模块M1：利用多源异构传感网络从环境中采集状态信息；

模块M2：对状态信息进行特征提取，得到抽象特征；

模块M3：对抽象特征进行融合表征；

模块M4：将融合表征后的抽象特征作为神经网络的输入参数进行训练，得到策略模型；

模块M5：策略模型为从状态空间到动作空间的映射，根据输入的状态输出控制机械臂的控制指令；

模块M6：根据控制指令，机械臂执行相应的动作后环境改变，将新的状态信息和奖励值反馈给机械臂用于修正策略模型；

模块M7：修正一次策略模型的行为定义为一次交互，并将机械臂完成一次装配任务定义为一个回合，机械臂在一个回合中需要进行多次交互，直到满足终止条件；

模块M8：满足终止条件后进入下一个回合，并记录上一个回合的奖励值总和，神经网络沿着最大化奖励值总和的梯度方向更新参数；

模块M9：进行多个回合的迭代训练，深度确定性策略梯度算法收敛，多机械臂协同装配任务完成，得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型；

所述深度相机信号包括RGB图像和深度图像；

优选的，所述模块M3包括：构建表征神经网络，深度相机信号经过特征提取后，从表征神经网络的第一层神经元输入；机械臂本体信息和六分力传感器信号经过特征提取后，从表征神经网络的倒数第二个隐藏层输入。

优选的，所述模块M6包括：使用奖励重塑的方法，将机械臂在完成装配过程中的奖励细化，在每个状态都获得不同的奖励值，针对不同的装配使用相同的奖励函数。

与现有技术相比，本发明具有如下的有益效果：

1、本发明直接从高维原始数据中学习，是端到端的控制模式，并且对多模态传感信号进行融合表征，充分提取关键特征信息的同时降低样本的复杂性，提高样本的有效性；

2、本发明引入神经网络，能充分逼近复杂的非线性映射关系；

3、本发明结合了深度学习的感知能力和强化学习的决策能力，更接近人类思维方式，对未知的情况具备一定的容错决策和纠正优化能力；

4、本发明的多机械臂协同操作系统具有更高的负载能力和执行耦合任务的灵活性，配合本发明所提出的智能控制算法，使相应的生产线具备更好的柔性、智能化和自适应能力；

5、神经网络的引入使策略模型能拟合复杂非线性映射关系，使装配方案拥有局部优化和实时修正的能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为多机械臂协同操作系统完成孔轴装配任务示意图；

图2为孔轴装配过程的三个阶段；

图3为基于深度强化学习的多机械臂协同装配方案流程图；

图4为基于深度确定性策略梯度的装配算法框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的基于深度强化学习的机械臂协同装配方法，包括：机械臂、控制器、六分力传感器、深度相机和服务器；

不同的机械臂分别夹持不同的零件，包括孔和轴；

根据机械臂本体信息、六分力传感器信号和深度相机信号构成多源异构传感网络，根据多源异构传感网络感知机械臂、零件和环境(整个多机械臂协同装配系统)的本体状态和相对关系，在服务器上构建策略模型根据实时状态选择最优行为，并向控制器发送控制指令，控制各个机械臂相互靠近、调整位姿以及定位装配，实现最大化奖励，完成智能化装配。

如图1所示，两个机械臂分别夹持轴与孔进行装配，假定移动过程中，机械臂末端执行器(夹爪)与轴、孔之间没有相对滑动。孔轴装配过程也可称为插孔操作，直观上可以将此过程分为如图2所示的三个阶段：机械臂夹持孔和轴相互靠近但尚未接触的接近阶段，孔和轴相互接触的寻孔阶段，经过位姿调整使得孔和轴的轴线重合后的插入阶段。在孔轴装配过程的三个阶段中，孔和轴的相对位姿关系直接影响装配效率和成功率，也就是说，孔轴装配过程可以理解为是调整各个机械臂末端位姿到给定目标的过程，进而追溯到对于机械臂控制策略的设计。

对于上述实施例的执行，主要依靠图3所示的基于深度强化学习的多机械臂协同装配方案，具体包括以下详细步骤：

步骤1：多机械臂协同操作系统利用多源异构数据传感网络从环境中采集状态信息，包括机械臂本体信息、六分力传感器信号以及来自深度相机的图像信号(包括RGB图像和深度图像)。

步骤2：对步骤1中获得的三个模态的信号进行特征提取：这里针对三个模态的信号分别设计并训练了三个编码器网络用于提取原始传感信号的特征，对高维的原始输入数据进行降维处理，该编码器使用自编码网络进行训练。具体地说，使用全连接神经网络处理机械臂本体信息和六分力传感器信号，使用类似于Resnet的卷积神经网络来处理图像信号。

步骤3：将步骤2中获得的抽象特征信息进行融合表征：设计一个表征神经网络，来自深度相机的图像信号经过特征提取后从神经网络的第一层神经元输入，机械臂本体信息和力传感器信号经过特征提取后从神经网络的倒数第二个隐藏层输入。

步骤4：将步骤3中融合表征的信号作为输入样本用于训练神经网络的参数，进而得到最优策略模型。

步骤5：步骤4中学习到的策略模型可以理解为从状态空间到动作空间的映射，动作是控制器对于机械臂的控制指令，既可以通过发送关节指令控制机械臂，也可以发送位姿指令通过机械臂逆运动学来控制机械臂。为了降低深度强化学习拟合函数的复杂性，本实施例的动作直接采用笛卡尔空间的位姿指令(在机械臂当前位姿状态下，动作增加/动作减少)，逆运动学方面由人为设计。理论上，单个机械臂的动作空间的维度为6，n个机械臂组成的多机械臂操作系统的动作空间维度为n×6。

步骤6：机械臂根据步骤5的控制指令执行相应的动作，使环境发生改变，环境将发生改变后的状态和奖励反馈给机械臂用于修正步骤4中学到的策略模型。此步骤的状态设计与步骤1相同，奖励由人为设计的奖励函数得到。主要使用奖励重塑的方法，将机械臂在完成孔轴装配过程中的奖励细化，保证其在每个状态都能获得不同的奖励。奖励函数的设计原则：孔轴完全配合(即轴完全插入孔中)时的奖励值最大，越远离这个状态的奖励值逐渐减小。而这里的远离成功插孔的状态包括距离和力，距离很好理解，从力的角度来说是当孔与轴接触后，轴偏离孔时，会产生较大的接触力，也可以表示轴离正确插孔的状态较远。在实际程序中，奖励最大值为0，即奖励函数值是非正的，轴距离孔越远、相互接触力越大，则奖励值为负且越小，且奖励函数输出的绝对值应该增大。换言之，是对未完成任务的行为进行惩罚。

步骤7：将多机械臂协同操作系统完成上述步骤1到步骤6定义为一次交互，并将机械臂完成一次装配任务定义为一个回合，机械臂在一个回合中需要与环境进行若干次交互，也就是不断重复执行步骤1到步骤6，直到满足交互终止条件。交互终止条件包括三个方面：达到最大交互次数，触发安全限制，成功完成装配。

步骤8：满足终止条件的多机械臂系统进入下一个回合，并记录该回合的奖励值总和，步骤4中的神经网络沿着最大化奖励值总和的梯度方向更新参数。

步骤9：经过若干回合的迭代训练，深度强化学习算法收敛，多机械臂能协作完成装配任务，此时得到的神经网络就是用于控制机械臂完成装配任务的最优策略模型。本发明通过图4所示的深度确定性策略梯度框架训练，寻找一组神经网络参数，使得图4所示的估计策略网络所代表的策略模型能控制机械臂成功完成孔轴装配任务。算法的具体实现细节如下：

步骤9.1：初始化估计策略网络的参数θ和估计Q网络的参数φ；

步骤9.2：将估计网络的参数复制到目标网络：φ_targ←φ,θ_targ←θ；

φ_targ表示目标Q网络的参数；

θ_targ表示目标策略网络的参数；

步骤9.3：初始化空的回放缓存区；

步骤9.4：重置机器人仿真/实体环境，并观测当前状态s_t；

步骤9.5：执行器Actor根据当前策略选择动作a_t，注意，这里的动作在训练初期会被添加高斯噪声；

步骤9.6：机械臂执行动作a_t，返回奖励r_t和新的状态s_t+1；

步骤9.7：执行器Actor将(s_t,a_t,r_t,s_t+1)作为一组过渡数据transition存储到回放缓存区中，形成训练估计网络的数据集；

步骤9.8：从回放缓存区中随机采样小批量数据minibatch，作为估计网络和目标网络的训练数据，大小为N，同时将minibatch中的单个transition记为(s_i,a_i,r_i,s_i+1)；

s_i表示所采样的minibatch中的状态；a_i表示所采样的minibatch中的动作；r表示所采样的minibatch中的奖励；s_i+1表示所采样的minibatch中的下一步状态；i表示所采样的minibatch中的transition计数；

步骤9.9：计算目标Q值y_i，其中，γ∈[0,1]是折扣因子，μ是确定性策略函数：

表示目标Q值函数；

表示目标策略函数；

步骤9.10：利用梯度下降的方法更新Q网络的参数：

表示对于估计Q网络参数的梯度；N表示所采样的minibatch的大小；Q_φ表示估计Q值函数；

步骤9.11：利用梯度上升的方法更新估计策略网络的参数：

表示对于估计策略网络参数的梯度；μ_θ表示估计策略函数；

步骤9.12：利用软目标更新的方式更新目标Q网络和目标策略网络的参数，其中，ρ是一个取值趋近于1的超参数：

φ_targ←ρφ_targ+(1-ρ)φ

θ_targ←ρθ_targ+(1-ρ)θ

步骤9.13：重复执行步骤9.5到步骤9.12，直到满足交互终止条件；

步骤9.14：重复执行步骤9.4到步骤9.13，直到算法收敛。

本发明使多机械臂协同操作系统由传统的示教模式转变为拥有类脑决策思维的智能体，从而提高工业生产线的智能化水平和自适应能力。不仅可以在机械臂孔轴装配任务中得到成功应用，也能用于自动化插孔、齿轮组装等其他任务。

实施例2：

模块M1：利用多源异构传感网络从环境中采集状态信息；

模块M2：对状态信息进行特征提取，得到抽象特征；

模块M3：对抽象特征进行融合表征；

所述深度相机信号包括RGB图像和深度图像；

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于深度强化学习的多机械臂协同装配方法，其特征在于，包括：

步骤1：利用多源异构传感网络从环境中采集状态信息；

步骤2：对状态信息进行特征提取，得到抽象特征；

步骤3：对抽象特征进行融合表征；

2.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法，其特征在于，机械臂、六分力传感器和深度相机的传感数据是原始高维信号；

所述深度相机信号包括RGB图像和深度图像；

3.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法，其特征在于，所述步骤3包括：构建表征神经网络，深度相机信号经过特征提取后，从表征神经网络的第一层神经元输入；机械臂本体信息和六分力传感器信号经过特征提取后，从表征神经网络的倒数第二个隐藏层输入。

4.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法，其特征在于，使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练；

5.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法，其特征在于，所述步骤6包括：使用奖励重塑的方法，将机械臂在完成装配过程中的奖励细化，在每个状态都获得不同的奖励值，针对不同的装配使用相同的奖励函数。

6.一种基于深度强化学习的多机械臂协同装配系统，其特征在于，包括：

模块M1：利用多源异构传感网络从环境中采集状态信息；

模块M2：对状态信息进行特征提取，得到抽象特征；

模块M3：对抽象特征进行融合表征；

7.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统，其特征在于，机械臂、六分力传感器和深度相机的传感数据是原始高维信号；

所述深度相机信号包括RGB图像和深度图像；

8.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统，其特征在于，所述模块M3包括：构建表征神经网络，深度相机信号经过特征提取后，从表征神经网络的第一层神经元输入；机械臂本体信息和六分力传感器信号经过特征提取后，从表征神经网络的倒数第二个隐藏层输入。

9.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统，其特征在于，使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练；

10.根据权利要求6所述的基于深度强化学习的多机械臂协同装配系统，其特征在于，所述模块M6包括：使用奖励重塑的方法，将机械臂在完成装配过程中的奖励细化，在每个状态都获得不同的奖励值，针对不同的装配使用相同的奖励函数。