CN112631128B

CN112631128B - 一种多模异构信息融合的机器人装配技能学习方法及系统

Info

Publication number: CN112631128B
Application number: CN202011366884.4A
Authority: CN
Inventors: 吴鸿敏; 程韬波; 苏乾鑫; 周雪峰; 徐智浩; 鄢武
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-04-14
Anticipated expiration: 2040-11-27
Also published as: CN112631128A

Abstract

本发明公开了一种多模异构信息融合的机器人装配技能学习方法及系统，其方法包括：对机器人进行初始化启动，采集所述机器人的各类感知信息；基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出；将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令；利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务。在本发明实施例中，通过结合多模异构信息融合方法与深度强化学习算法在机器人装配技能学习的应用，可提高机器人对复杂环境变化的感知能力与适应能力。

Description

一种多模异构信息融合的机器人装配技能学习方法及系统

技术领域

本发明涉及机器人技能学习领域，尤其涉及一种多模异构信息融合的机器人装配技能学习方法及系统。

背景技术

机器人装配技能学习是目前人工智能在机器人领域的重点与难点。由于该装配过程具有复杂动态的环境、形状各异的操作对象、物体相对状态转移频繁等特点，造成不确定性因素尤其明显，对机器人操作的灵活性和智能性提出了更高的要求。传统机器人装配作业通常是依靠人类示教再现或离线编程的方式完成，在特定场景下简单形状的部件装配工作中已经取得一定成效，然而该方法难以满足于柔性制造下环境复杂、精度要求高的装配任务，制约着机器人的应用。

近年来，随着深度学习技术的不断突破，能够为机器人提供更准确的环境感知信息，并结合强化学习形成了深度强化学习，已被广泛应用于机器人抓取、路线规划、推拉等简单操作任务，并在工业、物流等领域取得不错的表现，但是在机器人装配上依然是极具挑战性的任务。目前，为解决机器人自主装配任务这一问题，基于深度强化学习的机器人装配技能学习方法也逐渐被提出来，例如国外哈佛大学采用深度强化学习方法实现了机器人自主学习完成轴孔装配任务，但该方法只能在MUJOCO仿真环境中实现，如果要迁移到实际机器人系统还需要考虑更多的复杂环境因素，此外轴孔装配任务只用到了接触力的信息，在面对更加复杂的环境与任务时，单一的感知信息来源不足以支持机器人准确地感知环境变化以及任务复杂性。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种多模异构信息融合的机器人装配技能学习方法及系统，通过结合多模异构信息融合方法与深度强化学习算法在机器人装配技能学习的应用，可提高机器人对复杂环境变化的感知能力与适应能力。

为了解决上述问题，本发明提出了一种多模异构信息融合的机器人装配技能学习方法，所述方法包括：

对机器人进行初始化启动，采集所述机器人的各类感知信息；

基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出；

将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令；

利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务。

可选的，所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。

可选的，所述基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出包括：

从所述力矩信息中提取出最新的32个数据作为32×6的时间序列，并以2个步长为基准对所述时间序列进行五层因果卷积，输出第一特征向量；

利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像，并利用全连接层将所述RGB图像激活转换为第二特征向量；

利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量，且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息；

利用支持向量机对所述声音信息进行编码输出第四特征向量；

基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接，形成融合特征向量。

可选的，所述将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令包括：

对所述深度强化学习算法中的相关参数值进行初始化，其中所述相关参数值包括动作网络的参数值与评价网络的参数值；

将所述融合特征向量导入所述评价网络中进行参数值更新，并计算所述评价网络的当前策略梯度信息；

结合所述当前策略梯度信息对所述动作网络的损失函数进行更新，再将所述融合特征向量导入所述动作网络中进行参数值更新，以输出所述机器人的最新动作指令。

可选的，所述利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号包括：

利用所述阻抗控制器模拟出一个机械弹簧阻尼系统，并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析；

基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。

另外，本发明实施例还提供了一种多模异构信息融合的机器人装配技能学习系统，所述系统包括：

采集模块，用于对机器人进行初始化启动，采集所述机器人的各类感知信息；

融合模块，用于基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出；

训练模块，用于将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令；

控制模块，用于利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务。

可选的，所述融合模块包括：

第一特征提取单元，用于从所述力矩信息中提取出最新的32个数据作为32×6的时间序列，并以2个步长为基准对所述时间序列进行五层因果卷积，输出第一特征向量；

第二特征提取单元，用于利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像，并利用全连接层将所述RGB图像激活转换为第二特征向量；

第三特征提取单元，用于利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量，且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息；

第四特征提取单元，用于利用支持向量机对所述声音信息进行编码输出第四特征向量；

特征融合输出单元，用于基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接，形成融合特征向量。

可选的，所述训练模块用于对所述深度强化学习算法中的相关参数值进行初始化，其中所述相关参数值包括动作网络的参数值与评价网络的参数值；将所述融合特征向量导入所述评价网络中进行参数值更新，并计算所述评价网络的当前策略梯度信息；以及结合所述当前策略梯度信息对所述动作网络的损失函数进行更新，再将所述融合特征向量导入所述动作网络中进行参数值更新，以输出所述机器人的最新动作指令。

可选的，所述控制模块用于利用所述阻抗控制器模拟一个机械弹簧阻尼系统，并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析；以及基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。

在本发明实施例中，通过利用若干个传感器的联动采集以及采用多模异构信息融合方法所实现的多类数据融合处理，可提高机器人对复杂环境的感知能力；同时配合深度强化学习算法可实现机器人对装配技能策略的自主调整，可提高机器人对装配任务变化的自适应能力与泛化能力，解决机器人装配效率低下、装配难度大等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的多模异构信息融合的机器人装配技能学习方法的流程示意图；

图2是本发明实施中的机器人装配策略学习网络模型示意图；

图3是本发明实施例中的多模异构信息融合的机器人装配技能学习系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1示出了本发明实施例中的多模异构信息融合的机器人装配技能学习方法的流程示意图。

如图1所示，一种多模异构信息融合的机器人装配技能学习方法，所述方法包括如下步骤：

S101、对机器人进行初始化启动，采集所述机器人的各类感知信息，且所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息；

在本发明实施例中，由于不同的传感器可作为机器人用于感知不同方面的重要部件，通过在所述机器人的关节轴处安装六轴力矩传感器来采集所述机器人的力矩信息，通过在所述机器人的抓取部位安装Kinect V1相机来采集所述机器人的视觉信息，通过在所述机器人的末端效应器处固定安装激光跟踪仪来采集所述机器人的本体位姿信息，通过在所述机器人本体安装声音传感器来采集所述机器人的声音信息。此外，结合图2所示出的机器人装配策略学习网络模型示意图可知，所述各类感知信息均可由记忆缓冲器进行统一的临时存储。

S102、基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出；

本发明实施过程包括：(1)从所述力矩信息中提取出最新的32个数据作为32×6的时间序列，并以2个步长为基准对所述时间序列进行五层因果卷积，输出64-d格式的第一特征向量；(2)利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像，并利用全连接层将所述RGB图像激活转换为128-d格式的第二特征向量；(3)利用双隐含层多层感知器对所述本体位姿信息进行编码输出32-d格式的第三特征向量，且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息；(4)利用支持向量机对所述声音信息进行编码输出128-d格式的第四特征向量；(5)基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接，形成128-d格式的融合特征向量。

S103、将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令；

在本发明实施例中，所述深度强化学习算法为基于深度确定性策略梯度算法，结合图2所示出的机器人装配策略学习网络模型示意图可知，该算法划分为动作网络和评价网络，其中所述动作网络和所述评价网络的前两层结构均采用全连接网络层并以现有Relu函数作为激活函数，所述动作网络和所述评价网络的最后一层结构均采用Dropout层并以现有Tanh函数作为激活函数。在实施过程中，所述动作网络用于通过策略网络对所述机器人的动作策略进行更新，所述评价网络用于通过实现逼近值函数来获取所述机器人的梯度信息。具体过程包括如下：

(1)设定所述深度强化学习算法的目标函数J(θ^μ)，该目标函数J(θ^μ)为带有权重的累加装配奖励值，即：

再结合所述动作网络的确定性策略为a＝π(s|θ^μ)，以及目标函数J(θ^μ)与所述评价网络的Q值函数Q(s,a|θ^Q)关于θ^μ的梯度等价，采用随机梯度下降法对所述目标函数J(θ^μ)进行优化为：

其中，所述目标函数J(θ^μ)中所提及到的装配奖励函数可定义为：

式中，r_i为所述机器人执行第i个动作时的奖励值，h_t为t时刻装配插入的深度，h_max为目标要求的装配插入深度，F_t为t时刻在Z轴上的受力，F₀为装配成功时的受力阈值，设定在满足h_t<h_max或者F_t<F₀的条件下判定装配任务失败，即装配奖励值为-1，在同时满足h_t＝h_max以及F_t≥F₀的条件下判定装配任务成功，即装配奖励值为1，如有发生其他情况，则装配奖励值为0；θ^μ为所述动作网络参数，θ^Q为所述评价网络参数，

为期望值，γ为奖励折扣因子，π(x)为动作策略函数，s为状态量，E_s为给定状态下的期望值，s_t为t时刻下的状态量，a_t为t时刻下的动作。

(2)对所述深度强化学习算法中的相关参数值进行初始化，其中所述相关参数值包括动作网络的参数值与评价网络的参数值；

(3)将所述融合特征向量导入所述评价网络中进行参数值更新，并计算所述评价网络的当前策略梯度信息；

具体的，由于对所述评价网络参数的缓慢更新方式可增加整个学习过程的稳定性，此时可将所述评价网络参数更新为：

并计算所述评价网络的当前策略梯度信息为：

其中，

为t时刻的评价网络参数值，

为所述评价网络中Q值网络参数为θ^Q所对应的动作，δ_t为时序差分误差，

为所述评价网络中Q值网络参数为θ^Q的策略梯度，

为Q值网络参数为θ^Q时在t时刻对应的Q值，

为参数为Q^μ时所述动作网络的策略梯度，J_β(μ)表示将所述动作网络中的目标函数转换成积分形式，N为样本数量，

为动作值的梯度，μ(s_i)为生成i时刻状态所对应的动作，

为参数θ^μ时所述动作网络的策略梯度，μ(s|θ^μ)为所述动作网络中的策略网络参数为θ^μ时生成不同状态所对应的动作。

(4)结合所述当前策略梯度信息对所述动作网络的损失函数进行更新，再将所述融合特征向量导入所述动作网络中进行参数值更新，以输出所述机器人的最新动作指令。

具体的，首先定义所述动作网络的损失函数L为：

其次，利用所述当前策略梯度信息对所述损失函数L进行更新后，再将所述融合特征向量导入所述动作网络中，对所述动作网络参数更新为：

接着，在所述动作网络参数更新完毕后，由所述动作网络直接输出所述机器人的最新动作指令为：

式中，y_i为Q(s_i,a_i|θ_Q)的概率值，

为所述动作网络中Q值网络参数为θ^μ时所对应的动作，

为参数θ^μ时所述动作网络的策略梯度。

S104、利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务。

本发明实施过程包括：

(1)利用所述阻抗控制器模拟出一个机械弹簧阻尼系统，并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析；

具体的，首先所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为：

此时获取所述机器人末端执行器的相对关节坐标的两次时间导数

得到关系式为：

式中，x为末端执行器的相对关节坐标，K为阻尼矩阵，B为刚度矩阵，J为雅克比矩阵，x_des为机器人末端执行器初始坐标，

为机器人末端执行器初始速度，

为机器人末端执行器速度，

为雅克比矩阵一次导数，

为任意速度，

为任意加速度。

其次，所述阻抗控制器在接收到所述最新动作指令后，通过所述机械弹簧阻尼系统对其进行制衡与解析，获取到最合适的位姿数据。

(2)基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。

具体的，利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为：

J⁺＝J^T(JJ^T+αI)^-1

在实验中，由于计算

的代价很大，故将原有的位姿控制律μ简化为：

式中，J^T为雅克比矩阵J的转置，J⁺为末端执行器雅可比矩阵的伪逆矩阵，I为积分项，D为微分项，x(q)为末端执行器的任意坐标，α为常数，且α取值为1×10^-6，以避免增大扭矩附近的运动奇点。

(3)将简化后的位姿控制律μ′导入所述机器人的装配应用环境中，以控制所述机器人完成装配任务，与此同时将该位姿控制律μ′输入所述记忆缓冲器中作为历史数据存档。

实施例

请参阅图3，图3示出了本发明实施例中的多模异构信息融合的机器人装配技能学习系统的结构组成示意图。

如图3所示，一种多模异构信息融合的机器人装配技能学习系统，所述系统包括如下：

采集模块201，用于对机器人进行初始化启动，采集所述机器人的各类感知信息；

融合模块202，用于基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出；

在本发明实施例中，所述融合模块202包括第一特征提取单元、第二特征提取单元、第三特征提取单元、第四特征提取单元和特征融合输出单元；具体表现为：所述第一特征提取单元用于从所述力矩信息中提取出最新的32个数据作为32×6的时间序列，并以2个步长为基准对所述时间序列进行五层因果卷积，输出64-d格式的第一特征向量；所述第二特征提取单元用于利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像，并利用全连接层将所述RGB图像激活转换为128-d格式的第二特征向量；所述第三特征提取单元用于利用双隐含层多层感知器对所述本体位姿信息进行编码输出32-d格式的第三特征向量，且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息；所述第四特征提取单元用于利用支持向量机对所述声音信息进行编码输出128-d格式的第四特征向量；所述特征融合输出单元用于基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接，形成128-d格式的融合特征向量。

训练模块203，用于将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令；

并计算所述评价网络的当前策略梯度信息为：

其中，

为t时刻的评价网络参数值，

为所述评价网络中Q值网络参数为θ^Q的策略梯度，

为Q值网络参数为θ^Q时在t时刻对应的Q值，

为动作值的梯度，μ(s_i)为生成i时刻状态所对应的动作，

具体的，首先定义所述动作网络的损失函数L为：

式中，y_i为Q(s_i,a_i|θ^Q)的概率值，

为所述动作网络中Q值网络参数为θ^μ时所对应的动作，

为参数θ^μ时所述动作网络的策略梯度。

控制模块204，用于利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务。

本发明实施过程包括：

得到关系式为：

为机器人末端执行器初始速度，

为机器人末端执行器速度，

为雅克比矩阵一次导数，

为任意速度，

为任意加速度。

J⁺＝J^T(JJ^T+αI)^-1

在实验中，由于计算

的代价很大，故将原有的位姿控制律μ简化为：

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可存储于一计算机可读存储介质中，存储介质可包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上对本发明实施例所提供的一种多模异构信息融合的机器人装配技能学习方法及系统进行了详细介绍，本文中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多模异构信息融合的机器人装配技能学习方法，其特征在于，所述方法包括：

利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务；

所述利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号包括：

所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为：

此时获取所述机器人末端执行器的相对关节坐标的两次时间导数得到关系式为：

式中，x为末端执行器的相对关节坐标，K为阻尼矩阵，B为刚度矩阵，J为雅克比矩阵，x_des为机器人末端执行器初始坐标，为机器人末端执行器初始速度，为机器人末端执行器速度，为雅克比矩阵一次导数，为任意速度，为任意加速度；

其次，所述阻抗控制器在接收到所述最新动作指令后，通过所述机械弹簧阻尼系统对其进行制衡与解析，获取到最合适的位姿数据；

基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号；

利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为：

J⁺＝J^T(JJ^T+αI)^-1

在实验中，由于计算的代价很大，故将原有的位姿控制律μ简化为：

式中，J^T为雅克比矩阵J的转置，J⁺为末端执行器雅可比矩阵的伪逆矩阵，I为积分项，D为微分项，x(q)为末端执行器的任意坐标，α为常数，且α取值为1×10^-6，以避免增大扭矩附近的运动奇点；

将简化后的位姿控制律μ′导入所述机器人的装配应用环境中，以控制所述机器人完成装配任务，与此同时将该位姿控制律μ′输入记忆缓冲器中作为历史数据存档。

2.根据权利要求1所述的多模异构信息融合的机器人装配技能学习方法，其特征在于，所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。

3.根据权利要求2所述的多模异构信息融合的机器人装配技能学习方法，其特征在于，所述基于神经网络模型对所述各类感知信息进行多模异构融合处理，生成融合特征向量输出包括：

4.根据权利要求1所述的多模异构信息融合的机器人装配技能学习方法，其特征在于，所述将所述融合特征向量导入深度强化学习算法中进行训练，获取所述机器人的最新动作指令包括：

5.一种多模异构信息融合的机器人装配技能学习系统，其特征在于，所述系统包括：

控制模块，用于利用阻抗控制器对所述最新动作指令进行响应，生成位姿控制信号，并通过所述位姿控制信号控制所述机器人完成装配任务；

J⁺＝J^T(JJ^T+αI)^-1

6.根据权利要求5所述的多模异构信息融合的机器人装配技能学习系统，其特征在于，所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。

7.根据权利要求6所述的多模异构信息融合的机器人装配技能学习系统，其特征在于，所述融合模块包括：

8.根据权利要求5所述的多模异构信息融合的机器人装配技能学习系统，其特征在于，所述训练模块用于对所述深度强化学习算法中的相关参数值进行初始化，其中所述相关参数值包括动作网络的参数值与评价网络的参数值；将所述融合特征向量导入所述评价网络中进行参数值更新，并计算所述评价网络的当前策略梯度信息；以及结合所述当前策略梯度信息对所述动作网络的损失函数进行更新，再将所述融合特征向量导入所述动作网络中进行参数值更新，以输出所述机器人的最新动作指令。