CN112631128B - 一种多模异构信息融合的机器人装配技能学习方法及系统 - Google Patents

一种多模异构信息融合的机器人装配技能学习方法及系统 Download PDF

Info

Publication number
CN112631128B
CN112631128B CN202011366884.4A CN202011366884A CN112631128B CN 112631128 B CN112631128 B CN 112631128B CN 202011366884 A CN202011366884 A CN 202011366884A CN 112631128 B CN112631128 B CN 112631128B
Authority
CN
China
Prior art keywords
robot
information
feature vector
fusion
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011366884.4A
Other languages
English (en)
Other versions
CN112631128A (zh
Inventor
吴鸿敏
程韬波
苏乾鑫
周雪峰
徐智浩
鄢武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Original Assignee
Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Intelligent Manufacturing of Guangdong Academy of Sciences filed Critical Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority to CN202011366884.4A priority Critical patent/CN112631128B/zh
Publication of CN112631128A publication Critical patent/CN112631128A/zh
Application granted granted Critical
Publication of CN112631128B publication Critical patent/CN112631128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种多模异构信息融合的机器人装配技能学习方法及系统,其方法包括:对机器人进行初始化启动,采集所述机器人的各类感知信息;基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务。在本发明实施例中,通过结合多模异构信息融合方法与深度强化学习算法在机器人装配技能学习的应用,可提高机器人对复杂环境变化的感知能力与适应能力。

Description

一种多模异构信息融合的机器人装配技能学习方法及系统
技术领域
本发明涉及机器人技能学习领域,尤其涉及一种多模异构信息融合的机器人装配技能学习方法及系统。
背景技术
机器人装配技能学习是目前人工智能在机器人领域的重点与难点。由于该装配过程具有复杂动态的环境、形状各异的操作对象、物体相对状态转移频繁等特点,造成不确定性因素尤其明显,对机器人操作的灵活性和智能性提出了更高的要求。传统机器人装配作业通常是依靠人类示教再现或离线编程的方式完成,在特定场景下简单形状的部件装配工作中已经取得一定成效,然而该方法难以满足于柔性制造下环境复杂、精度要求高的装配任务,制约着机器人的应用。
近年来,随着深度学习技术的不断突破,能够为机器人提供更准确的环境感知信息,并结合强化学习形成了深度强化学习,已被广泛应用于机器人抓取、路线规划、推拉等简单操作任务,并在工业、物流等领域取得不错的表现,但是在机器人装配上依然是极具挑战性的任务。目前,为解决机器人自主装配任务这一问题,基于深度强化学习的机器人装配技能学习方法也逐渐被提出来,例如国外哈佛大学采用深度强化学习方法实现了机器人自主学习完成轴孔装配任务,但该方法只能在MUJOCO仿真环境中实现,如果要迁移到实际机器人系统还需要考虑更多的复杂环境因素,此外轴孔装配任务只用到了接触力的信息,在面对更加复杂的环境与任务时,单一的感知信息来源不足以支持机器人准确地感知环境变化以及任务复杂性。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种多模异构信息融合的机器人装配技能学习方法及系统,通过结合多模异构信息融合方法与深度强化学习算法在机器人装配技能学习的应用,可提高机器人对复杂环境变化的感知能力与适应能力。
为了解决上述问题,本发明提出了一种多模异构信息融合的机器人装配技能学习方法,所述方法包括:
对机器人进行初始化启动,采集所述机器人的各类感知信息;
基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务。
可选的,所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。
可选的,所述基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出包括:
从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出第一特征向量;
利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为第二特征向量;
利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;
利用支持向量机对所述声音信息进行编码输出第四特征向量;
基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成融合特征向量。
可选的,所述将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令包括:
对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;
将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;
结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
可选的,所述利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号包括:
利用所述阻抗控制器模拟出一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;
基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。
另外,本发明实施例还提供了一种多模异构信息融合的机器人装配技能学习系统,所述系统包括:
采集模块,用于对机器人进行初始化启动,采集所述机器人的各类感知信息;
融合模块,用于基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
训练模块,用于将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
控制模块,用于利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务。
可选的,所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。
可选的,所述融合模块包括:
第一特征提取单元,用于从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出第一特征向量;
第二特征提取单元,用于利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为第二特征向量;
第三特征提取单元,用于利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;
第四特征提取单元,用于利用支持向量机对所述声音信息进行编码输出第四特征向量;
特征融合输出单元,用于基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成融合特征向量。
可选的,所述训练模块用于对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;以及结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
可选的,所述控制模块用于利用所述阻抗控制器模拟一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;以及基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。
在本发明实施例中,通过利用若干个传感器的联动采集以及采用多模异构信息融合方法所实现的多类数据融合处理,可提高机器人对复杂环境的感知能力;同时配合深度强化学习算法可实现机器人对装配技能策略的自主调整,可提高机器人对装配任务变化的自适应能力与泛化能力,解决机器人装配效率低下、装配难度大等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的多模异构信息融合的机器人装配技能学习方法的流程示意图;
图2是本发明实施中的机器人装配策略学习网络模型示意图;
图3是本发明实施例中的多模异构信息融合的机器人装配技能学习系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1示出了本发明实施例中的多模异构信息融合的机器人装配技能学习方法的流程示意图。
如图1所示,一种多模异构信息融合的机器人装配技能学习方法,所述方法包括如下步骤:
S101、对机器人进行初始化启动,采集所述机器人的各类感知信息,且所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息;
在本发明实施例中,由于不同的传感器可作为机器人用于感知不同方面的重要部件,通过在所述机器人的关节轴处安装六轴力矩传感器来采集所述机器人的力矩信息,通过在所述机器人的抓取部位安装Kinect V1相机来采集所述机器人的视觉信息,通过在所述机器人的末端效应器处固定安装激光跟踪仪来采集所述机器人的本体位姿信息,通过在所述机器人本体安装声音传感器来采集所述机器人的声音信息。此外,结合图2所示出的机器人装配策略学习网络模型示意图可知,所述各类感知信息均可由记忆缓冲器进行统一的临时存储。
S102、基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
本发明实施过程包括:(1)从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出64-d格式的第一特征向量;(2)利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为128-d格式的第二特征向量;(3)利用双隐含层多层感知器对所述本体位姿信息进行编码输出32-d格式的第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;(4)利用支持向量机对所述声音信息进行编码输出128-d格式的第四特征向量;(5)基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成128-d格式的融合特征向量。
S103、将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
在本发明实施例中,所述深度强化学习算法为基于深度确定性策略梯度算法,结合图2所示出的机器人装配策略学习网络模型示意图可知,该算法划分为动作网络和评价网络,其中所述动作网络和所述评价网络的前两层结构均采用全连接网络层并以现有Relu函数作为激活函数,所述动作网络和所述评价网络的最后一层结构均采用Dropout层并以现有Tanh函数作为激活函数。在实施过程中,所述动作网络用于通过策略网络对所述机器人的动作策略进行更新,所述评价网络用于通过实现逼近值函数来获取所述机器人的梯度信息。具体过程包括如下:
(1)设定所述深度强化学习算法的目标函数J(θμ),该目标函数J(θμ)为带有权重的累加装配奖励值,即:
Figure BDA0002802727320000061
再结合所述动作网络的确定性策略为a=π(s|θμ),以及目标函数J(θμ)与所述评价网络的Q值函数Q(s,a|θQ)关于θμ的梯度等价,采用随机梯度下降法对所述目标函数J(θμ)进行优化为:
Figure BDA0002802727320000062
其中,所述目标函数J(θμ)中所提及到的装配奖励函数可定义为:
Figure BDA0002802727320000071
式中,ri为所述机器人执行第i个动作时的奖励值,ht为t时刻装配插入的深度,hmax为目标要求的装配插入深度,Ft为t时刻在Z轴上的受力,F0为装配成功时的受力阈值,设定在满足ht<hmax或者Ft<F0的条件下判定装配任务失败,即装配奖励值为-1,在同时满足ht=hmax以及Ft≥F0的条件下判定装配任务成功,即装配奖励值为1,如有发生其他情况,则装配奖励值为0;θμ为所述动作网络参数,θQ为所述评价网络参数,
Figure BDA0002802727320000072
为期望值,γ为奖励折扣因子,π(x)为动作策略函数,s为状态量,Es为给定状态下的期望值,st为t时刻下的状态量,at为t时刻下的动作。
(2)对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;
(3)将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;
具体的,由于对所述评价网络参数的缓慢更新方式可增加整个学习过程的稳定性,此时可将所述评价网络参数更新为:
Figure BDA0002802727320000073
并计算所述评价网络的当前策略梯度信息为:
Figure BDA0002802727320000074
其中,
Figure BDA0002802727320000075
为t时刻的评价网络参数值,
Figure BDA0002802727320000076
为所述评价网络中Q值网络参数为θQ所对应的动作,δt为时序差分误差,
Figure BDA0002802727320000077
为所述评价网络中Q值网络参数为θQ的策略梯度,
Figure BDA0002802727320000078
为Q值网络参数为θQ时在t时刻对应的Q值,
Figure BDA0002802727320000079
为参数为Qμ时所述动作网络的策略梯度,Jβ(μ)表示将所述动作网络中的目标函数转换成积分形式,N为样本数量,
Figure BDA00028027273200000710
为动作值的梯度,μ(si)为生成i时刻状态所对应的动作,
Figure BDA00028027273200000711
为参数θμ时所述动作网络的策略梯度,μ(s|θμ)为所述动作网络中的策略网络参数为θμ时生成不同状态所对应的动作。
(4)结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
具体的,首先定义所述动作网络的损失函数L为:
Figure BDA0002802727320000081
其次,利用所述当前策略梯度信息对所述损失函数L进行更新后,再将所述融合特征向量导入所述动作网络中,对所述动作网络参数更新为:
Figure BDA0002802727320000082
接着,在所述动作网络参数更新完毕后,由所述动作网络直接输出所述机器人的最新动作指令为:
Figure BDA0002802727320000083
式中,yi为Q(si,aiQ)的概率值,
Figure BDA0002802727320000084
为所述动作网络中Q值网络参数为θμ时所对应的动作,
Figure BDA0002802727320000085
为参数θμ时所述动作网络的策略梯度。
S104、利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务。
本发明实施过程包括:
(1)利用所述阻抗控制器模拟出一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;
具体的,首先所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为:
Figure BDA0002802727320000086
此时获取所述机器人末端执行器的相对关节坐标的两次时间导数
Figure BDA00028027273200000812
得到关系式为:
Figure BDA0002802727320000087
式中,x为末端执行器的相对关节坐标,K为阻尼矩阵,B为刚度矩阵,J为雅克比矩阵,xdes为机器人末端执行器初始坐标,
Figure BDA0002802727320000088
为机器人末端执行器初始速度,
Figure BDA0002802727320000089
为机器人末端执行器速度,
Figure BDA00028027273200000810
为雅克比矩阵一次导数,
Figure BDA00028027273200000811
为任意速度,
Figure BDA0002802727320000091
为任意加速度。
其次,所述阻抗控制器在接收到所述最新动作指令后,通过所述机械弹簧阻尼系统对其进行制衡与解析,获取到最合适的位姿数据。
(2)基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。
具体的,利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为:
Figure BDA0002802727320000092
J+=JT(JJT+αI)-1
在实验中,由于计算
Figure BDA0002802727320000093
的代价很大,故将原有的位姿控制律μ简化为:
Figure BDA0002802727320000094
式中,JT为雅克比矩阵J的转置,J+为末端执行器雅可比矩阵的伪逆矩阵,I为积分项,D为微分项,x(q)为末端执行器的任意坐标,α为常数,且α取值为1×10-6,以避免增大扭矩附近的运动奇点。
(3)将简化后的位姿控制律μ′导入所述机器人的装配应用环境中,以控制所述机器人完成装配任务,与此同时将该位姿控制律μ′输入所述记忆缓冲器中作为历史数据存档。
在本发明实施例中,通过利用若干个传感器的联动采集以及采用多模异构信息融合方法所实现的多类数据融合处理,可提高机器人对复杂环境的感知能力;同时配合深度强化学习算法可实现机器人对装配技能策略的自主调整,可提高机器人对装配任务变化的自适应能力与泛化能力,解决机器人装配效率低下、装配难度大等问题。
实施例
请参阅图3,图3示出了本发明实施例中的多模异构信息融合的机器人装配技能学习系统的结构组成示意图。
如图3所示,一种多模异构信息融合的机器人装配技能学习系统,所述系统包括如下:
采集模块201,用于对机器人进行初始化启动,采集所述机器人的各类感知信息;
在本发明实施例中,由于不同的传感器可作为机器人用于感知不同方面的重要部件,通过在所述机器人的关节轴处安装六轴力矩传感器来采集所述机器人的力矩信息,通过在所述机器人的抓取部位安装Kinect V1相机来采集所述机器人的视觉信息,通过在所述机器人的末端效应器处固定安装激光跟踪仪来采集所述机器人的本体位姿信息,通过在所述机器人本体安装声音传感器来采集所述机器人的声音信息。此外,结合图2所示出的机器人装配策略学习网络模型示意图可知,所述各类感知信息均可由记忆缓冲器进行统一的临时存储。
融合模块202,用于基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
在本发明实施例中,所述融合模块202包括第一特征提取单元、第二特征提取单元、第三特征提取单元、第四特征提取单元和特征融合输出单元;具体表现为:所述第一特征提取单元用于从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出64-d格式的第一特征向量;所述第二特征提取单元用于利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为128-d格式的第二特征向量;所述第三特征提取单元用于利用双隐含层多层感知器对所述本体位姿信息进行编码输出32-d格式的第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;所述第四特征提取单元用于利用支持向量机对所述声音信息进行编码输出128-d格式的第四特征向量;所述特征融合输出单元用于基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成128-d格式的融合特征向量。
训练模块203,用于将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
在本发明实施例中,所述深度强化学习算法为基于深度确定性策略梯度算法,结合图2所示出的机器人装配策略学习网络模型示意图可知,该算法划分为动作网络和评价网络,其中所述动作网络和所述评价网络的前两层结构均采用全连接网络层并以现有Relu函数作为激活函数,所述动作网络和所述评价网络的最后一层结构均采用Dropout层并以现有Tanh函数作为激活函数。在实施过程中,所述动作网络用于通过策略网络对所述机器人的动作策略进行更新,所述评价网络用于通过实现逼近值函数来获取所述机器人的梯度信息。具体过程包括如下:
(1)设定所述深度强化学习算法的目标函数J(θμ),该目标函数J(θμ)为带有权重的累加装配奖励值,即:
Figure BDA0002802727320000111
再结合所述动作网络的确定性策略为a=π(s|θμ),以及目标函数J(θμ)与所述评价网络的Q值函数Q(s,a|θQ)关于θμ的梯度等价,采用随机梯度下降法对所述目标函数J(θμ)进行优化为:
Figure BDA0002802727320000112
其中,所述目标函数J(θμ)中所提及到的装配奖励函数可定义为:
Figure BDA0002802727320000113
式中,ri为所述机器人执行第i个动作时的奖励值,ht为t时刻装配插入的深度,hmax为目标要求的装配插入深度,Ft为t时刻在Z轴上的受力,F0为装配成功时的受力阈值,设定在满足ht<hmax或者Ft<F0的条件下判定装配任务失败,即装配奖励值为-1,在同时满足ht=hmax以及Ft≥F0的条件下判定装配任务成功,即装配奖励值为1,如有发生其他情况,则装配奖励值为0;θμ为所述动作网络参数,θQ为所述评价网络参数,
Figure BDA0002802727320000114
为期望值,γ为奖励折扣因子,π(x)为动作策略函数,s为状态量,Es为给定状态下的期望值,st为t时刻下的状态量,at为t时刻下的动作。
(2)对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;
(3)将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;
具体的,由于对所述评价网络参数的缓慢更新方式可增加整个学习过程的稳定性,此时可将所述评价网络参数更新为:
Figure BDA0002802727320000121
并计算所述评价网络的当前策略梯度信息为:
Figure BDA0002802727320000122
其中,
Figure BDA0002802727320000123
为t时刻的评价网络参数值,
Figure BDA0002802727320000124
为所述评价网络中Q值网络参数为θQ所对应的动作,δt为时序差分误差,
Figure BDA0002802727320000125
为所述评价网络中Q值网络参数为θQ的策略梯度,
Figure BDA0002802727320000126
为Q值网络参数为θQ时在t时刻对应的Q值,
Figure BDA0002802727320000127
为参数为Qμ时所述动作网络的策略梯度,Jβ(μ)表示将所述动作网络中的目标函数转换成积分形式,N为样本数量,
Figure BDA0002802727320000128
为动作值的梯度,μ(si)为生成i时刻状态所对应的动作,
Figure BDA0002802727320000129
为参数θμ时所述动作网络的策略梯度,μ(s|θμ)为所述动作网络中的策略网络参数为θμ时生成不同状态所对应的动作。
(4)结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
具体的,首先定义所述动作网络的损失函数L为:
Figure BDA00028027273200001210
其次,利用所述当前策略梯度信息对所述损失函数L进行更新后,再将所述融合特征向量导入所述动作网络中,对所述动作网络参数更新为:
Figure BDA00028027273200001211
接着,在所述动作网络参数更新完毕后,由所述动作网络直接输出所述机器人的最新动作指令为:
Figure BDA00028027273200001212
式中,yi为Q(si,aiQ)的概率值,
Figure BDA00028027273200001213
为所述动作网络中Q值网络参数为θμ时所对应的动作,
Figure BDA00028027273200001214
为参数θμ时所述动作网络的策略梯度。
控制模块204,用于利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务。
本发明实施过程包括:
(1)利用所述阻抗控制器模拟出一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;
具体的,首先所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为:
Figure BDA0002802727320000131
此时获取所述机器人末端执行器的相对关节坐标的两次时间导数
Figure BDA00028027273200001311
得到关系式为:
Figure BDA0002802727320000132
式中,x为末端执行器的相对关节坐标,K为阻尼矩阵,B为刚度矩阵,J为雅克比矩阵,xdes为机器人末端执行器初始坐标,
Figure BDA0002802727320000133
为机器人末端执行器初始速度,
Figure BDA0002802727320000134
为机器人末端执行器速度,
Figure BDA0002802727320000135
为雅克比矩阵一次导数,
Figure BDA0002802727320000136
为任意速度,
Figure BDA0002802727320000137
为任意加速度。
其次,所述阻抗控制器在接收到所述最新动作指令后,通过所述机械弹簧阻尼系统对其进行制衡与解析,获取到最合适的位姿数据。
(2)基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号。
具体的,利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为:
Figure BDA0002802727320000138
J+=JT(JJT+αI)-1
在实验中,由于计算
Figure BDA0002802727320000139
的代价很大,故将原有的位姿控制律μ简化为:
Figure BDA00028027273200001310
式中,JT为雅克比矩阵J的转置,J+为末端执行器雅可比矩阵的伪逆矩阵,I为积分项,D为微分项,x(q)为末端执行器的任意坐标,α为常数,且α取值为1×10-6,以避免增大扭矩附近的运动奇点。
(3)将简化后的位姿控制律μ′导入所述机器人的装配应用环境中,以控制所述机器人完成装配任务,与此同时将该位姿控制律μ′输入所述记忆缓冲器中作为历史数据存档。
在本发明实施例中,通过利用若干个传感器的联动采集以及采用多模异构信息融合方法所实现的多类数据融合处理,可提高机器人对复杂环境的感知能力;同时配合深度强化学习算法可实现机器人对装配技能策略的自主调整,可提高机器人对装配任务变化的自适应能力与泛化能力,解决机器人装配效率低下、装配难度大等问题。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可存储于一计算机可读存储介质中,存储介质可包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种多模异构信息融合的机器人装配技能学习方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种多模异构信息融合的机器人装配技能学习方法,其特征在于,所述方法包括:
对机器人进行初始化启动,采集所述机器人的各类感知信息;
基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务;
所述利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号包括:
利用所述阻抗控制器模拟出一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;
所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为:
此时获取所述机器人末端执行器的相对关节坐标的两次时间导数得到关系式为:
式中,x为末端执行器的相对关节坐标,K为阻尼矩阵,B为刚度矩阵,J为雅克比矩阵,xdes为机器人末端执行器初始坐标,为机器人末端执行器初始速度,为机器人末端执行器速度,为雅克比矩阵一次导数,为任意速度,为任意加速度;
其次,所述阻抗控制器在接收到所述最新动作指令后,通过所述机械弹簧阻尼系统对其进行制衡与解析,获取到最合适的位姿数据;
基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号;
利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为:
J+=JT(JJT+αI)-1
在实验中,由于计算的代价很大,故将原有的位姿控制律μ简化为:
式中,JT为雅克比矩阵J的转置,J+为末端执行器雅可比矩阵的伪逆矩阵,I为积分项,D为微分项,x(q)为末端执行器的任意坐标,α为常数,且α取值为1×10-6,以避免增大扭矩附近的运动奇点;
将简化后的位姿控制律μ′导入所述机器人的装配应用环境中,以控制所述机器人完成装配任务,与此同时将该位姿控制律μ′输入记忆缓冲器中作为历史数据存档。
2.根据权利要求1所述的多模异构信息融合的机器人装配技能学习方法,其特征在于,所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。
3.根据权利要求2所述的多模异构信息融合的机器人装配技能学习方法,其特征在于,所述基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出包括:
从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出第一特征向量;
利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为第二特征向量;
利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;
利用支持向量机对所述声音信息进行编码输出第四特征向量;
基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成融合特征向量。
4.根据权利要求1所述的多模异构信息融合的机器人装配技能学习方法,其特征在于,所述将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令包括:
对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;
将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;
结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
5.一种多模异构信息融合的机器人装配技能学习系统,其特征在于,所述系统包括:
采集模块,用于对机器人进行初始化启动,采集所述机器人的各类感知信息;
融合模块,用于基于神经网络模型对所述各类感知信息进行多模异构融合处理,生成融合特征向量输出;
训练模块,用于将所述融合特征向量导入深度强化学习算法中进行训练,获取所述机器人的最新动作指令;
控制模块,用于利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号,并通过所述位姿控制信号控制所述机器人完成装配任务;
所述利用阻抗控制器对所述最新动作指令进行响应,生成位姿控制信号包括:
利用所述阻抗控制器模拟出一个机械弹簧阻尼系统,并将所述最新动作指令输入所述机械弹簧阻尼系统进行指令解析;
所述阻抗控制器根据调节所述机器人末端执行器的动力学理论来模拟出一个机械弹簧阻尼系统为:
此时获取所述机器人末端执行器的相对关节坐标的两次时间导数得到关系式为:
式中,x为末端执行器的相对关节坐标,K为阻尼矩阵,B为刚度矩阵,J为雅克比矩阵,xdes为机器人末端执行器初始坐标,为机器人末端执行器初始速度,为机器人末端执行器速度,为雅克比矩阵一次导数,为任意速度,为任意加速度;
其次,所述阻抗控制器在接收到所述最新动作指令后,通过所述机械弹簧阻尼系统对其进行制衡与解析,获取到最合适的位姿数据;
基于逆向动力学理论将解析结果转换为所述机器人的位姿控制信号;
利用所述逆向动力学理论可将该位姿数据改写成所述机器人的位姿控制律μ为:
J+=JT(JJT+αI)-1
在实验中,由于计算的代价很大,故将原有的位姿控制律μ简化为:
式中,JT为雅克比矩阵J的转置,J+为末端执行器雅可比矩阵的伪逆矩阵,I为积分项,D为微分项,x(q)为末端执行器的任意坐标,α为常数,且α取值为1×10-6,以避免增大扭矩附近的运动奇点;
将简化后的位姿控制律μ′导入所述机器人的装配应用环境中,以控制所述机器人完成装配任务,与此同时将该位姿控制律μ′输入记忆缓冲器中作为历史数据存档。
6.根据权利要求5所述的多模异构信息融合的机器人装配技能学习系统,其特征在于,所述各类感知信息包括力矩信息、视觉信息、本体位姿信息和装配过程中的声音信息。
7.根据权利要求6所述的多模异构信息融合的机器人装配技能学习系统,其特征在于,所述融合模块包括:
第一特征提取单元,用于从所述力矩信息中提取出最新的32个数据作为32×6的时间序列,并以2个步长为基准对所述时间序列进行五层因果卷积,输出第一特征向量;
第二特征提取单元,用于利用六层卷积神经网络对所述视觉信息进行编码输出128×128×3的RGB图像,并利用全连接层将所述RGB图像激活转换为第二特征向量;
第三特征提取单元,用于利用双隐含层多层感知器对所述本体位姿信息进行编码输出第三特征向量,且所述本体位姿信息包括所述机器人末端执行器的当前位置信息与当前速度信息;
第四特征提取单元,用于利用支持向量机对所述声音信息进行编码输出第四特征向量;
特征融合输出单元,用于基于双隐含层多层感知器将所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行相互连接,形成融合特征向量。
8.根据权利要求5所述的多模异构信息融合的机器人装配技能学习系统,其特征在于,所述训练模块用于对所述深度强化学习算法中的相关参数值进行初始化,其中所述相关参数值包括动作网络的参数值与评价网络的参数值;将所述融合特征向量导入所述评价网络中进行参数值更新,并计算所述评价网络的当前策略梯度信息;以及结合所述当前策略梯度信息对所述动作网络的损失函数进行更新,再将所述融合特征向量导入所述动作网络中进行参数值更新,以输出所述机器人的最新动作指令。
CN202011366884.4A 2020-11-27 2020-11-27 一种多模异构信息融合的机器人装配技能学习方法及系统 Active CN112631128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011366884.4A CN112631128B (zh) 2020-11-27 2020-11-27 一种多模异构信息融合的机器人装配技能学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011366884.4A CN112631128B (zh) 2020-11-27 2020-11-27 一种多模异构信息融合的机器人装配技能学习方法及系统

Publications (2)

Publication Number Publication Date
CN112631128A CN112631128A (zh) 2021-04-09
CN112631128B true CN112631128B (zh) 2023-04-14

Family

ID=75306482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011366884.4A Active CN112631128B (zh) 2020-11-27 2020-11-27 一种多模异构信息融合的机器人装配技能学习方法及系统

Country Status (1)

Country Link
CN (1) CN112631128B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113305645B (zh) * 2021-06-22 2022-07-15 重庆邮电大学工业互联网研究院 一种基于混合神经模型的数控机床刀具剩余寿命预测方法
CN113927602B (zh) * 2021-11-12 2023-03-17 哈尔滨工业大学(深圳) 基于视、触觉融合的机器人精密装配控制方法及系统
CN113878588B (zh) * 2021-11-12 2023-03-31 哈尔滨工业大学(深圳) 面向卡扣式连接的基于触觉反馈的机器人柔顺装配方法
WO2023083034A1 (zh) * 2021-11-12 2023-05-19 哈尔滨工业大学(深圳) 视触觉融合的机器人精密装配控制方法及系统
CN114571456B (zh) * 2022-03-14 2024-03-15 山东大学 基于机器人技能学习的电连接器装配方法及系统
CN114976802B (zh) * 2022-05-06 2023-11-03 南京航空航天大学 射频连接器自适应装配方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108406765B (zh) * 2018-02-06 2021-05-07 南京航空航天大学 一种开链式多臂机器人阻抗控制方法
CN108638052B (zh) * 2018-03-29 2020-12-25 南京航空航天大学 一种闭链式多臂机器人柔顺控制方法
CN109543823B (zh) * 2018-11-30 2020-09-25 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN111730599B (zh) * 2020-07-08 2021-09-07 深圳市优必选科技股份有限公司 阻抗控制方法、装置、阻抗控制器和机器人
CN111904795B (zh) * 2020-08-28 2022-08-26 中山大学 一种结合轨迹规划的康复机器人变阻抗控制方法

Also Published As

Publication number Publication date
CN112631128A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112631128B (zh) 一种多模异构信息融合的机器人装配技能学习方法及系统
CN112119409B (zh) 具有关系存储器的神经网络
CN110692066B (zh) 使用多模态输入选择动作
US11235461B2 (en) Controller and machine learning device
CN111881772B (zh) 基于深度强化学习的多机械臂协同装配方法和系统
US20210103815A1 (en) Domain adaptation for robotic control using self-supervised learning
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN111444954A (zh) 一种基于多模态感知与学习的机器人自主装配方法
US11458624B2 (en) Control server and method for controlling robot using artificial neural network, and robot implementing the same
JP2022061022A (ja) 力及びトルク誘導ロボット組立のための技術
CN115812180A (zh) 使用奖励预测模型的机器人控制的离线学习
CN114800515A (zh) 一种基于演示轨迹的机器人装配运动规划方法
CN115933387A (zh) 基于视觉语言预训练模型的机器人操控方法、装置及介质
CN115990875B (zh) 一种基于隐空间插值的柔性线缆状态预测与控制系统
EP3884436A1 (en) Controlling agents using latent plans
Gutzeit et al. The besman learning platform for automated robot skill learning
Chen et al. Multimodality driven impedance-based sim2real transfer learning for robotic multiple peg-in-hole assembly
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
CN117359643A (zh) 一种多模态元学习机器人自我定位系统及其方法
CN117555352A (zh) 一种基于离散sac的海洋洋流助力路径规划方法
KR20240057422A (ko) 멀티 모드 입력을 사용하여 인터렉티브 에이전트 제어
Beik Mohammadi et al. Mixed-reality deep reinforcement learning for a reach-to-grasp task
KR100836739B1 (ko) 로봇 디바이스 논리적-물리적 연결의 맵핑 장치 및 방법
CN113977583B (zh) 基于近端策略优化算法的机器人快速装配方法及系统
US20230061411A1 (en) Autoregressively generating sequences of data elements defining actions to be performed by an agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant