CN114789443B

CN114789443B - 一种基于多源信息深度强化学习的机械臂控制方法及系统

Info

Publication number: CN114789443B
Application number: CN202210468964.3A
Authority: CN
Inventors: 陈韦池; 曾超; 郭靖; 刘远; 蔡述庭; 熊晓明
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2024-02-23
Anticipated expiration: 2042-04-29
Also published as: CN114789443A

Abstract

本发明涉及机械臂控制技术领域公开了一种基于多源信息深度强化学习的机械臂控制方法及系统，包括以下步骤：S1.采集机械臂的图像数据及机械臂的本体数据；S2.采用示教学习初始化力控策略的参数；S3.解析图像数据及机械臂本体信息数据，得到图像的联合特征，并通过强化学习模型获得实时力控策略；S4.通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体信息数据；S5.更新图像数据、机械臂本体信息数据，回到步骤S3，不断优化机械臂力控策略。本发明解决了现有机械臂控制技术获取外界信息的途径很有限的问题，且具有采用多源信息输入，方便训练的特点。

Description

一种基于多源信息深度强化学习的机械臂控制方法及系统

技术领域

本发明涉及机械臂控制技术领域，更具体的，涉及一种基于多源信息深度强化学习的机械臂控制方法及系统。

背景技术

现有的机械臂控制方法有基于模型(model-based)和基于数据驱动(data drive)两种。传统的机械臂大多采用基于模型来控制，其理论成熟，控制效果可靠。但是随着深度学习研究的加速和大数据的来临，基于数据驱动的机械臂控制也愈发成为控制领域的热点，特别是吸收了控制理论，人工智能等领域的成果之后，基于数据驱动的控制相比传统的机械臂控制具有简单，容易实现，泛化能力强的特点，其应用前景广阔，是机器人领域中的重要发展方向。

目前类似的基于多源信息深度强化学习的机械臂控制方案都会引入多模态作为输入，训练完成后输出各个行为的概率，再去实现机械臂的控制运动。

针对这一问题，现有技术有一种基于多模态感知与学习的机器人自主装配方法，代替传统的基于编程的方法，提高机器人装配策略的鲁棒性和稳定性。但是该技术方案没有引入有关机械臂控制方法；该技术方案获取所述机械臂的运动策略是直接由深度强化学习算法中得来，而且训练时间长。

然而现有机械臂控制技术存在获取外界信息的途径很有限的问题，因此如何发明一种采用多源信息输入的机械臂控制方法，是本技术领域亟需解决的问题。

发明内容

本发明为了解决现有机械臂控制技术获取外界信息的途径很有限的问题，提供了一种基于多源信息深度强化学习的机械臂控制方法及系统控制方法，其具有采用多源信息输入，方便训练的特点。

一种基于多源信息深度强化学习的机械臂控制方法，包括以下步骤：

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

S3.解析图像数据及机械臂本体信息数据，得到图像的联合特征，并通过强化学习模型获得实时力控策略；

S4.通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体信息数据；

S5.更新图像数据、机械臂本体信息数据，回到步骤S3，不断优化机械臂力控策略。

优选的，所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。

进一步的，所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数；所述的状态参数包括末端坐标、关节角度和角速度。

更进一步的，所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。

更进一步的，所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。

更进一步的，步骤S2，具体为：

S201.通过拖曳机械臂进行示教学习的数据采集；

S202.通过高斯混合模型对获得的示教学习的数据进行建模，并计算出模型的协方差与均值，得到模型的协方差矩阵；

S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵；

S204.通过高斯混合模型的均值初始化机械臂位姿。

更进一步的，步骤S203，具体为：通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。

更进一步的，步骤S3，具体为：

S301.将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示；

S302.各个模态数据分别通过其对应的神经网络层后统一通过隐藏层，将通过隐藏层后得到的模态映射到联合空间，得到统一联合特征；

S303.将统一联合联合特征通过隐藏层得到初始预测；

S304.将初始预测输入强化学习模型中得到机械臂的力控策略。

更进一步的，通过初始化的力控策略的参数更新实时力控策略，具体为：通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。

一种基于多源信息深度强化学习的机械臂控制系统，包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习初始化力控策略的参数的初始化模块、用于解析图像数据及机械臂本体信息数据，得到图像的联合特征，并通过强化学习模型获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体信息数据的控制模块。

为实现上述本发明目的，采用的技术方案如下：

本发明通过采集机械臂的图像数据及机械臂的本体数据，充分考虑了外部复杂环境多种信息输入，并采用采用示教学习初始化力控策略的参数，最后对机械臂进行强化学习获得力控策略进行反复优化，从而有效优化机械臂作业能力解决现有机械臂控制技术获取外界信息的途径很有限的问题，其具有采用多源信息输入，方便训练的特点。

附图说明

图1是本基于多源信息深度强化学习的机械臂控制系统的结构及流程示意图。

图2是采用示教学习初始化力控策略的参数的流程图。

图3是通过强化学习模型获得实时力控策略的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

实施例2

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

在一个具体实施例中，所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。

在一个具体实施例中，所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数。

在一个具体实施例中，所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。

在一个具体实施例中，所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。

如图2所示，在一个具体实施例中，步骤S2，具体为：

S201.通过拖曳机械臂进行示教学习的数据采集；

S204.通过高斯混合模型的均值初始化机械臂位姿。

本实施例中，初始化二次型调节器的系数矩阵和机械臂位姿后，还利用深度强化学习对所述的机械臂位姿和机械臂位姿跟踪代价误差Q矩阵进行优化。

在一个具体实施例中，步骤S203，具体为：通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。

实施例3

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

在一个具体实施例中，所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数；所述的状态参数包括末端坐标、关节角度和角速度。

如图2所示，在一个具体实施例中，步骤S2，具体为：

S201.通过拖曳机械臂进行示教学习的数据采集；

S204.通过高斯混合模型的均值初始化机械臂位姿。

如图3所示，在一个具体实施例中，步骤S3，具体为：

S303.将统一联合联合特征通过隐藏层得到初始预测；

S304.将初始预测输入强化学习模型中进行深度强化学习得到机械臂的力控策略。

本实施例中，所述的强化学习模型为PPO。

实施例4

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

如图2所示，在一个具体实施例中，步骤S2，具体为：

S201.通过拖曳机械臂进行示教学习的数据采集；

S204.通过高斯混合模型的均值初始化机械臂位姿。

如图3所示，在一个具体实施例中，步骤S3，具体为：

S303.将统一联合联合特征通过隐藏层得到初始预测；

本实施例中，所述的强化学习模型为PPO。

在一个具体实施例中，通过初始化的力控策略的参数更新实时力控策略，具体为：通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。

实施例5

如图1所示，一种基于多源信息深度强化学习的机械臂控制系统，包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习通过高斯混合模型初始化力控策略参数的初始化模块、用于解析图像数据及机械臂本体信息数据，通过多模态表示学习得到图像的联合特征，并通过强化学习模型进行深度强化学习获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体信息数据的控制模块。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多源信息深度强化学习的机械臂控制方法，其特征在于：包括以下步骤：

S1.采集机械臂的图像数据及机械臂的本体数据；

S2.采用示教学习初始化力控策略的参数；

S3.解析图像数据及机械臂本体数据，得到图像的联合特征，并通过强化学习模型获得实时力控策略；S3具体为：

S302.各个模态特征表示分别通过其对应的神经网络层后统一通过隐藏层，将通过隐藏层后得到的模态映射到联合空间，得到统一联合特征；

S303.将统一联合特征通过隐藏层得到初始预测；

S304.将初始预测输入强化学习模型中得到机械臂的力控策略；

S4.通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体数据；

S5.更新图像数据、机械臂本体数据，回到步骤S3，不断优化机械臂力控策略。

2.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。

3.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数；所述的状态参数包括末端坐标、关节角度和角速度。

4.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：所述的力控策略的参数包括机械臂位姿和二次型调节器中的系数矩阵。

5.根据权利要求4所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：步骤S2，具体为：

S201.通过拖曳机械臂进行示教学习的数据采集；

S204.通过高斯混合模型的均值初始化机械臂位姿。

6.根据权利要求5所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。

7.根据权利要求5所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：步骤S203，具体为：通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。

8.根据权利要求7所述的基于多源信息深度强化学习的机械臂控制方法，其特征在于：通过初始化的力控策略的参数更新实时力控策略，具体为：通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。

9.一种基于多源信息深度强化学习的机械臂控制系统，其特征在于：包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习初始化力控策略的参数的初始化模块、用于解析图像数据及机械臂本体数据，得到图像的联合特征，并通过强化学习模型获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略，并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作，采集工作中的图像数据和机械臂本体数据的控制模块；

所述的学习模块具体用于：

将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示；

将各个模态特征表示分别通过其对应的神经网络层后统一通过隐藏层，将通过隐藏层后得到的模态映射到联合空间，得到统一联合特征；

将统一联合特征通过隐藏层得到初始预测；

将初始预测输入强化学习模型中得到机械臂的力控策略。