CN113977583B

CN113977583B - 基于近端策略优化算法的机器人快速装配方法及系统

Info

Publication number: CN113977583B
Application number: CN202111353675.0A
Authority: CN
Inventors: 宋锐; 门渔; 李凤鸣; 靳李岗; 王艳红
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-05-09
Anticipated expiration: 2041-11-16
Also published as: CN113977583A

Abstract

本发明提出了基于近端策略优化算法的机器人快速装配方法及系统，包括：力检测单元、机械臂及控制系统；所述力检测单元用来获取机械臂末端力信息，并将力信息反馈至控制系统；所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络，所述网路输出机械臂所需的动作值，基于所述动作值控制机械臂进行轴孔装配。近端策略优化算法增强了数据的利用效率，不用设置学习率的大小，具有更好的样本复杂性和泛化能力。

Description

基于近端策略优化算法的机器人快速装配方法及系统

技术领域

本发明属于机器人装配技术领域，尤其涉及基于近端策略优化算法的机器人快速装配方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在机器人装配操作中，由于装配模型复杂、环境多变，通常的装配策略并不准确且对不同装配环境的适应能力差。主要有两种方法进行机器人装配操作，基于模型的装配和基于无模型的装配。

基于模型的装配通过建立一个精确的环境接触模型进行机器人装配，但在实际的工业场景中，噪声干扰、环境多变、装配对象的形状复杂并存在异构型等因素导致建立一个精确的环境接触模型很难办到。

基于无接触的模型不依赖环境模型的建立，主要通过学习的方法对环境进行探索，得到一种精确的装配策略。一般的学习方法对学习率的要求很高，学习率过高或过低都会导致训练失败，并且奖励函数的设立也对环境的变化十分敏感，设计合适的奖励函数十分困难。

上述方式的装配导致的问题是：一般的学习方法无法实现对机器人的快速且准确的装配，以及学习过程中各参数的选取十分困难。

发明内容

为克服上述现有技术的不足，本发明提供了基于近端策略优化算法的机器人快速装配系统及方法，能够不依赖于环境模型，提高装配策略的泛化能力，减少对学习率等参数的调节。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于近端策略优化算法的机器人快速装配系统，包括：

力检测单元、机械臂及控制系统；

所述力检测单元用来获取机械臂末端力信息，并将力信息反馈至控制系统；

所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络，所述网路输出机械臂所需的动作值，基于所述动作值控制机械臂进行轴孔装配。

作为一种实施例子，所述控制系统还包括模糊奖励系统，所述模糊奖励系统由两个模糊层构成，其中第一模糊层的输出是第二模糊层的输入，最终第二模糊层的输出作为负奖励，正奖励由装配所用步数决定。

作为一种实施例子，所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度，上述输入参数作为轴孔装配参数。

第二方面，公开了基于近端策略优化算法的机器人快速装配方法，包括：

控制机械臂螺旋搜孔，判断是否找到孔位，若是，则获取当前状态并输送至近端策略优化算法网络，近端策略优化算法网络输出机械臂动作指令，机械臂基于所接收的指令进行插孔装配，直至装配结束。

作为一种实施例子，所述机械臂基于所接收的指令进行插孔装配时，还基于获取的当前状态进行模糊逻辑处理，得到阻抗参数，基于阻抗参数及所接收的指令进行插孔装配。

作为进一步优选的方案，基于获取的当前状态进行模糊逻辑处理，得到阻抗参数，具体为：由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。

作为进一步优选的方案，所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。

以上一个或多个技术方案存在以下有益效果：

为了能够不依赖于环境模型，提高装配策略的泛化能力，减少对学习率等参数的调节，本发明结合深度强化学习方法提出了一种基于近端策略优化并结合模糊逻辑的机器人快速装配策略。

本发明搭建的模糊奖励系统用来确定机器人装配所要学习的目标，防止避免复杂奖励函数的设计，并且由于模糊逻辑本身的特点提高了系统整体的鲁棒性。(模糊奖励系统是为了改进学习算法中的奖励函数，利用模糊逻辑对所选取的参数进行处理得到所需的奖励值，从而不需要设计复杂的奖励函数也能达到对网络的训练效果。)

本发明使用的近端策略优化算法根据装配状态输出机器人装配所需的动作值，并不用设置学习率等参数即可在与环境的交互过程中不断训练，提高装配效率，增强了数据的利用效率，具有更好的样本复杂性和泛化能力。

本发明阻抗控制通过对网络输出的装配动作进行补偿，可以加快装配速度，并且本发明可以根据具体的接触情况实时调节阻抗参数。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例机器人轴孔装配系统示意图；

图2为本发明实施例机器人轴孔装配流程图；

图3为本发明实施例模糊奖励系统图；

图4为本发明实施例近端策略优化算法流程。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于近端策略优化算法的机器人快速装配系统，如图1所示，由机械臂末端六维力传感器，上位机，机械臂，复杂装配对象(USB、VGA等电子连接件)组成。六维力传感器用来获取机械臂末端力和力矩，并将力信息反馈给上位机训练网络。机械臂是主要的执行机构，用来执行网络输出的动作。装配对象是组成物理接触环境的主要部分，不同的装配对象装配的装配策略也不相同。上位机根据机器人和力传感器反馈回来的状态信息训练近端策略优化算法网络，并搭建模糊奖励系统。

上述模糊奖励系统由两个模糊层构成，其中第一模糊层的输出是第二模糊层的输入，最终第二模糊层的输出作为负奖励，作为惩罚项以减少装配过程中大接触力产生并加快装配速度，正奖励由装配所用步数决定，作为激励项减少装配所用步数。

上述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度，上述输入参数作为轴孔装配参数。

实施例二

本实施例的目的是提供了基于近端策略优化算法的机器人快速装配方法，包括：

所述机械臂基于所接收的指令进行插孔装配时，还基于获取的当前状态进行模糊逻辑处理，得到阻抗参数，基于阻抗参数及所接收的指令进行插孔装配。

本发明根据近端策略优化算法，结合模糊逻辑，提出了一种能够快速进行轴孔装配的方法。该方法在轴孔装配环境中学习，上位机与机械臂通讯获取的机械臂位姿、末端六维力传感器获取的接触力/力矩输入网络进行训练，输出下一步所需的动作值，控制机械臂进行轴孔装配。流程如图2所示，具体包含步骤如下：

步骤一：初始化机械臂，算法网络，定义输入状态s_t＝(s_p，s_τ)，式中s_p＝[p_x，p_y，p_z，p_α，p_β，p_γ]，表示机械臂末端位姿，其中(p_x，p_y，p_z)分别指机械臂末端的x，y，z坐标，(p_α，p_β，p_γ)指机械臂末端绕x，y，z轴的旋转角；s_τ＝[F_x，F_y，F_z，M_x，M_y，M_z]，表示机械臂末端装配力/力矩，其中(F_x，F_y，F_z)分别指机械臂末端沿x，y，z方向的力，(M_x，M_y，M_z)分别指机械臂末端沿x，y，z方向的力矩；

步骤二：定义机械臂动作a_Δ＝[Δ_x，Δ_y，Δ_z，Δ_α，Δ_β，Δ_γ]，其中(Δ_x，Δ_y，Δ_z)分别指机械臂沿x，y，z方向的位移量，(Δ_α，Δ_β，Δ_γ)分别指机械臂绕x，y，z轴的旋转量，作为网络输出值，用来控制机械臂运动。

步骤三：定义阻抗参数选择系统，输入各个轴的位移和力大小或沿各个轴的旋转量和力矩，经由模糊逻辑处理得到各个方向的阻抗参数。通过对阻抗参数的控制，提高机器人装配的柔顺性和快速性。阻抗公式为：

其中，起主要作用的参数为K_d，因此只考虑K_d参数，x_d为目标位置，x₀为当前位置，F为目标参考力，x_d-x₀即为阻抗控制所加的位置补偿。此时：

x_d-x₀＝K_d ^-1F

其中，K_d＝(k_x，k_y，k_z，k_α，k_β，k_γ)，分别是各个轴的阻抗参数。

装配状态和阻抗参数之间的关系如表1所示。

表1装配状态和阻抗参数之间的关系

本发明还包括定义模糊奖励系统。

选取最大接触力F＝max(F_x,F_y,F_z)，最大接触力矩M＝max(M_x,M_y,M_z)，z轴方向的位移Δ_z以及装配深度d_z作为轴孔装配参数。

搭建模糊奖励系统如图3所示。模糊奖励系统由两个模糊层构成，其中第一层的输出是第二层的输入，最终第二层的输出作为负奖励r₂。正奖励r₁＝1-ζ/ζ_max由装配所用步数ζ决定。整体奖励r＝r₁+λr₂。

具体实施时，搭建近端策略优化算法网络并进行训练，整体网络结构及训练流程如图4所示。

共有三个网络层组成，分别是Actor_old，Actor_new，critic网络。其中Actor_old和Actor_new结构上相同，但是首先更新Actor_new网络，每经过一个batch步后对Actor_old进行更新，最终输出动作的是Actor_old网络。critic网络用来计算优势函数，用来更新Actor_old和Actor_new网络。

1)将装配状态s_t输入Actor_old网络中，得到一个正态分布

通过这个正态分布来选择机械臂运动的动作a_t。根据当前状态，经由模糊奖励系统计算奖励值r_t，和环境交互后得到新的状态s_t+1，将数据([s_t,a_t,r_t],s_t+1)存入经验池中，重复此步骤。当存储了一定量的([s_t,a_t,r_t],s_t+1)，Actor_old网络开始更新。

2)将1)中最后一步的状态s输入到critic网络中，得到该状态的v_t值，并计算折扣奖励R_t＝r_t+ξr_t+1+ξ²r_t+2+…+ξ^T-t+1r_T-1+ξ^T-tv_t。计算优势函数A_t＝R_t-v_t。

3)求critic网络的损失函数c_loss＝mean(square(A_t)),然后反向传播更新critic网络。

4)将状态值s_t分别输入网络结构一样的Actor_old和Actor_new网络，分别得到正态分布

和

将存储的所有a_t组合为

输入到正态分布

和

得到每个

对应的prob1和prob2，然后用prob2除以prob1得到重要性权重ω。

5)计算Actor网络的损失函数

反向传播以更新Actor_new网络。

6)循环4-5步骤，循环一定步数后，用Actor_new网络权重来更新Actor_old网络。

7)循环1-6步直至训练结束。

本发明还公开了一种机器人，采用所述的基于近端策略优化算法的机器人快速装配方法进行装配。或

采用基于近端策略优化算法的机器人快速装配系统进行装配。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于近端策略优化算法的机器人快速装配系统，其特征是，包括：

力检测单元、机械臂及控制系统；

所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络，所述网络输出机械臂所需的动作值，基于所述动作值控制机械臂进行轴孔装配；

控制机械臂螺旋搜孔，判断是否找到孔位，若是，则获取当前状态并输送至近端策略优化算法网络，近端策略优化算法网络输出机械臂动作指令，机械臂基于所接收的指令进行插孔装配，直至装配结束；

训练近端策略优化算法网络的过程为：将装配状态输入Actor_new网络，得到一个正态分布，通过这个正态分布来选择机械臂运动的动作，根据当前状态，经由模糊奖励系统计算奖励值，和环境交互后得到新的状态，将获得数据存储；将新的状态输入到critic网络中得到该状态的v_t值，并计算折扣奖励，计算优势函数，然后反向传播更新critic网络；将状态值分别输入网络结构一样的Actor_old和Actor_new网络，分别得到正态分布；将存储的所有状态值进行组合并输入到正态分布；计算Actor网络的损失，反向传播以更新Actor_new网络，利用Actor_new网络权重来更新Actor_old网络。

2.如权利要求1所述的基于近端策略优化算法的机器人快速装配系统，其特征是，所述控制系统还包括模糊奖励系统，所述模糊奖励系统由两个模糊层构成，其中第一模糊层的输出是第二模糊层的输入，最终第二模糊层的输出作为负奖励，正奖励由装配所用步数决定。

3.如权利要求2所述的基于近端策略优化算法的机器人快速装配系统，其特征是，所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度，上述输入参数作为轴孔装配参数。

4.基于近端策略优化算法的机器人快速装配方法，其特征是，包括：

其中，训练近端策略优化算法网络的过程为：将装配状态输入Actor_new网络，得到一个正态分布，通过这个正态分布来选择机械臂运动的动作，根据当前状态，经由模糊奖励系统计算奖励值，和环境交互后得到新的状态，将获得数据存储；将新的状态输入到critic网络中得到该状态的v_t值，并计算折扣奖励，计算优势函数，然后反向传播更新critic网络；将状态值分别输入网络结构一样的Actor_old和Actor_new网络，分别得到正态分布；将存储的所有状态值进行组合并输入到正态分布；计算Actor网络的损失，反向传播以更新Actor_new网络，利用Actor_new网络权重来更新Actor_old网络。

5.如权利要求4所述的基于近端策略优化算法的机器人快速装配方法，其特征是，所述机械臂基于所接收的指令进行插孔装配时，还基于获取的当前状态进行模糊逻辑处理，得到阻抗参数，基于阻抗参数及所接收的指令进行插孔装配。

6.如权利要求5所述的基于近端策略优化算法的机器人快速装配方法，其特征是，基于获取的当前状态进行模糊逻辑处理，得到阻抗参数，具体为：由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。

7.如权利要求6所述的基于近端策略优化算法的机器人快速装配方法，其特征是，所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。

8.一种机器人，其特征是，采用如权利要求4-7任一所述的基于近端策略优化算法的机器人快速装配方法进行装配。

9.一种机器人，其特征是，采用权利要求1-3任一所述的基于近端策略优化算法的机器人快速装配系统进行装配。