CN110053053A

CN110053053A - 基于深度强化学习的机械臂旋拧阀门的自适应方法

Info

Publication number: CN110053053A
Application number: CN201910513350.0A
Authority: CN
Inventors: 刘满禄; 李新茂; 张华�; 张静; 周建; 张敦凤; 周祺杰
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-07-26
Anticipated expiration: 2039-06-14
Also published as: CN110053053B

Abstract

本发明公开了一种基于深度强化学习的机械臂旋拧阀门的自适应方法，属于机器学习领域。该自适应方法包括：S1、在阀门的手轮上设置一标签；并使其上设置有弹性垫块的夹持器在靠近标签的位置夹持阀门手轮，所述夹持器安装在机械臂上；S2、根获取夹持器中心位置P₀；S3、获取标签中心位置F_t；S4、将夹持器中心位置P₀和标签中心位置F_t输入阀门旋拧操作模型获得所述机械臂和夹持器执行动作的指令；S5、根据所述指令控制机械臂和夹持器动作；S6、动作结束后，根据所述上位机更新夹持器中心位置P₀，并以此判断夹持器中心是否到达标签中心位置F_t，若是，执行步骤S7，若否，返回步骤S4；S7、判断是否完成旋拧任务，若否，返回步骤S3。

Description

基于深度强化学习的机械臂旋拧阀门的自适应方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于深度强化学习的机械臂旋拧阀门的自适应方法。

背景技术

危险环境作业中，采用机器人进行远程作业已经被国际社会广泛认可，而针对危险环境下的阀门旋拧作业，一般通过遥操作或视觉引导完成机械臂对阀门夹持的基础上，采用传统的示教或编程的控制方法执行后续旋拧任务。而传统的示教或编程的控制方法执行后续旋拧任务的适应性较差。

发明内容

针对现有技术中的上述不足，本发明旨在提供一种能够提高机械臂后续旋拧任务适应性的基于深度强化学习的机械臂旋拧阀门的自适应方法。

为了达到上述发明创造的目的，本发明采用的技术方案为：

提供一种基于深度强化学习的机械臂旋拧阀门的自适应方法，其包括：

S1、在阀门的手轮上设置一标签；并使其上设置有弹性垫块的夹持器在靠近标签的位置夹持阀门手轮，夹持器安装在机械臂上；

S2、根据与机械臂连接的上位机获取夹持器中心位置P₀；

S3、通过夹持器上安装的相机对位于标签附近的阀门表面形貌特性进行提取，并根据表面形貌特征获取标签中心位置F_t；

S4、将夹持器中心位置P₀和标签中心位置F_t输入阀门旋拧操作模型获得机械臂和夹持器执行动作的指令，阀门旋拧操作模型是基于深度强化学习算法建模训练得到的；

S5、根据指令控制机械臂和夹持器动作；

S6、动作结束后，根据上位机更新夹持器中心位置P₀，并以此判断夹持器中心是否到达步骤S2中获得的标签中心位置F_t，若是，执行步骤S7，若否，返回步骤S4；

S7、判断是否完成旋拧任务，若否，返回步骤S3。

进一步地，步骤S5中，建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。

进一步地，步骤S7中，通过下列方法判断是否完成旋拧任务：

通过夹持器起始中心位置P₀和夹持器当前中心位置P₀计算夹持器中心位置运行轨迹的第一圆心角，并将第一圆心角与上位机内部预设的第二圆心角进行比较，第一圆心角大于第二圆心角则判断完成旋拧任务。

进一步地，步骤S4中，建模训练包括：

S401、在阀门的手轮上设置一标签，并使其上设置有弹性垫块的夹持器在标签附近夹持住阀门手轮，夹持器安装在机械臂上；

S402、根据与机械臂连接的上位机获取夹持器中心位置P₀；

S403、通过夹持器上安装的相机对位于标签附近的阀门表面形貌特性进行提取，并根据表面形貌特征得到标签中心位置F_t、夹持器中心位置P₀与标签中心位置F_t之间的间距D和夹持器与阀门手轮之间的间距L；

S404、定义动作空间a，并根据间距D和间距L定义奖惩函数r，根据奖惩函数r和间距D定义状态空间S_i；

S405、根据动作空间a、奖惩函数r和状态空间S_i，并基于深度确定性策略梯度算法建立深度强化学习的神经网络，并对神经网络进行训练得到阀门旋拧操作模型。

进一步地，步骤S403中，间距D通过以下计算方法得到：

其中，x_f和y_f为标签中心位置F_t的横纵坐标，x_p和y_p为夹持器中心位置P₀的横纵坐标。

进一步地，步骤S405中，神经网络包括行为网络和目标网络，行为网络包括策略网络μ和价值网络Q，目标网络包括策略网络μ'和价值网络Q'。

进一步地，步骤S404中，状态空间S_i通过以下方法得到：

S_i＝{D,D_bool,L,L_bool},i＝1,2,3,...

其中，D为夹持器中心位置P₀与标签中心位置F_t之间的间距，D_bool表示间距D是否在奖励范围内，L为夹持器与阀门手轮之间的间距，L_bool表示间距L是否在奖励范围内；

奖惩函数r通过以下方法得到：

其中，λ为第一增益参数，η为第二增益参数，D为夹持器中心位置P₀与标签中心位置F_t之间的间距，L为夹持器与阀门手轮之间的间距，为奖励范围；

动作空间a通过以下方法得到：

a＝{x,y,α}

其中，x表示夹持器中心位置沿x轴方向运动的长度，y表示夹持器中心位置沿y轴方向运动的长度，α表示夹持器中心位置以夹持器中心为旋转轴做旋转运动的角度。

进一步地，步骤S405中，训练过程包括：

S405a、初始化夹持器中心位置P₀和标签中心位置F_t；

S405b、初始化当前标签跟踪事件，并获取标签中心位置F_t；

S405c、根据策略网络μ、夹持器中心位置P₀和标签中心位置F_t，并基于动作空间a选取动作a_t，然后令机械臂和夹持器执行动作a_t，动作a_t执行后，更新夹持器中心位置P₀，并基于状态空间S_i获取当前状态s_t+1和前一状态s_t，并基于奖惩函数r进行评价从而获取当前状态的奖励值r_t，然后策略网络μ将(s_t,a_t,r_t,s_t+1)存入经验回放区，作为训练行为网络的数据集；

S405d、根据夹持器中心位置P₀判断夹持器中心是否到达步骤S405b中获取的标签中心位置F_t，若是，执行步骤S405e，若否，执行步骤S405g；

S405e、判断是否完成旋拧任务，若是，执行步骤S405f，若否，更新标签中心位置F_t后，执行步骤S405g；

S405f、判断步骤S405g中训练循环次数是否达到设定次数，若是，训练过程结束，并输出阀门旋拧操作模型，若否，返回步骤S405a；

S405g、训练神经网络，并判断夹持器当前跟踪标签的累计动作次数是否达到设定的最大步数；若是，返回步骤S405b，若否，返回步骤S405c。

进一步地，步骤S405c中，动作a_t通过以下方法得到：

a_t＝μ(s_t|θ^μ)

其中，μ为策略网络μ，θ为策略网络参数，s_t为状态。

进一步地，步骤S405g中，训练神经网络包括：从经验回放区中随机采样N个数据，作为策略网络μ和价值网络Q的一个mini-batch训练数据，并根据mini-batch训练数据得到价值网络Q的损失函数U，从而更新价值网络Q；根据mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ；目标网络为行为网络的拷贝，采用滑动平均方法更新策略网络μ'和价值网络Q'。

本发明的有益效果为：

在阀门旋拧过程中，夹持器中心位置与标签中心位置相对静止，当夹持器中心位置到达上一次更新得到的标签中心位置后，再更新标签中心位置，如此循环，通过跟踪标签中心位置间接实现旋拧阀门的任务，即阀门旋拧动作在夹持器不断靠近标签的过程中完成。

通过基于深度强化学习算法建模训练得到的阀门旋拧操作模型，并结合本方案提出的标签中心位置跟踪，使得本方案设计的基于深度强化学习的机械臂旋拧阀门的自适应方法不局限于阀门的形状和位置，大大提高了阀门旋拧任务的适应性，适宜推广应用。

附图说明

图1为具体实施例中，自适应方法的应用流程图；

图2为具体实施例中，自适应方法中建模训练的数据采集过程示意图；

图3为夹持器与局部阀门手轮的结构示意图；

图4为夹持器动作过程与局部阀门手轮的结构示意图；

图5为具体实施例中，自适应方法中训练过程的流程图；

图6为具体实施例中，自适应方法中算法的结构图。

其中，1、阀门手轮；2、弹性垫块；3、夹持器；4、夹持器中心位置；5、标签。

具体实施方式

下面结合附图，对本发明的具体实施方式做详细说明，以便于本技术领域的技术人员理解本发明。但应该清楚，下文所描述的实施例仅仅是本发明的一部分实施例，而不是全部实施例。在不脱离所附的权利要求限定和确定的本发明的精神和范围内，本领域普通技术人员在没有做出任何创造性劳动所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，提供一种基于深度强化学习的机械臂旋拧阀门的自适应方法，其包括：

S1、在阀门的手轮上设置一标签5；并使其上设置有弹性垫块2的夹持器3在靠近标签5的位置夹持阀门手轮1(也即在整个旋拧阀门过程中夹持器3中心与阀门手轮1保持相对静止)，，夹持器3安装在机械臂上；

S2、根据与机械臂连接的上位机获取夹持器中心位置4P₀；

S3、通过夹持器3上安装的相机对位于标签5附近的阀门表面形貌特性进行提取，并根据表面形貌特征获取标签中心位置F_t；

S4、将夹持器中心位置4P₀和标签中心位置F_t输入阀门旋拧操作模型获得机械臂和夹持器3执行动作的指令，阀门旋拧操作模型是基于深度强化学习算法建模训练得到的；

S5、根据指令控制机械臂和夹持器3动作；

S6、动作结束后，根据上位机更新夹持器中心位置4P₀，并以此判断夹持器3中心是否到达步骤S2中获得的标签中心位置F_t，若是，执行步骤S7，若否，返回步骤S4；

S7、判断是否完成旋拧任务，若否，返回步骤S3。

实施时，本方案优选建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。

其中，步骤S7中，通过下列方法判断是否完成旋拧任务：

通过夹持器3起始中心位置P₀和夹持器3当前中心位置P₀计算夹持器中心位置4运行轨迹的第一圆心角，并将第一圆心角与上位机内部预设的第二圆心角进行比较，第一圆心角大于第二圆心角则判断完成旋拧任务。一般而言，旋拧一圈以上认为任务完成，也即预设圆心角为360°。

其中，步骤S4中，如图2所示，建模训练包括：

S401、在阀门的手轮上设置一标签5，并使其上设置有弹性垫块2的夹持器3在标签5附近夹持住阀门手轮1，夹持器3安装在机械臂上；

S402、根据与机械臂连接的上位机获取夹持器中心位置4P₀；

S403、通过夹持器3上安装的相机对位于标签5附近的阀门表面形貌特性进行提取，并根据表面形貌特征得到标签中心位置F_t、夹持器中心位置4P₀与标签中心位置F_t之间的间距D和夹持器3与阀门手轮1之间的间距L；

进一步地，步骤S403中，间距D通过以下计算方法得到：

其中，x_f和y_f为标签中心位置F_t的横纵坐标，x_p和y_p为夹持器中心位置4P₀的横纵坐标。在该训练过程的阀门旋拧过程中，默认阀门手轮1所在平面为间距D计算方法中坐标系所在水平面。

进一步地，步骤S404中，状态空间S_i通过以下方法得到：

S_i＝{D,D_bool,L,L_bool},i＝1,2,3,...

其中，D为夹持器中心位置4P₀与标签中心位置F_t之间的间距，D_bool表示间距D是否在奖励范围内，L为夹持器3与阀门手轮1之间的间距，L_bool表示间距L是否在奖励范围内；

具体地，L＝l_max-l，l＝min(l_a,l_b,l_c)其中，如图3所示，l_a、l_c和l_b分别为位于手轮所在平面的夹持器3近端边缘的两端和中点与阀门手轮1边缘之间的距离。如图4所示，l_max为l能够达到的最大值。为防止扭矩增大，导致夹持器3与阀门手轮1发生碰撞，l应保持最大。通过L＝l_max-l转换，令L数据与D的变化趋势一致。

其中，奖惩范围的计算公式为：

上式中，数值的单位为mm。

奖惩函数r通过以下方法得到：

其中，λ为第一增益参数，η为第二增益参数，D为夹持器中心位置4P₀与标签中心位置F_t之间的间距，L为夹持器3与阀门手轮1之间的间距，为奖励范围；具体地，第一增益参数λ和第二增益参数η各自的取值为0.5和2。通过奖惩函数r限制夹持器3相对于标签5的运动范围，使训练模型快速收敛以获得阀门旋拧最优策略。

采用第一增益参数λ和第二增益参数η来保证间距D和间距L之间的优先级关系。以进一步保证设备的安全。，通过添加为奖励范围对夹持器3的状态进行阶段性奖励，以此来加快训练模型的收敛速度。

动作空间a通过以下方法得到：

a＝{x,y,α}

其中，x表示夹持器中心位置4沿x轴方向运动的长度，y表示夹持器中心位置4沿y轴方向运动的长度，α表示夹持器中心位置4以夹持器3中心为旋转轴做旋转运动的角度。

进一步地，如图5和图6所示，步骤S405中，训练过程包括：

S405a、初始化夹持器中心位置4P₀和标签中心位置F_t；

S405b、初始化当前标签5跟踪事件(即控制夹持器3回到当前跟踪标签5事件的起始位置)，并获取标签中心位置F_t；

S405c、根据策略网络μ、夹持器中心位置4P₀和标签中心位置F_t，并基于动作空间a选取动作a_t，然后令机械臂和夹持器3执行动作a_t，动作a_t执行后，更新夹持器中心位置4P₀，并基于状态空间S_i获取当前状态s_t+1和前一状态s_t，并基于奖惩函数r进行评价从而获取当前状态的奖励值r_t，然后策略网络μ将(s_t,a_t,r_t,s_t+1)存入经验回放区，作为训练行为网络的数据集；经验回放区的可以减少算法的不稳定性；

S405d、根据夹持器中心位置4P₀判断夹持器3中心是否到达步骤S405b中获取的标签中心位置F_t，若是，执行步骤S405e，若否，执行步骤S405g；

S405g、训练神经网络，并判断夹持器3当前跟踪标签5的累计动作次数是否达到设定的最大步数；若是，返回步骤S405b，若否，返回步骤S405c。其中，最大步数可以根据间距D设定，也即(舍小数取整)。以进一步保证机械臂末端轨迹的合理性，同时也提高了训练效率。

其中，步骤S405c中，动作a_t通过以下方法得到：

a_t＝μ(s_t|θ^μ)

其中，μ为策略网络μ，θ为策略网络参数，s_t为状态。即在同一状态下，相同的策略(θ相同时)的动作是唯一确定的。

其中，步骤S405g中，如图3所示，训练神经网络包括：从经验回放区中随机采样N个数据，作为策略网络μ和价值网络Q的一个mini-batch训练数据，并根据mini-batch训练数据得到价值网络Q的损失函数U，从而更新价值网络Q；根据mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ；目标网络为行为网络的拷贝，采用滑动平均方法更新策略网络μ'和价值网络Q'。

单个mini-batch训练数据记为(s_i,a_i,r_i,s_i+1)，损失函数其中，i＝1,2,3…N，θ^Q为价值网络Q的策略网络参数，s_i为当前状态，y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，其中，γ为衰减系数，θ^μ′为策略网络μ'的策略网格参数，θ^Q′为价值网络Q'的策略网格参数；其中，和分别表示价值网络Q的梯度和策略网络μ的梯度。滑动平均的

Claims

1.基于深度强化学习的机械臂旋拧阀门的自适应方法，其特征在于，包括：

S1、在阀门的手轮上设置一标签(5)；并使其上设置有弹性垫块(2)的夹持器(3)在靠近标签(5)的位置夹持阀门手轮(1)，所述夹持器(3)安装在机械臂上；

S2、根据与所述机械臂连接的上位机获取夹持器中心位置(4)P₀；

S3、通过所述夹持器(3)上安装的相机对位于标签(5)附近的阀门表面形貌特性进行提取，并根据所述表面形貌特征获取标签中心位置F_t；

S4、将夹持器中心位置(4)P₀和标签中心位置F_t输入阀门旋拧操作模型获得所述机械臂和夹持器(3)执行动作的指令，所述阀门旋拧操作模型是基于深度强化学习算法建模训练得到的；

S5、根据所述指令控制机械臂和夹持器(3)动作；

S6、动作结束后，根据所述上位机更新夹持器中心位置(4)P₀，并以此判断夹持器(3)中心是否到达步骤S2中获得的标签中心位置F_t，若是，执行步骤S7，若否，返回步骤S4；

S7、判断是否完成旋拧任务，若否，返回步骤S3。

2.根据权利要求1所述的自适应方法，其特征在于，步骤S5中，所述建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。

3.根据权利要求1所述的自适应方法，其特征在于，步骤S7中，通过下列方法判断是否完成所述旋拧任务：

通过夹持器(3)起始中心位置P₀和夹持器(3)当前中心位置P₀计算夹持器中心位置(4)运行轨迹的第一圆心角，并将所述第一圆心角与上位机内部预设的第二圆心角进行比较，所述第一圆心角大于第二圆心角则判断完成所述旋拧任务。

4.根据权利要求1-3任一所述的自适应方法，其特征在于，步骤S4中，所述建模训练包括：

S401、在阀门的手轮上设置一标签(5)，并使其上设置有弹性垫块(2)的夹持器(3)在标签(5)附近夹持住阀门手轮(1)，所述夹持器(3)安装在机械臂上；

S402、根据与所述机械臂连接的上位机获取夹持器中心位置(4)P₀；

S403、通过夹持器(3)上安装的相机对位于标签(5)附近的阀门表面形貌特性进行提取，并根据所述表面形貌特征得到标签中心位置F_t、夹持器中心位置(4)P₀与标签中心位置F_t之间的间距D和夹持器(3)与阀门手轮(1)之间的间距L；

S405、根据动作空间a、奖惩函数r和状态空间S_i，并基于深度确定性策略梯度算法建立深度强化学习的神经网络，并对所述神经网络进行训练得到阀门旋拧操作模型。

5.根据权利要求4所述的自适应方法，其特征在于，步骤S403中，所述间距D通过以下计算方法得到：

其中，x_f和y_f为标签中心位置F_t的横纵坐标，x_p和y_p为夹持器中心位置(4)P₀的横纵坐标。

6.根据权利要求4所述的自适应方法，其特征在于，步骤S405中，所述神经网络包括行为网络和目标网络，所述行为网络包括策略网络μ和价值网络Q，所述目标网络包括策略网络μ'和价值网络Q'。

7.根据权利要求6所述的自适应方法，其特征在于，步骤S404中，所述状态空间S_i通过以下方法得到：

S_i＝{D,D_bool,L,L_bool},i＝1,2,3,...

其中，D为夹持器中心位置(4)P₀与标签中心位置F_t之间的间距，D_bool表示间距D是否在奖励范围内，L为夹持器(3)与阀门手轮(1)之间的间距，L_bool表示间距L是否在奖励范围内；

所述奖惩函数r通过以下方法得到：

其中，λ为第一增益参数，η为第二增益参数，D为夹持器中心位置(4)P₀与标签中心位置F_t之间的间距，L为夹持器(3)与阀门手轮(1)之间的间距，为奖励范围；

所述动作空间a通过以下方法得到：

a＝{x,y,α}

其中，x表示夹持器中心位置(4)沿x轴方向运动的长度，y表示夹持器中心位置(4)沿y轴方向运动的长度，α表示夹持器中心位置(4)以夹持器(3)中心为旋转轴做旋转运动的角度。

8.根据权利要求7所述的自适应方法，其特征在于，步骤S405中，所述训练过程包括：

S405a、初始化夹持器中心位置(4)P₀和标签中心位置F_t；

S405b、初始化当前标签(5)跟踪事件，并获取标签中心位置F_t；

S405c、根据策略网络μ、夹持器中心位置(4)P₀和标签中心位置F_t，并基于所述动作空间a选取动作a_t，然后令机械臂和夹持器(3)执行动作a_t，动作a_t执行后，更新夹持器中心位置(4)P₀，并基于所述状态空间S_i获取当前状态s_t+1和前一状态s_t，并基于所述奖惩函数r进行评价从而获取当前状态的奖励值r_t，然后策略网络μ将(s_t,a_t,r_t,s_t+1)存入经验回放区，作为训练行为网络的数据集；

S405d、根据夹持器中心位置(4)P₀判断夹持器(3)中心是否到达步骤S405b中获取的标签中心位置F_t，若是，执行步骤S405e，若否，执行步骤S405g；

S405g、训练所述神经网络，并判断夹持器(3)当前跟踪标签(5)的累计动作次数是否达到设定的最大步数；若是，返回步骤S405b，若否，返回步骤S405c。

9.根据权利要求8所述的自适应方法，其特征在于，步骤S405c中，所述动作a_t通过以下方法得到：

a_t＝μ(s_t|θ^μ)

其中，μ为策略网络μ，θ为策略网络参数，s_t为状态。

10.根据权利要求9所述的自适应方法，其特征在于，步骤S405g中，训练所述神经网络包括：从所述经验回放区中随机采样N个数据，作为策略网络μ和价值网络Q的一个mini-batch训练数据，并根据所述mini-batch训练数据得到价值网络Q的损失函数U，从而更新价值网络Q；根据所述mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ；所述目标网络为行为网络的拷贝，采用滑动平均方法更新策略网络μ'和价值网络Q'。