CN110053053A - 基于深度强化学习的机械臂旋拧阀门的自适应方法 - Google Patents

基于深度强化学习的机械臂旋拧阀门的自适应方法 Download PDF

Info

Publication number
CN110053053A
CN110053053A CN201910513350.0A CN201910513350A CN110053053A CN 110053053 A CN110053053 A CN 110053053A CN 201910513350 A CN201910513350 A CN 201910513350A CN 110053053 A CN110053053 A CN 110053053A
Authority
CN
China
Prior art keywords
clamper
network
center
valve
hub position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910513350.0A
Other languages
English (en)
Other versions
CN110053053B (zh
Inventor
刘满禄
李新茂
张华�
张静
周建
张敦凤
周祺杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201910513350.0A priority Critical patent/CN110053053B/zh
Publication of CN110053053A publication Critical patent/CN110053053A/zh
Application granted granted Critical
Publication of CN110053053B publication Critical patent/CN110053053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的机械臂旋拧阀门的自适应方法,属于机器学习领域。该自适应方法包括:S1、在阀门的手轮上设置一标签;并使其上设置有弹性垫块的夹持器在靠近标签的位置夹持阀门手轮,所述夹持器安装在机械臂上;S2、根获取夹持器中心位置P0;S3、获取标签中心位置Ft;S4、将夹持器中心位置P0和标签中心位置Ft输入阀门旋拧操作模型获得所述机械臂和夹持器执行动作的指令;S5、根据所述指令控制机械臂和夹持器动作;S6、动作结束后,根据所述上位机更新夹持器中心位置P0,并以此判断夹持器中心是否到达标签中心位置Ft,若是,执行步骤S7,若否,返回步骤S4;S7、判断是否完成旋拧任务,若否,返回步骤S3。

Description

基于深度强化学习的机械臂旋拧阀门的自适应方法
技术领域
本发明涉及机器学习领域,具体涉及一种基于深度强化学习的机械臂旋拧阀门的自适应方法。
背景技术
危险环境作业中,采用机器人进行远程作业已经被国际社会广泛认可,而针对危险环境下的阀门旋拧作业,一般通过遥操作或视觉引导完成机械臂对阀门夹持的基础上,采用传统的示教或编程的控制方法执行后续旋拧任务。而传统的示教或编程的控制方法执行后续旋拧任务的适应性较差。
发明内容
针对现有技术中的上述不足,本发明旨在提供一种能够提高机械臂后续旋拧任务适应性的基于深度强化学习的机械臂旋拧阀门的自适应方法。
为了达到上述发明创造的目的,本发明采用的技术方案为:
提供一种基于深度强化学习的机械臂旋拧阀门的自适应方法,其包括:
S1、在阀门的手轮上设置一标签;并使其上设置有弹性垫块的夹持器在靠近标签的位置夹持阀门手轮,夹持器安装在机械臂上;
S2、根据与机械臂连接的上位机获取夹持器中心位置P0
S3、通过夹持器上安装的相机对位于标签附近的阀门表面形貌特性进行提取,并根据表面形貌特征获取标签中心位置Ft
S4、将夹持器中心位置P0和标签中心位置Ft输入阀门旋拧操作模型获得机械臂和夹持器执行动作的指令,阀门旋拧操作模型是基于深度强化学习算法建模训练得到的;
S5、根据指令控制机械臂和夹持器动作;
S6、动作结束后,根据上位机更新夹持器中心位置P0,并以此判断夹持器中心是否到达步骤S2中获得的标签中心位置Ft,若是,执行步骤S7,若否,返回步骤S4;
S7、判断是否完成旋拧任务,若否,返回步骤S3。
进一步地,步骤S5中,建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。
进一步地,步骤S7中,通过下列方法判断是否完成旋拧任务:
通过夹持器起始中心位置P0和夹持器当前中心位置P0计算夹持器中心位置运行轨迹的第一圆心角,并将第一圆心角与上位机内部预设的第二圆心角进行比较,第一圆心角大于第二圆心角则判断完成旋拧任务。
进一步地,步骤S4中,建模训练包括:
S401、在阀门的手轮上设置一标签,并使其上设置有弹性垫块的夹持器在标签附近夹持住阀门手轮,夹持器安装在机械臂上;
S402、根据与机械臂连接的上位机获取夹持器中心位置P0
S403、通过夹持器上安装的相机对位于标签附近的阀门表面形貌特性进行提取,并根据表面形貌特征得到标签中心位置Ft、夹持器中心位置P0与标签中心位置Ft之间的间距D和夹持器与阀门手轮之间的间距L;
S404、定义动作空间a,并根据间距D和间距L定义奖惩函数r,根据奖惩函数r和间距D定义状态空间Si
S405、根据动作空间a、奖惩函数r和状态空间Si,并基于深度确定性策略梯度算法建立深度强化学习的神经网络,并对神经网络进行训练得到阀门旋拧操作模型。
进一步地,步骤S403中,间距D通过以下计算方法得到:
其中,xf和yf为标签中心位置Ft的横纵坐标,xp和yp为夹持器中心位置P0的横纵坐标。
进一步地,步骤S405中,神经网络包括行为网络和目标网络,行为网络包括策略网络μ和价值网络Q,目标网络包括策略网络μ'和价值网络Q'。
进一步地,步骤S404中,状态空间Si通过以下方法得到:
Si={D,Dbool,L,Lbool},i=1,2,3,...
其中,D为夹持器中心位置P0与标签中心位置Ft之间的间距,Dbool表示间距D是否在奖励范围内,L为夹持器与阀门手轮之间的间距,Lbool表示间距L是否在奖励范围内;
奖惩函数r通过以下方法得到:
其中,λ为第一增益参数,η为第二增益参数,D为夹持器中心位置P0与标签中心位置Ft之间的间距,L为夹持器与阀门手轮之间的间距,为奖励范围;
动作空间a通过以下方法得到:
a={x,y,α}
其中,x表示夹持器中心位置沿x轴方向运动的长度,y表示夹持器中心位置沿y轴方向运动的长度,α表示夹持器中心位置以夹持器中心为旋转轴做旋转运动的角度。
进一步地,步骤S405中,训练过程包括:
S405a、初始化夹持器中心位置P0和标签中心位置Ft
S405b、初始化当前标签跟踪事件,并获取标签中心位置Ft
S405c、根据策略网络μ、夹持器中心位置P0和标签中心位置Ft,并基于动作空间a选取动作at,然后令机械臂和夹持器执行动作at,动作at执行后,更新夹持器中心位置P0,并基于状态空间Si获取当前状态st+1和前一状态st,并基于奖惩函数r进行评价从而获取当前状态的奖励值rt,然后策略网络μ将(st,at,rt,st+1)存入经验回放区,作为训练行为网络的数据集;
S405d、根据夹持器中心位置P0判断夹持器中心是否到达步骤S405b中获取的标签中心位置Ft,若是,执行步骤S405e,若否,执行步骤S405g;
S405e、判断是否完成旋拧任务,若是,执行步骤S405f,若否,更新标签中心位置Ft后,执行步骤S405g;
S405f、判断步骤S405g中训练循环次数是否达到设定次数,若是,训练过程结束,并输出阀门旋拧操作模型,若否,返回步骤S405a;
S405g、训练神经网络,并判断夹持器当前跟踪标签的累计动作次数是否达到设定的最大步数;若是,返回步骤S405b,若否,返回步骤S405c。
进一步地,步骤S405c中,动作at通过以下方法得到:
at=μ(stμ)
其中,μ为策略网络μ,θ为策略网络参数,st为状态。
进一步地,步骤S405g中,训练神经网络包括:从经验回放区中随机采样N个数据,作为策略网络μ和价值网络Q的一个mini-batch训练数据,并根据mini-batch训练数据得到价值网络Q的损失函数U,从而更新价值网络Q;根据mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ;目标网络为行为网络的拷贝,采用滑动平均方法更新策略网络μ'和价值网络Q'。
本发明的有益效果为:
在阀门旋拧过程中,夹持器中心位置与标签中心位置相对静止,当夹持器中心位置到达上一次更新得到的标签中心位置后,再更新标签中心位置,如此循环,通过跟踪标签中心位置间接实现旋拧阀门的任务,即阀门旋拧动作在夹持器不断靠近标签的过程中完成。
通过基于深度强化学习算法建模训练得到的阀门旋拧操作模型,并结合本方案提出的标签中心位置跟踪,使得本方案设计的基于深度强化学习的机械臂旋拧阀门的自适应方法不局限于阀门的形状和位置,大大提高了阀门旋拧任务的适应性,适宜推广应用。
附图说明
图1为具体实施例中,自适应方法的应用流程图;
图2为具体实施例中,自适应方法中建模训练的数据采集过程示意图;
图3为夹持器与局部阀门手轮的结构示意图;
图4为夹持器动作过程与局部阀门手轮的结构示意图;
图5为具体实施例中,自适应方法中训练过程的流程图;
图6为具体实施例中,自适应方法中算法的结构图。
其中,1、阀门手轮;2、弹性垫块;3、夹持器;4、夹持器中心位置;5、标签。
具体实施方式
下面结合附图,对本发明的具体实施方式做详细说明,以便于本技术领域的技术人员理解本发明。但应该清楚,下文所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例。在不脱离所附的权利要求限定和确定的本发明的精神和范围内,本领域普通技术人员在没有做出任何创造性劳动所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,提供一种基于深度强化学习的机械臂旋拧阀门的自适应方法,其包括:
S1、在阀门的手轮上设置一标签5;并使其上设置有弹性垫块2的夹持器3在靠近标签5的位置夹持阀门手轮1(也即在整个旋拧阀门过程中夹持器3中心与阀门手轮1保持相对静止),,夹持器3安装在机械臂上;
S2、根据与机械臂连接的上位机获取夹持器中心位置4P0
S3、通过夹持器3上安装的相机对位于标签5附近的阀门表面形貌特性进行提取,并根据表面形貌特征获取标签中心位置Ft
S4、将夹持器中心位置4P0和标签中心位置Ft输入阀门旋拧操作模型获得机械臂和夹持器3执行动作的指令,阀门旋拧操作模型是基于深度强化学习算法建模训练得到的;
S5、根据指令控制机械臂和夹持器3动作;
S6、动作结束后,根据上位机更新夹持器中心位置4P0,并以此判断夹持器3中心是否到达步骤S2中获得的标签中心位置Ft,若是,执行步骤S7,若否,返回步骤S4;
S7、判断是否完成旋拧任务,若否,返回步骤S3。
实施时,本方案优选建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。
其中,步骤S7中,通过下列方法判断是否完成旋拧任务:
通过夹持器3起始中心位置P0和夹持器3当前中心位置P0计算夹持器中心位置4运行轨迹的第一圆心角,并将第一圆心角与上位机内部预设的第二圆心角进行比较,第一圆心角大于第二圆心角则判断完成旋拧任务。一般而言,旋拧一圈以上认为任务完成,也即预设圆心角为360°。
其中,步骤S4中,如图2所示,建模训练包括:
S401、在阀门的手轮上设置一标签5,并使其上设置有弹性垫块2的夹持器3在标签5附近夹持住阀门手轮1,夹持器3安装在机械臂上;
S402、根据与机械臂连接的上位机获取夹持器中心位置4P0
S403、通过夹持器3上安装的相机对位于标签5附近的阀门表面形貌特性进行提取,并根据表面形貌特征得到标签中心位置Ft、夹持器中心位置4P0与标签中心位置Ft之间的间距D和夹持器3与阀门手轮1之间的间距L;
S404、定义动作空间a,并根据间距D和间距L定义奖惩函数r,根据奖惩函数r和间距D定义状态空间Si
S405、根据动作空间a、奖惩函数r和状态空间Si,并基于深度确定性策略梯度算法建立深度强化学习的神经网络,并对神经网络进行训练得到阀门旋拧操作模型。
进一步地,步骤S403中,间距D通过以下计算方法得到:
其中,xf和yf为标签中心位置Ft的横纵坐标,xp和yp为夹持器中心位置4P0的横纵坐标。在该训练过程的阀门旋拧过程中,默认阀门手轮1所在平面为间距D计算方法中坐标系所在水平面。
进一步地,步骤S405中,神经网络包括行为网络和目标网络,行为网络包括策略网络μ和价值网络Q,目标网络包括策略网络μ'和价值网络Q'。
进一步地,步骤S404中,状态空间Si通过以下方法得到:
Si={D,Dbool,L,Lbool},i=1,2,3,...
其中,D为夹持器中心位置4P0与标签中心位置Ft之间的间距,Dbool表示间距D是否在奖励范围内,L为夹持器3与阀门手轮1之间的间距,Lbool表示间距L是否在奖励范围内;
具体地,L=lmax-l,l=min(la,lb,lc)其中,如图3所示,la、lc和lb分别为位于手轮所在平面的夹持器3近端边缘的两端和中点与阀门手轮1边缘之间的距离。如图4所示,lmax为l能够达到的最大值。为防止扭矩增大,导致夹持器3与阀门手轮1发生碰撞,l应保持最大。通过L=lmax-l转换,令L数据与D的变化趋势一致。
其中,奖惩范围的计算公式为:
上式中,数值的单位为mm。
奖惩函数r通过以下方法得到:
其中,λ为第一增益参数,η为第二增益参数,D为夹持器中心位置4P0与标签中心位置Ft之间的间距,L为夹持器3与阀门手轮1之间的间距,为奖励范围;具体地,第一增益参数λ和第二增益参数η各自的取值为0.5和2。通过奖惩函数r限制夹持器3相对于标签5的运动范围,使训练模型快速收敛以获得阀门旋拧最优策略。
采用第一增益参数λ和第二增益参数η来保证间距D和间距L之间的优先级关系。以进一步保证设备的安全。,通过添加为奖励范围对夹持器3的状态进行阶段性奖励,以此来加快训练模型的收敛速度。
动作空间a通过以下方法得到:
a={x,y,α}
其中,x表示夹持器中心位置4沿x轴方向运动的长度,y表示夹持器中心位置4沿y轴方向运动的长度,α表示夹持器中心位置4以夹持器3中心为旋转轴做旋转运动的角度。
进一步地,如图5和图6所示,步骤S405中,训练过程包括:
S405a、初始化夹持器中心位置4P0和标签中心位置Ft
S405b、初始化当前标签5跟踪事件(即控制夹持器3回到当前跟踪标签5事件的起始位置),并获取标签中心位置Ft
S405c、根据策略网络μ、夹持器中心位置4P0和标签中心位置Ft,并基于动作空间a选取动作at,然后令机械臂和夹持器3执行动作at,动作at执行后,更新夹持器中心位置4P0,并基于状态空间Si获取当前状态st+1和前一状态st,并基于奖惩函数r进行评价从而获取当前状态的奖励值rt,然后策略网络μ将(st,at,rt,st+1)存入经验回放区,作为训练行为网络的数据集;经验回放区的可以减少算法的不稳定性;
S405d、根据夹持器中心位置4P0判断夹持器3中心是否到达步骤S405b中获取的标签中心位置Ft,若是,执行步骤S405e,若否,执行步骤S405g;
S405e、判断是否完成旋拧任务,若是,执行步骤S405f,若否,更新标签中心位置Ft后,执行步骤S405g;
S405f、判断步骤S405g中训练循环次数是否达到设定次数,若是,训练过程结束,并输出阀门旋拧操作模型,若否,返回步骤S405a;
S405g、训练神经网络,并判断夹持器3当前跟踪标签5的累计动作次数是否达到设定的最大步数;若是,返回步骤S405b,若否,返回步骤S405c。其中,最大步数可以根据间距D设定,也即(舍小数取整)。以进一步保证机械臂末端轨迹的合理性,同时也提高了训练效率。
其中,步骤S405c中,动作at通过以下方法得到:
at=μ(stμ)
其中,μ为策略网络μ,θ为策略网络参数,st为状态。即在同一状态下,相同的策略(θ相同时)的动作是唯一确定的。
其中,步骤S405g中,如图3所示,训练神经网络包括:从经验回放区中随机采样N个数据,作为策略网络μ和价值网络Q的一个mini-batch训练数据,并根据mini-batch训练数据得到价值网络Q的损失函数U,从而更新价值网络Q;根据mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ;目标网络为行为网络的拷贝,采用滑动平均方法更新策略网络μ'和价值网络Q'。
单个mini-batch训练数据记为(si,ai,ri,si+1),损失函数其中,i=1,2,3…N,θQ为价值网络Q的策略网络参数,si为当前状态,yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),其中,γ为衰减系数,θμ′为策略网络μ'的策略网格参数,θQ′为价值网络Q'的策略网格参数;其中,分别表示价值网络Q的梯度和策略网络μ的梯度。滑动平均的

Claims (10)

1.基于深度强化学习的机械臂旋拧阀门的自适应方法,其特征在于,包括:
S1、在阀门的手轮上设置一标签(5);并使其上设置有弹性垫块(2)的夹持器(3)在靠近标签(5)的位置夹持阀门手轮(1),所述夹持器(3)安装在机械臂上;
S2、根据与所述机械臂连接的上位机获取夹持器中心位置(4)P0
S3、通过所述夹持器(3)上安装的相机对位于标签(5)附近的阀门表面形貌特性进行提取,并根据所述表面形貌特征获取标签中心位置Ft
S4、将夹持器中心位置(4)P0和标签中心位置Ft输入阀门旋拧操作模型获得所述机械臂和夹持器(3)执行动作的指令,所述阀门旋拧操作模型是基于深度强化学习算法建模训练得到的;
S5、根据所述指令控制机械臂和夹持器(3)动作;
S6、动作结束后,根据所述上位机更新夹持器中心位置(4)P0,并以此判断夹持器(3)中心是否到达步骤S2中获得的标签中心位置Ft,若是,执行步骤S7,若否,返回步骤S4;
S7、判断是否完成旋拧任务,若否,返回步骤S3。
2.根据权利要求1所述的自适应方法,其特征在于,步骤S5中,所述建模训练为利用马尔科夫决策过程对阀门旋拧最优策略问题建模并计算最优解。
3.根据权利要求1所述的自适应方法,其特征在于,步骤S7中,通过下列方法判断是否完成所述旋拧任务:
通过夹持器(3)起始中心位置P0和夹持器(3)当前中心位置P0计算夹持器中心位置(4)运行轨迹的第一圆心角,并将所述第一圆心角与上位机内部预设的第二圆心角进行比较,所述第一圆心角大于第二圆心角则判断完成所述旋拧任务。
4.根据权利要求1-3任一所述的自适应方法,其特征在于,步骤S4中,所述建模训练包括:
S401、在阀门的手轮上设置一标签(5),并使其上设置有弹性垫块(2)的夹持器(3)在标签(5)附近夹持住阀门手轮(1),所述夹持器(3)安装在机械臂上;
S402、根据与所述机械臂连接的上位机获取夹持器中心位置(4)P0
S403、通过夹持器(3)上安装的相机对位于标签(5)附近的阀门表面形貌特性进行提取,并根据所述表面形貌特征得到标签中心位置Ft、夹持器中心位置(4)P0与标签中心位置Ft之间的间距D和夹持器(3)与阀门手轮(1)之间的间距L;
S404、定义动作空间a,并根据间距D和间距L定义奖惩函数r,根据奖惩函数r和间距D定义状态空间Si
S405、根据动作空间a、奖惩函数r和状态空间Si,并基于深度确定性策略梯度算法建立深度强化学习的神经网络,并对所述神经网络进行训练得到阀门旋拧操作模型。
5.根据权利要求4所述的自适应方法,其特征在于,步骤S403中,所述间距D通过以下计算方法得到:
其中,xf和yf为标签中心位置Ft的横纵坐标,xp和yp为夹持器中心位置(4)P0的横纵坐标。
6.根据权利要求4所述的自适应方法,其特征在于,步骤S405中,所述神经网络包括行为网络和目标网络,所述行为网络包括策略网络μ和价值网络Q,所述目标网络包括策略网络μ'和价值网络Q'。
7.根据权利要求6所述的自适应方法,其特征在于,步骤S404中,所述状态空间Si通过以下方法得到:
Si={D,Dbool,L,Lbool},i=1,2,3,...
其中,D为夹持器中心位置(4)P0与标签中心位置Ft之间的间距,Dbool表示间距D是否在奖励范围内,L为夹持器(3)与阀门手轮(1)之间的间距,Lbool表示间距L是否在奖励范围内;
所述奖惩函数r通过以下方法得到:
其中,λ为第一增益参数,η为第二增益参数,D为夹持器中心位置(4)P0与标签中心位置Ft之间的间距,L为夹持器(3)与阀门手轮(1)之间的间距,为奖励范围;
所述动作空间a通过以下方法得到:
a={x,y,α}
其中,x表示夹持器中心位置(4)沿x轴方向运动的长度,y表示夹持器中心位置(4)沿y轴方向运动的长度,α表示夹持器中心位置(4)以夹持器(3)中心为旋转轴做旋转运动的角度。
8.根据权利要求7所述的自适应方法,其特征在于,步骤S405中,所述训练过程包括:
S405a、初始化夹持器中心位置(4)P0和标签中心位置Ft
S405b、初始化当前标签(5)跟踪事件,并获取标签中心位置Ft
S405c、根据策略网络μ、夹持器中心位置(4)P0和标签中心位置Ft,并基于所述动作空间a选取动作at,然后令机械臂和夹持器(3)执行动作at,动作at执行后,更新夹持器中心位置(4)P0,并基于所述状态空间Si获取当前状态st+1和前一状态st,并基于所述奖惩函数r进行评价从而获取当前状态的奖励值rt,然后策略网络μ将(st,at,rt,st+1)存入经验回放区,作为训练行为网络的数据集;
S405d、根据夹持器中心位置(4)P0判断夹持器(3)中心是否到达步骤S405b中获取的标签中心位置Ft,若是,执行步骤S405e,若否,执行步骤S405g;
S405e、判断是否完成旋拧任务,若是,执行步骤S405f,若否,更新标签中心位置Ft后,执行步骤S405g;
S405f、判断步骤S405g中训练循环次数是否达到设定次数,若是,训练过程结束,并输出阀门旋拧操作模型,若否,返回步骤S405a;
S405g、训练所述神经网络,并判断夹持器(3)当前跟踪标签(5)的累计动作次数是否达到设定的最大步数;若是,返回步骤S405b,若否,返回步骤S405c。
9.根据权利要求8所述的自适应方法,其特征在于,步骤S405c中,所述动作at通过以下方法得到:
at=μ(stμ)
其中,μ为策略网络μ,θ为策略网络参数,st为状态。
10.根据权利要求9所述的自适应方法,其特征在于,步骤S405g中,训练所述神经网络包括:从所述经验回放区中随机采样N个数据,作为策略网络μ和价值网络Q的一个mini-batch训练数据,并根据所述mini-batch训练数据得到价值网络Q的损失函数U,从而更新价值网络Q;根据所述mini-batch训练数据得到策略网络μ的策略梯度从而更新策略网络μ;所述目标网络为行为网络的拷贝,采用滑动平均方法更新策略网络μ'和价值网络Q'。
CN201910513350.0A 2019-06-14 2019-06-14 基于深度强化学习的机械臂旋拧阀门的自适应方法 Active CN110053053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910513350.0A CN110053053B (zh) 2019-06-14 2019-06-14 基于深度强化学习的机械臂旋拧阀门的自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910513350.0A CN110053053B (zh) 2019-06-14 2019-06-14 基于深度强化学习的机械臂旋拧阀门的自适应方法

Publications (2)

Publication Number Publication Date
CN110053053A true CN110053053A (zh) 2019-07-26
CN110053053B CN110053053B (zh) 2022-04-12

Family

ID=67325842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910513350.0A Active CN110053053B (zh) 2019-06-14 2019-06-14 基于深度强化学习的机械臂旋拧阀门的自适应方法

Country Status (1)

Country Link
CN (1) CN110053053B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110653835A (zh) * 2019-10-25 2020-01-07 深圳中科捷飞科技有限公司 计量间机器人、计量间机器人系统、计量间量油测产方法
CN110653834A (zh) * 2019-10-25 2020-01-07 深圳中科捷飞科技有限公司 计量间机器人、计量间机器人系统、计量间量油测产方法
CN112894808A (zh) * 2021-01-15 2021-06-04 山东大学 一种基于深度强化学习的机器人旋拧阀门系统及方法
CN113050565A (zh) * 2021-03-12 2021-06-29 北京航空航天大学杭州创新研究院 闸门控制方法和装置、电子设备及存储介质
CN114322775A (zh) * 2022-01-06 2022-04-12 深圳威洛博机器人有限公司 一种机器人视觉定位系统及视觉定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150070503A1 (en) * 2002-06-04 2015-03-12 General Electric Company Video system and method for data communication
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
US20180243904A1 (en) * 2013-03-15 2018-08-30 X Development Llc Object Pickup Strategies for a Robotic Device
US20180361586A1 (en) * 2014-11-14 2018-12-20 General Electric Company Locomotive control system with task manager
CN109260637A (zh) * 2018-09-10 2019-01-25 武汉杰威信息技术有限公司 一种智能消防栓

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150070503A1 (en) * 2002-06-04 2015-03-12 General Electric Company Video system and method for data communication
US20180243904A1 (en) * 2013-03-15 2018-08-30 X Development Llc Object Pickup Strategies for a Robotic Device
US20180361586A1 (en) * 2014-11-14 2018-12-20 General Electric Company Locomotive control system with task manager
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109260637A (zh) * 2018-09-10 2019-01-25 武汉杰威信息技术有限公司 一种智能消防栓

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHISHEK GUPTA等: "Learning Dexterous Manipulation for a Soft Robotic Hand from Human Demonstrations"", 《IEEE》 *
SHIN’ICHIRO等: "Developing Semi-Autonomous Humanoid Robots that Perform Various Composite Tasks via a Task Sequencer and Dynamics Simulator", 《IEEE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110653835A (zh) * 2019-10-25 2020-01-07 深圳中科捷飞科技有限公司 计量间机器人、计量间机器人系统、计量间量油测产方法
CN110653834A (zh) * 2019-10-25 2020-01-07 深圳中科捷飞科技有限公司 计量间机器人、计量间机器人系统、计量间量油测产方法
CN110653835B (zh) * 2019-10-25 2021-05-11 深圳中科捷飞科技有限公司 计量间量油测产方法
CN110653834B (zh) * 2019-10-25 2021-05-11 深圳中科捷飞科技有限公司 计量间量油测产方法
CN112894808A (zh) * 2021-01-15 2021-06-04 山东大学 一种基于深度强化学习的机器人旋拧阀门系统及方法
CN113050565A (zh) * 2021-03-12 2021-06-29 北京航空航天大学杭州创新研究院 闸门控制方法和装置、电子设备及存储介质
CN114322775A (zh) * 2022-01-06 2022-04-12 深圳威洛博机器人有限公司 一种机器人视觉定位系统及视觉定位方法
CN114322775B (zh) * 2022-01-06 2022-11-11 深圳威洛博机器人有限公司 一种机器人视觉定位系统及视觉定位方法

Also Published As

Publication number Publication date
CN110053053B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110053053A (zh) 基于深度强化学习的机械臂旋拧阀门的自适应方法
CN106426164B (zh) 一种冗余度双机械臂的多指标协调运动规划方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN104841593B (zh) 一种机器人自动喷涂系统的控制方法
CN108673509B (zh) 一种六自由度手腕偏置型串联机械臂的运动控制方法
CN104908040B (zh) 一种冗余度机械臂加速度层的容错规划方法
CN113601512B (zh) 一种机械臂奇异点的通用规避方法与系统
CN106737670B (zh) 一种具有抗噪特性的冗余度机械臂重复运动规划方法
CN107378952B (zh) 一种冗余度机械臂末端执行器姿态保持的解决方法
CN110046800A (zh) 面向空间目标协同观测的卫星集群构形调整规划方法
CN110682286A (zh) 一种协作机器人实时避障方法
CN110154023A (zh) 一种基于运动学分析的多臂协同焊接机器人控制方法
CN114063570B (zh) 机器人喷涂控制方法、装置、电子设备及存储介质
CN109344477A (zh) 一种6自由度机械臂逆运动学求解方法
CN109866222A (zh) 一种基于天牛须优化策略的机械臂运动规划方法
Gao et al. Time-optimal trajectory planning of industrial robots based on particle swarm optimization
CN110695994B (zh) 一种面向双臂机械手协同重复运动的有限时间规划方法
CN110014427A (zh) 一种基于伪逆的冗余度机械臂高精度运动规划方法
CN110695494B (zh) 波纹板外部轴跟踪系统及其方法
CN113967909B (zh) 基于方向奖励的机械臂智能控制方法
CN114800523B (zh) 机械臂轨迹修正方法、系统、计算机及可读存储介质
CN110434854A (zh) 一种基于数据驱动的冗余度机械臂视觉伺服控制方法与装置
CN114012733A (zh) 一种用于pc构件模具划线的机械臂控制方法
KR102281119B1 (ko) 강화학습을 이용한 7축 로봇 제어 방법
CN109648567A (zh) 一种具有容噪特性的冗余度机械臂高精度规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant