CN114603564A - 机械臂导航避障方法、系统、计算机设备及存储介质 - Google Patents

机械臂导航避障方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114603564A
CN114603564A CN202210462455.XA CN202210462455A CN114603564A CN 114603564 A CN114603564 A CN 114603564A CN 202210462455 A CN202210462455 A CN 202210462455A CN 114603564 A CN114603564 A CN 114603564A
Authority
CN
China
Prior art keywords
mechanical arm
model
obstacle avoidance
reinforcement learning
navigation obstacle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210462455.XA
Other languages
English (en)
Other versions
CN114603564B (zh
Inventor
闫冬
陈盛
王新迎
赵琦
谈元鹏
吴凯
郭锐
李勇
许乃媛
李笋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI, State Grid Shandong Electric Power Co Ltd, Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN202210462455.XA priority Critical patent/CN114603564B/zh
Publication of CN114603564A publication Critical patent/CN114603564A/zh
Application granted granted Critical
Publication of CN114603564B publication Critical patent/CN114603564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于人工智能技术领域,公开了一种机械臂导航避障方法、系统、计算机设备及存储介质,包括:获取机械臂当前的状态张量;将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;根据机械臂的决策动作轨迹,控制机械臂运行。基于导航规划算法作先验指导,使模型具备一定的基础隐性知识,能够使机械臂适应不同种类的障碍环境,能够快速训练并顺利迁移至实际环境使用,避免复杂的奖励体系构建,极大的提升了训练速度,降低资源消耗。

Description

机械臂导航避障方法、系统、计算机设备及存储介质
技术领域
本发明属于人工智能技术领域,涉及一种机械臂导航避障方法、系统、计算机设备及存储介质。
背景技术
深度强化学习技术是实现机器人智能控制的核心技术,目前在人形机器人行走、多臂机器人行走以及机械臂抓取等任务上取得了突破进展。深度强化学习技术的应用需要与一个可交互环境建立策略尝试及反馈机制,需要不断地将智能体最新策略输入到交互环境中,通过交互环境给出的反馈结果确定策略的提升方向,在大量交互经验的基础上,构建可实现实时端到端决策的智能体,通常使用深度神经网络作为这一策略的载体。
机器人控制问题非常适合深度强化学习应用。其一,完备的仿真交互平台能够天然的作为可交互环境存在,而高精度仿真环境保证了策略交互的真实性,便于后期智能体直接向真实环境迁移。其二,机器人控制往往涉及多变量以及难以精确动力学建模的问题,而基于深度强化学习正好可以克服这一难题,继而为机器人适应不同环境提供了可能。
但是,深度强化学习训练容易受问题复杂度和反馈信息稀疏程度影响,遇到复杂随机多变的环境不能有效收敛,而机械臂导航避障的工作环境正是一种复杂随机多变的环境,应用深度强化学习时需要构建复杂的奖励体系,这使得深度强化学习难以有效应用至机械臂导航避障中。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种机械臂导航避障方法、系统、计算机设备及存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种机械臂导航避障方法,包括:
获取机械臂当前的状态张量;
将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
根据机械臂的决策动作轨迹,控制机械臂运行。
可选的,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标以及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达以及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
可选的,所述机械臂导航避障深度强化学习模型通过下述方法构建得到:
获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;
当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;
否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
可选的,所述初始机械臂导航避障深度强化学习模型通过下述方法构建得到:
基于预设的导航规划算法,获取模仿学习环境中各预设作业场景下,机械臂导航避障的专家样本;
构建生成器模型,生成器模型中包括结构相同的新生成器网络和旧生成器网络,旧生成器网络的参数由新生成器网络的参数延迟更新得到,旧生成器网络的参数用于辅助更新新生成器网络的参数,新生成器网络以机械臂的状态张量为输入,以机械臂在当前状态张量下的决策动作为输出;
构建以机械臂的状态张量和在当前状态张量下的决策动作为输入,以当前决策动作最终能够实现合理路径规划的概率值为输出的判别器模型;
构建以机械臂的状态张量为输入,以机械臂的状态张量的价值函数值为输出的评价器模型;
基于生成器模型,获取模仿学习环境中各预设作业场景下,机械臂导航避障的生成样本;
通过所述专家样本和所述生成样本,训练生成器模型、判别器模型和评价器模型,至预设的训练完成依据条件,得到训练完成的生成器模型和评价器模型;
构建以机械臂当前的状态张量为输入,以机械臂的决策动作轨迹为输出的初始深度强化学习模型,并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器,采用训练完成的评价器模型替换初始深度强化学习模型中的评价器,得到初始机械臂导航避障深度强化学习模型。
可选的,所述训练生成器模型、判别器模型和评价器模型时,生成器模型的目标函数为:
Figure BDA0003622572270000041
其中,
Figure BDA0003622572270000042
Dω表示判别器模型的输出,ω表示判别器模型的参数,τG表示生成样本的决策动作轨迹,clip表示将ratio限制在(1-ε,1+ε)范围中,ε表示超参数,π表示策略函数,θ表示新生成器网络的参数,θold表示旧生成器网络的参数,θ按照预设的固定频率更新至θold
判别器模型的目标函数为:
Figure BDA0003622572270000043
其中,E表示期望算符,τE表示专家样本的决策动作轨迹,st表示机械臂t时刻的状态张量,at表示机械臂t时刻的状态张量下的决策动作;
评价器模型的目标函数为:
minEτ[(rt(st)+Vφ(st+1)-Vφ(st))2]
其中,τ表示抽样的生成样本的决策动作轨迹或专家样本的决策动作轨迹,rt机械臂t时刻的状态张量对应的奖励函数,Vφ表示评价器模型的输出,φ表示评价器模型的参数,st+1表示机械臂t+1时刻的状态张量。
可选的,所述基于PPO算法训练初始机械臂导航避障深度强化学习模型时,初始机械臂导航避障深度强化学习模型中的行动器的目标函数为:
Figure BDA0003622572270000044
其中,
Figure BDA0003622572270000051
Aφ(st,at)=rt(st)+Vφ(st+1)-Vφ(st)。
可选的,所述机械臂t时刻的状态张量对应的奖励函数为:
Figure BDA0003622572270000052
其中,ηn表示机械臂n与障碍物是否发生碰撞,取值为1时表示发生碰撞,取值为0时表示未发生碰撞;ηtar表示目标点是否到达,取值为1时表示到达,取值为0时表示未到达;dt表示机械臂t时刻机械臂末端到目标点的距离;
所述预设的训练完成依据条件为判别器模型的输出收敛于0.5、判别器模型相邻两次训练的损失函数值误差在第一预设误差内以及生成器模型相邻两次训练的目标函数值误差在第二预设误差内。
本发明第二方面,一种机械臂导航避障系统,包括:
获取模块,用于获取机械臂当前的状态张量;
决策模块,用于将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
控制模块,用于根据机械臂的决策动作轨迹,控制机械臂运行。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述机械臂导航避障方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述机械臂导航避障方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明机械臂导航避障方法,通过获取机械臂当前的状态张量,然后利用机械臂导航避障深度强化学习模型,根据机械臂当前的状态张量实现机械臂的决策动作轨迹的预测,继而根据机械臂的决策动作轨迹,控制机械臂运行,有效实现机械臂导航避障。其中,机械臂导航避障深度强化学习模型基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到,基于导航规划算法作先验指导,使模型具备一定的基础隐性知识,能够使机械臂适应不同种类的障碍环境,能够快速训练并顺利迁移至实际环境使用,避免复杂的奖励体系构建,极大的提升了训练速度,降低资源消耗。
附图说明
图1为本发明的机械臂导航避障方法流程图;
图2为本发明的初始机械臂导航避障深度强化学习模型构建原理示意图;
图3为本发明的生成器模型结构框图;
图4为本发明的判别器模型结构框图;
图5为本发明的评价器模型结构框图;
图6为本发明的初始机械臂导航避障深度强化学习模型串行训练流程图;
图7为本发明的生成器模型移植应用示意图;
图8为本发明的机械臂导航避障系统结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一实施例中,提供一种机械臂导航避障方法,避免复杂的奖励体系构建,基于导航规划算法作先验指导,使机械臂能够适应不同种类的障碍环境,能够快速训练并顺利迁移至实际环境使用。具体的,该机械臂导航避障方法包括以下步骤:
S1:获取机械臂当前的状态张量。
S2:将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到。
S3:根据机械臂的决策动作轨迹,控制机械臂运行。
所述步骤S1中,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
具体的,在应用该机械臂导航避障方法前,需要完整的机械臂仿真作支撑,仿真需具备对机械臂本体、作业场景障碍物及作业目标点位进行建模。其中,机械臂本体建模主要包括机械臂臂体及机械臂关节等核心部件建模,机械臂臂体为刚体,且可响应机械臂关节转角变化改变自身空间位置,作业场景障碍物建模主要包括对不同空间形状的非目标物体建模,通常以封闭的空间几何刚体表示,目标点建模指在作业空间中建立欧式坐标系并设定某点为机械臂末端目标位置的能力,可以获取该点相对全局坐标系的三维坐标。
对信息的描述主要包括机械臂正运动学模型、机械臂逆运动学模型、空间网格化、障碍物属性描述、目标点属性描述以及碰撞判定。其中,机械臂正运动学模型为基于机械臂正运动学实现机械臂关节角度向位姿向量的映射,当机械臂的各连杆都为刚体时机械臂末端坐标系的位姿仅与关节角度和连杆的尺寸参数相关,各连杆的尺寸参数可以看作一组固定的值,而关节角度是可以控制的变量。机械臂逆运动学模型为与正运动学相反,基于机械臂逆运动学实现机械臂位姿向量向各关节角度的映射。空间网格化为在机械臂作业空间构建笛卡尔三维坐标系,三个维度的单位长度相同。障碍物属性描述为基于网格化空间,被障碍物覆盖的网格空间标记为1,未被覆盖的网格空间为0,则障碍物的形状和位置可以通过空间网格覆盖情况进行描述。以某一维度方向为法向量,以单位长度为间隔列写平面网格矩阵,得到一组描述障碍物的形状和位置的特征信息(数个由0-1元素组成的矩阵)。目标点属性描述为除目标点坐标外,可利用目标点坐标和基于机械臂正运动学得到的臂末端坐标计算距离。碰撞判定为主要针对机械臂臂体与障碍物的接触进行判断。
基于上述的定义,机械臂当前状态和下一时刻状态具有相同的张量形式,但取值受时序变化的影响,状态张量主要提供智能体作马尔科夫决策需要的必要信息,信息类型多基于预先指定。本实施方式中,状态张量包括状态显式时序信息、状态显式数值信息和空间隐式特征信息三部分。下述以三臂体六自由度机械臂为例进行说明但不以此为限,仅做示例性说明,其他类型机械臂亦可。
状态显式时序信息包括:机械臂6自由度关节角αtn、机械臂3臂体末端位置坐标(x,y,z)tn及机械臂末端到目标点的距离dt;写成如式(1)所示形式:
Figure BDA0003622572270000091
状态显式数值信息包括:目标点坐标(x,y,z)tar、目标点是否到达ηtar及3臂体是否与障碍物发生碰撞ηn;写成如式(2)所示形式:
Figure BDA0003622572270000092
空间隐式特征信息(卷积)由于障碍物的形状各异,难以通过数值信息描述障碍物在作业空间中的分布特性。本实施方式中,基于空间网格化的障碍物属性描述,构建障碍物在空间分布的平面网格矩阵,采用类图像的方式进行表达,用k表示障碍物在空间分布的平面网格矩阵。
因此,可将机械臂完整的状态张量写成如式(3)所示形式:
Figure BDA0003622572270000101
本发明机械臂导航避障方法,通过获取机械臂当前的状态张量,然后利用机械臂导航避障深度强化学习模型,根据机械臂当前的状态张量实现机械臂的决策动作轨迹的预测,继而根据机械臂的决策动作轨迹,控制机械臂运行,有效实现机械臂导航避障。其中,机械臂导航避障深度强化学习模型基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到,基于导航规划算法作先验指导,使模型具备一定的基础隐性知识,能够使机械臂适应不同种类的障碍环境,能够快速训练并顺利迁移至实际环境使用,避免复杂的奖励体系构建,极大的提升了训练速度,降低资源消耗。
在一种可能的实施方式中,参见图2,所述步骤S2中,所述初始机械臂导航避障深度强化学习模型通过下述方法构建得到:
S201:基于预设的导航规划算法,获取模仿学习环境中各预设作业场景下,机械臂导航避障的专家样本。
具体的,目前机械臂的运动规划算法主要为采样运动规划算法、图搜索运动规划算法以及轨迹优化算法等,主要思路是通过启发式优化方法迭代渐进寻优,可以保证可行解但姿态为概率最优。对于本发明机械臂导航避障方法而言,通过各类运动规划方法得到的规划路径及机械臂位姿,都可以为模型预训练的数据样本。本实施方式中,采用快速随机搜索树方法获取专家样本,快速随机搜索树算法通过在关节空间中采样来引导从起始点向目标点拓展的随机树的生长,当随机树上的节点与目标点连通时认为找到了可行路径,其后续改进型方法可以提升规划路径的质量,本部分属于成熟技术,在此不作详细介绍。同时,RRT方法(快速探索随机树方法)得到的求解结果是机械臂臂姿(关节角、臂体末端坐标)的时序集合,需要进行信息扩充整理才可用于人工神经网络训练。为满足强化学习训练要求,将RRT方法的求解结果整理为马尔科夫决策核心要素的形式(四项):当前状态、在当前状态下的决策动作、执行该动作获得的奖励反馈、执行该动作将使系统转换到的下一时刻状态,得到专家样本。
对于6自由度机械臂而言,共有3个关节共6个自由转角进行控制,故决策动作由包含6个变量的张量表示,每个变量取值范围为(-π,π),如式(4)所示:
at=(αt1,...,αt6) (4)
执行该动作获得的奖励反馈由一标量值表示,该值需综合反映当前状态的优劣及该状态的发展趋势。其中,基于生成对抗模仿学习的预训练不需要奖励函数指引,但后续基于深度强化学习的训练再提升需要设定明确的奖励函数,但在奖励函数设计精密性需求上大大降低,本实施方式中,奖励函数由以下规则制定:1)机械臂触碰障碍时,奖励值为一负值惩罚项;2)机械臂未触碰障碍,且机械臂末端未到达目标点时,以机械臂末端到目标点的距离负值为依据给予负值惩罚项;3)机械臂未触碰障碍,且机械臂末端到达目标点时,奖励值为一正值奖励项。其数学表达式可表达为式(5):
Figure BDA0003622572270000111
其中,
Figure BDA0003622572270000112
为归一化变量,将单个时刻奖励控制控制在0.1附近。
为了充分发挥专家样本的价值,设置专家样本库记录各特定作业场景特征和对应的合理路径,将每次由RRT方法整理得出的
Figure BDA0003622572270000113
专家样本进行存储,其中,τE表示专家样本策略轨迹。
S202:构建生成器模型,生成器模型中包括结构相同的新生成器网络和旧生成器网络,旧生成器网络的参数由新生成器网络的参数延迟更新得到,旧生成器网络的参数用于辅助更新新生成器网络的参数,新生成器网络以机械臂的状态张量为输入,以机械臂在当前状态张量下的决策动作为输出。
具体的,参见图3,新生成器网络和旧生成器网络以卷积神经网络和全连接神经网络为主体进行构建,网络结构和输入信息的对应如下:以一维卷积网络处理状态张量中的状态显式时序信息,以卷积神经网络处理空间隐式特征信息,以全连接神经网络处理状态显式数值信息,经过处理的特征向量共同输入全连接神经网络进行后续处理,直至决策动作的输出。旧生成器网络的参数是由新生成器网络的参数延迟更新得到,新生成器网络用于输出决策动作,旧生成器网络用于辅助更新新生成器网络。
S203:构建以机械臂的状态张量和在当前状态张量下的决策动作为输入,以当前决策动作最终能够实现合理路径规划的概率值为输出的判别器模型。
具体的,参见图4,判别器模型以全连接网络为主体进行构建,判别器模型的输入为t时刻的状态空间向量和对应机械臂关节转角动作向量即决策动作向量的拼接向量,输出为当前决策动作能够最终实现合理路径规划的概率值,以一维卷积网络处理状态张量中的状态显式时序信息,以卷积神经网络处理空间隐式特征信息,以全连接神经网络处理状态显式数值信息和决策动作向量,经过处理的特征向量共同输入全连接神经网络进行后续处理。
S204:构建以机械臂的状态张量为输入,以机械臂的状态张量的价值函数值为输出的评价器模型。
具体的,参见图5,评价器模型以全连接网络为主进行构建,评价器模型的输入为t时刻的状态张量,输出为对应当前的状态张量的价值函数V。
S205:基于生成器模型,获取模仿学习环境中各预设作业场景下,机械臂导航避障的生成样本;通过所述专家样本和所述生成样本,训练生成器模型、判别器模型和评价器模型,至预设的训练完成依据条件,得到训练完成的生成器模型和评价器模型。
具体的,基于生成器模型,获取在各特定作业场景下决策路径(决策动作轨迹),将整理得出的
Figure BDA0003622572270000131
样本进行存储,作为生成样本。
其中,所述训练生成器模型、判别器模型和评价器模型时,生成器模型的目标函数为:
Figure BDA0003622572270000132
其中,
Figure BDA0003622572270000133
Dω表示判别器模型的输出,ω表示判别器模型的参数,τG表示生成样本的决策动作轨迹,clip表示将ratio限制在(1-ε,1+ε)范围中,ε表示超参数,π表示策略函数,θ表示新生成器网络的参数,θold表示旧生成器网络的参数,θ按照预设的固定频率更新至θold。采用该目标函数使专家样本与生成样本趋于纳什均衡。
利用判别器模型输出的概率值D作为目标函数中的优势函数At,以梯度下降法更新生成器模型的网络参数。
判别器模型的目标函数为:
Figure BDA0003622572270000134
其中,E表示期望算符,τE表示专家样本的决策动作轨迹,st表示机械臂t时刻的状态张量,at表示机械臂t时刻的状态张量下的决策动作。
在评价器模型中,采用如下目标函数使评价器模型对当前样本的状态值函数进行准确判断:
minEτ[(rt(st)+Vφ(st+1)-Vφ(st))2]
其中,τ表示抽样的生成样本的决策动作轨迹或专家样本的决策动作轨迹,rt机械臂t时刻的状态张量对应的奖励函数,Vφ表示评价器模型的输出,φ表示评价器模型的参数,st+1表示机械臂t+1时刻的状态张量。
其中,为使生成器模型能够适应不同种类的障碍物,每一轮训练使用不同形状、不同位置的障碍物以及不同位置的目标点组合的作业场景进行训练。假设作业场景有M种,可采用随机抽样的方式循环完成各类作业场景的训练,也可以采用并行采样的方式同时在M个作业场景进行训练学习。参见图6,示出了串行训练的主要流程,若使用并行训练,则在N2循环内实现并行,最终的评价器模型进行统一训练。其中,预设的训练完成依据条件主要为:判别器模型的输出收敛于0.5;评价器模型的Loss函数值趋于平稳,即判别器模型相邻两次训练的损失函数值误差在第一预设误差内;以及生成器模型的目标函数值趋于平稳,即生成器模型相邻两次训练的目标函数值误差在第二预设误差内。
S206:构建以机械臂当前的状态张量为输入,以机械臂的决策动作轨迹为输出的初始深度强化学习模型,并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器,采用训练完成的评价器模型替换初始深度强化学习模型中的评价器,得到初始机械臂导航避障深度强化学习模型。
具体的,初始深度强化学习模型可采用现有的深度强化学习模型的通用模型结构,直接采用训练完成的生成器模型和评价器模型替换行动器和评价器即可。
具体的,生成对抗模仿学习阶段,基于专家样本训练策略智能体能够使其快速掌握任务特性,但在处理不合理路径状态时缺少经验,主要是体现在评价器模型接收到的奖励信号没有规划步数超限或臂体触碰障碍导致的惩罚反馈,为提升人工智能模型在处理路径规划任务时的鲁棒性,利用深度强化学习算法对预训练智能体作决策能力提升。将模仿学习预训练后得到的生成器模型用作强化学习行动器,输入为状态张量,输出为对应该状态张量的决策动作,即6个关节角动作,将模仿学习预训练后得到的评价器模型用作强化学习评价器,模型参数与训练目标函数均不需要修改。
在一种可能的实施方式中,机械臂导航避障深度强化学习模型通过下述方法构建得到:获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO(深度增强学习)算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
具体的,可以根据应用需求调整生成器模型的应用方式。当应用于与模仿学习环境特征差异较小,例如障碍物形状、数量、位置之间的差异在一定范围内的环境时,可视为应用环境与模仿学习环境处于相同策略分布之下,可以认为生成器模型在移植至强化学习使用时接受的新样本对原始策略冲击不大,此时可以直接使用生成器模型作为强化学习行动器。参见图7,当应用于与模仿学习环境特征差异较大,例如障碍物形状、数量、位置之间的差异超过一定范围的环境时,为防止新增探索样本对原始训练策略的冲击导致策略震荡,将生成器模型进行一定处理后作为强化学习行动器,具体的,将行动器模型的输出层替换为初始化全连接网络模型,并固定行动器模型中除初始化全连接网络模型的模型参数外的模型参数,固定参数在后续训练时不更新,新增的初始化全连接网络模型在训练时接受参数更新,并修改行动器模型的目标函数,修改后的目标函数如式(9)所示:
Figure BDA0003622572270000161
其中,
Figure BDA0003622572270000162
Aφ(st,at)=rt(st)+Vφ(st+1)-Vφ(st)。
然后,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型,可以避免复杂的奖励体系构建,使机械臂快速适应不同种类障碍环境,能够快速训练并顺利迁移至实际环境使用。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
参见图8,本发明再一个实施例中,提供一种机械臂导航避障系统,能够用于实现上述的机械臂导航避障方法,具体的,该机械臂导航避障系统包括获取模块、决策模块以及控制模块。其中,获取模块用于获取机械臂当前的状态张量;决策模块用于将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;控制模块用于根据机械臂的决策动作轨迹,控制机械臂运行。
在一种可能的实施方式中,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标以及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达以及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
在一种可能的实施方式中,所述机械臂导航避障深度强化学习模型通过下述方法构建得到:获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
在一种可能的实施方式中,所述初始机械臂导航避障深度强化学习模型通过下述方法构建得到:基于预设的导航规划算法,获取模仿学习环境中各预设作业场景下,机械臂导航避障的专家样本;构建生成器模型,生成器模型中包括结构相同的新生成器网络和旧生成器网络,旧生成器网络的参数由新生成器网络的参数延迟更新得到,旧生成器网络的参数用于辅助更新新生成器网络的参数,新生成器网络以机械臂的状态张量为输入,以机械臂在当前状态张量下的决策动作为输出;构建以机械臂的状态张量和在当前状态张量下的决策动作为输入,以当前决策动作最终能够实现合理路径规划的概率值为输出的判别器模型;构建以机械臂的状态张量为输入,以机械臂的状态张量的价值函数值为输出的评价器模型;基于生成器模型,获取模仿学习环境中各预设作业场景下,机械臂导航避障的生成样本;通过所述专家样本和所述生成样本,训练生成器模型、判别器模型和评价器模型,至预设的训练完成依据条件,得到训练完成的生成器模型和评价器模型;构建以机械臂当前的状态张量为输入,以机械臂的决策动作轨迹为输出的初始深度强化学习模型,并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器,采用训练完成的评价器模型替换初始深度强化学习模型中的评价器,得到初始机械臂导航避障深度强化学习模型。
在一种可能的实施方式中,所述训练生成器模型、判别器模型和评价器模型时,生成器模型的目标函数为:
Figure BDA0003622572270000181
其中,
Figure BDA0003622572270000182
Dω表示判别器模型的输出,ω表示判别器模型的参数,τG表示生成样本的决策动作轨迹,clip表示将ratio限制在(1-ε,1+ε)范围中,ε表示超参数,π表示策略函数,θ表示新生成器网络的参数,θold表示旧生成器网络的参数,θ按照预设的固定频率更新至θold
判别器模型的目标函数为:
Figure BDA0003622572270000183
其中,E表示期望算符,τE表示专家样本的决策动作轨迹,st表示机械臂t时刻的状态张量,at表示机械臂t时刻的状态张量下的决策动作。
评价器模型的目标函数为:
minEτ[(rt(st)+Vφ(st+1)-Vφ(st))2]
其中,τ表示抽样的生成样本的决策动作轨迹或专家样本的决策动作轨迹,rt机械臂t时刻的状态张量对应的奖励函数,Vφ表示评价器模型的输出,φ表示评价器模型的参数,st+1表示机械臂t+1时刻的状态张量。
在一种可能的实施方式中,所述基于PPO算法训练初始机械臂导航避障深度强化学习模型时,初始机械臂导航避障深度强化学习模型中的行动器的目标函数为:
Figure BDA0003622572270000191
其中,
Figure BDA0003622572270000192
Aφ(st,at)=rt(st)+Vφ(st+1)-Vφ(st)。
在一种可能的实施方式中,所述机械臂t时刻的状态张量对应的奖励函数为:
Figure BDA0003622572270000193
其中,ηn表示机械臂n与障碍物是否发生碰撞,取值为1时表示发生碰撞,取值为0时表示未发生碰撞;ηtar表示目标点是否到达,取值为1时表示到达,取值为0时表示未到达;dt表示机械臂t时刻机械臂末端到目标点的距离。
所述预设的训练完成依据条件为判别器模型的输出收敛于0.5、判别器模型相邻两次训练的损失函数值误差在第一预设误差内以及生成器模型相邻两次训练的目标函数值误差在第二预设误差内。
前述的机械臂导航避障方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的机械臂导航避障系统所对应的功能模块的功能描述,在此不再赘述。本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于机械臂导航避障方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关机械臂导航避障方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种机械臂导航避障方法,其特征在于,包括:
获取机械臂当前的状态张量;
将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
根据机械臂的决策动作轨迹,控制机械臂运行。
2.根据权利要求1所述的机械臂导航避障方法,其特征在于,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标以及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达以及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
3.根据权利要求1所述的机械臂导航避障方法,其特征在于,所述机械臂导航避障深度强化学习模型通过下述方法构建得到:
获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;
当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;
否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
4.根据权利要求3所述的机械臂导航避障方法,其特征在于,所述初始机械臂导航避障深度强化学习模型通过下述方法构建得到:
基于预设的导航规划算法,获取模仿学习环境中各预设作业场景下,机械臂导航避障的专家样本;
构建生成器模型,生成器模型中包括结构相同的新生成器网络和旧生成器网络,旧生成器网络的参数由新生成器网络的参数延迟更新得到,旧生成器网络的参数用于辅助更新新生成器网络的参数,新生成器网络以机械臂的状态张量为输入,以机械臂在当前状态张量下的决策动作为输出;
构建以机械臂的状态张量和在当前状态张量下的决策动作为输入,以当前决策动作最终能够实现合理路径规划的概率值为输出的判别器模型;
构建以机械臂的状态张量为输入,以机械臂的状态张量的价值函数值为输出的评价器模型;
基于生成器模型,获取模仿学习环境中各预设作业场景下,机械臂导航避障的生成样本;
通过所述专家样本和所述生成样本,训练生成器模型、判别器模型和评价器模型,至预设的训练完成依据条件,得到训练完成的生成器模型和评价器模型;
构建以机械臂当前的状态张量为输入,以机械臂的决策动作轨迹为输出的初始深度强化学习模型,并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器,采用训练完成的评价器模型替换初始深度强化学习模型中的评价器,得到初始机械臂导航避障深度强化学习模型。
5.根据权利要求4所述的机械臂导航避障方法,其特征在于,所述训练生成器模型、判别器模型和评价器模型时,生成器模型的目标函数为:
Figure FDA0003622572260000031
其中,
Figure FDA0003622572260000032
Dω表示判别器模型的输出,ω表示判别器模型的参数,τG表示生成样本的决策动作轨迹,clip表示将ratio限制在(1-ε,1+ε)范围中,ε表示超参数,π表示策略函数,θ表示新生成器网络的参数,θold表示旧生成器网络的参数,θ按照预设的固定频率更新至θold
判别器模型的目标函数为:
Figure FDA0003622572260000033
其中,E表示期望算符,τE表示专家样本的决策动作轨迹,st表示机械臂t时刻的状态张量,at表示机械臂t时刻的状态张量下的决策动作;
评价器模型的目标函数为:
minEτ[(rt(st)+Vφ(st+1)-Vφ(st))2]
其中,τ表示抽样的生成样本的决策动作轨迹或专家样本的决策动作轨迹,rt机械臂t时刻的状态张量对应的奖励函数,Vφ表示评价器模型的输出,φ表示评价器模型的参数,st+1表示机械臂t+1时刻的状态张量。
6.根据权利要求5所述的机械臂导航避障方法,其特征在于,所述基于PPO算法训练初始机械臂导航避障深度强化学习模型时,初始机械臂导航避障深度强化学习模型中的行动器的目标函数为:
Figure FDA0003622572260000034
其中,
Figure FDA0003622572260000041
Aφ(st,at)=rt(st)+Vφ(st+1)-Vφ(st)。
7.根据权利要求5所述的机械臂导航避障方法,其特征在于,所述机械臂t时刻的状态张量对应的奖励函数为:
Figure FDA0003622572260000042
其中,ηn表示机械臂n与障碍物是否发生碰撞,取值为1时表示发生碰撞,取值为0时表示未发生碰撞;ηtar表示目标点是否到达,取值为1时表示到达,取值为0时表示未到达;dt表示机械臂t时刻机械臂末端到目标点的距离;
所述预设的训练完成依据条件为判别器模型的输出收敛于0.5、判别器模型相邻两次训练的损失函数值误差在第一预设误差内以及生成器模型相邻两次训练的目标函数值误差在第二预设误差内。
8.一种机械臂导航避障系统,其特征在于,包括:
获取模块,用于获取机械臂当前的状态张量;
决策模块,用于将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
控制模块,用于根据机械臂的决策动作轨迹,控制机械臂运行。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述机械臂导航避障方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机械臂导航避障方法的步骤。
CN202210462455.XA 2022-04-28 2022-04-28 机械臂导航避障方法、系统、计算机设备及存储介质 Active CN114603564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210462455.XA CN114603564B (zh) 2022-04-28 2022-04-28 机械臂导航避障方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210462455.XA CN114603564B (zh) 2022-04-28 2022-04-28 机械臂导航避障方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114603564A true CN114603564A (zh) 2022-06-10
CN114603564B CN114603564B (zh) 2024-04-12

Family

ID=81870018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210462455.XA Active CN114603564B (zh) 2022-04-28 2022-04-28 机械臂导航避障方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114603564B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167404A (zh) * 2022-06-24 2022-10-11 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法
CN115319759A (zh) * 2022-09-21 2022-11-11 上海摩马智能科技有限公司 机械臂末端控制轨迹智能规划算法
CN115556098A (zh) * 2022-09-29 2023-01-03 国网天津市电力公司建设分公司 基于增量式模型的机械臂避障规划方法、装置及存储介质
CN115609595A (zh) * 2022-12-16 2023-01-17 北京中海兴达建设有限公司 一种机械臂的轨迹规划方法、装置、设备及可读存储介质
CN116100552A (zh) * 2023-02-24 2023-05-12 中迪机器人(盐城)有限公司 一种机械手运动智能控制方法及系统
CN116512254A (zh) * 2023-04-11 2023-08-01 中国人民解放军军事科学院国防科技创新研究院 基于方向的机械臂智能控制方法及系统、设备、存储介质
CN116922379A (zh) * 2023-07-10 2023-10-24 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质
CN116985151A (zh) * 2023-09-28 2023-11-03 西北工业大学太仓长三角研究院 一种约束桁架内机械臂强化学习避障规划与训练方法
CN117656082A (zh) * 2024-01-29 2024-03-08 青岛创新奇智科技集团股份有限公司 基于多模态大模型的工业机器人控制方法及装置
CN116922379B (zh) * 2023-07-10 2024-05-31 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102120325A (zh) * 2010-01-08 2011-07-13 哈尔滨理工大学 新型遥操作远端机器人控制平台及方法
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN111716352A (zh) * 2020-05-13 2020-09-29 中国电力科学研究院有限公司 一种配电网带电作业机械臂导航避障方法及系统
CN111906784A (zh) * 2020-07-23 2020-11-10 湖南爱米家智能科技有限公司 一种基于机器视觉引导的咽拭子双臂采样机器人及采样方法
KR20200130091A (ko) * 2019-05-10 2020-11-18 한국전자통신연구원 딥러닝을 이용한 로봇의 장애물 회피 경로 생성 방법 및 장치
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN113664829A (zh) * 2021-08-17 2021-11-19 西北工业大学 一种空间机械臂避障路径规划系统、方法、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102120325A (zh) * 2010-01-08 2011-07-13 哈尔滨理工大学 新型遥操作远端机器人控制平台及方法
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
KR20200130091A (ko) * 2019-05-10 2020-11-18 한국전자통신연구원 딥러닝을 이용한 로봇의 장애물 회피 경로 생성 방법 및 장치
CN111716352A (zh) * 2020-05-13 2020-09-29 中国电力科学研究院有限公司 一种配电网带电作业机械臂导航避障方法及系统
CN111906784A (zh) * 2020-07-23 2020-11-10 湖南爱米家智能科技有限公司 一种基于机器视觉引导的咽拭子双臂采样机器人及采样方法
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN113664829A (zh) * 2021-08-17 2021-11-19 西北工业大学 一种空间机械臂避障路径规划系统、方法、计算机设备及存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167404B (zh) * 2022-06-24 2024-04-19 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法
CN115167404A (zh) * 2022-06-24 2022-10-11 大连海事大学 一种基于迁移强化学习的海上自主水面船舶避碰决策方法
CN115319759A (zh) * 2022-09-21 2022-11-11 上海摩马智能科技有限公司 机械臂末端控制轨迹智能规划算法
CN115556098A (zh) * 2022-09-29 2023-01-03 国网天津市电力公司建设分公司 基于增量式模型的机械臂避障规划方法、装置及存储介质
CN115609595A (zh) * 2022-12-16 2023-01-17 北京中海兴达建设有限公司 一种机械臂的轨迹规划方法、装置、设备及可读存储介质
CN116100552B (zh) * 2023-02-24 2023-12-19 中迪机器人(盐城)有限公司 一种机械手运动智能控制方法及系统
CN116100552A (zh) * 2023-02-24 2023-05-12 中迪机器人(盐城)有限公司 一种机械手运动智能控制方法及系统
CN116512254B (zh) * 2023-04-11 2024-01-23 中国人民解放军军事科学院国防科技创新研究院 基于方向的机械臂智能控制方法及系统、设备、存储介质
CN116512254A (zh) * 2023-04-11 2023-08-01 中国人民解放军军事科学院国防科技创新研究院 基于方向的机械臂智能控制方法及系统、设备、存储介质
CN116922379A (zh) * 2023-07-10 2023-10-24 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质
CN116922379B (zh) * 2023-07-10 2024-05-31 深圳进化动力数码科技有限公司 基于视觉的机械臂避障方法、系统、电子设备及存储介质
CN116985151A (zh) * 2023-09-28 2023-11-03 西北工业大学太仓长三角研究院 一种约束桁架内机械臂强化学习避障规划与训练方法
CN116985151B (zh) * 2023-09-28 2024-01-26 西北工业大学太仓长三角研究院 一种约束桁架内机械臂强化学习避障规划与训练方法
CN117656082A (zh) * 2024-01-29 2024-03-08 青岛创新奇智科技集团股份有限公司 基于多模态大模型的工业机器人控制方法及装置
CN117656082B (zh) * 2024-01-29 2024-05-14 青岛创新奇智科技集团股份有限公司 基于多模态大模型的工业机器人控制方法及装置

Also Published As

Publication number Publication date
CN114603564B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN114603564B (zh) 机械臂导航避障方法、系统、计算机设备及存储介质
Shi et al. Multi pseudo Q-learning-based deterministic policy gradient for tracking control of autonomous underwater vehicles
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
Kim et al. From exploration to control: learning object manipulation skills through novelty search and local adaptation
CN112135716A (zh) 数据高效的分层强化学习
CN113821045B (zh) 一种腿足机器人强化学习动作生成系统
Zhu et al. A survey of sim-to-real transfer techniques applied to reinforcement learning for bioinspired robots
Wang et al. GOPS: A general optimal control problem solver for autonomous driving and industrial control applications
Mukadam et al. Riemannian motion policy fusion through learnable lyapunov function reshaping
Remman et al. Robotic lever manipulation using hindsight experience replay and shapley additive explanations
CN114779661B (zh) 基于多分类生成对抗模仿学习算法的化学合成机器人系统
Zhang et al. Trajectory-tracking control of robotic system via proximal policy optimization
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
Du et al. A new cloud robots training method using cooperative learning
Tao et al. A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot
Yuan et al. 6-DOF Industrial Manipulator Motion Planning Based on RRT-Connect Algorithm
Malone et al. Efficient motion-based task learning
Yu et al. LSTM learn policy from dynamical system of demonstration motions for robot imitation learning
Ji et al. Grasping Control of a Vision Robot Based on a Deep Attentive Deterministic Policy Gradient
Danielsen Vision-based robotic grasping in simulation using deep reinforcement learning
Bency Towards Neural Network Embeddings of Optimal Motion Planners
CN117606490B (zh) 一种水下自主航行器协同搜索路径规划方法
Ruud Reinforcement learning with the TIAGo research robot: manipulator arm control with actor-critic reinforcement learning
Bai et al. An improved DDPG algorithm based on evolution-guided transfer in reinforcement learning
Mu et al. Adaptive Locomotion Control of Sixteen-legged Robot based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant