CN116922379A

CN116922379A - 基于视觉的机械臂避障方法、系统、电子设备及存储介质

Info

Publication number: CN116922379A
Application number: CN202310839736.7A
Authority: CN
Inventors: 黄伟冰; 张文朋; 孙骁; 陈丹; 徐哲壮; 高路房
Original assignee: Shenzhen Evomotion Co ltd
Current assignee: Shenzhen Evomotion Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-24
Anticipated expiration: 2043-07-10

Abstract

本申请涉及多自由度机械臂避障领域，特别是一种基于视觉的机械臂避障方法、电子设备及存储介质。本申请通过获取障碍物环境图像，并将障碍物环境图像、机械臂的末端误差及机械臂的当前关节角输入至训练完成的避障移动动作模型中，通过避障移动动作模型输出机械臂末端误差对应的关节角增量，进而根据关节角增量控制机械臂运动。由于本申请的避障移动动作模型的输入是基于视觉信息、机械臂的末端误差及机械臂的当前关节角，使得机械臂在关节动作空间而非任务动作空间中学习到了关节空间的最优路径，从而直接输出了机械臂的末端误差对应的关节角增量，进而完成了在复杂环境中机械臂的自主避障任务，具有较高的成功率和泛化性，有更好的环境适应性。

Description

基于视觉的机械臂避障方法、系统、电子设备及存储介质

技术领域

本申请涉及机械臂避障技术领域，特别是一种基于视觉的机械臂避障方法、系统、电子设备及存储介质。

背景技术

避障问题是多自由机械臂工作时的典型问题，工业上大多采用人工示教方式，提前由工作人员设计一条主观的最优路径，或采用传统算法，利用设计人员抽象出的障碍物特征信息作为输入进行避障任务，当障碍物环境复杂时这些方式实现较为困难。并且传统方法对机械臂的控制大都采用对末端姿态的控制，机械臂逆运动学的多解性质导致这种控制在运用到避障任务时会出现运动轨迹的不可控问题，难以完成避障。

发明内容

有鉴于此，本申请提供一种基于视觉的机械臂避障方法、系统、电子设备及存储介质，以解决各种复杂环境下机械臂自主避障的技术问题。

本申请的第一方面提供一种基于视觉的机械臂避障方法，所述方法包括：

获取障碍物环境图像、获取机械臂的末端误差及获取所述机械臂的当前关节角；

将所述障碍物环境图像、所述机械臂的末端误差及所述机械臂的当前关节角输入至训练完成的避障移动动作模型中；

通过所述避障移动动作模型输出所述机械臂的末端误差对应的关节角增量；

根据所述关节角增量控制所述机械臂运动。

在一种可能的实施方式中，所述根据所述关节角增量控制所述机械臂运动包括：

根据所述关节角增量及所述当前关节角，得到当前期望关节角；

根据所述当前期望关节角控制所述机械臂运动。

在一种可能的实施方式中，所述获取机械臂的末端误差包括：

获取所述机械臂的末端的当前位置；

根据所述机械臂的末端的当前位置及期望目标位置，得到所述机械臂的末端误差。

在一种可能的实施方式中，所述避障移动动作模型的训练过程包括：

初始化所述避障移动动作模型的仿真环境；

基于强化学习算法搭建所述避障移动动作模型的神经网络的结构，并定义所述神经网络的状态空间、动作空间和奖励函数；

通过所述神经网络与所述仿真环境进行交互，得到机械臂的经验值，所述经验值根据状态、动作及奖励确定；

将每步对应的所述经验值放入随机回放池中；

每一回合从所述随机回访池中抽取至少一条经验对所述神经网络进行训练，直至满足训练结束条件时，结束对所述神经网络的训练，得到所述避障移动动作模型。

在一种可能的实施方式中，所述奖励函数包括：

稠密奖励函数及稀疏奖励函数；

其中，所述稠密奖励函数根据所述机械臂的末端误差进行设置。

在一种可能的实施方式中，所述初始化所述避障移动动作模型的仿真环境包括：

初始化多个障碍物环境训练图像；

针对每个所述障碍物环境训练图像，初始化所述机械臂的末端模拟误差及所述机械臂的当前模拟关节角。

在一种可能的实施方式中，所述方法还包括：

对所述避障移动动作模型进行仿真测试，得到测试成功率；

对所述测试成功率与预设成功率阈值进行比较；

当所述测试成功率大于所述预设成功率阈值时，将所述避障移动动作模型导入上位机；

当所述测试成功率小于所述预设成功率阈值时，重新初始化所述避障移动动作模型的仿真环境，并重新训练所述避障移动动作模型。

本申请的第二方面提供一种基于视觉的机械臂避障系统，所述系统包括：

机械臂；

图像采集装置；

处理装置，用于连接所述图像采集装置及所述机械臂，执行上述基于视觉的机械臂避障方法的步骤。

本申请的第三方面提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于视觉的机械臂避障方法的步骤。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于视觉的机械臂避障方法的步骤。

本申请实施例提供的基于视觉的机械臂避障方法、系统、电子设备及存储介质，通过获取障碍物环境图像，并将障碍物环境图像、机械臂的末端误差及机械臂的当前关节角输入至训练完成的避障移动动作模型中，从而通过避障移动动作模型输出了机械臂的末端误差对应的关节角增量，进而根据关节角增量控制机械臂运动。由于本申请的避障移动动作模型的输入是基于视觉信息(障碍物环境图像)、机械臂的末端误差及机械臂的当前关节角，因而使得机械臂在关节动作空间而非任务动作空间中学习到了关节空间的最优路径，从而直接输出了机械臂的末端误差对应的关节角增量，进而完成了在复杂环境中机械臂的自主避障任务，具有较高的成功率和泛化性，有更好的环境适应性。

附图说明

图1是本申请实施例示出的基于视觉的机械臂避障系统的结构示意图；

图2是本申请实施例示出的基于视觉的机械臂避障方法的流程示意图；

图3是本申请实施例示出的机械臂避障环境示意图；

图4是本申请实施例示出的避障移动动作模型的训练方法的流程示意图；

图5是本申请实施例示出的避障移动动作模型的网络结构图；

图6是本申请实施例示出的强化学习算法结构图；

图7是本申请实施例示出的稠密奖励函数的曲线图；

图8是本申请实施例示出的电子设备的结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参阅图1所示，为本申请实施例示出的基于视觉的机械臂避障系统的结构示意图。

基于视觉的机械臂避障系统1可以包括，但不限于：机械臂10、图像采集装置12、及连接所述机械臂10及所述图像采集装置12的电子设备14。

其中，所述图像采集装置12用于采集所述机械臂10所处的障碍物环境图像，并将所述障碍物环境图像传输给所述电子设备14。

其中，所述电子设备14用于根据所述障碍物环境图像控制所述机械臂10完成避障任务。

在其他实施方式中，所述电子设备14还用于根据所述障碍物环境图像，控制所述机械臂10完成避障任务，同时完成到达期望目标位置的任务。

所述电子设备14如何根据所述障碍物环境图像控制所述机械臂10完成避障任务，请参见图2及其相关描述。

图2是本发明实施例提供的基于视觉的机械臂避障方法的流程图。所述基于视觉的机械臂避障方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S21，获取障碍物环境图像、获取机械臂的末端误差及获取所述机械臂的当前关节角。

为了实现机械臂的自主避障，电子设备需要获取机械臂当前所处的障碍物环境图像、机械臂的末端误差及机械臂的当前关节角，从而基于障碍物环境图像、机械臂的末端误差及机械臂的当前关节角，在关节动作空间中确定出最优路径，进而输出机械臂的关节角控制指令，完成机械臂的自主避障。

其中，所述障碍物环境图像可以通过图像采集装置采集。电子设备从图像采集装置获取所述障碍物环境图像。图像采集装置可以设置在机械臂上，作为机械臂的肩部相机，也可以不设置在机械臂上，作为独立的装置。对于图像采集装置的设置不做任何限制，能够采集到机械臂当前所处环境中的所有障碍物即可。将图像采集装置采集的机械臂当前所处环境中的所有障碍物的图像称之为障碍物环境图像。

其中，所述机械臂的末端误差及所述机械臂的当前关节角可以通过所述机械臂的接口获得。所述机械臂的接口在获得所述机械臂的末端误差及所述机械臂的当前关节角后，将所述机械臂的末端误差及所述机械臂的当前关节角传输给电子设备。

在一个可选的实施方式中，所述获取机械臂的末端误差包括：

获取所述机械臂的末端的当前位置；

如图3所示的障碍物环境图像中，包括障碍物1、障碍物2、障碍物3及期望目标位置。电子设备需要控制机械臂避开障碍物1、障碍物2及障碍物3，并到达期望目标位置。

本实施方式中，所述机械臂的末端误差δx∈R³，为机械臂的末端的当前位置x∈R³与期望目标位置x_d之间的差值。

S22，将所述障碍物环境图像、所述机械臂的末端误差及所述机械臂的当前关节角输入至训练完成的避障移动动作模型中。

所述避障移动动作模型为预先训练完成的网络模型。关于所述避障移动动作模型的训练过程，请参见图4及其相关描述。

所述避障移动动作模型的网络输入为状态空间S＝{I,δx,q}，所述避障移动动作模型的网络输出为动作空间A＝{δq}，其中，I表示障碍物环境图像，δx表示机械臂的末端误差，q表示机械臂的当前关节角，δq表示关节角增量。

电子设备将所述障碍物环境图像、所述机械臂的末端误差及所述机械臂的当前关节角同时输入至避障移动动作模型中。

S23，通过所述避障移动动作模型输出所述机械臂的末端误差对应的关节角增量。

在一回合的每一小步，所述避障移动动作模型基于所述障碍物环境图像、所述机械臂的末端误差及所述机械臂的当前关节角，输出所述机械臂的末端误差对应的关节角增量。

S24，根据所述关节角增量控制所述机械臂运动。

电子设备根据关节角增量控制机械臂进行运动，由于关节角增量是基于障碍物环境图像、机械臂的末端误差及机械臂的当前关节角得到的，障碍物环境图像给了避障移动动作模型所述机械臂当前所处的障碍物环境的视觉信息，因而，在机械臂的末端误差的前提下，基于关节角增量控制机械臂的运动，能够精准的确定障碍物位置以达到避障的目的。

在一个可选的实施方式中，所述根据所述关节角增量控制所述机械臂运动包括：

根据所述当前期望关节角控制所述机械臂运动。

其中，所述当前期望关节角是指机械臂下一步期望运动的关节角，是相对于机械臂当前运动的关节角而言的。

电子设备将机械臂的末端误差δx对应的关节角增量δq，与机械臂的当前关节角q进行加和计算，得到机械臂的当前期望关节角q_d，从而根据机械臂的当前期望关节角q_d得到机械臂的末端的期望末端位置，进而控制机械臂的末端下一步运动到期望末端位置。

上述实施方式，通过获取障碍物环境图像，并将障碍物环境图像、机械臂的末端误差及机械臂的当前关节角输入至训练完成的避障移动动作模型中，从而通过避障移动动作模型输出了机械臂的末端误差对应的关节角增量，进而根据关节角增量控制机械臂运动。由于本申请的避障移动动作模型的输入是障碍物环境图像、机械臂的末端误差及机械臂的当前关节角，因而使得机械臂基于视觉信息，在关节动作空间而非任务动作空间中学习到了关节空间的最优路径，从而直接输出了机械臂的末端误差对应的关节角增量，进而完成了在复杂环境中机械臂的自主避障任务，具有较高的成功率和泛化性，有更好的环境适应性。

此外，由于机械臂的末端误差是根据机械臂的末端的当前位置及期望目标位置得到的，因此，机械臂在完成避障的同时，还能精确的达到期望目标位置。即，完成了避障和达到期望目标位置的双重任务。

图4是本发明实施例提供的避障移动动作模型的训练方法的流程示意图。所述避障移动动作模型的训练方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S41，初始化参数。

初始化参数是指初始化所述避障移动动作模型的仿真模拟环境。

初始化参数可以包括：初始化多个障碍物环境训练图像；针对每个所述障碍物环境训练图像，初始化所述机械臂的末端模拟误差及所述机械臂的当前模拟关节角。

可以使用随机参数所述仿真模拟环境，用以模拟不同的障碍物环境，以此期望学习出更优的策略π_i(s)，从而能够应对复杂多样的避障环境。所述仿真模拟环境中采用多自由度机械臂，并设置相应障碍物环境用于算法训练和策略测试。

每一回合更新一次障碍物环境，即，每一回合对本回合障碍物的数量、颜色、位置和大小进行随机初始化。通过肩部相机拍摄随机初始化后的障碍物环境的首张照片，用于一个回合的训练。肩部相机拍摄的随机初始化后的障碍物环境的首张照片称之为障碍物环境训练图像。

如此，可以模拟随机的障碍物环境，随机多样性的障碍物环境，能够使得避障移动动作模型的泛化性更强。肩部相机视角需要覆盖障碍物环境中的所有障碍物。

所述机械臂的初始位姿设置不能与任何一个障碍物发生碰撞，需在初始化时与障碍物留有一定安全距离。

所述机械臂的末端模拟误差δx∈R³，为机械臂的末端的当前模拟位置x∈R³与期望目标模拟位置x_d之间的差值。期望目标模拟位置x_d需处在所述机械臂的工作空间内，每一回合会在预设位置范围内进行随机抽取。其中，所述预设位置范围在状态空间中随机设置的。

示例性的，采用6-DOF的UR10型机械臂，设置了包括长方体和圆柱体在内的两种类型的障碍物组合：环境中代表目标的红色球体无碰撞设定，仅用于测试时观察使用；环境中为模拟现实设置了支撑机械臂和放置障碍物的平台。除障碍物的颜色、位置、大小外，环境中其余参数保持默认值。障碍物初始位姿的设定使障碍物不仅要在机械臂的任务动作空间内，而且需在肩部相机所覆盖的空间内，这样才能通过视觉获得障碍物的有效信息。另外，其设置也不能使障碍物与初始位姿的机械臂的臂体碰撞，这会使得机械臂在启动时就无法动作，故必须与机械臂的臂体初始位姿所占空间保持一定安全距离，以使机械臂顺利开始动作。需要说明的是由于机械臂本身的机械设计等原因，仿真模拟环境会对机械臂关节角的物理运动范围等相关参数做限制设置，本申请采用默认设置。

初始化参数之后，基于强化学习算法搭建所述避障移动动作模型的神经网络的结构，并定义所述神经网络的状态空间、动作空间和奖励函数。

如图5所示，为本申请实施例示出的避障移动动作模型的网络结构图。基于强化学习算法DrQ-v2是一种无模型的强化学习算法，该算法利用智能体与环境的不断交互以学习经验寻求更好的策略，从而训练出避障移动动作模型。

强化学习算法的结构图如图6所示，相对于现有技术中的强化学习算法，本申请设计了固定步的奖励函数，并定义了关节角增量的输出方式，用于避障。本申请对强化学习算法的改进使得原有的强化学习算法DDPG可以利用神经网络中数据增强的思想获得更多四元组经验，更好的用于解决基于图像的复杂连续运动任务，并且因其是在原有算法上的改进，故实现较为简单。

定义关节角增量的输出方式，使得强化学习算法直接在关节动作空间而非任务动作空间中学习。在任务动作空间中是指机械臂在无数条路径中选择一条到达路径即可，无关环境的避障。而在关节动作空间中进行训练学习，可以由策略选择一条特定的最优路径，即能到达期望目标位置，又可自主避障。

在一个可选的实施方式中，所述奖励函数包括：

稠密奖励函数及稀疏奖励函数。

本实施例，将到达期望目标位置的任务和避障任务拆分为两部分，即鼓励机械臂尽可能接近期望目标位置和惩罚其在移动过程中的碰撞，因而所述奖励函数包括与距离有关的稠密奖励函数和与碰撞有关的稀疏奖励函数两部分。

本实施例中的奖励函数，如下式(1)所示：

R＝(1-ε)R_dense+R_collision (1)；

其中，ε为一个二元符号，若发生碰撞ε＝1；若未发生碰撞ε＝0不变。R_dense表示稠密奖励函数，R_collision表示稀疏奖励函数，R表示奖励函数。

在一个可选的实施方式中，所述稠密奖励函数根据所述机械臂的末端误差进行设置，即，所述稠密奖励函数R_dense与距离有关。在不发生碰撞的前提下，在所述机械臂的末端远离所述期望目标位置时，每一步都会有一个负值；在所述机械臂的末端接近所述期望目标位置或与所述期望目标位置之间的距离小于预设距离阈值时，每一步都会有一个正值。如图7所示，所述稠密奖励函数是单调递减的，即随着机械臂的末端误差||δx||²的减小，所述稠密奖励函数的值逐渐增大，以此鼓励机械臂的末端尽快地接近期望目标位置。

在一个可选的实施方式中，所述稀疏奖励函数为固定值R_collision＝-C，C＞0。当发生碰撞时，通过给予一个较大的负面回报来惩罚碰撞行为，从而使策略学习避免发生碰撞。

S42，判断回合数是否大于预设值。

当确定回合数小于预设值时，执行S43；当确定回合数大于预设值时，结束训练。

S43，回合开始。

S44，训练及更新网络。

训练及更新网络的具体过程可以包括：

a)通过所述神经网络与所述仿真环境进行交互，得到机械臂的经验值，所述经验值根据状态、动作及奖励确定；

b)将每步对应的所述经验值放入随机回放池中；

c)每一回合从所述随机回访池中抽取至少一条经验对所述神经网络进行训练，直至满足训练结束条件时，结束对所述神经网络的训练，得到所述避障移动动作模型。

将每一步的经验，即状态、动作和奖励组成的四元组(s_t,a_t,r_t,s_t+1)放入一个随机回放池中。每一回合随机从随机回放池中抽取一条或多条经验更新神经网络的网络参数。

重复上述a)-c)，每一回合当预设回合步数达到或者碰撞发生时退出回合。训练一定数量的回合，当成功率和回合奖励在相应复杂度障碍物环境中达到一定期望值后退出训练，并输出模型。

由于训练避障移动动作模型时，模拟的是随机障碍物环境，因而避障移动动作模型的泛化性较强，可以应用于在未知的障碍物环境中完成避障任务。

在一个可选的实施方式中，所述方法还包括：

对所述避障移动动作模型进行仿真测试，得到测试成功率；

对所述测试成功率与预设成功率阈值进行比较；

可以使用多个测试样本对训练完成的所述避障移动动作模型进行仿真测试。每个测试样本包括：障碍物环境测试图像、所述机械臂的末端测试误差及所述机械臂的当前测试关节角。每次仿真测试结束后，判断机械臂是否完成了避障并达到了期望目标位置。当机械臂完成了避障并达到了期望目标位置时，则认为该次仿真测试结果为测试成功。当机械臂没有完成避障及/或没有达到期望目标位置时，则认为该次仿真测试结果为测试失败。

计算仿真测试的第一数量，再计算仿真测试结果为测试成功的第二数量，最后计算第二数量与第一数量的比值即可得到所述测试成功率。

其中，所述成功率阈值为预先设置的用以判定避障移动动作模型是否训练成功的临界值。当所述测试成功率大于所述预设成功率阈值时，表明避障移动动作模型训练成功，从而将所述避障移动动作模型导入上位机，用于真实环境中的避障。当所述测试成功率小于所述预设成功率阈值时，表明避障移动动作模型训练不足，需要继续对避障移动动作模型进行训练。

示例的，假设预设成功率阈值为95％，若避障移动动作模型的测试成功率为91％，则该避障移动动作模型为训练失败，需要继续进行训练；若避障移动动作模型的测试成功率为99％，则该避障移动动作模型为训练成功，可以导入上位机。

参阅图8所示，为本发明实施例提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备8包括存储器81、至少一个处理器82、至少一条通信总线83。

本领域技术人员应该了解，图8示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备8还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备8是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备8还可包括其他电子设备，所述其他电子设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备8仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器81中存储有计算机程序，所述计算机程序被所述至少一个处理器82执行时实现如所述的基于视觉的机械臂避障的方法中的全部或者部分步骤。所述存储器81包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器82是所述计算机设备8的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备8的各个部件，通过运行或执行存储在所述存储器81内的程序或者模块，以及调用存储在所述存储器81内的数据，以执行电子设备8的各种功能和处理数据。例如，所述至少一个处理器82执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于视觉的机械臂避障方法的全部或者部分步骤；或者实现基于视觉的机械臂避障系统的全部或者部分功能。所述至少一个处理器82可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线83被设置为实现所述存储器81以及所述至少一个处理器82等之间的连接通信。尽管未示出，所述电子设备8还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器82逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备8还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于视觉的机械臂避障方法，其特征在于，所述方法包括：

根据所述关节角增量控制所述机械臂运动。

2.根据权利要求1所述的基于视觉的机械臂避障方法，其特征在于，所述根据所述关节角增量控制所述机械臂运动包括：

根据所述当前期望关节角控制所述机械臂运动。

3.根据权利要求1所述的基于视觉的机械臂避障方法，其特征在于，所述获取机械臂的末端误差包括：

获取所述机械臂的末端的当前位置；

4.根据权利要求1至3中任意一项所述的基于视觉的机械臂避障方法，其特征在于，所述避障移动动作模型的训练过程包括：

初始化所述避障移动动作模型的仿真环境；

将每步对应的所述经验值放入随机回放池中；

5.根据权利要求4所述的基于视觉的机械臂避障方法，其特征在于，所述奖励函数包括：

稠密奖励函数及稀疏奖励函数；

6.根据权利要求5所述的基于视觉的机械臂避障方法，其特征在于，所述初始化所述避障移动动作模型的仿真环境包括：

初始化多个障碍物环境训练图像；

7.如权利要求5中所述的基于视觉的机械臂避障方法，其特征在于，所述方法还包括：

对所述避障移动动作模型进行仿真测试，得到测试成功率；

对所述测试成功率与预设成功率阈值进行比较；

8.一种基于视觉的机械臂避障系统，其特征在于，所述系统包括：

机械臂；

图像采集装置；及

电子设备，所述电子设备连接所述图像采集装置及所述机械臂；

其中，所述电子设备用于执行根据权利要求1至7中任意一项所述的基于视觉的机械臂避障方法的步骤。

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于视觉的机械臂避障方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于视觉的机械臂避障方法的步骤。