CN110125930B

CN110125930B - 一种基于机器视觉和深度学习的机械臂抓取控制方法

Info

Publication number: CN110125930B
Application number: CN201910314549.0A
Authority: CN
Inventors: 杨建中; 傅有; 宋仕杰; 欧道江; 武俊雄; 向单奇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2021-05-11
Anticipated expiration: 2039-04-18
Also published as: CN110125930A

Abstract

本发明公开了一种基于机器视觉和深度学习的机械臂抓取控制方法，获取机械臂当前状态下的作业场景图像，并根据运动指令向量的采样均值和初始方差，生成运动指令向量组；将其分别与作业场景图片进行结合，获取每个运动指令向量对应的可能性预测值；对运动指令向量对应的多个可能性预测值进行大小排序，获取至少一个最大可能性预测值对应的最佳运动指令向量；比较机械臂当前状态下抓取物体的可能性预测值与最佳运动指令向量的可能性预测值，确定抓取运动决策。本发明还公开了一种基于机器视觉和深度学习的机械臂抓取控制系统。本发明技术方案，能够应用于工业机械臂分拣、上料，服务机械臂抓取等诸多机械臂应用领域，提供智能、稳定的抓取效果。

Description

一种基于机器视觉和深度学习的机械臂抓取控制方法

技术领域

本发明属于机械臂抓取控制领域，具体涉及一种基于机器视觉和深度学习的机械臂抓取控制方法。

背景技术

机械手臂是机械人技术领域中得到最广泛实际应用的自动化机械装置，在工业制造、医学治疗、娱乐服务、军事、半导体制造以及太空探索等领域都能见到它的身影。尽管它们的形态各有不同，但它们都有一个共同的特点，就是能够接受指令，精确地定位到三维(或二维)空间上的某一点进行作业。随着机械臂在工业生产和生活服务中应用越来越广泛，运用机器视觉、机器学习等技术赋予机械臂更多功能，提高其智能化程度是机械臂技术发展的重要课题。

从现有技术的角度来看，机械臂是一个多输入多输出、高度非线性、强耦合的复杂系统。因其独特的操作灵活性，已在工业装配，安全防爆等领域得到广泛应用。机械臂是一个复杂系统，存在着参数摄动、外界干扰及未建模动态等不确定性。因而机械臂的建模模型也存在着不确定性，对于不同的任务，需要规划机械臂关节空间的运动轨迹，从而级联构成末端位姿。机械臂抓取的要求广泛存在于各类机械臂应用场景中，目前的机械臂抓取方法需要工程师对每一种形状的被抓物体进行编程，将机械臂观察到的图片和事先录入的几个被抓物体形状进行匹配，定位出待抓物体在二维图像坐标系下的位置，通过事先进行的标定，转化为三维机器人基坐标系下的位置，从而确定抓取时的机械臂手爪位姿，这一类方法拥有较快的抓取速度，但缺乏对被抓取物体不同形状的适应性，难以适应被抓取物品形状不可预知且摆放杂乱的应用场景。

在现有技术中，这些问题具体来说存在以下呈现形式。一方面是需要对抓取形状进行统计和编程，例如针对一个长条形物理来说，在预先编程的过程中，需要“告知”机械臂，针对这种形状的物体，优选在长条形物体的中段进行抓取，或者是针对一个球形物体来说，优选在球形物体穿过球心的直径方向上抓取等。另一方面是现有技术中录入的图像形状和实时拍摄的待抓取的物体之间需要有一定的匹配度，不匹配的话，机械臂也无法成功实现抓取。这就导致现有技术中，一方面需要事先进行形状录入，另一方面也无法对未录入的形状物体实现有效抓取。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于机器视觉和深度学习的机械臂抓取控制方法，至少可以部分解决上述问题。本发明技术方案针对现有技术中需要对物体形状进行提前录入的情况，采用机器视觉和深度学习相结合的方式，提供了一种智能化程度更高、效果更好的机械臂抓取方法，实现机械臂自动抓取形状各异的物品的功能。

为实现上述目的，按照本发明的一个方面，提供了一种基于机器视觉和深度学习的机械臂抓取控制方法，其特征在于，包括

S1获取机械臂当前状态下的作业场景图像，并根据运动指令向量的采样均值和初始协方差矩阵，生成至少包含一个运动指令向量的运动指令向量组；

S2依次将每个运动指令向量与对应的作业场景图片输入基于视觉注意力转移机制的循环神经网络进行训练，获取每个运动指令向量对应的可能性预测值；

S3对运动指令向量组中的运动指令向量对应的多个可能性预测值进行大小排序，获取至少一个最大可能性预测值对应的最佳运动指令向量；

S4比较机械臂当前状态下抓取物体的可能性预测值与最佳运动指令向量的可能性预测值，确定机械臂的抓取运动决策。

作为本发明技术方案的一个优选，步骤S2中包括

S21分别对作业场景图像和运动指令向量进行预处理，对运动指令向量指令进行处理获得对应的位置特征向量；所述预处理包括剪裁、放缩、归一化中的一种或多种；

S22从作业场景图像中裁剪出若干个若干个图像块，运用卷积层、池化层和/或全链接全链接层中的一个或多个提取每个图像块的图像特征向量；

S23将图像特征向量和位置特征向量相加，获得融合了图像和指令信息的图像-位置特征向量并输入基于视觉注意力转移机制的循环神经网络；

S24将基于视觉注意力转移机制的循环神经网络输出的特征向量经过线性支持向量机进行分类，输出向量距离分离超平面的函数间隔，即为抓取成功可能性预测值。

作为本发明技术方案的一个优选，步骤S3中包括，

S31对运动指令向量组中的运动指令向量对应的多个可能性预测值进行大小排序；

S32选取至少一个最大可能性预测值对应的最佳运动指令向量；

S33计算最佳运动指令向量的均值和协方差矩阵，并对初始采样均值和初始协方差矩阵进行更新，进入步骤S1。

作为本发明技术方案的一个优选，步骤S4中包括，

S41计算机械臂当前状态下抓取物体的可能性预测值与最佳运动指令向量的可能性预测值的比值；

S42将所述比值与阈值进行比较，若大于，则选择在机械臂当前状态下抓取物体，否则执行最佳运动指令向量后重新进入迭代。

作为本发明技术方案的一个优选，步骤S1中包括

S11获取机械臂当前状态下的作业场景图像，以及作业场景的参考坐标系；

S12确定机械臂在参考坐标系中的作业场景范围；

S13根据初始采样均值和初始协方差矩阵的概率密度，在作业场景场范围内采样生成运动指令向量组。

作为本发明技术方案的一个优选，步骤S1中，所述运动指令向量的分布函数为多维截断正态分布。

作为本发明技术方案的一个优选，均值向量和协方差矩阵的维度与运动指令向量的维度相对应。

作为本发明技术方案的一个优选，选取可能性预测值满足阈值条件的运动指令向量作为最佳运动指令向量，或选取最后一次迭代获得的概率分布下采样得到的，使可能性预测值最大的运动指令向量作为最佳运动指令向量。

按照本发明的一个方面，提供了一种基于机器视觉和深度学习的机械臂抓取控制系统，其特征在于，包括

运动指令生成模块，用于获取机械臂当前状态下的作业场景图像，并根据运动指令向量的采样均值和初始协方差矩阵，生成至少包含一个运动指令向量的运动指令向量组；

可能性预测模块，用于依次将每个运动指令向量与对应的作业场景图片输入基于视觉注意力转移机制的循环神经网络进行训练，获取每个运动指令向量对应的可能性预测值；

最佳指令模块，用于对运动指令向量组中的运动指令向量对应的多个可能性预测值进行大小排序，获取至少一个最大可能性预测值对应的最佳运动指令向量；

抓取决策模块，用于比较机械臂当前状态下抓取物体的可能性预测值与最佳运动指令向量的可能性预测值，确定机械臂的抓取运动决策。

作为本发明技术方案的一个优选，可能性预测模块中包括

预处理模块，用于分别对作业场景图像和运动指令向量进行预处理，对运动指令向量指令进行处理获得对应的位置特征向量；所述预处理包括剪裁、放缩、归一化中的一种或多种；

图像特征模块，用于从作业场景图像中裁剪出若干个若干个图像块，运用卷积层、池化层和/或全链接全链接层中的一个或多个提取每个图像块的图像特征向量；

融合模块，用于将图像特征向量和位置特征向量相加，获得融合了图像和指令信息的图像-位置特征向量并输入基于视觉注意力转移机制的循环神经网络；

分类模块，将基于视觉注意力转移机制的循环神经网络输出的特征向量经过线性支持向量机进行分类，输出向量距离分离超平面的函数间隔，即为抓取成功可能性预测值。

作为本发明技术方案的一个优选，最佳指令模块中包括，

排序模块，用于对运动指令向量组中的运动指令向量对应的多个可能性预测值进行大小排序；

指令模块，用于选取至少一个最大可能性预测值对应的最佳运动指令向量；

更新模块，用于计算最佳运动指令向量的均值和协方差矩阵，并对初始采样均值和初始协方差矩阵进行更新，进入运动指令生成模块。

作为本发明技术方案的一个优选，抓取决策模块中包括，

比值模块，用于计算机械臂当前状态下抓取物体的可能性预测值与最佳运动指令向量的可能性预测值的比值；

比较模块，用于将所述比值与阈值进行比较，若大于，则选择在机械臂当前状态下抓取物体，否则执行最佳运动指令向量后重新进入迭代。

作为本发明技术方案的一个优选，运动指令生成模块中包括

采样分布模块，用于获取机械臂当前状态下的作业场景图像，以及作业场景的参考坐标系；

场景模块，用于确定机械臂在参考坐标系中的作业场景场范围；

向量模块，用于根据初始采样均值和初始协方差矩阵的概率密度，在作业场景场范围内采样生成运动指令向量组。

作为本发明技术方案的一个优选，运动指令模块中，所述运动指令向量的分布函数为多维截断正态分布。

按照本发明的一个方面，提供了一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行：

按照本发明的一个方面，提供了一种终端，包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1)本发明技术方案，通过基于视觉注意力机制的循环神经网络隐性地建立二维图像坐标系和三维机器人基坐标系的映射，在无需人为相机标定的情况下使用单目相机完成三维空间的物体抓取。

2)本发明技术方案，利用神经网络中卷积层对图像中不同形状物体图像特征的识别、泛化能力，系统可以抓取随意摆放的、不同形状的物品，无须提前录入物体形状以及抓取的方向，提高了抓取系统的适用性和可扩展性。

3)本发明技术方案所提供的视觉伺服机制中，每一次拍照、最佳指令搜索和动作决策是独立的，上一次移动的失误不影响接下来的动作效果，从而提供了抓取过程的鲁棒性，提高了抓取成功率和稳定性。

附图说明

图1是本发明技术方案实施例中一个优选的系统布局示意图；

图2是本发明技术方案实施例中抓取效果预测器的循环神经网络结构示例图；

图3是本发明技术方案实施例中抓取系统运行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

本发明技术方案的实施例中提供了一种基于机器视觉和深度学习的机械臂抓取方法，其中包括图像采集模块、抓取效果预测器、运动指令生成模块、视觉伺服模块和机械臂。

具体来说，图像采集模块负责使用相机拍摄作业场景图片，对图片进行剪裁、缩放、归一化操作，然后传输给抓取效果预测器。

本实施例中的抓取效果预测器优选用于对在图像所示的场景下，机械臂执行运动指令后，在到达的新位置能否做出一次成功的抓取作出判断，并给出一个表征抓取成功可能性大小的值。这要求预测器能够识别机械臂手爪和被抓物体的图像特征，获得在图像坐标系下手爪和待抓物体的相对位置关系，并隐性地建立起二维的图像坐标系和三维的机械臂基坐标系之间的映射关系，从而判断出指令所表示的基坐标系下的运动向量是否和图像中手爪与待抓物体的位置关系相契合。

一方面，本实施例中，深度学习模型利用观察到的图像内容确定被观察物体的位置，也就是说神经网络能够识别图像特征并显式地表达出其在图像坐标系下的位置。利用这一特点，本实施例中优选通过将图像坐标系下观察位置和机械臂基坐标系下手爪运动指令向量进行拼接，可以使得运动指令向量参与到模型对图像观察位置的决策中来。同时，神经网络根据不同时间步输入的作业场景图像中不同位置图像块的内容能够判断指令让手爪移动到的位姿处是否存在待抓物体。另一方面，本发明技术方案的实施例中，优选使用线性支持向量机对模型提取到的包含图像、位置信息的特征向量进行分类，输出的样本距离分离超平面的函数间隔即为表征抓取成功可能性大小的值。

在一个具体的施例中，运动指令生成模块用于生成机械臂的运动指令，本实施例中该模块根据人为设定的作业场景范围及视觉伺服模块提供的均值μ和协方差矩阵Σ，随机采样生成一组m个服从多维截断正态分布N(μ,Σ)的机械臂运动指令。优选的，机械臂为六轴机械臂，每一条机械臂运动指令均为多维向量v(X,Y,Z,A,B,C)，代表机械臂手爪基于当前位姿在X、Y、Z、A、B、C各轴上的相对运动量。但是需要特别说明的是，本实施例中的六轴机械臂仅作为一个具体的实施例来对本申请的技术方案进行说明，不视为对本申请的技术方案本身进行限定。

在运动指令生成模块的基础上，视觉伺服模块的功能优选包括最佳运动指令搜索单元与运动决策单元。其具体工作过程优选如下，首先利用指令生成模块和抓取效果预测器搜索到当前状态下的最佳运动指令，随后进入运动决策单元，决定机械臂手爪在当前位姿实施抓取还是继续移动；若决定实施抓取，则控制机械臂手爪在当前位姿实施抓取，流程结束；若决定继续移动，则控制机械臂按照该指令运动后，重新拍照，进入下一次迭代。一个优选的流程如图3所示，本实施例中，循环迭代结束的条件可以设置为迭代至一定次数或者迭代结果达到一定阈值，本实施例中对此不作具体限定。

进一步地，本实施例中的最佳运动指令搜索单元是根据当前状态相机观察到的图片，找到在作业场景范围内，使抓取效果预测器输出的抓取成功可能性预测值最大的运动指令。本实施例中，该过程是一个最优化问题，优化变量是运动指令，约束条件是机械臂作业场景范围，目标函数是输入了当前状态图片的抓取效果预测器的循环神经网络。由于该目标函数求导困难，且存在局部最优解，因此本实施例中优选采用基于采样的交叉熵优化方法来求得一个给可能性预测值取较大的运动指令分配较大的概率密度的采样分布，并以依据该分布采样得到的指令中使可能性预测值最大的运动指令作为该优化问题的解；具体来说，是在作业场景范围内，给运动指令生成模块提供一个初始均值μ(μ_X,μ_Y,μ_Z,μ_A,μ_B,μ_C)和协方差矩阵Σ，根据上述初始均值和方法获得以多维截断正态分布N(μ,Σ)为概率密度函数的一组m个运动指令向量采样值；每个采样值分别同当前状态图片一起送入循环神经网络求出m个抓取成功可能性预测值，取前n个最大的预测值对应的运动指令向量，或者是可能性预测值达到一定阈值的n个运动指令向量，求出这n个运动指令采样值各维上的均值和协方差矩阵，传递给运动指令生成模块生成一组新的运动指令,重复上述步骤迭代N次后，以第N次采样的m个运动指令向量中使抓取成功可能性预测值最大的运动指令作为最佳运动指令v^*，与其可能性预测值p^*一并送入运动决策单元。

在一个优选的实施例中，运动决策单元的功能是决定机械臂在当前位姿合上手爪实施抓取，还是执行最佳运动指令移动机械臂手爪。如果机械臂在当前位姿合上手爪实时抓取的概率达到了一定的阈值，此时并没有必要一定采用最佳运动指令来移动机械臂手爪。因此本实施例中，优选依据“在当前位姿实施抓取是否已经能使抓取成功的可能性足够高”来进行运动决策，其具体方法是：将表示机械臂在当前位姿不移动的运动指令向量v₀(0,0,0,0,0,0)同当前状态图片送入循环神经网络求出代表抓取成功可能性的预测值p₀，求出d＝p₀/p^*，若d≥90％，说明执行v₀，即在当前位姿不动，合上手爪实施抓取。

本实施例中之所以采用这种方式，是因为相比于执行最优指令v^*后实施抓取，在现有位置进行抓取已经能得到差不多好的结果，因而不需要再移动手爪，此时直接控制机械臂在当前位姿合上手爪，实施抓取，流程结束；反之，若d<90％，说明当前位姿相比于执行最优运动指令后到达的位姿，获得一次成功抓取的可能性小很多，因而控制机械臂执行最优运动指令，然后重复上述步骤。

所述的机械臂包括机械臂本体、电动手爪及控制手爪的单片机等。系统的中心为一台安装了图形处理器(GPU)的计算机，路由器组建的局域网将相机、机械臂和控制手爪开合的单片机分别连接到计算机；通过机械臂、相机、单片机控制程序接口，运行于计算机上的程序可直接控制机械臂动作、相机拍照传输及电动手爪开合。

换而言之，在图1为本发明技术方案的一个优选的系统布局示意图的基础上。根据应用场景不同可选择不同类型的机械臂，本实施例中具体以工业六轴机械臂为例对本发明技术方案进行说明。

如图1所示，工业六轴机械臂所采用的电动手爪为二指欠驱动手爪，其可接受单片机发送的电信号控制开合，系统通过计算机上的软件程序调用单片机控制接口，间接控制手爪开合，实施抓取；电动手爪安装在机械臂末端，作为机械臂末端执行器，所述的运动指令是指机械臂末端执行器参考点在机械臂基坐标系下的相对运动量。相机使用支架固定在机械臂侧后部，从上往下俯瞰作业场景，此例以工作台上各种不同形状的物品作为抓取目标，相机视野包含工作台、被抓物品和机械臂手爪。本实施例中，为了保证循环神经网络的训练集和测试集独立同分布，优选要求在训练数据采集阶段和系统测试使用阶段，相机、机械臂、工作台三者的相对位置及作业场景的背景完全相同。

作为本实施的一个具体优选，如图2所示，首先对作业场景图片进行池化，然后将池化后输入时间循环神经网络，本实施例中的LSTM优选采用的是基于视觉注意力机制的循环神经网络模型，其特点在于，该模型机制下，优选将原始作业场景图像分解成若干个图像块，然后按照人眼视觉捕捉的习惯，依次将每个图像块及其对应的运动指令向量结合后输入神经网络进行训练，同时对下一视觉点对应的图像块进行预测。举例来说，假设在人眼视觉注意力机制下，最先观察到的是原始作业场景图像中的A图像块，则将A图像块与对应的运动指令向量结合后输入神经网络进行处理，同时据此对视觉注意力机制下观察到的下一图像块B进行预测……循环上述过程，直至接收到结束指令。

因此，本实施例中，基于视觉注意力机制的循环神经网络模型是可以参照人眼视觉捕捉的习惯对原始作业场景图像进行处理，优选的，如图2所示为本实施例中基于视觉注意力机制的循环神经网络模型的原理示意图，在此对其不作赘述。

进一步地，图2为本发明中抓取效果预测器的循环神经网络结构的一个优选实施例。其中，网络的输入内容为图像采集模块输出的预处理后的图片和运动指令生成模块生成的多维运动指令向量；图片内容包括工作台、被抓物品及机械臂手爪。具体来说，该网络通过多层卷积层、池化层的组合提取图片中被抓物品和机械臂手爪的图像特征，获得图像特征向量v_i；网络每个时间步输出的二维图像坐标系下的观察位置loc_n(x,y)和运动指令生成模块输入的运动指令向量vec(X,Y,Z,A,B,C)进行拼接，得到的向量l_n＝concatenate(loc_n,vec)经过一个全连接层，生成与图像特征向量相同维度的位置特征向量v_o，两特征向量相加，得到融合了图像特征和位置信息的向量v_r＝v_i+v_o,该向量是循环神经网络的输入向量。下层循环网络用于融合不同位置的图像、位置信息，并将输出给上层循环网络作为输入，上层循环网络用于基于已观察到的图像特征和输入的运动指令特征输出下一个时间步网络观察的图像位置在图像坐标系下的坐标loc_n+1。经过N个时间步后，下层循环网络输出的特征向量进入线性支持向量机进行分类，输出该样本向量距离分类超平面的函数间隔：

y＝w*x+b

其中，w和b分别为支持向量机的权重和偏置。

网络的损失函数是：

其中，x_n是线性支持向量机的输入，即下层循环网络最后一个时间步的输出；为了使用小批量随机梯度下降法对网络进行更新，求得的损失对支持向量机输入的偏导数为：

作为本实施例的优选，选用支持向量机替代常用的Sigmoid分类器对模型中的向量进行分类的原因是，当样本的函数间隔小于1时，支持向量机导出的合页损失函数(HingeLoss)将会加入惩罚项，否则样本对应惩罚项为0，即被以较高的置信度正确分类的样本对模型参数的更新不施加影响；这说明该优化问题的目标函数只和模型分类结果置信度不高的样本有关。支持向量机的这一特性对本发明这类负样本数量远多于正样本的任务尤其适用，因其避免了Sigmoid分类器中交叉熵损失函数(Cross Entropy Loss)带来的数量占优的样本种类对参数的梯度影响大，从而影响模型训练效果的问题。

需要特别说明的是，本实施例中图像特征向量和位置特征向量的相加，是两个向量直接相加，有别于现有技术中两个向量的乘法。

在一个优选的实施例中，抓取效果预测器的循环神经网络需要预先在训练集上做训练，训练集是在相同条件下采集并标注的。训练集中的每个样本包括一幅图像、一个机械臂运动指令向量和一个标签；图像如上所述，内容包括工作台、被抓物品及机械臂手爪；运动指令是随机生成的，执行该指令后机械臂手爪仍在作业场景范围内；标签代表机械臂执行该运动指令移动手爪到达新位姿后，合上手爪实施抓取，抓到物品与否，例如采用1表示抓到物品，采用-1表示未抓到。

同时，为保证循环神经网络对不同物品图像特征的提取、识别与泛化能力，在数据采集的过程中，放置在工作台上的物品应在大小、形状、颜色、密集程度等视觉特征属性上达到尽量的广泛与不同；为保证循环神经网络泛化地具有对作业空间中各个方向运动向量的解析、判断能力，采集数据过程中随机生成的运动指令需要比较均匀地覆盖各维度的可行域。

图3为本实施例的抓取系统运行流程图。如图所示，系统的抓取位姿的选择可以是一个迭代过程，当手爪处在任意一个位姿时均可由“相机拍摄当前状态作业场景图片”开始迭代，与到达此位姿前的运动轨迹无关；因此，系统拥有对运动指令的容错能力，上一步移动到一个较差的位姿可通过下一步的移动得到纠正，并不直接影响最终抓取结果，因而系统拥有较强的鲁棒性和较高的抓取成功率。在一个优选的实施例中，初始采样均值μ和协方差矩阵Σ、运动指令采样个数m、运动指令截取数n、优化迭代次数N、运动决策可能性比例d的阈值(图中为90％)等均为经验值，根据具体应用场景变化取值不固定，可通过实验确定最优值。

由此，本实施例中提供了一种基于机器视觉和深度学习的机械臂抓取方法，能够应用于工业机械臂分拣、上料，服务机械臂抓取等诸多机械臂应用领域，提供智能、稳定的抓取效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器视觉和深度学习的机械臂抓取控制方法，其特征在于，包括

S1获取机械臂当前状态下的作业场景图像，并根据运动指令向量的初始采样均值和初始协方差矩阵，生成至少包含一个运动指令向量的运动指令向量组；

S2依次将每个运动指令向量与对应的作业场景图像输入基于视觉注意力转移机制的循环神经网络进行训练，获取每个运动指令向量对应的可能性预测值；

2.根据权利要求1所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，步骤S2中包括

S21分别对作业场景图像和运动指令向量进行预处理，对运动指令向量进行处理获得对应的位置特征向量；

S22从作业场景图像中裁剪出若干个图像块，运用卷积层、池化层和/或全链接层中的一个或多个提取每个图像块的图像特征向量；

S24将基于视觉注意力转移机制的循环神经网络输出的特征向量经过线性支持向量机进行分类，输出向量距离分离超平面的函数间隔，即为可能性预测值。

3.根据权利要求1所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，步骤S3中包括，

4.根据权利要求1所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，步骤S4中包括，

S41计算机械臂当前状态下可能性预测值与最佳运动指令向量的可能性预测值的比值；

5.根据权利要求1所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，步骤S1中包括

S12确定机械臂在参考坐标系中的作业场景范围；

S13根据初始采样均值和初始协方差矩阵的概率密度，在作业场景范围内采样生成运动指令向量组。

6.根据权利要求1～5任一项所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，步骤S1中，所述运动指令向量的分布函数为多维截断正态分布。

7.根据权利要求3所述的一种基于机器视觉和深度学习的机械臂抓取控制方法，其中，均值和协方差矩阵的维度与运动指令向量的维度相对应。

8.一种基于机器视觉和深度学习的机械臂抓取控制系统，其特征在于，包括

运动指令生成模块，用于获取机械臂当前状态下的作业场景图像，并根据运动指令向量的初始采样均值和初始协方差矩阵，生成至少包含一个运动指令向量的运动指令向量组；

可能性预测模块，用于依次将每个运动指令向量与对应的作业场景图像输入基于视觉注意力转移机制的循环神经网络进行训练，获取每个运动指令向量对应的可能性预测值；

9.根据权利要求8所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，可能性预测模块中包括

预处理模块，用于分别对作业场景图像和运动指令向量进行预处理，对运动指令向量进行处理获得对应的位置特征向量；

图像特征模块，用于从作业场景图像中裁剪出若干个图像块，运用卷积层、池化层和/或全链接层中的一个或多个提取每个图像块的图像特征向量；

分类模块，将基于视觉注意力转移机制的循环神经网络输出的特征向量经过线性支持向量机进行分类，输出向量距离分离超平面的函数间隔，即为可能性预测值。

10.根据权利要求8所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，最佳指令模块中包括，

11.根据权利要求8所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，抓取决策模块中包括，

比值模块，用于计算机械臂当前状态下可能性预测值与最佳运动指令向量的可能性预测值的比值；

12.根据权利要求8所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，运动指令生成模块中包括

场景模块，用于确定机械臂在参考坐标系中的作业场景范围；

向量模块，用于根据初始采样均值和初始协方差矩阵的概率密度，在作业场景范围内采样生成运动指令向量组。

13.根据权利要求8～12任一项所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，运动指令模块中，所述运动指令向量的分布函数为多维截断正态分布。

14.根据权利要求10所述的一种基于机器视觉和深度学习的机械臂抓取控制系统，其中，均值和协方差矩阵的维度与运动指令向量的维度相对应。

15.一种存储设备，其中存储有多条指令，所述指令适用于由处理器加载并执行：

S4比较机械臂当前状态下可能性预测值与最佳运动指令向量的可能性预测值，确定机械臂的抓取运动决策。

16.一种终端，包括处理器，适于实现各指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：