CN113689326B

CN113689326B - 一种基于二维图像分割引导的三维定位方法

Info

Publication number: CN113689326B
Application number: CN202110903095.8A
Authority: CN
Inventors: 徐锋; 陈国栋; 李瑾; 陈妍洁; 郭中远
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-08-04
Anticipated expiration: 2041-08-06
Also published as: CN113689326A

Abstract

本发明公开了一种基于二维图像分割引导的三维定位方法，包括：双目标定，确定相机参数；获取目标左右两幅图像，获取包含需定位特定目标的左右两幅二维图像；深度学习图像分割，对二维图像进行深度学习图像分割处理，获得特定目标区域的分割结果；获取目标的二维信息，获取深度学习图像分割结果中的特定目标关键特征点的二维坐标信息；双目三维测量，结合关键特征点的二维坐标信息进行匹配，获取特定目标的深度信息，实现三维定位。其中本发明提出的深度学习图像分割网络在保持相对精度的同时提高分割速度，同时缩小双目视觉匹配区域，使获取目标三维信息的过程更加快速。该方法的时空复杂度较低，在低成本的条件下提高了三维定位速度。

Description

一种基于二维图像分割引导的三维定位方法

技术领域

本发明涉及计算机视觉和空间定位技术领域，更具体的涉及一种二维深度学习图像分割结合双目视觉三维定位方法。

背景技术

随着科学技术的发展，在机器人进行抓取、处置等许多实际的应用场景中往往需要获取目标的三维信息并进行高精度的三维定位。传统的单目视觉和图像分割方法只能获取目标的二维信息，无法获取目标的深度信息。基于激光雷达的方法能获取目标的三维信息，但其定位精度不高，往往应用于大范围的三维测量。基于结构光的方法能获取目标的三维信息，但其硬件成本较高且易受到环境限制，做不到普遍应用。基于双目视觉的方法可以获取目标三维信息，成本低，应用范围较广，然而其需要扫描整幅二维图像进行特征点的匹配，存在速度较慢的问题。

随着人工智能和计算机硬件的快速发展，计算机视觉领域中的图像分割算法越来越强大，基于深度学习的图像分割算法在分割精度、运行速度等方面已渐渐优于传统的图像分割方法。基于深度学习的图像分割算法无需人为的进行特征提取，可以获得与输入图像具有相同分辨率的分割图像以及分割目标的二维图像坐标信息。

鉴于此，本发明基于双目视觉技术，引入基于深度学习的图像分割技术获取特定目标关键特征点的二维坐标信息，缩小特征匹配范围，实现图像分割后的特定目标关键特征点快速匹配，提高三维定位速度。其中本发明提出的深度学习图像分割网络在保持相对精度的同时提高分割速度，同时缩小双目视觉匹配区域，使获取目标三维信息的过程更加快速。该方法的时空复杂度较低，在低成本的条件下提高了三维定位速度。

发明内容

为了降低三维定位的成本，使获取目标三维信息的过程更加快速，本发明提出了一种基于二维图像分割引导的三维定位方法，本发明通过基于深度学习的二维图像分割引导获取目标的三维信息，有效地结合了计算机视觉中的二维和三维相关技术算法，使获取目标三维信息的过程更加快速，该方法的时空复杂度较低，在低成本的条件下提高了三维定位速度。

所述基于二维图像分割引导的三维定位方法，包括：双目标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系；获取目标左右两幅图像，使用标定好的双目系统对目标物体进行拍摄，获取目标左右两幅二维图像；深度学习图像分割，对获取到二维图像进行深度学习图像分割处理，其中本发明提出的深度学习图像分割网络的优点是保持相对精度的同时提高分割速度；获取目标的二维信息，获取深度学习图像分割结果图中的目标关键特征点的二维坐标信息；双目三维测量，结合关键特征点的二维坐标信息获取目标的深度信息进而获取目标的三维信息，实现三维定位。

所述双目标定，对双目系统中的相机进行标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系。两个相机从不同角度对同一高精度标定板进行多次拍摄，分别标定出各自的内参和相对于标定板的外参，获得两相机的位置关系，位置关系用平移向量和旋转矩阵描述。

所述获取目标左右两幅图像，使用上述标定好的双目系统对目标物体进行拍摄处理，获取包含需定位特定目标的左右两幅二维图像。

所述深度学习图像分割，首先输入二维图像，将其通过N次空洞卷积模块得到第一特征图，获得的第一特征图进入两个平行分支，第一个分支是将第一特征图输入到K次深度可分离卷积模块获得第二特征图，第二个分支是将第一特征图输入到注意力机制模块，使网络关注于有效特征，从而获得第三特征图。然后将第二特征图和第三特征图进行相乘获得第四特征图，第四特征图通过上采样操作和像素点分类后，获得图像分割结果。所述N和K的数值根据实际应用场景进行特定设计，该深度学习图像分割网络的优点是保持相对精度的同时提高分割速度。

所述获取目标的二维信息，通过图像分割获得左右两幅目标图像的目标分割图，从目标分割图中获取同一关键特征点的二维坐标信息，关键特征点的信息包括h、w、u、v，其中（u，v）为图像中关键特征点的图像二维坐标，h和w分别为图像的高度和宽度。

所述双目三维测量，将目标左右两幅图像的同一特征点进行匹配，根据所述标定获得的平移向量、旋转矩阵参数以及双目视觉原理，获得目标特征点的深度信息，计算特征点的X、Y、Z坐标，获得目标特征点的三维信息，将获得的全部关键特征点的三维坐标放入三维坐标系中得到目标物体的轮廓模型，从而实现三维定位。

附图说明

图1是本发明一种基于二维图像分割引导的三维定位方法的步骤流程图。

图2是本发明一种基于二维图像分割引导的三维定位方法的结构框图。

图3是本发明一种基于二维图像分割引导的三维定位方法的图像分割流程图。

图4是本发明一种基于二维图像分割引导的三维定位方法的深度学习图像分割网络框架图。

图5是本发明一种基于二维图像分割引导的三维定位方法的双目标定示意图。

图6是本发明一种基于二维图像分割引导的三维定位方法的双目视觉原理图。

具体实施方式

下面结合附图和具体实施方式对本发明进一步详细说明。

图1是本发明一种基于二维图像分割引导的三维定位方法的步骤流程图，首先进行双目标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系，然后使用标定好的双目系统获取目标左右两幅二维图像，通过深度学习图像分割技术获取二维图像目标物体的分割结果图，从图像分割结果图中获取目标关键特征点的二维坐标信息，最后进行双目三维测量，即结合关键特征点的二维坐标信息获取目标的深度信息进而获取目标的三维信息，实现三维定位。

如图1所示，一种基于二维图像分割引导的三维定位方法具体包括如下步骤：

S11、双目标定，对双目系统中的相机进行标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系。两个相机从不同角度对同一高精度标定板进行多次拍摄，分别标定出各自的内参和相对于标定板的外参，获得两相机的位置关系，位置关系用平移向量和旋转矩阵描述。

S12、获取目标左右两幅图像，使用上述标定好的双目系统对目标物体进行拍摄处理，获取包含需定位特定目标的左右两幅二维图像。

S13、深度学习图像分割，首先输入二维图像，将其通过N次空洞卷积模块得到第一特征图，获得的第一特征图进入两个平行分支，第一个分支是将第一特征图输入到K次深度可分离卷积模块获得第二特征图，第二个分支是将第一特征图输入到注意力机制模块，使网络关注于有效特征，从而获得第三特征图。然后将第二特征图和第三特征图进行相乘获得第四特征图，第四特征图通过上采样操作和像素点分类后，获得图像分割结果。上述N和K的数值根据实际应用场景进行特定设计，对于复杂场景，N和K的数值取较大值，对于简单场景N和K的数值取较小值。该深度学习图像分割网络的优点是保持相对精度的同时提高分割速度。

具体的，所述空洞卷积模块，其特征在于，空洞卷积模块包括空洞卷积、批量标准化操作和激活函数。所述空洞卷积，其特征在于，加权叠加，提取特征，加大图像感受视眼，掌握更多的全局信息。所述批量标准化操作，其特征在于，避免了梯度消失和梯度爆炸，加速网络的收敛，提高了网络的泛化能力，优化网络结构。所述激活函数，其特征在于，引入非线性，这种非线性使得网络能够学习到输入与输出之间任意复杂的变换关系，非线性激活函数能够使神经网络逼近任意复杂的函数。

具体的，所述深度可分离卷积模块，其特征在于，深度可分离卷积模块包括通道卷积和点卷积、批量标准化操作和激活函数。深度可分离卷积由通道卷积和点卷积两部分组成，用来提取图像特征，相比常规的卷积操作，其参数数量和运算成本比较低，可以提高特征提取的速度。

具体的，所述注意力机制模块，其特征在于，注意力机制模块包括全局池化、全连接、激活函数和Sigmoid。所述全局池化，其特征在于，全局池化的滑动窗口与整张特征图的大小一致，采用全局池化以简化计算，增大卷积的步长以免去附加的池化操作。所述全连接，其特征在于，将所述提取到的特征映射到样本标记空间。所述Sigmoid，其特征在于，Sigmoid函数的输出映射在0和1之间，单调连续，输出范围有限，优化稳定，作为输出层。注意力机制关注于有效特征，提高图像分割的精度。

S14、获取目标的二维信息，通过上述深度学习图像分割获得左右两幅目标二维图像的分割图，从目标分割图中获取同一关键特征点的二维坐标信息，关键特征点的信息包括h、w、u、v，其中（u，v）为图像中关键特征点的二维坐标，h和w分别为图像的高度和宽度。

S15、双目三维测量，将目标的左右两幅图像的同一特征点进行匹配，根据所述标定获得的平移向量、旋转矩阵参数以及双目视觉原理，获得目标特征点的深度信息，计算特征点的X、Y、Z坐标，获得目标特征点的三维信息，将获得的全部关键特征点的三维坐标放入三维坐标系中得到目标物体的轮廓模型，从而S16、获取目标的三维信息，实现三维定位。

图2是本发明一种基于二维图像分割引导的三维定位方法的结构框图，对于需要定位的目标，首先使用预先标定好的双目系统中的相机对目标进行拍摄，拍摄后获得目标的左右两幅二维图像，然后对两幅二维图像分别进行深度学习图像分割操作，从图像分割结果图中获得目标关键特征点及其对应的二维信息，最后使用双目视觉技术结合关键特征点的二维坐标信息获取目标的深度信息，从而获得目标的三维信息。

具体的，所述预先标定好的双目系统需进行相机标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系。两个相机从不同角度对同一高精度标定板进行多次拍摄，分别标定出各自的内参和相对于标定板的外参，获得两相机的位置关系，位置关系用平移向量和旋转矩阵描述。

具体的，所述深度学习图像分割处理部分包括获取二维输入图像、主干特征提取网络、注意力机制、获得目标分割图和关键特征点二维信息。其中所述获取二维输入图像包括获取待分割的目标图像和图像数据集。对于二维图像数据集，进行图像增强，图像增强包括图像旋转、图像缩放、图像剪切、图像水平垂直翻转、改变图像亮度饱和度等，其目的是丰富图像训练集，增强模型的泛化能力和特征提取能力，提高图像分割的精度。所述主干特征提取网络包括N次空洞卷积模块和K次深度可分离卷积模块，其目的是提取二维图像中的特征。所述注意力机制，其作用是强调或选择目标处理对象的重要信息，并且抑制一些无关的细节信息，关注于有效特征，提高图像分割精度。随后将主干特征提取网络获得的特征图和通过注意力机制后融合的特征图进行上采样，上采样使用内插值法，在原有图像像素的基础上在像素点之间采用插值算法插入新的元素，即将小的特征图转化为大的特征图，将特征图映射为原图大小，对图像像素进行分类，实现像素级别的分类，得到二维图像的目标分割图，即完成深度学习图像分割操作，从图像分割结果图中获得目标关键特征点的二维信息。

具体的，所述双目三维测量，将目标的左右两幅图像的同一特征点进行匹配，根据所述标定获得的平移向量、旋转矩阵参数以及双目视觉原理，获得特定目标关键特征点的深度信息，计算特征点的X、Y、Z坐标，将获得的全部关键特征点的三维坐标放入三维坐标系中得到目标物体的轮廓模型，获得目标的三维信息。

图3是本发明一种基于二维图像分割引导的三维定位方法的深度学习图像分割流程图，本发明的图像分割使用基于深度学习的图像分割，基于深度学习的图像分割算法根据实际分割定位目标进行设计特定的深度神经网络来提取特征，不需如传统方法那样人为的进行提取特征，通过深度学习算法获得与输入图像具有相同分辨率的分割图像以及分割目标的关键特征点的二维坐标信息。

如图3所示，一种基于二维图像分割引导的三维定位方法的深度学习图像分割首先需获得二维图像数据和待分割的目标图像，其中使用预先标定好的双目系统中的相机对目标进行拍摄，拍摄后获得目标的左右两幅二维图像，其为待分割的目标图像。然后将二维图像数据集进行图像增强操作，丰富训练数据集，增强模型的泛化能力和特征提取能力。将训练数据集输入到构建好的深度神经网络中进行训练，训练迭代到预期效果后，获得深度神经网络模型。然后将待分割的目标图像输入到训练得到的深度神经网络模型中进行像素分类预测，获得图像分割结果图，最后从图像分割结果图中获得目标关键特征点及其对应的二维信息。本发明的深度学习图像分割流程具体包括如下步骤：

S31、二维图像数据集，获取包含待分割目标的图像数据集，其包括正样本与负样本，二维图像数据集由公开数据集和自行拍摄并标注的图像数据组成，二维图像数据集的作用是进行深度学习图像分割的模型训练。

S32、图像增强，图像增强包括图像旋转、图像缩放、图像剪切、图像水平垂直翻转、改变图像亮度饱和度等，其目的是丰富图像训练集，增强模型的泛化能力和特征提取能力，提高深度学习图像分割的精度。

S33、构建深度神经网络，深度学习图像分割的深度神经网络包括主干特征提取网络、获得目标掩码。所述主干特征提取网络包括卷积、批量标准化、激活函数等操作，其目的是提取二维图像中的特征，获得特征图。所述获得目标掩码使用反卷积进行，反卷积又称为转置卷积，其作用是将主干特征提取网络获得的特征图进行上采样，上采样使用内插值法，在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，即将小的特征图转化为大的特征图，将特征图映射为原图大小，对图像像素进行分类，实现像素级别的分类，得到二维图像的目标分割图，完成深度学习图像分割操作。

S34、待分割的目标图像，使用预先标定好的双目系统中的相机对目标物体进行拍摄，获取包含需定位特定目标的左右两幅二维图像，即获得待分割的目标二维图像。

S35、深度神经网络模型，使用数据增强后的图像数据集对S33构建深度神经网络进行迭代训练，训练到预设的轮次后达到快速准确的图像分割效果，此时，停止模型训练，保存最后一次效果最佳的深度神经网络模型，确定为深度神经网络的模型。

S36、图像分割结果图，将待分割的目标图像输入到所述获得的深度神经网络模型中进行预测处理，训练得到的深度神经网络模型对待分割的目标图像像素进行分类，获得目标掩码，得到图像分割结果图。

S37、关键特征点二维信息，通过所述深度神经网络模型获得二维图像的目标分割结果图，从目标分割结果图中获取左右图像同一关键特征点的二维坐标信息，关键特征点的信息包括h、w、u、v，其中（u，v）为图像中关键特征点的二维坐标，h和w分别为图像的高度和宽度。

图4是本发明一种基于二维图像分割引导的三维定位方法的深度学习图像分割网络框架图，该深度学习图像分割网络的优点是保持相对精度的同时提高分割速度。如图4所示，首先输入二维图像，将其通过N次空洞卷积模块得到第一特征图，获得的第一特征图进入两个平行分支，第一个分支是将第一特征图输入到K次深度可分离卷积模块获得第二特征图，第二个分支是将第一特征图输入到注意力机制模块，使网络关注于有效特征，获得第三特征图。然后将第二特征图和第三特征图进行相乘获得第四特征图，第四特征图通过上采样操作和像素点分类后，获得图像分割结果。上述N和K的数值根据实际应用场景进行特定设计，对于复杂场景，N和K的数值取较大值，对于简单场景N和K的数值取较小值。本发明的深度学习图像分割网络框架具体包括如下模块：

S41、空洞卷积模块，其特征在于，用于提取图像特征，空洞卷积模块包括空洞卷积、批量标准化操作和激活函数。所述空洞卷积，其特征在于，加权叠加，用于提取特征，使用空洞卷积，视野更大，普通3*3卷积的视野是3*3，插入一个洞之后的视野是5*5，使用膨胀率为1的空洞卷积，视野变大的作用是在特征图缩小到同样倍数的情况下掌握更多图像的全局信息。所述批量标准化操作，其特征在于，减少了内部神经元分布的改变，降低不同样本间值域的差异性，使得大部分的数据都其处在非饱和区域，从而保证梯度能够很好的回传，避免了梯度消失和梯度爆炸。其次，通过减少梯度对参数或初始值尺度的依赖性，使用较大的学习速率对网络进行训练，加速网络的收敛。同时批量标准化引入小噪声，使后面的神经元单元不过分依赖前面的神经元单元，提高了网络的泛化能力。所述激活函数，其特征在于，引入非线性，这种非线性使得网络能够学习到输入与输出之间任意复杂的变换关系，非线性激活函数能够使神经网络逼近任意复杂的函数，同时使神经网络学习得更好更快，增强神经网络的表达能力。

S42、深度可分离卷积模块，其特征在于，用于提取特征以及提高图像分割的速度，深度可分离卷积模块包括通道卷积和点卷积、批量标准化操作和激活函数。所述通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。通道卷积完成后的特征图数量与输入层的通道数相同，无法扩展特征图，而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的特征信息。因此需要所述的点卷积来将这些特征图进行组合生成新的特征图。所述点卷积的运算与常规卷积运算相似，它的卷积核尺寸为 1×1×上一层的通道数，所述点卷积运算会将上一步的特征在深度方向上进行加权组合，生成新的特征图，卷积核的数量等于输出的特征图数量。深度可分离卷积，由通道卷积和点卷积两个部分结合，用于提取图像特征，相比常规的卷积操作，深度可分离卷积的参数数量和运算成本较低，提高了特征提取的速度。

S43、注意力机制模块，其特征在于，用于提高图像分割的精度，注意力机制模块包括全局池化、全连接、激活函数和Sigmoid。所述全局池化，其特征在于，全局池化的滑动窗口与整张特征图的大小一致，采用全局池化以简化计算，增大卷积的步长以免去附加的池化操作。所述全连接，其特征在于，将所述提取到的特征映射到样本标记空间，将特征表达整合到一起，减少特征位置对分类带来的影响，两层或两层以上全连接层可以很好地解决非线性问题。所述Sigmoid，其特征在于，Sigmoid函数的输出映射在0和1之间，单调连续，输出范围有限，优化稳定，作为输出层。通过注意力机制模块，保持分割的相对精度。

图5是本发明一种基于二维图像分割引导的三维定位方法的双目标定示意图。机器视觉中的三大坐标系为：世界坐标系、相机坐标系、图像坐标系。世界坐标系是目标位置的参考系，在标定时，世界坐标系可以确定标定目标的位置，世界坐标系作为双目视觉的系统参考系，给出两个相机相对世界坐标系的关系，进一步确定相机之间的相对关系。相机坐标系是在相机角度上衡量物体的坐标系，相机坐标系的原点在相机光心上，z轴与相机光轴平行，世界坐标系下的目标物体先经过刚体变化转到相机坐标系，再与图像坐标系进行联系。图像坐标系是以相机拍摄的二维图像为基准，用于指定目标物体在二维图像中的位置。相机标定的目的就是建立相机图像像素位置与物体空间位置之间的关系，即世界坐标系与图像坐标系之间的关系。

具体的，双目标定需进行相机标定，确定两个相机的内部参数以及两个相机之间的旋转平移关系。两个相机从不同角度对同一高精度标定板进行多次拍摄，分别标定出各自的内参和相对于标定板的外参，然后根据下述公式计算出两相机的位置关系，位置关系用平移向量和旋转矩阵描述，公式如下：

其中，R为两相机间的旋转矩阵，T为两相机间的平移矩阵。Rr为右相机经过标定得到的相对标定物的旋转矩阵，Tr为右相机通过标定得到的相对标定物的平移向量。R_l为左相机经过标定得到的相对同一标定物的旋转矩阵，T_l为左相机经过标定得到的相对同一标定物的平移向量。

更具体的，图5中的目标点P在视π中的投影点为像素点P，则在视图π’中的投影点P’必定满足双目几何约束：必定位于图像平面π’与OPO’平面的交线上。图5中P₁，P₂为另外两个列举的场景目标点，对应于视图π’中的投影点分别为P₁’,P₂’。具体的，使用所述预先标定好的双目系统对目标点P进行拍摄，拍摄后左右相机分别获得视图π和视图π’以及对应的投影点P和P’，进一步地，使用深度学习图像分割技术分别确定视图π和视图π’中投影点P与P’的二维图像坐标，计算出视差图，通过双目视觉原理得到目标点P的深度信息，进而获得目标点的三维信息。

图6 是本发明一种基于二维图像分割引导的三维定位方法的双目视觉原理图，其中，O₁和O₂分别为左右相机的光圈中心。b为两相机的投影中心连线的距离，称为基线距离，其通过先验信息和相机标定得到。相机的焦距为f 。点P为两相机在同一时刻观测空间目标物体的同一关键特征点，令其坐标为P(X, Y, Z)。直线AB所在的面为成像平面，A和B分别为两相机观测同一关键特征点P得到的左右两幅二维图像中的投影特征点，令其图像坐标分别为A(u₁, v₁)和B(u₂, v₂)，其中点A和点B的二维图像坐标使用所述深度学习图像分割技术获得。由于两相机拍摄获得的图像在同一个平面上，则左右两幅二维图上的投影特征点A和B的标纵坐标相同，即v₁= v₂，则由三角几何关系可以得到：

视差定义为d = u₁- u₂，即左图投影特征点A(u₁, v₁)和右图投影特征点B(u₂, v₂)横坐标之间的关系，由此计算出目标对象关键特征点P在相机坐标系下的三维坐标为：

因此，获得了目标对象关键特征点P的三维坐标，类似的，将获得的全部关键特征点的三维坐标放入三维坐标系中即可得到目标物体的轮廓模型，从而获得整个目标的三维信息，实现三维定位。

上面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于二维图像分割引导的三维定位方法，其特征在于，包含以下步骤：

相机标定：确定两个相机的内部参数以及两个相机之间的旋转平移关系，获得平移向量、旋转矩阵参数；

获取目标左右两幅图像：获取包含需定位特定目标的左右两幅二维图像；

深度学习图像分割：输入二维图像，将输入图像通过N次空洞卷积模块得到第一特征图，获得的第一特征图进入两个平行分支，第一个分支是将第一特征图输入到K次深度可分离卷积模块获得第二特征图，第二个分支是将第一特征图输入到注意力机制模块，使网络关注于有效特征，从而获得第三特征图；然后将第二特征图和第三特征图进行相乘获得第四特征图，第四特征图通过上采样操作和逐像素点分类后，定位二维图像中的特定目标区域，获得特定目标区域的分割结果，N和K的数值根据实际应用场景进行特定设计；

获取目标的二维信息：获取深度学习图像分割结果中的特定目标关键特征点的二维图像坐标信息；

双目三维测量：结合关键特征点的二维图像坐标信息进行匹配，获取特定目标的深度信息，进而获取特定目标的三维信息，实现三维定位。

2.根据权利要求1所述的一种基于二维图像分割引导的三维定位方法，其特征在于，所述获取目标的二维信息，通过逐像素点分类的图像分割结果获得特定目标的关键特征点信息，包括h，w，u，v，其中（u，v）为图像中关键特征点的图像二维坐标，h和w分别为图像的高度和宽度。

3.根据权利要求1所述的一种基于二维图像分割引导的三维定位方法，其特征在于，所述双目三维测量，将所述获得的目标左右两幅图像的同一特征点的二维坐标信息进行匹配，根据所述相机标定获得的平移向量、旋转矩阵参数以及双目视觉原理，获得目标特征点的深度信息，计算特征点的X、Y、Z坐标，实现三维定位。

4.根据权利要求1所述的一种基于二维图像分割引导的三维定位方法，其特征在于，所述注意力机制模块包括一次全局池化操作，两次全连接和激活函数操作，一次全连接和Sigmoid操作，所述注意力机制模块用于获取第一特征图的有效特征，提高图像分割的精度。