CN117115240A

CN117115240A - 一种通用栈板3d位姿定位方法及系统、存储介质

Info

Publication number: CN117115240A
Application number: CN202311046493.8A
Authority: CN
Inventors: 邓辉; 郭少帅
Original assignee: Jiangsu Xianjue Intelligent Technology Co ltd
Current assignee: Jiangsu Xianjue Intelligent Technology Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-24

Abstract

本发明提供了一种通用栈板3D位姿定位方法及系统、存储介质，其中方法步骤包括：采集场景中的点云数据和纹理图像，根据相机内参，建立点云与纹理图像像素坐标之间的映射关系A；基于学习网络，识别纹理图像中栈板的ROI区域，以根据映射关系A获取ROI内的目标点云以做网格划分，并对每个网格内的点云做平面拟合后进行张量投票，选出栈板平面；提取栈板平面附近的点云，以投射到栈板平面上获取投影图，以经图像识别确定栈板类型；以投影图中心点像素对应的3D点坐标作为识别位置；计算栈板平面与相机坐标系Z轴的夹角，以获取栈板姿态。籍此以实现在无需依赖栈板模型参数的情况下，获取栈板的空间位姿。

Description

一种通用栈板3D位姿定位方法及系统、存储介质

技术领域

本发明涉及物体空间位姿定位技术，尤其涉及一种通用栈板3D位姿定位方法及系统、存储介质。

背景技术

栈板是一种用于装载、运输和储存货物的平台，通常由木材、塑料或金属制成。栈板在物流行业中被广泛使用，能够提高货物的运输效率和安全性。由于传统人工操作叉车取放的方式效率低下，而且容易出现错误和事故。因此，人们开始寻找一种自动化技术，能够快速准确地识别栈板，提高货物运输的效率和安全性。同时伴随随着物流行业迅速发展和物流周转需求的暴增，工业场景需要引入智能叉车等更为自动化、高效的货物装卸和运输方式来满足安全、高效的物流需求。

因此栈板识别技术作为指引智能叉车取放货的眼睛，目前主要依赖于计算机视觉和图像处理技术。例如通过使用高分辨率的摄像头和专业的图像处理软件，可以获取栈板的图像，并对其进行分析和识别。其中栈板识别技术可以检测栈板的尺寸、形状、材料和标识，以及货物的摆放方式和数量。这些信息可以被用于优化货物的装载和运输过程，减少人工错误和提高工作效率。

在实践中，智能叉车取放货物需要知道栈板的摆放位姿，而当前主流的栈板识别方法都是采用3D相机获取场景的点云信息。然后根据3D相机获取的场景点云结构信息与预知的栈板模型进行匹配，进而获取扫描场景中的栈板的位姿。

然而该项现有技术的缺点在于，基于模型匹配的位姿计算方法的一个前提条件是，需要知道库位里面栈板的模型文件，这就约束了工厂内不能使用多种型号的栈板。然而实际场景中，栈板需要根据转运的物料尺寸重量和材质等差异来进行选择，因此往往难以通过一种型号的栈板来满足整个工厂的不同需求。由此可见，如何基于视觉自适应的识别不同类型栈板的空间位姿，成为了当前智能物流行业的主要研究方向。

发明内容

为此，本发明的主要目的在于提供一种通用栈板3D位姿定位方法及系统、存储介质，以实现在无需依赖栈板模型参数的情况下，获取栈板的空间位姿。

为了实现上述目的，根据本发明的第一个方面，提供了一种通用栈板3D位姿定位方法，步骤包括：

步骤S100采集场景中的点云数据和纹理图像，根据相机内参，建立点云数据中3D点坐标与纹理图像像素坐标之间的映射关系A；

步骤S200基于学习网络，识别纹理图像中栈板的ROI区域，以根据映射关系A获取ROI区域内对应的目标点云；

步骤S300将目标点云做网格划分，并对每个网格内的点云做平面拟合，对所有拟合的平面做张量投票，以选出栈板平面；

步骤S400提取栈板平面附近的点云，以投射到栈板平面上获取投影图，以经图像识别确定栈板类型；

步骤S500以投影图中心点像素对应的3D点坐标作为识别位置；计算栈板平面与相机坐标系Z轴的夹角，以获取栈板姿态。

在可能的优选实施方式中，其中步骤S300中对所有拟合的平面做张量投票，以选出栈板平面的步骤包括：

步骤S310在相机坐标系下，分别计算每个平面法向与相机X轴夹角和Y轴的夹角：

；

步骤S320将相机坐标系的X轴和Y轴夹角按照预设角度步长a做等间隔划分，构造角度空间坐标系，根据平面方程与夹角，计算：

获取每个平面在角度空间的位置；

步骤S330统计出所有平面在角度空间内点最多的网格，并对网格内的平面方程求均值以获取栈板平面。

在可能的优选实施方式中，其中步骤S400中获取投影图的步骤包括：

步骤S410将栈板平面根据预设尺寸进行网格化划分，其中每个网格对应一个图像像素点；

步骤S420将栈板平面附近的点云，投射到栈板平面上，当各网格映射到点云时，调整该网格的像素颜色，遍历所有网格生成投影图。

在可能的优选实施方式中，其中网格的预设尺寸为0.5mm*0.5mm；当各网格映射到点云时，调整该网格的像素灰度值为255，其余灰度值为0。

在可能的优选实施方式中，其中步骤S200中所述学习网络的训练步骤包括：

步骤S210在栈板的水平高度及向上数个高度位置设置3D相机，对除水平高度外的其余3D相机设置相下倾斜角度，以获取不同高度下的栈板样本及其相机安装位置变量；

步骤S220每个3D相机安装高度下，设置相机的距离区间、栈板平面与相机平面的夹角角度区间及角度步长，来采集栈板图像样本，以制作栈板深度学习样本，来训练学习网络。

在可能的优选实施方式中，其中步骤S220中所述距离区间为0.2m，夹角角度区间为，角度步长为10°。

为了实现上述目的，对应上述方法，根据本发明的第二个方面，提供了一种通用栈板3D位姿定位系统，其包括：

存储单元，用于存储包括如上中任一所述通用栈板3D位姿定位方法步骤的程序，以供控制单元，图像识别单元，纹理识别单元，处理单元适时调取执行；

控制单元，用于控制相机采集场景中的点云数据和纹理图像；

纹理识别单元，用于基于学习网络，识别纹理图像中栈板的ROI区域，以根据点云数据中3D点坐标与纹理图像像素坐标之间的映射关系A，获取ROI区域内对应的目标点云；

处理单元，用于将目标点云做网格划分，并对每个网格内的点云做平面拟合，对所有拟合的平面做张量投票，以选出栈板平面；之后提取栈板平面附近的点云，以投射到栈板平面上获取投影图，以经图像识别单元确定栈板类型后，以投影图中心点像素对应的3D点坐标作为识别位置；并计算栈板平面与相机坐标系Z轴的夹角，以获取栈板姿态。

在可能的优选实施方式中，其中对所有拟合的平面做张量投票选出栈板平面包括：

处理单元，在相机坐标系下，分别计算每个平面法向与相机X轴夹角和Y轴的夹角，后将相机坐标系的X轴和Y轴夹角按照预设角度步长a做等间隔划分，构造角度空间坐标系，根据平面方程与夹角，计算每个平面在角度空间的位置；然后统计出所有平面在角度空间内点最多的网格，并对网格内的平面方程求均值以获取栈板平面。

在可能的优选实施方式中，其中获取投影图包括：

处理单元，将栈板平面根据预设尺寸进行网格化划分，其中每个网格对应一个图像像素点；而后将栈板平面附近的点云，投射到栈板平面上，当各网格映射到点云时，调整该网格的像素颜色，遍历所有网格生成投影图。

为了实现上述目的，对应上述方法，根据本发明的第三个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现如上中任一所述通用栈板3D位姿定位方法的步骤。

通过本发明提供的该通用栈板3D位姿定位方法及系统、存储介质，能够巧妙的同时利用点云的空间定位能力和纹理图像的泛化能力，以在无需预知栈板模型参数的情况下计算出栈板的空间位姿。从而不再被适用的栈板类型所约束，提高了对栈板定位识别的泛用性，此外本方案中，引入了平面方程张量投票的技术手段，籍此能够显著降低栈板平面提取的计算复杂度，提高了整体算法的运行效率。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的通用栈板3D位姿定位方法步骤示意图；

图2为本发明的通用栈板3D位姿定位方法处理逻辑示意图；

图3为本发明的通用栈板3D位姿定位方法中，采集学习网络所需训练样本的示例示意图；

图4为本发明的通用栈板3D位姿定位方法中，平面方程法向投票概念示意图；

图5为本发明的通用栈板3D位姿定位方法中，投影图的示意图；

图6为本发明的通用栈板3D位姿定位系统结构示意图。

具体实施方式

为了使本领域的技术人员能够更好的理解本发明的技术方案，下面将结合实施例来对本发明的具体技术方案进行清楚、完整地描述，以助于本领域的技术人员进一步理解本发明。显然，本案所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思及相互不冲突的前提下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的揭露及保护范围。

此外本发明的说明书和权利要求书及附图中的术语“第一”、“第二”、“S100”、“S200”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里描述的那些以外的顺序实施。同时本发明中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。除非另有明确的规定和限定，术语“设置”、“布设”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况，结合现有技术来理解上述术语在本案中的具体含义。

请参阅图1至图5所示，为实现在无需依赖栈板模型参数的情况下，获取栈板的空间位姿，本发明提供了一种通用栈板3D位姿定位方法，其示例步骤包括：

步骤S100由3D相机采集场景中的点云数据和纹理图像，同时根据相机内参，建立点云数据中3D点坐标与纹理图像像素坐标之间的映射关系A。

具体的，3D深度相机输出的点云为场景中，物体在图像坐标系下三维点坐标的集合，而相机内参和点云数据之间的转化关系为：

其中，即为三维点坐标在纹理图像上的映射。根据相机内参换算关系，即可得到点云图中每一个三维点到纹理图像中每个像素的映射。

而点云数据的存储方式按照有序点云的形式存储，同时点云文件的宽度和高度与纹理图像宽高对齐，这样即可以得到纹理图像中每个像素点到三维点云的映射。

步骤S200基于学习网络，识别纹理图像中栈板的ROI区域，以根据映射关系A获取ROI区域内对应的目标点云。

其中，本示例中所述学习网络的训练步骤优选包括：

步骤S210在栈板的水平高度及向上数个高度位置设置3D相机，对除水平高度外的其余3D相机设置相下倾斜角度，以获取不同高度下的栈板样本及其相机安装位置变量。

例如，如图3所示，可设置0.3m、0.6m和1m三个3D相机安装高度范围，其中在0.3m高度时3D相机水平安装、0.6m时相机倾斜向下10度安装，1m高度时相机倾斜向下30度安装。通过设置这类多角度和高度的相机安装位置变量来采集栈板样本，能够通过相机安装高度和角度变化，来对栈板识别训练产生影响，以提高后续学习网络的识别率。

其中，优选在每个相机安装高度下，在距离相机1-2m范围内以0.2m为区间，以栈板平面与相机平面夹角的角度区间，为角度步长，采集栈板图像样本，并将图片转为灰度图，制作栈板深度学习样本。而学习网络示例可选用yolo-v8作为栈板目标的识别基础网络，在yolo-v8提供已经训练好的模型基础上，做栈板识别的迁移学习，便可实现在少量栈板标注样本作为训练数据集的基础上，获取较好的识别效果。

之后基于训练好的学习网络，便可识别得到纹理图中栈板的ROI区域，该ROI矩形框的结果由起始点坐标和宽高组成。

步骤S300将目标点云做网格划分，并对每个网格内的点云做平面拟合，对ROI区域内所有拟合的平面做张量投票，以选出栈板平面。

例如，将步骤S200识别得到的栈板ROI区域分割为的小网格，根据图像到点云的映射关系A，提取出落在每个网格的点云，将相同网格内的点云标记为同一聚类点。

之后，对每个网格内的聚类点云做平面拟合。假设平面方程为，其中为平面方程的参数。对于网格内的每个点带入上述平面方程形式如下：

令，，。

可得，即为平面方程。

进一步的，其中步骤S300中对ROI区域内所有拟合的平面做张量投票，以选出栈板平面的步骤包括：

步骤S310以相机坐标系为参考坐标系，分别计算每个平面法向与相机X轴夹角和 Y轴的夹角：

；

步骤S320将相机坐标系的X轴和Y轴夹角按照预设角度步长a做等间隔划分（如以 30°为步长做间隔划分），构造角度空间坐标系。然后根据ROI区域内各个平面方程与相机X 轴夹角和Y轴的夹角，计算其在角度空间所在的位置，公式如下：

根据平面方程与夹角，计算：

如图4所示，根据每个平面方程在角度空间所在的位置，统计ROI区域内所有平面在角度空间内点最多的网格为票数最高，对网格内的平面方程求均值即可得栈板平面方程。

步骤S400提取栈板平面附近的点云，以投射到栈板平面上获取投影图，以经图像识别确定栈板类型。

其中，栈板平面附近可定距离阈值，提取ROI区域内到栈板平面距离小于的点云作为栈板平面点。而点到平面距离计算方程为：

。

其中步骤S400中获取投影图的步骤包括：

步骤S410将栈板平面根据预设尺寸（例如：0.5mm*0.5mm）进行网格化划分，其中每个网格对应一个图像像素点。

步骤S420将栈板平面附近的点云，投射到栈板平面上，当各网格映射到点云时，调整该网格的像素颜色（例如：当各网格映射到点云时，调整该网格的像素灰度值为255，其余灰度值为0，以得到二值图），遍历所有网格，生成如图5所示的二值投影图。

之后，通过现有图像识别技术，根据支持可识别的候选栈板模板图像对投影图像做相似度匹配，如果发现某一个栈板模板与投影图像相似度大于一定阈值，如，则认为该栈板是预期识别的栈板类型。

步骤S500以投影图中心点像素对应的3D点坐标作为识别位置；然后计算栈板平面与相机坐标系Z轴的夹角，其中为栈板平面法向，为相机Z轴方向。根据叉车只具有四个维度，最终输出栈板的6DoF位姿为栈板位置和姿态。

另一方面，对应上述方法，本发明还提供了一种通用栈板3D位姿定位系统，其包括：

其中对所有拟合的平面做张量投票选出栈板平面包括：处理单元，在相机坐标系下，分别计算每个平面法向与相机X轴夹角和Y轴的夹角，后将相机坐标系的X轴和Y轴夹角按照预设角度步长a做等间隔划分，构造角度空间坐标系，根据平面方程与夹角，计算每个平面在角度空间的位置；然后统计出所有平面在角度空间内点最多的网格，并对网格内的平面方程求均值以获取栈板平面。

其中获取投影图包括：处理单元，将栈板平面根据预设尺寸进行网格化划分，其中每个网格对应一个图像像素点；而后将栈板平面附近的点云，投射到栈板平面上，当各网格映射到点云时，调整该网格的像素颜色，遍历所有网格生成投影图。

另一方面，对应上述方法，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现如上中任一所述通用栈板3D位姿定位方法的步骤。

综上所述，通过本发明提供的该通用栈板3D位姿定位方法及系统、存储介质，能够巧妙的同时利用点云的空间定位能力和纹理图像的泛化能力，以在无需预知栈板模型参数的情况下计算出栈板的空间位姿。从而不再被适用的栈板类型所约束，提高了对栈板定位识别的泛用性，此外本方案中，引入了平面方程张量投票的技术手段，籍此能够显著降低栈板平面提取的计算复杂度，提高了整体算法的运行效率。

帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

此外实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种通用栈板3D位姿定位方法，步骤包括：

步骤S500以投影图中心点像素对应的3D点坐标作为识别位置；计算栈板平面与相机坐标系Z轴的夹角/>，以获取栈板姿态/>。

2.根据权利要求1所述的通用栈板3D位姿定位方法，其中步骤S300中对所有拟合的平面做张量投票，以选出栈板平面的步骤包括：

步骤S310在相机坐标系下，分别计算每个平面法向与相机X轴夹角和Y轴的夹角/>：

；

,/>,

获取每个平面在角度空间的位置；

3.根据权利要求1所述的通用栈板3D位姿定位方法，其中步骤S400中获取投影图的步骤包括：

4.根据权利要求3所述的通用栈板3D位姿定位方法，其中网格的预设尺寸为0.5mm*0.5mm；当各网格映射到点云时，调整该网格的像素灰度值为255，其余灰度值为0。

5.根据权利要求1所述的通用栈板3D位姿定位方法，其中步骤S200中所述学习网络的训练步骤包括：

6.根据权利要求5所述的通用栈板3D位姿定位方法，其中步骤S220中所述距离区间为0.2m，夹角角度区间为，角度步长为10°。

7.一种通用栈板3D位姿定位系统，其包括：

存储单元，用于存储包括如权利要求1至6中任一所述通用栈板3D位姿定位方法步骤的程序，以供控制单元，图像识别单元，纹理识别单元，处理单元适时调取执行；

处理单元，用于将目标点云做网格划分，并对每个网格内的点云做平面拟合，对所有拟合的平面做张量投票，以选出栈板平面；之后提取栈板平面附近的点云，以投射到栈板平面上获取投影图，以经图像识别单元确定栈板类型后，以投影图中心点像素对应的3D点坐标作为识别位置；并计算栈板平面与相机坐标系Z轴的夹角/>，以获取栈板姿态。

8.根据权利要求7所述的通用栈板3D位姿定位系统，其中对所有拟合的平面做张量投票选出栈板平面包括：

处理单元，在相机坐标系下，分别计算每个平面法向与相机X轴夹角和Y轴的夹角/>，后将相机坐标系的X轴和Y轴夹角按照预设角度步长a做等间隔划分，构造角度空间坐标系，根据平面方程与夹角/>，计算每个平面在角度空间的位置；然后统计出所有平面在角度空间内点最多的网格，并对网格内的平面方程求均值以获取栈板平面。

9.根据权利要求7所述的通用栈板3D位姿定位系统，其中获取投影图包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述通用栈板3D位姿定位方法的步骤。