CN115546216A

CN115546216A - 一种托盘检测方法、装置、设备及存储介质

Info

Publication number: CN115546216A
Application number: CN202211533598.1A
Authority: CN
Inventors: 王发平; 李世行; 李南星
Original assignee: Shenzhen Haixing Zhijia Technology Co Ltd
Current assignee: Shenzhen Haixing Zhijia Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2022-12-30
Anticipated expiration: 2042-12-02
Also published as: CN115546216B

Abstract

本发明提供了一种托盘检测方法、装置、设备及存储介质，方法包括：获取包含有目标托盘的第一图像；对第一图像进行目标检测和关键点检测，得到目标托盘上各关键点的图像位置；将第一图像输入深度估计模型，得到第一图像对应的深度图像；基于目标托盘上各关键点的图像位置，确定第一图像中目标托盘横杆的图像位置，并从深度图中提取横杆的深度数据；基于横杆的图像位置及其对应的深度数据，利用第一图像对应图像采集设备的设备内参计算横杆的三维坐标；基于横杆的三维坐标分别计算目标托盘相对图像采集设备的偏移角度及目标托盘的插孔中心位置。解决了托盘检测准确性低的问题，并且成本低、具有良好的泛化能力，抗干扰能力更强，鲁棒性更好。

Description

一种托盘检测方法、装置、设备及存储介质

技术领域

本发明涉及叉车托盘技术领域，具体涉及一种托盘检测方法、装置、设备及存储介质。

背景技术

基于图像的计算机视觉是自动驾驶的一个重要模块。自动叉车实现物料等的自动搬运，对无人作业具有重要的意义，其中重要的关键之一为托盘检测。托盘检测的目标为获取托盘插孔中心的三维坐标以及托盘偏移角度。为了得到3D信息，当前的技术方案，一种是基于激光雷达的点云匹配，但是精度受到点云密度的影响，无法直接从点云得到分类信息，会有干扰噪声，影响检测结果的准确性，并且激光雷达成本高，维护困难。另一种技术方案是基于深度相机，受到自然光的影响，无法在户外或者室内有阳光照射下稳定工作，测距距离和精度有限。

发明内容

有鉴于此，本发明实施例提供了一种托盘检测方法、装置、设备及存储介质，以克服现有技术中托盘检测方法准确性低的问题。

根据第一方面，本发明实施例提供了一种托盘检测方法，包括：

获取包含有目标托盘的第一图像；

对所述第一图像进行目标检测和关键点检测，得到所述目标托盘上各关键点的图像位置；

将所述第一图像输入深度估计模型，得到所述第一图像对应的深度图像；

基于所述目标托盘上各关键点的图像位置，确定所述第一图像中所述目标托盘横杆的图像位置，并从所述深度图中提取横杆的深度数据；

基于横杆的图像位置及其对应的深度数据，利用所述第一图像对应图像采集设备的设备内参计算横杆的三维坐标；

基于横杆的三维坐标分别计算所述目标托盘相对所述图像采集设备的偏移角度及所述目标托盘的插孔中心位置。

可选地，所述基于横杆的三维坐标计算所述目标托盘相对所述图像采集设备的偏移角度，包括：

将横杆的三维坐标转换为鸟瞰图模式，以平行于图像采集设备平面为X轴，图像采集设备到目标托盘的距离为Z轴，以X-Z轴的数据进行直线拟合；

基于直线拟合结果计算所述目标托盘相对所述图像采集设备的偏移角度。

可选地，所述基于横杆的三维坐标，计算所述目标托盘的插孔中心位置，包括：

基于横杆的三维坐标，计算各关键点的三维坐标；

基于各关键点的三维坐标，计算所述目标托盘的插孔中心位置。

可选地，所述基于横杆的三维坐标，计算各关键点的三维坐标，包括：

基于各关键点的位置确定各关键点对应的位置区域；

从横杆的三维坐标中提取各位置区域对应的三维坐标；

计算当前位置区域的三维坐标均值，并将当前三维坐标均值确定为所述当前位置区域对应关键点的三维坐标。

可选地，所述对所述第一图像进行目标检测和关键点检测，得到所述目标托盘上各关键点的图像位置，包括：

对所述第一图像进行目标检测得到所述目标托盘对应的第二图像；

对所述第二图像进行关键点检测，得到所述目标托盘上各关键点的图像位置。

可选地，所述深度估计模型的训练过程包括：

利用所述图像采集设备采集托盘图像，并利用激光雷达采集所述托盘图像对应时间戳的点云数据；

对所述图像采集设备和所述激光雷达进行标定后，将所述点云数据投影到所述托盘图像上，得到所述托盘图像中每个像素点的深度数据；

利用不同的所述托盘图像及其每个像素点的深度数据对单目深度估计模型进行训练，得到训练好的深度估计模型。

可选地，所述从所述深度图中提取横杆的深度数据，包括：

基于所述第一图像中所述目标托盘横杆的图像位置，生成与所述第一图像等大的mask图；

将所述mask图与所述深度图进行逐像素相乘，确定所述横杆的深度数据。

根据第二方面，本发明实施例提供了一种托盘检测装置，包括：

获取模块，用于获取包含有目标托盘的第一图像；

第一处理模块，用于对所述第一图像进行目标检测和关键点检测，得到所述目标托盘上各关键点的图像位置；

第二处理模块，用于将所述第一图像输入深度估计模型，得到所述第一图像对应的深度图像；

第三处理模块，用于基于所述目标托盘上各关键点的图像位置，确定所述第一图像中所述目标托盘横杆的图像位置，并从所述深度图中提取横杆的深度数据；

第四处理模块，用于基于横杆的图像位置及其对应的深度数据，利用所述第一图像对应图像采集设备的设备内参计算横杆的三维坐标；

第五处理模块，用于基于横杆的三维坐标分别计算所述目标托盘相对所述图像采集设备的偏移角度及所述目标托盘的插孔中心位置。

根据第三方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机指令，计算机指令被处理器执行时实现本发明第一方面及其任意一种可选方式的方法。

根据第四方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行本发明第一方面及其任意一种可选方式的方法。

本发明技术方案，具有如下优点：

本发明实施例提供的托盘检测方法，通过获取包含有目标托盘的第一图像；对第一图像进行目标检测和关键点检测，得到目标托盘上各关键点的图像位置；将第一图像输入深度估计模型，得到第一图像对应的深度图像；基于目标托盘上各关键点的图像位置，确定第一图像中目标托盘横杆的图像位置，并从深度图中提取横杆的深度数据；基于横杆的图像位置及其对应的深度数据，利用第一图像对应图像采集设备的设备内参计算横杆的三维坐标；基于横杆的三维坐标分别计算目标托盘相对图像采集设备的偏移角度及目标托盘的插孔中心位置。从而通过利用预训练的深度估计模型来得到托盘图像对应的深度数据，避免了现有技术中深度相机受应用场景限制，基于激光雷达点云匹配有干扰噪声，导致托盘检测准确性低的问题，并且成本低、不受应用场景限制，具有良好的泛化能力，此外，通过利用整个托盘横杆的深度数据计算横杆的三维坐标进行偏移角度和插孔中心位置的确定，相比于仅依赖托盘关键点的计算方式，抗干扰能力更强，鲁棒性更好，从而进一步提高了托盘检测结果的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中托盘检测方法的流程图；

图2为本发明实施例中托盘上各关键点的示意图；

图3A至图3C分别为本发明实施例中偏移的托盘、托盘横杆的mask及托盘横杆对应的拟合直线的示例图；

图4为本发明实施例中托盘检测的具体工作过程示意图；

图5为本发明实施例中托盘检测装置的结构示意图；

图6为本发明实施例中电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于上述问题，本发明实施例提供了一种托盘检测方法，如图1所示，该托盘检测方法具体包括如下步骤：

步骤S101：获取包含有目标托盘的第一图像。

具体地，可以通过摄像头、相机等视觉传感器获取包含有目标托盘的第一图像，确保完整的托盘视野位于图像上。

步骤S102：对第一图像进行目标检测和关键点检测，得到目标托盘上各关键点的图像位置。

具体地，通过对第一图像进行目标检测得到目标托盘对应的第二图像；对第二图像进行关键点检测，得到目标托盘上各关键点的图像位置。

示例性地，可以通过摄像头、相机等视觉传感器获取包含有目标托盘的图像，确保完整的托盘视野位于图像上，然后对图像做托盘2D框标注，以及8个托盘关键点标注，标注结果如图2所示，8个关键点位于托盘横杆上确定位置，即横杆下方、纵杆上方的中心处。托盘2D框包括托盘主体部分确定位置。然后上述带有标注的托盘图像进行目标检测模型的训练和光洁度检测模型的训练，得到训练好的目标检测模型和关键点检测模型。目标检测模型可以采用YOLO、NanoDet、SSD等，关键点检测模型可以采用HRNet等，本发明并不以此为限。

然后采用自顶向下的关键点检测方案，即先对图像进行目标检测，然后对目标检测的结果进行关键点检测。将上述第一图像作为目标检测模型的输入，输出为带有托盘检测框的第二图像。对检测框下的第二图像进行ROI裁剪作为关键点检测模型的输入，最终输出目标托盘的各个关键点的图像位置即各关键点的像素坐标。

具体地，通过使用托盘目标检测模型进行推理，得到目标框结果，如（x1,y1,x2,y2）。使用目标框裁剪图像得到ROI，Img[x1:x2,y1:y2]。再使用关键点检测模型得到关键点相对于ROI的位置，如某一关键点(k1x,k1y)，并映射到图像Img上坐标位置，得到关键点的像素坐标（x1+k1x，y1+k1y）。

步骤S103：将第一图像输入深度估计模型，得到第一图像对应的深度图像。

具体地，深度估计模型的训练过程包括：利用图像采集设备采集托盘图像，并利用激光雷达采集托盘图像对应时间戳的点云数据；对图像采集设备和激光雷达进行标定后，将点云数据投影到托盘图像上，得到托盘图像中每个像素点的深度数据；利用不同的托盘图像及其每个像素点的深度数据对单目深度估计模型进行训练，得到训练好的深度估计模型。

示例性地，通过相机获取托盘图像，确保完整的托盘视野位于图像上。使用激光雷达收集对应时间戳的点云数据，激光雷达仅仅参与深度估计模型的构建训练阶段，不参与后续深度估计模型的使用。从而降低了激光雷达的使用和维护成本。然后通过对相机和激光雷达标定，获取相机内参、外参以及激光雷达外参。将激光雷达点云数据投影到图像上，生成像素级的深度数据。然后通过利用不同托盘图像输入深度估计模型，得到相应的深度预测数据，利用深度预测数据与托盘图像对应的深度数据进行深度估计模型参数调整，直至完成深度估计模型训练。将上述第一图像输入训练好的深度估计模型，得到第一图像对应的深度图。具体地，使用托盘图像以及其对应的系数深度数据训练单目深度估计模型，如：基于UNet的回归网络、BTS等。无真值的位置（深度值为0）的不参与误差计算和反向传播，直至训练结束得到训练好的深度估计模型。

步骤S104：基于目标托盘上各关键点的图像位置，确定第一图像中目标托盘横杆的图像位置，并从深度图中提取横杆的深度数据。

具体地，由于各个关键点为横杆上固定位置的关键点，因此，可以根据关键点的图像位置确定出整个横杆的图像位置，示例性地，如图2所示，1-4四个关键点的连接线即为一个横杆，5-8四个关键点的连接线也是一个横杆，需要说明的是，在本发明实施例中，是以1-4四个关键点构成的横杆为例进行的说明，仅以此为例，并不以此为限。此外，为了提高横杆图像位置的精确性，可以将1-4四个关键点的连接线作为横杆的中心线，以关键点的连接线为基础进行区域增长，即进行一定程度的邻域扩充，得到长方形的区域即为横杆区域，横杆的图像位置即横杆区域的像素坐标，从而提高横杆图像位置的精确性，以进一步提升托盘检测结果的精确性。

具体地，通过基于第一图像中目标托盘横杆的图像位置，生成与第一图像等大的mask图；将mask图与深度图进行逐像素相乘，确定横杆的深度数据。示例性地，如图3A和图3B所示，对横杆上的关键点进行画线，生成和第一图像等大的0-1mask图，并和上述步骤得到的深度图逐像素相乘，即可得到托盘横杆正面的深度数据。

步骤S105：基于横杆的图像位置及其对应的深度数据，利用第一图像对应图像采集设备的设备内参计算横杆的三维坐标。

具体地，在本发明实施例中，是以图像采集设备为相机为例进行的说明，在实际应用中，该图像采集设备也可以是其他视觉传感器，如摄像机等，本发明并不以此为限。示例性地，通过利用相机的内参将横杆的深度数据投影到3D空间，获取对应像素的3D坐标（x,y,z）。利用相机内参将深度数据投影至3D空间得到相应的3D坐标为现有技术，具体实现过程可参照现有技术的相关描述，在此不再进行赘述。

步骤S106：基于横杆的三维坐标分别计算目标托盘相对图像采集设备的偏移角度及目标托盘的插孔中心位置。

具体地，在一实施例中，基于横杆的三维坐标计算目标托盘相对图像采集设备的偏移角度，具体包括如下步骤：

步骤S61：将横杆的三维坐标转换为鸟瞰图模式，以平行于图像采集设备平面为X轴，图像采集设备到目标托盘的距离为Z轴，以X-Z轴的数据进行直线拟合，直线拟合结果如图3C所示。

步骤S62：基于直线拟合结果计算目标托盘相对图像采集设备的偏移角度。

示例性地，假设拟合得到的直线方程为y=ax+b，则偏移角度angle=arctan(a)。从而通过使用横杆上的所有深度数据而不是仅仅使用关键点的深度数据计算偏移角度，能够降低拟合的误差，从而降低对关键点检测的精度要求，进一步提高偏移角度的精确性。

具体地，在一实施例中，基于横杆的三维坐标，计算目标托盘的插孔中心位置，包括：

步骤S63：基于横杆的三维坐标，计算各关键点的三维坐标。

具体地，通过基于各关键点的位置确定各关键点对应的位置区域；从横杆的三维坐标中提取各位置区域对应的三维坐标；计算当前位置区域的三维坐标均值，并将当前三维坐标均值确定为当前位置区域对应关键点的三维坐标。

示例性地，对于如图2所示八个关键点中的每一个关键点，基于关键点的位置分别生成对应位置区域即一定半径圆的0-1mask，从横杆的3D坐标中获取mask内像素的3D坐标，并求3各坐标轴的均值，得到该关键点的3D坐标。从而通过利用关键点周围的深度数据计算关键点位置而不仅仅直接使用8个关键点的位置，能够降低关键点图像位置数据不准的误差，提高关键点3D坐标的准确性，进而进一步提高最终托盘插孔中心坐标的准确性。

步骤S64：基于各关键点的三维坐标，计算目标托盘的插孔中心位置。

具体地，插孔中心位置即为如图2所示八个关键点所形成矩形的中心，通过计算八个关键点的3D坐标均值，即可得到插孔的中心位置。

下面将结合具体应用示例，对本发明实施例提供的托盘检测方法的具体实现过程进行详细的说明。

托盘检测过程如图4所示，主要包括如下过程：

（1）使用相机获取图像数据Img。

（2）使用托盘目标检测模型进行推理，得到目标框结果，如（x1,y1,x2,y2）。使用目标框裁剪图像得到ROI，Img[x1:x2,y1:y2]。再使用关键点检测模型得到关键点相对于ROI的位置，如某一关键点(k1x,k1y)，并映射到图像Img上坐标位置，得到关键点（x1+k1x，y1+k1y）。

（3）使用深度估计模型进行推理，获取Img对应的深度图depth。

（4）使用横杆关键点画线即新建一个全0的单通道图，在图上画一条值为1的线，生成和Img等大的0-1mask图，并和深度数据depth逐像素相乘，得到托盘横杆正面的深度数据。

（5）使用相机内参，将（4）生成的结果投影到3D空间，获取对应像素的3D坐标（x,y,z）。

（6）将（5）获取的坐标转换到鸟瞰图模式，以平行于相机平面为x轴，相机到托盘的距离为z轴，以x-z轴的数据直线拟合，得到托盘的偏移角度。

（7）对8个关键点的每一个，分别生成对应的一定半径圆的0-1mask，同（4）、（5）获取mask内像素的3D坐标并求3个轴上的均值，得到8个关键点的3D坐标。

（8）根据各关键点3D坐标的关系，得到托盘插孔中心坐标。

通过上述托盘检测过程，降低了激光雷达的使用和维护成本，避免了基于深度相机距离受限、受自然光影响的技术方案的缺点。本方案具有较好的泛化性能，能够应对托盘外观变化、非标准等复杂情况，并可以应用到具有不同旋转角度、路面不平整的托盘图像数据。

通过执行上述步骤，本发明实施例提供的托盘检测方法，通过利用预训练的深度估计模型来得到托盘图像对应的深度数据，避免了现有技术中深度相机受应用场景限制，基于激光雷达点云匹配有干扰噪声，导致托盘检测准确性低的问题，并且成本低、不受应用场景限制，具有良好的泛化能力，此外，通过利用整个托盘横杆的深度数据计算横杆的三维坐标进行偏移角度和插孔中心位置，相比于仅依赖托盘关键点的计算方式，抗干扰能力更强，鲁棒性更好，从而进一步提高了托盘检测结果的准确性。

本发明实施例还提供了一种托盘检测装置，如图5所示，该托盘检测装置包括：

获取模块101，用于获取包含有目标托盘的第一图像。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于对第一图像进行目标检测和关键点检测，得到目标托盘上各关键点的图像位置。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于将第一图像输入深度估计模型，得到第一图像对应的深度图像。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

第三处理模块104，用于基于目标托盘上各关键点的图像位置，确定第一图像中目标托盘横杆的图像位置，并从深度图中提取横杆的深度数据。详细内容参见上述方法实施例中步骤S104的相关描述，在此不再进行赘述。

第四处理模块105，用于基于横杆的图像位置及其对应的深度数据，利用第一图像对应图像采集设备的设备内参计算横杆的三维坐标。详细内容参见上述方法实施例中步骤S105的相关描述，在此不再进行赘述。

第五处理模块106，用于基于横杆的三维坐标分别计算目标托盘相对图像采集设备的偏移角度及目标托盘的插孔中心位置。详细内容参见上述方法实施例中步骤S106的相关描述，在此不再进行赘述。

上述各个模块的更进一步的功能描述与上述对应方法实施例相同，在此不再赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的托盘检测装置，通过利用预训练的深度估计模型来得到托盘图像对应的深度数据，避免了现有技术中深度相机受应用场景限制，基于激光雷达点云匹配有干扰噪声，导致托盘检测准确性低的问题，并且成本低、不受应用场景限制，具有良好的泛化能力，此外，通过利用整个托盘横杆的深度数据计算横杆的三维坐标进行偏移角度和插孔中心位置，相比于仅依赖托盘关键点的计算方式，抗干扰能力更强，鲁棒性更好，从而进一步提高了托盘检测结果的准确性。

本发明实施例还提供了一种电子设备，如图6所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器901可以为中央处理器（Central Processing Unit，CPU）。处理器901还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种托盘检测方法，其特征在于，包括：

获取包含有目标托盘的第一图像；

2.根据权利要求1所述的方法，其特征在于，所述基于横杆的三维坐标计算所述目标托盘相对所述图像采集设备的偏移角度，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于横杆的三维坐标，计算所述目标托盘的插孔中心位置，包括：

基于横杆的三维坐标，计算各关键点的三维坐标；

4.根据权利要求3所述的方法，其特征在于，所述基于横杆的三维坐标，计算各关键点的三维坐标，包括：

基于各关键点的位置确定各关键点对应的位置区域；

从横杆的三维坐标中提取各位置区域对应的三维坐标；

5.根据权利要求1所述的方法，其特征在于，所述对所述第一图像进行目标检测和关键点检测，得到所述目标托盘上各关键点的图像位置，包括：

6.根据权利要求1所述的方法，其特征在于，所述深度估计模型的训练过程包括：

7.根据权利要求1所述的方法，其特征在于，所述从所述深度图中提取横杆的深度数据，包括：

8.一种托盘检测装置，其特征在于，包括：

获取模块，用于获取包含有目标托盘的第一图像；

9.一种计算机可读存储介质，其特征在于，计算机可读存储介质存储计算机指令，计算机指令被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，以执行如权利要求1-7中任一项所述的方法。