CN114612558A

CN114612558A - 一种基于单目相机检测的叉车托盘空间定位方法及系统

Info

Publication number: CN114612558A
Application number: CN202210240712.5A
Authority: CN
Inventors: 梁毅军; 陈清源
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-10
Anticipated expiration: 2042-03-10
Also published as: CN114612558B

Abstract

本发明公开了一种基于单目相机检测的叉车托盘空间定位方法及系统，利用单目相机采集多种环境下的叉车托盘图像，并使用终端计算设备对叉车托盘图像中叉车托盘的关键点进行标注，将标注完成的图像信为训练集；根据终端计算设备选取卷积神经网络和全连接检测头网络组合为关键点检测模型；使用训练集对关键点检测模型进行训练；使用训练后的关键点检测模型对实时采集的叉车托盘图像进行前向推理，得到叉车托盘图像中托盘关键点的像素坐标；基于托盘关键点之间的空间距离，将叉车托盘图像中检测的所有关键点的坐标进行坐标系转换，从图像坐标系转换为世界坐标系。本发明工作状态稳定，设备功耗低，能够适配更多种类的叉车。

Description

一种基于单目相机检测的叉车托盘空间定位方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种基于单目相机检测的叉车托盘空间定位方法及系统。

背景技术

在人工智能快速发展的今天，物流行业也在积极跟进人工智能前沿技术及应用方法，向着无人化和智能化方向转变，而叉车作为物流行业里货物搬运过程中不可或缺的一个工具，借助深度学习技术实现无人化，能够在多种复杂环境下，实现对叉车托盘的自动识别及定位，并自主搬运货物，同样意义重大。目前多家公司均推出了能够自动识别定位叉车托盘的叉车产品。

无人叉车的核心技术壁垒在于其感知算法，无人叉车能否准确地识别定位叉车托盘并进行装卸，很大程度上取决于对叉车托盘及周围环境的感知能力。而感知算法的好坏，则又很大程度上取决于负责环境感知的硬件设备的好坏。目前主流的无人叉车均采用能够处理深度信息的托盘检测定位算法，其硬件方案通常包括激光雷达、深度相机、毫米波雷达等具备深度探测的感知设备，此类设备理论上具备良好的性能，能够为算法提供充足而准确的数据。但存在如下两点不足：

(1)激光雷达、深度相机、毫米波雷达等具备深度感知能力的设备相比于单目相机造价高昂，且在复杂恶劣的工作环境下易受干扰，容易损坏；

(2)激光雷达、深度相机、毫米波雷达等深度感知设备会返回大量数据，而用于数据处理的终端计算设备则受制于功耗、体积、造价等因素的限制，在满足上述限制条件的情况下，通常无法高效地对数据进行处理。

总而言之，采用上述深度感知方案存在制造成本高、计算成本高、实时性差、可靠性差等缺陷，在复杂恶劣的工作环境下难以有效完成叉车托盘的空间定位工作。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于单目相机检测的叉车托盘空间定位方法及系统，解决现有深度感知方案在制造成本、计算成本、实时性和可靠性等方面存在的问题。

本发明采用以下技术方案：

一种基于单目相机检测的叉车托盘空间定位方法，包括以下步骤：

S1、利用单目相机采集多种环境下的叉车托盘图像，并使用终端计算设备对叉车托盘图像中叉车托盘的关键点进行标注，将标注完成的图像信为训练集；

S2、根据步骤S1使用的终端计算设备选取卷积神经网络和全连接检测头网络组合为关键点检测模型；

S3、基于平方差损失函数，使用步骤S1的训练集对步骤S2构建的关键点检测模型进行训练，使关键点检测模型能够回归出叉车托盘图像中的所有关键点；

S4、使用步骤S3训练完的关键点检测模型对实时采集的叉车托盘图像进行前向推理，得到叉车托盘图像中托盘关键点的像素坐标；

S5、基于步骤S4得到的托盘关键点之间的空间距离，将叉车托盘图像中检测的所有关键点的坐标进行坐标系转换，从图像坐标系转换为世界坐标系，得到以单目相机为原点的世界坐标系的叉车托盘关键点坐标，完成叉车托盘空间定位。

具体的，步骤S1中，单目相机的光轴同地面平行。

具体的，步骤S1中，叉车托盘的关键点为叉车托盘正面两个矩形孔洞的角点。

具体的，步骤S2中，卷积神经网络包括ResNet50卷积神经网络、ResNet18卷积神经网络和MobileNetV3卷积神经网络。

具体的，步骤S2中，全连接检测头网络中具体输出节点数量为2*N，N为叉车托盘上待检测的关键点数量。

具体的，步骤S3中，平方差损失函数L如下：

其中，N为节点数量，λ为损失系数，t_xi和t_yi分别为第i个关键点的横轴和纵轴坐标的网络预测值，

和

分别为第i个关键点的横轴和纵轴坐标的真实值。

进一步的，最后一层全连接层的激活函数为Sigmod激活函数，检测头输出值范围为0～1，Sigmod激活函数f(x)如下：

其中，e是常数，x是输入。

具体的，步骤S5中，利用投影公式通过透视变换将三维空间中的点投影到图像平面形成图像，基于最小二乘法求解超定方程，完成关键点从图像坐标向空间坐标的转换。

进一步的，投影公式为：

托盘关键点之间的空间距离为：

(X_Wi-X_Wj)²+(Y_Wi-Y_Wj)²+(Z_Wi-Z_Wj)²＝d_ij ²

其中，(X_W,Y_W,Z_W)是一个点在世界坐标系下的世界坐标，(u,v)是在世界空间某一点投影到图像平面坐标系的平面坐标，a_x、a_y、u₀和v₀为相机内参，d_ij ²为空间中i点和j点的空间距离的平方值，(X_Wi,Y_Wi,Z_Wi)和(X_wj,Y_wj,Z_Wj)是分别是i点和j点在世界坐标系下的世界坐标。

第二方面，本发明实施例提供了一种基于单目相机检测的叉车托盘空间定位系统，包括：

数据模块，利用单目相机采集多种环境下的叉车托盘图像，并使用终端计算设备对叉车托盘图像中叉车托盘的关键点进行标注，将标注完成的图像信为训练集；

构建模块，根据数据模块使用的终端计算设备选取卷积神经网络和全连接检测头网络组合为关键点检测模型；

训练模块，基于平方差损失函数，使用训练集对构建模块构建的关键点检测模型进行训练，使关键点检测模型能够回归出叉车托盘图像中的所有关键点；

推理模块，使用训练模块训练完的关键点检测模型对实时采集的叉车托盘图像进行前向推理，得到叉车托盘图像中托盘关键点的像素坐标；

定位模块，基于托盘关键点之间的空间距离，将叉车托盘图像中检测的所有关键点的坐标进行坐标系转换，从图像坐标系转换为世界坐标系，得到以单目相机为原点的世界坐标系的叉车托盘关键点坐标，完成叉车托盘空间定位。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于单目相机检测的叉车托盘空间定位方法，使用单目相机进行图像信息的获取，其优点在于设备成本低、功耗低且质量稳定，获取的图像信息在后续的计算过程中开销较小。使用卷积神经网络、全连接检测头和平方差损失函数组成的深度网络模型具备拟合能力强、抗泛化能力强、易在计算终端部署等优点，适合用于图像的感知任务。使用神经网络检测图像关键点并基于多个像素点的位置信息计算出关键点的世界坐标，这种做法大大降低了计算复杂度，从而大大降低了设备的成本和功耗需求。

进一步的，单目相机的光轴平行于地面，其优点在于单目相机的朝向角同无人叉车的运行方向平行，易于车辆的控制。

进一步的，叉车托盘上的矩形孔洞是叉车托盘上的典型可分辨特征，具备大量的纹理信息，矩形孔洞上的角点是矩形孔洞中最易识别的关键点，故将叉车托盘上矩形孔洞的角点设置为关键点能够简化后续的关键点检测算法，并使检测的结果更稳定。

进一步的，ResNet50卷积神经网络、ResNet18卷积神经网络和MobileNetV3卷积神经网络，这三种网络均具备优秀的特征提取能力，且三者的参数量不同，可根据具体情况进行选择调整，具备很强的灵活性。

进一步的，在关键点数量为N的叉车托盘的定位过程中，全部使用N个关键点能够提升定位算法的性能，而全连接检测头网络的输出节点数量为2*N则正是为了充分利用所有的关键点。

进一步的，采用平方差损失作为损失函数，能够准确地表达预测关键点信息同真实关键点信息之间的差距，并能够在网络的反向传播过程中传递损失梯度，其相较于其它损失函数，更适合用于关键点的检测任务。

进一步的，Sigmod激活函数的输出在(0,1)之间，输出范围有限，优化稳定，可以用作回归网络的输出层，且其为连续函数，便于求导。

进一步的，基于检测到的图像二维关键点信息，通过最小二乘法求解超定方程得到三维关键点信息，这种做法大大降低了计算复杂度，从而大大降低了设备的成本和功耗需求。

进一步的，通过投影公式的反向推倒和已知的关键点之间的真实空间距离信息，能够准确地、唯一地求解出关键点在空间中的坐标点信息。

综上所述，本发明制造成本低，工作状态稳定，设备功耗低，能够适配更多种类的叉车。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的基于单单目相机的叉车托盘空间定位方法流程图；

图2为本发明中单目相机拍摄叉车托盘位置及待检测关键点示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于单目相机检测的叉车托盘空间定位方法，采用。

请参阅图1，本发明一种基于单目相机检测的叉车托盘空间定位方法，包括以下步骤：

选取一款单目相机，将其置放在叉车上某固定位置，便于后续的图像采集；

单目相机的安装位置需保证单目相机光轴同地面平行；另需保证单目相机的视场内被叉车自身结构遮挡的比例尽可能最小。

选取一款终端计算设备，将其置放在叉车上某固定位置，为单目相机提供控制指令及对后续数据计算提供算力；

终端计算设备在叉车上的安装位置需保证为空气流通流畅的环境，以保证散热效果。

系统搭建完成后，对叉车托盘进行大量图像采集，为后续的模型训练做数据上的准备；在采集过程中，需要尽可能地保证环境的多向性，如在不同光照条件下和不同室内背景下进行采集；同样的，采集过程中，需要让相机与叉车托盘的相对位置及托盘摆放的高度、位姿等尽可能地变化，以增加训练集的泛化性；在数据集采集完成后对图像中的关键点进行标注，关键点位置参考图2，为叉车托盘正面两个矩形孔洞的角点。

S2、根据终端计算设备的算力选取卷积神经网络，用于提取单目相机采集得到的图像的特征，根据不同叉车托盘的关键点的具体数量，选取全连接检测头网络，用于叉车托盘图像中关键点的回归，将卷积神经网络同检测头网络组合成为完整的关键点检测模型；

S201、根据终端计算设备的算力和帧数要求选择合适的卷积神经网络用于特征的提取；

ResNet50卷积神经网络，参数量较大，适合部署在算力较强的终端计算设备上；

ResNet18卷积神经网络，参数量适中，适合部署在算力一般的终端计算设备上；

MobileNetV3卷积神经网络，参数两较小，适合部署在算力较弱的终端计算设备上。

S202、根据所用叉车托盘的关键点的数量决定全连接检测头网络的输出节点数量，关键点为叉车托盘正面两个矩形孔洞的角点，设置16个输出节点用以回归上述关键点的横纵坐标信息，将卷积神经网络同检测头网络组合成为完整的关键点检测模型。

请参阅图2，全连接检测头网络中具体输出节点的数量根据叉车托盘的孔洞形状及数量决定；通常情况下叉车托盘为两个矩形孔洞，需要检测两个矩形各四个角点共八个点的坐标信息，故需要16个输出节点，用于回归上述8个点的x轴和y轴的坐标。如果叉车托盘需要检测的关键点数量N发生改变，则检测头网络的输出节点数量为2*N。

S3、基于平方差损失函数，使用步骤S1中获取的训练集对步骤S2构建的关键点检测模型进行训练，使关键点检测模型能够回归出叉车托盘图像中的所有关键点；

平方差损失函数如下：

和

分别为第i个关键点的横轴和纵轴坐标的真实值。

最后一层全连接层的激活函数为Sigmod激活函数，检测头输出值范围介于0-1之间，Sigmod激活函数公式如下：

输出的值为相对于图像宽(高)的相对值，即输出值乘上宽(高)得到图像中真实的横(纵)坐标。

S4、使用步骤S3训练完成的关键点检测模型对单目相机实时采集的图像进行前向推理，得到图像中托盘关键点的像素坐标；

将单目相机采集到的图像送入训练后的卷积神经网络进行前向推理，即可得到图像中托盘关键点的像素坐标。

S5、基于步骤S4得到的托盘关键点之间的空间距离，即基于托盘孔洞尺寸先验信息进行空间定位，将叉车托盘图像中检测得到的所有关键点的坐标进行坐标系转换，从图像坐标系转换为世界坐标系，从而得到以相机为原点的世界坐标系的叉车托盘关键点坐标，即叉车托盘空间定位信息。

一幅视图像素是通过透视变换将三维空间中的点投影到图像平面形成图像，投影公式如下：

设置(X_w,Y_w,Z_w)是一个点在世界坐标系下的世界坐标，(u,v)是在世界空间某一点投影到图像平面坐标系的平面坐标，以像素为单位。其余参数均为已知相机内外参数。

为了方便计算，令世界坐标和单目相机坐标重合，因此投影公式写成：

通过矩阵运算得到：

上式中共包含X_w、Y_W、Z_W三个未知数，即像素点图像坐标对应的空间坐标点，若想求解出空间坐标，需利用至少三个点以及点与点之间的空间距离来添加额外的关系以求解空间坐标：

(X_Wi-X_Wj)²+(Y_Wi-Y_Wj)²+(Z_Wi-Z_Wj)²＝d_ij ²

若存在3个非共线的点，则产生3个空间距离公式和3组投影公式(每组两个公式)，即九元方程，且方程式数量等于待求解参数数量，故可求解出三个点的空间坐标。

通常叉车托盘含有8个关键点，故可基于最小二乘法求解超定方程，完成关键点从图像坐标向空间坐标的转换。

本发明再一个实施例中，提供一种基于单目相机检测的叉车托盘空间定位系统，该系统能够用于实现上述基于单目相机检测的叉车托盘空间定位方法，具体的，该基于单目相机检测的叉车托盘空间定位系统包括数据模块、构建模块、训练模块、推理模块以及定位模块。

其中，数据模块，利用单目相机采集多种环境下的叉车托盘图像，并使用终端计算设备对叉车托盘图像中叉车托盘的关键点进行标注，将标注完成的图像信为训练集；

综上所述，本发明一种基于单目相机检测的叉车托盘空间定位方法及系统，具备以下优点：

(1)制造成本低

本发明的采像设备为单目相机，其成本远低于具备深度感知能力的感知设备；因算法不涉及深度信息的处理，采用了端到端的回归网络，计算复杂度较低，终端计算设备的成本也较低；

(2)工作状态稳定

本发明采用的单目相机的工作稳定性高于激光雷达、深度相机等感知器件；且基于深度学习的关键点检测算法无关策略性算法，泛化性较强；

(3)设备功耗低

本发明采用的单目相机功耗远低于激光雷达、深度相机、毫米波雷达，相同帧率要求下运行算法所需的计算设备功耗也更低，从而能够适配更多种类的叉车。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于单目相机检测的叉车托盘空间定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S1中，单目相机的光轴同地面平行。

3.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S1中，叉车托盘的关键点为叉车托盘正面两个矩形孔洞的角点。

4.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S2中，卷积神经网络包括ResNet50卷积神经网络、ResNet18卷积神经网络和MobileNetV3卷积神经网络。

5.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S2中，全连接检测头网络中具体输出节点数量为2*N，N为叉车托盘上待检测的关键点数量。

6.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S3中，平方差损失函数L如下：

和

分别为第i个关键点的横轴和纵轴坐标的真实值。

7.根据权利要求6所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，最后一层全连接层的激活函数为Sigmod激活函数，检测头输出值范围为0～1，Sigmod激活函数f(x)如下：

其中，e是常数，x是输入。

8.根据权利要求1所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，步骤S5中，利用投影公式通过透视变换将三维空间中的点投影到图像平面形成图像，基于最小二乘法求解超定方程，完成关键点从图像坐标向空间坐标的转换。

9.根据权利要求8所述的基于单目相机检测的叉车托盘空间定位方法，其特征在于，投影公式为：

托盘关键点之间的空间距离为：

(X_Wi-X_Wj)²+(Y_Wi-Y_Wj)²+(Z_Wi-Z_Wj)²＝d_ij ²

其中，(X_W，Y_W，Z_W)是一个点在世界坐标系下的世界坐标，(u，v)是在世界空间某一点投影到图像平面坐标系的平面坐标，a_x、a_y、u₀和v₀为相机内参，d_ij ²为空间中i点和j点的空间距离的平方值，(X_Wi，Y_Wi，Z_Wi)和(X_Wj，Y_Wj，Z_Wj)是分别是i点和j点在世界坐标系下的世界坐标。

10.一种基于单目相机检测的叉车托盘空间定位系统，其特征在于，包括：