CN113963044B

CN113963044B - 一种基于rgbd相机的货物箱智能装载方法及系统

Info

Publication number: CN113963044B
Application number: CN202111160228.3A
Authority: CN
Inventors: 任柯燕; 闫桐; 张云路; 胡兆欣
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2024-04-30
Anticipated expiration: 2041-09-30
Also published as: CN113963044A; WO2023050589A1

Abstract

本发明公开了一种基于RGBD相机的货物箱智能装载方法及系统，首先通过RGBD相机采集待装载和目标区域货物箱的颜色和深度信息，生成RGB图像和深度图，并进行相机标定；根据得到的相机内外参，将深度图转化为点云，并对RGB图像和点云进行数据增强；将增强后的RGB图像和点云数据输入到改进版的3D目标检测网络中，检测出每个货物箱的位置和尺寸大小，生成带有中心位置坐标和尺寸大小的三维检测框信息；将得到的货物箱的位置和尺寸信息以及目标区域已装载货物箱装载信息输入到基于强化学习的装载策略生成网络中，生成所有待摆放的货物箱的摆放顺序，并根据摆放顺序生成货物箱的最优摆放位置，形成最终的摆放策略；根据摆放策略计算机械臂的偏转位移和旋转角度，控制机械臂对货物箱进行装载。

Description

一种基于RGBD相机的货物箱智能装载方法及系统

技术领域

本发明涉及货物箱智能装载领域，尤其涉及一种基于RGBD相机的货物箱智能装载方法及系统。

背景技术

在社会环境的竞争要求及计算机自动识别技术高速发展的前提下,仓储管理在逐渐完成信息化。电商与仓储物流自动化需求越来越高。装载作业作为一种常见的物流任务，是将当前位置的所有货物箱装载到指定空间，对仓储管理起着举足轻重的作用。传统的装载任务由人工完成，劳动强度大、工作效率低，且人工装载容易受到人为主观因素影响，随意性大，缺少对整体装载布局的考虑。

随着硬件技术的发展，越来越多的仓储物流将自动化机械臂运用于货物箱装载。当前常见的自动化装载系统是由激光和红外装置标定位置，并利用机械臂集体化装载。这种装载系统不仅需要的硬件设备价格昂贵，并且要求所有货物箱只能是相同大小并且必须按照指定规则码垛，对具体实施限制性大。

近些年来，随着神经网络的发展，越来越多的行业开始将基于神经网络的智能化系统应用于自身。目标检测作为人工智能的基础性任务之一，在各行各业的智能化系统中发挥着举足轻重的作用。针对不同的数据，目标检测领域也有不同的网络结构来完成相应任务。

经典的2维检测网络faster-rcnn，以RGB图片作为输入数据，将检测任务分为了两个阶段：第一阶段提取感兴趣区域，第二阶段对建议锚框进行精确回归。这里的锚框初始默认是在每个锚点以(0.5:1:2)的经典比例生成，用于尽可能地捕捉不同大小、不同形状的物体。Fater-rcnn最终生成检测对象的大小和位置，形成最终的检测框。同时，每个检测框也有一个分类分数，这个分类分数经过一层softmax网络层，将分数最高的对象确定为当前检测框的最终分类对象。

然而，现实场景都是三维的场景，仅仅利用2D的图片数据作为输入，很难表现3D场景的复杂性。因此，也有很多检测网络将输入数据聚焦于含3D信息的点云数据上。对于点云数据来说，最常用的提取点云特征的网络之一是Pointnet++。Pointnet++有四层特征提取层和两层上采样层。其中，有一个关键步骤是根据点云距离来对点云进行分组。为了尽可能涵盖各种大小、各种形状的物体，Pointnet++采用欧式距离来计算点云距离，并且使用球体范围来进行分组。Pointnet++的网络结构使点云特征提取过程简单而有效，因此被很多3D检测网络所采用，比如Group-free-3D-Net。Group-free-3D-Net以点云数据作为输入，使用Pointnet++提取点云特征，此外，它还使用了Transformer结构来对最后的3D检测框进行精修。

然而，点云数据本身没有颜色，因此相比于图片数据，缺少重要的语义信息和边缘信息。所以也有很多网络模型将研究重点放在了多模态数据的融合上。Imvotenet首先对图像做2D目标检测，并从2D检测框中提取特征加到点云特征上，以增强点云特征。具体来说，从2D检测结果中提取的特征包括：1、语义特征：2D检测结果中的该检测框的分类分数；2、纹理特征：2D检测框中所有像素的RGB初始像素值；3、几何特征：从2D检测框的中心点出发，通过投影原理投影到3D场景中的射线的方向。但Imvotenet在提取这几个图像特征之后，直接将它加在了点云特征之后，缺少对两种数据形式差异性的考虑。EP-Net提出了LI-Fusion模块，专门用于融合点云数据特征和图片数据特征。LI-Fusion模块首先通过一层特征通道对齐层，将图像特征通道和点云特征通道对齐；然后将对齐后的图像特征和点云特征一起输入到全连接层中，全连接层对比图像特征和点云特征的差异性，生成一组与图像特征相对应的注意力权重；这组权重与图像特征相乘得到加权的图像特征，加权的图像特征与点云特征相连接，得到了初步融合特征；最后初步融合特征经过一层特征混合层，输出最终的融合特征。

这些3D目标检测模型侧重于学术研究，因此大多考虑了模型在多种形状物体上的通用性。然而在仓储物流领域的实际应用中，主要的物体是形状规则的物流箱。虽然物流箱尺寸各异，但其形状均保持为方体形状。目前，专门针对于物流箱这种规则物体的检测网络还很少。

另一方面，强化学习的提出，为很多复杂的组合优化问题提供了新的解决办法。装箱问题作为最经典的组合优化问题之一，也受到了很大关注。TAP-Net就是用于解决装箱问题的网络之一。TAP-Net分为装载顺序生成子网络和装载位置生成子网络，接受待装载箱子的3D尺寸位置以及目标区域当前的装载情况作为输入，通过装载顺序生成子网络生成最优装载顺序，然后装载位置生成子网络根据该装载顺序和目标区域装载情况，生成最优装载位置。最优装载顺序和最优装载位置的组合，形成最终的装载策略。然而，TAP-Net的其中一项输入是箱子的尺寸和大小，然而在实际场景中，箱子的尺寸和位置具有很大的随机性。尤其在仓储物流中，物流箱的尺寸大小各异。这一问题导致在实际应用中很难直接得到箱子的尺寸和位置，大大限制了TAP-Net的落地应用。

发明内容

针对上述缺少专门针对货物箱等规则物体的多模态3D目标检测模型问题，本发明提供一种基于图像数据和点云数据的3D目标检测网络，该目标检测网络充分考虑货物箱等规则物体的特性，对网络结构做了相应改进，并且进一步的，针对目前实际应用的装载系统限制较多，且相关学术研究由于输入等限制而难以落地应用的问题，本发明以该3D目标检测网络为前提，提供一种基于RGBD相机的货物箱智能装载方法及系统，可自动识别当前待装载货物箱的尺寸与位置，给出合适的货物箱装载顺序和位置，从而实现不同尺寸大小货物箱的自动化装载任务。具体方法如下：

1.基于RGBD相机的货物箱智能装载方法，所述方法包括以下步骤：

S1、通过RGBD相机采集待装载区域和目标区域货物箱的颜色和深度信息，生成RGB图片和对应的深度图片。并进行相机标定，确定图像坐标系与世界坐标系的转化关系；待装载区域用于放置需要装载的货物箱，目标区域用于放置已装载的货物箱；

S2、根据S1中相机标定得到的相机内外参，将深度图转化为点云。并过增强手段分别对RGB图像和点云进行数据增强；

S3、将步骤S2中所得增强后的RGB图像和点云数据输入到3D目标检测网络中，检测出待装载区域和目标区域中每个货物箱的位置和尺寸大小，生成带有中心位置坐标和长宽高的三维检测框的信息；

S4、将步骤S3中所得到的货物箱的位置和尺寸信息输入到基于强化学习的装载策略生成网络中，得到最终的装载策略；

S5、根据步骤S4所生成的装载策略，计算机械臂的偏转位移和旋转角度，控制机械臂对货物箱进行装载。

优选地，所述步骤S1中相机标定方法采用标准的标定板标定法，得到相机内参与外参，从而确定世界坐标系与图像坐标系的位置对应关系，标定公式可以表示为：

式中：f_u和f_v分别是水平方向和竖直方向上的相机焦距，R和T是相机的旋转矩阵和平移矩阵，C是尺度因子。通过标定公式，可以得到世界坐标系下一点(x,y,z)到图像坐标系一点(u,v)之间的转化公式。

优选地，所述步骤S2中的增强手段包括：对于RGB图像，为防止步骤S3的检测网络对图像过拟合，增强图像表现力，通过颜色抖动、随机裁剪，并通过缩放将图片缩放到固定尺寸，为步骤S3的检测网络做输入准备；对于点云数据，为防止步骤S3的检测网络对点云数据过拟合，通过随机缩放、随机旋转，并通过随机采样的方式将点云采样到20000个点，为步骤S3的检测网络做输入准备。

优选地，所述步骤S3的3D目标检测网络包括三个模块：特征提取模块、特征融合模块和建议生成模块。其中特征提取模块又分为两个分支：图像特征分支和点云特征分支。具体地，图像特征分支是基于Faster-rcnn改进版的2D目标检测网络、点云特征分支是基于pointnet++改进版的点云特征提取网络；特征融合模块用于融合点云特征和图像特征；建议生成网络基于Transformer结构，生成3D场景中每个货物箱的位置和尺寸大小。3D目标检测网络的具体流程如下：

S31、取图像分支的最终特征以及点云分支的最终特征；

其中，图像分支最终特征通过基于Faster-rcnn改进版的2D目标检测网络得到，具体为，将增强后的RGB图像输入基于Faster-rcnn改进版的2D目标检测网络，该网络输出RGB图像中货物箱的2D检测框的位置、大小和对应检测框的分类分数，然后从这些2D检测框中提取特征，特征包括从2D检测框中提取的语义、纹理和几何特征。其中，语义特征为2D检测框的分类分数，由于2D检测网络会在输出检测框位置和大小的同时，还会给出每个检测框的分类。这个分类分数可以为3D目标检测任务起到一个启发作用，因此本发明将分类分数组成的语义特征作为图像分支特征之一；纹理特征为检测框中所有像素的RGB像素值，相比于点云数据，图像中由于包含RGB颜色像素值，因此包含更多的语义和纹理信息，本发明将原始RGB值组成的纹理特征作为图像分支输入之一，以增强特征表示性；几何特征为从2D检测框的中心投影到3D场景的投影射线，该射线可由2D检测框的大小位置以及相机标定得到的内外参获得。几何特征参考Imvotenet特征提取形式，由于3D检测网络最终的输出之一是物体的位置，提供物体在2D图像里的中心投影到3D时的射线方向，可以为3D检测生成3D检测框提供指导作用。这三种特征在通道维度相连接，作为图像分支的最终特征输出；

点云分支的最终特征通过基于Pointnet++改进版的点云特征提取网络得到，具体为，以20000个点云采样点作为输入，通过改进版的Pointnet++网络得到点云特征，作为点云分支的最终特征输出。Pointnet++作为经典的点云特征提取骨干网络，结构简单并且有效，已应用在多个网络模型中；

S32、利用特征融合模块将所述步骤S31中的图像分支的特征与点云分支的特征融合起来，融合方法是基于改进版的LI-fusion模块，输出融合后的特征；

S33、基于Transformer结构的建议生成模块以融合特征作为输入，从所有的融合特征中计算货物箱特征，并最终输出待装载区域和目标区域货物箱的中心点空间坐标位置与长宽高尺寸大小。Transformer由于其自身的注意力机制的存在，适合计算输入数据的部分与整体之间的关系，这种特性契合从整体特征中计算存在物体部分的特征的任务。基于这一想法，本发明遵循Group-free-3D-Net网络，利用Transformer结构输出最后的3D检测结果。

优选地，所述步骤S31中的基于Faster-rcnn改进版的2D目标检测网络中的改进包括：舍弃Faster-rcnn中锚框生成时的经典比例(0.5:1:2)，而采用仓库常见的不同货物箱尺寸的长宽高的平均值作为锚框生成时的比例。这样有利于在回归锚框时减少误差，加快回归训练过程，从而使2D检测结果更加准确。

优选地，所述步骤S31中的基于pointnet++改进版的点云特征提取网络的改进包括：针对货物箱不论尺寸如何变化，其形状始终维持为方体形状的特性，在分组聚类时，舍弃原本使用的球体范围进行聚类，而采用方体范围进行聚类，且要求原球体半径是方体面对角线长度的一半，即原球体是方体的棱切球。这样可以保证方体与原球体所围区域基本一致，并使聚类体更符合货物箱形状特征；另外，为配合方体聚类策略，将距离的计算方法由计算欧式距离改为计算曼和顿距离，使点云距离的表示形式更加符合方体特征，减少网络训练误差，增强最终检测效果。

优选地，所述步骤S32的基于改进版的LI-fusion模块的融合策略的改进包括：第一，舍弃LI-fusion模块中图像特征在和点云特征融合之前首先经过的特征通道对齐层，而是直接将未对齐的图像特征和点云特征输入到接下来的全连接层中，特征通道对齐层的作用是将图像特征维度与点云特征维度对齐，但在融合过程中，只是利用RGB图像特征来增强点云特征表示，在3D目标检测中，点云数据的结构信息和场景信息使其仍需在特征提取过程中占主要方面，所以特征对齐层的作用不明显却增加了网络深度，因此在改进版中去掉了这一层；第二，舍弃LI-fusion模块中融合特征输出之前经过的特征混合层，而是直接将连接后的图像特征和点云特征作为特征融合模块的最终输出。再去掉特征通道对齐层之后，为保证输入输出的通道数保持不变，这一特征融合层也需要去掉。此外，将未混合的图像特征和点云特征输入到接下来的模块中时，可以使网络在训练时更清晰地回传梯度信息。

优选地，所述步骤S4的装载策略生成网络采用TAP-Net。TAP-Net是专门解决箱子装载问题的网络，符合货物箱装载的任务。TAP-Net可以根据待装载区域和目标区域货物箱的情况，给出当前待装载货物箱的装载顺序和装载位置，形成最终的装载策略。TAP-Net通过强化学习训练。其中，针对该货物箱装载任务，强化学习的奖励函数可由剩余空间指数和装载稳定性指数组成，具体为：当装载完当前货物箱后，计算目标装载区域中当前装载箱高度下方的剩余空间，该剩余空间的大小即为剩余空间权重；当装载完当前货物箱后，判断其重心下方是否有支撑，根据支撑情况返回装载稳定性指数。这两部分指数相加，即为最终的奖励函数的输出值。TAP-Net包括装载顺序生成子网络和装载位置生成子网络，分别生成待装载货物箱的装载顺序和装载位置。装载顺序和装载位置的集合即为最终所需的装载策略，具体过程如下：

S41、将S33所输出的待装载区域和目标区域货物箱的3D尺寸输入到TAP-Net中的装载顺序生成子网络，生成所有待装载的货物箱的装载顺序；

S42、将S41所得到的待装载货物箱的装载顺序和目标区域已装载货物箱的位置和尺寸信息，输入到TAP-Net的装载策略生成子网络中，生成最终的装载位置。将装载顺序和装载位置组成一一对应的集合，生成最终的生成策略。

优选地，所述步骤S5中完成装载任务具体为，根据S4生成的装载策略，得到当前待装载的一个货物箱的托取位置和目标装载位置，计算机械臂到当前待装载货物箱的托取面的偏转位移和旋转角度，控制机械臂到达以指定角度到达指定位置并托取完成后，计算从当前待装载位置到目标装载位置的偏转位移和旋转角度，控制机械臂以指定角度到达指定位置，放下货物箱。重复该步骤，直至所有货物箱装载完毕。

本发明还提供一种基于RGBD相机的货物箱智能装载系统，包括：

RGBD相机采集装置，用于通过RGBD相机采集待装载货物箱和目标区域的3D场景数据；

操作台，用于安装RGBD相机采集装置和固定机械臂；

托取装置，用于对待装载的货物箱进行托取和装载；

机械臂，用于辅助托取装置到达指定位置，并以指定方向进行托取或装载；

控制系统，存储好预训练的网络模型，通过RGBD相机采集装置获取3D场景数据，并根据数据最终生成机械臂的偏转位移和旋转角度。

优选地，所述RGBD相机采集装置由RGB相机、深度相机和补光设备组成，RGBD相机用于采集RGB图，深度相机用于采集深度图，补光设备用于提供一定光源，保证光线强度合适；

优选地，机械臂由前臂、后臂和三个转动轴组成，可协助托取装置到达待装载区域和目标区域的指定位置。

与现有技术相比，本发明利用3D检测网络和强化学习决策网络，实现了不同尺寸的货物箱的装载，同时还通过强化学习特性，结合当前状态下所有货物箱的尺寸位置以及目标区域的空间剩余情况，输出具有整体性考虑的装载策略。具有灵活性高、空间利用率高和装载效率高的特点，实现了不同尺寸大小货物箱的自动化装载任务。

附图说明

图1本发明一种基于RGBD相机的货物箱智能装载方法的基本流程图；

图2本发明的3D目标检测网络的算法流程图；

图3本发明的基于强化学习的装载策略生成网络算法流程图；

图4(a)本发明的未采用步骤S3中所述改进的3D目标检测网络的训练损失日志图；

图4(b)本发明的采用步骤S3中所述改进的3D目标检测网络训练的损失日志图；

图5(a)本发明的示例3D场景的RGB图像；

图5(b)本发明的图5(a)对应3D场景的点云表示及3D检测结果示意图；

图6本发明的一种基于RGBD相机的货物箱智能装载系统的结构图。

图中：1.控制系统，2.信号传输线，3.操作台，4.可变长后臂，5.前臂，6.转动轴，7.RGBD相机，8.补光设备，9.托取装置，10.待装载区域，11.不同尺寸货物箱，12.目标区域。

具体实施方式

为使本领域的技术人员更好地理解本发明的设计方案，下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于RGBD相机的货物箱智能装载方法，所述方法步骤如下：

S1、通过RGBD相机采集待装载区域和目标区域货物箱的颜色和深度信息，生成RGB图片和对应的深度图片。并进行相机标定，确定图像坐标系与世界坐标系的转化关系；

本实施例中，首先需要采集仓库中常见的不同尺寸货物箱的长宽高等数据进行模型预训练，以标准邮政纸箱中1号、2号和3号纸箱为例，标准1号纸箱长宽高为530*290*370mm，标准2号纸箱长宽高为530*230*290mm，标准3号纸箱长宽高为430*210*270mm。采集好常见货物箱数据之后，使用这些数据对所需网络模型进行预训练。

本实施例中，所有需要预训练的网络模型包括：

1、2D目标检测网络，采用改进的faster-rcnn网络模型，设定检测对象为仓库货物箱，输入数据为所采集的常见货物箱的RGB图像，如标准1号、2号、3号纸箱，输出目标为带2D检测框大小位置及分类的RGB图像；

2、3D目标检测网络，采用本发明提出的3D目标检测网络，设定检测对象为3D场景中的仓库货物箱，输出目标是3D场景中货物箱的大小和位置。预训练时，把预训练好的2D目标检测网络作为3D目标检测网络的一部分，再对3D目标检测网络进行整体预训练，同时，将预训练结束后的2D目标检测网络输出的带有2D检测结果的RGB图像以及相应的深度图数据，作为3D目标检测网络预训练的输入数据。

3、装载策略生成网络，采用TAP-Net网络模型，设定学习任务寻找当前批次的待装载货物箱最优装载位置和装载顺序，通过强化学习训练，输出目标是由装载顺序和装载位置组成的最优装载策略。

本实施例中，在得到所有预训练网络模型后，开始对当前具体实施例中的货物箱进行装载，所述步骤S1中首先对所使用的相机进行标定，标定方法采用标定板标定法，获取相机的内参和外参，从而可以确定相机坐标系和世界坐标系的转化关系，从世界坐标系中的一个点(x,y,z)到图像坐标系一点(u,v)转化公式为：

式中：f_u和f_v分别是水平方向和竖直方向上的相机焦距，R和T是相机的旋转矩阵和平移矩阵，C是尺度因子。

本实施例中，在相机标定完成后，将RGBD相机对准待装载区域，通过普通相机获取待装载货物箱的RGB图像，通过深度相机获得待装载区域货物箱的深度图像。然后再将相机对准目标装载区域，获取目标装载区域的RGB图像和深度图像。然后将待装载区域的RGBD图像和目标区域的RGBD图像分别输入到接下来的阶段中。

本实施例中，所述步骤S2中的增强手段包括：对于RGB图像，采用颜色抖动、随机裁剪的图像增强方法，然后通过缩放将图片缩放到固定尺寸，本实施例中采用faster-rcnn经典尺寸1000*600，方便步骤S3的检测网络做处理；对于点云数据，采用百分之五十的几率点云围绕yz轴平面随机翻转、围绕z轴进行(-30°,30°)的随机旋转的数据增强手段，并通过随机采样的方式将点云采样到20000个点，为步骤S3的检测网络做输入准备。

如图2所示，3D目标检测网络包括三个模块：特征提取模块、特征融合模块和建议生成模块。其中特征提取模块又分为两个分支：图像特征分支和点云特征分支。具体地，图像特征分支是基于Faster-rcnn改进版的2D目标检测网络、点云特征分支是基于Pointnet++改进版的点云特征提取网络；特征融合模块是基于LI-Fusion模型改进版的融合模型，用于融合点云特征和图像特征；建议生成网络基于Group-free-3D-Net网络的Transformer结构，生成3D场景中每个货物箱的位置和尺寸大小。3D目标检测网络的具体流程如下：

S31、获取图像分支的最终特征以及点云分支的最终特征；

其中，图像分支最终特征通过基于Faster-rcnn改进版的2D目标检测网络得到，具体为，将增强后的RGB图像输入基于Faster-rcnn改进版的2D目标检测网络，该网络输出RGB图像中货物箱的2D检测框的位置、大小和对应检测框的分类分数，然后从这些2D检测框中提取特征，特征包括从2D检测框中提取的语义、纹理和几何特征，其中语义特征为2D检测框的分类分数；纹理特征为检测框中所有像素的RGB像素值；几何特征为从2D检测框的中心投影到3D场景的投影射线。这三种特征使用concatenate函数在通道维度连接，作为图像分支的最终特征输出；

点云分支的最终特征通过基于Pointnet++改进版的点云特征提取网络得到，具体为，以20000个点云采样点作为输入，通过改进版的Pointnet++网络得到点云特征，作为点云分支的最终特征输出；

S33、基于Transformer结构的建议生成模块以融合特征作为输入，从所有的融合特征中计算货物箱特征，并最终输出待装载区域和目标区域货物箱的中心点空间坐标位置与长宽高尺寸大小。

本实施例中，所述步骤S31中的基于Faster-rcnn改进版的2D目标检测网络中的改进包括：舍弃Faster-rcnn中锚框生成时的经典比例(0.5:1:2)，而采用仓库不同货物箱尺寸的长宽高的平均值作为锚框生成时的比例，如本实施例中采用1号、2号和3号标准纸箱，长宽高平均值为：497mm*243mm*310mm，换算为比例约为(4.7:2.3:3.0)。这样有利于在回归锚框时减少初始误差，加快回归训练过程，从而使2D检测结果更加准确。

本实施例中，所述步骤S31中的基于pointnet++改进版的点云特征提取网络的改进包括：在分组聚类时，舍弃原本使用的球体范围进行聚类，而采用方体范围进行聚类，且要求原球体半径是方体面对角线长度的一半，即原球体是方体的棱切球，在原pointnet++里，四层特征提取层分组时球半径分别为0.2m、0.4m、0.8m和1.2m，因此改进版里方体边长应为0.28m、0.57m、1.13m、1.70m，这样可以保证方体与原球体所围区域基本一致，并使聚类体更符合货物箱形状特征；另外，将点云数据中任意两点之间的距离计算方法由计算欧式距离改为计算曼和顿距离，使点云距离的表示形式更加符合方体特征，减少网络训练误差，增强最终检测效果。

本实施例中，所述步骤S32的基于改进版的LI-fusion模块的融合策略的改进包括：第一，舍弃LI-fusion模块中图像特征在和点云特征融合之前首先经过的特征通道对齐层，而是直接将S31中初始的图像特征和点云特征输入到接下来的全连接层中；第二，舍弃LI-fusion模块中融合特征输出之前经过的特征混合层，而是直接将连接后的图像特征和点云特征作为特征融合模块的最终输出。删除这两层后，可以使点云特征和图像特征通道数一直保持不变，在本实施例中，点云特征遵循Group-free-3D-Net网络的pointnet++网络的通道数，即288维；图像特征遵循Imvotnet中图像分支的通道数，即128维。所以最后融合特征的通道数为416维。

如图3所示，所述步骤S4的装载策略生成网络采用TAP-Net。TAP-Net包括装载顺序生成子网络和装载位置生成子网络，分别生成待装载货物箱的装载顺序和装载位置。装载顺序和装载位置的集合即为最终所需的装载策略，具体过程如下：

S41、将S33所输出的待装载区域和目标区域货物箱的3D尺寸装载情况输入到TAP-Net中的装载顺序生成子网络，利用预训练的TAP-Net模型，生成所有待装载的货物箱的装载顺序，如先装载1号纸箱，再装载2号纸箱，最后装载3号纸箱；

S42、将S41所得到的待装载货物箱的装载顺序和目标区域已装载货物箱的位置和尺寸信息，输入到TAP-Net的装载策略生成子网络中，利用预训练的TAP-Net模型，生成最终的装载位置。将装载顺序和装载位置组成一一对应的集合，生成最终的生成策略，如1号纸箱装载于最底层的右上角；2号纸箱装载于2号纸箱侧面紧邻处，3号纸箱装载于1号纸箱上方的右上角处。具体装载策略由货物箱ID编号以及每个货物箱装载位置组成

本实施例中，所述步骤S5中根据步骤S4所生成的装载策略，根据装载顺序首先取出第一个待装载的货物箱，计算机械臂到达当前待装载货物箱托取面的偏转位移和旋转角度，根据数据移动机械臂。然后控制托取装置对待装载货物箱进行托取。托取完成后，计算从当前位置到目标装载位置的偏转位移和旋转角度，控制机械臂控制机械臂对货物箱进行移动。当机械臂移动到指定位置后，控制托取装载放下货物箱。重复此步骤，直至所有货物箱装载完毕。

如图4所示，展示效果为训练3D目标检测网络的损失可视化，(a)是使用未增加S3中所述所有改进的3D目标检测网络，(b)是改进版的3D目标检测网络，训练时采用600个epoch，分别取损失最低的三个epoch做展示。如图中所示，在增加针对性改进后，发现3D目标检测模型的效果比原始版本损失更低，取600个epoch中损失最低的三个epoch，发现改进版3D目标检测网络的损失比未改进版的网络损失均有降低，证明针对性的改进是有效果的。

如图5所示，展示效果为3D目标检测模型的可视化结果，设计检测对象是箱子时，由图可见，该检测网络准确标出箱子的位置与大小，证明该3D目标检测模型针对货物箱的检测是有效果的，可以满足接下来的策略生成以及最后装载任务需求。

如图6所示，本发明还提供一种基于RGBD相机的货物箱智能装载系统，包括：

托取装置，用于对待装载的货物箱进行托取和装载；

操作台，用于安装RGBD相机采集装置和固定机械臂；

本实施例中，所述RGBD相机采集装置安装于操作台上，而非安装在机械臂上，这样可以保证RGBD相机的相对位置不变，减少标定难度与次数，提高装载效率。

本实施例中，托取装置可以上下移动，向上移动可以完成托取任务，向下移动可以完成放置任务。

本实施例中，机械臂包括前臂、可变长后臂和三个可实现360°旋转的转动轴。可变长后臂通过转动轴与操作台相连接，其中可变长后臂根据货物箱位置调整长度；前臂通过转动轴和可变长后臂连接，扩大装置可达范围；托取装置通过转动轴与前臂前端相连，用于配合机械臂以指定位置指定角度完成货物箱装载

本实施例中，控制系统连接RGBD相机采集装置和机械臂，并内置上述训练好的3D目标检测网络和装载策略生成网络，通过RGBD相机获取带装载区域货物箱的3D场景信息，并根据输出的装载顺序和装载位置，计算机械臂移动距离和角度，控制托取装置完成装载任务。

以上对本发明所提供的一种基于RGBD相机的货物箱智能装载方法及系统做了详细的介绍。以上介绍仅用于为本领域技术人员理解本发明提供帮助。对于本领域技术人员，可以在本发明的基础上做若干修改和润饰，这些修改和润饰也当视为本发明的保护范围。

Claims

1.一种基于RGBD相机的货物箱智能装载方法，其特征在于，所述方法包括以下步骤：

S1、通过RGBD相机采集待装载区域和目标区域中货物箱的颜色和深度信息，生成RGB图片和对应的深度图片，并进行相机标定，确定相机内外参及图像坐标系与世界坐标系的转化关系；

S2、根据S1中相机标定得到的相机内外参，将深度图转化为点云，并通过增强手段分别对RGB图像和点云进行数据增强；

S3、将步骤S2中所得增强后的RGB图像和增强后的点云数据输入到3D目标检测网络中，检测出待装载区域和目标区域中每个货物箱的位置和尺寸大小，生成带有中心位置坐标和长宽高的三维检测框的信息；所述的3D目标检测网络依次包括三个模块：特征提取模块、特征融合模块和建议生成模块；其中特征提取模块又分为两个分支：图像特征分支和点云特征分支；图像特征分支是基于Faster-rcnn改进版的2D目标检测网络、点云特征分支是基于pointnet++改进版的点云特征提取网络；特征融合模块是基于LI-Fusion模型改进版的融合模型，用于融合点云特征和图像特征；建议生成模块基于Group-free-3D-Net网络的Transformer结构，生成3D场景中每个货物箱的位置和尺寸大小；待装载区域用于放置需要装载的货物箱，目标区域用于放置已装载的货物箱；

S5、根据步骤S4所生成的装载策略，计算机械臂的偏转位移和旋转角度，控制机械臂对货物箱进行装载；

所述3D目标检测网络的具体流程如下：

S31、利用特征提取模块分别获取图像分支的最终特征以及点云分支的最终特征，

其中，图像分支最终特征的获取过程具体为，将待装载区域和目标区域增强后的RGB图像输入基于Faster-rcnn改进版的2D目标检测网络，该网络输出RGB图像中货物箱的2D 检测框的位置、大小和对应检测框的分类分数，然后从这些2D检测框中提取特征，特征包括从2D检测框中提取的语义、纹理和几何特征，其中语义特征为2D检测框的分类分数；纹理特征为检测框中所有像素的RGB像素值；几何特征为从2D检测框的中心投影到3D场景的投影射线，该射线可由2D检测框的大小位置以及相机标定得到的内外参获得；这三种特征相连接，作为图像分支的最终特征输出；

S32、利用特征融合模块将所述步骤S31中的图像分支的特征与点云分支的特征融合起来，融合方法是基于改进版的LI-fusion 模块，输出融合后的特征；

S33、基于Transformer结构的建议生成模块以融合特征作为输入，从所有的融合特征中计算货物箱特征，并最终输出待装载区域和目标区域货物箱的中心点空间坐标位置与长宽高尺寸大小；

步骤S31所述的基于Faster-rcnn改进版的2D目标检测网络中的改进包括：舍弃Faster-rcnn中锚框生成时的经典比例0.5:1:2，而采用仓库不同货物箱尺寸的长宽高的平均值作为锚框生成时的比例，用于在回归锚框时减少误差，加快回归训练过程，从而使2D检测结果更加准确；

步骤S31所述的基于pointnet++改进版的点云特征提取网络的改进包括：在分组聚类时，舍弃原本使用的球体范围进行聚类，而采用方体范围进行聚类，使聚类体更符合货物箱形状特征，要求原球体半径是方体面对角线长度的一半；另外，将点云中点与点之间距离的计算方法由计算欧式距离改为计算曼和顿距离，使点云距离的表示形式更加符合方体特征，减少网络训练误差，增强最终检测效果；

步骤S32所述的基于改进版的LI-fusion 模块的融合策略的改进包括：第一，舍弃LI-fusion模块中图像特征在和点云特征融合之前首先经过的特征通道对齐层，而是直接将未对齐的图像特征和点云特征输入到接下来的全连接层中；第二，舍弃LI-fusion模块中融合特征输出之前经过的特征混合层，而是直接将连接后的图像特征和点云特征作为特征融合模块的最终输出。

2.如权利要求1所述的一种基于RGBD相机的货物箱智能装载方法，其特征在于，所述步骤S1中的标定方法具体为使用标定板标定法标定相机内参和外参；所述步骤S2中的增强手段包括：对于RGB图像，通过颜色抖动、随机裁剪，并通过缩放将图片缩放到固定尺寸；对于点云数据，通过随机缩放、随机旋转，并通过随机采样的方式将点云采样到20000个点。

3.如权利要求1所述的一种基于RGBD相机的货物箱智能装载方法，其特征在于，所述步骤S4的装载策略生成网络采用TAP-Net。

4.如权利要求1所述的一种基于RGBD相机的货物箱智能装载方法，其特征在于，3D目标检测网络和装载策略生成网络需要预训练。

5.一种实现如权1-4任一所述方法的基于RGBD相机的货物箱智能装载系统，其特征在于包括：

托取装置，用于对待装载的货物箱进行托取和装载；

操作台，用于安装RGBD相机采集装置和固定机械臂；

控制系统，存储好预训练的网络模型，通过RGBD相机采集装置获取3D场景数据，并根据数据最终生成机械臂的偏转位移和旋转角度；

所述RGBD相机采集装置安装于操作台上，用于保证RGBD相机的相对位置不变；托取装置可以上下移动，完成托取任务和放置任务；机械臂包括前臂、可变长后臂和三个可实现360°旋转的转动轴；可变长后臂通过转动轴与操作台相连接，其中可变长后臂根据货物箱位置调整长度；前臂通过转动轴和可变长后臂连接，扩大装置可达范围；托取装置通过转动轴与前臂前端相连，用于配合机械臂以指定位置指定角度完成货物箱装载；控制系统连接RGBD相机采集装置和机械臂，并内置训练好的3D目标检测网络和装载策略生成网络，通过RGBD相机获取待装载区域货物箱的3D场景信息，并根据输出的装载顺序和装载位置，计算机械臂移动距离和旋转角度，控制托取装置完成装载任务。