CN109655019A

CN109655019A - 一种基于深度学习和三维重建的货物体积测量方法

Info

Publication number: CN109655019A
Application number: CN201811268980.8A
Authority: CN
Inventors: 王华锋; 张亚明; 王�琦; 张鹏; 杜涛; 刘万泉
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-04-19
Anticipated expiration: 2038-10-29
Also published as: CN109655019B

Abstract

本发明涉及一种基于深度学习和三维重建的货物体积测量方法，包括步骤：RGBD数据获取、RGB数据预处理、点云生成、点云拼接、点云分割、凸包生成和体积检测，其中RGB数据预处理采用深度学习的方法，这种方法能准确地从三维场景中识别并且分割出目标物体从而提高其体积测量精度。同时，在测量货物体积时，以凸包化代替对目标点云数据三角化，能解决不封闭三维模型体积无法测量和凹型货物实际空间占用体积测量误差较大的问题，从而进一步提高实用性。

Description

一种基于深度学习和三维重建的货物体积测量方法

技术领域

本发明涉及一种基于深度学习和三维重建的货物体积测量方法，属于物流特征识别及检测技术领域。

背景技术

随着社会的进步与科技的发展，人们的出行也渐渐变得方便与频繁。铁路与航空作为人们远程出行的主流选择，其承担的客流数量日渐增加。所以，旅客行李的安检与托运工作在需要大量人力的同时体现出了其有限性与滞后性。行李识别与体积检测技术应运而生。

由于行李外形的不规则性和检测环境的复杂性，导致其体积检测的难度高、精度低。目前的物体体积测量的方法大致分为两大类：接触式测量和非接触式测量。其中，接触式测量可分为排开式测量和探测式测量。非接触式测量可以分为排开式测量、探测式测量和图像式测量。其中除了排开式测量之外，其他方法都需要构建出物体的三维模型才能够计算出物体体积，由于排开式测量存在检测环境复杂、检测速度慢等弊端，构建三维模型就成为了国内外科研工作者的所研究的热点。

体积测量技术多是通过构建出物体的三维模型，然后通过空间积分运算得出物体的体积。主流的构建三维模型的方法大致分为三大类：激光扫描法，光栅图像法和多角度图像法。激光扫描法是利用激光扫描设备获得点云数据，然后根据点云数据构建物体或三维模型。光栅图像法是将光栅打在物体上，获取光栅图像，然后根据光栅的弯曲情况还原物体的三维模型的一种方法。多角度图像法是指从不同角度对同一场景或同一物体拍摄多张图像，然后通过这些图像合成三维模型。

但这些技术在使用时均有其优缺点，光栅图像法测量准确度较高，但对测量环境要求较高，且算法较复杂。多角度图像法对于设备要求低，操作简单，但是测量准确度不高，而且算法较复杂。激光扫描法测量准确度与测量设备精度相关，设备精度越高价格越贵。近几年，计算机硬件运算能力飞速提升和各种数据井喷式的增长，深度学习和机器学习领域发展前景巨大，利用深度学习和机器学习的方法来测量货物体积成为可行的方法，由此，本发明提出了一种新的货物体积检测方法，能有效地在复杂背景环境下测量不规则物体体积。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种基于深度学习和三维重建的货物体积测量方法，该方法利用对RGB数据的预分割处理，能够更便捷更精确地获取目标物体三维点云数据，通过重建该目标物体点云数据的凸包模型，快速测得物体的空间占用体积。

本发明的技术解决方案：一种基于深度学习和三维重建的货物体积测量方法，包括：

(1)采用两部同类型RGBD摄像头，以焦点位于同一直线，镜头位于同一水平面且方向相对的摆放方式来获取两组RGBD摄像头之间区域的RGBD数据，得到两组RGBD数据；

(2)根据特征匹配和深度学习的方法对所述两组RGBD数据中RGB数据进行预处理，得到目标物体与背景区域之间实现边缘分割的RGB数据，结合前述RGBD数据中的原深度数据，构成经过预处理的RGBD数据；

(3)通过对所述两部RGBD摄像头进行标定，获得两组RGBD摄像头的内参矩阵，根据空间坐标系与像素坐标系的映射关系和所述内参矩阵，分别以所述两组经过预处理的RGBD数据构造两组携带RGB信息的点云数据；

(4)通过测得空间坐标系下前述两部RGBD摄像头的位置数据，计算在世界坐标系下两个RGBD摄像头位置间的旋转平移矩阵，根据该旋转平移矩阵，将前述两组携带RGB信息点云数据拼接得到处于同一空间坐标系下的点云数据；

(5)在所述同一空间坐标系下的点云数据中，根据目标物体与背景区域之间的RGB数据差异，分割点云数据，得到仅保留目标物体的点云数据；

(6)根据所得到的仅保留目标物体的点云数据，生成目标物体三维模型，再以目标物体三维模型，生成目标物体的三维凸包模型，最终通过计算所述三维凸包模型的体积作为所求目标物体的体积。所述RGB数据预处理为对RGB数据做识别与分割，利用Mask-RCNN神经网络标记出每组RGB数据中目标物体的轮廓，以所述轮廓作为分界线，对所述分界线内外部分的两组RGB数据做差异化处理，使得目标物体与背景区域之间的RGB数据具有明显差异，再以上述经过预处理的RGB数据结合原RGBD数据中的原深度数据，构成经过预处理的RGBD数据；

所述三维凸包模型采用增量算法生成，其方法为：选取点云数据集中的四个点构成一个初始的四面体凸包，然后继续选取点云数据集中剩余的点，若前述点云数据集中剩余的点位于当前凸包内部，则删除此点；若前述点云数据集中剩余的点位于当前凸包外部，则删除透过此点的可见面，同时将不可见面的边分别与此点相连接，构成新的面，加入到原凸包中。重复上述步骤，直到点云数据中所有点都经过处理，最终生成目标物体的三维凸包模型，通过计算所述三维凸包模型的体积作为所求目标物体的体积。

本发明与现有技术相比的优点在于：现有技术在算法复杂度低和体积测量精确度高上无法兼顾，而本发明通过对RGB数据的预处理，具体为利用Mask-RCNN网络对二维形态的RGB数据进行实例分割，该网络能在检测目标的同时完成高质量的语义分割，从而能提高整体方法的精确度。再以预处理后的RGB数据与深度数据生成携带RGB数据信息的点云图，根据预处理所带来的点云图中RGB数据差异可以快速的识别和分割出目标物体的三维形态的点云数据，本发明对比直接在三维形态的点云数据上做识别与分割的过程，起到降维作用，从而能降低算法复杂度，加快整体方法的测量效率；同时以凸包化代替对点云数据三角化，解决了不封闭三维模型体积无法测量和凹型货物实际空间占用体积测量误差较大的问题。综上，本发明与现有技术相比，提高了测量精度，降低了算法复杂度。

附图说明

图1为本发明货物体积测量方法的实现流程图；

图2为本发明的RGBD摄像头的安装位置示意图；

图3为本发明采用的Mask-RCNN神经网络的结构图；

图4为本发明生成三维凸包模型的增量算法示意图；

图5为本发明各步骤数据流程图，其中a1、a2表示所获取原始RGB数据；c1、 c2表示所获取的原始深度数据；b1、b2表示目标物体与背景区域之间实现边缘分割的 RGB数据；d1、d2表示携带RGB信息点云数据；e表示拼接于同一空间坐标系下的点云数据；f表示仅保留目标物体的点云数据；g表示目标物体的三维凸包模型。其中a1、 b1、c1、d1为来自左侧RGBD摄像头的处理数据，a2、b2、c2、d2为来自右侧RGBD 摄像头的处理数据。

图6本发明测量某目标物体的最终测量结果对比图，其中左一为目标货物原图；左二为仅保留目标物体的点云数据；左三为目标物体的三维凸包模型。

具体实施方式

下面结合附图详细解释本发明提出的基于深度学习和三维重建的物体体积测量方法，以便本领域的技术人员更好地理解本发明。

本发明的物体体积检测方法包含以下几个部分：RGBD数据获取、RGB数据预处理、点云生成、点云拼接、点云分割、凸包生成和体积检测，其系统结构如图1所示。

RGBD数据获取部分负责使用两部RGBD摄像头采集货物的RGBD数据，该RGBD 摄像头安装位置如图2所示，其中1、2为两部RGBD摄像头，3为待测目标货物，坐标轴O-XYZ表示三者所处的空间坐标系，坐标轴o-xyz分别表示两部RGBD摄像头的相机坐标系，z轴表示相机镜头方向，a表示两部RGBD摄像头的间隔距离，其中x轴与Y轴平行，y轴与Z轴平行，z轴与X轴平行，两组相机坐标系的原点o位于同一直线上。

RGB数据预处理部分负责利用Mask-RCNN网络分别对两组RGB数据中目标物体做识别与分割；点云生成部分负责利用两组深度数据和预处理后的RGB数据生成两组点云数据；点云拼接部分负责利用旋转平移矩阵将两组点云数据拼接起来。点云分割部分负责根据点云中目标物体与其他物体RGB数据的差异分割出目标物体的点云数据；凸包生成和体积检测部分负责根据目标物体的点云数据生成目标物体的三维凸包模型，并检测该模型体积。

本发明提出的基于深度学习和三维重建的货物体积测量方法主要涉及RGB数据预处理、点云生成、点云拼接和凸包生成四个部分，具体步骤如下：

1.RGB数据预处理

本发明提出一种对二维RGB数据识别与分割来代替直接对三维点云数据识别与分割的方法来对采集到的RGB数据做预处理。该部分的目标是将RGB图片中的物体识别并分割，卷积神经网络中语义分割和实例分割都能达到分割物体的效果，但语义分割中只能将不同物体与背景分割开来，对于同类物体达不到分割的效果，从而选择实例分割网络，不但要进行像素级别的分类，还需在具体的类别基础上对不同的实例进行区别。

本发明采用的实例分割网络是Mask-RCNN网络，Mask-RCNN网络通过在目标检测Faster-RCNN的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。目标检测中每个候选对象有两个输出，类标签(label)和边框偏移(bounding-boxoffset)；实例分割为提高精度，又添加了输出对象mask(二进制掩码)的第三个分支。但附加的mask输出与类和框输出不同，需要提取对象的更精细的空间布局。同时，分类也取决于掩模预测。

Mask-RCNN神经网络的结构如图3，其过程为：输入一幅图像，对图片进行预处理之后图像变成固定的大小(112×112)，随后通过conv1卷积层(卷积核大小为64×(7×7)) 提取特征，输出大小为56×56的特征图。继续通过conv2_x(结构为3个block(深度瓶颈结构)，每个block由64×(1×1)，64×(3×3)，256×(1×1)三层卷积层构成)、conv3_x (结构为4个block，每个block由128×(1×1)，128×(3×3)，512×(1×1)三层卷积层构成)、 conv4_x(结构为23个block，每个block由256×(1×1)，256×(3×3)，1024×(1×1)三层卷积层构成)进行卷积操作，在conv4_x之后提取到(14×14)的特征图，送入RPN网络， RPN网络用来对卷积网络产生的多个ROI进行区分和初步定位，输出回归框的四个预测值。其中，ROIAlign(区域特征聚集方式)的作用是通过最大池化操作将特征图上面的ROI固定为特定大小的特征图(7×7)，以便进行后续的分类和包围框回归操作。再通过conv5_x卷积结构(结构为3层block，每层block由64×(1×1)，64×(3×3)，256×(1×1) 三层卷积层构成)输出大小为(7×7)的特征图。最后通过average pooling(全局平均池化操作)输出分类结果、回归框，通过deconv反卷积操作输出mask。

输入一张图像通过卷积神经网络提取特征，将提取到的特征图送入RegionProposal Network(区域推荐网络，RPN)，由RPN生成候选框，在Faster-Rcnn中采用ROIpooling方法输出边界框，但是由于量化过程中产生的量化误差导致候选框坐标不精确，因此在Mask-RCNN中提出了一种新的ROI Align方法来产生更加精确的候选边界框。

ROI Align具体操作流程如下：

(1)遍历每一个候选区域，保持浮点数边界不做量化。

(2)将候选区域分割成S×S个单元，每个单元的边界也不做量化。

(3)在每个单元计算固定四个坐标位置，用双线性内插值的方法计算出这四个位置的值，然后进行最大池化操作。

反向传播公式为：

d(,)表示两点间的距离，x_i代表池化前特征图上的像素点；y_rj代表池化后的第r个候选区域的第j个点；i*(r,j)代表点y_rj像素值的来源，Δh和Δw表示x_i与x_i*(i,j)横纵坐标的插值，这里作为双线性内插的系数乘在原始的梯度上。

训练阶段，对于每个采样的RoI(Region of Interest，感兴趣区域)定义一个多任务损失函数：

L＝L_cls+L_box+L_mask

L_cls(p,c)＝-log p_c为评估分类代价，由真实分类c对应的概率决定，p为输出的 N+1维数组，N表示物体的类别数。

L_box为评估回归损失代价，比较真实分类c对应的预测平移缩放参数是指相对于object proposal(目标潜在区域提取方法)尺度不变的平移，指对数空间中相对于object proposal的高与宽和真实平移缩放参数 v＝(v_x,v_y,v_w,v_h)(v_x,v_y,v_w,v_h表示Groud-truth框的坐标)的差距。

其中smooth L1为损失函数，表达式为：

式中x＝q^c-v，即对应坐标的差距，smooth L1(x)该函数在(-1,1)之间为二次函数，而其他区域为线性函数。可以增强模型对异常数据的鲁棒性。0.5为smooth L1损失函数的固定取值，目的是为了使smooth L1损失函数连续可导。掩膜分支针对每个RoI产生一个Km²的输出，即K个分辨率为m×m的二值的掩膜，K为分类物体的种类数目。依据预测类别分支预测的类型i，只将第i个二值掩膜输出记为L_mask。对于预测的二值掩膜输出，对每个像素点应用Sigmoid函数，整体损失定义为平均二值交叉损失熵。

L_mask只定义对应类别的mask损失，其他类别的mask输出不会影响该类别loss，最后可以通过与阈值0.5作比较输出二值mask。引入预测K个输出的机制，使得网络允许每个类都生成独立的掩膜，将分类的任务交给专业的Classification分支，解耦了mask和类别预测，避免类间竞争。

本发明中所用到的实例分割网络实现过程如下：

(1)标记

对需要识别的物体类型进行标记，包括物体的轮廓标记和类型标签，将标记后的图片进行处理使其生成掩膜，最后转换成训练中需要的文件格式。

(2)训练

将转化好的图像文件分为训练集与测试集两个部分，测试集1000张图片并用200张图片进行验证。

(3)检测

卷积神经网络的输入图像要进行预处理。由于捕获到的图像是PNG格式，有四个通道，神经网络中只需要三个通道的输入，需要将图片转换为JPG格式。在检测时，获得一张检测图像，输入到卷积神经网络中。这些输入的图像通过卷积神经网络，产生图片中物体对应的轮廓框，物体类别及置信率，物体的二进制掩码。

(4)RGB数据差异化

经过Mask-RCNN处理后的RGB数据，在目标物体和背景环境区域产生明显的差异化，如目标物体区域所有像素点的RGB数值均为(0，255，0)，其他区域像素点RGB数值为(gray，gray，gray)，其中，gray表示对像素点原RGB数据灰度化后的数值，经过处理后的RGB数据示意图如图5中b1、b2所示。

2.点云生成

本发明提出一种经过实例分割后的RGB数据和深度数据来生成点云数据方法。通过对两组RGBD摄像头进行标定，获得两组RGBD摄像头的内参矩阵C，

位于空间坐标系下的点[x,y,z]和位于像素坐标系下的点[u,v]的关系可用如下矩阵模型描述：

其中，f_x，f_y指相机在x，y两个轴上的焦距，c_x，c_y指相机的光圈中心，s指深度图的缩放因子，u指像素坐标系下横轴坐标，v指像素坐标系下纵轴坐标，R为旋转矩阵， t为平移矢量。已知深度图坐标[u,v,d]，d指深度数据，得到对应空间坐标(x,y,z)的如下：

z＝d/s

x＝(u-c_x)·z/f_x

y＝(v-c_y)·z/f_y

根据以上公式分别以两组经过预处理的RGBD数据构造携带RGB信息的点云数据，携带RGB信息的点云数据示意图如图5中d1、d2所示。由此，生成的三维点云数据将带有与二维图像相同的RGB数据差异，这种带有RGB数据差异的点云将会使后续步骤中的点云分割更加简单快速。

3.点云拼接

本发明提出一种利用来自固定安装位置的旋转平移矩阵来实现点云拼接的方法。RGBD摄像头固定安装位置如图2，该安装方法能在更少设备成本下获取到更加完整的货物的RGBD数据，同时可以简单稳定地获得精度更高的旋转平移矩阵。

先测得两个RGBD摄像头的固定位置数据，计算在世界坐标系下两个RGBD摄像头位置间的旋转平移矩阵，旋转平移矩阵RT由旋转矩阵R和平移矢量t组成，如下：

当物体绕Y轴旋转α角度时，旋转矩阵R形式如下：

当物体沿Z轴平移z长度时，平移矩阵t形式如下：

t＝(0,0,z)

图2中，RGBD摄像头2相对于RGBD摄像头1，沿Z轴平移a距离，绕Y轴旋转180°，则：

其中，a取值范围应小于二分之一RGBD摄像头可测深度，大于二分之一被测物体在X 轴方向的宽度。

再以该RT矩阵做矩阵变换可将携带RGB信息点云2(如图5中d2)置于携带RGB 信息点云1(如图5中d1)的坐标下，再将两组点云数据直接相加，即可获得位于同一空间坐标系下的拼接点云数据，其示意图如图5中e所示，该拼接点云能准确的反映目标物体和其所处环境的真实情况。

4、凸包生成

根据增量算法处理点云分割后产生的仅保留目标物体的点云数据(如图6中左二)以生成目标物体的三维凸包，增量算法的实现原理如图4所示，初始时随机选两个点 P₁，P₂，然后找一个不和这两个点共线的点P₃，再找一个不和以上三点共面的点P₄，组成初始凸包然后依次考虑其他点P_r，如果点P_r在当前凸包内，直接忽略；如果点Pr 在当前凸包外，删除从P_r点的可视面P₁P₄P₃，然后将P_r点分别和不可视面边P₁P₄、 P₁P₃、P₃P₄连接，构成新的面P₁P₄P_r，P₁P₃P_r，P₃P₄P_r加入到原凸包中，重复上述步骤，直到点云数据中所有点都经过处理。最终生成目标物体的三维凸包模型，其示意图如图5中g所示。

本发明在测量某目标物体时获得的最终测量结果如图6所示，从左至右依次为目标物体、仅保留目标物体的点云数据、目标物体的三维凸包模型，经对比可知，本发明可以很好的重构目标物体的三维凸包模型，再根据该三维凸包模型计算目标物体的体积。

如上所述，本发明利用深度学习和三维重建的优点在于，与传统的货物体积检测方法相比，这种方法能准确地从三维场景中识别并且分割出目标物体从而提高其体积测量精度。另外，本发明利用凸包化代替对目标点云数据三角化，能解决不封闭三维模型体积无法测量和凹型货物实际空间占用体积测量误差较大的问题，从而进一步提高实用性。

上面所述的仅是体现本发明基于深度学习和三维重建的货物体积测量方法的实施例。本发明并不限于上述实施例。本发明的说明书是用于进行说明，不限制权利要求的范围。对于本领域的技术人员，很显然可以有很多的替换、改进和变化。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围内。

Claims

1.一种基于深度学习和三维重建的货物体积测量方法，其特征在于，包括如下步骤：

第一步，采用两部同类型RGBD摄像头，以焦点位于同一直线，镜头位于同一水平面且方向相对的摆放方式来获取两组RGBD摄像头之间区域的RGBD数据，得到两组RGBD数据；

第二步，根据特征匹配和深度学习的方法对所述两组RGBD数据中RGB数据进行预处理，得到目标物体与背景区域之间实现边缘分割的RGB数据，结合前述RGBD数据中的原深度数据，构成经过预处理的RGBD数据；

第三步，通过对所述两部RGBD摄像头进行标定，获得两组RGBD摄像头的内参矩阵，根据空间坐标系与像素坐标系的映射关系和所述内参矩阵，分别以所述两组经过预处理的RGBD数据构造两组携带RGB信息的点云数据；

第四步，通过测得空间坐标系下前述两部RGBD摄像头的位置数据，计算在世界坐标系下两个RGBD摄像头位置间的旋转平移矩阵，根据该旋转平移矩阵，将前述两组携带RGB信息点云数据拼接得到处于同一空间坐标系下的点云数据；

第五步，在所述同一空间坐标系下的点云数据中，根据目标物体与背景区域之间的RGB数据差异，分割点云数据，得到仅保留目标物体的点云数据；

第六步，根据所得到的仅保留目标物体的点云数据，生成目标物体三维模型，再以目标物体三维模型，生成目标物体的三维凸包模型，最终通过计算所述三维凸包模型的体积作为所求目标物体的体积。

2.根据权利要求1所述的基于深度学习和三维重建的货物体积测量方法，其特征在于：所述第二步中，RGB数据预处理为对RGB数据做识别与分割，利用Mask-RCNN神经网络标记出每组RGB数据中目标物体的轮廓，以所述轮廓作为分界线，对所述分界线内外部分的两组RGB数据做差异化处理，使得目标物体与背景区域之间的RGB数据具有明显差异，再以经过预处理的RGB数据结合原RGBD数据中的深度数据，构成经过预处理的RGBD数据。

3.根据权利要求1所述的基于深度学习和三维重建的货物体积测量方法，其特征在于：所述第六步中，三维凸包模型采用增量算法生成，生成方法为：选取点云数据集中的四个点构成一个初始的四面体凸包，然后继续选取点云数据集中剩余的点，若所述点云数据集中剩余的点位于当前凸包内部，则删除此点；若所述点云数据集中剩余的点位于当前凸包外部，则删除透过此点的可见面，同时将不可见面的边分别与此点相连接，构成新的面，加入到原凸包中；重复上述步骤，直到点云数据中所有点都经过处理，最终生成目标物体的三维凸包模型，通过计算所述三维凸包模型的体积作为所求目标物体的体积。