CN111652085B

CN111652085B - 基于2d与3d特征结合的物体识别方法

Info

Publication number: CN111652085B
Application number: CN202010407474.3A
Authority: CN
Inventors: 刘华珠; 肖武艺; 陈雪芳
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-12-21
Anticipated expiration: 2040-05-14
Also published as: CN111652085A

Abstract

本发明公开了一种一种基于2D与3D特征结合的物体识别方法，对单个模型物体，获取点云数据进行三维模型重建；对步骤一获取的点云数据进行降维，得到经过点云处理后降维为二维的图像，并对获取的二维图像数据集进行预处理；训练基于MobileNetV2的分类网络；在线物体识别。本发明通过提取三维局部特征进行分类解决现有技术的遮挡问题，然后先二维分类，再三维识别，从而降低计算难度，提高了实时识别的效率，并且最终识别的准确率高。

Description

基于2D与3D特征结合的物体识别方法

技术领域

本发明涉及一种物体识别方法，特别是一种基于2D与3D特征结合的物体识别方法。

背景技术

工业机器人一般也称机械手，在实际作业中，通过主机或示教器将机械臂在对作业空间的随意位置进行精度非常高的机械运动。其不仅能对物体进行分拣、加工，避免人员参与高危的作业环境，还成为人员对危险作业工具的主要替代方案。但是，由于机器人主体不能主动获取外部环境信息或工作目标的位置，因此可以添加摄像机在机器臂上作为视觉获取，并且可以充分利用摄像机的图形捕获功能，将环境信息高效传输到机器人本身，将机器人运动和视觉处理技术完美集成，并最终实现机器人的自主分拣、加工功能。在实际工业对物体识别过程中，机械手无法预先知道产线上需要识别的物体，而用户也无法同技术人员一样通过CAD对物体建模的方式对模型库进行添加。因此对物体进行简单的三维重建添加进模型库是机械手识别物体的前提需求。

在三维目标识别研究上，对于复杂场景中的物体识别研究有了较大的进展，但在目标识别算法上仍然存在着很大的进步空间，特别是在识别时间复杂度以及识别准确率上。在实际工业场景中，通过深度相机获取的三维场景、待识别物体在场景中的六自由度位姿都影响着物体最后的识别。因此复杂场景下的三维目标识别仍存在很多的难点需要解决：

(1)遮挡问题：在实际识别应用中，由于环境多样复杂，物体遮挡等情况，识别目标难以保证100％完整暴露在摄像设备镜头前，即难得到完整的采集信息，这就会严重影响到识别的准确度，造成识别和形成特征信息困难，对目标的识别难以达到有效。

(2)实时性问题：目前所采用的基于局部特征的识别方法是各种方法中能较为有效地进行实际应用识别的，但在识别过程中，由于各个环节包含数据采集特征描述、场景关键点检测等计算复杂度高，不能实时进行识别。而通过局部特征描述进行特征检索匹配，由于所识别的3D场景的点云包含了大量的数据点，这就会使识别过程耗费大量的时间，造成实时性低、计算效率慢的问题。

(3)准确率：通过增加特征向量的维数和提取特征的约束条件，可以有效地描述物体的几何特征。而基于局部特征的物体识别在识别率上较高，但是计算量较大，不满足对物体模型库的实时物体识别。全局特征准确率略低于局部特征识别，但在复杂场景下，全局特征远远达不到满足物体识别的要求。因此如何利用局部特征对物体的识别率高以及解决好对模型库进行物体识别的实时性是一个问题。

发明内容

本发明所要解决的技术问题是提供一种基于2D与3D特征结合的物体识别方法，解决现有技术的至少一项缺陷。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于2D与3D特征结合的物体识别方法，其特征在于包含以下步骤：

步骤一：对单个模型物体，获取点云数据进行三维模型重建；

步骤二：对步骤一获取的点云数据进行降维，得到经过点云处理后降维为二维的图像，并对获取的二维图像数据集进行预处理；

步骤三：训练基于MobileNetV2的分类网络；

步骤四：在线物体识别。

进一步地，所述步骤一具体为1.1Kinect相机对单个模型物体的10类模型逐个单独获取其各个视角总共24帧点云数据，对每一帧点云数据进行点云直通滤波去除无关背景及前景，通过RANSAC算法去除点云支撑平面，采用统计分析滤波去除点云边缘噪声，完成24帧点云预处理；

1.2对24帧点云进行关键点ISS3D检测与FPFH特征描述；

1.3采用改进ICP算法进行两两拼接，重建该物体点云三维模型，并对该物体模型进行类别序号标注，添加进点云模型库。

进一步地，所述步骤二中点云处理过程为根据kinect相机原理，物体彩色点云获取由彩色相机获取其RGB值，深度相机通过ToF原理获取其深度信号，再通过彩色与深度相机之间刚体变换，从而获取其物体彩色点云，通过彩色点云与深度图像之间距离变换，再通过深度图像与彩色图像旋转平移矩阵，即可将彩色点云降维为二维图像。

进一步地，所述步骤二中二维图像数据集预处理过程为采用数据增强的方式，对二维图像数据集进行数据增强，数据增强的方式包含

旋转：通过在原图上先放大图像，然后剪切图像得到；

平移：先放大图像，然后水平或垂直偏移位置剪切；

缩放：缩放图像；

随机遮挡：对图像进行小区域遮挡；

水平翻转：以过图像中心的竖直轴为对称轴，将左、右两边像素交换；

颜色色差，包含饱和度、亮度、对比度和锐度；

噪声扰动：对图像的每个像素RGB进行随机扰动,噪声模式采用椒盐噪声或高斯噪声。

进一步地，所述步骤三具体为

基于MobileNetV2的分类网络模型，除了首层卷积层为标准卷积层之外，其余卷积层都为倒残差块的深度可分离卷积层，最后层输出的是1*1点卷积层输入为大小224*224通道为3的样本图；

采用迁移学习的方法，在选取数据集CIFAR10来进行模型预训练，其中CIFAR-10数据集包含10个类别的60000张彩色图像，每个类别6000个图像，有50000张训练图像和10000张测试图像，然后将步骤一获取的二维图像数据集输入预训练网络模型中，进行再训练微调，将产生有效的数据供给最后的决策层或分类层做出最后的分类预测。

进一步地，所述步骤四具体为

4.1利用kinect相机获取在线物体的场景彩色点云数据，对其场景彩色点云数据进行直通滤波去除无关前景与背景处理，采用基于RANSAC去除场景彩色点云数据支撑平面，采用基于统计分析滤波对场景彩色点云数据边缘噪声进行处理，使其减少无关干扰，并增加后续点云识别速度；

4.2对预处理后的场景彩色点云数据采用基于改进的欧式聚类分割，对简单场景及复杂遮挡场景进行各个物体分割得到分割后的数个物体点云数据；

4.3对分割后的数个物体点云数据，进行点云降维处理，输入基于MobileNetV2的分类网络模型进行识别该点云数据为哪类序号的物体点云类型，若分类网络模型输出该物体类别概率小于90％时，认为其分类错误，则该物体识别失败，若大于90％，将从点云模型库取其序号模型点云，并对其进行SHOT特征提取，SHOT特征对比FPFH特征；

4.4对于分类成功的场景彩色点云数据，对其在分割后的点云进行SHOT特征提取，与模型点云一一对应进行特征匹配，利用基于SAC-IA算法对其进行估计初始旋转平移矩阵，并采用改进ICP算法进行假设验证，输出该识别物体六自由度位姿，完成在线物体识别。

进一步地，所述改进ICP算法具体为

采用SAC-IA首配准的方式，将计算出一个相近匹配的一个初始旋转平移矩阵；

不对点集中的每个点进行搜索，将对每个点集进行ISS3D关键点检测，将采用具有特征的关键点进行对应点集搜索；

对于kdtree搜索点对点最近邻方式出现错误点对，未能匹配及剔除的，搜索方式将采用点与到另一点云中最近三点的所构成的三角形之间的位置关系进行判断是否剔除。

本发明与现有技术相比，具有以下优点和效果：本发明提出了一种基于2D与3D特征结合的物体识别方法，基于对物体获取的三维点云进行降维为二维，通过制作其二维图像数据集，采用基于轻量级卷积神经网络MobileNetV2分类点云类型，来进行点云模型库提取该类别点云模型，随后对该点云模型提取其三维局部特征，进行进一步的匹配识别及定位。通过提取三维局部特征进行分类解决现有技术的遮挡问题，然后先二维分类，再三维识别，从而降低计算难度，提高了实时识别的效率，并且最终识别的准确率高。

附图说明

图1是本发明的基于2D与3D特征结合的物体识别方法的流程图。

图2是本发明的实施例的获取的物体点云数据预处理后的示意图。

图3是本发明的实施例的点云数据进行数据增强后的示意图。

图4是本发明的实施例的基于MobileNetv2的分类网络模型accuracy示意图。

图5是本发明的实施例的基于MobileNetv2的分类网络模型loss示意图。

图6是本发明的实施例的简单无遮挡场景点云物体识别示意图。

图7是本发明的实施例的复杂遮挡场景点云物体识别示意图。

具体实施方式

为了详细阐述本发明为达到预定技术目的而所采取的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例，并且，在不付出创造性劳动的前提下，本发明的实施例中的技术手段或技术特征可以替换，下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明的一种基于2D与3D特征结合的物体识别方法，包含以下步骤：

1.1Kinect相机对单个模型物体的10类模型逐个单独获取其各个视角总共24帧点云数据，对每一帧点云数据进行点云直通滤波去除无关背景及前景，通过RANSAC算法去除点云支撑平面，采用统计分析滤波去除点云边缘噪声，完成24帧点云预处理；

1.2对24帧点云进行关键点ISS3D检测与FPFH特征描述；

改进ICP算法具体为

为了在基于MobileNetV2卷积神经网络上训练及识别物体分类，需要对物体获取二维图像数据集。而该数据集不能通过直接在Kinect相机上获取其RGB图像，因为其RGB图像没有经过一系列点云处理，而在在线物体识别阶段，是对处理过的物体点云进行识别的，因此数据集的获取是通过对点云进行降维，得到经过点云处理后降维为二维的图像。数据集获取由Kinect相机对实际场景的物体获取其点云数据。对该物体点云通过背景前景去除、支撑平面去除、滤除噪点、欧式聚类分割，此时物体点云为单独点云(无其他环境及其他物体点云干扰)。

点云处理过程为根据kinect相机原理，物体彩色点云获取由彩色相机获取其RGB值，深度相机通过ToF原理获取其深度信号，再通过彩色与深度相机之间刚体变换，从而获取其物体彩色点云，通过彩色点云与深度图像之间距离变换，再通过深度图像与彩色图像旋转平移矩阵，即可将彩色点云降维为二维图像。

由于点云模型库只有10类点云，而采用kinect获取其每类物体各个角度点云只有较少的24帧，也就点云降维为二维图像的数量每类物体只有24张，这对于卷积神经网络训练来说是远远不足的。因此，基于二维图像的数据增强尤为重要。本实施例采用了数据增强的方式，对二维图像数据集进行以下方式数据增强：旋转：可通过在原图上先放大图像，然后剪切图像得到；平移：先放大图像，然后水平或垂直偏移位置剪切；缩放：缩放图像；随机遮挡：对图像进行小区域遮挡；水平翻转：以过图像中心的竖直轴为对称轴，将左、右两边像素交换；颜色色差(饱和度、亮度、对比度、锐度等)；噪声扰动:对图像的每个像素RGB进行随机扰动,常用的噪声模式是椒盐噪声和高斯噪声。通过以上数据增强方式，对每张图片进行增强至50张，则数据集则有10*24*50＝12000张数据样本，每张图片大小为224*224。其中8400张作为训练集数据样本，3600张作为测试集数据样本。

步骤三：训练基于MobileNetV2的分类网络；

基于MobileNetV2的分类训练网络模型，除了首层卷积层为标准卷积层之外，其余卷积层都为倒残差块的深度可分离卷积层，最后层输出的是1*1点卷积层输入为大小224*224通道为3的样本图。

采用迁移学习的方法，在选取数据集CIFAR10来进行模型预训练，其中CIFAR-10数据集包含10个类别的60000张彩色图像，每个类别6000个图像。有50000张训练图像和10000张测试图像。最后将本文数据集输入预训练网络模型中，进行再训练微调，将产生有效的数据供给最后的决策层或分类层做出最后的分类预测。

步骤四：在线物体识别。

对于在线场景点云物体识别，其kinect相机坐标系应与离线训练时该相机坐标系一致。

实验结果及分析

实验分为两部分：第一部分为基于MobileNetV2分类网络模型的训练及识别结果；第二部分为基于2D与3D特征结合的物体识别算法实验结果。

(1)基于MobileNetV2分类网络实验

对获取物体点云经过预处理及分割后，降维为二维图像进行数据集获取，如图2所示。之后进行该每类物体24帧二维图像进行平移、缩放、随机遮挡、水平翻转、颜色色差(饱和度、亮度、对比度、锐度等)、噪声扰动等数据增强方式进行数据增强，如图3所示。

本实验在win1064位系统，GPU显卡为NVIDIAQuadroP4000，显存8G，内存16G，采用tensorflow深度学习框架。训练测试样本数据集来自Kinect相机获取并进行点云处理，对数据集进行人工标注。

首先对MobileNetV2网络在数据集CIFAR10上进行模型预训练，然后对本实验数据集总共12000张，将其按7:3的比例划分为训练数据集以及测试数据集。对MobileNetV2预训练完的模型网络进行迁移学习，进行再训练微调，将产生有效的数据供给最后的点卷积层做出最后的分类预测。该模型分类评价指标为：

式中，TP为TruePositive：将正类预测为正类的数量；TN为TrueNegative:将负类预测为负类的数量；FP为FalsePositive:将负类预测为正类的数量；FN为FalseNegative：将正类预测为负类的数量。

基于MobileNetV2分类网络参数如表4-2所示，其识别准确率及loss结果如图4、图5所示，在测试集上的分类模型识别准确率如表4-3所示。

表4-2 MobileNetV2分类网络参数

表4-3测试集在MobileNetV2分类网络识别准确率

由上述实验可知，在输入8400张训练集图片进行基于MobileNetV2分类网络进行迁移学习训练微调上，其训练精度达到98.8％，其loss下降为0.55左右，再持续迟缓增加到0.82。在3600张测试集图片进行该分类网络识别时，其平均识别正确率能达到平均98.4％，当中最高识别率为维尼熊，最低识别率为长鼻象。

该实验表明基于MobileNetV2分类网络对该点云降维二维图像具有良好的识别分类，为物体点云识别提供良好的检索类别。

(2)基于2D与3D特征结合的物体识别识别

实验对kinect相机获取的每帧场景点云进行直通滤波滤除无关前景及背景，采用RANSAC进行场景支撑平面去除，利用统计分析滤波进行边缘噪声滤除。通过改进欧式聚类分割方法对场景点云数个物体进行单独分割，对其分割成功的物体点云进行点云降维，输入基于MobileNetV2分类网络进行分类。对分类成功的点云类别序号对应模型库该类别序号点云模型提取其SHOT特征，与点云降维前的分割该物体点云提取SHOT特征进行特征匹配。利用基于SAC-IA算法对其进行估计初始旋转平移矩阵，并采用改进ICP算法进行假设验证，输出该识别物体六自由度位姿，完成在线物体识别。

实验主要对简单无遮挡场景及复杂遮挡场景进行，对kinect获取的数帧点云场景进行识别成功率统计。其实验结果如下：

实验图6简单无遮挡场景点云物体识别、图7复杂遮挡场景点云物体识别可知，场景原点云如图a)所示，为kinect获取的彩色点云。经过点云预处理、点云分割、点云降维分类，其与模型库匹配识别结果如图b)所示，其中绿色线为待测物体点云与模型点云特征匹配连接线，并输出匹配识别方框。最后将匹配识别的结果经改进ICP算法进行进一步精确配准，获取其待测物体点云与模型点云之间旋转平移位姿如表4-4、表4-5所示，并将模型点云配准至场景点云中，为图c)中绿色所示，完成物体识别定位。

表4-4简单无遮挡场景点云位姿变换

表4-5复杂遮挡场景点云位姿变换

表4-6场景点云物体识别成功率

由表4-6可知，实验对3类场景点云进行模型随机位置摆放随机遮挡，获取其彩色点云数据帧进行实验。其中对于无遮挡单物体识别率较高，达到97.6％识别率，而对于无遮挡多物体则达到94.3％的识别率，而对于复杂遮挡多物体则识别较差，低于无遮挡单物体12.7％，只有84.9％的识别成功率。其主要原因是由于复杂遮挡多物体场景点云中，存在着由于kinect获取的点云数据深度边缘空洞，或者两个物体相连且尺寸颜色大致相同，导致其分割出现错误；或者局部特征关键点检测存在不足等原因导致识别失败，但总体效果还是较好。其中基于MobileNetV2分类识别成功率较高，体现其基于深度学习的特征识别鲁棒性较强。

以上所述，仅是本发明的较佳实施例而己，并非对本发明作任何形式上的限制，虽然本发明己以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于2D与3D特征结合的物体识别方法，其特征在于包含以下步骤：

所述步骤一具体为

1.2对24帧点云进行关键点ISS3D检测与FPFH特征描述；

1.3采用改进ICP算法进行两两拼接，重建该物体点云三维模型，并对该物体模型进行类别序号标注，添加进点云模型库；

所述改进ICP算法具体为

对于kdtree搜索点对点最近邻方式出现错误点对，未能匹配及剔除的，搜索方式将采用点与到另一点云中最近三点的所构成的三角形之间的位置关系进行判断是否剔除；

步骤三：训练基于MobileNetV2的分类网络；

步骤四：在线物体识别；

所述步骤四具体为

2.按照权利要求1所述的基于2D与3D特征结合的物体识别方法，其特征在于：所述步骤二中点云处理过程为根据kinect相机原理，物体彩色点云获取由彩色相机获取其RGB值，深度相机通过ToF原理获取其深度信号，再通过彩色与深度相机之间刚体变换，从而获取其物体彩色点云，通过彩色点云与深度图像之间距离变换，再通过深度图像与彩色图像旋转平移矩阵，即可将彩色点云降维为二维图像。

3.按照权利要求1所述的基于2D与3D特征结合的物体识别方法，其特征在于：所述步骤二中二维图像数据集预处理过程为采用数据增强的方式，对二维图像数据集进行数据增强，数据增强的方式包含

旋转：通过在原图上先放大图像，然后剪切图像得到；

平移：先放大图像，然后水平或垂直偏移位置剪切；

缩放：缩放图像；

随机遮挡：对图像进行小区域遮挡；

颜色色差，包含饱和度、亮度、对比度和锐度；

4.按照权利要求1所述的基于2D与3D特征结合的物体识别方法，其特征在于：所述步骤三具体为

基于MobileNetV2的分类网络模型，除了首层卷积层为标准卷积层之外，其余卷积层都为倒残差块的深度可分离卷积层，最后层是1*1点卷积层，输入为大小224*224通道为3的样本图；