CN112837366A

CN112837366A - 基于双目相机和卷积神经网络的目标识别及定位的方法

Info

Publication number: CN112837366A
Application number: CN202110087340.2A
Authority: CN
Inventors: 于舒娟; 高冲; 张昀; 毛新涛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-25

Abstract

本发明公开了一种基于双目相机和卷积神经网络的目标识别及定位方法，本方法包括以下步骤：(1)进行准备工作；(2)控制相机拍摄图片；(3)卷积神经网络完成目标识别；(4)计算目标像素坐标；(5)结合相机参数计算空间坐标。本发明将双目相机和神经网络结合，极大地提升了目标识别和空间位置计算精度；将神经网络引入，增加了本方法的普遍性和鲁棒性；数据计算量和内存占用空间小、处理速度快。

Description

基于双目相机和卷积神经网络的目标识别及定位的方法

技术领域

本发明涉及自动化识别定位领域，特别是一种基于双目相机和卷积神经网络的目标识别及定位方法。

背景技术

在机器人系统中，计算机视觉是帮助机器人识别和跟踪场景变化的重要工具，因此，机器视觉是评价智能机器人的重要指标。研究人员借助多种工具或方法来完成计算机视觉中目标深度信息的获取任务，如单目相机、双目相机、激光测距和深度相机等。在物体深度信息获取方面，单目相机无法准确计算物体距离信息，多被用在水平方向上的距离计算；深度相机和激光测距方法可以得到目标精确的深度信息，但深度相机可能会错误的将多个目标识别为单个目标，而激光测距仪和相机相结合必须事先扫描整个场景中的距离数据，浪费大量时间和精力。

另一方面，随着神经网络的迅速发展，神经网络能够优秀地完成目标识别任务，越来越多的研究人员将其应用于解决实际工程问题，如利用CNN网络实现机器人的自主抓取、使用卷积神经网络完成对草莓的自动识别和定位、将单目相机和Mask R-CNN结合后设计出可以计算水平距离的系统。

现有技术中最接近本发明的技术是文章《Fruit detection for strawberryharvesting robot in non-structural environment based on Mask-RCNN》和《SafetyDistance Identification for Crane Drivers Based on Mask R-CNN》中提到的类似方法，两篇文章都是利用卷积神经网络和相机完成对目标的识别，但是前者文章中未提到实现目标定位的具体方法，后者则由于使用单目相机只能计算水平方向距离信息。《基于视觉引导的机器人抓取分类系统设计》文章中同样使用单目相机，为了获得目标的精确深度信息，在该方法中增加使用了激光深度相机。

发明内容

发明目的：本发明的目的是提供一种具有普遍性和鲁棒性的内存占用小、处理速度快、计算精度高的基于双目相机和卷积神经网络的目标识别及定位方法。

技术方案：本发明所述的一种基于双目相机和卷积神经网络的目标识别及定位方法，包括以下步骤：(1)进行准备工作；(2)控制相机拍摄图片；(3)卷积神经网络完成目标识别；(4)计算目标像素坐标；(5)结合相机参数计算空间坐标。

所述步骤(1)包括以下步骤：(11)制作目标物数据集，为训练卷积神经网络提供数据基础；(12)双目相机标定，从而得到相机的相关参数，该参数在最后计算目标物的空间坐标位置时使用。

所述步骤(2)包括控制双目相机采集目标物图像。

所述步骤(3)包括以下步骤：(31)使用步骤(11)中采集的目标物数据集训练神经网络；(32)卷积神经网络完成对目标物的识别分类。

所述步骤(4)包括计算目标物在步骤(2)中采集的图像中的像素坐标。

所述步骤(5)包括将步骤(4)中得到的像素坐标与步骤(12)中得到的相机参数相结合，计算目标物的空间坐标。

有益效果：与现有技术相比，本发明具有如下优点：1、将双目相机和神经网络结合，极大地提升了目标识别和空间位置计算精度；2、将神经网络引入，增加了本方法的普遍性和鲁棒性；3、数据计算量和内存占用空间小、处理速度快。

附图说明

图1为本方法的步骤流程图；

图2为本方法的工作流程图；

图3为B-NPS系统所使用的双目相机的照片；

图4为标定双目相机时采集的黑白棋盘格图片，图4(a)为camera1采集标定图片，图4(b)为camera2采集标定图片；

图5为借助MobileNet网络改进后的Mask R-CNN网络结构；

图6是训练神经网络的部分数据集图片；

图7是两种模型图片处理速度；

图8是识别效果图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明主要是将双目相机和卷积神经网络结合来实现目标识别和定位(Binocular-Neural Network Positioning System，B-NPS)，双目相机采集目标空间图片信息，卷积神经网络处理图片数据信息，利用相机投影原理和目标的像素坐标信息即可计算得到目标相对于镜头的空间坐标信息。另外，本发明中为了提高数据处理速度，利用小型神经网络MobileNet来改进Mask R-CNN得到新型网络Mobile Mask R-CNN。

整个B-NPS系统的步骤流程如图1所示，工作过程如图2所示。需要预先完成两项准备工作：相机标定和数据集准备。B-NPS系统首先借助双目相机收集物体图像信息，经神经网络处理后实现目标识别，将计算得到的像素坐标与相机标定得到的相机参数相结合，计算得到目标的空间坐标，本实施例中以箱子为识别目标，该实施例为本方法应用于堆垛机器人的案例。

本实施例中使用的双目相机为携带usb3.0接口的型号HNY-CV-002双目相机，其优点是便于连接电脑，基线可调，易于测试和调整，图3为所使用相机的正反面图。本实施例中优选“张正友标定法”标定双目相机，通过不同角度拍摄黑白棋盘格以得到双目相机的各项参数以备计算目标空间坐标时使用。部分拍摄的黑白棋盘格图片如图4所示。

另一项准备工作是制作数据集以训练卷积神经网络。在制作数据集时，以检测和定位箱子为例，在实验室环境下，收集在不同角度下拍摄的不同形状的箱子图像，逐张手工标注，全部标注数据信息以JSON格式保存，如图6所示为采集的部分原始图片。训练神经网络时，选取数据集中500张图像。为减少数据量，所有图片修改为640*480像素大小的jpeg图片格式。优选地，使用VGG Image Annotator(VIA)标注工具，该工具由Visual GeometryGroup开发并开源。

完成准备工作后，利用双目相机获得物体空间图像信息，然后利用训练好的神经网络处理图像数据信息。

虽然Mask R-CNN在目标识别方面有着优异的性能，但是，在计算能力有限的平台上或者有严格时间限制的场景下使用复杂网络较为困难。例如，在移动或者嵌入式设备中，通常需要较小的内存占用，而在无人驾驶方面则需要实时性能。由于本发明系统设计应用于目标识别与定位，存在实际应用场景限制，所以，内存占用和运行时间是必须考虑的因素。

MobileNet专为在各种移动或嵌入式视觉应用中进行高效推理而设计，由深度可分离卷积构建，可将标准卷积分解为深度卷积和1×1卷积，从而有效地减少了计算量和参数数量。MobileNet可以在保持模型性能的情况下提升模型速度，是一种高效的卷积神经网络，可以轻松满足移动和嵌入式应用程序的设计要求。所以，为提高Mask R-CNN处理速度为目的，能够在有限资源条件下完成识别任务，将MobileNet加入Mask R-CNN网络以进行改进，构成Mobile Mask R-CNN网络， Mobile Mask R-CNN不仅在数据处理速度上有较大优势，同时，相对于Mask R-CNN 占用更少的存储空间。表1和图7为Mask R-CNN和Mobile MaskR-CNN的在公开数据集coco和自制数据集(self-made)上的各项性能对比。

表1两种网络的FLOPs和精确度对比

在表1中，Mask R-CNN在coco上的测试结果FLOPs为6.7B(6,732,987,221)，而Mobile Mask R-CNN为0.04B(48,456,968)，后者计算量仅为前者的0.07％。在自制数据集上，结果类似。Mask R-CNN的模型存储占用空间为245Mb，而Mobile Mask R-CNN的模型存储占用空间为92.2Mb，后者的内存占用空间为前者的37.7％。Mask R-CNN的紧缺率为0.556，Mobile Mask R-CNN为0.395，两者相比，Mobile Mask R-CNN的紧缺率低了0.161。考虑到FLOPs和模型占用空间的较大改进，损失较小的紧缺率是可以接受的。

在图片处理用时方面，本文使用两种网络分别在随机选取的500张coco图片和50张自制数据集图片上测试，取平均用时为单张图像的处理耗时。如图6所示，在500张coco图片测试中，Mask R-CNN平均1.01s处理一张图像，而Mobile Mask R-CNN的用时为0.67s。在自制数据集上的测试结果与之类似，使用时长分别为 0.95s和0.64s。神经网络MobileMask R-CNN在保证正确率的前提下，可以大大减少图像处理时间。

图8为神经网络处理后的效果图，在程序中，设定将目标部分保持原本色彩不变，其余部分全部改变为灰度。

在神经网络处理效果图的基础上计算目标的一对像素坐标，结合双目相机的参数，计算出目标相对于双目相机camera1镜头的空间坐标。因为距离信息中z 坐标更容易比较，所以将计算得到的z坐标和激光测距仪测得的数据进行对比。结果如表2所示。其中l_c为B-NPS系统计算数值；l_d为l_m和l_c差值的绝对值， l_d＝|l_c-l_m|；l_dr为百分比差值，l_dr＝l_d/l_m。

表2十组测量值与计算值对比

如表2所示，考虑到实际测量距离以及被测目标的大小，计算值误差在可接受范围内。十组数据中，第八组误差率最小，为1.2％，实际距离为123.6cm，计算距离为122.1cm，误差为1.5cm。第九组数据误差最大，实际距离104.6cm，计算距离为100.3cm，误差为4.3cm。图7折线图由表1数据绘制，由折线图可知，在一定范围内，误差与实际距离并无明显关系，当距离增大时，误差不一定随之增加。在一般情况下，计算值满足要求。

Claims

1.一种基于双目相机和卷积神经网络的目标识别及定位方法，其特征在于，包括以下步骤：

(1)进行准备工作；

(2)控制相机拍摄图片；

(3)卷积神经网络完成目标识别；

(4)计算目标像素坐标；

(5)结合相机参数计算空间坐标。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括以下步骤：

(11)制作目标物数据集；

(12)双目相机标定。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)包括控制双目相机采集目标物图像。

4.根据权利要求1所述的方法，其特征在于，所述步骤(3)包括以下步骤：

(31)使用步骤(11)中采集的目标物数据集训练神经网络；

(32)卷积神经网络完成对目标物的识别分类。

5.根据权利要求1所述的方法，其特征在于，所述步骤(4)包括计算目标物在步骤(2)中采集的图像中的像素坐标。

6.根据权利要求1所述的方法，其特征在于，所述步骤(5)包括将步骤(4)中得到的像素坐标与步骤(12)中得到的相机参数相结合，计算目标物的空间坐标。