CN110136202A

CN110136202A - 一种基于ssd与双摄像头的多目标识别与定位方法

Info

Publication number: CN110136202A
Application number: CN201910422933.2A
Authority: CN
Inventors: 郭春生; 韩鹏举; 应娜; 陈华华; 杨萌; 章建武
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-16

Abstract

本发明提供一种基于SSD与双摄像头的多目标识别与定位方法，包括：基于张氏标定法的相机标定，利用内参使用EPnP算法和Levenberg‑Marquardt算法计算得到精确相机位姿；利用深度学习目标检测框架SSD训练多目标检测模型，可以精准识别双摄像头视线内的多目标；利用SIFT特征把左右摄像机检测出的目标匹配，根据得到的相机位姿，求解目标在现实世界中的位置，实现目标的定位。本发明在室内定位导航中利用深度学习训练模型对多目标进行检测，识别的目标可以包括但不限于行人、狗、车等；既能够实现双摄像头在远距离情况下的定位，又利用了深度学习识别目标的鲁棒性，实现双摄像头多目标快速识别和定位。

Description

一种基于SSD与双摄像头的多目标识别与定位方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于SSD与双摄像头的多目标识别与定位方法，实现多目标以及两摄像头距离较远情况下的定位。

背景技术

实现室内外定位导航一直是人类追求的目标，如今，室内定位导航已经得到了快速的发展，然而，室内导航定位技术的发展并没有满足人类的正常需要，定位准确性、实时性以及多目标性在很大程度上制约着相关应用的发展以及推广。随着城市化和经济社会发展，如何实现快速高效的室内定位，成为提高我国经济发展的制约因素。然而，楼宇内情况信息复杂，信号的传递、目标的定位与跟踪显得尤为困难。为了提高定位的高效性和准确性，需要加强对定位技术的发展力度。

现有的定位导航技术包括超声波定位导航、红外线定位导航、激光定位导航以及视觉定位导航，其中视觉定位导航通过几个位于物体不同方位的视觉传感器对物体成像，通过视差恢复深度信息，并将其余传感器的实际位置联系起来，完成定位。其中双目立体视觉技术通过左、右摄像头提供的图像信息能够比较准确地恢复视场的三维信息，相比于超声、激光、红外等主动法测距传感器，视觉传感器具有信息丰富、探测范围广等诸多优点，目前，两摄像头距离较近的定位已经实现，然而，较远距离的双摄像头定位还没有实现，且现有的技术大都是单目标的定位，尚没有多目标的双摄像头定位方法。

发明内容

基于上述现有技术存在的缺陷，本发明提出一种基于SSD与双摄像头的多目标识别与定位方法，快速实现目标的定位。

为实现本发明的目的，本发明采用如下技术方案：

一种基于SSD与双摄像头的多目标识别与定位方法，包括以下步骤：

S1，基于张氏标定法的相机内参标定；利用EPnP算法和Levenberg-Marquardt算法计算得到精确的相机位姿；

S2，使用双摄像头对多目标进行数据采集，利用SSD训练多目标检测模型，得到目标以及目标在图像上的位置；

S3，利用SIFT特征把双摄像头检测出的多目标匹配，根据得到的相机位姿，求解目标在现实世界中的位置，实现多目标的定位。

进一步地，步骤1中，标定时，棋盘格标定板处于左右两个摄像头的成像范围内，左右两个摄像头间隔一定距离。

进一步地，步骤S1具体为：

S11：使用4个非共面的虚拟控制点来表示场景点，令表示世界坐标系下的4个虚拟控制点，表示世界坐标系下的场景点集，表示相机坐标系下的4个虚拟控制点，表示相机坐标系下的场景点集，根据场景点和对应的图像点求解控制点在相机坐标下的坐标，继而求出相机位姿；

S12：将粗匹配得到的相机位姿作为迭代初始值，使用Levenberg-Marquardt算法获得精确的相机位姿。

进一步地，步骤S2中：所述SSD的网络结构包括基础网络VGG16和特征提

取网络，在特征提取成功的基础上处理得到不同尺度的feature map，生成多

组default box进行预测分类和位置调整信息。

进一步地，步骤S2中，利用SSD训练多目标检测模型具体为：

S21：在预测阶段，通过SSD对每层的feature map做卷积操作，对每个defaultbox生成一个分类标签以及位置坐标的调整；

S22：对比SSD网络的default box与标记好的ground truth，按照置信度进行排序；如果满足标准，则该default box为positive样本，否则即为negative样本；

S23：进行网络训练，网络的总损失函数为：

其中，g是地面实况标签，l是预测的框，N是默认匹配框的数量，c表示搜索框，L_conf和L_loc分表表示类别损失函数和位置损失函数，x的值为{0,1}，α是定位网络的权重；

位置损失函数为：

其中，i属于positive；d是default box的w,h；g是ground truth的w,h；w,h分别代表框的宽和高。

smooth_L1的计算方法如下：

类别损失函数为：

类别损失函数考虑正样本和负样本；

其中x为1表明两者match；

当default box与本张图像中任一ground truth box的交并比超过一个阈值(默认为0.5)，便设为候选正样本，其他为候选负样本。对于候选正样本集：选择类别loss最高的m个prior box与候选正样本集匹配，匹配不成功则删除这个正样本；对于候选负样本集：选择类别loss最高的m个prior box与候选负样本集匹配，匹配成功的则留下来作为最后的负样本，不成功剔除出候选负样本。

正样本时，选取交并比最大的且超过阈值的ground truth box的label作为该default box的标签，之后与卷积计算出来的该default box的标签进行cross entropy；

负样本时，将0作为该default box的标签与feature map计算出的标签进行crossentropy；

S24：训练完成后，双摄像头获取的图片输入到模型，即可得到多个被框图框住的目标。

进一步地，步骤S3具体为：

S31:双摄像头获取的图片输入到SSD训练好的模型中，检测出多目标，目标被框图所标记；使用SIFT算法对左右两个摄像头中的多目标进行特征提取，对提取的特征向量进行匹配；目标在图像上的坐标即为框图的中心点坐标；

S32：根据摄像头坐标与世界坐标系之间的关系可得：

X₁＝R₁X_W+t₁

X₂＝R₂X_W+t₂

X₂＝RX₁+T

其中X_W是世界坐标，X₁、X₂分别是左右摄像头系坐标，R₁,R₂,t₁,t₂是左右摄像头的旋转平移矩阵，由上式可得：

求得左右摄像头系的旋转矩阵R和平移矩阵T：

S33：根据摄像头坐标与世界坐标系之间的关系，求得目标的世界坐标，从而实现目标的定位：

假设目标P的坐标为(X,Y,Z)，P的左右图像坐标分别是(u₁,v₁),(u₂,v₂)，它们的投影矩阵分别是M₁和M₂，可得：

消去Z_c1和Z_c2，并转换成矩阵形式，然后用最小二乘法可以求得目标的世界坐标，从而实现目标定位。

相对于现有技术，本发明具有以下优点：

本发明在室内定位导航中对多目标进行检测定位，利用深度神经网络训练模型对多目标进行检测，并结合图像坐标系和世界坐标系之间的关系，快速实现目标的定位。识别的目标可以包括但不限于行人、狗、车等，充分利用深度学习识别目标的鲁棒性，实现双摄像头多目标快速识别以及定位。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是SSD网络结构图。

图2是双视觉成像原理图。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案，下面将结合具体的实施方式，对本发明进行详细地介绍说明。

本发明所述双摄像头室内多目标识别与定位方法，包括以下步骤：

S1，基于张氏标定法的相机内参标定；利用EPnP算法和Levenberg-Marquardt算法计算得到精确相机位姿；

S2，使用双摄像头对多目标进行数据采集，利用SSD(Single Shot MultiBoxDetector)训练多目标检测模型，得到目标以及目标在图像上的位置；

S3，利用SIFT特征把左右摄像头检测出的目标匹配，根据得到的相机位姿，求解目标在现实世界中的位置，实现目标的定位。

本实施例中，标定时，棋盘格标定板需要同时出现在左右两个摄像头中，同时由于左右两个摄像头的距离较远，为了使得标定的结果更加准确，需要找到一个较大面积的标定棋盘格，使其同时出现在左右两个较远距离摄像头的成像范围内。具体计算步骤如下：

S11：使用张氏标定法求取摄像头的内参，采用EPnP算法代替Levenberg-Marquardt算法获得相机的粗略位姿。原本的Levenberg-Marquardt为迭代运算发，运算量较大，导致计算效率较低。使用非迭代算法代替迭代算法，计算方法更简单，具有很好的实时性。且当点对数较大时，仍能使用4个虚拟控制点来求解相机位姿，大大提高计算效率。具体为：

令表示世界坐标系下的4个虚拟控制点，表示世界坐标系下的场景点，表示相机坐标系下的4个虚拟控制点，表示相机坐标系下的场景点集，则和之间有如下关系：

相应的矩阵形式为：

根据相机投影模型可得：

其中K为相机内参矩阵，(u_i,v_i,1)为场景点所对应像点的齐次坐标，w_i为比例因子，进一步表示为：

其中为虚拟控制点在相机坐标下的坐标，注意等式最后一行为将其带入上式消去w_i，并转换成线性方程组的形式为：

该方程组X的解位于矩阵A的核空间，即：

w_i为12*12的零特征值对应的特征向量，因此可求得4个虚拟控制点在相机坐标系下的坐标。

S12：将粗匹配得到的位姿作为迭代初始值，使用Levenberg-Marquardt算法获得精确地相机位姿。

如图1所示，本实施例所述SSD网络结构图，其有两部分组成，第一部分基础网络来源自经典网络VGG16，第二部分为额外的特征提取网络，在提取成特征的基础之上处理得到不同尺度的特征图，生成许多组default box进行预测分类和位置调整信息。

步骤S2具体为：

S21：网络的输入包括尺寸大小为300*300的图片以及default box，这些defaultbox有不同的大小和横纵比例。在预测阶段，通过SSD对每层的特征图做卷积操作，会对每个default box生成一个分类标签以及位置坐标的调整，卷积核设定为3*3。

S22：SSD网络的default box(也可以叫做priors)与标记好的ground truth进行一个比对，按照置信度进行排序。如果满足标准就认为这个priors是一个positive样本，否则就是negative样本。按照pos：neg＝1：3的比例，使得正负样本比例协调。

S23：进行网络训练，网络的总损失函数为：

其中g是地面实况标签，l是预测的框，N是默认匹配框的数量，c表示搜索框，L_conf和L_loc分表表示类别损失函数和位置损失函数，x的值为{0,1}，α是定位网络的权重。位置损失函数为：

这部分的位置损失只计算经过对比的正样本，即i属于positive。d是priors的w,h。g是ground truth的w,h，w,h分别代表框的宽和高。l是由特征图经过卷积计算出来的。其中smooth_L1的计算方法如下：

类别损失函数为：

这部分损失函数既考虑正样本也考虑负样本。其中如果x为1说明两者match，否则就是0。default box与某个ground truth box的交并比超过阈值0.5即为正样本，选取交并比最大的且超过阈值的那个ground truth box的标签作为这个default box的标签，之后与卷积计算出来的这个default box的标签进行交叉熵。负样本就是用0作为这个default box的标签与特征图计算出的标签进行交叉熵。

S24：训练完成后，摄像头获取的图片输入到模型，即可得到多个被框图框住的目标。

本实施例中，双摄像头(双视觉)成像原理如图2所示，步骤S3具体为：

S31:摄像头获取的图片输入到SSD训练好的模型中，检测出目标，目标被框图所标记。使用SIFT算法对左右两个摄像头中的目标进行特征提取，对提取的特征向量进行匹配。目标在图像上的坐标即为框图的中心点坐标。

S32：根据摄像头坐标与世界坐标系之间的关系可以知道：

可以求得左右摄像头系的旋转矩阵R和平移矩阵T(以左摄像头为参考坐标系)：

S33：根据摄像头坐标与世界坐标系之间的关系，可以求得目标的世界坐标，从而实现目标的定位。假设目标P的坐标为(X,Y,Z)，P的左右图像坐标分别是(u₁,v₁),(u₂,v₂)，它们的投影矩阵分别是M₁和M₂，那么下面两式

以上实施例仅用于说明本发明的优选实施方式，但本发明并不限于上述实施方式，在所述领域普通技术人员所具备的知识范围内，本发明的精神和原则之内所作的任何修改、等同替代和改进等，其均应涵盖在本发明请求保护的技术方案范围之内。

Claims

1.一种基于SSD与双摄像头的多目标识别与定位方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1中，标定时，棋盘格标定板处于左右两个摄像头的成像范围内，左右两个摄像头间隔一定距离。

3.如权利要求2所述的方法，其特征在于，步骤S1具体为：

4.如权利要求3所述的方法，其特征在于，步骤S2中：

所述SSD的网络结构包括基础网络VGG16和特征提取网络，在特征提取成功的基础上处理得到不同尺度的feature map，生成多组default box进行预测分类和位置调整信息。

5.如权利要求4所述的方法，其特征在于，步骤S2中，利用SSD训练多目标检测模型具体为：

S21：在预测阶段，通过SSD对每层的feature map做卷积操作，对每个default box生成一个分类标签以及位置坐标的调整；

S23：进行网络训练，网络的总损失函数为：

位置损失函数为：

其中，i属于positive；d是default box的w,h；g是ground truth box的w,h；w,h分别代表框的宽和高；

smooth_L1的计算方法如下：

类别损失函数为：

类别损失函数考虑正样本和负样本；

其中x为1表明两者match；

当default box与本张图像中任一ground truth box的交并比超过一个阈值，便设为候选正样本，否则为候选负样本；对于候选正样本集：选择类别loss最高的m个prior box与候选正样本集匹配，匹配不成功则删除这个正样本；对于候选负样本集：选择类别loss最高的m个prior box与候选负样本集匹配，匹配成功的则留下来作为最后的负样本，不成功剔除出候选负样本；

正样本时，选取IOU最大的且超过阈值的ground truth box的label作为该defaultbox的标签，之后与卷积计算出来的该default box的标签进行cross entropy；

6.如权利要求5所述的方法，其特征在于：步骤S3具体为：

S32：根据摄像机坐标与世界坐标系之间的关系可得：

X₁＝R₁X_W+t₁

X₂＝R₂X_W+t₂

X₂＝RX₁+T

求得左右摄像头系的旋转矩阵R和平移矩阵T：

S33：根据摄像机坐标与世界坐标系之间的关系，求得目标的世界坐标，从而实现目标的定位：