CN113850195A

CN113850195A - 一种基于3d视觉的ai智能物体识别方法

Info

Publication number: CN113850195A
Application number: CN202111135049.4A
Authority: CN
Inventors: 黄会明; 曹予飞; 尹茂; 曾敬勇; 许理; 陈伟; 车建强
Original assignee: EB INFORMATION TECHNOLOGY Ltd
Current assignee: EB INFORMATION TECHNOLOGY Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-28

Abstract

一种基于3D视觉的AI智能物体识别方法，包括：建立虚拟三维坐标系，以三维坐标系原点为中心、对称放置3个鱼眼相机，每个鱼眼相机前设置一个棋盘格标定板；从每个棋盘格标定板上选取若干角点作为特征点，获取特征点的三维坐标，并通过角点检测算法获得二维坐标，然后采用PNP算法，计算每个鱼眼相机从三维到二维空间的转换关系：旋转矩阵和平移矩阵；通过鱼眼相机的内参、旋转矩阵和平移矩阵，获得每个相机图像和三维空间的对应关系，然后将3个鱼眼相机采集图像拼接成3D视觉图像；构建并训练一个3D视觉图像识别网络，输入3D视觉图像，并将识别出的物体显示在图像上。本发明属于信息技术领域，能获得360度视场范围的场景图像，并准确识别场景中物体。

Description

一种基于3D视觉的AI智能物体识别方法

技术领域

本发明涉及一种基于3D视觉的AI智能物体识别方法，属于信息技术领域。

背景技术

物体识别是通过计算机视觉技术或者基于AI深度学习的一种判断图像中是否有特定物体的方法，包括行人、车辆、交通标志、动物等，并同时计算出物体所在的方位或者距离等信息。该技术可以与物体再识别、物体跟踪等技术相结合并应用于人工智能系统、车辆驾驶辅助系统、智能机器人、人类行为分析、智能交通和智能监控等场景。物体识别系统的研究起始于二十世纪九十年代中期。从最开始到2002年，研究者们借鉴、引入了一些图像处理、模式识别领域的成熟方法，侧重研究了物体的可用特征、简单分类算法。自2005年以来，物体识别技术的训练库趋于大规模化、检测精度趋于实用化、检测速度趋于实时化。随着高校、研究所以及汽车厂商的研究持续深入，物体识别技术得到了飞速的发展。目前物体识别方法的发展趋势为基于学习的物体检测方法，其中包括：基于AdaBoost Cascade的物体检测方法、基于SVM的物体检测方法、基于FieldModel的物体检测方法。这些方法从样本集中学习物体的不同变化，从而有很好的推广性和适用性。基于学习的物体检测可分为两类:基于物体的检测和基于物体部位的检测。例如，Viola等介绍了一种集成了图像灰度信息和运动信息的物体检测系统；NavneetDalal等提出了一个在单帧图像中用面向梯度的直方图描述物体的检测方法；Ying Wu等提出了一种新的统计模型来检测和跟踪可变形物体来识别场景中的物体；Girshic提出R-CNN检测方法，利用卷积神经网络提取图像特征，对候选框中的图像提取CNN特征之后送入SVM分类器训练，该方法在PASCAL数据集上的分类成绩超过当时任何其它方法，并且将卷积神经网络与图像局部区域提取技术相结合，借助卷积神经网络特征的学习能力，大幅度提升了目标检测的性能。

目前所有的物体识别方法都是对单副图像进行检测和识别的，在实际应用的时候单副图像的视场范围受限于相机的视场角，因此每次可以检测的范围非常有限。在很多场景中都需要全方位的进行检测，而单个摄像头视场角度有限无法覆盖所有视场范围，因此传统方法是在视场中放置多个摄像头进行同时识别，但这种方法不仅增加了系统开销，也不方便观察检测结果。

因此，如何有效获得360度视场范围的场景图像，并准确识别场景中的各种物体，已成为现有技术中亟待解决的技术问题之一。

发明内容

有鉴于此，本发明的目的是提供一种基于3D视觉的AI智能物体识别方法，能有效获得360度视场范围的场景图像，并准确识别场景中的各种物体。

为了达到上述目的，本发明提供了一种基于3D视觉的AI智能物体识别方法，包括有：

步骤一、建立虚拟三维坐标系，并以虚拟三维坐标系的原点为中心、对称的放置3个鱼眼相机，然后在每个鱼眼相机前设置一个棋盘格标定板；

步骤二、从每个棋盘格标定板上选取若干棋盘格角点作为特征点，获取这些特征点在虚拟三维坐标系下的三维坐标，并通过角点检测算法检测获得其二维坐标，然后采用PNP算法，利用每个鱼眼相机前的棋盘格标定板上的所有特征点的三维坐标和二维坐标，计算每个鱼眼相机从三维空间到二维空间的转换关系：旋转矩阵R_n和平移矩阵T_n，其中，n的值是1、2或3，R_n、T_n分别是第n个鱼眼相机的旋转矩阵、平移矩阵，R_n、T_n的计算公式如下：

(u_i，v_i)是第i个特征点的二维坐标，(x_i，y_i,z_i)是第i个特征点的三维坐标，K_n是第n个鱼眼相机的内参，

f_u、f_v分别是鱼眼相机在图像的横轴和纵轴上的基于像素的焦距，u₀、v₀是鱼眼相机的主点在相机物理坐标系下的二维坐标；

步骤三、通过3个鱼眼相机的内参、旋转矩阵和平移矩阵，将3个相机统一到虚拟三维坐标系中，从而获得每个相机的图像和虚拟的三维空间之间的一一对应关系，然后根据所述对应关系将3个鱼眼相机采集的图像拼接成一个完整的360度范围的图像，即3D视觉图像；

步骤四、基于深度学习的方法，构建、并训练一个3D视觉图像识别网络，其输入是3D视觉产生的360度范围的图像数据，输出是从输入的3D视觉图像中识别出的物体信息，然后将步骤三获得的3D视觉图像输入训练后的3D视觉图像识别网络中，并将输出结果显示在3D视觉图像上。

与现有技术相比，本发明的有益效果是：本发明所使用的硬件是多个鱼眼相机，主要的技术点包括鱼眼相机的标定和坐标系的统一以及图像到3D视觉的虚拟三维坐标的映射，3D视觉主要作用是使用多个鱼眼相机一般至少3个即可以达到360度的视场覆盖，从而可以实现在一个点位即可观察360度视场范围的场景内容；在获得360度视场范围图像之后，本发明再根据深度学习算法对采集的图像进行物体识别，将每个相机的识别结果统一到3D视觉图像上，这样即可实现360度无死角的识别能力。

附图说明

图1是本发明一种基于3D视觉的AI智能物体识别方法的流程图。

图2是虚拟三维空间的示意图。

图3是本发明在虚拟三维坐标系中放置鱼眼相机和棋盘格标定板的一个实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于3D视觉的AI智能物体识别方法，包括有：

步骤一、建立虚拟三维坐标系，并以虚拟三维坐标系的原点为中心、对称的放置3个鱼眼相机，其中每两个鱼眼相机之间的距离均相等，然后在每个鱼眼相机前设置一个棋盘格标定板；

图2是虚拟三维空间的示意图，如图2所示，三维空间上的每个三维点可以对应到某个相机的图像上，相当于每个像素点都对应到一个三维点。图3是本发明在虚拟三维坐标系中放置鱼眼相机和棋盘格标定板的一个实施例的示意图，如图3所示，本发明采用基于棋盘格的方式来标定每个相机的外参数，每个棋盘格都对应虚拟三维空间的一个具体三维坐标。建立场地的三维坐标系C(X,Y,Z)，根据棋盘格角点在坐标系C下的坐标，建立所有棋盘格角点的三维坐标。三维坐标系建立完成之后可以推导出三维点到图像点的映射关系，首先是三维点到畸变矫正图像的映射关系，然后是畸变矫正图像到鱼眼相机的映射关系。设空间一点P(x,y,z)，对应的在畸变矫正图像上的二维点为：(u′,v′)＝f₁(x,y,z)，对应的鱼眼图像坐标点p(u′,v′)与畸变矫正后的图像点p(u,v)坐标关系为：(u,v)＝f₂(u′,v′)，最后三维点到鱼眼图像二维坐标的映射关系(u,v)＝f₂(f₁(x,y,z))；

在虚拟三维空间中已知相机内参的情况下只需要计算三维坐标到二维坐标的映射关系对应的旋转矩阵R和平移矩阵T，就可以获得三维空间到图像的变换关系。设定棋盘格标定板平面上的角点在虚拟三维空间中的坐标为已知，标定板与相机之间对应的关系为一个旋转矩阵R和一个平移矩阵T。已知棋盘格上某个特征点在虚拟三维空间的三维坐标为(X_i，Y_i，Z_i)，通过角点检测算法检测出来的二维坐标为(u_i，v_i),于是可以写成A_i＝MP_i，其中，

设

为已知的内参数；

为待求的相机外参数，于是上式改写为A_i＝K[P，T]P_i＝KXP_i，其中X为需要求解的未知变量。对上述问题的求解可以使用PNP算法来实现，PNP算法用来实现已知平面三维坐标确定摄像头相对世界坐标系的平移和旋转矩阵。这类问题最终都是解线性方程组AX＝b的问题，就是要最小化所有误差的平方和即最小二乘，如公式ε为调整误差

t是特征点数，根据此式计算出相机三维空间到相机二维的转换关系R和T，根据这个转换关系可以求出虚拟三维平面上其他点到二维图像的映射，从而确定三维空间到鱼眼矫正后图像的映射关系(u,v)＝f₂(f₁(x,y,z))；

步骤三、通过3个鱼眼相机的内参、旋转矩阵和平移矩阵，将3个相机统一到虚拟三维坐标系中，从而获得每个相机的图像和虚拟的三维空间之间的一一对应关系，然后根据所述对应关系将3个鱼眼相机采集的图像拼接成一个完整的360度范围的图像，即3D视觉图像，其采集图像的范围可以覆盖场景中的360度范围信息；

步骤四中，首先构建用于从3D视觉图像中识别物体的深度学习网络模型，即3D视觉图像识别网络，网络模型训练的输入为3D视觉产生的360度范围的图像数据，然后对图像数据中需要识别的物体如车辆、行人、路灯等进行标注，再将标注好的图像和物体标签作为训练样本输入网络模型中进行训练，从而获得最终训练后的3D视觉图像识别网络，最后将步骤三得到的3D视觉图像输入训练后的3D视觉图像识别网络中进行识别，并在3D视觉图像上标记出所识别出的物体的方位和类别等信息。

本发明中的3D视觉图像识别网络可以由24层卷积层、4个最大池化层和2个全连接层组成，最后的输出是7x7x30，其中，7x7代表输入图像的7x7栅格，30的前10个代表2个包围盒的坐标以及对象的置信度，后20个代表VOC(英文全称即Visual Object Classes)数据集的20个类别。每个grid有30维，这30维中，8维是回归盒的坐标，2维是包围盒的置信度，还有20维是类别，图像坐标对应网格的偏置量归一化到0-1之间，图像的宽度和高度也归一化到0-1之间，为了让这三个方面得到很好的平衡，本发明采用了平方和损失模型作为损失函数来进行处理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于3D视觉的Al智能物体识别方法，其特征在于，包括有：

(u_i，v_i)是第i个特征点的二维坐标，(x_i，y_i，z_i)是第i个特征点的三维坐标，K_n是第n个鱼眼相机的内参，

2.根据权利要求1所述的方法，其特征在于，步骤四中，首先构建用于从3D视觉图像中识别物体的深度学习网络模型，即3D视觉图像识别网络，网络模型训练的输入为3D视觉产生的360度范围的图像数据，然后对图像数据中需要识别的物体进行标注，再将标注好的图像和物体标签作为训练样本输入网络模型中进行训练，从而获得最终训练后的3D视觉图像识别网络，最后将步骤三得到的3D视觉图像输入训练后的3D视觉图像识别网络中进行识别，并在3D视觉图像上标记出所识别出的物体的方位和类别信息。

3.根据权利要求1所述的方法，其特征在于，3D视觉图像识别网络由24层卷积层、4个最大池化层和2个全连接层组成，最后的输出是7x7x30，其中，7x7代表输入图像的7x7栅格，30的前10个代表2个包围盒的坐标以及对象的置信度，后20个代表VOC数据集的20个类别，每个grid有30维，这30维中，8维是回归盒的坐标，2维是包围盒的置信度，还有20维是类别，图像坐标对应网格的偏置量归一化到0-1之间，图像的宽度和高度也归一化到0-1之间，并采用平方和损失模型作为损失函数来进行处理。