CN110969064B

CN110969064B - 一种基于单目视觉的图像检测方法、装置及存储设备

Info

Publication number: CN110969064B
Application number: CN201811158989.3A
Authority: CN
Inventors: 刘树明
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2023-10-27
Anticipated expiration: 2038-09-30
Also published as: CN110969064A

Abstract

本申请公开了一种基于单目视觉的图像检测方法、装置及存储设备，该方法包括：利用输出为车辆类型的第一神经网络模型获得基于单目视觉的图像中车辆的类型；根据获得的车辆的类型，利用输出为三维尺寸偏差的第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差；根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标。本申请能够取得的有益效果在于，获得目标车辆的3D深度信息，可以为驾驶的车辆提供更多的周围环境的信息，以便驾驶的车辆更加快速的做出判断。

Description

一种基于单目视觉的图像检测方法、装置及存储设备

技术领域

本申请涉及人工智能、自动驾驶领域，尤其是涉及一种基于单目视觉的图像检测方法、装置及存储设备。

背景技术

对于自动驾驶的汽车来说，理解周围交通场景是至关重要的。现有技术中，大家都是基于2D图像进行车辆的检测与识别，使用深度学习与机器学习的方法来进行车辆的识别和定位。通过对图像中的车辆进行标注，获得车辆在图像像素坐标系中的位置，生成label(标签)。通过大量标注的图像信息(即训练集)，运用深度学习的方法，使用神经网络进行训练得到最终的模型。在检测时，使用训练好的模型来对待检测图片进行检测，获得图片中的目标类别以及其位置信息。现有基于图像的车辆识别与检测，只能检测出车辆在图像中的位置，即车辆在像素坐标系中的位置，而对于自动驾驶来说，仅确定车辆在图像中的位置是不够的，更需要获取车辆在相机中的位置、车辆的尺寸以及其姿态，这些信息对于自动驾驶的车辆来说是至关重要的。现在的方法并没有基于2D图像的车辆检测来获取车的尺寸和位姿信息，更多的是采用双目视觉或其他的三维视觉方法来获得。本发明解决了基于单目视觉在2D车辆检测的基础上，获得车辆的尺寸、位姿信息的问题。

发明内容

本申请实施例提供一种基于单目视觉的图像检测方法、装置及存储设备。解决了基于单目视觉在2D车辆检测的基础上，获得车辆的尺寸、位姿信息的问题。

本申请提供了一种基于单目视觉的图像检测方法，该方法包括：

利用输出为车辆类型的第一神经网络模型获得基于单目视觉的图像中车辆的类型；

根据获得的车辆的类型，利用输出为三维尺寸偏差的第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差；

根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标。

本申请还提供了一种辅助驾驶系统，所述辅助驾驶系统通过所述的基于单目视觉的图像检测方法获取到车辆距离摄像机的距离，用于车道保持、自动泊车、刹车和倒车中的至少一者。

本申请还提供了一种存储设备，其上存储有程序数据，所述程序数据用于被处理器执行时实现基于单目视觉的图像检测方法。

本申请还提供了一种基于单目视觉的图像检测装置，该装置包括：

存储设备，用于存储程序数据；

处理器，用于执行所述存储设备中的程序数据以实现基于单目视觉的图像检测方法。

与现有技术相比，本申请能够取得的有益效果在于，单目图像获得目标车辆的3D深度信息，可以为驾驶的车辆提供更多的周围环境的信息，以便驾驶的车辆更加快速的做出判断。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种基于单目视觉的图像检测方法实施例的流程示意图；

图2为本申请提供的一种基于单目视觉的图像检测方法实施例以车辆底部中央为原点建立的世界坐标系；

图3为本申请提供的一种基于单目视觉的图像检测方法实施例中车辆在图像中的3D框；

图4为本申请提供的一种基于单目视觉的图像检测方法实施例的流程示意图；

图5为本申请提供的一种基于单目视觉的图像检测装置实施例的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请提供的一种基于单目视觉的图像检测方法实施例的流程示意图，该流程示意图包括：

步骤105，利用输出为车辆类型的第一神经网络模型获得基于单目视觉的图像中车辆的类型；

对于汽车类型的识别可以基于神经网络模型来实现。神经网络模型得到了广泛的研究和应用，已经有一些比较成熟的产品，ResNet-101神经网络模型、VGG16神经网络模型等。在实际使用的过程中，可以根据预测的参数对这些成熟的神经网络模型进行适应性的修改，以符合设计的需要。在本实施例中，对图像中的车辆进行标注，获得车辆类型；将类型作为训练数据的标签值；按照需要输出的数据对神经网络输出层进行适应性地修改，使其输出为车辆类型；将图像与标签值同时输入设计和修改后的神经网络中进行训练，得到第一神经网络模型，可以用在行进的车辆上实时对图像进行处理。可选地，还可以将车辆在图像像素坐标系中的位置进行标注作为训练数据的标签，对神经网络输出层进行适应性地修改，使其输出为车辆在图像像素坐标系中的位置，并利用标注的数据和原始的图像进行训练，得到第四神经网络模型。

例如，一辆自动驾驶车辆A行驶在公路上，车辆A前端带有车载摄像头。车辆A的前方有一辆车辆B。车辆A上的车载摄像头对车辆B实时拍照。将拍摄的车辆B照片图像输入到第一神经网络模型中，得到车辆B的类型为汽车。

可选地，在本实施例中，修改神经网络的输出层，使其输出为车辆的二维坐标，得到第四神经网络模型。进一步地，通过第四神经网络模型得到车辆B在图像像素坐标系中的二维坐标(车辆B在图像中的2D框的四个顶点在图像像素坐标系中的2D坐标)。车辆B在图像像素坐标系中的二维坐标可用于计算车辆B在摄像机坐标系下的位置T

步骤110，根据获得的车辆的类型，利用输出为三维尺寸偏差的第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差；

在本实施例中，对图像中的车辆尺寸信息进行标注，获得车辆的三维尺寸[h,w,l]；分别统计不同类型车辆的三维尺寸[h,w,l]的均值；计算各类型车辆的三维尺寸与均值之间的偏差，将此偏差作为训练数据的标签值；按照需要输出的数据对神经网络输出层进行适应性地修改，使其输出为三维尺寸偏差；将图像与标签值同时输入设计和修改后的神经网络中进行训练，得到第二神经网络模型。以设计和修改卷积神经网络VGG16结构为例，修改FC层，使其输出为三个偏差，损失函数使用L2损失；将图像进行预处理，裁剪成224X224大小；将预处理后的图像与标签值同时输入设计和修改后的卷积神经网络VGG16中进行训练，获得第二神经网络模型。真实尺寸(三维尺寸)值比较大，在模型训练的过程中，会引起梯度爆炸，模型不能收敛。偏差值较小可以快速的收敛，因此选取偏差值作为模型训练的输入。

进一步地，将拍摄的汽车B照片图像输入到第二神经网络模型，得到汽车B长、宽、高对应的三个偏差值。

步骤115，根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标。

可选地，预先设置的该类型车辆的数据包括该类型车辆的三维尺寸均值。

可选地，根据所述车辆的三维尺寸偏差以及该类型车辆的三维尺寸均值获得所述车辆的三维尺寸；以所述车辆底部中央为原点，建立世界坐标系，如图2所示，获得所述车辆在世界坐标系的三维坐标。

进一步地，将汽车B长、宽、高对应的三个偏差值与汽车B所属类型的长、宽、高的均值相加得到汽车B的三维尺寸；在已获取汽车B的三维尺寸的情况下，以汽车B底部中央为原点，原点坐标为(x0,y0,z0)，建立汽车B的世界坐标系，则可获得八个顶点的三维坐标。

在本实施例中，对图像中的车辆朝向角度信息进行标注，获得车辆的旋转角度；将标注的旋转角度作为训练数据的标签值；设计和修改神经网络ResNet-101结构的输出层，使其输出为角度值；将图像进行预处理，裁剪成224X224大小；将预处理后的图像与标签值同时输入设计和修改后的卷积神经网络ResNet-101中进行训练，获得第三神经网络模型。

在训练第三神经网络模型时，将连续的角度[0°，360°]离散化，进行8等分，即若以0°为起始角度时，8等分的角度为[0°、45°、90°、135°、180°、225°、270°、315°、360°]。为了能够更精确的获得汽车的角度值，采用不同的起始角度来进行训练。采用9个不同的起始角度值，即0°、5°、10°、15°、20°、25°、30°、35°、40°。因此，角度的分类任务可以分为9个不同起始角度值的分类任务，每个分类任务包含8类子分类任务，共72个分类任务。在进行训练时，可以将起始角度值0°、5°、10°、15°、20°、25°、30°、35°、40°与等分后角度范围的起始角度0°、45°、90°、135°、180°、225°、270°、315°分别相加，在每个等分为45度的角度区间内训练，可以形成72个分类任务。

可选地，将拍摄的汽车B照片图像输入到第三神经网络模型，得到汽车B的旋转角度。具体而言，可以通过如下步骤实现：

利用第三神经网络模型预测汽车B的待测旋转角度与各个角度范围之间的概率值；

将概率值与第三神经网络模型的核函数相乘得到各个旋转角度；

将各个旋转角度中的最大值作为基于单目视觉的图像中车辆的旋转角度。

使用第三神经网络模型时，由于存在72个角度范围，可以计算出72个概率值，计算概率值与核函数的乘积作为角度值，取最大的角度值作为汽车B的旋转角度。根据汽车B的旋转角度计算汽车B在摄像机坐标系下的位置T

在本实施例中，将连续角度离散化，将其做为分类任务，能够提高预测的精度。

可选地，根据以下公式计算车辆在摄像机坐标系下的位置T(位置T坐标为(x1,y1,z1))：

x＝K[RT]X₀；

其中，x为图像中汽车B的二维坐标，K为预置的相机内参矩阵，R为汽车B的旋转角度构成的旋转矩阵，X₀为汽车B在世界坐标系的三维坐标。其中图像中汽车B的二维坐标可以在对车辆类型进行预测时，同时实现对车辆二维坐标的预测。

在本实施例中，根据汽车B在摄像机坐标系下的位置T坐标(x1,y1,z1)以及世界坐标系的原点坐标(x0,y0,z0)得到汽车B距离摄像机的距离。根据汽车B距离摄像机的距离进行自动驾驶。车辆A可以根据这个距离更加快速地做出判断，确定是否有必要采取紧急制动措施。

与现有技术相比，本实施例能够取得的有益效果在于，通过一个摄像头即可得到周围行驶的汽车的尺寸、位置信息，以便车辆行驶时，更加快速地做出判断。

图4为本申请提供的一种基于单目视觉的图像检测方法实施例的流程示意图，该流程示意图包括：

步骤405，获取待检测图像；

步骤410，2D模型检测图像中的车辆，获得车辆的2D坐标；

步骤415，3D模型尺寸预测，获得车辆的真实尺寸；

步骤420，3D模型角度预测，获得车辆的旋转角度；

步骤425，计算车辆在摄像机坐标系下的位置；

步骤430，通过投影变换，将车辆在摄像机坐标系下的位置映射到2D图像中，获得3D框。

在现实世界中，3D目标的固有属性包括6个自由度的位姿以及尺寸，这些信息对于自动驾驶的车辆来说至关重要。目前，大多数的目标检测与识别都是基于2D图像来实施的，而且目前的2D目标检测方法比较成熟，能够更好的利用现有的2D目标检测方法来实现对3D目标的位姿和尺寸的估计，更好的为自动驾驶的车辆提供更多的信息。

首先，为了能够获得3D目标的真实尺寸，即待检测车辆的长、宽、高，通过卷积神经网络(Convolutional Neural Networks,CNNs)的方法来获取。针对特定类别的车辆，如汽车(cars)，卡车(trucks)，客车(buses)等，其实际尺寸满足低方差单峰分布。设计和修改卷积神经网络结构，如VGG16等，损失函数使用L2loss。在准备训练数据的标签时，统计目标的真实尺寸并统计其均值和方差，计算真实尺寸与均值之间的偏差，将此偏差作为训练数据的标签。

为了预测汽车的三维尺寸，首先是采取图像，然后对图像中车辆的尺寸信息进行标注，获得车辆的三维尺寸[h,w,l]，然后分别统计[h,w,l]的均值，计算各车辆尺寸与均值之间的偏差(即：相减得到的数值)，将此偏差作为训练数据的标签值。设计网络结构，如VGG16，修改FC层，使其输出个数为三个，损失函数使用L2损失，将图片进行预处理，如裁剪成224X224大小，将图片与标签同时输入网络中进行训练，获得预测车辆尺寸的网络模型，即步骤415中的3D模型。

其次，预测3D目标在摄像机坐标系下的姿态，即待检测车辆的旋转角度。针对待检测车辆的旋转角度，增加几何约束来更准确的预测车辆的角度：(1)待检测车辆始终在路面之上，约束待检测车辆的俯仰、翻滚两个自由度；(2)待检测车辆始终是直立的，符合现实世界车辆的姿态。在预测车辆的角度的时候，因为角度是连续的，不便于直接预测，所以将连续的角度离散化，将连续的角度([0°，360°])分别以5°为起始角度8等分，即(0°、45°、90°、…、315°)，(5°、50°、95°、…、320°)，…,(40°、85°、130°、…、355°)。这就将预测连续角度的任务分为8个独立的分类的任务。同样使用卷积神经网络的结构，如ResNet-101，修改最后的输出层，使其输出为8个。使用准备好的训练数据进行训练获得最终的预测模型。

同样是标注图像中车辆的朝向角度，将标注的角度作为标签值，输入网络中进行训练，获得预测角度的网络模型，即步骤420中的3D模型。

最后，计算3D目标在摄像机坐标系下的位置，即检测车辆在摄像机坐标系下的三维坐标。通过上述方法对待检测车辆的真实尺寸以及旋转角度的预测，获得待检测车辆的尺寸、角度，通过透射投影变换以及待检测车辆在图像中的2D坐标，计算得到车辆在摄像机坐标系下的三维坐标。透射投影变换矩阵：

x＝K[RT]X₀

其中，x为2D图像中的坐标，K为预置的相机内参矩阵，[R T]为预测的待检测车辆的角度R和在摄像机坐标系下的位置，X₀为三维坐标。

根据透射投影变换矩阵：x＝K[RT]X₀，当一张图片输入进来的时候，经过尺寸网络模型进行预测，产生汽车的尺寸偏差值，然后将此偏差值与统计得到的汽车尺寸均值相加即得到该汽车的尺寸值，建立汽车的坐标系，如下图所示，坐标系远点在汽车底部中央，则可获得八个定点的三维坐标，如1点X1＝(x1,0,z1)，汽车尺寸值即可得到8个顶点的三维坐标值。

同样，经过角度预测的网络模型，可以输出汽车的角度值。根据透射投影变换矩阵可以构建线性方程组，求得T，即汽车的位置，即步骤425。

最终即可获得汽车的尺寸、位置、姿态。

为了能够在图片中更好的显示，将3D框画到图像中，如图3所示，即步骤430。

进一步地，可以直接设计网络，如将汽车在图像中的坐标以及其3D固有属性值作为模型训练的标签值，然后进行训练。最终就是输入一张图片即可获得汽车2D坐标值，也可获得3D坐标值。网络模型的设计，可以使用现在比较流行的网络结构，如VGG，ResNet等。

在本实施例中，公路上自动驾驶车辆A上的前方车载摄像头实时对前方车辆B进行拍照，获取到步骤405中的待检测图像；待检测图像输入到2D模型中，获得到车辆B在图像像素坐标系中的2D坐标，即步骤410；待检测图像输入到3D模型中，得到车辆B的真实尺寸，即步骤415；待检测图像输入到3D模型中，得到车辆B的旋转角度，即步骤420；以车辆B底部中央为原点，原点坐标为(x0,y0,z0)，建立车辆B的世界坐标系，根据车辆B的真实尺寸，获得八个顶点的三维坐标；根据公式x＝K[RT]X₀得到车辆B在摄像机坐标系下的位置T，坐标为(x1,y1,z1)，其中，x为图像中车辆B的二维坐标，K为预置的相机内参矩阵，R为车辆B的旋转角度构成的旋转矩阵，X₀为车辆B在世界坐标系的三维坐标，即步骤425；根据车辆B在摄像机坐标系下的位置T坐标(x1,y1,z1)以及世界坐标系的原点坐标(x0,y0,z0)得到车辆B距离摄像机的距离；通过投影变换，将车辆B在摄像机坐标系下的位置映射到2D图像中，获得3D框，如图3所示。

本申请还提供了一种存储设备，其上存储有程序数据，所述程序数据用于被处理器执行时，实现利用输出为车辆类型的第一神经网络模型获得基于单目视觉的图像中车辆的类型；根据获得的车辆的类型，利用输出为三维尺寸偏差的第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差；根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标。

图5为本申请提供的一种基于单目视觉的图像检测装置实施例的结构示意图，该结构示意图包括：存储设备505和处理器510；

所述存储设备505，用于存储程序数据；

所述处理器510，用于执行所述存储设备中的程序数据以实现利用输出为车辆类型的第一神经网络模型获得基于单目视觉的图像中车辆的类型；根据获得的车辆的类型，利用输出为三维尺寸偏差的第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差；根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于单目视觉的图像检测方法，其特征在于，该方法包括：

将车辆照片图像输入到第一神经网络模型中，利用输出为车辆类型的所述第一神经网络模型获得基于单目视觉的图像中车辆的类型；

将所述车辆照片图像输入到第二神经网络模型中，根据获得的车辆的类型，利用输出为三维尺寸偏差的所述第二神经网络模型获得基于单目视觉的图像中车辆的三维尺寸偏差，所述车辆的三维尺寸偏差包括：所述车辆的三维尺寸与所述车辆的对应类型车辆的三维尺寸均值之间的偏差；

根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标；所述预先设置的该类型车辆的数据包括该类型车辆的三维尺寸均值。

2.根据权利要求1所述的基于单目视觉的图像检测方法，其特征在于，所述根据所述车辆的三维尺寸偏差以及预先设置的该类型车辆的数据获得所述图像中车辆在世界坐标系的三维坐标包括：根据所述车辆的三维尺寸偏差以及该类型车辆的三维尺寸均值获得所述车辆在世界坐标系的三维坐标。

3.根据权利要求2所述的基于单目视觉的图像检测方法，其特征在于，所述根据所述车辆的三维尺寸偏差以及该类型车辆的三维尺寸均值获得所述车辆在世界坐标系的三维坐标包括：

根据所述车辆的三维尺寸偏差以及该类型车辆的三维尺寸均值获得所述车辆的三维尺寸；

以所述车辆底部中央为原点，建立世界坐标系，获得所述车辆在世界坐标系的三维坐标。

4.根据权利要求3所述的基于单目视觉的图像检测方法，其特征在于，该方法还包括：

将车辆照片图像输入到第三神经网络模型中，利用输出为旋转角度的所述第三神经网络模型获得基于单目视觉的图像中车辆的旋转角度；

将车辆照片图像输入到第四神经网络模型中，利用输出为车辆的二维坐标的所述第四神经网络模型获得所述图像中车辆的二维坐标；

根据所述图像中车辆的二维坐标、所述图像中车辆在世界坐标系的三维坐标、所述图像中车辆的旋转角度以及预置的相机内参矩阵计算所述车辆在摄像机坐标系下的位置T。

5.根据权利要求4所述的基于单目视觉的图像检测方法，其特征在于，所述将车辆照片图像输入到第三神经网络模型中，利用输出为旋转角度的第三神经网络模型获得基于单目视觉的图像中车辆的旋转角度包括：

利用所述第三神经网络模型预测车辆的待测旋转角度与各个角度范围之间的概率值；

将所述概率值与所述第三神经网络模型的核函数相乘得到各个旋转角度；

将所述各个旋转角度中的最大值作为所述图像中车辆的旋转角度。

6.根据权利要求5所述的基于单目视觉的图像检测方法，其特征在于，所述计算所述车辆在摄像机坐标系下的位置T包括：

根据以下公式计算所述车辆在摄像机坐标系下的位置T：

；

其中，x 为所述图像中车辆的二维坐标，K为预置的相机内参矩阵，R为所述车辆的旋转角度构成的旋转矩阵，为所述车辆在世界坐标系的三维坐标。

7.根据权利要求6所述的基于单目视觉的图像检测方法，其特征在于，所述方法还包括：根据所述车辆在摄像机坐标系下的位置T以及世界坐标系的原点得到所述车辆距离摄像机的距离。

8.一种辅助驾驶系统，其特征在于，所述辅助驾驶系统通过权利要求7所述的基于单目视觉的图像检测方法获取到车辆距离摄像机的距离，用于车道保持、自动泊车、刹车和倒车中的至少一者。

9.一种存储设备，其上存储有程序数据，其特征在于，所述程序数据用于被处理器执行时实现权利要求1-7中任一项所述的基于单目视觉的图像检测方法。

10.一种基于单目视觉的图像检测装置，其特征在于，该装置包括：

存储设备，用于存储程序数据；

处理器，用于执行所述存储设备中的程序数据以实现权利要求1-7任一项所述的基于单目视觉的图像检测方法。