CN111292366B

CN111292366B - 一种基于深度学习和边缘计算的视觉行车测距算法

Info

Publication number: CN111292366B
Application number: CN202010094884.7A
Authority: CN
Inventors: 高振国; 陈益峰; 陈丹杰; 蔡绍滨; 张忆文; 胡凌岳; 王田; 何霆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2023-03-10
Anticipated expiration: 2040-02-17
Also published as: CN111292366A

Abstract

本发明涉及智能汽车的自动驾驶领域，尤其涉及一种基于深度学习和边缘计算的视觉行车测距算法，包括以下步骤：S1、构建带行车测距数据集并进行标注；S2、利用构建的标准数据集，生成适用于行车测距的深度模型；S3、联合边缘设备和传感设备自动对网络进行分割加速推断；S4、用测试数据集进行实验，预测行车距离，本发明使用单目摄像头采集行车数据集，节省了成本。且通过多种数据增强的方法对数据集进行了有效扩充，不仅增加了数据量，有效避免了网络过拟合，提高了行车测距的准确率。

Description

一种基于深度学习和边缘计算的视觉行车测距算法

技术领域

本发明涉及智能汽车的自动驾驶领域，尤其涉及一种基于深度学习和边缘计算的视觉行车测距算法。

背景技术

车辆检测和测距是智能汽车对周边环境感知的重要内容之一，也是在日益复杂的道路环境中保证车辆安全的有效措施。对车辆识别与测距关键技术的研究有利于以预警的方式使驾驶员迅速察觉到潜在的危险，或系统直接对车辆进行控制以提高行车安全。准确的距离测量也有利于车辆实现协同定位，提高定位精度，实现智能汽车车距保持、安全变道、碰撞预警等。同时，无人驾驶车辆需要在有限的时间内做出决策，规避障碍，否则将造成难以预计的后果。

在智能汽车中占据重要地位的视觉测距算法主要包含基于单目视觉的测距方法和基于立体视觉的测距方法。

单目视觉测距即利用单一摄像头实现测距，整体结构较立体视觉的方式更简单。Haris提出了基于边缘复杂度的单目测距方式，基于改进的MoZAK统计方法计算边缘复杂度，根据目标在不同距离的边缘复杂度不同实现测距，在背景复杂情况下效果较差。Firouzi提出了一种基于单目视觉的测距和跟踪算法,推导了获取深度的公式，利用图像从三维到二维的变换获取深度信息，该算法可以基于目标位置反馈调整，动态跟踪目标和估计距离。Wang提出了基于透视投影几何关系模型和摄像机标定获取内部参数的测距算法，该类算法也被后来大多数人采用。Parmar在经典卷积神经网络的基础上添加距离估计层来获得到目标车辆的距离，从而实现在高速公路场景中的车辆检测、分类和测距。Huang提出基于语义分割结合姿态角估计的方法，建立2维矢量几何模型，根据相机原理计算前方车辆距离，有效解决了侧前方车辆测距问题。

基于立体视觉的测距方法以双目视觉为研究重点，采用立体匹配算法,寻找左右视图的对应点，从而根据双目视差和相机参数计算得到对应的距离，该类算法可以分为局部匹配算法，特征匹配算法和全局匹配算法。由于双目匹配的计算量大，校准繁琐，标定误差大，复杂环境中匹配困难等因素的影响，目前采用更节省成本的单目视觉测距是更为合理的方式。

如今深度学习技术带来的高准确性促进了无人驾驶车辆系统在目标检测、决策、传感器应用等多个核心领域的发展。深度学习技术，典型的如卷积神经网络(Convolutional Neural Network，CNN)，目前广泛应用于各类图像处理中，非常适用于无人驾驶领域。其训练测试样本是从廉价的摄像机中获取的，这种使用摄像机取代雷达从而压缩成本的方法广受关注基于深度学习的方法可以实现端到端训练，卷积神经网络的泛化能力强，检测效果好，但是需要大规模数据集支撑网络训练，计算开销大，难以达到实时性。

一方面，汽车行业是一个特殊的行业，因为涉及到乘客的安全，任何事故都是不可接受的，所以对于安全性、可靠性有着近乎苛刻的要求。因此在研究无人驾驶的过程中，对于传感器、算法的准确性和鲁棒性有着极高要求。另一方面，无人驾驶车辆需要在有限的时间内做出决策，规避障碍，否则将造成难以预计的后果。但是，由于基于深度学习网络(DeepNeural Network，DNN)的应用程序通常需要大量的计算，当今的移动设备无法很好地支持它们(在合理的延迟和能耗约束下)。为了应对DNN的过多资源需求，传统智慧采用强大的云数据中心来训练和评估DNN。从移动设备生成的输入数据被发送到云进行处理，然后在推断之后将结果发送回移动设备。然而，利用这种以云为中心的方法，大量数据(例如，图像和视频)通过长广域网数据传输上传到远程云，导致移动设备上大的端到端延迟和能量消耗。为了缓解以云为中心的方法的延迟和能量瓶颈，更好的解决方案是利用新兴的边缘计算范例。具体地，通过将云的能力从网络核心推送到紧邻设备的网络边缘(例如，基站和WiFi接入点)，边缘计算实现低延迟和高效能的DNN推断。

随着时代发展，车辆的行车环变得更加复杂，传统的测距方法如：基于车辆宽度的测距方法、基于双目视差模型的测距方法等，存在鲁棒性、实用性差等缺点。如今，深度学习发展非常迅速，但计算开销大，难以达到实时性。如何利用大量的数据集减少自动测距成本、并提高鲁棒性和实用性，在要求时延条件下保证更高的准确率是非常重要的。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于深度学习和边缘计算的视觉行车测距算法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于深度学习和边缘计算的视觉行车测距算法，包括以下步骤：

S1、构建带行车测距数据集并进行标注

用单目摄像头采集不同场景下行车的视频图像，对数据集进行扩充，构建行车测距标准数据集，对图像数据进行标注包含语义、深度标注信息；

S2、利用构建的标准数据集，生成适用于行车测距的深度模型

利用行车测距数据集对深度模型进行微调，训练引入提前退出点机制的语义分割网络，使模型适应数据集；

S3、联合边缘设备和传感设备自动对网络进行分割加速推断

使用数据集对模型进行实验，利用线性回归模型对延迟进行预测，在给定的延时和带宽要求下自动分割网络，使得准确率更高；

S4、用测试数据集进行实验，预测行车距离

利用测试数据集对模型进行检测，结合边缘设备与传感设备的输出结果，计算得到行车的距离。

优选的，步骤S1中：构建行车测距数据集，并进行标注，主要包含以下三个部分：

A1、使用单目镜头采集各种场景下的行车视频图像：包含不同车型、不同距离、不同天气以及一天中不同时间段，使得构建的数据集具有复杂性、多样性；

A2、扩充采集的数据集，减少模型的拟合，可以通过图像水平翻转、尺度变换、旋转或者色彩抖动；

A3、对行车测距数据集进行标注，标注信息包括视频图像中各个像素的所属类别和对应的深度信息，类别标注中1-11为种行车过程中常见物体，12为其他物体，深度标注包含图像中像素距离摄像头的距离，可以用双目相机标定或者红外激光采集获得。

优选的，步骤S2中：利用构建的行车测距数据集，生成适用于行车测距的深度模型：

通过S1中标注完成的行车测距数据集，对深度模型进行训练，其中深度预测模型SfmNet的核心由depthcnn和posecnn组成，前者用于预测深度，后者用于辅助无监督训练，语义分割模型SegNet由vgg网络构成包括编码和解码结构，用于生成场景的语义分割图，对其引入提前退出机制，在给定延时和带宽要求下，加速深度模型的推断，保证更高的准确率。

优选的，步骤S3中：联合边缘设备和传感设备，自动对网络进行分割加速推断：

B1、使用数据集对模型进行实验，利用线性回归模型对深度模型在设备运行延时进行预测；

B2、在给定的延时和带宽要求下，自动将模型分割到边缘设备和传感设备，加速网络的推断，同时确保更高的准确率。

优选的，步骤S4中：用测试数据集进行实验，预测行车距离

C1、在给定延时和带宽下，将测试数据集输入语义分割模型和深度预测模型，深度模型将输出语义分割结果和深度预测结果；

C2、找出语义分割结果中的汽车对象，筛选汽车的像素点，计算其对应深度预测结果中所有像素的平均深度作为最终深度。

本发明的有益效果是：

1、本发明使用单目摄像头采集行车数据集，节省了成本，且通过多种数据增强的方法对数据集进行了有效扩充，不仅增加了数据量，有效避免了网络过拟合，提高了行车测距的准确率。

2、本发明利用深度学习的网络模型，解决了手动提取图像特征的不足，且不需要人工相机标定、道路建模、俯仰角测量等复杂的建模过程，测距结果更具鲁棒性和实用性。

3、本发明联合边缘设备和传感设备，自动对网络进行分割加速推断，在给定延时和带宽要求下具有更高的准确率。

附图说明

图1为基于深度学习和边缘计算的视觉行车测距算法流程图；

图2为基于深度学习和边缘计算的视觉行车测距算法详细流程图；

图3为SfmNet核心网络结构图；

图4为SegNet网络结构图；

图5为引入提前退出机制的SegNet网络结构；

图6为网络自动分割算法。

具体实施方式

本发明所公开的一种基于深度学习的视觉行车测距算法主要包含采集样本集、训练和测试测距三个阶段。其中本发明的重点内容在于联合边缘设备和传感设备加速模型推断，对模型输出结果进行处理计算得到车辆距离，其详细流程图如图2所示。

本发明的步骤如下：

步骤S1：构建行车测距数据集，并进行标注。主要包含以下三个部分：

A1、使用单目镜头采集各种场景下的行车视频图像：包含不同车型、不同距离、不同天气以及一天中不同时间段，使得构建的数据集具有复杂性、多样性。

A2、扩充采集的数据集，减少模型的拟合。可以通过图像水平翻转、尺度变换、旋转、色彩抖动等方法。

A3、对行车测距数据集进行标注，标注信息包括视频图像中各个像素的所属类别和对应的深度信息，类别标注中1-11为种行车过程中常见物体，12为其他，深度标注包含图像中像素距离摄像头的距离，可以用双目相机标定或者红外激光采集获得。

步骤S2：利用构建的行车测距数据集，生成适用于行车测距的深度模型：

通过上述标注完成的行车测距数据集，对深度模型进行训练。其中深度预测模型SfmNet的核心由depthcnn和posecnn组成，前者用于预测深度，后者用于辅助无监督训练。语义分割模型SegNet由vgg网络构成包括编码和解码结构，用于生成场景的语义分割图。对其引入提前退出机制，在一定延时要求下，加速深度模型的推断，保证更高的准确率。

模型的深度估计网络SfmNet的核心是Depth Cnn和Pose Cnn，其网络结构为编码器解码器结构，采用了卷积核反卷积来实现，如附图3所示。训练的具体过程如下：

1.目标视图作为Depth CNN的输入生成具有每个像素深度的深度图，即

2.对于Pose CNN则将目标视图和源视图作为输入，输出相机的相对姿态

3.Depth CNN和Pose CNN的输出，即

和

用来逆向翘曲(wrap)源视图以生成目标视图。

其中K是相机的内参矩阵，T是Pose Cnn预测的外参矩阵，D是Depth Cnn预测的深度信息，p_s是源视图的像素坐标，p_t是目标视图的像素坐标。

4.利用复原图与目标视图之间的误差用于训练Depth CNN和Po se CNN，至此我们可以无监督的训练我们的神经网络。

即

其中s为源视图(source)，p为预测视图(predicted)，t为目标视图(target)。

本发明中的SegNet网络是一个像素级的语义分割模型，如图4所示，其中编码器部分使用了VGG16的前13层卷积结构，即conv1_1-conv1_2-pool，conv2_1-conv2_2-pool，conv3_1-conv3_2-conv3_3-pool，conv4_1-conv4_2-conv4_3-pool的结构。每个conv层包含convolution+Batch，normalization+ReLU操作。pool层采用2X2的窗口，以及stride2的步长。每次pool层相当于对图像做一个分辨率减少一半的降采样。并在每次maxpool的过程中，将featuremaps中的每个池化窗口中的最大值的位置记录下来。该模型会针对图像中的每一个像素，对每一个像素进行分类，去识别该像素属于的类别，最后将一个[W,H,3]的输入图像处理成[W,H,NUM_CLASSES]的向量，再通过softmax进行分类，转化为[W,H,1]的张量，再对属于不同种类的像素分别涂上不同的颜色，从新变成[W,H,3]的图像。

其损失函数采用交叉熵，形式如下：

其中y代表我们的真实值，a代表我们softmax求出的值，i代表不同的像素点。

深度神经网络是具有一定复杂程度的神经网络，可以定义为具有输入层、输出层和至少一个隐藏层之间的网络。每个层在一个过程中执行特定类型的分类和排序，这些复杂的神经网络的一个关键用途是处理未标记或未结构化的数据。一般来说，随着网络深度的增大，网络的性能也将会提升。但是，网络模型在数据集训练以及测试的时间也将变得越来越长，并且对机器资源的消耗需求也会增大。因此，本发明提出对SegNet引入提前退出机制，如图5所示。通过在主网络中添加一个或多个分支网络，对退出点的样本置信度进行判断，从而可以提前退出部分样本，减少后继网络层的样本量。

对于分支网络模型来说，需要loss损失函数值乘以其权重来进行联合优化，我们将Wn定义为每个分支模型的权重，N为所有退出点的数量，因此其最终loss表达式为:

如果退出点的测试样本x输出信息熵越小，则说明该分支的退出点的分类器对于正确标记该测试样本x的预测结果置信度越高，该样本被提前退出网络的可能性也就越大。

步骤S3：联合边缘设备和传感设备，自动对网络进行分割加速推断：

B1、使用数据集对模型进行实验，利用线性回归模型对深度模型在设备运行延时进行预测。

在估计DNN的运行时间时，本发明会对每层的延迟进行建模，而不是以整个DNN为粒度进行建模。这极大地减少了分析开销，因为存在非常有限的层类别。通过实验，我们观察到不同层的延迟由各种独立变量(例如，输入数据大小，输出数据大小)决定，如表1所示。注意，我们还观察到DNN模型的加载时间对总运行时间也有明显的影响。因此，我们进一步将DNN模型的大小作为输入参数来预测模型的加载时间。基于每层的上述输入，我们建立回归模型以基于分析预测每个层的延迟。表2中显示了一些典型层的最终回归模型(大小以字节为单位，延迟以毫秒为单位)。

表1：回归模型的自变量

层型	自变量
		卷积	输入特征映射量，(过滤器尺寸/步幅)^2*过滤器数目
雷鲁	输入数据大小
		汇集	输入数据大小，输出数据大小
局部响应归一化	输入数据大小
		漏失信息	输入数据大小
全连通	输入数据大小，输出数据大小
		模型加载	模型尺寸

表2：各类型层回归模型

在加速阶段，DNN优化器从传感设备接收延迟要求，然后搜索引入提前退出机制的SegNet模型的最佳出口点和分区点。整个过程在图6算法1中给出。对于具有M个出口点的分支模型，我们表示第i个出口点具有N_i层。这里，更大的层索引i对应于更准确的推断模型。我们使用上面提到的回归模型来预测第j层在设备上运行时的运行时间ED_j，ES_j是它在服务器上运行时间。D_p是第p层的输出。在特定带宽B下，使用输入数据Input，我们计算总运行时间A_i,p＝，其中，p是所选模型的划分点，i表示个出口点。当p＝1时，模型将仅在设备上运行，那么ES_p＝0，D_p-1/B＝0，Input/B＝0；当p＝N_i时，模型将仅在服务器上运行，那么ED_p＝0，D_p-1/B＝0。通过这种方式，我们可以找到具有最小延迟的最佳分区点，用于第i个出口点的模型。由于模型划分不影响推理精度，我们可以依次尝试具有不同出口点的DNN推理模型(即，具有不同的精度)，并找到具有最大尺寸并同时满足延迟要求的模型。请注意，由于预先训练了层延迟预测的回归模型，因此算法1主要涉及线性搜索操作，并且可以非常快速地完成(在我们的实验中不超过1ms)。

步骤S4中：用测试数据集进行实验，预测行车距离

C1、在给定延时和带宽要求下，将测试数据集输入语义分割模型和深度预测模型，深度模型将输出语义分割结果和深度预测结果

C2、找出语义分割结果中的汽车对象，筛选汽车的像素点，计算其对应深度图中所有像素的平均深度作为最终深度。

其中S是语义分割中Car的集合，D是深度信息，N是S集合的像素个数。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习和边缘计算的视觉行车测距算法，其特征在于，包括以下步骤：

S1、构建带行车测距数据集并进行标注

利用行车测距数据集对深度模型进行微调，训练引入提前退出点机制的语义分割网络，使模型适应数据集，通过S1中标注完成的行车测距数据集，对深度模型进行训练，其中深度预测模型SfmNet的核心由depthcnn和posecnn组成，前者用于预测深度，后者用于辅助无监督训练，语义分割模型SegNet由vgg网络构成包括编码和解码结构，用于生成场景的语义分割图，对其引入提前退出机制，在给定延时和带宽要求下，加速深度模型的推断，保证更高的准确率；

S3、联合边缘设备和传感设备自动对网络进行分割加速推断

S4、用测试数据集进行实验，预测行车距离

利用测试数据集对模型进行检测，结合边缘设备与传感设备的输出结果，计算得到行车的距离，在给定延时和带宽下，将测试数据集输入语义分割模型和深度预测模型，深度模型将输出语义分割结果和深度预测结果，找出语义分割结果中的汽车对象，筛选汽车的像素点，计算其对应深度预测结果中所有像素的平均深度作为最终深度。

2.根据权利要求1所述的一种基于深度学习和边缘计算的视觉行车测距算法，其特征在于：

步骤S1中：构建行车测距数据集，并进行标注，主要包含以下三个部分：

3.根据权利要求1所述的一种基于深度学习和边缘计算的视觉行车测距算法，其特征在于：

步骤S3中：联合边缘设备和传感设备，自动对网络进行分割加速推断：