CN109146944B

CN109146944B - 一种基于深度可分卷积神经网络的视觉深度估计方法

Info

Publication number: CN109146944B
Application number: CN201811276559.1A
Authority: CN
Inventors: 周武杰; 袁建中; 吕思嘉; 钱亚冠; 向坚; 张宇来
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Muye Micro (Shanghai) Semiconductor Technology Co.,Ltd.
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-06-26
Anticipated expiration: 2038-10-30
Also published as: CN109146944A

Abstract

本发明公开了一种基于深度可分卷积神经网络的视觉深度估计方法，其先构建深度可分卷积神经网络，其隐层包括卷积层、批规范化层、激活层、最大池化层、conv_block网络块、深度可分卷积网络块、Concatanate融合层、Add融合层、反卷积层、可分离卷积层；然后使用训练集中的单目图像作为原始输入图像，输入到深度可分卷积神经网络中进行训练，得到单目图像对应的估计深度图像；接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，得到深度可分卷积神经网络训练模型及最优权值矢量；再将待预测的单目图像输入到深度可分卷积神经网络训练模型中，并利用最优权值矢量，预测得到对应的预测深度图像；优点是其预测精度高。

Description

一种基于深度可分卷积神经网络的视觉深度估计方法

技术领域

本发明涉及一种单目视觉深度估计技术，尤其是涉及一种基于深度可分卷积神经网络的视觉深度估计方法。

背景技术

在如今飞速发展时代的大环境下，伴随着社会的物质生活水平的不断提升。人工智能技术应用于人们的日常生活中的方面越来越多。计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视，作为计算机视觉任务之一的单目视觉深度估计，在汽车辅助驾驶技术中显得越发重要。

汽车是现今人们出行必不可少的交通工具之一，其发展一直备受社会的重视。特别是伴随着人工智能技术的越来越成熟，无人驾驶这一具有代表性的人工智能技术也成为了近几年热门话题之一。而车前图像的单目视觉深度估计能够给汽车行驶带来很大的助力并可以保障其行驶过程中的安全，是无人驾驶技术领域重要的一环。

在深度学习提出之前，单目视觉深度估计一直是使用传统方法来提取手工特征预测深度结果的。由于限制于数据集的大小和手工特征的精度，传统方法在深度预测的领域一直没有取得令人满意的结果。在深度学习被提出后，其在计算机视觉任务中的应用取得了极大的成功。对于单目视觉深度估计而言，深度学习给予了很大的帮助，它使得深度预测可以在庞大的数据集上自主地学习并获得更多的特征信息，这使得单目视觉深度估计的结果精度不断地得到提升，从而实现其在实际需求中的应用与推广。

Laina等人基于全卷积残差网络提出了一种深度估计神经网络模型，该模型自原始图像输入到预测深度图输出的整个过程都是单程的，虽然深度估计神经网络的深度足够深并且采集了一些准确度较高的特征信息，但是这些高准确度的特征信息占总体特征信息的份额却是很少的，而且由于该模型的单一性，因此导致该模型提取的特征的多样性也不足，单程且又长的特征采集过程中会出现图像中物体边缘信息的丢失，反而可能导致整体的预测精度的下降。

发明内容

本发明所要解决的技术问题是提供一种基于深度可分卷积神经网络的视觉深度估计方法，其深度估计准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于深度可分卷积神经网络的视觉深度估计方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像，并构成训练集，将训练集中的第n幅原始的单目图像记为{Qⁿ(x,y)}，将训练集中与{Qⁿ(x,y)}对应的真实深度图像记为

其中，N为正整数，N≥1000，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，R表示{Qⁿ(x,y)}和

的宽度，L表示{Qⁿ(x,y)}和

的高度，R和L均能被2整除，Qⁿ(x,y)表示{Qⁿ(x,y)}中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_2：构建深度可分卷积神经网络：深度可分卷积神经网络包括输入层、隐层和输出层；隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层；深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成，深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块，深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块；

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为R、高度为L；

对于隐层，5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个卷积层的卷积核个数为16，第2个卷积层的卷积核个数为32，第3个卷积层的卷积核个数为64，第4个卷积层的卷积核个数为1024，第5个卷积层的卷积核个数为1，11个批规范化层的参数均采用默认值，9个激活层的激活函数均采用ReLu，3个最大池化层的池化步长均为2×2，2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128，第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256，2个conv_block网络块各自中的所有批规范化层的参数均采用默认值，2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu，第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成，第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成，4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128，第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256，第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512，第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成，第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成，4个深度可分卷积网络块中的批规范化层的参数均采用默认值，4个深度可分卷积网络块中的激活层的激活函数均采用ReLu，3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2，第1个反卷积层的卷积核个数为64，第2个反卷积层的卷积核个数为32，第3个反卷积层的卷积核个数为16，3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个可分离卷积层的卷积核个数为64，第2个可分离卷积层的卷积核个数为32，第3个可分离卷积层的卷积核个数为16；

对于隐层，第1个卷积层的输入端接收输入层的输出端输出的原始输入图像，第1个卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为J₁，其中，J₁中的每幅特征图的宽度为R、高度为L；第1个批规范化层的输入端接收J₁中的所有特征图，第1个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为P₁，其中，P₁中的每幅特征图的宽度为R、高度为L；第1个激活层的输入端接收P₁中的所有特征图，第1个激活层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为H₁，其中，H₁中的每幅特征图的宽度为R、高度为L；第1个最大池化层的输入端接收H₁中的所有特征图，第1个最大池化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为Z₁，其中，Z₁中的每幅特征图的宽度为

高度为

第2个卷积层的输入端接收Z₁中的所有特征图，第2个卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为J₂，其中，J₂中的每幅特征图的宽度为

高度为

第2个批规范化层的输入端接收J₂中的所有特征图，第2个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为P₂，其中，P₂中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P₂中的所有特征图，第2个激活层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为H₂，其中，H₂中的每幅特征图的宽度为

高度为

第2个最大池化层的输入端接收H₂中的所有特征图，第2个最大池化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为Z₂，其中，Z₂中的每幅特征图的宽度为

高度为

第3个卷积层的输入端接收Z₂中的所有特征图，第3个卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为J₃，其中，J₃中的每幅特征图的宽度为

高度为

第3个批规范化层的输入端接收J₃中的所有特征图，第3个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₃，其中，P₃中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收P₃中的所有特征图，第3个激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为H₃，其中，H₃中的每幅特征图的宽度为

高度为

第3个最大池化层的输入端接收H₃中的所有特征图，第3个最大池化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为Z₃，其中，Z₃中的每幅特征图的宽度为

高度为

第1个conv_block网络块的输入端接收Z₃中的所有特征图，第1个conv_block网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为B₁，其中，B₁中的每幅特征图的宽度为

高度为

第1个深度可分卷积网络块的输入端接收B₁中的所有特征图，第1个深度可分卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为S₁，其中，S₁中的每幅特征图的宽度为

高度为

第2个深度可分卷积网络块的输入端接收S₁中的所有特征图，第2个深度可分卷积网络块的输出端输出128幅特征图，将输出的所有特征图构成的集合记为S₂，其中，S₂中的每幅特征图的宽度为

高度为

第2个conv_block网络块的输入端接收S₂中的所有特征图，第2个conv_block网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为B₂，其中，B₂中的每幅特征图的宽度为

高度为

第3个深度可分卷积网络块的输入端接收B₂中的所有特征图，第3个深度可分卷积网络块的输出端输出256幅特征图，将输出的所有特征图构成的集合记为S₃，其中，S₃中的每幅特征图的宽度为

高度为

第4个深度可分卷积网络块的输入端接收S₃中的所有特征图，第4个深度可分卷积网络块的输出端输出512幅特征图，将输出的所有特征图构成的集合记为S₄，其中，S₄中的每幅特征图的宽度为

高度为

Concatanate融合层的输入端接收B₁中的所有特征图、S₁中的所有特征图、S₂中的所有特征图、B₂中的所有特征图、S₃中的所有特征图、S₄中的所有特征图，Concatanate融合层的输出端输出1408幅特征图，将输出的所有特征图构成的集合记为C₁，其中，C₁中的每幅特征图的宽度为

高度为

第4个激活层的输入端接收C₁中的所有特征图，第4个激活层的输出端输出1408幅特征图，将输出的所有特征图构成的集合记为H₄，其中，H₄中的每幅特征图的宽度为

高度为

第4个卷积层的输入端接收H₄中的所有特征图，第4个卷积层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为J₄，其中，J₄中的每幅特征图的宽度为

高度为

第4个批规范化层的输入端接收J₄中的所有特征图，第4个批规范化层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为P₄，其中，P₄中的每幅特征图的宽度为

高度为

第5个激活层的输入端接收P₄中的所有特征图，第5个激活层的输出端输出1024幅特征图，将输出的所有特征图构成的集合记为H₅，其中，H₅中的每幅特征图的宽度为

高度为

第1个反卷积层的输入端接收H₅中的所有特征图，第1个反卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为F₁，其中，F₁中的每幅特征图的宽度为

高度为

第5个批规范化层的输入端接收F₁中的所有特征图，第5个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₅，其中，P₅中的每幅特征图的宽度为

高度为

第1个可分离卷积层的输入端接收H₃中的所有特征图，第1个可分离卷积层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为K₁，其中，K₁中的每幅特征图的宽度为

高度为

第9个批规范化层的输入端接收K₁中的所有特征图，第9个批规范化层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为P₉，其中，P₉中的每幅特征图的宽度为

高度为

第1个Add融合层的输入端接收P₉中的所有特征图和P₅中的所有特征图，第1个Add融合层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为A₁，其中，A₁中的每幅特征图的宽度为

高度为

第6个激活层的输入端接收A₁中的所有特征图，第6个激活层的输出端输出64幅特征图，将输出的所有特征图构成的集合记为H₆，其中，H₆中的每幅特征图的宽度为

高度为

第2个反卷积层的输入端接收H₆中的所有特征图，第2个反卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为F₂，其中，F₂中的每幅特征图的宽度为

高度为

第6个批规范化层的输入端接收F₂中的所有特征图，第6个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为P₆，其中，P₆中的每幅特征图的宽度为

高度为

第2个可分离卷积层的输入端接收H₂中的所有特征图，第2个可分离卷积层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为K₂，其中，K₂中的每幅特征图的宽度为

高度为

第10个批规范化层的输入端接收K₂中的所有特征图，第10个批规范化层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为P₁₀，其中，P₁₀中的每幅特征图的宽度为

高度为

第2个Add融合层的输入端接收P₁₀中的所有特征图和P₆中的所有特征图，第2个Add融合层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为A₂，其中，A₂中的每幅特征图的宽度为

高度为

第7个激活层的输入端接收A₂中的所有特征图，第7个激活层的输出端输出32幅特征图，将输出的所有特征图构成的集合记为H₇，其中，H₇中的每幅特征图的宽度为

高度为

第3个反卷积层的输入端接收H₇中的所有特征图，第3个反卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为F₃，其中，F₃中的每幅特征图的宽度为R、高度为L；第7个批规范化层的输入端接收F₃中的所有特征图，第7个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为P₇，其中，P₇中的每幅特征图的宽度为R、高度为L；第3个可分离卷积层的输入端接收H₁中的所有特征图，第3个可分离卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为K₃，其中，K₃中的每幅特征图的宽度为R、高度为L；第11个批规范化层的输入端接收K₃中的所有特征图，第11个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为P₁₁，其中，P₁₁中的每幅特征图的宽度为R、高度为L；第3个Add融合层的输入端接收P₁₁中的所有特征图和P₇中的所有特征图，第3个Add融合层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为A₃，其中，A₃中的每幅特征图的宽度为R、高度为L；第8个激活层的输入端接收A₃中的所有特征图，第8个激活层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为H₈，其中，H₈中的每幅特征图的宽度为R、高度为L；第5个卷积层的输入端接收H₈中的所有特征图，第5个卷积层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为J₅，其中，J₅中的每幅特征图的宽度为R、高度为L；第8个批规范化层的输入端接收J₅中的所有特征图，第8个批规范化层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为P₈，其中，P₈中的每幅特征图的宽度为R、高度为L；第9个激活层的输入端接收P₈中的所有特征图，第9个激活层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为H₉，其中，H₉中的每幅特征图的宽度为R、高度为L；

对于输出层，输出层的输入端接收H₉中的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为R、高度为L；

步骤1_3：将训练集中的每幅原始的单目图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的单目图像对应的估计深度图像，将{Qⁿ(x,y)}对应的估计深度图像记为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_4：计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度可分卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：令{Q(x',y')}表示待预测的单目图像；其中，1≤x'≤R'，1≤y'≤L'，R'表示{Q(x',y')}的宽度，L'表示{Q(x',y')}的高度，Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值；

步骤2_2：将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中，并利用W^best和b^best进行预测，得到{Q(x',y')}对应的预测深度图像，记为{Q_depth(x',y')}；其中，Q_depth(x',y')表示{Q_depth(x',y')}中坐标位置为(x',y')的像素点的像素值。

所述的步骤1_2中，对于第1个深度可分卷积网络块，卷积层的输入端接收B₁中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为J1₁，其中，J1₁中的每幅特征图的宽度为

高度为

第1个批规范化层的输入端接收J1₁中的所有特征图，第1个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P1₁，其中，P1₁中的每幅特征图的宽度为

高度为

第1个可分离卷积层的输入端接收B₁中的所有特征图，第1个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为K1₁，其中，K1₁中的每幅特征图的宽度为

高度为

第2个批规范化层的输入端接收K1₁中的所有特征图，第2个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P1₂，其中，P1₂中的每幅特征图的宽度为

高度为

第1个激活层的输入端接收P1₂中的所有特征图，第1个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H1₁，其中，H1₁中的每幅特征图的宽度为

高度为

带孔可分离卷积层的输入端接收H1₁中的所有特征图，带孔可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为L1₁，其中，L1₁中的每幅特征图的宽度为

高度为

第3个批规范化层的输入端接收L1₁中的所有特征图，第3个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P1₃，其中，P1₃中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P1₃中的所有特征图，第2个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H1₂，其中，H1₂中的每幅特征图的宽度为

高度为

第2个可分离卷积层的输入端接收H1₂中的所有特征图，第2个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为K1₂，其中，K1₂中的每幅特征图的宽度为

高度为

第4个批规范化层的输入端接收K1₂中的所有特征图，第4个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P1₄，其中，P1₄中的每幅特征图的宽度为

高度为

Add融合层的输入端接收P1₁中的所有特征图和P1₄中的所有特征图，Add融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为A1₁，其中，A1₁中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收A1₁中的所有特征图，第3个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H1₃，将H1₃作为S₁，其中，H1₃中的每幅特征图的宽度为

高度为

对于第2个深度可分卷积网络块，卷积层的输入端接收S₁中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为J2₁，其中，J2₁中的每幅特征图的宽度为

高度为

第1个批规范化层的输入端接收J2₁中的所有特征图，第1个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P2₁，其中，P2₁中的每幅特征图的宽度为

高度为

第1个可分离卷积层的输入端接收S₁中的所有特征图，第1个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为K2₁，其中，K2₁中的每幅特征图的宽度为

高度为

第2个批规范化层的输入端接收K2₁中的所有特征图，第2个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P2₂，其中，P2₂中的每幅特征图的宽度为

高度为

第1个激活层的输入端接收P2₂中的所有特征图，第1个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H2₁，其中，H2₁中的每幅特征图的宽度为

高度为

带孔可分离卷积层的输入端接收H2₁中的所有特征图，带孔可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为L2₁，其中，L2₁中的每幅特征图的宽度为

高度为

第3个批规范化层的输入端接收L2₁中的所有特征图，第3个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P2₃，其中，P2₃中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P2₃中的所有特征图，第2个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H2₂，其中，H2₂中的每幅特征图的宽度为

高度为

第2个可分离卷积层的输入端接收H2₂中的所有特征图，第2个可分离卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为K2₂，其中，K2₂中的每幅特征图的宽度为

高度为

第4个批规范化层的输入端接收K2₂中的所有特征图，第4个批规范化层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为P2₄，其中，P2₄中的每幅特征图的宽度为

高度为

Add融合层的输入端接收P2₁中的所有特征图和P2₄中的所有特征图，Add融合层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为A2₁，其中，A2₁中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收A2₁中的所有特征图，第3个激活层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为H2₃，将H2₃作为S₂，其中，H2₃中的每幅特征图的宽度为

高度为

对于第3个深度可分卷积网络块，卷积层的输入端接收B₂中的所有特征图，卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为J3₁，其中，J3₁中的每幅特征图的宽度为

高度为

第1个批规范化层的输入端接收J3₁中的所有特征图，第1个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为P3₁，其中，P3₁中的每幅特征图的宽度为

高度为

第1个可分离卷积层的输入端接收B₂中的所有特征图，第1个可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为K3₁，其中，K3₁中的每幅特征图的宽度为

高度为

第2个批规范化层的输入端接收K3₁中的所有特征图，第2个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为P3₂，其中，P3₂中的每幅特征图的宽度为

高度为

第1个激活层的输入端接收P3₂中的所有特征图，第1个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为H3₁，其中，H3₁中的每幅特征图的宽度为

高度为

带孔可分离卷积层的输入端接收H3₁中的所有特征图，带孔可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为L3₁，其中，L3₁中的每幅特征图的宽度为

高度为

第3个批规范化层的输入端接收L3₁中的所有特征图，第3个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为P3₃，其中，P3₃中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P3₃中的所有特征图，第2个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为H3₂，其中，H3₂中的每幅特征图的宽度为

高度为

第2个可分离卷积层的输入端接收H3₂中的所有特征图，第2个可分离卷积层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为K3₂，其中，K3₂中的每幅特征图的宽度为

高度为

第4个批规范化层的输入端接收K3₂中的所有特征图，第4个批规范化层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为P3₄，其中，P3₄中的每幅特征图的宽度为

高度为

Add融合层的输入端接收P3₁中的所有特征图和P3₄中的所有特征图，Add融合层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为A3₁，其中，A3₁中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收A3₁中的所有特征图，第3个激活层的输出端输出256幅特征图，将输出的所有特征图构成的集合记为H3₃，将H3₃作为S₃，其中，H3₃中的每幅特征图的宽度为

高度为

对于第4个深度可分卷积网络块，卷积层的输入端接收S₃中的所有特征图，卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为J4₁，其中，J4₁中的每幅特征图的宽度为

高度为

第1个批规范化层的输入端接收J4₁中的所有特征图，第1个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为P4₁，其中，P4₁中的每幅特征图的宽度为

高度为

第1个可分离卷积层的输入端接收S₃中的所有特征图，第1个可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为K4₁，其中，K4₁中的每幅特征图的宽度为

高度为

第2个批规范化层的输入端接收K4₁中的所有特征图，第2个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为P4₂，其中，P4₂中的每幅特征图的宽度为

高度为

第1个激活层的输入端接收P4₂中的所有特征图，第1个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为H4₁，其中，H4₁中的每幅特征图的宽度为

高度为

带孔可分离卷积层的输入端接收H4₁中的所有特征图，带孔可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为L4₁，其中，L4₁中的每幅特征图的宽度为

高度为

第3个批规范化层的输入端接收L4₁中的所有特征图，第3个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为P4₃，其中，P4₃中的每幅特征图的宽度为

高度为

第2个激活层的输入端接收P4₃中的所有特征图，第2个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为H4₂，其中，H4₂中的每幅特征图的宽度为

高度为

第2个可分离卷积层的输入端接收H4₂中的所有特征图，第2个可分离卷积层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为K4₂，其中，K4₂中的每幅特征图的宽度为

高度为

第4个批规范化层的输入端接收K4₂中的所有特征图，第4个批规范化层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为P4₄，其中，P4₄中的每幅特征图的宽度为

高度为

Add融合层的输入端接收P4₁中的所有特征图和P4₄中的所有特征图，Add融合层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为A4₁，其中，A4₁中的每幅特征图的宽度为

高度为

第3个激活层的输入端接收A4₁中的所有特征图，第3个激活层的输出端输出512幅特征图，将输出的所有特征图构成的集合记为H4₃，将H4₃作为S₄，其中，H4₃中的每幅特征图的宽度为

高度为

所述的步骤1_4中，

采用均方误差函数获得。

与现有技术相比，本发明的优点在于：

1)本发明方法将深度方向上的可分离卷积层(SeparableConv2D层，即深度可分卷积层)应用到卷积神经网络模型中，这样不仅可以保证本发明方法创建的深度可分卷积神经网络在卷积神经网络原有的性能的基础上减少了卷积神经网络的参数，而且可以获得更加准确的深度特征信息，使得创建的深度可分卷积神经网络可以拥有多样而丰富的特征信息，从而可以提高利用训练得到的深度可分卷积神经网络训练模型进行预测，得到的预测深度图像的准确度。

2)本发明方法参考Resnet中的block块的结构，搭建了与Resnet中的conv_block网络块相似的结构的深度可分卷积网络块，并与Resnet中的conv_block网络块结合在一起作为深度可分卷积神经网络提取特征信息的一部分，这样保证了深度可分卷积神经网络训练模型具有足够的深度来提取到丰富的特征信息，使得深度可分卷积神经网络训练模型变得更加的精确，能够预测得到更加准确的预测深度图像。

3)本发明方法借助于跳层连接即Concatenate融合层和Add融合层的特性，不仅补全了Concatenate融合层之后特征所缺失的原始物体的边缘信息，而且结合深度可分卷积网络块在原始信息的基础上进一步地提供了其深度信息，这更有益于深度可分卷积神经网络训练模型的输出变得精准。

附图说明

图1为本发明方法构建的深度可分卷积神经网络的组成结构示意图；

图2为本发明方法构建的深度可分卷积神经网络中的conv_block网络块的内部结构图；

图3为本发明方法构建的深度可分卷积神经网络中的深度可分卷积网络块的内部结构图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于深度可分卷积神经网络的视觉深度估计方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

其中，N为正整数，N≥1000，如取N＝4000，n为正整数，1≤n≤N，1≤x≤R，1≤y≤L，R表示{Qⁿ(x,y)}和

的宽度，L表示{Qⁿ(x,y)}和

表示

中坐标位置为(x,y)的像素点的像素值；在此，原始的单目图像和其对应的真实深度图像直接由KITTI官网提供。

步骤1_2：如图1所示，构建深度可分卷积神经网络：深度可分卷积神经网络包括输入层、隐层和输出层；隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块(现有的ResNet中的conv_block网络块网络块)、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层；深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成，深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块，深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块。

对于输入层，输入层的输入端接收一幅原始输入图像，输入层的输出端输出原始输入图像给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为R、高度为L。

对于隐层，5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个卷积层的卷积核个数为16，第2个卷积层的卷积核个数为32，第3个卷积层的卷积核个数为64，第4个卷积层的卷积核个数为1024，第5个卷积层的卷积核个数为1，11个批规范化层的参数均采用默认值，9个激活层的激活函数均采用ReLu，3个最大池化层的池化步长均为2×2，2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128，第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256，2个conv_block网络块各自中的所有批规范化层的参数均采用默认值，2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu，第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成，第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成，conv_block网络块的内部结构如图2所示，4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128，第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256，第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512，第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成，第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成，第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成，4个深度可分卷积网络块中的批规范化层的参数均采用默认值，4个深度可分卷积网络块中的激活层的激活函数均采用ReLu，深度可分卷积网络块的内部结构如图3所示，3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2，第1个反卷积层的卷积核个数为64，第2个反卷积层的卷积核个数为32，第3个反卷积层的卷积核个数为16，3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值，第1个可分离卷积层的卷积核个数为64，第2个可分离卷积层的卷积核个数为32，第3个可分离卷积层的卷积核个数为16。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

第3个反卷积层的输入端接收H₇中的所有特征图，第3个反卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为F₃，其中，F₃中的每幅特征图的宽度为R、高度为L；第7个批规范化层的输入端接收F₃中的所有特征图，第7个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为P₇，其中，P₇中的每幅特征图的宽度为R、高度为L；第3个可分离卷积层的输入端接收H₁中的所有特征图，第3个可分离卷积层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为K₃，其中，K₃中的每幅特征图的宽度为R、高度为L；第11个批规范化层的输入端接收K₃中的所有特征图，第11个批规范化层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为P₁₁，其中，P₁₁中的每幅特征图的宽度为R、高度为L；第3个Add融合层的输入端接收P₁₁中的所有特征图和P₇中的所有特征图，第3个Add融合层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为A₃，其中，A₃中的每幅特征图的宽度为R、高度为L；第8个激活层的输入端接收A₃中的所有特征图，第8个激活层的输出端输出16幅特征图，将输出的所有特征图构成的集合记为H₈，其中，H₈中的每幅特征图的宽度为R、高度为L；第5个卷积层的输入端接收H₈中的所有特征图，第5个卷积层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为J₅，其中，J₅中的每幅特征图的宽度为R、高度为L；第8个批规范化层的输入端接收J₅中的所有特征图，第8个批规范化层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为P₈，其中，P₈中的每幅特征图的宽度为R、高度为L；第9个激活层的输入端接收P₈中的所有特征图，第9个激活层的输出端输出1幅特征图，将输出的所有特征图构成的集合记为H₉，其中，H₉中的每幅特征图的宽度为R、高度为L。

对于输出层，输出层的输入端接收H₉中的特征图，输出层的输出端输出一幅原始输入图像对应的估计深度图像；其中，估计深度图像的宽度为R、高度为L。

在本实施例中，步骤1_2中，对于第1个深度可分卷积网络块，卷积层的输入端接收B₁中的所有特征图，卷积层的输出端输出128幅特征图，将输出的所有特征图构成的集合记为J1₁，其中，J1₁中的每幅特征图的宽度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

其中，

表示

中坐标位置为(x,y)的像素点的像素值。

与

之间的损失函数值记为

采用均方误差函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到训练好的深度可分卷积神经网络训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V＞1，在本实施例中取V＝20。

所述的测试阶段过程的具体步骤为：

步骤2_1：令{Q(x',y')}表示待预测的单目图像；其中，1≤x'≤R'，1≤y'≤L'，R'表示{Q(x',y')}的宽度，L'表示{Q(x',y')}的高度，Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

在此，本发明方法中构成训练集的单目图像和用于测试的单目图像均由KITTI官方网站给出，因此直接使用KITTI官方网站给出的测试数据集来分析测试本发明方法的准确性。将测试数据集中的每幅单目图像作为待预测的单目图像输入到训练好的深度可分卷积神经网络训练模型中，再载入训练阶段得到的最优权重W^best，获得对应的预测深度图像。

在此，采用单目视觉深度预测评价方法的6个常用客观参量作为评价指标，即：均方根误差(root mean squared error，rms)、对数均方根误差(log_rms)、平均对数误差(average log₁₀error，log10)、阈值准确性(thr)：δ₁、δ₂、δ₃。均方根误差、对数均方根误差、平均对数误差的数值越低代表预测深度图像与真实深度图像越接近，δ₁、δ₂、δ₃的数值越高说明预测深度图像的准确性越高。反映本发明方法的评价性能优劣指标的均方根误差、对数均方根误差、平均对数误差和δ₁、δ₂、δ₃的结果如表1所列。从表1所列的数据可知，按本发明方法获得的预测深度图像与真实深度图像之间的差别很小，这说明了本发明方法的预测结果的精度很高，体现了本发明方法的可行性和有效性。

表1利用本发明方法预测得到的预测深度图像与真实深度图像之间的对比评价指标