CN108520535A

CN108520535A - 基于深度恢复信息的物体分类方法

Info

Publication number: CN108520535A
Application number: CN201810253677.4A
Authority: CN
Inventors: 侯春萍; 管岱; 杨阳; 郎玥; 章衡光
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-11
Anticipated expiration: 2038-03-26
Also published as: CN108520535B

Abstract

本发明涉及计算机视觉领域中的物体分类及单目图像深度估计技术领域，为提出一种模型使之能够引入深度信息来提升分类性能，并且在测试时仅仅需要RGB图像而不需要传感器采集的真实深度图像作为输入，本发明，基于深度恢复信息的物体分类方法，步骤如下：(1)对数据集进行预处理；(2)构建模型中的深度恢复模型；(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型；(4)构建最终的融合模型并进行训练和测试；(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集；(6)对比模型在两个公开数据集上图像分类的效果以及可视化。本发明主要应用于计算机视觉领域中的物体分类及单目图像深度估计场合。

Description

基于深度恢复信息的物体分类方法

技术领域

本发明涉及计算机视觉领域中的物体分类及单目图像深度估计技术领域，尤其涉及一种基于生成式对抗网络的深度估计方法。

背景技术

图像物体分类是计算机视觉研究中的基本问题，也是图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。由于彩色RGB图像是现实三维世界的二维投影，一副平面图像可能对应无数现实世界的实际场景。因此深度信息不可避免的丢失掉。深度信息能够反映2D图像所不具有的几何信息，对于三维场景重建、手势识别、人体姿态估计等有着重要意义^[1]。RGB图像代表的2D信息与深度图代表的深度信息可以为物体分类任务提供不同的、相互补充的信息。对于人类来说，从单个图像推断潜在的三维结构并不困难，对于计算机视觉算法来说，由于没有具体可靠的特征如几何信息等可以直接利用，是一个极具挑战的任务。最近随着深度传感器的发展，出现了很多的公开的数据集，如NYUD2(纽约大学彩色-深度图数据集)、RGB-D Object Dataset(彩色-深度图物体数据集)、KITTI(卡尔斯鲁厄理工学院及丰田技术研究院智能驾驶数据集)等同时包含有RGB图像和深度图像，并且有很多工作说明了同时使用两种模态的图像建立识别模型，能够有效的提升物体分类效果^[2]。

当前基于深度信息的视觉研究方法主要分为两类：第一种是尽可能恢复真实场景的三维形状并且探索合适的三维特征描述符。很多工作通过点云特征如点密度特征、三维形状特征、三维水平特征和截断距离函数特征等将通常的二维的分类和检测模型拓展到三维，此类方法通常需要估计物体的三维形状以提高物体分类检测精度，或者利用上下文信息，如对象间的关系及对象与背景间的关系以提供对待识别物体的多视图理解。这种方法往往需要大量的较难获取的三维训练数据因此在实际应用中收到较大限制；第二种将深度值编码为二维图像，并与RGB彩色图像结合起来形成2.5D的数据。此类方法通常将深度图像编码为地面高度、重力角度和水平视察三种特征，与RGB图像一起作为模型的两个输入，分别从两幅成对的图像中提取不同的特征再进行融合，进而进行分类或者检测。此类方法借助于深度传感器的硬件设备来直接的获取深度信息，如利用激光雷达、Kinect(微软3D体感摄影机)等直接获取距离信息。

由于深度传感器造价昂贵，因此从在绝大数现实场景下的图像分类模型仅只有RGB单一模态的输入，并且大多数计算机视觉数据集，如ImageNet(大规模视觉识别挑战竞赛)、Pascal VOC(模式分析统计建模以及计算学习数据集)等也仅仅只含有RGB图像。在不使用深度传感器直接捕捉深度信息的情况下，如果我们能在2D的计算机视觉任务中有效的引入深度信息，可能会提升当前诸如物体分类、检测等的视觉任务的性能。

图像分类任务依赖于对图像特征的恰当选择与提取。卷积神经网络(Convolutional Neural Network，CNN)提供了一种端到端的学习模型，模型中的参数通过梯度下降方法进行训练，经过训练后的卷积神经网络能够学习到图像中的特征，并且完成对图像特征的提取和分类。较于传统的图像识别方法，CNN具有非常出色的特征提取和特征学习能力。1998年，Lecun等人提出的卷积神经网络LeNet成功第运用到了手写体数字的识别中，LeNet的提出为卷积神经网络在图像分类的应用方面引起了一阵研究热潮，并且为用于图像分类的CNN提供了一种通用的基本结构：即交替连接的卷积层和池化层搭配激活函数进行特征提取，最后连接全连接层的分类器进行分类和识别。

本发明采用基于卷积神经网络的模型，利用深度信息完成对2D图像的分类任务，在两种公开数据集上进行评估，在准确度和泛化性上均有较好的表现。

[1]田虎.单目图像的深度估计[D].北京邮电大学,2015.

[2]Wang A,Cai J,Lu J,et al.MMSS:Multi-modal Sharable and SpecificFeature Learning for RGB-D Object Recognition[C]//IEEE InternationalConference on Computer Vision.IEEE,2015:1125-1133。

发明内容

为克服现有技术的不足，针对二维的图像分类问题，本发明旨在提出一种模型使之能够引入深度信息来提升分类性能，并且在测试时仅仅需要RGB图像而不需要传感器采集的真实深度图像作为输入。为此，本发明采用的技术方案是，基于深度恢复信息的物体分类方法，步骤如下：

(1)对数据集进行预处理，将数据库中保存深度信息的矩阵统一转化为深度图像格式，用于网络的训练及生成深度图的可视化，并且将彩色图像与对应的深度图像组成图像对，构建10折交叉验证，用于网络的训练与结果评估；

(2)构建模型中的深度恢复模型，采用卷积层-激活函数层-批量归一化层BatchNorm作为网络的组成单元，多层堆叠成最终的模型；

(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型，采用卷积神经网络AlexNet作为基准网络，分别以RGB图像和真实深度图像作为输入，训练两个图像分类模型，作为实验的基准线以及为最后的融合模型提供预训练参数，将RGB输入分类网络称之为网络1，深度图像输入的分类网络称之为网络2；

(4)构建最终的融合模型并进行训练和测试，将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型，使之能够只接受RGB图像即完成图像分类任务；将步骤(3)中的网络1和网络2用特征融合的方式连接起来，并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入，完成三路网络的融合，探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法；

(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集，采用两种方式重新训练融合之后的模型，一是直接用步骤四的模型测试自然图像数据集，记录分类结果；二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型，重新训练整个融合模型，再进行测试；

(6)对比模型在两个公开数据集上图像分类的效果以及可视化。评估引入深度信息后对于模型性能的提升效果，并且对深度恢复之后的图像进行可视化。

一个实例中步骤具体细化如下：

(1)对数据集进行预处理。

采用公开的深度图像数据集RGB-D Object Dataset和普适物体识别数据集Cifar进行评估，其中前者是含有传感器采集的真实深度图像的RGB-D数据集，后者是不含有深度图像的自然图像数据集，RGB-D Object Dataset数据集采用深度传感器Kinect采集深度图像，深度图像的格式为16位无符号整数，距离单位为毫米，数据集含有51个类别、300个物品，采用摄像机拍摄，共207920帧，平均每个物品600张图像，从RGB-D Object Dataset数据集中等间隔5帧采样作为训练数据，最终训练集数目为约34000张成对图像，测试集6900张成对图像，采用10折交叉验证调整模型参数以及报告分类结果，原始训练集图像边长约在几十到一百多像素不等，训练时首先使用最邻近差值的方法归一化到224×224，不使用任何数据增强，送入网络进行训练，Cifar数据集只含有RGB图像，有10类，50000张训练数据和10000张测试集，图像尺寸为32×32，将所有图像大小统一调整为224×224，分别计算整个训练集中彩色图像和深度图像的平均值和标准差，彩色图像的均值为0.5，标准差为0.2，深度图像的均值为0.06，标准为0.02，将图像分别减去均值，再除以标准差，使得全部图像的像素值归一化到[0,1]之间，再输入模型进行训练；

(2)构建模型中的深度恢复模型

最后的模型由共15层卷积层的编码器，和3层反卷积层加1层卷积层构成的解码器组成，除了第一层卷积层采用7×7卷积核之外，其余的卷积层均使用卷积核大小为3，步长为1，扩充尺寸为1的参数结构；编码器由三个组成单元构成，第一个组成单元由卷积核大小为7×7，步长为2的卷积层以及3×3的最大池化层组成，分别完成两次下采样，第二个组成单元全部由6层输出特征通道数为64的3×3卷积层构成，再加上一层7×7的最大池化层最为下采样，第二个组成单元全部由输出通道数为128的3×3卷积层构成。并在此基础上增加跳跃连接结构，将编码器每相邻两层的输出特征图直接相加起来，连接起来，以增加解码器的特征图的重复利用，以及梯度的跨层流动，再进行解码的反卷积操作，解码器由3层反卷积层及1层卷积核尺寸为3，步长为1，补充边长为1的卷积层组成；三层反卷积层的卷积核尺寸都设置为4，步长为2，补充边长为1，每层依次将特征图尺寸上采样两倍，特征通道数量削减一半，将特征通道数量由128削减为16，最后一层卷积层保持特征图尺寸不变，特征通道个数为1，以完成彩色图到单通道深度图的映射；在大规模数据集中训练好的图像分类模型对于一副图像有着优良的特征提取功能，并且在模型的前端对图像低层特征有着良好的提取功能，在网络的后端对目标的类别有着良好的特征提取功能，图像的低层特征对于深度恢复任务较为重要。因此利用迁移学习的方法进一步提升模型性能，在完成深度恢复模型的构建之后，将一个34层的残差网络的前15层的参数赋给本模型，利用优良的参数初始化方法减小训练的时间，减小过拟合的风险，并且提升深度恢复的效果，深度恢复模型的损失函数采用一范数的形式；

(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型

使用经典的网络结构AlexNet，分别基于RGB-D Object Dataset中的RGB图像和真实深度图像，采用相同的训练参数，分别训练两个卷积神经网络，网络结构为，先是两组11×11卷积层后跟2×2最大池化层的结构，然后接三层3×3的卷积层，以及一个2×2最大池化层，之后接三层全连接层，前两层全连接的输出神经元个数都为4096，最后一层输出个数为51，与数据集类别一致。采用0.01的学习率，随机梯度下降的优化方法，每次随机训练128张图像，一共训练90遍训练集。每训练完30遍训练集，学习率减下为原来的十分之一，动量参数momentum设置为0.9，权值衰减系数weight-decay设置为0.0001，在所有的分类实验都不进行任何数据增强，整个实验在Pytorch的深度学习框架下进行网络的训练，并利用统一计算设备架构技术Cuda进行训练的加速；

采用上述方法训练得到的仅RGB图像输入的模型具有73.84％的分类准确率，称之为网络1，并且作为本文实验的对比基准线；仅深度图像输入的模型具有75.05％，称之为网络2，步骤2的训练得到的深度恢复模型，以及本步骤训练得到的网络1和网络2为最终的融合模型提供预训练的参数；

(4)构建最终的融合模型并进行训练和测试

将步骤二得到的深度估计模型和步骤三得到的网络1和网络2融合起来，组成最终的融合网络，利用深度恢复模型，将输入的RGB图像映射到深度图像，进而送入网络2以代替之前的真实深度图，进而与原本分类RGB图像的子网络结合起来，进行特征融合，从而利用深度信息提升仅RGB图像输入的分类任务的准确率；

利用深度恢复模型代替真实深度图像，进一步融合得到最终的融合模型，将彩色图像输入到模型中后，一路直接输入网络1中进行彩色图像的特征提取，另一路输入深度恢复的模型，得到恢复之后的深度图像，进而输入网络2进行深度图像的特征提取，融合之后的模型不再需要真实深度图像的输入，即可在模型内部完成深度信息的引入此外，彩色图像经过深度恢复模型之后的深度图像，除了输入网络2之外，训练时还与真实深度图像进行回归，目标函数仍为步骤2中的1范数形式，将整个模型进行多任务(Muti-task)联合训练，使得深度恢复任务与图像分类任务能够相互促进进行。

与原本分类RGB图像的子网络结合起来，进行特征融合，从而利用深度信息提升仅RGB图像输入的分类任务的准确率，具体地，首先仍基于真实的彩色图像和深度图像，先将步骤三得到的网络1和网络2融合起来，然后再考虑用深度恢复的模型代替真实深度图像，基于多模态数据分类的模型融合方式有以下几种方法：一是像素级融合；二是特征级融合，三是决策级融合。

采用中间特征级融合的方法。

本发明的特点及有益效果是：

本发明通过设计一种高效的深度估计方法以及利用一种融合的卷积神经网络结构，设计一种利用深度信息的二维图像分类模型。该模型仅在训练中需要传感器提供的真实深度图像，在测试时仅需要RGB彩色图像即可完成高效的分类任务，并在两个公开数据集上评估本发明的效果以及泛化性能。本发明具有以下特点：

1、实际测试中无需硬件传感器捕捉的真实深度图像数据，利用模型本身产生隐含的深度信息，引入到图像分类模型中，提升分类模型的性能。

2、利用预训练模型初始化模型提升深度恢复子网络的性能。

3、本发明的模型不仅在含有真实深度图的RGBD数据集上性能较好，还可以快速的迁移到只含有彩色图像的自然图像数据集中。

附图说明：

图1是本发明方法中深度恢复子网络结构图。

图2是本发明方法中最终融合模型的网络示意图。

图3是本发明深度恢复的可视化图像。图中：

a彩色图像，b本方法生成深度图，c真实深度图。

具体实施方式

本发明要解决的问题在于，针对二维的图像分类问题，设计一种模型使之能够引入深度信息来提升分类性能，并且在测试时仅仅需要RGB图像而不需要传感器采集的真实深度图像作为输入。

本发明采取的技术方案是采用基于卷积神经网络的深度学习方法，主要步骤如下所示：

(1)对数据集进行预处理。不同数据集采用不同的深度传感器采集深度信息，保存的格式也不相同，将数据库中保存深度信息的矩阵统一转化为一般的深度图像格式，用于网络的训练及生成深度图的可视化。并且将彩色图像与对应的深度图像组成图像对，构建10折交叉验证，用于网络的训练与结果评估。

(2)构建模型中的深度恢复模型。利用编码器-解码器结构的思想，构建由卷积层-反卷积层组合的深度恢复网络结构。采用卷积层-激活函数层-批量归一化层(BatchNorm)作为网络的组成单元，多层堆叠成最终的模型。通过网络结构合理配置，以及损失函数的选取建立回归模型，并且利用预训练模型的初始化参数，提升深度恢复模型的性能。训练好的深度恢复模型能够从单幅彩色平面图像恢复出较高质量的深度图像。

(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型。采用经典的卷积神经网络AlexNet作为基准网络，分别以RGB图像和真实深度图像作为输入，训练两个图像分类模型，作为实验的基准线以及为最后的融合模型提供预训练参数。将RGB输入分类网络称之为网络1，深度图像输入的分类网络称之为网络2。

(4)构建最终的融合模型并进行训练和测试。将步骤二和步骤三训练好的模型以适当的方式融合为一个图像分类模型，使之能够只接受RGB图像即完成图像分类任务。将步骤三中的网络1和网络2用特征融合的方式连接起来，并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入，完成三路网络的融合。探究合适的损失函数、最优特征融合的方式以及各子网络参数最优的初始化方法。

(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集。采用两种方式重新训练融合之后的模型，一是直接用步骤四的模型测试自然图像数据集，记录分类结果；二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型，重新训练整个融合模型，再进行测试。

为使本发明实施的目的、技术方案和优点更加清楚，下面结合实施例和附图对本发明的具体实施方式做进一步地描述。

图像分类问题作为模式识别的基本问题。近年来常用做法是采用深度卷积神经网络直接对RGB图像训练分类模型，但此方法只考虑了2维的平面彩色图像信息，没有考虑真实场景的三维信息，因此性能受到一定限制。本发明利用深度恢复模型以及融合的卷积神经网络，利用模型本身产生较高质量的深度信息以弥补现有方法的不足，能够较好的提升现有分类模型的性能。

具体技术细化如下：

(1)对数据集进行预处理。

本发明在两个公开数据集RGB-D Object Dataset和Cifar进行评估，其中前者是含有传感器采集的真实深度图像的RGBD数据集，后者是不含有深度图像的自然图像数据集。RGB-D Object Dataset数据集采用深度传感器Kinect采集深度图像，深度图像的格式为uint16，距离单位为毫米。数据集含有51个类别、300个物品，采用摄像机拍摄，共207920帧，平均每个物品约600张图像。本方法从RGB-D Object Dataset数据集中等间隔5帧采样作为训练数据，最终训练集数目为约34000张成对图像，测试集约6900张成对图像。采用10折交叉验证调整模型参数以及报告分类结果。原始训练集图像边长约在几十到一百多像素不等，训练时首先使用最邻近差值的方法归一化到224×224，不使用任何数据增强，送入网络进行训练。Cifar数据集只含有RGB图像，有10类，50000张训练数据和10000张测试集。图像尺寸为32×32，本方法将所有图像大小统一调整为224×224。分别计算整个训练集中彩色图像和深度图像的平均值和标准差，彩色图像的均值为0.5，标准差为0.2，深度图像的均值为0.06，标准为0.02。将图像分别减去均值，再除以标准差，使得全部图像的像素值归一化到[0,1]之间，再输入模型进行训练。

(2)构建模型中的深度恢复模型。

利用编码器-解码器结构的思想，构建由卷积层-反卷积层组合的生成器网络结构，并且在编码器中加入短连接的结构，便于梯度的流动与特征的复用。为了使得模型性能更加高效，使用预训练的参数初始化方式。最后的模型由共15层卷积层的编码器，和3层反卷积层加1层卷积层构成的解码器组成。

为了使得模型的参数尽可能的少，不过多的采用大尺寸的卷积核。除了第一层卷积层采用7×7卷积核之外，其余的卷积层均使用卷积核大小为3，步长为1，扩充尺寸为1的参数结构。编码器由三个组成单元构成。第一个组成单元由卷积核大小为7×7，步长为2的卷积层以及3×3的最大池化层组成。分别完成两次下采样。第二个组成单元全部由6层输出特征通道数为64的3×3卷积层构成，再加上一层7×7的最大池化层最为下采样。第二个组成单元全部由输出通道数为128的3×3卷积层构成。并在此基础上增加跳跃连接结构，将编码器每相邻两层的输出特征图直接相加起来，连接起来，以增加解码器的特征图的重复利用，以及梯度的跨层流动。再进行解码的反卷积操作。解码器由3层反卷积层及1层卷积核尺寸为3，步长为1，补充边长为1的卷积层组成。三层反卷积层的卷积核尺寸都设置为4，步长为2，补充边长为1，每层依次将特征图尺寸上采样两倍，特征通道数量削减一半，将特征通道数量由128削减为16，最后一层卷积层保持特征图尺寸不变，特征通道个数为1，以完成彩色图到单通道深度图的映射。在大规模数据集中训练好的图像分类模型对于一副图像有着优良的特征提取功能，并且在模型的前端对图像低层特征有着良好的提取功能，在网络的后端对目标的类别有着良好的特征提取功能。图像的低层特征对于深度恢复任务较为重要。因此利用迁移学习的方法进一步提升模型性能，在完成深度恢复模型的构建之后，将一个34层的残差网络的前15层的参数赋给本模型。利用优良的参数初始化方法减小训练的时间，减小过拟合的风险，并且提升深度恢复的效果。深度恢复模型的损失函数采用一范数的形式。

本发明采用的生成器结构图如图1所示。通过下采样过程，能够提取图像的语义信息，有助于根据图像类别的不同进行深度估计；通过跳跃连接的方式能够为便于梯度的流动，并且实现特征的重复利用；通过使用预训练模型的参数初始化，将从大规模数据集上学习到的知识迁移到本任务的数据集上，利用迁移学习的方法进一步提升模型性能。

(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型。

使用经典的网络结构AlexNet，分别基于RGB-D Object Dataset中的RGB图像和真实深度图像，采用相同的训练参数，分别训练两个卷积神经网络。网络结构为，先是两组11×11卷积层后跟2×2最大池化层的结构，然后接三层3×3的卷积层，以及一个2×2最大池化层。之后接三层全连接层，前两层全连接的输出神经元个数都为4096，最后一层输出个数为51，与数据集类别一致。采用0.01的学习率，随机梯度下降的优化方法，每次随机训练128张图像，一共训练90遍训练集。每训练完30遍训练集，学习率减下为原来的十分之一，动量参数(momentum)设置为0.9，权值衰减系数(weight-decay)设置为0.0001。在所有的分类实验都不进行任何数据增强。整个实验在Pytorch的深度学习框架下进行，实验环境为Ubuntu14.04操作系统，利用NVIDIA(英伟达)公司11GB显存的GTX 1080Ti GPU(显卡)进行网络的训练并利用Cuda(统一计算设备架构技术)进行训练的加速。

采用上述方法训练得到的仅RGB图像输入的模型具有73.84％的分类准确率，称之为网络1，并且作为本文实验的对比基准线；仅深度图像输入的模型具有75.05％，称之为网络2。步骤2的训练得到的深度恢复模型，以及本步骤训练得到的网络1和网络2为最终的融合模型提供预训练的参数，后续实验证明，采用此种方法初始化融合模型的参数，得到的分类性能是最优的。

(4)构建最终的融合模型并进行训练和测试。

将步骤二得到的深度估计模型和步骤三得到的网络1和网络2融合起来，组成最终的融合网络。由于本文的模型最终在测试时无需深度传感器采集的真实深度图像，因此利用深度恢复模型，将输入的RGB图像映射到深度图像，进而送入网络2以代替之前的真实深度图，进而与原本分类RGB图像的子网络结合起来，进行特征融合，从而利用深度信息提升仅RGB图像输入的分类任务的准确率。

基于上述思想，首先仍基于真实的彩色图像和深度图像，先将步骤三得到的网络1和网络2融合起来，然后再考虑用深度恢复的模型代替真实深度图像。基于多模态数据分类的模型融合方式有一下几种方法：一是像素级融合，即是在网络的输入阶段将两种图像堆叠在一起，形成多通道图像进而送入网络进行分类，经过实验发现此方法的准确率为77.64％，比仅使用RGB图像提升4个百分点左右；二是特征级融合，即是在网络的中间过程将两种图像的特征融合起来，两种图像分别经过两个前端的子网络，分别提取出各自模态的特征，在网络的中间过程融合起来，进而进行分类。特征融合的方法我们直接采用特征连接的方式(concat)，将两个子网络输出的特征向量堆叠起来。并且由于中间融合位置的不同，模型的性能也会有不同的变化。经过实验发现，在最后一个池化层进行融合，模型的分类的准确率为80.58％，在第一层全连接层融合，分类准确率为81.61％，在第二层全连接层进行融合准确率为83.004％；三是决策级融合，即是将两种模态的图像分别经过两个网络得到分类结果，进而将两个分类结果进行加权平均的方法。经过实验采用此方法的融合模型准确率为82.12％。经过实验可发现，采用中间特征级融合的方法是最好的，并且在第二层全连接层进行特征融合得到的融合模型的性能是最优的。

利用深度恢复模型代替真实深度图像，进一步融合得到最终的融合模型。将彩色图像输入到模型中后，一路直接输入网络1中进行彩色图像的特征提取，另一路输入深度恢复的模型，得到恢复之后的深度图像，进而输入网络2进行深度图像的特征提取。融合之后的模型不再需要真实深度图像的输入，即可在模型内部完成深度信息的引入，提升了仅需彩色图像进行分类的模型的准确度。此外，彩色图像经过深度恢复模型之后的深度图像，除了输入网络2之外，训练时还与真实深度图像进行回归，目标函数仍为步骤2中的1范数形式。将整个模型进行多任务(Muti-task)联合训练，使得深度恢复任务与图像分类任务能够相互促进进行，恢复出的高质量的深度图能够提升多模态分类的效果，分类网络回传的梯度又可以从语义层引导深度恢复效果的提升，因此二者相互促进进一步提升模型性能。最终的融合模型如图2所示。

(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集

为了验证模型是否有良好的泛化性，将步骤四训练得到的融合模型迁移到自然图像的分类数据集Cifar中。采用两种方式进行迁移，一是直接用步骤四的模型测试自然图像数据集，由于两个数据集的类别不同，因此只训练最后一层全连接层以映射到新的类别数目，保持之前所有层的权重不变，记录分类结果；二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的网络1，加载步骤四中的深度恢复模型和网络2的参数，重新训练整个融合模型，再进行测试。注意由于Cifar数据集并无真实的深度图像，因此在训练时深度恢复模型只产生深度图像并输入网络2中，不再进行1范数的回归。。

(6)对比模型在两个公开数据集上图像分类的效果以及可视化。

为了评估在两个公开数据集上生成效果，依据之前算法的评估方法，采用平均分类准确率的指标。步骤四中的不同融合模型之于原本模型的提升，如表1所示。表一第二行为不引入深度信息、仅使用RGB图像输入的模型的准确率73.84％；第三行和第四行为再最后一层池化层进行特征级融合的结果，其中第三行和第四行为分别为深度恢复的模型不使用预训练参数和使用预训练参数的结果，可发现使用预训练参数效果更好；第五行为使用预训练参数，在第二层全连接层进行融合的结果。可发现最终的融合模型能够达到79.90％的分类准确率，较之73.84％的准确率，有着6个百分点的提升。对于步骤四的迁移效果，实验结果如表2所示，采用两种迁移方式，第一种迁移方式引入深度信息会有约6个点的提升，第二种迁移方式引入深度信息之后会有约0.6个百分点的提升。可以发现，本发明的泛化性较好，在没有真实深度图像的数据集中仍有较好的提升效果。为了更直观的评估恢复深度信息的优劣，原始深度图像直接显示基本全为黑色不利于直观观察，将生成的图像减去单幅图像最小像素值，再除以最大像素值与最小像素值之差，即将绝对深度距离归一化为相对深度距离，便于可视化。最终结果如下表1和表2所示：

表1 RGB-D Object Dataset数据集中的分类结果

表2 Cifar数据集中的分类结果

如图3所示。可见本发明方法中恢复的深度图像质量较高，也进一步说明了本发明算法准确率提升的原因在于，在二维图像的分类中充分利用了深度信息。

Claims

1.一种基于深度恢复信息的物体分类方法，其特征是，步骤如下：

2.如权利要求1所述的基于深度恢复信息的物体分类方法，其特征是，一个实例中步骤具体细化如下：

(1)对数据集进行预处理。

(2)构建模型中的深度恢复模型

(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型

(4)构建最终的融合模型并进行训练和测试

3.如权利要求2所述的基于深度恢复信息的物体分类方法，其特征是，与原本分类RGB图像的子网络结合起来，进行特征融合，从而利用深度信息提升仅RGB图像输入的分类任务的准确率，具体地，首先仍基于真实的彩色图像和深度图像，先将步骤三得到的网络1和网络2融合起来，然后再考虑用深度恢复的模型代替真实深度图像，基于多模态数据分类的模型融合方式有以下几种方法：一是像素级融合；二是特征级融合，三是决策级融合。

4.如权利要求2所述的基于深度恢复信息的物体分类方法，其特征是，采用中间特征级融合的方法。