CN111401422B

CN111401422B - 一种基于多角度深度推理的深度网络图像分类方法

Info

Publication number: CN111401422B
Application number: CN202010155510.1A
Authority: CN
Inventors: 朱安
Original assignee: Nanjing Landi Information Technology Co ltd
Current assignee: Nanjing Landi Information Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2024-03-08
Anticipated expiration: 2040-03-09
Also published as: CN111401422A

Abstract

本发明提出一种基于多角度深度推理的深度网络图像分类方法，应用深度网络，深度网络中包括相互连通的自监督孪生深度预测网络和图片分类网络，利用自监督孪生深度预测网络构建RGBD模型，构建RGBD数据集；图片分类网络中存储有图片分类数据库和图片分类模型，图片分类数据库中包括RGBD数据集和标识，基于多角度深度推理的深度网络图像分类方法包括如下步骤：将无标识的RGB图像导入RGBD模型中生成无标识的RGBD数据集；将无标识的RGBD数据读入图片分类模型中分类，获取对应的标识。本发明所述的基于多角度深度推理的深度网络图像分类方法具有网络结构合理实用、实现了端到端的图像分类、有效的提升了图像分类时的识别区分能力、提高了分类的正确率的优点。

Description

一种基于多角度深度推理的深度网络图像分类方法

技术领域

本发明涉及图像深度信息应用领域，特别涉及一种基于多角度深度推理的深度网络图像分类方法。

背景技术

随着互联网和多媒体技术的快速发展，图像数据呈现出爆发式的增长，如何对海量图像进行高效的分类和检索成了一项新的挑战。图像分类是图像检索、物体检测和识别等应用的基础，也是模式识别和机器学习中的研究热点。深度学习在图像处理领域被广泛使用，并且普遍取得优于传统方法的性能。

自2012年起，深度学习的图像分类领域经过了2012年的AlexNet、2014年的VGG、GoogLeNet，到了2015的ResNet终于达到了超过人类的水平。而在最后两届的ILSVRC比赛中，DenseNet和SENets再一次降低了错误率，正确率已经高达97.8％。我们发现，这些深度学习网络都有一个共性，就是通过各种方式把同一类物体的大量图片作为输入，让模型学会分辨这种物体。目前深度学习的现状是，只要有足够的数据，合适的模型，基本都能够有较好的效果。

但是，大部分类别我们没有数据积累，large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后，对于新的类别，我们只需要少量的样本就能快速学习，由此对小样本学习(few-shot learning)的研究应运而生。

小样本学习研究主要分为如下两类：

第一类方法直接基于有监督学习的方法，这是指没有其他的数据源，不将其作为一个迁移学习的问题看待，只利用这些小样本，在现有信息上训练模型，然后做分类，例如KNN，以及非参数方法。

第二类方法是基于迁移学习的方法，是指有其他数据源时，利用这些辅助数据集去做迁移学习。

本发明主要运用了上述的第二类方法来解决小样本问题，通过引入图片的深度信息作为提前知道的不需要网络自己去学习的知识，辅助分类网络进行分类。

发明内容

本发明的目的提供一种基于多角度深度推理的深度网络图像分类方法，解决上述现有技术问题中的一个或多个。

本发明提出一种基于多角度深度推理的深度网络图像分类方法，应用深度网络，深度网络中包括相互连通的自监督孪生深度预测网络和图片分类网络，利用自监督孪生深度预测网络构建RGBD模型，用于构建RGBD数据集，RGBD数据集中包括RGB图像和Depth图像，RGB图像与Depth图像对应；图片分类网络中存储有图片分类数据库和图片分类模型，图片分类数据库中包括RGBD数据集和标识，标识与RGBD数据集对应；基于多角度深度推理的深度网络图像分类方法包括如下步骤：

将无标识的RGB图像导入RGBD模型中生成无标识的RGBD数据集；将无标识的RGBD数据读入图片分类模型中分类，获取无标识的RGBD数据集在图片分类数据库中对应的标识。

在某些实施方案中，深度网络的训练方法包括如下步骤：

获取数据集，数据集中包括能够同时进行单目、双目、多目深度估计的RGB图像和标识，标识与RGB图像对应；

将数据集划分为训练集、验证集以及测试集；

在自监督孪生深度预测网络和图片分类网络中分别训练RGBD模型和图片分类模型；

在自监督孪生深度预测网络和图片分类网络建立数据输送通道；

将测试集中的RGB图像读入RGBD模型中形成测试集对应的RGBD数据集；

将测试集对应的RGBD数据集读入图片分类模型中进行分类测试。

在某些实施方案中，所述数据集按照6:2:2的比例划分为训练集、验证集以及测试集。

在某些实施方案中，RGBD模型的训练方法包括如下步骤：

将训练集中的RGB图像作为样本读入自监督孪生深度预测网络，进行训练，生成RGBD模型；

将验证集中的RGB图像读入RGBD模型中进行验证测试，获取验证集对应的RGBD数据集。

在某些实施方案中，所述RGBD模型的运行方法如下：在自监督孪生深度预测网络中建立两条孪生网络，分别为第一条孪生网络和第二条孪生网络，第一条孪生网络读取数据集中的RGB图像经过自编码器后生成第一条孪生网络对应的Depth图像；第二条孪生网络将数据集中的RGB图像进行水平翻转，再经过自编码器得到对应的Depth图像，再一次水平翻转，产生第二条孪生网络的Depth图像，然后利用第二条孪生网络对应的Depth图像与第一条孪生网络对应的Depth图像计算几何一致性损失，并把几何一致性损失梯度翻转传播更新网络权重，重复上述操作直至几何一致性损失达到持续在一个取值范围内上下浮动的效果，得到RGB图像对应的Depth图像，RGB图像对应的Depth图像与RGB图像结合形成RGBD数据集。

在某些实施方案中，两条所述孪生网络中的自编码器是共享权重的。在某些实施方案中，所述图片分类模型的训练方法包括如下步骤：将训练集中的RGB图像和验证集中的RGB图像分别读入RGBD模型生成训练集对应的RGBD数据集；

将训练集对应的RGBD数据集与对应的标识结合作为图片分类训练样本读入图片分类网络中进行训练生成图片分类模型；

将验证集对应的RGBD数据集读入图片图片分类模型中进行验证测试。

在某些实施方案中，所述图片分类网络基于VGG16网络。

在某些实施方案中，在将RGB图像读入RGBD模型前需要对RGB图像进行归一化处理，使得读入RGBD模型的图片的尺寸一致。

本发明所述的一种基于多角度深度推理的深度网络图像分类方法的优点为：

1)网络结构实用，直接将RGB图像就可以输出RGB图像对应的分类结果，实现了端到端的图像分类，具有较强泛化性；

2)利用Depth图像辅助分类，大幅提升识别区分能力，提高分类的正确率；

3)利用新类物体对应的少量图片即可生产RGBD数据集辅助图片分类，达到很好的分类效果。

具体实施方式

本实施例提出一种基于多角度深度推理的深度网络图像分类方法，应用深度网络，深度网络中包括相互连通的自监督孪生深度预测网络和基于VGG16网络的图片分类网络，利用自监督孪生深度预测网络构建RGBD模型，用于构建RGBD数据集，RGBD数据集中包括RGB图片和Depth图像，RGB图片与Depth图像对应；图片分类网络中存储有图片分类数据库和图片分类模型，图片分类数据库中包括RGBD数据集和标识，标识与RGBD数据集对应，其中自监督孪生深度预测网络中包括两条孪生网络，分别为第一条孪生网络和第二条孪生网络，第一条孪生网络读取数据集中的RGB图像经过自编码器后生成第一条孪生网络对应的Depth图像；第二条孪生网络将数据集中的RGB图像进行水平翻转，再经过自编码器得到对应的Depth图像，再一次水平翻转，产生第二条孪生网络的Depth图像，然后利用第二条孪生网络对应的Depth图像与第一条孪生网络对应的Depth图像计算几何一致性损失，并把几何一致性损失梯度翻转传播更新网络权重，重复上述操作直至几何一致性损失达到在一个稳定的范围值内上下浮动的效果，得到RGB图像对应的Depth图像，两条孪生网络中的自编码器是共享权重的。

深度网络的训练方法包括如下步骤：

步骤1、获取数据集，数据集中包括能够同时进行单目、双目、多目深度估计的RGB图像和标识，标识与RGB图像对应，数据集按照6:2:2的比例随机划分为训练集、验证集以及测试集，数据集中的图片进行过归一化处理，图片的尺寸统一；

步骤2、在自监督孪生深度预测网络和图片分类网络中分别训练RGBD模型和图片分类模型，其中

RGBD模型的训练方法包括如下步骤：

步骤2.1.1、将训练集中的RGB图像作为样本读入自监督孪生深度预测网络，进行训练，生成RGBD模型，

训练过程具体如下：

获取训练集中的第一张RGB图像对应的Depth图像，将第一张RGB图像读入第一条孪生网络中，将第一张RGB图像经过自编码器后生成第一条孪生网络对应的Depth图像；将第一张RGB图像读入第二条孪生网络中，将第一张RGB图像进行水平翻转，再经过自编码器得到对应的Depth图像，再一次水平翻转，产生第二条孪生网络的Depth图像，然后利用第二条孪生网络对应的Depth图像与第一条孪生网络对应的Depth图像计算几何一致性损失，并把几何一致性损失梯度翻转传播更新网络权重，重复上述操作直至几何一致性损失达到持续在一个取值范围内上下浮动的效果，得到第一张RGB图像对应的Depth图像，第一张RGB图片对应的Depth图像与第一张RGB图像结合形成第一张RGB图像对应的RGBD数据集；

重复上述操作得到训练集中的其他RGB图像对应的Depth图像，其中不同的RGB图像对应的取值范围可以不同，这对于本行业的工作人员是公知的，因此不做详述；

步骤2.1.2、将验证集中的RGB图像读入RGBD模型中进行验证测试，RGBD模型输出验证集对应的RGBD数据集；

图片分类模型的训练方法包括如下步骤：

步骤2.2.1、将训练集中的RGB图像和验证集中的RGB图像分别读入RGBD模型生成训练集对应的RGBD数据集；

步骤2.2.2、将训练集对应的RGBD数据集与对应的标识结合作为图片分类训练样本读入图片分类网络中进行训练生成图片分类模型；

步骤2.2.3、将验证集对应的RGBD数据集读入图片图片分类模型中进行验证测试，验证测试结果没有找到验证集中RGB图像对应的标识；

步骤3、在自监督孪生深度预测网络和图片分类网络建立数据输送通道，数据输送通道是由自监督孪生深度预测网络向图片分类网络单向进行数据传输的通道，用于将RGBD模型输出的RGBD数据集传输给图片分类模型；

步骤4、将测试集中的RGB图像读入RGBD模型中形成测试集对应的RGBD数据集，并通过数据传输通道将测试集对应的RGBD数据集书传输给图片分类模型；

步骤5、利用测试集对应的RGBD数据集对图片分类模型进行分类测试，测试结果为没有找到测试集中RGB图像对应的标识。

基于多角度深度推理的深度网络图像分类方法包括如下步骤：

步骤A、对无标识的RGB图像进行归一化处理，使得RGB图像的尺寸与图片分类数据库中RGB图像的尺寸相同；

步骤B、将经过归一化处理的RGB图像读入RGBD模型生成无标识的RGBD数据集；

步骤C、将无标识的RGBD数据集传输到图片分类模型中进行分类，如果图片分类数据库中存在对应的RGBD数据集，即无标识的RGBD数据集中的RGB图像和Depth图像与对应的RGBD数据集中的RGB图像和Depth图像一致或无标识的RGBD数据集中Depth图像与对应的RGBD数据集中的Depth图像一致，图片分类模型输出对应的RGBD数据集的标识；反之图片分类数据库中不存在对应的RGBD数据集，图片分类结果为没有找到对应的标识。

以上所述仅是本发明的优选方式，应当指出，对于本领域普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干相似的变形和改进，这些也应视为本发明的保护范围之内。

Claims

1.一种基于多角度深度推理的深度网络图像分类方法，其特征在于，应用深度网络，深度网络中包括相互连通的自监督孪生深度预测网络和图片分类网络，利用自监督孪生深度预测网络构建RGBD模型，用于构建RGBD数据集，RGBD数据集中包括RGB图像和Depth图像，RGB图像与Depth图像对应；图片分类网络中存储有图片分类数据库和图片分类模型，图片分类数据库中包括RGBD数据集和标识，标识与RGBD数据集对应；

将无标识的RGB图像导入RGBD模型中生成无标识的RGBD数据集；

将无标识的RGBD数据读入图片分类模型中分类，获取无标识的RGBD数据集在图片分类数据库中对应的标识；

自监督孪生深度预测网络包括两条孪生网络，分别为第一条孪生网络和第二条孪生网络，利用自监督孪生深度预测网络构建RGBD模型前获取数据集，数据集中包括能够同时进行单目、双目、多目深度估计的RGB图像和标识，标识与RGB图像对应，将数据集划分为训练集、验证集以及测试集，利用自监督孪生深度预测网络构建RGBD模型时RGBD模型的训练方法包括如下步骤：

将训练集中的RGB图像作为样本读入自监督孪生深度预测网络，进行训练，生成RGBD模型，

训练过程具体如下：

重复上述操作得到训练集中的其他RGB图像对应的Depth图像；

将验证集中的RGB图像读入RGBD模型中进行验证测试，RGBD模型输出验证集对应的RGBD数据集。

2.根据权利要求1所述的一种基于多角度深度推理的深度网络图像分类方法，其中，深度网络的训练方法包括如下步骤：

将数据集划分为训练集、验证集以及测试集；

3.根据权利要求2所述的一种基于多角度深度推理的深度网络图像分类方法，其中，所述数据集按照6:2:2的比例划分为训练集、验证集以及测试集。

4.根据权利要求1所述的一种基于多角度深度推理的深度网络图像分类方法，其中，两条所述孪生网络中的自编码器是共享权重的。

5.根据权利要求2所述的一种基于多角度深度推理的深度网络图像分类方法，其中，所述图片分类模型的训练方法包括如下步骤：

将训练集中的RGB图像和验证集中的RGB图像分别读入RGBD模型生成训练集对应的RGBD数据集；

将验证集对应的RGBD数据集读入图片分类模型中进行验证测试。

6.根据权利要求1、2或5中任一项所述的一种基于多角度深度推理的深度网络图像分类方法，其特征在于，所述图片分类网络基于VGG16网络。

7.根据权利要求1、2或5中任一项所述的一种基于多角度深度推理的深度网络图像分类方法，其中，在将RGB图像读入RGBD模型前需要对RGB图像进行归一化处理，使得读入RGBD模型的图片的尺寸一致。