CN111860116B

CN111860116B - 一种基于深度学习和特权信息的场景识别方法

Info

Publication number: CN111860116B
Application number: CN202010493237.3A
Authority: CN
Inventors: 孙宁; 王龙玉; 李晓飞
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-08-26
Anticipated expiration: 2040-06-03
Also published as: CN111860116A

Abstract

本发明提出了一种基于深度学习和特权信息的场景识别方法，属于图像处理技术领域。其具体步骤包括(1.1)：从场景识别库中选取多个主要场景的RGB图像和深度图像，并将其与RGB图像进行配对；(1.2)：构建结合特权信息和注意力机制的端到端可训练的深度神经网络模型；(1.3)：对深度神经网络模型进行训练，训练时使用权重重分配的方式避免数据不均衡；(1.4)：得到该图像的场景分类结果。本发明以图像编码到特征解码再到图像编码为架构，建立了由RGB图像到深度图像再到深度图像高层语义特征的映射关系。有效解决了深度模态缺失的现状，在只使用RGB图像的情况下，达到了多模态图像融合的效果。

Description

一种基于深度学习和特权信息的场景识别方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习和特权信息的场景识别方法。

背景技术

现有技术中，场景识别作为计算机视觉领域的重要分支之一，已广泛应用于人机交互、智能机器人、智能视频监控、自动驾驶等领域；它也被认为是其他高级计算机视觉任务如图像检索和目标检测的前提或先验知识。

近年来，随着大型数据集的提出，基于深度学习的场景识别方法得到了飞速发展，取得比传统算法更好的识别效果；与此同时，深度图像信息可以为场景识别提供有价值的全局布局信息；将RGB图像与深度图像相结合，将进一步提高场景识别的效果；然而，其缺点是：深度图像存在着获取难度高，数据量小的现状。

发明内容

针对上述问题，本发明提供了一种基于深度学习和特权信息的场景识别方法，通过将深度图像作为特权信息的方式，解决了深度图像难以获取，数据量少的现状，利用深度学习与特权信息相结合的方法实现了场景识别。

本发明的技术方案是：一种基于深度学习和特权信息的场景识别方法，所述场景识别方法包括以下步骤：

步骤(1.1)：从场景识别库中选取若干场景的RGB图像和深度图像，对深度图像的水平视差、地面高度和重力角度进行编码，将编码后的深度图像与RGB图像进行配对，将配对成功的图像按比例划分为训练集和测试集；

步骤(1.2)：构建结合特权信息和注意力机制的深度神经网络，该深度神经网络通过端到端(从头到尾直接进行训练，无需关心中间过程)的方式进行训练；

所述的深度神经网络包括编码器网络、解码器网络、语义一致性网络、特权信息提取网络、分类器网络及注意力模块；

步骤(1.3)：利用步骤(1.1)中划分好的训练集，对深度神经网络进行训练，在训练过程中，采用权重重分配的方式，从而提高少数目类别的权重，降低多数目的类别权重；

步骤(1.4)：步骤(1.2)中所述的语义一致性网络是用于保证生成图像的质量、指导编码器网络和解码器网络的学习特权信息；只需在训练阶段使用；而在进行测试阶段时，则需将深度神经网络中的语义一致性网络去除，以RGB图像作为输入，得到该图像的场景分类结果。

进一步的，在步骤(1.2)中，将深度神经网络构建中的编码器网络、解码器网络及语义一致性网络构成图像生成模型；

其中，所述编码器网络与解码器网络通过编解码结构生成伪深度图像，

所述语义一致性网络在训练时通过语义一致性损失拉近伪深度图像与水平视差、地面高度和重力角度编码的真实深度图像的语义，从而确定生成图像的语义质量；

所述编码器网络在充当编码器的同时提取RGB图像的高维特征。

进一步的，步骤(1.2)中所述构建的特权信息提取网络，用于提取伪深度图像的高维特征。

进一步的，所述步骤(1.2)中的注意力模块，是使用伪深度图像的高维特征对RGB图像的高维特征进行引导，关注有用特征，抑制无用特征。

进一步的，所述的步骤(1.3)中，将RGB图像和水平视差、地面高度和重力角度编码的深度图像输入深度神经网络中，使用权重重分配交叉熵损失避免类别不均衡，即提高小数目类别权重，降低多数目类别权重；以避免数据不均衡。

进一步的，在步骤(1.3)及步骤(1.4)中，在训练阶段中，利用配对的RGB与水平视差、地面高度和重力角度编码的深度图像，学习特权信息；

在测试阶段，只需输入RGB单模态信息，利用已训练好的图像生成模型，获得缺失模态图像，并利用特权信息网络提取特权信息高维特征，结合RGB图像特征通过注意力模块加强之后，进行识别分类，获得接近多模态融合的分类结果。

本发明的有益效果是：本发明以图像编码到特征解码再到图像编码为架构，建立了由RGB图像到深度图像再到深度图像高层语义特征的映射关系；通过注意力机制，将RGB图像高层语义特征与对应的伪深度图像高层语义特征进行融合，输入分类网络，最终得到预测结果；在测试时，只需要输入RGB图像，便可在本发明模型获取的深度图像特权信息的帮助下，提升场景识别的性能；有效解决了深度模态缺失的现状，在只使用RGB图像的情况下，达到了多模态图像融合的效果。

附图说明

图1是本发明的结构流程图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将对本发明中进行进一步的叙述；显而易见地，下面描述中的仅仅是一部分的实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些将本发明所述的技术方案应用于其它类似情景；为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种基于深度学习和特权信息的场景识别方法，所述场景识别方法包括以下步骤：

步骤(1.1)：从场景识别库中选取若干场景的RGB图像和深度图像，对深度图像的水平视差、地面高度和重力角度进行编码，将编码后的深度图像与RGB图像进行配对，所述编码后的深度图像是水平视差、地面高度和重力角度编码的真实深度图像(HHA图像)，将配对成功的图像按比例划分为训练集和测试集；

步骤(1.2)：构建结合特权信息和注意力机制的深度神经网络(PIA-SRN)，该深度神经网络(PIA-SRN)通过端到端(从头到尾直接进行训练，无需关心中间过程)的方式进行训练；

所述的深度神经网络(PIA-SRN)包括编码器网络(E-Net)、解码器网络(D-Net)、语义一致性网络(S-Net)、特权信息提取网络(PI-Net)、分类器网络(C-Net)及注意力模块(A-Mod))；

其中，所述编码器网络与解码器网络通过编解码结构生成伪深度图像(P_hha)，

所述语义一致性网络在训练时通过语义一致性损失拉近伪深度图像与真实HHA图像的语义，从而确定生成图像的语义质量；

所述编码器网络在充当编码器的同时提取RGB图像的高维特征(F_r)。

进一步的，步骤(1.2)中所述构建的特权信息提取网络，用于提取伪深度图像的高维特征(F_h)。

进一步的，所述的步骤(1.3)中，将RGB图像和HHA图像输入深度神经网络中，使用权重重分配交叉熵损失避免类别不均衡，即提高小数目类别权重，降低多数目类别权重；以避免数据不均衡。

进一步的，在步骤(1.3)及步骤(1.4)中，在训练阶段中，利用配对的RGB与HHA图像，学习特权信息；

具体的，从信息流程上看，RGB图像经过E-Net和D-Net后可以生成相对应的伪深度图像P_hha和由RGB图像学习得到的高层场景语义特征F_r；P_hha与HHA输入S-Net中，通过语义一致性损失约束生成图像的语义质量；PI-Net提取P_hha中的高层场景语义特征F_h。F_r和F_h经过A-Mod的处理后得到注意力加权后的高层场景语义特征F_a，输入C-Net后，便可以得到场景图像的识别结果。

编码器网络与特权信息提取网络结构一致，包括1个卷积层和4个残差层，卷积层尺寸为7×7，步长为2；残差层有基础残差块构成，步长分别为1,2,2,2；编码器网络与特权信息网络的目的是提取RGB图像与生成HHA图像的高维特征。

解码器网络由4个残差上采样层和1个卷积层构成，与编码器成对称结构，目的是将压缩后的向量恢复为224×224×3的伪深度场景图像；残差上采样层由系数为2的双线性插值和基础残差块构成，卷积层尺寸为1×1，步长为1；为了加强图像生成效果，编码器与解码器网络对称残差块间通过1×1卷积进行跳线连接。

语义一致性网络由Resnet18构成，Resnet18加载Place预训练模型作为特征提取器，接受HHA和P_hha作为输入，对二者每层基础残差块的输出结果求取L₁损失并求和后作为语义一致性损失。

注意力模块以F_r和F_h作为输入，二者分别经过3×3卷积得到F_r1与F_h1,F_r1通过Sigmoid激活后与F_h1进行点乘，抑制F_r1中的不相关信息，强调有用信息，点乘结果再通过一次3×3，步长为2的卷积得到F_a。

分类器网络由一个全局平均池化层和两个全连接层构成；全局平均池化大小为7×7，全连接层维度分别为512和场景类别数，再通过softmax输出分类。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种基于深度学习和特权信息的场景识别方法，其特征在于，所述场景识别方法包括以下步骤：

步骤(1.2)：构建结合特权信息和注意力机制的深度神经网络，该深度神经网络通过端到端的方式进行训练；

2.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法，其特征在于：在步骤(1.2)中，将深度神经网络构建中的编码器网络、解码器网络及语义一致性网络构成图像生成模型；

3.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法，其特征在于：步骤(1.2)中所述构建的特权信息提取网络，用于提取伪深度图像的高维特征。

4.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法，其特征在于：所述步骤(1.2)中的注意力模块，是使用伪深度图像的高维特征对RGB图像的高维特征进行引导，关注有用特征，抑制无用特征。

5.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法，其特征在于：所述的步骤(1.3)中，将RGB图像和水平视差、地面高度和重力角度编码的深度图像输入深度神经网络中，使用权重重分配交叉熵损失避免类别不均衡，即提高小数目类别权重，降低多数目类别权重。

6.根据权利要求2所述的一种基于深度学习和特权信息的场景识别方法，其特征在于：在步骤(1.3)及步骤(1.4)中，在训练阶段中，利用配对的RGB与水平视差、地面高度和重力角度编码的深度图像，学习特权信息；