CN111914852A

CN111914852A - 一种基于编解码结构的多模态显著性对象检测方法

Info

Publication number: CN111914852A
Application number: CN202010494739.8A
Authority: CN
Inventors: 周晓飞; 颜成钢; 潘亮; 贺熠凡; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-11-10
Anticipated expiration: 2040-06-03
Also published as: CN111914852B

Abstract

本发明提供一种基于编解码结构的多模态显著性对象检测方法。本发明在已有的彩色图像算法模型的基础之上，将深度图像作为先验信息，补充到算法之中。本发明方法可分为两部分：一部分以彩色图像为输入，基于编解码结构的深度学习技术，实现显著性检测；另一部分用于处理深度图像，用轻量级的神经网络学习深度特征，并将特征信息补充到第一部分，从而提高整体模型的识别精度。本发明方法能够简单高效的利用深度图像，从中学习特征，增强算法的识别精度和稳定性，能够为现有部署的显著性检测算法提供快捷、低廉的更新手段。

Description

一种基于编解码结构的多模态显著性对象检测方法

技术领域

本发明属于计算机视觉技术领域，尤其针对图像显著性对象检测任务，具体涉及一种基于编解码结构的，联合彩色图像与深度图像的多模态显著性对象检测算法。

背景技术

计算机视觉技术是人工智能领域的重要分支，随着神经网络、深度学习的快速发展，计算机视觉领域的诸多难题，例如：图像分类、目标检测、图像分割任务，取得了巨大进展，算法的准确性、实时性得到大幅增强。目前，计算机视觉技术已广泛应用于实际生产生活中，尤其是安防监控领域、支付领域、智能制造领域，推动社会生产降本提效，提高公民生活水平。基于深度学习的图像分割，是计算机视觉的关键技术，显著性对象检测为图像分割的子问题之一。显著性对象检测是由人类的注意力机制演变而来，目的在于识别出图像或视频数据中较为突出的物体，广泛应用于智能手机、安防监控、图像处理领域中。

现有的显著性对象检测算法主要基于深度学习技术，可分为单物体、多物体检测，大多数被提出的算法都以彩色图像为输入。近年来，随着激光雷达、深度相机等硬件设备的发展，使智能手机、汽车等设备拥有了感知深度信息的能力，因此，对于显著性检测算法来说，正确、有效的利用深度信息至关重要，联合彩色图像和深度图像作为输入，提高算法精度、稳定性有待研究。目前，主要的挑战分为两点，一方面，需要重新研发新的算法，来共同处理彩色图像和深度图像；另一方面，需要简单有效的策略，将深度信息融合到已有的算法中去。在生产生活中，前者的做法往往成本较高，因此，后者的做法更应该被采纳，这样既能利用好深度信息，提高算法精度与鲁棒性，也能控制成本，使算法的更新换代更方便快捷。

本发明主要考虑随着激光雷达、深度相机等硬件设备的发展进步，越来越多的设备将具有获取环境中物体深度信息的能力。如何更好的利用深度信息，从而提高显著性对象检测算法的准确率和鲁棒性是值得探讨的问题。

发明内容

针对现有技术中存在的不足，本发明提供一种基于编解码结构的多模态显著性对象检测方法。

本发明针对联合彩色图像与深度图像共同进行显著性对象检测的问题，在已有的彩色图像算法模型的基础之上，将深度图像作为先验信息，补充到算法之中。本发明提出的显著性检测方法，可分为两部分：一部分以彩色图像为输入，基于编解码结构的深度学习技术，实现显著性检测；另一部分用于处理深度图像，用轻量级的神经网络学习深度特征，并将特征信息补充到第一部分，从而提高整体模型的识别精度。具体按照以下步骤实施：

步骤1、根据应用的真实环境选择合适的数据集，确定数据的格式、分布、数量，划分训练集和测试集。

步骤2、确定网络模型的组成部分，设计执行流程，选择合适的损失函数。

步骤3、设置参数，选择优化器，训练模型，得到模型参数。

步骤4、使用测试集对训练后的模型进行测试。

本发明方法具有的优点及有益结果为：

1、随着深度感知设备的快速发展，传统设备端获得了获取环境中深度信息的能力，本发明方法能够简单高效的利用深度图像，从中学习特征，增强算法的识别精度和稳定性。

2、本发明方法能够为现有部署的显著性检测算法提供快捷、低廉的更新手段，在算法框架上使用本专利发明的算法，仅增加少量的计算开销和内存占用，就可以在带有深度感知硬件的新设备上完成算法的更新换代，降低重复开发成本，促进计算机视觉技术的产业化应用发展。

附图说明

图1是本发明提出的网络模型结构图；

图2是本发明提出的对比度引导的多模态特征混合解码器的结构；

图3是本发明提出的算法的使用效果图。

具体实施方式

下面结合具体实施方式对本发明进行详细的说明。

本发明提出一种基于编解码结构的多模态显著性对象检测方法，按照以下步骤实施。

步骤1、选择合适的数据集，并进行预处理，划分训练集和测试集。

彩色图像采用RGB颜色空间的格式，深度图像采用0-255灰度值表达深度信息的格式，数据集中深度图像的像素值含义要与深度感知设备保持一致。数据集可以从公开的五个数据集：NJU2K、LFSD、NLPR、STERE、DES中进行选择，本实施例从NJU2K数据集中随机选择1400张彩色图像及对应的深度图像、从NLPR数据集中随机选择650张彩色图像及对应的深度图像，并进行水平镜像翻转、旋转90°、旋转180°、旋转270°，从而实现五倍的数据集扩增，并将数据集中深度图像的像素值进行线性变换，像素值0代表深度为0，像素值255代表深度为255。

如图1所示，网络模型分为显著性对象预测分支和对比度特征学习分支；

显著性对象预测分支以彩色图像为输入的，基于编解码结构，用于完成显著性对象预测任务。编码部分使用ResNet-34网络，解码部分为对比度引导的多模态特征混合解码器，所述的对比度引导的多模态特征混合解码器对彩色特征和对比度特征进行充分融合，首先使用拼接操作，将对比度特征中的信息补充到显著性对象预测过程中，然后再次使用彩色特征与对比度特征生成特征滤波器，对颜色特征进行增强，如附图2所示。在解码部分每个阶段均有损失函数进行监督，损失函数如公式(1)所示，采用最后一个阶段的输出作为最终的显著性对象预测结果；

显著性对象预测分支的损失函数：

L_rgb＝YlogP+(1-Y)log(1-P) (1)

该损失函数为交叉熵损失函数，Y代表显著性结果真值，P代表算法预测的结果。

对比度特征学习分支以深度图像为输入，采用编解码结构，用于从深度图像中学习对比度特征，并作为先验信息补偿到显著性对象预测分支，在对比度特征学习分支解码部分的最后一个阶段使用对比度损失函数进行监督，对比度损失函数如公式(2)所示。

对比度特征学习分支的损失函数：

L_depth＝a*(L_fore+L_back)+b*L_both (2)

L_fore＝-log(1-4*D_fore)

L_back＝-log(1-4*D_back)

L_both＝-log(D_fore-D_back)²

其中，a、b为超参数，设置为a＝1，b＝10。D_fore代表深度图像中，前景区域即显著性对象区域的像素方差，D_back代表深度图像中，背景区域即非显著性对象区域的像素方差。

具体执行流程：

1)将深度图像输入对比度特征学习分支，学习得到对比度特征

2)将彩色图像输入显著性对象预测分支中，经过编码器作用，学习得到彩色特征

3)将相应特征层级的对比度特征

的彩色特征

输入显著性对象预测分支解码部分的对应解码器中，得到融合特征

并将融合特征

并输入下一级解码器，重复执行。

4)取显著性对象预测分支最后一个解码器的输出结果作为显著性对象检测的预测结果。

中：F代表特征，d代表特征来自对比度特征学习分支，i代表是对比度特征学习分支解码端第i个层级的特征层。

中：F代表特征，R代表特征来自显著性对象预测分支，j代表是显著性对象预测分支编码器第j个层级的特征层。

中：F代表特征，f代表特征是经过融合的，n代表是显著性对象预测分支解码端第n个层级的特征层。

步骤3、设置训练参数，选择优化器，将训练集输入模型中进行训练，得到模型参数。

1)训练参数设置：训练迭代次数18000次，每次训练使用8张图片；

分置学习率策略：显著性对象预测分支学习率设置为1e^-4，对比度特征学习分支学习率设置为1e^-6；

使用学习率衰减策略：当迭代次数为13000次时，显著性对象预测分支学习率减小为1e^-5。

2)优化器：使用Adam优化器。

3)将训练集输入模型中进行训练，得到模型参数。

步骤4、使用测试集对训练后的模型进行测试。

本发明提出的新型显著性对象检测算法的效果图参照图3.

本发明提出的算法的精确度评估：

本发明提出的新型显著性对象检测算法，在五个公开数据集上均能完成显著性检测任务，并取得较高的性能结果。

Claims

1.一种基于编解码结构的多模态显著性对象检测方法，其特征在于，步骤如下：

步骤1、根据应用的真实环境选择合适的数据集，确定数据的格式、分布、数量，划分训练集和测试集；

步骤2、确定网络模型的组成部分，设计执行流程，选择合适的损失函数；

步骤3、设置参数，选择优化器，训练模型，得到模型参数；

步骤4、使用测试集对训练后的模型进行测试。

2.根据权利要求1所述的一种基于编解码结构的多模态显著性对象检测方法，其特征在于，步骤1选择合适的数据集，并进行预处理，划分训练集和测试集，具体操作如下；

彩色图像采用RGB颜色空间的格式，深度图像采用0-255灰度值表达深度信息的格式，数据集中深度图像的像素值含义要与深度感知设备保持一致；对选取的数据采用水平镜像翻转、旋转90°、旋转180°、旋转270°，从而实现五倍的数据集扩增，并将数据集中深度图像的像素值进行线性变换，像素值0代表深度为0，像素值255代表深度为255。

3.根据权利要求2所述的一种基于编解码结构的多模态显著性对象检测方法，其特征在于，步骤2、确定网络模型的组成部分，设计执行流程，选择合适的损失函数，具体操作如下；

网络模型分为显著性对象预测分支和对比度特征学习分支；

显著性对象预测分支以彩色图像为输入的，基于编解码结构，用于完成显著性对象预测任务；编码部分使用ResNet-34网络，解码部分为对比度引导的多模态特征混合解码器，所述的对比度引导的多模态特征混合解码器对彩色特征和对比度特征进行充分融合，首先使用拼接操作，将对比度特征中的信息补充到显著性对象预测过程中，然后再次使用彩色特征与对比度特征生成特征滤波器，对颜色特征进行增强；在解码部分每个阶段均有损失函数进行监督，损失函数如公式(1)所示，采用最后一个阶段的输出作为最终的显著性对象预测结果；

显著性对象预测分支的损失函数：

L_rgb＝YlogP+(1-Y)log(1-P) (1)

该损失函数为交叉熵损失函数，Y代表显著性结果真值，P代表算法预测的结果；

对比度特征学习分支以深度图像为输入，采用编解码结构，用于从深度图像中学习对比度特征，并作为先验信息补偿到显著性对象预测分支，在对比度特征学习分支解码部分的最后一个阶段使用对比度损失函数进行监督，对比度损失函数如公式(2)所示；

对比度特征学习分支的损失函数：

L_depth＝a*(L_fore+L_back)+b*L_both (2)

L_fore＝-log(1-4*D_fore)

L_back＝-log(1-4*D_back)

L_both＝-log(D_fore-D_back)²

其中，a、b为超参数，设置为a＝1，b＝10；D_fore代表深度图像中，前景区域即显著性对象区域的像素方差，D_back代表深度图像中，背景区域即非显著性对象区域的像素方差；

具体执行流程：