CN110555434A

CN110555434A - 一种局部对比和全局指导的立体图像视觉显著性检测方法

Info

Publication number: CN110555434A
Application number: CN201910827885.5A
Authority: CN
Inventors: 周武杰; 吕营; 雷景生; 钱亚冠; 王海江; 何成
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2019-12-10
Anticipated expiration: 2039-09-03
Also published as: CN110555434B

Abstract

本发明公开一种局部对比和全局指导的立体图像视觉显著性检测方法。选取原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集；构建神经网络，将训练集输入神经网络模型中进行训练，计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值；利用训练后的卷积神经网络对待测立体图像进行预测处理获得视觉显著图，实现图像的显著性检测。本发明利用卷积神经网络来提取RGB图像和深度图像的特征，全局上采样块用于全局信息的提取，上采样块用于学习局部对比特征并且将对比信息逐步融合；同时利用了深度学习方面的最新进展，如注意力模型，它使得网络更加关注显著目标，以允许更深入的网络体系结构实现更精确的检测。

Description

一种局部对比和全局指导的立体图像视觉显著性检测方法

技术领域

本发明涉及一种视觉显著性检测方法，尤其涉及一种局部对比和全局指导的立体图像视觉显著性检测方法。

背景技术

视觉显著性是人类视觉系统处理视觉信息的一个重要特征。它是在从视觉场景中获取最重要的视觉信息的同时，选择相关区域的认知过程。在计算机视觉中作为一种重要的和具有挑战性的问题，在过去几十年显著性检测吸引了大量的研究者，因为它可以用在各种多媒体处理应用程序对象识别、形象重新定位目标、图像压缩、对象跟踪、缺陷检测、异常事件检测鉴定等任务。显著性检测方法一般分为人眼注视预测方法和显著性目标检测方法。第一个目标是确定人类观察者在观看场景时注视的突出位置，我们称之为眼睛注视区域。后者，显著目标检测，主要是预测像素的显著性值确定像素是否属于突出的对象。本文主要研究立体图像中人眼注视预测任务。

尽管近年来在二维图像/视频的显著性检测方面取得了很大的进展，但对立体图像的显著性检测仍然具有挑战性。首先，在立体图像中提取准确的运动信息并不容易，因此立体图像中较小的物体往往难以被捕获。早期的凸点运动检测模型都是将运动前景对象提取为突出区域，但这些方法无法解决由于前景对象丢失而导致的遮挡问题。此外，视觉场景的深度属性通常对视觉定位点有显著影响。现有的一些立体图像著性检测方法将彩色和深度显著性图与固定权重相融合，用于立体图像显著性预测。这可能忽略了彩色特征和深度特征之间的内在关系。因此，如何提取并结合深度信息和语义线索等特征，对设计有效的立体图像显著性检测模型具有重要意义。

发明内容

为了解决背景技术中的问题，本发明提供了一种局部对比和全局指导的立体图像视觉显著性检测方法，其具有较高的检测准确性。

本发明采用的技术方案如下：

包括以下步骤：

步骤1-1：选取N幅原始立体图像，将原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集；

步骤1-2：构建卷积神经网络模型；

步骤1-3：将训练集中原始立体图像的左视点图和深度图作为输入，输入到步骤1-2的卷积神经网络模型中进行训练，训练过程中，每次迭代训练处理得到每幅原始立体图像的显著性预测图；计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值；

步骤1-4：不断迭代训练重复共V次，并共得到N×V个损失函数值，然后从N×V个损失函数值中找出值最小的损失函数值，接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，从而完成卷积神经网络模型的训练；

步骤1-5：将待测立体图像的左视点图和深度图输入步骤1-4训练后的卷积神经网络模型进行预测处理，输出获得待测立体图像对应的视觉显著图，实现图像的显著性检测。

所述卷积神经网络模型包括输入层、隐含层和输出层；输入层包括RGB图输入层和深度图输入层，隐含层包括两个分支和一个后处理总支，两个分支分别为RGB图处理分支和深度图处理分支；

RGB图处理分支主要由依次连接的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个上采样块、第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块组成，第5个神经网络块和第1个上采样块之间另连接有第1个全局上采样层；第1个上采样块的输入和第1个全局上采样层的输入均为第5个神经网络块的输出，第1个神经网络块、第2个神经网络块、第3个神经网络块和第4个神经网络块的输出分别输入第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块；

深度图处理分支主要由依次连接的第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、第6个上采样块、第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块组成，第6个神经网络块和第6个上采样块之间另连接有第2个全局上采样层；第6个上采样块的输入和第2个全局上采样层的输入均为第10个神经网络块的输出，第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块的输出分别输入第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块；

RGB图输入层和深度图输入层分别连接至第1个神经网络块和第6个神经网络块，第1个神经网络块接收RGB图输入层的输出，第6个神经网络块接收深度图输入层的输出；

后处理总支包括三个注意力模块，第1个全局上采样层的输出和第2个全局上采样层的输出均连接至第1个注意力模块的输入，第5个上采样块的输出和第10个上采样块的输出均连接至第2个注意力模块的输入，第1个注意力模块和第2个注意力模块的输出均连接至第3个注意力模块的输入；

第3个注意力模块的输出作为输出层的输出。

所述RGB图处理分支和深度图处理分支中的每个上采样块的结构和参数均相同，每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层，第14卷积层的输出连接至第15卷积层的输入，第15卷积层的输出分别连接至第5最大池化层和第1均值池化层，第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图，将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层，第1上采样层的输出作为上采样块的输出；其中，第14卷积层的输入为每个上采样块对应的神经网络块的输出，第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果，除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。

所述的三个注意力模块结构和参数均相同，每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层，每个注意力模块的两个输入相加后输入第20卷积层，第20卷积层分别输入第21卷积层和第22卷积层，第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入，第23卷积层的输出即为注意力模块的输出。

输入全局上采样层的特征图经全局上采样层后通道数降至1。

第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块的结构和参数分别与第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块的结构和参数相同。

RGB图输入层的输入为立体图像的左视点图；深度图输入层的输入为立体图像的深度图；左视点图和深度图的尺寸均调整为224×224大小。

本发明的有益效果：

1)本发明方法是通过加载预训练模型VGG16的参数来学习多级局部对比特征和具有较高分辨率的全局特征，有利于网络精准定位出显著物体的位置，局部对比特征使模型提取到的特征包含了更多的上下文信息，提高了模型的检测性能。

2)本发明方法引入了注意力模块，注意力模块是跨模态信息有效融合，极大地缩小了特征融合的难度，有利于卷积网络提取的多种特征进行自适应特征细化，并且注意力模块可以与任何前馈模型一起以端到端的方式进行训练。

3)本发明方法中的上采样块和全局上采样块的使用，使模型学习到了不同等级不同尺度特征，全局上采样块用于全局信息的提取，上采样块用于学习局部对比特征并且将对比信息逐步融合，有效解决了网络学习内容的匮乏、单一等问题。

附图说明

图1为本发明方法的总体实现框图。

图2为上采样块的框图。

图3为注意力模块的框图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

本发明的立体图像视觉显著性检测方法包括训练阶段和测试阶段两个过程：

所述的训练阶段过程的具体步骤：

步骤1_1：首先选取N幅原始立体图像的左视点图像、深度图像和对应的真实主观视觉显著图，并构成训练集，将训练集中的第n幅原始立体图像的左视点图像记为原始立体图像的深度图像记为{Dⁿ(x，y)}，真实的人眼注视图像记为{Gⁿ(x，y)}，其中，1≤x≤W，1≤y≤H，W表示的宽度，H表示的高度，表示中坐标位置为(x,y)的像素点的像素值，Dⁿ(x，y)表示{Dⁿ(x，y)}中坐标位置为(x,y)的像素点的像素值，Gⁿ(x，y)表示{Gⁿ(x，y)}中坐标位置为(x,y)的像素点的像素值。

步骤1_2：构建神经网络：该网络采用双流模型来分别提取左视点图像和深度图像的分层特征，卷积神经网络模型包括输入层、隐含层和输出层。

①输入层包括RGB图输入层和深度图输入层，

②隐含层包括两个分支和一个后处理总支，两个分支分别为RGB图处理分支和深度图处理分支；

对于第1个神经网络块，由依次设置的第1卷积层、第1批标准化层、第1激活层、第2卷积层、第2批标准化层、第2激活层、第1最大池化层构成；首先将左视点图像尺寸调整到224×224大小，即H＝224，W＝224，来作为第1个神经网络块的输入，其中第1卷积层和第2卷积层的卷积核大小均为3，个数均为64，步幅均为1，填充均为1，第1、2激活层均为“ReLU”，第1最大池化层的池化窗口大小为2，步幅为2；第1个神经网络块的输出有64幅特征图，大小为H/2×W/2，记为P₁。

对于第2个神经网络块，由依次设置的第3卷积层、第3批标准化层、第3激活层、第4卷积层、第4批标准化层、第4激活层、第2最大池化层构成；P₁作为第2个神经网络块的输入，其中第3卷积层和第4卷积层的卷积核大小均为3，个数均为128，步幅均为1，填充均为1，第3、4激活层均为“ReLU”，第2最大池化层的池化窗口大小为2，步幅为2；第2个神经网络块的输出有128幅特征图，大小为H/4×W/4，记为P₂。

对于第3个神经网络块，由依次设置的第5卷积层、第5批标准化层、第5激活层、第6卷积层、第6批标准化层、第6激活层、第7卷积层、第7批标准化层、第7激活层、第3最大池化层构成；P₂作为第3个神经网络块的输入，其中第5卷积层、第6卷积层和第7卷积层的卷积核大小均为3，个数均为256，步幅均为1，填充均为1，第5、6、7激活层均为“ReLU”，第3最大池化层的池化窗口大小为2，步幅为2；将第3个神经网络块的输出有256幅特征图，大小为H/8×W/8，记为P₃。

对于第4个神经网络块，由依次设置的第8卷积层、第8批标准化层、第8激活层、第9卷积层、第9批标准化层、第9激活层、第10卷积层、第10批标准化层、第10激活层、第4最大池化层构成；P₃作为第4个神经网络块的输入，其中第8卷积层、第9卷积层和第10卷积层的卷积核大小均为3，个数均为512，步幅均为1，填充均为1，第8、9、10激活层均为“ReLU”，第4最大池化层的池化窗口大小为2，步幅为2；将第4个神经网络块的输出有512幅特征图，大小为H/16×W/16，记为P₄。

对于第5个神经网络块，由依次设置的第11卷积层、第11批标准化层、第11激活层、第12卷积层、第12批标准化层、第12激活层、第13卷积层、第13批标准化层、第13激活层、第5最大池化层构成；P₄作为第5个神经网络块的输入，其中第11卷积层、第12卷积层和第13卷积层的卷积核大小均为3，个数均为512，步幅均为1，填充均为1，第11、12、13激活层均为“ReLU”，第5最大池化层的池化窗口大小为2，步幅为2；将第5个神经网络块的输出有512幅特征图，大小为H/32×W/32，记为P₅。

第6个神经网络块的结构和参数与第1个神经网络块一样，将深度图像尺寸调整到224×224大小，即H＝224，W＝224，来作为第6个神经网络块的输入；第7个神经网络块的结构和参数与第2个神经网络块一样；第8个神经网络块的结构和参数与第3个神经网络块一样；第9个神经网络块的结构和参数与第4个神经网络块一样；第10个神经网络块的结构和参数与第5个神经网络块一样；将第6、7、8、9、10个神经网络块的输出分别记为D₁、D₂、D₃、D₄、D₅。则D₁为第7个神经网络块的输入，D₁由64幅特征图组成，大小为H/2×W/2；D₂为第8个神经网络块的输入，D₂由128幅特征图组成，大小为H/4×W/4；D₃为第9个神经网络块的输入，D₃由256幅特征图组成，大小为H/8×W/8；D₄为第10个神经网络块的输入，D₄由512幅特征图组成，大小为H/16×W/16；D₅由512幅特征图组成，大小为H/32×W/32。

如图2所示，对于第1～10个上采样块，其结构和参数均相同，每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层，第14卷积层的输出连接至第15卷积层的输入，第15卷积层的输出分别连接至第5最大池化层和第1均值池化层，第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图，将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层，第1上采样层的输出作为上采样块的输出。

第1个上采样块和第2个上采样块的的输入为对应的神经网络块的输出；除第1个上采样块和第2个上采样块之外的每个上采样块均有两个输入，分别为神经网络块的输出和前一个上采样块的输出。其中，第14卷积层的输入为每个上采样块所对应的神经网络块的输出，第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果，除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。

其中，第14卷积层的卷积核大小为1，个数为128，步幅均为1；第15卷积层的卷积核大小为3，个数为128，步幅均为1，填充为1；第5最大池化层、第1均值池化层的池化窗口大小均为3，步幅均为1，填充均为1；第16卷积层的卷积核大小为3，个数为128，步幅均为1，填充为1；第1上采样层的模式为双线性插值，比例因子为2；将P₅作为第1个上采样块的输入，其输出128幅特征图，大小为H/16×W/16，记为U₁。将P₄，U₁作为第2个上采样块的输入，其输出128幅特征图，大小为H/8×W/8，记为U₂。将P₃，U₂作为第3个上采样块的输入，其输出128幅特征图，大小为H/4×W/4，记为U₃。将P₂，U₃作为第4个上采样块的输入，其输出128幅特征图，大小为H/2×W/2，记为U₄。将P₁，U₄作为第5个上采样块的输入，其输出128幅特征图，大小为H×W，记为U₅。将D₅作为第6个上采样块的输入，其输出128幅特征图，大小为H/16×W/16，记为U₆。将D₄，U₆作为第7个上采样块的输入，其输出128幅特征图，大小为H/8×W/8，记为U₇。将D₃，U₇作为第8个上采样块的输入，其输出128幅特征图，大小为H/4×W/4，记为U₈。将D₂，U₈作为第9个上采样块的输入，其输出128幅特征图，大小为H/2×W/2，记为U₉。将D₁，U₉作为第10个上采样块的输入，其输出128幅特征图，大小为H×W，记为U₁₀。

对于第1、2个全局上采样块，其结构和参数相同，由依次设置的第17卷积层、第18卷积层、第19卷积层和第2上采样层构成；其中第17卷积层的卷积核大小3，个数为512，空洞为2，步幅为1，填充为2；第18卷积层的卷积核大小1，个数为256，步幅为1；第19卷积层的卷积核大小1，个数为64，步幅为1；第2上采样层的模式为双线性插值，比例因子为4；将P₅作为第1个全局上采样块的输入，第17卷积层的输入端接收P₅，其输出作为第18卷积层的输入，第18卷积层的输出作为第19卷积层的输入，第19卷积层的输出按通道数量重新排布成H/4×W/4的大小，输入到第2上采样层，其输出一幅大小为H×W的特征图，记为G₁。同理，将D₅作为第2个全局上采样块的输入，也得到一幅大小为H×W的特征图，记为G₂。

后处理总支包括三个注意力模块，第1个全局上采样层的输出和第2个全局上采样层的输出均连接至第1个注意力模块的输入，第5个上采样块的输出和第10个上采样块的输出均连接至第2个注意力模块的输入，第1个注意力模块和第2个注意力模块的输出均连接至第3个注意力模块的输入；注意力模块使得网络更加关注显著目标，以允许更深入的网络体系结构实现更精确的检测。

三个注意力模块结构和参数均相同，如图3所示，每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层，每个注意力模块的两个输入相加后输入第20卷积层，第20卷积层分别输入第21卷积层和第22卷积层，第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入，第23卷积层的输出即为注意力模块的输出。其中第20卷积层的卷积核大小1，个数为64，步幅为1；第21卷积层的卷积核大小1，个数为1，步幅为1；第22卷积层的卷积核大小1，个数为1，步幅为1；第23卷积层的卷积核大小1，个数为1，步幅为1；每个注意力模块都有2个输入，记为I₁和I₂，两个输入之和作为第20卷积层的输入，分别经过第21卷积层和第22卷积层得到两个权重图W₁和W₂，再将I₁与W₁的乘积加上I₂与W₂的乘积作为第23卷积层的输入，第23卷积层的输出即为注意力模块的输出，其为一幅大小为H×W的特征图。将G₁和G₂输入给第1个注意力模块，将其输出记为A₁；将U₅和U₁₀输入给第2个注意力模块，将其输出记为A₂；将A₁和A₂输入给第3个注意力模块，将其输出记为A₃；A₃为最终预测的显著图。

③第3个注意力模块的输出作为输出层的输出。

步骤1_3：将训练集中的每幅原始的立体图像的左视点图像和深度图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的立体图像对应的1幅显著性预测图，将对应的1幅显著性预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的立体图像的左视点图像对应的显著性预测图构成的集合与对应的主观视觉显著图构成的集合之间的损失函数值，将与Gⁿ之间的损失函数值记为其采用均方误差函数和线性相关性系数函数联合作为损失函数获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到N×V个损失函数值；然后从N×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1；

所述的测试阶段过程的具体步骤为：

为了验证本发明方法的可行性和有效性，进行实验。

在此，采用台湾交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)和新加坡国立大学的NUS数据集来分析本发明方法的准确性和稳定性。这里，利用评估视觉显著提取方法的4个常用客观参量作为评价指标，即线性相关系数(Linear CorrelationCoefficient，CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence，KLD)、AUC参数(the Area Under the receiver operating characteristics Curve，AUC)，标准化扫描路径显著性(Normalized Scanpath Saliency，NSS)。

利用本发明方法获取NCTU和NUS数据集中测试集的每幅立体图像的最终视觉显著图，并与这两个数据集中的每幅立体图像的主观视觉显著图进行比较，CC、AUC和NSS值越高、KLD值越低说明本发明方法提取的最终视觉显著图与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。从表1所列的数据可知，按本发明方法提取得到的最终视觉显著图与主观视觉显著图的准确性和稳定性是很好的，表明客观提取结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。

表1利用本发明方法提取得到的最终视觉显著图与主观视觉显著图的准确性和稳定性

Claims

1.一种局部对比和全局指导的立体图像视觉显著性检测方法，其特征在于，包括以下步骤：

步骤1-2：构建卷积神经网络模型；

2.根据权利要求1所述的一种局部对比和全局指导的立体图像视觉显著性检测方法，其特征在于，卷积神经网络模型包括输入层、隐含层和输出层；输入层包括RGB图输入层和深度图输入层，隐含层包括两个分支和一个后处理总支，两个分支分别为RGB图处理分支和深度图处理分支；

第3个注意力模块的输出作为输出层的输出。

3.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法，其特征在于，RGB图处理分支和深度图处理分支中的每个上采样块的结构和参数均相同，每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层，第14卷积层的输出连接至第15卷积层的输入，第15卷积层的输出分别连接至第5最大池化层和第1均值池化层，第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图，将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层，第1上采样层的输出作为上采样块的输出；其中，第14卷积层的输入为每个上采样块对应的神经网络块的输出，第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果，除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。

4.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法，其特征在于，三个注意力模块的结构和参数均相同，每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层，每个注意力模块的两个输入相加后输入第20卷积层，第20卷积层分别输入第21卷积层和第22卷积层，第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入，第23卷积层的输出即为注意力模块的输出。

5.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法，其特征在于，输入全局上采样层的特征图经全局上采样层后通道数降至1。

6.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块的结构和参数分别与第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块的结构和参数相同。

7.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：RGB图输入层的输入为立体图像的左视点图；深度图输入层的输入为立体图像的深度图；左视点图和深度图的尺寸均调整为224×224大小。