CN110555434A - 一种局部对比和全局指导的立体图像视觉显著性检测方法 - Google Patents
一种局部对比和全局指导的立体图像视觉显著性检测方法 Download PDFInfo
- Publication number
- CN110555434A CN110555434A CN201910827885.5A CN201910827885A CN110555434A CN 110555434 A CN110555434 A CN 110555434A CN 201910827885 A CN201910827885 A CN 201910827885A CN 110555434 A CN110555434 A CN 110555434A
- Authority
- CN
- China
- Prior art keywords
- block
- layer
- neural network
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种局部对比和全局指导的立体图像视觉显著性检测方法。选取原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集;构建神经网络,将训练集输入神经网络模型中进行训练,计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值;利用训练后的卷积神经网络对待测立体图像进行预测处理获得视觉显著图,实现图像的显著性检测。本发明利用卷积神经网络来提取RGB图像和深度图像的特征,全局上采样块用于全局信息的提取,上采样块用于学习局部对比特征并且将对比信息逐步融合;同时利用了深度学习方面的最新进展,如注意力模型,它使得网络更加关注显著目标,以允许更深入的网络体系结构实现更精确的检测。
Description
技术领域
本发明涉及一种视觉显著性检测方法,尤其涉及一种局部对比和全局指导的立体图像视觉显著性检测方法。
背景技术
视觉显著性是人类视觉系统处理视觉信息的一个重要特征。它是在从视觉场景中获取最重要的视觉信息的同时,选择相关区域的认知过程。在计算机视觉中作为一种重要的和具有挑战性的问题,在过去几十年显著性检测吸引了大量的研究者,因为它可以用在各种多媒体处理应用程序对象识别、形象重新定位目标、图像压缩、对象跟踪、缺陷检测、异常事件检测鉴定等任务。显著性检测方法一般分为人眼注视预测方法和显著性目标检测方法。第一个目标是确定人类观察者在观看场景时注视的突出位置,我们称之为眼睛注视区域。后者,显著目标检测,主要是预测像素的显著性值确定像素是否属于突出的对象。本文主要研究立体图像中人眼注视预测任务。
尽管近年来在二维图像/视频的显著性检测方面取得了很大的进展,但对立体图像的显著性检测仍然具有挑战性。首先,在立体图像中提取准确的运动信息并不容易,因此立体图像中较小的物体往往难以被捕获。早期的凸点运动检测模型都是将运动前景对象提取为突出区域,但这些方法无法解决由于前景对象丢失而导致的遮挡问题。此外,视觉场景的深度属性通常对视觉定位点有显著影响。现有的一些立体图像著性检测方法将彩色和深度显著性图与固定权重相融合,用于立体图像显著性预测。这可能忽略了彩色特征和深度特征之间的内在关系。因此,如何提取并结合深度信息和语义线索等特征,对设计有效的立体图像显著性检测模型具有重要意义。
发明内容
为了解决背景技术中的问题,本发明提供了一种局部对比和全局指导的立体图像视觉显著性检测方法,其具有较高的检测准确性。
本发明采用的技术方案如下:
包括以下步骤:
步骤1-1:选取N幅原始立体图像,将原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集;
步骤1-2:构建卷积神经网络模型;
步骤1-3:将训练集中原始立体图像的左视点图和深度图作为输入,输入到步骤1-2的卷积神经网络模型中进行训练,训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性预测图;计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值;
步骤1-4:不断迭代训练重复共V次,并共得到N×V个损失函数值,然后从N×V个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,从而完成卷积神经网络模型的训练;
步骤1-5:将待测立体图像的左视点图和深度图输入步骤1-4训练后的卷积神经网络模型进行预测处理,输出获得待测立体图像对应的视觉显著图,实现图像的显著性检测。
所述卷积神经网络模型包括输入层、隐含层和输出层;输入层包括RGB图输入层和深度图输入层,隐含层包括两个分支和一个后处理总支,两个分支分别为RGB图处理分支和深度图处理分支;
RGB图处理分支主要由依次连接的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个上采样块、第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块组成,第5个神经网络块和第1个上采样块之间另连接有第1个全局上采样层;第1个上采样块的输入和第1个全局上采样层的输入均为第5个神经网络块的输出,第1个神经网络块、第2个神经网络块、第3个神经网络块和第4个神经网络块的输出分别输入第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块;
深度图处理分支主要由依次连接的第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、第6个上采样块、第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块组成,第6个神经网络块和第6个上采样块之间另连接有第2个全局上采样层;第6个上采样块的输入和第2个全局上采样层的输入均为第10个神经网络块的输出,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块的输出分别输入第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块;
RGB图输入层和深度图输入层分别连接至第1个神经网络块和第6个神经网络块,第1个神经网络块接收RGB图输入层的输出,第6个神经网络块接收深度图输入层的输出;
后处理总支包括三个注意力模块,第1个全局上采样层的输出和第2个全局上采样层的输出均连接至第1个注意力模块的输入,第5个上采样块的输出和第10个上采样块的输出均连接至第2个注意力模块的输入,第1个注意力模块和第2个注意力模块的输出均连接至第3个注意力模块的输入;
第3个注意力模块的输出作为输出层的输出。
所述RGB图处理分支和深度图处理分支中的每个上采样块的结构和参数均相同,每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层,第14卷积层的输出连接至第15卷积层的输入,第15卷积层的输出分别连接至第5最大池化层和第1均值池化层,第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图,将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层,第1上采样层的输出作为上采样块的输出;其中,第14卷积层的输入为每个上采样块对应的神经网络块的输出,第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果,除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。
所述的三个注意力模块结构和参数均相同,每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层,每个注意力模块的两个输入相加后输入第20卷积层,第20卷积层分别输入第21卷积层和第22卷积层,第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入,第23卷积层的输出即为注意力模块的输出。
输入全局上采样层的特征图经全局上采样层后通道数降至1。
第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块的结构和参数分别与第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块的结构和参数相同。
RGB图输入层的输入为立体图像的左视点图;深度图输入层的输入为立体图像的深度图;左视点图和深度图的尺寸均调整为224×224大小。
本发明的有益效果:
1)本发明方法是通过加载预训练模型VGG16的参数来学习多级局部对比特征和具有较高分辨率的全局特征,有利于网络精准定位出显著物体的位置,局部对比特征使模型提取到的特征包含了更多的上下文信息,提高了模型的检测性能。
2)本发明方法引入了注意力模块,注意力模块是跨模态信息有效融合,极大地缩小了特征融合的难度,有利于卷积网络提取的多种特征进行自适应特征细化,并且注意力模块可以与任何前馈模型一起以端到端的方式进行训练。
3)本发明方法中的上采样块和全局上采样块的使用,使模型学习到了不同等级不同尺度特征,全局上采样块用于全局信息的提取,上采样块用于学习局部对比特征并且将对比信息逐步融合,有效解决了网络学习内容的匮乏、单一等问题。
附图说明
图1为本发明方法的总体实现框图。
图2为上采样块的框图。
图3为注意力模块的框图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细描述。
本发明的立体图像视觉显著性检测方法包括训练阶段和测试阶段两个过程:
所述的训练阶段过程的具体步骤:
步骤1_1:首先选取N幅原始立体图像的左视点图像、深度图像和对应的真实主观视觉显著图,并构成训练集,将训练集中的第n幅原始立体图像的左视点图像记为原始立体图像的深度图像记为{Dn(x,y)},真实的人眼注视图像记为{Gn(x,y)},其中,1≤x≤W,1≤y≤H,W表示的宽度,H表示的高度,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,Gn(x,y)表示{Gn(x,y)}中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建神经网络:该网络采用双流模型来分别提取左视点图像和深度图像的分层特征,卷积神经网络模型包括输入层、隐含层和输出层。
①输入层包括RGB图输入层和深度图输入层,
②隐含层包括两个分支和一个后处理总支,两个分支分别为RGB图处理分支和深度图处理分支;
RGB图处理分支主要由依次连接的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个上采样块、第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块组成,第5个神经网络块和第1个上采样块之间另连接有第1个全局上采样层;第1个上采样块的输入和第1个全局上采样层的输入均为第5个神经网络块的输出,第1个神经网络块、第2个神经网络块、第3个神经网络块和第4个神经网络块的输出分别输入第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块;
对于第1个神经网络块,由依次设置的第1卷积层、第1批标准化层、第1激活层、第2卷积层、第2批标准化层、第2激活层、第1最大池化层构成;首先将左视点图像尺寸调整到224×224大小,即H=224,W=224,来作为第1个神经网络块的输入,其中第1卷积层和第2卷积层的卷积核大小均为3,个数均为64,步幅均为1,填充均为1,第1、2激活层均为“ReLU”,第1最大池化层的池化窗口大小为2,步幅为2;第1个神经网络块的输出有64幅特征图,大小为H/2×W/2,记为P1。
对于第2个神经网络块,由依次设置的第3卷积层、第3批标准化层、第3激活层、第4卷积层、第4批标准化层、第4激活层、第2最大池化层构成;P1作为第2个神经网络块的输入,其中第3卷积层和第4卷积层的卷积核大小均为3,个数均为128,步幅均为1,填充均为1,第3、4激活层均为“ReLU”,第2最大池化层的池化窗口大小为2,步幅为2;第2个神经网络块的输出有128幅特征图,大小为H/4×W/4,记为P2。
对于第3个神经网络块,由依次设置的第5卷积层、第5批标准化层、第5激活层、第6卷积层、第6批标准化层、第6激活层、第7卷积层、第7批标准化层、第7激活层、第3最大池化层构成;P2作为第3个神经网络块的输入,其中第5卷积层、第6卷积层和第7卷积层的卷积核大小均为3,个数均为256,步幅均为1,填充均为1,第5、6、7激活层均为“ReLU”,第3最大池化层的池化窗口大小为2,步幅为2;将第3个神经网络块的输出有256幅特征图,大小为H/8×W/8,记为P3。
对于第4个神经网络块,由依次设置的第8卷积层、第8批标准化层、第8激活层、第9卷积层、第9批标准化层、第9激活层、第10卷积层、第10批标准化层、第10激活层、第4最大池化层构成;P3作为第4个神经网络块的输入,其中第8卷积层、第9卷积层和第10卷积层的卷积核大小均为3,个数均为512,步幅均为1,填充均为1,第8、9、10激活层均为“ReLU”,第4最大池化层的池化窗口大小为2,步幅为2;将第4个神经网络块的输出有512幅特征图,大小为H/16×W/16,记为P4。
对于第5个神经网络块,由依次设置的第11卷积层、第11批标准化层、第11激活层、第12卷积层、第12批标准化层、第12激活层、第13卷积层、第13批标准化层、第13激活层、第5最大池化层构成;P4作为第5个神经网络块的输入,其中第11卷积层、第12卷积层和第13卷积层的卷积核大小均为3,个数均为512,步幅均为1,填充均为1,第11、12、13激活层均为“ReLU”,第5最大池化层的池化窗口大小为2,步幅为2;将第5个神经网络块的输出有512幅特征图,大小为H/32×W/32,记为P5。
深度图处理分支主要由依次连接的第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、第6个上采样块、第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块组成,第6个神经网络块和第6个上采样块之间另连接有第2个全局上采样层;第6个上采样块的输入和第2个全局上采样层的输入均为第10个神经网络块的输出,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块的输出分别输入第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块;
第6个神经网络块的结构和参数与第1个神经网络块一样,将深度图像尺寸调整到224×224大小,即H=224,W=224,来作为第6个神经网络块的输入;第7个神经网络块的结构和参数与第2个神经网络块一样;第8个神经网络块的结构和参数与第3个神经网络块一样;第9个神经网络块的结构和参数与第4个神经网络块一样;第10个神经网络块的结构和参数与第5个神经网络块一样;将第6、7、8、9、10个神经网络块的输出分别记为D1、D2、D3、D4、D5。则D1为第7个神经网络块的输入,D1由64幅特征图组成,大小为H/2×W/2;D2为第8个神经网络块的输入,D2由128幅特征图组成,大小为H/4×W/4;D3为第9个神经网络块的输入,D3由256幅特征图组成,大小为H/8×W/8;D4为第10个神经网络块的输入,D4由512幅特征图组成,大小为H/16×W/16;D5由512幅特征图组成,大小为H/32×W/32。
如图2所示,对于第1~10个上采样块,其结构和参数均相同,每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层,第14卷积层的输出连接至第15卷积层的输入,第15卷积层的输出分别连接至第5最大池化层和第1均值池化层,第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图,将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层,第1上采样层的输出作为上采样块的输出。
第1个上采样块和第2个上采样块的的输入为对应的神经网络块的输出;除第1个上采样块和第2个上采样块之外的每个上采样块均有两个输入,分别为神经网络块的输出和前一个上采样块的输出。其中,第14卷积层的输入为每个上采样块所对应的神经网络块的输出,第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果,除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。
其中,第14卷积层的卷积核大小为1,个数为128,步幅均为1;第15卷积层的卷积核大小为3,个数为128,步幅均为1,填充为1;第5最大池化层、第1均值池化层的池化窗口大小均为3,步幅均为1,填充均为1;第16卷积层的卷积核大小为3,个数为128,步幅均为1,填充为1;第1上采样层的模式为双线性插值,比例因子为2;将P5作为第1个上采样块的输入,其输出128幅特征图,大小为H/16×W/16,记为U1。将P4,U1作为第2个上采样块的输入,其输出128幅特征图,大小为H/8×W/8,记为U2。将P3,U2作为第3个上采样块的输入,其输出128幅特征图,大小为H/4×W/4,记为U3。将P2,U3作为第4个上采样块的输入,其输出128幅特征图,大小为H/2×W/2,记为U4。将P1,U4作为第5个上采样块的输入,其输出128幅特征图,大小为H×W,记为U5。将D5作为第6个上采样块的输入,其输出128幅特征图,大小为H/16×W/16,记为U6。将D4,U6作为第7个上采样块的输入,其输出128幅特征图,大小为H/8×W/8,记为U7。将D3,U7作为第8个上采样块的输入,其输出128幅特征图,大小为H/4×W/4,记为U8。将D2,U8作为第9个上采样块的输入,其输出128幅特征图,大小为H/2×W/2,记为U9。将D1,U9作为第10个上采样块的输入,其输出128幅特征图,大小为H×W,记为U10。
对于第1、2个全局上采样块,其结构和参数相同,由依次设置的第17卷积层、第18卷积层、第19卷积层和第2上采样层构成;其中第17卷积层的卷积核大小3,个数为512,空洞为2,步幅为1,填充为2;第18卷积层的卷积核大小1,个数为256,步幅为1;第19卷积层的卷积核大小1,个数为64,步幅为1;第2上采样层的模式为双线性插值,比例因子为4;将P5作为第1个全局上采样块的输入,第17卷积层的输入端接收P5,其输出作为第18卷积层的输入,第18卷积层的输出作为第19卷积层的输入,第19卷积层的输出按通道数量重新排布成H/4×W/4的大小,输入到第2上采样层,其输出一幅大小为H×W的特征图,记为G1。同理,将D5作为第2个全局上采样块的输入,也得到一幅大小为H×W的特征图,记为G2。
后处理总支包括三个注意力模块,第1个全局上采样层的输出和第2个全局上采样层的输出均连接至第1个注意力模块的输入,第5个上采样块的输出和第10个上采样块的输出均连接至第2个注意力模块的输入,第1个注意力模块和第2个注意力模块的输出均连接至第3个注意力模块的输入;注意力模块使得网络更加关注显著目标,以允许更深入的网络体系结构实现更精确的检测。
三个注意力模块结构和参数均相同,如图3所示,每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层,每个注意力模块的两个输入相加后输入第20卷积层,第20卷积层分别输入第21卷积层和第22卷积层,第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入,第23卷积层的输出即为注意力模块的输出。其中第20卷积层的卷积核大小1,个数为64,步幅为1;第21卷积层的卷积核大小1,个数为1,步幅为1;第22卷积层的卷积核大小1,个数为1,步幅为1;第23卷积层的卷积核大小1,个数为1,步幅为1;每个注意力模块都有2个输入,记为I1和I2,两个输入之和作为第20卷积层的输入,分别经过第21卷积层和第22卷积层得到两个权重图W1和W2,再将I1与W1的乘积加上I2与W2的乘积作为第23卷积层的输入,第23卷积层的输出即为注意力模块的输出,其为一幅大小为H×W的特征图。将G1和G2输入给第1个注意力模块,将其输出记为A1;将U5和U10输入给第2个注意力模块,将其输出记为A2;将A1和A2输入给第3个注意力模块,将其输出记为A3;A3为最终预测的显著图。
③第3个注意力模块的输出作为输出层的输出。
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像和深度图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像对应的1幅显著性预测图,将对应的1幅显著性预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的立体图像的左视点图像对应的显著性预测图构成的集合与对应的主观视觉显著图构成的集合之间的损失函数值,将与Gn之间的损失函数值记为其采用均方误差函数和线性相关性系数函数联合作为损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用台湾交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)和新加坡国立大学的NUS数据集来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标,即线性相关系数(Linear CorrelationCoefficient,CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,KLD)、AUC参数(the Area Under the receiver operating characteristics Curve,AUC),标准化扫描路径显著性(Normalized Scanpath Saliency,NSS)。
利用本发明方法获取NCTU和NUS数据集中测试集的每幅立体图像的最终视觉显著图,并与这两个数据集中的每幅立体图像的主观视觉显著图进行比较,CC、AUC和NSS值越高、KLD值越低说明本发明方法提取的最终视觉显著图与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。从表1所列的数据可知,按本发明方法提取得到的最终视觉显著图与主观视觉显著图的准确性和稳定性是很好的,表明客观提取结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。
表1利用本发明方法提取得到的最终视觉显著图与主观视觉显著图的准确性和稳定性
Claims (7)
1.一种局部对比和全局指导的立体图像视觉显著性检测方法,其特征在于,包括以下步骤:
步骤1-1:选取N幅原始立体图像,将原始立体图像的左视点图、深度图和对应的主观视觉显著图构成训练集;
步骤1-2:构建卷积神经网络模型;
步骤1-3:将训练集中原始立体图像的左视点图和深度图作为输入,输入到步骤1-2的卷积神经网络模型中进行训练,训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性预测图;计算每幅显著性预测图与训练集中对应的主观视觉显著图之间的损失函数值;
步骤1-4:不断迭代训练重复共V次,并共得到N×V个损失函数值,然后从N×V个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,从而完成卷积神经网络模型的训练;
步骤1-5:将待测立体图像的左视点图和深度图输入步骤1-4训练后的卷积神经网络模型进行预测处理,输出获得待测立体图像对应的视觉显著图,实现图像的显著性检测。
2.根据权利要求1所述的一种局部对比和全局指导的立体图像视觉显著性检测方法,其特征在于,卷积神经网络模型包括输入层、隐含层和输出层;输入层包括RGB图输入层和深度图输入层,隐含层包括两个分支和一个后处理总支,两个分支分别为RGB图处理分支和深度图处理分支;
RGB图处理分支主要由依次连接的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个上采样块、第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块组成,第5个神经网络块和第1个上采样块之间另连接有第1个全局上采样层;第1个上采样块的输入和第1个全局上采样层的输入均为第5个神经网络块的输出,第1个神经网络块、第2个神经网络块、第3个神经网络块和第4个神经网络块的输出分别输入第2个上采样块、第3个上采样块、第4个上采样块和第5个上采样块;
深度图处理分支主要由依次连接的第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、第6个上采样块、第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块组成,第6个神经网络块和第6个上采样块之间另连接有第2个全局上采样层;第6个上采样块的输入和第2个全局上采样层的输入均为第10个神经网络块的输出,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块的输出分别输入第7个上采样块、第8个上采样块、第9个上采样块和第10个上采样块;
RGB图输入层和深度图输入层分别连接至第1个神经网络块和第6个神经网络块,第1个神经网络块接收RGB图输入层的输出,第6个神经网络块接收深度图输入层的输出;
后处理总支包括三个注意力模块,第1个全局上采样层的输出和第2个全局上采样层的输出均连接至第1个注意力模块的输入,第5个上采样块的输出和第10个上采样块的输出均连接至第2个注意力模块的输入,第1个注意力模块和第2个注意力模块的输出均连接至第3个注意力模块的输入;
第3个注意力模块的输出作为输出层的输出。
3.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法,其特征在于,RGB图处理分支和深度图处理分支中的每个上采样块的结构和参数均相同,每个上采样块包括第14卷积层、第15卷积层、第5最大池化层、第1均值池化层、第16卷积层、第1上采样层,第14卷积层的输出连接至第15卷积层的输入,第15卷积层的输出分别连接至第5最大池化层和第1均值池化层,第5最大池化层的输出减去第1均值池化层的输出得到局部对比特征图,将局部对比特征图与第14卷积层的输出以通道数叠的方式融合后经第16卷积层输入第1上采样层,第1上采样层的输出作为上采样块的输出;其中,第14卷积层的输入为每个上采样块对应的神经网络块的输出,第1个上采样块和第2个上采样块中第16卷积层的输入为局部对比特征图与第14卷积层的输出以通道数叠的方式融合后的结果,除第1个上采样块和第2个上采样块之外的每个上采样块中第16卷积层的输入为局部对比特征图、第14卷积层的输出以及前一个上采样块的输出以通道数叠的方式融合后的结果。
4.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法,其特征在于,三个注意力模块的结构和参数均相同,每个注意力模块包括第20卷积层、第21卷积层、第22卷积层和第23卷积层,每个注意力模块的两个输入相加后输入第20卷积层,第20卷积层分别输入第21卷积层和第22卷积层,第21卷积层与注意力模块其中一个输出的乘积加上第22卷积层与注意力模块另一个输出的乘积作为第23卷积层的输入,第23卷积层的输出即为注意力模块的输出。
5.根据权利要求2所述的一种局部对比和全局指导的立体图像视觉显著性检测方法,其特征在于,输入全局上采样层的特征图经全局上采样层后通道数降至1。
6.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块的结构和参数分别与第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块的结构和参数相同。
7.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:RGB图输入层的输入为立体图像的左视点图;深度图输入层的输入为立体图像的深度图;左视点图和深度图的尺寸均调整为224×224大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910827885.5A CN110555434B (zh) | 2019-09-03 | 2019-09-03 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910827885.5A CN110555434B (zh) | 2019-09-03 | 2019-09-03 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555434A true CN110555434A (zh) | 2019-12-10 |
CN110555434B CN110555434B (zh) | 2022-03-29 |
Family
ID=68738826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910827885.5A Active CN110555434B (zh) | 2019-09-03 | 2019-09-03 | 一种局部对比和全局指导的立体图像视觉显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555434B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079674A (zh) * | 2019-12-22 | 2020-04-28 | 东北师范大学 | 一种基于全局和局部信息融合的目标检测方法 |
CN111242138A (zh) * | 2020-01-11 | 2020-06-05 | 杭州电子科技大学 | 一种基于多尺度特征融合的rgbd显著性检测方法 |
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
CN111967477A (zh) * | 2020-07-02 | 2020-11-20 | 北京大学深圳研究生院 | Rgb-d图像显著性目标检测方法、装置、设备及存储介质 |
CN111985341A (zh) * | 2020-07-23 | 2020-11-24 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
CN112040222A (zh) * | 2020-08-07 | 2020-12-04 | 深圳大学 | 一种视觉显著性预测方法及设备 |
CN112132810A (zh) * | 2020-09-24 | 2020-12-25 | 西安电子科技大学 | 基于感知逻辑和特征对比的图像显著性检测方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN112488122A (zh) * | 2020-11-25 | 2021-03-12 | 南京航空航天大学 | 一种基于卷积神经网络的全景图像视觉显著性预测方法 |
CN112507933A (zh) * | 2020-12-16 | 2021-03-16 | 南开大学 | 基于集中式信息交互的显著性目标检测方法及系统 |
CN112528900A (zh) * | 2020-12-17 | 2021-03-19 | 南开大学 | 基于极致下采样的图像显著性物体检测方法及系统 |
CN112528899A (zh) * | 2020-12-17 | 2021-03-19 | 南开大学 | 基于隐含深度信息恢复的图像显著性物体检测方法及系统 |
CN112770105A (zh) * | 2020-12-07 | 2021-05-07 | 宁波大学 | 一种基于结构特征的重定位立体图像质量评价方法 |
CN113450295A (zh) * | 2021-06-15 | 2021-09-28 | 浙江大学 | 一种基于差分对比学习的深度图合成方法 |
CN113837223A (zh) * | 2021-08-24 | 2021-12-24 | 中国地质大学(武汉) | 一种基于rgb-d的显著目标检测方法及储存介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120033949A1 (en) * | 2010-08-06 | 2012-02-09 | Futurewei Technologies, Inc. | Video Skimming Methods and Systems |
CN106993186A (zh) * | 2017-04-13 | 2017-07-28 | 宁波大学 | 一种立体图像显著性检测方法 |
US20170262995A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
CN108491848A (zh) * | 2018-03-09 | 2018-09-04 | 北京大学深圳研究生院 | 基于深度信息的图像显著性检测方法和装置 |
CN108961220A (zh) * | 2018-06-14 | 2018-12-07 | 上海大学 | 一种基于多层卷积特征融合的图像协同显著性检测方法 |
CN109409380A (zh) * | 2018-08-27 | 2019-03-01 | 浙江科技学院 | 一种基于双学习网络的立体图像视觉显著提取方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
-
2019
- 2019-09-03 CN CN201910827885.5A patent/CN110555434B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120033949A1 (en) * | 2010-08-06 | 2012-02-09 | Futurewei Technologies, Inc. | Video Skimming Methods and Systems |
US20170262995A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
CN106993186A (zh) * | 2017-04-13 | 2017-07-28 | 宁波大学 | 一种立体图像显著性检测方法 |
CN108491848A (zh) * | 2018-03-09 | 2018-09-04 | 北京大学深圳研究生院 | 基于深度信息的图像显著性检测方法和装置 |
CN108961220A (zh) * | 2018-06-14 | 2018-12-07 | 上海大学 | 一种基于多层卷积特征融合的图像协同显著性检测方法 |
CN109409380A (zh) * | 2018-08-27 | 2019-03-01 | 浙江科技学院 | 一种基于双学习网络的立体图像视觉显著提取方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
Non-Patent Citations (3)
Title |
---|
WENGUAN WANG等: "Deep Visual Attention Prediction", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》 * |
欧阳宁等: "基于自注意力网络的图像超分辨率重建", 《计算机应用》 * |
潘婷等: "基于卷积神经网络的车辆和行人检测算法", 《浙江科技学院学报》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079674A (zh) * | 2019-12-22 | 2020-04-28 | 东北师范大学 | 一种基于全局和局部信息融合的目标检测方法 |
CN111079674B (zh) * | 2019-12-22 | 2022-04-26 | 东北师范大学 | 一种基于全局和局部信息融合的目标检测方法 |
CN111242138A (zh) * | 2020-01-11 | 2020-06-05 | 杭州电子科技大学 | 一种基于多尺度特征融合的rgbd显著性检测方法 |
CN111242138B (zh) * | 2020-01-11 | 2022-04-01 | 杭州电子科技大学 | 一种基于多尺度特征融合的rgbd显著性检测方法 |
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
CN111967477A (zh) * | 2020-07-02 | 2020-11-20 | 北京大学深圳研究生院 | Rgb-d图像显著性目标检测方法、装置、设备及存储介质 |
CN111985341A (zh) * | 2020-07-23 | 2020-11-24 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
CN111985341B (zh) * | 2020-07-23 | 2023-04-07 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
CN112040222B (zh) * | 2020-08-07 | 2022-08-19 | 深圳大学 | 一种视觉显著性预测方法及设备 |
CN112040222A (zh) * | 2020-08-07 | 2020-12-04 | 深圳大学 | 一种视觉显著性预测方法及设备 |
CN112132810B (zh) * | 2020-09-24 | 2023-09-12 | 西安电子科技大学 | 基于感知逻辑和特征对比的图像显著性检测方法 |
CN112132810A (zh) * | 2020-09-24 | 2020-12-25 | 西安电子科技大学 | 基于感知逻辑和特征对比的图像显著性检测方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN112308081B (zh) * | 2020-11-05 | 2023-05-30 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN112488122A (zh) * | 2020-11-25 | 2021-03-12 | 南京航空航天大学 | 一种基于卷积神经网络的全景图像视觉显著性预测方法 |
CN112488122B (zh) * | 2020-11-25 | 2024-04-16 | 南京航空航天大学 | 一种基于卷积神经网络的全景图像视觉显著性预测方法 |
CN112770105A (zh) * | 2020-12-07 | 2021-05-07 | 宁波大学 | 一种基于结构特征的重定位立体图像质量评价方法 |
CN112770105B (zh) * | 2020-12-07 | 2022-06-03 | 宁波大学 | 一种基于结构特征的重定位立体图像质量评价方法 |
CN112507933B (zh) * | 2020-12-16 | 2022-09-16 | 南开大学 | 基于集中式信息交互的显著性目标检测方法及系统 |
CN112507933A (zh) * | 2020-12-16 | 2021-03-16 | 南开大学 | 基于集中式信息交互的显著性目标检测方法及系统 |
CN112528899B (zh) * | 2020-12-17 | 2022-04-12 | 南开大学 | 基于隐含深度信息恢复的图像显著性物体检测方法及系统 |
CN112528900B (zh) * | 2020-12-17 | 2022-09-16 | 南开大学 | 基于极致下采样的图像显著性物体检测方法及系统 |
CN112528899A (zh) * | 2020-12-17 | 2021-03-19 | 南开大学 | 基于隐含深度信息恢复的图像显著性物体检测方法及系统 |
CN112528900A (zh) * | 2020-12-17 | 2021-03-19 | 南开大学 | 基于极致下采样的图像显著性物体检测方法及系统 |
CN113450295A (zh) * | 2021-06-15 | 2021-09-28 | 浙江大学 | 一种基于差分对比学习的深度图合成方法 |
CN113837223A (zh) * | 2021-08-24 | 2021-12-24 | 中国地质大学(武汉) | 一种基于rgb-d的显著目标检测方法及储存介质 |
CN113837223B (zh) * | 2021-08-24 | 2023-06-09 | 中国地质大学(武汉) | 一种基于rgb-d的显著目标检测方法及储存介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110555434B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
Monroy et al. | Salnet360: Saliency maps for omni-directional images with cnn | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN107977932B (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN108038420B (zh) | 一种基于深度视频的人体行为识别方法 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110210492B (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN111768375B (zh) | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 | |
CN114511778A (zh) | 图像处理方法及装置 | |
CN113850865A (zh) | 一种基于双目视觉的人体姿态定位方法、系统和存储介质 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN112149662A (zh) | 一种基于扩张卷积块的多模态融合显著性检测方法 | |
CN111882516B (zh) | 一种基于视觉显著性和深度神经网络的图像质量评价方法 | |
CN117095128A (zh) | 一种无先验多视角人体服饰编辑方法 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
CN107909565A (zh) | 基于卷积神经网络的立体图像舒适度评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |