CN110210492A - 一种基于深度学习的立体图像视觉显著性检测方法 - Google Patents

一种基于深度学习的立体图像视觉显著性检测方法 Download PDF

Info

Publication number
CN110210492A
CN110210492A CN201910349084.2A CN201910349084A CN110210492A CN 110210492 A CN110210492 A CN 110210492A CN 201910349084 A CN201910349084 A CN 201910349084A CN 110210492 A CN110210492 A CN 110210492A
Authority
CN
China
Prior art keywords
neural network
block
output
characteristic patterns
input terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910349084.2A
Other languages
English (en)
Other versions
CN110210492B (zh
Inventor
周武杰
吕营
雷景生
张伟
何成
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Shengtang Technology Co ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910349084.2A priority Critical patent/CN110210492B/zh
Publication of CN110210492A publication Critical patent/CN110210492A/zh
Application granted granted Critical
Publication of CN110210492B publication Critical patent/CN110210492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

本发明公开了一种基于深度学习的立体图像视觉显著性检测方法,其构建卷积神经网络,包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成;将训练集中的每幅立体图像的左视点图像和深度图像输入到卷积神经网络中进行训练,得到训练集中的每幅立体图像的显著性图像;计算训练集中的每幅立体图像的显著性图像与真实人眼注视图像之间的损失函数值,重复执行多次后得到卷积神经网络训练模型;待测试的立体图像的左视点图像和深度图像输入到卷积神经网络训练模型中,预测得到显著性预测图像;优点是其具有较高的视觉显著性检测准确性。

Description

一种基于深度学习的立体图像视觉显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于深度学习的立体图像视觉显著性检测方法。
背景技术
视觉显著性检测的目的是识别场景中最吸引人的对象。视觉显著性检测在目标识别、图像检索、SLAM(Simultaneous Localization And Mapping)等计算机视觉和机器人视觉任务中具有广泛的应用前景。传统的视觉显著性检测模型仅在RGB图像上执行,可分为自底向上和自顶向下方法。基于这两种方法,提出了各种手工制作的显著性特性。近年来,为了克服高水平上下文的缺乏和挖掘显著性先验知识的困难,设计了大量用于RGB诱导的显著性目标检测的卷积神经网络(CNNs),并取得了令人满意的性能。然而,当突出目标与背景相似时,这些RGB诱导的显著性目标检测模型可能无法区分突出目标与背景。在这种情况下,深度数据包含丰富的空间结构和三维布局信息,可以提供许多额外的显著性线索。此外,深度传感器(如:微软Kinect或英特尔RealSense)对光线变化的鲁棒性,将大大有助于扩展显著性检测的应用场景。因此,将深度数据应用于视觉显著性检测具有重要的现实意义。对于RGB-D视觉显著性检测任务,如何充分融合RGB信息和深度信息是关键问题。以前的大多数模型通过直接连接RGB特征和深度特征来解决这个问题。近年来,由于卷积神经网络在学习判别表示方面的能力越来越强,因此针对不同的RGB-D计算机视觉任务,如显著性检测、语义分割和目标识别,提出了许多卷积神经网络。虽然这些卷积神经网络取得了令人鼓舞的成绩,但在几个关键方面仍有很大的改进空间:1)如何清晰地形成两种模式之间的互补信息,并将其充分融合,大多数先前的RGB-D融合网络探索跨通道互补信息,RGB数据和深度数据分别学习,然后在后期建立一个融合层,然而,配对模态的互补信息尚未得到明确表述,因此,交叉模态是模糊的,不太可能被很好地捕获;2)如何有效地利用多层次的跨模态互补信息,大多数的RGB-D融合网络只融合RGB模态和深度模态的深度特征;3)人们普遍认为,不同层次的特征是互补的,它们在不同的尺度上对场景进行抽象,更具体地说,较深的特征通常携带更多的全局上下文信息,更有可能正确定位突出的对象,而较浅的特征提供更多的空间细节,因此,为了进一步提高显著性检测的准确性,应该重视如何组合跨级别特征的问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的立体图像视觉显著性检测方法,其具有较高的视觉显著性检测准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于深度学习的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wiseSummation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wiseSummation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将之间的损失函数值记为采用均方误差损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待测试的宽度为W'且高度为H'的立体图像,将的左视点图像和深度图像对应记为其中,1≤x'≤W',1≤y'≤H',表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到的显著性预测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
所述的步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端;
第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
所述的步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
所述的步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络通过编码框架中的RGB图通道和深度图通道(即双流卷积神经网络)来学习不同级别的RGB特征和深度特征,双流卷积神经网络不仅有利于提取高级特征中更多的语义信息和浅层的低级特征中的空间信息,而且将深度信息的特征融合到视觉显著图提取之中,提高了立体视觉显著值预测的准确性。
2)本发明方法构建的卷积神经网络中的编码框架中的一些神经网络块采用卷积层来代替最大池化层,有利于保留前期特征提取的更多信息,尤其是编码框架中的RGB图通道和深度图通道深层提取的全局上下文特征,避免了由于最大池化操作而丢失的重要信息。
3)本发明方法构建的卷积神经网络中的神经网络块引入了大量的残差块,构建了更深的网络而不会产生梯度消失和训练效率问题,由于这种远跳连接,低级特征可以传到更深的网络中与高级特征进行信息互补,从而实现了有效的特征融合,因此卷积神经网络可以学到更为丰富的内容。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度学习的立体图像视觉显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为其中,N为正整数,N≥300,如取N=600,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成。
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H。
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H。
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wiseSummation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wiseSummation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H。
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为其中,表示中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将之间的损失函数值记为采用均方误差损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,如取V=50。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待测试的宽度为W'且高度为H'的立体图像,将的左视点图像和深度图像对应记为其中,1≤x'≤W',1≤y'≤H',表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到的显著性预测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
在此具体实施例中,步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端。
在此具体实施例中,步骤1_2中,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
在此具体实施例中,第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
在此具体实施例中,步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标,即线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,KLD)、AUC参数(the Area Under thereceiver operating characteristics Curve,AUC)、标准化扫描路径显著性(NormalizedScanpath Saliency,NSS)。
利用本发明方法获取中国台湾交通大学提供的三维人眼跟踪数据库中的每幅立体图像的显著性预测图像,并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图(即为真实人眼注视图像,三维人眼跟踪数据库中存在)进行比较,CC、AUC和NSS值越高,KLD值越低说明本发明方法提取的显著性预测图像与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。
表1利用本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性
性能指标 CC KLD AUC(Borji) NSS
性能指标值 0.6917 0.4969 0.8590 1.8865
从表1所列的数据可知,按本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性是很好的,表明客观提取结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。

Claims (5)

1.一种基于深度学习的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为{Dn(x,y)}、其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将之间的损失函数值记为采用均方误差损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待测试的宽度为W'且高度为H'的立体图像,将的左视点图像和深度图像对应记为其中,1≤x'≤W',1≤y'≤H',表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到的显著性预测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端;
第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
3.根据权利要求2所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
4.根据权利要求1至3中任一项所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
5.根据权利要求4所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
CN201910349084.2A 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法 Active CN110210492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349084.2A CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349084.2A CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Publications (2)

Publication Number Publication Date
CN110210492A true CN110210492A (zh) 2019-09-06
CN110210492B CN110210492B (zh) 2020-12-01

Family

ID=67786580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349084.2A Active CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN110210492B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705566A (zh) * 2019-09-11 2020-01-17 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111860643A (zh) * 2020-07-20 2020-10-30 苏州大学 基于调频模型的视觉模板匹配的鲁棒性提升方法
CN113313238A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 一种基于深度学习的视觉slam方法
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338335A (zh) * 2015-10-15 2016-02-17 宁波大学 一种立体图像显著图提取方法
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338335A (zh) * 2015-10-15 2016-02-17 宁波大学 一种立体图像显著图提取方法
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN, H 等: "RGB-D Saliency Detection by Multi-stream Late Fusion Network", 《COMPUTER VISION SYSTEMS》 *
LIU, NA 等: "Learning to Predict Eye Fixations via Multiresolution Convolutional Neural Networks", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
WUJIE ZHOU 等: "Saliency detection for stereoscopic 3D images in the quaternion frequency domain", 《3D RESEARCH》 *
李荣: "利用卷积神经网络的显著性区域预测方法", 《重庆邮电大学学报( 自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110728682B (zh) * 2019-09-09 2022-03-29 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110705566A (zh) * 2019-09-11 2020-01-17 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110705566B (zh) * 2019-09-11 2021-07-13 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111860643A (zh) * 2020-07-20 2020-10-30 苏州大学 基于调频模型的视觉模板匹配的鲁棒性提升方法
CN111860643B (zh) * 2020-07-20 2023-10-03 苏州大学 基于调频模型的视觉模板匹配的鲁棒性提升方法
CN113313238A (zh) * 2021-06-16 2021-08-27 中国科学技术大学 一种基于深度学习的视觉slam方法
CN113313238B (zh) * 2021-06-16 2023-12-29 中国科学技术大学 一种基于深度学习的视觉slam方法
CN113762393A (zh) * 2021-09-08 2021-12-07 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备
CN113762393B (zh) * 2021-09-08 2024-04-30 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备

Also Published As

Publication number Publication date
CN110210492B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN110210492A (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN110175986A (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
Liu et al. Attribute-aware face aging with wavelet-based generative adversarial networks
Zhou et al. Binocular responses for no-reference 3D image quality assessment
CN107742107A (zh) 人脸图像分类方法、装置及服务器
CN110136154A (zh) 基于全卷积网络与形态学处理的遥感图像语义分割方法
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN107977932A (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN109166144A (zh) 一种基于生成对抗网络的图像深度估计方法
CN108389192A (zh) 基于卷积神经网络的立体图像舒适度评价方法
CN110059728A (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN109711426A (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN108416266A (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN113807265B (zh) 一种多样化的人脸图像合成方法及系统
CN110490082A (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN114494789B (zh) 图像风格迁移模型的训练方法、系统、设备及存储介质
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN109325513B (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
CN104881684A (zh) 一种立体图像质量客观评价方法
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
CN113724354A (zh) 基于参考图颜色风格的灰度图像着色方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230117

Address after: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen dragon totem technology achievement transformation Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230223

Address after: 402, 404, 405, Floor 4, Building 14, Phase II, Xincheng Science Park, No. 662, Qingshan Road, Changsha High-tech Development Zone, Changsha, Hunan 410000

Patentee after: Changsha Shengtang Technology Co.,Ltd.

Address before: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen dragon totem technology achievement transformation Co.,Ltd.