CN109635822A - 基于深度学习编码译码网络的立体图像视觉显著提取方法 - Google Patents
基于深度学习编码译码网络的立体图像视觉显著提取方法 Download PDFInfo
- Publication number
- CN109635822A CN109635822A CN201811494567.3A CN201811494567A CN109635822A CN 109635822 A CN109635822 A CN 109635822A CN 201811494567 A CN201811494567 A CN 201811494567A CN 109635822 A CN109635822 A CN 109635822A
- Authority
- CN
- China
- Prior art keywords
- characteristic patterns
- width
- output
- convolutional layer
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于深度学习编码译码网络的立体图像视觉显著提取方法,在训练阶段,构建深度学习编码译码网络,包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层,编码网络框架由彩色通道编码部分和视差通道编码部分组成;然后将训练集中的左视点图像和左视点图像输入到深度学习编码译码网络中进行训练;多次训练后得到深度学习编码译码网络训练模型及最优参数;在测试阶段,将待预测的立体图像的左视点图像和左视点图像输入到深度学习编码译码网络训练模型中,并利用最优参数进行预测,得到人类注视预测图;优点是其提取的立体视觉特征符合显著语义,且其具有较强的提取稳定性和较高的提取准确性。
Description
技术领域
本发明涉及一种视觉显著提取技术,尤其是涉及一种基于深度学习编码译码网络的立体图像视觉显著提取方法。
背景技术
人们在接收自然图像后,由于人脑需要区分对待不同等级的信息资源,因此在处理自然图像信息时,人们会将不同的信息资源进行分级处理,从而表现出选择的特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的各个区域,而是对更感兴趣的语义信息部分进行优先处理。将图像视觉显著区域计算出来是计算机视觉以及基于内容的视频检测领域中的一个重要的研究内容。随着立体影像放映和采集设备的飞速发展,立体图像视觉显著检测也成为了非常重要的研究内容。
立体图像并不是平面图像的简单拓展,人眼感知立体图像产生立体图像的过程也不是简单的左视点图像和右视点图像的叠加过程,因此,立体视觉特征并不是平面视觉特征的简单拓展。但是,现有的立体图像视觉显著提取方法还停留在平面图像视觉显著提取方法之上,且现有的立体图像视觉显著提取方法提取的人类注视图的准确性较差,如齐峰等人提出的利用Log-Gabor滤波方法的立体视觉显著提取方法,其仅利用颜色、亮度、方向的特征进行人类注视图的预测,由于检测特征较少,因此人类注视图的预测缺乏准确性。因此,如何从立体图像中有效提取出立体视觉特征、如何使得提取出的立体视觉特征符合人类视觉系统的观察习惯,都是对立体图像进行视觉显著提取过程中需要研究的问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其提取的立体视觉特征符合显著语义,且其具有较强的提取稳定性和较高的提取准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为R且高度为L的立体图像;然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集,将训练集中的第n幅左视点图像记为{IL,n(x,y)},将训练集中与{IL,n(x,y)}对应的左视差图像记为{ID,n(x,y)},将训练集中与{IL,n(x,y)}对应的人类注视图记为{IF,n(x,y)};再将训练集中的每幅左视点图像缩放到480×640像素尺寸,得到训练集中的每幅左视点图像对应的480×640像素尺寸图像,将{IL,n(x,y)}对应的480×640像素尺寸图像记为{IL,n(x480,y640)};并将训练集中的每幅左视差图像缩放到480×640像素尺寸,得到训练集中的每幅左视差图像对应的 480×640像素尺寸图像,将{ID,n(x,y)}对应的480×640像素尺寸图像记为 {ID,n(x480,y640)};将训练集中的每幅人类注视图缩放到480×640像素尺寸,得到训练集中的每幅人类注视图对应的480×640像素尺寸图像,将{IF,n(x,y)}对应的480×640像素尺寸图像记为{IF,n(x480,y640)};其中,N为正整数,N≥100,n为正整数,1≤n≤N, 1≤x≤R,1≤y≤L,IL,n(x,y)表示{IL,n(x,y)}中坐标位置为(x,y)的像素点的像素值, ID,n(x,y)表示{ID,n(x,y)}中坐标位置为(x,y)的像素点的像素值,IF,n(x,y)表示 {IF,n(x,y)}中坐标位置为(x,y)的像素点的像素值,1≤x480≤480,1≤y640≤640, IL,n(x480,y640)表示{IL,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值, ID,n(x480,y640)表示{ID,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值, IF,n(x480,y640)表示{IF,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值;
步骤1_2:构建深度学习编码译码网络:深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层;编码网络框架由彩色通道编码部分和视差通道编码部分组成,彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成,视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成;译码网络框架由第5级译码网络块、第4级译码网络块、第3 级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成;
对于彩色通道输入层,彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像,彩色通道输入层的输出端输出左视点图像对应的 480×640像素尺寸图像给彩色通道编码部分;其中,要求输入立体图像的宽度为R、高度为L;
对于视差通道输入层,视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像,视差通道输入层的输出端输出左视差图像对应的 480×640像素尺寸图像给视差通道编码部分;
对于彩色通道编码部分,第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第1块彩色通道Vgg 卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VL,1,其中, VL,1中的每幅特征图的宽度为240、高度为320;第2块彩色通道Vgg卷积网络块的输入端接收VL,1中的所有特征图,第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VL,2,其中,VL,2中的每幅特征图的宽度为120、高度为160;第3块彩色通道Vgg卷积网络块的输入端接收VL,2中的所有特征图,第3 块彩色通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VL,3,其中,VL,3中的每幅特征图的宽度为60、高度为80;第4块彩色通道Vgg 卷积网络块的输入端接收VL,3中的所有特征图,第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,4,其中,VL,4中的每幅特征图的宽度为30、高度为40;第5块彩色通道Vgg卷积网络块的输入端接收VL,4中的所有特征图,第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,5,其中,VL,5中的每幅特征图的宽度为30、高度为40;
对于视差通道编码部分,第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第1块视差通道Vgg 卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VD,1,其中, VD,1中的每幅特征图的宽度为240、高度为320;第2块视差通道Vgg卷积网络块的输入端接收VD,1中的所有特征图,第2块视差通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VD,2,其中,VD,2中的每幅特征图的宽度为 120、高度为160;第3块视差通道Vgg卷积网络块的输入端接收VD,2中的所有特征图,第3块视差通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VD,3,其中,VD,3中的每幅特征图的宽度为60、高度为80;第4块视差通道 Vgg卷积网络块的输入端接收VD,3中的所有特征图,第4块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,4,其中,VD,4中的每幅特征图的宽度为30、高度为40;第5块视差通道Vgg卷积网络块的输入端接收VD,4中的所有特征图,第5块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,5,其中,VD,5中的每幅特征图的宽度为30、高度为40;
对于译码网络框架,第5级译码网络块的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第5级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为60、高度为80;第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第4级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为120、高度为160;第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第3级译码网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为240、高度为320;第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第2级译码网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为480、高度为640;第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图,第1级译码网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为480、高度为640;
对于输出层,其由输出卷积层组成,输出卷积层的输入端接收Y1中的所有特征图,输出卷积层的输出端输出1幅特征图,该幅特征图即为输入立体图像的人类注视预测图;其中,输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数,输入立体图像的人类注视预测图的宽度为480、高度为640;
步骤1_3:将选取的每幅立体图像作为输入立体图像,将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督,将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练,得到每幅输入立体图像的人类注视预测图;
步骤1_4:重复执行步骤1_3共V次,得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Itest(x',y')}表示待预测的立体图像,将{Itest(x',y')}的左视点图像和左视差图像对应记为{Itest,L(x',y')}和{Itest,D(x',y')};然后将{Itest,L(x',y')}缩放到 480×640像素尺寸,得到{Itest,L(x',y')}对应的480×640像素尺寸图像,记为 {Itest,L(x'480,y'640)};并将{Itest,D(x',y')}缩放到480×640像素尺寸,得到{Itest,D(x',y')}对应的480×640像素尺寸图像,记为{Itest,D(x'480,y'640)};其中,1≤x'≤R',1≤y'≤L', R'表示{Itest(x',y')}的宽度,L'表示{Itest(x',y')}的高度,Itest(x',y')表示{Itest(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,L(x',y')表示{Itest,L(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,D(x',y')表示{Itest,D(x',y')}中坐标位置为(x',y')的像素点的像素值,1≤x'480≤480,1≤y'640≤640,Itest,L(x'480,y'640)表示{Itest,L(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值,Itest,D(x'480,y'640)表示{Itest,D(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值;
步骤2_2:将{Itest,L(x'480,y'640)}和{Itest,D(x'480,y'640)}输入到训练好的深度学习编码译码网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,得到{Itest(x',y')}的人类注视预测图即视觉显著图像,记为{Itest,F(x'480,y'640)};其中,Itest,F(x'480,y'640)表示 {Itest,F(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值。
所述的步骤1_2中,彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成,第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第一卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出;第一最大池化层的输入端接收中的所有特征图,第一最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VL,1;其中,第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第一最大池化层的池化步长为 (2,2);
彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成,第三卷积层的输入端接收VL,1中的所有特征图,第三卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图,第四卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出;第二最大池化层的输入端接收中的所有特征图,第二最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VL,2;其中,第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第二最大池化层的池化步长为(2,2);
彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成,第五卷积层的输入端接收VL,2中的所有特征图,第五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图,第六卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图,第七卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块彩色通道Vgg卷积网络块的卷积部分的输出;第三最大池化层的输入端接收中的所有特征图,第三最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VL,3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第三最大池化层的池化步长为(2,2);
彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成,第八卷积层的输入端接收VL,3中的所有特征图,第八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图,第九卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图,第十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出;第四最大池化层的输入端接收中的所有特征图,第四最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,4;其中,第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu 函数,和各自中的每幅特征图的宽度为60、高度为80,第四最大池化层的池化步长为(2,2);
彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成,第十一卷积层的输入端接收VL,4中的所有特征图,第十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图,第十二卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图,第十三卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为30、高度为40;
视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成,第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第十四卷积层的输出端输出 64幅特征图,将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图,第十五卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出;第五最大池化层的输入端接收中的所有特征图,第五最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VD,1;其中,第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第五最大池化层的池化步长为(2,2);
视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成,第十六卷积层的输入端接收VD,1中的所有特征图,第十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图,第十七卷积层的输出端输出128 幅特征图,将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg 卷积网络块的卷积部分的输出;第六最大池化层的输入端接收中的所有特征图,第六最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VD,2;其中,第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第六最大池化层的池化步长为(2,2);
视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成,第十八卷积层的输入端接收 VD,2中的所有特征图,第十八卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图,第十九卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图,第二十卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出;第七最大池化层的输入端接收中的所有特征图,第七最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VD,3;其中,第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第七最大池化层的池化步长为(2,2);
视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成,第二十一卷积层的输入端接收VD,3中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图,第二十三卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg 卷积网络块的卷积部分的输出;第八最大池化层的输入端接收中的所有特征图,第八最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,4;其中,第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为60、高度为80,第八最大池化层的池化步长为(2,2);
视差通道编码部分中的第5块视差通道Vgg卷积网络块由依次设置的第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第二十四卷积层的输入端接收VD,4中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十五卷积层的输入端接收中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十六卷积层的输入端接收中的所有特征图,第二十六卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,5;其中,第二十四卷积层、第二十五卷积层和第二十六卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为 relu函数,和各自中的每幅特征图的宽度为30、高度为40。
所述的步骤1_2中,第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成,第一连接层的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第一连接层的输出端输出1040幅特征图,将输出的所有特征图构成的集合记为第二十七卷积层的输入端接收中的所有特征图,第二十七卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十八卷积层的输入端接收中的所有特征图,第二十八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图,第二十九卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图,第一反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y5;其中,和中的每幅特征图的宽度为30、高度为40,第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数;
第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成,第二连接层的输入端接收彩色通道编码部分中的第 4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第 4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第二连接层的输出端输出1552幅特征图,将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图,第三十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图,第三十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图,第三十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图,第二反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y4;其中, 和中的每幅特征图的宽度为60、高度为80,第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数;
第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成,第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第三连接层的输出端输出 1040幅特征图,将输出的所有特征图构成的集合记为第三十三卷积层的输入端接收中的所有特征图,第三十三卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收中的所有特征图,第三十四卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三十五卷积层的输入端接收中的所有特征图,第三十五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图,第三反卷积层的输出端输出256幅特征图,输出的所有特征图构成的集合为Y3;其中,和中的每幅特征图的宽度为120、高度为160,第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数;
第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成,第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第四连接层的输出端输出528 幅特征图,将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图,第三十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图,第三十七卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图,第三十八卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图,第四反卷积层的输出端输出128幅特征图,输出的所有特征图构成的集合为Y2;其中, 和中的每幅特征图的宽度为240、高度为320,第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为 128、激活函数均为relu函数,第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数;
第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成,第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg 卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅 480×640像素尺寸的中心偏好特征图,第五连接层的输出端输出272幅特征图,将输出的所有特征图构成的集合记为Y1 1;第三十九卷积层的输入端接收Y1 1中的所有特征图,第三十九卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1 2;第四十卷积层的输入端接收Y1 2中的所有特征图,第四十卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1 3;第四十一卷积层的输入端接收Y1 3中的所有特征图,第四十一卷积层的输出端输出64幅特征图,输出的所有特征图构成的集合为Y1;其中,Y1 1、Y1 2和Y1 3中的每幅特征图的宽度为480、高度为640,第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。
与现有技术相比,本发明的优点在于:
1)本发明方法创建的深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层,编码网络框架由彩色通道编码部分和视差通道编码部分组成,利用该深度学习编码译码网络提取特征,可以进行快速的并行运算,使得利用训练得到的深度学习编码译码网络训练模型预测人类注视预测图的速度更快。
2)本发明方法创建的深度学习编码译码网络中的视差通道编码部分由Vgg网络中的第1块至第5块Vgg卷积网络块组成,利用5块Vgg卷积网络块可以更充分地提取出深度特征,从而提升了利用训练得到的深度学习编码译码网络训练模型预测人类注视预测图的预测准确度。
3)本发明方法创建的深度学习编码译码网络中的编码网络框架中的彩色通道编码部分由Vgg网络中的第1块至第5块Vgg卷积网络块组成,视差通道编码部分也由Vgg网络中的第1块至第5块Vgg卷积网络块组成,译码网络框架由5级译码网络块依次设置组成,第1块彩色通道Vgg卷积网络块和第1块视差通道Vgg卷积网络块的输出直接输入第1级译码网络块中,第2块彩色通道Vgg卷积网络块和第2块视差通道Vgg卷积网络块的输出直接输入第2级译码网络块中,第3块彩色通道Vgg卷积网络块和第3块视差通道Vgg卷积网络块的输出直接输入第3级译码网络块中,第4块彩色通道Vgg卷积网络块和第4块视差通道Vgg卷积网络块的输出直接输入第4级译码网络块中,第5块彩色通道Vgg卷积网络块和第5块视差通道Vgg卷积网络块的输出直接输入第5级译码网络块中,这样的连接结构可以使得译码网络框架充分地学习到各层特征,从而提升了总体效果。
4)本发明方法是一种端到端的深度学习方法,相较其他显著性预测方法可以便捷的训练得到深度学习编码译码网络训练模型。
5)本发明方法利用了大量的高级检测特征(即第4块和第5块彩色通道Vgg卷积网络块及第4块和第5块视差通道Vgg卷积网络块输出的特征)与低级检测特征(即第 1块至第3块彩色通道Vgg卷积网络块及第1块至第3块视差通道Vgg卷积网络块输出的特征),对于不同类型的图像都有较好的效果,鲁棒性强。
附图说明
图1为本发明方法的总体流程框图;
图2为本发明方法中构建的深度学习编码译码网络的组成结构示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其总体流程框图如图1所示,其特征在于包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为R且高度为L的立体图像;然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集,将训练集中的第n幅左视点图像记为{IL,n(x,y)},将训练集中与{IL,n(x,y)}对应的左视差图像记为{ID,n(x,y)},将训练集中与{IL,n(x,y)}对应的人类注视图记为{IF,n(x,y)};再将训练集中的每幅左视点图像缩放到480×640像素尺寸,得到训练集中的每幅左视点图像对应的480×640像素尺寸图像,将{IL,n(x,y)}对应的480×640像素尺寸图像记为{IL,n(x480,y640)};并将训练集中的每幅左视差图像缩放到480×640像素尺寸,得到训练集中的每幅左视差图像对应的 480×640像素尺寸图像,将{ID,n(x,y)}对应的480×640像素尺寸图像记为 {ID,n(x480,y640)};将训练集中的每幅人类注视图缩放到480×640像素尺寸,得到训练集中的每幅人类注视图对应的480×640像素尺寸图像,将{IF,n(x,y)}对应的480×640像素尺寸图像记为{IF,n(x480,y640)};其中,N为正整数,N≥100,如取N=1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,IL,n(x,y)表示{IL,n(x,y)}中坐标位置为(x,y)的像素点的像素值,ID,n(x,y)表示{ID,n(x,y)}中坐标位置为(x,y)的像素点的像素值, IF,n(x,y)表示{IF,n(x,y)}中坐标位置为(x,y)的像素点的像素值,1≤x480≤480, 1≤y640≤640,IL,n(x480,y640)表示{IL,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,ID,n(x480,y640)表示{ID,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值, IF,n(x480,y640)表示{IF,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值;在此,在中国台湾省交通大学提供的三维人眼跟踪数据库(3Deye-tracking database)中选取立体图像,并将选取的所有立体图像的左视点图像、左视差图像和人类注视图构成训练集。
步骤1_2:构建深度学习编码译码网络:如图2所示,深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层;编码网络框架由彩色通道编码部分和视差通道编码部分组成,彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成,视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成;译码网络框架由第5级译码网络块、第4级译码网络块、第3级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成;在此,第1块彩色通道Vgg卷积网络块和第1块视差通道Vgg卷积网络块均为Vgg网络中的第1块Vgg卷积网络块,同理,第2块彩色通道Vgg卷积网络块和第2块视差通道Vgg 卷积网络块均为Vgg网络中的第2块Vgg卷积网络块,第3块彩色通道Vgg卷积网络块和第3块视差通道Vgg卷积网络块均为Vgg网络中的第3块Vgg卷积网络块,第4 块彩色通道Vgg卷积网络块和第4块视差通道Vgg卷积网络块均为Vgg网络中的第4 块Vgg卷积网络块,第5块彩色通道Vgg卷积网络块和第5块视差通道Vgg卷积网络块均为Vgg网络中的第5块Vgg卷积网络块,而在Vgg网络中,第1块Vgg卷积网络块、第2块Vgg卷积网络块、第3块Vgg卷积网络块、第4块Vgg卷积网络块、第5 块Vgg卷积网络块均是特定的网络块,各自的内部组成结构是确定的。
对于彩色通道输入层,彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像,彩色通道输入层的输出端输出左视点图像对应的 480×640像素尺寸图像给彩色通道编码部分;其中,要求输入立体图像的宽度为R、高度为L。
对于视差通道输入层,视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像,视差通道输入层的输出端输出左视差图像对应的 480×640像素尺寸图像给视差通道编码部分。
对于彩色通道编码部分,第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第1块彩色通道Vgg 卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VL,1,其中, VL,1中的每幅特征图的宽度为240、高度为320;第2块彩色通道Vgg卷积网络块的输入端接收VL,1中的所有特征图,第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VL,2,其中,VL,2中的每幅特征图的宽度为120、高度为160;第3块彩色通道Vgg卷积网络块的输入端接收VL,2中的所有特征图,第3 块彩色通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VL,3,其中,VL,3中的每幅特征图的宽度为60、高度为80;第4块彩色通道Vgg 卷积网络块的输入端接收VL,3中的所有特征图,第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,4,其中,VL,4中的每幅特征图的宽度为30、高度为40;第5块彩色通道Vgg卷积网络块的输入端接收VL,4中的所有特征图,第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,5,其中,VL,5中的每幅特征图的宽度为30、高度为40。
对于视差通道编码部分,第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第1块视差通道Vgg 卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VD,1,其中, VD,1中的每幅特征图的宽度为240、高度为320;第2块视差通道Vgg卷积网络块的输入端接收VD,1中的所有特征图,第2块视差通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VD,2,其中,VD,2中的每幅特征图的宽度为 120、高度为160;第3块视差通道Vgg卷积网络块的输入端接收VD,2中的所有特征图,第3块视差通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VD,3,其中,VD,3中的每幅特征图的宽度为60、高度为80;第4块视差通道 Vgg卷积网络块的输入端接收VD,3中的所有特征图,第4块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,4,其中,VD,4中的每幅特征图的宽度为30、高度为40;第5块视差通道Vgg卷积网络块的输入端接收VD,4中的所有特征图,第5块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,5,其中,VD,5中的每幅特征图的宽度为30、高度为40。
对于译码网络框架,第5级译码网络块的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第5级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为60、高度为80;第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第4级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为120、高度为160;第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第3级译码网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为240、高度为320;第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第2级译码网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为480、高度为640;第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图,第1级译码网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为480、高度为640。
对于输出层,其由输出卷积层组成,输出卷积层的输入端接收Y1中的所有特征图,输出卷积层的输出端输出1幅特征图,该幅特征图即为输入立体图像的人类注视预测图;其中,输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数,输入立体图像的人类注视预测图的宽度为480、高度为640。
在本实施例中,步骤1_2中,彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成,第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第一卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出;第一最大池化层的输入端接收中的所有特征图,第一最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VL,1;其中,第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu 函数,和各自中的每幅特征图的宽度为480、高度为640,第一最大池化层的池化步长为(2,2)。
彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成,第三卷积层的输入端接收VL,1中的所有特征图,第三卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图,第四卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出;第二最大池化层的输入端接收中的所有特征图,第二最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VL,2;其中,第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第二最大池化层的池化步长为(2,2)。
彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成,第五卷积层的输入端接收VL,2中的所有特征图,第五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图,第六卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图,第七卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块彩色通道Vgg卷积网络块的卷积部分的输出;第三最大池化层的输入端接收中的所有特征图,第三最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VL,3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第三最大池化层的池化步长为(2,2)。
彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成,第八卷积层的输入端接收VL,3中的所有特征图,第八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图,第九卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图,第十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出;第四最大池化层的输入端接收中的所有特征图,第四最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,4;其中,第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu 函数,和各自中的每幅特征图的宽度为60、高度为80,第四最大池化层的池化步长为(2,2)。
彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成,第十一卷积层的输入端接收VL,4中的所有特征图,第十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图,第十二卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图,第十三卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为30、高度为40。
视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成,第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第十四卷积层的输出端输出 64幅特征图,将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图,第十五卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出;第五最大池化层的输入端接收中的所有特征图,第五最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VD,1;其中,第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第五最大池化层的池化步长为(2,2)。
视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成,第十六卷积层的输入端接收VD,1中的所有特征图,第十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图,第十七卷积层的输出端输出128 幅特征图,将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg 卷积网络块的卷积部分的输出;第六最大池化层的输入端接收中的所有特征图,第六最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VD,2;其中,第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第六最大池化层的池化步长为(2,2)。
视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成,第十八卷积层的输入端接收 VD,2中的所有特征图,第十八卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图,第十九卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图,第二十卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出;第七最大池化层的输入端接收中的所有特征图,第七最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VD,3;其中,第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第七最大池化层的池化步长为(2,2)。
视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成,第二十一卷积层的输入端接收VD,3中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图,第二十三卷积层的输出端输出512 幅特征图,将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg 卷积网络块的卷积部分的输出;第八最大池化层的输入端接收中的所有特征图,第八最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,4;其中,第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为60、高度为80,第八最大池化层的池化步长为(2,2)。
视差通道编码部分中的第5块视差通道Vgg卷积网络块由依次设置的第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第二十四卷积层的输入端接收VD,4中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十五卷积层的输入端接收中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十六卷积层的输入端接收中的所有特征图,第二十六卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,5;其中,第二十四卷积层、第二十五卷积层和第二十六卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为 relu函数,和各自中的每幅特征图的宽度为30、高度为40。
在本实施例中,步骤1_2中,第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成,第一连接层的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第一连接层的输出端输出1040幅特征图,将输出的所有特征图构成的集合记为Y5 1;第二十七卷积层的输入端接收Y5 1中的所有特征图,第二十七卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y5 2;第二十八卷积层的输入端接收Y5 2中的所有特征图,第二十八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图,第二十九卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图,第一反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y5;其中,和中的每幅特征图的宽度为30、高度为40,第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数。
第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成,第二连接层的输入端接收彩色通道编码部分中的第 4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第 4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第二连接层的输出端输出1552幅特征图,将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图,第三十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图,第三十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图,第三十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图,第二反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y4;其中, 和中的每幅特征图的宽度为60、高度为80,第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数。
第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成,第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第三连接层的输出端输出 1040幅特征图,将输出的所有特征图构成的集合记为第三十三卷积层的输入端接收中的所有特征图,第三十三卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收Y3 2中的所有特征图,第三十四卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3 3;第三十五卷积层的输入端接收Y3 3中的所有特征图,第三十五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图,第三反卷积层的输出端输出256幅特征图,输出的所有特征图构成的集合为Y3;其中, Y3 1、Y3 2、Y3 3和中的每幅特征图的宽度为120、高度为160,第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数。
第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成,第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第四连接层的输出端输出528 幅特征图,将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图,第三十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图,第三十七卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图,第三十八卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图,第四反卷积层的输出端输出128幅特征图,输出的所有特征图构成的集合为Y2;其中, 和中的每幅特征图的宽度为240、高度为320,第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为 128、激活函数均为relu函数,第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数。
第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成,第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道 Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道 Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的 16幅480×640像素尺寸的中心偏好特征图,第五连接层的输出端输出272幅特征图,将输出的所有特征图构成的集合记为Y1 1;第三十九卷积层的输入端接收Y1 1中的所有特征图,第三十九卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1 2;第四十卷积层的输入端接收Y1 2中的所有特征图,第四十卷积层的输出端输出64 幅特征图,将输出的所有特征图构成的集合记为Y1 3;第四十一卷积层的输入端接收Y1 3中的所有特征图,第四十一卷积层的输出端输出64幅特征图,输出的所有特征图构成的集合为Y1;其中,Y1 1、Y1 2和Y1 3中的每幅特征图的宽度为480、高度为640,第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。
步骤1_3:将选取的每幅立体图像作为输入立体图像,将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督,将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练,得到每幅输入立体图像的人类注视预测图。
步骤1_4:重复执行步骤1_3共V次,得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项;其中,V>1,在本实施例中取V=20。
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Itest(x',y')}表示待预测的立体图像,将{Itest(x',y')}的左视点图像和左视差图像对应记为{Itest,L(x',y')}和{Itest,D(x',y')};然后将{Itest,L(x',y')}缩放到 480×640像素尺寸,得到{Itest,L(x',y')}对应的480×640像素尺寸图像,记为 {Itest,L(x'480,y'640)};并将{Itest,D(x',y')}缩放到480×640像素尺寸,得到{Itest,D(x',y')}对应的480×640像素尺寸图像,记为{Itest,D(x'480,y'640)};其中,1≤x'≤R',1≤y'≤L', R'表示{Itest(x',y')}的宽度,L'表示{Itest(x',y')}的高度,Itest(x',y')表示{Itest(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,L(x',y')表示{Itest,L(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,D(x',y')表示{Itest,D(x',y')}中坐标位置为(x',y')的像素点的像素值,1≤x'480≤480,1≤y'640≤640,Itest,L(x'480,y'640)表示{Itest,L(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值,Itest,D(x'480,y'640)表示{Itest,D(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值。
步骤2_2:将{Itest,L(x'480,y'640)}和{Itest,D(x'480,y'640)}输入到训练好的深度学习编码译码网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,得到{Itest(x',y')}的人类注视预测图即视觉显著图像,记为{Itest,F(x'480,y'640)};其中,Itest,F(x'480,y'640)表示 {Itest,F(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值。
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾省交通大学提供的三维人眼跟踪数据库(3Deye-trackingdatabase)来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的3 个常用客观参量作为评价指标,即Pearson相关系数(Pearson linear correlationcoefficient, PLCC)、Kullback-Leibler散度系数(Kullback-Leibler divergence,KLD)、AUC参数(the Area Under the receiver operating characteristics Curve,AUC)。
利用本发明方法获取中国台湾省交通大学提供的三维人眼跟踪数据库中的每幅立体图像的人类注视预测图即视觉显著图像,并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图像(三维人眼跟踪数据库中存在)进行比较,PLCC和AUC值越高、 KLD值越低说明本发明方法提取的视觉显著图像与主观视觉显著图像的一致性越好。反映本发明方法的视觉显著提取性能的PLCC、KLD和AUC相关指标如表1所列。从表1所列的数据可知,按本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性是很好的,表明客观提取结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。
表1 利用本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性
Claims (3)
1.一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为R且高度为L的立体图像;然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集,将训练集中的第n幅左视点图像记为{IL,n(x,y)},将训练集中与{IL,n(x,y)}对应的左视差图像记为{ID,n(x,y)},将训练集中与{IL,n(x,y)}对应的人类注视图记为{IF,n(x,y)};再将训练集中的每幅左视点图像缩放到480×640像素尺寸,得到训练集中的每幅左视点图像对应的480×640像素尺寸图像,将{IL,n(x,y)}对应的480×640像素尺寸图像记为{IL,n(x480,y640)};并将训练集中的每幅左视差图像缩放到480×640像素尺寸,得到训练集中的每幅左视差图像对应的480×640像素尺寸图像,将{ID,n(x,y)}对应的480×640像素尺寸图像记为{ID,n(x480,y640)};将训练集中的每幅人类注视图缩放到480×640像素尺寸,得到训练集中的每幅人类注视图对应的480×640像素尺寸图像,将{IF,n(x,y)}对应的480×640像素尺寸图像记为{IF,n(x480,y640)};其中,N为正整数,N≥100,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,IL,n(x,y)表示{IL,n(x,y)}中坐标位置为(x,y)的像素点的像素值,ID,n(x,y)表示{ID,n(x,y)}中坐标位置为(x,y)的像素点的像素值,IF,n(x,y)表示{IF,n(x,y)}中坐标位置为(x,y)的像素点的像素值,1≤x480≤480,1≤y640≤640,IL,n(x480,y640)表示{IL,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,ID,n(x480,y640)表示{ID,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,IF,n(x480,y640)表示{IF,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值;
步骤1_2:构建深度学习编码译码网络:深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层;编码网络框架由彩色通道编码部分和视差通道编码部分组成,彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成,视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成;译码网络框架由第5级译码网络块、第4级译码网络块、第3级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成;
对于彩色通道输入层,彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像,彩色通道输入层的输出端输出左视点图像对应的480×640像素尺寸图像给彩色通道编码部分;其中,要求输入立体图像的宽度为R、高度为L;
对于视差通道输入层,视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像,视差通道输入层的输出端输出左视差图像对应的480×640像素尺寸图像给视差通道编码部分;
对于彩色通道编码部分,第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第1块彩色通道Vgg卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VL,1,其中,VL,1中的每幅特征图的宽度为240、高度为320;第2块彩色通道Vgg卷积网络块的输入端接收VL,1中的所有特征图,第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VL,2,其中,VL,2中的每幅特征图的宽度为120、高度为160;第3块彩色通道Vgg卷积网络块的输入端接收VL,2中的所有特征图,第3块彩色通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VL,3,其中,VL,3中的每幅特征图的宽度为60、高度为80;第4块彩色通道Vgg卷积网络块的输入端接收VL,3中的所有特征图,第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,4,其中,VL,4中的每幅特征图的宽度为30、高度为40;第5块彩色通道Vgg卷积网络块的输入端接收VL,4中的所有特征图,第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,5,其中,VL,5中的每幅特征图的宽度为30、高度为40;
对于视差通道编码部分,第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第1块视差通道Vgg卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VD,1,其中,VD,1中的每幅特征图的宽度为240、高度为320;第2块视差通道Vgg卷积网络块的输入端接收VD,1中的所有特征图,第2块视差通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VD,2,其中,VD,2中的每幅特征图的宽度为120、高度为160;第3块视差通道Vgg卷积网络块的输入端接收VD,2中的所有特征图,第3块视差通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VD,3,其中,VD,3中的每幅特征图的宽度为60、高度为80;第4块视差通道Vgg卷积网络块的输入端接收VD,3中的所有特征图,第4块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,4,其中,VD,4中的每幅特征图的宽度为30、高度为40;第5块视差通道Vgg卷积网络块的输入端接收VD,4中的所有特征图,第5块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,5,其中,VD,5中的每幅特征图的宽度为30、高度为40;
对于译码网络框架,第5级译码网络块的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第5级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为60、高度为80;第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第4级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为120、高度为160;第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第3级译码网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为240、高度为320;第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第2级译码网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为480、高度为640;第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图,第1级译码网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为480、高度为640;
对于输出层,其由输出卷积层组成,输出卷积层的输入端接收Y1中的所有特征图,输出卷积层的输出端输出1幅特征图,该幅特征图即为输入立体图像的人类注视预测图;其中,输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数,输入立体图像的人类注视预测图的宽度为480、高度为640;
步骤1_3:将选取的每幅立体图像作为输入立体图像,将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督,将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练,得到每幅输入立体图像的人类注视预测图;
步骤1_4:重复执行步骤1_3共V次,得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令{Itest(x',y')}表示待预测的立体图像,将{Itest(x',y')}的左视点图像和左视差图像对应记为{Itest,L(x',y')}和{Itest,D(x',y')};然后将{Itest,L(x',y')}缩放到480×640像素尺寸,得到{Itest,L(x',y')}对应的480×640像素尺寸图像,记为{Itest,L(x'480,y'640)};并将{Itest,D(x',y')}缩放到480×640像素尺寸,得到{Itest,D(x',y')}对应的480×640像素尺寸图像,记为{Itest,D(x'480,y'640)};其中,1≤x'≤R',1≤y'≤L',R'表示{Itest(x',y')}的宽度,L'表示{Itest(x',y')}的高度,Itest(x',y')表示{Itest(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,L(x',y')表示{Itest,L(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,D(x',y')表示{Itest,D(x',y')}中坐标位置为(x',y')的像素点的像素值,1≤x'480≤480,1≤y'640≤640,Itest,L(x'480,y'640)表示{Itest,L(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值,Itest,D(x'480,y'640)表示{Itest,D(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值;
步骤2_2:将{Itest,L(x'480,y'640)}和{Itest,D(x'480,y'640)}输入到训练好的深度学习编码译码网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,得到{Itest(x',y')}的人类注视预测图即视觉显著图像,记为{Itest,F(x'480,y'640)};其中,Itest,F(x'480,y'640)表示{Itest,F(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值。
2.根据权利要求1所述的基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于所述的步骤1_2中,彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成,第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第一卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出;第一最大池化层的输入端接收中的所有特征图,第一最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VL,1;其中,第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第一最大池化层的池化步长为(2,2);
彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成,第三卷积层的输入端接收VL,1中的所有特征图,第三卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图,第四卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出;第二最大池化层的输入端接收中的所有特征图,第二最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VL,2;其中,第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第二最大池化层的池化步长为(2,2);
彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成,第五卷积层的输入端接收VL,2中的所有特征图,第五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图,第六卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图,第七卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块彩色通道Vgg卷积网络块的卷积部分的输出;第三最大池化层的输入端接收中的所有特征图,第三最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VL,3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第三最大池化层的池化步长为(2,2);
彩色通道编码部分中的第4块彩色通道Vgg卷积网络块由依次设置的第八卷积层、第九卷积层、第十卷积层和第四最大池化层组成,第八卷积层的输入端接收VL,3中的所有特征图,第八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第九卷积层的输入端接收中的所有特征图,第九卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第十卷积层的输入端接收中的所有特征图,第十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为并将作为第4块彩色通道Vgg卷积网络块的卷积部分的输出;第四最大池化层的输入端接收中的所有特征图,第四最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,4;其中,第八卷积层、第九卷积层和第十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为60、高度为80,第四最大池化层的池化步长为(2,2);
彩色通道编码部分中的第5块彩色通道Vgg卷积网络块由依次设置的第十一卷积层、第十二卷积层、第十三卷积层组成,第十一卷积层的输入端接收VL,4中的所有特征图,第十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第十二卷积层的输入端接收中的所有特征图,第十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第十三卷积层的输入端接收中的所有特征图,第十三卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VL,5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为30、高度为40;
视差通道编码部分中的第1块视差通道Vgg卷积网络块由依次设置的第十四卷积层、第十五卷积层和第五最大池化层组成,第十四卷积层的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第十四卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为第十五卷积层的输入端接收中的所有特征图,第十五卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块视差通道Vgg卷积网络块的卷积部分的输出;第五最大池化层的输入端接收中的所有特征图,第五最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VD,1;其中,第十四卷积层和第十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第五最大池化层的池化步长为(2,2);
视差通道编码部分中的第2块视差通道Vgg卷积网络块由依次设置的第十六卷积层、第十七卷积层和第六最大池化层组成,第十六卷积层的输入端接收VD,1中的所有特征图,第十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第十七卷积层的输入端接收中的所有特征图,第十七卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为并将作为第2块视差通道Vgg卷积网络块的卷积部分的输出;第六最大池化层的输入端接收中的所有特征图,第六最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VD,2;其中,第十六卷积层和第十七卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第六最大池化层的池化步长为(2,2);
视差通道编码部分中的第3块视差通道Vgg卷积网络块由依次设置的第十八卷积层、第十九卷积层、第二十卷积层和第七最大池化层组成,第十八卷积层的输入端接收VD,2中的所有特征图,第十八卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第十九卷积层的输入端接收中的所有特征图,第十九卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第二十卷积层的输入端接收中的所有特征图,第二十卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为并将作为第3块视差通道Vgg卷积网络块的卷积部分的输出;第七最大池化层的输入端接收中的所有特征图,第七最大池化层的输出端输出256幅特征图,输出的所有特征图构成的集合为VD,3;其中,第十八卷积层、第十九卷积层和第二十卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,和各自中的每幅特征图的宽度为120、高度为160,第七最大池化层的池化步长为(2,2);
视差通道编码部分中的第4块视差通道Vgg卷积网络块由依次设置的第二十一卷积层、第二十二卷积层、第二十三卷积层和第八最大池化层组成,第二十一卷积层的输入端接收VD,3中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十二卷积层的输入端接收中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十三卷积层的输入端接收中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为并将作为第4块视差通道Vgg卷积网络块的卷积部分的输出;第八最大池化层的输入端接收中的所有特征图,第八最大池化层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,4;其中,第二十一卷积层、第二十二卷积层和第二十三卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为60、高度为80,第八最大池化层的池化步长为(2,2);
视差通道编码部分中的第5块视差通道Vgg卷积网络块由依次设置的第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第二十四卷积层的输入端接收VD,4中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十五卷积层的输入端接收中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十六卷积层的输入端接收中的所有特征图,第二十六卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为VD,5;其中,第二十四卷积层、第二十五卷积层和第二十六卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,和各自中的每幅特征图的宽度为30、高度为40。
3.根据权利要求1或2所述的基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于所述的步骤1_2中,第5级译码网络块由依次设置的第一连接层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第一反卷积层组成,第一连接层的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第一连接层的输出端输出1040幅特征图,将输出的所有特征图构成的集合记为第二十七卷积层的输入端接收中的所有特征图,第二十七卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十八卷积层的输入端接收中的所有特征图,第二十八卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二十九卷积层的输入端接收中的所有特征图,第二十九卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第一反卷积层的输入端接收中的所有特征图,第一反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y5;其中,和中的每幅特征图的宽度为30、高度为40,第二十七卷积层、第二十八卷积层和第二十九卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第一反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数;
第4级译码网络块由依次设置的第二连接层、第三十卷积层、第三十一卷积层、第三十二卷积层、第二反卷积层组成,第二连接层的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第二连接层的输出端输出1552幅特征图,将输出的所有特征图构成的集合记为第三十卷积层的输入端接收中的所有特征图,第三十卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十一卷积层的输入端接收中的所有特征图,第三十一卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第三十二卷积层的输入端接收中的所有特征图,第三十二卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为第二反卷积层的输入端接收中的所有特征图,第二反卷积层的输出端输出512幅特征图,输出的所有特征图构成的集合为Y4;其中, 和中的每幅特征图的宽度为60、高度为80,第三十卷积层、第三十一卷积层和第三十二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为512、激活函数均为relu函数,第二反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为512、激活函数均为relu函数;
第3级译码网络块由依次设置的第三连接层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三反卷积层组成,第三连接层的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第三连接层的输出端输出1040幅特征图,将输出的所有特征图构成的集合记为Y3 1;第三十三卷积层的输入端接收Y3 1中的所有特征图,第三十三卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三十四卷积层的输入端接收中的所有特征图,第三十四卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三十五卷积层的输入端接收中的所有特征图,第三十五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第三反卷积层的输入端接收中的所有特征图,第三反卷积层的输出端输出256幅特征图,输出的所有特征图构成的集合为Y3;其中,Y3 1、和中的每幅特征图的宽度为120、高度为160,第三十三卷积层、第三十四卷积层和第三十五卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为256、激活函数均为relu函数,第三反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为256、激活函数均为relu函数;
第2级译码网络块由依次设置的第四连接层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第四反卷积层组成,第四连接层的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第四连接层的输出端输出528幅特征图,将输出的所有特征图构成的集合记为第三十六卷积层的输入端接收中的所有特征图,第三十六卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十七卷积层的输入端接收中的所有特征图,第三十七卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第三十八卷积层的输入端接收中的所有特征图,第三十八卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四反卷积层的输入端接收中的所有特征图,第四反卷积层的输出端输出128幅特征图,输出的所有特征图构成的集合为Y2;其中, 和中的每幅特征图的宽度为240、高度为320,第三十六卷积层、第三十七卷积层和第三十八卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,第四反卷积层的卷积核大小均为(3,3)、卷积步长均为(2,2)、卷积核数目均为128、激活函数均为relu函数;
第1级译码网络块由依次设置的第五连接层、第三十九卷积层、第四十卷积层、第四十一卷积层组成,第五连接层的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图,第五连接层的输出端输出272幅特征图,将输出的所有特征图构成的集合记为Y1 1;第三十九卷积层的输入端接收Y1 1中的所有特征图,第三十九卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1 2;第四十卷积层的输入端接收Y1 2中的所有特征图,第四十卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1 3;第四十一卷积层的输入端接收Y1 3中的所有特征图,第四十一卷积层的输出端输出64幅特征图,输出的所有特征图构成的集合为Y1;其中,Y1 1、Y1 2和Y1 3中的每幅特征图的宽度为480、高度为640,第三十九卷积层、第四十卷积层和第四十一卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811494567.3A CN109635822B (zh) | 2018-12-07 | 2018-12-07 | 基于深度学习编码译码网络的立体图像视觉显著提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811494567.3A CN109635822B (zh) | 2018-12-07 | 2018-12-07 | 基于深度学习编码译码网络的立体图像视觉显著提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635822A true CN109635822A (zh) | 2019-04-16 |
CN109635822B CN109635822B (zh) | 2022-06-21 |
Family
ID=66071925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811494567.3A Active CN109635822B (zh) | 2018-12-07 | 2018-12-07 | 基于深度学习编码译码网络的立体图像视觉显著提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635822B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110210492A (zh) * | 2019-04-28 | 2019-09-06 | 浙江科技学院 | 一种基于深度学习的立体图像视觉显著性检测方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
CN110458178A (zh) * | 2019-08-12 | 2019-11-15 | 浙江科技学院 | 多模态多拼接的rgb-d显著性目标检测方法 |
CN110570402A (zh) * | 2019-08-19 | 2019-12-13 | 浙江科技学院 | 基于边界感知神经网络的双目显著物体检测方法 |
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197045A (zh) * | 2007-12-17 | 2008-06-11 | 电子科技大学 | 一种图像立体匹配方法及其装置 |
CN102722712A (zh) * | 2012-01-02 | 2012-10-10 | 西安电子科技大学 | 基于连续度的多尺度高分辨图像目标检测方法 |
CN107369131A (zh) * | 2017-07-04 | 2017-11-21 | 华中科技大学 | 图像的显著性检测方法、装置、存储介质和处理器 |
CN107665488A (zh) * | 2017-09-14 | 2018-02-06 | 浙江科技学院 | 一种立体图像视觉显著提取方法 |
WO2018196001A1 (en) * | 2017-04-28 | 2018-11-01 | SZ DJI Technology Co., Ltd. | Sensing assembly for autonomous driving |
-
2018
- 2018-12-07 CN CN201811494567.3A patent/CN109635822B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197045A (zh) * | 2007-12-17 | 2008-06-11 | 电子科技大学 | 一种图像立体匹配方法及其装置 |
CN102722712A (zh) * | 2012-01-02 | 2012-10-10 | 西安电子科技大学 | 基于连续度的多尺度高分辨图像目标检测方法 |
WO2018196001A1 (en) * | 2017-04-28 | 2018-11-01 | SZ DJI Technology Co., Ltd. | Sensing assembly for autonomous driving |
CN107369131A (zh) * | 2017-07-04 | 2017-11-21 | 华中科技大学 | 图像的显著性检测方法、装置、存储介质和处理器 |
CN107665488A (zh) * | 2017-09-14 | 2018-02-06 | 浙江科技学院 | 一种立体图像视觉显著提取方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110175986B (zh) * | 2019-04-23 | 2021-01-08 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110210492A (zh) * | 2019-04-28 | 2019-09-06 | 浙江科技学院 | 一种基于深度学习的立体图像视觉显著性检测方法 |
CN110210492B (zh) * | 2019-04-28 | 2020-12-01 | 浙江科技学院 | 一种基于深度学习的立体图像视觉显著性检测方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
CN110263813B (zh) * | 2019-05-27 | 2020-12-01 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
CN110458178A (zh) * | 2019-08-12 | 2019-11-15 | 浙江科技学院 | 多模态多拼接的rgb-d显著性目标检测方法 |
CN110458178B (zh) * | 2019-08-12 | 2023-09-22 | 浙江科技学院 | 多模态多拼接的rgb-d显著性目标检测方法 |
CN110570402A (zh) * | 2019-08-19 | 2019-12-13 | 浙江科技学院 | 基于边界感知神经网络的双目显著物体检测方法 |
CN110570402B (zh) * | 2019-08-19 | 2021-11-19 | 浙江科技学院 | 基于边界感知神经网络的双目显著物体检测方法 |
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN111639544B (zh) * | 2020-05-07 | 2022-08-09 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109635822B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635822A (zh) | 基于深度学习编码译码网络的立体图像视觉显著提取方法 | |
CN106469299B (zh) | 一种车辆搜索方法及装置 | |
CN109522874A (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
CN110706314B (zh) | 元素布局方法、装置、电子设备及可读存储介质 | |
CN107330364A (zh) | 一种基于cGAN网络的人群计数方法及系统 | |
Zhou et al. | Omnidirectional image quality assessment by distortion discrimination assisted multi-stream network | |
CN110175986A (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN106257496B (zh) | 海量网络文本与非文本图像分类方法 | |
CN111967533B (zh) | 一种基于场景识别的草图图像翻译方法 | |
CN110263813A (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN111475676B (zh) | 视频数据处理方法、系统、装置、设备及可读存储介质 | |
CN107944459A (zh) | 一种rgb‑d物体识别方法 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN110210492A (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN101169830A (zh) | 基于嵌入式隐马尔可夫模型和选择性集成的人脸画像自动生成方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
Chen et al. | ASF-Net: Adaptive screening feature network for building footprint extraction from remote-sensing images | |
CN112434608A (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN109409380A (zh) | 一种基于双学习网络的立体图像视觉显著提取方法 | |
CN113963170A (zh) | 一种基于交互式特征融合的rgbd图像显著性检测方法 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN104281865B (zh) | 一种生成二维码的方法与设备 | |
Du et al. | Double-channel guided generative adversarial network for image colorization | |
CN114677722A (zh) | 一种融合多尺度特征的多监督人脸活体检测方法 | |
CN110348283A (zh) | 基于双线性模型多层特征融合的细粒度车型识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |