CN109409380A - 一种基于双学习网络的立体图像视觉显著提取方法 - Google Patents

一种基于双学习网络的立体图像视觉显著提取方法 Download PDF

Info

Publication number
CN109409380A
CN109409380A CN201810981210.1A CN201810981210A CN109409380A CN 109409380 A CN109409380 A CN 109409380A CN 201810981210 A CN201810981210 A CN 201810981210A CN 109409380 A CN109409380 A CN 109409380A
Authority
CN
China
Prior art keywords
layer
convolutional layer
denoted
pixel
coordinate position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810981210.1A
Other languages
English (en)
Other versions
CN109409380B (zh
Inventor
周武杰
蔡星宇
周扬
邱薇薇
张宇来
向坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201810981210.1A priority Critical patent/CN109409380B/zh
Publication of CN109409380A publication Critical patent/CN109409380A/zh
Application granted granted Critical
Publication of CN109409380B publication Critical patent/CN109409380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双学习网络的立体图像视觉显著提取方法,其将人类注视图、立体图像的左视点彩色图像和左视差图像构成训练集;然后在训练集的基础上利用VGG网络模型中的特征提取技术构建深度学习模型;接着以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对深度学习模型进行训练;再将待视觉显著提取的立体图像的左视点彩色图像和左视差图像作为输入参数,输入到训练得到的模型中,得到待视觉显著提取的立体图像的视觉显著图像;优点是其能够快速的运行检测,并且具有较强的鲁棒性和预测准确性。

Description

一种基于双学习网络的立体图像视觉显著提取方法
技术领域
本发明涉及一种立体图像处理技术,尤其是涉及一种基于双学习网络的立体图像视觉显著提取方法。
背景技术
在人类视觉接收与信息处理中,由于大脑资源有限以及外界环境信息重要性区别,因此在处理过程中人脑对外界环境信息并不是一视同仁的,而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域,而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来是计算机视觉以及基于内容的视频检索领域的一个重要的研究内容。而随着立体视频显示技术和高质量立体视频内容获取技术的快速发展,针对立体图像/视频的显著区域检测及建模也是一个非常重要的研究内容。
然而,立体图像并不是平面图像的简单空间拓展,因此人眼感知立体图像产生立体视觉的过程也不是简单的左视点图像和右视点图像叠加的过程,因此,立体视觉特征(例如:三维视觉注意力)并不是平面视觉特性的简单拓展。然而,现有的立体图像显著图提取方法还停留在平面图像显著提取方法的简单拓展上。因此,如何从立体图像中有效地提取出立体视觉特征、如何使得提取出的立体视觉特征符合人眼三维观看行为都是在对立体图像进行视觉显著图提取过程中需要研究解决的问题。
发明内容
本发明所要解决的技术问题是提供一种基于双学习网络的立体图像视觉显著提取方法,其能够快速的运行检测,并且具有较强的鲁棒性和预测准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:
步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有 80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k 幅左视差图像记为对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,表示中坐标位置为(x80,y60) 的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值, 1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480;
步骤二:利用VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10 个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合;
步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为mse函数,使用SGD方法进行MS的梯度下降训练,学习率设置为0.0005;
步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为 {Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H' 表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值;
步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示 {IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。
所述的步骤二的具体过程如下:
步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5 个网络块用于提取彩色特征;
第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值, 1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值, 1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第4个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,最大池化层的步长为(1,1),1≤k≤K;
第5个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu, 1≤k≤K;
步骤B:构建深度学习模型的第6个网络块至第8个网络块,第6个网络块至第8个网络块用于提取视差特征;
第6个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值, 1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第7个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值, 1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第8个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值, 1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为 (3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
步骤C:构建深度学习模型的第9个网络块,第9个网络块用于融合彩色特征和视差特征;
第9个网络块包括连接层,连接层通过通道数叠加的方式融合彩色特征和视差特征,连接层的输入为将连接层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤D:构建深度学习模型的第10个网络块,第10个网络块用于进行位置偏好学习;
第10个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为:将8×6尺寸的可学习参数图记为{Ipm(x8,y6)};然后利用双线性插值方法将{Ipm(x8,y6)}经学习后得到的参数图放大到80×60尺寸,得到偏好参数图,记为{Ipa(x80,y60)};再将{Ipa(x80,y60)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值,得到其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为 (x80,y60)的像素点的像素值,第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu,第二卷积层的卷积核的大小为(3,3)、卷积步长为 (1,1)、卷积核的数目为1、激活函数为relu,Ipm(x8,y6)表示{Ipm(x8,y6)}中坐标位置为(x8,y6)的像素点的像素值,1≤x8≤8,1≤y6≤6,Ipa(x80,y60)表示{Ipa(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤E:构建深度学习模型的第11个网络块,第11个网络块用于进行卷积学习;
第11个网络块包括十二层,第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层,Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用双线性插值方法,将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用双线性插值方法,将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,Dropout层的连接参数为0.5,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,1≤x40≤40,1≤y30≤30,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,1≤x20≤20,1≤y15≤15,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu,第一最大池化层和第二最大池化层的步长为(2,2),第一上采样层和第二上采样层的上采样放大比例为(2,2),1≤k≤K;
步骤F:构建深度学习模型的第12个网络块,第12个网络块用于视觉显著特征融合;
第12个网络块包括两层,第一层为特征融合层、第二层为卷积层,特征融合层的输入为将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,卷积层的卷积核的大小为 (1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,1≤k≤K;
至此构建得到深度学习模型MS
与现有技术相比,本发明的优点在于:
1)本发明方法构建的深度学习模型具有用于进行位置偏好学习的网络块和用于进行卷积学习的网络块,这两类网络块组成了相对独立的两个特征学习网络部分,称为双学习网络,因此该深度学习模型减少了过拟合的风险,有利于对带有人类注视图的立体图像数据库的特征学习,尤其是对于立体图像数量小于200幅的小数据库。
2)本发明方法在构建深度学习模型的过程中利用了深度学习的算法,大量使用卷积层与最大池化层的运算,这些运算可以进行并行运算,相较于传统的视觉显著提取方法显著性检测的速度更快。
3)本发明方法构建的深度学习模型具有用于彩色特征提取的网络块组成的彩色特征提取部分与用于视差特征提取的网络块组成的视差特征提取部分,该深度学习模型综合考虑了视差信息,相较于平面显著性检测算法准确性更高、鲁棒性更强。
附图说明
图1为本发明方法的总体实现框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于双学习网络的立体图像视觉显著提取方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库,将数据库中的第k幅人类注视图记为将数据库中的第k幅人类注视图对应的立体图像的左视点彩色图像记为将数据库中的第k幅人类注视图对应的立体图像的左视差图像记为然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅 80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,如取 K=100,表示中坐标位置为(xF,yF)的像素点的像素值,表示中坐标位置为(xL,yL)的像素点的像素值,表示中坐标位置为(xD,yD)的像素点的像素值,1≤xF≤W,1≤yF≤H,1≤xL≤W,1≤yL≤H, 1≤xD≤W,1≤yD≤H,W表示的宽度,H表示的高度,表示中坐标位置为 (x80,y60)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480。
步骤二:利用现有的VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10 个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合。
在此具体实施例中,步骤二的具体过程如下:
步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5 个网络块用于提取彩色特征;
第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值, 1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第4个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,最大池化层的步长为(1,1),1≤k≤K;
第5个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu, 1≤k≤K。
步骤B:构建深度学习模型的第6个网络块至第8个网络块,第6个网络块至第8个网络块用于提取视差特征;
第6个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值, 1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第7个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值, 1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2), 1≤k≤K;
第8个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值, 1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为 (3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K。
步骤C:构建深度学习模型的第9个网络块,第9个网络块用于融合彩色特征和视差特征;
第9个网络块包括连接层,连接层通过通道数叠加的方式融合彩色特征和视差特征,连接层的输入为将连接层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K。
步骤D:构建深度学习模型的第10个网络块,第10个网络块用于进行位置偏好学习;
第10个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为:将8×6尺寸的可学习参数图记为{Ipm(x8,y6)};然后利用现有的双线性插值方法将{Ipm(x8,y6)}经学习后得到的参数图放大到80×60尺寸,得到偏好参数图,记为{Ipa(x80,y60)};再将{Ipa(x80,y60)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值,得到其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu,第二卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,Ipm(x8,y6)表示{Ipm(x8,y6)}中坐标位置为(x8,y6)的像素点的像素值,1≤x8≤8,1≤y6≤6,Ipa(x80,y60)表示{Ipa(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K。
步骤E:构建深度学习模型的第11个网络块,第11个网络块用于进行卷积学习;
第11个网络块包括十二层,第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层,Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用现有的双线性插值方法,将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用现有的双线性插值方法,将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,Dropout层的连接参数为0.5,表示中坐标位置为(x80,y60) 的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,1≤x40≤40,1≤y30≤30,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,1≤x20≤20,1≤y15≤15,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu,第一最大池化层和第二最大池化层的步长为(2,2),第一上采样层和第二上采样层的上采样放大比例为(2,2),1≤k≤K。
步骤F:构建深度学习模型的第12个网络块,第12个网络块用于视觉显著特征融合;
第12个网络块包括两层,第一层为特征融合层、第二层为卷积层,特征融合层的输入为将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,卷积层的卷积核的大小为 (1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,1≤k≤K。
至此构建得到深度学习模型MS
步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为现有的mse函数,使用现有的SGD方法进行MS的梯度下降训练,学习率设置为0.0005。
步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为 {Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H' 表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值。
步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示 {IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。
为验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾交通大学提供的三维人眼跟踪数据库(3Deye-trackingdatabase) 来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的3个常用客观参量作为评价指标,即Pearson相关系数(Pearson linear correlationcoefficient,PLCC)、 Kullback-Leibler散度系数(Kullback-Leibler divergence,KLD)、AUC参数(theArea Under the receiver operating characteristics Curve,AUC)。
利用本发明方法对从中国台湾交通大学提供的三维人眼跟踪数据库中随机选取的 70%立体图像进行训练,并对随机选取的20%立体图像进行测试(用于测试的立体图像与用于训练的立体图像不重复),将利用本发明方法对测试的立体图像进行处理提取得到的视觉显著图像与三维人眼跟踪数据库中对应的立体图像的主观视觉显著图像(三维人眼跟踪数据库中存在)进行比较,PLCC和AUC值越高、KLD值越低说明本发明方法提取的视觉显著图像与主观视觉显著图像的一致性越好。反映本发明方法的视觉显著提取性能的PLCC、KLD和AUC相关指标如表1所列。从表1所列的数据可知,按本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性是很好的,表明客观提取结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。
表1利用本发明方法提取得到的视觉显著图像与主观视觉显著图像的准确性和稳定性
性能指标 性能指标值
PLCC 0.8045
KLD 0.3639
AUC 0.8641

Claims (2)

1.一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:
步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480;
步骤二:利用VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合;
步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为mse函数,使用SGD方法进行MS的梯度下降训练,学习率设置为0.0005;
步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为{Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值;
步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示{IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。
2.根据权利要求1所述的一种基于双学习网络的立体图像视觉显著提取方法,其特征在于所述的步骤二的具体过程如下:
步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5个网络块用于提取彩色特征;
第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第4个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,最大池化层的步长为(1,1),1≤k≤K;
第5个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,1≤k≤K;
步骤B:构建深度学习模型的第6个网络块至第8个网络块,第6个网络块至第8个网络块用于提取视差特征;
第6个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第7个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第8个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
步骤C:构建深度学习模型的第9个网络块,第9个网络块用于融合彩色特征和视差特征;
第9个网络块包括连接层,连接层通过通道数叠加的方式融合彩色特征和视差特征,连接层的输入为将连接层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤D:构建深度学习模型的第10个网络块,第10个网络块用于进行位置偏好学习;
第10个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为:将8×6尺寸的可学习参数图记为{Ipm(x8,y6)};然后利用双线性插值方法将{Ipm(x8,y6)}经学习后得到的参数图放大到80×60尺寸,得到偏好参数图,记为{Ipa(x80,y60)};再将{Ipa(x80,y60)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值,得到其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu,第二卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,Ipm(x8,y6)表示{Ipm(x8,y6)}中坐标位置为(x8,y6)的像素点的像素值,1≤x8≤8,1≤y6≤6,Ipa(x80,y60)表示{Ipa(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤E:构建深度学习模型的第11个网络块,第11个网络块用于进行卷积学习;
第11个网络块包括十二层,第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层,Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用双线性插值方法,将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用双线性插值方法,将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,Dropout层的连接参数为0.5,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,1≤x40≤40,1≤y30≤30,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,1≤x20≤20,1≤y15≤15,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu,第一最大池化层和第二最大池化层的步长为(2,2),第一上采样层和第二上采样层的上采样放大比例为(2,2),1≤k≤K;
步骤F:构建深度学习模型的第12个网络块,第12个网络块用于视觉显著特征融合;
第12个网络块包括两层,第一层为特征融合层、第二层为卷积层,特征融合层的输入为将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,卷积层的卷积核的大小为(1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,1≤k≤K;
至此构建得到深度学习模型MS
CN201810981210.1A 2018-08-27 2018-08-27 一种基于双学习网络的立体图像视觉显著提取方法 Active CN109409380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810981210.1A CN109409380B (zh) 2018-08-27 2018-08-27 一种基于双学习网络的立体图像视觉显著提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810981210.1A CN109409380B (zh) 2018-08-27 2018-08-27 一种基于双学习网络的立体图像视觉显著提取方法

Publications (2)

Publication Number Publication Date
CN109409380A true CN109409380A (zh) 2019-03-01
CN109409380B CN109409380B (zh) 2021-01-12

Family

ID=65464384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810981210.1A Active CN109409380B (zh) 2018-08-27 2018-08-27 一种基于双学习网络的立体图像视觉显著提取方法

Country Status (1)

Country Link
CN (1) CN109409380B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977967A (zh) * 2019-03-06 2019-07-05 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2194486A1 (en) * 2008-12-04 2010-06-09 Koninklijke Philips Electronics N.V. A method, apparatus, and computer program product for acquiring medical image data
CN104036502A (zh) * 2014-06-03 2014-09-10 宁波大学 一种无参考模糊失真立体图像质量评价方法
CN105654142A (zh) * 2016-01-06 2016-06-08 上海大学 基于自然场景统计的无参考立体图像质量评价方法
US20160350941A1 (en) * 2016-06-06 2016-12-01 Ningbo University Objective assessment method for stereoscopic image quality combined with manifold characteristics and binocular characteristics
CN106682599A (zh) * 2016-12-15 2017-05-17 浙江科技学院 一种基于稀疏表示的立体图像视觉显著提取方法
CN108345892A (zh) * 2018-01-03 2018-07-31 深圳大学 一种立体图像显著性的检测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2194486A1 (en) * 2008-12-04 2010-06-09 Koninklijke Philips Electronics N.V. A method, apparatus, and computer program product for acquiring medical image data
CN104036502A (zh) * 2014-06-03 2014-09-10 宁波大学 一种无参考模糊失真立体图像质量评价方法
CN105654142A (zh) * 2016-01-06 2016-06-08 上海大学 基于自然场景统计的无参考立体图像质量评价方法
US20160350941A1 (en) * 2016-06-06 2016-12-01 Ningbo University Objective assessment method for stereoscopic image quality combined with manifold characteristics and binocular characteristics
CN106682599A (zh) * 2016-12-15 2017-05-17 浙江科技学院 一种基于稀疏表示的立体图像视觉显著提取方法
CN108345892A (zh) * 2018-01-03 2018-07-31 深圳大学 一种立体图像显著性的检测方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977967A (zh) * 2019-03-06 2019-07-05 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN109977967B (zh) * 2019-03-06 2020-12-25 浙江科技学院 基于参数共享深度学习网络的立体图像视觉显著提取方法
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法
CN110246148B (zh) * 2019-05-27 2021-07-13 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110555434B (zh) * 2019-09-03 2022-03-29 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法

Also Published As

Publication number Publication date
CN109409380B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN109409380A (zh) 一种基于双学习网络的立体图像视觉显著提取方法
CN102333233B (zh) 一种基于视觉感知的立体图像质量客观评价方法
CN101610425B (zh) 一种评测立体图像质量的方法和装置
CN109635822B (zh) 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN106462771A (zh) 一种3d图像的显著性检测方法
US20230419001A1 (en) Three-dimensional fluid reverse modeling method based on physical perception
CN110728707B (zh) 基于非对称深度卷积神经网络的多视角深度预测方法
CN105407349A (zh) 基于双目视觉感知的无参考立体图像质量客观评价方法
CN104036501A (zh) 一种基于稀疏表示的立体图像质量客观评价方法
CN103136748B (zh) 一种基于特征图的立体图像质量客观评价方法
CN104581141B (zh) 一种立体图像视觉舒适度评价方法
US9607243B1 (en) Time-lapsed image sequence generation
CN109242834A (zh) 一种基于卷积神经网络的无参考立体图像质量评价方法
CN104361583B (zh) 一种确定非对称失真立体图像客观质量的方法
CN107330873A (zh) 基于多尺度双目融合和局部特征提取的立体图像质量客观评价方法
CN107360416A (zh) 基于局部多元高斯描述子的立体图像质量评价方法
CN104243956B (zh) 一种立体图像视觉显著图提取方法
CN103745457B (zh) 一种立体图像客观质量评价方法
CN105488792B (zh) 基于字典学习和机器学习的无参考立体图像质量评价方法
CN108848365B (zh) 一种重定位立体图像质量评价方法
CN107945151A (zh) 一种基于相似性变换的重定位图像质量评价方法
CN108010122A (zh) 一种人体三维模型重建与测量的方法及系统
CN106682599B (zh) 一种基于稀疏表示的立体图像视觉显著提取方法
CN104822058B (zh) 一种立体图像显著图提取方法
CN105338335B (zh) 一种立体图像显著图提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant