CN110210492B - 一种基于深度学习的立体图像视觉显著性检测方法 - Google Patents

一种基于深度学习的立体图像视觉显著性检测方法 Download PDF

Info

Publication number
CN110210492B
CN110210492B CN201910349084.2A CN201910349084A CN110210492B CN 110210492 B CN110210492 B CN 110210492B CN 201910349084 A CN201910349084 A CN 201910349084A CN 110210492 B CN110210492 B CN 110210492B
Authority
CN
China
Prior art keywords
neural network
layer
output
block
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349084.2A
Other languages
English (en)
Other versions
CN110210492A (zh
Inventor
周武杰
吕营
雷景生
张伟
何成
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Shengtang Technology Co ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910349084.2A priority Critical patent/CN110210492B/zh
Publication of CN110210492A publication Critical patent/CN110210492A/zh
Application granted granted Critical
Publication of CN110210492B publication Critical patent/CN110210492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的立体图像视觉显著性检测方法,其构建卷积神经网络,包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成;将训练集中的每幅立体图像的左视点图像和深度图像输入到卷积神经网络中进行训练,得到训练集中的每幅立体图像的显著性图像;计算训练集中的每幅立体图像的显著性图像与真实人眼注视图像之间的损失函数值,重复执行多次后得到卷积神经网络训练模型;待测试的立体图像的左视点图像和深度图像输入到卷积神经网络训练模型中,预测得到显著性预测图像;优点是其具有较高的视觉显著性检测准确性。

Description

一种基于深度学习的立体图像视觉显著性检测方法
技术领域
本发明涉及一种视觉显著性检测技术,尤其是涉及一种基于深度学习的立体图像视觉显著性检测方法。
背景技术
视觉显著性检测的目的是识别场景中最吸引人的对象。视觉显著性检测在目标识别、图像检索、SLAM(Simultaneous Localization And Mapping)等计算机视觉和机器人视觉任务中具有广泛的应用前景。传统的视觉显著性检测模型仅在RGB图像上执行,可分为自底向上和自顶向下方法。基于这两种方法,提出了各种手工制作的显著性特性。近年来,为了克服高水平上下文的缺乏和挖掘显著性先验知识的困难,设计了大量用于RGB诱导的显著性目标检测的卷积神经网络(CNNs),并取得了令人满意的性能。然而,当突出目标与背景相似时,这些RGB诱导的显著性目标检测模型可能无法区分突出目标与背景。在这种情况下,深度数据包含丰富的空间结构和三维布局信息,可以提供许多额外的显著性线索。此外,深度传感器(如:微软Kinect或英特尔RealSense)对光线变化的鲁棒性,将大大有助于扩展显著性检测的应用场景。因此,将深度数据应用于视觉显著性检测具有重要的现实意义。对于RGB-D视觉显著性检测任务,如何充分融合RGB信息和深度信息是关键问题。以前的大多数模型通过直接连接RGB特征和深度特征来解决这个问题。近年来,由于卷积神经网络在学习判别表示方面的能力越来越强,因此针对不同的RGB-D计算机视觉任务,如显著性检测、语义分割和目标识别,提出了许多卷积神经网络。虽然这些卷积神经网络取得了令人鼓舞的成绩,但在几个关键方面仍有很大的改进空间:1)如何清晰地形成两种模式之间的互补信息,并将其充分融合,大多数先前的RGB-D融合网络探索跨通道互补信息,RGB数据和深度数据分别学习,然后在后期建立一个融合层,然而,配对模态的互补信息尚未得到明确表述,因此,交叉模态是模糊的,不太可能被很好地捕获;2)如何有效地利用多层次的跨模态互补信息,大多数的RGB-D融合网络只融合RGB模态和深度模态的深度特征;3)人们普遍认为,不同层次的特征是互补的,它们在不同的尺度上对场景进行抽象,更具体地说,较深的特征通常携带更多的全局上下文信息,更有可能正确定位突出的对象,而较浅的特征提供更多的空间细节,因此,为了进一步提高显著性检测的准确性,应该重视如何组合跨级别特征的问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的立体图像视觉显著性检测方法,其具有较高的视觉显著性检测准确性。
本发明解决上述技术问题所采用的技术方案为:一种基于深度学习的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为
Figure BDA0002043341490000021
其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002043341490000022
表示
Figure BDA0002043341490000023
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002043341490000024
表示
Figure BDA0002043341490000025
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为
Figure BDA0002043341490000031
且高度为
Figure BDA0002043341490000032
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为
Figure BDA0002043341490000033
且高度为
Figure BDA0002043341490000034
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000035
且高度为
Figure BDA0002043341490000036
的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000037
且高度为
Figure BDA0002043341490000038
的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure BDA0002043341490000041
且高度为
Figure BDA0002043341490000042
的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000043
且高度为
Figure BDA0002043341490000044
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000045
且高度为
Figure BDA0002043341490000046
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为
Figure BDA0002043341490000047
且高度为
Figure BDA0002043341490000048
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为
Figure BDA0002043341490000049
且高度为
Figure BDA00020433414900000410
的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wiseSummation操作,Element-wise Summation操作后输出256幅宽度为
Figure BDA00020433414900000411
且高度为
Figure BDA00020433414900000412
的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为
Figure BDA00020433414900000413
且高度为
Figure BDA00020433414900000414
的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为
Figure BDA00020433414900000415
且高度为
Figure BDA00020433414900000416
的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为
Figure BDA00020433414900000417
且高度为
Figure BDA00020433414900000418
的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为
Figure BDA00020433414900000419
且高度为
Figure BDA00020433414900000420
的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wiseSummation操作后输出512幅宽度为
Figure BDA0002043341490000051
且高度为
Figure BDA0002043341490000052
的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为
Figure BDA0002043341490000053
且高度为
Figure BDA0002043341490000054
的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为
Figure BDA0002043341490000055
且高度为
Figure BDA0002043341490000056
的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为
Figure BDA0002043341490000057
且高度为
Figure BDA0002043341490000058
的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure BDA0002043341490000059
且高度为
Figure BDA00020433414900000510
的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为
Figure BDA00020433414900000511
且高度为
Figure BDA00020433414900000512
的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为
Figure BDA00020433414900000513
且高度为
Figure BDA00020433414900000514
的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为
Figure BDA00020433414900000515
且高度为
Figure BDA00020433414900000516
的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为
Figure BDA00020433414900000517
且高度为
Figure BDA00020433414900000518
的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为
Figure BDA00020433414900000519
且高度为
Figure BDA00020433414900000520
的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure BDA0002043341490000061
且高度为
Figure BDA0002043341490000062
的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000063
且高度为
Figure BDA0002043341490000064
的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为
Figure BDA0002043341490000065
其中,
Figure BDA0002043341490000066
表示
Figure BDA0002043341490000067
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将
Figure BDA0002043341490000068
Figure BDA0002043341490000069
之间的损失函数值记为
Figure BDA00020433414900000610
采用均方误差损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002043341490000071
表示待测试的宽度为W'且高度为H'的立体图像,将
Figure BDA0002043341490000072
的左视点图像和深度图像对应记为
Figure BDA0002043341490000073
Figure BDA0002043341490000074
其中,1≤x'≤W',1≤y'≤H',
Figure BDA0002043341490000075
表示
Figure BDA0002043341490000076
中坐标位置为(x',y')的像素点的像素值,
Figure BDA0002043341490000077
表示
Figure BDA0002043341490000078
中坐标位置为(x',y')的像素点的像素值,
Figure BDA0002043341490000079
表示
Figure BDA00020433414900000710
中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将
Figure BDA00020433414900000711
Figure BDA00020433414900000712
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00020433414900000713
的显著性预测图像,记为
Figure BDA00020433414900000714
其中,
Figure BDA00020433414900000715
表示
Figure BDA00020433414900000716
中坐标位置为(x',y')的像素点的像素值。
所述的步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端;
第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
所述的步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
所述的步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
与现有技术相比,本发明的优点在于:
1)本发明方法构建的卷积神经网络通过编码框架中的RGB图通道和深度图通道(即双流卷积神经网络)来学习不同级别的RGB特征和深度特征,双流卷积神经网络不仅有利于提取高级特征中更多的语义信息和浅层的低级特征中的空间信息,而且将深度信息的特征融合到视觉显著图提取之中,提高了立体视觉显著值预测的准确性。
2)本发明方法构建的卷积神经网络中的编码框架中的一些神经网络块采用卷积层来代替最大池化层,有利于保留前期特征提取的更多信息,尤其是编码框架中的RGB图通道和深度图通道深层提取的全局上下文特征,避免了由于最大池化操作而丢失的重要信息。
3)本发明方法构建的卷积神经网络中的神经网络块引入了大量的残差块,构建了更深的网络而不会产生梯度消失和训练效率问题,由于这种远跳连接,低级特征可以传到更深的网络中与高级特征进行信息互补,从而实现了有效的特征融合,因此卷积神经网络可以学到更为丰富的内容。
附图说明
图1为本发明方法构建的卷积神经网络的组成结构示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于深度学习的立体图像视觉显著性检测方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为
Figure BDA0002043341490000111
其中,N为正整数,N≥300,如取N=600,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002043341490000112
表示
Figure BDA0002043341490000113
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002043341490000114
表示
Figure BDA0002043341490000115
中坐标位置为(x,y)的像素点的像素值。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成。
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H。
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H。
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为
Figure BDA0002043341490000121
且高度为
Figure BDA0002043341490000122
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为
Figure BDA0002043341490000123
且高度为
Figure BDA0002043341490000124
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000125
且高度为
Figure BDA0002043341490000126
的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为
Figure BDA0002043341490000127
且高度为
Figure BDA0002043341490000128
的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure BDA0002043341490000129
且高度为
Figure BDA00020433414900001210
的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure BDA00020433414900001211
且高度为
Figure BDA00020433414900001212
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为
Figure BDA00020433414900001213
且高度为
Figure BDA00020433414900001214
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为
Figure BDA00020433414900001215
且高度为
Figure BDA00020433414900001216
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为
Figure BDA00020433414900001217
且高度为
Figure BDA00020433414900001218
的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wiseSummation操作,Element-wise Summation操作后输出256幅宽度为
Figure BDA0002043341490000131
且高度为
Figure BDA0002043341490000132
的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为
Figure BDA0002043341490000133
且高度为
Figure BDA0002043341490000134
的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为
Figure BDA0002043341490000135
且高度为
Figure BDA0002043341490000136
的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为
Figure BDA0002043341490000137
且高度为
Figure BDA0002043341490000138
的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为
Figure BDA0002043341490000139
且高度为
Figure BDA00020433414900001310
的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wiseSummation操作后输出512幅宽度为
Figure BDA00020433414900001311
且高度为
Figure BDA00020433414900001312
的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为
Figure BDA00020433414900001313
且高度为
Figure BDA00020433414900001314
的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为
Figure BDA00020433414900001315
且高度为
Figure BDA00020433414900001316
的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为
Figure BDA00020433414900001317
且高度为
Figure BDA00020433414900001318
的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure BDA0002043341490000141
且高度为
Figure BDA0002043341490000142
的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为
Figure BDA0002043341490000143
且高度为
Figure BDA0002043341490000144
的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为
Figure BDA0002043341490000145
且高度为
Figure BDA0002043341490000146
的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为
Figure BDA0002043341490000147
且高度为
Figure BDA0002043341490000148
的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为
Figure BDA0002043341490000149
且高度为
Figure BDA00020433414900001410
的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为
Figure BDA00020433414900001411
且高度为
Figure BDA00020433414900001412
的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure BDA00020433414900001413
且高度为
Figure BDA00020433414900001414
的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为
Figure BDA00020433414900001415
且高度为
Figure BDA00020433414900001416
的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H。
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为
Figure BDA0002043341490000151
其中,
Figure BDA0002043341490000152
表示
Figure BDA0002043341490000153
中坐标位置为(x,y)的像素点的像素值。
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将
Figure BDA0002043341490000154
Figure BDA0002043341490000155
之间的损失函数值记为
Figure BDA0002043341490000156
采用均方误差损失函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,如取V=50。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002043341490000157
表示待测试的宽度为W'且高度为H'的立体图像,将
Figure BDA0002043341490000158
的左视点图像和深度图像对应记为
Figure BDA0002043341490000159
Figure BDA00020433414900001510
其中,1≤x'≤W',1≤y'≤H',
Figure BDA00020433414900001511
表示
Figure BDA00020433414900001512
中坐标位置为(x',y')的像素点的像素值,
Figure BDA00020433414900001513
表示
Figure BDA00020433414900001514
中坐标位置为(x',y')的像素点的像素值,
Figure BDA00020433414900001515
表示
Figure BDA00020433414900001516
中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将
Figure BDA00020433414900001517
Figure BDA00020433414900001518
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00020433414900001519
的显著性预测图像,记为
Figure BDA00020433414900001520
其中,
Figure BDA00020433414900001521
表示
Figure BDA00020433414900001522
中坐标位置为(x',y')的像素点的像素值。
在此具体实施例中,步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端。
在此具体实施例中,步骤1_2中,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
在此具体实施例中,第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
在此具体实施例中,步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
在此具体实施例中,步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
为了验证本发明方法的可行性和有效性,进行实验。
在此,采用中国台湾交通大学提供的三维人眼跟踪数据库(NCTU-3DFixation)来分析本发明方法的准确性和稳定性。这里,利用评估视觉显著提取方法的4个常用客观参量作为评价指标,即线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,KLD)、AUC参数(the Area Under thereceiver operating characteristics Curve,AUC)、标准化扫描路径显著性(NormalizedScanpath Saliency,NSS)。
利用本发明方法获取中国台湾交通大学提供的三维人眼跟踪数据库中的每幅立体图像的显著性预测图像,并与三维人眼跟踪数据库中的每幅立体图像的主观视觉显著图(即为真实人眼注视图像,三维人眼跟踪数据库中存在)进行比较,CC、AUC和NSS值越高,KLD值越低说明本发明方法提取的显著性预测图像与主观视觉显著图的一致性越好。反映本发明方法的显著提取性能的CC、KLD、AUC和NSS相关指标如表1所列。
表1利用本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性
性能指标 CC KLD AUC(Borji) NSS
性能指标值 0.6917 0.4969 0.8590 1.8865
从表1所列的数据可知,按本发明方法提取得到的显著性预测图像与主观视觉显著图的准确性和稳定性是很好的,表明客观提取结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。

Claims (5)

1.一种基于深度学习的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为
Figure FDA0002698602070000011
{Dn(x,y)}、
Figure FDA0002698602070000012
其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002698602070000013
表示
Figure FDA0002698602070000014
中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,
Figure FDA0002698602070000015
表示
Figure FDA0002698602070000016
中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为
Figure FDA0002698602070000021
且高度为
Figure FDA0002698602070000022
的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为
Figure FDA0002698602070000023
且高度为
Figure FDA0002698602070000024
的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为
Figure FDA0002698602070000025
且高度为
Figure FDA0002698602070000026
的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为
Figure FDA0002698602070000027
且高度为
Figure FDA0002698602070000028
的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure FDA0002698602070000029
且高度为
Figure FDA00026986020700000210
的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为
Figure FDA00026986020700000211
且高度为
Figure FDA00026986020700000212
的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为
Figure FDA00026986020700000213
且高度为
Figure FDA00026986020700000214
的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为
Figure FDA0002698602070000031
且高度为
Figure FDA0002698602070000032
的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为
Figure FDA0002698602070000033
且高度为
Figure FDA0002698602070000034
的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为
Figure FDA0002698602070000035
且高度为
Figure FDA0002698602070000036
的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为
Figure FDA0002698602070000037
且高度为
Figure FDA0002698602070000038
的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为
Figure FDA0002698602070000039
且高度为
Figure FDA00026986020700000310
的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为
Figure FDA00026986020700000311
且高度为
Figure FDA00026986020700000312
的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为
Figure FDA00026986020700000313
且高度为
Figure FDA00026986020700000314
的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure FDA00026986020700000315
且高度为
Figure FDA00026986020700000316
的特征图,将输出的所有特征图构成的集合记为E4
对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为
Figure FDA00026986020700000317
且高度为
Figure FDA00026986020700000318
的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为
Figure FDA00026986020700000319
且高度为
Figure FDA00026986020700000320
的特征图,将输出的所有特征图构成的集合记为P16
对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为
Figure FDA0002698602070000041
且高度为
Figure FDA0002698602070000042
的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为
Figure FDA0002698602070000043
且高度为
Figure FDA0002698602070000044
的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为
Figure FDA0002698602070000045
且高度为
Figure FDA0002698602070000046
的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为
Figure FDA0002698602070000047
且高度为
Figure FDA0002698602070000048
的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为
Figure FDA0002698602070000049
且高度为
Figure FDA00026986020700000410
的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为
Figure FDA00026986020700000411
且高度为
Figure FDA00026986020700000412
的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为
Figure FDA00026986020700000413
且高度为
Figure FDA00026986020700000414
的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为
Figure FDA00026986020700000415
且高度为
Figure FDA00026986020700000416
的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为
Figure FDA00026986020700000417
且高度为
Figure FDA00026986020700000418
的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20
对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为
Figure FDA0002698602070000051
其中,
Figure FDA0002698602070000052
表示
Figure FDA0002698602070000053
中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将
Figure FDA0002698602070000054
Figure FDA0002698602070000055
之间的损失函数值记为
Figure FDA0002698602070000056
采用均方误差损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0002698602070000057
表示待测试的宽度为W'且高度为H'的立体图像,将
Figure FDA0002698602070000058
的左视点图像和深度图像对应记为
Figure FDA0002698602070000059
其中,1≤x'≤W',1≤y'≤H',
Figure FDA00026986020700000510
表示
Figure FDA00026986020700000511
中坐标位置为(x',y')的像素点的像素值,
Figure FDA00026986020700000512
表示
Figure FDA00026986020700000513
中坐标位置为(x',y')的像素点的像素值,
Figure FDA00026986020700000514
表示
Figure FDA00026986020700000515
中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将
Figure FDA0002698602070000061
Figure FDA0002698602070000062
输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA0002698602070000063
的显著性预测图像,记为
Figure FDA0002698602070000064
其中,
Figure FDA0002698602070000065
表示
Figure FDA0002698602070000066
中坐标位置为(x',y')的像素点的像素值。
2.根据权利要求1所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块的结构相同,其由依次设置的第一残差块、第二残差块、第三残差块构成,第一残差块的输入端为其所在的神经网络块的输入端,第二残差块的输入端接收第一残差块的输出端输出的所有特征图,第三残差块的输入端接收第二残差块的输出端输出的所有特征图,第三残差块的输出端为其所在的神经网络块的输出端;
第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块的结构相同,其由依次设置的第四卷积层、第四批标准化层、第五卷积层、第五批标准化层、第六卷积层、第六批标准化层、第四激活层构成,第四卷积层的输入端为其所在的神经网络块的输入端,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第五卷积层的输入端接收第四批标准化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第六卷积层的输入端接收第五批标准化层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第四激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第3个和第4个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为2、补零个数均为1、卷积核个数均为64,第3个和第4个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为64、步幅大小为2、补零个数为1,第7个和第8个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为128,第7个和第8个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为128、步幅大小为2、补零个数为1,第11个和第12个神经网络块各自中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为256,第11个和第12个神经网络块各自中的第五卷积层的卷积核大小为3×3、卷积核个数为256、步幅大小为2、补零个数为1,第15个神经网络块中的第四卷积层和第六卷积层的卷积核大小均为1×1、步幅大小均为1、补零个数均为1、卷积核个数均为512,第15个神经网络块中的第五卷积层的卷积核大小为3×3、卷积核个数为512、步幅大小为2、补零个数为1,第3个、第4个、第7个、第8个、第11个、第12个、第15个神经网络块各自中的第四激活层的激活方式均为“LeakyRelu”。
3.根据权利要求2所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于第一残差块、第二残差块、第三残差块的结构相同,其由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层、第三激活层组成,第一卷积层的输入端为其所在的残差块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第三卷积层的输入端接收第二激活层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第一卷积层的输入端接收的所有特征图和第三批标准化层的输出端输出的所有特征图相加,再经过第三激活层后第三激活层的输出端输出的所有特征图作为所在的残差块的输出端输出的所有特征图;其中,第1个和第2个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第5个和第6个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第9个和第10个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第13个和第14个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第16个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为1024,第17个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为512,第18个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为256,第19个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为128,第20个神经网络块中的第一残差块、第二残差块、第三残差块中的第一卷积层、第二卷积层、第三卷积层的卷积核大小均为3×3、步幅大小均为1、补零个数为1、卷积核个数均为64,第1个、第2个、第5个、第6个、第9个、第10个、第13个、第14个、第16个至第20个神经网络块各自中的第一残差块、第二残差块、第三残差块中的第一激活层、第二激活层、第三激活层的激活方式均为“LeakyRelu”。
4.根据权利要求1至3中任一项所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,第1个至第4个反卷积块的结构相同,其由依次设置的第一反卷积层、第七批标准化层、第五激活层组成,第一反卷积层的输入端为其所在的反卷积块的输入端,第七批标准化层的输入端接收第一反卷积层的输出端输出的所有特征图,第五激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第五激活层的输出端为其所在的反卷积块的输出端;其中,第1个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为512,第2个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为256,第3个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为128,第4个反卷积块中的第一反卷积层的卷积核大小均为3×3、步幅大小为2、补零个数为1、卷积核个数为64,第1个至第4个反卷积块各自中的第五激活层的激活方式均为“Relu”。
5.根据权利要求4所述的一种基于深度学习的立体图像视觉显著性检测方法,其特征在于所述的步骤1_2中,输出层由依次设置的第七卷积层和第六激活层组成,第七卷积层的输入端为输出层的输入端,第六激活层的输入端接收第七卷积层的输出端输出的所有特征图,第六激活层的输出端为输出层的输出端;其中,第七卷积层的卷积核大小为3×3、步幅大小为1、补零个数为1、卷积核个数为1,第六激活层的激活方式为“Sigmoid”。
CN201910349084.2A 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法 Active CN110210492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349084.2A CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349084.2A CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Publications (2)

Publication Number Publication Date
CN110210492A CN110210492A (zh) 2019-09-06
CN110210492B true CN110210492B (zh) 2020-12-01

Family

ID=67786580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349084.2A Active CN110210492B (zh) 2019-04-28 2019-04-28 一种基于深度学习的立体图像视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN110210492B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728682B (zh) * 2019-09-09 2022-03-29 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110705566B (zh) * 2019-09-11 2021-07-13 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111860643B (zh) * 2020-07-20 2023-10-03 苏州大学 基于调频模型的视觉模板匹配的鲁棒性提升方法
CN113313238B (zh) * 2021-06-16 2023-12-29 中国科学技术大学 一种基于深度学习的视觉slam方法
CN113762393B (zh) * 2021-09-08 2024-04-30 杭州网易智企科技有限公司 模型训练方法、注视点检测方法、介质、装置和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338335B (zh) * 2015-10-15 2017-03-29 宁波大学 一种立体图像显著图提取方法
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109635822A (zh) * 2018-12-07 2019-04-16 浙江科技学院 基于深度学习编码译码网络的立体图像视觉显著提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Learning to Predict Eye Fixations via Multiresolution Convolutional Neural Networks;Liu, NA 等;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20180228;第392-404页 *
RGB-D Saliency Detection by Multi-stream Late Fusion Network;Chen, H 等;《COMPUTER VISION SYSTEMS》;20171231;第459-468页 *
Saliency detection for stereoscopic 3D images in the quaternion frequency domain;Wujie Zhou 等;《3D Research》;20180630;第1-12页 *
利用卷积神经网络的显著性区域预测方法;李荣;《重庆邮电大学学报( 自然科学版)》;20190228;第37-43页 *

Also Published As

Publication number Publication date
CN110210492A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN112818862A (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN107301643B (zh) 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法
CN111126412A (zh) 基于特征金字塔网络的图像关键点检测方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN113343974A (zh) 考虑模态间语义距离度量的多模态融合分类优化方法
CN110738132A (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN113487600A (zh) 一种特征增强尺度自适应感知船舶检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230117

Address after: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen dragon totem technology achievement transformation Co.,Ltd.

Address before: 310023 No. 318 stay Road, Xihu District, Zhejiang, Hangzhou

Patentee before: ZHEJIANG University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230223

Address after: 402, 404, 405, Floor 4, Building 14, Phase II, Xincheng Science Park, No. 662, Qingshan Road, Changsha High-tech Development Zone, Changsha, Hunan 410000

Patentee after: Changsha Shengtang Technology Co.,Ltd.

Address before: Room 2202, 22 / F, Wantong building, No. 3002, Sungang East Road, Sungang street, Luohu District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen dragon totem technology achievement transformation Co.,Ltd.