CN109376611B - 一种基于3d卷积神经网络的视频显著性检测方法 - Google Patents

一种基于3d卷积神经网络的视频显著性检测方法 Download PDF

Info

Publication number
CN109376611B
CN109376611B CN201811132912.9A CN201811132912A CN109376611B CN 109376611 B CN109376611 B CN 109376611B CN 201811132912 A CN201811132912 A CN 201811132912A CN 109376611 B CN109376611 B CN 109376611B
Authority
CN
China
Prior art keywords
map
layer
significance
saliency
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811132912.9A
Other languages
English (en)
Other versions
CN109376611A (zh
Inventor
方玉明
丁冠群
杜人钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201811132912.9A priority Critical patent/CN109376611B/zh
Publication of CN109376611A publication Critical patent/CN109376611A/zh
Application granted granted Critical
Publication of CN109376611B publication Critical patent/CN109376611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种对于视频图像的显著性检测方法,其特征在于:首先利用2D卷积建立一个2D深度卷积神经网络,输入一帧视频帧获得运动目标语义特征,然后利用3D卷积建立一个3D深度卷积神经网络,输入连续三帧视频帧得到时空显著性特征,再将运动目标语义特征和时空显著性信息连接后,输入到3D反卷积网络中,以学习和混合时空显著性特征,最终通过3D反卷积网络得到显著图。这样我们就得到整副图像的显著图,显著值越大,就表明该像素越显著,也就是越吸引人眼关注。实验结果表明我们建立的视频图像显著性检测模型有优良的检测性能。

Description

一种基于3D卷积神经网络的视频显著性检测方法
技术领域
本发明涉及一种基于3D卷积神经网络的视频显著性检测方法。属于多媒体技术领域,具体属于数字图像和数字视频处理技术领域。本发明可以应用于复杂背景下视频图像中的显著性检测。
背景技术
视觉显著性检测的研究是建立在生物驱动模型的基础上,研究的问题是人眼的关注点在什么位置,致力于寻找图像中的若干个人眼关注的点。另外,由于人类大脑能自动地将所见场景转化为显著图,提取出显著目标,摈弃非显著目标从而进行后续的信息处理,因此视频图像显著目标检测的任务是要检测出最受人注意的显著目标,它可以广泛地应用在图像分割、自适应压缩和图像检索等计算机视觉技术中。
传统显著性检测方法主要有三个步骤:预处理(Pre-Process),特征提取(FeatureExtract)和特征融合(Feature Fusion)。由于场景图像有着截然不同的成像特性如分辨率低、大小不一、光照不均等,这些特性影响着特征提取、特征融合等各个过程。因此,在将场景条件下的视频图像输入到各个模块前,对图像进行必要的预处理,对定位和识别正确率的提高有一定的帮助。比如对场景文本图像进行颜色空间变换;在进行提取特征前,需要去噪来消除噪声对有效特征提取的影响;通过二值化处理后,能够有效提高识别结果的正确性。特征是某一类对象区别于其他类对象的相应(本质)特点或特性,或是这些特点和特性的集合,特征是通过测量或处理能够抽取的数据。对于传统显著性检测任务而言,常用的特征有HOG特征、LBP特征、Haar特征和SIFT特征等。特征融合就是将提取出的多特征图整合,最后得到一个最终显著图。
与静态图像的显著目标检测不同,视频的显著区域检测模型不仅要考虑视频帧内图像的空间显著性,而且要考虑视频帧间的时间显著性。传统的视频中显著区域检测是从静态图像的显著区域检测模型进行扩展,如Itti等人在经典Itti98的基础上增加了运动特征及帧间闪烁,从而将该模型的应用扩展到视频中的时空显著图的计算。但是在实际应用中,通过静态叠加方式混合时空特征的方法,难以满足不同的应用需求,很多研究也表明时空特征的静态混合效果并不理想。因为这些传统算法的局限性,许多性能更优的基于深度学习的视频显著性算法相继提出。
近来,随着深度学习的快速发展,越来越多的深度模型算法和系统被开发出来,这些计算机应用大大提高了人们日常生活质量和工作效率。在计算机视觉领域,卷积神经网络应用十分广泛,比如图像分类、目标检测、图像分割、图像检索等。比如经典的LeNet,FCN,VGG-Net,RCNN,fast-RCNN,SPP等。与传统显著性检测方法框架不同,深度卷积神经网络模型不需要手工选取特征,它能利用反向传播算法自适应地学习到与显著目标有关的特征,从而大大提高了系统的处理速度和处理能力,能够对视频帧进行实时处理和分析。
发明内容
为了解决现有方法对于视频图像中,手动提取帧与帧之间的运动信息以及显著性检测效果差的问题,本发明提出了一种基于3D深度卷积神经网络的自适应学习时空特征的显著性检测方法,它可以自动地从复杂背景下的视频图像中检测出显著区域,并且取得比较好高的准确率。
为了实现上述目的,本发明采用的技术方案为:
步骤1:训练过程中,从训练样本视频帧序列中随机选取连续三帧视频帧彩色图像(It-1,It,It+1)以及当前帧It所对应的参考显著图(Gt)构成一个训练样本T(It-1,It,It+1,Gt);测试过程中,从测试样本中按视频序列顺序选取连续三帧视频帧彩色图像(It-1,It,It+1)构成一个测试样本S(It-1,It,It+1)。
步骤2:训练网络。将训练样本T中当前帧It输入到2D卷积网络(Conv3DNet)中从而让2D网络学习到目标语义特征;同时将连续三帧视频彩色图像(It-1,It,It+1)输入到3D卷积网络(Conv3DNet)中,从而让3D网络学习到帧与帧之间的时间和空间显著性特征;然后将2D网络和3D网络中学习到的目标语义特征和时空显著性特征连接起来,输入到3D反卷积网络(Deconv3DNet)中,以混合和学习到当前帧的显著信息;最后用一层3D卷积层和Relu激活函数来生成显著图。
步骤3:测试网络。训练好网络后,给定一个测试样本,将当前帧It输入到2D卷积网络(Conv2DNet)中,同时将连续三帧视频彩色图像(It-1,It,It+1)输入到3D卷积网络(Conv3DNet)中,然后网络会自动生成对应帧序列的显著图。
一种对于视频图像的显著性检测方法,其特征在于,包括以下步骤:
A.首先利用2D卷积建立一个2D深度卷积神经网络,输入一帧视频帧获得运动目标语义特征。
B.然后利用3D卷积建立一个3D深度卷积神经网络,输入连续三帧视频帧得到帧与帧之间的时空显著性信息。
C.根据所得到的运动目标语义特征和时间显著性信息,我们用3D卷积层连接混合得到混合特征映射图。之后将混合后的特征映射图输入到3D反卷积网络中以学习和混合时空显著性特征,最终的显著图通过3D反卷积网络得到。
进一步地,所述步骤A中的2D深度卷积神经网络记为Conv2DNet,它包括13层2D卷积层用于提取运动目标语义特征,5层最大池化层用于对特征图进行下采样。Conv2DNet是通过去掉VGG16模型的后面3层全连接层搭建而成。所述的VGG16模型采用Very deepconvolutional networks forlarge-scale image recognition中所提出的算法。首先在训练集中随机选取一个训练样本,记为训练样本T(It-1,It,It+1,Gt),其中包含连续三帧视频帧图像(It-1,It,It+1)和对应的目标帧参考显著图(Gt)。然后将当前帧图像(It)输入到Conv2DNet中,经过卷积神经网络前向传播得到1024维特征映射图,其映射图行和列大小为7×7,代表运动目标语义特征。假设第l层为卷积层,第l+1层为最大池化层,则第l层第j个特征映射
Figure BDA0001814006880000031
和激活函数Relu的计算公式如下:
Figure BDA0001814006880000032
Figure BDA0001814006880000041
其中⊙表示卷积核k在第l-1层所有关联的特征映射(feature maps)上做卷积运算再加上一个偏置参数b,然后求和,经过激活函数取Relu得到最终激励值。
进一步地,所述步骤B中的3D深度卷积神经网络记为Conv3DNet,它包含14层3D卷积层用于提取时空显著性特征,5层最大池化层(Max-pool)用于对特征映射图下采样,同时记录采样最大值的位置。将权利要求2中训练样本T所包含的连续三帧视频帧(It-1,It,It+1)输入到Conv3DNet中,经过卷积神经网络前向传播获得1024维特征映射图,其大小为7×7,代表时空显著性信息。
进一步地,所述步骤C中的3D深度反卷积神经网络记为Deconv3DNet,它包含5层非池化层(Unpool)用于恢复权利要求3中最大池化层下采样后的最大值位置,12层3D反卷积用于学习和混合时空显著性特征,还有一层3D卷积层用于生成最后的显著性图。将权利要求2和权利要求3中所获得的运动目标语义特征和时空显著性特征连接获得2048维特征映射图,其映射图行和列大小为7×7,将其输入到Deconv3DNet中,经过卷积神经网络前向传播获得最后的显著图St,其显著图行和列大小为224×224。假设第l层为反卷积层,第l-1层为非池化层(unpool),则第l层第j个特征映射
Figure BDA0001814006880000042
的计算公式如下:
Figure BDA0001814006880000043
其中⊙表示反卷积核
Figure BDA0001814006880000044
在第l-1层所有关联的特征映射(feature maps)上做反卷积运算再加上一个偏置参数b,然后求和,经过激活函数取Relu得到最终激励值。
进一步地,将所述步骤C中获得的最终显著图St与权利要求3中训练样本T目标视频帧所对应的参考显著图(Gt)相减,从而获得前向传播的误差,再经过反向传播进行权重调优。
进一步地,所采用的计算前向传播误差的损失函数方法为均方误差,计算公式为:
Figure BDA0001814006880000045
其中St(i,j)为生成的最终显著图St中的像素值,其显著图行和列大小为h×w,这里我们将所有最终显著图设置为224×224;Gt(i,j)为目标视频帧所对应的参考显著图Gt中的像素值,其显著图行和列大小为h×w,这里我们将所有显著图设置为224×224;k表示每次传入神经网络的批次大小(batch size)。其中损失函数L所获得的是St和Gt对应像素相减,并取其均值。
进一步地,所述的反向传播权重调优方法为Adam(Adaptive MomentEstimation),它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。公式如下:
mt=μ*mt-1+(1-μ)*gt (5)
Figure BDA0001814006880000051
Figure BDA0001814006880000052
Figure BDA0001814006880000053
Figure BDA0001814006880000054
其中mt,nt分别是对梯度的一阶矩估计和二阶矩估计,可以看作对期望E|gt|,
Figure BDA0001814006880000055
的估计;μ和v是两个标量系数用于控制指数衰减率,其中μ,v∈[0,1);
Figure BDA0001814006880000056
是对mt,nt的校正,这样可以近似为对期望的无偏估计;∈为一个极小的常数,防止分母为零;可以看出,直接对梯度的矩估计可以根据梯度进行动态调整,而
Figure BDA0001814006880000057
对学习率形成一个动态约束,而且有明确的范围。
实验证明本发明提出的基于3D深度卷积神经网络的视频图像显著性检测模型明显优于目前的其他模型。通过与6种常见的视频图像显著性检测模型来比较,评估的指标:
实验证明本发明提出的超分辨率图像质量评价模型明显优于目前的其他模型。通过与7种常见的视频图像显著性检测模型来比较,评估的指标:Pearsons LinearCorrelation Coefficient(PLCC),ReceiverOperating Characteristics(ROC)andNormalized Scanpath Saliency(NSS)。PLCC系数是用来度量两个变量X和Y之间的相互关系的,显著性检测中X、Y分别是图像的测试显著性图(Saliency Map)和参考显著性图(Ground Truth),取值范围在[-1,+1]之间。ROC用来衡量具有变量阈值的二值分类器的性能,显著值在阈值之上的点看作是注视点,而在阈值之下的看作是非注视点。其中ROC曲线下的面积称之为AUC(the Area Under the ROC Curve),其取值范围为[0,1],AUC越接近1代表模型检测性能越好。NSS用于衡量测试显著性图(Saliency Map)和参考显著性图(Ground Truth)两者之间的关联度。NSS值越高意味着观测者看到的是重要度高的目标,越低表示观测者关注的位置与重要度高的目标不重合。因此NSS值越高表明显著性检测模型的性能越优良。
附图说明
图1为本发明的算法流程框架图;
图2为不同方法在两种数据库上的ROC曲线图;其中,a:SegTrackV2数据库上的ROC曲线,b:DAVIS数据库上的ROC曲线;
图3为多种方法在多个视频序列上测试的显著图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明作进一步详细说明。
本发明解决其技术问题所采用的技术方案是:一种基于3D卷积神经网络的视频显著性检测方法,包括以下步骤:
A.获取待检测视频序列中的当前帧、上一帧以及下一帧的连续三帧彩色图像,记为(It-1,It,It+1);
B.将当前帧彩色图像(It)输入到Conv2DNet中,获取当前帧的运动目标语义特征,其特征维度为1024,特征映射图行和列大小为7×7;
C.将连续三帧彩色图像(It-1,It,It+1)输入到Conv3DNet中,获取帧与帧之间的空间显著性信息和时间显著性信息,其特征维度为1024,特征映射图行和列大小为7×7,
代表当前帧的时空显著性特征;
D.将步骤B和步骤C中获得的特征映射图连接(concatenate),组合成2048维特征映射,将其输入到Deconv3DNet中,学习和混合运动目标语义特征和时空显著性特征;
E.通过最后一层3D卷积层生成最后的显著图,显著图的行和列大小为224×224。
具体的,所述步骤B具体包括:
B1.其中Conv2DNet包含13层2D卷积层,5层2D最大池化层(pool层),5层批归一化层(BatchNorm)。卷积层的卷积核大小为3×3,其中的初始参数是通过VGG16模型的参数进行初始化的,之后在网络的训练过程中由反向传播算法自动学习获得。最大池化层的步长大小为2×2,它可以用于对特征映射图进行下采样,从而获得更好的特征表达。批归一化层可以加快训练速度以及增加检测精度。
B2.我们用四维张量[batch_size,map_height,map_width,channel]表示Conv2DNet特征图的大小,其中batch_size表示每次输入网络的批大小;map_height表示特征映射图的高,即行数;map_width表示特征映射图的宽,即列数;channel表示特征映射图的通道个数,即特征映射图的维度大小。其中B1的13层卷积网络经过前向传播后经过pool5层获得512维特征映射,其特征图大小为[10,7,7,512]。将512维特征输入到另外4层卷积层中,同时对其进行升维操作,从而获得1024维特征映射,其特征行和列的大小为[10,7,7,1024]。
具体的,所述步骤C具体包括:
C1.其中Conv3DNet包含14层2D卷积层,5层3D最大池化层,5层批归一化层(BatchNorm)。我们用三维张量[temporal_depth,spatial_height,spatial_width]表示3D卷积滤波器(filter)、3D最大池化步长(map pool stride)、3D非池化步长(unpoolstride)和卷积步长(convolutional stride)的形状大小,其中temporal_depth表示时间维度上的深度,即表示有多少帧视频帧彩色图像进行卷积操作;spatial_height表示空间维度上的高,即表示一帧视频帧上彩色图像进行滤波的高度大小;spatial_width表示空间维度上的宽,即表示一帧视频帧彩色图像上进行滤波的宽度大小。我们用五维张量[batch_size,map_depth,map_height,map_width,channel]表示Conv3DNet特征图的大小,其中batch_size表示每次输入网络的批大小;map_depth表示时间维度上的特征映射个数;map_height表示特征映射图的高,即行数;map_width表示特征映射图的宽,即列数;channel表示特征映射图的通道个数,即特征映射图的维度大小。
C2.首先经过第一层卷积层conv3d1_1,滤波器大小filter=[3,3,3],通道为32;第二层卷积层conv3d1_2,滤波器大小filter=[3,3,3],通道64;再经过一层pool3d1的maxpool层,因为我们希望多学习一点帧间信息,所以保留了三帧不那么快融合帧与帧之间的信息,所以卷积步长大小stride=[1,2,2]。为了加快训练速度和提高精确度,我们在每层maxpool3d后面接上了BatchNorm层。后面是卷积层conv3d2_1,卷积层conv3d2_2,通道数分别为128和128,连上pool3d2,stride=[1,2,2],然后接上BatchNorm层。接着是conv3d3_1,conv3d3_2,通道数分别是256和256,连上pool3d3,stride=[1,2,2],然后接上BatchNorm层。下面,conv3d4_1,conv3d4_2,filter=[2,3,3],通道数分别为512和512,连上pool3d4,stride=[2,2,2],然后接上BatchNorm层。后面是conv3d5_1,conv3d5_2,因为此时经过pool3d4之后,只有两帧了,所以filter=[2,3,3],通道数分别为512和512,连上pool3d5,stride=[2,2,2],然后接上BatchNorm层。此时输出的feaure map大小为[10,1,7,7,512],为了充分学习和融合时空显著性信息,我们加了一组卷积,但是没有pool层,就是后面的conv3d6_1,conv3d6_2,此时经过pool3d5之后,只有一帧了,所以filter=[1,3,3],通道数分别为512和512,然后接上BatchNorm层。将512维特征输入到另外2层卷积层中,同时对其进行升维操作,从而获得1024维特征映射,其特征行和列的大小为[10,1,7,7,1024]。
具体的,所述步骤D具体包括:
D1.我们用五维张量[batch_size,map_depth,map_height,map_width,channel]表示Deconv3DNet特征图的大小,其中batch_size表示每次输入网络的批大小;map_depth表示时间维度上的特征映射个数;map_height表示特征映射图的高,即行数;map_width表示特征映射图的宽,即列数;channel表示特征映射图的通道个数,即特征映射图的维度大小。我们用三维张量[batch_size,map_depth,map_height,map_width,channel]表示Deconv3DNet特征图的大小,
D2.经过concat之后,特征图的大小为[10,1,7,7,2048],为了充分混合Conv2DNet和Conv3DNet的特征图,我们设计了Deconv3DNet来学习这些特征,接入BatchNorm后,再连上deconv3d1,filter=[1,3,3],stride=[2,2,2],输出大小为[10,1,14,14,1024],为了尽可能多的保持反卷积学习到的特征,我们设计了3个卷积层来完成这个任务,它们是conv3d7_1,conv3d7_2,conv3d7_3,然后接入BatchNorm。接着是第二层反卷积deconv3d2,同样的后面接入3个卷积层,conv3d8_1,conv3d8_2,conv3d8_3,后面是BatchNorm。接着是第3层反卷积deconv3d3,后面接入2个卷积层,conv3d9_1,conv3d9_2,后面是BatchNorm。接着是第4层反卷积deconv3d4,同样的后面接入2个卷积层,conv3d10_1,conv3d10_2,后面是BatchNorm。接着是第5层反卷积deconv3d5,同样的后面接入2个卷积层,conv3d11_1,conv3d11_2,后面是BatchNorm。最后用一层卷积层来获得最终显著图,大小为224x224。
测试结果如下表:
表1:多种方法在SegTrackV2数据库上的定量测试结果
Figure BDA0001814006880000091
Figure BDA0001814006880000101
表2:多种方法在DAVIS数据库上的定量测试结果
模型 Fang LGGR MultiTask RWRV SAG SGSP Proposed
PLCC 0.6720 0.6733 0.8138 0.4077 0.6281 0.7439 0.8645
AUC 0.9034 0.8735 0.9262 0.8282 0.9051 0.9114 0.9425
NSS 2.5904 2.4775 2.8294 1.6699 2.4610 2.7747 3.5485
本发明涉及一种基于3D深度卷积神经网络的视频图像显著性检测方法,在训练阶段,首先随机选取连续三帧视频帧彩色图像输入到Conv3DNet中学习到帧与帧之间的时间和空间显著性信息,然后将当前帧输入到Conv2DNet中学习到运动目标语义信息,再将这两个网络所学习到的特征连接起来输入到Deconv3DNet中学习和混合更具有区分能力的增强型高级显著性特征,最后利用一层3D卷积和Relu激活函数获得最后的显著性的预测值,并把每个像素点的预测值作为这点的显著值。这样我们就得到整副图像的显著图,显著值越大,表示该像素点越显著。
本发明方法基于3D卷积神经网络,实验结果表明我们的模型学习到的特征具有更高的区分性和鲁棒性。本发明可以应用于复杂背景下视频图像的显著性检测。该方法具有较高的检测精度,相对于其他绝大多数现有的方法来说,具有明显的优势。
上述实施方式是对本发明的说明,不是对本发明的限定,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的保护范围由所附权利要求及其等同物限定。

Claims (4)

1.一种对于视频图像的显著性检测方法,其特征在于,包括以下步骤:
A.首先利用2D卷积建立一个2D深度卷积神经网络,输入一帧视频帧获得运动目标语义特征;
B.其次利用3D卷积建立一个3D深度卷积神经网络,输入连续三帧视频帧得到帧与帧之间的时空显著性信息,代表当前帧的时空显著性特征;
C.最后根据所得到的运动目标语义特征和时空显著性特征,采用3D卷积层连接得到混合特征映射图,之后将混合特征映射图输入到3D反卷积网络中以学习和混合运动目标语义特征和时空显著性特征,最终的显著图通过3D反卷积网络得到;
其中,所述步骤A中的2D深度卷积神经网络记为Conv2DNet,它包括13层2D卷积层用于提取运动目标语义特征,5层最大池化层用于对特征图进行下采样;Conv2DNet通过去掉VGG16模型的后面3层全连接层搭建而成,VGG16模型首先在训练集中随机选取一个训练样本,记为训练样本T(It-1,It,It+1,Gt),其中包含连续三帧视频帧图像(It-1,It,It+1)和对应的目标帧参考显著图Gt,然后将当前帧图像It输入到Conv2DNet中,经过卷积神经网络前向传播得到1024维特征映射图,其映射图行和列大小为7×7,代表运动目标语义特征;假设第l层为卷积层,第l+1层为最大池化层,则第l层第j个特征映射
Figure FDA0003534889420000011
和激活函数Relu的计算公式如下:
Figure FDA0003534889420000012
Figure FDA0003534889420000013
其中⊙表示卷积核k在第l-1层所有关联的特征映射上做卷积运算再加上一个偏置参数b,然后求和,经过激活函数Relu得到最终激励值;
所述步骤C中的3D反卷积网络记为Deconv3DNet,它包含5层非池化层用于恢复最大池化层下采样后的最大值位置,12层3D反卷积层用于学习和混合运动目标语义特征和时空显著性特征,还有一层3D卷积层用于生成最后的显著性图,将所获得的运动目标语义特征和时空显著性特征连接获得2048维特征映射图,其映射图行和列大小为7×7,将其输入到Deconv3DNet中,经过卷积神经网络前向传播获得最后的显著图St,其显著图行和列大小为224×224;假设第l层为反卷积层,第l-1层为非池化层,则第l层第j个特征映射
Figure FDA0003534889420000021
的计算公式如下:
Figure FDA0003534889420000022
其中⊙表示反卷积核
Figure FDA0003534889420000023
在第l-1层所有关联的特征映射上做反卷积运算再加上一个偏置参数b,然后求和,经过激活函数Relu得到最终激励值。
2.根据权利要求1所述的一种对于视频图像的显著性检测方法,其特征在于,所述步骤B中的3D深度卷积神经网络记为Conv3DNet,它包含14层3D卷积层用于提取时空显著性特征,5层最大池化层用于对特征映射图下采样,同时记录采样最大值的位置;将训练样本T所包含的连续三帧视频帧(It-1,It,It+1)输入到Conv3DNet中,经过卷积神经网络前向传播获得1024维特征映射图,其大小为7×7,代表时空显著性特征。
3.根据权利要求1所述的一种对于视频图像的显著性检测方法,其特征在于,将所述步骤C中获得的最终显著图St与训练样本T目标视频帧所对应的参考显著图Gt相减,从而获得前向传播的误差,再经过反向传播进行权重调优。
4.根据权利要求3所述的一种对于视频图像的显著性检测方法,其特征在于,所采用的计算前向传播误差的损失函数方法为均方误差,计算公式为:
Figure FDA0003534889420000024
其中St(i,j)为生成的最终显著图St中的像素值,其显著图行和列大小为h×w,所有最终显著图设置为224×224;Gt(i,j)为目标视频帧所对应的参考显著图Gt中的像素值,其显著图行和列大小为h×w,所有显著图设置为224×224;k表示每次传入神经网络的批次大小,其中损失函数L所获得的是St和Gt对应像素相减,并取其均值。
CN201811132912.9A 2018-09-27 2018-09-27 一种基于3d卷积神经网络的视频显著性检测方法 Active CN109376611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811132912.9A CN109376611B (zh) 2018-09-27 2018-09-27 一种基于3d卷积神经网络的视频显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811132912.9A CN109376611B (zh) 2018-09-27 2018-09-27 一种基于3d卷积神经网络的视频显著性检测方法

Publications (2)

Publication Number Publication Date
CN109376611A CN109376611A (zh) 2019-02-22
CN109376611B true CN109376611B (zh) 2022-05-20

Family

ID=65402637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811132912.9A Active CN109376611B (zh) 2018-09-27 2018-09-27 一种基于3d卷积神经网络的视频显著性检测方法

Country Status (1)

Country Link
CN (1) CN109376611B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059728B (zh) * 2019-03-26 2020-11-13 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN109993096B (zh) * 2019-03-26 2022-12-20 东北大学 一种面向视频目标检测的光流多层帧特征传播及聚合方法
CN109993151A (zh) * 2019-04-15 2019-07-09 方玉明 一种基于多模块全卷积网络的三维视频视觉注意力检测方法
CN110175986B (zh) * 2019-04-23 2021-01-08 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111988666B (zh) * 2019-05-23 2022-04-26 阿里巴巴集团控股有限公司 视频检测、3d卷积与映射方法、设备及存储介质
CN110188706B (zh) * 2019-06-03 2022-04-19 南京邮电大学 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法
CN112149459B (zh) * 2019-06-27 2023-07-25 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN110324663A (zh) * 2019-07-01 2019-10-11 北京奇艺世纪科技有限公司 一种动态图像的生成方法、装置、电子设备和存储介质
CN110599443A (zh) * 2019-07-02 2019-12-20 山东工商学院 一种使用双向长短期记忆网络的视觉显著性检测方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110458165B (zh) * 2019-08-14 2022-11-08 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110765882B (zh) * 2019-09-25 2023-04-07 腾讯科技(深圳)有限公司 一种视频标签确定方法、装置、服务器及存储介质
CN110942464A (zh) * 2019-11-08 2020-03-31 浙江工业大学 一种融合2维和3维模型的pet图像分割方法
CN111027508B (zh) * 2019-12-23 2022-09-06 电子科技大学 一种基于深层神经网络的遥感图像覆被变化检测方法
CN111259923A (zh) * 2020-01-06 2020-06-09 燕山大学 一种基于改进三维r-cnn算法的多目标检测方法
CN111242003B (zh) * 2020-01-10 2022-05-27 南开大学 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN112016683B (zh) * 2020-08-04 2023-10-31 杰创智能科技股份有限公司 数据增强学习、训练方法、电子设备、可读存储介质
CN112114231B (zh) * 2020-09-18 2023-10-10 广西大学 一种具有连续学习能力的cnn故障选线方法
CN111931732B (zh) * 2020-09-24 2022-07-15 苏州科达科技股份有限公司 压缩视频的显著性目标检测方法、系统、设备及存储介质
CN112381076B (zh) * 2021-01-18 2021-03-23 西南石油大学 一种视频显著性检测任务中图片预处理的方法
CN112818846A (zh) * 2021-01-29 2021-05-18 湖南科技学院 视频帧的特征提取方法、装置及电子设备
CN112861733B (zh) * 2021-02-08 2022-09-02 电子科技大学 一种基于时空双编码的夜间交通视频显著性检测方法
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521592A (zh) * 2011-11-30 2012-06-27 苏州大学 基于非清晰区域抑制的多特征融合显著区域提取方法
CN108256562A (zh) * 2018-01-09 2018-07-06 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521592A (zh) * 2011-11-30 2012-06-27 苏州大学 基于非清晰区域抑制的多特征融合显著区域提取方法
CN108256562A (zh) * 2018-01-09 2018-07-06 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adam: A method for stochastic optimization;Diederik P. Kingma等;《https://arxiv.org/abs/1412.6980》;20170130;第1-15页 *
SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks;Xun Huang等;《2015 IEEE International Conference on Computer Vision》;20151231;第262-270页 *
Video Saliency Detection by 3D Convolutional Neural Networks;Guanqun Ding等;《https://arxiv.org/abs/1807.04514》;20180712;第1-10页 *
Video Salient Object Detection via Fully Convolutional Networks;Wenguan Wang等;《IEEE Transactions on Image Processing 》;20180131;第27卷(第1期);第38-49页 *

Also Published As

Publication number Publication date
CN109376611A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109376611B (zh) 一种基于3d卷积神经网络的视频显著性检测方法
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN106934766B (zh) 一种基于稀疏表示的红外图像超分辨率重建方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
Arora et al. Applications of fractional calculus in computer vision: a survey
CN109829449B (zh) 一种基于超像素时空上下文的rgb-d室内场景标注方法
Kenig et al. Blind image deconvolution using machine learning for three-dimensional microscopy
CN110580472B (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN111402237B (zh) 基于时空级联自编码器的视频图像异常检测方法及系统
Uddin et al. Spatio-temporal silhouette sequence reconstruction for gait recognition against occlusion
CN111639564A (zh) 一种基于多注意力异构网络的视频行人重识别方法
Kwasniewska et al. Super-resolved thermal imagery for high-accuracy facial areas detection and analysis
Singh et al. A review of image fusion: Methods, applications and performance metrics
CN113158905A (zh) 一种基于注意力机制的行人重识别方法
Venkatachalam et al. An implementation of K-means clustering for efficient image segmentation
Yang et al. A robust iris segmentation using fully convolutional network with dilated convolutions
CN111091129A (zh) 一种基于多重颜色特征流形排序的图像显著区域提取方法
CN113449658A (zh) 基于空域、频域、时域的夜间视频序列显著性检测方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112329793B (zh) 基于结构自适应和规模自适应感受野的显著性检测方法
Honnutagi et al. Underwater video enhancement using manta ray foraging lion optimization-based fusion convolutional neural network
CN111126198B (zh) 一种基于深度表示学习跟动态匹配的行人再识别方法
Boudhane et al. Optical fish classification using statistics of parts
Jamshed et al. An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm with Grey Wolf Optimization (GWO)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant