CN110705431B

CN110705431B - 基于深度c3d特征的视频显著性区域检测方法及系统

Info

Publication number: CN110705431B
Application number: CN201910916306.4A
Authority: CN
Inventors: 鲍蕾; 陈萍; 秦晓燕; 袁友宏; 鲍弢; 王正
Original assignee: PLA Army Academy of Artillery and Air Defense
Current assignee: PLA Army Academy of Artillery and Air Defense
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-03-15
Anticipated expiration: 2039-09-26
Also published as: CN110705431A

Abstract

本发明提供一种基于深度C3D特征的视频显著性区域检测方法及系统，包括：将训练视频帧输入到深度3D ResNeXt‑101网络中，得卷积特征块；采用多尺度3D卷积核对卷积特征块处理，得第一多尺度时空特征块；采用softmax函数对第一多尺度时空特征块处理，构建注意相关加权响应图，作用于第一多尺度时空特征块，得多尺度时空三维上下文特征；采用ConvLSTM算法进行更新，或采用反卷积对其进行上采样，输入空洞卷积层，得显著图序列；采用损失函数计算损失进行反向传播，对上述网络所涉参数调整完成训练；采用训练好的深度C3D视频显著性区域检测网络对待检测视频进行显著性区域检测。本发明上述方法通过捕获视频的多尺度时空特征，以解决视频的显著性区域检测的问题。

Description

基于深度C3D特征的视频显著性区域检测方法及系统

技术领域

本发明涉及视频显著性区域检测技术领域，特别是涉及一种基于深度C3D特征的视频显著性区域检测方法及系统。

背景技术

视频显著性区域检测被广泛应用于视频质量评估、目标跟踪以及视频压缩等领域。传统的视频显著性区域检测方法建立在人工特征的基础上，因而在背景复杂、存在遮挡或者前景、背景对比度较低等问题时，不能很好地检测显著性区域。

发明内容

基于此，有必要提供一种基于深度C3D特征的视频显著性区域检测方法及系统，通过捕获视频的多尺度时空特征，描述视频特征，以解决视频的显著性区域检测的问题。

为实现上述目的，本发明提供了如下方案：

一种基于深度C3D特征的视频显著性区域检测方法，所述视频显著性区域检测方法包括：

获取用于训练显著性区域检测的多个训练视频帧序列块，各所述训练视频帧序列块是由连续的视频帧组成；

将所述训练视频帧序列块中视频帧的人工标注显著图，作为第一显著图序列；

采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练，具体包括：

将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块；

采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块；

采用softmax函数对所述第一多尺度时空特征块进行处理，构建注意相关加权响应图；

使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权，得到第二多尺度时空特征块；

采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理，得到第三多尺度时空特征块；

将所述第三多尺度时空特征块输入到空洞卷积层，得到的输出的数据即为第二显著图序列；

根据所述第一显著图序列和所述第二显著图序列，采用损失函数计算损失值；

判断迭代次数是否到达预设值；

若否，则根据所述损失值，使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整，跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块步骤；

若是，则所述第二显著图序列中的第二显著图即为检测结果图，完成对所述深度C3D视频显著性区域检测网络的训练；

采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。

可选的，所述采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测，具体包括：

获取用于待检测显著性区域的多个待测视频帧序列块，各所述待测视频帧序列块是由连续的视频帧组成；

采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。

可选的，所述采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块，具体包括：

将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块；

将所述第四多尺度时空特征块分割成M部分，采用switch操作对各部分进行处理，得到第一多尺度时空特征块。

可选的，所述损失函数具体为：

其中，L_final表示损失值，t＝1,2,3...,L表示视频帧序列，L表示视频帧序列的长度，S^t表示第t帧的第二显著图，G^t表示第t帧的第一显著图，(x,y)表示视频帧中像素点的位置。

一种基于深度C3D特征的视频显著性区域检测系统，所述视频显著性区域检测系统包括：

数据获取模块，用于获取用于训练显著性区域检测的多个训练视频帧序列块，各所述训练视频帧序列块是由连续的视频帧组成；

第一显著图序列获取模块，将所述训练视频帧序列块中视频帧的人工标注显著图，作为第一显著图序列；

卷积特征块确定模块，用于将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块；

第一多尺度时空特征块确定模块，用于采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块；

注意相关加权响应图构建模块，用于采用softmax函数对所述第一多尺度时空特征块进行处理，构建注意相关加权响应图；

第二多尺度时空特征块确定模块，用于使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权，得到第二多尺度时空特征块；

第三多尺度时空特征块确定模块，用于采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理，得到第三多尺度时空特征块；

第二显著图序列确定模块，用于将所述第三多尺度时空特征块输入到空洞卷积层，得到的输出的数据即为第二显著图序列；

损失值计算模块，用于根据所述第一显著图序列和所述第二显著图序列，采用损失函数计算损失值；

判断模块，用于判断迭代次数是否到达预设值；

参数调整模块，用于若否，则根据所述损失值，使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整，跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块步骤；

显著性区域确定模块，用于若是，则所述第二显著图序列中的第二显著图即为检测结果图，完成对所述深度C3D视频显著性区域检测网络的训练；

显著性区域检测模块，用于采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。

可选的，所述显著性区域检测模块，具体包括：

数据获取单元，用于获取用于待检测显著性区域的多个待测视频帧序列块，各所述待测视频帧序列块是由连续的视频帧组成；

显著性区域检测单元，用于采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。

可选的，所述第一多尺度时空特征块确定模块，具体包括：

第四多尺度时空特征块确定单元，用于将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块；

第一多尺度时空特征块确定单元，用于将所述第四多尺度时空特征块分割成M部分，采用switch操作对各部分进行处理，得到第一多尺度时空特征块。

可选的，所述损失函数具体为：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明中显著性区域检测方法包括：采用训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练，并采用损失函数计算损失值，判断损失值是否小于设定阈值，若否，对使用反向传播算法对深度C3D视频显著性区域检测网络中的参数进行调整，若是，采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。通过上述方法捕获视频的多尺度时空特征，以解决视频的显著性区域检测的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于深度C3D特征的视频显著性区域检测方法的流程图；

图2为本发明实施例S3-S6的流程示意图；

图3为本发明实施例中switch操作流程示意图；

图4为本发明实施例中采用反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理的示意图；

图5为本发明实施例一种基于深度C3D特征的视频显著性区域检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于深度C3D特征的视频显著性区域检测方法及系统，通过捕获视频的多尺度时空特征，描述视频特征，以解决视频的显著性区域检测的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着卷积神经网络在计算机视觉领域取得的巨大成功，深度学习凭借其强大的特征学习能力，涌现出了大量基于深度卷积神经网络的显著性区域检测方法，但是在视频显著性区域检测上的深度研究依然较少，使用自训练的深度架构学习特征代替传统的人工特征，以解决视频显著性区域检测的问题。

图1为本发明实施例一种基于深度C3D特征的视频显著性区域检测方法的流程图。

参见图1，本发明实施例一种基于深度C3D特征的视频显著性区域检测方法，包括以下步骤：

S1：获取用于训练显著性区域检测的多个训练视频帧序列块，各所述训练视频帧序列块是由连续的视频帧组成。

具体的，同一视频的每个视频帧具有相同尺寸，即为H*W*3的RGB图像，将视频帧序列划分成若干个视频帧序列块。考虑到主干网络的设置，每16帧连续视频帧作为一个序列块，并且块之间无覆盖，最后一个块的视频帧长度不足16的，通过复制最后一帧视频进行补足。视频帧选取的间隔长度均为1，本发明实施例中采用大规模带标签视频处理数据集，如Kinetics数据集。

S2：将所述训练视频帧序列块中视频帧的显著图标注作为第一显著图序列。具体的，人工标注显著图是所述训练视频帧序列块自带的。

S3：将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块。

所述卷积特征块可以为多个。

选择深度3D ResNeXt-101网络作为主干网络，并且在Kinetics数据集上训练，对深度3D ResNeXt-101网络做了一些调整，使其能够更好地完成视频显著性检测的任务。一方面，移除了全连接层，因为本发明实施例的任务需要做像素级的预测；另一方面，移除了最后的池化层，来保留空间细节信息。调整后的深度3D ResNeXt-101网络提供了5个层次的特征块。

由于本发明实施例采用深度3D ResNeXt-101来获取卷积特征块，因此每个位置点的数值包含了输入视频的空间和时间信息，将所述训练视频帧序列块输入到预训练的深度3D ResNeXt-101网络，获取5个层次的卷积特征块，将卷积特征块表示为f，其中，f∈R^W ^×H×L×N，W表示每帧视频的宽度(Width)，H表示每帧视频的高度(Height)，L表示视频帧的长度(Length)。

S4：采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块。

S4具体包括：

S401：将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块。

为了在每个卷积特征块内检测多尺度时空特征，将卷积特征块分割成N部分，得到f＝[f₁,f₂,f₃...f_i...f_N]，f_i∈R^W×H×L，f_i表示f的第i部分，i＝1,2,3...N，使用三种不同尺寸的3D卷积核与f_i进行卷积，获取三个第四多尺度时空特征块f_i，f_i,1∈R^W×H×L×3，f_i,1表示第i部分的三个第四多尺度时空特征块。

三种不同尺寸的3D卷积核的尺寸分别为3*3*3，5*5*5和7*7*7，但不仅限于该三种不同的尺寸。

S402：将所述第四多尺度时空特征块分割成M部分，采用switch操作对各部分进行处理，得到第一多尺度时空特征块。

为了构建注意相关加权响应图，将三个第四多尺度时空特征块f_i,1分割成L部分，f_i,1＝[f¹ _i,1,f² _i,1,f³ _i,1...f^l _i,1...f^L _i,1]，其中f^l _i,1∈R^W×H×3，f^l _i,1表示f_i,1的第l部分，l＝1,2,3...L，采用switch操作对分割后的三个第四多尺度时空特征块进行级联得到第一多尺度时空特征块f¹＝[f^1,1,f^1,2,f^1,3...f^1,l...f^1,L]，其中f^1,l∈R^W×H×3N表示f¹的第l个特征块。

S5：采用softmax函数对所述第一多尺度时空特征块进行处理，构建注意相关加权响应图。

将f^1,l引入一个卷积层，输出为f^2,l，f^2,l∈R^W×H引入softmax函数来构建最终的注意相关加权响应图：

其中，l＝1,2,3…L为该层与输入视频帧数量对应的通道深度，(x′,y′)表示f^2,l所在的位置点坐标，(x,y)表示f^2,l的二维位置点，也就是x∈[0,W-1],y∈[0,H-1]。

S6：使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权，得到第二多尺度时空特征块。

使用W^2,l对f^1,l的位置点进行加权：

f^3,l(x,y,n)＝W^2,l(x,y)·f^1,l(x,y,n)

其中，n＝1,2,3…3N。

通过上述操作，对每个卷积特征块f∈R^W×H×L×N构建第二多尺度时空特征块，即f′＝[f^3,1,f^3,2,f^3,3…f^3,l…f^3,L]，其中f^3,l∈R^W×H×3N。

图2为本发明实施例S3-S6的流程示意图，图3为本发明实施例中switch操作流程示意图，参见图2-图3。

S7：采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理，得到第三多尺度时空特征块。

本发明实施例中获取5个层次的卷积特征块，有5个卷积特征块为f^k，其中k＝1,2,3,4,5，采用步骤3对每个卷积特征块进行处理，构建第二多尺度时空特征块

由于第二多尺度时空特征块f′^k的长度与输入视频帧序列块的长度可能是不一致的，即L^k≠L，为了对输入视频的每帧检测显著图，采用帧间插值方法对第二多尺度时空特征块f′进行长度扩展，使其与视频帧序列块长度一致。

方法一：采用ConvLSTM算法对所述第二多尺度时空特征块分别在空间和时间上进行处理。

ConvLSTM的定义如下：

i_t＝σ(W_xi*x_t+W_hi*h_t-1+b_i)，

f_t＝σ(W_xf*x_t+W_hf*h_t-1+b_f)，

o_t＝σ(W_xo*x_t+W_ho*h_t-1+b_o)，

g_t＝tanh(W_xc*x_t+W_hc*h_t-1+b_c)，

c_t＝f_t·c_t-1+i_t·g_t，

h_t＝o_t·tanh(c_t)，

其中，W和b为二维卷积核和偏置，假设x_t、h_t、c_t分别为输入、隐藏单元和记忆单元；i_t、f_t、o_t分别为输入门、忽略门和输出门。

第l个视频帧，第二多尺度时空特征块为f′^l＝[f^1,l,f^2,l,f^3,l,f^4,l,f^5,l]，l＝1,2,3…L，并且f^k,l∈R^W×H×3N。

首先，在空间上将f′^l输入到ConvLSTM，使用空间信息对f′^l逐个进行更新，即x_t＝f′^t,l，t＝1,2,3,4,5，并将最终输出h_t作为f′^l的特征描述块，即f₁′^l＝h_t，并且f₁′^l∈R^W×H×3N。

由于f′^t,l∈R^W×H×3N，

将x_t+1＝f′^t+1,l输入ConvLSTM之前，先对f′^t+1,l的空间维度进行放大，得到的f′^t+1,l与f′^k,l具有相同的空间维度，即f′^t+1,l∈R^W×H×3N。

然后，在时间上将[f₁′¹,f₁′²,f₁′³...f₁′^L]输入到ConvLSTM，使用时间信息，对f′^l逐个进行更新，即x_t＝f₁′^t,t＝1,2,3...L。

最后，将每次更新的输出h_t作为f′^t的特征描述块，即f₀′^t＝h_t，得到更新后的特征描述块为f₀′^t∈R^W×H×3N。

方法二：采用反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理。

f′^k进行更新过程中，当k＝5时，不对f′^k进行更新，直接在f′^k上检测显著图序列；否则，使用f′^k+1对f′^k进行更新，此时第k+1个特征块的第二多尺度时空特征块为f′^k+1＝[f′^k+1,1,f′^k+1,2,f′^k+1,3…f′^k+1,l…f′^k+1,L]，并且f′^k,l∈R^W×H×3N，

更新流程如图4所示，其过程简述如下：

使用反卷积或者直接进行上采样，对f′^k+1,l的空间维度进行放大，得到的f′^k+1,l与f′^k,l具有相同的空间维度，即f′^k,l∈R^W×H×3N。

对f′^k,l和反卷积后的f′^k+1,l进行级联，得到f′₁ ^k,l，并且f′₁ ^k,l∈R^W×H×6N。

S8：将所述第三多尺度时空特征块输入到的空洞卷积层，得到的输出的数据即为第二显著图序列。

针对方法一，在更新后的特征描述块f₀′^t∈R^W×H×3N基础上，将f₀′^t逐个输入到空洞卷积层中，得到第t帧的显著图S^t，并且S^t∈R^W×H，构建输入视频帧的显著图序列S^t,t＝1,2,3...L。

针对方法二，将f′₁ ^k,l输入到空洞卷积层中，得到第k个特征块上对应第l帧的初始显著图S^k,l。对所有的f₁′^k,l,k＝1,2,3,4,5,l＝1,2,3...L重复以上操作，构建输入视频帧序列对应的初始显著图序列S^k,l,k＝1,2,3,4,5,l＝1,2,3...L。

在检测的初始显著图序列S^k,l,k＝1,2,3,4,5,l＝1,2,3...L基础上，将S^k,l∈R^W×H输入空洞卷积层，得到第l帧的显著图S^l，并且S^l∈R^W×H，构建输入视频帧的显著图序列S^l,l＝1,2,3...L。

步骤S9：根据所述第一显著图序列和所述第二显著图序列，采用损失函数计算损失值；

所述损失函数具体为：

S10：判断迭代次数是否到达预设值。具体的预设值是提前设定好的数值。所述迭代次数是指深度C3D视频显著性区域检测网络的迭代次数。

S11：若否，则根据所述损失值，使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整，跳转到所述将所述训练视频帧序列块输入到深度3DResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块步骤，即跳转到步骤3，重新对深度3D ResNeXt-101网络进行训练。

S12：若是，则所述第二显著图序列中的第二显著图即为检测结果图，完成对所述深度C3D视频显著性区域检测网络的训练。具体的，所述第二显著图序列即为显著性检测最终结果。

S13：采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。

S13，具体包括：

S1001：获取用于待检测显著性区域的多个待测视频帧序列块，各所述待测视频帧序列块是由连续的视频帧组成；

S1002：采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。具体的，采用S3-S8对所述待测视频帧序列块进行视频显著性区域检测。

本发明实施例中将3D ResNeXt-101网络输出的每个卷积特征块分别进行处理，获取多尺度时空特征块，其次，引入了层间交互机制，实现不同层间特征块的信息交互，通过视频显著性检测模块检测显著图序列，结合人工标注图计算损失，实现整个深度C3D视频显著性区域检测网络端到端的训练。最后采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。

本发明还提供了一种基于深度C3D特征的视频显著性区域检测系统，图5为本发明实施例一种基于深度C3D特征的视频显著性区域检测系统的结构示意图，如图5所示，所述视频显著性区域检测系统包括：

数据获取模块201，用于获取用于训练显著性区域检测的多个训练视频帧序列块，各所述训练视频帧序列块是由连续的视频帧组成。

第一显著图序列获取模块202，将所述训练视频帧序列块中视频帧的人工标注显著图，作为第一显著图序列。

卷积特征块确定模块203，用于将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块。

第一多尺度时空特征块确定模块204，用于采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块。

注意相关加权响应图构建模块205，用于采用softmax函数对所述第一多尺度时空特征块进行处理，构建注意相关加权响应图。

第二多尺度时空特征块确定模块206，用于使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权，得到第二多尺度时空特征块。

第三多尺度时空特征块确定模块207，用于采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理，得到第三多尺度时空特征块。

第二显著图序列确定模块208，用于将所述第三多尺度时空特征块输入到空洞卷积层，得到的输出的数据即为第二显著图序列。

损失值计算模块209，用于根据所述第一显著图序列和所述第二显著图序列，采用损失函数计算损失值。

所述损失函数具体为：

判断模块210，用于判断迭代次数是否到达预设值。

参数调整模块211，用于若否，则根据所述损失值，使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整，跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中，取出输出数据，作为所述训练视频帧序列块的卷积特征块步骤。

显著性区域确定模块212，用于若是，则所述第二显著图序列中的第二显著图即为检测结果图，完成对所述深度C3D视频显著性区域检测网络的训练。

显著性区域检测模块213，用于采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。

所述显著性区域检测模块213，具体包括：

数据获取单元，用于获取用于待检测显著性区域的多个待测视频帧序列块，各所述待测视频帧序列块是由连续的视频帧组成。

所述第一多尺度时空特征块确定模块204，具体包括：

第四多尺度时空特征块确定单元，用于将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度C3D特征的视频显著性区域检测方法，其特征在于，所述视频显著性区域检测方法包括：

采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块；具体包括：

将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块；具体包括：

在每个卷积特征块内检测多尺度时空特征，将卷积特征块分割成N部分，得到f＝[f₁,f₂,f₃...f_i...f_N]，f_i∈R^W×H×L，f_i表示f的第i部分，i＝1,2,3...N，使用三种不同尺寸的3D卷积核与f_i进行卷积，获取三个第四多尺度时空特征块f_i，f_i,1∈R^W×H×L×3，f_i,1表示第i部分的三个第四多尺度时空特征块；

将所述第四多尺度时空特征块分割成M部分，采用switch操作对各部分进行处理，得到第一多尺度时空特征块；具体包括：

将三个第四多尺度时空特征块f_i,1分割成L部分，f_i,1＝[f¹ _i,1,f² _i,1,f³ _i,1...f^l _i, ₁...f^L _i,1]，其中f^l _i,1∈R^W×H×3，f^l _i,1表示f_i,1的第l部分，l＝1,2,3...L，采用switch操作对分割后的三个第四多尺度时空特征块进行级联得到第一多尺度时空特征块f¹＝[f^1,1,f^1,2,f¹ ^,3...f^1,l...f^1,L]，其f^1,l∈R^W×H×3N表示f¹的第l个特征块；

判断迭代次数是否到达预设值；

2.根据权利要求1所述的基于深度C3D特征的视频显著性区域检测方法，其特征在于，所述采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测，具体包括：

3.根据权利要求1所述的基于深度C3D特征的视频显著性区域检测方法，其特征在于，所述损失函数具体为：

4.一种基于深度C3D特征的视频显著性区域检测系统，其特征在于，所述视频显著性区域检测系统包括：

第一多尺度时空特征块确定模块，用于采用3D卷积核和switch操作对所述卷积特征块进行处理，得到第一多尺度时空特征块；具体包括：

第四多尺度时空特征块确定单元，用于将所述卷积特征块分割成N部分，使用不同尺寸的3D卷积核与各部分进行卷积，得到第四多尺度时空特征块；具体包括：

第一多尺度时空特征块确定单元，用于将所述第四多尺度时空特征块分割成M部分，采用switch操作对各部分进行处理，得到第一多尺度时空特征块；具体包括：

判断模块，用于判断迭代次数是否到达预设值；

5.根据权利要求4所述的基于深度C3D特征的视频显著性区域检测系统，其特征在于，所述显著性区域检测模块，具体包括：

6.根据权利要求4所述的基于深度C3D特征的视频显著性区域检测系统，其特征在于，所述损失函数具体为：