CN110705431A - 基于深度c3d特征的视频显著性区域检测方法及系统 - Google Patents

基于深度c3d特征的视频显著性区域检测方法及系统 Download PDF

Info

Publication number
CN110705431A
CN110705431A CN201910916306.4A CN201910916306A CN110705431A CN 110705431 A CN110705431 A CN 110705431A CN 201910916306 A CN201910916306 A CN 201910916306A CN 110705431 A CN110705431 A CN 110705431A
Authority
CN
China
Prior art keywords
video
block
region detection
scale space
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910916306.4A
Other languages
English (en)
Other versions
CN110705431B (zh
Inventor
鲍蕾
陈萍
秦晓燕
袁友宏
鲍弢
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pla Artillery Air Defense Force Academy
PLA Army Academy of Artillery and Air Defense
Original Assignee
Pla Artillery Air Defense Force Academy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pla Artillery Air Defense Force Academy filed Critical Pla Artillery Air Defense Force Academy
Priority to CN201910916306.4A priority Critical patent/CN110705431B/zh
Publication of CN110705431A publication Critical patent/CN110705431A/zh
Application granted granted Critical
Publication of CN110705431B publication Critical patent/CN110705431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度C3D特征的视频显著性区域检测方法及系统,包括:将训练视频帧输入到深度3D ResNeXt‑101网络中,得卷积特征块;采用多尺度3D卷积核对卷积特征块处理,得第一多尺度时空特征块;采用softmax函数对第一多尺度时空特征块处理,构建注意相关加权响应图,作用于第一多尺度时空特征块,得多尺度时空三维上下文特征;采用ConvLSTM算法进行更新,或采用反卷积对其进行上采样,输入空洞卷积层,得显著图序列;采用损失函数计算损失进行反向传播,对上述网络所涉参数调整完成训练;采用训练好的深度C3D视频显著性区域检测网络对待检测视频进行显著性区域检测。本发明上述方法通过捕获视频的多尺度时空特征,以解决视频的显著性区域检测的问题。

Description

基于深度C3D特征的视频显著性区域检测方法及系统
技术领域
本发明涉及视频显著性区域检测技术领域,特别是涉及一种基于深度C3D特征的视频显著性区域检测方法及系统。
背景技术
视频显著性区域检测被广泛应用于视频质量评估、目标跟踪以及视频压缩等领域。传统的视频显著性区域检测方法建立在人工特征的基础上,因而在背景复杂、存在遮挡或者前景、背景对比度较低等问题时,不能很好地检测显著性区域。
发明内容
基于此,有必要提供一种基于深度C3D特征的视频显著性区域检测方法及系统,通过捕获视频的多尺度时空特征,描述视频特征,以解决视频的显著性区域检测的问题。
为实现上述目的,本发明提供了如下方案:
一种基于深度C3D特征的视频显著性区域检测方法,所述视频显著性区域检测方法包括:
获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成;
将所述训练视频帧序列块中视频帧的人工标注显著图,作为第一显著图序列;
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块;
采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块;
采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图;
使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块;
采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块;
将所述第三多尺度时空特征块输入到空洞卷积层,得到的输出的数据即为第二显著图序列;
根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值;
判断迭代次数是否到达预设值;
若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤;
若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练;
采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
可选的,所述采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测,具体包括:
获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成;
采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。
可选的,所述采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块,具体包括:
将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块;
将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
可选的,所述损失函数具体为:
Figure BDA0002216194950000031
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
一种基于深度C3D特征的视频显著性区域检测系统,所述视频显著性区域检测系统包括:
数据获取模块,用于获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成;
第一显著图序列获取模块,将所述训练视频帧序列块中视频帧的人工标注显著图,作为第一显著图序列;
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
卷积特征块确定模块,用于将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块;
第一多尺度时空特征块确定模块,用于采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块;
注意相关加权响应图构建模块,用于采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图;
第二多尺度时空特征块确定模块,用于使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块;
第三多尺度时空特征块确定模块,用于采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块;
第二显著图序列确定模块,用于将所述第三多尺度时空特征块输入到空洞卷积层,得到的输出的数据即为第二显著图序列;
损失值计算模块,用于根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值;
判断模块,用于判断迭代次数是否到达预设值;
参数调整模块,用于若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤;
显著性区域确定模块,用于若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练;
显著性区域检测模块,用于采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
可选的,所述显著性区域检测模块,具体包括:
数据获取单元,用于获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成;
显著性区域检测单元,用于采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。
可选的,所述第一多尺度时空特征块确定模块,具体包括:
第四多尺度时空特征块确定单元,用于将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块;
第一多尺度时空特征块确定单元,用于将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
可选的,所述损失函数具体为:
Figure BDA0002216194950000041
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中显著性区域检测方法包括:采用训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,并采用损失函数计算损失值,判断损失值是否小于设定阈值,若否,对使用反向传播算法对深度C3D视频显著性区域检测网络中的参数进行调整,若是,采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。通过上述方法捕获视频的多尺度时空特征,以解决视频的显著性区域检测的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于深度C3D特征的视频显著性区域检测方法的流程图;
图2为本发明实施例S3-S6的流程示意图;
图3为本发明实施例中switch操作流程示意图;
图4为本发明实施例中采用反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理的示意图;
图5为本发明实施例一种基于深度C3D特征的视频显著性区域检测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于深度C3D特征的视频显著性区域检测方法及系统,通过捕获视频的多尺度时空特征,描述视频特征,以解决视频的显著性区域检测的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
随着卷积神经网络在计算机视觉领域取得的巨大成功,深度学习凭借其强大的特征学习能力,涌现出了大量基于深度卷积神经网络的显著性区域检测方法,但是在视频显著性区域检测上的深度研究依然较少,使用自训练的深度架构学习特征代替传统的人工特征,以解决视频显著性区域检测的问题。
图1为本发明实施例一种基于深度C3D特征的视频显著性区域检测方法的流程图。
参见图1,本发明实施例一种基于深度C3D特征的视频显著性区域检测方法,包括以下步骤:
S1:获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成。
具体的,同一视频的每个视频帧具有相同尺寸,即为H*W*3的RGB图像,将视频帧序列划分成若干个视频帧序列块。考虑到主干网络的设置,每16帧连续视频帧作为一个序列块,并且块之间无覆盖,最后一个块的视频帧长度不足16的,通过复制最后一帧视频进行补足。视频帧选取的间隔长度均为1,本发明实施例中采用大规模带标签视频处理数据集,如Kinetics数据集。
S2:将所述训练视频帧序列块中视频帧的显著图标注作为第一显著图序列。具体的,人工标注显著图是所述训练视频帧序列块自带的。
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
S3:将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块。
所述卷积特征块可以为多个。
选择深度3D ResNeXt-101网络作为主干网络,并且在Kinetics数据集上训练,对深度3D ResNeXt-101网络做了一些调整,使其能够更好地完成视频显著性检测的任务。一方面,移除了全连接层,因为本发明实施例的任务需要做像素级的预测;另一方面,移除了最后的池化层,来保留空间细节信息。调整后的深度3D ResNeXt-101网络提供了5个层次的特征块。
由于本发明实施例采用深度3D ResNeXt-101来获取卷积特征块,因此每个位置点的数值包含了输入视频的空间和时间信息,将所述训练视频帧序列块输入到预训练的深度3D ResNeXt-101网络,获取5个层次的卷积特征块,将卷积特征块表示为f,其中,f∈RW ×H×L×N,W表示每帧视频的宽度(Width),H表示每帧视频的高度(Height),L表示视频帧的长度(Length)。
S4:采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块。
S4具体包括:
S401:将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块。
为了在每个卷积特征块内检测多尺度时空特征,将卷积特征块分割成N部分,得到f=[f1,f2,f3...fi...fN],fi∈RW×H×L,fi表示f的第i部分,i=1,2,3...N,使用三种不同尺寸的3D卷积核与fi进行卷积,获取三个第四多尺度时空特征块fi,fi,1∈RW×H×L×3,fi,1表示第i部分的三个第四多尺度时空特征块。
三种不同尺寸的3D卷积核的尺寸分别为3*3*3,5*5*5和7*7*7,但不仅限于该三种不同的尺寸。
S402:将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
为了构建注意相关加权响应图,将三个第四多尺度时空特征块fi,1分割成L部分,fi,1=[f1 i,1,f2 i,1,f3 i,1...fl i,1...fL i,1],其中fl i,1∈RW×H×3,fl i,1表示fi,1的第l部分,l=1,2,3...L,采用switch操作对分割后的三个第四多尺度时空特征块进行级联得到第一多尺度时空特征块f1=[f1,1,f1,2,f1,3...f1,l...f1,L],其中f1,l∈RW×H×3N表示f1的第l个特征块。
S5:采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图。
将f1,l引入一个卷积层,输出为f2,l,f2,l∈RW×H引入softmax函数来构建最终的注意相关加权响应图:
Figure BDA0002216194950000071
其中,l=1,2,3…L为该层与输入视频帧数量对应的通道深度,(x′,y′)表示f2,l所在的位置点坐标,(x,y)表示f2,l的二维位置点,也就是x∈[0,W-1],y∈[0,H-1]。
S6:使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块。
使用W2,l对f1,l的位置点进行加权:
f3,l(x,y,n)=W2,l(x,y)·f1,l(x,y,n)
其中,n=1,2,3…3N。
通过上述操作,对每个卷积特征块f∈RW×H×L×N构建第二多尺度时空特征块,即f′=[f3,1,f3,2,f3,3…f3,l…f3,L],其中f3,l∈RW×H×3N
图2为本发明实施例S3-S6的流程示意图,图3为本发明实施例中switch操作流程示意图,参见图2-图3。
S7:采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块。
本发明实施例中获取5个层次的卷积特征块,有5个卷积特征块为fk,其中k=1,2,3,4,5,采用步骤3对每个卷积特征块进行处理,构建第二多尺度时空特征块
Figure BDA0002216194950000081
由于第二多尺度时空特征块f′k的长度与输入视频帧序列块的长度可能是不一致的,即Lk≠L,为了对输入视频的每帧检测显著图,采用帧间插值方法对第二多尺度时空特征块f′进行长度扩展,使其与视频帧序列块长度一致。
方法一:采用ConvLSTM算法对所述第二多尺度时空特征块分别在空间和时间上进行处理。
ConvLSTM的定义如下:
it=σ(Wxi*xt+Whi*ht-1+bi),
ft=σ(Wxf*xt+Whf*ht-1+bf),
ot=σ(Wxo*xt+Who*ht-1+bo),
gt=tanh(Wxc*xt+Whc*ht-1+bc),
ct=ft·ct-1+it·gt
ht=ot·tanh(ct),
其中,W和b为二维卷积核和偏置,假设xt、ht、ct分别为输入、隐藏单元和记忆单元;it、ft、ot分别为输入门、忽略门和输出门。
第l个视频帧,第二多尺度时空特征块为f′l=[f1,l,f2,l,f3,l,f4,l,f5,l],l=1,2,3…L,并且fk,l∈RW×H×3N
首先,在空间上将f′l输入到ConvLSTM,使用空间信息对f′l逐个进行更新,即xt=f′t,l,t=1,2,3,4,5,并将最终输出ht作为f′l的特征描述块,即f1l=ht,并且f1l∈RW×H×3N
由于f′t,l∈RW×H×3N
Figure BDA0002216194950000082
将xt+1=f′t+1,l输入ConvLSTM之前,先对f′t+1,l的空间维度进行放大,得到的f′t+1,l与f′k,l具有相同的空间维度,即f′t+1,l∈RW×H×3N
然后,在时间上将[f11,f12,f13...f1L]输入到ConvLSTM,使用时间信息,对f′l逐个进行更新,即xt=f1t,t=1,2,3...L。
最后,将每次更新的输出ht作为f′t的特征描述块,即f0t=ht,得到更新后的特征描述块为f0t∈RW×H×3N
方法二:采用反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理。
f′k进行更新过程中,当k=5时,不对f′k进行更新,直接在f′k上检测显著图序列;否则,使用f′k+1对f′k进行更新,此时第k+1个特征块的第二多尺度时空特征块为f′k+1=[f′k+1,1,f′k+1,2,f′k+1,3…f′k+1,l…f′k+1,L],并且f′k,l∈RW×H×3N
Figure BDA0002216194950000091
更新流程如图4所示,其过程简述如下:
使用反卷积或者直接进行上采样,对f′k+1,l的空间维度进行放大,得到的f′k+1,l与f′k,l具有相同的空间维度,即f′k,l∈RW×H×3N
对f′k,l和反卷积后的f′k+1,l进行级联,得到f′1 k,l,并且f′1 k,l∈RW×H×6N
S8:将所述第三多尺度时空特征块输入到的空洞卷积层,得到的输出的数据即为第二显著图序列。
针对方法一,在更新后的特征描述块f0t∈RW×H×3N基础上,将f0t逐个输入到空洞卷积层中,得到第t帧的显著图St,并且St∈RW×H,构建输入视频帧的显著图序列St,t=1,2,3...L。
针对方法二,将f′1 k,l输入到空洞卷积层中,得到第k个特征块上对应第l帧的初始显著图Sk,l。对所有的f1k,l,k=1,2,3,4,5,l=1,2,3...L重复以上操作,构建输入视频帧序列对应的初始显著图序列Sk,l,k=1,2,3,4,5,l=1,2,3...L。
在检测的初始显著图序列Sk,l,k=1,2,3,4,5,l=1,2,3...L基础上,将Sk,l∈RW×H输入空洞卷积层,得到第l帧的显著图Sl,并且Sl∈RW×H,构建输入视频帧的显著图序列Sl,l=1,2,3...L。
步骤S9:根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值;
所述损失函数具体为:
Figure BDA0002216194950000092
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
S10:判断迭代次数是否到达预设值。具体的预设值是提前设定好的数值。所述迭代次数是指深度C3D视频显著性区域检测网络的迭代次数。
S11:若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3DResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤,即跳转到步骤3,重新对深度3D ResNeXt-101网络进行训练。
S12:若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练。具体的,所述第二显著图序列即为显著性检测最终结果。
S13:采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
S13,具体包括:
S1001:获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成;
S1002:采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。具体的,采用S3-S8对所述待测视频帧序列块进行视频显著性区域检测。
本发明实施例中将3D ResNeXt-101网络输出的每个卷积特征块分别进行处理,获取多尺度时空特征块,其次,引入了层间交互机制,实现不同层间特征块的信息交互,通过视频显著性检测模块检测显著图序列,结合人工标注图计算损失,实现整个深度C3D视频显著性区域检测网络端到端的训练。最后采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
本发明还提供了一种基于深度C3D特征的视频显著性区域检测系统,图5为本发明实施例一种基于深度C3D特征的视频显著性区域检测系统的结构示意图,如图5所示,所述视频显著性区域检测系统包括:
数据获取模块201,用于获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成。
第一显著图序列获取模块202,将所述训练视频帧序列块中视频帧的人工标注显著图,作为第一显著图序列。
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
卷积特征块确定模块203,用于将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块。
第一多尺度时空特征块确定模块204,用于采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块。
注意相关加权响应图构建模块205,用于采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图。
第二多尺度时空特征块确定模块206,用于使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块。
第三多尺度时空特征块确定模块207,用于采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块。
第二显著图序列确定模块208,用于将所述第三多尺度时空特征块输入到空洞卷积层,得到的输出的数据即为第二显著图序列。
损失值计算模块209,用于根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值。
所述损失函数具体为:
Figure BDA0002216194950000111
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
判断模块210,用于判断迭代次数是否到达预设值。
参数调整模块211,用于若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤。
显著性区域确定模块212,用于若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练。
显著性区域检测模块213,用于采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
所述显著性区域检测模块213,具体包括:
数据获取单元,用于获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成。
显著性区域检测单元,用于采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。
所述第一多尺度时空特征块确定模块204,具体包括:
第四多尺度时空特征块确定单元,用于将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块。
第一多尺度时空特征块确定单元,用于将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于深度C3D特征的视频显著性区域检测方法,其特征在于,所述视频显著性区域检测方法包括:
获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成;
将所述训练视频帧序列块中视频帧的人工标注显著图,作为第一显著图序列;
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块;
采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块;
采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图;
使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块;
采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块;
将所述第三多尺度时空特征块输入到空洞卷积层,得到的输出的数据即为第二显著图序列;
根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值;
判断迭代次数是否到达预设值;
若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤;
若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练;
采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
2.根据权利要求1所述的基于深度C3D特征的视频显著性区域检测方法,其特征在于,所述采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测,具体包括:
获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成;
采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。
3.根据权利要求1所述的基于深度C3D特征的视频显著性区域检测方法,其特征在于,所述采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块,具体包括:
将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块;
将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
4.根据权利要求1所述的基于深度C3D特征的视频显著性区域检测方法,其特征在于,所述损失函数具体为:
Figure FDA0002216194940000021
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
5.一种基于深度C3D特征的视频显著性区域检测系统,其特征在于,所述视频显著性区域检测系统包括:
数据获取模块,用于获取用于训练显著性区域检测的多个训练视频帧序列块,各所述训练视频帧序列块是由连续的视频帧组成;
第一显著图序列获取模块,将所述训练视频帧序列块中视频帧的人工标注显著图,作为第一显著图序列;
采用所述训练视频帧序列块对深度C3D视频显著性区域检测网络进行训练,具体包括:
卷积特征块确定模块,用于将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块;
第一多尺度时空特征块确定模块,用于采用3D卷积核和switch操作对所述卷积特征块进行处理,得到第一多尺度时空特征块;
注意相关加权响应图构建模块,用于采用softmax函数对所述第一多尺度时空特征块进行处理,构建注意相关加权响应图;
第二多尺度时空特征块确定模块,用于使用所述注意相关加权响应图对所述第一多尺度时空特征块的所有位置点进行加权,得到第二多尺度时空特征块;
第三多尺度时空特征块确定模块,用于采用ConvLSTM算法或反卷积的方法对所述第二多尺度时空特征块分别在空间和时间上进行处理,得到第三多尺度时空特征块;
第二显著图序列确定模块,用于将所述第三多尺度时空特征块输入到空洞卷积层,得到的输出的数据即为第二显著图序列;
损失值计算模块,用于根据所述第一显著图序列和所述第二显著图序列,采用损失函数计算损失值;
判断模块,用于判断迭代次数是否到达预设值;
参数调整模块,用于若否,则根据所述损失值,使用反向传播算法对所述深度C3D视频显著性区域检测网络中的参数进行调整,跳转到所述将所述训练视频帧序列块输入到深度3D ResNeXt-101网络中,取出输出数据,作为所述训练视频帧序列块的卷积特征块步骤;
显著性区域确定模块,用于若是,则所述第二显著图序列中的第二显著图即为检测结果图,完成对所述深度C3D视频显著性区域检测网络的训练;
显著性区域检测模块,用于采用训练好的深度C3D视频显著性区域检测网络对待测视频进行显著性区域检测。
6.根据权利要求5所述的基于深度C3D特征的视频显著性区域检测系统,其特征在于,所述显著性区域检测模块,具体包括:
数据获取单元,用于获取用于待检测显著性区域的多个待测视频帧序列块,各所述待测视频帧序列块是由连续的视频帧组成;
显著性区域检测单元,用于采用所述训练好的深度C3D视频显著性区域检测网络对所述待测视频帧序列块进行视频显著性区域检测。
7.根据权利要求5所述的基于深度C3D特征的视频显著性区域检测系统,其特征在于,所述第一多尺度时空特征块确定模块,具体包括:
第四多尺度时空特征块确定单元,用于将所述卷积特征块分割成N部分,使用不同尺寸的3D卷积核与各部分进行卷积,得到第四多尺度时空特征块;
第一多尺度时空特征块确定单元,用于将所述第四多尺度时空特征块分割成M部分,采用switch操作对各部分进行处理,得到第一多尺度时空特征块。
8.根据权利要求5所述的基于深度C3D特征的视频显著性区域检测系统,其特征在于,所述损失函数具体为:
Figure FDA0002216194940000041
其中,Lfinal表示损失值,t=1,2,3...,L表示视频帧序列,L表示视频帧序列的长度,St表示第t帧的第二显著图,Gt表示第t帧的第一显著图,(x,y)表示视频帧中像素点的位置。
CN201910916306.4A 2019-09-26 2019-09-26 基于深度c3d特征的视频显著性区域检测方法及系统 Active CN110705431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910916306.4A CN110705431B (zh) 2019-09-26 2019-09-26 基于深度c3d特征的视频显著性区域检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910916306.4A CN110705431B (zh) 2019-09-26 2019-09-26 基于深度c3d特征的视频显著性区域检测方法及系统

Publications (2)

Publication Number Publication Date
CN110705431A true CN110705431A (zh) 2020-01-17
CN110705431B CN110705431B (zh) 2022-03-15

Family

ID=69196437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910916306.4A Active CN110705431B (zh) 2019-09-26 2019-09-26 基于深度c3d特征的视频显著性区域检测方法及系统

Country Status (1)

Country Link
CN (1) CN110705431B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967522A (zh) * 2020-08-19 2020-11-20 南京图格医疗科技有限公司 一种基于漏斗卷积结构的图像序列分类方法
CN112801068A (zh) * 2021-04-14 2021-05-14 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN114782878A (zh) * 2022-05-26 2022-07-22 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173482A1 (en) * 2010-01-14 2011-07-14 Arm Limited Data processing apparatus and method for providing fault tolerance when executing a sequence of data processing operations
CN103095996A (zh) * 2013-01-25 2013-05-08 西安电子科技大学 基于时空显著性检测的多传感器视频融合方法
CN104966286A (zh) * 2015-06-04 2015-10-07 电子科技大学 一种3d视频显著性检测方法
CN106095887A (zh) * 2016-06-07 2016-11-09 兰州大学 基于加权时空效应的情境感知Web 服务推荐方法
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN108256562A (zh) * 2018-01-09 2018-07-06 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN108491856A (zh) * 2018-02-08 2018-09-04 西安电子科技大学 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN109993151A (zh) * 2019-04-15 2019-07-09 方玉明 一种基于多模块全卷积网络的三维视频视觉注意力检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110173482A1 (en) * 2010-01-14 2011-07-14 Arm Limited Data processing apparatus and method for providing fault tolerance when executing a sequence of data processing operations
CN103095996A (zh) * 2013-01-25 2013-05-08 西安电子科技大学 基于时空显著性检测的多传感器视频融合方法
CN104966286A (zh) * 2015-06-04 2015-10-07 电子科技大学 一种3d视频显著性检测方法
CN106095887A (zh) * 2016-06-07 2016-11-09 兰州大学 基于加权时空效应的情境感知Web 服务推荐方法
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN108256562A (zh) * 2018-01-09 2018-07-06 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN108491856A (zh) * 2018-02-08 2018-09-04 西安电子科技大学 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN109993151A (zh) * 2019-04-15 2019-07-09 方玉明 一种基于多模块全卷积网络的三维视频视觉注意力检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967522A (zh) * 2020-08-19 2020-11-20 南京图格医疗科技有限公司 一种基于漏斗卷积结构的图像序列分类方法
CN111967522B (zh) * 2020-08-19 2022-02-25 南京图格医疗科技有限公司 一种基于漏斗卷积结构的图像序列分类方法
CN112801068A (zh) * 2021-04-14 2021-05-14 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN114782878A (zh) * 2022-05-26 2022-07-22 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法
CN114782878B (zh) * 2022-05-26 2024-04-30 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法
CN116612122A (zh) * 2023-07-20 2023-08-18 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备
CN116612122B (zh) * 2023-07-20 2023-10-10 湖南快乐阳光互动娱乐传媒有限公司 图像显著性区域的检测方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN110705431B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN110705431B (zh) 基于深度c3d特征的视频显著性区域检测方法及系统
EP3540637B1 (en) Neural network model training method, device and storage medium for image processing
EP3510561B1 (en) Predicting depth from image data using a statistical model
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
CN108986136B (zh) 一种基于语义分割的双目场景流确定方法及系统
US11017586B2 (en) 3D motion effect from a 2D image
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
EP3951702A1 (en) Method for training image processing model, image processing method, network device, and storage medium
CN110956219B (zh) 视频数据的处理方法、装置和电子系统
CN113994366A (zh) 用于视频超分辨率的多阶段多参考自举
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN112750201B (zh) 三维重建方法及相关装置、设备
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN112040222B (zh) 一种视觉显著性预测方法及设备
CN107506792B (zh) 一种半监督的显著对象检测方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN115424209A (zh) 一种基于空间金字塔注意力网络的人群计数方法
CN113283356A (zh) 多级注意力尺度感知人群计数方法
CN115115522A (zh) 一种货架商品图像拼接方法及系统
CN110503002B (zh) 一种人脸检测方法和存储介质
CN110852334A (zh) 用于自适应像素滤波的系统和方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN111145195A (zh) 一种基于轻量级深度神经网络的视频中人像轮廓探测方法
CN112801021B (zh) 基于多级语义信息的车道线检测方法及系统
CN114339030A (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant