CN112418012B - 一种基于时空注意力模型的视频摘要生成方法 - Google Patents

一种基于时空注意力模型的视频摘要生成方法 Download PDF

Info

Publication number
CN112418012B
CN112418012B CN202011238229.0A CN202011238229A CN112418012B CN 112418012 B CN112418012 B CN 112418012B CN 202011238229 A CN202011238229 A CN 202011238229A CN 112418012 B CN112418012 B CN 112418012B
Authority
CN
China
Prior art keywords
video
frame
network
saliency
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011238229.0A
Other languages
English (en)
Other versions
CN112418012A (zh
Inventor
胡瑞敏
胡敏
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011238229.0A priority Critical patent/CN112418012B/zh
Publication of CN112418012A publication Critical patent/CN112418012A/zh
Application granted granted Critical
Publication of CN112418012B publication Critical patent/CN112418012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空注意力模型的视频摘要生成方法,该方法基于“随手拍”视频的两个特点:“空间显著物体的吸引力”和“时间语义信息相关”,提出将时间语义信息和空间视觉信息融合,并以联合概率的形式以确定是关键帧的概率。首先将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取显著域特征和语义特征;显著域特征用于确定图像画面中,能够引起观众注意的区域;语义特征用于匹配当前视频帧与前后连续多张视频帧信息的关联程度,确定时序上的关键信息;通过对空间和时间上视频帧重要性的评估,确定时空上均有重要信息的关键帧;将重要性得分高的关键帧组成视频摘要。

Description

一种基于时空注意力模型的视频摘要生成方法
技术领域
本发明属于视频摘要技术领域,尤其涉及一种针对用户的“随手拍”视频,基于时空注意力模型的视频摘要生成方法。
背景技术
视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容,该技术能够方便视频的预览、存储、检索和管理。自从YouTube、Instagram等自媒体平台快速发展以来,普通用户创建并上传了大量的视频数据。然而,传统的基于人工浏览视频,挑选出关键片段的模式需要耗费大量的人力和时间、效率低下,无法高效及时的处理海量视频。自动视频摘要技术能够自动分析原始视频中的内容,并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的检索,浏览,存储,传播视频信息,对信息的流通具有重要的意义。
现有的视频摘要方法主要解决特定类别的视频,如运动视频,监控视频,关注的是在背景不变,或者有额外辅助信息的条件下度量视频帧的关键程度。然而,“随手拍”视频,场景在短时间内频繁变化,大大增加了语义信息复杂度,同时干扰信息也更多。因此,传统的方法并不能很好的解决“随手拍”视频的摘要问题。
发明内容
针对现有技术存在的不足,本发明提供了一种基于时空注意力模型的视频摘要生成方法。该方法基于“随手拍”视频的两个特点:“空间显著物体的吸引力”和“语义信息的时序相关性”。提出将时间语义信息和空间视觉信息融合,并以联合概率的形式以确定是关键帧的概率。具体包括:将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取视频帧的显著域特征和语义特征;显著域特征用于确定图像画面中,能够引起观众注意的区域;语义特征用于匹配当前视频帧与前后连续多张视频帧之间信息的关联程度,确定时序上的关键信息;通过对空间和时间上视频帧重要性的评估,确定时空上均有重要信息的关键帧。将多个重要性得分较高的关键帧组成视频摘要。
本发明系统框架图见图1。在两大视频摘要数据集上的测试结果证明概率模型的有效性,同时利用时空约束,能大大提升视频摘要生成效果,见附图2。其具体实现包括以下步骤:
步骤一:
1.几个定义
①视频摘要:在给定的一段长视频序列
Figure BDA0002767508500000021
中,提取出重要的视频帧序列组成一段短视频。其中
Figure BDA0002767508500000022
w,h,c是视频帧的长,宽,图像通道数;t为视频帧的索引,T为视频帧的总数。
Figure BDA0002767508500000023
yt∈[0,1]表示第t帧是否被选为关键帧,“1”表示为是,“0”表示否,生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1}。
②视频帧视觉显著性特征的获取方法:视觉信息zt,zt∈Rw*h采用双流深度网络提取,如图4所示。
静态显著网络和动态显著网络的网络结构相似,详细网络结构如图5所示。该网络采用多层卷积网络处理输入图像,得到多维度的特征表达,随后,叠加一个反向卷积网络上采样卷积网络输出的特征图。最后,通过一个核为1*1的卷积和sigmoid激活函数,输出与原始图像大小一致的特征图,来预测显著图谱。
静态显著网络提取静态显著性特征的过程如图6所示。静态显著网络的输入是单帧图像数据xt,每一层的卷积网络的输入输出为一组数组,称为特征图,大小为w,h,c,分别表示图层的长,宽和通道数。每层卷积的计算为fs(x;W,b)=W*sx+b,*s表示步长为s的卷积操作;W,b表示卷积核的权重和偏置。卷积网络输出的是粗粒度,低分辨率的特征图,因此在卷积网络后叠加多层反卷积网络,上采样处理特征图,输出像素级的显著性预测结果I=DS(FS(x;ΘF);ΘD)。x表示输入图像;FS(·)表示卷积层输出的特征图;DS(·)表示反卷积层上采样的输出结果;ΘFD分别表示卷积层与反卷积层的参数;I为整个静态显著网络的输出。
动态显著网络提取运动显著性视觉特征的过程如图7所示。动态显著网络的输入为相邻两帧图像xt,xt+1和静态显著图It。因此,动态显著网络的输入是h×w×7的张量,相应的动态显著网络的第一层的卷积层改为
Figure BDA0002767508500000031
其他计算与静态显著网络相同。动态显著网络能够确保动态网络捕捉动态显著性的同时也考虑了静态显著性,最后输出一组数组,表示视觉显著性特征zt
③视频帧语义特征的获取方法:语义特征vt,vt∈R1024采用了一个深度为22层的深度卷积神经网络GoogleNet。GoogleNet的核心组件为Inception Architecture,如图8,它能够在保证深层数的情况下,不发生梯度消失的问题。我们使用千万级的ImageNet图像数据库预训练GoogleNet,使得GoogleNet学习分类1000项语义数据。其次,使用训练好的GoogleNet检测视频图像中的语义特征,并输出GoogleNet的倒数第二层的数据即为语义向量,该向量维度为1024维。
③关键帧的确定:本发明使用概率理论来表示视频帧的空间重要性和时间重要性。当时间重要性和空间重要性都具有较高分数值时,视频帧被选择为关键帧的概率更高。
步骤二:
基于时空注意力模型的重要性分数预测模型
1.给定视频帧图像的视觉显著特征表达和语义特征表达分别为
Figure BDA0002767508500000032
Figure BDA0002767508500000033
2.空间注意力模型:如果图像的显著域面积大于预设的阈值
Figure BDA0002767508500000036
则该图像的显著域为有效显著域,是能够吸引观众的注意力,则该图像的空间注意力分数记作lt,此处引入显著域直方图中的离散函数bins(·)计算概率。
步骤二-2中空间注意力分数计算为
Figure BDA0002767508500000034
Figure BDA0002767508500000035
时该视频帧中含有效显著域,并且有效显著域面积越大,当前帧的空间重要程度越高。
3.时间注意力模型:基于经典的注意力模型,则当前帧与其前后帧的语义关联为条件概率事件,其时间注意力分数可描述为mt=p(pt|p1,p2,...,pt-1,V)。
步骤二-3中时间注意力分数计算为mt=p{pt|p1,p2,...,pt-1,V}=G(pt-1,st,ct),其中,时间注意力分数mt计算可看作记作条件概率事件p(pt|p1,p2,...,pt-1,V),即已知t时刻前每帧的时间重要性值p1,...,pt-1和语义向量集合V,求当前t时刻的时间注意力概率pt
Figure BDA0002767508500000041
表示视频帧语义特征的集合,G(·)表示经典的注意模型解码器的计算,st是解码器(长短时记忆网络)隐含层向量,ct为注意模型的编码器的输出向量。
4.联合概率模型:基于时间和空间的重要性预测能够显著的提升关键帧检测的精度,联合概率模型用P(lt,mt)表示。
步骤二-4中的联合概率模型为βt=P(lt,mt)=Wl·lt+Wm·mt,其中,βt为空间注意力分数lt和时间注意力分数mt的联合概率值,Wl和Wm分别表示权重,P(lt,mt)为联合概率模型,同时考虑了时间重要性和空间重要性。
步骤三:
关键帧序列的选择,将时间注意力分数mt视为时序上每帧重要的概率;空间注意力分数lt视为空间上每帧重要的概率。“每帧是否被选为关键帧”这一事件服从伯努力分布Bernounil(·),即yt~Bernounil(βt),yt为0或1,0表示非关键帧,1表示关键帧。
本发明方法发现两个现象:“空间显著物体的吸引力”和“时间语义信息相关”。“空间显著物体的吸引力”指视频图像中出现的面积大且发生持续运动的物体会引起观众的更多关注。“时间语义相关”指视频帧与上下文语境具有相关性,对情节连贯性起作用,也具有关键性的特征。
本发明解决的是用户“随手拍”视频下的视频摘要问题,充分利用视频帧的空域重要性与时域重要性。另外,本发明提出一种全新的基于时空注意力模型的视频摘要框架,在该模型下,视频帧的重要性分数以概率的方式计算,且同时利用图像的视觉特征信息、语义信息以及时空重要性分数的关联来选择关键帧。
与现有视频摘要技术与系统相比,本发明具有以下优点和有益效果:
1)与现有技术相比,本发明解决了一个新问题,即用户“随手拍”视频下的视频摘要问题。
2)与现有技术相比,本发明提出了一个全新的基于时空注意力模型的视频摘要框架。
3)与现有技术相比,本发明利用视频帧的视觉信息和语义信息,计算视频帧的时间重要性和空间重要性,及其相关性来展开随手拍视频下的视频摘要工作。
附图说明
图1:为本发明方法的整体框架图;
图2:为本发明中时空约束的有效性证明示意图;
图3:为本发明方法的流程图;
图4:为本发明的视觉显著性信息提取模型的整体结构图;
图5:为本发明的视觉显著性信息提取模型的核心组件图;
图6:为本发明的视觉显著性信息提取模型的静态显著网络结构图;
图7:为本发明的视觉显著性信息提取模型的动态显著网络结构图;
图8:为本发明的语义信息提取模型的核心组件图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种针对手持设备拍摄的视频,自动生成视频摘要的技术,属于视频摘要技术领域。该方法基于手持设备拍摄视频的两个现象:“空间显著物体的吸引力”和“语义信息的时序相关性”。提出将时间语义信息和空间视觉显著性信息融合,并以联合概率的形式来辅助视觉特征以确定是关键帧的概率。首先,将视频文件按照帧的时间顺序依次使用深度识别网络分别提取语义特征序列和显著域特征序列。第二,根据每帧视频帧的显著域特征构建显著特征直方图,确定每帧的空间重要分数。第三,基于注意力机制模型,根据语义特征匹配当前视频帧,与连续前后20张视频帧信息的关联程度,计算得到时间域上的帧的关键性分值。最后,通过对空间和时间上重要性分数,确定时空上均重要信息的关键帧,将多个关键帧组成视频摘要。
流程图请见图3、本实施例采用vs2013作为仿真实验平台,在公共的数据集SumMe和TVSum上进行测试。SumMe数据集包含25个由普通用户拍摄的原始视频,每段视频时长在1-10min不等。TVSum数据集含有50段时长在1-10min的长视频,包含了纪录片,采访等形式的视频。以下针对上述实例对本发明做进一步的阐述,本发明的流程包括:
步骤一:
2.几个定义
①视频摘要:在给定的一段长视频序列中,提取出重要的视频帧序列组成一段短视频。其中
Figure BDA0002767508500000061
w,h,c是视频的尺寸,t为视频帧序号,
Figure BDA0002767508500000062
yt∈[0,1]表示tth帧是否被选为关键帧,“1”表示为真“0”为假,生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1}
②视频帧视觉显著性特征的获取方法:视觉信息zt,zt∈Rw*h采用双流深度网络提取,如图4所示。
静态显著网络和动态显著网络的网络结构相似,详细网络结构如图5所示。该网络采用多层卷积网络处理输入图像,得到多维度的特征表达,随后,叠加一个反向卷积网络上采样卷积网络输出的特征图。最后,通过一个核为1*1的卷积和sigmoid激活函数,输出与原始图像大小一致的特征图,来预测显著图谱。
静态显著网络提取静态显著性特征的过程如图6所示。静态显著网络的输入是单帧图像数据xt,每一层的卷积网络的输入输出为一组数组,称为特征图,大小为w,h,c,分别表示图层的长,宽和通道数;每层卷积的计算为fs(x;W,b)=W*sx+b,*s表示步长为s的卷积操作;W,b表示卷积核的权重和偏置。卷积网络输出的是粗粒度,低分辨率的特征图,因此在卷积网络后叠加多层反卷积网络,上采样处理特征图,输出像素级的显著性预测结果I=DS(FS(x;ΘF);ΘD)。x表示输入图像;FS(·)表示卷积层输出的特征图;DS(·)表示反卷积层上采样的输出结果;ΘFD分别表示卷积层与反卷积层的参数;I为整个静态显著网络的输出。
动态显著网络提取运动显著性视觉特征的过程如图7所示。动态显著网络的输入为相邻两帧图像xt,xt+1和静态显著图It。因此,动态显著网络的输入是h×w×7的张量,相应的动态显著网络的第一层的卷积层改为
Figure BDA0002767508500000071
其他计算与静态显著网络相同。动态显著网络能够确保动态网络捕捉动态显著性的同时也考虑了静态显著性,最后输出一组数组,表示视觉显著性特征zt
③视频帧语义特征的获取方法:语义特征vt,vt∈R1024采用了一个深度为22层的深度卷积神经网络GoogleNet。GoogleNet的核心组件为Inception Architecture,如图8,它能够在保证深层数的情况下,不发生梯度消失的问题。我们使用千万级的ImageNet图像数据库预训练GoogleNet,使得GoogleNet学习分类1000项的语义数据。其次,使用训练好的GoogleNet检测视频图像中的语义特征,并输出GoogleNet的倒数第二层的数据即为语义向量,该向量维度为1024维。
③关键帧的确定:本发明使用概率理论来表示视频帧的空间重要性和时间重要性。当时间重要性和空间重要性都具有较高值时,视频帧被选择的概率更高。此外,为了进一步增强关键帧的重要性,我们将经典的注意力模块的基础上堆叠了解码器端的注意力模型,以便进一步滤除无用帧,优化关键帧的选择。
步骤二:
基于时空注意力的重要性分数预测模型
1.给定视频帧图像的视觉特征表达和语义特征表达分别为
Figure BDA0002767508500000072
2.空间注意力模型:如果图像的显著域大小大于预设的阈值
Figure BDA0002767508500000074
则该图像的显著域为有效显著域,能够吸引观众的注意力,则该图像的空间重要性分数为
Figure BDA0002767508500000073
此处引入显著域直方图中的离散函数bins(·)计算概率。
3.时间注意力模型:基于经典的注意力模型,则当前视频帧与其前后向视频帧的语义关联是条件概率事件,记作p(pt|p1,p2,...,pt-1,V),该事件的概率值计算可描述为mt=p(pt|p1,p2,...,pt-1,V)=G(pt-1,st,ct)
4.联合概率模型:基于时间和空间的重要性预测能够显著的提升关键帧检测的精度,联合概率用P(lt,mt)=Wl·lt+Wm·mt表示
步骤三:
关键帧序列的选择
1.选择关键帧函数:联合时间和空间注意力模型预测的重要性分数,确定时空均重要的关键帧yt=Bernounil(P(lt,mt))。
视频摘要效果评价
F-score评价指标:为了和其他的方法公平比较,我们采用目前最为通用的测评标准F-score作为我们方法的测试指标。A表示自动生成摘要的长度,B表示真值摘要长度。P为精确度,R为召回率。
Figure BDA0002767508500000081
F-score计算自动生成摘要与真值摘要间的相似度:
Figure BDA0002767508500000082
本方法与其他前沿方法在TVSum和SumMe上的F-SCORE结果见表1。从表1中可以发现,本发明的视频摘要方法性能由明显的提高,也证明引入时空概率模型对视频效果有很大提升。
表1与其他前沿方法比较
Figure BDA0002767508500000083
Figure BDA0002767508500000091
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种基于时空注意力模型的视频摘要生成方法,其特征在于:首先给出如下定义,
①视频摘要:在给定的一段长视频序列
Figure FDA0002767508490000011
中,提取出重要的视频帧序列组成一段短视频,其中
Figure FDA0002767508490000012
w,h,c是视频帧的长,宽,通道数,t为视频帧序号,T为视频帧的总数,
Figure FDA0002767508490000013
yt∈[0,1]表示tth帧是否被选为关键帧,“1”表示为真“0”为假,生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1};
②视频帧描述信息:由视觉显著特征zt、语义特征vt两种信息进行描述;
具体实现包括如下步骤;
步骤1,获取给定视频帧图像的视觉显著特征和语义特征表达分别为
Figure FDA0002767508490000014
Figure FDA0002767508490000015
步骤2,构建空间注意力模型:如果图像的显著域大小大于预设的阈值
Figure FDA0002767508490000016
则该图像的显著域为有效显著域,能够吸引观众的注意力,则该图像的空间注意力分数记作
Figure FDA0002767508490000017
bins(·)表示显著域直方图中的离散函数,bins(·)计算概率,当
Figure FDA0002767508490000018
时该视频帧中含有效显著域,并且有效显著域面积越大,当前帧的空间重要程度越高;
步骤3,构建时间注意力模型:基于经典的注意力模型,当前视频帧与其前后向视频帧的语义关联使用条件概率计算,其时间注意力分数描述为mt=p(pt|p1,p2,...,pt-1,V)=G(pt-1,st,ct),其中,时间注意力分数mt计算可看作记作条件概率事件p(pt|p1,p2,...,pt-1,V),即已知t时刻前每帧的时间重要性值p1,...,pt-1和语义向量集合V,求当前t时刻的时间注意力概率pt
Figure FDA0002767508490000019
表示视频帧语义特征的集合,G(·)表示经典的注意模型解码器的计算,st是解码器隐含层向量,ct为注意模型的编码器的输出向量;
步骤4,构建联合概率模型:联合概率模型为βt=P(lt,mt)=Wl·lt+Wm·mt,其中,βt为空间注意力分数lt和时间注意力分数mt的联合概率值,P(lt,mt)为联合概率函数;
步骤5,通过联合概率模型确定时空均重要的关键帧。
2.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法,其特征在于:步骤5中关键帧的选择服从伯努力分布Bernounil(·),即通过yt~Bernounil(βt)确定关键帧,输出0或1,其中0表示非关键帧,1表示关键帧。
3.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法,其特征在于:采用双流深度网络提取视觉显著特征zt,包括静态显著网络和动态显著网络,网络结构均采用多层卷积层处理输入图像,得到多维度的特征表达,随后,叠加多个反向卷积上采样卷积层输出的特征图,最后,通过一个核为1*1的卷积和sigmoid激活函数,输出与原始图像大小一致的特征图,来预测显著图谱;
其中,静态显著网络的输入是单帧图像数据xt,每一层的卷积的输入输出为一组数组,称为特征图,大小为w,h,c,分别表示图层的长,宽和通道数;每层卷积的计算为fs(x;W,b)=W*sx+b,其中x表示输入,*s表示步长为s的卷积操作;W,b表示卷积核的权重和偏置,卷积输出的是粗粒度,低分辨率的特征图,因此在卷积操作后叠加多层反卷积,上采样处理特征图,输出像素级的显著性预测结果I=DS(FS(x;ΘF);ΘD),x表示输入图像;FS(·)表示卷积层输出的特征图;DS(·)表示反卷积层上采样的输出结果;ΘFD分别表示卷积层与反卷积层的参数;I为整个静态显著网络的输出;
动态显著网络的输入为相邻两帧图像xt,xt+1和静态显著图It,其第一层的卷积层为
Figure FDA0002767508490000021
Figure FDA0002767508490000022
表示图像xt,xt+1和静态显著图It对应的权重,b表示偏置;其他卷积层和反卷积层的计算与静态显著网络相同,动态显著网络能够确保动态网络捕捉动态显著性的同时也考虑了静态显著性,最后输出一组数组,表示视觉信息zt
4.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法,其特征在于:采用一个深度为22层的深度卷积神经网络GoogleNet提取语义特征。
CN202011238229.0A 2020-11-09 2020-11-09 一种基于时空注意力模型的视频摘要生成方法 Active CN112418012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011238229.0A CN112418012B (zh) 2020-11-09 2020-11-09 一种基于时空注意力模型的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011238229.0A CN112418012B (zh) 2020-11-09 2020-11-09 一种基于时空注意力模型的视频摘要生成方法

Publications (2)

Publication Number Publication Date
CN112418012A CN112418012A (zh) 2021-02-26
CN112418012B true CN112418012B (zh) 2022-06-07

Family

ID=74780745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011238229.0A Active CN112418012B (zh) 2020-11-09 2020-11-09 一种基于时空注意力模型的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN112418012B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037936A (zh) * 2021-03-04 2022-09-09 华为技术有限公司 视频编解码方法及装置
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN113111218A (zh) * 2021-03-23 2021-07-13 华中师范大学 一种基于视觉显著度调制的双向lstm模型的无监督视频摘要方法
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113673311A (zh) * 2021-07-05 2021-11-19 浙江大华技术股份有限公司 一种交通异常事件检测方法、设备及计算机存储介质
CN113923504B (zh) * 2021-12-02 2022-03-08 阿里巴巴达摩院(杭州)科技有限公司 视频预览动图生成方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824284A (zh) * 2014-01-26 2014-05-28 中山大学 一种基于视觉注意力模型的关键帧提取方法和系统
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015196281A1 (en) * 2014-06-24 2015-12-30 Sportlogiq Inc. System and method for visual event description and event analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824284A (zh) * 2014-01-26 2014-05-28 中山大学 一种基于视觉注意力模型的关键帧提取方法和系统
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄庆明等.基于用户关注空间与注意力分析的视频精彩摘要与排序.《计算机学报》.2008,(第09期), *

Also Published As

Publication number Publication date
CN112418012A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112418012B (zh) 一种基于时空注意力模型的视频摘要生成方法
CN104508682B (zh) 使用群组稀疏性分析来识别关键帧
US9665775B2 (en) Identifying scene boundaries using group sparsity analysis
US9076043B2 (en) Video summarization using group sparsity analysis
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
Jiang et al. Context-based concept fusion with boosted conditional random fields
US20120148149A1 (en) Video key frame extraction using sparse representation
US20120099793A1 (en) Video summarization using sparse basis function combination
US20040233987A1 (en) Method for segmenting 3D objects from compressed videos
Li et al. Multi-keyframe abstraction from videos
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
CN113553471A (zh) 一种基于空间注意力约束的lstm模型的视频摘要生成方法
Zhang et al. Pixso: a system for video shot detection
Ghani et al. Key frames extraction using spline curve fitting for online video summarization
Khan et al. Semantic analysis of news based on the deep convolution neural network
CN113569767A (zh) 基于视觉和语义特征协作与强化学习的视频摘要方法
Hari et al. Human face based approach for video summarization
Bendraou Video shot boundary detection and key-frame extraction using mathematical models
Rahman et al. Creation of video summary with the extracted salient frames using color moment, color histogram and speeded up robust features
Shih et al. Detection of the highlights in baseball video program
Dimou et al. A user-centric approach for event-driven summarization of surveillance videos
CN113111218A (zh) 一种基于视觉显著度调制的双向lstm模型的无监督视频摘要方法
Premaratne et al. A Novel Hybrid Adaptive Filter to Improve Video Keyframe Clustering to Support Event Resolution in Cricket Videos
Besiris et al. Video summarization by a graph-theoretic fcm based algorithm
Chen et al. Integration of color and motion features for video retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant