CN111372123B - 基于从局部到全局的视频时序片段提取方法 - Google Patents

基于从局部到全局的视频时序片段提取方法 Download PDF

Info

Publication number
CN111372123B
CN111372123B CN202010138291.6A CN202010138291A CN111372123B CN 111372123 B CN111372123 B CN 111372123B CN 202010138291 A CN202010138291 A CN 202010138291A CN 111372123 B CN111372123 B CN 111372123B
Authority
CN
China
Prior art keywords
representing
layer
feature vector
time sequence
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010138291.6A
Other languages
English (en)
Other versions
CN111372123A (zh
Inventor
朱轶昇
刘光灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010138291.6A priority Critical patent/CN111372123B/zh
Publication of CN111372123A publication Critical patent/CN111372123A/zh
Application granted granted Critical
Publication of CN111372123B publication Critical patent/CN111372123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于从局部到全局的视频时序片段提取方法,该方法包括:1)特征提取;2)编码;3)提名特征预测;4)评估;本发明方法使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。

Description

基于从局部到全局的视频时序片段提取方法
技术领域
本发明属于计算机科学人工智能领域,具体涉及一种基于从局部到全局的视频时序片段提取方法,用于从短视频中提取精彩行为时序片段。
背景技术
时序片段提名生成是视频分析的一个重要的组成部分,其目的是在未经剪辑的视频中精确的定位行为动作发生的时间片段,生成的时序片段的好坏对下一步基于提名的动作检测有很大影响。如何生成具有精确时序边界的片段是时序片段提名生成的一个关键问题。
时序片段提名生成方法大致分为以下三种:第一种是基于滑动窗口的方法,具体来说,首先预定义大量不同尺度的候选框,然后根据候选框中是否有行为发生来给候选框打分并根据得分排序。但这种方法存在的缺陷是候选框全都是预先设定好的尺度,框中可能包含大量冗余的噪声,导致时序边界不够精确。第二种是基于行为得分的方法,具体来说,这类方法首先给每一个时间点上的视频打一个行为性得分(即是否有行为发生),然后用设定阈值的方法将得分大于阈值的聚合起来,形成提名片段。但这种方法的不足是提名片段的质量严重依赖于聚合的策略。第三种是基于边界点检测的方法,具体来说,这种方法首先预测时间点上每一帧视频的行为性概率,开始概率以及结束概率,然后用概率大的开始点,结束点来构成提名片段。但这种方法的不足是仅关注局部而缺少了全局的时序信息。
发明内容
为了解决现有方法中没有充分利用全局信息,仅仅关注局部信息来进行建模的不足以及行为片段包含大量冗余背景的不足,本发明提出一种基于从局部到全局的视频时序片段提取方法,其技术方案如下:
一种基于从局部到全局的视频时序片段提取方法,包括如下具体步骤:
1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:
首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序来分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成特征向量F’沿着时序维度堆叠形成特征向量F;
2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)使用时序卷积网络对特征向量F进行局部信息建模:
首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp
Fcomp=Femb1+Femb2
2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)使用注意力机制来引导模型的学习过程,使其更关注行为而非背景噪声,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H'tWhq+bq)+bs)
Figure GDA0003697010180000031
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s′t,该过程可按如下公式表示:
s′t=∑iαt,ist,i
3)提名特征预测:基于编码后的特征向量s′t,采用卷积网络的方法生成表示s′t每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;
4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。
优选地,步骤2.2)中所述biLSTM循环神经网络通过前向与后向的方法来使网络学习到整个时间点上从过去到未来的全局的特征向量,该过程可按如下公式表示:
Figure GDA0003697010180000041
其中,H′t表示前向与后向LSTM生成的特征向量特征向量的聚合;
Figure GDA0003697010180000042
表示前向LSTM生成的特征向量;
Figure GDA0003697010180000043
表示后向LSTM生成的特征向量。
优选地,步骤2.3)中所述注意力机制采用Attention注意力机制。
本发明相比于现有技术具有如下有益效果
本发明的基于从局部到全局的视频时序片段提取方法,使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。
附图说明
图1为本方法的流程图;
图2为双向循环神经网络的结构图;
图3为注意力机制结构图;
图4为在行为检测数据集THUMOS14上本发明方法的可视化结果图。
具体实施方式
下面结合具体实施例及对应附图对本发明作进一步说明。
实施例一:
本实施例采用本发明提出的基于从局部到全局的视频时序片段提取方法,本发明所采用的基于局部到全局的视频时序片段提取系统,包括特征提取模块、编码模块、提名特征预测模块和评估模块组成。
如图1所示,本发明方法包括如下具体步骤:
1)首先使用特征提取模块提取给定视频帧中时间点上每一个时间点的视觉语义时空特征。特征提取模块主要采用视频领域广泛使用的双流网络,即用两个分支来分别建模静态的表观信息与动态的运动信息,两个分支的输入分别为图片和光流。具体过程为:首先用TVL1法提取给定的视频帧的光流,再采用双流网络按视频帧的时序来分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成特征向量F’沿着时序维度堆叠形成特征向量F;
2)特征向量F经过编码模块生成更加关注全局信息以及行为运动本身的特征向量,即对提取的特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)首先使用时序卷积网络(TCN)来捕获局部细节,在本方法的实现中,时序卷积网络主要采用2次时序上的一维卷积,步长为1,卷积核大小为3,此处我们不做时序上的下采样因为时序信息对于行为运动的定位非常重要,过早地下采样容易丢失时序上行为运动的发生关系,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp
Fcomp=Femb1+Femb2
2.2)接下来使用双向循环神经网络来捕获全局信息,即使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,具体的结构图如图2所示,该神经网络主要采用2个循环神经网络(LSTM神经网络),通过前向与后向的方法来使我们的网络学习到整个时间点上从过去到未来,全局的特征描述,该过程可按如下公式表示:
Figure GDA0003697010180000051
其中,H′t表示前向与后向LSTM生成的特征向量的聚合;
Figure GDA0003697010180000052
表示前向LSTM生成的特征向量;
Figure GDA0003697010180000053
表示后向LSTM生成的特征向量。
其中,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)最后,为了使特征学习更加关注运动信息本身而不是冗余嘈杂的背景,使用注意力机制来引导模型的学习过程,本实施例注意力机制采用Attention注意力机制,该注意力模型的结构图如图3所示,图3表示注意力机制所做的非线性特征变换。在本方法的实现中主要采用非线性映射,使增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H′tWhq+bq)+bs)
Figure GDA0003697010180000061
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s′t,该特征向量s′t更关注行为本身,该过程可按如下公式表示:
s′t=∑iαt,ist,i
3)编码后的特征向量s′t经过提名特征预测模块生成预测的行为片段特征描述。具体来说,首先使用卷积网络分别生成时序上每个时间点包含行为的概率P(A)、行为开始的概率P(s)和行为结束的概率P(e)。然后通过设定阈值的方法筛选出概率大的时间点,组成提名片段,即候选时序片段,并在此基础上用插值的方法提取出提名特征。
4)候选时序片段的提名特征经过评估模块生成候选时序片段的置信度得分。具体来说,主要使用全连接神经网络以及Sigmoid激活函数,Sigmoid输出的得分越高,表示真实标签与预测的时序片段重叠的越好。然后使用目标检测中常用的非极大值抑制方法筛除冗余的片段,得到最终的时序片段组。
应用实施例一:
本应用实施例采用实施例一中的基于从局部到全局的视频时序片段提取方法,将其应用到时序片段生成领域著名的数据集THUMOS14和ActivityNet-1.3上验证其有效性。实验结果如表1,表2所示,THUMOS14上结果可视化如图4所示。
如下表1所示,结合评价指标AR@AN的含义可知,本方法在时序片段生成数据集THUMOS14上效果显著,尤其是AR@50,AR@100,AR@200,和最开始的方法,使用双流网络提取特征能取得最好的结果,分别从13.56,23.83,33.96提升到39.96,48,66,54.73,充分验证了本发明的方法能够在建模局部细节的同时更关注到全局信息,能够在面对冗余嘈杂背景的情境下自动关注行为运动本身。
表1时序片段提取在THUMOS14数据集上的结果表
Figure GDA0003697010180000081
如下表2所示,结合评价指标AR@AN和AUC的含义可知,本方法不仅在小数据集THUMOS14上效果显著,将其应用到大规模数据集ActivityNet-1.3上依然有不错的性能提升,与最近的方法相比,AR@AN从74.16提升到75.80,AUC从66.17提升到67.48。ActivityNet-1.3中的视频不仅长短不一,场景变换也十分复杂,对于精确定位行为片段十分具有挑战性,性能上的提升,充分验证了本方法在复杂场景下的有效性。
如图4所示,图4中Ground Truth表示视频中行为片段的真实发生以及结束持续时间,proposals表示本方法预测的行为片段的发生以及结束持续时间,从图4中可以发现,尽管行为发生的时间段有长有短,我们的预测和Ground Truth相比误差仍然在1s以内,充分验证了本发明方法的有效性,即生成的时序片段几乎能完全覆盖真实标签。
表2时序片段提取在ActivityNet-1.3数据集上的结果表
Figure GDA0003697010180000082
提供以上实施方式仅仅为了描述本发明的目的,而非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理做出的何种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (3)

1.一种基于从局部到全局的视频时序片段提取方法,其特征在于:包括如下具体步骤:
1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:
首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成的特征向量F’沿着时序维度堆叠形成特征向量F;
2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)使用时序卷积网络对特征向量F进行局部信息建模:
首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp
Fcomp=Femb1+Femb2
2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)使用注意力机制来引导模型的学习过程,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H′tWhq+bq)+bs)
Figure FDA0003697010170000021
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s′t,该过程可按如下公式表示:
s′t=∑iαt,ist,i
3)提名特征预测:基于编码后的特征向量s′t,采用卷积网络的方法生成表示s′t每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;
4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。
2.根据权利要求1所述的基于从局部到全局的视频时序片段提取方法,其特征在于:步骤2.2)中所述biLSTM循环神经网络通过前向与后向的方法来使网络学习到整个时间点上从过去到未来的全局的特征向量,该过程可按如下公式表示:
Figure FDA0003697010170000031
其中,
Figure FDA0003697010170000032
表示前向LSTM生成的特征向量;
Figure FDA0003697010170000033
表示后向LSTM生成的特征向量;H′t表示前向与后向LSTM生成的特征向量的聚合。
3.根据权利要求2所述的基于从局部到全局的视频时序片段提取方法,其特征在于:步骤2.3)中所述注意力机制采用Attention注意力机制。
CN202010138291.6A 2020-03-03 2020-03-03 基于从局部到全局的视频时序片段提取方法 Active CN111372123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138291.6A CN111372123B (zh) 2020-03-03 2020-03-03 基于从局部到全局的视频时序片段提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138291.6A CN111372123B (zh) 2020-03-03 2020-03-03 基于从局部到全局的视频时序片段提取方法

Publications (2)

Publication Number Publication Date
CN111372123A CN111372123A (zh) 2020-07-03
CN111372123B true CN111372123B (zh) 2022-08-09

Family

ID=71210291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138291.6A Active CN111372123B (zh) 2020-03-03 2020-03-03 基于从局部到全局的视频时序片段提取方法

Country Status (1)

Country Link
CN (1) CN111372123B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466298B (zh) * 2020-11-24 2023-08-11 杭州网易智企科技有限公司 语音检测方法、装置、电子设备和存储介质
CN112364852B (zh) * 2021-01-13 2021-04-20 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112906586B (zh) * 2021-02-26 2024-05-24 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品
CN113255570B (zh) * 2021-06-15 2021-09-24 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN115797818A (zh) * 2021-09-08 2023-03-14 香港大学 视频时序动作提名生成方法及系统
CN114627556B (zh) * 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质
CN115225911B (zh) * 2022-08-19 2022-12-06 腾讯科技(深圳)有限公司 一种码率自适应方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Beyond short snippets: Deep networks for video classification》;Joe Yue-Hei Ng,M.Hausknecht,S.Vijayanarasimhan,O.Vinyals,et al;《2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20151231;4694-4702 *
《结合注意力机制的Bi-LSTM维吾尔语事件时序关系识别》;田生伟,胡伟,禹龙,吐尔根·依布拉音,赵建国,李圃3;《东南大学学报(自然科学版)》;20181231;第48卷(第3期);17-23 *

Also Published As

Publication number Publication date
CN111372123A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111372123B (zh) 基于从局部到全局的视频时序片段提取方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN109919204B (zh) 一种面向噪声图像的深度学习聚类方法
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
US11526698B2 (en) Unified referring video object segmentation network
JP2023549579A (ja) ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
CN109213896B (zh) 基于长短期记忆网络强化学习的水下视频摘要生成方法
Xiong et al. Contextual sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
CN116012930A (zh) 一种基于深度学习卷积神经网络的维度表情识别方法
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
Zhang et al. Research and application of facial expression recognition based on attention mechanism
CN113569758A (zh) 基于动作三元组引导的时序动作定位方法、系统、设备及介质
CN112766339A (zh) 一种轨迹识别模型训练方法及轨迹识别方法
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法
CN116704609A (zh) 基于时序注意力的在线手卫生评估方法及系统
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN115484456A (zh) 一种基于语义聚类的视频异常预测方法及装置
Jayanthi et al. Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM
CN117292307B (zh) 一种基于粗时间粒度的时序动作提名生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant