CN111372123A - 基于从局部到全局的视频时序片段提取方法 - Google Patents
基于从局部到全局的视频时序片段提取方法 Download PDFInfo
- Publication number
- CN111372123A CN111372123A CN202010138291.6A CN202010138291A CN111372123A CN 111372123 A CN111372123 A CN 111372123A CN 202010138291 A CN202010138291 A CN 202010138291A CN 111372123 A CN111372123 A CN 111372123A
- Authority
- CN
- China
- Prior art keywords
- representing
- feature vector
- time sequence
- layer
- emb1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000006399 behavior Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- RXKJFZQQPQGTFL-UHFFFAOYSA-N dihydroxyacetone Chemical compound OCC(=O)CO RXKJFZQQPQGTFL-UHFFFAOYSA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000003813 thumb Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于从局部到全局的视频时序片段提取方法,该方法包括:1)特征提取;2)编码;3)提名特征预测;4)评估;本发明方法使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。
Description
技术领域:
本发明属于计算机科学人工智能领域,具体涉及一种基于从局部到全局的视频时序片段提取方法,用于从短视频中提取精彩行为时序片段。
背景技术:
时序片段提名生成是视频分析的一个重要的组成部分,其目的是在未经剪辑的视频中精确的定位行为动作发生的时间片段,生成的时序片段的好坏对下一步基于提名的动作检测有很大影响。如何生成具有精确时序边界的片段是时序片段提名生成的一个关键问题。
时序片段提名生成方法大致分为以下三种:第一种是基于滑动窗口的方法,具体来说,首先预定义大量不同尺度的候选框,然后根据候选框中是否有行为发生来给候选框打分并根据得分排序。但这种方法存在的缺陷是候选框全都是预先设定好的尺度,框中可能包含大量冗余的噪声,导致时序边界不够精确。第二种是基于行为得分的方法,具体来说,这类方法首先给每一个时间点上的视频打一个行为性得分(即是否有行为发生),然后用设定阈值的方法将得分大于阈值的聚合起来,形成提名片段。但这种方法的不足是提名片段的质量严重依赖于聚合的策略。第三种是基于边界点检测的方法,具体来说,这种方法首先预测时间点上每一帧视频的行为性概率,开始概率以及结束概率,然后用概率大的开始点,结束点来构成提名片段。但这种方法的不足是仅关注局部而缺少了全局的时序信息。
发明内容:
为了解决现有方法中没有充分利用全局信息,仅仅关注局部信息来进行建模的不足以及行为片段包含大量冗余背景的不足,本发明提出一种基于从局部到全局的视频时序片段提取方法,其技术方案如下:
一种基于从局部到全局的视频时序片段提取方法,包括如下具体步骤:
1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:
首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序来分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成特征向量F’沿着时序维度堆叠形成特征向量F;
2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)使用时序卷积网络对特征向量F进行局部信息建模:
首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:
Fcomp=Femb1+Femb2;
2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)使用注意力机制来引导模型的学习过程,使其更关注行为而非背景噪声,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H'tWhq+bq)+bs)
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s't,该过程可按如下公式表示:
s't=∑iαt,ist,i;
3)提名特征预测:基于编码后的特征向量s't,采用卷积网络的方法生成表示s't每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;
4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。
优选地,步骤2.2)中所述biLSTM循环神经网络通过前向与后向的方法来使网络学习到整个时间点上从过去到未来的全局的特征向量,该过程可按如下公式表示:
优选地,步骤2.3)中所述注意力机制采用Attn注意力机制。
本发明相比于现有技术具有如下有益效果
本发明的基于从局部到全局的视频时序片段提取方法,使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。
附图说明:
图1为本方法的流程图;
图2为双向循环神经网络的结构图;
图3为注意力机制结构图;
图4为在行为检测数据集THUMOS14上本发明方法的可视化结果图。
具体实施方式:
下面结合具体实施例及对应附图对本发明作进一步说明。
实施例一:
本实施例采用本发明提出的基于从局部到全局的视频时序片段提取方法,本发明所采用的基于局部到全局的视频时序片段提取系统,包括特征提取模块、编码模块、提名特征预测模块和评估模块组成。
如图1所示,本发明方法包括如下具体步骤:
1)首先使用特征提取模块提取给定视频帧中时间点上每一个时间点的视觉语义时空特征。特征提取模块主要采用视频领域广泛使用的双流网络,即用两个分支来分别建模静态的表观信息与动态的运动信息,两个分支的输入分别为图片和光流。具体过程为:首先用TVL1法提取给定的视频帧的光流,再采用双流网络按视频帧的时序来分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成特征向量F’沿着时序维度堆叠形成特征向量F;
2)特征向量F经过编码模块生成更加关注全局信息以及行为运动本身的特征向量,即对提取的特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)首先使用时序卷积网络(TCN)来捕获局部细节,在本方法的实现中,时序卷积网络主要采用2次时序上的一维卷积,步长为1,卷积核大小为3,此处我们不做时序上的下采样因为时序信息对于行为运动的定位非常重要,过早地下采样容易丢失时序上行为运动的发生关系,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:
Fcomp=Femb1+Femb2;
2.2)接下来使用双向循环神经网络来捕获全局信息,即使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,具体的结构图如图2所示,该神经网络主要采用2个循环神经网络(LSTM神经网络),通过前向与后向的方法来使我们的网络学习到整个时间点上从过去到未来,全局的特征描述,该过程可按如下公式表示:其中,H't表示前向与后向LSTM生成的特征向量的聚合;表示前向LSTM生成的特征向量;表示后向LSTM生成的特征向量。
其中,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)最后,为了使特征学习更加关注运动信息本身而不是冗余嘈杂的背景,使用注意力机制来引导模型的学习过程,本实施例注意力机制采用Attn注意力机制,该注意力模型的结构图如图3所示,图3表示注意力机制所做的非线性特征变换。在本方法的实现中主要采用非线性映射,使增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H'tWhq+bq)+bs)
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s't,该特征向量s't更关注行为本身,该过程可按如下公式表示:
s't=∑iαt,ist,i;
3)编码后的特征向量s't经过提名特征预测模块生成预测的行为片段特征描述。具体来说,首先使用卷积网络分别生成时序上每个时间点包含行为的概率P(A)、行为开始的概率P(s)和行为结束的概率P(e)。然后通过设定阈值的方法筛选出概率大的时间点,组成提名片段,即候选时序片段,并在此基础上用插值的方法提取出提名特征。
4)候选时序片段的提名特征经过评估模块生成候选时序片段的置信度得分。具体来说,主要使用全连接神经网络以及Sigmoid激活函数,Sigmoid输出的得分越高,表示真实标签与预测的时序片段重叠的越好。然后使用目标检测中常用的非极大值抑制方法筛除冗余的片段,得到最终的时序片段组。
应用实施例一:
本应用实施例采用实施例一中的基于从局部到全局的视频时序片段提取方法,将其应用到时序片段生成领域著名的数据集THUMOS14和ActivityNet-1.3上验证其有效性。实验结果如表1,表2所示,THUMOS14上结果可视化如图4所示。
如下表1所示,结合评价指标AR@AN的含义可知,本方法在时序片段生成数据集THUMOS14上效果显著,尤其是AR@50,AR@100,AR@200,和最开始的方法,使用双流网络提取特征能取得最好的结果,分别从13.56,23.83,33.96提升到39.96,48,66,54.73,充分验证了本发明的方法能够在建模局部细节的同时更关注到全局信息,能够在面对冗余嘈杂背景的情境下自动关注行为运动本身。
表1时序片段提取在THUMOS14数据集上的结果表
如下表2所示,结合评价指标AR@AN和AUC的含义可知,本方法不仅在小数据集THUMOS14上效果显著,将其应用到大规模数据集ActivityNet-1.3上依然有不错的性能提升,与最近的方法相比,AR@AN从74.16提升到75.80,AUC从66.17提升到67.48。ActivityNet-1.3中的视频不仅长短不一,场景变换也十分复杂,对于精确定位行为片段十分具有挑战性,性能上的提升,充分验证了本方法在复杂场景下的有效性。
如图4所示,图4中Ground Truth表示视频中行为片段的真实发生以及结束持续时间,proposals表示本方法预测的行为片段的发生以及结束持续时间,从图4中可以发现,尽管行为发生的时间段有长有短,我们的预测和Ground Truth相比误差仍然在1s以内,充分验证了本发明方法的有效性,即生成的时序片段几乎能完全覆盖真实标签。
表2时序片段提取在ActivityNet-1.3数据集上的结果表
提供以上实施方式仅仅为了描述本发明的目的,而非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理做出的何种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (3)
1.一种基于从局部到全局的视频时序片段提取方法,其特征在于:包括如下具体步骤:
1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:
首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成的特征向量F’沿着时序维度堆叠形成特征向量F;
2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)使用时序卷积网络对特征向量F进行局部信息建模:
首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:
Fcomp=Femb1+Femb2;
2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;
2.3)使用注意力机制来引导模型的学习过程,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:
st=tanh(Wqs(H'tWhq+bq)+bs)
式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;
再通过给每个时间点分配权重来形成编码后的特征向量s′t,该过程可按如下公式表示:
s′t=∑iαt,ist,i;
3)提名特征预测:基于编码后的特征向量s′t,采用卷积网络的方法生成表示s′t每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;
4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。
3.根据权利要去2所述的基于从局部到全局的视频时序片段提取方法,其特征在于:步骤2.3)中所述注意力机制采用Attn注意力机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138291.6A CN111372123B (zh) | 2020-03-03 | 2020-03-03 | 基于从局部到全局的视频时序片段提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138291.6A CN111372123B (zh) | 2020-03-03 | 2020-03-03 | 基于从局部到全局的视频时序片段提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111372123A true CN111372123A (zh) | 2020-07-03 |
CN111372123B CN111372123B (zh) | 2022-08-09 |
Family
ID=71210291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010138291.6A Active CN111372123B (zh) | 2020-03-03 | 2020-03-03 | 基于从局部到全局的视频时序片段提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111372123B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364852A (zh) * | 2021-01-13 | 2021-02-12 | 成都考拉悠然科技有限公司 | 融合全局信息的动作视频段提取方法 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112906586A (zh) * | 2021-02-26 | 2021-06-04 | 上海商汤科技开发有限公司 | 时序动作提名生成方法和相关产品 |
CN113255570A (zh) * | 2021-06-15 | 2021-08-13 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN114627556A (zh) * | 2022-03-15 | 2022-06-14 | 北京百度网讯科技有限公司 | 动作检测方法、动作检测装置、电子设备以及存储介质 |
CN115225911A (zh) * | 2022-08-19 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种码率自适应方法、装置、计算机设备和存储介质 |
WO2023035904A1 (zh) * | 2021-09-08 | 2023-03-16 | 港大科桥有限公司 | 视频时序动作提名生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109784280A (zh) * | 2019-01-18 | 2019-05-21 | 江南大学 | 基于Bi-LSTM-Attention模型的人体行为识别方法 |
CN109993077A (zh) * | 2019-03-18 | 2019-07-09 | 南京信息工程大学 | 一种基于双流网络的行为识别方法 |
-
2020
- 2020-03-03 CN CN202010138291.6A patent/CN111372123B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109784280A (zh) * | 2019-01-18 | 2019-05-21 | 江南大学 | 基于Bi-LSTM-Attention模型的人体行为识别方法 |
CN109993077A (zh) * | 2019-03-18 | 2019-07-09 | 南京信息工程大学 | 一种基于双流网络的行为识别方法 |
Non-Patent Citations (2)
Title |
---|
JOE YUE-HEI NG,M.HAUSKNECHT,S.VIJAYANARASIMHAN,O.VINYALS,ET AL: "《Beyond short snippets: Deep networks for video classification》", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
田生伟,胡伟,禹龙,吐尔根·依布拉音,赵建国,李圃3: "《结合注意力机制的Bi-LSTM维吾尔语事件时序关系识别》", 《东南大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112466298B (zh) * | 2020-11-24 | 2023-08-11 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112364852A (zh) * | 2021-01-13 | 2021-02-12 | 成都考拉悠然科技有限公司 | 融合全局信息的动作视频段提取方法 |
CN112906586A (zh) * | 2021-02-26 | 2021-06-04 | 上海商汤科技开发有限公司 | 时序动作提名生成方法和相关产品 |
CN112906586B (zh) * | 2021-02-26 | 2024-05-24 | 上海商汤科技开发有限公司 | 时序动作提名生成方法和相关产品 |
CN113255570A (zh) * | 2021-06-15 | 2021-08-13 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
WO2023035904A1 (zh) * | 2021-09-08 | 2023-03-16 | 港大科桥有限公司 | 视频时序动作提名生成方法及系统 |
CN114627556A (zh) * | 2022-03-15 | 2022-06-14 | 北京百度网讯科技有限公司 | 动作检测方法、动作检测装置、电子设备以及存储介质 |
CN114627556B (zh) * | 2022-03-15 | 2023-04-07 | 北京百度网讯科技有限公司 | 动作检测方法、动作检测装置、电子设备以及存储介质 |
CN115225911A (zh) * | 2022-08-19 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 一种码率自适应方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111372123B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111372123B (zh) | 基于从局部到全局的视频时序片段提取方法 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN109740419B (zh) | 一种基于Attention-LSTM网络的视频行为识别方法 | |
CN109919204B (zh) | 一种面向噪声图像的深度学习聚类方法 | |
JP2023549579A (ja) | ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ | |
US20230177384A1 (en) | Attention Bottlenecks for Multimodal Fusion | |
CN109213896B (zh) | 基于长短期记忆网络强化学习的水下视频摘要生成方法 | |
WO2022205416A1 (zh) | 一种基于生成式对抗网络的人脸表情生成方法 | |
CN106530330B (zh) | 基于低秩稀疏的视频目标跟踪方法 | |
CN113869170B (zh) | 一种基于图划分卷积神经网络的行人轨迹预测方法 | |
CN112766339A (zh) | 一种轨迹识别模型训练方法及轨迹识别方法 | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN109933682A (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
Wang et al. | Multi-channel attentive weighting of visual frames for multimodal video classification | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN117853486B (zh) | 一种数据缺失条件下隧道工作面岩体质量自动化评价方法 | |
CN115578574A (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN116703857A (zh) | 一种基于时空域感知的视频动作质量评价方法 | |
CN117292307B (zh) | 一种基于粗时间粒度的时序动作提名生成方法及系统 | |
CN115147890A (zh) | 用于创建将用于图像识别的图像数据嵌入的系统、方法和存储介质 | |
CN117454119A (zh) | 基于动态多图和多维注意力时空神经网络的城市轨道客流预测方法 | |
Xu et al. | Video Object Segmentation: Tasks, Datasets, and Methods | |
Jayanthi et al. | Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM: CONTINUOUS SIGN LANGUAGE GESTURE RECOGNITION AND PREDICTION | |
Sharma et al. | A generalized novel image forgery detection method using generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |