CN109711380B - 一种基于全局上下文信息的时序行为片段生成系统及方法 - Google Patents

一种基于全局上下文信息的时序行为片段生成系统及方法 Download PDF

Info

Publication number
CN109711380B
CN109711380B CN201910004792.2A CN201910004792A CN109711380B CN 109711380 B CN109711380 B CN 109711380B CN 201910004792 A CN201910004792 A CN 201910004792A CN 109711380 B CN109711380 B CN 109711380B
Authority
CN
China
Prior art keywords
behavior
time sequence
probability
video unit
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910004792.2A
Other languages
English (en)
Other versions
CN109711380A (zh
Inventor
宋井宽
李涛
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910004792.2A priority Critical patent/CN109711380B/zh
Publication of CN109711380A publication Critical patent/CN109711380A/zh
Application granted granted Critical
Publication of CN109711380B publication Critical patent/CN109711380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频分析技术领域,其公开了一种基于全局上下文信息的时序行为片段生成系统及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。该系统包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;通过时序行为片段生成网络中的双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。本发明适用于视频中的行为分析和定位。

Description

一种基于全局上下文信息的时序行为片段生成系统及方法
技术领域
本发明涉及视频分析技术领域,具体涉及一种基于全局上下文信息的时序行为片段生成系统及方法。
背景技术
时序行为片段生成是指给定一段未分割的长视频,算法需要检测视频中的行为片段,包括其开始时间和结束时间,从而达到准确定位长视频中行为发生的时间段和过滤掉不相关信息的效果。
现有的时序行为片段生成方法可以分为两类:
第一类是采用时序滑动窗口生成行为片段。
第二类是首先将视频分为视频单元(视频单元由数帧图片所组成)的集合,然后通过编码器得到每个视频单元包含行为的概率,最后将超过阈值的视频单元聚集起来作为候选时序行为片段。
其中,基于时序滑动窗口的方法虽然覆盖了整个视频,但是随之而来是计算量的巨幅增加和时序行为片段的冗余。
尽管基于行为概率的方法在一定程度上解决了上述问题,但是现有方法通常使用时序卷积和单向的LSTM来生成概率时序。这样的方法存在以下问题:1)时序卷积只能捕获有限的时序信息,而不能捕获到整段视频的全局信息;2)单向的LSTM在输出一个视频单元的作为行为的概率时,只对过往的信息进行了编码,并没有考虑到未来的信息。
另外,需要指出的是现有方法直接使用平均池化对行为片段的特征进行编码,这样并没有考虑到不同视频单元的重要性,会导致得出的时序行为片段不准确。
发明内容
本发明所要解决的技术问题是:提出一种基于全局上下文信息的时序行为片段生成系统及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。
本发明解决上述技术问题所采用的技术方案是:
基于全局上下文信息的时序行为片段生成系统,包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
作为进一步优化,所述时序行为片段生成网络包括残差卷积层模块和双向并行的LSTM模块;
所述残差卷积层模块,用于对视频单元的时空特征进行处理从而编码高层语义信息,获得残差特征;
所述双向并行的LSTM模块,用于对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征;
所述双向并行的LSTM模块后连接一个时序卷积层和S函数,用于对双向LSTM特征进行编码,计算视频单元作为行为开始、行为进行和行为结束的概率,利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段。
作为进一步优化,所述残差卷积层模块由两层时序卷积层组成,其中两层时序卷积层后均设置ReLU(线性整流函数)激活函数,时序卷积层的卷积核的大小为3;
其中,第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,再经过第二层ReLU激活函数获得残差卷积层模块输出的残差特征。
作为进一步优化,所述双向并行的LSTM模块包括前向LSTM模块和后向LSTM模块,所述前向LSTM模块对残差特征进行正向处理,所述后向LSTM模块对残差特征进行后向处理,前向处理和后向处理过程是并行同时进行的。
此外,本发明还提供了一种基于全局上下文信息的时序行为片段生成方法,其包括以下步骤:
a.数据预处理:
将给定的视频转换为图片,并且对图片的大小进行缩放处理,然后采用全变分光流算法提取光流特征;
b.视频单元编码:
将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
c.生成初始时序行为片段:
对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
d.基于行为进行概率对初始时序行为片段重新排序:
基于视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
作为进一步优化,步骤c中,所述利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,具体包括:
选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
(1)该视频单元的概率高于概率序列中最大值的0.5倍;
(2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率;
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的初始时序行为片段。
作为进一步优化,所述步骤d具体包括:
d1.对初始时序行为片段进行扩充,获得扩充后的时序行为片段;
d2.将扩充的时序行为片段分为三部分:时序行为开始部分、时序行为片段和时序行为结束部分;
d3.对于每一部分,提取双向并行的LSTM模块的输出作为它的特征;
d4.应用时序行为片段生成网络获取扩充的时序行为片段的三部分对应的概率序列;
d5.对概率序列进行数据标准化操作,获得时序行为片段的注意力特征;
d6.将时序行为片段对应的注意力特征输入到三个全连接层和S函数,获得此时序行为片段的置信度得分,根据各个时序行为片段的置信度得分进行排序。
作为进一步优化,步骤d中还包括:对时序行为片段集合进行非极大值抑制操作,过滤掉重叠率高的时序行为片段。
本发明的有益效果是:
1)通过双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。
2)基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。
附图说明
图1为视频单元编码网络和时序行为片段生成网络的原理示意图;
图2为基于行为进行概率的时序行为片段重新排序网络原理示意图;
图3为残差卷积层模块原理示意图;
图4为双向并行的LSTM模块原理示意图。
具体实施方式
本发明旨在提出一种基于全局上下文信息的时序行为片段生成系统及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。在本发明中,通过双向并行的LSTM模块解决了现有方法不能获取全局上下文信息以及只能编码过往信息的缺点;此外,还基于行为概率的时序行为片段重新排序网络对不同视频单元的行为重要性进行权衡,解决了现有方法没有考虑不同单元的行为重要性从而直接采取平均池化的缺陷。
本发明中的基于全局上下文信息的时序行为片段生成系统,包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
在具体实现上,对于给定的视频,首先我们需要将其转换为图片,并且将图片的大小缩放为宽度为340像素,高度为256像素。然后采用全变分光流算法(TVL1)提取光流特征。以上便完成了数据的预处理过程。将经过预处理后的视频数据依次经过本发明中的视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络的处理后,我们会得到若干时序行为片段集合,接下来,我们对此时序行为片段集合进行Soft-NMS(非极大值抑制)操作,过滤掉重叠率高的时序行为片段,从而保证使用尽可能少的时序行为片段覆盖视频中的行为发生区域,于是我们得到了最终结果。
下面对本发明中系统的各个部分进行具体介绍:
视频单元编码网络:给定一段视频
Figure BDA0001935013170000041
其中T表示视频中帧数的总和,vt表示视频中第t帧。首先将视频分为视频单元的集合,于是可以得到视频单元集合
Figure BDA0001935013170000042
其中视频单元集合的数目
Figure BDA0001935013170000043
nu表示一个视频单元含有的帧数的数量,ut表示视频中第t个视频单元。
对于每一个视频单元而言,它都会通过双流网络进行编码,从而提取视频单元的时空特征。我们将视频单元集合输入到双流网络可以得到视频的时空特征集合
Figure BDA0001935013170000051
其中df表示一个视频单元的时空特征的维度。
时序行为片段生成网络:给定一段视频的时空特征集合FU={fu,1,…,fu,N},时序行为片段生成网络的目标是通过对每一个视频单元的时空特征进行编码,从而可以预测这个视频单元作为行为开始,行为进行和行为结束的概率。
在本发明中,我们利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,利用视频单元作为行为进行的概率对初始时序行为片段排序。
我们的时序行为片段生成网络如图1所示,它包含有两个模块:残差卷积层模块和双向并行的LSTM模块。
残差卷积层模块:残差卷积层模块是ResNet的一种变体,如图3所示,它由两层时序卷积层组成,其中两层时序卷积层后都要经过ReLU(线性整流函数)激活函数,时序卷积层的卷积核的大小为3。通过残差卷积层模块,我们可以对视频时空特征进行处理从而编码高层语义信息。我们将视频的时空特征集合输入到残差卷积层,然后将第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,之后经过第二层ReLU激活函数得到了残差卷积网络的输出,记为残差特征FUR=RConv(FU)。
双向并行的LSTM模块:双向并行的LSTM模块由两个LSTM模块组成,分别是前向LSTM和后向LSTM,如图4所示。前向LSTM对残差特征进行正向处理(例如从左至右),后向LSTM对残差特征进行后向处理(例如从右至左),这两个处理过程是并行同时进行的。双向并行的LSTM对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征信息。具体来说,前向LSTM的计算过程如下所示:
Figure BDA0001935013170000052
Figure BDA0001935013170000053
Figure BDA0001935013170000054
Figure BDA0001935013170000055
Figure BDA0001935013170000057
Figure BDA0001935013170000056
其中t表示第t步计算过程,fur,t表示第t个视频单元的残差特征,σ表示S函数,φ表示正弦函数,it,ζt,ot,ct
Figure BDA0001935013170000061
分别表示输入门,遗忘门,输出门,记忆单元和第t步的隐藏状态。为了简化公式,我们定义前向LSTM的处理过程为
Figure BDA0001935013170000062
其中
Figure BDA0001935013170000063
是前向LSTM的输出。对于后向LSTM,我们将视频单元的残差特征反向输入其中,得到后向LSTM的输出
Figure BDA0001935013170000064
视频的残差特征集合在经过双向并行的LSTM模块后,每一个视频单元的特征被定义为前向LSTM和后向LSTM的隐藏状态的拼接。于是,我们得到新的视频单元集合的特征有
Figure BDA0001935013170000065
接下来,我们将此特征输入一层时序卷积层和S函数进行编码,从而得到了每一个视频单元作为行为开始,行为进行和行为结束的概率集合
Figure BDA0001935013170000066
其中
Figure BDA0001935013170000067
分别表示行为开始,行为进行和行为结束的概率。
初始时序行为片段的生成:通过计算出的视频单元作为行为开始和行为结束概率
Figure BDA0001935013170000068
我们生成初始时序行为片段。我们选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
1)该视频单元的概率高于概率序列中最大值的0.5倍。
2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率。
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的时序行为片段得到此网络最终结果。在此阶段,我们定义
Figure BDA0001935013170000069
为对应时序行为片段的置信度得分。
基于行为进行概率的时序行为片段重新排序网络:
时序行为片段重新排序网络的目标是为了降低不合适的时序行为片段的置信度得分,提高合适的行为时序片段的置信度得分。
如图2所示,考虑一个初始时序行为片段γ=[us,ue],其中us,ue分别表示此时序行为片段的开始视频单元和结束视频单元,我们首先对时序行为片段进行扩充,用于捕获丰富的上下文信息,从而得到扩充后的时序行为片段γ=[us-uc,ue+uc],其中uc表示扩充的视频单元的数量。然后,我们将扩充的时序行为片段分为三部分:γs=[us-uc,us+uc]表示时序行为开始部分,γa=[us,ue]表示时序行为片段,γe=[ue-uc,ue+uc]表示时序行为结束部分。
对于每一部分,我们提取双向并行的LSTM模块的输出作为它的特征,因此我们可以分别得到三部分的特征如下:
Figure BDA0001935013170000071
此外,对于每一个视频单元,我们可以应用时序行为片段生成网络从而得到此视频单元作为行为进行的概率pa,因此我们可以分别得到三部分对应的概率序列如下:
Figure BDA0001935013170000072
Figure BDA0001935013170000073
然后我们对概率序列分别进行数据的标准化操作。比如给定概率序列
Figure BDA0001935013170000074
我们进行如下计算:
Figure BDA0001935013170000075
其中
Figure BDA0001935013170000076
对应时序行为开始部分γs中第j个视频单元的行为注意力得分。对γs,γa,γe分别进行如下操作,我们可以得到注意力得分序列
Figure BDA0001935013170000077
接下来,我们使用下面的函数对三部分分别进行计算,然后将计算后的三部分特征拼接起来得到对应时序行为片段γ的注意力特征。
Figure BDA0001935013170000078
最终,我们将时序行为片段对应的特征输入到三个全连接层(全连接层的隐藏结点数分为别1024,512和1)和S函数得到了此时序行为片段的置信度得分pγ。我们计算
Figure BDA0001935013170000079
作为此时序行为片段重新排序之后的置信度得分。

Claims (5)

1.基于全局上下文信息的时序行为片段生成系统,其特征在于,
包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合;
所述时序行为片段生成网络包括残差卷积层模块和双向并行的LSTM模块;
所述残差卷积层模块,用于对视频单元的时空特征进行处理从而编码高层语义信息,获得残差特征;所述残差卷积层模块由两层时序卷积层组成,其中两层时序卷积层后均设置ReLU激活函数,时序卷积层的卷积核的大小为3;
其中,第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,再经过第二层ReLU激活函数获得残差卷积层模块输出的残差特征;
所述双向并行的LSTM模块,用于对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征;所述双向并行的LSTM模块包括前向LSTM模块和后向LSTM模块,所述前向LSTM模块对残差特征进行前向处理,所述后向LSTM模块对残差特征进行后向处理,前向处理和后向处理过程是并行同时进行的;
所述双向并行的LSTM模块后连接一个时序卷积层和S函数,用于对双向LSTM特征进行编码,计算视频单元作为行为开始、行为进行和行为结束的概率,利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段。
2.一种基于全局上下文信息的时序行为片段生成方法,应用于如权利要求1所述的系统,其特征在于,包括以下步骤:
a.数据预处理:
将给定的视频转换为图片,并且对图片的大小进行缩放处理,然后采用全变分光流算法提取光流特征;
b.视频单元编码:
将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
c.生成初始时序行为片段:
对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
d.基于行为进行概率对初始时序行为片段重新排序:
基于视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
3.如权利要求2所述的方法,其特征在于,
步骤c中,所述利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,具体包括:
选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
(1)该视频单元的概率高于概率序列中最大值的0.5倍;
(2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率;
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的初始时序行为片段。
4.如权利要求2所述的方法,其特征在于,
所述步骤d具体包括:
d1.对初始时序行为片段进行扩充,获得扩充后的时序行为片段;
d2.将扩充的时序行为片段分为三部分:时序行为开始部分、时序行为片段和时序行为结束部分;
d3.对于每一部分,提取双向并行的LSTM模块的输出作为它的特征;
d4.应用时序行为片段生成网络获取扩充的时序行为片段的三部分对应的概率序列;
d5.对概率序列进行数据标准化操作,获得时序行为片段的注意力特征;
d6.将时序行为片段对应的注意力特征输入到三个全连接层和S函数,获得此时序行为片段的置信度得分,根据各个时序行为片段的置信度得分进行排序。
5.如权利要求2所述的方法,其特征在于,
步骤d中还包括:对时序行为片段集合进行非极大值抑制操作,过滤掉重叠率高的时序行为片段。
CN201910004792.2A 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成系统及方法 Active CN109711380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004792.2A CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004792.2A CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成系统及方法

Publications (2)

Publication Number Publication Date
CN109711380A CN109711380A (zh) 2019-05-03
CN109711380B true CN109711380B (zh) 2022-09-16

Family

ID=66259858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004792.2A Active CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成系统及方法

Country Status (1)

Country Link
CN (1) CN109711380B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610145B (zh) * 2019-08-28 2022-11-08 电子科技大学 一种结合全局运动参数的行为识别方法
CN110602526B (zh) * 2019-09-11 2021-09-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN111079507B (zh) * 2019-10-18 2023-09-01 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111372123B (zh) * 2020-03-03 2022-08-09 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111901673B (zh) * 2020-06-24 2021-12-03 北京大学 一种视频预测方法、装置、存储介质及终端
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法
CN112202726B (zh) * 2020-09-10 2021-11-19 西安交通大学 一种基于上下文感知的系统异常检测方法
CN113641792B (zh) * 2021-08-13 2023-11-21 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统
CN116307218A (zh) * 2023-03-27 2023-06-23 松原市邹佳网络科技有限公司 基于人工智能的元宇宙体验用户行为预测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268568B (zh) * 2014-09-17 2018-03-23 电子科技大学 基于独立子空间网络的行为识别方法
US10402700B2 (en) * 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
CN108764026B (zh) * 2018-04-12 2021-07-30 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108932304B (zh) * 2018-06-12 2019-06-18 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109101896B (zh) * 2018-07-19 2022-03-25 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Also Published As

Publication number Publication date
CN109711380A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109711380B (zh) 一种基于全局上下文信息的时序行为片段生成系统及方法
CN108960063B (zh) 一种面向事件关系编码的视频中多事件自然语言描述方法
CN110933429B (zh) 基于深度神经网络的视频压缩感知与重构方法和装置
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN113066028B (zh) 一种基于Transformer深度神经网络的图像去雾方法
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN113435451A (zh) 模型、模型的训练方法和装置、字符序列的识别和装置
CN111898461B (zh) 一种时序行为片段生成方法
CN115002559A (zh) 基于门控多头位置注意力机制的视频摘要算法及系统
JP2020128882A5 (zh)
CN115953582B (zh) 一种图像语义分割方法及系统
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN111898482A (zh) 基于渐进型生成对抗网络的人脸预测方法
CN115239591A (zh) 图像处理方法、装置、电子设备、存储介质及程序产品
CN111242068B (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN112529930A (zh) 一种基于聚焦融合的上下文学习医学图像分割方法
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
CN108171325B (zh) 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置
CN113657200A (zh) 一种基于掩码r-cnn的视频行为动作识别方法及系统
CN116597263A (zh) 图像合成模型的训练方法及相关装置
CN116050579A (zh) 基于深度特征融合网络的建筑能耗预测方法及系统
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN115359563A (zh) 多人行为识别方法、装置、计算机设备及存储介质
CN114240999A (zh) 一种基于增强图注意力与时间卷积网络的运动预测方法
CN114979801A (zh) 基于双向卷积长短期记忆网络的动态视频摘要算法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant