CN111325149A - 一种基于投票的时序关联模型的视频动作识别方法 - Google Patents
一种基于投票的时序关联模型的视频动作识别方法 Download PDFInfo
- Publication number
- CN111325149A CN111325149A CN202010105280.8A CN202010105280A CN111325149A CN 111325149 A CN111325149 A CN 111325149A CN 202010105280 A CN202010105280 A CN 202010105280A CN 111325149 A CN111325149 A CN 111325149A
- Authority
- CN
- China
- Prior art keywords
- convolution
- time
- voting
- pooling
- correlation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Abstract
本发明涉及计算机视觉领域,公开了一种基于投票的时序关联模型的视频动作识别方法,其包括步骤:S1、对卷积特征图进行空间池化;S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;S5、将三路分支的预测结果分别相加,作为最后的分类结果。本发明的方法在对特征图进行特征提取时,可以捕获时间信息,而且在训练过程中能够快速收敛,同时能够在网络的任意深度集成,在较高的提升了模型表征能力的基础上,还很好地控制了计算开销和模型复杂度。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于投票的时序关联模型的视频动作识别方法。
背景技术
近年来,基于视频的动作识别领域在卷积神经网络的浪潮中取得了长足的发展,视频分类从手工设计的方法转向深度学习方法。这些方法可以归纳为两类:基于2D CNN和基于3D CNN的方法。基于2DCNN的方法主要基于稀疏时间采样策略进行视频级别的表示。具体来说,这些方法对视频序列进行均匀采样,独立地对单帧图像进行操作,然后平均这些帧级别预测来学习时间信息。作为一种从二维图像到三维视频域的自然演化,基于3D的CNN方法采用三维时空卷积来捕捉时空信息并提供最佳结果。
动作识别与普通的图像分类的主要区别在于有额外的时序信息并且需要时序建模。已有的方法利用CNN,通过动作的帧级别分类来学习深度外观特征。与图像不同,动作可以表示为时空对象,并通过时空中的定向滤波捕获,处理相似的空间和时间维度。虽然已有很多工作已经尝试了不同的方法对时序进行建模,取得了一定的进展,但时间建模仍然没有得到充分的研究并是一项挑战性的工作。
基于2D和3D CNN的方法都是使用视频级标签训练的,它们都倾向于关注最具鉴别力的部分,而不是通用的表征。因此,这些方法在时间相关性较强的样本上的性能较差,这些样本的主要特点是:与其他类样本的外观相似,但与同一类样本的空间信息差异较大。一个与时间相关的样本显示在图中。
在日常生活中,大多数动作,如“游泳”或“吃东西”,通常是同质的运动,具有连贯的形式并且有高度场景依赖性,所以这些行为通常可以从几帧甚至一帧里区分出来。相比之下,“骑在自行车上捡东西”和“在游泳池里散步”等是非常不同的行为,但在现实生活中却无处不在,这些动作很容易造成歧义,只能主要依靠运动模式来区分并且需要同时结合很多帧同时的信息。现有的方法往往侧重于外观信息,容易被与时间相关的样本混淆。随着数据集类数的增加,问题变得越来越严重,尤其是与时序相关的数据集,其计算效率显著降低。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于投票的时序关联模型的视频动作识别方法,其在较高地提升了模型表征能力的基础上,还很好地控制了计算开销和模型复杂度。
一种基于投票的时序关联模型的视频动作识别方法,其包括以下步骤:
S1、对卷积特征图进行空间池化;
S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;
S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;
S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;
S5、将三路分支的预测结果分别相加,作为最后的分类结果。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,其特征在于,在所述步骤S1中,卷积特征图的形状表示为:C′*T*H*W,其中,C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度,在将卷积特征图输入到空间池中进行池化操作后,获得特征维度为C′*T的特征图。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,在使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩后,获得特征维度为C*T的特征图,其中C表示类的数量,参数量为C′*C。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,在所述步骤S3中,所述的时域卷积层的三路分支沿着时间维度,空洞率线性增加,卷积核大小线性减小。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,在所述步骤S3中,所述的时域卷积层的三路分支中的第一个分支的空洞率为1,卷积核大小为5,第二个分支的空洞率为3,卷积核大小为3,第三个分支的空洞率为5,卷积核大小为1。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,所述的时域卷积层的三路分支沿着时间维度逐步缩小采样步长,以对应更细粒度的时间信息。
优选地,在上述的基于投票的时序关联模型的视频动作识别方法中,所述的时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作,另一分支以最高的帧率捕捉快动作。
本发明的有益效果:本发明的方法基于轻量级的投票时序关联模型,在对特征图进行特征提取时,可以捕获时间信息,而且在训练过程中能够快速收敛,同时能够在网络的任意深度集成,参数可以忽略不计,计算开销小,大大提高了计算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明的实施例提出的一种基于投票的时序关联模型的视频动作识别方法,其包括以下步骤:
S1、对卷积特征图进行空间池化;
S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;
S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;
S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;
S5、将三路分支的预测结果分别相加,作为最后的分类结果。
具体地,在所述步骤S1中,卷积特征图的形状表示为:C′*T*H*W,其中,C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度。为降低计算成本和空间信息的影响,将卷积特征图输入到空间池中进行池化操作后,获得特征维度为C′*T的特征图。为进一步提高计算效率,模拟通道之间的相关性,在对卷积特征图进行空间池化后,使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩。通道压缩后,获得特征维度为C*T的特征图,其中C表示类的数量,参数量为C′*C。
具体地,在步骤S3中,时域卷积层的三路分支沿着时间维度,空洞率线性增加,卷积核大小线性减小。作为一种具体的实施例,所述的时域卷积层的三路分支中的第一个分支的空洞率为1,卷积核大小为5,第二个分支的空洞率为3,卷积核大小为3,第三个分支的空洞率为5,卷积核大小为1。为对应更细粒度的时间信息,该时域卷积层的三路分支沿着时间维度逐步缩小采样步长。时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作,另一分支以最高的帧率捕捉快动作,然后分别对这些分支进行1维时间池化操作,进一步扩大视觉感受野,提高推理能力。每个分支都可以被看作是一个独立的投票者,最后,为了组合丰富的时间信息,输出向量由这些分支一起投票决定。最终在经过softmax层之后,输出是表示分类结果的C维softmax向量。
综上所述,本发明的方法基于轻量级的投票时序关联模型,在对特征图进行特征提取时,可以捕获时间信息,而且在训练过程中能够快速收敛,同时能够在网络的任意深度集成,在较高的提升了模型表征能力的基础上,很好地控制了计算开销和模型复杂度,大大提高了计算效率。
以上对本发明实施例所提供的一种基于投票的时序关联模型的视频动作识别方法进行了详细介绍,具体实时方式中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种基于投票的时序关联模型的视频动作识别方法,其特征在于,包括以下步骤:
S1、对卷积特征图进行空间池化;
S2、使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩;
S3、使用1维的时域卷积层的三路分支对经过通道压缩后输出的卷积特征图进行不同膨胀率的一维时间卷积运算;
S4、经过时序池化,将空间池化后的卷积特征图降维为特征向量;
S5、将三路分支的预测结果分别相加,作为最后的分类结果。
2.根据权利要求1所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,在所述步骤S1中,卷积特征图的形状表示为:C′*T*H*W,其中,C′、T、H、W分别表示特征通道的数量、时间维度、高度、宽度,在将卷积特征图输入到空间池中进行池化操作后,获得特征维度为C′*T的特征图。
3.根据权利要求2所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,在使用大小为1的卷积核对执行了空间池化后的卷积特征图进行通道压缩后,获得特征维度为C*T的特征图,其中C表示类的数量,参数量为C′*C。
4.根据权利要求1所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,在所述步骤S3中,所述的时域卷积层的三路分支沿着时间维度,空洞率线性增加,卷积核大小线性减小。
5.根据权利要求4所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,在所述步骤S3中,所述的时域卷积层的三路分支中的第一个分支的空洞率为1,卷积核大小为5,第二个分支的空洞率为3,卷积核大小为3,第三个分支的空洞率为5,卷积核大小为1。
6.根据权利要求4所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,所述的时域卷积层的三路分支沿着时间维度逐步缩小采样步长,以对应更细粒度的时间信息。
7.根据权利要求6所述的基于投票的时序关联模型的视频动作识别方法,其特征在于,所述的时域卷积层的三路分支中的一分支以最低的扩张步幅捕捉慢动作,另一分支以最高的帧率捕捉快动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105280.8A CN111325149B (zh) | 2020-02-20 | 2020-02-20 | 一种基于投票的时序关联模型的视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105280.8A CN111325149B (zh) | 2020-02-20 | 2020-02-20 | 一种基于投票的时序关联模型的视频动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325149A true CN111325149A (zh) | 2020-06-23 |
CN111325149B CN111325149B (zh) | 2023-05-26 |
Family
ID=71163456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105280.8A Active CN111325149B (zh) | 2020-02-20 | 2020-02-20 | 一种基于投票的时序关联模型的视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325149B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597903A (zh) * | 2020-12-24 | 2021-04-02 | 珠高电气检测有限公司 | 基于步幅测量的电力人员安全状态智能识别方法及介质 |
CN113191193A (zh) * | 2021-03-30 | 2021-07-30 | 河海大学 | 一种基于图和格子的卷积方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650674A (zh) * | 2016-12-27 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN110046568A (zh) * | 2019-04-11 | 2019-07-23 | 中山大学 | 一种基于时间感知结构的视频动作识别方法 |
CN110321967A (zh) * | 2019-07-11 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络的图像分类改进算法 |
-
2020
- 2020-02-20 CN CN202010105280.8A patent/CN111325149B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650674A (zh) * | 2016-12-27 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN110046568A (zh) * | 2019-04-11 | 2019-07-23 | 中山大学 | 一种基于时间感知结构的视频动作识别方法 |
CN110321967A (zh) * | 2019-07-11 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络的图像分类改进算法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597903A (zh) * | 2020-12-24 | 2021-04-02 | 珠高电气检测有限公司 | 基于步幅测量的电力人员安全状态智能识别方法及介质 |
CN113191193A (zh) * | 2021-03-30 | 2021-07-30 | 河海大学 | 一种基于图和格子的卷积方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111325149B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN112149504B (zh) | 混合卷积的残差网络与注意力结合的动作视频识别方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
Lin et al. | Sequential dual attention network for rain streak removal in a single image | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111325149B (zh) | 一种基于投票的时序关联模型的视频动作识别方法 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN116229319A (zh) | 多尺度特征融合课堂行为检测方法与系统 | |
CN113486700A (zh) | 一种教学场景下基于注意力机制的面部表情分析方法 | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 | |
CN112818958A (zh) | 动作识别方法、装置及存储介质 | |
CN111539434A (zh) | 基于相似度的红外弱小目标检测方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
CN115984924A (zh) | 一种基于类脑技术的自然场景下的表情识别方法 | |
CN114841887A (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
CN111539420B (zh) | 基于注意力感知特征的全景图像显著性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |