CN111881794A - 一种视频行为识别方法及系统 - Google Patents

一种视频行为识别方法及系统 Download PDF

Info

Publication number
CN111881794A
CN111881794A CN202010698476.2A CN202010698476A CN111881794A CN 111881794 A CN111881794 A CN 111881794A CN 202010698476 A CN202010698476 A CN 202010698476A CN 111881794 A CN111881794 A CN 111881794A
Authority
CN
China
Prior art keywords
dimensional
video
convolution
neural network
lightweight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010698476.2A
Other languages
English (en)
Other versions
CN111881794B (zh
Inventor
凌贺飞
陈遥
黄昌喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanshen Technology Hangzhou Co Ltd
Original Assignee
Yuanshen Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanshen Technology Hangzhou Co Ltd filed Critical Yuanshen Technology Hangzhou Co Ltd
Priority to CN202010698476.2A priority Critical patent/CN111881794B/zh
Publication of CN111881794A publication Critical patent/CN111881794A/zh
Application granted granted Critical
Publication of CN111881794B publication Critical patent/CN111881794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频行为识别方法及系统,其特征在于,包括:基于三维全分离卷积构建轻量级三维卷积神经网络模型;基于时序全局信息对、模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。本发明在保证视频行为识别准确率的前提下降低计算负载,不需要依赖卷积的叠加就能够直接建模全局信息,进一步提高准确率。

Description

一种视频行为识别方法及系统
技术领域
本发明属于视频分析和深度学习领域,更具体地,涉及一种视频行为识别方法及系统。
背景技术
近年来,随着多媒体技术的发展和互联网的普及,视频图像等信息资源呈指数型增长,令人目不暇接。在这个信息爆炸的时代,计算机视觉应运而生,在医学图像处理、人机交互、智能机器人、智能安防等领域大放异彩,对视频图像进行智能分析已成为当今社会的迫切需求。在深度卷积神经网络的助力下,图像理解(Image Understanding)取得了显著的成功。值得注意的例子包括用于图像分类(Image Classification)的残差网络、用于对象检测的FastRCNN和用于语义分割的Deeplab。然而,用于视频分析的深度卷积神经网络的发展仍然滞后于图像分析,主要原因就是其额外的计算成本和时空输入的复杂性。
视频的时间维度包含有价值的运动信息,这些信息在视频行为识别任务中起着关键作用。目前一种流行且有效的识别方法就是在深层神经网络中使用时空卷积,也叫3D卷积学习视频特征。3D卷积是2D卷积(空间卷积)的一种扩展,额外增加了一个时间维度,因此可以沿时间轴进行卷积。通过将2D卷积神经网络中的2D卷积直接替换为3D卷积构造3D卷积神经网络,这样获得的模型是端到端可训练的。目前较为先进的视频行为识别模型,如Res3D和I3D都是以这种简单的方式构建3D卷积神经网络,在多个基准数据集上取得了较优的结果,但同时它们都伴随着极高的计算负载。尽管最近的一些方法使用分解的3D卷积或分组卷积降低3D卷积的计算成本,但在实际的大规模应用中使用3D卷积仍然令人望而却步。
另一方面,事实证明,通过分析视频中的长期依赖关系达到对视觉场景的全局理解有利于提高视频识别的准确率。在卷积神经网络中,由于卷积层只对局部相邻像素进行卷积,因此对全局信息的建模主要依靠于卷积层的层层堆叠。然而,过度叠加卷积层会导致计算效率低下以及优化困难的问题,最终造成全局信息建模失败。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于轻量级三维卷积神经网络的视频行为识别方法及系统,旨在解决现有视频识别中简单构建三维卷积神经网络导致计算负载较大,以及过度叠加卷积层会导致计算效率低下以及优化困难的问题。
为实现上述目的,第一方面,本发明提供了一种视频行为识别方法,包括如下步骤:
基于三维全分离卷积构建轻量级三维卷积神经网络模型;
基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
可选地,通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;
所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
Figure BDA0002592177470000031
其中,x表示时序全局信息模块的输入,y表示时序全局信息模块的输出,
Figure BDA0002592177470000032
表示全局上下文建模,全局上下文建模采用权重为Ca的加权平均聚合输入特征以获得全局上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
可选地,所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。
可选地,基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
所述第一基本单元和第二基本单元均借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建,以在不增加参数的情况下实现通道之间信息共享。
可选地,将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,包括如下步骤:
对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列;
将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。
第二方面,本发明提供一种视频行为识别系统,包括:
模型确定单元,用于基于三维全分离卷积构建轻量级三维卷积神经网络模型;
模型优化单元,用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
模型训练单元,用于通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
视频识别单元,用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
可选地,所述模型优化单元通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
Figure BDA0002592177470000041
其中,x表示时序全局信息模块的输入,y表示时序全局信息模块的输出,
Figure BDA0002592177470000042
表示全局上下文建模,全局上下文建模采用权重为Ca的加权平均聚合输入特征以获得全局上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
可选地,所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。
可选地,所述模型确定单元基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
所述模型确定单元借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建第一基本单元和第二基本单元,以在不增加参数的情况下实现通道之间信息共享。
可选地,所述视频识别单元对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列;以及将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种视频行为识别方法及系统,通过创新提出的三维全分离卷积构造三维卷积神经网络,在保证视频行为识别准确率的前提下大量降低计算负载;同时在网络中加入时序全局信息模块,不需要依赖卷积的叠加就能够直接建模全局信息,进一步提高准确率。
附图说明
图1是本发明提供的视频行为识别方法流程图;
图2是本发明提供的3D全分离卷积结构图;
图3是本发明提供的A单元和B单元的结构图;
图4是本发明提供的轻量级三维卷积神经网络结构图;
图5是本发明提供时序全局信息模块的结构图;
图6是本发明提供基于时序全局信息优化的基本单元;
图7是本发明提供基于时序全局信息优化的轻量级三维卷积神经网络结构;
图8是本发明提供的视频行为识别系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于轻量级三维卷积神经网络的视频行为识别方法。本发明所采用的技术方案是创新提出面向视频行为识别的轻量级三维卷积神经网络,并基于时序全局信息对其进行优化,具体如下:
1、数据采集。获取包含人体行为的视频数据。
2、训练数据预处理。对视频的空间位置和时间位置进行裁剪,同时采用多尺度和随机翻转进行增强,最终生成多个相同尺寸的视频序列。
3、构建深度卷积神经网络模型。
在一个实施例中,如图1所示,本发明提供的视频行为识别方法包括如下步骤:
S110,基于三维全分离卷积构建轻量级三维卷积神经网络模型;
S120,基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
S130,通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
S140,将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
在一个更具体的实施例中,本发明是基于3D全分离卷积构建轻量级三维卷积神经网络,并基于时序全局信息对其进行优化,具体说明如下:
1、数据采集。从Kinetics数据集中任意挑选10类构成Kinetics-partA数据集,其中包括5498个训练视频和459个待预测视频。
2、训练数据预处理。通过均匀采样在视频中确定起始帧位置,生成16帧序列。如果总视频短于16帧,则使用现有帧对其进行扩充。接下来,本发明从4个角或中心随机选择一个目标位置进行空间裁剪。
除了空间位置增强,本发明还执行多尺度增强,比例例如为
Figure BDA0002592177470000071
注意本发明的原视频帧和输入样本的纵横比均为1,比例1表示样本的边长与原视频帧的边长相同,比例0.5表示样本的边长是原视频帧边长的一半,其他比例同理。样本依据位置和尺度进行处理后,调整样本的尺寸为112×112像素,同时以50%的概率对样本进行水平翻转。
最后,本发明还将对样本执行平均减法和归一化操作。每个样本的大小均为(3通道,16帧,112像素,112像素),所有生成样本的类标签与原视频相同。
3、构建深度卷积神经网络模型。本发明构建基于轻量级三维卷积神经网络的视频行为识别模型,并基于时序全局信息对其优化,具体说明如下:
3.1、面向视频行为识别的轻量级三维卷积神经网络的设计。基于可分离卷积的思想,本发明提出3D全分离卷积,如图2所示,它主要由3D深度空间卷积,3D深度时间卷积和3D逐点卷积构成。借鉴ShuffleNet v2构建模型基本单元A单元和B单元,如图3所示,两个单元均基于3D全分离卷积。A单元的输入和输出的大小相同,B单元用于将通道数量加倍同时将特征图的尺寸减半。通道混合单元是ShuffleNet v2的关键思想,它可以在不增加参数的情况下实现通道之间信息共享的目的。受在许多具有挑战性的图像任务中取得成功的ResNet的启发,本发明将A单元和B单元两个基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型,模型结构如图4所示。基于3D全分离卷积构建的面向视频行为识别的轻量级三维卷积神经网络,可以在保证行为识别性能的同时,极大降低模型参数量和计算复杂度。
具体地,A单元和B单元为构建轻量级三维卷积神经网络模型的两个基本单元,在构建三维卷积神经网络模型中是经常用到的。本发明相比现有技术,主要是基于3D全分离卷积构建这两个基本单元,可以使得构建出的三维卷积神经网络模型为轻量级,复杂度低。
3.2、基于时序全局信息对3.1中轻量级三维卷积神经网络进行优化。本专利提出时序全局信息建模模块,与3.1中的轻量级三维卷积神经网络结合,达到优化网络的效果。与传统的全局信息建模模块相比,时序全局信息建模模块能够提取到视频在时间维度上具有判别性的信息,即时序信息,对每一帧给予不同的权重,因此它除了构建对场景的全局理解,还能有效定位关键帧。
时序全局信息建模主要分为三个阶段——全局上下文建模,特征变换和特征聚合。时序全局信息模块结构如图5所示,(C×T×H×W)分别表示通道,帧,高以及宽,用公式可以表示为:
Figure BDA0002592177470000081
其中,
Figure BDA0002592177470000082
表示全局上下文建模,该模块采用权重为Ca的加权平均聚合输入特征以获得上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,y表示全局信息建模模块的输出,x表示全局信息建模模块的输入,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
基于时序全局信息优化后的轻量级三维卷积神经网络的基本单元如图6所示。
最后,基于时序全局信息优化的轻量级三维卷积神经网络结构如图7所示。
4、离线训练模型。本发明使用第2步中准备好的数据,采用基于交叉熵损失的梯度下降法对第3步最终构建的模型进行参数优化,使用Adam优化器等方法加快模型收敛。
5、待预测数据预处理。本发明采用在待预测视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列。
6、在线运行模型。将第5步中处理好的待预测视频序列输入到第4步中训练好的网络中进行行为分类,整个视频的分类分数取其所包含的所有视频序列的均值,最终得分最高的类被确定为该视频的识别类别。
图8是本发明提供的视频行为识别系统架构图,如图8所示,包括:
模型确定单元810,用于基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
模型优化单元820,用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
模型训练单元830,用于通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
视频识别单元840,用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
可以理解的是,图8中各个单元的功能参见前述方法实施例中的介绍,在此不做赘述。
本发明公开了一种基于轻量级三维卷积神经网络的视频行为识别方法及系统,该方法的特征包括:基于可分离卷积思想的3D全分离卷积,基于3D全分离卷积构建面向视频行为识别的轻量级三维卷积神经网络;基于时序全局信息优化的轻量级三维卷积神经网络。与现有技术相比,本发明在保证相当的行为识别性能的同时,能够极大降低模型参数量和计算复杂度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种视频行为识别方法,其特征在于,包括如下步骤:
基于三维全分离卷积构建轻量级三维卷积神经网络模型;
基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
2.根据权利要求1所述的视频行为识别方法,其特征在于,通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;
所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
Figure FDA0002592177460000011
其中,x表示时序全局信息模块的输入,y表示时序全局信息模块的输出,
Figure FDA0002592177460000012
表示全局上下文建模,全局上下文建模采用权重为Ca的加权平均聚合输入特征以获得全局上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
3.根据权利要求1所述的视频行为识别方法,其特征在于,所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。
4.根据权利要求3所述的视频行为识别方法,其特征在于,基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
所述第一基本单元和第二基本单元均借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建,以在不增加参数的情况下实现通道之间信息共享。
5.根据权利要求1至4任一项所述的视频行为识别方法,其特征在于,将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,包括如下步骤:
对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列;
将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。
6.一种视频行为识别系统,其特征在于,包括:
模型确定单元,用于基于三维全分离卷积构建轻量级三维卷积神经网络模型;
模型优化单元,用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化,以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息;
模型训练单元,用于通过预先准备的训练视频帧,基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化,得到训练好的轻量级三维卷积神经网络模型;
视频识别单元,用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型,识别视频中运动物体的行为信息。
7.根据权利要求6所述的视频行为识别系统,其特征在于,所述模型优化单元通过将时序全局信息模块加入轻量级三维卷积神经网络模型,以对模型进行优化;所述时序全局信息模块的建模分为三个阶段:全局上下文建模、特征转换以及特征聚合;采用公式具体表示为:
Figure FDA0002592177460000031
其中,x表示时序全局信息模块的输入,y表示时序全局信息模块的输出,
Figure FDA0002592177460000032
表示全局上下文建模,全局上下文建模采用权重为Ca的加权平均聚合输入特征以获得全局上下文特征,Cc×RELU(LN(Cb×(·)))代表特征转换,特征聚合阶段采用的是广播逐元素加法,Cb表示特征转换中的权重1,Cc表示特征转换中的权重2,xk表示第k维特征,xj表示第j维特征,H表示输入特征的高,W表示输入特征的宽。
8.根据权利要求6所述的视频行为识别系统,其特征在于,所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。
9.根据权利要求8所述的视频行为识别系统,其特征在于,所述模型确定单元基于三维全分离卷积构建第一基本单元和第二基本单元,第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同,第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸;将第一基本单元和第二基本单元基于ResNet的框架进行堆叠,得到轻量级三维卷积神经网络模型;
所述模型确定单元借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建第一基本单元和第二基本单元,以在不增加参数的情况下实现通道之间信息共享。
10.根据权利要求6至9任一项所述的视频行为识别系统,其特征在于,所述视频识别单元对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列;以及将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。
CN202010698476.2A 2020-07-20 2020-07-20 一种视频行为识别方法及系统 Active CN111881794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010698476.2A CN111881794B (zh) 2020-07-20 2020-07-20 一种视频行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010698476.2A CN111881794B (zh) 2020-07-20 2020-07-20 一种视频行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN111881794A true CN111881794A (zh) 2020-11-03
CN111881794B CN111881794B (zh) 2023-10-10

Family

ID=73155183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010698476.2A Active CN111881794B (zh) 2020-07-20 2020-07-20 一种视频行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN111881794B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875696A (zh) * 2018-07-05 2018-11-23 五邑大学 基于深度可分离卷积神经网络的脱机手写汉字识别方法
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN110210439A (zh) * 2019-06-10 2019-09-06 西北工业大学 基于轻量化三维卷积网络的行为识别方法
US20190379883A1 (en) * 2016-12-29 2019-12-12 Zhejiang Gongshang University Stereoscopic video generation method based on 3d convolution neural network
DE102019113114A1 (de) * 2018-06-19 2019-12-19 Nvidia Corporation Verhaltensgesteuerte wegplanung in autonomen maschinenanwendungen
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
US10706350B1 (en) * 2017-08-11 2020-07-07 Facebook, Inc. Video analysis using convolutional networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190379883A1 (en) * 2016-12-29 2019-12-12 Zhejiang Gongshang University Stereoscopic video generation method based on 3d convolution neural network
US10706350B1 (en) * 2017-08-11 2020-07-07 Facebook, Inc. Video analysis using convolutional networks
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
DE102019113114A1 (de) * 2018-06-19 2019-12-19 Nvidia Corporation Verhaltensgesteuerte wegplanung in autonomen maschinenanwendungen
CN108875696A (zh) * 2018-07-05 2018-11-23 五邑大学 基于深度可分离卷积神经网络的脱机手写汉字识别方法
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN110210439A (zh) * 2019-06-10 2019-09-06 西北工业大学 基于轻量化三维卷积网络的行为识别方法
CN111259782A (zh) * 2020-01-14 2020-06-09 北京大学 基于混合多尺度时序可分离卷积操作的视频行为识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DU TRAN: "A Closer Look at Spatiotemporal Convolutions for Action Recognition", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 6450 - 6459 *
TO_1_OT: "论文笔记之TSN", pages 1 - 6, Retrieved from the Internet <URL:《https://blog.csdn.net/haha0825/article/details/106523969/》> *
YUE ZHAO: "Trajectory Convolution for Action Recognition", 《PART OF ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 31 (NEURIPS 2018)》, pages 1 - 10 *
杨锐: "一种基于深度学习的异常行为识别方法", 《五邑大学学报(自然科学版) 》, pages 1 - 7 *
陈克凡: "基于视觉的地下管道缺陷检测方法研究", 《万方》, pages 1 - 60 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Also Published As

Publication number Publication date
CN111881794B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Zhang et al. Fast semantic segmentation for scene perception
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN112232164A (zh) 一种视频分类方法和装置
CN111488805B (zh) 一种基于显著性特征提取的视频行为识别方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN111882581A (zh) 一种深度特征关联的多目标跟踪方法
CN112348033B (zh) 一种协同显著性目标检测方法
CN111881794B (zh) 一种视频行为识别方法及系统
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统
CN115937594A (zh) 基于局部与全局特征融合的遥感图像分类方法和装置
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
CN115063352A (zh) 一种基于多图神经网络协同学习架构的显著性物体检测装置及方法
CN111489361B (zh) 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法
CN109815911B (zh) 基于深度融合网络的视频运动物体检测系统、方法及终端
CN114202739A (zh) 视频行人重识别的方法
Wang et al. A spatio-temporal attention convolution block for action recognition
Xu et al. Deep Neural Network-Based Sports Marketing Video Detection Research
CN117456431B (zh) 一种基于扩张卷积和密集连接的镜头边界检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant