CN112052795B - 一种基于多尺度时空特征聚合的视频行为识别方法 - Google Patents

一种基于多尺度时空特征聚合的视频行为识别方法 Download PDF

Info

Publication number
CN112052795B
CN112052795B CN202010927702.XA CN202010927702A CN112052795B CN 112052795 B CN112052795 B CN 112052795B CN 202010927702 A CN202010927702 A CN 202010927702A CN 112052795 B CN112052795 B CN 112052795B
Authority
CN
China
Prior art keywords
layer
output
residual block
video
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010927702.XA
Other languages
English (en)
Other versions
CN112052795A (zh
Inventor
李慧芳
石其松
樊锐
黄姜杭
王彬阳
姚小兰
刘向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010927702.XA priority Critical patent/CN112052795B/zh
Publication of CN112052795A publication Critical patent/CN112052795A/zh
Application granted granted Critical
Publication of CN112052795B publication Critical patent/CN112052795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度时空特征聚合的视频行为识别方法,通过采用多通道并行采样方法,分别从输入视频中抽取不同时间尺度帧图像序列,以获取对人体行为更具鲁棒性的多尺度序列表示,使模型能够同时关注不同类型的数据输入,实现对行为表征的全面学习,提高人体行为识别的准确率;通过差异化采样、网络结构优化以及特征融合策略,构建多尺度时空特征聚合网络,对输入视频中的人体行为进行准确识别,并在一定程度上满足应用场景的实时性要求,为视频行为的高效、精准识别提供了新的思路和途径。

Description

一种基于多尺度时空特征聚合的视频行为识别方法
技术领域
本发明属于计算机视觉以及人体行为识别技术领域,具体涉及一种基于多尺度时空特征聚合的视频行为识别方法。
背景技术
随着工业互联网的日益普及和深入应用,多媒体数据的产生呈现大数据特征,海量视频信息的收集也变得很容易。在信息爆炸时代,如何高效地理解视频、发现隐藏在视频中的知识,并向终端用户推荐更精准的服务引起了人们的广泛关注。特别是在安防监控、医疗诊断、人机交互以及虚拟现实等领域,需要高效的视频行为识别技术来应对视频数据的自动分析和智能化理解的挑战。
视频中的人体行为存在动作、速率等方面的多样性,例如不同行为动作的持续时间不等,其视频识别所需的帧序列也不尽相同。因此,采用单一序列的视频识别方法,难以有效表征所有的动作类型,并使模型不易提取判别性特征。另外,在安防监控、医疗诊断等应用领域,视频识别的实时性直接影响应用的效果,如何在海量视频数据场景下快速识别视频中的人体行为,也是视频识别面临的一大难题。
现有方法可被大致分为两类,一类是基于双流卷积网络的方法,利用空间流和时间流,分别对RGB图像与光流进行特征提取、得分预测,并通过融合空间流和时间流的得分来获取最终的识别结果;另一类是基于3D卷积网络的方法,通过3D卷积捕获RGB图像视频包含的空间与时间信息,得到识别结果。然而,在实际应用中,上述两类方法仍存在以下不足:一是缺乏对人体行为多样性的关注,忽略各类型动作间的差异性,难以获取不同行为更具鲁棒性的表征,影响识别精度;二是难以平衡识别精度与识别速度之间矛盾,传统的2D或3D卷积结构模型存在较高的计算复杂度,大大影响了算法的实时性;三是特征融合策略过于简单,即对获取的不同类型特征,要么直接简单拼接,要么通过手动设置特定的权重进行融合,最终使模型难以学习到对不同行为最具判别力的特征表示,影响识别效果。
发明内容
有鉴于此,本发明提供了一种基于多尺度时空特征聚合的视频行为识别方法,能够实现视频数据中人体行为的自动与准确识别。
本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法,包括以下步骤:
构建视频行为识别模型,所述视频行为识别模型包括数据采样层、特征提取层、加权聚合层和分类层;
所述数据采样层包括局部静态随机采样单元、短时间间隔全局动态采样单元和长时间间隔全局动态采样单元;所述局部静态随机采样单元,将待识别视频划分为多个等长的子视频段后,对任意子视频段进行随机采样得到帧序列Ga;所述短时间间隔全局动态采样单元,将视频按照小于设定值的时间间隔进行采样得到帧序列Gsr;所述长时间间隔全局动态采样单元,将视频按照大于设定值的时间间隔进行采样得到帧序列Glr
所述特征提取层包括静态空间特征提取单元和动态空间特征提取单元;所述静态空间特征提取单元,用于提取所述帧序列Ga的特征向量Xa;所述动态空间特征提取单元用于提取所述帧序列Gsr及Glr的特征向量Xsr、Xlr
所述加权聚合层,用于将所述特征向量Xa、Xsr及Xlr进行加权融合得到综合特征;所述分类层,用于对所述综合特征进行分类得到视频的行为类别;
将待识别视频输入视频行为识别模型中,模型的输出即为所述待识别视频的行为类别。
进一步地,所述静态空间特征提取单元及动态空间特征提取单元均基于卷积神经网络构建,所述静态空间特征提取单元及动态空间特征提取单元的训练过程,包括以下步骤:
以样本视频作为输入,以所述样本视频的行为类别作为标签,构建训练样本集;采用所述样本视频输入所述视频行为识别模型,当所述视频行为识别模型输出的行为类别与训练样本集中标签的误差值为最小时,完成所述视频行为识别模型的训练,即完成了所述静态空间特征提取单元及动态空间特征提取单元的训练。
进一步地,所述静态空间特征提取单元包括级联的多个卷积层与最大池化层组合、多个残差块、平均池化层及全连接层。
进一步地,所述静态空间特征提取单元包括基础模块和静态空间模块,所述基础模块包括依次级联的卷积层、最大池化层、卷积层、最大池化层及三个2D残差块;所述静态空间模块包括依次级联的四个2D残差块、平均池化层及全连接层。
进一步地,所述2D残差块引入了多支路并行堆叠拓扑结构,包括三层瓶颈结构和四层瓶颈结构,且三层瓶颈结构和四层瓶颈结构的并行支路数量相等;所述2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理,所述2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与所述2D残差块的输入的求和。
进一步地,所述动态空间特征提取单元包括基础模块、动态空间模块、动态时间模块及时空交互模块;所述基础模块的输出作为动态空间模块与动态时间模块的输入;所述时空交互模块完成动态空间模块与动态时间模块间中间数据的拼接与平均池化;所述动态空间模块与动态时间模块的输出经过拼接后形成所述特征向量Xsr或Xlr
其中,所述基础模块包括级联的多个卷积层、最大池化层组合与多个残差块;所述时空交互模块包括多个拼接层A与平均池化层的组合;所述动态空间模块包括级联的多个残差块、平均池化层及全连接层;所述动态时间模块包括级联的残差块、多个残差块与拼接层B的组合、平均池化层及全连接层,所述拼接层B用于将相连的残差块的输出与上一级残差块的降维后的输出进行拼接;
所述时空交互模块将所述动态空间模块与所述动态时间模块中残差块的输出,先经过拼接层进行拼接,再经过平均池化层进行池化,并将池化后的结果叠加到所述动态空间模块中当前残差块的输出中。
进一步地,所述动态空间模块包括级联的2D残差块4、2D残差块5、2D残差块6、2D残差块7、2D平均池化层1及全连接层1;所述动态时间模块包括级联的3D残差块4、3D残差块5、拼接层1、3D残差块6、拼接层2、3D平均池化层1及全连接层2;所述时空交互模块包括拼接层3、2D平均池化层4、拼接层4、2D平均池化层5、拼接层5、2D平均池化层6;
其中,2D残差块4的输入为所述基础模块的输出,2D残差块4的输出为2D残差块5的输入;拼接层3的输入包括2D残差块4及3D残差块4的输出,拼接层3的输出作为2D平均池化层4的输入,2D平均池化层4的输出与2D残差块5的输出的和作为2D残差块6的输入,2D平均池化层4的输出与2D残差块5的输出的和及拼接层1的输出共同作为拼接层4的输入,拼接层4的输出为2D平均池化层5的输入,2D平均池化层5的输出与2D残差块6的输出的和作为2D残差块7的输入,2D平均池化层5的输出与2D残差块6的输出的和及拼接层2的输出作为拼接层5的输入,拼接层5的输出作为2D平均池化层6的输入,2D平均池化层6的输出与2D残差块7的输出的和作为2D平均池化层1的输入,2D平均池化层1的输出为全连接层1的输入;3D残差块4的输入为所述基础模块的输出,3D残差块4的输出为3D残差块5的输入,3D残差块4的输出经过降维处理后与3D残差块5的输出一同作为拼接层1的输入;拼接层1的输出作为3D残差块6的输入,所述基础模块的输出及3D残差块5的输出分别经过降维处理后与3D残差块6的输出一同作为拼接层2的输入,拼接层2的输出作为3D平均池化层1的输入,3D平均池化层1的输出作为全连接层2的输入;全连接层1的输出与全连接层2的输出经过拼接后形成所述动态空间特征提取单元的输出。
进一步地,所述加权聚合层将所述特征向量Xa、Xsr及Xlr自适应加权融合形成特征向量Z,具体包括以下步骤:
步骤5.1、将所述特征向量Xa、Xsr及Xlr输入如公式(1)所示的全连接层1:
Figure BDA0002669043550000051
其中,X′out为所述全连接层的输出向量,
Figure BDA0002669043550000052
为对位相乘运算,Wa、Wsr、Wlr分别为向量Xa、Xsr、Xlr对应的融合权重;Wa、Wsr、Wlr的取值由所述完成所述视频行为识别模型的训练后确定;
步骤5.2、采用如公式(2)所示的全连接层2对输出Xout进行特征提取,获得特征向量Z;
Z=WfcX′out+bfc (2)
其中,Wfc和bfc分别为权重与偏置,Wfc和bfc的取值由所述完成所述视频行为识别模型的训练后确定。
有益效果:
1、本发明通过采用多通道并行采样方法,分别从输入视频中抽取不同时间尺度帧图像序列,以获取对人体行为更具鲁棒性的多尺度序列表示,使模型能够同时关注不同类型的数据输入,实现对行为表征的全面学习,提高人体行为识别的准确率;通过差异化采样、网络结构优化以及特征融合策略,构建多尺度时空特征聚合网络,对输入视频中的人体行为进行准确识别,并在一定程度上满足应用场景的实时性要求,为视频行为的高效、精准识别提供了新的思路和途径。
2、本发明通过引入多支路并行堆叠、密集连接与时空交互连接等结构,建立并行网络分支,以便从并行采样序列中学习多尺度时空特征,通过降低计算复杂度与路径优化来加快网络训练速度,在提升模型收敛性和算法实时性的同时,实现了高效的特征提取。
3、本发明通过采用自适应加权聚合策略,将多尺度时空特征进行加权融合,并在网络训练过程中实现特征权重的自适应更新,突出行为识别的判别性特征,增强模型对不同动作的有效辨别能力,提高行为识别准确率。
附图说明
图1为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的总体架构图。
图2为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法构建的A-Net的结构图。
图3为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法构建的LS-Net_1与LS-Net_2的结构图。
图4为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的测试准确率对比图。
图5为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的模型训练总时间对比图。
图6为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的算法验证准确率对比图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法,其基本思想是:针对不同类型人体动作特性以及实际应用场景对视频识别算法的高实时性要求,采用差异化采样、网络结构优化以及时空特征融合等策略,构建多尺度时空特征聚合网络,对输入视频中的人体行为进行准确识别,并在一定程度上满足应用场景的实时性要求。
本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法,方法的流程如图1所示,具体包括以下步骤:
步骤1、以样本视频作为输入,以所述样本视频的行为类别作为标签,构建训练样本集。
例如,样本视频为帧长为L的视频V,视频V的行为类别为Y,即视频V为输入,行为类别Y为标签。
步骤2、构建视频行为识别模型,所述视频行为识别模型包括数据采样层、特征提取层、加权聚合层和分类层。
(1)数据采样层
所述数据采样层包括局部静态随机采样单元、短时间间隔全局动态采样单元和长时间间隔全局动态采样单元;所述局部静态随机采样单元,将视频划分为多个等长的子视频段后,对任意子视频段进行随机采样得到帧序列Ga;所述短时间间隔全局动态采样单元,将视频按照小于设定值的时间间隔进行采样得到帧序列Gsr;所述长时间间隔全局动态采样单元,将视频按照大于设定值的时间间隔进行采样得到帧序列Glr
对输入的视频V,进行局部静态随机采样以及按照短时间间隔m和长时间间隔n的全局动态采样,得到一组多尺度帧图像序列Ga、Gsr、Glr。首先使用局部静态随机采样,对输入视频V只选择其任意一个子视频段Si(i∈[1,N]),随机抽取其中的N帧图像组成帧序列Ga;其次使用全局动态短间隔采样,按短时间间隔m对输入视频V进行帧图像抽取,以从每个子视频段Si中抽取一帧,顺序组成帧序列Gsr;最后使用全局动态长间隔采样,对输入视频V按长时间间隔n进行帧图像抽取,以从每个子视频段Si中抽取一帧,顺序组成帧序列Glr
具体采样过程包括以下步骤:
步骤2.1.1、对输入视频V进行局部静态随机采样,获得帧序列Ga
具体地,选择V中任意一个子视频段Si(i∈[1,N]),随机抽取其中的N帧图像组成视频帧序列
Figure BDA0002669043550000081
其中
Figure BDA0002669043550000082
分别表示时间点r1,r2,...,rN处的视频帧图像。
步骤2.1.2、对输入视频V,按照间隔m进行全局动态短间隔采样,获得帧序列Gsr
具体地,按短时间间隔
Figure BDA0002669043550000083
从V中等间隔抽取帧图像,即在时间点ip=s+pm处从每个子视频段Si(i=1,2,3,...,N)中抽取一帧,依次组成短间隔视频帧序列
Figure BDA0002669043550000084
其中s表示第一个抽取时间点;ip满足
Figure BDA0002669043550000085
p=0,1,2,...,N-1;
Figure BDA0002669043550000086
分别表示时间点s,s+m,...,s+pm,...,s+(N-1)m处的视频帧图像。
步骤2.1.3、对输入视频V进行全局动态长间隔采样,获得帧序列Glr
具体地,按长时间间隔
Figure BDA0002669043550000087
从V中等间隔抽取帧图像,即在时间点jq=t+qn处从每个子视频段Si(i=1,2,3,...,N)中抽取一帧,依次组成视频帧序列
Figure BDA0002669043550000091
其中t表示第一个抽取时间点;jq满足
Figure BDA0002669043550000092
q=0,1,2,...,N-1;
Figure BDA0002669043550000093
分别表示时间点t,t+n,...,t+qn,...,t+(N-1)n处的视频帧图像。
(2)特征提取层
所述特征提取层包括静态空间特征提取单元和动态空间特征提取单元;所述静态空间特征提取单元,用于提取所述帧序列Ga的特征向量Xa;所述动态空间特征提取单元用于提取所述帧序列Gsr及Glr的特征向量Xsr、Xlr
在具体使用过程中,本发明提供的方法所要构建的特征提取层中各单元的具体数量,需要结合对实际数据量的考虑,以确保能够同时满足准确率与实时性两方面的要求。
例如,本发明可构建包含一个静态空间特征提取单元和两个动态空间特征提取单元的特征提取层。其中,静态空间特征提取单元命名为A-Net,其结构如图2所示,两个动态空间特征提取单元分别命名为LS-Net_1与LS-Net_2,其结构如图3所示。在图2、图3中,所有的同名层均采用同样的网络结构,例如2D残差块_1和2D残差块_2。令u={a,sr,lr},u的三个取值分别表示A-Net、LS-Net_1、LS-Net_2网络分支的操作。总起来说,静态空间特征提取单元和动态空间特征提取单元,具体包括以下四种结构:现有技术中的卷积层、最大池化层、2D平均池化层、3D平均池化层及全连接层,以及本发明提出的2D残差块。
本发明在设计2D残差块时,均引入了多支路并行堆叠拓扑结构,且三层瓶颈结构和四层瓶颈结构的并行支路各占50%,2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理,2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与2D残差块的输入的求和。具体计算公式如下:
Figure BDA0002669043550000101
其中
Figure BDA0002669043550000102
分别表示第v个2D残差块的输入、输出特征,v∈[1,7],C为每个2D残差块包含并行支路的总个数。Eh(·)为第h个三层瓶颈结构并行支路的残差计算函数,包括对输入的批量正则化、激励和2D卷积操作,λh为Eh(·)中所有的可训练参数;Fh(·)为第h个四层瓶颈结构并行支路的残差计算函数,εh为Fh(·)中所有的可训练参数。
静态空间特征提取单元和动态空间特征提取单元的具体构建过程如下:
步骤2.2.1、构建一个2D卷积神经网络分支A-Net,从帧序列Ga中提取静态表观特征Xa,具体包括如下步骤:
步骤2.2.1.1、建立基础模块,对输入帧序列Ga进行特征提取,得到输出向量
Figure BDA0002669043550000103
在基础模块中,首先,依次将Ga输入到一组卷积层和最大池化层进行卷积与池化计算,得到特征向量
Figure BDA0002669043550000104
其次,
Figure BDA0002669043550000105
进一步经过另一组卷积层和最大池化层计算,得到特征向量
Figure BDA0002669043550000106
然后,将
Figure BDA0002669043550000107
经三个顺序连接的2D残差块计算,得到特征向量
Figure BDA0002669043550000108
并将最终的输出
Figure BDA0002669043550000109
作为基础模块提取的总特征向量
Figure BDA00026690435500001010
Figure BDA00026690435500001011
在基础模块中,主要涉及如下计算:
取u=a,卷积层的计算;最大池化层的计算;2D残差块的计算依照公式(1),并取C=16,v=1,2,3。
步骤2.2.1.2、建立静态空间模块,对步骤2.2.1.1的输出
Figure BDA00026690435500001012
进行特征提取,获得A-Net的总输出特征向量Xa
在静态空间模块中,首先,将基础模块输出的特征向量
Figure BDA0002669043550000111
输入到四个顺序连接的2D残差块,依次进行残差计算并得到输出向量
Figure BDA0002669043550000112
其次,将
Figure BDA0002669043550000113
进一步经2D平均池化层计算,得到特征向量
Figure BDA0002669043550000114
最后,将
Figure BDA0002669043550000115
输入到全连接层,经计算得到A-Net提取的总特征向量Xa
在静态空间模块中,主要涉及如下计算:
取u=a,2D残差块的计算过程如公式(1)所示,且C=16,v=4,5,6,7;2D平均池化层的计算;全连接层的计算。
步骤2.2.2、构建两个包含2D与3D卷积的相同结构神经网络分支LS-Net_1、LS-Net_2,如图3所示,分别从帧序列Gsr、Glr中提取短时间尺度、长时间尺度的动态时序特征Xsr、Xlr
所述LS-Net_1(或LS-Net_2)的具体构建过程如下:
步骤2.2.2.1、建立基础模块,对输入帧序列Gsr(或Glr)进行特征提取,得到输出向量ys
与步骤2.2.1.1对帧序列Ga进行特征提取的过程相同,取u=sr(或lr),将帧序列Gsr(或Glr)输入到基础模块(如图3)进行计算,得到总输出向量ys
步骤2.2.2.2、建立动态空间模块(如图3),继续对步骤2.2.2.1的输出向量ys进行特征提取,以得到特征向量ysr
在动态空间模块中,首先,将ys输入到四个顺序连接的2D残差块,依次进行残差计算,得到相应的输出向量ysr,r4、ysr,r5、ysr,r6、ysr,r7。其次,ysr,r7进一步经2D平均池化层计算得到特征向量ysr,ap。最后,将ysr,ap输入到全连接层进行计算,得到动态空间模块输出的总特征向量ysr。动态空间模块涉及的计算完全类似于静态空间模块,只是u的取值为u=sr(或lr)。
步骤2.2.2.3、建立动态时间模块(如图3),继续对步骤2.2.2.1的输出向量ys进行特征提取,得到特征向量yt
在动态时间模块中,首先,将ys输入到三个顺序连接的3D残差块,依次进行残差计算,得到相应的输出向量yt,r4、yt,r5、yt,r6。其次,yt,r6经过3D平均池化层计算,得到特征向量yt,ap。最后,将yt,ap输入全连接层计算后,获得动态时间模块的总特征向量yt
动态时间模块主要涉及如下计算:
在3D残差块中引入密集连接后,各残差块的计算公式如下:
Figure BDA0002669043550000121
xl和yl分别表示第l个3D残差块的输入与输出特征向量,Hl(·)表示该3D残差块的残差计算函数,包括对输入进行的批量正则化、激励和3D卷积操作,θl指Hl(·)中所有的可训练参数。y4′、y5′分别表示ysr,r4、ysr,r5经过降维后得到的特征向量,[y4′,Hl(xl;θl)]表示将y4′与当前残差块的原输出特征Hl(xl;θl)进行拼接操作。
步骤2.2.2.4、建立时空交互模块,通过在动态空间模块和动态时间模块间引入时空交互连接,使动态空间模块的输出向量由ysr变成y′sr
时空交互模块的具体构建过程如下:
从动态空间模块的第一个2D残差块与动态时间模块的第一个3D残差块开始:首先,将3D残差块的输出向量
Figure BDA0002669043550000122
经3D-2D变换为
Figure BDA0002669043550000123
w=4,5,6;其次,将
Figure BDA0002669043550000124
和2D残差块的输出向量
Figure BDA0002669043550000125
进行拼接,得到拼接向量
Figure BDA0002669043550000126
接着,
Figure BDA0002669043550000127
进一步经过2D平均池化层计算,得到向量
Figure BDA0002669043550000128
最后,通过旁路连接,将
Figure BDA0002669043550000129
与下一个2D残差块的原输出向量
Figure BDA00026690435500001210
进行线性叠加,得到2D残差块的新输出向量
Figure BDA0002669043550000131
重复上述过程,直至将动态空间模块的所有2D残差块与动态时间模块的所有3D残差块全部进行时空交互连接,时空交互模块构建完毕。动态空间模块也因时空交互模块的产生提取到新的残差块输出特征y′sr,r5、y′sr,r6、y′sr,r7。同时,y′sr,r7进一步经2D平均池化层计算得到y′sr,ap,而将y′sr,ap输入到全连接层进行计算,得到最终动态空间模块新的总输出特征向量y′sr
经过步骤2.2.1至2.2.2设计的三个网络分支A-Net、LS-Net_1、LS-Net_2,分别对帧序列Ga、Gsr、Glr进行特征提取,相应地得到三个特征向量Xa、Xsr、Xlr
(3)加权聚合层与分类层
所述加权聚合层,用于将所述特征向量Xa、Xsr及Xlr进行加权融合得到综合特征;所述分类层,用于对所述综合特征进行分类得到视频的行为类别。
对于特征向量Xa、Xsr及Xlr的处理过程,包括如下步骤:
步骤2.3.1、将三个特征向量Xa、Xsr、Xlr输入一个全连接层,进行自适应加权融合,获得融合向量Xout。该加权融合层涉及的主要计算如下:
Figure BDA0002669043550000134
其中,Xout表示该加权融合层的输出向量,
Figure BDA0002669043550000135
表示对位相乘运算。Xa、Xsr、Xlr分别表示步骤三中三个并行网络分支A-Net、LS-Net_1、LS-Net_2的输出特征向量,Wa、Wsr、Wlr分别为向量Xa、Xsr、Xlr在全连接层中对应的融合权重。
步骤2.3.2、采用另一个全连接层对融合层的输出Xout进行特征提取,获得特征向量Z(其维度等于总类别数),再经softmax分类器输出各个类别的概率值,选取最大输出概率对应的类别,作为当前视频行为的识别结果
Figure BDA0002669043550000132
步骤2.3.3、根据识别结果
Figure BDA0002669043550000133
与行为标签Y计算总体误差Etotal。具体地,本发明采用交叉熵损失函数。
步骤3、采用所述样本视频训练所述视频行为识别模型,当所述视频行为识别模型输出的行为类别与标签的误差值为最小时,完成所述视频行为识别模型的训练。
具体地,不断输入视频数据训练设计好结构的网络,经过反向传播过程进行参数更新,使模型自适应优化特征融合权重Wa、Wsr、Wlr,并沿着损失函数定义的方向不断降低总体误差,直至其达到最小值,完成整个网络训练并得到最终的行为识别模型。
经过步骤一到步骤五,即可得到训练好的基于多尺度时空特征聚合的视频行为识别模型。
步骤4、应用中,将待识别视频输入训练好的视频行为识别模型中,模型的输出即为所述待识别视频的行为类别。
为检验本发明方法的效果,在行为识别标准数据集UCF-101上,将本发明提出的多尺度时空特征聚合网络(MSFA)与现有几种视频行为识别方法进行对比实验,包括Two-stream,TSN和ECO。其中UCF-101数据集由佛罗里达大学提供,共计101个动作类别,13320个视频片段,主要有5大类动作,即人-物交互、肢体运动、人-人交互、弹奏乐器、运动。
在实验前,对每段视频进行数据增强处理,以扩大数据集中的训练样本。实验在Tensorflow平台上进行,对本发明方法采用基于Adam优化器的小批次法进行网络训练。
实验以最终测试集识别准确率和训练时间作为两个主要的性能评价指标,同时结合验证集准确率进行方法对比,对比结果如图4至图6所示。
由图4可以看出,与现有的其他几种视频行为识别方法相比,本发明方法获得了最高的测试集识别准确率,相对于准确率最高的ECO算法提升约1.9%,相对于准确率最低的Two-stream算法提升约8.3%,识别结果更为准确。
由图5可知,本发明方法的训练时间为几种视频行为识别方法中的最低值,相对于训练时间最短的ECO算法减少0.5小时,相对于训练时间最长的Two-stream算法减少6.1小时,说明本发明算法的模型训练速度最快,能够更好地满足应用场景中的实时性需求,
由图6可以看出,本发明方法的验证集准确率曲线高于其他几种视频行为识别方法,表明本发明算法的模型收敛速度最快,能够进一步节省训练时间。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多尺度时空特征聚合的视频行为识别方法,其特征在于,包括以下步骤:
构建视频行为识别模型,所述视频行为识别模型包括数据采样层、特征提取层、加权聚合层和分类层;
所述数据采样层包括局部静态随机采样单元、短时间间隔全局动态采样单元和长时间间隔全局动态采样单元;所述局部静态随机采样单元,将待识别视频划分为多个等长的子视频段后,对任意子视频段进行随机采样得到帧序列Ga;所述短时间间隔全局动态采样单元,将视频按照小于设定值的时间间隔进行采样得到帧序列Gsr;所述长时间间隔全局动态采样单元,将视频按照大于设定值的时间间隔进行采样得到帧序列Glr
所述特征提取层包括静态空间特征提取单元和动态空间特征提取单元;所述静态空间特征提取单元,用于提取所述帧序列Ga的特征向量Xa;所述动态空间特征提取单元用于提取所述帧序列Gsr及Glr的特征向量Xsr、Xlr
所述加权聚合层,用于将所述特征向量Xa、Xsr及Xlr进行加权融合得到综合特征;所述分类层,用于对所述综合特征进行分类得到视频的行为类别;
将待识别视频输入视频行为识别模型中,模型的输出即为所述待识别视频的行为类别。
2.根据权利要求1所述的方法,其特征在于,所述静态空间特征提取单元及动态空间特征提取单元均基于卷积神经网络构建,所述静态空间特征提取单元及动态空间特征提取单元的训练过程,包括以下步骤:
以样本视频作为输入,以所述样本视频的行为类别作为标签,构建训练样本集;采用所述样本视频输入所述视频行为识别模型,当所述视频行为识别模型输出的行为类别与训练样本集中标签的误差值为最小时,完成所述视频行为识别模型的训练,即完成了所述静态空间特征提取单元及动态空间特征提取单元的训练。
3.根据权利要求2所述的方法,其特征在于,所述静态空间特征提取单元包括级联的多个卷积层与最大池化层组合、多个残差块、平均池化层及全连接层。
4.根据权利要求3所述的方法,其特征在于,所述静态空间特征提取单元包括基础模块和静态空间模块,所述基础模块包括依次级联的卷积层、最大池化层、卷积层、最大池化层及三个2D残差块;所述静态空间模块包括依次级联的四个2D残差块、平均池化层及全连接层。
5.根据权利要求4所述的方法,其特征在于,所述2D残差块引入了多支路并行堆叠拓扑结构,包括三层瓶颈结构和四层瓶颈结构,且三层瓶颈结构和四层瓶颈结构的并行支路数量相等;所述2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理,所述2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与所述2D残差块的输入的求和。
6.根据权利要求2所述的方法,其特征在于,所述动态空间特征提取单元包括基础模块、动态空间模块、动态时间模块及时空交互模块;所述基础模块的输出作为动态空间模块与动态时间模块的输入;所述时空交互模块完成动态空间模块与动态时间模块间中间数据的拼接与平均池化;所述动态空间模块与动态时间模块的输出经过拼接后形成所述特征向量Xsr或Xlr
其中,所述基础模块包括级联的多个卷积层、最大池化层组合与多个残差块;所述时空交互模块包括多个拼接层A与平均池化层的组合;所述动态空间模块包括级联的多个残差块、平均池化层及全连接层;所述动态时间模块包括级联的残差块、多个残差块与拼接层B的组合、平均池化层及全连接层,所述拼接层B用于将相连的残差块的输出与上一级残差块的降维后的输出进行拼接;
所述时空交互模块将所述动态空间模块与所述动态时间模块中残差块的输出,先经过拼接层进行拼接,再经过平均池化层进行池化,并将池化后的结果叠加到所述动态空间模块中当前残差块的输出中。
7.根据权利要求6所述的方法,其特征在于,所述动态空间模块包括级联的2D残差块4、2D残差块5、2D残差块6、2D残差块7、2D平均池化层1及全连接层1;所述动态时间模块包括级联的3D残差块4、3D残差块5、拼接层1、3D残差块6、拼接层2、3D平均池化层1及全连接层2;所述时空交互模块包括拼接层3、2D平均池化层4、拼接层4、2D平均池化层5、拼接层5、2D平均池化层6;
其中,2D残差块4的输入为所述基础模块的输出,2D残差块4的输出为2D残差块5的输入;拼接层3的输入包括2D残差块4及3D残差块4的输出,拼接层3的输出作为2D平均池化层4的输入,2D平均池化层4的输出与2D残差块5的输出的和作为2D残差块6的输入,2D平均池化层4的输出与2D残差块5的输出的和及拼接层1的输出共同作为拼接层4的输入,拼接层4的输出为2D平均池化层5的输入,2D平均池化层5的输出与2D残差块6的输出的和作为2D残差块7的输入,2D平均池化层5的输出与2D残差块6的输出的和及拼接层2的输出作为拼接层5的输入,拼接层5的输出作为2D平均池化层6的输入,2D平均池化层6的输出与2D残差块7的输出的和作为2D平均池化层1的输入,2D平均池化层1的输出为全连接层1的输入;3D残差块4的输入为所述基础模块的输出,3D残差块4的输出为3D残差块5的输入,3D残差块4的输出经过降维处理后与3D残差块5的输出一同作为拼接层1的输入;拼接层1的输出作为3D残差块6的输入,所述基础模块的输出及3D残差块5的输出分别经过降维处理后与3D残差块6的输出一同作为拼接层2的输入,拼接层2的输出作为3D平均池化层1的输入,3D平均池化层1的输出作为全连接层2的输入;全连接层1的输出与全连接层2的输出经过拼接后形成所述动态空间特征提取单元的输出。
8.根据权利要求2所述的方法,其特征在于,所述加权聚合层将所述特征向量Xa、Xsr及Xlr自适应加权融合形成特征向量Z,具体包括以下步骤:
步骤5.1、将所述特征向量Xa、Xsr及Xlr输入如公式(1)所示的全连接层1:
Figure FDA0002669043540000041
其中,X′out为所述全连接层的输出向量,
Figure FDA0002669043540000042
为对位相乘运算,Wa、Wsr、Wlr分别为向量Xa、Xsr、Xlr对应的融合权重;Wa、Wsr、Wlr的取值由所述完成所述视频行为识别模型的训练后确定;
步骤5.2、采用如公式(2)所示的全连接层2对输出X′out进行特征提取,获得特征向量Z;
Z=WfcX′out+bfc (2)
其中,Wfc和bfc分别为权重与偏置,Wfc和bfc的取值由所述完成所述视频行为识别模型的训练后确定。
CN202010927702.XA 2020-09-07 2020-09-07 一种基于多尺度时空特征聚合的视频行为识别方法 Active CN112052795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010927702.XA CN112052795B (zh) 2020-09-07 2020-09-07 一种基于多尺度时空特征聚合的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010927702.XA CN112052795B (zh) 2020-09-07 2020-09-07 一种基于多尺度时空特征聚合的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN112052795A CN112052795A (zh) 2020-12-08
CN112052795B true CN112052795B (zh) 2022-10-18

Family

ID=73607521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010927702.XA Active CN112052795B (zh) 2020-09-07 2020-09-07 一种基于多尺度时空特征聚合的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN112052795B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699786B (zh) * 2020-12-29 2022-03-29 华南理工大学 一种基于空间增强模块的视频行为识别方法及系统
CN112381072B (zh) * 2021-01-11 2021-05-25 西南交通大学 一种基于时空信息及人、物交互的人体异常行为检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010016992A2 (en) * 2008-07-09 2010-02-11 Florida Atlantic University System and method for analysis of spatio-temporal data
CN104657424A (zh) * 2015-01-21 2015-05-27 段炼 一种多时空特征融合下的兴趣点轨迹聚类方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110942037A (zh) * 2019-11-29 2020-03-31 河海大学 一种用于视频分析中的动作识别方法

Also Published As

Publication number Publication date
CN112052795A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN113628294B (zh) 一种面向跨模态通信系统的图像重建方法及装置
Wang et al. SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT
Tu et al. Joint-bone fusion graph convolutional network for semi-supervised skeleton action recognition
CN114398961B (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
Miao et al. A central difference graph convolutional operator for skeleton-based action recognition
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112052795B (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN108090472A (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113283400B (zh) 一种基于选择性超图卷积网络的骨架动作识别方法
Gao et al. A novel multiple-view adversarial learning network for unsupervised domain adaptation action recognition
CN112434608A (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112446253A (zh) 一种骨架行为识别方法及装置
Wang et al. Occluded person re-identification via defending against attacks from obstacles
CN114863572B (zh) 一种多通道异构传感器的肌电手势识别方法
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
Qu et al. DAMNet: Dual attention mechanism deep neural network for underwater biological image classification
CN117809109A (zh) 基于多尺度时间特征的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant