CN112052795B

CN112052795B - 一种基于多尺度时空特征聚合的视频行为识别方法

Info

Publication number: CN112052795B
Application number: CN202010927702.XA
Authority: CN
Inventors: 李慧芳; 石其松; 樊锐; 黄姜杭; 王彬阳; 姚小兰; 刘向东
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-10-18
Anticipated expiration: 2040-09-07
Also published as: CN112052795A

Abstract

本发明公开了一种基于多尺度时空特征聚合的视频行为识别方法，通过采用多通道并行采样方法，分别从输入视频中抽取不同时间尺度帧图像序列，以获取对人体行为更具鲁棒性的多尺度序列表示，使模型能够同时关注不同类型的数据输入，实现对行为表征的全面学习，提高人体行为识别的准确率；通过差异化采样、网络结构优化以及特征融合策略，构建多尺度时空特征聚合网络，对输入视频中的人体行为进行准确识别，并在一定程度上满足应用场景的实时性要求，为视频行为的高效、精准识别提供了新的思路和途径。

Description

一种基于多尺度时空特征聚合的视频行为识别方法

技术领域

本发明属于计算机视觉以及人体行为识别技术领域，具体涉及一种基于多尺度时空特征聚合的视频行为识别方法。

背景技术

随着工业互联网的日益普及和深入应用,多媒体数据的产生呈现大数据特征，海量视频信息的收集也变得很容易。在信息爆炸时代，如何高效地理解视频、发现隐藏在视频中的知识，并向终端用户推荐更精准的服务引起了人们的广泛关注。特别是在安防监控、医疗诊断、人机交互以及虚拟现实等领域，需要高效的视频行为识别技术来应对视频数据的自动分析和智能化理解的挑战。

视频中的人体行为存在动作、速率等方面的多样性，例如不同行为动作的持续时间不等，其视频识别所需的帧序列也不尽相同。因此，采用单一序列的视频识别方法，难以有效表征所有的动作类型，并使模型不易提取判别性特征。另外，在安防监控、医疗诊断等应用领域，视频识别的实时性直接影响应用的效果，如何在海量视频数据场景下快速识别视频中的人体行为，也是视频识别面临的一大难题。

现有方法可被大致分为两类，一类是基于双流卷积网络的方法，利用空间流和时间流，分别对RGB图像与光流进行特征提取、得分预测，并通过融合空间流和时间流的得分来获取最终的识别结果；另一类是基于3D卷积网络的方法，通过3D卷积捕获RGB图像视频包含的空间与时间信息，得到识别结果。然而，在实际应用中，上述两类方法仍存在以下不足:一是缺乏对人体行为多样性的关注，忽略各类型动作间的差异性，难以获取不同行为更具鲁棒性的表征，影响识别精度；二是难以平衡识别精度与识别速度之间矛盾，传统的2D或3D卷积结构模型存在较高的计算复杂度，大大影响了算法的实时性；三是特征融合策略过于简单，即对获取的不同类型特征，要么直接简单拼接，要么通过手动设置特定的权重进行融合，最终使模型难以学习到对不同行为最具判别力的特征表示，影响识别效果。

发明内容

有鉴于此，本发明提供了一种基于多尺度时空特征聚合的视频行为识别方法，能够实现视频数据中人体行为的自动与准确识别。

本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法，包括以下步骤：

构建视频行为识别模型，所述视频行为识别模型包括数据采样层、特征提取层、加权聚合层和分类层；

所述数据采样层包括局部静态随机采样单元、短时间间隔全局动态采样单元和长时间间隔全局动态采样单元；所述局部静态随机采样单元，将待识别视频划分为多个等长的子视频段后，对任意子视频段进行随机采样得到帧序列G_a；所述短时间间隔全局动态采样单元，将视频按照小于设定值的时间间隔进行采样得到帧序列G_sr；所述长时间间隔全局动态采样单元，将视频按照大于设定值的时间间隔进行采样得到帧序列G_lr；

所述特征提取层包括静态空间特征提取单元和动态空间特征提取单元；所述静态空间特征提取单元，用于提取所述帧序列G_a的特征向量X_a；所述动态空间特征提取单元用于提取所述帧序列G_sr及G_lr的特征向量X_sr、X_lr；

所述加权聚合层，用于将所述特征向量X_a、X_sr及X_lr进行加权融合得到综合特征；所述分类层，用于对所述综合特征进行分类得到视频的行为类别；

将待识别视频输入视频行为识别模型中，模型的输出即为所述待识别视频的行为类别。

进一步地，所述静态空间特征提取单元及动态空间特征提取单元均基于卷积神经网络构建，所述静态空间特征提取单元及动态空间特征提取单元的训练过程，包括以下步骤：

以样本视频作为输入，以所述样本视频的行为类别作为标签，构建训练样本集；采用所述样本视频输入所述视频行为识别模型，当所述视频行为识别模型输出的行为类别与训练样本集中标签的误差值为最小时，完成所述视频行为识别模型的训练，即完成了所述静态空间特征提取单元及动态空间特征提取单元的训练。

进一步地，所述静态空间特征提取单元包括级联的多个卷积层与最大池化层组合、多个残差块、平均池化层及全连接层。

进一步地，所述静态空间特征提取单元包括基础模块和静态空间模块，所述基础模块包括依次级联的卷积层、最大池化层、卷积层、最大池化层及三个2D残差块；所述静态空间模块包括依次级联的四个2D残差块、平均池化层及全连接层。

进一步地，所述2D残差块引入了多支路并行堆叠拓扑结构，包括三层瓶颈结构和四层瓶颈结构，且三层瓶颈结构和四层瓶颈结构的并行支路数量相等；所述2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理，所述2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与所述2D残差块的输入的求和。

进一步地，所述动态空间特征提取单元包括基础模块、动态空间模块、动态时间模块及时空交互模块；所述基础模块的输出作为动态空间模块与动态时间模块的输入；所述时空交互模块完成动态空间模块与动态时间模块间中间数据的拼接与平均池化；所述动态空间模块与动态时间模块的输出经过拼接后形成所述特征向量X_sr或X_lr；

其中，所述基础模块包括级联的多个卷积层、最大池化层组合与多个残差块；所述时空交互模块包括多个拼接层A与平均池化层的组合；所述动态空间模块包括级联的多个残差块、平均池化层及全连接层；所述动态时间模块包括级联的残差块、多个残差块与拼接层B的组合、平均池化层及全连接层，所述拼接层B用于将相连的残差块的输出与上一级残差块的降维后的输出进行拼接；

所述时空交互模块将所述动态空间模块与所述动态时间模块中残差块的输出，先经过拼接层进行拼接，再经过平均池化层进行池化，并将池化后的结果叠加到所述动态空间模块中当前残差块的输出中。

进一步地，所述动态空间模块包括级联的2D残差块4、2D残差块5、2D残差块6、2D残差块7、2D平均池化层1及全连接层1；所述动态时间模块包括级联的3D残差块4、3D残差块5、拼接层1、3D残差块6、拼接层2、3D平均池化层1及全连接层2；所述时空交互模块包括拼接层3、2D平均池化层4、拼接层4、2D平均池化层5、拼接层5、2D平均池化层6；

其中，2D残差块4的输入为所述基础模块的输出，2D残差块4的输出为2D残差块5的输入；拼接层3的输入包括2D残差块4及3D残差块4的输出，拼接层3的输出作为2D平均池化层4的输入，2D平均池化层4的输出与2D残差块5的输出的和作为2D残差块6的输入，2D平均池化层4的输出与2D残差块5的输出的和及拼接层1的输出共同作为拼接层4的输入，拼接层4的输出为2D平均池化层5的输入，2D平均池化层5的输出与2D残差块6的输出的和作为2D残差块7的输入，2D平均池化层5的输出与2D残差块6的输出的和及拼接层2的输出作为拼接层5的输入，拼接层5的输出作为2D平均池化层6的输入，2D平均池化层6的输出与2D残差块7的输出的和作为2D平均池化层1的输入，2D平均池化层1的输出为全连接层1的输入；3D残差块4的输入为所述基础模块的输出，3D残差块4的输出为3D残差块5的输入，3D残差块4的输出经过降维处理后与3D残差块5的输出一同作为拼接层1的输入；拼接层1的输出作为3D残差块6的输入，所述基础模块的输出及3D残差块5的输出分别经过降维处理后与3D残差块6的输出一同作为拼接层2的输入，拼接层2的输出作为3D平均池化层1的输入，3D平均池化层1的输出作为全连接层2的输入；全连接层1的输出与全连接层2的输出经过拼接后形成所述动态空间特征提取单元的输出。

进一步地，所述加权聚合层将所述特征向量X_a、X_sr及X_lr自适应加权融合形成特征向量Z，具体包括以下步骤：

步骤5.1、将所述特征向量X_a、X_sr及X_lr输入如公式(1)所示的全连接层1：

其中，X′_out为所述全连接层的输出向量，

为对位相乘运算，W_a、W_sr、W_lr分别为向量X_a、X_sr、X_lr对应的融合权重；W_a、W_sr、W_lr的取值由所述完成所述视频行为识别模型的训练后确定；

步骤5.2、采用如公式(2)所示的全连接层2对输出X_o′_ut进行特征提取，获得特征向量Z；

Z＝W^fcX′_out+b^fc (2)

其中，W^fc和b^fc分别为权重与偏置，W^fc和b^fc的取值由所述完成所述视频行为识别模型的训练后确定。

有益效果：

1、本发明通过采用多通道并行采样方法，分别从输入视频中抽取不同时间尺度帧图像序列，以获取对人体行为更具鲁棒性的多尺度序列表示，使模型能够同时关注不同类型的数据输入，实现对行为表征的全面学习，提高人体行为识别的准确率；通过差异化采样、网络结构优化以及特征融合策略，构建多尺度时空特征聚合网络，对输入视频中的人体行为进行准确识别，并在一定程度上满足应用场景的实时性要求，为视频行为的高效、精准识别提供了新的思路和途径。

2、本发明通过引入多支路并行堆叠、密集连接与时空交互连接等结构，建立并行网络分支，以便从并行采样序列中学习多尺度时空特征，通过降低计算复杂度与路径优化来加快网络训练速度，在提升模型收敛性和算法实时性的同时，实现了高效的特征提取。

3、本发明通过采用自适应加权聚合策略，将多尺度时空特征进行加权融合，并在网络训练过程中实现特征权重的自适应更新，突出行为识别的判别性特征，增强模型对不同动作的有效辨别能力，提高行为识别准确率。

附图说明

图1为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的总体架构图。

图2为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法构建的A-Net的结构图。

图3为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法构建的LS-Net_1与LS-Net_2的结构图。

图4为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的测试准确率对比图。

图5为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的模型训练总时间对比图。

图6为本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法的算法验证准确率对比图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法，其基本思想是：针对不同类型人体动作特性以及实际应用场景对视频识别算法的高实时性要求，采用差异化采样、网络结构优化以及时空特征融合等策略，构建多尺度时空特征聚合网络，对输入视频中的人体行为进行准确识别，并在一定程度上满足应用场景的实时性要求。

本发明提供的一种基于多尺度时空特征聚合的视频行为识别方法，方法的流程如图1所示，具体包括以下步骤：

步骤1、以样本视频作为输入，以所述样本视频的行为类别作为标签，构建训练样本集。

例如，样本视频为帧长为L的视频V，视频V的行为类别为Y，即视频V为输入，行为类别Y为标签。

步骤2、构建视频行为识别模型，所述视频行为识别模型包括数据采样层、特征提取层、加权聚合层和分类层。

(1)数据采样层

所述数据采样层包括局部静态随机采样单元、短时间间隔全局动态采样单元和长时间间隔全局动态采样单元；所述局部静态随机采样单元，将视频划分为多个等长的子视频段后，对任意子视频段进行随机采样得到帧序列G_a；所述短时间间隔全局动态采样单元，将视频按照小于设定值的时间间隔进行采样得到帧序列G_sr；所述长时间间隔全局动态采样单元，将视频按照大于设定值的时间间隔进行采样得到帧序列G_lr。

对输入的视频V，进行局部静态随机采样以及按照短时间间隔m和长时间间隔n的全局动态采样，得到一组多尺度帧图像序列G_a、G_sr、G_lr。首先使用局部静态随机采样，对输入视频V只选择其任意一个子视频段S_i(i∈[1,N])，随机抽取其中的N帧图像组成帧序列G_a；其次使用全局动态短间隔采样，按短时间间隔m对输入视频V进行帧图像抽取，以从每个子视频段S_i中抽取一帧，顺序组成帧序列G_sr；最后使用全局动态长间隔采样，对输入视频V按长时间间隔n进行帧图像抽取，以从每个子视频段S_i中抽取一帧，顺序组成帧序列G_lr。

具体采样过程包括以下步骤：

步骤2.1.1、对输入视频V进行局部静态随机采样，获得帧序列G_a。

具体地，选择V中任意一个子视频段S_i(i∈[1,N])，随机抽取其中的N帧图像组成视频帧序列

其中

分别表示时间点r₁,r₂,...,r_N处的视频帧图像。

步骤2.1.2、对输入视频V，按照间隔m进行全局动态短间隔采样，获得帧序列G_sr。

具体地，按短时间间隔

从V中等间隔抽取帧图像，即在时间点i_p＝s+pm处从每个子视频段S_i(i＝1,2,3,...,N)中抽取一帧，依次组成短间隔视频帧序列

其中s表示第一个抽取时间点；i_p满足

p＝0,1,2,...,N-1；

分别表示时间点s,s+m,...,s+pm,...,s+(N-1)m处的视频帧图像。

步骤2.1.3、对输入视频V进行全局动态长间隔采样，获得帧序列G_lr。

具体地，按长时间间隔

从V中等间隔抽取帧图像，即在时间点j_q＝t+qn处从每个子视频段S_i(i＝1,2,3,...,N)中抽取一帧，依次组成视频帧序列

其中t表示第一个抽取时间点；j_q满足

q＝0,1,2,...,N-1；

分别表示时间点t,t+n,...,t+qn,...,t+(N-1)n处的视频帧图像。

(2)特征提取层

所述特征提取层包括静态空间特征提取单元和动态空间特征提取单元；所述静态空间特征提取单元，用于提取所述帧序列G_a的特征向量X_a；所述动态空间特征提取单元用于提取所述帧序列G_sr及G_lr的特征向量X_sr、X_lr。

在具体使用过程中，本发明提供的方法所要构建的特征提取层中各单元的具体数量，需要结合对实际数据量的考虑，以确保能够同时满足准确率与实时性两方面的要求。

例如，本发明可构建包含一个静态空间特征提取单元和两个动态空间特征提取单元的特征提取层。其中，静态空间特征提取单元命名为A-Net，其结构如图2所示，两个动态空间特征提取单元分别命名为LS-Net_1与LS-Net_2，其结构如图3所示。在图2、图3中，所有的同名层均采用同样的网络结构，例如2D残差块_1和2D残差块_2。令u＝{a,sr,lr}，u的三个取值分别表示A-Net、LS-Net_1、LS-Net_2网络分支的操作。总起来说，静态空间特征提取单元和动态空间特征提取单元，具体包括以下四种结构：现有技术中的卷积层、最大池化层、2D平均池化层、3D平均池化层及全连接层，以及本发明提出的2D残差块。

本发明在设计2D残差块时，均引入了多支路并行堆叠拓扑结构，且三层瓶颈结构和四层瓶颈结构的并行支路各占50％，2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理，2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与2D残差块的输入的求和。具体计算公式如下：

其中

分别表示第v个2D残差块的输入、输出特征，v∈[1,7]，C为每个2D残差块包含并行支路的总个数。E_h(·)为第h个三层瓶颈结构并行支路的残差计算函数，包括对输入的批量正则化、激励和2D卷积操作，λ_h为E_h(·)中所有的可训练参数；F_h(·)为第h个四层瓶颈结构并行支路的残差计算函数，ε_h为F_h(·)中所有的可训练参数。

静态空间特征提取单元和动态空间特征提取单元的具体构建过程如下：

步骤2.2.1、构建一个2D卷积神经网络分支A-Net，从帧序列G_a中提取静态表观特征X_a，具体包括如下步骤：

步骤2.2.1.1、建立基础模块，对输入帧序列G_a进行特征提取，得到输出向量

在基础模块中，首先，依次将G_a输入到一组卷积层和最大池化层进行卷积与池化计算，得到特征向量

其次，

进一步经过另一组卷积层和最大池化层计算，得到特征向量

然后，将

经三个顺序连接的2D残差块计算，得到特征向量

并将最终的输出

作为基础模块提取的总特征向量

即

在基础模块中，主要涉及如下计算：

取u＝a，卷积层的计算；最大池化层的计算；2D残差块的计算依照公式(1)，并取C＝16，v＝1,2,3。

步骤2.2.1.2、建立静态空间模块，对步骤2.2.1.1的输出

进行特征提取，获得A-Net的总输出特征向量X_a。

在静态空间模块中，首先，将基础模块输出的特征向量

输入到四个顺序连接的2D残差块，依次进行残差计算并得到输出向量

其次，将

进一步经2D平均池化层计算，得到特征向量

最后，将

输入到全连接层，经计算得到A-Net提取的总特征向量X_a。

在静态空间模块中，主要涉及如下计算：

取u＝a，2D残差块的计算过程如公式(1)所示，且C＝16，v＝4,5,6,7；2D平均池化层的计算；全连接层的计算。

步骤2.2.2、构建两个包含2D与3D卷积的相同结构神经网络分支LS-Net_1、LS-Net_2，如图3所示，分别从帧序列G_sr、G_lr中提取短时间尺度、长时间尺度的动态时序特征X_sr、X_lr。

所述LS-Net_1(或LS-Net_2)的具体构建过程如下：

步骤2.2.2.1、建立基础模块，对输入帧序列G_sr(或G_lr)进行特征提取，得到输出向量y_s。

与步骤2.2.1.1对帧序列G_a进行特征提取的过程相同，取u＝sr(或lr)，将帧序列G_sr(或G_lr)输入到基础模块(如图3)进行计算，得到总输出向量y_s。

步骤2.2.2.2、建立动态空间模块(如图3)，继续对步骤2.2.2.1的输出向量y_s进行特征提取，以得到特征向量y_sr。

在动态空间模块中，首先，将y_s输入到四个顺序连接的2D残差块，依次进行残差计算，得到相应的输出向量y_sr,r4、y_sr,r5、y_sr,r6、y_sr,r7。其次，y_sr,r7进一步经2D平均池化层计算得到特征向量y_sr,ap。最后，将y_sr,ap输入到全连接层进行计算，得到动态空间模块输出的总特征向量y_sr。动态空间模块涉及的计算完全类似于静态空间模块，只是u的取值为u＝sr(或lr)。

步骤2.2.2.3、建立动态时间模块(如图3)，继续对步骤2.2.2.1的输出向量y_s进行特征提取，得到特征向量y_t。

在动态时间模块中，首先，将y_s输入到三个顺序连接的3D残差块，依次进行残差计算，得到相应的输出向量y_t,r4、y_t,r5、y_t,r6。其次，y_t,r6经过3D平均池化层计算，得到特征向量y_t,ap。最后，将y_t,ap输入全连接层计算后，获得动态时间模块的总特征向量y_t。

动态时间模块主要涉及如下计算：

在3D残差块中引入密集连接后，各残差块的计算公式如下：

x_l和y_l分别表示第l个3D残差块的输入与输出特征向量，H_l(·)表示该3D残差块的残差计算函数，包括对输入进行的批量正则化、激励和3D卷积操作，θ_l指H_l(·)中所有的可训练参数。y₄′、y₅′分别表示y_sr,r4、y_sr,r5经过降维后得到的特征向量，[y₄′,H_l(x_l；θ_l)]表示将y₄′与当前残差块的原输出特征H_l(x_l；θ_l)进行拼接操作。

步骤2.2.2.4、建立时空交互模块，通过在动态空间模块和动态时间模块间引入时空交互连接，使动态空间模块的输出向量由y_sr变成y′_sr。

时空交互模块的具体构建过程如下：

从动态空间模块的第一个2D残差块与动态时间模块的第一个3D残差块开始：首先，将3D残差块的输出向量

经3D-2D变换为

w＝4,5,6；其次，将

和2D残差块的输出向量

进行拼接，得到拼接向量

接着，

进一步经过2D平均池化层计算，得到向量

最后，通过旁路连接，将

与下一个2D残差块的原输出向量

进行线性叠加，得到2D残差块的新输出向量

重复上述过程，直至将动态空间模块的所有2D残差块与动态时间模块的所有3D残差块全部进行时空交互连接，时空交互模块构建完毕。动态空间模块也因时空交互模块的产生提取到新的残差块输出特征y′_sr,r5、y′_sr,r6、y′_sr,r7。同时，y′_sr,r7进一步经2D平均池化层计算得到y′_sr,ap，而将y′_sr,ap输入到全连接层进行计算，得到最终动态空间模块新的总输出特征向量y′_sr。

经过步骤2.2.1至2.2.2设计的三个网络分支A-Net、LS-Net_1、LS-Net_2，分别对帧序列G_a、G_sr、G_lr进行特征提取，相应地得到三个特征向量X_a、X_sr、X_lr。

(3)加权聚合层与分类层

所述加权聚合层，用于将所述特征向量X_a、X_sr及X_lr进行加权融合得到综合特征；所述分类层，用于对所述综合特征进行分类得到视频的行为类别。

对于特征向量X_a、X_sr及X_lr的处理过程，包括如下步骤：

步骤2.3.1、将三个特征向量X_a、X_sr、X_lr输入一个全连接层，进行自适应加权融合，获得融合向量X_out。该加权融合层涉及的主要计算如下：

其中，X_out表示该加权融合层的输出向量，

表示对位相乘运算。X_a、X_sr、X_lr分别表示步骤三中三个并行网络分支A-Net、LS-Net_1、LS-Net_2的输出特征向量，W_a、W_sr、W_lr分别为向量X_a、X_sr、X_lr在全连接层中对应的融合权重。

步骤2.3.2、采用另一个全连接层对融合层的输出X_out进行特征提取，获得特征向量Z(其维度等于总类别数),再经softmax分类器输出各个类别的概率值，选取最大输出概率对应的类别，作为当前视频行为的识别结果

步骤2.3.3、根据识别结果

与行为标签Y计算总体误差E_total。具体地，本发明采用交叉熵损失函数。

步骤3、采用所述样本视频训练所述视频行为识别模型，当所述视频行为识别模型输出的行为类别与标签的误差值为最小时，完成所述视频行为识别模型的训练。

具体地，不断输入视频数据训练设计好结构的网络，经过反向传播过程进行参数更新，使模型自适应优化特征融合权重W_a、W_sr、W_lr，并沿着损失函数定义的方向不断降低总体误差，直至其达到最小值，完成整个网络训练并得到最终的行为识别模型。

经过步骤一到步骤五，即可得到训练好的基于多尺度时空特征聚合的视频行为识别模型。

步骤4、应用中，将待识别视频输入训练好的视频行为识别模型中，模型的输出即为所述待识别视频的行为类别。

为检验本发明方法的效果，在行为识别标准数据集UCF-101上，将本发明提出的多尺度时空特征聚合网络(MSFA)与现有几种视频行为识别方法进行对比实验，包括Two-stream，TSN和ECO。其中UCF-101数据集由佛罗里达大学提供，共计101个动作类别，13320个视频片段，主要有5大类动作，即人-物交互、肢体运动、人-人交互、弹奏乐器、运动。

在实验前，对每段视频进行数据增强处理，以扩大数据集中的训练样本。实验在Tensorflow平台上进行，对本发明方法采用基于Adam优化器的小批次法进行网络训练。

实验以最终测试集识别准确率和训练时间作为两个主要的性能评价指标，同时结合验证集准确率进行方法对比，对比结果如图4至图6所示。

由图4可以看出，与现有的其他几种视频行为识别方法相比，本发明方法获得了最高的测试集识别准确率，相对于准确率最高的ECO算法提升约1.9％，相对于准确率最低的Two-stream算法提升约8.3％，识别结果更为准确。

由图5可知，本发明方法的训练时间为几种视频行为识别方法中的最低值，相对于训练时间最短的ECO算法减少0.5小时，相对于训练时间最长的Two-stream算法减少6.1小时，说明本发明算法的模型训练速度最快，能够更好地满足应用场景中的实时性需求，

由图6可以看出，本发明方法的验证集准确率曲线高于其他几种视频行为识别方法，表明本发明算法的模型收敛速度最快，能够进一步节省训练时间。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度时空特征聚合的视频行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述静态空间特征提取单元及动态空间特征提取单元均基于卷积神经网络构建，所述静态空间特征提取单元及动态空间特征提取单元的训练过程，包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述静态空间特征提取单元包括级联的多个卷积层与最大池化层组合、多个残差块、平均池化层及全连接层。

4.根据权利要求3所述的方法，其特征在于，所述静态空间特征提取单元包括基础模块和静态空间模块，所述基础模块包括依次级联的卷积层、最大池化层、卷积层、最大池化层及三个2D残差块；所述静态空间模块包括依次级联的四个2D残差块、平均池化层及全连接层。

5.根据权利要求4所述的方法，其特征在于，所述2D残差块引入了多支路并行堆叠拓扑结构，包括三层瓶颈结构和四层瓶颈结构，且三层瓶颈结构和四层瓶颈结构的并行支路数量相等；所述2D残差块的输入经过多个三层瓶颈结构和四层瓶颈结构的并行处理，所述2D残差块的输出为所有三层瓶颈结构的输出、所有四层瓶颈结构的输出与所述2D残差块的输入的求和。

6.根据权利要求2所述的方法，其特征在于，所述动态空间特征提取单元包括基础模块、动态空间模块、动态时间模块及时空交互模块；所述基础模块的输出作为动态空间模块与动态时间模块的输入；所述时空交互模块完成动态空间模块与动态时间模块间中间数据的拼接与平均池化；所述动态空间模块与动态时间模块的输出经过拼接后形成所述特征向量X_sr或X_lr；

7.根据权利要求6所述的方法，其特征在于，所述动态空间模块包括级联的2D残差块4、2D残差块5、2D残差块6、2D残差块7、2D平均池化层1及全连接层1；所述动态时间模块包括级联的3D残差块4、3D残差块5、拼接层1、3D残差块6、拼接层2、3D平均池化层1及全连接层2；所述时空交互模块包括拼接层3、2D平均池化层4、拼接层4、2D平均池化层5、拼接层5、2D平均池化层6；

8.根据权利要求2所述的方法，其特征在于，所述加权聚合层将所述特征向量X_a、X_sr及X_lr自适应加权融合形成特征向量Z，具体包括以下步骤：

其中，X′_out为所述全连接层的输出向量，

步骤5.2、采用如公式(2)所示的全连接层2对输出X′_out进行特征提取，获得特征向量Z；

Z＝W^fcX′_out+b^fc (2)