CN115240271A

CN115240271A - 基于时空建模的视频行为识别方法与系统

Info

Publication number: CN115240271A
Application number: CN202210815445.XA
Authority: CN
Inventors: 叶青; 梁政豪; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-25

Abstract

本发明公开一种基于时空建模的视频行为识别方法及系统，其中方法包括：S1：将完整的视频输入视频图像采样模块，采用分段随机视频帧采样方法进行视频图像采样，得到多个采样帧图像；S2：构建基于三元组损失函数的空间注意力模块，并对多个采样帧图像的动作部分进行特征提取，得到空间特征信息；S3：构建时间金字塔模块，并对得到的空间特征信息以不同帧速率进行采样，得到多组特征信息；S4：采用早期融合的方式对得到的多组特征信息进行融合，具体为采用add操作将多组特征的特征向量进行拼接；S5：将融合后的特征信息输入Softmax分类器进行视频行为分类，为每个视频行为生成一个概率标签，并输出识别结果。

Description

基于时空建模的视频行为识别方法与系统

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种基于时空建模的视频行为识别方法与系统，可用于视频行为识别的分析研究。

背景技术

人类与外界交互所产生的庞大信息中，视觉信息占了很大的比重。在科技日益发展的当下，随着信息传输技术的高速发展以及短视频基于移动设备和互联网的兴起，每时每刻都在产生巨大的视觉信息量，这使得视频信息的大量获取变得容易，但同时，如何对庞大的视频信息量进行处理、识别、分类等也是一个不小的挑战。通过人工从繁多冗杂的视频中获取信息的成本越来越高，利用人工智能快速筛选信息的需求不断增加，对视频行为识别的研究就尤为重要。视频行为识别是计算机视觉领域的重要研究方向，是视频理解中关键的任务之一。随着信息化的逐步普及以及计算机视觉领域的蓬勃发展，视频行为识别在智能监控、智能课堂、智能预警等领域都有广泛的应用，已经成为一项研究热点。以防护领域为例来进行说明，小到城市中的事故预警，大到边界防护预警，都是安全防护的范围，通过将视频行为识别应用到该领域，加之计算机可以长时间进行监控，因而可以迅速对事故的具体情况作出分析并进行预警，从而大大的提高了安全防护的效率并降低了人力物力的消耗，能够给人们的生活带来极大的便利，有着广泛的应用前景。

目前，视频行为识别的方法大体分为两种：一种是基于传统特征提取的方法，一种是基于深度学习的方法，即使用神经网络学习特征的方法。基于传统特征提取的视频行为识别方法通过人工提取出能够表征动作的特征来实现行为识别，但同时也受所提取的特征的限制。虽然传统的人工提取特征经过不断的改进拥有了不错的表现，但仍有其局限之处，如噪声会对性能产生较大影响。人工提取特征的改进需要不断尝试，但其成本太高，提升空间已经不多，还需要构造更强大、更鲁棒的时空特征来进行更好的行为识别。为了进一步提高算法的识别率，随着深度学习方法的提出，基于深度神经网络学习自动提取特征的方法应用到了人体动作识别中。然而现有的基于深度学习的人体动作识别方法中，如采用双流卷积神经网络及其变体以及3D卷积神经网络，虽然都对时间信息进行了利用，但还都存在一定的问题尚待解决，如所需的计算时间长、计算成本高、实时性差等问题。此外，现有的深度学习方法在提取时间特征时对于时间信息的利用还不够充分，在提取空间特征时容易受到背景信息的干扰，提取到无用的特征，影响视频行为识别的准确率。

发明内容

为了解决上述问题，本发明提供一种基于时空建模的视频行为识别方法与系统，针对现有的深度学习方法在提取空间特征时易受背景信息干扰、易提取到无效信息的问题，构建了基于三元组损失函数的空间注意力模块，通过采用三元组损失函数，经过不断学习，使提取的特征集中于视频图像的动作部分，降低对背景部分无效特征的提取，从而提高特征提取的有效性，提高视频行为识别性能；针对现有技术中对时间信息利用不充分的问题，构建了时间模块，在时间模块对神经网络单层输出的特征根据不同的采样帧进行采样，从而构建出时间金字塔，对视频中时间特征进行多层次提取的同时，降低了融合的难度和时间的要求；然后通过早期特征融合，对不同帧速率的特征进行融合，从而对视频的短时特征以及全局时间特征进行整体利用；最后利用Softmax分类器进行分类，以此能够得到对于输入视频中行为的准确判断。

本发明提供的基于时空建模的视频行为识别方法与系统，其核心为对时空信息进行建模的深度神经网络，该网络以ResNet(残差网络)网络模型作为骨干网络，引入三元组损失(Triplet loss)函数，创建基于三元组损失的注意力模块，其只针对动作部分而忽略背景部分，以提高网络对动作部分特征的提取，从而实现对空间信息建模；引入时间金字塔结构构建时间模块，在特征层级构建时间金字塔结构，对时间信息进行多层次的利用，从而实现对时间信息进行建模。通过对视频中的时空特征信息建模，最终提高视频行为识别的性能。

为达到上述目的，本发明提供了一种基于时空建模的视频行为识别方法，具体包括：

步骤S1：将完整的视频输入视频图像采样模块，采用分段随机视频帧采样方法进行视频图像采样，得到多个采样帧图像；

步骤S2：构建基于三元组损失函数的空间注意力模块，并对多个采样帧图像的动作部分进行特征提取，得到空间特征信息；

步骤S3：构建时间金字塔模块，并对得到的空间特征信息以不同帧速率进行采样，得到多组特征信息；

步骤S4：采用早期融合的方式对得到的多组特征信息进行融合，具体为采用add操作将多组特征的特征向量进行拼接；

步骤S5：将融合后的特征信息输入Softmax分类器进行视频行为分类，为每个视频行为生成一个概率标签，并输出识别结果。

在本发明一实施例中，其中，步骤S1的具体过程包括：

步骤S11：将输入的完整的视频序列V均匀分为U个片段，分别为S₁、S₂…S_U，其中U为常数；

步骤S12：分别对每个片段进行随机采样得到采样帧图像T₁、T₂…T_U。

在本发明一实施例中，其中，步骤S2中构建基于三元组损失函数的空间注意力模块具体为：

步骤S201：在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数，用以选择性收集空间域的特征信息，所述骨干网络为ResNet网络；

步骤S202：将多个特征图送入插入三元组损失函数的空间模块进行挑选，选出合适的锚示例、正示例与负示例，其中锚示例为用正示例的每个元素减去正示例各元素的平均值所得到的；

步骤S203：训练空间模块不断学习，以使锚示例的特征提取更接近正示例，即损失函数最小，所述损失函数为：

其中，

表示正示例与锚示例之间的欧式距离度量，

表示负示例与锚示例之间的欧式距离度量，α为两个欧式距离度量的最小间隔。

在本发明一实施例中，其中，步骤S2中对多个采样帧图像的动作部分进行特征提取，得到空间特征信息的具体过程为：

步骤S211：对多个采样帧图像进行空间特征提取得到多帧特征图，每帧特征图的维度为C×H×W，其中，C为通道数，H和W分别为特征图的高和宽；

步骤S212：对任一特征图A的特征进行重塑，将特征维度转换为C×N，其中N为特征图A的像素数；

步骤S213：使用Top-K排序函数提取出上K个注意图S_p和下K个注意图S_n，其中，S_p为影响行为分类的特征，S_n为与行为识别无关的特征；

步骤S214：对S_p进行重塑转换为K×H×W维度后，进行平均池化；

步骤S215：使用Sigmoid函数进行归一化，得到强调动作部分的空间注意力权重；

步骤S216：将得到的注意力权重与特征图A进行逐元素相乘，得到空间注意力模块的输出A^*为：

A^*＝σ(Avgp(Resh(sP)))*A (2)

其中，A^*为强调动作部分的特征图，Resh为维度转换，Avgp为平均池化，σ为Sigmoid函数。

在本发明一实施例中，其中，步骤S3具体为：

步骤S301：将空间注意力模块提取的同一层的多张特征图作为该层特征并记为F_base，其特征维度为C×T×H×W，其中C为通道数，T为帧数，H和W分别为特征图的高和宽；

步骤S302：在维度T上选定m个不同的采样比例，分别为：

{r₁，r₂，…，r_m；r₁＜r₂＜…＜r_m} (3)；

步骤S303：根据m个不同的采样比例分别对该层特征F_base进行采样，得到多组特征图，分别为：

其中，多组特征图对应的维度分别为：

在本发明一实施例中，其中，步骤s5中为每个视频行为生成一个概率标签的具体过程为：

步骤S51：设待分类的特征集{(z⁽¹⁾，g⁽¹⁾)，...，(z⁽ⁿ⁾，g⁽ⁿ⁾)}有k个分类，g⁽ⁱ⁾∈{1，2，3，...，k}，则对应任一输入z的每个类的概率为p(g＝j|z)，j＝(1，2，...，k)；

步骤S52：通过函数h_θ(z)输出一个k维的向量表示对应k个分类估计的概率值为：

其中，θ₁，θ₂，...，

为Softmax的模型参数，T为转置符号。

为达到上述目的，本发明还提供了一种基于时空建模的视频行为识别系统，用于执行前述方法，其包括：

一视频图像采样模块，用于对输入视频进行分段随机视频帧采样；

一空间注意力模块，连接所述视频图像采样模块，所述空间注意力模块为基于三元组损失函数的空间注意力模块，用于提取空间特征信息；

一时间金字塔模块，连接所述空间注意力模块，通过在特征维度以不同的帧速率对空间特征信息进行采样输出多组特征信息；

一特征融合模块，连接所述时间金字塔模块，用于融合多组特征信息；

一Softmax模块，包括Softmax分类器并连接所述特征融合模块，用于对融合的特征信息进行视频行为分类，并输出识别结果。

本发明提供的基于时空建模的视频行为识别方法与系统，与现有技术相比较至少包括以下优点：

1)基于三元组损失函数构建的空间注意力模块能够充分发挥三元组损失函数的优势，通过不断学习，着重提取动作相关的特征，从而提高特征提取的有效性，提升视频行为识别的性能；

2)通过构建时间金字塔模块，在特征层面对单层特征以不同帧速率进行采样，在实现对时间特征的多层次提取的同时降低了融合难度，达到对不同时间尺度上时间关系的建模；

3)通过构建的时空建模网络对视频中的时空信息分别进行建模，实现对视频中时空特征的充分提取和利用，从而实现视频行为识别性能的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中基于时空建模的视频行为识别流程图；

图2为本发明一实施例中分段随机视频帧采样示意图；

图3为三元组损失函数示意图；

图4为本发明一实施例中基于三元组损失函数的空间注意力模块进行特征提取的流程图；

图5为本发明一实施例中经过空间注意力模块进行特征提取的效果示意图；

图6为本发明一实施例中时间模块以不同帧速率对特征图采样的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于时空建模的神经网络结构模型，该网络以目前较为流行的ResNet网络模型作为骨干网络，引入三元组损失(Triplet loss)函数，通过不断迭代，提高对动作部分特征的提取，降低对无效的背景部分的提取，提高提取的特征的有效性；然后对神经网络输出的特征图以不同的帧速率进行采样，从而在特征层面实现对时间信息进行建模；然后使用早期融合方法，对不同帧速率训练的特征图进行特征融合；最后由Softmax分类器进行分类，得到视频行为识别结果。本发明的网络通过引入三元组损失函数以及在特征层面构建时间金字塔结构实现对视频中的时空信息进行建模，从而进一步提高网络对时空特征的提取和利用，最终提升整个网络的视频行为识别性能。

图1为本发明一实施例中基于时空建模的视频行为识别流程图，如图1所示，本实施例提供一种基于时空建模的视频行为识别方法，具体包括：

在视频特征识别领域，在将完整视频输入卷积神经网络时，考虑到相邻帧之间有大量的相似信息以及视频中关键信息分布的不均匀性，如果对视频的每一帧都进行特征提取，会出现大量的信息冗余现象，从而造成不必要的计算成本，同时也会影响识别的速度，此外，输入视频的长短也很难统一，因此对输入视频进行合理的采样处理是十分必要的。本实施例的视频图像采样模块，是采用分段随机视频帧采样方法进行视频图像采样的，分段随机视频帧采样是指先从完整的视频序列中平均截取多个视频帧片段，随后在这些片段中进行随机采样。本实施例之所以采用此采样方法，是因为后续的时间模块需要在特征层面进行二次采样，因此，采用分段随机视频帧采样方法能够在降低冗余信息的同时尽可能确保采样得到的视频帧对于视频行为的完整性和随机性。

图2为本发明一实施例中分段随机视频帧采样示意图，如图2所示，在本实施例中，其中，步骤S1的具体过程包括：

图3为三元组损失函数示意图，如图3所示，三元组损失函数是Google研究团队在2015年提出的一种损失函数，其优势在于细节区分，即当两个输入相似时，三元组损失函数能够更好的对细节进行建模，相当于加入了对两个输入差异性的度量，从而学习到输入的更好表示。三元组损失函数中的三元即一个三元组，其为从训练数据集中随机选一个样本，该样本称为Anchor，然后再随机选取一个与Anchor属于同一类的样本称为Positive，及一个与Anchor不同类的样本对应的称为Negative，由Anchor、Positive和Negative三个样本构成一个三元组。三元组损失函数的目标是使得相同标签的特征在空间位置上尽量靠近，同时不同标签的特征在空间位置上尽量远离，即同类的Positive样本和Anchor样本的距离越来越近，而不同类的Negative样本和Anchor样本的距离越来越远。

针对三元组中的每个元素，训练一个参数共享或不共享的网络，得到三个元素的特征表达，分别记为

和

三元组损失的目的就是通过学习，让

与

之间的距离尽可能小，

与

之间的的距离尽可能大，同时，要让

与

之间的距离和

与

之间的距离有一个最小的间隔α，因此一个基本的三元组损失函数公式为：

其中，

表示Positive样本与Anchor样本之间的欧式距离度量，

表示Negative样本与Anchor样本之间的欧式距离度量。

根据上述特点，三元组损失函数常用于人脸识别任务中，考虑到在视频行为识别领域，在进行特征提取时，容易受到背景信息的干扰，从而提取到无效的特征，因此本实施例的空间特征提取需构建一基于三元组损失函数的空间注意力模块。

在本实施例中，其中，步骤S2中构建基于三元组损失函数的空间注意力模块具体为：

步骤S201：在骨干网络中对图像进行空间特征提取的空间模块中插入三元组损失函数，用以选择性收集空间域的特征信息，所述骨干网络为ResNet网络(残差网络)；

其中，

表示正示例与锚示例之间的欧式距离度量，

由于三元组损失函数具有能够更好的对细节进行建模的特点，本实施例使用三元组损失函数来选择性的收集空间域的特征，通过加权构建特征图，经过不断学习实现对空间域特征的选择性收集，以使得提取的特征更专注于动作，忽略背景信息的影响，从而提高提取的特征信息的有效性。

图4为本发明一实施例中基于三元组损失函数的空间注意力模块进行特征提取的流程图，如图4所示，在本实施例中，其中，步骤S2中对多个采样帧图像的动作部分进行特征提取，得到空间特征信息的具体过程为：

步骤S212：对任一特征图A的特征进行重塑(reshape)，将特征维度转换为C×N，其中N为特征图A的像素数；

步骤S213：使用Top-K排序函数提取出上K个注意图S_p和下K个注意图S_n，其中，S_p为影响行为分类的特征，S_n为与行为识别无关的特征；Top-K排序函数为一种常用的排序函数，用于取得某一维度前K大的值或前K小的值及其标签，前述对空间注意力模块进行训练时，可以通过训练样本激活每个分类所需的特征，因此在对特征进行排序时就可以得到与所需特征的相关度的值，从而提取出S_p及S_n。

步骤S214：对S_p进行重塑(reshape)转换为K×H×W维度后进行平均池化(AvgPool)；

步骤S215：使用Sigmoid函数进行归一化，得到强调动作部分的空间注意力权重；Sigmoid函数被称为S型生长曲线，在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。

A^*＝σ(Avgp(Resh(S_P)))*A (2)

图5为本发明一实施例中经过空间注意力模块进行特征提取的效果示意图，如图5所示，本实施例的空间注意力模块中应用三元组损失函数的意义在于，锚示例经过不断学习后更接近正示例远离负示例，以实现S_p和S_n的明显区分，最终使整个网络更多关注身体动作区域，降低背景信息的干扰。

本模块的目标是对时间信息进行多层次多尺度利用，因此，为了充分利用神经网络内在包含多尺度信息的隐含优势，本实施例提出构建时间金字塔模块以挖掘不同的时间关系，从而实现对不同时间尺度上的时间关系进行建模。与传统的特征金字塔结构不同，由于本实施例的空间注意力模块为基于三元组损失函数的空间注意力模块，因此，在构建金字塔结构时，本实施例选择只对单层特征在时间维度进行采样，从而构建时间金字塔，在实现多层次利用时间信息的同时降低了特征融合的难度以及时间要求。

图6为本发明一实施例中时间模块以不同帧速率对特征图采样的示意图，如图6所示，在本实施例中，其中，步骤S3具体为：

步骤S302：在维度T上选定m个不同的采样比例，分别为：

{r₁，r₂，…，r_m；r₁＜r₂＜…＜r_m} (3)；

其中，多组特征图对应的维度分别为：

以上得到的即为通过时间金字塔模块处理后得到的多组特征信息，本实施例通过在特征维度以不同的帧速率对特征图进行采样，从而能够更好的利用时间信息。

特征融合方法通常分为早融合和晚融合。早融合是先对特征进行融合，然后在融合后的特征上进行训练，这类方法被称为skip connection，即采用Concat(Concatenation)操作和add(addition)操作对特征进行连接，然后再获得识别结果。其中Concat操作为直接将两个特征进行连接，例如两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q；add操作为并行策略，即将两个特征向量组合成复向量，例如对于输入特征x和y，输出特征z＝x+iy，其中i是虚数单位。晚融合则是先根据特征进行分类，然后对分类结果进行融合，晚融合好处是融合模型的错误之间互不相关、互不影响，不会造成错误的进一步累加。由于本实施例在前述步骤中在特征层面以不同帧速率对特征图进行采样，从而对不同尺度上的时间关系进行建模，因此得到了不同的几组特征图，考虑到要充分利用不同尺度的时间关系，因此本实施选择早融合的方法对特征进行融合。

步骤S5：将融合后的特征信息输入Softmax分类器进行视频行为分类，为每个视频行为生成一个概率标签，并输出识别结果。Softmax回归模型是logistic回归模型在多分类问题上的推广，在多分类问题中应用广泛。

在本实施例中，其中，步骤S5中为每个视频行为生成一个概率标签的具体过程为：

其中，

为Softmax的模型参数，T为转置符号。

再请参考图1，本发明另一实施例提供一种基于时空建模的视频行为识别系统，用于执行前述方法，其包括：

现有深度学习方法如双流网络，3D卷积神经网络等，尽管都对时间信息有过一定程度的利用，但会出现如双流网络，提取光流图耗时长的问题，3D卷积神经网络结构复杂导致计算量大的问题，以及现有的网络对于时间信息的利用不够充分，在提取特征时易收背景信息干扰，提取到无用特征等。本发明提供的基于时空建模的视频行为识别方法与系统，与现有技术相比较至少包括以下优点：

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。