CN113887419B

CN113887419B - 一种基于提取视频时空信息的人体行为识别方法及系统

Info

Publication number: CN113887419B
Application number: CN202111161486.3A
Authority: CN
Inventors: 张轶; 倪苒岩
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-05-12
Anticipated expiration: 2041-09-30
Also published as: CN113887419A

Abstract

本发明涉及一种基于提取视频时空信息的人体行为识别方法及系统，包括采用稀疏采样策略和视频级监督方法对训练集数据进行预处理，将视频按照均匀时间间隔划分为K个子片段，并从每一个视频片段中随机抽取一帧，形成K帧图像序列作为网络模型的输入；提取视频中的信息，并与时间移位模块进行结合后嵌入到残差结构中；对构建的网络模型进行权值标准化操作，将经过预处理的训练集样本输入到行为识别网络模型中进行训练，并对参数进行调整；将获取的待识别数据输入到训练完毕的行为识别网络模型中进行识别。本发明结合运动提取模块和时空提取模块，实现了对视频中各种不同类型的时间信息的利用和提取，可以更加充分地表征时间信息。

Description

一种基于提取视频时空信息的人体行为识别方法及系统

技术领域

本发明涉及视频分析技术领域，尤其涉及一种基于提取视频时空信息的人体行为识别方法及系统。

背景技术

视频序列包含比单个图像更丰富的信息，包含不同特征之间的时间相关性和相邻帧之间的运动线索，因此，时间建模成为视频动作识别的关键步骤；随着深度学习的蓬勃发展，卷积神经网络(CNN)以其强大的特征学习和泛化能力在图像分类中的应用取得了惊人的成功。

虽然传统的二维卷积神经网络已经证明了其强大的特征表示能力，但是它不能直接应用于时间序列号(比如视频)，为了弥补这一不足，很多研究都致力于视频中时间信息的探索，这些研究大致可以分为三类：三维卷积及其变体、具有双流结构的二维卷积神经网络及其变体和具有时间模块的二维卷积神经网络；其中，典型的双流体系结构有两个输入，即空间流输入和时间流输入，前者处理RGB帧，后者处理光流；这两个流都是基于深度网络实现的，最后的结果是由两个流融合而成的；双流结构能够有效地集成图像的外观和运动信息，然而，视频序列中相邻帧密集光流的计算量是很大的，此外，端到端的动作识别不能通过双流结构来实现。

另一种策略是使用3D卷积和3D池化来提取时空特征，3D卷积神经网络被开发用于同时从视频中捕获外观和时间信息，但是，3D卷积神经网络由于其大量的参数，容易产生过度拟合和缓慢收敛的问题而极难训练，这使得其难于部署在普通的硬件平台上。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于提取视频时空信息的人体行为识别方法及系统，解决了现有技术存在的不足。

本发明的目的通过以下技术方案来实现：一种基于提取视频时空信息的人体行为识别方法，其特征在于：所述人体行为识别方法包括：

采用稀疏采样策略和视频级监督方法对训练集数据进行预处理，将视频按照均匀时间间隔划分为K个子片段{S1，S2，…，SK}，然后从每一个视频片段中随机抽取一帧，形成K帧图像序列作为网络模型的输入；

提取视频中的时空信息和运动信息，并与时间移位模块进行结合后嵌入到残差结构中；

对构建的行为识别网络模型中的特定卷积层(其后跟随有批处理操作的卷积层)进行权值标准化操作，起到对批归一化层进行强化作用，并将预处理结束的训练集样本输入到行为识别网络模型中进行训练，并根据每轮训练完后网络模型在验证集上的识别结果对参数进行调整；

将获取的待识别数据输入到训练完毕的行为识别网络模型中进行识别。

所述提取视频中的时空信息和运动信息，并与时间移位模块进行结合后嵌入到残差结构中包括：

通过一个由通道级的一维时间卷积和一个二维空间卷积核共同组成的时空编码模块来提取视频中的时间和空间信息，并将时空编码模块在网络模型中进行堆叠以实现长期的时间信息聚合，降低运算量；

通过运动编码模块提取视频中相邻两帧之间的运动信息，实现在没有像素级光流图作为额外输入流的前提下对视频中的运动线索进行描绘；

将时空编码模块和运动编码模块与时间移位模块进行结合并嵌入到残差结构中，实现端到端的行为识别网络模型的构建。

所述采用稀疏采样策略和视频级监督方法对训练集数据进行预处理包括：将视频均匀划分为K个子片段，然后在每个片段中随机找出一帧图像，从整个视频中采样K帧图像，使得所采样的视频帧覆盖整个视频段，最后使用段共识函数结合多个视频帧的类别得分，得到它们之间对于类别预测的共识。

所述时空编码模块的设置策略包括：给定输入特征X，其形状为一个五维张量[N，T，C，H，W]，其中N代表输入批次的大小，T代表特征的时间维度，C代表通道数，H和W代表特征X的空间维度上的分辨率大小；具体的设置步骤包括：

对输入特征X的通道数进行压缩，得到压缩后的特征X1，以减小后续运算的计算量；

对压缩后的特征X1进行重塑，使其变形为[NHW，C/16，T]的特征X2；

对重塑的特征X2进行一维时间卷积操作，卷积核大小为3，得到特征X3；

对特征X3进行变形操作，得到形状为[N，T，C/16，H，W]的特征X4；

对特征X4进行二维的空间卷积操作，并提取空间特征得到特征X5；

将特征X5的通道数还原为原来的大小C，得到特征X6，建立残差连接，在进行时空信息提取的同时保留原始特征X的属性。

所述运动编码模块的设置步骤包括：

给定特征Y，其形状为一个五维张量[N，T，C，H，W]，其中N代表输入批次的大小，T代表特征的时间维度，C代表通道数，H和W代表特征Y的空间维度上的分辨率大小，将Y作为运动编码模块的输入；

对输入特征Y的通道数进行压缩，得到压缩后的特征Z；

通过F(t)＝C_t*Z_t+1-Z_t在时间t+1处的特征向量上添加通道变换以提取运动信息，其中，1≤t≤T-1，F(t)表示时间t处的运动特征，C_t表示3×3的二维卷积，用于实现通道的转换；

将每个时刻的运动特征沿时间维度连接，并将最后时刻的运动特征设置为0，得到最终运动特征F为F＝[F(0)，F(1)，F(2)…F(T-1)，0]；

对运动特征F进行全局空间池化操作，得到特征

i和j表示特征图空间上每一个像素点的坐标；

将特征F_s的通道数还原为原来的大小，并输入到Sigmoid激活函数中得到掩膜M，与原始特征Y相乘得到特征Z，建立残差连接，在进行运动信息提取的同时保留原始特征Y的属性。

所述人体行为识别方法还包括：获取行为识别数据集，对行为视频数据进行随机均匀切帧处理，得到相应的视频帧数据，并将数据集分为训练集、验证集和测试集，将训练集样本用于对网络模型的训练，验证集样本用于控制网络模型复杂程度的超参数，测试集样本用于测试训练好的网络模型的识别能力。

具体网络结构为：使用ResNet-50作为骨干网络，将时空编码模块和运动编码模块嵌入到骨干网络的bottleneck结构中，更具体地说，将运动编码模块连接到每个瓶颈层的第一个1×1卷积操作之后，用于局部运动信息的提取；在每个bottleneck结构的3×3卷积操作后放置时空编码模块，用于建模远程时序信息，构成完整的端到端的行为识别模型。

权值标准化操作具体为：由用于加快网络收敛的批归一化层处理有关激活的Lipschitz常数，而不是直接优化权重，通过标准化权重，可以进一步平滑损失，即通过降低损失和梯度的Lipschitz常数来标准化卷积层中的权重，以平滑损耗景观，将批归一化层对输入要做的归一化对偶地转移到了卷积层的权重上。

将训练样本输入到网络汇总，先对特征进行时间维度上的移位操作，然后进行运动信息、时间信息和空间信息的提取，完成对行为的识别。

一种基于提取视频时空信息的人体行为识别系统，它包括数据获取单元、预处理单元、信息提取单元、模型优化单元和识别单元；

所述数据获取单元用于获取行为识别数据集，对行为视频数据进行随机均匀且帧处理，得到相应的视频帧数据，并将数据集分为训练集、验证集和测试集，将训练集样本用于对网络模型的训练，验证集样本用于控制网络模型复杂程度的超参数，测试集样本用于测试训练好的网络模型的识别能力；

所述预处理单元用于采用稀疏采样策略和视频级监督方法对训练集数据进行预处理，将视频按照均匀时间间隔划分为K个子片段{S1，S2，…，SK}，然后从每一个视频片段中随机抽取一帧，形成K帧图像序列作为网络模型的输入；

所述信息提取单元用于提取视频中的时空信息和运动信息，并与时间移位模块进行结合后嵌入到残差结构中；

所述模型优化单元用于对构建的行为识别网络模型中的特定卷积层进行权值标准化操作，起到对批归一化层进行强化作用，并将预处理结束的训练集样本输入到行为识别网络模型中进行训练，并根据每轮训练完后网络模型在验证集上的识别结果对参数进行调整；

所述识别单元用于将获取的待识别数据输入到训练完毕的行为识别网络模型中进行识别。

所述信息提取单元包括时空编码模块、运动编码模块和时间移位模块；所述时空编码模块由一个由通道级的一维时间卷积和一个二维空间卷积核共同组成，用于提取视频中的时间和空间信息，并在网络模型中进行堆叠以实现长期的时间信息聚合，降低运算量；所述运动编码模块用于提取视频中相邻两帧之间的运动信息，实现在没有像素级光流图作为额外输入流的前提下对视频中的运动线索进行描绘；所述时间移位模块用于沿时间轴将通道的1/8移动-1，将另1/8部分移动+1，同时保持其余的3/4不变，通过对过去帧、当前帧和未来帧的加权相加，实现相邻帧之间的信息交换。

本发明具有以下优点：一种基于提取视频时空信息的人体行为识别方法及系统，在对视频数据集进行采样时使用稀疏采样的策略，采样范围涉及整个长视频，使得识别行为所需的视频帧数大大减少，从而降低了计算量，使得整个结构变得高效简洁；通过运动编码模块提取运动信息，比传统的使用双流架构，基于光流图提取运动信息的网络相比，具有无需预先计算光流，无需额外的输入流，可实现端到端的识别的优势，使得整个识别过程更加简单高效；通过轻量的时空信息提取模块，采用通道级的一维时间卷积和二维空间卷积模拟三位卷积的时空提取功能，与传统的三维卷积网络相比，具有大大减少计算成本，减少参数量，在小数据集上降低过拟合风险的优势；将二维卷积网络作为主干网络，结合运动提取模块和时空提取模块，实现了对视频中各种不同类型的时间信息的利用和提取，可以更加充分地表征时间信息，以一种高效的方式提高识别率；对网络中特定的卷积层的权值进行标准化操作，加快了网络收敛的速度，使得网络收敛到更好的结果。

附图说明

图1为本发明方法的流程示意图；

图2为本发明的网络模型结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明的一种实施例具体涉及一种基于深度神经网络提取视频时空信息的人体行为识别方法，具体包括以下步骤：

S1、获取行为识别数据集，并对行为视频数据进行随机均匀切帧的处理，得到相应的视频帧数据，并将数据集分为训练集、验证集和测试集，将训练集样本用于所设计网络的训练过程中，验证集集样本用于控制模型复杂程度的参数，测试集样本用于测试训练好的模型的识别能力。

进一步地，本发明实施例中，使用mmaction开源库对视频进行提帧操作，根据官方的划分文件，本发明将数据集分为训练集(86017个视频)、验证集(11522个视频)和测试集(27157个视频)。

S2、对训练集数据进行预处理，应用稀疏采样策略和视频级监督方法，将视频按照均匀时间间隔分成K个子片段{S1，S2，…，SK}，然后从每一个视频片段中随机抽取一帧，形成K帧的图像序列，作为所设计的网络的输入。

具体为，将视频按照均匀时间间隔分成8个子片段或者16个子片段，然后每个片段内抽取一帧，共8帧或16帧，作为输入，最后融合8帧和16帧的结果。

S3、通过用于视频全局时间空间信息提取的时空编码模块用于提取视频中的时空信息，可起到减小运算量的效果，我们将此模块在网中堆叠起来以执行长期的时间信息聚合。

具体为，时空编码模块由一个用于压缩通道数的大小为1*1的卷积层，一个大小为3的一维时间卷积层和一个大小为3*3的二维空间卷积层，一个用于还原通道数的大小为1*1的卷积层构成，并添加残差连接保留原有特征属性。

进一步地，时空编码模块的设置策略包括：给定输入特征X，其形状为一个五维张量[N，T，C，H，W]，其中N代表输入批次的大小，T代表特征的时间维度，C代表通道数，H和W代表特征X的空间维度上的分辨率大小；具体的设置步骤包括：

S4、通过用于视频运动信息提取的运动编码模块，该模块用于提取相邻两帧之间的运动信息，并且在没有像素级光流图作为额外输入流的情况下描绘视频中的运动线索。

具体为，运动编码模块包括一个1*1的2D卷积层用于压缩通道数，一个3*3的2D卷积层用于运动特征的通道级转换，一个空间池化层用于压缩空间信息，一个1*1的二维卷积层用于还原特征通道数，最后添加一个注意力机制用于激活运动敏感的通道。

进一步地，运动编码模块的设置步骤包括：

对输入特征Y的通道数进行压缩，得到压缩后的特征Z；

对运动特征F进行全局空间池化操作，得到特征

i和j表示特征图空间上每一个像素点的坐标；

S5、将时空编码模块和运动编码模块与时间位移模块进行结合，嵌入到ResNet-50的残差结构中，实现端到端的行为识别网络模型的搭建。

其中，时间移位模块用于沿时间轴将通道的1/8移动-1，将另1/8部分移动+1，同时保持其余的3/4不变，通过对过去帧、当前帧和未来帧的加权相加，实现相邻帧之间的信息交换。

如图2所示，采用ImageNet-预训练ResNet50作为主干网络，并结合时移模块，时空信息提取模块和运动信息提取模块，它能够提取时空和运动信息，并且很容易适用于很多流行的2D主干(例如ResNet-50)。更具体地说，本发明将运动提取模块连接到每个瓶颈层(在第一个1×1卷积层之后)。在每个瓶颈层的3×3卷积层后放置时-空信息提取模块，用于建模长期的时间信息。本发明实例的行为识别架构是通过堆叠上述模块来构建的，整个网络是一个二维结构，它避开了任何三维卷积或光流计算。

S6、对于构建的行为识别网络的某些特定的卷积层进行标准化操作，进一步加快网络的收敛速度，使网络收敛到更好的结果。

本发明实例中对网络中其后跟有批归一化层的卷积层的权重进行标准化操作，减少损失的Lipschitz常数和梯度，可以加强批归一化层的作用，使网络收敛得更快。

S7、将步骤S2中预处理完的训练集样本输入到所搭建的行为识别网络中，进行网络的训练，每个epoch训练完观察网络在验证集上的识别结果，进行参数的调整。

本发明实例中，预处理完毕的训练样本(8帧或16帧图像序列)输入到网络中，先通过时移模块促进相邻帧间的信息交换，然后进行运动信息和时-空信息的提取，完成对行为的识别。每个epoch训练完后通过在验证集上的结果调整学习率等参数值，本发明实例中的学习率在第第20、40和45个周期衰减为原来的0.1。

S8、将测试集样本输入训练完毕的网络中，通过在测试集上的识别结果验证所提出的行为识别算法的有效性。并将待识别的视频数据输入到网络模型中进行识别。

本发明实例中在Something-Something-V1数据集的测试集上对算法的有效性进行验证。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于提取视频时空信息的人体行为识别方法，其特征在于：所述人体行为识别方法包括：

对构建的行为识别网络模型中的其后跟随有批处理操作的卷积层进行权值标准化操作，起到对批归一化层进行强化作用，并将预处理结束的训练集样本输入到行为识别网络模型中进行训练，并根据每轮训练完后网络模型在验证集上的识别结果对参数进行调整；

将获取的待识别数据输入到训练完毕的行为识别网络模型中进行识别；

通过一个由通道级的一维时间卷积和一个二维空间卷积核共同组成的时空编码模块来提取视频中的时间和空间信息，时间编码模块即为时间提取模块，并将时空编码模块在网络模型中进行堆叠以实现长期的时间信息聚合，降低运算量；

通过运动编码模块提取视频中相邻两帧之间的运动信息，运动编码模块即为运动提取模块，实现在没有像素级光流图作为额外输入流的前提下对视频中的运行线索进行描绘；

将时空编码模块和运行编码模块与时间移位模块进行结合并嵌入到残差结构中，实现端到端的行为识别网络模型的构建；

其中，将运动编码模块连接到每个瓶颈层的第一个1×1卷积操作之后，用于局部运动信息的提取；在每个bottleneck结构的3×3卷积操作后放置时空编码模块，用于建模远程时序信息，时间移位模块即时序移位模块设置于第一个1×1卷积操作之前，构成完整的端到端的行为识别模型；

对重塑的特征X2进行一维时间卷积操作，得到特征X3；

将特征X5的通道数还原为原来的大小C，得到特征X6，建立残差连接，在进行时空信息提取的同时保留原始特征X的属性；

所述运动编码模块的设置步骤包括：

对输入特征Y的通道数进行压缩，得到压缩后的特征Z；

通过F(t)＝C_t*Z_t+1-Z_t在时间t+1处的特征向量上添加通道变换以提取运动信息，其中，1≤t≤T-1，F(t)表示时间t处的运动特征,C_t表示3×3的二维卷积，用于实现通道的转换；

将每个时刻的运动特征沿时间维度连接，并将最后时刻的运动特征设置为0，得到最终运动特征F为F＝[F(0),F(1),F(2)...F(T-1),0]；

对运动特征F进行全局空间池化操作，得到特征

i和j表示特征图空间上每一个像素点的坐标；

2.根据权利要求1所述的一种基于提取视频时空信息的人体行为识别方法，其特征在于：所述采用稀疏采样策略和视频级监督方法对训练集数据进行预处理包括：将视频均匀划分为K个子片段，然后在每个片段中随机找出一帧图像，从整个视频中采样K帧图像，使得所采样的视频帧覆盖整个视频段，最后使用段共识函数结合多个视频帧的类别得分，得到它们之间对于类别预测的共识。

3.根据权利要求1或2所述的一种基于提取视频时空信息的人体行为识别方法，其特征在于：所述人体行为识别方法还包括：获取行为识别数据集，对行为视频数据进行随机均匀且帧处理，得到相应的视频帧数据，并将数据集分为训练集、验证集和测试集，将训练集样本用于对网络模型的训练，验证集样本用于控制网络模型复杂程度的超参数，测试集样本用于测试训练好的网络模型的识别能力。

4.一种基于提取视频时空信息的人体行为识别系统，其特征在于：它包括数据获取单元、预处理单元、信息提取单元、模型优化单元和识别单元；

所述模型优化单元用于对构建的行为识别网络模型中的某些特定卷积层进行权值标准化操作，起到对批归一化层进行强化作用，并将预处理结束的训练集样本输入到行为识别网络模型中进行训练，并根据每个epoch训练完后网络模型在验证集上的识别结果对参数进行调整；

所述识别单元用于将获取的待识别数据输入到训练完毕的行为识别网络模型中进行识别；

其中，信息提取单元用于提取视频中的时空信息和运动信息，并与时间移位模块进行结合后嵌入到残差结构中包括：

对重塑的特征X2进行一维时间卷积操作，得到特征X3；

所述运动编码模块的设置步骤包括：

对输入特征Y的通道数进行压缩，得到压缩后的特征Z；

通过F(t)＝Ｃ_t*Z_t+1-Z_t在时间t+1处的特征向量上添加通道变换以提取运动信息，其中，1≤t≤T-1，F(t)表示时间t处的运动特征,C_t表示3×3的二维卷积，用于实现通道的转换；

对运动特征F进行全局空间池化操作，得到特征

i和j表示特征图空间上每一个像素点的坐标；

5.根据权利要求4所述的一种基于提取视频时空信息的人体行为识别系统，其特征在于：所述信息提取单元包括时空编码模块、运动编码模块和时间移位模块；所述时空编码模块由一个由通道级的一维时间卷积和一个二维空间卷积核共同组成，用于提取视频中的时间和空间信息，并在网络模型中进行堆叠以实现长期的时间信息聚合，降低运算量；所述运动编码模块用于提取视频中相邻两帧之间的运动信息，实现在没有像素级光流图作为额外输入流的前提下对视频中的运行线索进行描绘；所述时间移位模块用于沿时间轴将通道的1/8移动-1，将另1/8部分移动+1，同时保持其余的3/4不变，通过对过去帧、当前帧和未来帧的加权相加，实现相邻帧之间的信息交换。