CN117197727A

CN117197727A - 一种基于全局时空特征学习的行为检测方法与系统

Info

Publication number: CN117197727A
Application number: CN202311468148.3A
Authority: CN
Inventors: 许威威; 许晨晨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-08
Anticipated expiration: 2043-11-07
Also published as: CN117197727B

Abstract

本发明公开了一种基于全局时空特征学习的行为检测方法与系统。该方法设计了3DSF‑FPN卷积神经网络提取视频的时序特征与空间特征，经过多步带有小2D卷积核做嵌入编码后，送入transformer编码器对特征全局进行处理，实现对复杂行为的准确识别与分类。本发明首先是将视频序列作为输入，通过多层3D卷积模块处理，转化为高维特征向量表示。随后，将特征送入多步带有小2D卷积核进行嵌入编码，提高模型的训练稳定性和收敛速度。最后，通过引入自注意力机制的自注意变换模块对向量进行全局建模，实现全局特征的交互和整合。本发明可用于智能服务机器人应用场景等领域。

Description

一种基于全局时空特征学习的行为检测方法与系统

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于全局时空特征学习的行为检测方法与系统。

背景技术

行为识别是计算机视觉和机器学习领域的重要研究方向之一，广泛应用于视频监控、智能驾驶、体育分析等领域。然而，传统的行为识别方法在处理时空序列数据时存在一些挑战，如信息提取、特征表示和时间建模等方面的限制。

近年来，深度学习技术在计算机视觉领域取得了显著的突破。3D卷积神经网络（CNN）被广泛应用于处理时空序列数据，其能够有效地捕捉时空信息。但是3D卷积需要足够大的感受野才能获得全局信息，这样会带来巨大的计算量。另一方面，transformer模块是一种基于自注意力机制的图像分类方法，能够关注到全局的特征信息。然而，如果直接把整个视频作为transformer的输入，计算量也同样是巨大的，且无法直接处理视频这种时空数据。

发明内容

本发明目的在于针对现有技术中的不足，提供了一种基于全局时空特征学习的行为检测方法与系统。对视频提取时序特征与空间特征，在进行全局处理，实现对视频中目标行为进行精准快速识别。

本发明的目的是通过以下技术方案来实现的：一种基于全局时空特征学习的行为检测方法，该方法包括以下步骤：

（1）时空特征提取：获取视频数据并进行预处理，设计一种侧边融合的3DSF-FPN卷积神经网络捕捉预处理后的视频数据序列中的时间与空间信息，基于多尺度特征融合网络提取多个尺度特征，小尺寸特征信息进行下采样融合加入大尺寸特征信息，最后所有特征进行上采样融合后输出，得到视频中行为的时空特征信息；

（2）多步小卷积：时空特征信息送入带有小卷积核的多步2D卷积中进行嵌入编码表示处理，提高稳定性及收敛速度，得到时空特征图；

（3）特征全局学习：将时空特征图展平为一维向量，通过自注意变换模块对时空特征信息进行视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局时空特征；并在步骤（2）的嵌入编码结果上加入位置编码信息；

（4）行为检测识别：对学习到的全局时空特征进行维度映射和非线性变换，实现行为分类与检测识别。

进一步地，预处理包括：将视频序列按照16帧步长分解多个连续的图像帧，然后对每一帧进行尺寸调整和颜色标准化操作。

进一步地，对输入的视频数据进行裁剪，每若干帧为一个数据样本，每个数据样本对应一个视频行为分类标注。

进一步地，每帧视频数据为RGB三通道，长宽均为208个像素。

进一步地，2D卷积由3个3×3大小、步长为2的卷积核，和一个1×1大小、步长为1的卷积核组成。

进一步地，通过自注意变换模块进行全局特征学习，所述自注意变换模块包括多个transformer编码器，每个transformer编码器包括自注意力机制和前馈神经网络，自注意力机制能够学习全局特征的相关性，捕捉时空序列数据中的长距离依赖关系。

进一步地，使用行为分类标注的视频数据训练整体模型，并通过随机梯度下降优化算法迭代地调整模型参数，以提高模型的准确性和泛化能力。

进一步地，行为检测识别具体过程为：在自注意变换模块的transformer编码器的输出上添加全连接层，将学习到的全局时空特征进行维度映射和非线性变换，然后利用softmax分类器对行为类别进行判定，将时空序列数据映射到具体的行为类别。

另一方面，本发明还提供了一种基于全局时空特征学习的行为检测系统，该系统包括：时空特征提取模块、多步小卷积模块、特征全局学习模块和行为检测识别模块；

所述时空特征提取模块用于设计一种侧边融合的3DSF-FPN卷积神经网络捕捉预处理后的视频数据序列中的时间与空间信息，基于多尺度特征融合网络提取多个尺度特征，小尺寸特征信息进行下采样融合加入大尺寸特征信息，最后所有特征进行上采样融合后输出，得到视频中行为的时空特征信息；

所述多步小卷积模块用于将时空特征信息送入带有小卷积核的多步2D卷积中进行嵌入编码表示处理，提高稳定性及收敛速度，得到时空特征图；

所述特征全局学习模块用于将时空特征图展平为一维向量，通过自注意变换模块对时空特征信息进行视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局时空特征；并在嵌入编码结果上加入位置编码信息；

所述行为检测识别模块用于对学习到的全局时空特征进行维度映射和非线性变换，实现行为分类与检测识别。

本发明的有益效果在于：

1、融合了3DSF-FPN卷积神经网络、2D小卷积核和 Transformer编码器的优势，提高了时空序列数据的表示能力和特征提取能力，有效的提高了模型的训练稳定性和收敛速度，并且建立全局特征的融合信息。

2、通过引入自注意力机制，能够捕捉全局上下文信息，改善时序信息的建模和运动特征的提取。自注意力机制能够学习到时空序列数据中不同位置的依赖关系，提高了行为识别的准确性。

3、先使用3DSF-FPN卷积提取视频中行为的时空特征，再由transformer编码器在2D卷积核压缩的特征上建立全局关系，使得模型参数相对较少，计算资源消耗较低，适用于实时行为识别等应用场景。

4、引入多步带有小卷积核的2D卷积做嵌入编码表示以后，模型对于学习率和权重的选择更加稳定，训练收敛也更快，且支持SGD优化器优化，检测的结果也更加准确。

5、在行为识别任务中具有较高的准确性和鲁棒性，能够处理复杂的行为动作。通过综合利用3DSF-FPN卷积、2D小卷积核和transformer编码器的特点，本发明的方法能够提取更丰富的时空特征，提高模型训练稳定性和收敛速度，建立全局信息感受野，增强了对不同行为的区分能力。

综上所述，本发明提供了一种基于全局时空特征学习的行为检测方法及系统，可广泛应用于视频监控、智能驾驶、体育分析等领域。该方法能够有效地提高行为识别的准确性和鲁棒性，具有较好的应用前景和商业价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的一种基于全局时空特征学习的行为检测方法的流程图。

图2位本发明模型的总体结构图。

图3为本发明使用3D卷积与2D卷积的对比图。

图4为本发明3DSF-FPN计算过程示意图。

图5为本发明transformer编码器示意图。

图6为本发明在数据集UCF-101训练loss与测试准确率曲线图。

图7为本发明在数据集HMDB-51训练loss与测试准确率曲线图。

图8为本发明提供的一种基于全局时空特征学习的行为检测装置的结构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1与图2所示，本发明提供了一种基于全局时空特征学习的行为检测方法，用3DSF-FPN卷积来提取时空特征，再用多步2D卷积核来对特征进行嵌入编码表示embedding，提高模型训练的稳定性和收敛速度，最后引入transformer编码器来学习全局信息，提高时空序列数据的表示能力，实现高效准确的行为识别。与此同时，模型在训练过程不稳定，因此引入多步2D小卷积核模块来稳定整个模型的训练。本发明方法具体包括以下五个步骤：

（1）对于给定的视频，获取视频数据并进行预处理，首先需要将其裁剪成多个16帧的视频片段，然后对每一帧进行尺寸调整和颜色标准化操作，每若干帧作为一个视频片段样本，这里多个裁剪的视频片段对应着相同的视频行为分类的标注类别。在送入神经网络模型前，还需要对每一帧的图像尺寸随机裁剪成长宽大小均为208个像素点。这里随机裁剪，经过多轮迭代训练，可以使模型见到多样本，增加模型鲁棒性。

（2）如图3所示，2D卷积的结果是一张特征图，只包含高H和宽W，k表示卷积核大小。而3D卷积的结果是一个立方体，除了高H和宽W之外，还包含时间维度L，d表示是3D卷积的第三个维度的尺寸。这里3D卷积神经网络模块由8个3D卷积层和5个池化层组成。需要注意的是，在3D卷积模块中，本发明设计一种3D侧边融合的新型特征融合结构3DSF-FPN。3DSF-FPN在多尺度特征网络算法基础上增加的六条侧边融合曲线计算；SF-FPN算法增加的计算量不足整个网络的百万分之一，对于整个模型来说，这可以说是微乎其微的计算量增加。但这微乎其微的计算量增加，却在测试的准确率上值上提高了2%。如图4所示，SF-FPN具体计算方法如下：图4中左侧C2、C3、C4、C5 是刚开始提取的低维特征信息，本发明通过多尺度特征融合网络可以的到图4中右侧P2，P3，P4，P5，P6五个尺度特征信息，将右侧P5特征信息与P4特征信息进行下采样融合加入P3（图4中线条1），在将图4中右侧P5、P4与P3特征信息进行下采样融合加入P2（图4中线条2、线条3），将图4中右侧P4、P3、P2与P5特征信息进行上采样融合加入P6（图4中线条4、线条5、线条6）。这样可以充分利用到侧边P2，P3，P4，P5的高维特征，有助于特征信息的表达。3DSF-FPN可以对时间信息和空间信息同时建模，捕捉预处理后的视频数据序列中的时间与空间信息，提取视频中行为的时序特征与空间特征，学习视频的时空特征信息。

（3）由于3D卷积提取时序特征送入transformer编码器一般采用两种方式。第一种是将特征信息插值变换等于transformer编码器的输入尺寸，然后直接送入transformer编码器。第二种是将特征信息送入一个全连接层进行编码，使得编码尺寸等于transformer编码器输入尺寸，然后作为transformer编码器的输入。这两种方法都是直接将3D卷积提取特征信息强行加入到transformer编码中，这样会导致两个模块不能很好地衔接，使得整个模型训练不稳定，且训练收敛慢。为此，本发明提出了多步带有小卷积核的2D卷积模块，对3D卷积提取的时序特征进行embedding处理。例如特征图大小为512*1*7*7，将该特征通过3个3*3大小、步长为2的卷积核，和一个1*1大小、步长为1的卷积核组成的多步小2D卷积核嵌入后得到一个维度为49*768的向量，即一共有49个token，每个token的维度是768；这里需要计入一个特殊字符cls，因此最终的维度是50*768。多步带有小卷积核的2D卷积模块可以有效提高模型训练的稳定性，以及提高收敛速度，并且提高1-2个百分点的精确度。

（4）如图2与图5所示，将经过3DSF-FPN卷积网络与2D卷积嵌入编码embedding后的时空特征图展平为一维向量，引入transformer将2D卷积模块投影固定长度的向量送入自注意变换模块的Transformer编码器，进行视觉表示学习，利用自注意力机制建立全局上下文信息的关联，学习全局时空特征。本发明还需要加入位置编码，位置编码向量的维度与嵌入编码特征信息的维度相同，均为768。需要注意的是位置编码的操作是sum，而不是concat，即在原来的编码结果基础上加入位置编码信息。加入位置编码信息以后，维度依然是50×768，这样在维度不变的情况下，即计算量没有增加，但是拿到了位置编码信息。

每个自注意变换模块中的transformer编码器包括自注意力机制和前馈神经网络，自注意力机制能够学习全局特征的相关性，捕捉时空序列数据中的长距离依赖关系。上述sum后的嵌入编码信息结果送入归一化层以后，输入多头自注意层（Multi-headAttention），映射到q，k，v，transformer中第一块的特征q会乘以其他区域映射的k和v，把第一块的信息和其他块信息联系到一起，实现全局特征的互相之间的关联，多头自注意层有12个头，q、k、v的维度是50×（768/12），即50×64，一共12组q、k、v，最后再将12组q、k、v的输出拼接起来，输出维度是50×768，然后再过一层归一化层，维度依然保持为50×768；通过多层感知机MLP将维度先放大到50×3072，再缩小为50×768。一个block之后的维度依然和输入相同，都是50×768，因此可以堆叠出多个block。

（5）在自注意变换模块的最后一个transformer编码器的输出上添加全连接层，将上述transformer编码器学习时空特征的视觉表示向量输入给全连接层，将学习到的全局时空特征进行维度映射和非线性变换，经过softmax分类器对学习到的特征进行行为分类与检测识别，将时空序列数据映射到具体的行为类别。在整个模型的训练过程中，使用标注好的行为数据集对整体模型进行训练，并通过随机梯度下降优化算法迭代地调整模型参数，以提高模型的准确性和泛化能力。

如表1所示，可以看出，当视频大小为16（帧）×3（通道）×208（长）×208（宽）时，本发明的模型可以达到312帧每秒，即每秒可以识别将近20个视频片段中的行为，完全符合实时的行为检测工作需求。当把分辨率降到16（帧）×3（通道）×112（长）×112（宽）时，本发明的模型可以达到782帧每秒，即每秒可以识别进49个视频片段中的行为，可以实现快速的实时行为检测。

表1 测试指标记录表

如图6中的（a）所示，对比原来不含有2D卷积与Transformer编码器的C3D网络模型在数据集UCF-101上的表现，本发明的模型在训练过程中可以快速的收敛，同时训练loss最后也下降的更低（C3D最终的训练损失loss值稳定在0.0126左右，本发明的模型损失loss稳定在0.0062左右）。如图6中的（b）所示，在验证集上的测试，本发明的准确率也更高（C3D的准确率达到0.9597，而本发明的模型准确率高达0.9731）。

如图7中的（a）所示，对比原来不含有2D卷积与Transformer编码器的C3D网络模型在数据集HMDB-51上的表现，本发明的模型在训练过程中收敛的更好，损失loss一直处于较低的位置（C3D最终的训练损失loss值稳定在0.2451左右，本发明的模型损失loss稳定在0.0490右）。如图7中的（b）所示，在验证集上的测试，本发明的准确率也更高（C3D的准确率达到0.6403，而本发明的模型准确率为0.6748）。

另一方面，本发明还提供了一种基于全局时空特征学习的行为检测系统，该系统包括：时空特征提取模块、多步小卷积模块、特征全局学习模块和行为检测识别模块；每个模块的具体实现过程参考本发明上述提供的一种基于全局时空特征学习的行为检测方法的实施例步骤。

所述多步小卷积模块用于将时空特征信息送入带有小卷积核的多步2D卷积中进行嵌入编码embedding处理，提高稳定性及收敛速度，得到时空特征图；

所述特征全局学习模块用于将时空特征图展平为一维向量，通过Transformer编码器对时空特征信息进行全局视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局时空特征；并在嵌入编码结果上加入位置编码信息；

与前述一种基于全局时空特征学习的行为检测方法的实施例相对应，本发明还提供了一种基于全局时空特征学习的行为检测装置的实施例。

参见图8，本发明实施例提供的一种基于全局时空特征学习的行为检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的一种基于全局时空特征学习的行为检测方法。

本发明提供的一种基于全局时空特征学习的行为检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本发明提供的一种基于全局时空特征学习的行为检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于全局时空特征学习的行为检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于全局时空特征学习的行为检测方法，其特征在于，该方法包括以下步骤：

（1）时空特征提取：获取视频数据并进行预处理，设计一种侧边融合的3D卷积神经网络3DSF-FPN捕捉预处理后的视频数据序列中的时间与空间信息，基于多尺度特征融合网络提取多个尺度特征，小尺寸特征信息进行下采样融合加入大尺寸特征信息，最后所有特征进行上采样融合后输出，得到视频中行为的时空特征信息；

（3）特征全局学习：将时空特征图展平为一维向量，通过自注意变换模块对时空特征信息进行视觉表示学习，利用自注意力机制建立全局上下文信息的关联，以学习全局时空特征并在步骤（2）的嵌入编码结果上加入位置编码信息；

2.根据权利要求1所述的基于全局时空特征学习的行为检测方法，其特征在于，预处理包括：将视频序列按照16帧步长分解多个连续的图像帧，然后对每一帧进行尺寸调整和颜色标准化操作。

3.根据权利要求2所述的基于全局时空特征学习的行为检测方法，其特征在于，对输入的视频数据进行裁剪，每若干帧为一个数据样本，每个数据样本对应一个视频行为分类标注。

4.根据权利要求2所述的基于全局时空特征学习的行为检测方法，其特征在于，每帧视频数据为RGB三通道，长宽均为208个像素。

5.根据权利要求1所述的基于全局时空特征学习的行为检测方法，其特征在于，2D卷积由3个3×3大小、步长为2的卷积核，和一个1×1大小、步长为1的卷积核组成。

6.根据权利要求1所述的基于全局时空特征学习的行为检测方法，其特征在于，通过自注意变换模块进行全局特征学习，所述自注意变换模块包括多个transformer编码器，每个transformer编码器包括自注意力机制和前馈神经网络，自注意力机制能够学习全局特征的相关性，捕捉时空序列数据中的长距离依赖关系。

7.根据权利要求3所述的基于全局时空特征学习的行为检测方法，其特征在于，使用行为分类标注的视频数据训练整体模型，并通过随机梯度下降优化算法迭代地调整模型参数，以提高模型的准确性和泛化能力。

8.根据权利要求6所述的基于全局时空特征学习的行为检测方法，其特征在于，行为检测识别具体过程为：在自注意变换模块的最后一个transformer 编码器的输出上添加全连接层，将学习到的全局时空特征进行维度映射和非线性变换，然后利用softmax分类器对行为类别进行判定，将时空序列数据映射到具体的行为类别。

9.一种实现权利要求1-8任一项所述方法的基于全局时空特征学习的行为检测系统，其特征在于，该系统包括：时空特征提取模块、多步小卷积模块、特征全局学习模块和行为检测识别模块；