CN113378722B

CN113378722B - 基于3d卷积和多级语义信息融合的行为识别方法及系统

Info

Publication number: CN113378722B
Application number: CN202110657341.6A
Authority: CN
Inventors: 刘芳; 唐瑜; 李玲玲; 杨苗苗; 李鹏芳; 李硕; 郭雨薇; 黄欣研
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-04-07
Anticipated expiration: 2041-06-11
Also published as: CN113378722A

Abstract

本发明公开了一种基于3D卷积和多级语义信息融合的行为识别方法及系统，通过3D卷积网络提取视频帧序列的时空特征；为了防止在3D卷积过程中丢失某些对识别出行为类别极为关键的时间语义信息，使用多级语义信息融合模块来聚集3D卷积网络中各个中间层特征所包含的时间语义信息；将提取出的时间语义信息和3D卷积网络所提取的特征进行融合并分类，得到行为类别。本发明利用LSTM网络设计了多级语义信息融合模块，该模块从3D卷积网络所产生的中间特征中提取时间语义信息，并将其和3D卷积网络提取的最终特征进行融合，使网络的分类器接收更多的信息，提升最终的识别准确率。

Description

基于3D卷积和多级语义信息融合的行为识别方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于3D卷积和多级语义信息融合的行为识别方法及系统。

背景技术

行为识别是视频分析的内容之一，其目的是从一个包含完整动作的视频里分析人的行为，识别出视频中人所做出的动作类别。虽然行为识别的复杂性很高，但是视频数据包含的信息丰富，如果能自动解析出其中的信息，能够为许多下游任务提供有用的知识。此外，在这个存在海量视频数据的时代，行为识别技术能够代替人类对海量的视频进行分析，为人类节约大量的时间和人力成本。早在很多年前，行为识别就已经进入了人们的研究范围，在刚开始进行研究时，由于计算机算力的限制，研究者们通过手工设计特征来描述视频中的行为，后来随着深度学习的兴起以及CPU、GPU等计算机硬件设备的高速发展，基于深度学习的行为识别方法开始出现。经过近几年的研究，大量的基于深度学习的行为识别算法出现在学术界，其中研究最为广泛的是基于3D卷积网络的行为识别方法。

基于深度学习的行为识别方法都是先提取视频片段的时空特征，然后对时空特征进行分类以达到识别的效果。受益于图像处理领域的研究成果，并且视频也是由图像构成，所以视频中的空间信息很容易提取，如何有效的提取出时间信息也就成为了行为识别任务中的关键问题。早起出现的TwoStream方法将行为识别中的特征提取网络分成了两个流，一个是空间流用于提取空间信息，另一个时间流用于提取时间信息，最后将两种信息融合后进行分类得到结果，这一类方法使用光流图来表示时间信息，这样做虽然能提取到充分的时间信息，但是光流图的计算代价非常大，并且空间信息和时间信息是分开提取的，丢失了它们之间的关联性。后来出现了一些基于3D卷积的方法，这些方法直接将2D卷积扩展到3D卷积，添加了时间维度，就能够直接提取包含时间和空间两方面的特征，这种方法同时对时间信息和空间信息进行编码，能够高效的提取时空特征。基于3D卷积的方法在特征提取过程中，网络会使用池化或者其他方式对特征进行尺寸缩减，这也是传统的卷积网络中惯用的方法，但是对于行为识别任务，网络的输入数据尺寸在时间维度上原本就很小，如果在特征提取过程中使用池化等方式会使某些对识别出行为类别有利的帧间时序关系丢失，即时间上的行为语义信息的丢失，最终会影响到识别的准确率，但是不在时间维度上进行缩减又会增加计算成本，这成了一个两难的问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于3D卷积和多级语义信息融合的行为识别方法及系统，通过在3D卷积网络的基础上加入一个多级语义信息融合模块，对3D卷积网络中各个尺寸的特征提取时间上的行为语义信息并保留，最后融合所有保留下来的信息用于分类，这样可以减少因为特征的时间尺寸逐步缩减对最终分类结果造成的影响。

本发明采用以下技术方案：

基于3D卷积和多级语义信息融合的行为识别方法，包括以下步骤：

S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C；

S2、对步骤S1构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练；

S3、将测试视频对应的视频帧序列送入步骤S2训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中，得到测试视频的行为类别，根据测试视频的行为类别进行行为识别。

具体的，步骤S1具体为：

S101、构建特征提取器G，特征提取器G为3D-ResNet34中的特征提取器；

S102、构建多级语义信息融合模块M，多级语义信息融合模块M包含4个全局3D池化层和4个LSTM网络；

S103、构建分类器，分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层；根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型。

进一步的，步骤S102中，每个LSTM网络都只有一层，每个LSTM的输入隐层维度分别是64、64、128和256。

具体的，步骤S2中，训练过程具体为：

S201、设置训练批次大小B和迭代次数epoch；

S202、将一个批次的视频帧序列输入特征提取器G提取特征，生成不同尺度大小的特征F₁,F₂,F₃,F₄,F₅；

S203、将步骤S201生成的特征F₁,F₂,F₃,F₄输入多级语义信息融合模块M，提取特征F₁,F₂,F₃,F₄所包含的时间语义信息，得到特征向量F_vector；

S204、将步骤S201生成的特征F₅和步骤S203生成的F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接，得到最终的特征向量，最终的特征向量依次经过全连接层和softmax层得到预测结果p；

S205、将步骤S204得到的预测结果p和真实标签y计算损失值L_CCE，然后使用批随机梯度下降算法更新G、M和C的网络参数；

S206、重复步骤S202至S205，直至到达迭代次数epoch。

进一步的，步骤S203中，提取时间语义信息具体为：

S2031、将步骤S202中生成的4个特征F₁,F₂,F₃,F₄分别进行全局池化，在空间维度上进行池化，将特征的空间尺寸变为1×1；

S2032、将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络，提取每个特征所包含的时间语义信息，得到4个一维向量；

S2033、将步骤S2032得到的4个一维向量拼接，得到多级语义信息融合模块M的输出F_vector。

具体的，步骤S3中，测试过程具体为：

S301、将测试视频转换为视频帧，从所有的视频帧中，随机选取一帧为起始帧，按顺序截取16帧作为输入视频帧序列；

S302、将步骤S301得到的视频帧序列送入特征提取网络G，产生4中不同尺寸大小的特征F₁,F₂,F₃,F₄,F₅；

S303、将步骤S302生成的特征F₁,F₂,F₃,F₄送入多级语义信息融合模块M，特征F₁,F₂,F₃,F₄分别经过多级语义信息融合模块M中对应的3D全局池化层和LSTM网络，提取特征F₁,F₂,F₃,F₄包含的时间语义信息，得到一个特征向量F_vector；

S304、将步骤S302生成的特征F₅和步骤S303得到的特征向量F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接得到最终的特征向量，最终的特征向量经过全连接层和softmax层得到预测概率向量p，选取最大的预测概率向量p所对应的类别作为测试视频的类别。

本发明的另一技术方案是，一种基于3D卷积和多级语义信息融合的行为识别系统，包括：

构建模块，构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C；

训练模块，对构建模块构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练；

识别模块，将测试视频对应的视频帧序列送入训练模块训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中，得到测试视频的行为类别，根据测试视频的行为类别进行行为识别。

与现有技术相比，本发明至少具有以下有益效果：

本发明基于3D卷积和多级语义信息融合的行为识别方法，能够有效解决3D卷积网络中，因特征图的时间尺寸逐步缩减而造成时间上的语义信息丢失，并使最终的识别结果降低的问题。该方法在3D卷积网络的基础上，增加了一个多级语义信息融合模块，用于提取3D卷积网络中多种尺度特征图所包含的时间语义信息，并将这些信息用于最后的分类，使网络有更加丰富的信息来进行分类，达到提升分类准确率的效果。

进一步的，通过在原始3D卷积网络的基础上增加额外的多级语义信息融合模块这种方式来提取包含时间语义信息的特征，能够在不改变原始3D卷积网络结构的情况下，充分提取输入视频帧序列中的时间语义信息，并且整个网络的训练方式仍然是端到端的，不需要增加额外的步骤。

进一步的，不同大小的LSTM单元用于接收不同尺寸的中间特征，进而能够充分利用3D卷积网络所产生的中间特征，提取出各种时间尺度的中间特征所包含的时间语义信息并融合。

进一步的，将多级语义信息融合模块和3D卷积网络进行联合训练，其过程是端到端的，方便快捷。

进一步的，利用基于LSTM设计的多级语义信息融合模块能够充分提取中间特征所包含的时间信息，并生成一个特征向量用于最终的识别，以提升识别的准确率。

进一步的，在测试过程中，G和M分别提取出输入视频帧序列出时空特征以及包含时间语义信息的特征，通过这两种特征来判断输入视频帧序列的行为类别，使分类器接收更多的信息，能够提升最终的识别准确率。

综上所述，本发明采用LSTM网络设计多级语义信息融合模块，利用LSTM的长期记忆和短期记忆特性，能够有选择性的保留3D卷积网络的中间特征的时间语义信息并用于最终的识别，提示识别效果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明基于3D卷积和多级语义信息融合的行为识别方法的网络框图；

图2为特征提取网络G的网络架构图；

图3为多级语义信息融合模块M的网络架构图；

图4为分类器的网络架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于3D卷积和多级语义信息融合的行为识别方法，在使用3D卷积网络对视频帧序列提取时空特征的基础上，使用多级语义信息融合模块额外提取时间语义信息，并将3D卷积网络提取出的时空特征和多级语义信息融合模块额外提取的时间语义信息输入分类器进行分类。

请参阅图1，本发明一种基于3D卷积和多级语义信息融合的行为识别方法，包括以下步骤：

S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型，其中包括特征提取器G、多级语义信息融合模块M和分类器C；

请参阅图2、图3以及图4，构建基于3D卷积和多级语义信息融合的行为识别网络模型的具体过程为：

S101、构建特征提取器G，G为3D-ResNet34中的特征提取器；

S102、构建多级语义信息融合模块M，M包含4个全局3D池化层和4个LSTM网络；

其中，每个LSTM网络都只有一层，每个LSTM的输入隐层维度分别是64、64、128和256。

S103、构建分类器，分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层。

S2、训练基于3D卷积和多级语义信息融合的行为识别网络模型；

基于3D卷积和多级语义信息融合的行为识别网络模型的具体训练过程为：

S201、设置训练批次大小B和迭代次数epoch；

S202、将一个批次的视频帧序列输入特征提取器G提取特征，生成不同尺度大小的5个特征F₁,F₂,F₃,F₄,F₅；

S203、将S201中生成的四个特征F₁,F₂,F₃,F₄输入多级语义信息融合模块M，提取这些特征所包含的时间语义信息，得到特征向量F_vector；

提取时间语义信息的具体过程为：

S2031、将步骤S202中生成的4个特征F₁,F₂,F₃,F₄分别进行全局池化，仅在空间维度上进行池化，将特征F₁,F₂,F₃，F₄的空间尺寸变为1×1；

S204、将特征提取器G所生成的F₅和M所生成的F_vector送入分类器C，F₅经过全局3D池化后与F_vector进行拼接，得到最终的特征向量，该特征向量依次经过全连接层和softmax层得到预测结果p；

S205、将得到的结果p和真实标签y按以下公式计算损失值，然后使用批随机梯度下降算法更新G、M和C的网络参数；

其中，C表示类别个数，y_i表示第i个样本的真实类别，p_ic表示模型预测第i个样本是第c类的概率。

S206、重复步骤S202至S205，直至到达迭代次数epoch。

S3、将测试视频对应的视频帧序列送入训练好的基于3D卷积和多级语义信息融合的行为识别网络模型得到测试视频的行为类别。

具体的测试过程为：

S302、将S301得到的视频帧序列送入特征提取网络G，产生4中不同尺寸大小的特征F₁,F₂,F₃,F₄,F₅；

S303、将步骤S302生成的特征F₁,F₂,F₃,F₄送入多级语义信息融合模块M，特征F₁,F₂,F₃,F₄分别经过多级语义信息融合模块M中所对应的3D全局池化层和LSTM网络，提取特征F₁,F₂,F₃,F₄包含的时间语义信息，最后得到一个特征向量F_vector；

S304、将特征F₅和特征向量F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接，得到最终的特征向量，最终的特征向量经过全连接层和softmax层得到预测概率向量p，选取最大的预测概率向量p所对应的类别作为测试视频的类别。

本发明再一个实施例中，提供一种基于3D卷积和多级语义信息融合的行为识别系统，该系统能够用于实现上述基于3D卷积和多级语义信息融合的行为识别方法，具体的，该基于3D卷积和多级语义信息融合的行为识别系统包括构建模块、训练模块以及识别模块。

其中，构建模块，构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于3D卷积和多级语义信息融合的行为识别方法的操作，包括：

构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C；对基于3D卷积和多级语义信息融合的行为识别网络模型进行训练；将测试视频对应的视频帧序列送入训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中，得到测试视频的行为类别，根据测试视频的行为类别进行行为识别。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于3D卷积和多级语义信息融合的行为识别方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可通过以下仿真结果进一步说明。

1.仿真条件

本发明仿真的硬件条件为：智能感知与图像理解实验室图形工作站，搭载4块显存为12G的GPU；本发明仿真所使用的数据集为UCF101数据集，数据集包含101个动作类别的13320个分辨率为320×240的视频，按照数据集官方提供的数据集划分方式进行划分后，训练集包含9537个视频，测试集包含3783个视频。

2.仿真内容与结果

本发明方法在上述仿真条件下进行实验，首先使用3D-ResNet18和3D-ResNet34两个网络在UCF101数据集上进行了消融实验，验证特征的时间维度逐步缩减对最终识别结果的影响，其结果如表1所示。

表1

基础网络	特征维度缩减方式	识别准确率
			3D-ResNet18	平均池化	53.46％
3D-ResNet18	最大池化	52.37％
			3D-ResNet18	卷积	52.18％
3D-ResNet18	无	54.16％
			3D-ResNet34	平均池化	54.32％
3D-ResNet34	最大池化	52.78％
			3D-ResNet34	卷积	52.49％
3D-ResNet34	无	54.74％

从表1的结果看，不论是使用平均池化还是最大池化，亦或是卷积的方式对特征尺寸进行缩减，其最后的识别准确率都比不缩减低，这说明在3D卷积网络模型中，特征图的时间尺寸逐渐缩减确实会影响到最终的识别精准度。

表2是本发明提出的方法对UCF101数据集中的测试集进行识别，其最终识别准确率与其他方法的对比结果。

表2

方法	准确率(％)
		IDT	85.90
Temporal stream network	83.70
		LRCN	82.90
C3D	76.02
		I3D	84.50
3D-ResNet18	83.51
		3D-ResNet34	83.69
本发明方法	86.43

从表2的结果可以看出，本发明方法取得了很好的识别准确率，其相较于单独的3D-ResNet34网络，其识别准确率提升了2.74％，这说明本发明方法在3D卷积网络的基础上，所提出的多级语义信息融合模块确实能提取出有效的时间语义信息，提升网络的识别准确率。

综上所述，本发明一种基于3D卷积和多级语义信息融合的行为识别方法及系统，利用LSTM网络设计了一个多级语义信息融合模块，该模块能够从3D卷积网络所产生的多个尺度不同的中间特征中提取出时间语义信息，并将所提取出的时间语义信息和3D卷积网络所提取的特征融合起来，用于最终的分类，进而提升网络模型的识别准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于3D卷积和多级语义信息融合的行为识别方法，其特征在于，包括以下步骤：

S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C，具体为：

S103、构建分类器，分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层；根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型；

S2、对步骤S1构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练，训练过程具体为：

S201、设置训练批次大小B和迭代次数epoch；

S203、将步骤S202生成的特征F₁,F₂,F₃,F₄输入多级语义信息融合模块M，提取特征F₁,F₂,F₃,F₄所包含的时间语义信息，得到特征向量F_vector，提取时间语义信息具体为：

S2033、将步骤S2032得到的4个一维向量拼接，得到多级语义信息融合模块M的输出F_vector；

S204、将步骤S202生成的特征F₅和步骤S203生成的F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接，得到最终的特征向量，最终的特征向量依次经过全连接层和softmax层得到预测结果p；

S206、重复步骤S202至S205，直至到达迭代次数epoch；

2.根据权利要求1所述的方法，其特征在于，步骤S102中，每个LSTM网络都只有一层，每个LSTM的输入隐层维度分别是64、64、128和256。

3.根据权利要求1所述的方法，其特征在于，步骤S3中，测试过程具体为：

S302、将步骤S301得到的视频帧序列送入特征提取网络G，产生4中不同尺寸大小的特征F₁，F₂，F₃，F₄，F₅；

S303、将步骤S302生成的特征F₁，F₂，F₃，F₄送入多级语义信息融合模块M，特征F₁，F₂，F₃，F₄分别经过多级语义信息融合模块M中对应的3D全局池化层和LSTM网络，提取特征F₁，F₂，F₃，F₄包含的时间语义信息，得到一个特征向量F_vector；

S304、将步骤S302生成的特征F₅和步骤S303得到的特征向量F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接得到最终的特征向量，最终的特征向量经过全连接层和soffmax层得到预测概率向量p，选取最大的预测概率向量p所对应的类别作为测试视频的类别。

4.一种基于3D卷积和多级语义信息融合的行为识别系统，其特征在于，包括：

构建模块，构建基于3D卷积和多级语义信息融合的行为识别网络模型，基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C，具体为：

构建特征提取器G，特征提取器G为3D-ResNet34中的特征提取器；构建多级语义信息融合模块M，多级语义信息融合模块M包含4个全局3D池化层和4个LSTM网络；构建分类器，分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层；根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型；

训练模块，对构建模块构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练，训练过程具体为：

设置训练批次大小B和迭代次数epoch；将一个批次的视频帧序列输入特征提取器G提取特征，生成不同尺度大小的特征F₁，F₂，F₃，F₄，F₅；将生成的特征F₁，F₂，F₃，F₄输入多级语义信息融合模块M，提取特征F₁，F₂，F₃，F₄所包含的时间语义信息，得到特征向量F_vector，提取时间语义信息具体为：将生成的4个特征F₁，F₂，F₃，F₄分别进行全局池化，在空间维度上进行池化，将特征的空间尺寸变为1×1；将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络，提取每个特征所包含的时间语义信息，得到4个一维向量；将得到的4个一维向量拼接，得到多级语义信息融合模块M的输出F_vector；将生成的特征F₅和生成的F_vector送入分类器C，特征F₅经过全局3D池化后与特征向量F_vector进行拼接，得到最终的特征向量，最终的特征向量依次经过全连接层和softmax层得到预测结果p；将得到的预测结果p和真实标签y计算损失值L_CCE，然后使用批随机梯度下降算法更新G、M和C的网络参数；重复直至到达迭代次数epoch；