CN113343760A

CN113343760A - 一种基于多尺度特征神经网络的人体行为识别方法

Info

Publication number: CN113343760A
Application number: CN202110471890.4A
Authority: CN
Inventors: 王永雄; 秦宇龙; 刘智华
Original assignee: Warm House Information Technology Suzhou Co ltd
Current assignee: Warm House Information Technology Suzhou Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-09-03

Abstract

本发明公开了一种基于多尺度特征神经网络的人体行为识别方法，包括对视频样本进行数据分类，数据增强等预处理操作，获得相应的视频序列作为网络的输入数据，设计了类残差连接的多尺度特征模块，通过对输入特征的通道维度进行分割和重组处理，获取多种尺度的时空特征。并以多尺度特征模块为核心，构建残差机构的多尺度特征神经网络，通过输入数据中的训练样本，进行卷积、池化等操作，提取各动作的时空特征，训练优化多尺度特征神经网络。最后将待测数据输入到该网络中，进行多尺度时空特征的提取以及计算各类行为的概率，完成人体行为识别。本发明能够在视频数据中提取多种尺度的时空特征，有效地提高网络的特征表达能力和人体行为识别准确率。

Description

一种基于多尺度特征神经网络的人体行为识别方法

技术领域

本发明涉及一种人体行为识别方法，特别是一种基于多尺度特征神经网络的人体行为识别方法。

背景技术

人体行为识别是计算机视觉领域中极具挑战性的研究课题。人体行为识别是一种利用相关算法，是计算机自主地视频特征进行特征捕获、处理、分析和识别的技术。人体行为识别方法，以处理海量视频数据为前提，其关键是如何高效地进行时空特征的提取，以达到快速且精准地识别人体行为的目的，在智能监控、人机交互、自动驾驶等领域有着极大的发展潜力和研究意义。传统手工标定的方式，不仅耗时受力，而且受到标注环境、标注方式、样本数量等多方面的限制。因此，基于深度学习的方法，端到端的进行视频特征的提取，对于该领域的研究和应用有着重要意义。

目前，基于深度学习方法进行人体行为识别的应用可以分为两大类，一类为基于传统2D卷积神经网络，如双流网络法，循环神经网络等，但这类方法普遍结构相对复杂，且破坏视频样本时间维度的特征信息，提高了其应用在具体工程中的难度。另一类是基于3D卷积神经网络，如C3D等方法，但这类方法参数量相对较大，特征尺度单一，在处理复杂的动作识别问题时，识别效果不理想。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种基于多尺度特征神经网络的人体行为识别方法，通过内部的类残差连接结构，对数据特征的通道维度进行处理，获得多种尺度的时空特征，达到提高人体行为识别的准确率效果。

本发明技术方案如下：一种基于多尺度特征神经网络的人体行为识别方法，包括以下步骤：

步骤1、对视频数据进行包括逐帧拆解及归一化的预处理操作，获得包含时序信息的连续视频帧；

步骤2、将样本视频数据经过步骤1的所述预处理操作后添加对应的动作标签构成训练样本；

步骤3、构建多尺度特征神经网络，所述多尺度特征神经网络依次包括2+1D卷积层、池化层、四组多尺度特征模块和全局平均池化层相互连接而成。由所述全局平均池化层输出提取的时空特征，由所述时空特征计算对应的动作概率；所述多尺度特征模块包括依次连接的第一卷积层、类残差结构、第二卷积层和第三卷积层，所述类残差结构包括通道数均分的第一分支、第二分支、第三分支和第四分支，所述第二分支、第三分支和第四分支分别设有第四卷积层，所述第一分支的输入特征直接输出，所述第二分支的输出与所述第三分支的输入叠加输入至所述第三分支的第四卷积层，所述第三分支的输出与所述第四分支的输入叠加输入至所述第四分支的第四卷积层，所述第一分支、第二分支、第三分支和第四分支的输出叠加输入至所述第二卷积层；所述多尺度特征模块的输入与所述第三卷积层的输入叠加作为所述多尺度特征模块的输出；

步骤4、由所述训练样本训练所述多尺度特征神经网络；

步骤5、对于待识别的视频数据按所述步骤1得到相应的连续视频帧并输入由所述步骤4训练完成的所述多尺度特征神经网络得到识别结果。

进一步地，所述步骤2对所述样本视频数据按步骤1预处理包括对所述样本视频数据按时间维度逐帧拆解，拆解后连续的视频帧，以16帧为一组进行数据增强操作再进行归一化。

进一步地，所述数据增强操作包括等比例缩放、随机裁剪和随机水平翻转。

进一步地，所述第一卷积层和所述第二卷积层的卷积核为1×1×1，所述第三卷积层和所述第四卷积层的卷积核为3×3×3。

进一步地，所述四组多尺度特征模块的通道数依次为64、128、256和512。

进一步地，所述多尺度特征神经网络的目标函数为交叉熵函数，所述多尺度特征神经网络的反向传播算法为梯度随机下降算法。

本发明与现有技术相比的优点在于：

1、该多尺度特征神经网络可以端到端的处理输入数据，无需复杂的预处理，即可进行相关特征的提取，保留了数据中的时空信息。

2、该多尺度特征神经网络对经典的3D卷积神经网络结构进行调整，通过对特征通道维度的处理，获得多种尺度的时空特征，提高相关网络的特征提取能力，以提高网络的人体行为识别准确率。

3、该多尺度特征神经网络以时空分割的2+1D卷积为基础，通过网络内部的类残差连接结构，可以获取更加丰富的时空特征，进一步降低网络的参数数量，提高网络的人体行为识别效率。

4、该多尺度特征神经网络可以直接在数据样本的时空维度进行特征提取，构建相关动作特征的时空关系，无需进行复杂的特征融合计算，降低网络结构的复杂度。

附图说明

图1为本发明基于多尺度特征神经网络的人体行为识别方法的流程示意图。

图2为多尺度特征神经网络结构示意图。

图3为多尺度特征模块结构示意图。

图4为样本数据及测试数据的识别准确率对比图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

请结合图1至图3所示，本发明实施例所涉及的一种基于多尺度特征神经网络的人体行为识别方法，包括以下步骤：

步骤1，对复杂的视频样本数据，进行逐帧拆解、数据增强、像素归一化等预处理操作，获得包含时序信息的连续视频帧。具体实现如下：

1.1获取UCF101数据集中的视频样本，按照时间维度进行逐帧拆解。

1.2将拆解后连续的视频帧，以16帧为一组，依次进行等比例缩放、随机裁剪、随机水平翻转的数据增强操作，获得大小为112×112的视频序列。

1.3使用ImageNet dataset标准化系数，对输入样本进行归一化处理，完成数据的预处理操作，获得最终的输入数据。

步骤2、将预处理后的连续视频帧，按照3:7的比例，将数据样本划分为训练样本和测试样本两部分，作为网络的输入数据，输入到的多尺度特征神经网络之中进行网络参数的训练和特征提取。实现具体如下：

2.1将预处理后的连续视频帧，添加与之对应的动作类别标签，并按照3:7的比例将其划分为训练样本和测试样本两部分，

2.2训练样本用于训练多尺度特征神经网络中的网络参数，测试样本用于评价该网络的识别准确率。

步骤3、构建多尺度特征神经网络，利用训练样本，进行卷积、池化等操作，训练网络中的相关参数。通过多尺度特征模块，对特征的通道维度进行分割和重组处理，获取多种尺度的时空特征，提高网络的特征提取能力。根据所提取的时空特征和动作标签，计算各动作类别的概率值，并结合随机梯度下降法和交叉熵损失函数，优化相关的多尺度特征神经网络。具体如下：

3.1以多尺度特征模块为核心，结合全局平均池化层构建本发明提出的多尺度特征神经网络，图2为本发明提出的多尺度特征神经网络的网络结构图(图中下采样的池化层均未示出)。该网络以16帧大小为112×112的训练样本视频帧，作为网络的输入样本，随机初始化网络参数，进行网络参数的训练。输入数据首先经过一组通道数为64的2+1D卷积组进行特征提取，该卷积组由大小为1×3×3的空间卷积和3×1×1的时间卷积卷积串联构成，并通过空间池化下采样，得到16×56×56的输出特征。然后经过四组多尺度特征模块MSF，通道数依次为64、128、256、512，进行多尺度时空特征的提取及时空维度的下采样操作，提取到通道数为512，大小为2×7×7的时空特征。最后通过全局平均池化层GAP处理，完成网络的时空特征提取过程。

多尺度特征模块如图3(图中下采样的池化层均未示出)所示，在输入特征的通道维度，进行类残差结构的连接，依次对特征各通道特征进行处理，以获得多种尺度的时空信息。具体是对于通道数为C1的输入特征，首先经过一个1×1×1的卷积组进行通道维度的交互，然后在特征的通道维度上均匀地分割为四个部分，每部分特征的通道数为C`，即C`＝1/4C1。每个部分经过不同的分支进行处理。其中第一分支直接输出，第二分支的输入经过3×3×3的卷积组进行处理后输出，此时第二分支的输出不仅沿着网络向后传递，还与第三分支的输入进行叠加，共同作为第三分支的输入，经过该分支大小为3×3×3的卷积组进行特征提取处理后输出。同理，第三分支的输出在向下传递的同时，与第四分支的输入特征进行叠加，再经过该分支大小为3×3×3的卷积组进行特征提取。通过这种不断叠加的方式，可以等效地扩大卷积层的时空感受野范围，以获得多种尺度的时空特征，最后将各分支提取到的特征进行拼接重组，按照各分支的输出顺序进行排序。排序后的特征通过通道数为C2的1×1×1卷积组和3×3×3的2+1D卷积组进行处理，调整输出时空特征的通道维度，实现各部分特征间的信息融合。同时，为了避免出现梯度消失等问题，该模块还结合了残差结构，将信息融合后结果与多尺度特征模块的输入特征组合以获得最终的输出特征。

3.2根据所提取的时空特征，计算各动作类别的概率值，取最大概率的动作类别作为网络最终的判断结果。

3.3结合随机梯度下降法和交叉熵损失函数，计算识别动作类别与真实动作类别间的差异，优化相关的多尺度特征神经网络，获得最终的多尺度特征神经网络。

步骤4、将测试样本(即为待识别数据经过预处理步骤后的待识别样本)中的相关数据，输入到步骤3中所训练的卷积神经网络之中，进行多尺度时空特征的提取及计算各类预判动作的概率，完成最终的人体行为识别。实现具体如下：

4.1将测试样本输入到步骤3中优化的多尺度特征神经网络，进行时空特征的提取。

4.2根据所提取的时空特征，进行人体行为识别分析，以判断该样本的动作类别。

4.3对所有样本的测试准确率取平均值计算，获得最终的识别准确率，完成人体行为识别任务。其最终的实验结果如图4所示。

通过上述实例，本发明提出了一种基于多尺度特征神经网络的人体行为识别方法。通过网络内部的类残差连接结构，可以在视频样本中提取更加丰富的时空特征，提到网络的特征表达能力。在测试过程中，多尺度特征神经网络的人体行为识别准确率可以达到76.0％以上，超过了当前大多数的人体行为识别方法，提高了人体行为识别准确率。

Claims

1.一种基于多尺度特征神经网络的人体行为识别方法，其特征在于，包括以下步骤：

步骤3、构建多尺度特征神经网络，所述多尺度特征神经网络依次包括第一2+1D卷积层、池化层、四组多尺度特征模块和全局平均池化层，由所述全局平均池化层输出提取的时空特征，由所述时空特征计算对应的动作概率；所述多尺度特征模块包括依次连接的第一卷积层、类残差结构、第二卷积层和第三卷积层，所述类残差结构包括通道数均分的第一分支、第二分支、第三分支和第四分支，所述第二分支、第三分支和第四分支分别设有第四卷积层，所述第一分支的输入特征直接输出，所述第二分支的输出与所述第三分支的输入叠加输入至所述第三分支的第四卷积层，所述第三分支的输出与所述第四分支的输入叠加输入至所述第四分支的第四卷积层，所述第一分支、第二分支、第三分支和第四分支的输出叠加输入至所述第二卷积层；所述多尺度特征模块的输入与所述第三卷积层的输入叠加作为所述多尺度特征模块的输出；

步骤4、由所述训练样本训练所述多尺度特征神经网络；

2.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法，其特征在于，所述步骤2对所述样本视频数据按步骤1预处理包括对所述样本视频数据按时间维度逐帧拆解，拆解后连续的视频帧，以16帧为一组进行数据增强操作再进行归一化。

3.根据权利要求2所述的基于多尺度特征神经网络的人体行为识别方法，其特征在于，所述数据增强操作包括等比例缩放、随机裁剪和随机水平翻转。

4.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法，其特征在于，所述第一卷积层和所述第二卷积层的卷积核为1×1×1，所述第三卷积层和所述第四卷积层的卷积核为3×3×3。

5.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法，其特征在于，所述四组多尺度特征模块的通道数依次为64、128、256和512。

6.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法，其特征在于，所述多尺度特征神经网络的目标函数为交叉熵函数，所述多尺度特征神经网络的反向传播算法为梯度随机下降算法。