CN111382677A

CN111382677A - 基于3d注意力残差模型的人体行为识别方法及系统

Info

Publication number: CN111382677A
Application number: CN202010114850.XA
Authority: CN
Inventors: 董敏; 李永发; 毕盛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-07
Anticipated expiration: 2040-02-25
Also published as: CN111382677B

Abstract

本发明公开了一种基于3D注意力残差模型的人体行为识别方法及系统，包括步骤：1)获取人体行为视频数据集：采集YouTube网站视频、下载UCF101和Kinetics‑400公共数据集，以及通过单目摄像头采集的视频数据；2)对步骤1)的视频数据进行预处理操作，包括视频帧转换和关键帧提取，并制作数据集；3)建立3D注意力残差模型，并对步骤2)所得到的数据集提取特征；4)利用Softmax分类器对步骤3)所得到的特征进行分类、识别，实现模型训练；5)根据实际场景或现实需求对步骤4)训练好的模型进行迁移，并对其进行微调，提升其泛化能力，最后将微调好的模型应用于实际的人体行为识别任务中。本发明提高多类别和复杂视频场景处理的实时人体行为分析，具有广泛的研究和实际应用价值。

Description

基于3D注意力残差模型的人体行为识别方法及系统

技术领域

本发明涉及基于复杂视频场景的人体行为识别分析的技术领域，尤其是指一种基于3D注意力残差模型的人体行为识别方法及系统。

背景技术

伴随着5G技术的出现和应用，传统的互联网时代即将跨入万物互联的智能时代。而随着智能化的不断深入和应用，越来越多的领域都需要智能化的解决方案或相关的系统进行辅助。比如智慧城市管理，智能监控系统的应用，智能化的人机交互等。而这些领域方面中都离不开计算机视觉的相关技术，这些技术中又属深度学习的发展和应用最为广泛。但是，提升深度学习相关模型在视频分析处理效率和识别准确率方面仍然是一项十分具有挑战性的任务，受到了CV(Computer Visio)领域研究者的广泛关注。

基于视频的人体行为识别指的是根据已有的视频片段或实时的视频数据预测其当中的人的动作行为或表现。传统的人体行为识别主要包括：特征采样(主要是通过人工手段进行)、特征表示以及特征分类、预测。而其中的难点又主要集中在特征采用和特征表示两个阶段，并且提取的特征泛化性较差，难以适用“大数据时代”下的应用需求。

而随着深度学习在图片分类上的应用、推广(尤其是ImageNet数据集的诞生)，使得其在诸多的领域取得了不错的成绩。比如：人脸识别、图片分类、目标检测等领域。而基于视频人体行为分析、识别又是这些领域的一个特定的分支，因为视频也是由一张张图片帧所构成的，因此对视频的分类、识别，最终还是转换为了对图片帧的处理。因此早期的深度学习在基于视频的人体行为识别上就是采用这一思想。但是由于，视频本身具有时序信息，因此单纯的采用早期的深度模型往往会忽略了时间维度上的信息，从而降低预测的准确性。

为了解决这一不足之处，目前常用的模型方案主要分为两种：1)采用双流的CNN(其中最为经典的就是2015年提出的Two Stream CNN)分别采用2DCNN从时间和空间维度上进行特征的提取，然后在Softmax层对两个模型进行融合、分类；2)采用3D的卷积操作，同时从时间和空间两个维度上进行特征的提取(其中最为代表性的就是2015年提出的C3D模型以及由它衍生而来的P3D、R3D、R(2+1)D、I3D等)。虽然方案1)和2)都同时考虑了时空维度上的特征信息，但是他们仍然存在着不足之处。方案1)是分开进行时空特征提取，忽略了两者之间本身的关联，因为任何一段视频都是连续的并且行为主体的动作都是前后相关联的；方案2)虽然弥补了时空特征分开考虑的弊端，但是3D卷积的模型参数远大于2D模型，因此往往会存在卷积过程中梯度消失的问题，并且3D卷积是从视频全局进行特征的提取，不能很好的定位到行为的本身，因此往往会带来特征冗余、关键信息表示不足等弊端。因此，基于视频的人体行为识别、分析不仅仅要同时考虑时空特征，还要考虑关键特征突出对分类的影响。这样才能够更好的保证在复杂的场景下的实时人体行为的分析和识别。

发明内容

本发明的目的在于克服目前3D卷积网络模型在人体行为识别上对于复杂场景或者场视频片段中特征信息捕获的不足，提出了一种基于3D注意力残差模型的人体行为识别方法及系统，弥补3D CNN在深层次模型中梯度消失、冗余信息过多以及关键信息不突出等弊端，从而强化其特征的提取，提高模型在复杂场景或长视频中的识别效率，使其能够更好的应用于实际的生产应用当中。

为实现上述目的，本发明所提供的技术方案为：

基于3D注意力残差模型的人体行为识别方法，包括以下步骤：

1)获取人体行为视频数据集：采集YouTube网站视频、下载UCF101和Kinetics-400公共数据集，以及通过单目摄像头采集的视频数据；

2)对步骤1)的视频数据进行预处理操作，包括视频帧转换和关键帧提取，并制作数据集；

3)建立3D注意力残差模型，并对步骤2)所得到的数据集提取特征；

4)利用Softmax分类器对步骤3)所得到的特征进行分类、识别，实现模型训练；

5)根据实际场景或现实需求对步骤4)训练好的模型进行迁移，并对其进行微调，提升其泛化能力，最后将微调好的模型应用于实际的人体行为识别任务中。

在步骤1)中，获取人体行为视频数据集，包括以下步骤：

1.1)收集视频数据，从开源视频数据集进行搜集，通过下载UCF101和Kinetics-400公共数据集；利用爬虫脚本抓取YouTube网站中和人体行为识别相关的视频数据；利用单目摄像头采集实际环境中的人体行为视频数据作为测试数据集；

1.2)格式化视频数据，首先根据不同的类别分别将其归档到各自类别文件夹中；然后对同一文件夹内的文件按照递增的序列进行命名，所有的视频文件的后缀统一命名为AVI。

在步骤2)中，对步骤1)所得到的视频数据进行预处理操作，包括以下步骤：

2.1)利用视频帧提取脚本，依次对每个类别下的每一个视频进行帧提取并保存到对应视频名的文件夹内，得到图片帧数据集；

2.2)针对步骤2.1)提取的视频帧进行帧统计，并保存在txt文件中，txt文件中保存的内容为：序号、视频类别、视频名称和对应的图片帧数量；

2.3)依次读取步骤2.1)中所获得的图片帧数据集；

2.4)加载局部极大值的帧间差分法，并根据实际需要设置窗口大小和窗口内数据光滑算法；

2.5)对每一个图片帧文件夹进行关键帧提取，并保存到对应的文件夹内，得到关键帧数据集。

在步骤3)中，建立3D注意力残差模型，并对步骤2)所得到的数据集提取特征，包括以下步骤：

3.1)建立3D浅层特征提取公共模块：以连续的16帧图片数据作为该模块的输入，然后依次经过4个小块：第一和第二小块包各含一个卷积层，第三和第四小块各包含两个卷积层，每个小块后的卷积层均包含一个池化层，总共含有6层3D卷积、4层最大池化操作，四个卷积层对应的卷积核数量分别为64、128、256和512；

3.2)建立3D残差模块：包含4个3D卷积，4个Relu激活层，1个shortcut连接操作，卷积层的卷积核大小分别为1×1×1、1×3×3、3×1×1和1×1×1；

3.3)建立3D注意力模块，包含两个部分：分别是注意力权重计算部分和卷积特征提取部分；注意力权重计算部分分为两个分支，分别包含一个3D卷积操作和一个Reshape操作，卷积核大小为1×1×1；卷积特征提取部分只包含一个3D卷积操作，卷积核大小为1×1×1；最后，再对两部分得到的结果进行乘积融合得到注意力特征，然后再加上卷积层提取的特征，作为注意力模块的输出；

3.4)将步骤3.3)中的注意力模块和步骤3.2)建立的残差模块进行融合，融合有两种策略：第一种策略，将残差模块加入到注意力模块的shortcut当中；第二种策略，将注意力模块并列在残差模块的后面使之成为一个整体；此两种策略融合得到的模型均称为3D注意力残差模型；

3.5)对基于3D注意力残差模型中每层卷积层的权重都采用正太分布的方式进行初始化，并且为了防止过拟合对权重进行L2正则衰减。

在步骤4)中，利用Softmax分类器对步骤3)所得到的特征进行分类、识别，实现模型训练，包括以下步骤：

4.1)对步骤3)中建立的3D注意力残差模型所提取的特征进行Flatten()操作；

4.2)添加两个全连接层操作，并且每一个全连接层后增加一个Dropout(0.5)，防止模型过拟合；

4.3)将全连接层后的特征向量作为Softmax分类器的输入，输出大小为对应类别的实际数量大小。

在步骤5)中，根据实际场景或现实需求对步骤4)训练好的模型进行迁移，并对其进行微调，提升其泛化能力，包括以下步骤：

5.1)通过单目摄像头采集实际场景或应用下的视频数据，得到原始的视频数据；

5.2)利用步骤2)的流程对步骤5.1)所得到的原始视频数据进行处理，得到对应的视频数据集；

5.3)迁移步骤4)中训练好的模型，冻结3D注意力残差模型的特征提取层相关参数，进行微调；

5.3)根据实际需要更改模型的输入、输出层，加载步骤5.2)得到的数据集进行微调训练。

本发明所提供的基于3D注意力残差模型的人体行为识别系统，包括：

数据搜集模块，通过视频爬虫脚本对YouTube网站上指定的视频数据进行抓取，或者通过单目摄像头采集实际环境或应用中的人体行为数据；

数据处理模块，通过数据清洗脚本对采集的视频数据中不能正常播放或者是视频播放时间低于设定阈值的进行剔除，然后利用数据分类归档脚本，将视频数据按照各自的类别分别归档至相应的类别文件夹中，并按照升序的顺序进行重命名，接下来调用“FFmpeg”工具将所有视频数据转换为图片帧，再利用局部极大值的帧间差分法提取对应图片帧的关键帧，最后对提取的数据进行划分，并统计对应的帧数，保存于txt文件中；

特征提取模块，采用3D注意力残差模型，通过从对应数据集中随机选取连续的16帧图片作为模型的输入，分别经过3D浅层特征提取公共部分、3D注意力残差融合部分和全连接层部分；

模型训练模块，利用处理好的视频数据集构造模型训练所要的训练集、验证集和测试集；

人体行为分类识别模块，以特征提取模块所获得的特征作为Softmax分类器的输入，进行特征类别的分类、识别。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明利用局部极大值的帧间差分法对图片帧数据集进行关键帧提取，从一定程度上减少了冗余数据量，缩短了模型训练的周期。

2、本发明的3D注意力模块采用类残差模型的结构进行设计，保证了其输入、输出大小的一致性，使其可以嵌入到任意的3D网络结构中，从而具有更高的独立性、通用性。

3、本发明的3D注意力残差模型首次采用注意力机制和残差结构相融合的方式，进行特征提取，这样不仅可以利用注意力机制的特性来弥补人体行为在时空迁移上局部信息弱化的弊端，同时还能够在加深网络的同时避免梯度的消失的问题，使其能够应对更加庞大、复杂的视频数据集和应用场景的需求。

4、本发明的3D注意力残差模型的各部分均采用模块化设计的思想，分为3D浅层特征提取、3D注意力残差、全连接层和Softmax分类层四部分，各部分均可进行替换，使得本发明的3D注意力残差模型拥有更高的灵活性。

5、本发明将模型、模块集成为系统，适用于实际的生产需要。通过将深度学习相关的技术从理论转换为实际的输出，扩大其研究的影响力。

附图说明

图1为本发明的整体流程图。

图2为本发明中3D浅层特征提取模块的结构示意图。

图3为本发明中3D残差模块的结构示意图。

图4为本发明中3D注意力模块的结构示意图。

图5为本发明中3D注意力残差融合策略1的结构示意图。

图6为本发明中3D注意力残差融合策略2的结构示意图。

图7为本发明中3D注意力残差模型的结构示意图。

具体实施方式

下面结合说明书附图和本发明的具体实施细节做进一步的描述和说明。

如图1所示，本实施例所提供的基于3D注意力残差模型的人体行为识别方法，包括以下步骤：

1)获取人体行为视频数据集：采集YouTube网站视频、下载UCF101和Kinetics-400公共数据集，以及通过单目摄像头采集的视频数据，具体如下：

1.1)收集视频数据，从开源视频数据集进行搜集，通过下载UCF101和Kinetics-400公共数据集；利用爬虫脚本抓取YouTube网站中和人体行为识别相关的视频数据；利用单目摄像头采集实际环境中的人体行为视频数据作为测试数据集。

2)对步骤1)的视频数据进行预处理操作，包括视频帧转换和关键帧提取，并制作数据集，具体如下：

2.1)利用视频帧提取脚本，调用“FFmpeg”工具，依次对每个类别下的每一个视频进行帧提取并保存到对应视频名的文件夹内，得到图片帧数据集。

2.2)针对步骤2.1)提取的视频帧进行帧统计，并保存在txt文件中，txt文件中保存的内容为：序号、视频类别、视频名称和对应的图片帧数量。

2.3)依次读取步骤2.1)中所获得的图片帧数据集。

2.4)加载局部极大值的帧间差分法，并根据实际需要设置窗口大小和窗口内数据光滑算法。

3)建立3D注意力残差模型，并对步骤2)所得到的数据集提取特征，具体如下：

3.1)建立3D浅层特征提取公共模块，如图2所示，以连续的16帧图片数据作为该模块的输入，然后依次经过4个小块：第一和第二小块包各含一个卷积层，第三和第四小块各包含两个卷积层，每个小块后的卷积层均包含一个池化层，总共含有6层3D卷积、4层最大池化操作，四个卷积层对应的卷积核数量分别为64、128、256和512。

3.2)建立3D残差模块，如图3所示，包含4个3D卷积，4个Relu激活层，1个shortcut连接操作，卷积层的卷积核大小分别为1×1×1、1×3×3、3×1×1和1×1×1；为了降低模型的参数，设计为四层结构，前三层结构各包含一个3D卷积操作、一个归一化操作(简称BN)和一个Relu操作(其卷积操作对应的卷积核大小分别为1×1×1，1×3×3，3×1×1)；第四层不包含Relu操作，卷积核大小为1×1×1。然后将经过四层结构所得到的特征和自身特征X进行相加操作，再执行Relu操作输出。

3.3)建立3D注意力模块，如图4所示，包含两个部分：分别是注意力权重计算部分和卷积特征提取部分；注意力权重计算部分分为两个分支，分别包含一个3D卷积操作和一个Reshape操作，卷积核大小为1×1×1；卷积特征提取部分只包含一个3D卷积操作，卷积核大小为1×1×1；最后，再对两部分得到的结果进行乘积融合得到注意力特征，然后再加上卷积层提取的特征，作为注意力模块的输出。

为了使该模块能够嵌入到模型的任意部分，本模块参照步骤3.2)结构进行设计使之输入和输出大小一致，同时为了降低卷积参数，在权重获取分支进行两步分开卷积操作，然后对其Reshape，相乘后再经过Softmax层得到特征注意力权重。所有的卷积核大小都为1×1×1。

3.4)将步骤3.3)中的注意力模块和步骤3.2)建立的残差模块进行融合，如图5和图6所示，融合有两种策略：第一种策略，将残差模块加入到注意力模块的shortcut当中；第二种策略，将注意力模块并列在残差模块的后面使之成为一个整体；此两种策略融合得到的模型均称为3D注意力残差模型。

在图5中，将注意力模块嵌入到残差模型的shortcut路径上，使得残差特征相加不再是原始的输入特征而是经过注意力机制提取的局部加强特征；在图6中将注意力模块嵌入到残差模型快的后面使之并列，对残差模块提取的特征在进行局部特征的强化。

3.5)如图7所示，为3D注意力残差模型结构示意图，分别由图2的3D公共基础特征提取模块、图5或图6注意力残差模型融合模块、全连接层模块(分别含有两个全连接操作和两个Dropout(0.5)层组成、以及输出分类器Softmax层组成；对基于3D注意力残差模型中每层卷积层的权重都采用正太分布的方式进行初始化，并且为了防止过拟合对权重进行L2正则衰减。

4)利用Softmax分类器对步骤3)所得到的特征进行分类、识别，实现模型训练，具体如下：

5)根据实际场景或现实需求对步骤4)训练好的模型进行迁移，并对其进行微调，提升其泛化能力，最后将微调好的模型应用于实际的人体行为识别任务中，具体如下：

5.3)根据实际需要更改模型的输入、输出层，加载步骤5.2)得到的数据集进行微调训练；

5.4)将微调好的模型应用于实际的人体行为识别任务中。

本实施例也提供了一种基于3D注意力残差模型的人体行为识别系统，包括如下模块：

在上述实施例中，所包括的各个模块只是按照本发明的功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可。

综上所述，相比现有技术，本发明引入了3D残差和3D注意力机制模块并进行融合，不仅发挥出了注意力机制的特性来弥补人体行为在时空迁移上局部信息弱化的弊端，同时还能够利用残差模型的特性避免在深层次网路中梯度消失的问题；在数据处理上，采用局部极大值的帧间差分法对图片帧数据集进行关键帧提取，从一定程度上减少了冗余数据量，缩短了模型训练的周期；此两者配合使用能够应对更加庞大、复杂的视频数据集和多样化的需求。同时为了适应实际生产需要，本发明将模型集成为系统，使之模块化，可以迁移、应用到智能物联网平台相关的应用上，具有广泛的研究和实际应用价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于3D注意力残差模型的人体行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于3D注意力残差模型的人体行为识别方法，其特征在于，在步骤1)中，获取人体行为视频数据集，包括以下步骤：

3.根据权利要求1所述的基于3D注意力残差模型的人体行为识别方法，其特征在于，在步骤2)中，对步骤1)所得到的视频数据进行预处理操作，包括以下步骤：

2.3)依次读取步骤2.1)中所获得的图片帧数据集；

4.根据权利要求1所述的基于3D注意力残差模型的人体行为识别方法，其特征在于，在步骤3)中，建立3D注意力残差模型，并对步骤2)所得到的数据集提取特征，包括以下步骤：

5.根据权利要求1所述的基于3D注意力残差模型的人体行为识别方法，其特征在于，在步骤4)中，利用Softmax分类器对步骤3)所得到的特征进行分类、识别，实现模型训练，包括以下步骤：

6.根据权利要求1所述的基于3D注意力残差模型的人体行为识别方法，其特征在于，在步骤5)中，根据实际场景或现实需求对步骤4)训练好的模型进行迁移，并对其进行微调，提升其泛化能力，包括以下步骤：

7.基于3D注意力残差模型的人体行为识别系统，其特征在于，包括：