CN114022957A

CN114022957A - 基于深度学习的行为识别方法

Info

Publication number: CN114022957A
Application number: CN202111293226.1A
Authority: CN
Inventors: 张轶; 蒋洁
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08
Anticipated expiration: 2041-11-03
Also published as: CN114022957B

Abstract

本发明公开了基于深度学习的行为识别方法，涉及视频识别领域，S1获取训练样本集；S2建立行为识别模型，行为识别模型包括resnet‑50网络、自适应时间特征提取模块和特征细粒度增强模块；S3训练样本集导入行为识别模型进行训练优化；S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别；自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系；特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率，大大提高了行为识别的准确率。

Description

基于深度学习的行为识别方法

技术领域

本发明涉及视频识别领域，尤其涉及一种基于深度学习的行为识别方法。

背景技术

近年来,由于深度学习的发展,人体行为识别由于其前景广阔迅速成为研究热点,基于深度学习的人体行为识别方法在各个领域应用广阔，通过视频理解人的行为是监控领域，人机交互、智慧家居等领域的技术基础，有很高的应用价值。

但视频分类领域有别于图像分类，图像分类基于深度学习方法能够提取到强大的外观信息，已经达到很高的分类精度。但视频分类是基于连续的图片序列，除了需要得到外观信息外，还需要从连续的视频帧中得到时间信息，目前的方法还远远达不到图像领域的精度。目前行为识别主要可以分为三类，第一类使用双流结构提取外观信息和时间信息，但额外的光流的提取十分耗时，并且意味着不能端到端的学习。第二类方法使用3D卷积网络同时提取外观信息和时间信息，但3D卷积的网络结构更大，因此需要额外的预训练，造成额外的开销。第三类方法是在2D卷积网络中加入提取时间信息的模块，这种方式更轻便但同时也需要面对融合时间信息和外观信息的困难。

传统的行为识别方法在相似外观的场景下容易失效，原因在于时间信息是细粒度的，目前的行为识别方法还不能很好的对细粒度的时间信息作出正确的推断。

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于深度学习的行为识别方法。

本发明通过以下技术方案来实现上述目的：

基于深度学习的行为识别方法，其特征在于，包括：

S1、获取训练样本集；

S2、建立行为识别模型，行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块，自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息，特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息，在resnet-50网络的第一、二、三、四层上均放置自适应时间特征提取模块和特征细粒度增强模块；

S3、训练样本集导入行为识别模型进行训练优化；

S4、将需要进行行为识别的视频导入优化后的行为识别模型进行识别。

本发明的有益效果在于：本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系；特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率，大大提高了行为识别的准确率。

附图说明

图1是本发明基于深度学习的行为识别方法的行为识别模型示意图；

图2是本发明基于深度学习的行为识别方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

基于深度学习的行为识别方法，其特征在于，包括：

S1、获取训练样本集，对训练样本集进行预处理；

采用公开数据集，生成原始视频的标签文件，划分训练集和验证集，生成训练集和验证集的信息，包括具体的标签信息和路径信息，按照训练集和验证集的划分，分别对原始视频提取某一段时间内的视频帧序列，并将其按照划分保存在对应的文件夹中；对训练集和验证集进预处理，具体包括：将视频帧按照需求分为相等长度的T段，随机的在每一段中采样一帧，得到一系列的图片序列，对图片序列进行随机裁剪，对原始图片序列数据增强得到数据输入流，由于相邻的视频帧间信息非常相似，全部输入网络会造成大量冗余，因此通过对视频帧进行分段随机采样的方式，降低输入网络的图片数量。

S2、建立行为识别模型，行为识别模型包括resnet-50网络、自适应时间特征提取模块和特征细粒度增强模块，自适应时间特征提取模块通过2D卷积构建局部分支和全局分支来捕获局部变化敏感信息和全局聚合信息，特征细粒度增强模块通过2个3D卷积和一个2D卷积构建用于增强时间信息和外观信息，resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个，resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。

S3、训练样本集导入行为识别模型进行训练优化，数据输入流输入到行为识别模型的输入特征X记为[N,C,T,H,W]，其中N是批次编号，C为特征通道，T为时间维度，H和W为空间解析度(也即是单张图像的长和宽)；训练优化过程具体包括

S31、对特征X进行全局平均池化得到全局池化特征X^S，X^s＝pooling(X)，可以压缩空间的维度，目的是为了忽略特征的外观信息，使得模块只关注特征X的时间信息；

S32、局部分支使用两个一维的卷积层对X^S的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’，X’＝Conv2(Conv1(X^S))，其中Conv1降低通道数，Conv2恢复通道数，使用sigmoid函数激励X’的不同通道得到特征M，M＝sigmoid(X’)，不同通道对不同时间维度上特征的敏感程度不同，不同通道能够关注到不同的时间信息；

S33、对X和M使用通道级乘法得到局部变化敏感的重要性图X^o，X^o＝M⊙X，X^o既拥有瞬时的时间信息，又保留了外观特征；

S34、全局分支将提取到的X^S输入到两个全连接层中，得到联合瞬时时间信息的聚合核k，k＝FC₂(FC₁(X^S))；并使用softmax函数进行权值归一化，生成最终能够得到不同时间维度间依赖关系的全局的聚合核q，q＝softmax(k)；

S35、使用生成的聚合核q对局部分支的输出X^o进行卷积聚合得到特征A，

这种时间信息的聚合方式能够聚合由输入视频序列的全局视图引导的时间依赖性关系，最终得到的特征既拥有了瞬时的时间信息，又获得了长期的时间依赖关系；

S36、使用两个3D卷积层conv1,conv2和一个2D卷积层conv3对时间信息和外观信息建模提取细粒度的时间信息和外观信息，Y＝conv3(conv2(x)οconv1(x’))，具体包括：

对于输入特征x∈R^M和x'∈R^N，使用双线性池化对输入的特征建模得到更加具有区分性的细粒度特征，原始的双线性池化是一个外积操作z＝xx'^T,z∈R^M×N，池化后的特征维度过高，输入下一层全连接层y＝Wvec(z),W∈R^D×M×N,y∈R^D，全连接层参数W过多，使用三个小的矩阵u∈R^D×R,a∈R^R×M,b∈R^R×N来近似大矩阵W，则y＝u(axοbx')，由于R很小，因此可以达到减少参数的目的；

S37、令x’＝x完成特征自双线性池化，增强时间信息和外观信息；

S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层，计算损失函数并进行反向传播得到最终的权重优化resnet-50网络，本发明的resnet-50网络为imagenet上提供的resnet-50的预训练权重，并保持conv2的weight＝0，bias＝1。

本发明的自适应时间特征提取模块能够动态的对时间信息进行解耦,动态的生成全局的长期时间依赖关系,而不是通过叠加多个瞬时局部的时间特征来获取长期的时间关系；

本发明的特征细粒度增强模块通过双线性池化来得到更具有判别力的外观信息和时间信息,并且提出一种近似方法提高双线性池化的效率；

本发明使用了一种初始化方法，使得网络不需要在大型行为识别数据集上额外的预训练；

本发明提供了一种网络结构，构建出一种结合两个模块的方法,大大提高了识别的准确率。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于深度学习的行为识别方法，其特征在于，包括：

S1、获取训练样本集；

S3、训练样本集导入行为识别模型进行训练优化；

2.根据权利要求1所述的基于深度学习的行为识别方法，其特征在于，resnet-50网络的第一、二、三、四层上自适应时间特征提取模块的数量均为1个，resnet-50网络的第一、二、三、四层上特征细粒度增强模块的数量分别为2、3、5、2个。

3.根据权利要求1所述的基于深度学习的行为识别方法，其特征在于，训练样本集中训练样本的特征X包括批次编号N、特征通道C、时间维度T、空间解析度，空间解析度包括训练样本图形的长H和宽W。

4.根据权利要求1所述的基于深度学习的行为识别方法，其特征在于，在S1中还包括对训练样本集进行预处理，具体包括：对训练样本集的视频帧进行分段随机采样排序，并对采样出来的视频帧图片进行随机裁剪。

5.根据权利要求1所述的基于深度学习的行为识别方法，其特征在于，在S3中包括：

S31、对特征X进行全局平均池化得到全局池化特征X^S，X^s＝pooling(X)；

S32、局部分支对X^S的相邻时间维度进行建模得到局部变化敏感的时间信息特征X’，X’＝Conv2(Conv1(X^S))，并使用sigmoid函数激励X’的不同通道得到特征M，M＝sigmoid(X’)；

S33、对X和M使用通道级乘法得到局部变化敏感的重要性图X^o，

S34、全局分支将提取到的X^S输入到两个全连接层中，得到联合瞬时时间信息的聚合核k，k＝FC₂(FC₁(X^S))；并使用softmax函数进行权值归一化，生成全局的聚合核q，q＝softmax(k)；

S36、使用两个3D卷积层conv1,conv2和一个2D卷积层conv3对时间信息和外观信息建模，

S38、增强后的时间信息和外观信息输入resnet-50网络的全连接分类层，计算损失函数并进行反向传播优化resnet-50网络。