CN107506740B

CN107506740B - 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法

Info

Publication number: CN107506740B
Application number: CN201710785550.2A
Authority: CN
Inventors: 王田; 陈阳; 乔美娜; 陶飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2020-03-17
Anticipated expiration: 2037-09-04
Also published as: CN107506740A

Abstract

本发明涉及一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，包括：对视频进行逐帧采样，在得到的多个连续的单帧图像上，在时间维度上堆叠为一定大小的图像立方体，作为三维神经网络的输入。在实现时，先训练基础的多分类三维神经网络模型，再从测试结果中挑选出部分类别的输入样本构建子数据集，然后在此子数据集基础上训练多个二分类模型，挑选出二分类结果最好的数个模型。最后，将这些模型学到的知识，利用迁移学习迁移到原多分类模型上，再重新训练迁移后的多分类模型，提高多分类识别准确率，实现高准确率的人体行为识别。

Description

一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法

技术领域

本发明涉及视频中的图像处理技术，特别是涉及一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法。

背景技术

当今社会，在存储设备，互联网技术和社交网络的飞速发展下，产生了大规模的视频数据。如何利用这些视频数据，进行目标识别与行为分析，已成为日益增长的需求。无论是智能安全监控、顾客购物行为分析、智能家居系统、体感游戏，还是无人驾驶时对路上行人的动作识别，都依赖于高效率高精度的人体行为识别系统。而人体行为识别，目的就是在视频中对一个或者多个人的行为或者动作进行分类识别研究，其研究对象往往是一连串的视频序列，而不再局限于单帧的图像分析。因此，设计一套完善的行为识别系统，就依赖于对视频序列中的时间--空间特征进行有效的特征提取与分类。

然而，如何去设计并构建一个高精度并且鲁棒性强的人体行为识别模型是一项非常具有挑战性的工作。就行为识别问题本身而言，存在多方面的难题：(1)相同行为个体差异明显。考虑到行为在时间和空间维度上的分布，针对同一种或者同一类动作，不同的个体可能会有不同的表现，这些差异往往是由于不同个体对同一种或者同一类动作的个人理解不同导致，因此往往造成同一动作在完整性、运动轨迹、运动幅度以及运动速度存在较大差异，造成区分上的困难；(2)动态视频信息中往往存在诸多干扰信息，而这些信息很多在静态图像处理过程中是没有出现过的。比如个体与个体之间，个体与背景环境之间的遮挡、遮挡过程中发生的个体与个体之间或个体与背景环境之间发生的相对运动、视频序列中的光照强度和对比度等的变化，视频拍摄过程中镜头的移动与缩放，以及一段视频序列中动作可能不完整等等。种种这些难点均给视频序列中行为识别研究带来了极大的挑战性。

发明内容

有鉴于此，本发明的主要目的在于提供一种检测精度高、鲁棒性强的基于三维卷积神经网络和迁移学习模型的人体行为识别方法，大大提高了检测精度，同时，能应对多种场景下的人体行为识别，鲁棒性很强。

为了达到上述目的，本发明提出的技术方案为：一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，具体实现步骤如下：

步骤1、读取视频，将视频分解成诸多连续的单帧图像，然后将单帧图像进行堆叠，得到神经网络所需要的立方体结构，同时为每个立方体结构确定对应的行为分类标签；

步骤2、根据人体行为分类数N，设计N分类三维卷积神经网络结构。用所得到立方体结构作为单元，输入到该三维卷积神经网络中，通过多层结构计算得到最终的M维向量输出，M＝N；

步骤3、结合三维卷积神经网络的N维向量输出和输入样本对应的标签，构建损失函数，通过最小化损失函数，训练三维卷积神经网络；

步骤4、训练好三维卷积神经网络后，从测试结果中挑选出部分类别对应的输入样本，构建总类别数为N′的子数据集，N′＜N，并在此子数据集基础上，利用步骤2中N分类三维卷积神经网络结构，构建多个二分类模型，进行训练；

步骤5、训练完这些二分类模型后，挑选出分类效果最好的部分模型，利用迁移学习将二分类模型学到的知识迁移到N分类模型上，重新训练N分类模型。

步骤6、训练好最终的结合了迁移学习的N分类三维卷积神经网络后，即可用于人体行为识别。

所述步骤1中立方体结构的获取方法如下：

从原始视频数据中通过逐帧采样将视频拆解为一系列连续帧的图像，把它们在时间维度上进行堆叠，得到诸多能完整呈现一个动作的大小为w×h×d的立方体结构，其中w代表图像的宽度，h代表图像的高度，d代表时间轴上的长度，也就是堆叠图片的帧数。同时，用one-hot编码为每个立方体结构确定对应的行为分类标签。

所述步骤2使用的三维卷积神经网络结构为：

三维卷积神经网络的整体结构为数层嵌套的三维卷积层和三维池化层，和最后的数层全连接层构成。

其中，三维卷积层中利用三维卷积来提取输入样本中的时间—空间特征信息，用于行为识别。具体来讲，利用多个三维卷积核与输入立方体进行三维卷积操作，得到多个特征图。在输出的特征图中，位于空间坐标(x,y,z)处的响应的数值可由以下公式计算得出:

上式中，w_ijk为卷积核在位置(i,j,k)处的权值，k_{(x+i)(y+j)(z+k)}为输入立方体单元中位置(x+i,y+j,z+k)处的图像灰度值，f为激活函数，b为偏置项。

三维卷积层计算得到特征图后，经过一层激活函数进行非线性变换处理，再输出给池化层。池化层用于对得到的特征图进行降采样。而经过最后一层节点数位N的全连接层后，借助Softmax函数，可得到最终的M维向量，M＝N，对应为输入样本对于N分类的对应归属概率：

上式中，z_i代表Softmax前的输出值，p(z_i)代表输入样本属于第i类行为的概率。

所述步骤3构建损失函数的具体过程为：

选择平均交叉熵作为损失函数，即：

上式中，K代表输入样本总量，N代表总分类类别数，P(x_ij)代表神经网络预测出的第i个样本属于第j类的概率，Q(x_ij)代表真实的第i个样本属于第j类的概率。

所述步骤4构建子数据集和二分类模型的具体过程为：

在训练好基础的N分类三维神经网络后，在测试集上进行评估，找出分类结果最好的几个类别对应的输入样本，构建总类别数为N′(N′＜N)的子数据集。并在此子数据集上，利用原分类网络，设计

个二分类器，单独训练这些二分类器。

所述步骤5将二分类模型学到的知识迁移到原N分类模型的具体过程为：

在步骤4中

个二分类器训练完毕后，利用测试阶段的测试结果，挑选出分类结果最好的

个子模型，然后将这些子模型中前面部分结构的权重载入原N分类模型中，再修改最后几层的结构，最后重新训练这n个N分类模型，挑选出分类结果最佳的作为最终的N分类模型。

综上所述，本发明所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，包括：对视频进行逐帧采样，在得到的多个连续的单帧图像上，在时间维度上堆叠为一定大小的图像立方体，作为三维神经网络的输入。在实现时，先训练基础的多分类三维神经网络模型，再从测试结果中挑选出部分类别的输入样本构建子数据集，然后在此子数据集基础上训练多个二分类模型，挑选出二分类结果最好的数个模型。最后，将这些模型学到的知识，利用迁移学习迁移到原多分类模型上，再重新训练迁移后的多分类模型，提高多分类识别准确率，实现高准确率的人体行为识别。

本发明与现有技术相比的优点在于：本发明具有检测精度高、鲁棒性强等特点，可广泛应用于医院、银行等公共场景的安全保护。通过使用三维卷积神经网络自动提取视频序列中的时间—空间信息特征，再结合迁移学习，具有准确率高，鲁棒性强的特点，而且识别速度很快。

附图说明

图1为本发明实现流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

如图1所示，本发明具体实现如下步骤：

步骤1、读取视频，将视频分解成诸多连续的单帧图像，然后将单帧图像进行堆叠，得到神经网络所需要的立方体结构，同时为每个立方体结构确定对应的行为分类标签。即从原始视频数据中通过逐帧采样将视频拆解为一系列连续帧的图像，把它们在时间维度上进行堆叠，得到诸多能完整呈现一个动作的大小为w×h×d的立方体结构，其中w代表图像的宽度，h代表图像的高度，d代表时间轴上的长度，也就是堆叠图片的帧数。同时，用one-hot编码为每个立方体结构确定对应的行为分类标签。所谓one-hot编码就是使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器为且在任意时候只有1位有效，如3类行为利用one-hot编码可得到100，010，001三种编码。

步骤2、根据人体行为分类数N，设计N分类三维卷积神经网络结构。用所得到立方体结构作为单元，输入到该三维卷积神经网络中，通过多层结构计算得到最终的M维向量输出，M＝N。具体来讲，三维卷积神经网络的整体结构为数层嵌套的三维卷积层和三维池化层，和最后的数层全连接层构成其中。如图一所示，C代表三维卷积层，S代表三维池化层，FC代表全连接层。其中，三维卷积层中利用三维卷积来提取输入样本中的时间—空间特征信息，用于行为识别。利用多个三维卷积核与输入立方体进行三维卷积操作，可得到多个特征图。在输出的特征图中，位于空间坐标(x,y,z)处的响应的数值可由以下公式计算得出:

步骤3、结合三维卷积神经网络的N维向量输出和输入样本对应的标签，构建损失函数，通过最小化损失函数，训练三维卷积神经网络。可选择平均交叉熵作为损失函数，即：

步骤4、训练好三维卷积神经网络后，从测试结果中挑选出部分类别对应的输入样本，构建总类别数为N′的子数据集，N′＜N，并在此子数据集基础上，利用步骤2中N分类三维卷积神经网络结构，构建多个二分类模型，进行训练。其中，构建总类别数为N′的子数据集和二分类模型的具体过程为：

在训练好基础的N分类三维神经网络后，在测试集上进行评估，找出分类结果最好的几个类别对应的输入样本，构建总类别数为N′(N′＜N)的子数据集。并在此子数据集上，利用原N分类三维卷积神经网络，更改图一中最后输出层节点数为2，由此设计

个二分类器，单独训练这些二分类器。

步骤5、训练完这些二分类模型后，挑选出分类效果最好的部分模型，利用迁移学习将二分类模型学到的知识迁移到N分类模型上，重新训练N分类模型。具体来讲，在步骤4中

个子模型，然后将这些子模型中前面部分结构的权重载入原N分类模型中，再修改最后几层的结构(如图一中，删除节点数为n₁和n₂的几个全连接层，更改为节点数为n′₁,n′₂,n′₃的几个新的全连接层)，最后重新训练这n个N分类模型，挑选出分类结果最佳的作为最终的N分类模型。

总之，本发明以视频中人体行为的识别为主，针对原始视频数据，使用深度学习中的三维神经网络模型提取特征，进行训练和检测。由于三维卷积神经网络能自动提取有效的时间—空间特征信息，同时具有尺度和空间变换不变的鲁棒性，因此提取的特征往往由于人工设计的特征提取器。最后结合迁移学习模型，将子数据集中的二分类模型中学到的知识迁移到原多分类模型中，能显著提高模型行为识别分类能力，具有极高的识别准确率。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于实现步骤如下：

步骤2、根据人体行为分类数N，设计N分类三维卷积神经网络结构，用所得到立方体结构作为单元，输入到该三维卷积神经网络中，通过多层结构计算得到最终的M维向量输出，M＝N；

步骤4、训练好三维卷积神经网络后，从测试结果中挑选出部分类别对应的输入样本，构建总类别数为N′的子数据集，N′＜N，并在此子数据集基础上，利用步骤2中N分类三维卷积神经网络结构构建多个二分类模型，进行训练；

步骤5、训练完这些二分类模型后，挑选出分类效果最好的部分模型，利用迁移学习将二分类模型学到的知识迁移到N分类模型上，重新训练N分类模型；

2.根据权利要求1所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于：所述步骤1中立方体结构的获取方法如下：

从原始视频数据中通过逐帧采样将视频拆解为一系列连续帧的图像，把它们在时间维度上进行堆叠，得到诸多能完整呈现一个动作的大小为w×h×d的立方体结构，其中w代表图像的宽度，h代表图像的高度，d代表时间轴上的长度，也就是堆叠图片的帧数，同时，用one-hot编码为每个立方体结构确定对应的行为分类标签。

3.根据权利要求1所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于：所述步骤2使用的三维卷积神经网络结构为：

三维卷积神经网络的整体结构为数层嵌套的三维卷积层和三维池化层，和最后的数层全连接层构成；

其中，三维卷积层中利用三维卷积来提取输入样本中的时间—空间特征信息，用于行为识别，利用多个三维卷积核与输入立方体进行三维卷积操作，得到多个特征图；在输出的特征图中，位于空间坐标(x，y，z)处的响应的数值由以下公式计算得出：

上式中，w_ijk为卷积核在位置(i，j，k)处的权值，k_{(x+i)(y+j)(z+k)}为输入立方体单元中位置(x+i，y+j，z+k)处的图像灰度值，f为激活函数，b为偏置项；

三维卷积层计算得到特征图后，经过一层激活函数进行非线性变换处理，再输出给池化层，池化层用于对得到的特征图进行降采样，经过最后一层节点数位N的全连接层后，借助Softmax函数，得到最终的M维向量，M＝N，对应为输入样本对于N分类的对应归属概率：

4.根据权利要求1所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于：所述步骤3构建损失函数的具体过程为：

选择平均交叉熵作为损失函数，即：

5.根据权利要求1所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于：所述步骤4构建子数据集和二分类模型的具体过程为：

在训练好基础的N分类三维神经网络后，在测试集上进行评估，找出分类结果最好的几个类别对应的输入样本，构建总类别数为N′的子数据集，并在此子数据集上，利用原分类网络，设计

个二分类器，单独训练这些二分类器。

6.根据权利要求1所述的一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法，其特征在于：所述步骤5将部分二分类模型学到的知识迁移到原N分类模型的具体过程为：

在步骤4中训练完这些二分类模型后，利用测试阶段的测试结果，挑选出分类结果最好的n个子模型，

然后将这些子模型中前面部分结构的权重载入原N分类模型中，再修改最后几层的结构，最后重新训练这n个N分类模型，挑选出分类结果最佳的作为最终的N分类模型。