CN111639571A

CN111639571A - 基于轮廓卷积神经网络的视频动作识别方法

Info

Publication number: CN111639571A
Application number: CN202010433443.5A
Authority: CN
Inventors: 华璟; 高明琦
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-08
Anticipated expiration: 2040-05-20
Also published as: CN111639571B

Abstract

本发明公开了一种基于轮廓卷神经网络的视频动作识别方法，首先对于带有标签的视频进行逐帧的剪裁处理，对于剪裁后的样本进行必要的增广操作；其次通过轮廓卷积操作ContourConv得到良好的分割结果并有效地提取出图片中有序的动作点云集合与几何特征；接着使用RGB与光流的双流网络对图片的表层特征进行提取；最终将上述两个分支进行模型融合，传入检测设备中，将传入到检测设备的特征图进行动作识别预测，得到最终的预测结果。本发明通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支，从而对原有网络产生明显的提升作用，实现高效准确地视频动作识别。

Description

基于轮廓卷积神经网络的视频动作识别方法

技术领域

本发明属于计算机视觉中的图像处理和行为识别领域，涉及一种基于轮廓卷积神经网络的视频动作识别方法。

背景技术

在计算机视觉领域中行为识别是一项非常重要的课题，该技术不仅要准确识别目标体的空间信息，还要考虑时间维度上的信息，因此研究结果具备着重要意义与广泛的应用场景。近年来行为识别在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。但在该技术的实际应用场景中，视频行为识别技术极易受到遮挡，动态背景，移动摄像头，视角和光照变化等多种外在因素的影响，在精准性上具有很大的挑战性。

现有的基于深度学习的行为识别方法主要采用双流卷积神经网络，该网络主要采用两种类型的输入：RGB图和光流图，但忽略了另一种可判别行为识别的重要线索：人体姿态动力学。在这种情况下，姿态表示和动作识别是两个孤立的部分，没有自适应交互，这限制了理解非限制环境下视频中复杂动作的能力，从而降低了识别的准确性。

发明内容

针对现有技术的以上缺陷和改进需求，本发明的目的是提供一种基于轮廓卷积神经网络的视频动作识别方法；图像的RGB信息与光流信息主要关注图像的表层信息，而从几何学的角度上出发，可以根据图像的轮廓信息构建出动作的点云集合，对原有的方法有较大的提升作用，因此本发明的核心就是通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支，从而对原有网络产生明显的提升作用，实现高效准确的视频动作识别。

为了达到上述目的，本发明通过以下技术方案来实现：一种基于轮廓卷神经网络的视频动作识别方法，该方法包括以下步骤：

(1)获取带有标注的视频数据集作为训练数据，每个视频包含动作标签。

(2)对于获取的视频数据进行数据预处理，包括：

(2.1)对视频数据集的每一段视频进行以帧为单位的剪辑，将视频帧按时间顺序排序；

(2.2)对标注目标采用几何方法提取出目标动作的外轮廓集合的点云信息，并按时间顺序排序成点云组。

(3)构建轮廓卷积神经网络模型，所述轮廓卷积神经网络模型包括轮廓卷积子网络和两个3D卷积块组成的双流卷积子网络；

(3.1)所述轮廓卷积子网络模型用于动作集合点云特征提取，具体为：

将提取出来的每张图片的动作外轮廓集合点云信息采用按照时间轴顺序叠加的方式，形成一个立体的3D动作点云集合作为网络输入；对输入的数据进行下采样操作，之后将输入分为点的局部坐标、点的密度两部分分别输入轮廓卷积子网络；

点的局部坐标输入是一个K×3的矩阵，K表示点的个数，通过两个参数共享的1*1的conv层进行密度加权卷积操作组成多层轮廓卷积神经网络ContourConv_1，最后再和K×Cin×Cout的特征矩阵N1逐元素相乘，其中Cin、Cout分别为输入和输出的特征维度；密度加权卷积操作具体如下：

在3D空间中，将连续卷积算子的权重看作关于一个3D参考点的局部坐标的连续函数，两个连续函数W和F关于三维向量的卷积操作用以下公式表示：

其中，(x,y,z)是3D参考点的坐标，通过公式(1)将(x,y,z)离散化到一个离散的3D动作点云上，用(δ_x,δ_y,δ_z)表示离散化后的邻域G中的3D点的相对坐标；W和F均为连续函数，W的输入为(δ_x,δ_y,δ_z)，输出是每个点对应的特征F的权重；F为特征函数，输入F_in包括点的坐标、点对应的面的序号、类别标签和点对应切面的法向量，输出F_out表示点的底层特征；

点的密度输入是一个K×1的矩阵，通过多层卷积神经网络Conv_2得到K×Cin的矩阵，然后再和K×Cin的特征矩阵N2逐元素相乘；

使用逆密度对训练得到的特征矩阵N1和N2进行加权；由ContourConv_1和Conv_2构成的轮廓卷积子网络ContourConv可由以下公式表示：

其中，S表示逆密度系数函数，输入是每个点的密度，输出是每个点对应的逆密度系数；

轮廓卷积子网络ContourConv的输入为：3D点的相对坐标P_local，密度Density和特征F_in；在得到权重W和逆密度系数S后，结合输入特征F_in，利用下式进行卷积得到输出特征F_out，如公式(2)：

(3.2)所述双流卷积子网络模型用于RGB信息与光流信息的特征提取，具体为：对输入的数据首先经过下采样操作来减少数据量，之后RGB信息通过卷积核为3*3的3D卷积块进行卷积操作，光流信息通过卷积核为5*5的3D卷积块进行卷积操作。

(4)将轮廓卷积子网络和双流卷积子网络的输出特征进行融合，形成以一个三流输入的识别网络模型，用来做人体动作分类。

(5)利用训练数据对步骤(4)构建的识别网络模型进行训练。

(6)视频动作识别：将待识别的视频数据进行数据预处理后输入步骤(5)训练好的识别网络模型中进行动作识别预测，得到最终预测结果。

进一步地，所述步骤(1)中，采用HMDB51数据集作为训练集，该数据集包括包含51类动作，共有6849个视频，每类动作至少包含51个视频，分辨率为320*240，每个视频时长为30秒左右并且包含动作标签。

进一步地，所述步骤(2)中，对数据进行增强处理，具体为：对得到的每一组样本集合以50％的概率进行水平翻转；为了避免偏置引起的数据溢出，对每个通道均进行减去平均值的处理；经过增强后的样本所有生成的样本标签均和原始视频一致。

进一步地，所述步骤(3.1)中，将多层轮廓卷积神经网络ContourConv_1扩展到反轮廓卷积ContourDeconv，以获得更好的识别结果。

进一步地，所述步骤(3.1)中，W和S均可以用多层感知器(MLP)近似。

进一步地，所述步骤(3.2)中，通过全连接层融合原始图像与光流通道，将全连接层提取出的高维特征与原始图像进行融合，大幅度减少计算光流通道的时间；在双流卷积子网络的总体结构上，使用连续的5帧图片计算出10帧光流通道，之后使用Inception-V1的平均池化层提取特征；双流卷积子网络的特征矩阵初始化使用高斯分布。

进一步地，所述步骤(4)中，将点云特征、RGB特征、光流特征进行融合操作，最终形成一个三流输入的识别网络模型，将特征融合之后的特征图经过3*3卷积，然后继续采用1*1卷积进行预测分类。

进一步地，所述步骤(5)中，模型训练过程中采用Adam法优化，损失函数采用交叉熵损失函数。

本发明提供的技术方案的有益效果是：本发明主要针对人体行为识别的准确性进行研究，提出了一种基于轮廓卷积的视频动作识别方法。首先对于带有标签的视频进行逐帧的剪裁处理，并且对于剪裁后的样本进行必要的增广操作，可以对训练过程起到良好的帮助作用；其次通过本方法的轮廓卷积操作ContourConv与ContourDeConv，得到良好的分割结果并有效地提取出图片中有序的动作点云集合与几何特征；接着使用RGB与光流的双流网络对图片的表层特征进行提取，使用Inception-V1的平均池化层提取特征，同时结合单张RGB视频帧与其附近的视频帧的光流场来得到更好的效果；最终将上述两个分支进行模型融合，传入检测设备中，将传入到检测设备的特征图进行动作识别预测，得到最终的预测结果。本发明的核心是通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支，从而对原有网络产生明显的提升作用，实现高效准确的视频动作识别。

附图说明

图1是本发明实施例视频数据预处理示意图；

图2是本发明实施例对每段视频以帧为单位剪辑示意图；

图3是本发明实施例的3D动作点云集合示意图；

图4中(a)显示4×4局部区域在图像中，点之间的距离只能达到很少的离散值；(b)和(c)表示在不同的局部点云内的区域、顺序和相对位置可能会很不一样；

图5是本发明实施例轮廓卷积子网络的结构框图；

图6是轮廓卷积子网络和双流卷积子网络融合后的识别网络模型的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本申请提出的一种基于轮廓卷积神经网络的视频动作识别方法，该方法的具体步骤包括：

(1)获取带有标注的注释视频数据集作为训练数据，本方法主要采用HMDB51数据集，该数据集包括包含51类动作，共有6849个视频，每类动作至少包含51个视频，分辨率为320*240，每个视频时长为30秒左右并且包含动作标签。

(2)对于获取的视频数据进行数据预处理，如图1所示，主要包括如下三个子步骤：

(2.1)对视频数据集的每一段视频进行以帧为单位的剪辑，将视频帧以时间轴为顺序进行排列以备之后进行处理，如图2所示。

(2.2)对标注目标采用几何方法提取出目标动作的外轮廓集合的点云信息，并按照时间的顺序排序成点云组，作为网络的输入之一。

(2.3)数据增强，对得到的每一组样本集合以50％的概率进行水平翻转，因为一般情况下即使视频左右翻转，也不影响对视频内容的理解。另外为了避免所谓的偏置引起的数据溢出，对每个通道均进行减去平均值的处理。经过增强后的样本所有生成的样本标签均和原始视频一致。

(3)构建轮廓卷积神经网络模型，所述轮廓卷积神经网络模型包括轮廓卷积子网络和两个3D卷积块组成的双流卷积子网络。

首先将提取出来的每一张图的动作外轮廓集合点云信息采用按照时间轴顺序叠加的方式，形成一个立体的3D动作点云集合，类似于一个连续的动作通道，如图3所示，作为输入。对输入的数据进行倍数为2的下采样操作，之后将输入分为点的局部坐标、点的密度两部分分别输入轮廓卷积子网络。轮廓卷积子网络的结构如图5所示。

点的局部坐标输入是一个K×3的矩阵，K表示点的个数，通过两个参数共享的1*1的conv层进行密度加权卷积操作组成多层轮廓卷积神经网络ContourConv_1，激活函数采用ReLu激活函数，最后再和K×Cin×Cout的特征矩阵N1逐元素相乘，其中Cin、Cout分别为输入和输出的特征维度，N1特征初始化时为零矩阵，在训练过程中不断迭代更新。在密度加权卷积操作过程中因为考虑到每个点周围的密度越大，权重越小的特征，因此使用逆密度函数进行计算。

其中密度加权卷积操作具体如下：

对3D动作点云集合采用密度加权卷积操作，该卷积操作能够完全近似任意一组3D点集上的3D连续卷积。优选地，可将ContourConv_1(轮廓卷积)扩展到ContourDeconv(反轮廓卷积)，以获得更好的识别结果。

3D动作点云数据的表达方式与正常的RGB图像完全不同。如图4所示，不同于图像，点云信息通常由一些3D点组成。不同的3D点之间没有前后顺序之分，因此，在3D点云上的卷积操作应具有排列不变性，即改变3D点集中点顺序不应影响卷积结果。

为满足这些要求，在3D空间中，可以把连续卷积算子的权重看作关于一个3D参考点的局部坐标的连续函数。在几何运算中，两个连续函数f(x)和g(x)关于一个三维向量x的卷积操作用以下公式(1)表示：

将本方法的参数代入公式(1)中，得到公式(2)如下所示：

其中，(x,y,z)是3D参考点的坐标，通过公式(2)将(x,y,z)离散化到一个离散的3D动作点云上，用(δ_x,δ_y,δ_z)表示离散化后的邻域G中的3D点的相对坐标；W和F均为连续函数，W的输入为(δ_x,δ_y,δ_z)，输出是每个点对应的特征F的权重，W可以用多层感知器(MLP)近似；F为特征函数，输入F_in包括点的坐标、点对应的面的序号、类别标签和点对应切面的法向量，输出F_out表示点的底层特征；

点的密度输入是一个K×1的矩阵，通过多层卷积神经网络Conv_2得到K×Cin的矩阵，然后再和K×Cin的特征矩阵N2逐元素相乘；N2特征初始化时为零矩阵，在训练过程中不断迭代更新。

同时，考虑到3D点云可能来自于一个不均匀采样的传感器，为了补偿不均匀采样，使用逆密度对训练得到的特征矩阵N1和N2进行加权。因此由ContourConv_1和Conv_2构成的轮廓卷积子网络ContourConv可以由以下公式(3)表示：

其中，S表示逆密度系数函数，输入是每个点的密度，输出是每个点对应的逆密度系数，S可以用多层感知器(MLP)近似。

整个轮廓卷积子网络ContourConv的输入为：3D点的相对坐标P_local，密度Density和特征F_in；3D点的相对坐标P_local经过连续卷积函数之后可以得到每个点对应的特征F的权重W；而密度Density经过多层感知器(MLP)之后得到逆密度系数S；在得到权重W和逆密度系数S后，结合输入特征F_in，利用下式进行卷积得到输出特征F_out，如公式(4)：

输出特征F_out代表了该点局部区域质点的特征。

(3.2)所述双流卷积子网络模型用于RGB信息与光流信息的特征提取，具体为：

对输入的数据首先经过倍数为4的下采样操作来减少数据量，以便加快网络训练。之后RGB信息通过卷积核为3*3的3D卷积块进行卷积操作，光流信息通过卷积核为5*5的3D卷积块进行卷积操作。

同时因为使用3D卷积块进行特征提取，光流通道具有的参数量极为庞大，因此在本方法中通过全连接层融合原始图像与光流通道的方法，将全连接层提取出的高维特征与原始图像进行融合，可以大幅度减少计算光流通道的时间。在双流卷积子网络的总体结构上，本方法使用连续的5帧图片来计算出10帧光流通道，之后使用Inception-V1的平均池化层提取特征。结合单张RGB视频帧与其附近的视频帧的光流场(视频两帧之前的光流差异)，在追踪X、Y两个方向的光流通道以后，只会产生两倍数量的输入帧，这种方法在网络训练中非常高效，两个3D卷积块的特征矩阵均由P个Q维向量组成。从理论上来讲，如果这P个Q维向量在Q维空间中均匀分布在以原点为中心的Q-1维单位超球面上，在随机性上应该是最好的。因为这样，这P个向量的夹角为均匀分布，由此本双流卷积子网络的特征矩阵初始化使用高斯分布。

(4)将轮廓卷积子网络和双流卷积子网络的输出特征进行融合操作，具体步骤如下：

将点云特征、RGB特征、光流特征进行融合操作，最终形成一个三流输入的识别网络，用来做人体动作的分类。将特征融合之后的特征图经过3*3卷积，然后继续采用1*1卷积进行预测分类。最终识别网络结构如图6所示。

(5)利用训练数据对步骤(4)构建的识别网络进行训练，其中学习率lr设定为：0.0001，采用Adam法优化，通过最终的损失函数来完成训练，其中损失函数采用交叉熵损失函数，如公式(5)：

l_n＝-(y_n*log(z_n)+(1-y_n)*log(1-z_n)) (5)

其中，z_n表示预测第n个样本为正例的概率，y_n表示第n个样本的标签。

以上所述仅是本发明优选的实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明所保护范围内。

Claims

1.一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，该方法包括以下步骤：

(2)对于获取的视频数据进行数据预处理，包括：

(5)利用训练数据对步骤(4)构建的识别网络模型进行训练。

2.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(1)中，采用HMDB51数据集作为训练集，该数据集包括包含51类动作，共有6849个视频，每类动作至少包含51个视频，分辨率为320*240，每个视频时长为30秒左右并且包含动作标签。

3.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(2)中，对数据进行增强处理，具体为：对得到的每一组样本集合以50％的概率进行水平翻转；为了避免偏置引起的数据溢出，对每个通道均进行减去平均值的处理；经过增强后的样本所有生成的样本标签均和原始视频一致。

4.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(3.1)中，将多层轮廓卷积神经网络ContourConv_1扩展到反轮廓卷积ContourDeconv，以获得更好的识别结果。

5.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(3.1)中，W和S均可以用多层感知器(MLP)近似。

6.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(3.2)中，通过全连接层融合原始图像与光流通道，将全连接层提取出的高维特征与原始图像进行融合，大幅度减少计算光流通道的时间；在双流卷积子网络的总体结构上，使用连续的5帧图片计算出10帧光流通道，之后使用Inception-V1的平均池化层提取特征；双流卷积子网络的特征矩阵初始化使用高斯分布。

7.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(4)中，将点云特征、RGB特征、光流特征进行融合操作，最终形成一个三流输入的识别网络模型，将特征融合之后的特征图经过3*3卷积，然后继续采用1*1卷积进行预测分类。

8.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法，其特征在于，所述步骤(5)中，模型训练过程中采用Adam法优化，损失函数采用交叉熵损失函数。