CN108288035A

CN108288035A - 基于深度学习的多通道图像特征融合的人体动作识别方法

Info

Publication number: CN108288035A
Application number: CN201810026945.9A
Authority: CN
Inventors: 张见威; 钟佳琪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-07-17

Abstract

本发明公开了一种基于深度学习的多通道图像特征融合的人体动作识别方法，包括：(1)从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图、光流图；(2)对输入图片进行裁剪操作扩增训练数据集；(3)构建三通道卷积神经网络，将最后得到的视频片段分别输入三通道卷积神经网络中进行训练，得到对应的网络模型；(4)对待识别的视频片段，提取原始RGB图片、并计算其对应的动态图、光流图，并得到最终动作类别的识别结果。本发明利用三通道卷积神经网络对不同形态的原始输入学习数据的本质特征，并在网络中部对三种形态的数据进行多通道稠密融合操作，提高特征的表达能力和达到多通道信息共享，准确度高的目的。

Description

基于深度学习的多通道图像特征融合的人体动作识别方法

技术领域

本发明涉及图像处理与分析技术领域，更具体地说，涉及一种基于深度学习的多通道图像特征融合的人体动作识别方法。

背景技术

视频中的人体动作识别是指通过分析处理视频中的视觉特征信息来进行人体动作识别、分类的一种技术。这种技术广泛应用于智能视频监控、行为分析、视频检索等方面。传统的人体动作识别都是基于手工设计的特征训练分类器进行动作分类。当前，传统的方法效果最好的策略是通过提取基于改进稠密轨迹(improved Dense Trajectory，iDT)的特征，结合费舍尔向量(Fisher Vector，FV)建模进行人体工作的识别。近年来，随着深度学习的发展迅速，卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉领域取得了很大的进步，其自动学习到的特征已经超过了传统的手工设计特征。这一网络结构也被广泛应用于视频中的人体动作识别。比如，当前有一种双流卷积网络结构在人体动作识别领域取得较好的性能。这一网络结构通过事先计算好的光流图片以及从视频中提取出来的RGB原图，堆叠而成序列组，然后分别通过两个结构大致相同的卷积网络进行特征提取，自动地学习视频的特征，最后通过平均的方法融合两个通道预测，得出识别结果。

虽然基于手工特征的传统方法和基于深度学习的方法都在人体动作识别取得不错的分类性能，但是由于人体动作的复杂性、视频中背景因素的干扰、个别动作类内差大而类间差很小等原因，当前的识别算法都存在一定的不足，无法实现高精度的人体动作识别。因此，需要设计一种新的自动提取特征的方法去学习视频中的人体动作的有效特征，从而实现高精度的人体动作识别。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度学习的多通道图像特征融合的人体动作识别方法。该方法对原始数据进行了一定的处理，为卷积神经网络提供了三种不同的输入，添加了新的视频特征表达信息，形成三通道卷积神经网络，并且在模型中对特征进行稠密的融合，从而达到多通道信息共享，准确度高的目的。

为了达到上述目的，本发明采用以下技术方案：

本发明一种基于深度学习的多通道图像特征融合的人体动作识别方法，包括下述步骤：

(1)从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图和光流图，包括下述内容：

根据原始视频，提取其RGB视频帧I_rgb，通过得到的视频帧I_rgb计算动态图I_dyn和光流图I_flow，得到三种不同类型的训练样本，都作为网络的输入数据，三种不同的训练样本，分别对应了视频片段的颜色、空间信息，短时间运动信息以及长时间运动信息；

(2)对输入图片进行裁剪操作扩增训练数据集；

(3)构建三通道卷积神经网络，将最后得到的视频片段分别输入三通道卷积神经网络中进行训练，得到对应的网络模型；

(4)对待识别的视频片段，提取原始RGB图片，并计算其对应的动态图和光流图，利用步骤(3)中训练好的三通道卷积神经网络提取特征，并得到最终动作类别的识别结果。

作为优选的技术方案，所述步骤(1)中，从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图具体操作如下：

(1.1)对于组成一个视频片段的序列S＝[f₁,f₂,…,f_n]，其中n为序列长度，f_i为序列中第i个视频帧，其中1≤i≤n；

(1.2)对所有得到的视频帧f_i按照下述心理学公式(1)进行灰度化：

Gray(x,y)＝R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114 (1)

其中，(x,y)代表图片中的坐标，Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值，RGB图像中的红色通道值、绿色通道值以及蓝色通道值；

(1.3)通过灰度化的视频序列记为G＝[g₁,g₂,…,g_n]，对于序列中的视频帧g_i，1≤i≤n-1，采用公式(2)进行计算，得到视频的动态序列D＝[d₁,d₂,…,d_n]：

d_i＝g_i+1-g_i (2)

(1.4)将序列长度为n的动态序列D分为三段，三段长度分别为：

(1.5)对于每一段动态序列l_i，i＝1,2,3，按照公式(5)在时间轴上进行平均池化，得到平均动态图：

其中，d_j(1≤j≤l)为步骤(1.3)中计算好的动态图；

(1.6)对于得到的平均动态图，按照公式(6)组合起来：

D(x,y,i)＝(L(x,y,i)-min(L_i))/max(L_i)×255 (6)

其中，D(x,y,i)为所求得的动态图，min(L_i)、max(L_i)分别为当前平均动态图L_i中的最小值和最大值。

作为优选的技术方案，所述步骤(2)中，对输入图片进行裁剪操作扩增训练数据集具体包括：

(2.1)对输入网络的图片进行裁剪操作，假设图片大小为h×w，首先将图片长宽比例固定，调整图片短边为固定值h₀，则调整后的图片大小为

(2.2)输入卷积神经网络的图片为正方形，将调整后的图片以短边尺寸h₀为基准，每次对图片进行三次裁剪，每次位移大小为(w-h)/2，每次裁剪得到的图片大小为h₀×h₀，作为卷积神经网络的输入。

作为优选的技术方案，所述步骤(3)构建三通道卷积神经网络具体操作如下：

(3.1)三通道卷积神经网络结构自底向上由三个模块组成，分别为：初始化模块，多通道稠密融合模块，分类模块；

(3.2)其中，初始化模块设置在网络底部：在第一层设置三个通道，这些通道包括：一个RGB图像通道、一个动态图通道以及一个光流图通道，初始化模块对三种不同类型的训练样本进行卷积、池化操作，每个通道都得到d维特征；第二层中，对时间点t堆叠起来的多通道图片分通道进行三维卷积操作，即将卷积操作扩展到时间域；

(3.3)在多通道稠密融合模块中，将上述每个通道得到的d维特征进行稠密融合；

(3.4)分类模块采用全连接层和Softmax分类器进行分类。

作为优选的技术方案，所述初始化模块具体操作如下：

对于输入网络的三个通道的图片，取时间点为t的视频帧分别进行三维卷积、批处理、非线性修正、三维池化操作，并在卷积时固定每个通道的特征输出维度，每个通道都会得到对应的特征矩阵，对于图片大小为h×w，一个时长为T的视频片段，得到T×3个大小为h×w×d的特征矩阵。

作为优选的技术方案，所述多通道稠密融合模块具体操作如下：

(3.3.1)取出每个通道得到的维度为i的特征m_i按照公式(7)进行加权融合，0<i≤d；

其中，F_i为融合之后的特征，ω_k为三通道的权重，0<k≤3，分别为三个通道取出的维度为i的特征，其中0<i≤d；

从而得到d个特征矩阵，每个特征矩阵的大小为h×w×3；

(3.3.2)对于上述得到的特征矩阵，分别采用卷积核进行卷积，输出特征维度channel_out设置为1，则在步骤(3.3.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵，经过修正线性单元，再将这些特征矩阵依照时间维度串接，得到h×w×d的稠密融合特征矩阵，将此特征矩阵作为分类模块的输入。

作为优选的技术方案，所述分类模块包括全连接层以及Softmax层，其中，全连接层在卷积神经网络中，将学习到的分布式特征表示映射到样本标记空间，最后通过Softmax层，对分类结果进行归一化，得到最终的预测结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提供了一种提取三通道输入稠密融合的方法，从原始视频中获取原始RGB视频帧，并通过视频帧得到光流图和动态图，将三种包含不同信息的图片作为网络的输入，让网络获取更多的信息；

2、本发明采用三通道卷积神经网络从不同形态的原始输入学习视频片段的本质特征，在网络中部对三种输入进行多通道稠密融合操作，融合过后的特征具有较强的表达力，再利用全连接层及softmax层对视频片段进行分类，获取最终的分类结果。在多类表达进行卷积池化的过程中，提出多通道稠密融合块，将视频的多类表达信息紧密结合，让不同特征之间进行信息共享。通过在卷积神经网络中层进行稠密融合，得到更加有表达力的特征。

附图说明

图1为本发明公开的基于深度学习的多通道图像特征融合的人体动作识别方法主要步骤的整体流程图。

图2为本发明中多通道稠密融合模块的网络结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1至图2所示，本发明基于深度学习的多通道图像特征融合的人体动作识别方法，用于对视频中的人体动作进行识别；包括以下四个步骤：

(1)从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图、光流图；

(2)对输入的图片进行裁剪操作扩增训练数据集；

(4)对待识别的视频片段，提取原始RGB图片、并计算其对应的动态图、光流图，利用(3)中训练好的三通道卷积神经网络提取特征，并得到最终动作类别的识别结果。

在(1)中，所述从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图、光流图是指：

(1.1)采用ffmpeg从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图：

(1.1.1)对于组成一个视频片段的序列S＝[f₁,f₂,…,f_n]，其中n为序列长度，f_i(1≤i≤n)为序列中第i个视频帧。

(1.1.2)对所有得到的视频帧f_i(1≤i≤n)按照下述心理学公式(1)进行灰度化：

Gray(x,y)＝R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114 (1)

其中，(x,y)代表图片中的坐标，Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值，RGB图像中的红色通道值、绿色通道值以及蓝色通道值。

(1.1.3)通过灰度化的视频序列记为G＝[g₁,g₂,…,g_n]，对于序列中的视频帧g_i(1≤i≤n-1)，采用公式(2)进行计算，得到视频的动态序列D＝[d₁,d₂,…,d_n]：

d_i＝g_i+1-g_i (2)

(1.1.4)将序列长度为n的动态序列D分为三段，三段长度分别为：

(1.1.5)对于每一段动态序列l_i(i＝1,2,3)，按照公式(5)在时间轴上进行平均池化，得到平均动态图：

其中，d_j(1≤j≤l)为(1.3)中计算好的动态图。

(1.1.6)对于得到的平均动态图，按照公式(6)组合起来：

D(x,y,i)＝(L(x,y,i)-min(L_i))/m (L_i)×255 (6)

(1.2)如图1所示，对于原始的视频提取视频帧，采用tv-l1算法计算光流图：包括以下步骤：

(1.2.1)假设图片中某一点(x,y)用x表示，T表示参考图像，I为当前图像。u、v均为偏移量。光流计算的目标函数为：

(1.2.2)将(u,v)用u表示，引入辅助变量v，公式(7)可以写为：

其中，k为迭代次数。

(1.2.3)求解u，v项，得到光流图。

在(2)中，所述对输入图片进行裁剪操作扩增训练数据集是指：包括以下步骤：

(2.1)对输入网络的图片进行裁剪操作。假设图片大小为h×w，首先将图片长宽比例固定，调整图片短边为固定值h₀，则调整后的图片大小为

(2.2)输入卷积神经网络的图片为正方形，将上述调整后的图片以短边尺寸h₀为基准，每次对图片进行三次裁剪，每次位移大小为(w-h)/2。每次裁剪得到的图片大小为h₀×h₀，作为卷积神经网络的输入。

在(3)中，所述构建三通道卷积神经网络是指：

构建三通道卷积神经网络，网络结构自底向上由三个模块组成：初始化模块，多通道稠密融合模块，分类模块，包括以下步骤：

(3.1)网络底部的初始化模块：

(3.1.1)在第一层设置三个通道，这些通道包括：一个RGB图像通道、一个光流图通道以及一个动态图通道。对上述层的所有通道对应在相同时间点t的通道图片进行堆叠，作为下一层的输入。

(3.1.2)第二层中，对时间点t堆叠起来的多通道图片分通道进行三维卷积操作，即将卷积操作扩展到时间域，卷积核W为：

W(h,w,t,channel_in,channel_out) (9)

其中h，w，t分别为卷积核在高度、宽度以及时间上的尺寸大小，channel_in为输入数据的维度，channel_out为输出特征维度。

接着进行批量规范化(Batch Normalization)操作，让网络间的数据在有效的范围内传递：

其中，为批量规范化后的数据，x^(k)为批量规范化前的数据，为当前批的均值，为当前批的标准差。

最后，让数据通过修正线性单元(Relu,Rectified Linear Units)，为数据添加非线性因素：

x′＝max(x,0) (11)

其中，x为输入数据，x′为输出数据。

这样，每个通道得到含有d维的特征，即得到的特征矩阵大小为h×w×d。将得到的特征矩阵作为多通道稠密融合模块的输入。

(3.2)在多通道稠密融合模块中，将上述每个通道得到的d维特征进行稠密融合，具体的：

(3.2.1)取出每个通道得到的维度为i的特征m_i(0<i≤d))按照公式(12)进行加权融合：

其中，F_i为融合之后的特征，ω_k(0<k≤3)为三通道的权重，分别为三个通道取出的维度为i(0<i≤d)的特征。

从而得到d个特征矩阵，每个特征矩阵的大小为h×w×3。

(3.2.2)对于上述得到的特征矩阵，分别采用卷积核进行卷积，输出特征维度channel_out设置为1，则在(3.2.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵。经过修正线性单元，再将这些特征矩阵依照时间维度串接，得到h×w×d的稠密融合特征矩阵。将此特征矩阵作为分类模块的输入。

(3.3)分类模块包含全连接层以及Softmax分类器。

(3.3.1)全连接层(fully connected layers)在卷积神经网络中，可以将学到的分布式特征表示映射到样本标记空间。

(3.3.2)Softmax分类器对分类结果进行归一化，得到最终的预测结果。

在(4)中，所述对待识别的视频片段，提取原始RGB图片、并计算其对应的动态图、光流图，利用(3)中训练好的网络模型提取特征，并得到最终动作类别的识别结果是指：

(4.1)对待识别的视频片段，采用ffmpeg提取原始RGB视频帧，并通过上述方法计算其动态图、光流图，对原始数据进行大小的调整至适应网络的输入尺寸，调整后的图片，作为网络模型的输入。

(4.2)将上述得到三种类型的图片输入网络，得到的特征矩阵输入分类模块。分类模块包含全连接层以及Softmax层。其中，全连接层(fully connected layers)在卷积神经网络中，可以将学到的分布式特征表示映射到样本标记空间。

(4.3)采用Softmax分类器进行分类，该分类器适用于解决多分类问题，分类标签可以取两个以上的值，假设数据集有n类，在Softmax回归中，将输入的特征f(X)分类为类别j(j＝0,1,2…n)的概率为：

其中，θ_l,l＝1,...,k是在训练卷积神经网络时得到的分类器模型的参数，概率值最大的那个类别即是识别结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，包括下述步骤：

(2)对输入图片进行裁剪操作扩增训练数据集；

2.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述步骤(1)中，从视频中提取原始RGB图片，并通过RGB图片计算分段视频的动态图具体操作如下：

(1.1)对于组成一个视频片段的序列S＝[f₁，f₂，...，f_n]，其中n为序列长度，f_i为序列中第i个视频帧，其中1≤i≤n；

Gray(x，y)＝R(x，y)×0.299+G(x，y)×0.587+B(x，y)×0.114 (1)

其中，(x，y)代表图片中的坐标，Gray(x，y)、R(x，y)、G(x，y)、B(x，y)分别代表灰度图像中的灰度值，RGB图像中的红色通道值、绿色通道值以及蓝色通道值；

(1.3)通过灰度化的视频序列记为G＝[g₁，g₂，...，g_n]，对于序列中的视频帧g_i，1≤i≤n-1，采用公式(2)进行计算，得到视频的动态序列D＝[d₁，d₂，...，d_n]：

d_i＝g_i+1-g_i (2)

(1.4)将序列长度为n的动态序列D分为三段，三段长度分别为：

(1.5)对于每一段动态序列l_i，i＝1，2，3，按照公式(5)在时间轴上进行平均池化，得到平均动态图：

其中，d_j(1≤j≤l)为步骤(1.3)中计算好的动态图；

(1.6)对于得到的平均动态图，按照公式(6)组合起来：

D(x，y，i)＝(L(x，y，i)-min(L_i))/max(L_i)×255 (6)

其中，D(x，y，i)为所求得的动态图，min(L_i)、max(L_i)分别为当前平均动态图L_i中的最小值和最大值。

3.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述步骤(2)中，对输入图片进行裁剪操作扩增训练数据集具体包括：

4.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述步骤(3)构建三通道卷积神经网络具体操作如下：

(3.4)分类模块采用全连接层和Softmax分类器进行分类。

5.根据权利要求4所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述初始化模块具体操作如下：

6.根据权利要求5所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述多通道稠密融合模块具体操作如下：

(3.3.1)取出每个通道得到的维度为i的特征m_i按照公式(7)进行加权融合，0＜i≤d；

其中，F_i为融合之后的特征，ω_k为三通道的权重，0＜k≤3，分别为三个通道取出的维度为i的特征，其中0＜i≤d；

从而得到d个特征矩阵，每个特征矩阵的大小为h×w×3；

7.根据权利要求3所述基于深度学习的多通道图像特征融合的人体动作识别方法，其特征在于，所述分类模块包括全连接层以及Softmax层，其中，全连接层在卷积神经网络中，将学习到的分布式特征表示映射到样本标记空间，最后通过Softmax层，对分类结果进行归一化，得到最终的预测结果。