CN112434615A

CN112434615A - 一种基于Tensorflow深度学习框架的时序动作检测方法

Info

Publication number: CN112434615A
Application number: CN202011347312.1A
Authority: CN
Inventors: 苏寒松; 王玥; 刘高华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-02

Abstract

本发明公开了一种基于Tensorflow深度学习框架的时序动作检测方法，包括步骤：步骤(1)、建立时序动作检测视频数据库；步骤(2)、对数据库中的视频帧图像进行预处理；步骤(3)、用Tensorflow框架搭建卷积神经网络；步骤(4)、训练Tensorflow深度神经网络模型；步骤(5)、调用训练完毕的模型进行测试；本发明以基于Tensorflow的深度学习框架为基础，在改进的神经网络模型下能够更好更快地训练出合适的模型参数，提高了检测准确率。

Description

一种基于Tensorflow深度学习框架的时序动作检测方法

技术领域

本发明涉及计算机视觉、人工智能领域，特别是涉及一种基于Tensorflow深度学习框架的时序动作检测方法。

背景技术

近年来计算机视觉技术、人工智能技术迅速发展，给人类生活带来了诸多便捷，尤其是以此类技术为理论基础的的动作检测技术也不断得到发展。现如今，动作检测已被广泛应用于如机器人服务、人机交互、视频检索、视频监督、动作分析和智能安防等领域。

TensorFlow是专门适用于深度学习的框架，它可拓展性强、效率高、能够可视化，可以立刻生成训练模型，便于使用。并且，框架中已经构建了多种高级接口，我们可以按照框架定义各种各样的卷积神经网络的结构，并且在此框架下增加自己的代码，设计新的算法。

现有的时序动作检测方法多为分阶段检测，早期的研究多在时间或时空特征上使用基于滑窗的检测方法，首先使用滑动窗口生成时序动作提议，再利用SVM等分类器对提议进行起止时间预测和动作分类。随着深度学习在动作检测领域的应用，基于深度学习的方法显示出了优异的性能。目前基于深度学习的动作检测方法应用较广。但目前一些动作检测网络存在着结构较为复杂，速度较慢且识别度不高、鲁棒性不强的问题。

发明内容

本发明的目的是为了克服现有技术中的不足，针对现有技术中存在的动作检测方法的网络结构复杂、识别速度较慢且识别度不高、鲁棒性不强的问题，提供一种基于Tensorflow深度学习框架的时序动作检测方法，该方法可以实现在网络结构简单的条件下更快、更准确地对动作进行定位和识别。

本发明的目的是通过以下技术方案实现的：

一种基于Tensorflow深度学习框架的时序动作检测方法，该方法包括以下步骤：

步骤(1)、建立时序动作检测视频数据库；

步骤(2)、对数据库中的视频帧图像进行预处理；

步骤(3)、用Tensorflow框架搭建卷积神经网络；

步骤(4)、训练Tensorflow深度神经网络模型；

步骤(5)、调用训练完毕的模型进行测试。

进一步的，步骤(1)包括以下步骤：

步骤(101)、下载时序动作检测视频数据集MERL Shopping，将视频提取为帧序列图像，并将属于同一个视频的帧图像按照帧数命名，按顺序排列；

步骤(102)、为数据库中的图片帧制作标签，每个图片帧对应一个动作标签。

进一步的，步骤(2)具体包括以下处理过程：

步骤(201)、采用双线性插值的方法对图片进行缩放，将图片尺寸改为224×224的固定大小。

进一步的，所述步骤(3)的用Tensorflow框架搭建卷积神经网络，其构建流程具体包括以下处理过程：

步骤(301)、构建特征提取网络，包含八个卷积层、八个ReLU激活函数层、五个最大池化层和一个全连接层；并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(302)、构建时序卷积网络，包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层；并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(303)、设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value)；选择一块GPU进行训练。

进一步的，所述步骤(4)的训练Tensorflow深度神经网络模型，其训练流程具体包括以下处理步骤：

步骤(401)、将缩放后的帧序列图像输入进特征提取网络，逐级提取空间特征。采用交叉熵损失函数，逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值；损失函数为交叉熵损失函数，具体表达式如下：

其中，p是判定结果为真实标签的概率，y为标记的真实标签；

步骤(402)、使用已训练好的特征提取网络模型，输出图片的特征向量；将提取好的特征向量送入时序卷积网络，判断每张图片所属的动作类别，所分类个数即为所训练数据集中动作类别的总数；最终的输出该图片所属的类别标签；

步骤(403)、每次训练完后观察损失函数的收敛情况，若出现发散现象则及时调整学习率及步长值(step value)的大小；比对多次训练结果，得到最佳权值，结束网络训练，训练完毕之后生成一个HDF5模型文件以储存网络结构和权值。

进一步的，步骤(5)具体包括以下处理步骤：

有益效果

本发明将未剪辑视频的帧图像送入已训练好的网络后，能够识别出感兴趣的视频片段，标记出开始帧和结束帧，并对该片段的动作类型做出判断。此网络结构简单，检测准确率高，鲁棒性强，得到了很好的检测效果，且以基于Tensorflow框架的深度学习框架为基础，在改进的神经网络模型下能够更好更快地训练出合适的模型参数，提高了在大量数据情况下的检测效率。

附图说明

图1为本发明时序动作检测方法的流程示意图；

图2为本发明时序动作检测方法所用特征提取网络的连接图；

图3为本发明时序动作检测方法所用时序卷积网络的连接图；

具体实施方式：

以下结合实施案例和附图，对本发明的技术和方法进行详细描述，以下案例和附图用于说明本发明的构成，但不是用来限定本发明的范围。

如图1所示，为一种基于Tensorflow深度学习框架的时序动作检测方法。包括以下步骤：

1.建立时序动作检测视频数据库，具体的：

步骤101、下载时序动作检测视频数据集MERL Shopping，将视频提取为帧序列图像，并将属于同一个视频的帧图像按照帧数命名，按顺序排列；

步骤102、为数据库中的图片帧制作标签，每个图片帧对应一个动作标签。

2.对数据库中的视频帧图像进行预处理，具体的：

步骤201、采用双线性插值的方法对图片进行缩放，将图片尺寸改为224×224的固定大小。

3.用Tensorflow框架搭建卷积神经网络，具体的：

步骤301、本发明方法所用的特征提取网络包含八个卷积层，八个ReLU激活函数层、五个最大池化层和一个全连接层。设置卷积核大小及卷积步长，池化层的大小、步长以及全连接层的参数以及各个层之间的相互连接方式；具体的:ReLU函数即为max(0,x)函数，其中x指的是输入；卷积核大小均为3*3，步长均为1；池化层均为2*2，步长为1；

步骤302、本发明方法所用的时序卷积网络包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层；设置卷积核大小及卷积步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；具体的：ReLU函数即为max(0,x)函数，其中x指的是输入；卷积核大小均为25*25，步长均为1；上采样层和下采样层步长均为2；

步骤303、设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value)；选择一块GPU进行训练。

4.训练Tensorflow深度神经网络模型，具体的：

步骤401、将缩放后的帧序列图像输入进特征提取网络，逐级提取空间特征。采用交叉熵损失函数，逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值；损失函数为交叉熵损失函数，具体表达式如下：

步骤402、使用已训练好的特征提取网络模型，输出图片的特征向量；将提取好的特征向量送入时序卷积网络，判断每张图片所属的动作类别，所分类个数即为所训练数据集中动作类别的总数；最终的输出该图片所属的类别标签；

步骤403、每次训练完后观察损失函数的收敛情况，若出现发散现象则及时调整学习率及步长值(step value)的大小；比对多次训练结果，得到最佳权值，结束网络训练，训练完毕之后生成一个HDF5模型文件以储存网络结构和权值。

5.调用训练完毕的模型进行测试，具体的：

步骤501、设定待测的视频中包含若干动作；首先将视频提取为帧序列图片，缩放为224×224的大小，并为每一帧的图片设定动作标签；

步骤502、将待测帧序列图片输入进训练好的特征提取网络中，提取出图片特征；再输入进时序卷积网络中；若经过训练后的神经网络具备检测能力，即可对每一帧图片所属动作类别做出判断。

如图2和图3所示，为本发明时序动作检测方法所用特征提取网络和时序卷积网络的连接图：卷积神经网络包含八个卷积层、八个ReLU激活函数层、五个最大池化层以及一个全连接层；时序卷积网络包括四个卷积层、四个ReLU激活函数层、两个最大池化层、两个上采样层、一个全连接层和一个Softmax层。通过本方法在数据库的测试集下的平均准确率达到了79.8％。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于Tensorflow深度学习框架的时序动作检测方法，其特征在于，该方法包括以下步骤：

步骤(1)、通过时序动作检测视频数据集将视频提取为帧序列图像并将属于同一个视频的帧图像按照帧数命名建立时序动作检测视频数据库；并对视频数据库中的每个图像帧制作标签对应一个动作标签；

步骤(2)、采用双线性插值的方法对对数据库中的视频帧图像进行缩放；

步骤(3)、用Tensorflow框架构建具有特征提取模块、时序卷积模块的深度神经网络模型；

步骤(4)、训练Tensorflow深度神经网络模型建立具有储存网络结构和权值的HDF5模型；

步骤(5)、通过HDF5模型对每一帧图片所属动作类别做出判断。

2.根据权利要求1所述的一种基于Tensorflow深度学习框架的时序动作检测方法，其特征在于，步骤(3)的用Tensorflow框架构建深度神经网络模型过程：

步骤(301)、构建特征提取模块，包含八个卷积层、八个ReLU激活函数层、五个最大池化层和一个全连接层；并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(302)、构建时序卷积模块，包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层；并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

3.根据权利要求1所述的一种基于Tensorflow深度学习框架的时序动作检测方法，其特征在于，所述步骤(4)的训练Tensorflow深度神经网络模型，其训练流程具体包括以下处理步骤：

步骤(401)、将缩放后的帧序列图像输入进特征提取网络，逐级提取空间特征；采用交叉熵损失函数，逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值；损失函数为交叉熵损失函数，具体表达式如下：

步骤(403)、每次训练完后观察损失函数的收敛情况，若出现发散现象则及时调整学习率及步长值(step value)的大小；比对多次训练结果，得到最佳权值，结束网络训练，训练完毕之后生成一个具有储存网络结构和权值的HDF5模型。