CN106980817A

CN106980817A - 一种基于Caffe框架的恐怖视频识别方法

Info

Publication number: CN106980817A
Application number: CN201710107828.0A
Authority: CN
Inventors: 陈丹伟; 高晨
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2017-07-25

Abstract

本发明公开了一种基于Caffe框架的恐怖视频识别方法，属于视频识别技术领域。主要包含如下步骤：1)获取大量的样本图像，训练神经网络模型；2)从视频中提取视频帧，获取图像样本；3)输入图像到训练好的模型，根据图像特征得到分类结果。本发明中的恐怖视频识别方法以基于Caffe框架的深度学习为基础，在改进的神经网络下能够更好更快地训练出合适的模型参数，在进行视频识别的过程中，使用GPU并行计算处理提取到的视频帧，大大提高了大量数据情况下的识别效率，为互联网的健康与安全提出了一种快速、准确的维护措施。

Description

一种基于Caffe框架的恐怖视频识别方法

技术领域

本发明属于涉及视频识别技术领域，更具体地说，涉及一种基于Caffe框架的恐怖视频识别方法。

背景技术

近年来，随着互联网技术的迅速发展，给人们的生活提供了巨大的便利，但也为色情、反动、恐怖、暴力视频的传播提供了渠道。这些视频威胁着大量青少年的身心健康，使得人们在享受互联网便利的同时，对有害信息的不良影响产生了巨大的担忧。由于恐怖视频融入了图像，音频，文字等媒体形式，具有很强大的表现力，相对于图片、文字等媒体形式具有更大的危害。全球很多国家和政府都采取了一系列措施来控制恐怖视频的传播。

目前，图像识别技术发展迅速，视频识别就是从视频中提取视频帧进行图像识别，最大的问题在于识别的速度和准确性。恐怖视频识别的特点在于视频中是否存在恐怖镜头，存在恐怖镜头则为恐怖视频，相反则为非恐怖视频。视频识别中会提取出大量的图像，常见的识别方法的效率已无法满足。同时，基于神经网络的图像识别方法的准确度依赖于所选取的图像的特征，传统的DNN(Deep Neural Network，深度神经网络)中图像特征的鲁棒性较差，最终不能更好的进行恐怖视频的识别。

发明内容

针对现有技术中存在的现有恐怖视频识别方法的速度和准确性低的问题，本发明提供了一种基于Caffe框架的恐怖视频识别方法，它可以实现更快、更准确地对恐怖视频进行识别。

本发明的目的通过以下技术方案实现。

基于Caffe框架的恐怖视频识别方法，步骤如下：

S1获取大量的样本图像，使用基于Caffe的多GPU并行框架训练深度神经网络模型；

S2使用OpenCV从视频中提取视频帧，获取图像样本；

S3输入图像到训练好的模型，根据图像特征得到分类结果。

更进一步的，所述步骤S1中训练深度神经网络模型的步骤如下：

步骤1输入数据，即大小一定的一组图片；

步骤2经过卷积层，设置卷积核及卷积步长，进行卷积计算，得到特征图；

步骤3进行降采样操作，将特征图的宽和高降至上一层一半大小，特征图的数量不变，可以根据实际训练情况增加卷积和降采样的次数；

步骤4得到全连接层的特征图后，使用Caffe的激活函数ReLU再一次大幅降低特征图的数量，最终得到输出结果。

更进一步的，所述步骤S2中从视频中提取视频帧，获取图片的主要步骤如下：

步骤1设置帧间隔，每隔一定帧数提取一张图片；

步骤2设置图片保存的路径；

步骤3使用OpenCV的cvGrabFrame()函数从视频或者摄像头中抓取帧，获取视频中的图像镜头。

相比于现有技术，本发明的优点在于：

(1)本发明方法以基于Caffe框架的深度学习为基础，在改进的神经网络模型下能够更好更快地训练出合适的模型参数；

(2)本发明在进行视频识别的过程中，使用GPU并行计算处理提取到的视频帧，大大提高了大量数据情况下的识别效率；

(3)本发明提出了一种恐怖视频的检测方法，为互联网的健康与安全提出了一种快速、准确的维护措施。

附图说明

图1为本发明的系统流程图；

图2为本发明的具体实施方式中的神经网络结构图；

图3为本发明的具体实施方式中的视频识别流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例1

图1为本发明的系统流程图，本发明主要包含如下步骤：1)获取大量的样本图像，使用基于Caffe(Convolution Architecture For Feature Extraction卷积神经网络框架)的多GPU并行框架训练神经网络模型；2)使用OpenCV从视频中提取视频帧，获取图像样本；3)输入图像到训练好的模型，根据图像特征得到分类结果。

图2为本发明的具体实施方式中的神经网络结构图，具体步骤包括：输入数据，即大小一定的一组图片；经过卷积层，设置卷积核及卷积步长，进行卷积计算，得到特征图；接下来进行降采样操作，将特征图的宽和高降至上一层一半大小，特征图的数量不变；可以根据实际训练情况增加卷积和降采样的次数；得到全连接层的特征图后，使用Caffe的激活函数ReLU再一次大幅降低特征图的数量，最终得到输出结果。

图3为本发明的具体实施方式中的视频识别流程图，此步骤的特点在于：通过OpenCV获取视频中的视频帧，在得到视频镜头后进行图片预处理，最后将处理得到的图片特征通过GPU并行计算输入到分类器中，得到识别结果。这样大大地提高了视频识别的速度。

其中，训练深度神经网络模型的主要步骤如下：

步骤1.1)数据准备，在Caffe根目录的data目录下新建文件夹存放训练样本、测试样本，同时在根目录下新建相应的文件夹存放网络模型及配置文件等；

步骤1.2)修改图片大小，统一图片大小；

步骤1.3)新建样本的tag，为不同的训练样本添加标识；

步骤1.4)将examples/imagenet中的文件复制到创建的用来存放网络模型和配置文件的文件夹中；

步骤1.5)修改该文件夹下的相关脚本文件，并修改相关路径。其中create_imagenet.sh的作用是将图片转换成lmdb形式，lmdb是Caffe框架所处理的数据格式。

make_imagenet_mean.sh的作用是求出训练样本的均值文件，用以训练数据；

步骤1.6)使用Caffe的train_alexnet.prototxt文件来定义网络结构；

步骤1.7)参照Caffe的solver.prototxt文件，并修改相应的初试化参数来定义网络的初始化参数；

步骤1.8)修改train_caffenet.sh中的相关路径，对自定义的神经网络进行训练。

步骤1.9)采用多GPU并行系统，从功能上划分为用于读取和分发数据的TrainningData Dispatcher和用于做数据并行训练的GPU Worker Group，在每一个Worker Group计算batch数据时，由Trainning Data Dispatcher读取并分发下一个batch。

从视频中提取视频帧，获取图片的主要步骤如下：

步骤2.1)设置帧间隔，每隔一定帧数提取一张图片；

步骤2.2)设置图片保存的路径；

步骤2.3)使用OpenCV的cvGrabFrame()函数从视频或者摄像头中抓取帧，获取视频中的图像镜头；

最后，在步骤3)中将视频中提取到的图像输入到训练好的模型中，得到结果。

由于采用了多GPU并行框架，通过多个Worker Group实现了数据并行，使得神经网络模型的训练更加迅速、准确。基于卷积神经网络的Caffe框架在优化后也大大提升了神经网络模型的性能。本发明的识别效率较普通的识别方法可提升约2％，错误率下降约10％。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。

Claims

1.一种基于Caffe框架的恐怖视频识别方法，其特征在于，步骤如下：

S2使用OpenCV从视频中提取视频帧，获取图像样本；

S3输入图像到训练好的模型，根据图像特征得到分类结果。

2.根据权利要求1所述的一种基于Caffe框架的恐怖视频识别方法，其特征在于，所述步骤S1中训练深度神经网络模型的步骤如下：

步骤1输入数据，即大小一定的一组图片；

步骤3进行降采样操作，将特征图的宽和高降至上一层一半大小，特征图的数量不变；可以根据实际训练情况增加卷积和降采样的次数；

3.根据权利要求1所述的一种基于Caffe框架的恐怖视频识别方法，其特征在于，所述步骤S2中从视频中提取视频帧，获取图片的步骤如下：

步骤1设置帧间隔，每隔一定帧数提取一张图片；

步骤2设置图片保存的路径；