CN110909672A

CN110909672A - 一种基于双流卷积神经网络和svm的抽烟动作识别方法

Info

Publication number: CN110909672A
Application number: CN201911147202.8A
Authority: CN
Inventors: 邓杨敏; 李�亨; 吕继团
Original assignee: Jiangsu De Shao Mdt Infotech Ltd
Current assignee: Jiangsu De Shao Mdt Infotech Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-24

Abstract

本发明公开了一种基于双流卷积神经网络的危险行为自动识别方法，通过两个不同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果；不直接简单加权融合两个网络的Softmax分类结果，将两个训练Softmax的输出作为新的输入特征来SVM分类器，最终实现对视频中人物抽烟动作的自动识别。本发明使用SVM对时域卷积网络和空域卷积网络的分类结果建模，进一步提升了基于视频的人物抽烟行为自动识别的精度。

Description

一种基于双流卷积神经网络和SVM的抽烟动作识别方法

技术领域

本发明涉及基于双流卷积神经网络的人体行为识别，更具体的是涉及一种针对监控视频数据的抽烟动作自动识别方法。

背景技术

吸烟不仅是一种对人体健康危害巨大的不良习惯，更是一种安全隐患的主要诱发原因。对于加油站、油库、化学药品库等存储大量易燃易爆物品的场所，吸烟的明火可能导致火灾或爆炸等安全事故，造成巨大的经济损失和人员伤亡。目前，在上述场所下对于吸烟行为的防范主要依靠宣传标语警示或安全人员监察，将可能引发的巨大灾难寄托在依靠宣传标语唤醒的人员素质是不可靠的，安全人员也难以时刻观察场所内所有人员的行为，在吸烟后发现和及时制止，安全隐患已经出现。因此，我们急需一种在吸烟安全隐患刚刚出现的瞬间就能检测并报警的基于监控视频的抽烟行为自动识别方法，通过对禁烟场所的监控视频流中人员姿态的估计和动作的识别，对可能存在的抽烟动作及时预警，提醒管理人员重点注意，在减轻了安保人员工作强度的同时提高大幅度降低可能存在的安全隐患。

目前，基于计算机视觉的吸烟检测主要是通过分析和识别烟雾，包括利用颜色、能量等烟雾静态特征或飘动方向等动态特征。相比于火灾产生的浓烟，吸烟烟雾的浓度相对低且范围相对小；在露天情况下，烟雾特征受光照、风向、风速等干扰，现有的技术难以提取到理想的烟雾特征进行吸烟行为识别。随着技术的不断进步，基于深度学习算法的视频数据智能分析正在快速发展，在人物脸部识别、人物位置预测等领域已经被大量应用。

发明内容

针对以上问题，本发明提出了一种基于双流卷积神经网络和SVM的抽烟动作识别方法。针对露天环境下难以提取到理想的烟雾特征进行吸烟行为识别的问题，通过识别人物的动作来识别抽烟行为，使用两个不同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果；针对抽烟动作的相似性动作较多容易出现误判的问题，不直接简单加权融合两个网络的Softmax分类结果，将两个训练Softmax的输出作为新的输入特征来SVM分类器，提高视频中人物抽烟动作的识别准确率。

为了解决以上问题，本发明采用了如下技术方案：

一种基于双流卷积神经网络和SVM的抽烟动作识别方法，其特征在于，包括以下步骤：Step1原始数据准备

针对常见场景下的人物抽烟行为，通过收集来自吸烟室监控摄像头及网络的视频数据。

Step2数据预处理

(1)将大小、帧率各不相同的视频数据统一到相同大小和25帧率。

(2)截取视频数据中关键的抽烟动作部分，将视频的时长控制在10s左右。

(3)将每一个视频拆成视频帧，每一个视频随机抽取10张图片组成图片数据集。

Step3数据集制作

针对Step2预处理后的数据进行人工分类，将人工分类信息作为网络训练的类别监督信息。随机选取增强后视频数据的60％作为训练数据，剩余的作为测试数据；随机选取图片数据集中的60％作为训练数据，其余的作为测试数据。

Step4空域卷积网络的构建与训练

Step4-1空域卷积网络的构建

空间流卷积神经网络的输入是单个视频帧，它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型。此处空间特征提取网络基于ZF网络构建。ZF是卷积神经网络(Convolutional Neural Networks,CNN)的一种代表性网络，包括有卷积层、池化层、连接层和输出层，每层包含多个相互独立的神经单元；

ZF网络由5层深度的卷积层构成。前两层卷积核的大小分别为7*7和5*5，滑动步长(stride)均为2个像素，通过边界扩充(pad＝2)保持输入输出维度不变，每层卷积后均进行窗口为3*3的最大池化(max pooling)；后三层卷积的卷积核大小均为3*3，滑动步长均为1个像素，边界扩充1个像素。FC层表示一个全连接层，通过卷积核大小为1*1的卷积层实现，最后使用一个Softmax分类器来实现分类。

Step4-2空域卷积网络的训练

空域卷积网络的训练分为前向传播和后向传播两个部分。前向阶段：将抽烟图片数据集中选择批量(batch＝8)数据输入网络，然后根据网络的数据流传播计算对应所属的实际动作种类。后向阶段：网络的实际输出与理想输出存在误差，对误差函数求各个偏置和权值的偏导数，从而使误差沿着降速最快的方向调整各个权值和偏置。

(1)前向训练。网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小，表达式为如公式(4)所示：

其中，

表示前一层的输出特征向量；W_ij表示输入i到输出j的连接权值；b_k表示输出层第k个输出的偏置；Y_k表示输出层中第k个输出；f()表示非线性激励函数。

(2)反向训练。反向传播的目的是使误差达到最小，根据误差函数E来对权值参数w、偏置参数b的梯度

进行调整。对于有M个输出类别和N个训练样本的多分类问题，使用的误差函数计算方法如公式(2)所示。

其中，

表示第n个样本中第k类对应的分类标签；

为网络输出层实际输出向量。

Step5时域卷积网络的构建与训练

Step5-1时域卷积网络的构建

此处时域卷积网络采用与空域卷积网络相同的ZF网络。时域卷积网络的输入是基于视频数据计算和转换而来的灰度的光流图。光流信息是连续视频帧之间的像素点位移场，描述的是视频的运动信息。对于视频中第i帧的像素点p(x_p，y_p)，在第k帧上记该像素点为q(x_q，y_q)，使用FlowNet(FlowNet:Learning Optical Flow with Convolutional Network)计算光流，则该像素点从i帧到k帧的光流描述为变化δp，δp的计算方法如公式(3)所示：M_i→k＝F(I_k，I_i)，δp＝M_i→k(p) (3)

其中，I_k，I_i分别表示视频中第i帧和第k帧。对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流，最终获得第i帧到第j帧的光流图。

Step5-2空域卷积网络的训练

时域卷积网络的训练分为前向传播和后向传播两个部分，训练方法与空域卷积网络的训练过程相同。

Step6基于SVM的抽烟动作识别模型

Step6-1 SVM分类器构建

支持向量机(support vector machine，SVM)是一种常见的二分类模型，其基本思想是针对待分类的数据，找到具有最小间隔的样本点然后拟合出一个到这些样本点距离和最大的线段或平面；超平面的方程的定义如公式(4)所示。

w^Tx+b＝0 (4)

其中x表示空间中坐落在超平面上的样本点，该点可以被描述为X(x₁，x₂，...x_n)，其中x_i表示点X的第i个特征变量；w^T表示空间中超平面的参数，对应的w^T为一个n维度的矩阵，可以被描述为w^T(W₁，W₂，...，W_n)；b表示样本点X在超平面上的截距。由公式(4)定义的超平面可知，样本空间中任意的点p(x₁，x₂，...x_n)到超平面的距离可以通过公式(5)计算得到。

其中，d表示点到超平面的距离，W_i∈w^T表示超平面方程中的系数。在计算某个数据点到超平面的距离的基础上，若超平面已经确定，则我们的目标就是找出所有间隔中最大的那个值对应的超平面。因此用数学语言描述就是确定超平面系数矩阵w^T(W₁，W₂，...，W_n)、截距b使得间隔最大。该优化问题的目标函数如公式(6)所示。

其中，y表示数据点的标签，值为-1或1；y(w^Tx+b)表示点X到超平面距离。通过引入拉格朗日中值展开式，SVM的目标函数如公式(7)所示。

其中x_i和x_j分别表示i和j个数据点，y_i和y_j表示x_i和x_j对应的标签值，α_i和α_j为我们待求解的参数值。

基于上述的公式构建抽烟动作识别的SVM分类模型，SVM分类模型的输入是Step 4与Step 5训练的卷积神经网络的Softmax分类值，SVM分类模型的输出是最终的抽烟动作的分类情况。

Step6-2 SVM分类器训练

SVM分类模型的训练分为前向传播和后向传播两个部分，训练方法与空域卷积网络的训练过程相同。

Step1所述的视频数据，共采集1108条抽烟视频数据。

Step2(1)所述的视频数据大小为320*240像素。

本发明与最接近的现有技术相比，具有以下有益效果：本发明针对露天环境下难以提取到理想的烟雾特征进行吸烟行为识别的问题，通过识别人物的动作来识别抽烟行为，使用两个不同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果；针对抽烟动作的相似性动作较多容易出现误判的问题，不直接简单加权融合两个网络的Softmax分类结果，将两个训练Softmax的输出作为新的输入特征来SVM分类器，使用SVM对时域卷积网络和空域卷积网络的分类结果建模，进一步提升了基于视频的人物抽烟行为自动识别的精度。

附图说明

图1为ZF网络结构图。

具体实施方式

以抽烟行为的自动识别为例，具体的实施方式如下所述：

硬件环境：

处理平台为AMAX的PSC-HB1X深度学习工作站，处理器为Inter(R)E5-2600 v3，主频为2.1GHZ，内存为128GB，硬盘大小为1TB，显卡型号为GeForce GTX Titan X。

软件环境：

操作系统Windows10 64位；深度学习框架Tensorflow 1.1.0；集成开发环境python3+Pycharm 2018.2.4x64。

本发明提供的一种基于双流卷积神经网络和SVM的抽烟动作识别方法，包括以下步骤：

Step1原始数据准备

针对常见场景下的人物抽烟行为，通过收集来自吸烟室监控摄像头及网络的视频数据，共采集1108条抽烟视频数据。

Step2数据预处理

(1)将大小、帧率各不相同的视频数据统一到相同的320*240像素大小和25帧率。

(3)将每一个视频拆成视频帧，每一个视频随机抽取10张图片，1108条视频共计11080张图片组成图片数据集。

Step3数据集制作

针对Step2预处理后的数据进行人工分类，将人工分类信息作为网络训练的类别监督信息。随机选取增强后视频数据的60％共665条作为训练数据，剩余的作为测试数据；随机选取图片数据集中的60％共3324张图片作为训练数据，其余的作为测试数据。

Step4空域卷积网络的构建与训练

Step4-1空域卷积网络的构建

空间流卷积神经网络的输入是单个视频帧，它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型。静态的外形特征是一个非常有用的信息，因为视频人物的某些行为动作与某些物体有着密切的关联性。本发明涉及的空间特征提取网络基于ZF网络构建。ZF是卷积神经网络(Convolutional Neural Networks,CNN)的一种代表性网络，包括有卷积层、池化层、连接层和输出层，每层包含多个相互独立的神经单元，典型结构如图1所示。

Step4-2空域卷积网络的训练

在网络训练的过程中，通过监督学习的方式，将预处理后的图像信息前向传播，之后将前向传播的输出与标签输出对比，将两者之间的误差反向传播。初始的学习率为0.01，在迭代50000次后停止训练，保存训练好的网络模型参数。

Step5时域卷积网络的构建与训练

Step5-1时域卷积网络的构建

本发明的时域卷积网络采用与空域卷积网络相同的ZF网络。时域卷积网络的输入是基于视频数据计算和转换而来的灰度的光流图。光流信息是连续视频帧之间的像素点位移场，描述的是视频的运动信息。对于视频中第i帧的像素点p(x_p，y_p)，在第k帧上记该像素点为q(x_q，y_q)，使用FlowNet(FlowNet:Learning Optical Flow with ConvolutionalNetwork)计算光流，则该像素点从i帧到k帧的光流描述为变化δp，δp的计算方法如公式(3)所示：M_i→k＝F(I_k，I_i)，δp＝M_i→k(p) (3)

Step5-2空域卷积网络的训练

时域卷积网络的训练分为前向传播和后向传播两个部分，训练方法与空域卷积网络的训练过程相同。初始的学习率为0.01，在迭代50000次后停止训练，保存训练好的网络模型参数。

Step6基于SVM的抽烟动作识别模型

Step6-1 SVM分类器构建

支持向量机(support vector machine，，SVM)是一种常见的二分类模型，其基本思想是针对待分类的数据，找到具有最小间隔的样本点然后拟合出一个到这些样本点距离和最大的线段或平面。类似于二维空间，超平面的方程的定义如公式(4)所示。

w^Tx+b＝0 (4)

基于上述的公式构建抽烟动作识别的SVM分类模型，SVM分类模型的输入是Step4与Step 5训练的卷积神经网络的Softmax分类值，SVM分类模型的输出是最终的抽烟动作的分类情况。

Step6-2 SVM分类器训练

本发明针对抽烟动作的时空特征自动学习问题：训练卷积神经网络从视频帧中学习人物动作的空间特征，训练卷积神经网络从视频帧的运动中学习以密集光流为形式的人物动作时间特征。

本发明针对抽烟动作自动识别网络的构建和训练：构建SVM分类器训练两个网络的Softmax分类结果，实现抽烟动作自动识别。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于双流卷积神经网络和SVM的抽烟动作识别方法，其特征在于，包括以下步骤：

Step1原始数据准备

针对常见场景下的人物抽烟行为，通过收集来自吸烟室监控摄像头及网络的视频数据，共收集抽烟视频数据1108条；

Step2数据预处理

(1)将大小、帧率各不相同的视频数据统一到相同大小和25帧率；

(2)截取视频数据中关键的抽烟动作部分，将视频的时长控制在10s左右；

(3)将每一个视频拆成视频帧，每一个视频随机抽取10张图片，组成图片数据集；

Step3数据集制作

针对Step2预处理后的数据进行人工分类，将人工分类信息作为网络训练的类别监督信息；随机选取增强后视频数据的60％作为训练数据，剩余的作为测试数据；随机选取图片数据集中的60％作为训练数据，其余的作为测试数据；

Step4空域卷积网络的构建与训练

Step4-1空域卷积网络的构建

空间流卷积神经网络的输入是单个视频帧，它是一种通过提取静态图片信息来完成视频人物动作识别的深度学习模型；此处空间特征提取网络基于ZF网络构建，ZF是卷积神经网络“Convolutional Neural Networks,CNN”的一种代表性网络，包括有卷积层、池化层、连接层和输出层，每层包含多个相互独立的神经单元；

ZF网络由5层深度的卷积层构成；前两层卷积核的大小分别为7*7和5*5，滑动步长“stride”均为2个像素，通过边界扩充“pad＝2”保持输入输出维度不变，每层卷积后均进行窗口为3*3的最大池化“max pooling”；后三层卷积的卷积核大小均为3*3，滑动步长均为1个像素，边界扩充1个像素；FC层表示一个全连接层，通过卷积核大小为1*1的卷积层实现，最后使用一个Softmax分类器来实现分类；

Step4-2空域卷积网络的训练

空域卷积网络的训练分为前向传播和后向传播两个部分；前向阶段：将抽烟图片数据集中选择批量数据输入网络，然后根据网络的数据流传播计算对应所属的实际动作种类；后向阶段：网络的实际输出与理想输出存在误差，对误差函数求各个偏置和权值的偏导数，从而使误差沿着降速最快的方向调整各个权值和偏置；

(1)前向训练

网络输出层的每一个神经元的输出值对应于输入视频属于各类危险动作的概率大小，表达式为如公式(4)所示：

其中，

表示前一层的输出特征向量；W_ij表示输入i到输出j的连接权值；b_k表示输出层第k个输出的偏置；Y_k表示输出层中第k个输出；f()表示非线性激励函数；

(2)反向训练

反向传播的目的是使误差达到最小，根据误差函数E来对权值参数w、偏置参数b的梯度

进行调整；对于有M个输出类别和N个训练样本的多分类问题，使用的误差函数计算方法如公式(2)所示；

其中，

表示第n个样本中第k类对应的分类标签；

为网络输出层实际输出向量；

Step5时域卷积网络的构建与训练

Step5-1时域卷积网络的构建

此处时域卷积网络采用与空域卷积网络相同的ZF网络；

时域卷积网络的输入是基于视频数据计算和转换而来的灰度的光流图；光流信息是连续视频帧之间的像素点位移场，描述的是视频的运动信息；

对于视频中第i帧的像素点p(x_p，y_p)，在第k帧上记该像素点为q(x_q，y_q)，使用FlowNet(FlowNet：Learning Optical Flow with Convolutional Network)计算光流，则该像素点从i帧到k帧的光流描述为变化δp，δp的计算方法如公式(3)所示：

M_i→k＝F(I_k，I_i)，δp＝M_i→k(p) (3)

其中，I_k，I_i分别表示视频中第i帧和第k帧；对于第i帧上所有的像素点逐像素的计算其在第k帧上对应的光流，最终获得第i帧到第j帧的光流图；

Step5-2空域卷积网络的训练

时域卷积网络的训练分为前向传播和后向传播两个部分，训练方法与空域卷积网络的训练过程相同；

Step6基于SVM的抽烟动作识别模型

Step6-1 SVM分类器构建

支持向量机“support vector machine，SVM”是一种常见的二分类模型，其基本思想是针对待分类的数据，找到具有最小间隔的样本点然后拟合出一个到这些样本点距离和最大的线段或平面，超平面的方程的定义如公式(4)所示；

w^Tx+b＝0 (4)

其中x表示空间中坐落在超平面上的样本点，该点可以被描述为X(x₁，x₂，...x_n)，其中x_i表示点X的第i个特征变量；w^T表示空间中超平面的参数，对应的w^T为一个n维度的矩阵，可以被描述为w^T(W₁，W₂，...，W_n)；b表示样本点X在超平面上的截距；由公式(4)定义的超平面可知，样本空间中任意的点p(x₁，x₂，...x_n)到超平面的距离可以通过公式(5)计算得到；

其中，d表示点到超平面的距离，W_i∈w^T表示超平面方程中的系数；

在计算某个数据点到超平面的距离的基础上，若超平面已经确定，则我们的目标就是找出所有间隔中最大的那个值对应的超平面；

因此用数学语言描述就是确定超平面系数矩阵w^T(W₁，W₂，...，W_n)、截距b使得间隔最大；该优化问题的目标函数如公式(6)所示；

其中，y表示数据点的标签，值为-1或1；y(w^Tx+b)表示点X到超平面距离；

通过引入拉格朗日中值展开式，SVM的目标函数如公式(7)所示；

其中x_i和x_j分别表示i和j个数据点，y_i和y_j表示x_i和x_j对应的标签值，α_i和α_j为我们待求解的参数值；

基于上述的公式构建抽烟动作识别的SVM分类模型，SVM分类模型的输入是Step 4与Step 5训练的卷积神经网络的Softmax分类值，SVM分类模型的输出是最终的抽烟动作的分类情况；

Step6-2 SVM分类器训练

2.根据权利要求1所述的一种基于双流卷积神经网络和SVM的抽烟动作识别方法，其特征在于，Step1所述的视频数据，共采集1108条抽烟视频数据。

3.根据权利要求1所述的一种基于双流卷积神经网络和SVM的抽烟动作识别方法，其特征在于，Step2(1)所述的视频数据大小为320*240像素。