CN108664922A

CN108664922A - 一种基于人身安全的红外视频人体行为识别方法

Info

Publication number: CN108664922A
Application number: CN201810442871.7A
Authority: CN
Inventors: 吴雪平; 孙韶媛; 李佳豪
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-16

Abstract

本发明涉及一种基于人身安全的红外视频人体行为识别方法，首先需要从用于训练的夜视人体行为视频中，得到静态图像数据流和动态光流数据流，以及每一个视频对应的行为分类标签；其次分别将静态灰度图片，动态光流图片和对应标签输入空间卷积神经网络，以及将动态光流图片和对应标签输入时间卷积神经网络进行迭代学习，分别得到空间网络和时间网络的模型参数；然后分别将用于测试的灰度图片，光流图片输入空间网络模型得到结果一，再将光流图片输入时间网络模型得到结果二；最后将结果一和结果二进行加权求和，得到最终的视频分类结果。本发明能够准确识别红外视频中的人体行为动作。

Description

一种基于人身安全的红外视频人体行为识别方法

技术领域

本发明涉及红外图像处理技术领域，特别是涉及一种基于人身安全的红外视频人体行为识别方法。

背景技术

视频人体行为识别指的是计算机需要判断视频中人体行为动作所属的类别。行为识别的最终目标是分析出视频中有什么人在什么时刻什么地方，在干什么事情，正确判断人体行为动作类别是行为识别进一步发展的重要一步。

视频人体行为识别技术主要分为两类。第一类是传统的手工提取视频图像的二维或三维特征，如HOG、SIFT、HOF或HOG3D、SIFT3D、IDT等特征，然后通过SVM，随机树等分类方法进行行为动作分类；第二类是建立神经网络，通过神经网络的自主学习特征的过程，直接输出动作分类的结果。

在可见光彩色图像领域，人体行为识别的研究有较大进展。L.Wang等人提出的IDT(Improved dense trajectories)算法是目前传统提取特征方法中效果最好，最稳定的一个。IDT沿着视频图像的光流轨迹提取出HOF、HOG、MBH、Trajectory这四种特征，通过FV(Fisher Vector)编码后通过SVM分类器训练得到结果。尽管其效果较好，但是由于计算了大量的局部特征，使得其计算量相当大，运算速度也很慢。在深度学习领域，K.Simonyan等人提出了双流网络取得了较好的结果，两条网络流的输入分别是视频图像(spatial)和密集光流图像(temporal)，通过将两条网络流的结果进行加权求和来充分利用视频的空间特征和时间变化特征。Varol G等人考虑到双流网络依然没有充分地利用好视频中图像之间的关联，因而采用直接输入分割后的短视频，通过3D卷积网络来同时对空间信息和时间信息进行学习，也取得了较好的效果。

相对来说，夜视视频人体行为识别的研究相对较少。然而很多涉及人身安全的视频人体行为动作发生的场景，往往发生在比较隐蔽，黑暗无光等条件下，因此充分研究红外视频人体行为识别技术具有极其重要的实际意义。

夜视视频人体行为识别的难点在于：首先视频的长短不一，并且人体行为动作非常复杂同时又具有相似性，如何提取出真正有效的特征，来进行动作分类是最困难的问题。其次夜视图像完全不同于可见光图像，它无色彩，只有单通道的灰度值，信噪比低且缺乏深度感，往往场景中物体的分辨度不高。因此夜视视频人体行为识别难度极大。

目前国内外对于夜视视频人体行为识别的研究非常少，尚无成熟的解决方案。刘智等利用深度卷积神经网络对彩色的深度视频中的每一帧图像进行特征提取，并最终将所有特征连接起来对人体行为进行分类，但由于使用的网络深度较浅，且没有充分利用从深度视频每一帧提取出来的特征之间的联系，因而总体效果一般。在夜视视频领域，邵延华等针对单个特征所能表达人体行为表征信息有限的问题，融合了图像稠密采样后所提取的方向梯度直方图(HOG)特征、光流直方图(HOF)特征以及运动边界描述子(MBH)特征，通过K近邻分类器在10个类别上的红外数据集上取得了较好的效果，但方法过于复杂。

发明内容

本发明所要解决的技术问题是提供一种基于人身安全的红外视频人体行为识别方法，能够准确了解到红外视频中的人体行为动作，同时还可以检测是否发生了危害到人身安全的动作，从而进行报警。

本发明解决其技术问题所采用的技术方案是：提供一种基于人身安全的红外视频人体行为识别方法，包括以下步骤：

(1)构建涉及人身安全的红外视频人体行为数据集，所述人体行为数据集包括常规的人体行为和会危害到人身安全的人体行为，并将所述红外视频按行为动作类别分类并建立好对应标签；

(2)将所述红外视频分别转化为对应的灰度图片以及相应的关于横轴和纵轴方向上的光流图片，并将所得图片分为训练集和测试集；

(3)构建时空双流网络，所述网络由两条网络流构成，第一条网络流的输入是所述灰度图片，第二条网络流的输入是所述横轴和纵轴方向上的光流图片，所述两条网络流的基网络相同，均为BN Inception深度卷积神经网络；

(4)开始训练所述时空双流网络，将所述训练集中的图片分别输入到对应的网络流中，训练网络参数，使其得到的类别分类的正确率最高，最后再将两条网络流得到的结果进行加权求和得到最终的每个视频的人体行为类别，以及所有视频的总正确率；

(5)开始测试所述时空双流网络，将所述测试集中的图片分别输入到对应的网络流中，将两条网络流得到的结果进行加权求和，得到最终的每个视频的人体行为类别。

所述步骤(2)和步骤(3)之间还包括将所述训练集的图片进行数据增强操作的步骤。

所述步骤(3)中在输入为灰度图片的网络流的基础上，再加入一条一样的网络流，其输入为灰度图片对应的光流图片，同时随机选取该两条网络中的某些网络节点进行融合，构建既包含空间信息也包含时间信息的时空网络。

所述步骤(3)中的BN Inception深度卷积神经网络其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，relu()表示激励操作。

所述步骤(4)在训练网络时，将每条网络的图片都分割为12个部分，每次从12个部分图片中各取出一张进行网络训练。

所述步骤(5)在测试网络时，将每条网络的图片都分割为12个部分，每次从12个部分图片中各取出一张进行网络测试。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过使用深度学习，无需手工选取特征，通过端到端的训练，可以快速地对视频进行分类，运算速度快。本发明使用双流网络，充分利用了视频图像和视频光流图像的信息对视频特征进行学习。本发明针对视频图像的网络流，将灰度图像和光流图像特征进行融合，来更好地学习灰度图像的特征。

附图说明

图1是本发明的流程图；

图2是双流卷积神经网络结构图；

图3是空间卷积网络结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于人身安全的红外视频人体行为识别方法，包括以下步骤：构建涉及人身安全的红外视频人体行为数据集，所述人体行为数据集包括常规的人体行为和会危害到人身安全的人体行为，并将所述红外视频按行为动作类别分类并建立好对应标签；将所述红外视频分别转化为对应的灰度图片以及相应的关于横轴和纵轴方向上的光流图片，并将所得图片分为训练集和测试集；构建时空双流网络，所述网络由两条网络流构成，第一条网络流的输入是所述灰度图片，第二条网络流的输入是所述横轴和纵轴方向上的光流图片，所述两条网络流的基网络相同，均为BN Inception深度卷积神经网络；开始训练所述时空双流网络，将所述训练集中的图片分别输入到对应的网络流中，训练网络参数，使其得到的类别分类的正确率最高，最后再将两条网络流得到的结果进行加权求和得到最终的每个视频的人体行为类别，以及所有视频的总正确率；开始测试所述时空双流网络，将所述测试集中的图片分别输入到对应的网络流中，将两条网络流得到的结果进行加权求和，得到最终的每个视频的人体行为类别。

如图1所示，首先需要从用于训练的夜视人体行为视频中，得到静态图像数据流和动态光流数据流，以及每一个视频对应的行为分类标签；其次分别将静态灰度图片，动态光流图片和对应标签输入空间卷积神经网络，以及将动态光流图片和对应标签输入时间卷积神经网络进行迭代学习，分别得到空间网络和时间网络的模型参数；然后分别将用于测试的灰度图片，光流图片输入空间网络模型得到结果一，再将光流图片输入时间网络模型得到结果二；最后将结果一和结果二进行加权求和，得到最终的视频分类结果。具体如下：

步骤1：建立红外人体行为视频数据集。在高陈强所建立的11个类的基本红外人体行为数据集的基础上，加入了8个涉及人身安全的人体行为动作以及4个相对应的未涉及人身安全的人体行为动作进行识别。因此所建立的基于人身安全的红外人体行为数据集共包含23个动作类别，其中训练集共有690个视频，测试集有223个视频，具体类别见表1。

表1：基于人身安全的红外人体行为数据集类别

类别：	拍手	握手	拥抱	慢跑	双脚跳	拳击	推	单脚跳
									标签：	0	1	2	3	4	5	6	7
类别：	走路	单手挥	双手挥	报警	递东西	拿棍棒	摔倒	打架
									标签：	8	9	10	11	12	13	14	15
类别：	掐脖子	用棍打	拽头发	下跪	晕倒	抢劫	扇耳光
									标签：	16	17	18	19	20	21	22

该数据集是第一个涉及人身安全的红外人体行为数据集，包含11个基本人体行为动作：拍手，握手，拥抱，慢跑，双脚跳，拳击，推，单脚跳，走路，单手挥舞，双手挥舞；包含8个涉及危害到人身安全的红外人体行为动作：打架，用棍棒等武器打人，拽头发，下跪，晕倒不起，抢劫，扇耳光；以及4个相对应的不涉及人身安全，仅作为对比干扰的红外人体行为动作：报警动作，正常地递东西，正常地拿着棍棒等武器，摔倒。

步骤2：提取出每一段视频的单帧静态灰度图像，以及关于横轴和纵轴方向上的光流图片。其中单帧灰度图像可以充分地显示原视频的空间图像信息，而光流图片则可以比较充分地显示原视频的动态变化信息。灰度图片和光流图片的尺寸均为256×340。

针对数据集有限的情况，本发明采用了3个增强数据集的方法。第一个是中心化切割，第二个是角落切割，第三个是随机水平翻转。且随机切割的大小宽度或者长度可以为168,192,224,256之中的任何一个，最后再将切割后的图像转化为224×224大小的图片。

步骤3：如图2所示，将原始输入视频平均分为K个部分，针对每个部分的视频，将刚刚得到的增强过后的灰度图片和光流图片输入双流卷积网络，通过卷积神经网络的正向传递得到分类结果。然后将K个部分得到的K个结果进行平均，从而得到最终的预测分类值。然后将其与视频的真实标签求差值，再根据差值来对整个网络进行反向传播，从而来训练整个网络，最终找到最佳的识别网络的模型参数。

本发明使用的双流网络的基础网络是BN Inception深度卷积网络。卷积神经网络f都可以看作是一系列的卷积、激励和池化的过程。假设深度卷积神经网络f，参数为θ，则f的数学表达式为：

其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，relu()表示激励操作。池化操作将小邻域内的特征点整合得到新特征，使得特征减少，参数减少，且池化单元具有平移不变性。池化的方法主要包括平均-池化和最大值-池化，本发明主要采用最大值-池化操作。

本发明所使用的基础网络是BN Inception卷积神经网络，是目前深度卷积神经网络中常用的基础网络，过程如下。

(1)输入一幅224×224×3的夜视图像，通过卷积核大小为7×7的Conv1卷积层，再经过池化层pool1，输出为56×56×64的特征图；

(2)将(1)中得到的特征图通过卷积核大小为3×3的Conv2卷积层，再经过池化层pool2，输出为28×28×192的特征图；

(3)将(2)中得到的特征图通过Inception(3a)层后，输出为28×28×576的特征图；

(4)将(3)中得到的特征图通过Inception(3b)层后，输出为28×28×320的特征图；

(5)将(4)中得到的特征图通过Inception(3c)层后，输出为28×28×576的特征图；

(6)将(5)中得到的特征图通过Inception(4a)层后，输出为14×14×576的特征图；

(7)将(6)中得到的特征图通过Inception(4b)层后，输出为14×14×576的特征图；

(8)将(7)中得到的特征图通过Inception(4c)层后，输出为14×14×576的特征图；

(9)将(8)中得到的特征图通过Inception(4d)层后，输出为14×14×576的特征图；

(10)将(9)中得到的特征图通过Inception(4e)层后，输出为14×14×1024的特征图；

(11)将(10)中得到的特征图通过Inception(5a)层后，输出为7×7×576的特征图；

(12)将(11)中得到的特征图通过Inception(5b)层后，输出为7×7×1024的特征图；

(13)将(10)中得到的特征图通过池化层pool3层后，输出为1×1×1024的特征图；

(14)将(11)中得到的1024维特征向量经过两层全连接层之后，再经过一层Softmax层之后，便可以得到每个视频的分类结果。

如附图3所示，空间卷积网络由2条网络流组成，这两条网络均是由BN Inception基础网络所成，并且各自的输入为灰度图片(224×224×3)和对应的光流图片(224×224×3)。

由于红外视频得到的灰度图片所得到的空间信息有限，因此空间卷积神经网络，采用了融合灰度图片的空间信息和光流图片的帧间信息来更好地对灰度图片进行特征提取。

如附图3所示，空间卷积神经网络，在两个网络流的3c层,4e层,5b层处，将两条网络所得到的28×28×576，14×14×1024，以及7×7×1024的特征进行相加，从而使得网络在学习过程中，不断地学习空间信息和对应光流信息的特征表示，最终再输出两层全连接层，通过Softmax层后得到对视频分类结果。

时间卷积神经网络的输入是10张光流图片(224×224×10)，所使用的基础网络仍然是BN Inception卷积神经网络。时间卷积神经网络仅考虑视频图像的帧间信息，因而采用了10张光流图片作为输入，其中这10张光流图片来自于原视频的5张图，每张图各有横轴方向和纵轴方向的两张光流图。

将10张光流图片输入网络，通过迭代学习，可以得到时间卷积神经网络对原视频的特征学习，最终再输出两层全连接层，通过Softmax层后得到对视频的分类结果。

步骤4：将步骤3中得到的空间卷积神经网络和时间卷积神经网络的类别分数，进行加权求和的方式，最终得到整个双流网络对原视频类别的分类。

不难发现，本发明通过使用深度学习，无需手工选取特征，通过端到端的训练，可以快速地对视频进行分类，运算速度快。本发明使用双流网络，充分利用了视频图像和视频光流图像的信息对视频特征进行学习。本发明针对视频图像的网络流，将灰度图像和光流图像特征进行融合，来更好地学习灰度图像的特征。

Claims

1.一种基于人身安全的红外视频人体行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人身安全的红外视频人体行为识别方法，其特征在于，所述步骤(2)和步骤(3)之间还包括将所述训练集的图片进行数据增强操作的步骤。

3.根据权利要求1所述的基于人身安全的红外视频人体行为识别方法，其特征在于，所述步骤(3)中在输入为灰度图片的网络流的基础上，再加入一条一样的网络流，其输入为灰度图片对应的光流图片，同时随机选取该两条网络中的某些网络节点进行融合，构建既包含空间信息也包含时间信息的时空网络。

4.根据权利要求1所述的基于人身安全的红外视频人体行为识别方法，其特征在于，所述步骤(3)中的BN Inception深度卷积神经网络其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，relu()表示激励操作。

5.根据权利要求1所述的基于人身安全的红外视频人体行为识别方法，其特征在于，所述步骤(4)在训练网络时，将每条网络的图片都分割为12个部分，每次从12个部分图片中各取出一张进行网络训练。

6.根据权利要求1所述的基于人身安全的红外视频人体行为识别方法，其特征在于，所述步骤(5)在测试网络时，将每条网络的图片都分割为12个部分，每次从12个部分图片中各取出一张进行网络测试。