CN108830185B

CN108830185B - 基于多任务联合学习的行为识别及定位方法

Info

Publication number: CN108830185B
Application number: CN201810523779.3A
Authority: CN
Inventors: 郝宗波
Original assignee: Sichuan Tongzhi Technology Co ltd
Current assignee: Bocai Zhonghua Intelligent Technology (Chengdu) Co.,Ltd.
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2020-11-10
Anticipated expiration: 2038-05-28
Also published as: CN108830185A

Abstract

本发明公开了一种基于多任务联合学习的行为识别及定位方法，将深度学习中的卷积神经网络与多任务联合学习相结合，取代单一任务卷积神经网络算法，以实现视频中人体行为识别及行为定位的目标。本发明改进了faster rcnn中物体检测深度网络，并在此基础上结合行为识别深度网络，使结合之后的网络达到多任务联合学习的能力，使两个任务能够相互促进，增强识别算法的鲁棒性和准确性；同时，本发明结合了视频数据集与图片数据集，增强了训练集的信息多样性；此外，如果对视频数据集中人体位置做标注将耗费巨大的精力，本发明能通过算法的自主学习省略数据集的标注工作，能够极大降低标注工作量。

Description

基于多任务联合学习的行为识别及定位方法

技术领域

本发明属于计算机视觉、机器学习及深度学习技术领域，具体涉及一种基于多任务联合学习的行为识别及定位方法的设计。

背景技术

在安防领域，人体行为检测与定位具有很大的需求，如对暴力行为的检测，如果能够实时检测到危害社会与他人的暴力行为并采取措施，将对社会稳定具有重要意义。如果能够定位到视频中实施暴力行为的具体暴徒，结合人脸识别应用，对于快速破案将有非常重要的价值。然而目前的视频监控系统多以人力为主、计算机为辅，主要以人工的方式识别监视视频的内容，工作量巨大，且随着监视时间的增长，值守人员的注意力会下降，很容易遗漏场景中发生的事件，因此往往是在事件发生之后，人们再对海量的视频数据进行回放、分析及筛选，不但效率非常低，而且不能及时制止异常事件的发生。

目前人体行为识别通用的研究方法是通过对裁剪过的视频训练，得到一个行为检测器，然后在测试视频上检测行为。在行为分析中，常用的一种技术是提取包含行为发生时间和位置的长方体，该方法可以看做是二维图片标注信息(ground truth)在时间域上的扩展。

但是上述方法对于行为检测及定位来说就不再适用，原因如下：

(1)随着行为主体在执行动作时姿态的变化，在空间上外接轮廓的长宽比将发生较大变化，在时间上，一些循环执行的动作(如跑步)，时间的持续长度也将有较大差异。

(2)多数动作发生时，行为主体的位置不是固定的(如跑步)，如果不是摄像头随着行为主体在移动，跑步行为将在空间上产生较大变化，长方体将包含很多错误信息或背景信息。真实的标注信息应该是一系列长宽比和位置发生变化的矩形框。由于真实视频相对于裁剪过的视频，具有更长的持续时间和更高的分辨率，再采用这种类似滑动窗口的方法来搜索目标行为将变得不现实。

行为识别目前具有大型的数据集，如HMDB51、UCF101、SPORTS 1M等，都具有大量的样本可供训练使用，但行为定位不仅要对视频进行行为的分类，还要定位出行为发生的时间和在视频帧中的坐标位置，因此训练样本也需要提供定位信息。行为定位的标注工作量远远大于行为识别的标注工作量(行为识别只需对一段视频给出一个行为类别标签即可，行为定位需要在视频的每一帧图片中标定出行为发生的具体坐标)，因此目前行为定位的数据集样本数量都比较小，如UCF-Sports、JHMDB、THUMOS等。深度学习在视频和图像理解领域表现出优异的性能，但深度学习对训练样本数量的要求是非常大的，如何解决海量样本标注的问题，对解决行为定位问题至关重要。

发明内容

本发明的目的是为了解决现有技术中的上述问题，提出了一种基于多任务联合学习的行为识别及定位方法，采用深度学习中的卷积神经网络与多任务联合学习相结合取代单一任务卷积神经网络算法，以适应视频片段中人体行为识别及行为定位的需求。

本发明的技术方案为：基于多任务联合学习的行为识别及定位方法，包括以下步骤：

S1、构建多通道结合的行为识别卷积神经网络。

行为识别卷积神经网络包括光流通道和图像通道，光流通道和图像通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，光流通道和图像通道还包括共有的第五层网络、第六层网络、第七层网络、第八层网络和第九层网络。

光流通道和图像通道的第一层网络均为输入层，图像通道的输入层接收视频中一帧图片的R、G、B分量，R对应选取图片的红色通道，G对应选取图片的绿色通道，B对应选取图片的蓝色通道，光流通道的输入层接收由视频计算出的稠密光流在x、y轴上的两个分量Ox、Oy。

光流通道和图像通道的第二层网络分别包括两个二维卷积层和两个下采样层；光流通道和图像通道的第二层网络中，二维卷积层采用数量为n、尺度为cw*ch的卷积核分别对第一层网络输入的图像和光流进行卷积运算，下采样层采用尺度为pw*ph的采样核对二维卷积层的输出进行最大池化。

光流通道和图像通道的第三层网络分别包括两个二维卷积层和两个下采样层；光流通道和图像通道的第三层网络中，二维卷积层用于对第二层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

光流通道和图像通道的第四层网络分别包括两个二维卷积层和两个下采样层；光流通道和图像通道的第四层网络中，二维卷积层用于对第三层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

第五层网络包括一个二维卷积层和一个下采样层；第五层网络中，二维卷积层用于对光流通道和图像通道的第四层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

第六层网络包括一个二维卷积层和一个下采样层；第六层网络中，二维卷积层用于对第五层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

第七层网络为全连接层，用于将第六层网络的输出映射到fn维向量空间；fn为第七层网络的节点个数。

第八层网络为全连接层，用于将第七层网络的输出重映射到fn维向量空间。

第九层网络为全连接层，用于将第八层网络的输出映射到样本种类空间，形成与类别数相同的特征向量。

S2、通过人体行为识别数据集对行为识别卷积神经网络进行离线预训练，得到行为识别训练权值模型。

步骤S2包括以下分步骤：

S21、加载标注了类别信息的人体行为识别数据集。

S22、对人体行为识别数据集中的每一个视频进行单帧图片提取及稠密光流提取，分别得到图片数据和光流数据。

S23、将图片数据和光流数据分别作为图像通道和光流通道的输入，加载到行为识别卷积神经网络中。

S24、根据网络参数计算数据特征，并将两个通道的数据特征在第五层网络的二维卷积层进行合并，并以一条通道进行前向传播。

S25、将第九层网络的输出接入softmax进行类别标签确定。

S26、判断类别标签输出结果与输入真实标签的误差是否小于阈值，若是则进入步骤S27，否则将输出结果与输入真实标签的误差值反向传导进入行为识别卷积神经网络，并调整网络参数，返回步骤S23。

S27、保存行为识别卷积神经网络的网络参数，得到行为识别训练权值模型。

S3、以行为识别卷积神经网络为基础，构建行为识别及行为定位多任务联合学习深度网络。

行为识别及行为定位多任务联合学习深度网络包括光流通道、图像通道和行人定位通道；光流通道、图像通道和行人定位通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，光流通道和图像通道还包括共有的第五层网络、第七层网络、第八层网络和第九层网络，行人定位通道还包括独立的第五层网络、第七层网络、第八层网络和第九层网络，光流通道、图像通道和行人定位通道还包括共有的第六层网络。

光流通道、图像通道和行人定位通道的第一层网络均为输入层，光流通道的输入层接收由行为识别数据集中的视频计算出的稠密光流在x、y轴上的两个分量Ox、Oy进行归一化后的光流数据，图像通道的输入层接收在行为识别数据集的视频中随机选取一帧图片并进行归一化后的图片数据，行人定位通道用于接收行人定位归一化的数据。

光流通道、图像通道和行人定位通道的第二层网络分别包括两个二维卷积层和两个下采样层；光流通道、图像通道和行人定位通道的第二层网络中，二维卷积层采用数量为n、尺度为cw*ch的卷积核分别对第一层网络输入的三个通道的数据进行卷积运算，下采样层采用尺度为pw*ph的采样核对二维卷积层的输出进行最大池化。

光流通道、图像通道和行人定位通道的第三层网络分别包括两个二维卷积层和两个下采样层；光流通道、图像通道和行人定位通道的第三层网络中，二维卷积层用于对第二层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

光流通道、图像通道和行人定位通道的第四层网络分别包括两个二维卷积层和两个下采样层；光流通道、图像通道和行人定位通道的第四层网络中，二维卷积层用于对第三层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

光流通道和图像通道共有的第五层网络以及行人定位通道的第五层网络分别包括一个二维卷积层和一个下采样层；光流通道和图像通道共有的第五层网络中，二维卷积层用于对光流通道和图像通道的第四层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化；行人定位通道的第五层网络中，二维卷积层用于对行人定位通道的第四层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化。

第六层网络包括一个二维卷积层和一个下采样层；第六层网络中，二维卷积层用于对光流通道和图像通道共有的第五层网络的输出以及行人定位通道的第五层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化及分支处理，得到感兴趣分支和映射分支。

行人定位通道的第七层网络为感兴趣生成网络，用于对感兴趣分支的数据进行感兴趣区域划分及定位框的回归定位；光流通道和图像通道共有的第七层网络为全连接层，用于对映射分支的数据进行特征向量空间的映射。

光流通道和图像通道共有的第八层网络以及行人定位通道的第八层网络均为全连接层，用于对第七层网络的输出进行特征向量空间的映射。

光流通道和图像通道共有的第九层网络以及行人定位通道的第九层网络均为全连接层，用于对第八层网络的输出进行特征向量空间的映射。

S4、通过行人定位数据集及行为识别训练权值模型对行为识别及行为定位多任务联合学习深度网络进行离线训练，得到多任务联合学习深度网络权值模型文件。

步骤S4包括以下分步骤：

S41、加载行人定位数据集，并对其进行预处理，得到行人定位数据。

S42、加载从人体行为识别数据集中提取的图片数据和光流数据，并做预处理。

S43、将步骤S2得到的行为识别训练权值模型导入行为识别及行为定位多任务联合学习深度网络。

S44、将图片数据、光流数据以及行人定位数据分别输入行为识别及行为定位多任务联合学习深度网络。

S45、在感兴趣生成网络中对数据进行卷积池化，进行回归分析提取出感兴趣框。

S46、对步骤S45提取出的感兴趣框和原数据标注框求误差，得到框误差。

S47、将全连接层输出的数据接入softmax进行类别标签确定，并计算类别标签输出结果与输入真实标签的误差，得到标签误差。

S48、若框误差和标签误差的其中之一大于阈值，则将大于阈值的误差反向传到进行为识别及行为定位多任务联合学习深度网络，返回步骤S44，否则进入步骤S49。

S49、保存行为识别及行为定位多任务联合学习深度网络的网络参数，得到多任务联合学习深度网络权值模型文件。

S5、将待识别及定位的视频以及视频中随机选取的一帧图片输入行为识别及行为定位多任务联合学习深度网络，并加载多任务联合学习深度网络权值模型文件，得到行为识别及定位结果。

步骤S5包括以下分步骤：

S51、截取待识别及定位的视频中的一帧图片，进行归一化处理后分别输入行为识别及行为定位多任务联合学习深度网络的图像通道和行人定位通道。

S52、提取待识别及定位的视频中的稠密光流并输入行为识别及行为定位多任务联合学习深度网络的光流通道。

S53、将步骤S4得到的多任务联合学习深度网络权值模型文件加载到行为识别及行为定位多任务联合学习深度网络中。

S54、在行为识别及行为定位多任务联合学习深度网络中进行前向传导运算，输出人体定位信息及行为识别信息。

S55、根据行为识别信息判断是否有人体行为发生，若是则进入步骤S56，否则返回步骤S51。

S56、结合人体定位信息和行为种类，在待识别及定位的视频上显示行为发生处的外接框及行为种类。

本发明的有益效果是：

(1)本发明首次采用多任务联合学习的方法，对人体行为识别和人体同时定位研究，从而达到人体行为检测和定位的目的。行为识别的执行者是人，在行为发生的过程中，人体的形态会发生多种变化，可以极大扩充人体定位样本库的多样性，有利于人体定位的学习；同时借助于人体定位，将行为识别的处理区域定位到人体周围，可以过滤掉背景区域的影响，因此这两个问题可以互相促进。这两项任务的高度相关的，通过联合学习将对两种任务的识别率的提升都产生帮助。

(2)本发明的两种数据来源于相关但不同领域的数据集，一种来源于视频数据集，另外来源于静态图像，本发明通过对视频数据提取光流通道，将三维数据降维到二维空间，同时保留了行为的时间持续特性，解决了异构数据联合学习的问题。

(3)本发明通过对两种跨领域数据的联合学习，解决了行为定位样本不足的问题。目前行为识别有大型数据集，人体检测与定位有大型数据集，但行为检测与定位没有大型数据集，如果要对行为库的视频进行标注将耗费大量的人力，本发明通过将行为识别与人体检测联合学习，可以有效解决标注数据集的问题，节约大量的成本，也为视频和图像联合学习提供新的方法。

附图说明

图1所示为本发明实施例提供的基于多任务联合学习的行为识别及定位方法流程图。

图2所示为本发明实施例提供的行为识别卷积神经网络示意图。

图3所示为本发明实施例提供的步骤S2的分步骤流程图。

图4所示为本发明实施例提供的行为识别及行为定位多任务联合学习深度网络示意图。

图5所示为本发明实施例提供的步骤S4的分步骤流程图。

图6所示为本发明实施例提供的步骤S5的分步骤流程图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于多任务联合学习的行为识别及定位方法，如图1所示，包括以下步骤S1-S5：

S1、构建多通道结合的行为识别卷积神经网络。

如图2所示，本发明实施例中，行为识别卷积神经网络包括光流通道和图像通道，光流通道和图像通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，光流通道和图像通道还包括共有的第五层网络、第六层网络、第七层网络、第八层网络和第九层网络。

光流通道和图像通道的第二层网络分别包括两个二维卷积层和两个下采样层；光流通道和图像通道的第二层网络中，二维卷积层采用数量为n、尺度为cw*ch的卷积核分别对第一层网络输入的图像和光流进行卷积运算，下采样层采用尺度为pw*ph的采样核对二维卷积层的输出进行最大池化。cw表示卷积核的宽度，ch表示卷积核的高度，pw、ph表示最大化池化范围的宽度及高度。

本发明实施例中，多个二维卷积层和多个下采样层组成的网络中，其结构均为一个二维卷积层后接一个下采样层，然后再接下一个二维卷积层，再接下一个下采样层，以此类推的结构。

其中，对光流通道和图像通道的第四层网络的输出进行合并的公式为：

U_map＝0.5×O_map+0.5×P_map (1)

其中O_map表示光流通道的第四层网络输出的特征，P_map表示图像通道第四层网络输出的特征，U_map表示两通道合并后的特征。公式(1)即表示特征数量不变，将每个通道特征矩阵分别乘权值0.5求和成为一个新特征矩阵。

两个通道结构除光流通道第三层网络卷积之后不做数据归一化操作，其前三层网络结构一样，节点数目设置亦是一样的，节点数目决定提取特征的精细程度，节点设置过少特征信息提取过于粗糙，网络分类器得到分类对象信息少，将影响其分类效果，节点设置过多，提取出的特征向量将过于复杂，将增大计算复杂度，降低分类效率，亦有可能使网络参数过拟合于训练样本。

如图3所示，步骤S2包括以下分步骤S21-S27：

S21、加载标注了类别信息的人体行为识别数据集，本发明实施例中采用UCF101数据集，UCF101数据集包含101类人体行为，包括射箭、拉琴等自然条件下的人体行为。

其中，稠密光流是一种针对图像进行逐点匹配的图像配准方法，不同于稀疏光流只针对图像上若干个特征点，稠密光流计算图像上所有的点的偏移量，从而形成一个稠密的光流场。通过这个稠密的光流场，可以进行像素级别的图像配准，所以其配准后的效果也明显优于稀疏光流配准的效果。

对人体行为识别数据集中的每一个视频，首先随机提取视频长度范围内的一帧图片，保留RGB分量作为图片数据，然后对视频进行稠密光流提取，并对其进行归一化，得到光流数据，归一化的公式为：

其中X_or为数据矩阵中原始值，O_min为光流矩阵元素最小值，O_max为光流矩阵元素最大值，X_norm为归一化后的矩阵元素值。由公式(2)可知，归一化之后的矩阵元素值介于0～1之间。

S25、将第九层网络的输出接入softmax进行类别标签确定。

本发明实施例中，输入真实标签是人体行为识别数据集(UCF101数据集)中标注好的结果，例如一个跑步的视频，其输入真实标签即为“跑步”，以此说明视频的类别，这个标签是人体行为识别数据集在发布的时候提供的用来学习的依据。

构建行为识别及行为定位多任务联合学习深度网络的思想即是在行为识别卷积神经网络的基础上加入一个行人定位通道的输入分支，并在此分支基础上于第六层卷积后，构建一个感兴趣生成网络。

具体来说，如图4所示，本发明实施例中，行为识别及行为定位多任务联合学习深度网络包括光流通道、图像通道和行人定位通道；光流通道、图像通道和行人定位通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，光流通道和图像通道还包括共有的第五层网络、第七层网络、第八层网络和第九层网络，行人定位通道还包括独立的第五层网络、第七层网络、第八层网络和第九层网络，光流通道、图像通道和行人定位通道还包括共有的第六层网络。

本发明实施例中，归一化的公式为：

其中X_or为数据矩阵中原始值，Q_min为光流矩阵、图片矩阵或行人定位矩阵的元素最小值，Q_max为光流矩阵、图片矩阵或行人定位矩阵的元素最大值，X_norm为归一化后的矩阵元素值。

在对行为识别数据集所提取的图片数据与光流数据所传入的两个通道分支进行合并，其目的在于使网络既能保留视频的像素信息又能保留视频的时间信息，在对两个信息进行前几层的分别特征提取，能够提取到两个有用且较为精简的特征信息，而后对其进行合并。若过早的合并，将丧失图片及光流作为独立数据所展现出像素及时间先后的不同优势特征；若过晚的合并，将使两个分支的特征提取过于冗余，从而会增大计算的难度，及识别的效率。

本发明实施例中，光流通道和图像通道共有的第五层网络中对第四层网络的输出进行合并的公式为：

U_map＝W₁×O_map+W₂×P_map (4)

其中O_map表示光流通道的第四层网络输出的特征，P_map表示图像通道第四层网络输出的特征，U_map表示两通道合并后的特征，W₁、W₂为权值且W₁+W₂＝1。W₁、W₂作为一个超参数的确定，将取决于像素及时间信息对行人识别的重要性，在本发明实施例中，认为视频的像素信息与时间信息的重要程度相同。

本发明实施例中，第六层网络中对第五层网络的输出进行合并的公式为：

V_map＝W₃×U_map+W₄×S_map (5)

其中U_map表示光流通道和图像通道合并后的特征，S_map表示行人定位通道第五层网络输出的特征，V_map表示最终合并后的特征，W₃、W₄为权值且W₃+W₄＝1。

本发明实施例中，感兴趣生成网络包括二维卷积层和roi下采样层，其输入数据，即感兴趣分支的数据包括第六层网络的二维卷积层合并得到的特征图以及感兴趣生成网络可能存在人体的矩形框，其输出数据为batch个特征向量，batch为感兴趣生成网络可能存在人体的矩形框个数。roi下采样过程就是将一个个大小不同的矩形框，都映射成为大小为rw*rh的矩形框，其中rw与rh由roi下采样层参数所设定。其特征提取的算法机制与传统的最大池化算法相似，选取一个区域中值最大的像素值作为该区域的输出；本发明实施例采用roi下采样层优势便于将不同尺度感兴趣区域映射成相同尺度的特征向量；由于不同数据图片上，人体大小及远近不同，对于人体定位所计算出的外接矩形尺度肯定具有多样性，为了其定位特征之后对行为识别及定位作出的促进及合并，需将不同尺度矩形框所得的像素图片特征转化为同一尺度的特征向量，采用了roi下采样层能够快速并简洁的将不同维度的特征图转化为相同维度的特征向量，方便之后合并运算进行及发挥人体定位对识别效果促进的作用。

如图5所示，步骤S4包括以下分步骤S41-S49：

S41、加载行人定位数据集，并对其进行预处理，得到行人定位数据。本发明实施例中，行人定位数据集采用TUD数据集，其包含行人位置标注信息，以RGB图片的形式展示。

本发明实施例中，原数据标注框是行人定位数据集(TUD数据集)中标注好的结果，是行人定位数据集在发布的时候提供的用来训练的依据。

如图6所示，步骤S5包括以下分步骤S51-S56：

本发明实施例提供的基于多任务联合学习的行为识别及定位方法与现有的行为识别或定位方法相比，具有如下优点：

(1)采用多任务学习的方式，让相关联的任务在网络学习过程中相互促进，可以增强网络特征提取及分类能力.

(2)使用视频与图片结合训练方式，增强样本多样性。

(3)采用分步训练网络方式，减少训练耗时，加快训练效果。

(4)采用roi下采样池化层，将不同尺度的特征化为同一尺度特征，增加网络灵活性。

(5)在输入数据中，采用输入稠密光流的方式，能够保留视频样本的时间信息，增强算法识别效果。

(6)利用GPU加速使网络的训练及后期监测效果能够达到实时检测。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于多任务联合学习的行为识别及定位方法，其特征在于，包括以下步骤：

S1、构建多通道结合的行为识别卷积神经网络；

S2、通过人体行为识别数据集对行为识别卷积神经网络进行离线预训练，得到行为识别训练权值模型；

S3、以行为识别卷积神经网络为基础，构建行为识别及行为定位多任务联合学习深度网络；

S4、通过行人定位数据集及行为识别训练权值模型对行为识别及行为定位多任务联合学习深度网络进行离线训练，得到多任务联合学习深度网络权值模型文件；

S5、将待识别及定位的视频以及视频中随机选取的一帧图片输入行为识别及行为定位多任务联合学习深度网络，并加载多任务联合学习深度网络权值模型文件，得到行为识别及定位结果；

所述步骤S1中的行为识别卷积神经网络包括光流通道和图像通道，所述光流通道和图像通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，所述光流通道和图像通道还包括共有的第五层网络、第六层网络、第七层网络、第八层网络和第九层网络；

所述光流通道和图像通道的第一层网络均为输入层，所述图像通道的输入层接收视频中一帧图片的R、G、B分量，R对应选取图片的红色通道，G对应选取图片的绿色通道，B对应选取图片的蓝色通道，所述光流通道的输入层接收由视频计算出的稠密光流在x、y轴上的两个分量Ox、Oy；

所述光流通道和图像通道的第二层网络分别包括两个二维卷积层和两个下采样层；所述光流通道和图像通道的第二层网络中，二维卷积层采用数量为n、尺度为cw*ch的卷积核分别对第一层网络输入的图像和光流进行卷积运算，下采样层采用尺度为pw*ph的采样核对二维卷积层的输出进行最大池化；

所述光流通道和图像通道的第三层网络分别包括两个二维卷积层和两个下采样层；所述光流通道和图像通道的第三层网络中，二维卷积层用于对第二层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述光流通道和图像通道的第四层网络分别包括两个二维卷积层和两个下采样层；所述光流通道和图像通道的第四层网络中，二维卷积层用于对第三层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述第五层网络包括一个二维卷积层和一个下采样层；所述第五层网络中，二维卷积层用于对光流通道和图像通道的第四层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述第六层网络包括一个二维卷积层和一个下采样层；所述第六层网络中，二维卷积层用于对第五层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述第七层网络为全连接层，用于将第六层网络的输出映射到fn维向量空间；fn为第七层网络的节点个数；

所述第八层网络为全连接层，用于将第七层网络的输出重映射到fn维向量空间；

所述第九层网络为全连接层，用于将第八层网络的输出映射到样本种类空间，形成与类别数相同的特征向量；

所述步骤S3中的行为识别及行为定位多任务联合学习深度网络包括光流通道、图像通道和行人定位通道；所述光流通道、图像通道和行人定位通道分别包括独立的第一层网络、第二层网络、第三层网络和第四层网络，所述光流通道和图像通道还包括共有的第五层网络、第七层网络、第八层网络和第九层网络，所述行人定位通道还包括独立的第五层网络、第七层网络、第八层网络和第九层网络，所述光流通道、图像通道和行人定位通道还包括共有的第六层网络；

所述光流通道、图像通道和行人定位通道的第一层网络均为输入层，所述光流通道的输入层接收由行为识别数据集中的视频计算出的稠密光流在x、y轴上的两个分量Ox、Oy进行归一化后的光流数据，所述图像通道的输入层接收在行为识别数据集的视频中随机选取一帧图片并进行归一化后的图片数据，所述行人定位通道用于接收行人定位归一化的数据；

所述光流通道、图像通道和行人定位通道的第二层网络分别包括两个二维卷积层和两个下采样层；所述光流通道、图像通道和行人定位通道的第二层网络中，二维卷积层采用数量为n、尺度为cw*ch的卷积核分别对第一层网络输入的三个通道的数据进行卷积运算，下采样层采用尺度为pw*ph的采样核对二维卷积层的输出进行最大池化；

所述光流通道、图像通道和行人定位通道的第三层网络分别包括两个二维卷积层和两个下采样层；所述光流通道、图像通道和行人定位通道的第三层网络中，二维卷积层用于对第二层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述光流通道、图像通道和行人定位通道的第四层网络分别包括两个二维卷积层和两个下采样层；所述光流通道、图像通道和行人定位通道的第四层网络中，二维卷积层用于对第三层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述光流通道和图像通道共有的第五层网络以及行人定位通道的第五层网络分别包括一个二维卷积层和一个下采样层；所述光流通道和图像通道共有的第五层网络中，二维卷积层用于对光流通道和图像通道的第四层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化；所述行人定位通道的第五层网络中，二维卷积层用于对行人定位通道的第四层网络的输出进行卷积运算，下采样层用于对二维卷积层的输出进行最大池化；

所述第六层网络包括一个二维卷积层和一个下采样层；所述第六层网络中，二维卷积层用于对光流通道和图像通道共有的第五层网络的输出以及行人定位通道的第五层网络的输出进行合并与卷积运算，下采样层用于对二维卷积层的输出进行最大池化及分支处理，得到感兴趣分支和映射分支；

所述行人定位通道的第七层网络为感兴趣生成网络，用于对感兴趣分支的数据进行感兴趣区域划分及定位框的回归定位；所述光流通道和图像通道共有的第七层网络为全连接层，用于对映射分支的数据进行特征向量空间的映射；

所述光流通道和图像通道共有的第八层网络以及行人定位通道的第八层网络均为全连接层，用于对第七层网络的输出进行特征向量空间的映射；

所述光流通道和图像通道共有的第九层网络以及行人定位通道的第九层网络均为全连接层，用于对第八层网络的输出进行特征向量空间的映射。

2.根据权利要求1所述的行为识别及定位方法，其特征在于，所述行为识别卷积神经网络的第五层网络中，对光流通道和图像通道的第四层网络的输出进行合并的公式为：

U_map＝0.5×O_map+0.5×P_map (1)

其中O_map表示光流通道的第四层网络输出的特征，P_map表示图像通道第四层网络输出的特征，U_map表示两通道合并后的特征。

3.根据权利要求1所述的行为识别及定位方法，其特征在于，所述步骤S2包括以下分步骤：

S21、加载标注了类别信息的人体行为识别数据集；

S22、对人体行为识别数据集中的每一个视频进行单帧图片提取及稠密光流提取，分别得到图片数据和光流数据；

S23、将图片数据和光流数据分别作为图像通道和光流通道的输入，加载到行为识别卷积神经网络中；

S24、根据网络参数计算数据特征，并将两个通道的数据特征在第五层网络的二维卷积层进行合并，并以一条通道进行前向传播；

S25、将第九层网络的输出接入softmax进行类别标签确定；

S26、判断类别标签输出结果与输入真实标签的误差是否小于阈值，若是则进入步骤S27，否则将输出结果与输入真实标签的误差值反向传导进入行为识别卷积神经网络，并调整网络参数，返回步骤S23；

4.根据权利要求3所述的行为识别及定位方法，其特征在于，所述步骤S22具体为：

对人体行为识别数据集中的每一个视频，首先随机提取视频长度范围内的一帧图片，保留RGB分量作为图片数据，然后对视频进行稠密光流提取，并对其进行归一化，得到光流数据；所述归一化的公式为：

其中X_or为数据矩阵中原始值，O_min为光流矩阵元素最小值，O_max为光流矩阵元素最大值，X_norm为归一化后的矩阵元素值。

5.根据权利要求1所述的行为识别及定位方法，其特征在于，所述光流通道、图像通道和行人定位通道的第一层网络中对数据进行归一化的公式为：

其中X_or为数据矩阵中原始值，Q_min为光流矩阵、图片矩阵或行人定位矩阵的元素最小值，Q_max为光流矩阵、图片矩阵或行人定位矩阵的元素最大值，X_norm为归一化后的矩阵元素值；

所述光流通道和图像通道共有的第五层网络中对第四层网络的输出进行合并的公式为：

U_map＝W₁×O_map+W₂×P_map (4)

其中O_map表示光流通道的第四层网络输出的特征，P_map表示图像通道第四层网络输出的特征，U_map表示两通道合并后的特征，W₁、W₂为权值且W₁+W₂＝1；

所述第六层网络中对第五层网络的输出进行合并的公式为：

V_map＝W₃×U_map+W₄×S_map (5)

6.根据权利要求1所述的行为识别及定位方法，其特征在于，所述感兴趣生成网络包括二维卷积层和roi下采样层，其输入数据，即感兴趣分支的数据包括第六层网络的二维卷积层合并得到的特征图以及感兴趣生成网络可能存在人体的矩形框，其输出数据为batch个特征向量，batch为感兴趣生成网络可能存在人体的矩形框个数。

7.根据权利要求1所述的行为识别及定位方法，其特征在于，所述步骤S4包括以下分步骤：

S41、加载行人定位数据集，并对其进行预处理，得到行人定位数据；

S42、加载从人体行为识别数据集中提取的图片数据和光流数据，并做预处理；

S43、将步骤S2得到的行为识别训练权值模型导入行为识别及行为定位多任务联合学习深度网络；

S44、将图片数据、光流数据以及行人定位数据分别输入行为识别及行为定位多任务联合学习深度网络；

S45、在感兴趣生成网络中对数据进行卷积池化，进行回归分析提取出感兴趣框；

S46、对步骤S45提取出的感兴趣框和原数据标注框求误差，得到框误差；

S47、将全连接层输出的数据接入softmax进行类别标签确定，并计算类别标签输出结果与输入真实标签的误差，得到标签误差；

S48、若框误差和标签误差的其中之一大于阈值，则将大于阈值的误差反向传到进行为识别及行为定位多任务联合学习深度网络，返回步骤S44，否则进入步骤S49；

8.根据权利要求7所述的行为识别及定位方法，其特征在于，所述步骤S5包括以下分步骤：

S51、截取待识别及定位的视频中的一帧图片，进行归一化处理后分别输入行为识别及行为定位多任务联合学习深度网络的图像通道和行人定位通道；

S52、提取待识别及定位的视频中的稠密光流并输入行为识别及行为定位多任务联合学习深度网络的光流通道；

S53、将步骤S4得到的多任务联合学习深度网络权值模型文件加载到行为识别及行为定位多任务联合学习深度网络中；

S54、在行为识别及行为定位多任务联合学习深度网络中进行前向传导运算，输出人体定位信息及行为识别信息；

S55、根据行为识别信息判断是否有人体行为发生，若是则进入步骤S56，否则返回步骤S51；