CN110427807B

CN110427807B - 一种时序事件动作检测方法

Info

Publication number: CN110427807B
Application number: CN201910541650.XA
Authority: CN
Inventors: 韩红
Original assignee: Zhuji Sikuo Information Technology Co ltd
Current assignee: Zhuji Sikuo Information Technology Co ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-11-15
Anticipated expiration: 2039-06-21
Also published as: CN110427807A

Abstract

本发明公开了一种一种时序事件动作检测方法，以整段视频中每个视频帧作为关键帧，选取前后或者附近相互关联的时序片段，根据所选时序片段长度，搭建3D卷积神经网络，保证3D卷积网络输出为2D动作特征图，忽略时序关联片段的微小位移变化，假设与关键帧位置大致相同，通过候选区域网络在动作特征图上找到关键帧的候选预测框，锁定动作范围大小后，将相应的动作特征选出，经过ROI Align归一化为相同尺寸大小，送入Faster RCNN的分类和回归网络中，得到最后所需的动作检测结果，对时序事件中动作特征建模，用3DCNN提高Faster RCNN中RPN提取候选区域所用动作特征质量，进而提高动作检测回归的准确率，之后用于FasterRCNN中动作识别，也能提高动作检测分类的准确率。

Description

一种时序事件动作检测方法

技术领域

本发明涉及火灾救援领域，尤其涉及时序事件动作检测方法。

背景技术

时序事件中动作识别是时序事件中动作检测和时序事件中动作提名的基础，作为最早的重要研究方向，其结果好坏直接对后续任务产生重要影响。而且动作识别应用最为广泛，如视频监控、短视频推荐和视频自动检索等都和它有着密不可分的联系。

时序事件动作检测是建立在动作识别的基础上，进一步分析时序事件中人物动作位置信息的任务，大多数目标检测模型都是以图像特征为基础，现有动作检测方法中采取多个图像帧分别提取特征再合并建模的比较多，这几年在目标检测技术的支持和硬件计算能力提升的条件下，计算机视觉中动作识别领域的研究也有了相应的新方向，就是动作检测。但是由于是起步阶段，故对于动作检测的研究相对保守，大多方法还停留在多帧的输入条件下，借助处理单张图像的卷积神经网络和目标检测框架来融合多个视频帧特征，而这种方法效果自然一般，并没有很好的利用时序事件的特点。

发明内容

本发明提供时序事件动作检测方法，包括：

将输入视频转化为视频帧后，找到该关键帧的时序关联片段，选择3D卷积神经网络进行时序建模提取关键帧前后的动作特征；

获取了关键帧的时续关联片段特征后，利用RPN网络中动作特征提出候选区域；

对候选区域进行动作识别；

生成UCF24数据集；

处理UCF24数据集，经过筛选简化后，进行实验并对结果分析。

可选地，上述所述的提取关键帧前后的动作特征具体的包括，将输入视频转化为视频帧后，以每一个视频帧为关键帧，做研究对象，先找到该关键帧的时序关联片段，以获得上下文信息，确定时序关联片段长度后，以关键帧为中心，找到前后对应一半长度的开始帧和结束帧，从而确定时序关联片段，如果关键帧本身靠近开始帧或者结束帧，导致时序关联片段长度不够时，则需要重复堆叠开始帧或者结束帧，以保证统一的时序关联片段长度，方便3D卷积神经网络提取相应的动作特征，选择3D卷积神经网络进行时序建模，使用3D卷积神经网络提取提取关键帧时序关联片段的动作特征，对该时序片段预处理。

可选的，上述所述的获取了关键帧的时续关联片段特征后，利用动作特征提出候选区域，利用RPN网络中动作特征提名候选区域的具体操作是：先生成锚框，再经过非极大值抑制算法，从这些候选提名中选取置信度相对较高的 2000个提名。

可选的，上述所述的对候选区域进行动作识别具体包括利用conv5层的2D 残差块对动作特征建模，通过多分类交叉熵得到动作类别，对于候选区域的位置信息利用样本真实标注框和smooth1L函数回归，精确定位，并再次通过非极大值抑制算法，在IOU为0.6的条件下，得到最后动作检测结果，完成整个端到端的网络搭建。

可选的，处理UCF24数据集，经过筛选简化后，对基于P3D和Faster RCNN网络的动作检测算法进行实验，对比基础算法，分析优劣，得出结果。

本发明提供的一种时序事件动作检测方法有益效果如下：

用3DCNN提高Faster RCNN中RPN提取候选区域所用动作特征质量，进而提高动作检测回归的准确率，之后用于FasterRCNN中动作识别，也能提高动作检测分类的准确率。

附图说明

图1为本发明一实施例提供的一种时序事件动作检测方法的动作检测框架示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供时序事件动作检测方法，下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

一种时序事件动作检测方法包括：

对候选区域进行动作识别；

生成UCF24数据集；

在本实施例中，上述所述的提取关键帧前后的动作特征具体的包括，将输入视频转化为视频帧后，以每一个视频帧为关键帧，做研究对象，先找到该关键帧的时序关联片段，以获得上下文信息，确定时序关联片段长度后，以关键帧为中心，找到前后对应一半长度的开始帧和结束帧，从而确定时序关联片段，如果关键帧本身靠近开始帧或者结束帧，导致时序关联片段长度不够时，则需要重复堆叠开始帧或者结束帧，以保证统一的时序关联片段长度，方便3D卷积神经网络提取相应的动作特征，选择3D卷积神经网络进行时序建模，P3D 网络将3D卷积拆分成2D+1D后，可以有效的对关键帧及其前后帧建模，相当于在2D图像特征的基础上，通过1D时序建模，找到了特征之间的关联输出，而且P3D网络正好是以ResNet网络为基础，其中conv2_x、conv3_x和 conv4_x为3D卷积，conv5_x为2D卷积，说明conv4_x输出可以转化为 2D特征图，正好可以方便的结合Faster RCNN网络中的RPN网络，共享动作特征，使得候选区域选取更加准确，后续动作识别精度更高，使用3D卷积神经网络提取提取关键帧时序关联片段的动作特征，将时序分割采样得到固定长度为16的片段不同，选取时序关联片段长度t作为参数,如果t＝16,则直接提取P3D网络conv4输出特征；如果t<16,则减少前面几层卷积后的池化层，如果t>16，则在conv4后面增加池化层，以保证送入关键帧RPN网络的动作特征是2D卷积特征图。以t＝16为例，具体过程是以关键帧为中心选取前7 帧和后8帧视频帧，共同组成时序关联片段，对该时序片段预处理，将其中视频帧按照短边缩放到600的大小，之后水平翻转做数据增强，这里不需要固定视频帧空间尺寸大小，是因为后续ROI pooling可以进行特征的归一化，再送入P3D199卷积神经网络中，直接提取conv4卷积特征作为动作特征即可。这个动作特征是RPN网络和Faster RCNN网络共享特征，对整个动作检测效果影响很大。

在本实施例中，上述所述的获取了关键帧的时续关联片段特征后，利用动作特征提出候选区域，利用RPN网络中动作特征提名候选区域的具体操作是：先生成锚框，锚框的三个比例为[0.5,1,2]，尺寸大小为[4,8,16,32],所以总共有12 中大小的锚框，主要是针对动作识别中的小目标问题。上一章提到，很多场景下由于动作目标人物太小，容易受到环境因素干扰，如果不设置小尺寸的锚框，很可能出现漏检的情况。滑动窗口大小为3*3，步长为1，周围补0，又因为 P3D网络conv4层输出为1024维特征向量，故此处中间层输出512维特征向量。之后经过两个1*1卷积操作输出24个二分类分数判断有误动作，以及 48个坐标相关参数判断关键帧具体的动作位置。损失函数采用了多个任务分别单独计算的方法，用二分类交叉熵损失来建模分类任务，用smooth1L损失来建模回归任务，为避免样本不均衡造成问题，选取正负样本时保持1：1比例，在所有锚框中选择128个正样本和128个负样本，共256个锚框，通过RPN 网络就可以得到12000候选区域提名，再经过非极大值抑制算法，从这些候选提名中选取置信度相对较高的2000个提名。

在本实施例中，上述所述的对候选区域进行动作识别具体包括利用conv5 层的2D残差块对动作特征建模，通过多分类交叉熵得到动作类别。对于候选区域的位置信息利用样本真实标注框和smooth1L函数回归，精确定位，并再次通过非极大值抑制算法，在IOU为0.6的条件下，得到最后动作检测结果，整个端到端的网络搭建完成了；

上述描述中，由于Faster RCNN和RPN网络共享动作特征，所以对于候选区域可以直接在RPN网络中特征经过ROI Align归一化固定尺寸后直接识别，由于P3D卷积神经网络的conv4层已经输出了卷积特征，只能通过conv5层可以用于动作识别，Faster RCNN训练采用交叉训练，先训练RPN，再用候选区域训练Fast RCNN，交叉迭代训练，相互更新权重。而本章采取近似联合训练，由于已经将两者合并搭建端到端网络，所有很方便可以直接把RPN输出的候选提名区域固定给Fast RCNN训练，最后同时更新权重。

在本实施例中，UCF24是UCF101子集，一共包含24种动作，分别是 Basketball、BasketballDunk、Biking、CliffDiving、CricketBowling、Diving、Fencing、FloorGymnastics、GolfSwing、HorseRiding、IceDancing、LongJump、PoleVault、RopeClimbing、SalsaSpin、SkateBoarding、Skiing、Skijet、SoccerJuggling、Surfing、TennisSwing、TrampolineJumping、VolleyballSpiking和WalkingWithDog。其中 UCF101动作识别数据集2012年由Khurram Soomro等人提出，UCF101数据集从Youtube视频网站下载，帧率为25fps，是取材自生活中大量的真实人体动作视频包含101类，每类动作视频至少有100个，每类动作都有25个不同的人在不同环境下做4-7组。视频总数为13320个，需要超过27小时播放时间，平均每个视频长度为7s，最短为1s，最长为71s。

在本实施例中，处理UCF24数据集，经过筛选简化后，对基于P3D和 Faster RCNN网络的动作检测算法进行实验，对比基础算法，分析优劣，具体包括：

调试实验环境，采用了Pytorch 0.3.1深度学习框架，在基于Ubuntu16.04 的x86_64操作系统，Intel(R)Xeon(R)CPU E5-2620 v4@2.10GHz、64G RAM、 1080Ti GPU的运行环境下进行实验；

进行实验并对结果分析，按照UCF101中划分数据集列表，将UCF24数据集分为训练集和测试集，由于研究对象是视频关键帧，故按照原始帧率25fps 的条件提取数据集视频关键帧，得到训练集316926个关键帧，测试集129168 个关键帧。这些关键帧来自UCF24中四大类动作中的24种不同动作，且每个动作在不同场景下有多个视频数据。为了得到每个关键帧的位置信息标注，需要先解析XGTF文件，本实验前已经把XGTF文件的坐标位置标注转化为 VOC数据集的格式，并保存为python方便读取的pkl二进制序列文件格式。

联合训练基于P3D和Faster RCNN网络的步骤如下：

首先制作迭代需要的数据集，对训练列表中的视频关键帧，加载pkl文件后找到相应的标注标注信息，包括开始帧索引、动作位置真实框左上角坐标和真实框宽高、动作分类等。由于运算量大，计算能力有限，训练1个epoch的数据需要2天时间，故最多选取关键帧时序关联片段长度t＝8，读取关键帧前后的视频帧，堆叠成视频片段，长度不足的用开始帧和结束帧补充，之后预处理视频片段图像，统一按照短边缩放到600大小，限制图像最大尺寸为1000，翻转图像来做数据增强。将随机打乱顺序的预处理好的关键帧时序关联时序送入P3D199卷积神经网络中，此处由于时序关联片段长度t＝8，小于16，去除P3D199的conv4前面的max pooling，输出conv4卷积特征图，通道数为 1024，作为动作特征。然后送入RPN网络中，得到动作区域提名，用ROI Align 归一化不同大小输入图像的特征尺寸为7，将归一化后的动作特征送入 P3D剩下的conv5卷积层，均值池化后转化为2048维动作特征向量，最后用这个动作描述子输出24个动作分类，并再次精确动作区域的位置，输出四个坐标。这里，有不同于Faster RCNN中输出96个坐标的情况，由于只关注人物动作范围，故认为一般条件下，坐标是和动作类别无关的。

训练参数设定如下：

batch size为3,学习率开始为0.0001，每迭代4个epoch缩小10倍，一共迭代6个epoch，优化算法是带有动量项的SGD算法，动量大小为0.9，其余基本参数和Faster RCNN保持一致。

测试整个网络：

由于训练采取了联合训练的方式，故保存的是整个网络的模型参数，训练时直接加载即可。用上述同样的方法处理视频关键帧后送入网络中，输出最多 6000个预测动作区域位置和相应的24种动作分类的置信度。对于每一个动作类别，通过NMS算法保留最多300个预测动作区域位置，其中NMS的IOU 阈值设为0.6。最后将所有类别对于所有关键帧的预测结果保存下来，通过mAP 来评价这个预测结果。

mAP是目标检测任务中常用的评价指标，也是公认最有权威的评价标准。这里，针对关键帧动作检测，同样采用mAP来评价。mAP是指各个类别的平均AP结果。所以重点讨论一下针对每个类别AP的计算。一般说来，通过计算P-R曲线的面积可以得到。而P-R曲线设计两个重要的评价指标，查准率 Precision和召回率Recall。

查准率是针对预测结果中预测结果为正样本的个数占预测的正样本总数的比例，即表示预测结果的正确性，如下式：

TP表示预测真正正样本个数，FP表示预测错误正样本个数，TP+FP表示预测正样本总数。

召回率是针对样本自身中被预测为正样本个数占总共实际正样本个数，即表示正样本中有多少被找到，如下式：

TP表示预测真正正样本个数，FN表示没有被预测真正正样本个数，TP +FN表示总共实际正样本个数。

上述提到的P3D网络结构不是直接用来对视频片段进行识别分类，而是作为中间层来提取视频分割采样后的视频片段的特征。P3D199网络结构里，conv2 中有3个P3D残差块，conv3中有8个P3D残差块，conv4中有36个P3D 残差块,conv5中有3个普通残差块。假设输入视频片段长度为16，预处理视频片段，对其中所有的视频帧RGB图像进行统一的随机缩放、裁剪、翻转和归一化，将视频片段中每个视频帧RGB图像的像素大小调整为160*160，送入P3D199卷积神经网络中，选择卷积层conv5作为特征输出，即可得到视频片段的卷积特征图表示，其具体结果是通道数为2048的5*5像素大小的卷积特征图

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种时序事件动作检测方法，其特征在于，所述方法包括：

将输入视频转化为视频帧后，找到关键帧的时序关联片段，选择3D卷积神经网络进行时序建模提取关键帧前后的动作特征；

所述的提取关键帧前后的动作特征具体的包括：

将输入视频转化为视频帧后，以每一个视频帧为关键帧，做研究对象，先找到该关键帧的时序关联片段，以获得上下文信息，确定时序关联片段长度后，以关键帧为中心，找到前后对应一半长度的开始帧和结束帧，从而确定时序关联片段，如果关键帧本身靠近开始帧或者结束帧，导致时序关联片段长度不够时，则需要重复堆叠开始帧或者结束帧，以保证统一的时序关联片段长度，方便3D卷积神经网络提取相应的动作特征，选择3D卷积神经网络进行时序建模，使用3D卷积神经网络提取关键帧时序关联片段的动作特征，对该时序片段预处理；

所述的获取了关键帧的时续关联片段特征后，利用动作特征提出候选区域，利用RPN网络中动作特征提名候选区域的具体操作是：先生成锚框，再经过非极大值抑制算法，从这些候选提名中选取置信度相对较高的2000个提名；

对候选区域进行动作识别；

所述的对候选区域进行动作识别具体包括利用conv5层的2D残差块对动作特征建模，通过多分类交叉熵得到动作类别，对于候选区域的位置信息利用样本真实标注框和smooth1L函数回归，精确定位，并再次通过非极大值抑制算法，在IOU为0.6的条件下，得到最后动作检测结果，完成整个端到端的网络搭建；

生成UCF24数据集；

2.根据权利要求1所述的一种时序事件动作检测方法，其特征在于：处理UCF24数据集，经过筛选简化后，对基于P3D和Faster RCNN网络的动作检测算法进行实验，对比基础算法，分析优劣，得出结果。