CN109947986A

CN109947986A - 基于结构化分段卷积神经网络的红外视频时序定位方法

Info

Publication number: CN109947986A
Application number: CN201910203219.4A
Authority: CN
Inventors: 吴雪平; 瞿斌杰; 孙韶媛; 黄荣; 刘浩
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-28

Abstract

本发明提供了一种基于结构化分段卷积神经网络的红外视频时序定位方法，首先构建涉及人身安全的红外视频人体行为数据集，将红外视频分成长红外视频和短视频片段；然后构建时空双流卷积神经网络，将待测试的长红外视频经处理后输入时空双流卷积神经网络，得到长红外视频中每一帧图像是一个动作的概率值；再构建时序动作聚类模型，得到红外视频的建议动作视频片段；最后构建结构化时序金字塔模型，输出针对每一个长红外视频最终预测的动作视频片段，包括预测的行为动作类别以及该动作在原始长红外视频中的开始和结束时间。本发明通过端到端的深度学习方法，提高了红外视频时序行为定位的均值平均准确率，同时大幅降低了人工操作的复杂度。

Description

基于结构化分段卷积神经网络的红外视频时序定位方法

技术领域

本发明属于红外视频处理技术领域，具体涉及一种能够进行红外视频时序定位的方法，通过本方法可对一段可能包含多个人体行为动作的长视频准确给出每一个动作所属的动作类别以及其在原视频中的开始时间和结束时间。

背景技术

近年来，视频数据随着网络和通信技术的发展正在快速增长，视频与图像的应用也越来越广泛。视频应用每时每刻所产生的海量视频数据，目前已约占通讯数据量的80％。因此如何使用计算机来代替人力去挖掘出视频数据中的有效价值已经成为了大家十分关心的问题，同时视频大数据存在的数据维度多、数据量大、非结构化等问题，使得计算机能够像人一样真正地对视频进行有效分析依然十分困难。

视频分析最大的价值在于，大量的高质量的视频数据可以帮助计算机学习视频中人类的活动，从而使得计算机能够真正地理解人类行为并进一步与人类进行互动。该技术在安防监控等领域具有巨大的应用价值。视频时序行为定位的目标是从一段未分割过的可能非常长的包含多个人体行为动作的视频中定位人体行为动作的视频片段。相比于视频行为识别的任务，其难度相对更大，因为除了要识别出视频中有哪些人体行为动作，而且还要给出每一个人体行为动作在视频中的开始时间和结束时间。

由于深度学习目前在视频人体行为识别任务中取得了非常好的效果，因此视频时序行为定位算法目前基本都是基于深度学习的方法实现。目前的视频时序行为定位算法主要有两类。

第一类方法是借鉴于目标检测任务中的方法，即先提取目标建议框，然后进行分类和回归操作。Shou等[Z.Shou,D.Wang,and S.-F.Chang.Temporal action localizationin untrimmed videos via multi-stage CNNs.In CVPR,pages 1049–1058,2016.1]提出了将不同尺寸大小的滑窗以一定的重叠度去选取视频片段，然后再对视频片段进行识别判断。这种方法只要滑窗尺寸足够多，重叠度足够高，效果会较好，但是相应的计算量也会更大。Gao等[Gao,Jiyang,et al."Turn tap:Temporal unit regression network fortemporal action proposals."Proceedings of the IEEE International Conferenceon Computer Vision.2017.]针对滑窗过多导致的计算量过大问题，将视频分为等长短单元，如16帧图像序列为一个单元，通过C3D网络学习单元水平特征，然后将每组或者多组单元作为中心向两端扩展来找不同的视频人体行为动作片段。除了一开始就对视频进行划分单元之外，Xiong等[Xiong Y,Zhao Y,Wang L,et al.A pursuit of temporal accuracyin general activity detection[J].arXiv preprint arXiv:1703.02716,2017.]则是尝试先对视频的每一帧进行分类，然后将相邻的相同类别的图像组合在一起形成新的视频片段，然后再对该视频片段进行识别判断动作类别，这种视频片段的提出方法相对则更加合理和有效。

第二类是不用先去寻找可能的人体动作视频片段，而是设计一个网络结构可以直接得到视频时序行为定位的视频片段。Shou等[Shou,Zheng,et al."Cdc:Convolutional-de-convolutional networks for precise temporal action localization inuntrimmed videos."Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017.]通过3D卷积-反卷积神经网络，通过直接对原始视频进行空间下采样的同时，再对特征进行时域上的上采样，使得最终得到的结果与原始视频的时间长度一致，这样就可以直接根据结果对视频人体行为动作进行定位。Yeung等[S.Yeung,O.Russakovsky,G.Mori,and L.Fei-Fei.End-to-end learning of action detectionfrom frame glimpses in videos.In CVPR,pages 2678–2687,2016.1.]将原始视频输入循环神经网络中，通过不断地观察每一帧的结果，来判断是否是某一个动作的开始时间或者是结束时间。相比于第一类方法，第二类方法由于不需要进行视频片段建议的步骤，算法速度快很多，而且直接针对每一帧进行预测，相对第一类方法也更加合理和有效。然而第二类直接得到行为动作视频片段的方法对算法网络的要求都较高，难度极大，因此目前更多的算法主要还是采用第一类启发式的算法来分阶段识别长视频中包含人体行为动作的视频片段。

发明内容

本发明要解决的技术问题是：如何准确地得到一个长视频中包含的人体行为动作类别以及每一个动作在视频中的开始时间和结束时间。

为了解决上述技术问题，本发明的技术方案是提供一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于，包括如下步骤：

步骤1：构建涉及人身安全的红外视频人体行为数据集；所述红外视频人体行为数据集中的每一个红外视频应包括多个人体行为动作视频片段，并将每一个红外视频中包含的人体行为动作以及所述人体行为动作在所述红外视频中的开始时间和结束时间记录下来作为所述红外视频的标签；

步骤2：将所述红外视频按照包含的动作类别个数分成长红外视频和短视频片段；长红外视频先划分成包含人体行为动作的长度在设定范围内的短视频片段，然后将短视频片段转化为对应的灰度图片以及相应的关于横轴和纵轴方向上的光流图片，并将所得图片分为训练集和测试集；

步骤3：构建并训练好时空双流卷积神经网络，所述时空双流卷积神经网络由两条网络流构成：第一条网络流的输入是所述灰度图片和所述光流图片，第二条网络流的输入是所述光流图片；所述时空双流卷积神经网络的输出是每一个短视频片段或者长红外视频中每一帧图像是一个动作的概率值；

步骤4：将待测试的长红外视频经步骤2处理后输入所述步骤3构建并训练好的时空双流卷积神经网络，得到长红外视频中每一帧图像是一个动作的概率值；

步骤5：构建时序动作聚类模型，得到红外视频的建议动作视频片段；

由于已经知道了长红外视频每一帧图像是动作的概率值，因此时间上连续并且是动作的概率值越接近的视频图像属于一个动作类别视频片段的概率就越大；因此所述时序动作聚类模型设置了阈值，将低于所述阈值的视频片段全部找到，再通过非极大值抑制得到所述长红外视频的建议动作视频片段；

步骤6：构建并训练好结构化时序金字塔模型，所述结构化时序金字塔模型的输入是一段原始长红外视频和由时序动作聚类模型得到的一系列建议动作视频片段，所述结构化时序金字塔模型的输出是针对每一个长红外视频最终预测的动作视频片段，包括预测的行为动作类别以及该动作在原始长红外视频中的开始和结束时间。

优选地，所述步骤1中，所述红外视频人体行为数据集包括常规的人体行为以及常见的可能危害到人身安全的人体行为动作。

优选地，所述步骤2中，只包含一个动作类别的视频为短视频片段，包含两个及以上动作类别的视频为长红外视频。

优选地，所述步骤2中，由于每一个短视频片段中只包含一个动作类别，因此所述短视频片段的动作类别即为其标签。

优选地，所述步骤3中，所述两条网络流的基网络相同，均为BN Inception深度卷积神经网络。

优选地，所述步骤3中，将每一个短视频片段得到的灰度图片和光流图片输入时空双流卷积神经网络，并且短视频片段的动作类别作为标签来训练该时空双流卷积神经网络，最终训练好的时空双流卷积神经网络能够对每一个短视频片段或者长红外视频中的每一帧图像进行动作分类。

优选地，所述步骤6中，先将每一个建议动作视频片段视做“真实视频片段”的中间过程，进行左右扩展从而获得“真实视频片段”的开始阶段和结束阶段；然后再将扩展后的建议动作视频片段输入结构化时序金字塔模型，得到扩展后的视频特征；最后将使用动作分类和时间位置回归的联合损失函数分别学习扩展后的视频特征，得到最终预测的带有动作类别的完整的视频片段。

本发明通过时空双流卷积神经网络，充分利用视频的空间图像信息和图像帧间的运动信息，来对人体行为动作进行分类。同时提供了一种结构化分段卷积神经网络，先通过时空双流卷积神经网络和时序动作聚类模型得到针对该长视频的高质量的可能的动作视频片段，然后再将建议动作视频片段输入结构化分段卷积神经网络进行动作分类以及视频时间位置回归，从而得到对该视频预测的所有动作视频片段。

相比现有技术，本发明提供的基于结构化分段卷积神经网络的红外视频时序定位方法具有如下有益效果：

1、通过构建时空双流卷积神经网络，充分利用了视频图像和视频光流图像的信息对视频特征进行学习，从而可以对视频图像是否是动作进行准确的判断。

2、通过构建时序动作聚类模型可以得到针对该视频的高质量的可能的动作视频片段。

3、将高质量的建议动作视频片段输入结构化分段卷积神经网络进行动作分类以及视频时间位置回归，从而得到对该视频预测的所有动作视频片段，准确地得到一个长视频中包含的人体行为动作类别以及每一个动作在视频中的开始时间和结束时间。

4、本发明可用于视频智能监控、智能人机交互、虚拟现实等诸多设计视频监控领域，通过端到端的深度学习方法，提高了红外视频时序行为定位的均值平均准确率，同时大幅降低了人工操作的复杂度。

附图说明

图1为本实施例提供的基于结构化分段卷积神经网络的红外视频时序定位方法流程图；

图2为双流卷积神经网络结构图；

图3为空间卷积网络结构图；

图4为时序动作聚类模型图；

图5为结构化分段卷积神经网络模型结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。

图1为本实施例提供的基于结构化分段卷积神经网络的红外视频时序定位方法流程图，所述的基于结构化分段卷积神经网络的红外视频时序定位方法包括如下步骤：

步骤1：首先构建了一个红外视频时序行为定位数据集，该数据集共包含23个人体行为动作。共有120个视频数据集，其中训练集有100个视频，测试集有20个视频。由于一个长视频中可能包含多个人体行为动作的视频片段，本数据集一共定义了5类长度的视频数据集，长度分别为：2,3,4,5,6。即一个视频中可能包含2个人体动作短片段或者6个人体动作短片段。其中每个类别长度的视频共有20个，因此5个类别长度的所有视频组合成了本文的100个训练集的视频时序行为定位数据集。同理，本文的测试集中每个类别长度的视频共有4个，因此5个类别长度的视频组合成了本文的20个测试集的视频时序行为定位数据集。具体的23个动作类别见表1：

表1：红外人体行为数据集类别

类别：	拍手	握手	拥抱	慢跑	双脚跳	拳击	推	单脚跳
									标签：	0	1	2	3	4	5	6	7
类别：	走路	单手挥	双手挥	报警	递东西	拿棍棒	摔倒	打架
									标签：	8	9	10	11	12	13	14	15
类别：	掐脖子	用棍打	拽头发	下跪	晕倒	抢劫	扇耳光
									标签：	16	17	18	19	20	21	22

该数据集是第一个涉及人身安全的红外人体行为数据集，包含11个基本人体行为动作：拍手，握手，拥抱，慢跑，双脚跳，拳击，推，单脚跳，走路，单手挥舞，双手挥舞；包含8个涉及危害到人身安全的红外人体行为动作：打架，用棍棒等武器打人，拽头发，下跪，晕倒不起，抢劫，扇耳光；以及4个相对应的不涉及人身安全，仅作为对比干扰的红外人体行为动作：报警动作，正常地递东西，正常地拿着棍棒等武器，摔倒。

步骤2：构建并训练时空双流卷积神经网络，输入是将长视频分割后的仅包含一个动作类别的视频片段，并将该短视频的动作类别作为标签。

如图2所示，将原始输入视频平均分为K个部分，针对每个部分的视频，将刚刚得到的增强过后的灰度图片和光流图片输入双流卷积网络，通过卷积神经网络的正向传递得到分类结果。然后将K个部分得到的K个结果进行平均，从而得到最终的预测分类值。然后将其与视频的真实标签求差值，再根据差值来对整个网络进行反向传播，从而来训练整个网络，最终找到最佳的识别网络的模型参数。

本发明使用的双流网络的基础网络是BN Inception深度卷积网络。卷积神经网络f都可以看作是一系列的卷积、激励和池化的过程。假设深度卷积神经网络f，参数为W，W_L为l层的参数，X为l层卷积层的输入，则f的数学表达式为：

f(X；W)＝W_LX

其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，relu()表示激励操作。池化操作将小邻域内的特征点整合得到新特征，使得特征减少，参数减少，且池化单元具有平移不变性。池化的方法主要包括平均-池化和最大值-池化，本发明主要采用最大值-池化操作。

2.1：BN Inception卷积神经网络

本发明所使用的基础网络是BN Inception卷积神经网络，是目前深度卷积神经网络中常用的基础网络。网络的详细配置如表2所示：

表2 BN Inception网络结构参数配置

(1)输入一幅224×224×3的夜视图像，通过卷积核大小为7×7的Conv1卷积层，再经过池化层pool1，输出为56×56×64的特征图；

(2)将(1)中得到的特征图通过卷积核大小为3×3的Conv2卷积层，再经过池化层pool2，输出为28×28×192的特征图；

(3)将(2)中得到的特征图通过Inception(3a)层后，输出为28×28×256的特征图；

(4)将(3)中得到的特征图通过Inception(3b)层后，输出为28×28×320的特征图；

(5)将(4)中得到的特征图通过Inception(3c)层后，输出为28×28×576的特征图；

(6)将(5)中得到的特征图通过Inception(4a)层后，输出为14×14×576的特征图；

(7)将(6)中得到的特征图通过Inception(4b)层后，输出为14×14×576的特征图；

(8)将(7)中得到的特征图通过Inception(4c)层后，输出为14×14×576的特征图；

(9)将(8)中得到的特征图通过Inception(4d)层后，输出为14×14×576的特征图；

(10)将(9)中得到的特征图通过Inception(4e)层后，输出为14×14×1024的特征图；

(11)将(10)中得到的特征图通过Inception(5a)层后，输出为7×7×576的特征图；

(12)将(11)中得到的特征图通过Inception(5b)层后，输出为7×7×1024的特征图；

(13)将(10)中得到的特征图通过池化层pool3层后，输出为1×1×1024的特征图；

(14)将(11)中得到的1024维特征向量经过两层全连接层之后，再经过一层Softmax层之后，便可以得到每个视频的分类结果。

2.2：空间卷积神经网络

如图3所示，空间卷积网络由2条网络流组成，这两条网络均是由BN Inception基础网络所成，并且各自的输入为灰度图片(224×224×3)和对应的光流图片(224×224×3)。

由于红外视频得到的灰度图片所得到的空间信息有限，因此空间卷积神经网络，采用了融合灰度图片的空间信息和光流图片的帧间信息来更好地对灰度图片进行特征提取。

如图3所示，空间卷积神经网络，在两个网络流的3c层、4e层、5b层处，将两条网络所得到的28×28×576、14×14×1024以及7×7×1024的特征进行相加，从而使得网络在学习过程中，不断地学习空间信息和对应光流信息的特征表示，最终再输出两层全连接层，通过Softmax层后得到对视频分类结果。

2.3：时间卷积神经网络

时间卷积神经网络的输入是10张光流图片(224×224×10)，所使用的基础网络仍然是BN Inception卷积神经网络。时间卷积神经网络仅考虑视频图像的帧间信息，因而采用了10张光流图片作为输入，其中这10张光流图片来自于原视频的5张图，每张图各有横轴方向和纵轴方向的两张光流图。

将10张光流图片输入网络，通过迭代学习，可以得到时间卷积神经网络对原视频的特征学习，最终再输出两层全连接层，通过Softmax层后得到对视频的分类结果。

最后将得到的空间卷积神经网络和时间卷积神经网络的类别分数，进行加权求和的方式，最终得到整个双流网络对原视频类别的分类。

步骤3：通过步骤2中构建的时空双流卷积神经网络对长视频的每一帧图像进行动作判断，判断该帧图像是否是一个动作类别。然后如图4所示，构建一个时序动作聚类模型，通过时序动作聚类模型从而得到针对该长视频的高质量的可能的动作视频片段。

由于一个视频人体行为动作在时域上，一定是相邻帧的图像组成的视频片段才可能是一个动作，而且这些图像在上方曲线上的对应位置的值应该都相对较高。基于此想法，本模型使用了类似分水岭聚合的方法，来得到本模型的建议动作视频片段。如图4中的下方曲线所示，下方曲线则是关于上方曲线对称的，也表示视频图像每一帧为动作的概率值。此时下方曲线中的值越低则表示该帧视频图像为动作的概率越大，值越高则表示该帧视频图像为动作的概率越低。

时序动作聚类模型在下方曲线段内注入水之后，便可以以水位的高低γ来划分出一块一块的水池区间段，这些区间段以G(γ)来表示。由于这些水池区间段内的图像是连续的，并且它们表示动作的概率值都相近，因此G(γ)所组成的视频片段都是质量比较高的建议动作视频片段。同时为了减少大量的建议动作视频片段，本模型共设置了4个γ值，每一个γ值所对应的建议动作视频片段如图4中下方曲线下的4条直线上的视频片段。最后本模型再次使用了非极大值抑制的方法去除了所得到的建议动作视频片段中重叠度较高的视频片段，其中重叠度的阈值为0.95，因此经过非极大值抑制后的视频片段就是时序动作聚类模型所提出的高质量的建议动作视频片段。

步骤4：构建结构化分段卷积神经网络，将原长视频和步骤3中得到的该长视频的高质量的建议动作视频片段输入该结构化分段卷积神经网络中得到最终预测的所有动作视频片段。

结构分段网络模型主要包括三个步骤：第一步是首先需要得到一系列可能的建议动作视频片段供网络进行学习筛选，这一部分在时序动作聚类模型中已详细介绍。第二步是将每一个建议动作视频片段按照视频时序结构化模型所述，将其视做“真实视频片段”的中间过程，进行左右扩展从而获得“真实视频片段”的开始阶段和结束阶段，然后再将扩展后的建议动作视频片段输入结构化时序金字塔模型得到扩展后的视频特征。第三步是将使用动作分类模型和时间位置回归模型分别学习扩展后的视频特征，再将两个模型的预测值进行融合得到最终的带有动作类别的完整的视频片段。而那些没有动作的视频或者有动作但是不够完整的视频都将被滤除。结构化分段卷积网络通过端到端的网络结构，具有良好的实时性和准确性。结构化分段网络模型结构如图5所示。

4.1视频三阶段结构

一段原始视频可以表示为T(T为正整数)个视频片段，第一个视频片段可以表示为S₁，因此整个视频可以被表示为而每一个视频片段都由一系列红外图像和对应的光流图像组成。针对时序动作聚类模型提出的N(N为正整数)个建议动作视频片段每一个建议动作视频片段p_i由一个开始时间s_i和一个结束时间e_i组成。而p_i的时间段d_i＝e_i-s_i。为了对建议动作视频片段进行结构性分析，特别是判断该片段是否是一个完整的动作实例，需要将其放到上下文中进行判断。因此本模型将每一个建议动作片段p_i扩展到片段p′_i＝[s′_i,e′_i]，其中s′_i＝s_i-d_i/2，e′_i＝e_i+d_i/2。事实上，扩展后的视频片段p′_i在建议动作视频片段p_i的开始和结束各增加了d_i/2的时间片段。所以如果建议动作视频片段确实正好抓取了真实的动作过程，那么扩展后的视频片段还将包含该动作的开始和结束过程。在得到扩展后的三阶段视频片段后，p′_i将被分为三段：即分别表示一个真实动作的开始阶段，过程阶段和结束阶段。

4.2结构化时序金字塔模型

受空间金字塔模型在目标检测和场景分类中成功应用的启发，本模型采用结构化时序金字塔模型来对每一个建议动作视频片段生成全局特征。由于每个扩展的建议动作视频片段p′_i都被分为了三个阶段和本文首先通过结构化时序金字塔模型先分阶段得到三个阶段的特征f_i ^s，f_i ^c和f_i ^e，最后再将这三个阶段的特征进行串联得到最终的全局特征。

一个长度为[s,e]的动作阶段将会包含一系列小片段{S_t|s≤t≤e}。对于每一个小片段，都可以得到其特征v_t。基于这些特征，本模型构建了一个L级时序金字塔，每一级又可以平均分为B_l份。因此对于第l级的第i部分(其时间间隔为[s_li,e_li])，可以得到其池化特征为：

因此这一阶段的所有特征可以将每一级的每一部分的所有特征串联起来得到该阶段的特征

如图5所示，由于动作过程阶段可能包含更多的关于行为动作的信息，因此本模型针对动作过程阶段采用了2级时序金字塔模型，即L＝2，B₁＝1和B₂＝2。而针对开始和结束阶段，本模型都只采用了1级时序金字塔。最终将所有得到的池化特征进行串联便得到了该建议动作视频片段的经过时序金字塔模型后的特征。

4.3动作分类和视频完整度分类模型

在结构化网络分段模型的顶端设置两个分类模型，即判断动作类别的动作分类模型和判断建议动作视频片段完整度的视频完整度分类模型。动作分类模型A将视频建议动作视频片段分为了K+1个类别，即一共有K个动作类别(类别标签为1,…,K)以及一个表示“背景”的类别(类别标签为0)。动作分类模型只关注过程阶段，因此只使用过程阶段的特征f_i ^c。针对每一个人体行为动作类别，动作完整度模型则是一系列二分类模型。其中C_k将根据结构化时序金字塔模型得到的全局特征{f_i ^s,f_i ^c,f_i ^e}来预测该视频片段相对于类别k是否是一个完整的视频片段。因此该建议动作视频片段的完整度将由其开始阶段，过程阶段和结束阶段共同决定。

针对一个建议动作视频片段p_i，动作分类模型由于最后一层的softmax分类层将会产生一个向量。从概率的角度来看，可以得到一个条件分布概率函数P(c_i|p_i)，其中c_i表示该动作的类别。而对于每一个动作类别k，相应的视频完整度分类模型C_k也将会产生一个条件分布函数P(b_i|c_i,p_i)，其中b_i表示建议动作视频p_i是否是完整的。因此动作分类模型和视频完整度分类模型的结果共同可以形成一个新的分布函数，即当时c_i≥1，P(c_i,b_i|p_i)＝P(c_i|p_i)·P(b_i|c_i,p_i)。因此本模型根据动作分类模型和视频完整度模型定义了一个联合分类损失函数：

其中，视频完整度分布函数P(b_i|c_i,p_i)仅当c_i≥1时才会使用。其中分类器均在结构化分段网络模型中以端到端的方式进行训练，不需要再专门训练分类器。在训练过程中，本模型主要关注三类建议动作视频片段。第一类是正样本视频片段，即与真实动作视频片段的重叠度大于70％的建议动作视频片段；第二类是背景视频片段，即与真实动作视频片段没有重叠度的视频；第三类是完整度不高的建议动作视频片段，即虽然该建议动作视频片段的80％都包含在真实的动作视频片段中，但是该视频片段与真实的动作视频片段的重叠度低于30％的视频片段，即该建议动作视频片段占真实动作视频片段的很小一部分。针对这三类建议动作视频片段，本实施例分别以(c_i>0,b_i＝1)，c_i＝0和(c_i>0,b_i＝0)来表示。

4.4位置回归和多任务损失函数

由于全局特征中包含视频的结构化信息，因此不仅可以对建议动作视频进行分类，而且可以根据位置回归函数来重新确定建议动作视频片段的区间段。对于每一个动作类别，本实施例设计了一个位置回归器其类似于RCNN(Region ConvolutionalNeural Network，区域卷积神经网络)的设计，本实施例将其适用于一维的时域空间。具体的方式是，针对一个正样本视频片段p_i，使用与该正样本视频片段最接近的真实的动作视频片段作为标签，来计算回归区间的中心位置μ_i以及视频区间跨度φ_i的值。因此基于动作分类函数和位置回归函数，本实施例对每一个建议动作视频片段定义了一个多任务损失函数如下所示：

式中L_reg使用的是L₁平滑损失函数，λ值作为位置回归函数的权重值。即针对每一个视频片段p_i，位置回归损失函数如下所示：

式中u_i和φ_i表示真实视频片段在长视频中的位置以及区间跨度，和表示预测的视频片段在长视频中的位置和区间跨度。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤1中，所述红外视频人体行为数据集包括常规的人体行为以及常见的可能危害到人身安全的人体行为动作。

3.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤2中，只包含一个动作类别的视频为短视频片段，包含两个及以上动作类别的视频为长红外视频。

4.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤2中，由于每一个短视频片段中只包含一个动作类别，因此所述短视频片段的动作类别即为其标签。

5.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤3中，所述两条网络流的基网络相同，均为BNInception深度卷积神经网络。

6.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤3中，将每一个短视频片段得到的灰度图片和光流图片输入时空双流卷积神经网络，并且短视频片段的动作类别作为标签来训练该时空双流卷积神经网络，最终训练好的时空双流卷积神经网络能够对每一个短视频片段或者长红外视频中的每一帧图像进行动作分类。

7.如权利要求1所述的一种基于结构化分段卷积神经网络的红外视频时序定位方法，其特征在于：所述步骤6中，先将每一个建议动作视频片段视做“真实视频片段”的中间过程，进行左右扩展从而获得“真实视频片段”的开始阶段和结束阶段；然后再将扩展后的建议动作视频片段输入结构化时序金字塔模型，得到扩展后的视频特征；最后将使用动作分类和时间位置回归的联合损失函数分别学习扩展后的视频特征，得到最终预测的带有动作类别的完整的视频片段。