CN109670446A

CN109670446A - 基于线性动态系统和深度网络的异常行为检测方法

Info

Publication number: CN109670446A
Application number: CN201811562111.6A
Authority: CN
Inventors: 郭杰龙; 魏宪; 兰海; 方立; 孙威振; 王万里; 汤璇; 唐晓亮
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-23
Anticipated expiration: 2038-12-20
Also published as: CN109670446B

Abstract

本发明提供了一种基于线性动态系统和深度网络的异常行为检测方法。本发明将LDS动态系统模型与TSN深度学习网络相结合，通过TSN提取动作的时空特征信息，然后通过LDS将动作特征串联为完整的行为特征，最后通过支持向量机SVM判断行为类型。本发明在残差网络的基础上搭建了3D卷积网络，通过2D+1D形式构建3D卷积核，降低了网络参数量，并解决了原3D网络无法预载入权值的问题；在TSN结构中引入了残差3D网络，增加网络的特征提取能力；增加了网络层数，提升了网络的拟合能力。本发明能够实现长序列异常动作的高精度识别，最终达到对异常行为的精确监测。

Description

基于线性动态系统和深度网络的异常行为检测方法

技术领域

本发明涉及视频检测方法，具体涉及一种基于线性动态系统和深度网络的异常行为检测方法。

背景技术

近年来，视频监控已经广泛的应用于园区安防，交通监控，室内监测等公共环境中。随着监控的普及，需要一种快速、稳定的检测方法来对视频中的异常行为进行分析处理。所谓的异常行为是指不合规定或者常规的动作，即与常规行为相反，这类动作具有危险性或者隐藏危险性。通过检测人或人群的异常行为能够提供关键的预警信息，从源头上降低突发事件所带来的危害。

异常行为有如下特点：(1)动作持续时间短，特征不鲜明，易于常规动作混淆，例如离岗和入侵动作往往很短时间就结束，容易漏判和错判；(2)所处的监控环境人流量大，干扰信息多，异常行为种类多样，当众多人员散布在一个特定等场景内时，需要对各类非法行为进行检测。(3)离岗和入侵动作是由多个子动作组成，在视频中时序长度不定，需要方法能够从全局角度对此类异常行为进行检测。而传统的深度网络学习方法不能很好的检测长时序视频中的短时异常行为，其检测的精度和效率较低。

目前异常行为检测方法分为手工特征提取方法和深度学习方法。

1.手工特征提取方法，主要有HOG方法，SIFT方法，MBH方法，iDT方法等，这类方法都是通过手工设计特征并从视频中提取动作信息，最后使用机器学习方法进行分类。

2.深度学习方法，以时序网络RNN和卷积网络CNN为基础，主要有3种结构：LRCN，C3D和TSN。

LRCN(2D-CNN+LSTM)模型将视频特征分为动态和静态两类先后提取，通过2D-CNN提取图像中的静态特征，然后使RNN获取视频中的动态特征。模型结构是将RNN放置在 2D-CNN之后，即在已获得静态特征基础上提取时空特征，最后通过全连接层和Softmax结构获得分类结果。

C3D(3D-CNN)模型将视频中的静态和动态特征视为一体，通过更高维度的卷积核和池化核，网络能从视频中直接获取时空特征。模型结构与2D-CNN相似，拥有数层卷积、池化层以及Norm、激活函数等结构，也通过全连接层和Softmax获得预测结果。

TSN(Two-Stream Network)模型将视频中的静态和动态特征并行提取，将RGB图像与光流图像分别输入到两个CNN中，分别获得静态和动态特征信息，通过融合层获得分类结果。模型是由两组CNN并行组成的。

现有的手工提取特征方法和深度学习方法有如下缺陷：

1.在场景和动作类型较多的情况下，手工提取特征方法需要考虑不同的限制条件，并采取不同的编码手段。在实际操作中较为笨重复杂，方法缺乏可移植性，不适用园区内的异常行为检测。

2.三种深度学习方法具有如下特点和缺陷：

LRCN改变了特征提取顺序，通过分步的方式获取时空特征，但它忽略了动作中时空特征的整体性和结构性，将动态特征的提取简单的建立在了CNN上。此类串联提取时空特征的方法，丢失了低维的动态特征。在实际应用中，LRCN网络无法识别动作先后顺序(例如这类动作到底是进入岗位还是脱离岗位)，其识别精度也低于传统的ResNet和VGG等 2D-CNN。

3D-CNN采用三维滤波器提取出了结构化的时空特征，即将静态和动态特征融合为一体进行表示，有效的保留了动作的时空信息。但3D-CNN存在如下缺陷：1)高维卷积核使得3D-CNN权重参数的数量要远多于同结构的2D-CNN，模型体积较大，运算速度较低。2)同样由于高维卷积核的缘故，模型无法通过预训练来获得优秀的初始化权重参数，训练和拟合的难度较大。3)网络层数过浅、非线性化结构过少，提取高维时空特征的能力有限。

TSN网络能并行提取时间和空间特征，即分别从RGB图像与光流图像中获取两类特征，其所提取时空特征的类型和范围要大于3D-CNN和LRCN网络，但具有如下缺陷：1)在动作特征提取上依赖光流图像，光流的精度直接影响了分类精度。但高精度的光流图像(如双向稀疏光流)需要花费大量计算资源，因此网络的处理速度较慢。2)TSN在特征融合时忽略了时间和空间特征之间的联系，仅仅进行了简单的合并操作，缺乏考虑时间与空间特征之间存在的时序关系。虽然在文献[8]中采用了多层卷积层进行特征融合，但提升精度有限。3)由于2D-CNN提取时间特征的能力较差，使得TSN无法获取光流图像中的时空特征，也降低了融合特征的质量。

上述深度模型体现了优良的特征提取能力和较高的检测精度，但无法很好理解长时动态特征，只能根据短时动作信息来判断行为类型，网络一次性只能理解数十秒甚至数秒的动作信息。实际上，离岗或者入侵等异常行为是由数个短时动作组成的长时间，而这些短时动作有多种组合方式。即一个行为由多个动作组成，单个动作也可以组成多个动作，而通过单一的动作片段是无法准确判断出该行为是否异常。

发明内容

本发明的目的是提供一种基于线性动态系统和深度网络的异常行为检测方法，通过深度网络提取视频中的时空特征，主要用于判断封闭空间内所出现的异常行为，并能准确的给出动作起始以及结束时间，以弥补现有技术的不足。

本发明所针对的校园、工厂、机关单位等封闭环境内，其存在的异常行为主要可分为两类：非法入侵和非法离岗，前者检测无关人员进入工作区间或未授权人员进入特定区间，后者则检测人员擅自离开规定岗位超过一定时间期限。

目前异常行为检测存在如下特点：(1)在长视频中存在大量干扰片段，而被检测的异常行为可能只有短暂的持续时间，其特征不够鲜明，或者持续时间较长，但缺乏关键信息。(2) 在图像检测任务中，所检测的目标通常具有鲜明轮廓。而异常行为的起始与结束通常没有明显的边界，例如离岗行为，是将人起身离开位置作为行为起点，还是将人离开规定区域作为行为起点；(3)行为的时间信息是建立在其静态空间信息基础上的，且相较于后者更为复杂抽象。并行或串行来提取时间和空间特征的方法，割裂了两者之间的关系。

本方法将通过引入深层残差网络，能更有效的提取短时异常行为的特征信息；其次通过 LDS将异常行为分解为数个动作，能够通过动作的时序规律来识别行为类型；对网络中的3D 卷积核结构进行了优化，有效提升了异常行为的检测精度和效率。

目前的视频检测方法通常采用卷积网络，相较于传统方法，卷积网络拥有强大的特征自动提取能力，在图像、视频检测领域。但由于异常行为的特点，卷积网络不能很好的处理提取行为特征信息，忽略了动作与动作之间的联系，因而在卷积网络的基础上加入LDS线性动态系统来学习动作之间的关系。

为达到上述目的，本发明采取的具体技术方案为：

一种基于线性动态系统和深度网络的异常行为检测方法，该方法包括以下步骤：

(1)首先获取RGB视频数据，将每个视频分割为多个片段Clip，每个片段长度为L，即包含m张连续的RGB图像；如果长度不足就补充空白帧，即数值为全0的RGB图像；通过光流法计算出视频片段中相邻帧之间的光流图像，将RGB图像和光流图像的数据进行归一化操作，使上述数据数值范围处在(0,1)之间；将归一化操作后的视频集进行数据增强，分割为训练集和测试集，训练集用于调制TSN网络参数，测试集用于验证训练效果；将动作持续时间内的视频片段类型标定为该类动作，其余无动作片段设为空类型；

(2)将3D-CNN在IamgeNet数据集上进行预训练，获得初始化权重参数；TSN由A 和B两组3D-CNN组成，其初始化权重相同，并共用一个Softmax层和特征融合层，训练 TSN网络时，将RGB片段放入到3D网络A中，将对应的光流片段放入到3D网络B中，设置初始学习率α，通过随机梯度下降法对网络进行训练，并通过测试集对训练效果进行验证；当测试效果与训练效果接近时，认为网络能较好的完成行为特征的分类；此时舍去3D-CNN 的softmax结构，送入到TSN中成为网络A和B，并加入特征融合层和新的softamx结构，固定网络A和B的参数，同样通过梯度下降法对TSN网络进行训练；

(3)训练好的TSN网络能从RGB视频和光流视频上提取特征；去掉TSN网络的Softmax层，直接特征融合层获取时空特征，然后通过PCA对时空特征进行压缩，降低输出特征的维度；为了获取合适的压缩比例和并保留主要时空特征，需要通过后续SVM的分类效果，对PCA参数k进行调整；

(4)将通过LDS来判断压缩后的时空特征之间存在时序关系，先通过已知动作类型的时空特征对LDS系统中的参数进行整定，即从连续的视频片段中学习出该类动作的LDS参数属性M＝(μ,A,B,C)，通过自回归模型来达到整定参数的目的；动作类型数为N，会生成N种LDS参数类型；

(5)当整定完LDS参数后，可输入对应的时空特征变量，此时LDS能输出观测变量L_t；利用已知标签的观测变量来训练SVM分类器，并通过SVM对所预测的行为特征进行分类，从而分辨出一般行为和异常行为。

具体流程如下：

通过TSN和3D-CNN结构获取视频片段Clip的时空特征信息，其中左侧的2D+1D残差卷积网络A负责从m张的RGB图像上提取动作的空间特征信息，右侧的2D+1D残差卷积网络B则从m+1张光流图像上获取动作的时间特征信息；然后多个动作特征信息输入到PCA 主成分分析系统中，过滤去多余的冗余信息，获得连续的动作特征，再利用LDS线性动态系统获取行为之间的关系，将行为片段连接为完整动作，并通过SVM判断LDS所检测的动作类型。

本发明的优点和有益效果：

本发明将LDS动态系统模型与TSN深度学习网络相结合，通过TSN提取动作的时空特征信息，然后通过LDS将动作特征串联为完整的行为特征，最后通过支持向量机SVM判断行为类型。本发明在残差网络的基础上搭建了3D卷积网络，通过2D+1D形式构建3D卷积核，降低了网络参数量，并解决了原3D网络无法预载入权值的问题；在TSN结构中引入了残差3D网络，增加网络的特征提取能力；增加了网络层数，提升了网络的拟合能力。本发明能够实现长序列异常动作的高精度识别，最终达到对异常行为的精确监测。

附图说明

图1为长序列视频检测算法流程框架图。

图2为2D+1D残差卷积网络结构图。

图3为残差网络结构以及空间滤波器和时间滤波器结构图。

图4为实施例中异常行为检测方法流程图。

具体实施方式

以下通过具体实施例并结合附图对本发明进一步解释和说明。

实施例1：校园行为异常检测：整体流程如图4所示：

在校园楼道、教室以及食堂等关键部位获取视频片段，例如打架、奔跑、翻越护栏、交谈等视频。对视频样本进行筛选，保留具有鲜明特征的样本作为训练样本。将获取的视频按照动作类型进行分类，并标记出动作发生和结束的时间点，我们认为动作持续时间内的视频片段可作为正样本，没有发生动作或者不包含检测动作的视频片段可作为负样本。而正样本应当拥有各种合适比例动作视频。将获的视频样本切割为等长的视频片段，并进行归一化处理，每段包含m张RGB图像，然后计算出相应的光流视频片段，光流片段应有m+1张图像。

获取完样本后，要对TSN网络、LDS系统和SVM分类器进行训练。其中TSN网络要先训练3D-CNN(2D+1D残差卷积网络)，先从ImageNet上进行训练，获取3D-CNN的每层初始化权重W_i(t＝0)。然后将RGB样本和光流样本输入到3D-CNN中，设置好学习率α，通过式(3)随机梯度下降法来更新3D-CNN权重。上述两类样本分别训练出3D网络A和B，舍去3D-CNN的softmax结构，送入到TSN中成为网络A和B，并加入特征融合层和新的 softamx结构，固定网络A和B的参数，同样通过梯度下降法对TSN网络进行训练。可获取校园场景下视频样本特征分类网络TSN，从训练好的TSN网络上获取时空特征，对PCA和 LDS进行训练。最终通过SVM分类器完成动作分类。具体为：

(1)首先获取RGB视频，将视频的宽、高调整至320×240，然后将每个视频分割为多个片段Clip，每个片段长度为L，即包含m张连续的RGB图像；如果长度不足就补充空白帧，即数值为全0的RGB图像。通过光流法计算出视频片段中相邻帧之间的光流图像。将RGB图像和光流图像的数据进行归一化操作，使上述数据数值范围处在(0,1)之间。将归一化操作后的视频集进行数据增强，并按照80％和20％的比例将数据集分割为训练集和测试集，训练集用于调制TSN网络参数，测试集用于验证训练效果。另外数据集需标注动作类型以及动作发生和结束的时间点，动作类型总数设为N。将动作持续时间(即发生和结束时间点之间的时段)内的视频片段类型标定为该类动作，其余无动作片段设为空类型。

(2)将3D-CNN(2D+1D残差卷积网络)在ImageNet数据集上进行预训练，获得初始化权重参数。本文的TSN由A和B两组3D-CNN组成，其初始化权重相同，并共用一个 Softmax层和特征融合层。训练TSN网络时，将RGB片段放入到3D网络A中，将对应的光流片段放入到3D网络B中，设置初始学习率α、，通过随机梯度下降法对网络进行训练，并通过测试集对训练效果进行验证。当测试效果与训练效果接近时，认为网络能较好的完成行为特征的分类。此时舍去3D-CNN的softmax结构，送入到TSN中成为网络A和B，并加入特征融合层和新的softamx结构，固定网络A和B的参数，同样通过梯度下降法对TSN 网络进行训练。

(3)训练好的TSN网络能从RGB视频和光流视频上提取特征。去掉TSN网络的Softmax层，直接特征融合层获取时空特征，然后通过PCA对时空特征进行压缩，降低输出特征的维度。为了获取合适的压缩比例和并保留主要时空特征，需要通过后续SVM的分类效果，对PCA参数k进行调整。

(4)此步将通过LDS来判断压缩后的时空特征之间存在时序关系，先通过已知动作类型的时空特征对LDS系统中的参数进行整定，即从连续的视频片段中学习出该类动作的LDS 参数属性M＝(μ,A,B,C)，通过自回归模型来达到整定参数的目的。动作类型数为N，会生成N 种LDS参数类型。

(5)当整定完LDS参数后，可输入对应的时空特征变量，此时LDS能输出观测变量L_t。利用已知标签的观测变量来训练SVM分类器，并通过SVM对所预测的行为特征进行分类；具体的分类对象就是视频的动作属性(或者说是视频本身包含的事件属性)的分类，区分正常行为和异常行为。

例如：检测一段视频是否有出现打架、奔跑、翻越护栏等事件的发生，如果没有，分类结果为空，则不产生预警或者报警动作，如果有发生，则分类结果为打架，或者奔跑，或者翻越护栏等已经预先训练过的动作属性(视频属性)，并且进行预警。

为了方便说明本方法步骤，下面将详细叙述2D+1D残差卷积网络(3D-CNN)、LDS系统、PCA主成分分析器和SVM分类构造和工作原理。

1.为了说明2D+1D残差卷积网络(3D-CNN)构造，先要解释2D+1D卷积网络和残差网络的概念。

2D+1D卷积网络：原始3D卷积网络其卷积层尺寸为N_i×L×H_i×W_i，其中N代表该层有N个滤波器，滤波器中L代表时间的长度，而H和W则代表空间的长和宽。2D+1D卷积网络则将3D 卷积网络中的时间和空间滤波器分离开独立设计，即滤波器由空间滤波器1×H_i×W_i和时间滤波器L×1×1串联组成。然后由多个空间滤波器组成空间卷积层，由多个时间滤波器组成时间卷积层。将空间卷积层和时间卷积串联排布，就可以实现LRCN网络的串行提取时空特征的功能；将空间卷积层和时间卷积并联排布，可以实现并行提取时间和空间特征，但需要加入额外池化层融合时间和空间特征。本文将空间卷积层和时间卷积层并联排布，并与Norm(泛化层)、池化层以及激活函数等进行堆叠，形成2D+1D卷积网络。

残差网络：当网络层数上升时，2D+1D卷积网络参数会变多，且受到并行结构影响，网络训练时易出现梯度弥散和消失的问题，拟合难度较大。为了降低训练误差和提升拟合效果，故在2D+1D卷积网络的基础上加入残差结构，来降低前向传播误差量，并保留重要的低维时空特征。残传递方程如式(1)所示，其中x和y分别代表网络的输入和输出向量，F代表网络中卷积层和池化层的计算函数，W为卷积层和池化层中的权重参数，F+x为残差迁移结构。本残差网络如图2、3所示，每个残差结构中有4层卷积层，将其计算函数F展开可得式(2)，其中σ代表激活函数，W_i代表各层权重。

y＝F(x,{W_i})+x (1)

F＝W₄(σ(W₃σ(W₂σ(W₁)))) (2)

本申请所使用2D+1D残差卷积网络(3D-CNN)，是在2D+1D卷积网络的基础上加入残差机构，如图2、3所示，共分为5个部分，每个部分包含4个卷积层，分别是1×1×1的输入瓶颈卷积层，1×3×3的空间卷积层，3×1×1的时间卷积层，1×1×1的输出瓶颈卷积层，以及层与层之间的ReLu激活函数，加号部分与外侧曲线代表网络残差迁越结构。为了能融合并行获得的时间和空间特征，还在残差结构中使用了瓶颈结构，即在时空滤波器前后增加了1×1×1的卷积层和对应的激活函数，使得非线性层的数量变多，也提升网络的拟合性能和特征融合能力。由于残差结构的存在，我们可以适当的减少池化层数量，进一步减少了网络训练时时空的信息丢失几率。

3.TSN网络：为了能获得更有效提取异常行为的时空特征，将2D+1D残差卷积网络放入TSN结构中。如图1所示，在左侧2D+1D残差卷积网络A中输入连续的RGB视频数据，在右侧2D+1D残差卷积网络B输入连续的光流图像数据。输入的视频和光流片段Clip维度为16×3×112×112，其中16为片段序列长度，3×112×112分别为视频通道数、高度、宽度。视频片段数量N受动作类型影响，数量不固定。如图2所示，左侧2D+1D残差卷积网络A 输出动作的空间特征X_s，右侧2D+1D残差卷积网络B输出动作的时序特征X_t，两类特征为二维矩阵，其尺寸均为N×1024。TSN网络可通过随机梯度下降方法来训练参数，如式(3) 所示

其中loss为当前误差函数输出值，W(t-1)为上一时刻状态网络权重参数，W(t)为当前网络参数，i代表网络层，α为学习率，即决定每次梯度下降的量。

4.PCA主成分分析器：用于压缩2D+1D残差卷积网络所输出的时空特征，即降低时空特征维度，保留核心时空特征。从残差网络全连接层FC1中获取时间特征和空间特征(即左侧2D+1D残差卷积网络A输出动作的空间特征，右侧2D+1D残差卷积网络B输出动作的时序特征)，并将两者按照视频片段次序(Clip 1,Clip 2…Clip N)合成为时空特征矩阵X_st，其维度大小为N×2048，如图2所示。接下来使用PCA主成分分析器，先计算时空特征矩阵 X_st的平均值P_mean，并通过式(4)计算出时空特征过滤矩阵X_filter。然后通过式(5)和(6) 计算协方差矩阵X_cov，以及矩阵对应的特征值λ与特征向量ξ。将特征值λ按照从大到小的排序，选择其中最大的k个特征值所对应的特征向量，组成压缩后的时空特征矩阵X_s′_t，其维度大小为N×k

X_filter＝X_st-P_mean (4)

X_covξ＝λξ (6)

式(4)、(5)和(6)，其中表示过滤矩阵的转置矩阵，N为视频片段Clip数量，λ为协方差矩阵特征值，ξ为协方差矩阵特征向量。

5.LDS线性动态系统：是一种状态空间模型，能对根据动作的时空特征建立全局动态模型，通过式(7)可获取输入时空特征之间时序关系，式(8)为LDS系统输出的表观特征。通过多个动作片段Clip，来判断该行为未来状况。其计算过程是将获取的特征分割成两个随机过程，即跨时空-概率生成模型，能从不同的Clip中学习出该类动作的特征属性M＝(μ,A,B,C)，然后可将多个动作特征组合为行为特征。

x_t＝Ax_t-1+Bv_t (7)

L_t＝μ+Cx_t (8)

式(7)和(8)，其中L_t为当前状态矢量与观测噪声的线性函数；x_t是t时刻的输入特征量；A为状态转移矩阵；B为噪声矩阵，表示输入噪声对状态变化的影响；C为观测矩阵，能将输入的特征量转化为系统的输出；x_t是输入动作类型变量又称为隐变量，y_t是输出时空特征量又称为观测量，μ是输入特征量的平均值。当前输入特征量x_t与上一时刻输入特征量x_t-1呈线性关系，可通过A进行转换。

在式(7)中，隐变量建模采用一阶高斯-马尔可夫过程，其中下一时刻状态x_t+1由前状态x_t整定，当前输出行为y_t依赖于当前隐变量。给定时空特征变量y_N×k，可学习其LDS模型参数M＝{A,B,C}，本文采用自回归移动平均模型学习上述参数。

6.SVM分类器：用于数据分类，即计算LDS输出变量之间的距离大小。给定训练样本集D＝{(x₁,y₁),(x₂,y₂),…,(x_t,y_t)}，分类器训练过程就是获取特征空间中最佳划分超平面(分界线)将不同样本分隔开来，而SVM算法解决的就是如何找到最佳超平面的问题。超平面可通过式(9)的线性方程来描述。

0＝ω^Tx+b (9)

其中ω^T表示法向量，决定了超平面的方向；b表示偏移量，决定了超平面与原点之间的距离。

计划采用的分类函数如式(10)所示。

f(x)＝sign(ω^Tx+b) (10) 。

Claims

1.一种基于线性动态系统和深度网络的异常行为检测方法，其特征在于，该方法包括以下步骤：

(1)首先获取视频数据，进行光流法和归一化操作，将归一化操作后的视频集进行数据增强，分割为训练集和测试集；

(2)通过预训练，获得初始化权重参数；并对TSN网络进行训练；

(3)利用训练好的TSN网络提取视频特征；

(5)当整定完LDS参数后，可输入对应的时空特征变量，此时LDS能输出观测变量Lt；利用已知标签的观测变量来训练SVM分类器，并通过SVM对所预测的行为特征进行分类，从而分辨出一般行为和异常行为。

2.如权利要求1所述的检测方法，其特征在于，所述步骤(1)具体为：首先获取RGB视频数据，将每个视频分割为多个片段Clip，每个片段长度为L，即包含m张连续的RGB图像；如果长度不足就补充空白帧，即数值为全0的RGB图像；通过光流法计算出视频片段中相邻帧之间的光流图像，将RGB图像和光流图像的数据进行归一化操作，使上述数据数值范围处在(0,1)之间；将归一化操作后的视频集进行数据增强，分割为训练集和测试集，训练集用于调制TSN网络参数，测试集用于验证训练效果；将动作持续时间内的视频片段类型标定为该类动作，其余无动作片段设为空类型。

3.如权利要求1所述的检测方法，其特征在于，所述步骤(2)具体为：将3D-CNN在IamgeNet数据集上进行预训练，获得初始化权重参数；TSN由A和B两组3D-CNN组成，其初始化权重相同，并共用一个Softmax层和特征融合层，训练TSN网络时，将RGB片段放入到3D网络A中，将对应的光流片段放入到3D网络B中，设置初始学习率α，通过随机梯度下降法对网络进行训练，并通过测试集对训练效果进行验证；当测试效果与训练效果接近时，认为网络能较好的完成行为特征的分类；此时舍去3D-CNN的softmax结构，送入到TSN中成为网络A和B，并加入特征融合层和新的softamx结构，固定网络A和B的参数，同样通过梯度下降法对TSN网络进行训练。

4.如权利要求1所述的检测方法，其特征在于，所述步骤(3)具体为：训练好的TSN网络能从RGB视频和光流视频上提取特征；去掉TSN网络的Softmax层，直接特征融合层获取时空特征，然后通过PCA对时空特征进行压缩，降低输出特征的维度；为了获取合适的压缩比例和并保留主要时空特征，需要通过后续SVM的分类效果，对PCA参数k进行调整。

5.如权利要求1所述的检测方法，其特征在于，所述步骤(4)具体为：将通过LDS来判断压缩后的时空特征之间存在时序关系，先通过已知动作类型的时空特征对LDS系统中的参数进行整定，即从连续的视频片段中学习出该类动作的LDS参数属性M＝(μ,A,B,C)，通过自回归模型来达到整定参数的目的；动作类型数为N，会生成N种LDS参数类型。

6.如权利要求1所述的检测方法，其特征在于，该检测方法的具体流程：通过TSN和3D-CNN结构获取视频片段Clip的时空特征信息，其中左侧的2D+1D残差卷积网络A负责从m张的RGB图像上提取动作的空间特征信息，右侧的2D+1D残差卷积网络B则从m+1张光流图像上获取动作的时间特征信息；然后多个动作特征信息输入到PCA主成分分析系统中，过滤去多余的冗余信息，获得连续的动作特征，再利用LDS线性动态系统获取行为之间的关系，将行为片段连接为完整动作，并通过SVM判断LDS所检测的动作类型。