CN111209883A

CN111209883A - 一种基于多源运动特征融合的时序自适应视频分类方法

Info

Publication number: CN111209883A
Application number: CN202010032965.4A
Authority: CN
Inventors: 王利民; 纪彬; 武港山
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-05-29
Anticipated expiration: 2040-01-13
Also published as: CN111209883B

Abstract

一种基于多源运动特征融合的时序自适应视频分类方法，包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段，采用多源多尺度运动信息进行早期融合，融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差，并在融合过程中实现时序自适应调整策略，完成视频分类任务。本发明在融合多源运动信息的同时，通过时序自适应调整，适配视频分类任务，获得了鲁棒性强且精度高的视频分类方法，提出了融合全局、原有单帧信息、局部运动信息的方式，这种融合位于网络的浅层，使得相比于其他融合策略而言计算更加快速，且具有很好的移植性。

Description

一种基于多源运动特征融合的时序自适应视频分类方法

技术领域

本发明属于计算机软件技术领域，涉及视频分类技术，具体为一种基于多源运动特征融合的时序自适应视频分类方法。

背景技术

随着互联网上的视频数据爆炸式地增长，视频分类任务迎来了的巨大挑战，包括如何高精度地进行视频分类以及较低的可接受的时间复杂度，目前使用深度学习网络技术进行视频分类已然十分普遍，具体的应用方式大体上分为三种。

第一种应用方式是使用三维卷积层进行视频分类任务，三维卷积层可同时建模时间和空间，近些年出现了一些十分出色的工作，例如Du Tran提出使用VGG模型的三维卷积层来学习视频帧序列的时空特征，Joao Carreira提出了对二维卷积层进行扩展，将Inception V1模型中的二维卷积层扩展为三维卷积层，并取得了不错的效果，但是使用三维卷积层会导致计算量大、部署困难以及容易过拟合的问题，总体来说，这种方式的特点是精度高但时间复杂度高。

第二种应用方式是使用二维卷积层构建的神经网络提取特征，然后进行时序的后建模，例如Karen Simonyan设计了一种双流二维卷积神经网络分别对时间和空间建模的视频分类方法，TSN(Temporal Segment Network)利用二维卷积层提取空间信息，而后使用平均池化的方式来融合各段信息得到最终结果，总的来说，这种方式的特点是时间复杂度低但精确度不高。

第三种应用方式是多种形式卷积或卷积操作替代品的组合来分别对视频段空间和时间信息进行建模，以期望达到高精度与较低时间复杂度，近些年也出现了许多比较出色的工作，ECO实现了十分有效的框架，TSM(Temporal Shift Module)基于二维卷积并使用空域特征在时间维度的偏移方式，达到了二维卷积计算的低时间复杂度和三维卷积建模的高精度。

视频中动作的类别为一系列子动作组成的高级语义信息，这些子动作代表着高级语义中的一个小环节，子动作与子动作之间的变化我们可以称之为全局运动，子动作之内的变化我们可以称之为局部运动，这种运动的建模脱离了对视频背景的依赖，有效的全局与局部运动信息建模融合策略可提升视频分类的鲁棒性，本发明着力于如何有效地融合多种运动信息，TSN(Temporal Segment Network)这项工作提出可使用帧间差作为输入，并提出了在ResNet-50的Conv1处对ImageNet预训练模型参数按通道平均的初始化技术，这种输入数据仅保留了帧与帧之间的运动信息且相比光流可以更容易更快速的获取，因此十分适合用于局部运动的建模，TEINet这项工作使用视频全局段间的特征差来增强图像帧序列全局运动区域，但目前缺少一种对局部运动、全局运动合适的同时建模与融合方法，以及在视频运动建模融合过程中同时考虑时序自适应调整的低计算量方法。

发明内容

本发明要解决的问题是：现有的很多视频分类方法往往依赖于视频中的背景区域做分类判断，这些方法不具备好的准确性和鲁棒性，视频中动作包括全局运动和局部运动，这种运动的建模脱离了对视频背景的依赖，有效的全局与局部运动信息建模融合策略可提升视频分类的鲁棒性，本发明要解决的问题便是如何以一种低时间复杂度的结合方式对局部运动和全局运动同时建模，建模之后如何有效地融合以及如何在融合的过程中自适应地调整时序，其中自适应地调整时序指的是对每一个时间点在时序维度上同各个时间点的关联建模。

本发明的技术方案为：一种基于多源运动特征融合的时序自适应视频分类方法，采用多源多尺度运动信息融合，并在融合的过程中自适应调整时序，实现视频分类，所述多源多尺度信息包括原视频帧序列信息、段内局部帧间差以及全局段间特征差，所述视频分类步骤包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段：

1)生成训练样例阶段：对对视频进行处理，对于每个视频，将视频图像序列V_f分为N_s个视频段，其中每个视频段取连续的N_f帧，再从其中抽取中间1帧，构建出N_s帧图像组成的图像序列S_f，同时将每个视频段的N_f帧之间取帧间差，得到N_fd1个帧间差，组成N_s*N_fd1个帧间差的帧间差序列S_d1，从每个视频段的帧间差中取出中间N_fd2个结果，得到N_s*N_fd2个帧间差的序列S_d2，其中视频段数N_s的大小表示在全局上进行时间划分的细粒程度，每段所取出的帧数N_f表示每段时间节点的局部范围大小，每个视频段的帧间差数量N_fd1为N_f-1，表示局部信息建模的一个尺度，尺度N_fd2＝N_fd1/2为另一个局部信息建模尺度；

2)网络配置阶段：使用ResNet-50作为基础网络结构，建立视频分类模型，模型包括以下配置：

2.1)抽取图像序列特征：使用ResNet-50的Conv1层对输入的图像序列S_f处理，而后使用最大池化操作以及随机初始化的一维卷积层进行时序的自适应调整，然后使用ResNet-50的Conv2对特征进行再一次的提取，得到通道数为256的图像序列特征

2.2)抽取多尺度帧间差序列特征：将帧间差序列S_d1用输入通道为12的二维卷积层得到64通道特征，帧间差序列S_d2用输入通道为6的二维度卷积层得到64通道特征；

2.3)融合多尺度帧间差序列特征：对2.2)得到的两个64通道特征求和，并使用最大池化操作与随机初始化的一维卷积层进行时间维度的自适应变换，再输入到ResNet-50的Conv2层得到通道数为256的多尺度融合帧间差特征

2.4)图像序列特征的局部运动区域增强：将2.3)得到的多尺度融合帧间差特征

进行运动信息显著性概率图求解，得到每个视频帧段的局部运动区域显著性概率图，将该图同2.3)得到的结果点乘，得到N_s个视频段局部运动区域增强后的图像序列特征F_L；

2.5)图像序列特征的全局运动信息增强：将2.4)得到的不同视频段的局部运动区域增强图像序列特征交错求差，获取段间特征差，再进行运动信息显著性概率图求解，得到图像序列的全局运动信息显著性概率图，将该图同2.4)得到的结果点乘，得到全局运动信息增强后的特征F_LG；

2.6)图像序列特征的背景信息补偿及融合：将2.1)得到的结果

同2.5)得到的结果F_LG求差得到背景特征F_Bg，经过二维卷积层处理，再同2.5)得到的结果F_LG求和，得到背景信息补偿后的图像序列特征F_LGBg，即图像特征高级语义表达，将2.3)得到多尺度融合帧间差特征

按照0.4的权值加入到背景信息补偿后的图像序列特征中，完成多源运动信息特征的融合；

2.7)融合后的特征提取：将2.6)得到的结果输入到ResNet-50中的Conv3、Conv4、Conv5，得到通道数为2048的高级语义表达，再经过最后的全连接层FC得到各视频段的分类结果，使用高斯核函数对各视频段分类结果进行融合，输出视频分类结果；

3)训练阶段：对配置的模型采用训练数据进行训练，使用交叉熵函数作为损失函数，使用SGD优化器，使用退火策略通过反向传播算法来更新网络参数，不断重复步骤2)和步骤3)，直至达到迭代次数；

4)测试阶段：将测试数据的视频帧序列输入到训练完成的模型中，得到分类结果。

本发明与现有技术相比有如下优点

本发明提出了一种多尺度处理局部运动信息的方法，这种多尺度的处理方式相比单尺度而言在时间维度上对局部信息又一次细化，距离单帧不同的时间范围会具备不同的影响因子。

本发明采取一种有效融合全局、原有单帧信息、局部运动信息的方式，这种融合位于网络的浅层，使得相比于其他融合策略而言计算更加快速，且具有很好的移植性，在融合过程中对于全局和局部运动信息概率图的求解，使用了一种多路计算再汇总的方式，使得该模块可以从不同的角度理解运动特征。

本发明在多源信息处理融合阶段采用随机初始化的可学习一维卷积进行自适应时序调整，而网络深层仅进行空间建模，且尾端各视频段分类分数汇总采取高斯核函数的方式，相比与现有时序建模方法，计算量更小，更加灵活。

本发明在视频分类任务上体现了很好的鲁棒性，不同于部分现有方法会对视频背景产生强依赖，在实际视频内容安全平台项目应用中相比部分现有方法体现了好的准确性。

附图说明

图1是本发明所使用的系统框架图。

图2是本发明视频的抽帧处理示意图。

图3是本发明提出的多源信息融合模块示意图。

图4是本发明提出的多尺度帧间差特征提取融合示意图。

图5是本发明提出的概率图求解过程示意图。

图6是本发明单帧特征序列特征提取过程示意图。

图7是本发明在网络尾端所使用的高斯核融合各段分数示意图。

图8展示本发明在Something-Something V1数据集样例上得到的Top1类别与Top5类别效果图。

图9为本发明的总体流程示意图。

具体实施方式

本发明一种基于多源运动特征融合的时序自适应视频分类方法，采用多源多尺度运动信息进行早期融合，融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差，并在融合过程中实现时序自适应调整策略，完成视频分类任务。本发明方法包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段，如图9所示，具体说明如下。

1)生成训练样例：对视频进行处理，对于每个视频，将视频图像序列V_f分为N_s个视频段，其中每个视频段取连续的N_f帧，再从其中抽取中间1帧，构建出N_s帧图像组成的图像序列S_f，同时将每个视频段的N_f帧之间取帧间差，得到N_fd1个帧间差，组成N_s*N_fd1个帧间差的帧间差序列S_d1，从每个视频段的帧间差中取出中间N_fd2个结果，得到N_s视频段*N_fd2个帧间差的序列S_d2，其中视频段数N_s的大小表示在全局上进行时间划分的细粒程度，每段所取出的帧数N_f表示每段时间节点的局部范围大小，每个视频段的帧间差数量N_fd1为N_f-1，表示局部信息建模的一个尺度，第二个局部信息建模的尺度N_fd2为N_fd1/2，N_s、N_f的取值较为灵活，取决于算力的大小，为减小时间复杂度的同时保留更多的局部信息。

本发明实施例中N_s取8，N_f取5，相应的N_fd1为4，N_fd2为2：使用ffmpeg对原视频进行抽帧处理，对每一帧图像进行中心裁剪及尺度变换，其中得到尺度为224*224的图像，将视频帧序列整体分为8段，记作V_f，其中每个视频段为连续的5帧，记作Seg_i，从每个视频段的5帧中抽取中间的1帧，构建出8帧组成的视频帧序列，记作S_f，同时将每个视频段的5帧取帧间差，组成每段4个帧间差记为的序列，记作S_d1，再从帧间差序列中的每段随机抽取2帧，得到每段2个帧间差的序列，记作S_d2，最终得到8帧图像序列S_f、32帧帧间差序列S_d1、16帧帧间差序列S_d2；具体如下：

1.抽帧和预处理后得到的整体视频帧序列如下：

V_f＝{Seg₁,Seg₂,Seg₃,Seg₄,Seg₅,Seg₆,Seg₇,Seg₈}

Seg_i＝{Img₁,Img₂,Img₃,Img₄,Img₅}，i＝1,2,3,…,8

其中V_f代表视频帧序列，其由8个图像序列段Seg_i组成，每个图像序列段中包含了5张图像。

2.从每个视频段的5帧中抽取中间的1帧，构建出8帧组成的图像序列S_f形式如下：

S_f＝{I_seg1,I_seg2,I_seg3,I_seg4,I_seg5,I_seg6,I_seg7,I_seg8}

其中I_segi表示第i个视频段的中间帧。

3.将每个视频段的5帧取帧间差，组成每段4个帧间差序列S_d1具体形式如下：

4.从帧间差序列S_d1中每段抽取2帧，得到每段2个帧间差的序列S_d2具体形式如下：

2)网络配置阶段，即分类模型构建阶段：

2.1)抽取图像序列特征：使用ResNet-50的Conv₁层进行提取，对8帧图像序列S_f提取特征得到

其中上标s的含义该特征为空域特征，1表示第一层卷积层的输出，下标f的含义是图像序列，使用最大池化操作对结果处理，将张量变形为3个维度，输入到随机初始化的一维时序卷积层，该卷积层采用3的卷积核，步长为1，输入通道数为16，输出通道数为16，分组数为16，采取随机初始化的方式进行初始化，使得时序可以自适应调整，再变形为4个维度形式，得到

接着使用ResNet-50的Conv₂层进行进一步的提取，得到通道数为256的图像序列特征

其中st的含义为经过了空域时域提取器处理后的结果，其中B为训练批处理样本个数，8为视频帧的段数，56为图像帧特征的宽和高；具体计算如下。

记ResNet-50中第一层卷积为Conv₁,第二层卷积为Conv₂，最大池化操作为MaxPooling，记张量的变形操作为Reshape，此步骤中所使用的一维卷积层为Conv_1d。

2.2)两个不同长度的帧间差序列S_d1、S_d2分别用输入通道为12和6的二维度卷积层，得到两个相同尺寸的64通道特征

其中s1的含义是经过第一层卷积提取后的结果，d1的含义是长度为32的帧间差序列，d2的含义是长度为16的帧间差序列；具体计算如下。

1.序列长度为32的帧间差序列S_d1的特征提取：

记第一层输入通道数为12,输出通道数为64的卷积层为Conv¹²。

2.序列长度为16的帧间差序列S_d2的特征提取：

记第一层输入通道数为6,输出通道数为64的卷积层为Conv⁶。

2.3)融合多尺度帧间差序列特征：对步骤2.2)得到的两个特征

求和并使用最大池化操作对结果处理，将张量变形为3个维度，输入到随机初始化的一维时序卷积层，该卷积层采用3的卷积核，步长为1，输入通道数为16，输出通道数为16，分组数为16，采取随机初始化的方式进行初始化，使得时序可以自适应调整，再变形为4个维度形式，得到64通道特征

最后输入到ResNet-50的Conv2层得到通道数为256的帧间差特征

具体计算如下。

记最大池化操作为MaxPooling,使用的一维卷积为Conv_rdt,ResNet-50的第二层卷积为Conv₂。

2.4)图像序列特征的局部运动区域增强：将步骤2.3)得到的特征进行运动区域显著性概率图求解，得到每个视频帧段局部运动区域显著性概率图Prob_L∈R^{B*8×256×56×56}，将该图同步骤2.3)得到的特征点乘，得到8个视频段的局部运动信息增强后的视频帧特征F_L∈R^{B*8×256×56×56}；运动区域显著性概率图求解通过一个概率图模块实现。

概率图求解模块中包含3层卷积层，分别为一个1*1的卷积层，一组3*3的卷积层以及一个1*1的卷积层，其中最后一个卷积层的激活函数为Sigmoid函数，我们记第一层1*1卷积层为Conv_prob1,第二层3*3卷积层为Conv_prob2,按通道维度连接操作为Concat,第三层1*1卷积层为Conv_prob3。

Prob_L∈R^{B*8×256×56×56}

得到的局部运动区域显著性概率图Prob_L同原特征点乘

F_L∈R^{B*8×256×56×56}

2.5)图像序列特征的全局运动信息增强：将步骤2.4)得到不同视频段的增强图像序列特征交错求差，获取视频段间特征差F_Ld∈R^{B*8×256×56×56}，而后输入到运动区域显著性概率图求解模块，得到全局运动信息显著性概率图Prob_G∈R^{B*8×256×56×56}，将该图同步骤2.4)得到的特征点乘，得到全局运动信息增强后的特征F_LG∈R^{B*8×256×56×56}。

全局运动信息显著性概率图求解，首先需要将不同视频段的局部运动增强后的特征F_L进行交错求差获取段间特征差F_Ld，而后将段间特征差F_Ld输入到如同步骤2.4)中的同构概率求解模块得到全局概率图Prob_G，再将全局概率图Prob_G同步骤2.4)得到的特征点乘，我们记张量的变形操作为Reshape,按时间维度进行切分操作为Split_t,按时间维度进行连接的操作为Concat_t,按通道维度进行连接的操作为Concat_c，概率图求解模块中第一层1*1卷积为Conv_prob1,第二层3*3卷积层为Conv_prob2,第三层1*1卷积层为Conv_prob3。

F_LG＝Prob_G·F_Ld,F_LG∈R^{B*8×256×56×56}

2.6)视频帧特征的背景信息补偿及特征融合：将步骤2.1)得到的特征同步骤2.5)得到的特征求差得到背景特征F_Bg1∈R^{B*8×256×56×56}，经过输入通道数为256输出通道数为256的二维卷积层Conv_bg处理得到特征F_Bg2∈R^{B*8×256×56×56}，再同步骤2.5)得到的特征求和，得到背景信息补偿后的图像序列特征F_LGBg∈R^{B*8×256×56×56}，为使得帧间差特征提取模块以及帧间差运动区域显著性概率图求解模块在训练的过程中受到更强的约束，将步骤2.3)得到的特征按照0.4的权值加入，得到总的特征中F_total∈R^{B*8×256×56×56}，至此完成了多源动作信息特征的融合；

F_Bg2＝Conv_bg*F_Bg1

F_LGBg＝0.9*F_LG+0.1*F_Bg2

2.7)融合后的特征提取：将步骤2.6)得到的特征输入到ResNet-50中的第3、4、5层卷积层，得到通道数为2048的高级语义表达，将得到的结果经过最后的FC层得到各段的分类结果Score＝{Score_Seg1,Score_Seg2,…,Score_Seg7,Score_Seg8}，使用高斯核函数对各段特征进行融合；具体计算过程如下：

记ResNet-50中的第三层卷积为Conv₃，第四层卷积为Conv₄，第五层卷积为Conv₅，线性层为FC，使用高斯核函数Gaussion融合各段分数。

Output＝Gaussion(FC*(Conv₅*(Conv₄*(Conv₃*F_total))))

3)训练阶段：使用交叉熵函数作为损失函数，使用SGD优化器，使用退火策略通过反向传播算法来更新网络参数，不断重复步骤2)和3)，直至达到迭代次数；

4)测试阶段：使用ffmpeg对测试数据的原视频进行抽帧处理，对每一帧图像进行中心裁剪及尺度变换，其中得到尺度为224*224的图像，将视频帧序列构建出8帧图像序列S_f、32帧帧间差序列S_d1、16帧帧间差序列S_d2，将训练好的参数加载到配置好的网络模型中，将测试数据的图像帧序列、32帧帧间差序列、16帧帧间差序列作为网络的输入，得到输出的分类结果。

上述步骤中，卷积层如无特殊注明均由卷积操作、BatchNormalization操作、ReLU激活函数构成。

本发明提出了一种基于多源运动特征融合的时序自适应视频分类方法。下面通过具体实施例进行进一步说明。经过在Somethin-Something V1数据集上的训练和测试达到了高准确性，优选使用Python3编程语言，Pytorch1.1深度学习框架实施。

图1是本发明实施例所使用的系统框架图，具体实施步骤如下：

1)数据的准备阶段，如图2所示，训练数据和测试数据均使用同一方式进行处理。使用ffmpeg对视频进行抽针按照原帧率处理，统计总的视频类别、每个视频的帧数、以及视频帧所在路径，构建出训练数据的文本与验证数据的文本，以方便程序对数据进行加载。程序通过训练文本读取了视频帧后，对视频帧进行中心裁剪，并将裁剪区域通过双线性插值方式变形为224*224，通过垂直翻转对训练样本进行扩增，将得到的图像序列减去ImageNet数据集三通道均值，最后转化为张量Tensor形式，按批处理数量加载并打乱次序。

2)模型的配置阶段，首先抽取图像序列特征，使用ResNet-50作为基础网络结构，网络中载入ImageNet预训练模型的参数，将网络中的第一个卷积层与第二个卷积层替换为本发明提出的模块，如图3所示，该模块包含多源运动信息融合与时序自适应调整功能，对加载的数据分三路处理，一路从原视频帧序列中采样得到由8段构成，每段1帧的视频帧序列，一路从原视频帧序列采样并计算帧间差，载入由8段构成，每段4个帧间差组成的帧间差序列，一路从上述帧间差序列中每段采样中间的两个帧间差，如此构建出了同样由8段构成，每段2个帧间差组成的帧间差序列。

多尺度帧间差特征的提取和融合，即前述步骤2.2)和2.3)，如图4所示，对于由32个帧间差组成的帧间差序列，使用超图的形式变形为通道数为12的张量，使用输入通道数为12输出通道数为64的二维卷积层进行特征提取；对于由16帧组成的帧间差序列，同样使用超图的形式变形为通道数为6的张量，使用输入通道数为6输出通道数为64的二维卷积层进行特征提取；在融合阶段，首先对两个同尺寸张量进行求和，而后使用最大池化操作和随机初始化的一维卷积层进行时序自适应调整以更好的建模时序，最后将得到的张量输入到ResNet-50中的第二层卷积中得到通道数为256的特征，至此完成了多尺度帧间差特征的提取和融合。

然后进行图像序列特征的局部运动区域增强，帧间差特征的运动区域显著性概率图求解如图5所示，本发明中提出了一种使用于该特征的运动区域显著性概率图求解模块，首先经过一个1*1的二维卷积层，得到通道数为128的特征，而后分为多路，促使每一路可以从不同角度对各路输入学习，每路包含一个3*3的二维卷积层，输入通道数为128，输出通道数为16，接着将各路输出按照通道维度连接，得到通道数为128的中间结果，将该张量输入到第三个卷积层，其中第三个卷积层的激活函数为Sigmoid函数，这样得到了帧间差特征的概率图，该图将用于增强单帧的局部运动区域。

单帧序列特征提取与局部运动区域增强如图6所示，由8帧构成的视频帧序列输入到ResNet-50的Conv1层、最大池化操作、随机初始化的一维卷积层、ResNet-50的Conv2层，得到了单帧序列特征，然后将该特征同帧间差特征概率图进行点乘操作，便得到了局部运动区域增强的单帧序列特征。

接下来对图像序列特征的全局运动特征提取融合与背景特征提取，将单帧序列特征按照时间维度进行交错求差得到全局运动特征，再将全局运动特征输入到本发明提出的概率图求解模块，求解得到全局运动区域概率图，将该概率图同局部运动区域增强后的单帧序列特征点乘，得到经过全局与局部运动区域增强的单帧序列特征；将上述全局与局部运动区域增强后的单帧序列特征同原始单帧序列特征求差，得到背景区域的特征。

多源特征融合阶段与后续的提取阶段，将得到的全局与局部运动区域增强后的特征、背景区域特征、帧间差特征进行加权求和，至此得到了本发明的输出；随后将得到的特征输入到ResNet-50中的Conv3、Conv4、Conv5层，得到FC层前的特征。

使用高斯核函数对各段特征进行融合，如图7所示，将上述得到的特征输入到输入通道为2048，输出通道数为类别数的FC层(实验中设置为174)，得到了每段的类别分数，使用高斯核函数融合的方式，将各段分数汇总。

3)训练阶段，本实施例使用交叉熵损失函数，梯度下降法中的SGD(StochasticGradient Descent)作为优化器，设置批大小BatchSize为16，即每次训练在训练集中取16个样本训练，总的训练轮数设置为50，初始学习率为0.0025，在30，40，45轮处学习率除以10，衰减率设置为5e-4，在4块TITIAN Xp GPU上训练。

4)测试阶段

测试集输入数据的预处理，同训练数据一样，进行中心裁剪而后使用双线性插值方式变形为224*224，通过垂直翻转扩增数据集，将每帧图像减去ImageNet数据集三通道各自均值，所使用的测试指标有ACC(accuracy)、Top1、Top5,ACC指预测正确的样本数占总样本数的比例，Top1指预测的label取最后概率向量里面最大的那一个作为预测结果，如果预测结果中概率最大的那个分类正确，则预测正确，否则预测错误，Top5指最后概率向量最大的前五名中，只要出现了正确概率即为预测正确，否则预测错误，本发明方法在Something-Something V1数据集上，单个视频预测时间约57ms，在预测精度上，同TSN(TemporalSegment Network)对比Top1高了15.6个百分点，ACC达到了31.75％，Top1达到了35.37％，Top5达到了63.83％，在网络Conv3、Conv4、Conv5处分别加入通道偏移策略，在预测精度上，Top1达到了46.19％，Top5达到了75.46％，在该数据集的效果样例如图8所示。

Claims

1.一种基于多源运动特征融合的时序自适应视频分类方法，其特征是采用多源多尺度运动信息融合，并在融合的过程中自适应调整时序，实现视频分类，所述多源多尺度信息包括原视频帧序列信息、段内局部帧间差以及全局段间特征差，所述视频分类步骤包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段：

进行运动信息显著性概率图求解，得到每个视频帧段的局部运动区域显著性概率图，将该图同2.3)得到的结果点乘，得到N_s个视频段的局部运动区域增强图像序列特征F_L；

2.6)图像序列特征的背景信息补偿及融合：将2.1)得到的结果

2.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是步骤1)中，先对所有视频进行抽帧处理，然后对各个视频帧进行中心裁剪，并将裁剪区域通过双线性插值方式变形为224*224，通过垂直翻转对训练样本进行扩增，将得到的图像序列减去ImageNet数据集三通道均值，最后转化为张量Tensor形式，按批处理数量加载训练样本并打乱训练样本顺序，即打乱视频与视频之间的训练次序。

3.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是步骤2)的网络配置中，卷积层由卷积操作、BatchNormalization操作、ReLU激活函数构成。

4.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是步骤2.3)包含特征的时序自适应调整及空域融合，将得到两个64通道特征进行加权求和，权重分别为0.5，求和结果输入到最大池化操作层，将张量变形为3个维度，输入到随机初始化的一维时序卷积层，所述一维时序卷积层采用3的卷积核，步长为1，输入通道数为16，输出通道数为16，分组数为16，采取随机初始化的方式进行初始化，使得时序自适应调整，再变形为4个维度形式，得到64通道特征，64通道特征输入到ResNet-50中的Conv2层进行进一步的提取，得到通道数为256的帧间差特征。

5.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是步骤2.4)中的运动信息显著性概率图求解通过一个概率图求解模块实现，所述概率图求解模块由一个卷积核为1*1的卷积层、一组卷积核为3*3的卷积层以及一个卷积核为1*1的卷积层串联组成，概率图求解模块的输入通道数分别为256、128、128，输出通道分别为128、16、256，其中最后的1*1卷积层由卷积操作、BatchNormalization层及Sigmoid激活函数构成，多尺度帧间差融合得到的特征首先经过1*1卷积层，再将得到的结果分为8路，每路各自输入到3*3的卷积层，将得到的特征按通道维度合并起来，得到128通道数的特征，再将该特征输入到最后的1*1卷积层，最终得到视频段内局部运动区域显著性概率图。

6.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是2.6)所述的图像序列特征的背景信息补偿为：将经过全局运动信息增强后的图像序列特征同图像序列特征求差，得到背景信息的高级语义表达，经过卷积核为1*1，输入通道数为256输出通道数为256的二维卷积层，得到最终的背景信息特征，再同全局运动信息增强后的特征以加权求和的方式补偿背景信息，其中背景信息特征和全局运动信息增强后的特征的加权权值均为0.5。

7.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法，其特征是步骤4)测试阶段中，对测试数据的视频进行同训练数据同样的处理得到视频帧序列。