CN111209883B - 一种基于多源运动特征融合的时序自适应视频分类方法 - Google Patents

一种基于多源运动特征融合的时序自适应视频分类方法 Download PDF

Info

Publication number
CN111209883B
CN111209883B CN202010032965.4A CN202010032965A CN111209883B CN 111209883 B CN111209883 B CN 111209883B CN 202010032965 A CN202010032965 A CN 202010032965A CN 111209883 B CN111209883 B CN 111209883B
Authority
CN
China
Prior art keywords
video
sequence
frame
inter
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010032965.4A
Other languages
English (en)
Other versions
CN111209883A (zh
Inventor
王利民
纪彬
武港山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010032965.4A priority Critical patent/CN111209883B/zh
Publication of CN111209883A publication Critical patent/CN111209883A/zh
Application granted granted Critical
Publication of CN111209883B publication Critical patent/CN111209883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于多源运动特征融合的时序自适应视频分类方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明在融合多源运动信息的同时,通过时序自适应调整,适配视频分类任务,获得了鲁棒性强且精度高的视频分类方法,提出了融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性。

Description

一种基于多源运动特征融合的时序自适应视频分类方法
技术领域
本发明属于计算机软件技术领域,涉及视频分类技术,具体为一种基于多源运动特征融合的时序自适应视频分类方法。
背景技术
随着互联网上的视频数据爆炸式地增长,视频分类任务迎来了的巨大挑战,包括如何高精度地进行视频分类以及较低的可接受的时间复杂度,目前使用深度学习网络技术进行视频分类已然十分普遍,具体的应用方式大体上分为三种。
第一种应用方式是使用三维卷积层进行视频分类任务,三维卷积层可同时建模时间和空间,近些年出现了一些十分出色的工作,例如Du Tran提出使用VGG模型的三维卷积层来学习视频帧序列的时空特征,Joao Carreira提出了对二维卷积层进行扩展,将Inception V1模型中的二维卷积层扩展为三维卷积层,并取得了不错的效果,但是使用三维卷积层会导致计算量大、部署困难以及容易过拟合的问题,总体来说,这种方式的特点是精度高但时间复杂度高。
第二种应用方式是使用二维卷积层构建的神经网络提取特征,然后进行时序的后建模,例如Karen Simonyan设计了一种双流二维卷积神经网络分别对时间和空间建模的视频分类方法,TSN(Temporal Segment Network)利用二维卷积层提取空间信息,而后使用平均池化的方式来融合各段信息得到最终结果,总的来说,这种方式的特点是时间复杂度低但精确度不高。
第三种应用方式是多种形式卷积或卷积操作替代品的组合来分别对视频段空间和时间信息进行建模,以期望达到高精度与较低时间复杂度,近些年也出现了许多比较出色的工作,ECO实现了十分有效的框架,TSM(Temporal Shift Module)基于二维卷积并使用空域特征在时间维度的偏移方式,达到了二维卷积计算的低时间复杂度和三维卷积建模的高精度。
视频中动作的类别为一系列子动作组成的高级语义信息,这些子动作代表着高级语义中的一个小环节,子动作与子动作之间的变化我们可以称之为全局运动,子动作之内的变化我们可以称之为局部运动,这种运动的建模脱离了对视频背景的依赖,有效的全局与局部运动信息建模融合策略可提升视频分类的鲁棒性,本发明着力于如何有效地融合多种运动信息,TSN(Temporal Segment Network)这项工作提出可使用帧间差作为输入,并提出了在ResNet-50的Conv1处对ImageNet预训练模型参数按通道平均的初始化技术,这种输入数据仅保留了帧与帧之间的运动信息且相比光流可以更容易更快速的获取,因此十分适合用于局部运动的建模,TEINet这项工作使用视频全局段间的特征差来增强图像帧序列全局运动区域,但目前缺少一种对局部运动、全局运动合适的同时建模与融合方法,以及在视频运动建模融合过程中同时考虑时序自适应调整的低计算量方法。
发明内容
本发明要解决的问题是:现有的很多视频分类方法往往依赖于视频中的背景区域做分类判断,这些方法不具备好的准确性和鲁棒性,视频中动作包括全局运动和局部运动,这种运动的建模脱离了对视频背景的依赖,有效的全局与局部运动信息建模融合策略可提升视频分类的鲁棒性,本发明要解决的问题便是如何以一种低时间复杂度的结合方式对局部运动和全局运动同时建模,建模之后如何有效地融合以及如何在融合的过程中自适应地调整时序,其中自适应地调整时序指的是对每一个时间点在时序维度上同各个时间点的关联建模。
本发明的技术方案为:一种基于多源运动特征融合的时序自适应视频分类方法,采用多源多尺度运动信息融合,并在融合的过程中自适应调整时序,实现视频分类,所述多源多尺度信息包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,所述视频分类步骤包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练样例阶段:对对视频进行处理,对于每个视频,将视频图像序列Vf分为Ns个视频段,其中每个视频段取连续的Nf帧,再从其中抽取中间1帧,构建出Ns帧图像组成的图像序列Sf,同时将每个视频段的Nf帧之间取帧间差,得到Nfd1个帧间差,组成Ns*Nfd1个帧间差的帧间差序列Sd1,从每个视频段的帧间差中取出中间Nfd2个结果,得到Ns*Nfd2个帧间差的序列Sd2,其中视频段数Ns的大小表示在全局上进行时间划分的细粒程度,每段所取出的帧数Nf表示每段时间节点的局部范围大小,每个视频段的帧间差数量Nfd1为Nf-1,表示局部信息建模的一个尺度,尺度Nfd2=Nfd1/2为另一个局部信息建模尺度;
2)网络配置阶段:使用ResNet-50作为基础网络结构,建立视频分类模型,模型包括以下配置:
2.1)抽取图像序列特征:使用ResNet-50的Conv1层对输入的图像序列Sf处理,而后使用最大池化操作以及随机初始化的一维卷积层进行时序的自适应调整,然后使用ResNet-50的Conv2对特征进行再一次的提取,得到通道数为256的图像序列特征
2.2)抽取多尺度帧间差序列特征:将帧间差序列Sd1用输入通道为12的二维卷积层得到64通道特征,帧间差序列Sd2用输入通道为6的二维度卷积层得到64通道特征;
2.3)融合多尺度帧间差序列特征:对2.2)得到的两个64通道特征求和,并使用最大池化操作与随机初始化的一维卷积层进行时间维度的自适应变换,再输入到ResNet-50的Conv2层得到通道数为256的多尺度融合帧间差特征
2.4)图像序列特征的局部运动区域增强:将2.3)得到的多尺度融合帧间差特征进行运动信息显著性概率图求解,得到每个视频帧段的局部运动区域显著性概率图,将该图同2.3)得到的结果点乘,得到Ns个视频段局部运动区域增强后的图像序列特征FL
2.5)图像序列特征的全局运动信息增强:将2.4)得到的不同视频段的局部运动区域增强图像序列特征交错求差,获取段间特征差,再进行运动信息显著性概率图求解,得到图像序列的全局运动信息显著性概率图,将该图同2.4)得到的结果点乘,得到全局运动信息增强后的特征FLG
2.6)图像序列特征的背景信息补偿及融合:将2.1)得到的结果同2.5)得到的结果FLG求差得到背景特征FBg,经过二维卷积层处理,再同2.5)得到的结果FLG求和,得到背景信息补偿后的图像序列特征FLGBg,即图像特征高级语义表达,将2.3)得到多尺度融合帧间差特征/>按照0.4的权值加入到背景信息补偿后的图像序列特征中,完成多源运动信息特征的融合;
2.7)融合后的特征提取:将2.6)得到的结果输入到ResNet-50中的Conv3、Conv4、Conv5,得到通道数为2048的高级语义表达,再经过最后的全连接层FC得到各视频段的分类结果,使用高斯核函数对各视频段分类结果进行融合,输出视频分类结果;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵函数作为损失函数,使用SGD优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤2)和步骤3),直至达到迭代次数;
4)测试阶段:将测试数据的视频帧序列输入到训练完成的模型中,得到分类结果。
本发明与现有技术相比有如下优点
本发明提出了一种多尺度处理局部运动信息的方法,这种多尺度的处理方式相比单尺度而言在时间维度上对局部信息又一次细化,距离单帧不同的时间范围会具备不同的影响因子。
本发明采取一种有效融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性,在融合过程中对于全局和局部运动信息概率图的求解,使用了一种多路计算再汇总的方式,使得该模块可以从不同的角度理解运动特征。
本发明在多源信息处理融合阶段采用随机初始化的可学习一维卷积进行自适应时序调整,而网络深层仅进行空间建模,且尾端各视频段分类分数汇总采取高斯核函数的方式,相比与现有时序建模方法,计算量更小,更加灵活。
本发明在视频分类任务上体现了很好的鲁棒性,不同于部分现有方法会对视频背景产生强依赖,在实际视频内容安全平台项目应用中相比部分现有方法体现了好的准确性。
附图说明
图1是本发明所使用的系统框架图。
图2是本发明视频的抽帧处理示意图。
图3是本发明提出的多源信息融合模块示意图。
图4是本发明提出的多尺度帧间差特征提取融合示意图。
图5是本发明提出的概率图求解过程示意图。
图6是本发明单帧特征序列特征提取过程示意图。
图7是本发明在网络尾端所使用的高斯核融合各段分数示意图。
图8展示本发明在Something-Something V1数据集样例上得到的Top1类别与Top5类别效果图。
图9为本发明的总体流程示意图。
具体实施方式
本发明一种基于多源运动特征融合的时序自适应视频分类方法,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明方法包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,如图9所示,具体说明如下。
1)生成训练样例:对视频进行处理,对于每个视频,将视频图像序列Vf分为Ns个视频段,其中每个视频段取连续的Nf帧,再从其中抽取中间1帧,构建出Ns帧图像组成的图像序列Sf,同时将每个视频段的Nf帧之间取帧间差,得到Nfd1个帧间差,组成Ns*Nfd1个帧间差的帧间差序列Sd1,从每个视频段的帧间差中取出中间Nfd2个结果,得到Ns视频段*Nfd2个帧间差的序列Sd2,其中视频段数Ns的大小表示在全局上进行时间划分的细粒程度,每段所取出的帧数Nf表示每段时间节点的局部范围大小,每个视频段的帧间差数量Nfd1为Nf-1,表示局部信息建模的一个尺度,第二个局部信息建模的尺度Nfd2为Nfd1/2,Ns、Nf的取值较为灵活,取决于算力的大小,为减小时间复杂度的同时保留更多的局部信息。
本发明实施例中Ns取8,Nf取5,相应的Nfd1为4,Nfd2为2:使用ffmpeg对原视频进行抽帧处理,对每一帧图像进行中心裁剪及尺度变换,其中得到尺度为224*224的图像,将视频帧序列整体分为8段,记作Vf,其中每个视频段为连续的5帧,记作Segi,从每个视频段的5帧中抽取中间的1帧,构建出8帧组成的视频帧序列,记作Sf,同时将每个视频段的5帧取帧间差,组成每段4个帧间差记为的序列,记作Sd1,再从帧间差序列中的每段随机抽取2帧,得到每段2个帧间差的序列,记作Sd2,最终得到8帧图像序列Sf、32帧帧间差序列Sd1、16帧帧间差序列Sd2;具体如下:
1.抽帧和预处理后得到的整体视频帧序列如下:
Vf={Seg1,Seg2,Seg3,Seg4,Seg5,Seg6,Seg7,Seg8}
Segi={Img1,Img2,Img3,Img4,Img5},i=1,2,3,…,8
其中Vf代表视频帧序列,其由8个图像序列段Segi组成,每个图像序列段中包含了5张图像。
2.从每个视频段的5帧中抽取中间的1帧,构建出8帧组成的图像序列Sf形式如下:
Sf={Iseg1,Iseg2,Iseg3,Iseg4,Iseg5,Iseg6,Iseg7,Iseg8}
其中Isegi表示第i个视频段的中间帧。
3.将每个视频段的5帧取帧间差,组成每段4个帧间差序列Sd1具体形式如下:
4.从帧间差序列Sd1中每段抽取2帧,得到每段2个帧间差的序列Sd2具体形式如下:
2)网络配置阶段,即分类模型构建阶段:
2.1)抽取图像序列特征:使用ResNet-50的Conv1层进行提取,对8帧图像序列Sf提取特征得到其中上标s的含义该特征为空域特征,1表示第一层卷积层的输出,下标f的含义是图像序列,使用最大池化操作对结果处理,将张量变形为3个维度,输入到随机初始化的一维时序卷积层,该卷积层采用3的卷积核,步长为1,输入通道数为16,输出通道数为16,分组数为16,采取随机初始化的方式进行初始化,使得时序可以自适应调整,再变形为4个维度形式,得到/>接着使用ResNet-50的Conv2层进行进一步的提取,得到通道数为256的图像序列特征/> 其中st的含义为经过了空域时域提取器处理后的结果,其中B为训练批处理样本个数,8为视频帧的段数,56为图像帧特征的宽和高;具体计算如下。
记ResNet-50中第一层卷积为Conv1,第二层卷积为Conv2,最大池化操作为MaxPooling,记张量的变形操作为Reshape,此步骤中所使用的一维卷积层为Conv1d
2.2)两个不同长度的帧间差序列Sd1、Sd2分别用输入通道为12和6的二维度卷积层,得到两个相同尺寸的64通道特征其中s1的含义是经过第一层卷积提取后的结果,d1的含义是长度为32的帧间差序列,d2的含义是长度为16的帧间差序列;具体计算如下。
1.序列长度为32的帧间差序列Sd1的特征提取:
记第一层输入通道数为12,输出通道数为64的卷积层为Conv12
2.序列长度为16的帧间差序列Sd2的特征提取:
记第一层输入通道数为6,输出通道数为64的卷积层为Conv6
2.3)融合多尺度帧间差序列特征:对步骤2.2)得到的两个特征求和并使用最大池化操作对结果处理,将张量变形为3个维度,输入到随机初始化的一维时序卷积层,该卷积层采用3的卷积核,步长为1,输入通道数为16,输出通道数为16,分组数为16,采取随机初始化的方式进行初始化,使得时序可以自适应调整,再变形为4个维度形式,得到64通道特征/>最后输入到ResNet-50的Conv2层得到通道数为256的帧间差特征/>具体计算如下。
记最大池化操作为MaxPooling,使用的一维卷积为Convrdt,ResNet-50的第二层卷积为Conv2
2.4)图像序列特征的局部运动区域增强:将步骤2.3)得到的特征进行运动区域显著性概率图求解,得到每个视频帧段局部运动区域显著性概率图ProbL∈RB*8×256×56×56,将该图同步骤2.3)得到的特征点乘,得到8个视频段的局部运动信息增强后的视频帧特征FL∈RB*8×256×56×56;运动区域显著性概率图求解通过一个概率图模块实现。
概率图求解模块中包含3层卷积层,分别为一个1*1的卷积层,一组3*3的卷积层以及一个1*1的卷积层,其中最后一个卷积层的激活函数为Sigmoid函数,我们记第一层1*1卷积层为Convprob1,第二层3*3卷积层为Convprob2,按通道维度连接操作为Concat,第三层1*1卷积层为Convprob3
ProbL∈RB*8×256×56×56
得到的局部运动区域显著性概率图ProbL同原特征点乘
FL∈RB*8×256×56×56
2.5)图像序列特征的全局运动信息增强:将步骤2.4)得到不同视频段的增强图像序列特征交错求差,获取视频段间特征差FLd∈RB*8×256×56×56,而后输入到运动区域显著性概率图求解模块,得到全局运动信息显著性概率图ProbG∈RB*8×256×56×56,将该图同步骤2.4)得到的特征点乘,得到全局运动信息增强后的特征FLG∈RB*8×256×56×56
全局运动信息显著性概率图求解,首先需要将不同视频段的局部运动增强后的特征FL进行交错求差获取段间特征差FLd,而后将段间特征差FLd输入到如同步骤2.4)中的同构概率求解模块得到全局概率图ProbG,再将全局概率图ProbG同步骤2.4)得到的特征点乘,我们记张量的变形操作为Reshape,按时间维度进行切分操作为Splitt,按时间维度进行连接的操作为Concatt,按通道维度进行连接的操作为Concatc,概率图求解模块中第一层1*1卷积为Convprob1,第二层3*3卷积层为Convprob2,第三层1*1卷积层为Convprob3
FLG=ProbG·FLd,FLG∈RB*8×256×56×56
2.6)视频帧特征的背景信息补偿及特征融合:将步骤2.1)得到的特征同步骤2.5)得到的特征求差得到背景特征FBg1∈RB*8×256×56×56,经过输入通道数为256输出通道数为256的二维卷积层Convbg处理得到特征FBg2∈RB*8×256×56×56,再同步骤2.5)得到的特征求和,得到背景信息补偿后的图像序列特征FLGBg∈RB*8×256×56×56,为使得帧间差特征提取模块以及帧间差运动区域显著性概率图求解模块在训练的过程中受到更强的约束,将步骤2.3)得到的特征按照0.4的权值加入,得到总的特征中Ftotal∈RB*8×256×56×56,至此完成了多源动作信息特征的融合;
FBg2=Convbg*FBg1
FLGBg=0.9*FLG+0.1*FBg2
2.7)融合后的特征提取:将步骤2.6)得到的特征输入到ResNet-50中的第3、4、5层卷积层,得到通道数为2048的高级语义表达,将得到的结果经过最后的FC层得到各段的分类结果Score={ScoreSeg1,ScoreSeg2,…,ScoreSeg7,ScoreSeg8},使用高斯核函数对各段特征进行融合;具体计算过程如下:
记ResNet-50中的第三层卷积为Conv3,第四层卷积为Conv4,第五层卷积为Conv5,线性层为FC,使用高斯核函数Gaussion融合各段分数。
Output=Gaussion(FC*(Conv5*(Conv4*(Conv3*Ftotal))))
3)训练阶段:使用交叉熵函数作为损失函数,使用SGD优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤2)和3),直至达到迭代次数;
4)测试阶段:使用ffmpeg对测试数据的原视频进行抽帧处理,对每一帧图像进行中心裁剪及尺度变换,其中得到尺度为224*224的图像,将视频帧序列构建出8帧图像序列Sf、32帧帧间差序列Sd1、16帧帧间差序列Sd2,将训练好的参数加载到配置好的网络模型中,将测试数据的图像帧序列、32帧帧间差序列、16帧帧间差序列作为网络的输入,得到输出的分类结果。
上述步骤中,卷积层如无特殊注明均由卷积操作、BatchNormalization操作、ReLU激活函数构成。
本发明提出了一种基于多源运动特征融合的时序自适应视频分类方法。下面通过具体实施例进行进一步说明。经过在Somethin-Something V1数据集上的训练和测试达到了高准确性,优选使用Python3编程语言,Pytorch1.1深度学习框架实施。
图1是本发明实施例所使用的系统框架图,具体实施步骤如下:
1)数据的准备阶段,如图2所示,训练数据和测试数据均使用同一方式进行处理。使用ffmpeg对视频进行抽针按照原帧率处理,统计总的视频类别、每个视频的帧数、以及视频帧所在路径,构建出训练数据的文本与验证数据的文本,以方便程序对数据进行加载。程序通过训练文本读取了视频帧后,对视频帧进行中心裁剪,并将裁剪区域通过双线性插值方式变形为224*224,通过垂直翻转对训练样本进行扩增,将得到的图像序列减去ImageNet数据集三通道均值,最后转化为张量Tensor形式,按批处理数量加载并打乱次序。
2)模型的配置阶段,首先抽取图像序列特征,使用ResNet-50作为基础网络结构,网络中载入ImageNet预训练模型的参数,将网络中的第一个卷积层与第二个卷积层替换为本发明提出的模块,如图3所示,该模块包含多源运动信息融合与时序自适应调整功能,对加载的数据分三路处理,一路从原视频帧序列中采样得到由8段构成,每段1帧的视频帧序列,一路从原视频帧序列采样并计算帧间差,载入由8段构成,每段4个帧间差组成的帧间差序列,一路从上述帧间差序列中每段采样中间的两个帧间差,如此构建出了同样由8段构成,每段2个帧间差组成的帧间差序列。
多尺度帧间差特征的提取和融合,即前述步骤2.2)和2.3),如图4所示,对于由32个帧间差组成的帧间差序列,使用超图的形式变形为通道数为12的张量,使用输入通道数为12输出通道数为64的二维卷积层进行特征提取;对于由16帧组成的帧间差序列,同样使用超图的形式变形为通道数为6的张量,使用输入通道数为6输出通道数为64的二维卷积层进行特征提取;在融合阶段,首先对两个同尺寸张量进行求和,而后使用最大池化操作和随机初始化的一维卷积层进行时序自适应调整以更好的建模时序,最后将得到的张量输入到ResNet-50中的第二层卷积中得到通道数为256的特征,至此完成了多尺度帧间差特征的提取和融合。
然后进行图像序列特征的局部运动区域增强,帧间差特征的运动区域显著性概率图求解如图5所示,本发明中提出了一种使用于该特征的运动区域显著性概率图求解模块,首先经过一个1*1的二维卷积层,得到通道数为128的特征,而后分为多路,促使每一路可以从不同角度对各路输入学习,每路包含一个3*3的二维卷积层,输入通道数为128,输出通道数为16,接着将各路输出按照通道维度连接,得到通道数为128的中间结果,将该张量输入到第三个卷积层,其中第三个卷积层的激活函数为Sigmoid函数,这样得到了帧间差特征的概率图,该图将用于增强单帧的局部运动区域。
单帧序列特征提取与局部运动区域增强如图6所示,由8帧构成的视频帧序列输入到ResNet-50的Conv1层、最大池化操作、随机初始化的一维卷积层、ResNet-50的Conv2层,得到了单帧序列特征,然后将该特征同帧间差特征概率图进行点乘操作,便得到了局部运动区域增强的单帧序列特征。
接下来对图像序列特征的全局运动特征提取融合与背景特征提取,将单帧序列特征按照时间维度进行交错求差得到全局运动特征,再将全局运动特征输入到本发明提出的概率图求解模块,求解得到全局运动区域概率图,将该概率图同局部运动区域增强后的单帧序列特征点乘,得到经过全局与局部运动区域增强的单帧序列特征;将上述全局与局部运动区域增强后的单帧序列特征同原始单帧序列特征求差,得到背景区域的特征。
多源特征融合阶段与后续的提取阶段,将得到的全局与局部运动区域增强后的特征、背景区域特征、帧间差特征进行加权求和,至此得到了本发明的输出;随后将得到的特征输入到ResNet-50中的Conv3、Conv4、Conv5层,得到FC层前的特征。
使用高斯核函数对各段特征进行融合,如图7所示,将上述得到的特征输入到输入通道为2048,输出通道数为类别数的FC层(实验中设置为174),得到了每段的类别分数,使用高斯核函数融合的方式,将各段分数汇总。
3)训练阶段,本实施例使用交叉熵损失函数,梯度下降法中的SGD(StochasticGradient Descent)作为优化器,设置批大小BatchSize为16,即每次训练在训练集中取16个样本训练,总的训练轮数设置为50,初始学习率为0.0025,在30,40,45轮处学习率除以10,衰减率设置为5e-4,在4块TITIAN Xp GPU上训练。
4)测试阶段
测试集输入数据的预处理,同训练数据一样,进行中心裁剪而后使用双线性插值方式变形为224*224,通过垂直翻转扩增数据集,将每帧图像减去ImageNet数据集三通道各自均值,所使用的测试指标有ACC(accuracy)、Top1、Top5,ACC指预测正确的样本数占总样本数的比例,Top1指预测的label取最后概率向量里面最大的那一个作为预测结果,如果预测结果中概率最大的那个分类正确,则预测正确,否则预测错误,Top5指最后概率向量最大的前五名中,只要出现了正确概率即为预测正确,否则预测错误,本发明方法在Something-Something V1数据集上,单个视频预测时间约57ms,在预测精度上,同TSN(TemporalSegment Network)对比Top1高了15.6个百分点,ACC达到了31.75%,Top1达到了35.37%,Top5达到了63.83%,在网络Conv3、Conv4、Conv5处分别加入通道偏移策略,在预测精度上,Top1达到了46.19%,Top5达到了75.46%,在该数据集的效果样例如图8所示。

Claims (7)

1.一种基于多源运动特征融合的时序自适应视频分类方法,其特征是采用多源多尺度运动信息融合,并在融合的过程中自适应调整时序,实现视频分类,所述多源多尺度运动信息包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,所述视频分类的步骤包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段:
1)生成训练样例阶段:对视频进行处理,对于每个视频,将视频图像序列Vf分为Ns个视频段,其中每个视频段取连续的Nf帧,再从其中抽取中间1帧,构建出Ns帧图像组成的图像序列Sf,同时将每个视频段的Nf帧之间取帧间差,得到Nfd1个帧间差,组成Ns*Nfd1个帧间差的帧间差序列Sd1,从每个视频段的帧间差中取出中间Nfd2个结果,得到Ns*Nfd2个帧间差的序列Sd2,其中视频段数Ns的大小表示在全局上进行时间划分的细粒程度,每段所取出的帧数Nf表示每段时间节点的局部范围大小,每个视频段的帧间差数量Nfd1为Nf-1,表示局部信息建模的一个尺度,尺度Nfd2=Nfd1/2为另一个局部信息建模尺度;
2)网络配置阶段:使用ResNet-50作为基础网络结构,建立视频分类模型,模型包括以下配置:
2.1)抽取图像序列特征:使用ResNet-50的Conv1层对输入的图像序列Sf处理,而后使用最大池化操作以及随机初始化的一维卷积层进行时序的自适应调整,然后使用ResNet-50的Conv2对特征进行再一次的提取,得到通道数为256的图像序列特征
2.2)抽取多尺度帧间差序列特征:将帧间差序列Sd1用输入通道为12的二维卷积层得到64通道特征,帧间差序列Sd2用输入通道为6的二维度卷积层得到64通道特征;
2.3)融合多尺度帧间差序列特征:对2.2)得到的两个64通道特征求和,并使用最大池化操作与随机初始化的一维卷积层进行时间维度的自适应变换,再输入到ResNet-50的Conv2层得到通道数为256的多尺度融合帧间差特征
2.4)图像序列特征的局部运动区域增强:将2.3)得到的多尺度融合帧间差特征进行运动信息显著性概率图求解,得到每个视频帧段的局部运动区域显著性概率图,将该图同2.3)得到的结果点乘,得到Ns个视频段的局部运动区域增强图像序列特征FL
2.5)图像序列特征的全局运动信息增强:将2.4)得到的不同视频段的局部运动区域增强图像序列特征交错求差,获取段间特征差,再进行运动信息显著性概率图求解,得到图像序列的全局运动信息显著性概率图,将该图同2.4)得到的结果点乘,得到全局运动信息增强后的特征FLG
2.6)图像序列特征的背景信息补偿及融合:将2.1)得到的结果同2.5)得到的结果FLG求差得到背景特征FBg,经过二维卷积层处理,再同2.5)得到的结果FLG求和,得到背景信息补偿后的图像序列特征FLGBg,即图像特征高级语义表达,将2.3)得到的多尺度融合帧间差特征/>按照0.4的权值加入到背景信息补偿后的图像序列特征中,完成多源运动信息特征的融合;
2.7)融合后的特征提取:将2.6)得到的结果输入到ResNet-50中的Conv3、Conv4、Conv5,得到通道数为2048的高级语义表达,再经过最后的全连接层FC得到各视频段的分类结果,使用高斯核函数对各视频段分类结果进行融合,输出视频分类结果;
3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵函数作为损失函数,使用SGD优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤2)和步骤3),直至达到迭代次数;
4)测试阶段:将测试数据的视频帧序列输入到训练完成的模型中,得到分类结果。
2.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是步骤1)中,先对所有视频进行抽帧处理,然后对各个视频帧进行中心裁剪,并将裁剪区域通过双线性插值方式变形为224*224,通过垂直翻转对训练样本进行扩增,将得到的图像序列减去ImageNet数据集三通道均值,最后转化为张量Tensor形式,按批处理数量加载训练样本并打乱训练样本顺序,即打乱视频与视频之间的训练次序。
3.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是步骤2)的网络配置中,卷积层由卷积操作、BatchNormalization操作、ReLU激活函数构成。
4.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是步骤2.3)包含特征的时序自适应调整及空域融合,将得到的两个64通道特征进行加权求和,权重分别为0.5,求和结果输入到最大池化操作层,将张量变形为3个维度,输入到随机初始化的一维时序卷积层,所述一维时序卷积层采用3的卷积核,步长为1,输入通道数为16,输出通道数为16,分组数为16,采取随机初始化的方式进行初始化,使得时序自适应调整,再变形为4个维度形式,得到64通道特征,64通道特征输入到ResNet-50中的Conv2层进行进一步的提取,得到通道数为256的帧间差特征。
5.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是步骤2.4)中的运动信息显著性概率图求解通过一个概率图求解模块实现,所述概率图求解模块由一个卷积核为1*1的卷积层、一组卷积核为3*3的卷积层以及一个卷积核为1*1的卷积层串联组成,概率图求解模块的输入通道数分别为256、128、128,输出通道分别为128、16、256,其中最后的1*1卷积层由卷积操作、BatchNormalization层及Sigmoid激活函数构成,多尺度帧间差融合得到的特征首先经过1*1卷积层,再将得到的结果分为8路,每路各自输入到3*3的卷积层,将得到的特征按通道维度合并起来,得到128通道数的特征,再将该特征输入到最后的1*1卷积层,最终得到视频段内局部运动区域显著性概率图。
6.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是2.6)所述的图像序列特征的背景信息补偿为:将经过全局运动信息增强后的图像序列特征同图像序列特征求差,得到背景信息的高级语义表达,经过卷积核为1*1、输入通道数为256、输出通道数为256的二维卷积层,得到最终的背景信息特征,再同全局运动信息增强后的特征以加权求和的方式补偿背景信息,其中背景信息特征和全局运动信息增强后的特征的加权权值均为0.5。
7.根据权利要求1所述的一种基于多源运动特征融合的时序自适应视频分类方法,其特征是步骤4)测试阶段中,对测试数据的视频进行同训练数据同样的处理得到视频帧序列。
CN202010032965.4A 2020-01-13 2020-01-13 一种基于多源运动特征融合的时序自适应视频分类方法 Active CN111209883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010032965.4A CN111209883B (zh) 2020-01-13 2020-01-13 一种基于多源运动特征融合的时序自适应视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010032965.4A CN111209883B (zh) 2020-01-13 2020-01-13 一种基于多源运动特征融合的时序自适应视频分类方法

Publications (2)

Publication Number Publication Date
CN111209883A CN111209883A (zh) 2020-05-29
CN111209883B true CN111209883B (zh) 2023-08-04

Family

ID=70785116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010032965.4A Active CN111209883B (zh) 2020-01-13 2020-01-13 一种基于多源运动特征融合的时序自适应视频分类方法

Country Status (1)

Country Link
CN (1) CN111209883B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070019A (zh) * 2020-09-08 2020-12-11 河南威虎智能科技有限公司 一种人脸识别方法、装置、电子设备和存储介质
CN112215180B (zh) * 2020-10-20 2024-05-07 腾讯科技(深圳)有限公司 一种活体检测方法及装置
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN113033283B (zh) * 2020-12-18 2022-11-22 神思电子技术股份有限公司 一种改进的视频分类系统
CN114821379B (zh) * 2021-01-28 2024-03-22 南京大学 一种基于松弛变换解码器的直接时序动作检测方法
CN112633260B (zh) * 2021-03-08 2021-06-22 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN112818958B (zh) * 2021-03-24 2022-07-19 苏州科达科技股份有限公司 动作识别方法、装置及存储介质
CN113449148B (zh) * 2021-06-24 2023-10-20 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及存储介质
CN114048835A (zh) * 2021-08-01 2022-02-15 北京工业大学 一种基于时序卷积网络的道路基层应变分析方法
CN113422982B (zh) * 2021-08-23 2021-12-14 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN113688801B (zh) * 2021-10-22 2022-02-15 南京智谱科技有限公司 一种基于光谱视频的化工气体泄漏检测方法及系统
CN114155480A (zh) * 2022-02-10 2022-03-08 北京智视数策科技发展有限公司 一种低俗动作识别方法
CN115082840B (zh) * 2022-08-16 2022-11-15 之江实验室 基于数据组合和通道相关性的动作视频分类方法和装置
CN117830637A (zh) * 2024-03-04 2024-04-05 中国人民解放军火箭军工程大学 一种视觉语义分割方法、系统、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229300A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频分类方法、装置、计算机可读存储介质和电子设备
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
CN109508584B (zh) * 2017-09-15 2022-12-02 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229300A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频分类方法、装置、计算机可读存储介质和电子设备
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备

Also Published As

Publication number Publication date
CN111209883A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111209883B (zh) 一种基于多源运动特征融合的时序自适应视频分类方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108830157B (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108510485B (zh) 一种基于卷积神经网络的无参照图像质量评估方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN112215423B (zh) 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统
CN111950711A (zh) 复值前向神经网络的二阶混合构建方法及系统
CN106203628A (zh) 一种增强深度学习算法鲁棒性的优化方法和系统
CN112766062A (zh) 一种基于双流深度神经网络的人体行为识别方法
CN111179272A (zh) 一种面向道路场景的快速语义分割方法
CN111008570A (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN114005046A (zh) 基于Gabor滤波器和协方差池化的遥感场景分类方法
CN114169385A (zh) 基于混合数据增强的mswi过程燃烧状态识别方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN115775284A (zh) 一种分阶段多路径文本生成图像的网络架构方法
CN115457269A (zh) 一种基于改进DenseNAS的语义分割方法
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant