CN111259782A - 基于混合多尺度时序可分离卷积操作的视频行为识别方法 - Google Patents

基于混合多尺度时序可分离卷积操作的视频行为识别方法 Download PDF

Info

Publication number
CN111259782A
CN111259782A CN202010037026.9A CN202010037026A CN111259782A CN 111259782 A CN111259782 A CN 111259782A CN 202010037026 A CN202010037026 A CN 202010037026A CN 111259782 A CN111259782 A CN 111259782A
Authority
CN
China
Prior art keywords
picture
sequence
time
video
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010037026.9A
Other languages
English (en)
Other versions
CN111259782B (zh
Inventor
王勇涛
单开禹
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010037026.9A priority Critical patent/CN111259782B/zh
Publication of CN111259782A publication Critical patent/CN111259782A/zh
Application granted granted Critical
Publication of CN111259782B publication Critical patent/CN111259782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,通过将原始视频抽取成图片序列,将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列,对图片子序列进行特征提取,再对图片子序列特征进行分类,得到分类结果,作为视频内发生行为的类别;采用加入了混合多尺度时序可分离卷积的卷积神经网络模型作为学习器,提取图片子序列的语义特征,使用卷积神经网络模型中的全连接层对提取到的图片子序列特征进行分类。本发明方法用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题,可应用于视频行为识别等方面的视频理解任务,能够高效地实现视频行为识别。

Description

基于混合多尺度时序可分离卷积操作的视频行为识别方法
技术领域
本发明属于机器视觉及深度学习技术领域,涉及视频行为识别技术,尤其涉及一种使用混合多尺度时序深度可分离卷积的高效视频行为识别的方法。
背景技术
视频行为识别的目的是,对于给定的一段视频,分析出视频中所发生的的动作类别,给出对应的标签。该任务可认为是视频分类任务的一种。对于后续进行其他视频内容理解的任务来说,视频分类任务是基础,所以有着很重要的作用。视频行为识别作为一项基础任务,广泛应用于人机交互,城市安全监控等场景。
在对视频行为进行识别的过程中,现有方法采用神经网络进行特征提取。其主要分成三种:1)直接使用3D卷积神经单元进行特征提取,在每次卷积过程中,时空特征提取在时间维度和空间维度的计算是同时的。这导致参数量和计算量的大大提高。2)只使用2D卷积,提取每帧图片的特征,独立进行判断,最后结果取平均。这种方式虽然高效,却缺乏有效的时序建模能力,在需要强时序推理的数据集和任务上表现糟糕。3)将时序建模和空间建模分开进行,分别采用1D卷积和2D卷积进行建模,降低了3D卷积的计算量。这种方法同样也有缺点,首先绝大部分方法使用普通1D卷积,其参数量和计算量依然不小。其次,这些方法都采用固定尺度的1D卷积核,无法同时处理长时序和短时序动作。以上所述导致了现有方法难以在现实场景中落地,急需更高效的方法进行时空特征建模。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于混合多尺度时序深度可分离卷积操作的时空建模方法,用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题,可应用于但不限于视频行为识别的视频理解任务,能够高效地实现视频行为识别。
本发明将不同大小的深度可分离卷积融合在一个深度可分离卷积操作中,对不同通道的特征进行不同尺度的时序建模,用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题。进一步,通过将该操作插入现有2D卷积神经网络中,可以让传统2D卷积神经网络具有高效的时空建模能力,在几乎不增加多余计算量的情况下极大程度提高了传统2D卷积神经网络在需要强时序推理的数据集和任务上的表现。
本发明提供的技术方案是:
一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,通过将原始视频按照一定标准抽取成图片序列,将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列,然后对图片子序列进行特征提取,再对图片子序列特征进行分类,得到分类结果,作为视频内发生行为的类别。其中为了提取图片子序列的特征,采用加入了混合多尺度时序可分离卷积的卷积神经网络模型作为学习器,使用卷积神经网络模型中的全连接层对提取到的图片子序列特征进行分类。具体包括如下步骤:
1)视频图片抽帧。
通过ffmpeg(https://www.ffmpeg.org/)对原始视频抽取为图片序列,作为每个视频的初始数据形式。根据视频原本的每秒帧数和图像大小,抽取出每个视频对应的图片序列。
2)抽取图片子序列。
根据1)中抽取出的图片序列,将每个不同时间长短的视频分成相同大小的T个序列间隔(segments),T为时间维度,其值表示每个视频选取的序列间隔的数量(segments),从这些序列间隔中抽取一张图组成图片子序列。抽取方式是:在训练过程中从每个序列间隔中随机抽取一张图片,组成图片子序列,作为一种时序数据增广方式。在测试过程中抽取每个序列间隔的中间帧图片。
3)设计并建立混合多尺度时序深度可分离卷积操作(Mixted TemporalConvolution,MixTConv)。
将步骤2)得到的图片子序列的特征维度表示为F∈R(B×T)×C×H×W,作为MixTConv操作的输入,其中B是批次维度,其值表示训练时的批次大小(batch size),T为时间维度,其值表示每个视频选取的序列间隔的数量(segments),C为特征通道数量(channels),W为特征在空间上的宽度(weight),H为特征在空间上的高度(height)。首先将特征维度F重新排列(拉伸,reshape)为F∈R(B×H×W)×C×T,再将F在通道维度分成g组(g=4)。每组得到
Figure BDA0002366390850000021
对于每组特征,采用g个不同卷积核大小的1D(一维)深度可分离卷积,作用于时间维度。每个深度可分离卷积的卷积核的大小为{k1,…,kg}。令Wm表示卷积核大小为km的1D深度可分离卷积核,其中m表示卷积核对应的分组,对于第m个组,通道数为Cm,其中m∈1,2,…,g。最后,进行深度可分离卷积的操作,表示如下:
Figure BDA0002366390850000031
其中
Figure BDA0002366390850000032
Figure BDA0002366390850000033
Figure BDA0002366390850000034
在第t个时间子序列间隔和第i个通道的值,t∈{1,2,…,T},
Figure BDA0002366390850000035
是第m个组的输出值。然后将每个组的结果
Figure BDA0002366390850000036
在通道维度重新组合,表示为:
Figure BDA0002366390850000037
其中,Z∈R(B×H×W)×C×T
最后,将Z重新排列(拉伸,reshape)为Zout∈R(B×T)×C×H×W,作为混合多尺度时序可分离卷积操作(MixTConv)的输出。
4)将混合多尺度时序可分离卷积操作加入到2D(二维)卷积神经网络模型中;
基础的2D卷积神经网络可以选择任意一2D骨架网络,在其中的每一个block内插入设计的混合多尺度时序可分离卷积模型的卷积层,使网络模型具有高效的时空建模能力。
具体实施时,以2D骨架网络采用Resnet-50(https://arxiv.org/abs/1512.03385),将混合多尺度时序可分离卷积操作加入到Resnet-50的残差连接层和第一个1×1卷积层之间,记作混合时空块(Mixed Spatiotemporal Block,MST Block)。
5)混合时空网络模型(Mixed Spatiotemporal Network,MSTNet);
将ResNet-50中所有残差块(residual block)采用混合时空块MST Block,得到最终混合时空网络(Mixed Spatiotemporal Network,MSTNet)。MSTNet的最后一个全连接层为标签分类层,神经元个数对应于数据集标签个数。最终,MSTNet的输出为:
Figure BDA0002366390850000038
其中,T为时序间隔的数量,也就是图片子序列长度,
Figure BDA0002366390850000039
是第i帧输出的特征向量。avg(·)为在时间维度取平均。
6)训练MSTNet,得到训练好的MSTNet;
61)数据增广;
在训练MSTNet的过程中,首先使用不同的时间和空间维度的数据增广策略,在时间和空间维度上分别进行数据增广。
在空间维度上做数据增广,采用包括但不限于TSN(Temporal Segment Network,https://arxiv.org/pdf/1608.00859.pdf)增广方式。首先将图片尺寸的短边拉伸(resize)到256,长边按照原图比例拉伸,即如果原来图片大小比例是4:3,那么重新拉伸后长边为340,短边为256。然后采取四个角落抠图(corner cropping)以及尺寸抖动(scalejittering)的增广方式。角落抠图是从已经重新拉伸过的图片的四个角落直接扣取长宽均为224的图片,尺寸抖动为随机从{256,224,192,168}的尺寸中选一个尺寸用来进行角落抠图,然后再将原图拉伸成224大小(选224就不需要拉伸)。最终得到一组长宽均为224大小的新的图片子序列用于训练。对每个视频在每次训练迭代周期(epoch)中的每个图片进行上述相同增广操作,保证对每个视频操作后的新的视频子序列具有时序可读性。进行时序增广时,首先将各种不同长度的视频切分成T个片段(segments),每个片段中随机抽取一个图片用于训练,称为temporal jittering(时序抖动)。经过数据增广后训练的网络模型其鲁棒性更强。
62)训练过程
进行数据增广得到增广后的数据,再将时间维度(T)放在批次维度中(B),所以整个网络的输入I∈R(B×T)×3×224×224,最后得到输出为O∈RB×Class,其中Class为数据集中对应类别的数量。采用交叉熵损失(cross entropy loss)算预测类别和真实类别,得到误差,通过反向传播更新参数。经过设定次数(50次)完整训练集训练迭代后,保存验证集上结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的混合时空网络模型MSTNet。
7)测试MSTNet
在测试过程中,时间维度上,相比于训练过程,测试过程每次固定取每个视频片段(segments)最中间的一张图。空间维度上,先将短边拉伸(resize)到256,保持图片长短边比例不变的情况下对长边进行对应缩放,然后在图片的中间区域中扣取大小为224*224的图片,作为网络的输入。
将待识别的视频按照1)抽取为图片序列后,进行上述测试过程的处理,将得到的图片子序列数据作为训练好的MSTNet网络模型的输入,即可输出视频行为的类别。
通过上述步骤,实现基于混合多尺度时序可分离卷积的高效视频行为识别。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于混合多尺度时序可分离卷积的高效视频行为识别方法。该方法可以加入到任意一个2D卷积神经网络中使其拥有鲁棒的时空建模能力,并且几乎不提高计算量和参数量。本发明通过将不同尺寸的深度可分离1D卷积核整合在一个卷积操作中,实现了同时对长时序动作和短时序动作的建模。本发明不仅仅可以用来进行高效的行为识别,还可用于视频内容定位,视频时空定位,视频对话生成,视频摘要等各项视频理解任务。通过将我们提出的MixTConv加入到现有方法如(TSN)中,在多个强时序行为识别的数据集(Something-Something V1)上将精度从20.5%提高到48.1%,在大规模手势识别数据集(Jester)上从82%提高到96.9%,同时保持了几乎一致的计算量(16帧输入:65Gv.s.65.3G,8帧输入:33G v.s.33.2G)。
附图说明
图1为本发明提供的视频行为识别系统的结构框架示意图。
此图左边是整个网络流程表示,右边是混合多尺度时序可分离卷积操作的详细示意,立方体表示图片特征,拉伸后的矩形表示一维特征
图2为本发明提供的视频行为识别方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于混合多尺度时序可分离卷积的高效视频行为识别,通过将不同尺寸的深度可分离1D卷积核整合在一个卷积操作中,实现了同时对长时序动作和短时序动作的建模。
如图1所示,采用本发明建立的基于混合多尺度时序可分离卷积网络进行高效视频行为识别。图2所示为本发明提供的视频行为识别的流程,具体实施包括如下步骤:
1)视频图片抽帧;
通过ffmpeg(https://www.ffmpeg.org/)对原始视频抽取为图片序列,作为每个视频的初始数据形式。抽取时保持原视频图片长宽以及视频帧数(频率)不变。根据视频原本的每秒帧数和图像大小,抽取出每个视频对应的图片序列。
2)抽取图片子序列
根据1)中抽取出的图片序列,将每个不同时间长短的视频分成相同大小的T个时间序列间隔(segments),T可以是任意合适的大小,通常取8至32。从这些序列间隔中抽取一张图组成图片子序列。这样可以将长度(帧数)不同的视频统一成同样的长度(帧数)T。抽取方式是:在训练过程中从每个序列间隔中随机抽取一张图片,组成图片子序列,作为一种时序数据增广方式。在测试过程中抽取每个序列间隔的中间帧图片。
3)设计并建立混合多尺度时序可分离卷积操作MixTConv。
将步骤2)得到的图片子序列的特征维度表示为F∈R(B×T)×C×H×W,作为MixTConv操作的输入,其中B是批次维度,其值表示训练时的批次大小(batch size),T为时间维度,其值表示每个视频选取的序列间隔的数量(segments),C为特征通道数量(channels),W为特征在空间上的宽度(weight),H为特征在空间上的高度(height)。首先我们将特征维度F重新排列(reshape)为F∈R(B×H×W)×C×T,再将F在通道维度分成g组,这里g=4。每组得到
Figure BDA0002366390850000061
对于每组特征,采用g个不同卷积核大小的1D(一维)深度可分离卷积,作用于时间维度。每个深度可分离卷积的卷积核的大小为{k1,…,kg}。令Wm表示卷积核大小为km的1D深度可分离卷积核,其中m表示卷积核对应的分组,对于第m个分组,通道数为Cm,其中m∈1,2,…,g。最后,进行深度可分离卷积的操作,表示如下:
Figure BDA0002366390850000062
其中
Figure BDA0002366390850000063
Figure BDA0002366390850000064
Figure BDA0002366390850000065
在第t个时间子序列间隔和第i个通道的值,t∈{1,2,…,T}。然后将每个组的结果
Figure BDA0002366390850000066
在通道维度重新组合,表示为:
Figure BDA0002366390850000067
其中,Z∈R(B×H×W)×C×T
最后,将Z重新排列(reshape)为Zout∈R(B×T)×C×H×W,作为混合多尺度时序可分离卷积操作(MixTConv)的输出。
4)将混合多尺度时序可分离卷积操作加入到传统2D(二维)网络中
基础的2D卷积神经网络可以选择任意一2D骨架网络,在其中的每一个block内插入设计的混合多尺度时序可分离卷积模型的卷积层,使网络模型具有高效的时空建模能力。
具体实施时,以2D骨架网络采用Resnet-50(https://arxiv.org/abs/1512.03385),我们将混合多尺度时序可分离卷积操作加入到Resnet-50的残差连接层和第一个1×1卷积层之间,记作混合时空块(Mixed Spatiotemporal Block,MST Block)。
5)混合时空网络(Mixed Spatiotemporal Network,MSTNet)
将ResNet-50中所有残差块(residual block)替换为MST Block,得到最终混合时空网络(Mixed Spatiotemporal Network,MSTNet)。MSTNet的最后一个全连接层为标签分类层,神经元个数对应于数据集标签个数。最终,MSTNet的输出为:
Figure BDA0002366390850000068
其中T的值为时间序列间隔的数量,也就睡图片子序列的长度,
Figure BDA0002366390850000069
是第i帧输出的特征向量。avg(·)为在时间维度取平均。
6)训练混合时空网络(MSTNet)
数据增广
在训练MSTNet的过程中,首先我们使用不同的时间和空间维度的数据增广策略。在空间维度上做数据增广,我们采用包括但不限于TSN(Temporal Segment Network,https://arxiv.org/pdf/1608.00859.pdf)中的增广方式。首先将图片尺寸的短边拉伸(resize)到256,长边按照原图比例拉伸,即如果原来图片大小比例是4:3,那么重新拉伸后长边为340,短边为256。然后采取四个角落抠图(corner cropping)以及尺寸抖动(scalejittering)的增广方式。角落抠图是从已经重新拉伸过的图片的四个角落直接扣取长宽均为224的图片,尺寸抖动为随机从{256,224,192,168}的尺寸中选一个尺寸用来进行角落抠图,然后再将原图拉伸成224大小(选224就不需要拉伸)。最终得到一组长宽均为224大小的新的图片子序列用于训练。这里我们对每个视频在每次训练迭代周期(epoch)中的每个图片做相同增广操作,保证对每个视频操作后的新的视频子序列拥有时序可读性。在时序增广中,我们首先将各种不同长度的视频切分成T个片段(segments),T一般为{8,16,32},每个片段中随机抽取一个图用于训练,称为temporal jittering(时序抖动)。经过数据增广后训练的网络鲁棒性更强。
训练过程
得到增广后的数据以后,我们将时间维度(T)放在批次维度中(B),所以整个网络的输入I∈R(B×T)×3×224×224,最后得到输出O∈RB×Class,其中Class为数据集中对应类别数量。采用交叉熵损失(cross entropy loss)计算预测类别和真实类别,得到误差,通过反向传播计算梯度并更新参数。经过50次完整训练集训练迭代后,保存验证集上结果最好的模型参数,作为最终模型训练好的参数。
具体实施时,使用2)中描述抽取图片子序列,抽取时在每一个训练周期(epoch)随机在序列间隔中抽取一张图片组成图片子序列,用于增强网络对时序间隔变化的鲁棒性(temporal jittering)。
采用尺度抖动的方法将不同大小的图片子序列统一成224*224大小,得到网络的输入。输入为维度(B*T,3,224,224),B的值为批次大小,T的值为时序间隔数。训练总周期为50(epoch),初始学习率设置为0.01,在训练周期为30,40,45时下降10倍。训练批次大小(batch size)设为64。训练时正则化权重设为5e-4(weight decay)全连接层dropout设置为0.5。网络初始化时采用Imagenet pre-trained weight(www.image-net.org)。网络输出维度为(B,Class)其中Class为视频行为类别数。
7)测试MSTNet
在测试过程中,我们为了考虑实时性,采用最简单有效的办法完成推理过程。时间维度上,相比于训练过程,测试过程每次固定取每个视频片段(segments)最中间的一张图。空间维度上,先将短边拉伸(resize)到256,保持图片长短边比例不变的情况下对长边进行对应缩放,然后在图片的中间区域中扣取大小为224*224的图片,作为网络的输入。将待识别的视频进行上述测试过程的处理,作为训练好的MSTNet网络模型的输入,即可输出视频行为的类别,其输出对于每一个视频都是一个长度为Class(根据数据集所含类别数量确定)的one-hot向量,向量中值为1的对应位置即是该视频的预测类别。可预测的视频类别根据所使用的数据集自行设定,比如“开门”,“关门”,或者任意复杂动作如“将苹果从桌子上拿走”。
具体实施时,在测试过程中,先将短边拉伸(resize)到256,保持图片长短边比例不变的情况下对长边进行对应缩放,然后在图片的中间区域中扣取大小为224*224的图片,作为网络的输入。如果考虑效率则采用单clip(每个clip内包括T个图片)。如果考虑性能,则可以将图片放大并选取多个clip结果取平均(一般图片放大可选取短边256长边按比例缩放,clip选取2个不重复的序列)。
所描述的视频内容定位技术使用了混合多尺度时序可分离卷积,通过将不同尺寸的深度可分离1D卷积核整合在一个卷积操作中,高效地实现了同时对长时序动作和短时序动作的建模。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,包括如下步骤:
1)将原始视频抽取成图片序列;
2)将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列;对图片子序列进行特征提取,得到的图片子序列的特征维度表示为F∈R(B×T)×C×H×W,其中B是批次维度,其值表示训练时的批次大小;T为时间维度,其值表示每个视频选取的序列间隔的数量;C为特征通道数量;W为特征在空间上的宽度;H为特征在空间上的高度;
3)设计并建立混合多尺度时序深度可分离卷积操作MixTConv;将步骤2)得到的图片子序列的特征维度作为MixTConv操作的输入,采用加入混合多尺度时序可分离卷积操作的卷积神经网络模型作为学习器,提取得到图片子序列的语义特征;包括如下操作:
31)将特征维度F重新排列/拉伸为F∈R(B×H×W)×C×T,再将F在通道维度分成g组,每组得到特征
Figure FDA0002366390840000011
32)对于每组特征,采用g个不同卷积核大小的一维深度可分离卷积,作用于时间维度;每个深度可分离卷积的卷积核的大小为{k1,…,kg};
33)令Wm表示卷积核大小为km的一维深度可分离卷积核,其中m表示卷积核对应的分组;对于第m个组,通道数为Cm,其中m∈1,2,…,g;第m个组的输出值记作
Figure FDA0002366390840000012
进行深度可分离卷积的操作,得到
Figure FDA0002366390840000013
在第t个时间子序列间隔和第i个通道的值
Figure FDA0002366390840000014
34)将每个组的结果
Figure FDA0002366390840000015
在通道维度重新组合,得到Z,Z∈R(B×H×W)×C×T
35)将Z重新排列拉伸,得到Zout,Zout∈R(B×T)×C×H×W,作为混合多尺度时序可分离卷积操作的输出;
4)将混合多尺度时序可分离卷积操作加入到二维卷积神经网络模型的残差连接层和第一个1×1卷积层之间,记作混合时空块;
5)二维卷积神经网络模型的残差块均采用混合时空块,构建成混合时空网络MSTNet;MSTNet的最后一个全连接层为标签分类层,神经元个数对应于数据集标签个数;MSTNet的输出S表示为:
Figure FDA0002366390840000016
其中,T为时序间隔的数量,也就是图片子序列长度;
Figure FDA0002366390840000017
是第i帧输出的特征向量;avg(·) 表示在时间维度取平均;
6)训练MSTNet,得到训练好的MSTNet;包括如下操作:
61)数据增广:使用时间和空间维度的数据增广策略,在时间和空间维度上分别进行数据增广,得到增广后的数据;
62)再将时间维度T放在批次维度B中,网络模型的输入为I,得到输出为O∈RB×Class;其中Class为数据集中对应类别的数量;采用交叉熵损失函数计算预测类别和真实类别,得到误差,通过反向传播更新参数;
63)经过设定次数迭代训练后,保存结果最好的模型参数,作为最终模型训练好的参数,即得到训练好的混合时空网络模型MSTNet;
7)测试MSTNet:测试过程每次固定取每个视频片段时间维度上中间的一张图;空间维度上,先将短边拉伸,保持图片长短边比例不变,对长边进行对应缩放,然后在图片的中间区域中扣取图片作为网络的输入;
将待识别的视频按照步骤1)抽取为图片序列,再对图片序列进行步骤7)的处理,将得到的图片子序列数据作为训练好的MSTNet网络模型的输入,即可输出视频行为的类别;
通过上述步骤,实现基于混合多尺度时序可分离卷积的高效视频行为识别。
2.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,从图片序列抽取得到图片子序列,进行时序数据增广;抽取方式是:在训练过程中从每个序列间隔中随机抽取一张图片,组成图片子序列;在测试过程中抽取每个序列间隔的中间帧的图片,组成图片子序列。
3.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤3)建立混合多尺度时序深度可分离卷积操作中,将图片子序列的特征维度F在通道维度分成4组。
4.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤33)进行深度可分离卷积的操作,表示为:
Figure FDA0002366390840000021
其中,
Figure FDA0002366390840000022
Figure FDA0002366390840000023
Figure FDA0002366390840000024
在第t个时间子序列间隔和第i个通道的值,t∈{1,2,…,T}。
5.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤6)训练混合时空网络模型MSTNet中进行数据增广,采用的数据增广方式包括但不限于TSN增广方式。
6.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤6)训练混合时空网络模型MSTNet中进行数据增广,包括:
首先将图片尺寸的短边拉伸到256,长边按照原图比例拉伸;
然后采取四个角落抠图和尺寸抖动的增广方式:通过角落抠图从已重新拉伸过的图片的四个角落直接扣取长宽均为224的图片;通过尺寸抖动随机从{256,224,192,168}的尺寸中选一个尺寸用来进行角落抠图,然后再将原图拉伸成224大小;
最终得到一组长宽均为224大小的新的图片子序列用于训练。
7.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤6)具体采用时序抖动方式进行时序增广,首先将各种不同长度的视频切分成T个片段,每个片段中随机抽取一个图片用于训练。
8.如权利要求1所述基于混合多尺度时序可分离卷积操作的视频行为识别方法,其特征是,步骤1)进行视频图片抽帧,具体通过ffmpeg将原始视频抽取为图片序列。
CN202010037026.9A 2020-01-14 2020-01-14 基于混合多尺度时序可分离卷积操作的视频行为识别方法 Active CN111259782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037026.9A CN111259782B (zh) 2020-01-14 2020-01-14 基于混合多尺度时序可分离卷积操作的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037026.9A CN111259782B (zh) 2020-01-14 2020-01-14 基于混合多尺度时序可分离卷积操作的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN111259782A true CN111259782A (zh) 2020-06-09
CN111259782B CN111259782B (zh) 2022-02-11

Family

ID=70950462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037026.9A Active CN111259782B (zh) 2020-01-14 2020-01-14 基于混合多尺度时序可分离卷积操作的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN111259782B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881794A (zh) * 2020-07-20 2020-11-03 元神科技(杭州)有限公司 一种视频行为识别方法及系统
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN112686922A (zh) * 2021-01-26 2021-04-20 华南理工大学 基于多尺度运动信息分离动画特效和背景内容的方法
CN112966723A (zh) * 2021-02-08 2021-06-15 北京百度网讯科技有限公司 视频数据增广方法、装置、电子设备及可读存储介质
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113469344A (zh) * 2021-07-23 2021-10-01 成都数联云算科技有限公司 深度卷积神经网络模型改进方法及系统及装置及介质
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
CN113486947A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于尺寸数据的服装商品性别分类方法及装置
CN113723442A (zh) * 2021-07-08 2021-11-30 华中科技大学 一种电子鼻气体识别方法、系统、电子设备及存储介质
CN115223250A (zh) * 2022-09-13 2022-10-21 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN115861901A (zh) * 2022-12-30 2023-03-28 深圳大学 视频分类方法、装置、设备及存储介质
US11645874B2 (en) 2021-06-23 2023-05-09 International Business Machines Corporation Video action recognition and modification
CN116168334A (zh) * 2023-04-26 2023-05-26 深圳金三立视频科技股份有限公司 一种视频行为分类的方法及终端
CN116206265A (zh) * 2023-05-05 2023-06-02 昆明轨道交通四号线土建项目建设管理有限公司 用于轨道交通运营维护的防护报警装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106612427A (zh) * 2016-12-29 2017-05-03 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
US20190138826A1 (en) * 2016-11-14 2019-05-09 Zoox, Inc. Spatial and Temporal Information for Semantic Segmentation
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
US20190223725A1 (en) * 2018-01-25 2019-07-25 Siemens Healthcare Gmbh Machine Learning-based Segmentation for Cardiac Medical Imaging
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110622169A (zh) * 2017-05-15 2019-12-27 渊慧科技有限公司 用于视频中的动作识别的神经网络系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138826A1 (en) * 2016-11-14 2019-05-09 Zoox, Inc. Spatial and Temporal Information for Semantic Segmentation
CN106612427A (zh) * 2016-12-29 2017-05-03 浙江工商大学 一种基于卷积神经网络的时空一致性深度图序列的生成方法
CN110622169A (zh) * 2017-05-15 2019-12-27 渊慧科技有限公司 用于视频中的动作识别的神经网络系统
US20190223725A1 (en) * 2018-01-25 2019-07-25 Siemens Healthcare Gmbh Machine Learning-based Segmentation for Cardiac Medical Imaging
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIMIN WANG ET AL: "《Temporal Segment Networks for Action Recognition in Videos》", 《ARXIV:1705.02953V1》 *
MINGXING TAN ET AL;: "《MixConv: Mixed Depthwise Convolutional Kernels》", 《ARXIV:1907.09595V3》 *
李洪均 等;: "《基于特征融合时序分割网络的行为识别研究》", 《计算机研究与发展》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881794A (zh) * 2020-07-20 2020-11-03 元神科技(杭州)有限公司 一种视频行为识别方法及系统
CN111881794B (zh) * 2020-07-20 2023-10-10 元神科技(杭州)有限公司 一种视频行为识别方法及系统
CN112364852A (zh) * 2021-01-13 2021-02-12 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112364852B (zh) * 2021-01-13 2021-04-20 成都考拉悠然科技有限公司 融合全局信息的动作视频段提取方法
CN112686922A (zh) * 2021-01-26 2021-04-20 华南理工大学 基于多尺度运动信息分离动画特效和背景内容的方法
CN112686922B (zh) * 2021-01-26 2022-10-25 华南理工大学 基于多尺度运动信息分离动画特效和背景内容的方法
CN112966723A (zh) * 2021-02-08 2021-06-15 北京百度网讯科技有限公司 视频数据增广方法、装置、电子设备及可读存储介质
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN112633260B (zh) * 2021-03-08 2021-06-22 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113469142B (zh) * 2021-03-12 2022-01-14 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
US11645874B2 (en) 2021-06-23 2023-05-09 International Business Machines Corporation Video action recognition and modification
CN113486947A (zh) * 2021-07-01 2021-10-08 有米科技股份有限公司 基于尺寸数据的服装商品性别分类方法及装置
CN113723442A (zh) * 2021-07-08 2021-11-30 华中科技大学 一种电子鼻气体识别方法、系统、电子设备及存储介质
CN113723442B (zh) * 2021-07-08 2024-02-20 华中科技大学 一种电子鼻气体识别方法、系统、电子设备及存储介质
CN113469344A (zh) * 2021-07-23 2021-10-01 成都数联云算科技有限公司 深度卷积神经网络模型改进方法及系统及装置及介质
CN113469344B (zh) * 2021-07-23 2024-04-16 成都数联云算科技有限公司 深度卷积神经网络模型改进方法及系统及装置及介质
CN115223250A (zh) * 2022-09-13 2022-10-21 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN115223250B (zh) * 2022-09-13 2023-01-17 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN115861901A (zh) * 2022-12-30 2023-03-28 深圳大学 视频分类方法、装置、设备及存储介质
CN115861901B (zh) * 2022-12-30 2023-06-30 深圳大学 视频分类方法、装置、设备及存储介质
CN116168334A (zh) * 2023-04-26 2023-05-26 深圳金三立视频科技股份有限公司 一种视频行为分类的方法及终端
CN116206265A (zh) * 2023-05-05 2023-06-02 昆明轨道交通四号线土建项目建设管理有限公司 用于轨道交通运营维护的防护报警装置及方法

Also Published As

Publication number Publication date
CN111259782B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN111259782B (zh) 基于混合多尺度时序可分离卷积操作的视频行为识别方法
Chen et al. Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
Luc et al. Transformation-based adversarial video prediction on large-scale data
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN116686017A (zh) 一种用于视频动作识别的时间瓶颈注意力体系结构
Hara et al. Towards good practice for action recognition with spatiotemporal 3d convolutions
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN111626245A (zh) 一种基于视频关键帧的人体行为识别方法
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
CN114494981B (zh) 一种基于多层次运动建模的动作视频分类方法及系统
CN115953582B (zh) 一种图像语义分割方法及系统
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
Zhang et al. Modeling long-and short-term temporal context for video object detection
CN111160356A (zh) 一种图像分割分类方法和装置
Guan et al. Unsupervised learning for optical flow estimation using pyramid convolution lstm
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
CN115359563A (zh) 多人行为识别方法、装置、计算机设备及存储介质
CN112818958A (zh) 动作识别方法、装置及存储介质
CN115082840B (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN109636738B (zh) 基于小波变换的双保真项正则模型的单幅图像雨噪声去除方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant