CN108764128A - 一种基于稀疏时间分段网络的视频动作识别方法 - Google Patents

一种基于稀疏时间分段网络的视频动作识别方法 Download PDF

Info

Publication number
CN108764128A
CN108764128A CN201810516281.4A CN201810516281A CN108764128A CN 108764128 A CN108764128 A CN 108764128A CN 201810516281 A CN201810516281 A CN 201810516281A CN 108764128 A CN108764128 A CN 108764128A
Authority
CN
China
Prior art keywords
sparse
network
video
time
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810516281.4A
Other languages
English (en)
Inventor
温世平
曾小芬
黄廷文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810516281.4A priority Critical patent/CN108764128A/zh
Publication of CN108764128A publication Critical patent/CN108764128A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于稀疏时间分段网络的视频动作识别方法,包括:从每个训练视频中提取信息,对时间分段网络进行第一次训练、优化;在第一次优化后的网络加入稀疏项,进行第二次训练和优化;对第二次优化后的网络进行裁剪和尺寸调整;对尺寸调整后的网络进行第三次训练优化,直至识别精度或者稀疏度达到期望;从待识别视频中提取信息,将提取的信息输入至第三次优化后的网络,将时间分段网络的输出融合后得到动作识别结果。本发明通过时间分段网络获取更长段视频的信息,同时双流卷积网络结构能更充分地利用视频信息,使动作识别精度大幅提高;结构化稀疏方法能成组地稀疏卷积层的权重,网络裁剪进一步精简模型,降低存储空间。

Description

一种基于稀疏时间分段网络的视频动作识别方法
技术领域
本发明属于图像处理领域,更具体地,涉及基于稀疏时间分段网络的视频动作识别方法。
背景技术
视频动作识别是通过对输入的视频进行数据处理,然后设计算法分析视频中的人体行为,识别出人体动作。2014年Simonyan等人提出了一种基于双流卷积网络模型的视频动作识别方法,该模型由两个神经网络组成,第一个为空间神经网络,输入数据为传统的单个RGB图像,第二个为时间神经网络,输入数据为与第一个网络RGB图像对应的光流图,光流图是通过两张相邻时刻的RGB图像计算得到。通过计算两张图之间像素点的变化,可以得到一张含有变化信息的光流图,因此光流图可以用来记录时间信息,从而被用于时间神经网络,通过两个网络可同时得到时间与空间信息,最后将两者融合并做出最终预测,从而可以更准确地对RGB图像进行识别。
后来的人们对该动作识别方法的不同方向作出改进:1.Simonyan等人提出的方法中融合是在最后的输出层,Feichtenhofer等人提出一种在两个网络的处理过程中就进行融合的动作识别方法,经验证识别准确率更高;2.Simonyan等人提出的方法仅限于某张图片及其对应的光流图,Wang limin等人提出了一种基于时间分段网络(TemporalSegmentNetwork,TSN)的模型训练方法,在此方法中,训练网络时的输入不再是单个的RGB图片及其对应的光流图,而是将整个视频切分成帧,设一共有n帧,即n张RGB图片,那么将整个视频分成3段,每段含n/3张图片,从每段中提取一张图片,然后将3段的提取内容结合在一起,再输入到网络中训练模型。由于是从整体的视频帧里提取数据,因此特征会带有全局性,能更好地用于动作识别;3.Simonyan等人提出的方法仅限于某张图片及其对应的光流图,可能错过复杂动作组合中真正的动作,吴昊宣等人提出了一种能够提取不同粒度的RGB信息和光流图信息的视频动作识别方法,对于同一段视频,可以提取到更多的视频信息,具有多层次识别的能力,极大提高识别准确率。
上述识别方法均未考虑下述问题:越来越高的识别率的是以越来越深的卷积神经网络为代价的。然而,网络的加深不仅仅增加了网络模型的尺寸,这样会占据更多的存储空间,更多的网络层数会使卷积操作的次数呈指数的速度增长,占用大量的计算资源。这样会降低运行速度。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术存储空间大、识别精度低、识别速度慢的技术问题。
为解决上述问题,本发明提供一种基于稀疏时间分段网络的视频动作识别方法,该方法包括以下步骤:
S1.构建时间卷积神经网络和空间卷积神经网络;
S2.准备训练视频集合,从每个训练视频中提取信息,对时间卷积神经网络和空间卷积神经网络进行第一次训练和第一次优化,使得损失函数最小;
S3.在第一次优化后的时间神经网络和空间神经网络的损失函数中加入稀疏项;
S4.对加入稀疏项的时间卷积神经网络和空间卷积神经网络进行第二次训练和第二次优化,使得加入稀疏项的损失函数最小;
S5.对第二次优化后的时间卷积神经网络和空间卷积神经网络进行裁剪和尺寸调整;
S6.对尺寸调整后的时间卷积神经网络和空间卷积神经网络进行第三次训练和第三次优化,判断识别精度或者稀疏度是否达到期望,若否则重复步骤S3-S5,若是,则得到第三次优化后的时间神经网络和空间神经网络;
S7.从待识别视频中提取信息,将提取的信息输入至第三次优化后的时间神经卷积网络和空间卷积神经网络,将时间卷积神经网络和空间卷积神经网络的输出融合后得到动作识别结果。
具体地,从视频V中提取信息,包括以下步骤:
(1)将视频V划分成K段等长的片段{S1,S2,...,SK};
(2)从每个片段中随机选取一帧,该帧的信息包括RGB图像及对应的光流信息,光流信息包括水平方向的光流图像和垂直方向的光流图像;
(3)将所有选取的帧拟合为一长度为K的片段{T1,T2,...,TK}。
具体地,损失函数的计算公式如下:
其中,C是动作类别的数量,yi是动作类别i所对应的标签真值,Gi表示G的第i个维度,G=g(F(T1;W),F(T2;W),...,F(TK;W)),g表示分段一致性函数,综合了多个短片段的输出,以获得一个一致的类别假设,F(TK,W)表示具有参数W的卷积神经网络函数,其对短片段TK起作用,并对所有类别中进行评分。
具体地,所述方法使用按通道和/或滤波器的结构化稀疏,加入稀疏项的损失函数计算公式如下:
L(W)=LD(W)+λnLn(W)+λsLs(W)(3)
Ls(W)=λfLf(W)+λcLc(W)(5)
其中,LD(W)表示模型在训练数据上的损失,Ln(W)表示一般的正则损失项,例如,l1正则项或l2正则项,λn表示一般正则损失项的超参数,Ls(W)表示由稀疏项引入的损失,λs是稀疏项的超参数,λf是滤波器稀疏项的超参数,λc是通道稀疏项的超参数。
可选地,按滤波器稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,H、WID分别表示卷积核的高和宽,nheight和nwidth分别表示当前参与运算的卷积核上点的坐标,表示第n层卷积层中第三维是nheight、第四维是nwidth、第一维和第二维取任意值时得到的权值矩阵,|| ||是正则运算。
可选地,按通道稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,OUT表示输出通道的最大值,nout表示当前参与运算的输出通道,|| ||是正则运算。
具体地,所述裁剪是指将整个卷积核的权值都为0的卷积核裁剪掉。
具体地,所述尺寸调整是指保证上一层的输出通道数与下一层的输入通道数相等。
可选地,调整时取上一层的输出通道数与下一层的输入通道数这二者间的最大值作为调整尺寸。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1、本发明通过使用采用时间分段网络,在输入上采取了稀疏采样,可以获取更长段视频的信息,同时双流卷积网络结构能更充分地利用视频信息,使动作识别精度大幅提高。
2、本发明引入结构化稀疏方法,能成组地稀疏卷积层的权重,更容易在移动硬件平台上部署和实施。
3、本发明对稀疏后的网络裁剪,在不降低网络识别精度的条件下,进一步精简模型。
4、本发明对裁剪后的网络模型进行再训练以及稀疏,对网络充分稀疏。再训练使得裁剪后的模型仍能表达训练集中的数据特征。
附图说明
图1为本发明实施例提供的基于稀疏时间分段网络的视频动作识别方法流程示意图。
图2为本发明实施例使用的时间分段网络结构示意图。
图3为本发明实施例提供的按滤波器进行稀疏的效果示意图。
图4为本发明实施例提供的按通道稀疏的效果图。
图5为本发明实施例对卷积层Conv4_1的卷积核进行可视化的结果示意图。
图6为本发明实施例提供是尺寸调整示意图。
图7为本发明实施例提供的未稀疏以及稀疏几次后的各个卷积层的尺寸的变化示意图。
图8为本发明实施例提供的模型的在UCF101数据集上识别精度的变化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的基于稀疏时间分段网络的视频动作识别方法流程示意图。如图1所示,该方法包括以下步骤:
S1.构建时间卷积神经网络和空间卷积神经网络;
S2.准备训练视频集合,从每个训练视频中提取信息,对时间卷积神经网络和空间卷积神经网络进行第一次训练和第一次优化,使得损失函数最小;
S3.在第一次优化后的时间神经网络和空间神经网络的损失函数中加入稀疏项;
S4.对加入稀疏项的时间卷积神经网络和空间卷积神经网络进行第二次训练和第二次优化,使得加入稀疏项的损失函数最小;
S5.对第二次优化后的时间卷积神经网络和空间卷积神经网络进行裁剪和尺寸调整;
S6.对尺寸调整后的时间卷积神经网络和空间卷积神经网络进行第三次训练和第三次优化,判断识别精度或者稀疏度是否达到期望,若否则重复步骤S3-S5,若是,则得到第三次优化后的时间神经网络和空间神经网络;
S7.从待识别视频中提取信息,将提取的信息输入至第三次优化后的时间神经卷积网络和空间卷积神经网络,将时间卷积神经网络和空间卷积神经网络的输出融合后得到动作识别结果。
本发明的训练视频集合为UCF101,它是目前动作类别数、样本数最多的数据库之一,样本为13320段视频,类别数为101类。例如,Apply Eye Makeup是该数据集中第一种动作,其对应标签为1。
图2为本发明实施例使用的时间分段网络结构示意图。如图2所示,本发明在输入上,不是从整段视频中提取的光流信息和RGB图像,而是先将视频分段,然后从每段中随机提取一帧光流信息和RGB图像分别作为两个网络的输入,其中,RGB图像输入至空间神经网络,光流信息输入至时间神经网络。从视频V中提取信息,包括以下步骤:
(1)将视频V划分成K段等长的片段{S1,S2,...,SK};
(2)从每个片段中随机选取一帧,该帧的信息包括RGB图像及对应的光流信息,光流信息包括水平方向的光流图像和垂直方向的光流图像;
(3)将所有选取的帧拟合为一长度为K的片段{T1,T2,...,TK}。
TSN模拟片段{T1,T2,...,TK}如下所示:
TSN(T1,T2,...,TK)=H(g(F(T1;W),F(T2;W),...,F(TK;W)))(1)
其中,F(TK,W)表示具有参数W的卷积神经网络函数,其对短片段TK起作用,并对所有类别中进行评分;分段一致性函数g综合了多个短片段的输出,以获得一个一致的类别假设,包括几个不同形式,包括取平均值,最大值,加权平均值等。以分段一致性函数g为取平均值为例,对这个类的这些片段预测分数取平均值。预测函数H预测整个视频为每个动作类别的概率,本发明采用Softmax函数作为预测函数。
时间神经网络和空间神经网络的最后一层全连接层的输出通过分段一致性函数进行整合。
第一次优化的目标函数为损失函数,损失函数的计算公式如下:
其中,C是动作类别的数量,针对本发明采用的UCF101,C=101;yi是动作类别i所对应的标签真值;G=g(F(T1;W),F(T2;W),...,F(TK;W)),Gi表示G的第i个维度。
根据函数g的选择,这个时间分段网络是可微的或者至少是有次梯度的。这能够使使用标准的反向传播算法通过多个短片段来对参数W优化。在反向传播过程中,损失值L关于参数的w梯度可以表示为:
其中K是TSN中片段数。
对第一次优化后的时间神经网络和空间神经网络模型可视化后,发现网络模型中存在大量的冗余参数,所以,本发明提出在模型训练的时候加入稀疏项,使卷积层的部分参数为0。为了使稀疏化的参数以结构化地形式稀疏掉,以便于硬件实施,本发明使用按通道和按滤波器的结构化稀疏方法。
假定卷积层的权重可以用一个四维张量表示为上标n表示的是第n层卷积层,分别表示第n层卷积层的输出通道数,输入通道数,卷积核的高和宽。通过通道损失和滤波器损失对卷积层的权重进行限定,可以使卷积层的权重以组形式趋向或等于零。
按滤波器稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,H、WID分别表示卷积核的高和宽,nheight和nwidth分别表示当前参与运算的卷积核上点的坐标,表示第n层卷积层中第三维是nheight、第四维是nwidth、第一维和第二维取任意值时得到的权值矩阵,|| ||是正则运算。
按通道稀疏对应的稀疏项计算公式如下:
OUT表示输出通道的最大值,nout表示当前参与运算的输出通道。
图3为本发明实施例提供的按滤波器进行稀疏的效果示意图。如图3所示,有三个子图,每个子图中都有灰色部分以及透明的部分,其中,灰色部分表示的是增加按通道稀疏项后,网络的卷积层中部分卷积核的值为0。可以看出,增加滤波器稀疏项后,权值以卷积核为整体,成组地为0。
图4为本发明实施例提供的按通道稀疏的效果图。同样,灰色部分表示的是权值为0的部分。可以看出,增加按通道稀疏项后,权值是以通道为整体,成组地为0。
加入稀疏项的损失函数计算公式如下:
L(W)=LD(W)+λnLn(W)+λsLs(W)(6)
Ls(W)=λfLf(W)+λcLc(W)(8)
其中,LD(W)表示模型在训练数据上的损失,Ln(W)表示一般的正则损失项,例如,l1正则项或l2正则项,λn表示一般正则损失项的超参数,Ls(W)表示由稀疏项引入的损失,λs是稀疏项的超参数,λf是滤波器稀疏项的超参数,λc是通道稀疏项的超参数。
第二次训练的训练过程中,增加稀疏项,以成组地形式稀疏化卷积层的参数,增加稀疏项的模型训练好后,会得到稀疏的权值。网络稀疏后,为0的参数仍然存在于网络之中,还会占用存储空间以及参与运算,本发明通过对网络进行裁剪的方法移除这些参数。在这些稀疏后的权值中,由于存在整个卷积核的权值都为0的情况,而权值为0的卷积核,对输入的特征图进行卷积计算后,得到的卷积计算结果也为0,对于后面的识别来说没有贡献,所以为了精简模型,将这些整个卷积核的权值都为0的卷积核裁剪掉。
图5为本发明实施例对卷积层Conv4_1的卷积核进行可视化的结果示意图。取的是Conv4_1权重中的[:5,:,:,:],由于该层的权重的大小为512×256×3×3,所以取的部分权重的大小为5×256×3×3,为了便于显示出来,这里将这个4维的张量先分成了5个3维的张量,即5个256×3×3的张量,然后在将这个张量变形为256×9的二维矩阵,所以图5中的每个子图的行表示的就是同一个卷积核的所有权值,在子图2,3,5中,灰度值较大的部分的表示的是权值是0的卷积核,所以这几个子图中,每个子图只有一个卷积核的权值是有效的,而且这种以组地形式使权值为0的方式也表明了它们是按滤波器以组地形式为0的。子图1中的整块的灰度值较小的部分的权值为0。在子图4中,成块的灰度值较大的部分的权值为0的部分,而且,从子图1和4中可以看出,存在一些颜色相同的竖条纹,这些竖的条纹处的权值也是为0的,这就表现了按通道稀疏的效果。可以看出,这层存在大量的卷积核的权值为0。
图6为本发明实施例提供是尺寸调整示意图。在权值裁剪时,如果按整个卷积核的权值为0,就把这个卷积核裁剪掉后,会存在一个问题。这样很有可能使前一层卷积层的输出通道的尺寸,与下一层的输入通道的尺寸不一致,出现图6左侧所示的问题。Conv1_1层的权重的尺寸为26×3×3×3,即该卷积层的输出通道数是26,而它的下一层Conv1_2的权重的尺寸为16×25×3×3,即该卷积层的输入通道数是25。Conv1_1层的输出是经过变换后输入到Conv1_2层中的,由于25小于26,所以Conv1_2层的权重处理不了Conv1_1层的输出。因此,需要对裁剪后的权重的尺寸进行调整。需要保证的是上一层的输出通道数与下一层的输入通道数这两个值相等,但是又为了减少信息的丢失,所以调整时,取这二者间的最大值作为上一层的输出通道数与下一层的输入通道数的尺寸。根据这个规则,调整图6左侧的尺寸,得到图6右侧的尺寸。需要说明的是,在Conv5_3中,将输出通道数的大小调整为512是为了与全连接层的尺寸相对应。
裁剪后的网络,会使原始的参数间的相对位置发生变化,如果直接用裁剪后的网络测试动作识别效果,精度会很低,所以需要对网络重新进行训练。
判断识别精度或者稀疏度是否达到期望,若否则重复步骤S3-S5,若是,则得到第三次优化后的时间神经网络和空间神经网络。
从待识别视频中提取信息,将提取的信息输入至第三次优化后的时间神经网络和空间神经网络,将时间神经网络和空间神经网络的输出融合后得到动作识别结果,通过分段一致性和融合得到的尺寸为C*1的列向量,该向量中值最大的元素所在的行的值即为待识别的视频的标签,该标签对应的动作类别即为待识别视频的动作类别。
本发明的融合采用的是均值融合,但不限于均值融合。
矩阵稀疏度是指矩阵中值为0的元素的个数占矩阵元素总个数的比例,计算公式如下:
其中,n0表示矩阵中值为0的元素的个数,n表示矩阵元素总个数。
图7为本发明实施例提供的未稀疏以及稀疏几次后的各个卷积层的尺寸的变化示意图。如图7所示,经过几次稀疏后,各层卷积层的尺寸都有所下降,其中,中间卷积层的尺寸减少得比较多。
图8为本发明实施例提供的模型的在UCF101数据集上识别精度的变化示意图。如图8所示,本发明所提出的视频中动作识别解决方案,不仅具有较强的鲁棒性、准确性,同时可以保证网络具有较高的稀疏性以及模型的精简性。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种基于稀疏时间分段网络的视频动作识别方法,其特征在于,该方法包括以下步骤:
S1.构建时间卷积神经网络和空间卷积神经网络;
S2.准备训练视频集合,从每个训练视频中提取信息,对时间卷积神经网络和空间卷积神经网络进行第一次训练和第一次优化,使得损失函数最小;
S3.在第一次优化后的时间神经网络和空间神经网络的损失函数中加入稀疏项;
S4.对加入稀疏项的时间卷积神经网络和空间卷积神经网络进行第二次训练和第二次优化,使得加入稀疏项的损失函数最小;
S5.对第二次优化后的时间卷积神经网络和空间卷积神经网络进行裁剪和尺寸调整;
S6.对尺寸调整后的时间卷积神经网络和空间卷积神经网络进行第三次训练和第三次优化,判断识别精度或者稀疏度是否达到期望,若否则重复步骤S3-S5,若是,则得到第三次优化后的时间神经网络和空间神经网络;
S7.从待识别视频中提取信息,将提取的信息输入至第三次优化后的时间神经卷积网络和空间卷积神经网络,将时间卷积神经网络和空间卷积神经网络的输出融合后得到动作识别结果。
2.如权利要求1所述的视频动作识别方法,其特征在于,从视频V中提取信息,包括以下步骤:
(1)将视频V划分成K段等长的片段{S1,S2,...,SK};
(2)从每个片段中随机选取一帧,该帧的信息包括RGB图像及对应的光流信息,光流信息包括水平方向的光流图像和垂直方向的光流图像;
(3)将所有选取的帧拟合为一长度为K的片段{T1,T2,...,TK}。
3.如权利要求1所述的视频动作识别方法,其特征在于,步骤S2中损失函数的计算公式如下:
其中,C是动作类别的数量,yi是动作类别i所对应的标签真值,Gi表示G的第i个维度,G=g(F(T1;W),F(T2;W),...,F(TK;W)),g表示分段一致性函数,综合了多个短片段的输出,以获得一个一致的类别假设,F(TK,W)表示具有参数W的卷积神经网络函数,其对短片段TK起作用,并对所有类别中进行评分。
4.如权利要求1所述的视频动作识别方法,其特征在于,所述方法使用按通道和/或滤波器的结构化稀疏,加入稀疏项的损失函数计算公式如下:
L(W)=LD(W)+λnLn(W)+λsLs(W) (3)
Ls(W)=λfLf(W)+λcLc(W) (5)
其中,LD(W)表示模型在训练数据上的损失,Ln(W)表示一般的正则损失项,例如,l1正则项或l2正则项,λn表示一般正则损失项的超参数,Ls(W)表示由稀疏项引入的损失,λs是稀疏项的超参数,λf是滤波器稀疏项的超参数,λc是通道稀疏项的超参数。
5.如权利要求4所述的视频动作识别方法,其特征在于,按滤波器稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,H、WID分别表示卷积核的高和宽,nheight和nwidth分别表示当前参与运算的卷积核上点的坐标,表示第n层卷积层中第三维是nheight、第四维是nwidth、第一维和第二维取任意值时得到的权值矩阵,|| ||是正则运算。
6.如权利要求4所述的视频动作识别方法,其特征在于,按通道稀疏对应的稀疏项计算公式如下:
其中,N表示网络中卷积层的数量,OUT表示输出通道的最大值,nout表示当前参与运算的输出通道,|| ||是正则运算。
7.如权利要求1所述的视频动作识别方法,其特征在于,所述裁剪是指将整个卷积核的权值都为0的卷积核裁剪掉。
8.如权利要求1所述的视频动作识别方法,其特征在于,所述尺寸调整是指保证上一层的输出通道数与下一层的输入通道数相等。
9.如权利要求8所述的视频动作识别方法,其特征在于,调整时取上一层的输出通道数与下一层的输入通道数这二者间的最大值作为调整尺寸。
CN201810516281.4A 2018-05-25 2018-05-25 一种基于稀疏时间分段网络的视频动作识别方法 Pending CN108764128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516281.4A CN108764128A (zh) 2018-05-25 2018-05-25 一种基于稀疏时间分段网络的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516281.4A CN108764128A (zh) 2018-05-25 2018-05-25 一种基于稀疏时间分段网络的视频动作识别方法

Publications (1)

Publication Number Publication Date
CN108764128A true CN108764128A (zh) 2018-11-06

Family

ID=64006287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516281.4A Pending CN108764128A (zh) 2018-05-25 2018-05-25 一种基于稀疏时间分段网络的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN108764128A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110211123A (zh) * 2019-06-14 2019-09-06 北京文安智能技术股份有限公司 一种深度学习神经网络的优化方法、装置及系统
CN110378194A (zh) * 2019-05-10 2019-10-25 中国石油大学(华东) 基于精细空间网络的人体动作识别方法
CN110414471A (zh) * 2019-08-06 2019-11-05 福建省趋普物联科技有限公司 基于双模型的视频识别方法及系统
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110633694A (zh) * 2019-09-29 2019-12-31 新华智云科技有限公司 一种基于深度学习的足球视频片段分类方法
CN110674769A (zh) * 2019-09-29 2020-01-10 新华智云科技有限公司 一种基于深度学习算法的足球视频片段未进球、普通进球、定位球分类方法
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111046740A (zh) * 2019-11-17 2020-04-21 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111246217A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法
CN111246292A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于片段一致性的压缩视频动作识别方法及装置
CN111882810A (zh) * 2020-07-31 2020-11-03 广州市微智联科技有限公司 一种火灾识别与预警方法及其系统
CN112597856A (zh) * 2020-12-16 2021-04-02 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN112733595A (zh) * 2020-12-02 2021-04-30 国网湖南省电力有限公司 一种基于时间分段网络的视频动作识别方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138589A1 (en) * 2011-11-28 2013-05-30 Microsoft Corporation Exploiting sparseness in training deep neural networks
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN107729819A (zh) * 2017-09-22 2018-02-23 华中科技大学 一种基于稀疏全卷积神经网络的人脸标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138589A1 (en) * 2011-11-28 2013-05-30 Microsoft Corporation Exploiting sparseness in training deep neural networks
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN107729819A (zh) * 2017-09-22 2018-02-23 华中科技大学 一种基于稀疏全卷积神经网络的人脸标注方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANWAR S 等: ""Structured pruning of deep convolutional neural networks"", <ACM JOURNAL ON EMERGING TECHNOLOGIES IN COMPUTING SYSTEMS (JETC)> *
LIMIN WANG等: ""Temporal Segment Networks for Action Recognition in Videos"", 《LECTURE NOTES IN COMPUTER SCIENCE》 *
SIMONYAN K 等: ""Two-stream convolutional networks for action recognition in videos"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
WEN W 等: ""Learning structured sparsity in deep neural networks"", 《ADVANCES IN INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
谯庆伟: ""融合双重时空网络流和attention机制的人体行为识别"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
雷杰 等: ""深度网络模型压缩综述"", 《软件学报》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109377555B (zh) * 2018-11-14 2023-07-25 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109583334A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空关联神经网络的动作识别方法及其系统
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110378194A (zh) * 2019-05-10 2019-10-25 中国石油大学(华东) 基于精细空间网络的人体动作识别方法
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110211123A (zh) * 2019-06-14 2019-09-06 北京文安智能技术股份有限公司 一种深度学习神经网络的优化方法、装置及系统
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110414471A (zh) * 2019-08-06 2019-11-05 福建省趋普物联科技有限公司 基于双模型的视频识别方法及系统
CN110633694A (zh) * 2019-09-29 2019-12-31 新华智云科技有限公司 一种基于深度学习的足球视频片段分类方法
CN110674769A (zh) * 2019-09-29 2020-01-10 新华智云科技有限公司 一种基于深度学习算法的足球视频片段未进球、普通进球、定位球分类方法
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN111046740B (zh) * 2019-11-17 2023-05-19 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111046740A (zh) * 2019-11-17 2020-04-21 杭州电子科技大学 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111246292A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于片段一致性的压缩视频动作识别方法及装置
CN111246217A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法
CN111246217B (zh) * 2020-01-19 2022-02-01 中国石油大学(华东) 基于八度卷积的压缩视频动作识别方法
CN111882810A (zh) * 2020-07-31 2020-11-03 广州市微智联科技有限公司 一种火灾识别与预警方法及其系统
CN111882810B (zh) * 2020-07-31 2022-07-01 广州市微智联科技有限公司 一种火灾识别与预警方法及其系统
CN112733595A (zh) * 2020-12-02 2021-04-30 国网湖南省电力有限公司 一种基于时间分段网络的视频动作识别方法及存储介质
CN112597856A (zh) * 2020-12-16 2021-04-02 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN112597856B (zh) * 2020-12-16 2023-09-26 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统

Similar Documents

Publication Publication Date Title
CN108764128A (zh) 一种基于稀疏时间分段网络的视频动作识别方法
Zhang et al. Hyperspectral classification based on lightweight 3-D-CNN with transfer learning
CN105069825B (zh) 基于深度置信网络的图像超分辨率重建方法
CN104361363B (zh) 深度反卷积特征学习网络、生成方法及图像分类方法
Vig et al. Large-scale optimization of hierarchical features for saliency prediction in natural images
Chang et al. Batch-normalized maxout network in network
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
CN110069958A (zh) 一种密集深度卷积神经网络的脑电信号快速识别方法
CN110428432A (zh) 结肠腺体图像自动分割的深度神经网络算法
CN110349162B (zh) 一种视网膜黄斑水肿多病变图像分割方法
CN107437092A (zh) 基于三维卷积神经网络的视网膜oct图像的分类算法
CN108985181A (zh) 一种基于检测分割的端对端人脸标注方法
CN110060236B (zh) 基于深度卷积神经网络的立体图像质量评价方法
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
CN109508644A (zh) 基于深度视频数据分析的面瘫等级评估系统
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN110070107A (zh) 物体识别方法及装置
Hara et al. Towards good practice for action recognition with spatiotemporal 3d convolutions
CN107316004A (zh) 基于深度学习的空间目标识别方法
CN110473142A (zh) 基于深度学习的单幅图像超分辨率重建方法
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN108537120A (zh) 一种基于深度学习的人脸识别方法及系统
CN108596264A (zh) 一种基于深度学习的社区发现方法
CN112434608A (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN107590427A (zh) 基于时空兴趣点降噪的监控视频异常事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication