CN104966104A - 一种基于三维卷积神经网络的视频分类方法 - Google Patents

一种基于三维卷积神经网络的视频分类方法 Download PDF

Info

Publication number
CN104966104A
CN104966104A CN201510380973.7A CN201510380973A CN104966104A CN 104966104 A CN104966104 A CN 104966104A CN 201510380973 A CN201510380973 A CN 201510380973A CN 104966104 A CN104966104 A CN 104966104A
Authority
CN
China
Prior art keywords
video
frequency band
cnn
class
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510380973.7A
Other languages
English (en)
Other versions
CN104966104B (zh
Inventor
孙建德
赵冬
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Management University
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510380973.7A priority Critical patent/CN104966104B/zh
Publication of CN104966104A publication Critical patent/CN104966104A/zh
Application granted granted Critical
Publication of CN104966104B publication Critical patent/CN104966104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三维卷积神经网络的视频分类的方法,属于视频处理技术领域。此方法将视频等间隔采样为多个视频段,扩增了视频数据库,将三维视频段直接输入到3D CNN中,同时提取视频的时域和空域特征,改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。并行分布式3D CNN多分类模型降低了3D CNN学习的复杂度,同时使得分类系统更方便的实现分布式并行计算。基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率,并能够将不属于任意类别的视频分类为新增类别,避免了对新增类别的分类错误。

Description

一种基于三维卷积神经网络的视频分类方法
技术领域
本发明涉及一种视频分类的方法,属于视频处理技术领域。
背景技术
随着多媒体技术和互联网技术的发展,现在人们可以从各种渠道方便的获得许多的视频数据,但是由于这些海量的视频数据太过于庞大,如何对这些视频数据进行分类,使人们能够更加方便的获取自己感兴趣的数据成为计算机视觉领域里面非常重要同时也非常具有挑战性的研究热点之一。
对视频的分类技术主要包括基于视频的视觉信息、文字信息和音频信息三种方法,视觉信息作为视频中最重要的信息,也是包含视频信息最多,最能代表视频类别的信息,因此也最值得研究。传统的基于视觉信息的视频分类技术涉及到特征提取、视频建模、分类技术三个方面的内容。在特征提取环节,研究者通常自主选择视频帧的全局或局部特征来表示视频,如HSV、LBP等特征,但这种表示方法不能全面而准确的描述视频内容,也忽略了视频的时域特征。视频是连续的图像序列,因此具有时间和空间上的相关性,对视频的准确描述应该能够同时捕捉视频空域和时域两个方面的特性。三维卷积神经网络(3D CNN)可以直接将视频作为三维数据输入,避免了人为选择视频特征的局限性,并且三维的输入模式保证了视频在时间上的连续性,为同时提取视频的时域和空域特征提供了新的途径。同时,基于机器学习的卷积神经网络避免了视频建模环节,而是从大量的视频数据中通过学习的方式得到较优的分类效果,改善了因人工建模选取的不适对分类效果的影响。
虽然三维卷积神经网络在处理视频方面具有优势,但目前其应用受到数据资源不足、三维卷积神经网络的训练过程复杂等问题的制约。基于机器学习的卷积神经网络的训练需要大量的视频数据,数量级应达到几千甚至几万,而现有的视频数据库每一类视频的数量基本在100个左右,如CC_WEB_VEIDEO数据库的第二类拷贝视频数量为122,第六类数量为45等,视频数据的数量远远满足不了卷积神经网络的要求。另外,在视频分类应用中,基于卷积神经网络的模式分类通常采用多类别模型,即网络输出端设计多个节点表示多个类别。由此导致的结果是,当类别数目增加时,网络的构建难度以及计算复杂度会急剧增加,对硬件配置的要求也较高。同时,多类别模型只能对已有类别的视频正确分类,当输入类别之外的视频时,网络会将其错误分到已有类别中的某类中。因此,如何克服上述问题,在现有视频数据资源和硬件配置的条件下,降低网络构建难度,实现快速、实用的视频分类系统已成为大数据多媒体应用的一个重要课题。
发明内容
本发明的目的在于提供一种基于小规模视频数据集和较低配置硬件条件下的视频分类方法,该方法通过数据集扩增和三维卷积神经网络的分布式并行运算方式,将视频多分类问题转化为二分类问题,既解决了视频数据资源不足的难题,又大大降低了三维卷积神经网络学习的复杂度。在分类识别阶段,本发明提出的方法能够仅用较少的几个视频段就达到较高的识别率,并能够将不属于任意类别的视频分类为新增类别,避免了对新增类别的分类错误。
本发明采用以下技术方案:
一种基于三维卷积神经网络3D CNN的视频分类方法,该方法构建了并行分布式的三维卷积神经网络多分类模型,并对视频库进行扩增处理,该方法包括以下步骤:
(1)读取视频库中的视频,对视频帧进行灰度化处理;
(2)通过等间隔采样,对已有视频库进行扩增处理,使原有视频库的每个视频扩增为多个固定帧数为k的视频段,且任意视频段均无重复的帧;
(3)对经过扩增处理的视频库,按照原有标签信息,对每一类视频,将由该类视频经等间隔采样得到的视频段作为该类正样本,其他类视频的视频段作为负样本,制作其训练测试数据集;
(4)构建C个3D CNN网络,C是数据集中的类别数,每个3D CNN以视频段作为输入,用于实现对某一类视频的二分类识别,只有两个输出节点,利用每一类视频的训练数据集训练属于该类的3D CNN,使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别;
(5)构建并行分布式3D CNN多分类模型,将C个训练好的3D CNN进行并联,在并联末端设置分类机制,通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类;
(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中,即可判断其类别。
针对本发明的上述方法,对视频帧进行灰度化处理使计算量降低,速度提高;等间隔采样对视频分段的方法保证了每个视频段都能最大化的呈现视频的全部内容;利用3D CNN的三维输入特性为同时提取视频的时域和空域特征提供了新的途径;采用并行分布式3D CNN多分类框架便于多机分布式并行计算,解决了类别数目增加带来的网络构建难度以及计算复杂度急剧增加的问题,降低了对硬件的配置高要求。
在进一步改进的方案中,上述基于三维卷积神经网络的视频分类方法,步骤(2)中视频段的分类方法为等间隔采样,设视频段的帧数固定为k,分段方法如下:
设视频所有帧为F1,F2,…,Fn,则分成的视频段数为m=floor(n,k),其中floor函数为向下取整,分成的视频段为:
视频段1:F1,F1+m,F1+2m,…,F1+(k-1)×m
视频段2:F2,F2+m,F2+2m,…,F2+(k-1)×m
视频段m:Fm,F2m,F3m,…,Fk×m
上述基于三维卷积神经网络的视频分类方法,步骤(3)中针对每一类视频的训练测试数据集的制作方法为:
设视频库中视频的类别总数为C,则第a类视频的训练正样本为属于第a类视频的视频段,训练负样本为不属于第a类视频的视频段,样本标签为{1,0},其中1表示属于第a类,0表示不属于第a类;每一类的测试样本是相同的,分为三种:属于该类的视频段、不属于该类而属于其他类的视频段、不属于任意类的视频段。
上述基于三维卷积神经网络的视频分类方法,步骤(4)中以视频段作为输入的3D CNN的结构模型为:
3D CNN的卷积层:卷积核为三维,卷积后得到的特征图也为三维。卷积层第i层第j个特征图在(x,y,z)位置处的值为:
f i j x y z = s i g m ( b i j + Σ n Σ p = 0 p i - 1 Σ q = 0 q i - 1 Σ r = 0 r i - 1 w i j n p q r f ( i - 1 ) n ( x + p ) ( y + q ) ( z + r ) )
其中,sigm(·)为sigmoid函数,bij是第i层第j个特征图的偏置,n指与当前特征图连接的上一层特征图的集合,pi、qi、ri分别指第i层卷积核的长、宽、高,是与上层特征图连接的卷积核在(p,q,r)处的值。
3D CNN的采样层:只将上一层特征图第一维和第二维下采样,第三维维数不变。采样层第i层第j个特征图表示为:
fij=sigm(βijdown(f(i-1)j)+bij)
其中,βij和bij分别是第i层第j个特征图的乘子偏差和附加偏差,down(·)是降采样函数,这个函数使输入的数据在第一维和第二维每一个不同的n×n区域求和取平均,使第一维和第二维的维数均减小n倍,其它维数保持不变。
3D CNN的输出层:输出层全连接,输出节点数为2,实现该类两分类问题。
上述基于三维卷积神经网络的视频分类方法,步骤(5)中并联末端分类机制为:
将输入的未知类别视频的视频段分别送入不同类的CNN网络中,计算每个类中视频段的识别率,视频类别c的计算公式为:
其中,c=0表示该视频不属于库中任意类,ri表示第i个网络的视频段识别率,T为判断视频类别阈值,取50%。
视频段识别率ri的定义为:
基于三维卷积神经网络的视频分类技术直接以视频段作为输入,通过学习的方式提取特征进行分类,避免了人工特征提取和视频建模阶段,提升了分类性能,并且视频的三维输入模式保证了视频在时间上的连续性,同时提取视频的时域和空域特征,全面而准确的表示视频内容。等间隔采样的分段方法扩增了视频数据库,解决了视频数据资源不足的难题,并且此分段方法保证每个视频段均能最大化呈现视频内容,在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了新途径。为每类视频构建一个3D CNN网络两两分类,降低了同时构建多类别网络的网络复杂度,同时并联多分类模型方便系统进行分布式并行运行。除此之外,基于三维卷积神经网络的多网络视频分类系统能够将不属于任意类别的视频分类为新增类别,避免了对新增类别的分类错误。
附图说明
图1为视频分段方法示意图;
图2为三维卷积神经网络结构图;
图3为视频分类训练阶段示意图;
图4为视频分类测试阶段示意图。
具体实施方式
下面结合附图对发明作进一步描述:
依据本发明,提供一种视频分类方法,首先读取视频库中的视频,对视频帧进行灰度化处理;其次通过等间隔采样的方式将灰度化后的视频采样为固定帧数的视频段;针对每一类视频,以视频段为单元,制定不同的训练测试数据集,为每个视频段设定标签,标签分为属于这一类与不属于这一类两种;为每一类视频初始化一个3D CNN网络,用该类对应的训练样本训练该网络,使3D CNN对类内和类外多个视频段进行两类别分类;将训练好的多个3D CNN进行并联,在并联末端设置分类机制,通过比较多个3D CNN识别的该视频段的比例即可判断该视频的类别。
依据本发明的视频分类方法主要包括以下步骤:
(1)读取视频库中的视频,对视频帧进行灰度化处理;
(2)通过等间隔采样,对已有视频库进行扩增处理,使原有视频库的每个视频扩增为多个固定帧数为k的视频段,且任意视频段均无重复的帧;
(3)对经过扩增处理的视频库,按照原有标签信息,对每一类视频,将由该类视频经等间隔采样得到的视频段作为该类正样本,其他类视频的视频段作为负样本,制作其训练测试数据集;
(4)构建C个3D CNN网络,C是数据集中的类别数,每个3D CNN以视频段作为输入,用于实现对某一类视频的二分类识别,只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN,使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别;
(5)构建并行分布式3D CNN多分类模型,将C个训练好的3D CNN进行并联,在并联末端设置分类机制,通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类;
(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中,即可判断其类别。
下面对上述步骤进行详述:
1.读取视频库中的视频,对视频帧进行灰度化处理。
采用CC_WEB视频库,该库包含24类视频,将视频帧进行灰度化处理,降低计算量,提高运行速度。
2.通过等间隔采样,对已有视频库进行扩增处理,使原有视频库的每个视频扩增为多个固定帧数为k的视频段,且任意视频段均无重复的帧。
设视频段的帧数固定为k,分段方法如下所示:
设视频所有帧为F1,F2,…,Fn,则分成的视频段数为m=floor(n,k),其中floor函数为向下取整,分成的视频段为:
视频段1:F1,F1+m,F1+2m,…,F1+(k-1)×m
视频段2:F2,F2+m,F2+2m,…,F2+(k-1)×m
视频段m:Fm,F2m,F3m,…,Fk×m
实验中,视频段的帧数固定为7帧,图1展示了视频分段方法,展示视频长为14帧,根据视频段帧数为7的要求,通过2倍平移等间隔采样的方法将该视频分为两段。
根据上述分段方法,CC_WEB_VIDEO视频库中每个视频均被分为多个7帧的视频段,如第一类的第2个视频被分为68段,第二类的第1个视频被分为195段等,此分段方法扩增了数据库,便于3D CNN从大量数据中学习规律。
3.对经过扩增处理的视频库,按照原有标签信息,对每一类视频,将由该类视频经等间隔采样得到的视频段作为该类正样本,其他类视频的视频段作为负样本,制作其训练测试数据集。
CC_WEB_VIDEO视频库中视频的类别总数为24,则需针对每一类制定不同的训练样本。
以第一类为例:第一类中随机取3个视频,将这3个视频分成的视频段作为正样本,根据视频库中的视频分段后可得311个视频段,训练负样本为随机选取不属于第1类,属于其它23类的视频段,选取的负样本的个数也为311,训练样本标签为{1,0},其中1表示属于第1类,0表示不属于第1类。
第二类与第一类相似:第二类中随机取3个视频,将这3个视频分成的视频段作为正样本,根据视频库中的视频分段后可得1155个视频段,训练负样本为随机选取不属于第2类,属于其它23类的视频段,选取的负样本的个数也为1155,训练样本标签为{1,0},其中1表示属于第2类,0表示不属于第2类。
其他类均按上述方法制定其训练样本。
每一类的测试样本是相同的,分为三种:属于该类的视频段、不属于该类,属于其他类的视频段、不属于任意类的视频段。实验中,除训练样本使用视频外,随机选取每类其他17个视频以及不属于任意类的120个视频,即测试视频共528个,按上述分段方法得测试视频段为81746个。
4.构建C个3D CNN网络,C是数据集中的类别数,每个3D CNN以视频段作为输入,用于实现对某一类视频的二分类识别,只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN,使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别。
图2为3D CNN的结构图,图中网络结构为3-3-6-6,输出节点个数设为2,即可使3D CNN对类内和类外多个视频段进行两类别分类。
3D CNN的卷积层:卷积核为三维,卷积后得到的特征图也为三维。卷积层第i层第j个特征图在(x,y,z)位置处的值为:
f i j x y z = s i g m ( b i j + Σ n Σ p = 0 p i - 1 Σ q = 0 q i - 1 Σ r = 0 r i - 1 w i j n p q r f ( i - 1 ) n ( x + p ) ( y + q ) ( z + r ) )
其中,sigm(·)为sigmoid函数,bij是第i层第j个特征图的偏置,n指与当前特征图连接的上一层特征图的集合,pi、qi、ri分别指第i层卷积核的长、宽、高,是与上层特征图连接的卷积核在(p,q,r)处的值。
3D CNN的采样层:只将上一层特征图第一维和第二维下采样,第三维维数不变。采样层第i层第j个特征图表示为:
fij=sigm(βijdown(f(i-1)j)+bij)
其中,βij和bij分别是第i层第j个特征图的乘子偏差和附加偏差,down(·)是降采样函数,这个函数使输入的数据在第一维和第二维每一个不同的n×n区域求和取平均,使第一维和第二维的维数均减小n倍,其它维数保持不变。
3D CNN的输出层:输出层全连接,输出节点数为2,实现该类两分类问题。
图3为训练阶段结构示意图,CC_WEB库类别数C为24,则构建24个3D CNN,根据步骤3中制定的每一类的训练样本训练每一类的3D CNN网络。
5.构建并行分布式3D CNN多分类模型,将C个训练好的3D CNN进行并联,在并联末端设置分类机制,通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类。
图4为并行分布式3D CNN多分类模型,针对CC_WEB库类别数C为24,将训练好的24个3D CNN网络并联,在并联末端设置分类机制判断视频类别,分类机制为:
将待分类视频的视频段送入到并联网络中,计算每个类中视频段的识别率,视频类别c的判别方法为:
其中,c=0表示该视频不属于库中任意类,ri表示第i个网络的视频段识别率,T为判断视频类别阈值,取50%,CC_WEB实验中C=24。
视频段识别率ri的定义为:
6.待分类视频只需随机输入其部分视频段到此多分类网络模型中,即可判断其类别。
等间隔采样后的视频段能最大化的呈现视频的全部内容,所以只需随机输入部分视频段即可完整表示视频内容,节省分类所需时间,经实验验证,只需随机输入20%的视频段即可达到较高的识别率。测试视频528个,每个视频随机输入20%的视频段进行分类,分类识别正确率为85.2%。

Claims (7)

1.一种基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,该方法构建了并行分布式的三维卷积神经网络多分类模型,并对视频库进行扩增处理,该方法包括以下步骤:
(1)读取视频库中的视频,对视频帧进行灰度化处理;
(2)通过等间隔采样,对已有视频库进行扩增处理,使原有视频库的每个视频扩增为多个固定帧数为k的视频段,且任意视频段均无重复的帧;
(3)对经过扩增处理的视频库,按照原有标签信息,对每一类视频,将由该类视频经等间隔采样得到的视频段作为该类正样本,其他类视频的视频段作为负样本,制作其训练测试数据集;
(4)构建C个3D CNN网络,C是数据集中的类别数,每个3D CNN以视频段作为输入,用于实现对某一类视频的二分类识别,只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN,使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别;
(5)构建并行分布式3D CNN多分类模型,将C个训练好的3D CNN进行并联,在并联末端设置分类机制,通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类;
(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中,即可判断其类别。
2.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,步骤(2)中视频段的分段方法为等间隔采样,设视频段的帧数固定为k,分段方法如下:
设视频所有帧为F1,F2,…,Fn,则分成的视频段数为m=floor(n,k),其中floor函数为向下取整,分成的视频段为:
视频段1:F1,F1+m,F1+2m,…,F1+(k-1)×m
视频段2:F2,F2+m,F2+2m,…,F2+(k-1)×m
视频段m:Fm,F2m,F3m,…,Fk×m
3.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,步骤(3)中针对每一类视频的训练测试数据集的制作方法为:
设视频库中视频的类别总数为C,则第a类视频的训练正样本为属于第a类视频的视频段,训练负样本为不属于第a类视频的视频段,样本标签为{1,0},其中1表示属于第a类,0表示不属于第a类;每一类的测试样本是相同的,分为三种:属于该类的视频段、不属于该类而属于其他类的视频段、不属于任意类的视频段。
4.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,步骤(4)中以视频段作为输入的3D CNN的结构模型为:
3D CNN的卷积层:卷积核为三维,卷积后得到的特征图也为三维。卷积层第i层第j个特征图在(x,y,z)位置处的值为:
f i j x y z = s i g m ( b i j + Σ n Σ p = 0 p i - 1 Σ q = 0 q i - 1 Σ r = 0 r i - 1 w i j n p q r f ( i - 1 ) n ( x + p ) ( y + q ) ( z + r ) )
其中,sigm(·)为sigmoid函数,bij是第i层第j个特征图的偏置,n指与当前特征图连接的上一层特征图的集合,pi、qi、ri分别指第i层卷积核的长、宽、高,是与上层特征图连接的卷积核在(p,q,r)处的值;
3D CNN的采样层:只将上一层特征图第一维和第二维下采样,第三维维数不变,采样层第i层第j个特征图表示为:
fij=sigm(βijdown(f(i-1)j)+bij)
其中,βij和bij分别是第i层第j个特征图的乘子偏差和附加偏差,down(·)是降采样函数,这个函数使输入的数据在第一维和第二维每一个不同的n×n区域求和取平均,使第一维和第二维的维数均减小n倍,其它维数保持不变;
3D CNN的输出层:输出层全连接,输出节点数为2,实现该类两分类问题。
5.根据权利要求1所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,步骤(5)中并联末端视频分类机制方法如下:
将输入的未知类别视频的视频段分别送入不同类的CNN网络中,计算每个类中视频段的识别率,视频类别c的计算公式为:
其中,c=0表示该视频不属于库中任意类,ri表示第i个网络的视频段识别率,T为判断视频类别阈值。
6.根据权利要求5所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,视频段识别率ri的定义为:
7.根据权利要求5所述的基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,判断视频类别阈值T为50%。
CN201510380973.7A 2015-06-30 2015-06-30 一种基于三维卷积神经网络的视频分类方法 Active CN104966104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510380973.7A CN104966104B (zh) 2015-06-30 2015-06-30 一种基于三维卷积神经网络的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510380973.7A CN104966104B (zh) 2015-06-30 2015-06-30 一种基于三维卷积神经网络的视频分类方法

Publications (2)

Publication Number Publication Date
CN104966104A true CN104966104A (zh) 2015-10-07
CN104966104B CN104966104B (zh) 2018-05-11

Family

ID=54220139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510380973.7A Active CN104966104B (zh) 2015-06-30 2015-06-30 一种基于三维卷积神经网络的视频分类方法

Country Status (1)

Country Link
CN (1) CN104966104B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106295521A (zh) * 2016-07-29 2017-01-04 厦门美图之家科技有限公司 一种基于多输出卷积神经网络的性别识别方法、装置及计算设备
CN106529569A (zh) * 2016-10-11 2017-03-22 北京航空航天大学 基于深度学习的三维模型三角面特征学习分类方法及装置
CN106993226A (zh) * 2017-03-17 2017-07-28 深圳市金立通信设备有限公司 一种推荐视频的方法及终端
CN107194375A (zh) * 2017-06-20 2017-09-22 西安电子科技大学 基于三维主成分分析网络的视频序列分类方法
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN107871101A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
CN107909038A (zh) * 2017-11-16 2018-04-13 北京邮电大学 一种社交关系分类模型训练方法、装置、电子设备及介质
CN108021982A (zh) * 2016-10-28 2018-05-11 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
CN108053423A (zh) * 2017-12-05 2018-05-18 中国农业大学 一种多目标动物跟踪方法及装置
CN108090404A (zh) * 2016-11-23 2018-05-29 法乐第(北京)网络科技有限公司 三维图像处理方法
CN108171222A (zh) * 2018-02-11 2018-06-15 清华大学 一种基于多流神经网络的实时视频分类方法及装置
CN108764084A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法
CN109214375A (zh) * 2018-11-07 2019-01-15 浙江大学 一种基于分段采样视频特征的胚胎妊娠结果预测装置
WO2019052301A1 (zh) * 2017-09-15 2019-03-21 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器
CN109559302A (zh) * 2018-11-23 2019-04-02 北京市新技术应用研究所 基于卷积神经网络的管道视频缺陷检测方法
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN109697852A (zh) * 2019-01-23 2019-04-30 吉林大学 基于时序交通事件的城市道路拥堵程度预测方法
CN109740018A (zh) * 2019-01-29 2019-05-10 北京字节跳动网络技术有限公司 用于生成视频标签模型的方法和装置
WO2019091417A1 (zh) * 2017-11-09 2019-05-16 清华大学 基于神经网络的识别方法与装置
CN109831684A (zh) * 2019-03-11 2019-05-31 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN109871730A (zh) * 2017-12-05 2019-06-11 杭州海康威视数字技术股份有限公司 一种目标识别方法、装置及监控设备
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110084202A (zh) * 2019-04-29 2019-08-02 东南大学 一种基于高效三维卷积的视频行为识别方法
CN110351244A (zh) * 2019-06-11 2019-10-18 山东大学 一种基于多卷积神经网络融合的网络入侵检测方法及系统
CN110830734A (zh) * 2019-10-30 2020-02-21 新华智云科技有限公司 一种突变和渐变镜头切换识别方法
CN111079864A (zh) * 2019-12-31 2020-04-28 杭州趣维科技有限公司 一种基于优化视频关键帧提取的短视频分类方法及系统
CN111104553A (zh) * 2020-01-07 2020-05-05 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN111126115A (zh) * 2018-11-01 2020-05-08 顺丰科技有限公司 暴力分拣行为识别方法和装置
WO2020108023A1 (zh) * 2018-11-28 2020-06-04 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN111860064A (zh) * 2019-04-30 2020-10-30 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置
CN112115876A (zh) * 2020-09-21 2020-12-22 四川弘和通讯有限公司 一种基于3d卷积神经网络的水溶法实验过程识别方法
TWI730452B (zh) * 2019-10-16 2021-06-11 逢甲大學 立體類神經網路系統
CN112948631A (zh) * 2019-12-11 2021-06-11 北京金山云网络技术有限公司 视频标签生成方法、装置及电子终端
CN113015022A (zh) * 2021-02-05 2021-06-22 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备及计算机可读存储介质
CN111126115B (zh) * 2018-11-01 2024-06-07 顺丰科技有限公司 暴力分拣行为识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222724A1 (en) * 2010-03-15 2011-09-15 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US20140177946A1 (en) * 2012-12-21 2014-06-26 Electronics and Telecommunicatidons Research Institute Human detection apparatus and method
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
CN104537387A (zh) * 2014-12-16 2015-04-22 广州中国科学院先进技术研究所 利用神经网络实现车型分类的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222724A1 (en) * 2010-03-15 2011-09-15 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US20140177946A1 (en) * 2012-12-21 2014-06-26 Electronics and Telecommunicatidons Research Institute Human detection apparatus and method
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
CN104537387A (zh) * 2014-12-16 2015-04-22 广州中国科学院先进技术研究所 利用神经网络实现车型分类的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREJ K 等: "Large-Scale Video Classification with Convolutional Neural Networks", 《COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2014 IEEE CONFERENCE ON》 *
SHUIWANG JI 等: "3D Convolutional Neural Networks for Human Action Recognition", 《PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE TRANSACTIONS ON》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
CN105718890A (zh) * 2016-01-22 2016-06-29 北京大学 一种基于卷积神经网络的特定视频检测方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106295521A (zh) * 2016-07-29 2017-01-04 厦门美图之家科技有限公司 一种基于多输出卷积神经网络的性别识别方法、装置及计算设备
CN106295521B (zh) * 2016-07-29 2019-06-04 厦门美图之家科技有限公司 一种基于多输出卷积神经网络的性别识别方法、装置及计算设备
CN107871101A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 一种人脸检测方法及装置
CN106529569A (zh) * 2016-10-11 2017-03-22 北京航空航天大学 基于深度学习的三维模型三角面特征学习分类方法及装置
CN108021982A (zh) * 2016-10-28 2018-05-11 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
CN108090404A (zh) * 2016-11-23 2018-05-29 法乐第(北京)网络科技有限公司 三维图像处理方法
CN106993226A (zh) * 2017-03-17 2017-07-28 深圳市金立通信设备有限公司 一种推荐视频的方法及终端
CN107194375A (zh) * 2017-06-20 2017-09-22 西安电子科技大学 基于三维主成分分析网络的视频序列分类方法
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107506740B (zh) * 2017-09-04 2020-03-17 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
WO2019052301A1 (zh) * 2017-09-15 2019-03-21 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器
US10956748B2 (en) 2017-09-15 2021-03-23 Tencent Technology (Shenzhen) Company Limited Video classification method, information processing method, and server
WO2019091417A1 (zh) * 2017-11-09 2019-05-16 清华大学 基于神经网络的识别方法与装置
CN107909038A (zh) * 2017-11-16 2018-04-13 北京邮电大学 一种社交关系分类模型训练方法、装置、电子设备及介质
CN108053423A (zh) * 2017-12-05 2018-05-18 中国农业大学 一种多目标动物跟踪方法及装置
CN109871730A (zh) * 2017-12-05 2019-06-11 杭州海康威视数字技术股份有限公司 一种目标识别方法、装置及监控设备
CN108171222A (zh) * 2018-02-11 2018-06-15 清华大学 一种基于多流神经网络的实时视频分类方法及装置
CN108171222B (zh) * 2018-02-11 2020-08-25 清华大学 一种基于多流神经网络的实时视频分类方法及装置
CN108764084B (zh) * 2018-05-17 2021-07-27 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法
CN108764084A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法
CN111126115B (zh) * 2018-11-01 2024-06-07 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN111126115A (zh) * 2018-11-01 2020-05-08 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN109214375A (zh) * 2018-11-07 2019-01-15 浙江大学 一种基于分段采样视频特征的胚胎妊娠结果预测装置
CN109214375B (zh) * 2018-11-07 2020-11-24 浙江大学 一种基于分段采样视频特征的胚胎妊娠结果预测装置
CN109559302A (zh) * 2018-11-23 2019-04-02 北京市新技术应用研究所 基于卷积神经网络的管道视频缺陷检测方法
WO2020108023A1 (zh) * 2018-11-28 2020-06-04 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN109614517B (zh) * 2018-12-04 2023-08-01 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN109697852A (zh) * 2019-01-23 2019-04-30 吉林大学 基于时序交通事件的城市道路拥堵程度预测方法
CN109740018A (zh) * 2019-01-29 2019-05-10 北京字节跳动网络技术有限公司 用于生成视频标签模型的方法和装置
CN109831684A (zh) * 2019-03-11 2019-05-31 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN109948721B (zh) * 2019-03-27 2021-07-09 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110084202A (zh) * 2019-04-29 2019-08-02 东南大学 一种基于高效三维卷积的视频行为识别方法
CN111860064B (zh) * 2019-04-30 2023-10-20 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN111860064A (zh) * 2019-04-30 2020-10-30 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置
CN110351244A (zh) * 2019-06-11 2019-10-18 山东大学 一种基于多卷积神经网络融合的网络入侵检测方法及系统
TWI730452B (zh) * 2019-10-16 2021-06-11 逢甲大學 立體類神經網路系統
CN110830734A (zh) * 2019-10-30 2020-02-21 新华智云科技有限公司 一种突变和渐变镜头切换识别方法
CN112948631A (zh) * 2019-12-11 2021-06-11 北京金山云网络技术有限公司 视频标签生成方法、装置及电子终端
CN111079864A (zh) * 2019-12-31 2020-04-28 杭州趣维科技有限公司 一种基于优化视频关键帧提取的短视频分类方法及系统
CN111104553B (zh) * 2020-01-07 2023-12-12 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN111104553A (zh) * 2020-01-07 2020-05-05 中国科学院自动化研究所 一种高效运动互补神经网络系统
CN112115876A (zh) * 2020-09-21 2020-12-22 四川弘和通讯有限公司 一种基于3d卷积神经网络的水溶法实验过程识别方法
CN113015022A (zh) * 2021-02-05 2021-06-22 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN104966104B (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN104966104A (zh) 一种基于三维卷积神经网络的视频分类方法
WO2019237240A1 (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN104346440A (zh) 一种基于神经网络的跨媒体哈希索引方法
CN107506793B (zh) 基于弱标注图像的服装识别方法及系统
CN103955707B (zh) 一种基于深度层次特征学习的海量图像分类系统
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN104915643A (zh) 一种基于深度学习的行人再标识方法
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN105718532A (zh) 一种基于多深度网络结构的跨媒体排序方法
CN107346328A (zh) 一种基于多粒度层级网络的跨模态关联学习方法
Malgireddy et al. Language-motivated approaches to action recognition
CN103530603A (zh) 基于环路图模型的视频异常检测方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN106845525A (zh) 一种基于底层融合特征的深度置信网络图像分类协议
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN104317838A (zh) 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN104820843A (zh) 一种基于优化高斯混合模型的图像语义标注的方法
CN104702465A (zh) 一种并行网络流量分类方法
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN103440501A (zh) 基于非参数空间判决隐狄利克雷模型的场景分类方法
CN111143567A (zh) 一种基于改进神经网络的评论情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Jing

Inventor before: Sun Jiande

Inventor before: Zhao Dong

Inventor before: Li Jing

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20180411

Address after: 250100 mulberry Road, Ji'nan City, Shandong Province, No. 60

Applicant after: Shandong School of management

Address before: 250100 College of information science and engineering, Shandong University, 27, Shanda South Road, Licheng District, Ji'nan, Shandong

Applicant before: Sun Jiande

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant