CN106203283A - 基于三维卷积深度神经网络和深度视频的动作识别方法 - Google Patents
基于三维卷积深度神经网络和深度视频的动作识别方法 Download PDFInfo
- Publication number
- CN106203283A CN106203283A CN201610504973.8A CN201610504973A CN106203283A CN 106203283 A CN106203283 A CN 106203283A CN 201610504973 A CN201610504973 A CN 201610504973A CN 106203283 A CN106203283 A CN 106203283A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- video
- deep neural
- dimensional convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural Effects 0.000 title claims abstract description 31
- 230000000694 effects Effects 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000001264 neutralization Effects 0.000 claims description 6
- 210000002569 neurons Anatomy 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 8
- 230000006399 behavior Effects 0.000 description 42
- 238000000605 extraction Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 210000000988 Bone and Bones Anatomy 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 210000001503 Joints Anatomy 0.000 description 1
- 210000004218 Nerve Net Anatomy 0.000 description 1
- 210000002356 Skeleton Anatomy 0.000 description 1
- 235000010599 Verbascum thapsus Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000875 corresponding Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000000717 retained Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/04—Architectures, e.g. interconnection topology
- G06N3/0454—Architectures, e.g. interconnection topology using a combination of multiple neural nets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/08—Learning methods
- G06N3/084—Back-propagation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Abstract
本发明公开了一种基于三维卷积深度神经网络和深度视频的动作识别方法,本发明以深度视频为研究对象,构建了3维卷积深度神经网络自动学习人体行为的时空特征,使用Softmax分类器进行人体行为的分类识别。实验结果表明,本发明提出的方法能够有效提取人体行为的潜在特征,不但在MSR‑Action3D数据集上能够获得较好的识别效果,在UTKinect‑Action3D数据集也能够获得较好的识别效果。
Description
技术领域
[0001] 本发明涉及行为识别领域,特别是涉及一种基于三维卷积深度神经网络和深度视 频的动作识别方法。
背景技术
[0002] 作为视频分析中的一项流行技术,人体行为识别已逐渐开始应用于日常生活,如 自动监控中的异常事件检测,视频检索,人机接口等。传统的人体行为识别包括三个步骤: 特征提取,特征表示和识别分类。首先,从视频序列中提取人工特征。其次,使用一些变换和 聚类等技术将提取的特征构造出更具区分性的描述子特征。最后,使用分类器对描述子特 征进行分类识别。基于特征提取的行为识别方法取得了非常可喜的研究成果,如借用视觉 词袋模型的思想,Li等人[1]提出了3维点词袋(Bag of 3D Points)来描述一系列的显著姿 势,这些姿势作为节点用于构建表示人体行为的行为图。Xia等人[2]使用3维关节位置直方 图(Histograms Of 3D Joint locations,H0J3D)来表示不同行为。但基于人工特征的行为 识别方法近些年的研究进展缓慢,主要是因为,其一,为有效保留行为信息,提取的特征维 数越来越高,计算开销太大,很难做到实时性;其二,人工设计特征针对某一具体数据集调 校而成,很难泛化到其他数据集;其三,传统行为识别方法各步骤间是孤立的,分类结果好 坏并不能自动反馈到特征提取和描述环节。总之,传统人体行为识别基于人工设计特征方 法涉及的环节多,具有时间开销大,算法难以整体调优的缺点。
[0003] 2006年,Hinton大师等人提出了深度学习的概念,其逐层训练算法能够很好训练 深度神经网络。从此,深度学习及神经网络又一次得到了研究者的重视并广泛应用于图像 分类、语音识别、物体识别等领域。现有基于深度学习的行为识别研究,往往是先从视频序 列中提取人工设计特征,然后将提取的特征应用于深度神经网络,深度神经网络更多的起 到特征降维的作用,其本质上类似于基于人工特征的方法。
[0004] [l]ff.Li ,Z.Zhang,Z.Liu,Action recognition based on a bag of 3D points, in:Computer Vision and Pattern Recognition Workshops(CVPRff),2010IEEE Computer Society Conference on,2010,pp.9~ 14〇
[0005] [2]L.Xia?C.-C.Chen?J.K.Aggarwal ? Vi ew invariant human action recognition using histograms of 3D joints,in: Computer Vision and Pattern Recognition Workshops(CVPRff)?2012IEEE Computer Society Conference on?2012? pp.20 27。
发明内容
[0006] 本发明的目的在于针对现有技术的不足,提供一种基于三维卷积深度神经网络和 深度视频的动作识别方法,本方法涉及环节少,能自动提取特征,不需要对原始视频进行复 杂处理,方法更为简单,识别效果良好,更重要的是所提取的特征具有更好的泛化性能。
[0007] 深度视频中包含了物体的深度信息和几何结构信息,因此它对光线的变化不敏 感,并且在视频分割、物体检测和行为识别等视觉任务中比RGB视频具有更好的区分性。结 合深度视频的优点,本发明以深度视频为研究对象,使用3维卷积构建深度神经网络模型, 直接从行为视频序列自动学习其高层特征表示并进行行为的识别。本发明所提出方法在 UTKinect-Action3D和MSR-Action3D两个数据集上进行了评估,结果表明,本发明方法在 UTKinect-Action3D和MSR-Action3D数据集均获得了良好的识别性能。
[0008] 本发明的目的是这样实现的:一种基于三维卷积深度神经网络和深度视频的动作 识别方法,包括如下步骤:
[0009] (1)建立训练数据集;
[0010] (2)构建基于三维卷积的深度神经网络模型;
[0011] (3)选取训练数据集中的行为视频送入步骤(2)中构建的三维卷积深度神经网络 模型中进行训练;
[0012] (4)选取待识别的行为视频送入步骤(3)得到的已经训练好的三维卷积深度神经 网络模型中进行行为识别。
[0013] 三维卷积深度神经网络模型包括两个三维卷积层,该三维卷积层的卷积核为三 维,卷积后得到的特征图也为三维,每个卷积层后是池化层,卷积层和池化层构成该深度神 经网络模型的主体部分,该深度神经网络模型的主体部分之后是向量化层、2个全连接层和 分类层。
[0014]三维卷积深度神经网络模型中,假定卷积前后分别为1-1和1层,其中1-1层特征图 数为N,1层特征图数为M,卷积前(即1-1层)视频大小为T X W X H,T,W,H分别为视频的帧数、 帧宽和帧高,各维度卷积步长均为1,从1-1到1层卷积核大小为kT X kw X kH,则卷积后1层的 输出大小为(T-kT+l) X (W-kw+l) X (H-kH+l),并且第1层位置(^…的激活值气以通过以 下公式计算=/(x,,w,>,其中气 ((/,表示第1层位置(^"^^的激活值"敦活函数汽一为 双曲正切函数,表示第1层位置U1,1 1J1)来自于1-1层数据的输入加权和,则
其中(ti,ii,ji)分别为时间为、视频宽度、高度 三个维度的下标,为第k个特征图的卷积核的权重,层第k个特征图在 (ti-i,ii-i,ji-i)处的激活值,bk为第k个特征图的偏置单兀向量,tie [I,T_kT+l],ii[ [I kw+l ],ji G [ I,H_kH+l ],k为 1_1 层特征图编号。
[0015]三维卷积深度神经网络模型中,池化层采用的是最大池化技术。
[0016] 基于三维卷积的深度神经网络中每个卷积层后接一个池化层,池化技术能提高算 法的平移不变性,本研究使用的是最大池化技术,池化区域大小为2X2X2,各维度池化步 长均为2,则最大池化如公式(4)所示。
[0017]
[0018] 其中tiG [2tip_l,2tip+l],iiG [2iip_l,2iip+l],jiG [2jip_l,2jip+l] ,xW4J4l为 1 层 使用最大池化后,位置(tlp,ilp,jlp)的数值,即I层该特征图在位置(t lp,ilp,jlp)的数值。 [0019]两个三维卷积层的特征图数目分别为32和128。
[0020]两个全连接层的神经元个数分别为2056和512,采用前馈式神经网络连接方式。
[0021] 分类层中采用的是Softmax分类器。
[0022] 对于MSR-Action3D数据集,卷积核大小分别为5 X 5 X 7和5 X 5 X 5,而UTKinect-Action3D数据集卷积核大小分别为5 X 5 X 5和5 X 5 X 5〇
[0023]输入三维卷积的深度神经网络中的行为视频均为经过预处理后的视频。
[0024]预处理步骤为:首先,背景去除:在深度视频中,背景的深度信息是一致的,而前景 的深度信息是有变化的,可根据该特点去除背景信息;其次,边界框确定:针对每一个视频, 分别根据其每一帧,得出能并且仅能框住行为的边界框,取所有帧的最大边界框作为本视 频的边界框;再次,规范化:使用插值技术将上一步处理后的所有视频规范化到统一大小, 其中规范化后的视频帧数等于所有视频帧数的中间值。同时使用min-max方法将将所有视 频的深度信息值规范化到[0,1 ]范围;最后,将所有样本进行水平翻转形成新的样本从而成 倍扩大数据集中的训练样本。
[0025]输入三维卷积的深度神经网络中的行为视频为深度视频。
[0026] 本发明使用反向传播(BP)算法训练三维卷积深度神经网络。实验时,采用随机梯 度下降法(SGD)进行参数优化,训练时的学习速率和权重衰减系数均为1*1(T 4。
[0027] 本发明的有益效果为:本发明以深度视频为研究对象,构建了 3维卷积深度神经网 络自动学习行为的时空特征,使用Softmax分类器进行行为的分类识别。实验结果表明,本 发明提出的方法能够有效提取行为的潜在特征,不但在MSR-Action3D数据集上能够获得较 好的识别效果,在UTKinect-Act ion3D数据集也能够获得较好的识别效果。本方法的优势是 不需要人工提取特征,特征提取和分类识别构成一个端到端的完整闭环系统,从输入到输 出是一个完整过程,不需要人工参与,方法更加简单。同时,本发明方法也验证了深度卷积 神经网络模型具有良好的泛化性能,使用MSR-Action3D数据集训练的模型直接应用于 UTKinect-ACti〇n3D数据集上行为的分类识别,同样获得了良好的识别效果,本发明识别效 果在两个常用公开数据库均获得了良好的识别性能。
[0028] 本发明特征的提取过程是完全自动的,不需要人工参与,学习出的特征具有更好 的泛化性能,全连接层的输出即是所学习到的特征,该特征自动输入到分类层进行识别分 类,从原始输入到分类是端到端的过程,算法简单涉及环节少。
[0029]总之,本发明方法不需要复杂的人工特征提取环节,只需对原始视频进行简单处 理,即可由深度神经网络模型进行特征的自动提取并完成识别分类过程,方法简单、涉及环 节更少。
[0030] 下面结合附图和具体实施方式对本发明作进一步说明。
附图说明
[0031] 图1为本发明的三维卷积深度神经网络模型;
[0032] 图2为本发明数据预处理简要步骤图。
具体实施方式
[0033]本实施例公开了一种基于三维卷积深度神经网络和深度视频的动作识别方法,包 括如下步骤:
[0034] (1)建立训练数据集。本实施例采用的训练数据集为MSR-Action3D数据集或 UTKinect-Act ion3D 数据集。
[0035] (2)构建基于三维卷积的深度神经网络模型。图1给出了本发明所设计的基于三维 卷积的深度神经网络模型。该网络具有两个三维卷积层(Convo Iut ionLayer ),其中的卷积 操作同时考虑了空间和时间维度,两个卷积层的特征图数目分别为32和128。三维卷积层的 卷积核为三维,卷积后得到的特征图也为三维。由于本发明使用的两个数据集的视频大小 不一样,因此采用了不同的卷积核大小,对于MSR-Action3D数据集,卷积核大小分别为5X5 X 7和5 X 5 X 5,而UTKinect-Action3D数据集卷积核大小分别为5 X 5 X 5和5 X 5 X 5。每个卷 积层后是池化层(PoolingLayer),本发明使用的是最大池化(MaxPooling)技术,池化操作 可以实现对提取特征的平移不变性。卷积层和池化层构成该深度神经网络模型的主体部 分。然后是向量化层、2个全连接层(Ful IConnectedLayer)和分类层,全连接层神经元个数 分别为2056和512,采用的是传统的前馈式神经网络连接方式。分类层中采用的是Softmax 分类器。网络中的激活函数全部为双曲正切函数tanh。和一般的深度网络一样,本发明使用 反向传播(BP)算法训练基于三维卷积的深度神经网络。实验时,采用随机梯度下降法(SGD) 进行参数优化,训练时的学习速率和权重衰减系数均为1 *1 (T4。
[0036]三维卷积与池化的数学建模 [0037] (1)三维卷积运算
[0038] 假定卷积前后分别为1-1和1层,特征图数分别为N和M,卷积前视频大小为TXWX H,T,W,H分别为视频的帧数、帧宽和帧高,各维度卷积步长均为1,卷积核大小为k T X kw X kH。 由于使用不同卷积核生成不同特征图过程是相同的,后续公式只考虑一个特征图。则卷积 后1层大小为(T-k T+l) X (W-kw+1) X (H-kH+l),获取位置(ti,ii,ji)激活值的三维卷积操作 运算定义如公式(1)和公式(2)所示。
[0039]
[0040] 其中U1,11J1)分别为时间为、视频宽度、高度三个维度的下标,为卷积核 的权重(<Wm中k代表第k个特征图,对应第一个求和公式层第k个特征图 在(ti-i,ii-i,ji-i)处的激活值,bk为第k个特征图的偏置单兀向量,ti e [I,T_kT+l],ii[ [1, W-kw+l ],ji G [ I,H-kH+l ],k为I-I层特征图编号。
[0041]
[0042] 其中弋表示第1层位置U1 J1J1)的激活值(输出值),激活函数f(.)为双曲正切 函数,如公式(3)所示。
[0043]
[0044] (2)三维池化运算
[0045] 基于三维卷积的深度神经网络中每个卷积层后接一个池化层,池化技术能提高算 法的平移不变性,本研究使用的是最大池化技术,池化区域大小为2X2X2,各维度池化步 长均为2,咖最女池化如公式(4)所示。
[0046]
[0047]其中tlp,~,扎分别为时间维度,视频宽度及高度方向的下标,UGDtlp-IJt lp+ I ],ii G [ 2 i 1P-1,2i 1P+1 ],jIG [ 2 j 1P-1,2 j 1P+1 ],为 1 层使用最大池化后,位置(tiP,i iP, jiP)的数值,即1层该特征图在位置(tlp,ilp,jlp)的数值。
[0048] (3)选取训练数据集中的人体行为视频送入步骤(2)中构建的三维卷积深度神经 网络模型中进行训练;
[0049] (4)选取待识别的人体行为视频送入步骤(3)得到的已经训练好的三维卷积深度 神经网络模型中进行行为识别。
[0050]输入三维卷积的深度神经网络中的人体行为视频为深度视频。输入三维卷积的深 度神经网络中的人体行为视频为经过预处理的视频,即人体行为视频在输入三维卷积的深 度神经网络之间需要进行数据预处理。
[0051 ] 本发明使用UTKinect-Act ion3D和MSR-Act ion3D两个公开数据集来评价所提出方 法,它们均是使用深度摄像机(Kinect)拍摄的人体行为视频数据。UTKinect-Action3D中 共有 10个行为,分别是Walk,Sit down,Stand up,Pickup,Carry,Throw,Push,Pull,Wave hands和Clap hands。共有10个被试,每个被试拍摄每个行为2次,由于第10个被试Carry行 为的第2次拍摄被认为是无效视频,因而总共有199个有效视频。为了计算方便,本发明使用 了全部200个视频。MSR-Action3D数据集中有20个行为,由10个被试拍摄完成,其中每个被 试完成每个行为2-3次。20个行为分为3个行为子集,分别是ASl,AS2和AS3(如表1所示),每 个行为子集中包含8个不同的行为。为降低不同被试对实验结果的影响,在实验前,对每个 视频进行简单的预处理(图2),首先,背景去除:在深度视频中,背景的深度信息是一致的, 而前景的深度信息是有变化的,可根据该特点去除背景信息;其次,边界框确定:针对每一 个视频,分别根据其每一帧,得出能并且仅能框住人体行为的边界框,取所有帧的最大边界 框作为本视频的边界框,如图2所示;再次,规范化:使用插值技术将上一步处理后的所有视 频规范化到统一大小,其中规范化后的视频帧数等于所有视频帧数的中间值。同时使用 min-max方法将将所有视频的深度信息值规范化到[0,1 ]范围;最后,将所有样本进行水平 翻转形成新的样本从而成倍扩大数据集中的训练样本。预处理后,UTKinect-Act ion3D和 MSR-Action3D的行为视频大小分别为28 X 32 X 32和38 X 32 X 32,其中从前往后依次为视频 中的帧数,帧宽和帧高。本发明的实验深度神经网络模型部分采用Torch平台进行编写,数 据预处理部分则使用matlab平台完成。
[0052] 表1 MSR-Action3D数据集中的行为子集AS1,AS2和AS3
[0053]
[0054]
[0055] MSR-Ac t i on3D数据集上的识别性能
[0056]首先在MSR-Action3D数据集上验证了本发明方法的有效性,按照文章[1 ]的实验 设置,本发明方法和该数据集的基准项目研究[1]及近些年基于人工特征提取的几个主要 方法进行了比较。表2给出了本发明方法和方法[1]在3个不同行为子集上的行为识别准确 度。从识别结果可以看出,基于三维卷积深度神经网络的人体行为识别方法能有效对人体 行为进行识别,各行为子集识别准确度和平均准确度均要优于该数据集的基准项目研究。 其主要是因为[1]使用三维词袋模型提取行为视频中的特征,该特征能提取视频中有代表 性的三维词袋信息,但忽略掉了视频中空间和时态信息,而基于三维卷积深度神经网络的 人体行为识别方法对视频采用三维卷积操作,有效的保持了空间和时态特征,因而获得了 更好的性能。
[0057]表2本发明与文章 [1]的MSR-Action3D数据集基准研究项目的比较
[0058]
[0059]
[0060] UTKinect_Action3D数据集上的识别性能
[0061]在UTKinect-ACti〇n3D数据集,本发明方法与该数据集上的基准研究项目[2]进行 了比较。文章[2]使用Leave-One-Out交叉验证方法(L00-CV)。为实验的方便,本发明使用 Leave-OneSubject-Out交叉验证(LOSO-CV),即每次只将一个被试的所有行为视频作为测 试集,而其他被试的数据作为训练集,从而为每个被试训练出一个深度神经网络模型,显然 该实验条件比文章[2]更为苛刻。表3给出了本发明方法在不同被试上的行为识别准确度。 从表3可以看出,各被试行为识别准确率平均值为82%,基本能正确识别绝大部分被试的行 为,而被试5,6,7,10上的识别准确率相对较低,主要是因为UTKinect-A Cti〇n3D是个多视角 数据集,这几个被试在进行动作行为拍摄时视角的偏差过大所致。同时,本发明方法实验条 件比方法[2]更为苛刻,而且实验数据相对较小,模型的训练不足,这些也是导致识别效果 不够好的原因。文章[2]的缺点非常明显,由于它采用人工特征提取方法,利用深度视频中 的骨架信息,使用隐马尔科夫模型(Hidden Markov Model,HMM)建立骨架信息的时态模型, 导致其行为识别框架过于复杂,系统性能受骨架信息提取,H0J3D特征提取,特征LDA投影, 行为词聚类和HMM模型训练等多个环节的影响,而且提取骨架是个复杂的过程,所提取的骨 架信息的准确性取决于深度视频的拍摄情况。相对于[2]等人工特征提取的方法,本发明基 于深度学习的方法具有更好的泛化性能。
[0062] 表3.UTKinect-Action3D中各被试行为识别准确率 「00631
[0064]本发明以深度视频为研究对象,通过构建基于三维卷积的深度神经网络来自动学 习人体行为的时态和空间特征,并用于人体行为的识别。MSR-Action3D和UTKinect-Action3D数据集上的实验结果表明,本发明构建的基于三维卷积深度神经网络模型能对视 频中的人体行为进行有效的识别,识别性能好。除此之外,相对于传统基于人工特征的行为 识别方法,基于深度卷积神经网络的方法涉及环节少,能自动提取特征,不需要对原始视频 进行复杂处理,方法更为简单,更重要的是所提取的特征具有更好的泛化性能,在一个数据 集上训练好的模型能够直接应用于其他数据集的分类识别。
[0065]本研究通过简单实验测试了基于三维卷积深度神经网络的泛化性能,将MSR-Action3D数据集上训练好的深度神经网络模型,不经过微调,直接用于UTKinect-A Cti〇n3D 数据集上的行为分类识别,其识别性能仍然达到了73%的识别准确度,充分表明了深度神 经网络在行为识别领域的良好泛化性,为少样本数据集的分类识别带来了曙光。
[0066]本发明不仅仅局限于上述实施例,在不背离本发明技术方案原则精神的情况下进 行些许改动的技术方案,应落入本发明的保护范围。
Claims (10)
1· 一种基于三维卷积深度神经网络和深度视频的动作识别方法,其特征在于,包括如 下步骤: (1) 建立训练数据集; (2) 构建基于三维卷积的深度神经网络模型; (3) 选取训练数据集中的行为视频送入步骤(2)中构建的三维卷积深度神经网络模型 中进行训练; (4) 选取待识别的行为视频送入步骤(3)得到的已经训练好的三维卷积深度神经网络 模型中进行行为识别。
2.根据权利要求1所述的基于三维卷积深度神经网络和深度视频的动作识别方法,其 特征在于:三维卷积深度神经网络模型包括两个三维卷积层,该三维卷积层的卷积核为三 维,卷积后得到的特征图也为三维,每个卷积层后是池化层,卷积层和池化层构成该深度神 经网络模型的主体部分,该深度神经网络模型的主体部分之后是向量化层、2个全连接层和 分类层。 3 ·根据权利要求1或2所述的方法,其特征在于:三维卷积深度神经网络模型中,假定卷 积前后分别为1 -1和1层,其中1-1层特征图数为Ν,1层特征图数为Μ,卷积前视频大小为τ X W X Η,Τ,W,Η分别为视频的帧数、帧宽和帧高,各维度卷积步长均为〗,从卜〗到丨层卷积核大小 为1〇'父1«\1«,则卷积后1层的输出大小为(1'-1^+1)\(¥-1«+1)\(!1-1^+1),并且第1层位置 (仿,h,ji)的激活值:%_过以下公式计算,蛛縫):,其中表示第丄层位置( tl,土丄, jO的激活值,激活函数f(.)为双曲正切函数3嚇表示第1层位置(tl,:来自于卜!层数 据的输入加权和,则
其中(ti,ii, ji)分别为时间 为、视频宽度、高度三个维度的下标,为卷积核的权重,心为1-1层第k个特征图 在(ti-1,ii-1,ji-i)处的激活值,bk为第k个特征图的偏置单元向量,tl e [ 1,T-kT+1 ],iie [ 1, W-kw+1],jiE [1 ,Η-kH+l],k为 1-1 层特征图编号。 4 ·根据权利要求1或2所述的基于三维卷积深度神经网络和深度视频的动作识别方法, 其特征在于:三维卷积深度神经网络模型中,池化层采用的是最大池化技术。 ' 5 ·根据权利要求2所述的方法,其特征在于:两个三维卷积层的特征图数目分别为32和 128。 6 ·根据权利要求2所述的方法,其特征在于:两个全连接层的神经元个数分别为2〇56和 512,采用前馈式神经网络连接方式。
7.根据权利要求2所述的方法,其特征在于:分类层中采用的是Softmax分类器。 8 ·根据权利要求1所述的方法,其特征在于:输入三维卷积深度神经网络中的行为视频 均为经过预处理后的视频。 9 ·根据权利要求1所述的方法,其特征在于:输入三维卷积深度神经网络中的行为视频 为深度视频。
10·根据权利要求1所述的方法,其特征在于:步骤3)采用反向传播算法训练三维卷积 的深度神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610504973.8A CN106203283A (zh) | 2016-06-30 | 2016-06-30 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610504973.8A CN106203283A (zh) | 2016-06-30 | 2016-06-30 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106203283A true CN106203283A (zh) | 2016-12-07 |
Family
ID=57462782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610504973.8A Pending CN106203283A (zh) | 2016-06-30 | 2016-06-30 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106203283A (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780612A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大华技术股份有限公司 | 一种图像中的物体检测方法及装置 |
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN106941602A (zh) * | 2017-03-07 | 2017-07-11 | 中国铁道科学研究院 | 机车司机行为识别方法、装置及系统 |
CN106980826A (zh) * | 2017-03-16 | 2017-07-25 | 天津大学 | 一种基于神经网络的动作识别方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066979A (zh) * | 2017-04-18 | 2017-08-18 | 重庆邮电大学 | 一种基于深度信息和多维度卷积神经网络的人体动作识别方法 |
CN107194559A (zh) * | 2017-05-12 | 2017-09-22 | 杭州电子科技大学 | 一种基于三维卷积神经网络的工作流识别方法 |
CN107437083A (zh) * | 2017-08-16 | 2017-12-05 | 上海荷福人工智能科技(集团)有限公司 | 一种自适应池化的视频行为识别方法 |
CN107506756A (zh) * | 2017-09-26 | 2017-12-22 | 北京航空航天大学 | 一种基于Gabor滤波器三维卷积神经网络模型的人体动作识别方法 |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN108171134A (zh) * | 2017-12-20 | 2018-06-15 | 中车工业研究院有限公司 | 一种操作动作辨识方法及装置 |
CN108229280A (zh) * | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
CN108540338A (zh) * | 2018-03-08 | 2018-09-14 | 西安电子科技大学 | 基于深度循环神经网络的应用层通信协议识别的方法 |
CN108596940A (zh) * | 2018-04-12 | 2018-09-28 | 北京京东尚科信息技术有限公司 | 一种视频分割方法和装置 |
CN108764050A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
CN108764467A (zh) * | 2018-04-04 | 2018-11-06 | 北京大学深圳研究生院 | 用于卷积神经网络卷积运算和全连接运算电路 |
CN108766527A (zh) * | 2018-04-20 | 2018-11-06 | 拉扎斯网络科技(上海)有限公司 | 一种确定食物热量的方法和装置 |
CN108846365A (zh) * | 2018-06-24 | 2018-11-20 | 深圳市中悦科技有限公司 | 视频中打架行为的检测方法、装置、存储介质及处理器 |
CN108875931A (zh) * | 2017-12-06 | 2018-11-23 | 北京旷视科技有限公司 | 神经网络训练及图像处理方法、装置、系统 |
WO2018218651A1 (en) * | 2017-06-02 | 2018-12-06 | Nokia Technologies Oy | Artificial neural network |
CN108958482A (zh) * | 2018-06-28 | 2018-12-07 | 福州大学 | 一种基于卷积神经网络的相似性动作识别装置及方法 |
CN108960288A (zh) * | 2018-06-07 | 2018-12-07 | 山东师范大学 | 基于卷积神经网络的三维模型分类方法及系统 |
CN109063568A (zh) * | 2018-07-04 | 2018-12-21 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109086870A (zh) * | 2018-07-27 | 2018-12-25 | 重庆因普乐科技有限公司 | 一种基于忆阻器的三维卷积神经网络实现方法 |
CN109344958A (zh) * | 2018-08-16 | 2019-02-15 | 北京师范大学 | 基于反馈调节的物体识别方法及识别系统 |
CN109465676A (zh) * | 2018-09-13 | 2019-03-15 | 成都数之联科技有限公司 | 一种刀具寿命预测方法 |
CN109558785A (zh) * | 2017-09-25 | 2019-04-02 | 北京缤歌网络科技有限公司 | 安防监控系统及应用其的无人便利店 |
CN109766934A (zh) * | 2018-12-26 | 2019-05-17 | 北京航空航天大学 | 一种基于深度Gabor网络的图像目标识别方法 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
WO2019136761A1 (zh) * | 2018-01-15 | 2019-07-18 | 深圳鲲云信息科技有限公司 | 一种用于识别人为动作的三维卷积装置 |
CN110049216A (zh) * | 2019-04-18 | 2019-07-23 | 安徽易睿众联科技有限公司 | 一种可实时识别降水类型的网络摄像机 |
CN110059658A (zh) * | 2019-04-26 | 2019-07-26 | 北京理工大学 | 一种基于三维卷积神经网络的遥感卫星影像多时相变化检测方法 |
CN110378259A (zh) * | 2019-07-05 | 2019-10-25 | 桂林电子科技大学 | 一种面向监控视频的多目标行为识别方法及系统 |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及系统 |
CN111178344A (zh) * | 2020-04-15 | 2020-05-19 | 中国人民解放军国防科技大学 | 一种多尺度时序行为识别方法 |
US11113840B2 (en) | 2016-12-29 | 2021-09-07 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for detecting objects in images |
CN108875931B (zh) * | 2017-12-06 | 2022-06-21 | 北京旷视科技有限公司 | 神经网络训练及图像处理方法、装置、系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100295783A1 (en) * | 2009-05-21 | 2010-11-25 | Edge3 Technologies Llc | Gesture recognition systems and related methods |
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN104966104A (zh) * | 2015-06-30 | 2015-10-07 | 孙建德 | 一种基于三维卷积神经网络的视频分类方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
-
2016
- 2016-06-30 CN CN201610504973.8A patent/CN106203283A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100295783A1 (en) * | 2009-05-21 | 2010-11-25 | Edge3 Technologies Llc | Gesture recognition systems and related methods |
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN104966104A (zh) * | 2015-06-30 | 2015-10-07 | 孙建德 | 一种基于三维卷积神经网络的视频分类方法 |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780612A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大华技术股份有限公司 | 一种图像中的物体检测方法及装置 |
CN106780612B (zh) * | 2016-12-29 | 2019-09-17 | 浙江大华技术股份有限公司 | 一种图像中的物体检测方法及装置 |
US11113840B2 (en) | 2016-12-29 | 2021-09-07 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for detecting objects in images |
CN106909938B (zh) * | 2017-02-16 | 2020-02-21 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN106941602A (zh) * | 2017-03-07 | 2017-07-11 | 中国铁道科学研究院 | 机车司机行为识别方法、装置及系统 |
CN106941602B (zh) * | 2017-03-07 | 2020-10-13 | 中国铁路总公司 | 机车司机行为识别方法及装置 |
CN106980826A (zh) * | 2017-03-16 | 2017-07-25 | 天津大学 | 一种基于神经网络的动作识别方法 |
CN107038221B (zh) * | 2017-03-22 | 2020-11-17 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107066979A (zh) * | 2017-04-18 | 2017-08-18 | 重庆邮电大学 | 一种基于深度信息和多维度卷积神经网络的人体动作识别方法 |
CN108229280B (zh) * | 2017-04-20 | 2020-11-13 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
CN108229280A (zh) * | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
CN107194559A (zh) * | 2017-05-12 | 2017-09-22 | 杭州电子科技大学 | 一种基于三维卷积神经网络的工作流识别方法 |
CN107194559B (zh) * | 2017-05-12 | 2020-06-05 | 杭州电子科技大学 | 一种基于三维卷积神经网络的工作流识别方法 |
WO2018218651A1 (en) * | 2017-06-02 | 2018-12-06 | Nokia Technologies Oy | Artificial neural network |
CN107437083A (zh) * | 2017-08-16 | 2017-12-05 | 上海荷福人工智能科技(集团)有限公司 | 一种自适应池化的视频行为识别方法 |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN107506740B (zh) * | 2017-09-04 | 2020-03-17 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN109558785A (zh) * | 2017-09-25 | 2019-04-02 | 北京缤歌网络科技有限公司 | 安防监控系统及应用其的无人便利店 |
CN107506756A (zh) * | 2017-09-26 | 2017-12-22 | 北京航空航天大学 | 一种基于Gabor滤波器三维卷积神经网络模型的人体动作识别方法 |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
CN108875931A (zh) * | 2017-12-06 | 2018-11-23 | 北京旷视科技有限公司 | 神经网络训练及图像处理方法、装置、系统 |
CN108875931B (zh) * | 2017-12-06 | 2022-06-21 | 北京旷视科技有限公司 | 神经网络训练及图像处理方法、装置、系统 |
CN108171134A (zh) * | 2017-12-20 | 2018-06-15 | 中车工业研究院有限公司 | 一种操作动作辨识方法及装置 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
WO2019136761A1 (zh) * | 2018-01-15 | 2019-07-18 | 深圳鲲云信息科技有限公司 | 一种用于识别人为动作的三维卷积装置 |
CN108540338A (zh) * | 2018-03-08 | 2018-09-14 | 西安电子科技大学 | 基于深度循环神经网络的应用层通信协议识别的方法 |
CN108540338B (zh) * | 2018-03-08 | 2021-08-31 | 西安电子科技大学 | 基于深度循环神经网络的应用层通信协议识别的方法 |
CN108764467A (zh) * | 2018-04-04 | 2018-11-06 | 北京大学深圳研究生院 | 用于卷积神经网络卷积运算和全连接运算电路 |
CN108764467B (zh) * | 2018-04-04 | 2021-08-17 | 北京大学深圳研究生院 | 用于卷积神经网络卷积运算和全连接运算电路 |
CN108596940B (zh) * | 2018-04-12 | 2021-03-30 | 北京京东尚科信息技术有限公司 | 一种视频分割方法和装置 |
CN108596940A (zh) * | 2018-04-12 | 2018-09-28 | 北京京东尚科信息技术有限公司 | 一种视频分割方法和装置 |
CN108766527B (zh) * | 2018-04-20 | 2021-11-30 | 拉扎斯网络科技(上海)有限公司 | 一种确定食物热量的方法和装置 |
CN108766527A (zh) * | 2018-04-20 | 2018-11-06 | 拉扎斯网络科技(上海)有限公司 | 一种确定食物热量的方法和装置 |
CN108764050A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
CN108764050B (zh) * | 2018-04-28 | 2021-02-26 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
CN108960288A (zh) * | 2018-06-07 | 2018-12-07 | 山东师范大学 | 基于卷积神经网络的三维模型分类方法及系统 |
CN108846365A (zh) * | 2018-06-24 | 2018-11-20 | 深圳市中悦科技有限公司 | 视频中打架行为的检测方法、装置、存储介质及处理器 |
CN108846365B (zh) * | 2018-06-24 | 2022-04-22 | 深圳市中悦科技有限公司 | 视频中打架行为的检测方法、装置、存储介质及处理器 |
CN108958482A (zh) * | 2018-06-28 | 2018-12-07 | 福州大学 | 一种基于卷积神经网络的相似性动作识别装置及方法 |
CN108958482B (zh) * | 2018-06-28 | 2021-09-28 | 福州大学 | 一种基于卷积神经网络的相似性动作识别装置及方法 |
CN109063568A (zh) * | 2018-07-04 | 2018-12-21 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109063568B (zh) * | 2018-07-04 | 2020-12-22 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109086870A (zh) * | 2018-07-27 | 2018-12-25 | 重庆因普乐科技有限公司 | 一种基于忆阻器的三维卷积神经网络实现方法 |
CN109344958B (zh) * | 2018-08-16 | 2022-04-29 | 北京师范大学 | 基于反馈调节的物体识别方法及识别系统 |
CN109344958A (zh) * | 2018-08-16 | 2019-02-15 | 北京师范大学 | 基于反馈调节的物体识别方法及识别系统 |
CN109465676B (zh) * | 2018-09-13 | 2020-10-16 | 成都数之联科技有限公司 | 一种刀具寿命预测方法 |
CN109465676A (zh) * | 2018-09-13 | 2019-03-15 | 成都数之联科技有限公司 | 一种刀具寿命预测方法 |
CN109766934B (zh) * | 2018-12-26 | 2020-12-11 | 北京航空航天大学 | 一种基于深度Gabor网络的图像目标识别方法 |
CN109766934A (zh) * | 2018-12-26 | 2019-05-17 | 北京航空航天大学 | 一种基于深度Gabor网络的图像目标识别方法 |
CN109829398A (zh) * | 2019-01-16 | 2019-05-31 | 北京航空航天大学 | 一种基于三维卷积网络的视频中的目标检测方法 |
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
CN110049216A (zh) * | 2019-04-18 | 2019-07-23 | 安徽易睿众联科技有限公司 | 一种可实时识别降水类型的网络摄像机 |
CN110059658A (zh) * | 2019-04-26 | 2019-07-26 | 北京理工大学 | 一种基于三维卷积神经网络的遥感卫星影像多时相变化检测方法 |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及系统 |
CN110378259A (zh) * | 2019-07-05 | 2019-10-25 | 桂林电子科技大学 | 一种面向监控视频的多目标行为识别方法及系统 |
CN111178344A (zh) * | 2020-04-15 | 2020-05-19 | 中国人民解放军国防科技大学 | 一种多尺度时序行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106203283A (zh) | 基于三维卷积深度神经网络和深度视频的动作识别方法 | |
Wang et al. | Large-scale isolated gesture recognition using convolutional neural networks | |
Chai et al. | Two streams recurrent neural networks for large-scale continuous gesture recognition | |
CN107679491A (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
CN103268495B (zh) | 计算机系统中基于先验知识聚类的人体行为建模识别方法 | |
Baccouche et al. | Sequential deep learning for human action recognition | |
CN108830157A (zh) | 基于注意力机制和3d卷积神经网络的人体行为识别方法 | |
CN108875708A (zh) | 基于视频的行为分析方法、装置、设备、系统及存储介质 | |
CN109034210A (zh) | 基于超特征融合与多尺度金字塔网络的目标检测方法 | |
CN104615983A (zh) | 基于递归神经网络和人体骨架运动序列的行为识别方法 | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN106295568A (zh) | 基于表情和行为双模态结合的人类自然状态情感识别方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN105320944A (zh) | 一种基于人体骨架运动信息的人体行为预测方法 | |
CN105160400A (zh) | 基于l21范数的提升卷积神经网络泛化能力的方法 | |
CN104268593A (zh) | 一种小样本情况下多稀疏表示的人脸识别方法 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
Ming et al. | Simple triplet loss based on intra/inter-class metric learning for face verification | |
CN103942575A (zh) | 基于场景和马尔科夫逻辑网的智能行为分析系统及方法 | |
CN108182409A (zh) | 活体检测方法、装置、设备及存储介质 | |
CN110097053A (zh) | 一种基于改进Faster-RCNN的电力设备外观缺陷检测方法 | |
CN105469050A (zh) | 基于局部时空特征描述与金字塔词汇树的视频行为识别方法 | |
CN103699874A (zh) | 基于surf流和lle稀疏表示的人群异常行为识别方法 | |
CN104408470A (zh) | 基于平均脸预学习的性别检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C06 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |
|
RJ01 | Rejection of invention patent application after publication |