CN108734095B - 一种基于3d卷积神经网络的动作检测方法 - Google Patents
一种基于3d卷积神经网络的动作检测方法 Download PDFInfo
- Publication number
- CN108734095B CN108734095B CN201810313649.7A CN201810313649A CN108734095B CN 108734095 B CN108734095 B CN 108734095B CN 201810313649 A CN201810313649 A CN 201810313649A CN 108734095 B CN108734095 B CN 108734095B
- Authority
- CN
- China
- Prior art keywords
- action
- video
- segment
- occurrence
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 118
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 210000004205 output neuron Anatomy 0.000 claims description 2
- 238000012549 training Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。该方法包括如下步骤:首先,将视频分为多个有重叠的片段,采用训练好的3D卷积神经网络提取每个片段的高维时‑空特征,并采用多类softmax分类器对提取到的特征进行预测分类,再进一步对分类结果在时间维度上进行平滑滤波;其次,设定背景阈值,并将每个片段的背景得分与设定的阈值进行比较,得到属于动作片段的集合;最终,结合动作片段集合和帧率信息实现对动作在时间维度上的定位,从而得到视频对应的动作类别和该动作的起始时间片段集合。本发明实现端对端动作检测,提高检测结果的可靠性。
Description
技术领域
本发明涉及一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。
背景技术
近年来,视频处理技术得到了快速的发展。其中,针对视频的行为检测,由于其在安防等领域的广泛应用前景,也得到了大量研究者的关注。又随着深度学习的发展特别是卷积神经网络在计算机视觉中的大量应用并且在识别、检测等领域取得了令人惊喜的成果,基于卷积神经网络的视频行为检测得到了大量的研究。
申请号为CN201611168185.2的《一种基于卷积神经网络的动作检测模型》采用双路卷积神经网络分别提取RGB(红绿蓝三通道)图和光流图的特征,再通过SVM(支持向量机)分类器预测各个动作得分,最后对时间序列进行回归修正,最终得到动作类别和时间片段集合。
专利号为CN201710053337.2的《一种基于多区域双流卷积神经网络模型的动作检测方法》也采用双路卷积神经网络将RGB(红绿蓝三通道)图和光流图作为输入,通过计算所有动作链接分数并采用多时间尺度和步长的滑动窗口方法,达到分类和定位的目的。
以上两种方法都需要提前利用视频数据计算光流信息并将光流信息转化为图像数据,无法直接将原始视频数据送入网络直接进行分类和检测。
专利号为CN201710429060.9的《一种基于结构化分段网络的时间动作检测方法》采用时间金字塔结构,得到时间上不同尺度的特征表示,并用两个动作分类器和完整性评估分别判断视频对应的动作以及动作出现的时间片段。此方法需要训练两个分类器,相比于单个分类器损失函数较为复杂,训练难度较大。
综上所述,虽然国内外对基于卷积神经网络的动作检测有较多研究,但存在需要对视频数据提前处理或者网络结构复杂的问题。
发明内容
本发明提出了一种基于3D卷积神经网络的动作检测方法,采用对动作识别网络的预测结果进行后处理,然后利用后处理结果直接在时间维度上对动作进行定位,在确保网络检测准确率的同时,避免对视频数据的预处理,直接将原始视频数据作为输入,实现端对端检测。
本发明为解决其技术问题采用如下技术方案:
一种基于3D卷积神经网络的动作检测方法,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
步骤S3所述的均值滤波具体过程为:选取时间步长为10的均值滤波器,对S2中结果在时间维度上进行均值滤波,均值滤波操作的公式为:
S4的具体过程为:
计算除背景之外其余所有动作类别在整个视频上的得分,并在最终计算结果中选取得分最高的动作类别,记得分最高的动作类别为A,则动作A即为视频对应的动作类别,其中,均值计算公式和动作A选取公式分别为:
S5所述的动作片段获取具体过程为:
设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较,若背景得分小于背景阈值T,则记录该片段的索引序号i,最终得到整个视频中代表动作的片段索引集合Action,在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg,其中,si=16×(i-1)+1,ei=16×i。
S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),…,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
S7所述的具体过程为:
计算视频帧率其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
本发明的有益效果如下:
1)利用C3D网络直接提取视频的时空信息,不需要对视频数据提前进行运动信息提取,实现端对端动作检测。
2)对网络分类结果在时间维度上进行平滑滤波,提高了动作识别的准确性和鲁棒性,从而提高检测结果的可靠性。
3)采用重叠阈度为75%的片段划分,降低相邻片段跨度,提高了定位精度。
4)对动作识别网络的输出结果进行一系列后处理工作来完成检测工作,网络结构简单。
附图说明
图1是本发明流程图。
图2是本发明识别阶段的输入、输出示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1介绍了本发明流程,具体过程体现在如下步骤,
视频分段,将每个视频分为相邻片段间重叠阈度为75%的多个视频片段,每个片段由连续16帧RGB图片组成,相邻片段之间重叠的帧数为12帧,其中,若最后一片段不够16帧则舍弃。
视频分段结束后,一个视频可表示为5维张量,设一个视频被分为N个片段,则该视频可表示为5维张量(N,16,H,W,3),其中,N表示视频被划分的片段数,16表示每个片段包括连续16帧图片,H,W分别代表图片的长宽尺寸,3表示图片的通道数,这里代表RGB图片。
将训练集视频按照上述原则划分并表示为5维张量形式,在整个训练集上,每个16帧片段用4维张量(16,H,W,3)表示。
将训练集每个片段缩放到16×128×171×3大小,16代表每个片段帧数,128、171、3分别代表每帧图片的长、宽以及通道数。
对训练集的所有16帧片段求均值,求得的均值用4维张量mean=(16,128,171,3)表示。
将训练集中所有16帧片段减去mean=(16,128,171,3),使得训练集中每个像素值都分布在零附近,此步骤可消除噪音对分类的影响。
将减均值处理后的训练集16帧片段裁剪为16×112×112×3大小并批量送入C3D网络,利用迁移学习训练符合自己数据集的3D卷积神经网络。训练C3D网络时,用已有的C3D网络权重初始化C3D模型,将分类器输出改为自己数据集动作类别数,将卷积层学习率设为0、全连接层的学习率设为0.0001,利用随机梯度下降方法更新权重,得到符合自己数据集的C3D模型。
C3D网络结构包括多层3D卷积层、Relu激活函数、池化层、两个全连接层、dropout层以及多类softmax分类器,其中,每个3D卷积层由多个大小为3×3×3的3D卷积核组成。
将待检测视频分割为重叠阈度为75%的N个视频片段,每个片段由连续16帧RGB图片组成,将每个16帧片段缩放到16×128×171×3并减去均值mean=(16,128,171,3),然后在图片中心截取112×112大小,即将每个16帧片段裁剪为16×112×112×3大小。
将裁剪得到的4维张量(16,112,112,3)送入训练好的C3D网络,针对每个片段,C3D网络输出class+1维向量,其中,class表示总的动作类别数,背景标签为0,其余动作对应的标签依次为1、2、3…class,因此输出为class+1维向量。
如图2所示,将待检测视频的N个片段依次送入C3D网络,得到N个片段的预测输出,输出结果可用2维张量(N,class+1)表示。
为了进一步提高分类可靠性,如图2所示,在时间维度上对2维张量(N,class+1)进行均值滤波,降低分类误差,滤波器窗口步长选择为10,滤波操作公式为:
经过公式1计算得到滤波处理后的分类结果,分类结果仍为2维张量(N,class+1)。
利用滤波处理后的分类结果(N,class+1)在整个视频上计算除背景之外的每类动作得分,结果为class维向量,在整个视频上的每类动作得分计算公式为:
将经过公式2计算得到的class维向量中得分最高的动作类别设定为该视频对应的动作类别,设得分最高的动作为A,A的判别公式为:
其中,j代表动作类别。
对待检测视频的每个片段进行动作和背景二分类,设定背景阈值T,将经过公式1滤波处理后的分类结果(N,class+1)中所有背景得分与阈值T依次进行比较,若背景得分小于T,则该片段代表动作,否则该片段代表背景,并记录属于动作片段的索引序号,得到代表动作片段的索引集合Action,i表示片段索引序号。
对Seg集合进行元素合并,设集合Seg相邻元素为(sj,ej),(sj+1,ej+1),如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后的集合为SEG,按照Sj值由小到大排列,SEG={(S1,E1),(S2,E2),…,(SM,EM)},M表示SEG元素总个数。
对动作A进行时间定位,利用SEG集合和视频帧率f计算动作A起始时间片段集合,定位结果用集合Time表示,Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},其中,Ts代表开始时间,TE代表结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,(Sj,Ej)∈SEG。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案上所做的任何改动,均落入本发明保护范围之内。
Claims (8)
1.一种基于3D卷积神经网络的动作检测方法,其特征在于,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
2.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
3.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
7.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),…,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
8.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S7所述的具体过程为:
计算视频帧率其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313649.7A CN108734095B (zh) | 2018-04-10 | 2018-04-10 | 一种基于3d卷积神经网络的动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313649.7A CN108734095B (zh) | 2018-04-10 | 2018-04-10 | 一种基于3d卷积神经网络的动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734095A CN108734095A (zh) | 2018-11-02 |
CN108734095B true CN108734095B (zh) | 2022-05-20 |
Family
ID=63941248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810313649.7A Active CN108734095B (zh) | 2018-04-10 | 2018-04-10 | 一种基于3d卷积神经网络的动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734095B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259919B (zh) * | 2018-11-30 | 2024-01-23 | 杭州海康威视数字技术股份有限公司 | 一种视频分类方法、装置及设备、存储介质 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN109871464B (zh) * | 2019-01-17 | 2020-12-25 | 东南大学 | 一种基于ucl语义标引的视频推荐方法与装置 |
CN109948446B (zh) * | 2019-02-20 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种视频片段处理方法、装置及计算机可读存储介质 |
CN109961037A (zh) * | 2019-03-20 | 2019-07-02 | 中共中央办公厅电子科技学院(北京电子科技学院) | 一种考场视频监控异常行为特征识别方法 |
CN109948557B (zh) * | 2019-03-22 | 2022-04-22 | 中国人民解放军国防科技大学 | 多网络模型融合的烟雾检测方法 |
CN111988666B (zh) * | 2019-05-23 | 2022-04-26 | 阿里巴巴集团控股有限公司 | 视频检测、3d卷积与映射方法、设备及存储介质 |
CN110263728B (zh) * | 2019-06-24 | 2022-08-19 | 南京邮电大学 | 基于改进的伪三维残差神经网络的异常行为检测方法 |
CN110414446B (zh) * | 2019-07-31 | 2021-04-16 | 广东工业大学 | 机器人的操作指令序列生成方法及装置 |
CN111291699B (zh) * | 2020-02-19 | 2022-06-03 | 山东大学 | 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法 |
CN112115876A (zh) * | 2020-09-21 | 2020-12-22 | 四川弘和通讯有限公司 | 一种基于3d卷积神经网络的水溶法实验过程识别方法 |
CN113038272B (zh) * | 2021-04-27 | 2021-09-28 | 武汉星巡智能科技有限公司 | 婴儿视频自动剪辑的方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171247B1 (en) * | 2011-06-27 | 2015-10-27 | Hrl Laboratories, Llc | System and method for fast template matching in 3D |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN106980826A (zh) * | 2017-03-16 | 2017-07-25 | 天津大学 | 一种基于神经网络的动作识别方法 |
CN107292249A (zh) * | 2017-06-08 | 2017-10-24 | 深圳市唯特视科技有限公司 | 一种基于结构化分段网络的时间动作检测方法 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107862275A (zh) * | 2017-11-01 | 2018-03-30 | 电子科技大学 | 人体行为识别模型及其构建方法和人体行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015132665A2 (en) * | 2014-03-07 | 2015-09-11 | Wolf, Lior | System and method for the detection and counting of repetitions of repetitive activity via a trained network |
-
2018
- 2018-04-10 CN CN201810313649.7A patent/CN108734095B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171247B1 (en) * | 2011-06-27 | 2015-10-27 | Hrl Laboratories, Llc | System and method for fast template matching in 3D |
CN106980826A (zh) * | 2017-03-16 | 2017-07-25 | 天津大学 | 一种基于神经网络的动作识别方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN107292249A (zh) * | 2017-06-08 | 2017-10-24 | 深圳市唯特视科技有限公司 | 一种基于结构化分段网络的时间动作检测方法 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107862275A (zh) * | 2017-11-01 | 2018-03-30 | 电子科技大学 | 人体行为识别模型及其构建方法和人体行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Recognition of Dynamic Hand Gestures from 3D Motion Data using LSTM and CNN architectures;Chinmaya R. Naguri and Razvan C. Bunescu;《2017 16th IEEE International Conference on Machine Learning and Applications(ICMLA)》;20180118;第1130-1133页 * |
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos;Rui Hou等;《2017 IEEE International Conference on Computer Vision(ICCV)》;20171225;第5823-5832页 * |
基于3D卷积神经网络的人体行为识别;叶旭庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);第I138-4875页 * |
基于深度学习的人体行为识别算法综述;朱煜等;《自动化学报》;20160630;第42卷(第6期);第848-857页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108734095A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734095B (zh) | 一种基于3d卷积神经网络的动作检测方法 | |
CN108537134B (zh) | 一种视频语义场景分割及标注方法 | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
US10963674B2 (en) | Unsupervised learning of object recognition methods and systems | |
CN105095862B (zh) | 一种基于深度卷积条件随机场的人体动作识别方法 | |
CN111652903B (zh) | 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111611847A (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
CN107506692A (zh) | 一种基于深度学习的密集人群计数与人员分布估计方法 | |
Sajid et al. | Zoomcount: A zooming mechanism for crowd counting in static images | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN113807318A (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
CN113642482A (zh) | 一种基于视频时空上下文的视频人物关系分析方法 | |
CN115376202A (zh) | 一种基于深度学习的电梯轿厢内乘客行为识别方法 | |
CN114373194A (zh) | 基于关键帧与注意力机制的人体行为识别方法 | |
Putra et al. | Markerless human activity recognition method based on deep neural network model using multiple cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |