CN108734095A - 一种基于3d卷积神经网络的动作检测方法 - Google Patents

一种基于3d卷积神经网络的动作检测方法 Download PDF

Info

Publication number
CN108734095A
CN108734095A CN201810313649.7A CN201810313649A CN108734095A CN 108734095 A CN108734095 A CN 108734095A CN 201810313649 A CN201810313649 A CN 201810313649A CN 108734095 A CN108734095 A CN 108734095A
Authority
CN
China
Prior art keywords
action
video
segment
time
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810313649.7A
Other languages
English (en)
Other versions
CN108734095B (zh
Inventor
宋佳蓉
杨忠
胡国雄
韩家明
张天翼
朱家远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201810313649.7A priority Critical patent/CN108734095B/zh
Publication of CN108734095A publication Critical patent/CN108734095A/zh
Application granted granted Critical
Publication of CN108734095B publication Critical patent/CN108734095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

本发明提出了一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。该方法包括如下步骤:首先,将视频分为多个有重叠的片段,采用训练好的3D卷积神经网络提取每个片段的高维时‑空特征,并采用多类softmax分类器对提取到的特征进行预测分类,再进一步对分类结果在时间维度上进行平滑滤波;其次,设定背景阈值,并将每个片段的背景得分与设定的阈值进行比较,得到属于动作片段的集合;最终,结合动作片段集合和帧率信息实现对动作在时间维度上的定位,从而得到视频对应的动作类别和该动作的起始时间片段集合。本发明实现端对端动作检测,提高检测结果的可靠性。

Description

一种基于3D卷积神经网络的动作检测方法
技术领域
本发明涉及一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。
背景技术
近年来,视频处理技术得到了快速的发展。其中,针对视频的行为检测,由于其在安防等领域的广泛应用前景,也得到了大量研究者的关注。又随着深度学习的发展特别是卷积神经网络在计算机视觉中的大量应用并且在识别、检测等领域取得了令人惊喜的成果,基于卷积神经网络的视频行为检测得到了大量的研究。
申请号为CN201611168185.2的《一种基于卷积神经网络的动作检测模型》采用双路卷积神经网络分别提取RGB(红绿蓝三通道)图和光流图的特征,再通过SVM(支持向量机)分类器预测各个动作得分,最后对时间序列进行回归修正,最终得到动作类别和时间片段集合。
专利号为CN201710053337.2的《一种基于多区域双流卷积神经网络模型的动作检测方法》也采用双路卷积神经网络将RGB(红绿蓝三通道)图和光流图作为输入,通过计算所有动作链接分数并采用多时间尺度和步长的滑动窗口方法,达到分类和定位的目的。
以上两种方法都需要提前利用视频数据计算光流信息并将光流信息转化为图像数据,无法直接将原始视频数据送入网络直接进行分类和检测。
专利号为CN201710429060.9的《一种基于结构化分段网络的时间动作检测方法》采用时间金字塔结构,得到时间上不同尺度的特征表示,并用两个动作分类器和完整性评估分别判断视频对应的动作以及动作出现的时间片段。此方法需要训练两个分类器,相比于单个分类器损失函数较为复杂,训练难度较大。
综上所述,虽然国内外对基于卷积神经网络的动作检测有较多研究,但存在需要对视频数据提前处理或者网络结构复杂的问题。
发明内容
本发明提出了一种基于3D卷积神经网络的动作检测方法,采用对动作识别网络的预测结果进行后处理,然后利用后处理结果直接在时间维度上对动作进行定位,在确保网络检测准确率的同时,避免对视频数据的预处理,直接将原始视频数据作为输入,实现端对端检测。
本发明为解决其技术问题采用如下技术方案:
一种基于3D卷积神经网络的动作检测方法,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
步骤S3所述的均值滤波具体过程为:选取时间步长为10的均值滤波器,对S2中结果在时间维度上进行均值滤波,均值滤波操作的公式为:
其中,k=5,Ptj表示S2中第t个片段的第j类动作得分,表示均值滤波后第i个片段的第j类动作得分,均值滤波处理后,视频对应的分类结果仍为(N,class+1)形式的二维张量。
S4的具体过程为:
计算除背景之外其余所有动作类别在整个视频上的得分均值,并在最终计算结果中选取得分最高的动作类别,记得分最高的动作类别为A,则动作A即为视频对应的动作类别,其中,均值计算公式和动作A选取公式分别为:
表示均值滤波后第i个片段的第j类动作得分,表示该视频的第j类动作得分,j代表动作类别,A代表视频对应的动作。
S5所述的动作片段获取具体过程为:
设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较,若背景得分小于背景阈值T,则记录该片段的索引序号i,最终得到整个视频中代表动作的片段索引集合Action,
在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg,其中,si=16×(i-1)+1,ei=16×i。
S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,···,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),···,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
S7所述的具体过程为:
计算视频帧率其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),···,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,···,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
本发明的有益效果如下:
1)利用C3D网络直接提取视频的时空信息,不需要对视频数据提前进行运动信息提取,实现端对端动作检测。
2)对网络分类结果在时间维度上进行平滑滤波,提高了动作识别的准确性和鲁棒性,从而提高检测结果的可靠性。
3)采用重叠阈度为75%的片段划分,降低相邻片段跨度,提高了定位精度。
4)对动作识别网络的输出结果进行一系列后处理工作来完成检测工作,网络结构简单。
附图说明
图1是本发明流程图。
图2是本发明识别阶段的输入、输出示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1介绍了本发明流程,具体过程体现在如下步骤,
视频分段,将每个视频分为相邻片段间重叠阈度为75%的多个视频片段,每个片段由连续16帧RGB图片组成,相邻片段之间重叠的帧数为12帧,其中,若最后一片段不够16帧则舍弃。
视频分段结束后,一个视频可表示为5维张量,设一个视频被分为N个片段,则该视频可表示为5维张量(N,16,H,W,3),其中,N表示视频被划分的片段数,16表示每个片段包括连续16帧图片,H,W分别代表图片的长宽尺寸,3表示图片的通道数,这里代表RGB图片。
将训练集视频按照上述原则划分并表示为5维张量形式,在整个训练集上,每个16帧片段用4维张量(16,H,W,3)表示。
将训练集每个片段缩放到16×128×171×3大小,16代表每个片段帧数,128、171、3分别代表每帧图片的长、宽以及通道数。
对训练集的所有16帧片段求均值,求得的均值用4维张量mean=(16,128,171,3)表示。
将训练集中所有16帧片段减去mean=(16,128,171,3),使得训练集中每个像素值都分布在零附近,此步骤可消除噪音对分类的影响。
将减均值处理后的训练集16帧片段裁剪为16×112×112×3大小并批量送入C3D网络,利用迁移学习训练符合自己数据集的3D卷积神经网络。训练C3D网络时,用已有的C3D网络权重初始化C3D模型,将分类器输出改为自己数据集动作类别数,将卷积层学习率设为0、全连接层的学习率设为0.0001,利用随机梯度下降方法更新权重,得到符合自己数据集的C3D模型。
C3D网络结构包括多层3D卷积层、Relu激活函数、池化层、两个全连接层、dropout层以及多类softmax分类器,其中,每个3D卷积层由多个大小为3×3×3的3D卷积核组成。
将待检测视频分割为重叠阈度为75%的N个视频片段,每个片段由连续16帧RGB图片组成,将每个16帧片段缩放到16×128×171×3并减去均值mean=(16,128,171,3),然后在图片中心截取112×112大小,即将每个16帧片段裁剪为16×112×112×3大小。
将裁剪得到的4维张量(16,112,112,3)送入训练好的C3D网络,针对每个片段,C3D网络输出class+1维向量,其中,class表示总的动作类别数,背景标签为0,其余动作对应的标签依次为1、2、3…class,因此输出为class+1维向量。
如图2所示,将待检测视频的N个片段依次送入C3D网络,得到N个片段的预测输出,输出结果可用2维张量(N,class+1)表示。
为了进一步提高分类可靠性,如图2所示,在时间维度上对2维张量(N,class+1)进行均值滤波,降低分类误差,滤波器窗口步长选择为10,滤波操作公式为:
其中,k=5,Pt j表示12中第t个片段的第j类动作得分,表示均值滤波后的第i个片段的第j类动作得分。
经过公式1计算得到滤波处理后的分类结果,分类结果仍为2维张量(N,class+1)。
利用滤波处理后的分类结果(N,class+1)在整个视频上计算除背景之外的每类动作得分,结果为class维向量,在整个视频上的每类动作得分计算公式为:
其中,表示该视频的第j类动作得分。
将经过公式2计算得到的class维向量中得分最高的动作类别设定为该视频对应的动作类别,设得分最高的动作为A,A的判别公式为:
其中,j代表动作类别。
对待检测视频的每个片段进行动作和背景二分类,设定背景阈值T,将经过公式1滤波处理后的分类结果(N,class+1)中所有背景得分与阈值T依次进行比较,若背景得分小于T,则该片段代表动作,否则该片段代表背景,并记录属于动作片段的索引序号,得到代表动作片段的索引集合Action,i表示片段索引序号。
根据Action集合得到记录动作A片段开始和结束帧数的元素集合Seg,其中,si=16×(i-1)+1,ei=16×i。
对Seg集合进行元素合并,设集合Seg相邻元素为(sj,ej),(sj+1,ej+1),如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),其中,Sj=sj,Ej=ej+1,j=1,2,···,N-1,记合并后的集合为SEG,按照Sj值由小到大排列,SEG={(S1,E1),(S2,E2),···,(SM,EM)},M表示SEG元素总个数。
计算视频帧率nframe表示视频总帧数,duration表示视频总时长,单位为秒。
对动作A进行时间定位,利用SEG集合和视频帧率f计算动作A起始时间片段集合,定位结果用集合Time表示,Time={(TS1,TE1),(TS2,TE2),···,(TSM,TEM)},其中,Ts代表开始时间,TE代表结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,···,M,(Sj,Ej)∈SEG。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案上所做的任何改动,均落入本发明保护范围之内。

Claims (8)

1.一种基于3D卷积神经网络的动作检测方法,其特征在于,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
2.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
3.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
4.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S3所述的均值滤波具体过程为:选取时间步长为10的均值滤波器,对S2中结果在时间维度上进行均值滤波,均值滤波操作的公式为:
其中,k=5,Pt j表示S2中第t个片段的第j类动作得分,表示均值滤波后第i个片段的第j类动作得分,均值滤波处理后,视频对应的分类结果仍为(N,class+1)形式的二维张量。
5.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S4的具体过程为:
计算除背景之外其余所有动作类别在整个视频上的得分均值,并在最终计算结果中选取得分最高的动作类别,记得分最高的动作类别为A,则动作A即为视频对应的动作类别,其中,均值计算公式和动作A选取公式分别为:
表示均值滤波后第i个片段的第j类动作得分,表示该视频的第j类动作得分,j代表动作类别,A代表视频对应的动作。
6.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S5所述的动作片段获取具体过程为:
设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较,若背景得分小于背景阈值T,则记录该片段的索引序号i,最终得到整个视频中代表动作的片段索引集合Action,在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg,其中,si=16×(i-1)+1,ei=16×i。
7.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,···,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),···,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
8.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S7所述的具体过程为:
计算视频帧率其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),···,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,···,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
CN201810313649.7A 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法 Active CN108734095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810313649.7A CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810313649.7A CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Publications (2)

Publication Number Publication Date
CN108734095A true CN108734095A (zh) 2018-11-02
CN108734095B CN108734095B (zh) 2022-05-20

Family

ID=63941248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810313649.7A Active CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Country Status (1)

Country Link
CN (1) CN108734095B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109871464A (zh) * 2019-01-17 2019-06-11 东南大学 一种基于ucl语义标引的视频推荐方法与装置
CN109948446A (zh) * 2019-02-20 2019-06-28 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN109948557A (zh) * 2019-03-22 2019-06-28 中国人民解放军国防科技大学 多网络模型融合的烟雾检测方法
CN109961037A (zh) * 2019-03-20 2019-07-02 中共中央办公厅电子科技学院(北京电子科技学院) 一种考场视频监控异常行为特征识别方法
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110414446A (zh) * 2019-07-31 2019-11-05 广东工业大学 机器人的操作指令序列生成方法及装置
CN111259919A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法
CN111988666A (zh) * 2019-05-23 2020-11-24 阿里巴巴集团控股有限公司 视频检测、3d卷积与映射方法、设备及存储介质
CN112115876A (zh) * 2020-09-21 2020-12-22 四川弘和通讯有限公司 一种基于3d卷积神经网络的水溶法实验过程识别方法
CN113038272A (zh) * 2021-04-27 2021-06-25 武汉星巡智能科技有限公司 婴儿视频自动剪辑的方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171247B1 (en) * 2011-06-27 2015-10-27 Hrl Laboratories, Llc System and method for fast template matching in 3D
US20170017857A1 (en) * 2014-03-07 2017-01-19 Lior Wolf System and method for the detection and counting of repetitions of repetitive activity via a trained network
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171247B1 (en) * 2011-06-27 2015-10-27 Hrl Laboratories, Llc System and method for fast template matching in 3D
US20170017857A1 (en) * 2014-03-07 2017-01-19 Lior Wolf System and method for the detection and counting of repetitions of repetitive activity via a trained network
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHINMAYA R. NAGURI AND RAZVAN C. BUNESCU: "Recognition of Dynamic Hand Gestures from 3D Motion Data using LSTM and CNN architectures", 《2017 16TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS(ICMLA)》 *
RUI HOU等: "Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》 *
叶旭庆: "基于3D卷积神经网络的人体行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
朱煜等: "基于深度学习的人体行为识别算法综述", 《自动化学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN111259919A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109871464A (zh) * 2019-01-17 2019-06-11 东南大学 一种基于ucl语义标引的视频推荐方法与装置
CN109948446A (zh) * 2019-02-20 2019-06-28 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN109948446B (zh) * 2019-02-20 2021-07-16 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN109961037A (zh) * 2019-03-20 2019-07-02 中共中央办公厅电子科技学院(北京电子科技学院) 一种考场视频监控异常行为特征识别方法
CN109948557A (zh) * 2019-03-22 2019-06-28 中国人民解放军国防科技大学 多网络模型融合的烟雾检测方法
CN109948557B (zh) * 2019-03-22 2022-04-22 中国人民解放军国防科技大学 多网络模型融合的烟雾检测方法
CN111988666A (zh) * 2019-05-23 2020-11-24 阿里巴巴集团控股有限公司 视频检测、3d卷积与映射方法、设备及存储介质
CN111988666B (zh) * 2019-05-23 2022-04-26 阿里巴巴集团控股有限公司 视频检测、3d卷积与映射方法、设备及存储介质
CN110263728B (zh) * 2019-06-24 2022-08-19 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110263728A (zh) * 2019-06-24 2019-09-20 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110414446B (zh) * 2019-07-31 2021-04-16 广东工业大学 机器人的操作指令序列生成方法及装置
CN110414446A (zh) * 2019-07-31 2019-11-05 广东工业大学 机器人的操作指令序列生成方法及装置
CN111291699A (zh) * 2020-02-19 2020-06-16 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法
CN112115876A (zh) * 2020-09-21 2020-12-22 四川弘和通讯有限公司 一种基于3d卷积神经网络的水溶法实验过程识别方法
CN113038272A (zh) * 2021-04-27 2021-06-25 武汉星巡智能科技有限公司 婴儿视频自动剪辑的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108734095B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN108734095A (zh) 一种基于3d卷积神经网络的动作检测方法
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108665481B (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN103984959B (zh) 一种基于数据与任务驱动的图像分类方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN107341452A (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
CN106682697A (zh) 一种基于卷积神经网络的端到端物体检测方法
CN108549841A (zh) 一种基于深度学习的老人跌倒行为的识别方法
CN107273800A (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN107729993A (zh) 利用训练样本及折中度量的3d卷积神经网络构建方法
CN104182772A (zh) 一种基于深度学习的手势识别方法
CN107220603A (zh) 基于深度学习的车辆检测方法及装置
CN107451565A (zh) 一种半监督小样本深度学习图像模式分类识别方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN108734199A (zh) 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法
CN113393457B (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN110852369B (zh) 联合3d/2d卷积网络和自适应光谱解混的高光谱图像分类方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant