CN108734095B - 一种基于3d卷积神经网络的动作检测方法 - Google Patents

一种基于3d卷积神经网络的动作检测方法 Download PDF

Info

Publication number
CN108734095B
CN108734095B CN201810313649.7A CN201810313649A CN108734095B CN 108734095 B CN108734095 B CN 108734095B CN 201810313649 A CN201810313649 A CN 201810313649A CN 108734095 B CN108734095 B CN 108734095B
Authority
CN
China
Prior art keywords
action
video
segment
occurrence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810313649.7A
Other languages
English (en)
Other versions
CN108734095A (zh
Inventor
宋佳蓉
杨忠
胡国雄
韩家明
张天翼
朱家远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201810313649.7A priority Critical patent/CN108734095B/zh
Publication of CN108734095A publication Critical patent/CN108734095A/zh
Application granted granted Critical
Publication of CN108734095B publication Critical patent/CN108734095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。该方法包括如下步骤:首先,将视频分为多个有重叠的片段,采用训练好的3D卷积神经网络提取每个片段的高维时‑空特征,并采用多类softmax分类器对提取到的特征进行预测分类,再进一步对分类结果在时间维度上进行平滑滤波;其次,设定背景阈值,并将每个片段的背景得分与设定的阈值进行比较,得到属于动作片段的集合;最终,结合动作片段集合和帧率信息实现对动作在时间维度上的定位,从而得到视频对应的动作类别和该动作的起始时间片段集合。本发明实现端对端动作检测,提高检测结果的可靠性。

Description

一种基于3D卷积神经网络的动作检测方法
技术领域
本发明涉及一种基于3D卷积神经网络的动作检测方法,属于计算机视觉识别技术领域。
背景技术
近年来,视频处理技术得到了快速的发展。其中,针对视频的行为检测,由于其在安防等领域的广泛应用前景,也得到了大量研究者的关注。又随着深度学习的发展特别是卷积神经网络在计算机视觉中的大量应用并且在识别、检测等领域取得了令人惊喜的成果,基于卷积神经网络的视频行为检测得到了大量的研究。
申请号为CN201611168185.2的《一种基于卷积神经网络的动作检测模型》采用双路卷积神经网络分别提取RGB(红绿蓝三通道)图和光流图的特征,再通过SVM(支持向量机)分类器预测各个动作得分,最后对时间序列进行回归修正,最终得到动作类别和时间片段集合。
专利号为CN201710053337.2的《一种基于多区域双流卷积神经网络模型的动作检测方法》也采用双路卷积神经网络将RGB(红绿蓝三通道)图和光流图作为输入,通过计算所有动作链接分数并采用多时间尺度和步长的滑动窗口方法,达到分类和定位的目的。
以上两种方法都需要提前利用视频数据计算光流信息并将光流信息转化为图像数据,无法直接将原始视频数据送入网络直接进行分类和检测。
专利号为CN201710429060.9的《一种基于结构化分段网络的时间动作检测方法》采用时间金字塔结构,得到时间上不同尺度的特征表示,并用两个动作分类器和完整性评估分别判断视频对应的动作以及动作出现的时间片段。此方法需要训练两个分类器,相比于单个分类器损失函数较为复杂,训练难度较大。
综上所述,虽然国内外对基于卷积神经网络的动作检测有较多研究,但存在需要对视频数据提前处理或者网络结构复杂的问题。
发明内容
本发明提出了一种基于3D卷积神经网络的动作检测方法,采用对动作识别网络的预测结果进行后处理,然后利用后处理结果直接在时间维度上对动作进行定位,在确保网络检测准确率的同时,避免对视频数据的预处理,直接将原始视频数据作为输入,实现端对端检测。
本发明为解决其技术问题采用如下技术方案:
一种基于3D卷积神经网络的动作检测方法,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
步骤S3所述的均值滤波具体过程为:选取时间步长为10的均值滤波器,对S2中结果在时间维度上进行均值滤波,均值滤波操作的公式为:
Figure GDA0003485036010000041
i=1,2,…,N,j=0,1,…,class
其中,k=5,Pt j表示S2中第t个片段的第j类动作得分,
Figure GDA0003485036010000042
表示均值滤波后第i个片段的第j类动作得分,均值滤波处理后,视频对应的分类结果仍为(N,class+1)形式的二维张量。
S4的具体过程为:
计算除背景之外其余所有动作类别在整个视频上的得分,并在最终计算结果中选取得分最高的动作类别,记得分最高的动作类别为A,则动作A即为视频对应的动作类别,其中,均值计算公式和动作A选取公式分别为:
Figure GDA0003485036010000043
j=1,2,…,class
Figure GDA0003485036010000044
Figure GDA0003485036010000045
表示均值滤波后第i个片段的第j类动作得分,
Figure GDA0003485036010000046
表示该视频的第j类动作得分,j代表动作类别,A代表视频对应的动作。
S5所述的动作片段获取具体过程为:
设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较,若背景得分小于背景阈值T,则记录该片段的索引序号i,最终得到整个视频中代表动作的片段索引集合Action,
Figure GDA0003485036010000047
在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg,
Figure GDA0003485036010000051
其中,si=16×(i-1)+1,ei=16×i。
S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),…,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
S7所述的具体过程为:
计算视频帧率
Figure GDA0003485036010000052
其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
本发明的有益效果如下:
1)利用C3D网络直接提取视频的时空信息,不需要对视频数据提前进行运动信息提取,实现端对端动作检测。
2)对网络分类结果在时间维度上进行平滑滤波,提高了动作识别的准确性和鲁棒性,从而提高检测结果的可靠性。
3)采用重叠阈度为75%的片段划分,降低相邻片段跨度,提高了定位精度。
4)对动作识别网络的输出结果进行一系列后处理工作来完成检测工作,网络结构简单。
附图说明
图1是本发明流程图。
图2是本发明识别阶段的输入、输出示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
图1介绍了本发明流程,具体过程体现在如下步骤,
视频分段,将每个视频分为相邻片段间重叠阈度为75%的多个视频片段,每个片段由连续16帧RGB图片组成,相邻片段之间重叠的帧数为12帧,其中,若最后一片段不够16帧则舍弃。
视频分段结束后,一个视频可表示为5维张量,设一个视频被分为N个片段,则该视频可表示为5维张量(N,16,H,W,3),其中,N表示视频被划分的片段数,16表示每个片段包括连续16帧图片,H,W分别代表图片的长宽尺寸,3表示图片的通道数,这里代表RGB图片。
将训练集视频按照上述原则划分并表示为5维张量形式,在整个训练集上,每个16帧片段用4维张量(16,H,W,3)表示。
将训练集每个片段缩放到16×128×171×3大小,16代表每个片段帧数,128、171、3分别代表每帧图片的长、宽以及通道数。
对训练集的所有16帧片段求均值,求得的均值用4维张量mean=(16,128,171,3)表示。
将训练集中所有16帧片段减去mean=(16,128,171,3),使得训练集中每个像素值都分布在零附近,此步骤可消除噪音对分类的影响。
将减均值处理后的训练集16帧片段裁剪为16×112×112×3大小并批量送入C3D网络,利用迁移学习训练符合自己数据集的3D卷积神经网络。训练C3D网络时,用已有的C3D网络权重初始化C3D模型,将分类器输出改为自己数据集动作类别数,将卷积层学习率设为0、全连接层的学习率设为0.0001,利用随机梯度下降方法更新权重,得到符合自己数据集的C3D模型。
C3D网络结构包括多层3D卷积层、Relu激活函数、池化层、两个全连接层、dropout层以及多类softmax分类器,其中,每个3D卷积层由多个大小为3×3×3的3D卷积核组成。
将待检测视频分割为重叠阈度为75%的N个视频片段,每个片段由连续16帧RGB图片组成,将每个16帧片段缩放到16×128×171×3并减去均值mean=(16,128,171,3),然后在图片中心截取112×112大小,即将每个16帧片段裁剪为16×112×112×3大小。
将裁剪得到的4维张量(16,112,112,3)送入训练好的C3D网络,针对每个片段,C3D网络输出class+1维向量,其中,class表示总的动作类别数,背景标签为0,其余动作对应的标签依次为1、2、3…class,因此输出为class+1维向量。
如图2所示,将待检测视频的N个片段依次送入C3D网络,得到N个片段的预测输出,输出结果可用2维张量(N,class+1)表示。
为了进一步提高分类可靠性,如图2所示,在时间维度上对2维张量(N,class+1)进行均值滤波,降低分类误差,滤波器窗口步长选择为10,滤波操作公式为:
Figure GDA0003485036010000081
i=1,2,…,N,j=0,1,…,class (公式1)
其中,k=5,Pt j表示12中第t个片段的第j类动作得分,
Figure GDA0003485036010000082
表示均值滤波后的第i个片段的第j类动作得分。
经过公式1计算得到滤波处理后的分类结果,分类结果仍为2维张量(N,class+1)。
利用滤波处理后的分类结果(N,class+1)在整个视频上计算除背景之外的每类动作得分,结果为class维向量,在整个视频上的每类动作得分计算公式为:
Figure GDA0003485036010000091
j=1,2,…,class (公式2)
其中,
Figure GDA0003485036010000092
表示该视频的第j类动作得分。
将经过公式2计算得到的class维向量中得分最高的动作类别设定为该视频对应的动作类别,设得分最高的动作为A,A的判别公式为:
Figure GDA0003485036010000093
其中,j代表动作类别。
对待检测视频的每个片段进行动作和背景二分类,设定背景阈值T,将经过公式1滤波处理后的分类结果(N,class+1)中所有背景得分与阈值T依次进行比较,若背景得分小于T,则该片段代表动作,否则该片段代表背景,并记录属于动作片段的索引序号,得到代表动作片段的索引集合Action,
Figure GDA0003485036010000094
i表示片段索引序号。
根据Action集合得到记录动作A片段开始和结束帧数的元素集合Seg,
Figure GDA0003485036010000095
其中,si=16×(i-1)+l,ei=16×i。
对Seg集合进行元素合并,设集合Seg相邻元素为(sj,ej),(sj+1,ej+1),如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后的集合为SEG,按照Sj值由小到大排列,SEG={(S1,E1),(S2,E2),…,(SM,EM)},M表示SEG元素总个数。
计算视频帧率
Figure GDA0003485036010000101
nframe表示视频总帧数,duration表示视频总时长,单位为秒。
对动作A进行时间定位,利用SEG集合和视频帧率f计算动作A起始时间片段集合,定位结果用集合Time表示,Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},其中,Ts代表开始时间,TE代表结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,(Sj,Ej)∈SEG。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案上所做的任何改动,均落入本发明保护范围之内。

Claims (8)

1.一种基于3D卷积神经网络的动作检测方法,其特征在于,包括如下步骤:
S1:将视频分为多个有重叠的视频片段,每个视频片段由连续L帧图片组成;
S2:利用训练好的3D卷积神经网络提取每个片段的高维时-空特征,并对提取到的特征进行预测分类;
S3:对S2中结果在时间维度上进行均值滤波,得到均值滤波处理后的各片段类别得分;
S4:对S3中所有片段类别得分进行统计,得到视频的动作类别;
S5:利用S3中的结果,对每个片段进行背景和动作二分类,得到属于动作的片段集合;
S6:对S5中集合元素进行合并;
S7:根据视频帧率和S6中动作片段集合,对动作在时间维度上进行定位,得到动作起始时间片段集合。
2.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S1所述的将视频分为多个有重叠的视频片段具体指将一个视频分为相邻片段间重叠阈度为75%的N个视频片段,每个片段由连续L=16帧RGB图片组成,相邻片段之间重叠帧数为12帧。
3.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S2的具体过程如下:
迁移学习:利用训练好的C3D网络的卷积和池化层作为特征提取器,将多类softmax分类器的输出神经元个数改为自己数据集中动作类别数,冻结卷积层学习率,即设卷积层学习率为0,并将全连接层的学习率设为为0.0001,利用自己的数据对网络进行训练,得到适合自己数据集的3D卷积神经网络模型;
按顺序将S1中划分好的N个视频片段送入经过迁移学习得到的3D卷积神经网络,利用多层3D卷积层提取每个片段的高维时空信息,即运动信息和空间信息,并用多类softmax分类器对该片段进行分类预测;针对每个视频片段,分类器每次输出class+1维向量,整个视频得到N个class+1维向量输出,用二维张量(N,class+1)表示,其中,class表示总的动作类别数,背景标签为0,每个片段输出包含背景得分,因此每个片段预测输出为class+1维向量。
4.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,步骤S3所述的均值滤波具体过程为:选取时间步长为10的均值滤波器,对S2中结果在时间维度上进行均值滤波,均值滤波操作的公式为:
Figure FDA0003485033000000021
其中,k=5,Pt j表示S2中第t个片段的第j类动作得分,
Figure FDA0003485033000000022
表示均值滤波后第i个片段的第j类动作得分,均值滤波处理后,视频对应的分类结果仍为(N,class+1)形式的二维张量。
5.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S4的具体过程为:
计算除背景之外其余所有动作类别在整个视频上的得分,并在最终计算结果中选取得分最高的动作类别,记得分最高的动作类别为A,则动作A即为视频对应的动作类别,其中,均值计算公式和动作A选取公式分别为:
Figure FDA0003485033000000031
Figure FDA0003485033000000032
Figure FDA0003485033000000033
表示均值滤波后第i个片段的第j类动作得分,
Figure FDA0003485033000000034
表示该视频的第j类动作得分,j代表动作类别,A代表视频对应的动作。
6.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S5所述的动作片段获取具体过程为:
设定背景阈值T,将S3中每个片段的背景得分与阈值T进行比较,若背景得分小于背景阈值T,则记录该片段的索引序号i,最终得到整个视频中代表动作的片段索引集合Action,
Figure FDA0003485033000000035
在得到Action的基础上将索引集合Action转化为记录动作片段开始和结束帧数的元素集合Seg,
Figure FDA0003485033000000036
其中,si=16×(i-1)+1,ei=16×i。
7.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S6所述的集合元素合并具体过程为:
设S5中集合Seg相邻元素为(sj,ej),(sj+1,ej+1),其中:以每16帧为基础,sj为动作A第j次出现的开始帧数,sj+1为动作A第j+1次出现的开始帧数,ej为动作A第j次出现的结束帧数,ej+1为动作A第j+1次出现的结束帧数,如果sj+1-ej=1,则将元素(sj,ej),(sj+1,ej+1)合并为(sj,ej+1),并将合并后结果记为(Sj,Ej),其中,Sj=sj,Ej=ej+1,j=1,2,…,N-1,记合并后集合为SEG,按照Sj值由小到大排列,则SEG={(S1,E1),(S2,E2),…,(SM,EM)},S1为动作A第1次出现的开始帧数,S2为动作A第2次出现的开始帧数,SM为动作A第M次出现的开始帧数,E1为动作A第1次出现的结束帧数,E2为动作A第2次出现的结束帧数,EM为动作A第M次出现的结束帧数,M表示集合SEG的元素个数。
8.根据权利要求1所述的一种基于3D卷积神经网络的动作检测方法,其特征在于,S7所述的具体过程为:
计算视频帧率
Figure FDA0003485033000000041
其中,nframe表示视频的总帧数,duration表示视频总时长,单位为秒;将计算得到的视频帧率f与SEG中元素进行乘法运算,得到时间集Time={(TS1,TE1),(TS2,TE2),…,(TSM,TEM)},Time即为对动作A在时间维度上的定位结果,TS1为动作A第1次出现的开始时间,TS2为动作A第2次出现的开始时间,TSM为动作A第M次出现的开始时间,TE1为动作A第1次出现的结束时间,TE2为动作A第2次出现的结束时间,TEM为动作A第M次出现的结束时间,TSj=Sj×f,TEj=Ej×f,j=1,2,…,M,M表示集合SEG的元素个数,(Sj,Ej)∈SEG,TSj为动作A第j次出现的开始时间,TEj为动作A第j次出现的结束时间。
CN201810313649.7A 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法 Active CN108734095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810313649.7A CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810313649.7A CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Publications (2)

Publication Number Publication Date
CN108734095A CN108734095A (zh) 2018-11-02
CN108734095B true CN108734095B (zh) 2022-05-20

Family

ID=63941248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810313649.7A Active CN108734095B (zh) 2018-04-10 2018-04-10 一种基于3d卷积神经网络的动作检测方法

Country Status (1)

Country Link
CN (1) CN108734095B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109871464B (zh) * 2019-01-17 2020-12-25 东南大学 一种基于ucl语义标引的视频推荐方法与装置
CN109948446B (zh) * 2019-02-20 2021-07-16 北京奇艺世纪科技有限公司 一种视频片段处理方法、装置及计算机可读存储介质
CN109961037A (zh) * 2019-03-20 2019-07-02 中共中央办公厅电子科技学院(北京电子科技学院) 一种考场视频监控异常行为特征识别方法
CN109948557B (zh) * 2019-03-22 2022-04-22 中国人民解放军国防科技大学 多网络模型融合的烟雾检测方法
CN111988666B (zh) * 2019-05-23 2022-04-26 阿里巴巴集团控股有限公司 视频检测、3d卷积与映射方法、设备及存储介质
CN110263728B (zh) * 2019-06-24 2022-08-19 南京邮电大学 基于改进的伪三维残差神经网络的异常行为检测方法
CN110414446B (zh) * 2019-07-31 2021-04-16 广东工业大学 机器人的操作指令序列生成方法及装置
CN111291699B (zh) * 2020-02-19 2022-06-03 山东大学 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法
CN112115876A (zh) * 2020-09-21 2020-12-22 四川弘和通讯有限公司 一种基于3d卷积神经网络的水溶法实验过程识别方法
CN113038272B (zh) * 2021-04-27 2021-09-28 武汉星巡智能科技有限公司 婴儿视频自动剪辑的方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171247B1 (en) * 2011-06-27 2015-10-27 Hrl Laboratories, Llc System and method for fast template matching in 3D
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015132665A2 (en) * 2014-03-07 2015-09-11 Wolf, Lior System and method for the detection and counting of repetitions of repetitive activity via a trained network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171247B1 (en) * 2011-06-27 2015-10-27 Hrl Laboratories, Llc System and method for fast template matching in 3D
CN106980826A (zh) * 2017-03-16 2017-07-25 天津大学 一种基于神经网络的动作识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Recognition of Dynamic Hand Gestures from 3D Motion Data using LSTM and CNN architectures;Chinmaya R. Naguri and Razvan C. Bunescu;《2017 16th IEEE International Conference on Machine Learning and Applications(ICMLA)》;20180118;第1130-1133页 *
Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos;Rui Hou等;《2017 IEEE International Conference on Computer Vision(ICCV)》;20171225;第5823-5832页 *
基于3D卷积神经网络的人体行为识别;叶旭庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);第I138-4875页 *
基于深度学习的人体行为识别算法综述;朱煜等;《自动化学报》;20160630;第42卷(第6期);第848-857页 *

Also Published As

Publication number Publication date
CN108734095A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108734095B (zh) 一种基于3d卷积神经网络的动作检测方法
CN108537134B (zh) 一种视频语义场景分割及标注方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
US10963674B2 (en) Unsupervised learning of object recognition methods and systems
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
US11640714B2 (en) Video panoptic segmentation
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111611847A (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN107506692A (zh) 一种基于深度学习的密集人群计数与人员分布估计方法
Sajid et al. Zoomcount: A zooming mechanism for crowd counting in static images
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN113807318A (zh) 一种基于双流卷积神经网络和双向gru的动作识别方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN113642482A (zh) 一种基于视频时空上下文的视频人物关系分析方法
CN115376202A (zh) 一种基于深度学习的电梯轿厢内乘客行为识别方法
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
Putra et al. Markerless human activity recognition method based on deep neural network model using multiple cameras

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant