CN110378194A - 基于精细空间网络的人体动作识别方法 - Google Patents

基于精细空间网络的人体动作识别方法 Download PDF

Info

Publication number
CN110378194A
CN110378194A CN201910386926.1A CN201910386926A CN110378194A CN 110378194 A CN110378194 A CN 110378194A CN 201910386926 A CN201910386926 A CN 201910386926A CN 110378194 A CN110378194 A CN 110378194A
Authority
CN
China
Prior art keywords
network
spatial network
spatial
fine
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910386926.1A
Other languages
English (en)
Inventor
吴春雷
曹海文
王雷全
魏燚伟
张卫山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910386926.1A priority Critical patent/CN110378194A/zh
Publication of CN110378194A publication Critical patent/CN110378194A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于精细空间网络的人体动作识别方法,它属于基于视频的人体动作识别技术领域,解决了传统的动作识别方法存在局部细节空间信息丢失的问题。本发明由空间网络和堆叠空间网络构成,以多个视频帧作为输入,空间网络选用BN‑Inception网络结构提取高级语义标签信息进行动作识别。堆叠空间网络以端到端的方式融合多层特征,选用BN‑Inception网络结构作为编码器,在高级语义标签的监督下提取多层次、高分辨率的空间特征,选用反卷积层和残差连接层作为解码层提取局部细节空间特征,并通过堆叠空间融合层进行聚合产生局部细节空间特征信息和多层次、高分辨率的空间特征进行动作识别。最后将两个空间网络得到的分数进行融合,产生最终的动作识别准确率。

Description

基于精细空间网络的人体动作识别方法
技术领域
本发明涉及计算机视觉领域的大数据处理与分析技术,特别是涉及到基于深度学习的基于视频的人体动作识别方法,属于动作识别领域。
背景技术
基于视频的人体动作识别是在一段视频中对动作发起者的动作进行分类。此类研究在计算机视觉领域引起极大的关注,并成为该领域的研究热点之一。它在人机交互、运动分析和人物追踪等领域有广泛的应用,例如对重大事故的预警及监控,实现机器和人进行智能化的互动等。除了相关应用之外,动作识别技术对计算机视觉领域和动作检测技术的发展起到了巨大的推动作用。不同于单一图像分类技术,动作识别不仅需要考虑到视频帧的外观背景,还要顾及到动作时序等细节信息。
现有基于视频的人体动作识别方法主要分为两大方向,分别是:基于2D卷积网络的双流模型的方法和基于3D卷积网络的动作识别模型的方法。基于2D卷积网络的双流模型的方法以不同模态(RGB、Optical Flow)作为输入,分别以空间网络和时间网络计算静态和动态信息,通过相关融合技术来提高识别的准确率。但是传统的双流模型没有考虑到时序问题,很难判别相似动作。基于3D卷积网络的动作识别模型的方法是通过对连续帧进行三维卷积等操作,从而提取时空高级语义信息。
近年来,基于视频的人体动作识别技术在计算机视觉领域的研究进展中主要集中在视频静态和动态信息的提取与融合,由于卷积神经网络在图像分类领域取得的巨大成功,自然的将卷积神经网络应用于动作识别的空间特征提取。然后,仅仅捕捉复杂的动作静态信息是不够的。光流作为互补,作为时间网络的输入去捕捉动作的动态信息。空间网络和时间网络的结合从而形成了基于2D卷积网络的双流模型,它以不同模态(RGB和OpticalFlow)作为输入,分别以空间网络和时间网络计算静态和动态信息,通过相关融合技术来提高识别的准确率。但是光流的计算量庞大,并且传统的双流模型没有考虑到时序问题,导致很难判别相似动作。基于3D卷积网络的动作识别模型的方法是通过对连续帧进行三维卷积等操作,从而提取时空高级语义信息,因此可以捕捉视频中的运动信息,但是动作识别的准确率较低。这两种主流方法同样的存在只利用单层特征信息进行动作识别,往往忽视了卷积等操作时局部细节空间信息的丢失。
发明内容
本发明的目的是为解决传统的动作识别方法存在局部空间动作信息丢失而导致动作识别准确率低的问题。
本发明为解决上述技术问题采取的技术方案是:
S1.将原始视频V平均分为T段S1,S2,…,ST(T为经验值T=3),从每个子段中随机采样一帧作为精细空间网络的输入,所述原始视频为原始视频训练样本或待识别原始视频。
S2.构建空间网络和堆叠空间网络组成精细空间网络。
S3.将步骤S1中采集的图片输入至精细空间网络中对精细空间网络进行训练,使得损失函数最小。
S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试,再进行组间融合,最后完成基于视频的人体动作识别。
具体地,构建精细空间网络包括以下步骤:
(1)在构建空间网络中,选用BN-Inception作为基础的网络结构,每个网络输入一张图片,并行T个网络模型最后进行组间的识别分数融合,融合方法为平均求值。
(2)在构建堆叠空间网络中,选用BN-Inception作为编码器的基础网络结构,为了学习动作的局部细节空间信息,利用三层反卷积层和三层残差连接层作为解码器的基础网络结构,并使用堆叠空间融合层将多层特征进行聚合,最后利用堆叠空间融合层输出的特征进行动作识别。与空间网络相同,堆叠空间网络也是并行T个网络模型最后进行组内的识别得分融合。
(3)将构建完成的空间网络和堆叠空间网络组合成精细空间网络。
其中,所述的堆叠空间融合层利用融合函数H(Qf=H(f1,f2,…,fL))聚集多层特征获得动作的局部细节空间特征Qf,其融合函数包括:
(1)加权平均融合函数:
(2)最大化融合函数:
Qf=MAX(f1,f2,…,fL) (2)
(3)级联融合函数:
Qf=Concat(f1,f2,…,fL) (3)
其中,FL∈fe5,fd1,fd2,fd3,L=1,2,…,4,其中的fe5,fd1,fd2和fd3分别是堆叠空间网络中编码器最后一个卷积层(e5层)以及解码器的前三层网络层(d1、d2和d3层)输出的特征图,WL是加权平均融合函数的中的超参。
具体的,在堆叠空间网络中视频预测函数为:
YF=G(g(F1;W),g(F2;w),…,g(FT;w)) (4)
其中F={Qf,fe5,fd1,fd2,fd3},FT对应原始视频中每个片段ST取样帧作为堆叠空间网络的输入而得到的最后的特征表示。预测函数g预测输入帧的所有类别分数,这里使用Softmax函数应用于g,G函数是平均操作,w是预测函数中的超参。
具体的说,堆叠空间网络利用端到端的训练方式优化卷积神经网络中的参数来获得高级语义特征Qf,其损失函数为:
其中,j,c=1,…,n,n是动作类别个数,i=1,…,m,m是上述提到的预测层的个数。同时采用了随机梯度下降优化算法对模型参数进行学习,在反向传播过程中,网络参数w的联合优化可推导为:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明采用了时间片段网络,利用稀疏采样作为并行网络的输入,从而获得时间维度信息,使动作识别精度大幅度提高。
(2)本发明仅利用图片作为输入,避免了计算光流,节省大量计算时间,使得动作识别的效率更高,更容易在移动硬件平台上部署和实施。
(3)本发明首次提出堆叠空间网络,并利用编码器和解码器以及堆叠空间融合层融合多层特征进行动作识别,在高级语义特征的基础上提取了局部细节空间特征,解决了传统动作识别方法中动作细节丢失问题。
(4)本发明将传统的空间网络和堆叠空间网络进一步的融合,保证了高级语义特征以及局部细节空间特征都得以利用,达到了互补作用,进一步的提高了动作识别的准确性。
附图说明
图1为本发明实施例使用的精细空间网络结构示意图;
图2为本发明实施例使用的空间网络结构示意图;
图3为本发明实施例使用的堆叠空间网络结构示意图;
图4为本发明实施例提供的堆叠空间网络结构方法与时间分割网络中的空间网络在 UCF101数据集上可视化指定层可视化特征图的对比图;
图5为本发明实施提供的精细空间网络和时间分割网络中的空间网络在UCF101数据集上不同的四个类别的图片的前五个预测分数的比较图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
一下结合附图和实施例对本发明做进一步的阐述。
图1为本发明实施例使用的精细空间网络结构示意图。如图1所示,该方法包括以下步骤:
S1.将原始视频V平均分为T段S1,S2,…,ST(T为经验值T=3),从每个子段中随机采样一帧作为空间网络和堆叠空间网络的输入,所述原始视频为原始视频训练样本或待识别原始视频。
S2.构建空间网络和堆叠空间网络组成精细空间网络。
S3.将步骤S1中采集的图片输入至精细空间网络中对精细空间网络进行训练,使得损失函数最小。
S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试,再进行组间融合入,最后完成基于视频的人体动作识别,融合方法为平均求值。
本发明的原始视频为UCF101数据集,它包括13320段视频,101个动作类,总时长约为 27个小时。
图2为本发明实施例使用的空间网络结构示意图。如图2所示,本发明中的空间网络与传统的时间分割网络中的空间网络相同并且训练方式一致,它选用BN-Inception作为基础的网络结构,每个网络结构输入一张图片,并行T个网络模型最后进行组间的识别分数融合。
图3为本发明实施例使用的堆叠空间网络结构示意图。如图3所示,在构建堆叠空间网络中,选用BN-Inception作为编码器的基础网络结构,为了学习动作的局部细节空间信息,利用三层反卷积层和三层残差连接层作为解码器的基础网络结构,并使用堆叠空间融合层将多层特征进行聚合,最后利用堆叠空间融合层输出的特征进行动作识别。与空间网络相同,堆叠空间网络也是并行T个网络模型最后进行组内的识别得分融合。其训练细节包括以下部分:
所述的堆叠空间融合层利用融合函数H(Qf=H(f1,f2,…,fL))聚集多层特征获得动作的局部细节空间特征Qf,其融合函数包括:
(1)加权平均融合函数:
(2)最大化融合入函数:
Qf=MAX(f1,f2,…,fL) (2)
(3)级联融合函数:
Qf=Concat(f1,f2,…,fL) (3)
其中,FL∈fe5,fd1,fd2,fd3,L=1,2,…,4,其中的fe5,fd1,fd2和fd3分别是堆叠空间网络中编码器最后一个卷积层(e5层)以及解码器的前三层网络层(d1、d2和d3层)输出的特征图,WL是加权平均融合函数的中的超参。
具体的,在堆叠空间网络中视频预测函数为:
YF=G(g(F1;W),g(F2;w),…,g(FT;w)) (4)
其中F={Qf,fe5,fd1,fd2,fd3},FT对应原始视频中每个片段ST取样帧作为堆叠空间网络的输入而得到的最后的特征表示。预测函数g预测输入帧的所有类别分数,这里使用Softmax函数应用于g,G函数是平均操作,w是预测函数中的超参。
具体的说,堆叠空间网络利用端到端的训练方式优化卷积神经网络中的参数来获得高级语义特征Qf,其损失函数为:
其中,j,c=1,…,n,n是动作类别个数,i=1,…,m,m是上述提到的预测层的个数。同时采用了随机梯度下降优化算法对模型参数进行学习,在反向传播过程中,网络参数w的联合优化可推导为:
图4为本发明实施例提供的堆叠空间网络结构方法与时间分割网络中的空间网络在 UCF101数据集上可视化指定层可视化特征图的对比图。如图4所示,分别可视化时间分割网络的空间网络和本发明提供的堆叠空间网络中指定层的特征图,与时间分割网络中的空间网络相比,堆叠空间网络中的特征映射对目标边缘、动作细节以及运动区域非常敏感,并且具有较强的鲁棒性和准确性。
图5为本发明实施提供的精细空间网络和时间分割网络中的空间网络在UCF101数据集上不同的四个类别的图片的前五个预测分数的比较图。如图5所示,黄色条框表示真实标签,并且整个长度代表了100%的准确度,绿色条框代表对视频的正确预测的分数,橘色的条框代表错误预测分数。这表明了本发明提出的精细空间网络在视频表达方面优于传统的空间网络,并且精细空间网络包含了丰富的高级语义信息和局部细节空间信息。
实验结果如下表所示:
在这项工作中,本发明提出了一种新的方法来完成基于视频的动作识别,在不同的现有方法中表现出较好的效果。与之前的方法不同,本发明第一次提出了利用编码器-解码器用于动作识别,并第一次提出了堆叠空间融合层融合多层特征进行动作识别,在获得高级语义信息的基础上提取局部细节空间信息,但又没有完全摒弃传统方法,结合了传统的空间网络与堆叠空间网络组成精细空间网络,同时实现了高级语义信息和局部细节空间在动作识别上的应用,使得动作识别精度大幅度提高。
最后,本发明的上述实施例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.基于精细空间网络的人体动作识别方法,其特征在于,所述方法包括以下步骤:
S1.将原始视频V平均分为T段S1,S2,…,ST(T为经验值T=3),从每个子段中随机采样一帧作为精细空间网络的输入,所述原始视频为原始视频训练样本或待识别原始视频。
S2.构建空间网络和堆叠空间网络组成精细空间网络。
S3.将步骤S1中采集的图片输入至精细空间网络中对精细空间网络进行训练,使得损失函数最小。
S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试,再进行组间融合入,最后完成基于视频的人体动作识别。
2.根据权利要求1所述的基于精细空间网络的人体动作识别方法,其特征在于,所述S1的具体过程为:
将UCF101数据集作为待识别的视频序列,在训练集中将每个视频段平均分为T部分,并从每个部分中随机选择一帧图片作为网络的输入。
3.根据权利要求1所述的基于精细空间网络的人体动作识别方法,其特征在于,所述S2中构建精细空间网络的具体过程为:
(1)在构建空间网络中,选用BN-Inception作为基础的网络结构,每个网络输入一张图片,并行T个网络模型最后进行组间的识别分数融合,融合方法为平均求值。
(2)在构建堆叠空间网络中,选用BN-Inception作为编码器的基础网络结构,为了学习动作的局部细节空间信息,利用三层反卷积层和三层残差连接层作为解码器的基础网络结构,并使用堆叠空间融合层将多层特征进行聚合,最后利用堆叠空间融合层输出的特征进行动作识别。与空间网络相同,堆叠空间网络也是并行T个网络模型最后进行组内的识别得分融合。
(3)将构建完成的空间网络和堆叠空间网络组合成精细空间网络。
4.根据权利要求1所述的基于精细空间网络的人体动作识别方法,其特征在于,所述S3中训练空间网络和堆叠空间网络的具体过程为:
迁移在ImageNet数据集上预训练好的BN-Inception基础网络结构模型的全连接层前所有层的参数至S2构建的空间网络和堆叠空间网络,且空间网络与传统的时间分割网络中的空间网络的训练方式相同。
堆叠空间网络的训练方式如下:
堆叠空间融合层利用融合函数H(Qf=H(f1,f2,…,fL))聚集多层特征获得动作的局部细节空间特征Qf,其融合函数包括:
(1)加权平均融合函数:
(2)最大化融合函数:
Qf=MAX(f1,f2,…,fL) (2)
(3)级联融合函数:
Qf=Concat(f1,f2,…,fL) (3)
其中,FL∈fe5,fd1,fd2,fd3,L=1,2,…,4,其中的fe5,fd1,fd2和fd3分别是堆叠空间网络中编码器最后一个卷积层(e5层)以及解码器的前三层网络层(d1、d2和d3层)输出的特征图,WL是加权平均融合函数的中的超参。
具体的,在堆叠空间网络中视频预测函数为:
YF=G(g(F1;W),g(F2;w),…,g(FT;w)) (4)
其中F={Qf,fe5,fd1,fd2,fd3},FT对应原始视频中每个片段ST取样帧作为堆叠空间网络的输入而得到的最后的特征表示。预测函数g预测输入帧的所有类别分数,这里使用Softmax函数应用于g,G函数是平均操作,w是预测函数中的超参。
具体的说,堆叠空间网络利用端到端的训练方式优化卷积神经网络中的参数来获得高级语义特征Qf,其损失函数为:
其中,j,c=1,…,n,n是动作类别个数,i=1,…,m,m是上述提到的预测层的个数。同时采用了随机梯度下降优化算法对模型参数进行学习,在反向传播过程中,网络参数w的联合优化可推导为:
5.根据权利要求1所述的基于精细空间网络的人体动作识别方法,其特征在于,所述S4中测试训练完成的精细空间网络,每个视频采用一张图片作为模型的输入来预测动作识别的分数,最后取空间网络和堆叠空间网络得出的分数平均作为精细空间网络的最终得分。
CN201910386926.1A 2019-05-10 2019-05-10 基于精细空间网络的人体动作识别方法 Pending CN110378194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910386926.1A CN110378194A (zh) 2019-05-10 2019-05-10 基于精细空间网络的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910386926.1A CN110378194A (zh) 2019-05-10 2019-05-10 基于精细空间网络的人体动作识别方法

Publications (1)

Publication Number Publication Date
CN110378194A true CN110378194A (zh) 2019-10-25

Family

ID=68248682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910386926.1A Pending CN110378194A (zh) 2019-05-10 2019-05-10 基于精细空间网络的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN110378194A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0823218A2 (pt) * 2008-11-21 2014-10-14 Jose Antonio Cruz Serrano Método para obter uma mistura de probióticos, prebióticos nutrientes com ação simbiótica sinergística
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN109447994A (zh) * 2018-11-05 2019-03-08 陕西师范大学 结合完全残差与特征融合的遥感图像分割方法
CN109670446A (zh) * 2018-12-20 2019-04-23 泉州装备制造研究所 基于线性动态系统和深度网络的异常行为检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0823218A2 (pt) * 2008-11-21 2014-10-14 Jose Antonio Cruz Serrano Método para obter uma mistura de probióticos, prebióticos nutrientes com ação simbiótica sinergística
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN109447994A (zh) * 2018-11-05 2019-03-08 陕西师范大学 结合完全残差与特征融合的遥感图像分割方法
CN109670446A (zh) * 2018-12-20 2019-04-23 泉州装备制造研究所 基于线性动态系统和深度网络的异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIMIN WANG等: ""Temporal Segment Networks for Action Recognition in Videos"", 《LECTURE NOTES IN COMPUTER SCIENCE》 *

Similar Documents

Publication Publication Date Title
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
Bagautdinov et al. Social scene understanding: End-to-end multi-person action localization and collective activity recognition
CN105787458B (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Fang et al. Densely nested top-down flows for salient object detection
CN106529477B (zh) 基于显著轨迹和时空演化信息的视频人体行为识别方法
CN110781838A (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN109615582A (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN104504362A (zh) 基于卷积神经网络的人脸检测方法
CN109670446A (zh) 基于线性动态系统和深度网络的异常行为检测方法
CN109815867A (zh) 一种人群密度估计和人流量统计方法
CN110163127A (zh) 一种由粗到细的视频目标行为识别方法
CN105574510A (zh) 一种步态识别方法及装置
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN110363131A (zh) 基于人体骨架的异常行为检测方法、系统及介质
CN110110686A (zh) 基于多损失双流卷积神经网络的人体动作识别方法
Li et al. Sign language recognition based on computer vision
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
Wan et al. Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features
Wei et al. P3D-CTN: Pseudo-3D convolutional tube network for spatio-temporal action detection in videos
CN110348364A (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN110135251A (zh) 一种基于注意力机制和混合网络的群体图像情绪识别方法
Gammulle et al. Coupled generative adversarial network for continuous fine-grained action segmentation
CN111914731A (zh) 一种基于自注意力机制的多模态lstm的视频动作预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191025