CN111639571A - 基于轮廓卷积神经网络的视频动作识别方法 - Google Patents

基于轮廓卷积神经网络的视频动作识别方法 Download PDF

Info

Publication number
CN111639571A
CN111639571A CN202010433443.5A CN202010433443A CN111639571A CN 111639571 A CN111639571 A CN 111639571A CN 202010433443 A CN202010433443 A CN 202010433443A CN 111639571 A CN111639571 A CN 111639571A
Authority
CN
China
Prior art keywords
convolution
contour
network
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010433443.5A
Other languages
English (en)
Other versions
CN111639571B (zh
Inventor
华璟
高明琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202010433443.5A priority Critical patent/CN111639571B/zh
Publication of CN111639571A publication Critical patent/CN111639571A/zh
Application granted granted Critical
Publication of CN111639571B publication Critical patent/CN111639571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轮廓卷神经网络的视频动作识别方法,首先对于带有标签的视频进行逐帧的剪裁处理,对于剪裁后的样本进行必要的增广操作;其次通过轮廓卷积操作ContourConv得到良好的分割结果并有效地提取出图片中有序的动作点云集合与几何特征;接着使用RGB与光流的双流网络对图片的表层特征进行提取;最终将上述两个分支进行模型融合,传入检测设备中,将传入到检测设备的特征图进行动作识别预测,得到最终的预测结果。本发明通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支,从而对原有网络产生明显的提升作用,实现高效准确地视频动作识别。

Description

基于轮廓卷积神经网络的视频动作识别方法
技术领域
本发明属于计算机视觉中的图像处理和行为识别领域,涉及一种基于轮廓卷积神经网络的视频动作识别方法。
背景技术
在计算机视觉领域中行为识别是一项非常重要的课题,该技术不仅要准确识别目标体的空间信息,还要考虑时间维度上的信息,因此研究结果具备着重要意义与广泛的应用场景。近年来行为识别在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。但在该技术的实际应用场景中,视频行为识别技术极易受到遮挡,动态背景,移动摄像头,视角和光照变化等多种外在因素的影响,在精准性上具有很大的挑战性。
现有的基于深度学习的行为识别方法主要采用双流卷积神经网络,该网络主要采用两种类型的输入:RGB图和光流图,但忽略了另一种可判别行为识别的重要线索:人体姿态动力学。在这种情况下,姿态表示和动作识别是两个孤立的部分,没有自适应交互,这限制了理解非限制环境下视频中复杂动作的能力,从而降低了识别的准确性。
发明内容
针对现有技术的以上缺陷和改进需求,本发明的目的是提供一种基于轮廓卷积神经网络的视频动作识别方法;图像的RGB信息与光流信息主要关注图像的表层信息,而从几何学的角度上出发,可以根据图像的轮廓信息构建出动作的点云集合,对原有的方法有较大的提升作用,因此本发明的核心就是通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支,从而对原有网络产生明显的提升作用,实现高效准确的视频动作识别。
为了达到上述目的,本发明通过以下技术方案来实现:一种基于轮廓卷神经网络的视频动作识别方法,该方法包括以下步骤:
(1)获取带有标注的视频数据集作为训练数据,每个视频包含动作标签。
(2)对于获取的视频数据进行数据预处理,包括:
(2.1)对视频数据集的每一段视频进行以帧为单位的剪辑,将视频帧按时间顺序排序;
(2.2)对标注目标采用几何方法提取出目标动作的外轮廓集合的点云信息,并按时间顺序排序成点云组。
(3)构建轮廓卷积神经网络模型,所述轮廓卷积神经网络模型包括轮廓卷积子网络和两个3D卷积块组成的双流卷积子网络;
(3.1)所述轮廓卷积子网络模型用于动作集合点云特征提取,具体为:
将提取出来的每张图片的动作外轮廓集合点云信息采用按照时间轴顺序叠加的方式,形成一个立体的3D动作点云集合作为网络输入;对输入的数据进行下采样操作,之后将输入分为点的局部坐标、点的密度两部分分别输入轮廓卷积子网络;
点的局部坐标输入是一个K×3的矩阵,K表示点的个数,通过两个参数共享的1*1的conv层进行密度加权卷积操作组成多层轮廓卷积神经网络ContourConv_1,最后再和K×Cin×Cout的特征矩阵N1逐元素相乘,其中Cin、Cout分别为输入和输出的特征维度;密度加权卷积操作具体如下:
在3D空间中,将连续卷积算子的权重看作关于一个3D参考点的局部坐标的连续函数,两个连续函数W和F关于三维向量的卷积操作用以下公式表示:
Figure BDA0002500872120000021
其中,(x,y,z)是3D参考点的坐标,通过公式(1)将(x,y,z)离散化到一个离散的3D动作点云上,用(δxyz)表示离散化后的邻域G中的3D点的相对坐标;W和F均为连续函数,W的输入为(δxyz),输出是每个点对应的特征F的权重;F为特征函数,输入Fin包括点的坐标、点对应的面的序号、类别标签和点对应切面的法向量,输出Fout表示点的底层特征;
点的密度输入是一个K×1的矩阵,通过多层卷积神经网络Conv_2得到K×Cin的矩阵,然后再和K×Cin的特征矩阵N2逐元素相乘;
使用逆密度对训练得到的特征矩阵N1和N2进行加权;由ContourConv_1和Conv_2构成的轮廓卷积子网络ContourConv可由以下公式表示:
Figure BDA0002500872120000022
其中,S表示逆密度系数函数,输入是每个点的密度,输出是每个点对应的逆密度系数;
轮廓卷积子网络ContourConv的输入为:3D点的相对坐标Plocal,密度Density和特征Fin;在得到权重W和逆密度系数S后,结合输入特征Fin,利用下式进行卷积得到输出特征Fout,如公式(2):
Figure BDA0002500872120000031
(3.2)所述双流卷积子网络模型用于RGB信息与光流信息的特征提取,具体为:对输入的数据首先经过下采样操作来减少数据量,之后RGB信息通过卷积核为3*3的3D卷积块进行卷积操作,光流信息通过卷积核为5*5的3D卷积块进行卷积操作。
(4)将轮廓卷积子网络和双流卷积子网络的输出特征进行融合,形成以一个三流输入的识别网络模型,用来做人体动作分类。
(5)利用训练数据对步骤(4)构建的识别网络模型进行训练。
(6)视频动作识别:将待识别的视频数据进行数据预处理后输入步骤(5)训练好的识别网络模型中进行动作识别预测,得到最终预测结果。
进一步地,所述步骤(1)中,采用HMDB51数据集作为训练集,该数据集包括包含51类动作,共有6849个视频,每类动作至少包含51个视频,分辨率为320*240,每个视频时长为30秒左右并且包含动作标签。
进一步地,所述步骤(2)中,对数据进行增强处理,具体为:对得到的每一组样本集合以50%的概率进行水平翻转;为了避免偏置引起的数据溢出,对每个通道均进行减去平均值的处理;经过增强后的样本所有生成的样本标签均和原始视频一致。
进一步地,所述步骤(3.1)中,将多层轮廓卷积神经网络ContourConv_1扩展到反轮廓卷积ContourDeconv,以获得更好的识别结果。
进一步地,所述步骤(3.1)中,W和S均可以用多层感知器(MLP)近似。
进一步地,所述步骤(3.2)中,通过全连接层融合原始图像与光流通道,将全连接层提取出的高维特征与原始图像进行融合,大幅度减少计算光流通道的时间;在双流卷积子网络的总体结构上,使用连续的5帧图片计算出10帧光流通道,之后使用Inception-V1的平均池化层提取特征;双流卷积子网络的特征矩阵初始化使用高斯分布。
进一步地,所述步骤(4)中,将点云特征、RGB特征、光流特征进行融合操作,最终形成一个三流输入的识别网络模型,将特征融合之后的特征图经过3*3卷积,然后继续采用1*1卷积进行预测分类。
进一步地,所述步骤(5)中,模型训练过程中采用Adam法优化,损失函数采用交叉熵损失函数。
本发明提供的技术方案的有益效果是:本发明主要针对人体行为识别的准确性进行研究,提出了一种基于轮廓卷积的视频动作识别方法。首先对于带有标签的视频进行逐帧的剪裁处理,并且对于剪裁后的样本进行必要的增广操作,可以对训练过程起到良好的帮助作用;其次通过本方法的轮廓卷积操作ContourConv与ContourDeConv,得到良好的分割结果并有效地提取出图片中有序的动作点云集合与几何特征;接着使用RGB与光流的双流网络对图片的表层特征进行提取,使用Inception-V1的平均池化层提取特征,同时结合单张RGB视频帧与其附近的视频帧的光流场来得到更好的效果;最终将上述两个分支进行模型融合,传入检测设备中,将传入到检测设备的特征图进行动作识别预测,得到最终的预测结果。本发明的核心是通过轮廓卷积将人体姿态的几何信息提取出来并作为行为识别网络的一个新的分支,从而对原有网络产生明显的提升作用,实现高效准确的视频动作识别。
附图说明
图1是本发明实施例视频数据预处理示意图;
图2是本发明实施例对每段视频以帧为单位剪辑示意图;
图3是本发明实施例的3D动作点云集合示意图;
图4中(a)显示4×4局部区域在图像中,点之间的距离只能达到很少的离散值;(b)和(c)表示在不同的局部点云内的区域、顺序和相对位置可能会很不一样;
图5是本发明实施例轮廓卷积子网络的结构框图;
图6是轮廓卷积子网络和双流卷积子网络融合后的识别网络模型的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本申请提出的一种基于轮廓卷积神经网络的视频动作识别方法,该方法的具体步骤包括:
(1)获取带有标注的注释视频数据集作为训练数据,本方法主要采用HMDB51数据集,该数据集包括包含51类动作,共有6849个视频,每类动作至少包含51个视频,分辨率为320*240,每个视频时长为30秒左右并且包含动作标签。
(2)对于获取的视频数据进行数据预处理,如图1所示,主要包括如下三个子步骤:
(2.1)对视频数据集的每一段视频进行以帧为单位的剪辑,将视频帧以时间轴为顺序进行排列以备之后进行处理,如图2所示。
(2.2)对标注目标采用几何方法提取出目标动作的外轮廓集合的点云信息,并按照时间的顺序排序成点云组,作为网络的输入之一。
(2.3)数据增强,对得到的每一组样本集合以50%的概率进行水平翻转,因为一般情况下即使视频左右翻转,也不影响对视频内容的理解。另外为了避免所谓的偏置引起的数据溢出,对每个通道均进行减去平均值的处理。经过增强后的样本所有生成的样本标签均和原始视频一致。
(3)构建轮廓卷积神经网络模型,所述轮廓卷积神经网络模型包括轮廓卷积子网络和两个3D卷积块组成的双流卷积子网络。
(3.1)所述轮廓卷积子网络模型用于动作集合点云特征提取,具体为:
首先将提取出来的每一张图的动作外轮廓集合点云信息采用按照时间轴顺序叠加的方式,形成一个立体的3D动作点云集合,类似于一个连续的动作通道,如图3所示,作为输入。对输入的数据进行倍数为2的下采样操作,之后将输入分为点的局部坐标、点的密度两部分分别输入轮廓卷积子网络。轮廓卷积子网络的结构如图5所示。
点的局部坐标输入是一个K×3的矩阵,K表示点的个数,通过两个参数共享的1*1的conv层进行密度加权卷积操作组成多层轮廓卷积神经网络ContourConv_1,激活函数采用ReLu激活函数,最后再和K×Cin×Cout的特征矩阵N1逐元素相乘,其中Cin、Cout分别为输入和输出的特征维度,N1特征初始化时为零矩阵,在训练过程中不断迭代更新。在密度加权卷积操作过程中因为考虑到每个点周围的密度越大,权重越小的特征,因此使用逆密度函数进行计算。
其中密度加权卷积操作具体如下:
对3D动作点云集合采用密度加权卷积操作,该卷积操作能够完全近似任意一组3D点集上的3D连续卷积。优选地,可将ContourConv_1(轮廓卷积)扩展到ContourDeconv(反轮廓卷积),以获得更好的识别结果。
3D动作点云数据的表达方式与正常的RGB图像完全不同。如图4所示,不同于图像,点云信息通常由一些3D点组成。不同的3D点之间没有前后顺序之分,因此,在3D点云上的卷积操作应具有排列不变性,即改变3D点集中点顺序不应影响卷积结果。
为满足这些要求,在3D空间中,可以把连续卷积算子的权重看作关于一个3D参考点的局部坐标的连续函数。在几何运算中,两个连续函数f(x)和g(x)关于一个三维向量x的卷积操作用以下公式(1)表示:
Figure BDA0002500872120000051
将本方法的参数代入公式(1)中,得到公式(2)如下所示:
Figure BDA0002500872120000061
其中,(x,y,z)是3D参考点的坐标,通过公式(2)将(x,y,z)离散化到一个离散的3D动作点云上,用(δxyz)表示离散化后的邻域G中的3D点的相对坐标;W和F均为连续函数,W的输入为(δxyz),输出是每个点对应的特征F的权重,W可以用多层感知器(MLP)近似;F为特征函数,输入Fin包括点的坐标、点对应的面的序号、类别标签和点对应切面的法向量,输出Fout表示点的底层特征;
点的密度输入是一个K×1的矩阵,通过多层卷积神经网络Conv_2得到K×Cin的矩阵,然后再和K×Cin的特征矩阵N2逐元素相乘;N2特征初始化时为零矩阵,在训练过程中不断迭代更新。
同时,考虑到3D点云可能来自于一个不均匀采样的传感器,为了补偿不均匀采样,使用逆密度对训练得到的特征矩阵N1和N2进行加权。因此由ContourConv_1和Conv_2构成的轮廓卷积子网络ContourConv可以由以下公式(3)表示:
Figure BDA0002500872120000062
其中,S表示逆密度系数函数,输入是每个点的密度,输出是每个点对应的逆密度系数,S可以用多层感知器(MLP)近似。
整个轮廓卷积子网络ContourConv的输入为:3D点的相对坐标Plocal,密度Density和特征Fin;3D点的相对坐标Plocal经过连续卷积函数之后可以得到每个点对应的特征F的权重W;而密度Density经过多层感知器(MLP)之后得到逆密度系数S;在得到权重W和逆密度系数S后,结合输入特征Fin,利用下式进行卷积得到输出特征Fout,如公式(4):
Figure BDA0002500872120000063
输出特征Fout代表了该点局部区域质点的特征。
(3.2)所述双流卷积子网络模型用于RGB信息与光流信息的特征提取,具体为:
对输入的数据首先经过倍数为4的下采样操作来减少数据量,以便加快网络训练。之后RGB信息通过卷积核为3*3的3D卷积块进行卷积操作,光流信息通过卷积核为5*5的3D卷积块进行卷积操作。
同时因为使用3D卷积块进行特征提取,光流通道具有的参数量极为庞大,因此在本方法中通过全连接层融合原始图像与光流通道的方法,将全连接层提取出的高维特征与原始图像进行融合,可以大幅度减少计算光流通道的时间。在双流卷积子网络的总体结构上,本方法使用连续的5帧图片来计算出10帧光流通道,之后使用Inception-V1的平均池化层提取特征。结合单张RGB视频帧与其附近的视频帧的光流场(视频两帧之前的光流差异),在追踪X、Y两个方向的光流通道以后,只会产生两倍数量的输入帧,这种方法在网络训练中非常高效,两个3D卷积块的特征矩阵均由P个Q维向量组成。从理论上来讲,如果这P个Q维向量在Q维空间中均匀分布在以原点为中心的Q-1维单位超球面上,在随机性上应该是最好的。因为这样,这P个向量的夹角为均匀分布,由此本双流卷积子网络的特征矩阵初始化使用高斯分布。
(4)将轮廓卷积子网络和双流卷积子网络的输出特征进行融合操作,具体步骤如下:
将点云特征、RGB特征、光流特征进行融合操作,最终形成一个三流输入的识别网络,用来做人体动作的分类。将特征融合之后的特征图经过3*3卷积,然后继续采用1*1卷积进行预测分类。最终识别网络结构如图6所示。
(5)利用训练数据对步骤(4)构建的识别网络进行训练,其中学习率lr设定为:0.0001,采用Adam法优化,通过最终的损失函数来完成训练,其中损失函数采用交叉熵损失函数,如公式(5):
ln=-(yn*log(zn)+(1-yn)*log(1-zn)) (5)
其中,zn表示预测第n个样本为正例的概率,yn表示第n个样本的标签。
(6)视频动作识别:将待识别的视频数据进行数据预处理后输入步骤(5)训练好的识别网络模型中进行动作识别预测,得到最终预测结果。
以上所述仅是本发明优选的实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明所保护范围内。

Claims (8)

1.一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,该方法包括以下步骤:
(1)获取带有标注的视频数据集作为训练数据,每个视频包含动作标签。
(2)对于获取的视频数据进行数据预处理,包括:
(2.1)对视频数据集的每一段视频进行以帧为单位的剪辑,将视频帧按时间顺序排序;
(2.2)对标注目标采用几何方法提取出目标动作的外轮廓集合的点云信息,并按时间顺序排序成点云组。
(3)构建轮廓卷积神经网络模型,所述轮廓卷积神经网络模型包括轮廓卷积子网络和两个3D卷积块组成的双流卷积子网络;
(3.1)所述轮廓卷积子网络模型用于动作集合点云特征提取,具体为:
将提取出来的每张图片的动作外轮廓集合点云信息采用按照时间轴顺序叠加的方式,形成一个立体的3D动作点云集合作为网络输入;对输入的数据进行下采样操作,之后将输入分为点的局部坐标、点的密度两部分分别输入轮廓卷积子网络;
点的局部坐标输入是一个K×3的矩阵,K表示点的个数,通过两个参数共享的1*1的conv层进行密度加权卷积操作组成多层轮廓卷积神经网络ContourConv_1,最后再和K×Cin×Cout的特征矩阵N1逐元素相乘,其中Cin、Cout分别为输入和输出的特征维度;密度加权卷积操作具体如下:
在3D空间中,将连续卷积算子的权重看作关于一个3D参考点的局部坐标的连续函数,两个连续函数W和F关于三维向量的卷积操作用以下公式表示:
Figure FDA0002500872110000011
其中,(x,y,z)是3D参考点的坐标,通过公式(1)将(x,y,z)离散化到一个离散的3D动作点云上,用(δxyz)表示离散化后的邻域G中的3D点的相对坐标;W和F均为连续函数,W的输入为(δxyz),输出是每个点对应的特征F的权重;F为特征函数,输入Fin包括点的坐标、点对应的面的序号、类别标签和点对应切面的法向量,输出Fout表示点的底层特征;
点的密度输入是一个K×1的矩阵,通过多层卷积神经网络Conv_2得到K×Cin的矩阵,然后再和K×Cin的特征矩阵N2逐元素相乘;
使用逆密度对训练得到的特征矩阵N1和N2进行加权;由ContourConv_1和Conv_2构成的轮廓卷积子网络ContourConv可由以下公式表示:
Figure FDA0002500872110000021
其中,S表示逆密度系数函数,输入是每个点的密度,输出是每个点对应的逆密度系数;
轮廓卷积子网络ContourConv的输入为:3D点的相对坐标Plocal,密度Density和特征Fin;在得到权重W和逆密度系数S后,结合输入特征Fin,利用下式进行卷积得到输出特征Fout,如公式(2):
Figure FDA0002500872110000022
(3.2)所述双流卷积子网络模型用于RGB信息与光流信息的特征提取,具体为:对输入的数据首先经过下采样操作来减少数据量,之后RGB信息通过卷积核为3*3的3D卷积块进行卷积操作,光流信息通过卷积核为5*5的3D卷积块进行卷积操作。
(4)将轮廓卷积子网络和双流卷积子网络的输出特征进行融合,形成以一个三流输入的识别网络模型,用来做人体动作分类。
(5)利用训练数据对步骤(4)构建的识别网络模型进行训练。
(6)视频动作识别:将待识别的视频数据进行数据预处理后输入步骤(5)训练好的识别网络模型中进行动作识别预测,得到最终预测结果。
2.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(1)中,采用HMDB51数据集作为训练集,该数据集包括包含51类动作,共有6849个视频,每类动作至少包含51个视频,分辨率为320*240,每个视频时长为30秒左右并且包含动作标签。
3.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(2)中,对数据进行增强处理,具体为:对得到的每一组样本集合以50%的概率进行水平翻转;为了避免偏置引起的数据溢出,对每个通道均进行减去平均值的处理;经过增强后的样本所有生成的样本标签均和原始视频一致。
4.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(3.1)中,将多层轮廓卷积神经网络ContourConv_1扩展到反轮廓卷积ContourDeconv,以获得更好的识别结果。
5.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(3.1)中,W和S均可以用多层感知器(MLP)近似。
6.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(3.2)中,通过全连接层融合原始图像与光流通道,将全连接层提取出的高维特征与原始图像进行融合,大幅度减少计算光流通道的时间;在双流卷积子网络的总体结构上,使用连续的5帧图片计算出10帧光流通道,之后使用Inception-V1的平均池化层提取特征;双流卷积子网络的特征矩阵初始化使用高斯分布。
7.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(4)中,将点云特征、RGB特征、光流特征进行融合操作,最终形成一个三流输入的识别网络模型,将特征融合之后的特征图经过3*3卷积,然后继续采用1*1卷积进行预测分类。
8.根据权利要求1所述的一种基于轮廓卷神经网络的视频动作识别方法,其特征在于,所述步骤(5)中,模型训练过程中采用Adam法优化,损失函数采用交叉熵损失函数。
CN202010433443.5A 2020-05-20 2020-05-20 基于轮廓卷积神经网络的视频动作识别方法 Active CN111639571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010433443.5A CN111639571B (zh) 2020-05-20 2020-05-20 基于轮廓卷积神经网络的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010433443.5A CN111639571B (zh) 2020-05-20 2020-05-20 基于轮廓卷积神经网络的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN111639571A true CN111639571A (zh) 2020-09-08
CN111639571B CN111639571B (zh) 2023-05-23

Family

ID=72332112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010433443.5A Active CN111639571B (zh) 2020-05-20 2020-05-20 基于轮廓卷积神经网络的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN111639571B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233181A (zh) * 2020-10-29 2021-01-15 深圳市广宁股份有限公司 6d位姿识别的方法、装置及计算机存储介质
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN113449637A (zh) * 2021-06-28 2021-09-28 桂林电子科技大学 毫米波雷达人体骨骼姿势估计方法和装置
CN114419558A (zh) * 2022-03-31 2022-04-29 华南理工大学 火灾视频图像识别方法、系统、计算机设备及存储介质
CN115239205A (zh) * 2022-09-19 2022-10-25 武汉纺友技术有限公司 一种基于大数据的智能生产方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110110812A (zh) * 2019-05-20 2019-08-09 江西理工大学 一种用于视频动作识别的串流深度网络模型
EP3547211A1 (en) * 2018-03-30 2019-10-02 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉系统的视频中人体动作识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
EP3547211A1 (en) * 2018-03-30 2019-10-02 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN110110812A (zh) * 2019-05-20 2019-08-09 江西理工大学 一种用于视频动作识别的串流深度网络模型
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉系统的视频中人体动作识别方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232165A (zh) * 2020-10-10 2021-01-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112232165B (zh) * 2020-10-10 2024-03-01 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN112233181A (zh) * 2020-10-29 2021-01-15 深圳市广宁股份有限公司 6d位姿识别的方法、装置及计算机存储介质
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN113449637A (zh) * 2021-06-28 2021-09-28 桂林电子科技大学 毫米波雷达人体骨骼姿势估计方法和装置
CN114419558A (zh) * 2022-03-31 2022-04-29 华南理工大学 火灾视频图像识别方法、系统、计算机设备及存储介质
CN115239205A (zh) * 2022-09-19 2022-10-25 武汉纺友技术有限公司 一种基于大数据的智能生产方法和装置

Also Published As

Publication number Publication date
CN111639571B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN108241849B (zh) 基于视频的人体交互动作识别方法
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN108734194B (zh) 一种面向虚拟现实的基于单深度图的人体关节点识别方法
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN114973112B (zh) 一种基于对抗学习网络的尺度自适应密集人群计数方法
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及系统
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
CN113763417A (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN116909393A (zh) 基于手势识别的虚拟现实输入系统
Ikram et al. Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture
Kale et al. Suspicious activity detection using transfer learning based resnet tracking from surveillance videos
Zhang et al. Video extrapolation in space and time
CN114973305A (zh) 一种针对拥挤人群的精确人体解析方法
CN110111358B (zh) 一种基于多层时序滤波的目标跟踪方法
CN114155273B (zh) 一种结合历史轨迹信息的视频图像单目标跟踪方法
Choudhary et al. An adaptive system of yogic gesture recognition for human computer interaction
Muhamad et al. A comparative study using improved LSTM/GRU for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant