CN110309732B - 基于骨架视频的行为识别方法 - Google Patents

基于骨架视频的行为识别方法 Download PDF

Info

Publication number
CN110309732B
CN110309732B CN201910511925.5A CN201910511925A CN110309732B CN 110309732 B CN110309732 B CN 110309732B CN 201910511925 A CN201910511925 A CN 201910511925A CN 110309732 B CN110309732 B CN 110309732B
Authority
CN
China
Prior art keywords
skeleton
video
joint point
skeleton joint
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910511925.5A
Other languages
English (en)
Other versions
CN110309732A (zh
Inventor
叶帆帆
唐慧明
陈明芽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayan Zhike Hangzhou Information Technology Co ltd
Zhejiang University ZJU
Original Assignee
Huayan Zhike Hangzhou Information Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayan Zhike Hangzhou Information Technology Co ltd, Zhejiang University ZJU filed Critical Huayan Zhike Hangzhou Information Technology Co ltd
Priority to CN201910511925.5A priority Critical patent/CN110309732B/zh
Publication of CN110309732A publication Critical patent/CN110309732A/zh
Application granted granted Critical
Publication of CN110309732B publication Critical patent/CN110309732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于骨架视频的行为识别方法,方法流程包括:通过对数据集中的每一段视频抽帧得到视频训练样本,并提取各帧的骨架关节点信息;根据骨架关节点物理连接关系初始化骨架关节点连接关系矩阵,以初步训练空间域图卷积神经网络;在空间域图卷积神经网络的参数固定之后,通过空间域图卷积神经网络训练骨架关节点关系推理网络,得到新的骨架关节点连接关系矩阵;通过新的骨架关节点连接关系矩阵更新空间域图卷积神经网络的参数;应用时,对待识视频抽帧和提取骨架关节点信息后送入骨架关节点关系推理网络得到骨架关节点连接关系矩阵,将抽帧后的视频和骨架关节点连接关系矩阵送入更新后的空间域图卷积神经网络,以得到行人行为类别。

Description

基于骨架视频的行为识别方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于骨架视频的行为识别方法。
背景技术
行为识别的目的是给出视频中目标的行为类别,是计算机视觉中一个非常重要的研究领域,随着关键点检测算法和深度相机的发展,基于骨架的行为识别方法已经被应用于诸多领域,比如监控场景的预警、人机交互、虚拟现实等。基于骨架的行为识别方法相较于基于RGB等其他模态的行为识别法来说,其能够更加鲁棒的提取人的身体形态和结构信息,同时基于骨架信息的行为识别法能够去除颜色和纹理特征的干扰,使得其在大多数行为类别上已经取得了很好的识别性能。
基于骨架信息的行为识别方法大体上可以分为两大类:基于深度学习的方法和基于手工设计特征的方法。这两类方法的目的都是去提取并融合视频片段中帧内的空间特征和帧间的时序特征,从而根据这些特征有效的识别出行为类别。一般来说,基于深度学习的方法的性能优于基于手工设计特征的方法的性能。
基于深度学习的方法大体上又可以分为三类,基于RNN(Recurrent NeuralNetwork)类的方法、基于CNN(Convolution Neural Network)类的方法和基于GCN(GraphConvolution Network)。RNN类的方法虽然能够描述和处理时间上的依赖性,但是RNN类的算法在训练和参数调优上比较困难。基于CNN的方法能够同时处理空间和时序上的特征信息,相比RNN类的方法能够达到较好的性能,但是CNN方法认为空间维度上骨架关节点的排列顺序是无关的,在处理时空特征时,实际上已经丢失了人体骨架关节点连接的拓扑结构信息,而这是非常重要的。基于GCN的方法考虑了骨架关节点的拓扑结构信息,但是这些拓扑结构信息都是人为提前定义好的,有时候这些拓扑结构信息并不能充分描述关节点之间的联系。比如,在一段“拍手”的视频中,虽然左右手之间没有直接相连的骨骼边,但是“拍手”这个动作中左右手这两个关节点之间的连接信息对行为识别来说更加关键。
发明内容
针对上述的问题,本发明提出了一种基于骨架视频的行为识别方法。该方法可以对不同的行为自动推理当前骨架关节点最优的连接关系,并加强具有判别性的连接信息,削弱冗余信息,并以此提高算法识别的性能,同时可以充分利用人体骨骼的拓扑关系,来提高识别的性能。
为了达到上述的目的,本发明的实施例提出了一种基于骨架视频的行为识别方法,该方法包含以下步骤:
A1.对训练数据集中的每一段视频抽帧得到视频训练样本,并提取各帧的骨架关节点信息,得到骨架视频训练样本;
A2.将建立的初始骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵,用视频训练样本对所述的空间域图卷积神经网络进行初步训练,得到空间域图卷积神经网络的参数,训练方式为以行为类别为标签的监督式训练;
A3.基于得到的空间域图卷积神经网络的参数确定的空间域图卷积神经网络,用所述骨架视频训练样本训练所述的骨架关节点关系推理网络,输出骨架关节点连接关系矩阵;
A4.用所得的骨架关节点连接关系矩阵训练所述的空间域图卷积神经网络,更新该空间域图卷积神经网络的参数;
A5.重复步骤A3和A4若干次;
所述行为识别方法还包括如下应用步骤:
B1.获取待识视频,对待识视频抽帧得到待识视频样本,并提取各帧的骨架关节点信息;
B2.将待识视频样本输入训练好的骨架关节点关系推理网络,得到对应待识视频样本的骨架关节点连接关系矩阵;
B3.将该骨架关节点连接关系矩阵和待识视频样本输入训练好的空间域图卷积神经网络,得到行人行为的类别。
进一步的,步骤A1和B1中,所述的骨架关节点信息包括N个关节点的2D或3D坐标,对视频抽帧得到视频训练样本或待识视频样本,提取各帧的骨架关节点信息进一步包括:
将视频中的每一帧内的骨架信息建模成一张图G(x,A),其中x∈RN×C,包含N个关节点的2D或3D坐标,A是所述的骨架关节点连接关系矩阵,大小为N×N;
步骤A2中,通过如下方式将建立的初始骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵:
Figure GDA0002902073190000031
其中α、β、γ为常数,优先的,设α≥β>γ≥0,如初始训练时将α、γ设为1,β设为0,能较快收敛。
进一步的,把骨架关节点集合划分成若干个骨架关节点子集合,对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系;,所述的空间域图卷积神经网络中的图卷积层的输出为:
Figure GDA0002902073190000032
其中Ak是描述第k个骨架关节点子集合连接关系的子矩阵,Λk用于对连接关系矩阵做对称归一化处理,其表达式为
Figure GDA0002902073190000033
W是空间维度上可学习的参数矩阵,k是划分子矩阵的数量,i和j表示不同的关节点的索引,分别对应矩阵的行和列。
进一步的,所述的空间域图卷积神经网络中还包括带通道交换机制的卷积层,用于将关节点维度和特征维度交换顺序。
进一步的,步骤A3中用所述骨架视频训练样本训练所述的骨架关节点关系推理网络,输出骨架关节点连接关系矩阵具体包括:
(1)首先通过多层感知机或者1D卷积神经网络对每个关节点的初始特征进行编码;
(2)将任意不同的两个关节点的特征进行拼接,得到连接任意两点的骨架关节边的特征,并用多层感知机或者1D卷积神经网络层对获得的骨架关节边的特征进行再一次的编码;
(3)将同一个点出发或者接收的所有骨架关节边特征进行求和,以此求和后的特征表示新的骨架关节点的隐含层特征;
(4)重复步骤(2)-(3)若干次后,根据每条关节边的特征给每条关节边一个分数,根据分数构建新的连接关系矩阵。
进一步地,在本发明的一个实施例中,所述图卷积参数固定之后,通过所述的空间域图卷积网络训练骨架关节点关系推理网络,以得到新的骨架关节点连接关系矩阵,进一步包括:
通过所述的空间域图卷积神经网络训练骨架关节点关系推理网络对当前骨架关节点和其他所有骨架关节点的相互作用关系进行编码,以得到新的骨架关节点连接关系矩阵,进一步包括:
所述的骨架关节点关系推理网络对所有的骨架关节点的时空特征进行编码,并推理当前关节点和其他所有关节点在时空维度上的交互紧密程度,推理过程包括若干次关节点和关节边的特征相互传递的过程,具体为:
Figure GDA0002902073190000041
Figure GDA0002902073190000042
Figure GDA0002902073190000051
Figure GDA0002902073190000052
其中所有的f均表示多层感知机或者1D卷积神经网络层,第一项femb表示将初始骨架关节点特征进行编码;第二项
Figure GDA0002902073190000053
表示组合任意两个关节点编码后的特征;第三项fsum表示将组合编码后的特征进行全局求和;第四项为第二项的重复。
Figure GDA0002902073190000054
表示骨架关节点编码后的特征向量,h1(i,j)表示当前骨架关节点i和其他骨架关节点j组成的边的特征向量。其中上标1、2表示特征传递为第1或2次。
进一步地,在本发明的一个实施例中,所述基于骨架视频的行为识别方法还包括:交替训练方法,训练样本先输入关节点关系推理网络输出关节点关系连接矩阵,训练样本结合得到的关节点关系连接矩阵输入图卷积神经网络生成行为预测结果,交替进行这两个步骤。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为根据本发明一个实施例的具体实施例的基于骨架视频的行为识别方法的结构图。
图2为根据本发明一个实施例的基于骨架视频的行为识别方法的训练过程的实施流程图。
图3为根据本发明一个实施例的基于骨架视频的行为识别方法的应用时的实施流程图。
图4为根据本发明一个实施例的骨架关节点关系推理网络的结构示意图。
图5为根据本发明一个实施例的通过骨架关系推理网络可以学习得到的关节点连接图的示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
在介绍基于骨架视频的行为识别方法之前,先简单介绍一下基于人体骨架的行为识别和关系推理学习。
基于人体骨架关节点的行为识别方法,是利用骨架关节点信息,包括关节点的坐标信息及其相互关联信息,进行行为识别。基于骨架关节点的图卷积网络方法是行为识别的一个研究方向,相关技术可参见相关文献。可用于实验训练与测试的样本数据量总和超过40万。其中比较主流的数据集有NTU-RGBD、SYSU-3、UT-Kinetic等。当然也可以通过算法或者深度相机去采集视频图像中人骨架关节点的坐标信息,比较主流的开源算法有OpenPose或AlphaPose等。
关系推理学习,旨在通过模型训练使得模型具有推测不同目标关系的能力。近年来很多研究工作者将关系学习和深度学习相结合提出了一些有应用价值的方法和方案,但是目前还未见有将其应用到行为识别上来。另外,目前基于空间域图卷积的算法或装置所利用的骨架关节点连接关系矩阵均是人工定义的。这种人为定义的连接关系不能很好地描述真实动作发生时的骨架关节点之间的拓扑结构信息。例如,在“拍手”的视频中,虽然左右手对应的骨架关节点之间没有直接相连的边,但是“拍手”这个动作中左右手这两个骨架关节点之间的连接信息对该行为的识别来说更加关键。学术界已见有一些方法被提出来解决这个问题,但衡量关节点之间关系的规则均为人工预定义,这些规则并不能完全描述骨架关节点在不同动作下的拓扑结构信息。同时,这些方法为所有的样本设计相同的关节点连接关系。由于相同个体做不同的动作和不同的个体做相同的动作时,关节点之间的时空变化十分不同,这样的设计是不合理的。
正是基于上述原因,本发明实施例提出一种基于骨架视频的行为识别方法。下面参照附图描述根据本发明提出的基于骨架视频的行为识别方法。
附图1是基于骨架视频的行为识别方法总体结构的一个实施例。其中包含空间域图卷积神经网络,和一个骨架关节点关系推理网络,通过训练确定骨架关节点关系推理网络参数,得到骨架关节点连接关系矩阵,该骨架关节点连接关系矩阵输入所述的空间域图卷积神经网络,实现基于骨架视频的行为识别。
其中基于视频的骨架关节点样本,即骨架视频样本,包含多帧图像的骨架关节点信息,输入骨架关节点关系推理网络和图卷积神经网络,骨架关节点关系推理网络输出的关节点连接关系矩阵,作用于空间域图卷积神经网络,图卷积神经网络根据关节点连接关系矩阵和输入的骨架视频样本输出行为识别结果。
对于待识视频,首先获取视频中各帧的骨架关节点信息,形成骨架视频样本。
初始化骨架关节点连接关系矩阵和图卷积神经网络后,采用交替迭代方式对该网络进行训练:用骨架视频样本和关节点关系推理网络输出的骨架关节点连接关系矩阵训练图卷积神经网络,根据训练后的图卷积神经网络训练骨架关节点关系推理网络。
应用时,先将骨架视频样本输入骨架关节点关系推理网络得到骨架关节点连接关系矩阵,然后将连接关系矩阵和视频样本输入图卷积神经网络得到行为类别。
附图2是基于骨架视频的行为识别方法的训练步骤的一个实施例。下面详细介绍这些步骤:
步骤S201,对数据集中的每一段视频抽帧得到视频训练样本,并提取各帧的骨架关节点信息,得到骨架视频。其中从原始视频图像数据中提取关节点信息包括人体关节点的2D或3D坐标、关节点类别等信息。具体方法可采用卷积网络或传统图像处理方法提取关节点信息,也可采用开源算法OpenPose或AlphaPose提取关节点坐标信息。另外也可以直接通过深度相机直接获取骨架视频以及视频中人的骨架坐标信息。
训练时,本实施例抽取数据集中每个视频样本的TN帧构成视频训练样本,本实施例中TN等于64。具体的步骤为:1.训练时,首先生成范围在0.5-1的随机数p。2.若视频样本的帧数为fN则先初步截取视频样本连续的p*fN帧构成视频帧序列。3.若p*fN大于TN则再将p*fN帧序列均匀降采样成TN帧,若p*fN小于TN,则通过线性插值的方式将p*fN帧序列插值成TN帧。
除了上述的抽帧方式以外,还可以采用基于统计的关键帧抽取方式。具体的步骤为:1.统计视频样本中骨架关节点的中心坐标(即骨架关节点三维坐标的平均值)。2.对每个关节点计算T帧范围内中心坐标的平均值Ci(i=0,1,2…,N-1)。3.计算每帧图像中的各个骨架关节点中心坐标和其对应关节点中心坐标平均值的差值ΔCi(i=0,1,2…,N-1)。4.在T帧范围内对坐标差值ΔCi进行降序排序,选择前TN帧符合条件的帧图像构成视频帧序列作为训练样本,这里的条件指这里的条件指降序后的前TN帧相邻帧之间的时间差不能大于指定的值,如5帧。
除了上述抽帧的方式以外,还可以采用微调贪心的方式进行抽帧。具体步骤为:1.首先通过对输入视频均匀抽取T1帧构成视频帧序列,在T1帧内均匀布置TN个锚点。2.这些锚点可以向左向右进行移动,选择性能最佳的抽帧方式。
步骤S202,将骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵,用视频训练样本对所述的空间域图卷积网络进行初步训练,得到空间域图卷积网络参数,训练方式为以行为类别为标签的监督式训练。具体为:
将视频中的每一帧内的骨架信息建模成一张图G(x,A),其中x∈RN×C,包含N个关节点的2D或3D坐标,A是所述的骨架关节点连接关系矩阵,大小为N×N。将骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵:
Figure GDA0002902073190000091
其中α、β、γ为常数,可初始化为其它任意大于零的常数,可初始化为随机值或指定值。为加快收敛速度,这里取α≥β>γ≥0,如将α、γ设为1,β设为0。
然后,将每一帧的骨架关节点坐标信息和所构建的骨架关节点物理连接矩阵送入空间域图卷积网络的图卷积层,用视频训练样本对所述的空间域图卷积网络进行初步训练,得到空间域图卷积网络参数,训练方式为以行为类别为标签的监督式训练。
具体地,先将骨架关节点集合划分成若干个骨架关节点子集合,对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系,图卷积操作按照如下公式进行计算:
Figure GDA0002902073190000092
其中Ak是描述第k个骨架关节点子集合连接关系的子矩阵,本实施例中骨架关节点子集合的划分是根据任意两个关节点距离骨架重心的距离远近进行划分的。本实施例将划分骨架关节点子集合的数量K确定为3。具体地,若两个关节点中的第一个关节点和骨架重心的距离大于第二个关节点与骨架重心的距离则将这两个点划分到集合1,同理若上述的距离相等则将这两个点划分到集合2,其他情况将对应的两个点划分到集合3。这里的骨架重心是指骨架中所有关节点坐标的平均或加权平均。
Figure GDA0002902073190000101
用于对连接关系矩阵做对称归一化处理,其中
Figure GDA0002902073190000102
第k个子矩阵的度矩阵的对角线元素。W是空间维度上可学习的参数矩阵。i和j表示不同的关节点的索引,分别对应矩阵的行和列。
本实施例设计与关节点无关的1D卷积核来聚合时间维度上的特征,卷积核大小表示为T×1,为了尽可能在较浅的网络中得到更大的时间维度的感受野,本实施例中T设置为7。在图卷积操作提取每帧骨架视频的空间特征之后,也可以用基于RNN/LSTM的算法来聚合骨架视频时间维度上的特征。若采用RNN/LSTM的算法聚合时间维度上的特征,此类算法的结构需要为多输入多输出的结构。
一次空间图卷积和一次时间卷积构成一次时空图卷积,最终构建包含10次时空图卷积操作的空间域图卷积神经网络,并进行以行为类别为标签的监督式训练。
步骤S203,基于所得的空间域图卷积神经网络的参数确定的空间域图卷积网络,用骨架视频训练样本训练所述的骨架关节点关系推理网络,输出骨架关节点连接关系矩阵。附图4是骨架关节点关系推理网络的一个实施例。下面介绍具体操作。
本发明设计的关节点关系推理网络最终采用的2次关节点到关节边和关节边到关节点的特征传递过程。这里的特征传递次数可以根据训练数据集的关节点采点数量的不同做适当的调整。2次特征传递之后,以新输出的特征推理当前骨架关节点和其他所有骨架关节点在时空维度上的交互紧密程度,具体为:
Figure GDA0002902073190000111
Figure GDA0002902073190000112
Figure GDA0002902073190000113
Figure GDA0002902073190000114
其中所有的f均表示多层感知机或者1D卷积神经网络层,第一项femb表示将初始骨架关节点特征进行编码;第二项
Figure GDA0002902073190000115
定示组合任意两个关节点编码后的特征;第三项fsum表示将组合编码后的特征进行全局求和;第四项为第二项的重复。
Figure GDA0002902073190000116
表示骨架关节点编码后的特征向量,h1(i,j)表示当前骨架关节点i和其他骨架关节点j组成的边的特征向量。其中上标1、2表示特征传递为第1或2次。
其中,
Figure GDA0002902073190000117
初始坐标信息,通过多层感知机或者1D卷积神经网络层编码每个关节点的初始特征,即
Figure GDA0002902073190000118
进一步地,得到关节点的初始特征之后,将当前关节点的特征和其他所有关节点的特征进行拼接,并再次利用多层感知机或者1D卷积的方式进一步聚合边的信息得到表示当前连接该两个关节点的骨骼边的特征,即
Figure GDA0002902073190000119
得到所有骨骼边的特征信息之后,进一步通过对组合编码后的特征进行全局求和来聚合所有边的特征即
Figure GDA00029020731900001110
然后继续通过拼接的方式得到边的特征信息,即
Figure GDA00029020731900001111
最后重复上述的操作若干次,本发明采用了2次重复的方式,值得说明的是本领域技术人员可以对该重复次数进行更换,重复次数的选定可以根据计算机硬件的计算能力和对最终的准确率影响等因素进行选择。重复次数可以根据实际的训练情况确定,如当提高重复次数预测的性能得不到0.3%的提高或者对性能起反向作用则可以停止提高重复次数。这些次数更换之后的技术方案都将落入本发明的保护范围之内。
得到所有边的信息之后,本发明的实施例结合每条边的特征用Sigmoid函数给每条边一个分数,然后将所有边组合成新的骨架关节点连接关系矩阵,即Aij=sigmoid(fc(h2(i,j)))。
步骤S204,用所得的骨架关节点连接关系矩阵训练所述的空间域图卷积神经网络,更新该空间域图卷积神经网络的参数,具体为利用步骤S203中得到的新的骨架关节点连接关系矩阵,固定所述的骨架关节点关系推理网络的参数,以步骤S201的方式重新训练空间域的图卷积网络,从而更新所述的空间域图卷积网络参数。
步骤S205,重复步骤S203和步骤S204若干次。本实施例采用2次交替训练,即能得到较为理想的效果。交替训练的次数可以根据实际情况进行替换,替换的原则为增加交替训练的次数后总体识别准确率增幅小于一个指定值,如0.3%,即不需要再增加。
附图3是基于骨架视频的行为识别方法的应用步骤的一个实施例。
步骤S301获取待识视频,提取各帧的骨架关节点信息,对待识视频抽帧得到待识视频样本。其中获取骨架关节点坐标信息的方式和步骤S201一样。应用时,首先要在长视频中抽取包含完整动作的视频片段,然后按照步骤S201的方式再对得到的视频片段抽帧得到固定帧数的视频帧序列作为应用时的待识别输入样本。
本实施例中,对长视频中抽取包含较完整动作的视频片段的步骤具体为:1.设置10个时间窗口W1~W10,时间窗口长度分别为30,60,90,120,150,180,210,240,270,300。2.在输入的长视频中每隔10帧设置起始帧位置,以每个起始帧位置为起点,分别截取这10个时间窗长度的视频短片段,记为V1~V10。3.应用现有的一些开源算法对10个时间窗长度的视频短片段进行是否包含行为的判断,若包含行为则进入步骤4,若不包含则舍弃该短视频片段。4.对包含完整行为的视频短片段以步骤S201的方式进行抽帧,抽帧后得到帧数相同的待识别视频样本。5.对长视频持续进行步骤1-5的操作。步骤S302,将待识视频样本输入所述的训练好的骨架关节点关系推理网络,得到对应待识视频样本的骨架关节点连接关系矩阵。具体为将所述的经过抽帧的视频输入到训练之后的骨架关节点关系推理网络中,得到当前行为最优的骨架关节点连接关系矩阵。
步骤S303,将该骨架关节点连接关系矩阵和待识视频样本输入训练好的空间域图卷积神经网络,得到行为的类别。即从步骤S302中得到当前行为下的骨架关节点连接关系矩阵之后,结合输入视频送入更新参数后的空间域图卷积神经网络进行计算得到最终的行为类别。
附图5是根据本发明一个实施例的通过骨架关系推理网络可以学习得到的关节点连接图的示意图。连接关系矩阵中的任意元素的值代表对应两个骨架关节点的连接紧密程度,可以用图的形式刻画各骨架关节点之间的关系,如果只保留连接关系矩阵中值大于指定阈值的边,则可以画出的附图5所示的骨架关节点连接图,本例指定的阈值为0.05。
本发明可以加强空间上骨架关节点之间的有效连接关系,削弱无效的连接关系,去除冗余信息,提高识别的性能,以此充分利用人体骨骼的拓扑关系,来提高识别的性能。实验证明,采用了骨架关节点关系推理网络之后,图卷积神经网络算法NTU-RGB+D数据集的CS基准下性能至少提高4.5%。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (5)

1.一种基于骨架视频的行为识别方法,包含空间域图卷积神经网络,其特征在于还包括一个骨架关节点关系推理网络,通过训练确定骨架关节点关系推理网络参数,得到骨架关节点连接关系矩阵,该骨架关节点连接关系矩阵输入所述空间域图卷积神经网络,实现基于骨架视频的行为识别,具体包括如下训练步骤:
A1.对训练数据集中的每一段视频抽帧得到视频训练样本,并提取各帧的骨架关节点信息,得到骨架视频训练样本;
A2.用所述骨架视频训练样本对所述空间域图卷积神经网络进行初步训练,得到空间域图卷积神经网络的参数,训练方式为以行为类别为标签的监督式训练;
A3.基于得到的空间域图卷积神经网络的参数确定的空间域图卷积神经网络,用所述骨架视频训练样本训练所述骨架关节点关系推理网络,输出骨架关节点连接关系矩阵;
A4.用所得的骨架关节点连接关系矩阵训练所述空间域图卷积神经网络,更新该空间域图卷积神经网络的参数;
A5.重复步骤A3和A4若干次;
所述行为识别方法还包括如下应用步骤:
B1.获取待识别视频,对待识别视频抽帧得到待识别视频样本,并提取各帧的骨架关节点信息;
B2.将待识别视频样本输入训练好的骨架关节点关系推理网络,得到对应待识别视频样本的骨架关节点连接关系矩阵;
B3.将该骨架关节点连接关系矩阵和待识别视频样本输入训练好的空间域图卷积神经网络,得到行人行为的类别。
2.根据权利要求1所述的基于骨架视频的行为识别方法,其特征在于,步骤A1和B1中,所述骨架关节点信息包括N个关节点的2D或3D坐标,对视频抽帧得到视频训练样本或待识别视频样本,提取各帧的骨架关节点信息进一步包括:
将视频中的每一帧内的骨架信息建模成一张图G(x,A),其中x∈RN×C,包含N个关节点的2D或3D坐标,A是所述骨架关节点连接关系矩阵,大小为N×N;
步骤A2中,通过如下方式将建立的初始骨架关节点连接关系矩阵初始化为骨架关节点物理连接关系矩阵:
Figure FDA0002902073180000021
其中α、β、γ为常数,α≥β>γ≥0。
3.根据权利要求2所述的基于骨架视频的行为识别方法,其特征在于把骨架关节点集合划分成若干个骨架关节点子集合,对每个骨架关节点子集合分别用不同骨架关节点连接关系矩阵描述其连接关系;所述空间域图卷积神经网络中的图卷积层的输出为:
Figure FDA0002902073180000022
其中Ak是描述第k个骨架关节点子集合连接关系的子矩阵,Λk用于对连接关系矩阵做对称归一化处理,其表达式为
Figure FDA0002902073180000023
W是空间维度上可学习的参数矩阵,k是划分子矩阵的数量,i和j表示不同的关节点的索引,分别对应矩阵的行和列。
4.根据权利要求1所述的基于骨架视频的行为识别方法,其特征在于所述空间域图卷积神经网络中还包括带通道交换机制的卷积层,用于将关节点维度和特征维度交换顺序。
5.根据权利要求1所述的基于骨架视频的行为识别方法,其特征在于步骤A3中用所述骨架视频训练样本训练所述骨架关节点关系推理网络,输出骨架关节点连接关系矩阵具体包括:
(1)首先通过多层感知机或者1D卷积神经网络对每个关节点的初始特征进行编码;
(2)将任意不同的两个关节点的特征进行拼接,得到连接任意两点的骨架关节边的特征,并用多层感知机或者1D卷积神经网络层对获得的骨架关节边的特征进行再一次的编码;
(3)将同一个点出发和接收的所有骨架关节边特征进行求和,以此求和后的特征表示新的骨架关节点的隐含层特征;
(4)重复步骤(2)-(3)若干次后,根据每条关节边的特征给每条关节边一个分数,根据分数构建新的连接关系矩阵。
CN201910511925.5A 2019-06-13 2019-06-13 基于骨架视频的行为识别方法 Active CN110309732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910511925.5A CN110309732B (zh) 2019-06-13 2019-06-13 基于骨架视频的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910511925.5A CN110309732B (zh) 2019-06-13 2019-06-13 基于骨架视频的行为识别方法

Publications (2)

Publication Number Publication Date
CN110309732A CN110309732A (zh) 2019-10-08
CN110309732B true CN110309732B (zh) 2021-04-06

Family

ID=68075907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910511925.5A Active CN110309732B (zh) 2019-06-13 2019-06-13 基于骨架视频的行为识别方法

Country Status (1)

Country Link
CN (1) CN110309732B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765967B (zh) * 2019-10-30 2022-04-22 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN111027610B (zh) * 2019-12-03 2022-02-25 腾讯医疗健康(深圳)有限公司 图像特征融合方法、设备和介质
CN113255408B (zh) * 2020-02-11 2024-03-29 深圳绿米联创科技有限公司 行为识别方法、装置、电子设备及存储介质
CN111461181B (zh) * 2020-03-16 2021-09-07 北京邮电大学 一种车辆细粒度分类方法及装置
CN111460960A (zh) * 2020-03-27 2020-07-28 重庆电政信息科技有限公司 一种运动分类及计数方法
CN111461063B (zh) * 2020-04-24 2022-05-17 武汉大学 一种基于图卷积和胶囊神经网络的行为识别方法
CN112347964B (zh) * 2020-11-16 2023-03-24 复旦大学 一种基于图网络的行为检测方法及装置
CN112287891B (zh) * 2020-11-23 2022-06-10 福州大学 基于表情行为特征提取的通过视频评估学习专注力的方法
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
CN112711032B (zh) * 2020-12-07 2022-05-13 中国人民解放军海军航空大学 一种基于图数据和gcn的雷达目标检测方法及系统
CN113269103B (zh) * 2021-05-28 2022-08-19 山东大学 基于空间图卷积网络的异常行为检测方法、系统、存储介质和设备
CN113255556A (zh) * 2021-06-07 2021-08-13 斑马网络技术有限公司 多模态语音端点检测方法及装置、车载终端、存储介质
CN113298015B (zh) * 2021-06-10 2022-09-06 中国科学技术大学 基于图卷积网络的视频人物社交关系图生成方法
CN113642400A (zh) * 2021-07-12 2021-11-12 东北大学 基于2s-agcn的图卷积动作识别方法、装置及设备
CN113673494B (zh) * 2021-10-25 2022-03-08 青岛根尖智能科技有限公司 人体姿态标准运动行为匹配方法及系统
CN115035596B (zh) * 2022-06-05 2023-09-08 东北石油大学 行为检测的方法及装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732208A (zh) * 2015-03-16 2015-06-24 电子科技大学 基于稀疏子空间聚类的视频人体行为识别方法
CN106203363A (zh) * 2016-07-15 2016-12-07 中国科学院自动化研究所 人体骨架运动序列行为识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289936B2 (en) * 2016-11-08 2019-05-14 Nec Corporation Surveillance system with landmark localization on objects in images using convolutional neural networks
CN108304795B (zh) * 2018-01-29 2020-05-12 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN109871750B (zh) * 2019-01-02 2023-08-18 东南大学 一种基于骨架图序列异常关节修复的步态识别方法
CN109858390B (zh) * 2019-01-10 2020-11-24 浙江大学 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN109858406B (zh) * 2019-01-17 2023-04-07 西北大学 一种基于关节点信息的关键帧提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732208A (zh) * 2015-03-16 2015-06-24 电子科技大学 基于稀疏子空间聚类的视频人体行为识别方法
CN106203363A (zh) * 2016-07-15 2016-12-07 中国科学院自动化研究所 人体骨架运动序列行为识别方法

Also Published As

Publication number Publication date
CN110309732A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309732B (zh) 基于骨架视频的行为识别方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN104954791B (zh) 矿井无线分布式视频编码中的关键帧实时选取方法
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
Cherabier et al. Learning priors for semantic 3d reconstruction
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112766172B (zh) 一种基于时序注意力机制的人脸连续表情识别方法
CN110929092A (zh) 一种基于动态注意力机制的多事件视频描述方法
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN111626141B (zh) 基于生成图像的人群计数模型建立方法、计数方法及系统
CN110599443A (zh) 一种使用双向长短期记忆网络的视觉显著性检测方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN113239897B (zh) 基于时空特征组合回归的人体动作评价方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN116309725A (zh) 基于多尺度可形变注意力机制的多目标跟踪方法
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN112307883A (zh) 训练方法、装置、电子设备以及计算机可读存储介质
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN113807356A (zh) 一种端到端的低能见度图像语义分割方法
CN112651360A (zh) 一种小样本下骨架动作识别方法
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN114170353B (zh) 一种基于神经网络的多条件控制的舞蹈生成方法及系统
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310058 Xihu District, Zhejiang, Yuhang Tong Road, No. 866, No.

Applicant after: ZHEJIANG University

Applicant after: Huayan Zhike (Hangzhou) Information Technology Co., Ltd

Address before: 310058 Xihu District, Zhejiang, Yuhang Tong Road, No. 866, No.

Applicant before: ZHEJIANG University

Applicant before: HANGZHOU WHAYER YUNTAI INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant