CN115830707A - 一种基于超图学习的多视角人体行为识别方法 - Google Patents

一种基于超图学习的多视角人体行为识别方法 Download PDF

Info

Publication number
CN115830707A
CN115830707A CN202211440742.7A CN202211440742A CN115830707A CN 115830707 A CN115830707 A CN 115830707A CN 202211440742 A CN202211440742 A CN 202211440742A CN 115830707 A CN115830707 A CN 115830707A
Authority
CN
China
Prior art keywords
hypergraph
spatial
matrix
time
nth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211440742.7A
Other languages
English (en)
Inventor
马楠
汪成
梁晔
吴祉璇
陈小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202211440742.7A priority Critical patent/CN115830707A/zh
Publication of CN115830707A publication Critical patent/CN115830707A/zh
Priority to US18/388,868 priority patent/US20240177525A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,还包括以下步骤:对所述视频数据进行预处理;根据关节点信息构建空间超图;根据关节点信息构建时间超图;使用超图神经网络对所述空间超图和所述时间超图进行特征学习;提取超图所表示的高阶信息,进行人体动作的行为识别。本发明通过对相同时刻不同视角下的人体骨骼点构建空间超图,以捕获多个身体骨骼点之间的空间依赖关系;通过对相同视角不同帧下的人体骨骼点构建时间超图,更好地获取特定关节点不同视角下特征之间的时间相关性,从而根据空间超图和时间超图构建的特征进行时空超图神经网络进行学习,最终实现基于超图学习的多视角人体行为识别。

Description

一种基于超图学习的多视角人体行为识别方法
技术领域
本发明涉及图像处理的技术领域,特别是一种基于超图学习的多视角人体行为识别方法。
背景技术
行为识别是计算机视觉的代表性任务之一,精准感知和识别人体行为是智能交互和人机协作的重要前提,近年已成为广为关注的研究领域,例如在行为分析、智能驾驶、医疗控制等应用领域,对肢体语言交互的研究具有重要意义。随着人体关节点检测效果不断提升,已将其用于行为识别。然而,目前的方法仍然存在缺乏对于时序建模、关节特征高阶语义描述欠缺等问题。
为了挖掘视频序列中多个特征之间的时序关系,传统的方法使用循环神经网络构建长期关联,可以通过使用全局上下文存储单元关注每一帧中的信息节点,获得更多的行为特征。还有一些方法旨在利用注意力机制聚合时空图像区域的特征,有效地去除噪声等影响,提高识别准确率。然而,这些方法仍然不能有效地建模关键区域的复杂相关性,这是行为识别任务的重大挑战。基于多视角时序的行为识别旨在采用多视数据,通过建模时序信息,以更好地解决复杂场景下由于其角度、光照、遮挡等因素造成的信息欠定等问题,从而增强特征信息。
2014年3月18日的道客巴巴上公开了一篇题目为《一种基于超图聚类的人体行为识别算法研究》的北京大学硕士论文,该论文的目标是从包含人体行为的视频识别出人体行为,详细研究了基于局部特征的人体行为识别方法,提出类一种基于超图聚类的人体行为识别算法,首先,分析比较了提取视频中人体行为的局部特征与进行特征描述的方法,致力于研究构建关于这些特征的字典,用字典中的单词有效进行视频表示,最后使用分类器对视频进行分类,从而完成人体行为识别的任务。该方法的缺点是在复杂场景下遇到光照、遮挡、高动态、位置角度等问题时,行为识别的准确度较低。
发明内容
为了解决上述的技术问题,本发明提出了一种基于超图学习的多视角人体行为识别方法,面向复杂场景下的行为,构建空间超图是通过对相同时刻不同视角下的人体骨骼点构建多超图,以捕获多个身体骨骼点之间的空间依赖关系;构建时间超图是通过对相同视角不同帧下的人体骨骼点进行多超图构建,更好地获取特定关节点不同视角下特征之间的时间相关性,从而根据空间超图和时间超图构建的特征进行时空超图神经网络进行学习,最终实现基于超图学习的多视角人体行为识别。
本发明提供一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,还包括以下步骤:
步骤1:对所述视频数据进行预处理;
步骤2:根据关节点信息构建空间超图;
步骤3:根据关节点信息构建时间超图;
步骤4:使用超图神经网络对所述空间超图和所述时间超图进行特征学习;
步骤5:提取超图所表示的高阶信息,进行人体动作的行为识别。
优选的是,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
在上述任一方案中优选的是,所述空间超图是指以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,构建的一个按照肢体构图策略空间超图
Figure BDA0003948119120000021
实现关节点空间信息聚合,其中,
Figure BDA0003948119120000022
表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。
在上述任一方案中优选的是,所述空间超图的构建方法包括以下子步骤:
步骤21:将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标;
步骤22:生成第n个空间超图
Figure BDA0003948119120000031
步骤23:根据顶点集和超边集构造关联矩阵;
步骤24:计算第n个空间超图中顶点的度
Figure BDA0003948119120000032
和第n个空间超图中的度
Figure BDA0003948119120000033
其中,
Figure BDA0003948119120000034
表示计算第n个空间超图中顶点度的函数,
Figure BDA0003948119120000035
表示计算第n个空间超图中超边度的函数,
Figure BDA0003948119120000036
表示第p个视角第n帧中第i个关节点,
Figure BDA0003948119120000037
表示第n个空间超图中的第m个超边;
步骤25:利用高阶信息对网络进行优化,关联矩阵
Figure BDA0003948119120000038
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA0003948119120000039
在上述任一方案中优选的是,所述第n个空间超图
Figure BDA00039481191200000310
的计算公式为
Figure BDA00039481191200000311
其中,
Figure BDA00039481191200000312
表示第n个空间超图的顶点集,
Figure BDA00039481191200000313
表示第n个空间超图的超边集,
Figure BDA00039481191200000314
表示第n个空间超图中每个超边的权重,n=1,2,…,N。
在上述任一方案中优选的是,所述步骤23包括第n个空间超图的关联矩阵
Figure BDA00039481191200000315
表示第n个空间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0。
在上述任一方案中优选的是,每个空间超图的关联矩阵定义为:
Figure BDA00039481191200000316
其中,
Figure BDA00039481191200000317
表示第p个视角第n帧中第i个关节点,
Figure BDA00039481191200000318
表示第n个空间超图中的第m个超边,其中m=1,2,…,M,M表示一个空间超图中超边的数量。
在上述任一方案中优选的是,所述步骤24包括计算第n个空间超图中顶点
Figure BDA0003948119120000041
的度
Figure BDA0003948119120000042
计算公式为:
Figure BDA0003948119120000043
其中,
Figure BDA0003948119120000044
是超边
Figure BDA0003948119120000045
的权重向量。
在上述任一方案中优选的是,所述步骤24还包括计算第n个空间超图中超边
Figure BDA0003948119120000046
的度
Figure BDA0003948119120000047
计算公式为:
Figure BDA0003948119120000048
Figure BDA0003948119120000049
Figure BDA00039481191200000410
分别表示第n个空间超图中超边度和顶点度的对角矩阵。
在上述任一方案中优选的是,所述拉普拉斯矩阵
Figure BDA00039481191200000411
的计算公式为
Figure BDA00039481191200000412
其中,
Figure BDA00039481191200000413
表示第n个空间超图中顶点度构成的对角矩阵的逆开二次方根,
Figure BDA00039481191200000414
表示第n个空间超图中超边度构成的对角矩阵的逆。
在上述任一方案中优选的是,所述时间超图是指以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构建的一个超图
Figure BDA00039481191200000415
其中
Figure BDA00039481191200000418
表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。
在上述任一方案中优选的是,所述时间超图的构建方法包括以下子步骤:
步骤31:将每个时间超图的初始顶点特征初始化为特征矩阵Xp,矩阵的每一行为人体关节点的坐标;
步骤32:通过P个视角生成多超图
Figure BDA00039481191200000416
步骤33:根据顶点集和超边集构造关联矩阵;
步骤34:计算第p个视角的时间超图中顶点的度
Figure BDA00039481191200000417
和第p个视角时间超图中超边的度
Figure BDA0003948119120000051
步骤35:利用高阶信息对网络进行优化,关联矩阵
Figure BDA0003948119120000052
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA0003948119120000053
在上述任一方案中优选的是,所述步骤33包括第p个时间超图的关联矩阵
Figure BDA0003948119120000054
表示第p个时间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0。
在上述任一方案中优选的是,每个所述时间超图的关联矩阵定义为:
Figure BDA0003948119120000055
其中,
Figure BDA0003948119120000056
表示第p个时间超图中的第q个超边,q=1,2,…,Q,Q表示一个时间超图中超边的数量,总共有P个时间超图关联矩阵。
在上述任一方案中优选的是,所述第p个视角的时间超图中顶点
Figure BDA0003948119120000057
的度
Figure BDA0003948119120000058
计算公式为:
Figure BDA0003948119120000059
其中,
Figure BDA00039481191200000510
是超边
Figure BDA00039481191200000511
的权重向量。
在上述任一方案中优选的是,所述第p个视角时间超图中超边
Figure BDA00039481191200000512
的度
Figure BDA00039481191200000513
计算公式为:
Figure BDA00039481191200000514
其中,
Figure BDA00039481191200000515
Figure BDA00039481191200000516
分别表示第p个时间超图中超边度和顶点度的对角矩阵。
在上述任一方案中优选的是,所述拉普拉斯矩阵
Figure BDA00039481191200000517
的计算公式为:
Figure BDA00039481191200000518
其中,
Figure BDA00039481191200000519
表示第p个时间超图中顶点度构成的对角矩阵的逆开二次方根,
Figure BDA0003948119120000061
表示第p个时间超图中超边度构成的对角矩阵的逆。
在上述任一方案中优选的是,所述超图神经网络包括空间超图神经网络和时间超图神经网络。
在上述任一方案中优选的是,所述空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层。
在上述任一方案中优选的是,所述空间超图神经网络的构建方法包括以下子步骤:
步骤401:将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练;
步骤402:通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵
Figure BDA0003948119120000062
另一个超图基本块在此处相加的是自连接矩阵I;
步骤403:将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
在上述任一方案中优选的是,所述时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。
在上述任一方案中优选的是,所述时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。
在上述任一方案中优选的是,所述时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与所述时间超图基本块1相同。
在上述任一方案中优选的是,所述步骤5包括以下子步骤:
步骤51:对所述空间超图神经网络进行训练,得到空间超图特征;
步骤52:对所述时间超图神经网络进行训练,得到时间超图特征;
步骤53:将所述空间超图特征和所述时间超图特征进行融合;
步骤54:通过Softmax计算行为预测概率值;
步骤55:提取概率值最大的对应行为动作类别作为预测类别。
在上述任一方案中优选的是,所述步骤51包括将初始化为特征矩阵Xn、拉普拉斯矩阵
Figure BDA0003948119120000071
自连接矩阵I作为空间超图神经网络的输入,fspatial为空间超图神经网络的输出,表示空间超图特征。
在上述任一方案中优选的是,将初始化为特征矩阵Xp、拉普拉斯矩阵
Figure BDA0003948119120000072
作为时间超图神经网络的输入,其中,
Figure BDA0003948119120000073
仅输入时间超图基本块的第五个分支,ftemporal为时间超图神经网络的输出,表示时间超图特征。
本发明提出了一种基于超图学习的多视角人体行为识别方法,解决了复杂场景中如物体遮挡、光照不足、人体关节点关联弱等情况而造成行为识别精确度低等问题,具有高效、可靠的优点。
附图说明
图1为按照本发明的基于超图学习的多视角人体行为识别方法的一优选实施例的流程图。
图2为按照本发明的基于超图学习的多视角人体行为识别方法的另一优选实施例的流程图。
图3为按照本发明的基于超图学习的多视角人体行为识别方法的空间超图构建过程的一实施例的示意图。
图4为按照本发明的基于超图学习的多视角人体行为识别方法的时间超图构建过程的一实施例的示意图。
图5为按照本发明的基于超图学习的多视角人体行为识别方法的超图与关联矩阵的变换过程的一实施例的示意图。
图6为按照本发明的基于超图学习的多视角人体行为识别方法的空间超图神经网络的一实施例的结构示意图。
图7为按照本发明的基于超图学习的多视角人体行为识别方法的时间超图神经网络的一实施例的结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,从P个视角获取视频数据。
执行步骤110,对所述视频数据进行预处理,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
执行步骤120,根据关节点信息构建空间超图,所述空间超图是指以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,构建的一个按照肢体构图策略空间超图
Figure BDA0003948119120000081
实现关节点空间信息聚合,其中,
Figure BDA0003948119120000082
表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。所述空间超图的构建方法包括以下子步骤:
执行步骤121,将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标;
执行步骤122,生成第n个空间超图
Figure BDA0003948119120000083
计算公式为
Figure BDA0003948119120000084
其中,
Figure BDA0003948119120000091
表示第n个空间超图的顶点集,
Figure BDA0003948119120000092
表示第n个空间超图的超边集,
Figure BDA0003948119120000093
表示第n个空间超图中每个超边的权重,n=1,2,…,N。
执行步骤123,根据顶点集和超边集构造关联矩阵,第n个空间超图的关联矩阵
Figure BDA0003948119120000094
表示第n个空间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0,每个空间超图的关联矩阵定义为:
Figure BDA0003948119120000095
其中,
Figure BDA0003948119120000096
表示第p个视角第n帧中第i个关节点,
Figure BDA0003948119120000097
表示第n个空间超图中的第m个超边,其中m=1,2,…,M,M表示一个空间超图中超边的数量。
执行步骤124,计算第n个空间超图中顶点的度
Figure BDA0003948119120000098
和第n个空间超图中的度
Figure BDA0003948119120000099
第n个空间超图中顶点
Figure BDA00039481191200000910
的度
Figure BDA00039481191200000911
计算公式为:
Figure BDA00039481191200000912
其中,
Figure BDA00039481191200000913
表示计算第n个空间超图中顶点度的函数,
Figure BDA00039481191200000914
表示计算第n个空间超图中超边度的函数,
Figure BDA00039481191200000915
是超边
Figure BDA00039481191200000916
的权重向量。
第n个空间超图中超边
Figure BDA00039481191200000917
的度
Figure BDA00039481191200000918
计算公式为:
Figure BDA00039481191200000919
其中,
Figure BDA00039481191200000920
Figure BDA00039481191200000921
分别表示第n个空间超图中超边度和顶点度的对角矩阵。
步骤125:利用高阶信息对网络进行优化,关联矩阵
Figure BDA00039481191200000922
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA00039481191200000923
计算公式为
Figure BDA00039481191200000924
其中,
Figure BDA0003948119120000101
表示第n个空间超图中顶点度构成的对角矩阵的逆开二次方根,
Figure BDA0003948119120000102
表示第n个空间超图中超边度构成的对角矩阵的逆。
执行步骤130,根据关节点信息构建时间超图,所述时间超图是指以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构建的一个超图
Figure BDA0003948119120000103
其中
Figure BDA0003948119120000104
表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。所述时间超图的构建方法包括以下子步骤:
执行步骤131,将每个时间超图的初始顶点特征初始化为特征矩阵Xp,矩阵的每一行为人体关节点的坐标;
执行步骤132,通过P个视角生成多超图
Figure BDA0003948119120000105
Figure BDA0003948119120000106
其中,
Figure BDA0003948119120000107
表示第p个时间超图,
Figure BDA0003948119120000108
表示第p个时间超图的顶点集,
Figure BDA0003948119120000109
表示第p个时间超图的超边集,
Figure BDA00039481191200001010
表示第p个时间超图中每个超边的权重;
执行步骤133,根据顶点集和超边集构造关联矩阵,第p个时间超图的关联矩阵
Figure BDA00039481191200001011
表示第p个时间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0,每个所述时间超图的关联矩阵定义为:
Figure BDA00039481191200001012
其中,
Figure BDA00039481191200001013
表示第p个时间超图中的第q个超边,q=1,2,…,Q,Q表示一个时间超图中超边的数量,总共有P个时间超图关联矩阵。
执行步骤134,计算第p个视角的时间超图中顶点的度
Figure BDA00039481191200001014
和第p个视角时间超图中超边的度
Figure BDA00039481191200001015
所述第p个视角的时间超图中顶点
Figure BDA00039481191200001016
的度
Figure BDA00039481191200001017
计算公式为:
Figure BDA0003948119120000111
其中,
Figure BDA0003948119120000112
是超边
Figure BDA0003948119120000113
的权重向量。
所述第p个视角时间超图中超边
Figure BDA0003948119120000114
的度
Figure BDA0003948119120000115
计算公式为:
Figure BDA0003948119120000116
其中,
Figure BDA0003948119120000117
Figure BDA0003948119120000118
分别表示第p个时间超图中超边度和顶点度的对角矩阵。
执行步骤135,利用高阶信息对网络进行优化,关联矩阵
Figure BDA0003948119120000119
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA00039481191200001110
计算公式为:
Figure BDA00039481191200001111
其中,
Figure BDA00039481191200001112
表示第p个时间超图中顶点度构成的对角矩阵的逆开二次方根,
Figure BDA00039481191200001113
表示第p个时间超图中超边度构成的对角矩阵的逆。
执行步骤140,使用超图神经网络对所述空间超图和所述时间超图进行特征学习,所述超图神经网络包括空间超图神经网络和时间超图神经网络。
所述空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层。所述空间超图神经网络的构建方法包括以下子步骤:
执行步骤141,将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练;
执行步骤142,通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵
Figure BDA00039481191200001114
另一个超图基本块在此处相加的是自连接矩阵I;
执行步骤143,将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
所述时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。所述时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。所述时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与所述时间超图基本块1相同。
执行步骤150,提取超图所表示的高阶信息,进行人体动作的行为识别。包括以下子步骤:
执行步骤151,对所述空间超图神经网络进行训练,得到空间超图特征,将初始化为特征矩阵Xn、拉普拉斯矩阵
Figure BDA0003948119120000121
自连接矩阵I作为空间超图神经网络的输入,fspatial为空间超图神经网络的输出,表示空间超图特征。
执行步骤152,对所述时间超图神经网络进行训练,得到时间超图特征,将初始化为特征矩阵Xp、拉普拉斯矩阵
Figure BDA0003948119120000122
作为时间超图神经网络的输入,其中,
Figure BDA0003948119120000123
仅输入时间超图基本块的第五个分支,ftemporal为时间超图神经网络的输出,表示时间超图特征。
执行步骤153,将所述空间超图特征和所述时间超图特征进行融合。
执行步骤154,通过Softmax计算行为预测概率值。
执行步骤155,提取概率值最大的对应行为动作类别作为预测类别。
实施例二
为了在复杂环境下实现人体行为的精准识别,如图2所示,本发明提出一种基于超图学习的多视角人体行为识别方法,通过识别不同视角的视频序列,使用超图对人体进行时间和空间建模,利用超图神经网络对超图进行学习,实现复杂环境下的人体行为识别。
1.视频的获取
使用不同的摄像头获取视频数据,对多视视频数据进行预处理。从P个视角获取视频数据作为输入,将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
2.空间超图的构建
(1)对于空间超图,以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,以此来构建一个按照肢体构图策略空间超图
Figure BDA0003948119120000131
实现关节点空间信息聚合。其中,
Figure BDA0003948119120000132
表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。
(2)将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标。
(3)由于每个视频序列提取了N帧,通过N个帧可生成多超图
Figure BDA0003948119120000133
其中,
Figure BDA0003948119120000134
表示第n个空间超图,
Figure BDA0003948119120000135
表示第n个空间超图的顶点集,
Figure BDA0003948119120000136
表示第n个空间超图的超边集,
Figure BDA0003948119120000137
表示第n个空间超图中每个超边的权重。
(4)根据顶点集和超边集构造关联矩阵。第n个空间超图的关联矩阵
Figure BDA0003948119120000138
表示第n个空间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0。每个空间超图的关联矩阵定义为:
Figure BDA0003948119120000139
其中,
Figure BDA0003948119120000141
表示第p个视角第n帧中第i个关节点,
Figure BDA0003948119120000142
表示第n个空间超图中的第m个超边,其中m=1,2,…,M,M表示一个空间超图中超边的数量,n=1,2,…,N,总共有N个空间超图关联矩阵。
(5)第n个空间超图中顶点
Figure BDA0003948119120000143
的度
Figure BDA0003948119120000144
计算公式为:
Figure BDA0003948119120000145
其中,
Figure BDA0003948119120000146
是超边
Figure BDA0003948119120000147
的权重向量。
第n个空间超图中超边
Figure BDA0003948119120000148
的度
Figure BDA0003948119120000149
计算公式为:
Figure BDA00039481191200001410
Figure BDA00039481191200001411
Figure BDA00039481191200001412
分别表示第n个空间超图中超边度和顶点度的对角矩阵。
(6)为了利用高阶信息对网络进行优化,关联矩阵
Figure BDA00039481191200001413
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA00039481191200001414
其计算公式为:
Figure BDA00039481191200001415
3.时间超图的构建
(1)对于时间超图,以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构造一个时间超图
Figure BDA00039481191200001416
Figure BDA00039481191200001417
其中
Figure BDA00039481191200001418
表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。
(2)将每个时间超图的初始顶点特征初始化为特征矩阵Wp,矩阵的每一行为人体关节点的坐标。
(3)由于共有P个视角,通过P个视角可生成多超图
Figure BDA00039481191200001419
其中
Figure BDA00039481191200001420
表示第p个时间超图,
Figure BDA00039481191200001421
表示第p个时间超图的顶点集,
Figure BDA00039481191200001422
表示第p个时间超图的超边集,
Figure BDA00039481191200001423
表示第p个时间超图中每个超边的权重。
(4)根据顶点集和超边集构造关联矩阵,第p个时间超图的关联矩阵
Figure BDA0003948119120000151
表示第p个时间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0。每个时间超图的关联矩阵定义为:
Figure BDA0003948119120000152
其中,
Figure BDA0003948119120000153
表示第p个时间超图中的第q个超边,q=1,2,…,Q,Q表示一个时间超图中超边的数量,总共有P个时间超图关联矩阵。
(5)第p个视角的时间超图中顶点
Figure BDA0003948119120000154
的度
Figure BDA0003948119120000155
计算公式为:
Figure BDA0003948119120000156
其中,
Figure BDA0003948119120000157
是超边
Figure BDA0003948119120000158
的权重向量。
第p个视角时间超图中超边
Figure BDA0003948119120000159
的度
Figure BDA00039481191200001510
计算公式为:
Figure BDA00039481191200001511
定义
Figure BDA00039481191200001512
Figure BDA00039481191200001513
分别表示第p个时间超图中超边度和顶点度的对角矩阵。
(6)为了利用高阶信息对网络进行优化,关联矩阵
Figure BDA00039481191200001514
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure BDA00039481191200001515
计算公式为:
Figure BDA00039481191200001516
4.用超图神经网络对超图进行特征学习
构建好超图后,使用空间超图神经网络对空间超图进行特征学习,使用时间超图神经网络对时间超图进行特征学习,提取超图所表示的高阶信息,进行人体动作的行为识别。
(1)空间超图神经网络的构建
对于空间超图神经网络,由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层,然后将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练,通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵
Figure BDA0003948119120000161
另一个超图基本块在此处相加的是自连接矩阵I。最后将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
(2)时间超图神经网络的构建
时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。为了进行高效的学习训练,减少网络中的计算量,时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与时间超图基本块1相同。
(3)训练与预测
将初始化为特征矩阵Xn、拉普拉斯矩阵
Figure BDA0003948119120000162
自连接矩阵I作为空间超图神经网络的输入,fspatial为空间超图神经网络的输出,表示空间超图特征;将初始化为特征矩阵Xp、拉普拉斯矩阵
Figure BDA0003948119120000163
作为时间超图神经网络的输入,其中,
Figure BDA0003948119120000164
仅输入时间超图基本块的第五个分支,ftemporal为时间超图神经网络的输出,表示时间超图特征。最后将所得特征进行融合,再通过Softmax计算行为预测概率值,最后预测类别为概率值最大的对应行为动作类别。
实施例三
空间超图构建过程示意图如图3所示。本发明以同一时刻不同视角中所有人体关节点作为超图的顶点集,相同时刻不同视角同一部位的关节点用一条超边进行连接,所有超边的集合构成超图的超边集,以此构造一个空间超图。由于每个视角有N帧,故一共构建N个空间超图。
实施例四
时间超图构建过程示意图如图4所示。本发明以同一视角不同时刻中所有人体关节点作为超图的顶点集,同一视角不同时刻的相同关节点用一条超边进行连接,所有超边的集合构成超图的超边集,以此构造一个时间超图。由于共有P个视角,故一共构建P个时间超图。
实施例五
若超图被定义为
Figure BDA0003948119120000171
其中
Figure BDA0003948119120000172
是超图中顶点的集合,集合中的元素记为
Figure BDA0003948119120000173
ε是超图中超边的集合,集合中的元素记为e∈ε;W是超边权重矩阵,记录了每个超边的权值,记为ω(e),则超边和顶点的关系通过构造关联矩阵H进行表示,它是一个
Figure BDA0003948119120000174
的矩阵。具体而言,如果顶点v存在于超边e之中,则h(v,e)=1,否则h(v,e)=0,如图5所示。
实施例六
如图6所示,空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层,然后将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练,通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵
Figure BDA0003948119120000175
另一个超图基本块在此处相加的是自连接矩阵I。最后将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出
实施例七
如图7所示,时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。为了进行高效的学习训练,减少网络中的计算量,时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与时间超图基本块1相同。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,其特征在于,还包括以下步骤:
步骤1:对所述视频数据进行预处理;
步骤2:根据关节点信息构建空间超图;
步骤3:根据关节点信息构建时间超图;
步骤4:使用超图神经网络对所述空间超图和所述时间超图进行特征学习;
步骤5:提取超图所表示的高阶信息,进行人体动作的行为识别。
2.如权利要求1所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
3.如权利要求2所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述空间超图是指以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,构建的一个按照肢体构图策略空间超图
Figure FDA0003948119110000011
实现关节点空间信息聚合,其中,
Figure FDA0003948119110000013
表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。
4.如权利要求3所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述空间超图的构建方法包括以下子步骤:
步骤21:将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标;
步骤22:生成第n个空间超图
Figure FDA0003948119110000012
步骤23:根据顶点集和超边集构造关联矩阵;
步骤24:计算第n个空间超图中顶点的度
Figure FDA0003948119110000021
和第n个空间超图中的度
Figure FDA0003948119110000022
其中,
Figure FDA0003948119110000023
表示计算第n个空间超图中顶点度的函数,
Figure FDA0003948119110000024
表示计算第n个空间超图中超边度的函数,
Figure FDA0003948119110000025
表示第p个视角第n帧中第i个关节点,
Figure FDA0003948119110000026
表示第n个空间超图中的第m个超边;
步骤25:利用高阶信息对网络进行优化,关联矩阵
Figure FDA0003948119110000027
经过拉普拉斯变换生成了拉普拉斯矩阵
Figure FDA0003948119110000028
5.如权利要求4所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述第n个空间超图
Figure FDA0003948119110000029
的计算公式为
Figure FDA00039481191100000210
其中,
Figure FDA00039481191100000211
表示第n个空间超图的顶点集,
Figure FDA00039481191100000212
表示第n个空间超图的超边集,
Figure FDA00039481191100000213
表示第n个空间超图中每个超边的权重,n=1,2,…,N。
6.如权利要求5所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述步骤23包括第n个空间超图的关联矩阵
Figure FDA00039481191100000214
表示第n个空间超图的拓扑结构,若顶点存在某一超边中,则矩阵中对应的元素为1,否则为0。
7.如权利要求6所述的基于超图学习的多视角人体行为识别方法,其特征在于,每个空间超图的关联矩阵定义为:
Figure FDA00039481191100000215
其中,
Figure FDA00039481191100000216
表示第p个视角第n帧中第i个关节点,
Figure FDA00039481191100000217
表示第n个空间超图中的第m个超边,其中m=1,2,…,M,M表示一个空间超图中超边的数量。
8.如权利要求7所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述步骤24包括计算第n个空间超图中顶点
Figure FDA0003948119110000031
的度
Figure FDA0003948119110000032
计算公式为
Figure FDA0003948119110000033
其中,
Figure FDA0003948119110000034
是超边
Figure FDA0003948119110000035
的权重向量。
9.如权利要求8所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述步骤24还包括计算第n个空间超图中超边
Figure FDA0003948119110000036
的度
Figure FDA0003948119110000037
计算公式为:
Figure FDA0003948119110000038
其中,
Figure FDA0003948119110000039
Figure FDA00039481191100000310
分别表示第n个空间超图中超边度和顶点度的对角矩阵。
10.如权利要求9所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述拉普拉斯矩阵
Figure FDA00039481191100000311
的计算公式为
Figure FDA00039481191100000312
其中,
Figure FDA00039481191100000313
表示第n个空间超图中顶点度构成的对角矩阵的逆开二次方根,
Figure FDA00039481191100000314
表示第n个空间超图中超边度构成的对角矩阵的逆。
CN202211440742.7A 2022-11-17 2022-11-17 一种基于超图学习的多视角人体行为识别方法 Pending CN115830707A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211440742.7A CN115830707A (zh) 2022-11-17 2022-11-17 一种基于超图学习的多视角人体行为识别方法
US18/388,868 US20240177525A1 (en) 2022-11-17 2023-11-13 Multi-view human action recognition method based on hypergraph learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211440742.7A CN115830707A (zh) 2022-11-17 2022-11-17 一种基于超图学习的多视角人体行为识别方法

Publications (1)

Publication Number Publication Date
CN115830707A true CN115830707A (zh) 2023-03-21

Family

ID=85528811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211440742.7A Pending CN115830707A (zh) 2022-11-17 2022-11-17 一种基于超图学习的多视角人体行为识别方法

Country Status (2)

Country Link
US (1) US20240177525A1 (zh)
CN (1) CN115830707A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690190A (zh) * 2024-01-31 2024-03-12 吉林大学 基于超图文本对比的水下动作识别方法、系统及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690190A (zh) * 2024-01-31 2024-03-12 吉林大学 基于超图文本对比的水下动作识别方法、系统及存储介质

Also Published As

Publication number Publication date
US20240177525A1 (en) 2024-05-30

Similar Documents

Publication Publication Date Title
CN111310707A (zh) 基于骨骼的图注意力网络动作识别方法及系统
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
CN111311685A (zh) 一种基于imu/单目图像的运动场景重构无监督方法
CN110222718B (zh) 图像处理的方法及装置
CN111160294B (zh) 基于图卷积网络的步态识别方法
CN111695457A (zh) 一种基于弱监督机制的人体姿态估计方法
Chen et al. 3D point cloud semantic segmentation toward large-scale unstructured agricultural scene classification
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN114972439A (zh) 一种新的无人机目标跟踪算法
US20240177525A1 (en) Multi-view human action recognition method based on hypergraph learning
CN115223201A (zh) 基于单目序列图像的三维人体关节点估算方法、系统及装置
CN114550014A (zh) 道路分割方法及计算机装置
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
Wang et al. EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
Li et al. Structure-guided camera localization for indoor environments
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
CN113239771A (zh) 一种姿态估计方法、系统及其应用
Wei et al. SiamSYB: simple yet better methods to enhance Siamese tracking
Zhou et al. GAF-Net: Geometric Contextual Feature Aggregation and Adaptive Fusion for Large-Scale Point Cloud Semantic Segmentation
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117876843B (zh) 一种具有动态降低图像冗余的高效农作物病害识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination