CN115830707A - 一种基于超图学习的多视角人体行为识别方法 - Google Patents
一种基于超图学习的多视角人体行为识别方法 Download PDFInfo
- Publication number
- CN115830707A CN115830707A CN202211440742.7A CN202211440742A CN115830707A CN 115830707 A CN115830707 A CN 115830707A CN 202211440742 A CN202211440742 A CN 202211440742A CN 115830707 A CN115830707 A CN 115830707A
- Authority
- CN
- China
- Prior art keywords
- hypergraph
- spatial
- matrix
- time
- nth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 230000002123 temporal effect Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 111
- 239000000126 substance Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 18
- 230000009471 action Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,还包括以下步骤:对所述视频数据进行预处理;根据关节点信息构建空间超图;根据关节点信息构建时间超图;使用超图神经网络对所述空间超图和所述时间超图进行特征学习;提取超图所表示的高阶信息,进行人体动作的行为识别。本发明通过对相同时刻不同视角下的人体骨骼点构建空间超图,以捕获多个身体骨骼点之间的空间依赖关系;通过对相同视角不同帧下的人体骨骼点构建时间超图,更好地获取特定关节点不同视角下特征之间的时间相关性,从而根据空间超图和时间超图构建的特征进行时空超图神经网络进行学习,最终实现基于超图学习的多视角人体行为识别。
Description
技术领域
本发明涉及图像处理的技术领域,特别是一种基于超图学习的多视角人体行为识别方法。
背景技术
行为识别是计算机视觉的代表性任务之一,精准感知和识别人体行为是智能交互和人机协作的重要前提,近年已成为广为关注的研究领域,例如在行为分析、智能驾驶、医疗控制等应用领域,对肢体语言交互的研究具有重要意义。随着人体关节点检测效果不断提升,已将其用于行为识别。然而,目前的方法仍然存在缺乏对于时序建模、关节特征高阶语义描述欠缺等问题。
为了挖掘视频序列中多个特征之间的时序关系,传统的方法使用循环神经网络构建长期关联,可以通过使用全局上下文存储单元关注每一帧中的信息节点,获得更多的行为特征。还有一些方法旨在利用注意力机制聚合时空图像区域的特征,有效地去除噪声等影响,提高识别准确率。然而,这些方法仍然不能有效地建模关键区域的复杂相关性,这是行为识别任务的重大挑战。基于多视角时序的行为识别旨在采用多视数据,通过建模时序信息,以更好地解决复杂场景下由于其角度、光照、遮挡等因素造成的信息欠定等问题,从而增强特征信息。
2014年3月18日的道客巴巴上公开了一篇题目为《一种基于超图聚类的人体行为识别算法研究》的北京大学硕士论文,该论文的目标是从包含人体行为的视频识别出人体行为,详细研究了基于局部特征的人体行为识别方法,提出类一种基于超图聚类的人体行为识别算法,首先,分析比较了提取视频中人体行为的局部特征与进行特征描述的方法,致力于研究构建关于这些特征的字典,用字典中的单词有效进行视频表示,最后使用分类器对视频进行分类,从而完成人体行为识别的任务。该方法的缺点是在复杂场景下遇到光照、遮挡、高动态、位置角度等问题时,行为识别的准确度较低。
发明内容
为了解决上述的技术问题,本发明提出了一种基于超图学习的多视角人体行为识别方法,面向复杂场景下的行为,构建空间超图是通过对相同时刻不同视角下的人体骨骼点构建多超图,以捕获多个身体骨骼点之间的空间依赖关系;构建时间超图是通过对相同视角不同帧下的人体骨骼点进行多超图构建,更好地获取特定关节点不同视角下特征之间的时间相关性,从而根据空间超图和时间超图构建的特征进行时空超图神经网络进行学习,最终实现基于超图学习的多视角人体行为识别。
本发明提供一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,还包括以下步骤:
步骤1:对所述视频数据进行预处理;
步骤2:根据关节点信息构建空间超图;
步骤3:根据关节点信息构建时间超图;
步骤4:使用超图神经网络对所述空间超图和所述时间超图进行特征学习;
步骤5:提取超图所表示的高阶信息,进行人体动作的行为识别。
优选的是,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
在上述任一方案中优选的是,所述空间超图是指以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,构建的一个按照肢体构图策略空间超图实现关节点空间信息聚合,其中,表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。
在上述任一方案中优选的是,所述空间超图的构建方法包括以下子步骤:
步骤21:将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标;
步骤23:根据顶点集和超边集构造关联矩阵;
步骤24:计算第n个空间超图中顶点的度和第n个空间超图中的度其中,表示计算第n个空间超图中顶点度的函数,表示计算第n个空间超图中超边度的函数,表示第p个视角第n帧中第i个关节点,表示第n个空间超图中的第m个超边;
在上述任一方案中优选的是,每个空间超图的关联矩阵定义为:
在上述任一方案中优选的是,所述时间超图是指以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构建的一个超图其中表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。
在上述任一方案中优选的是,所述时间超图的构建方法包括以下子步骤:
步骤31:将每个时间超图的初始顶点特征初始化为特征矩阵Xp,矩阵的每一行为人体关节点的坐标;
步骤33:根据顶点集和超边集构造关联矩阵;
在上述任一方案中优选的是,每个所述时间超图的关联矩阵定义为:
在上述任一方案中优选的是,所述超图神经网络包括空间超图神经网络和时间超图神经网络。
在上述任一方案中优选的是,所述空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层。
在上述任一方案中优选的是,所述空间超图神经网络的构建方法包括以下子步骤:
步骤401:将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练;
步骤403:将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
在上述任一方案中优选的是,所述时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。
在上述任一方案中优选的是,所述时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。
在上述任一方案中优选的是,所述时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与所述时间超图基本块1相同。
在上述任一方案中优选的是,所述步骤5包括以下子步骤:
步骤51:对所述空间超图神经网络进行训练,得到空间超图特征;
步骤52:对所述时间超图神经网络进行训练,得到时间超图特征;
步骤53:将所述空间超图特征和所述时间超图特征进行融合;
步骤54:通过Softmax计算行为预测概率值;
步骤55:提取概率值最大的对应行为动作类别作为预测类别。
本发明提出了一种基于超图学习的多视角人体行为识别方法,解决了复杂场景中如物体遮挡、光照不足、人体关节点关联弱等情况而造成行为识别精确度低等问题,具有高效、可靠的优点。
附图说明
图1为按照本发明的基于超图学习的多视角人体行为识别方法的一优选实施例的流程图。
图2为按照本发明的基于超图学习的多视角人体行为识别方法的另一优选实施例的流程图。
图3为按照本发明的基于超图学习的多视角人体行为识别方法的空间超图构建过程的一实施例的示意图。
图4为按照本发明的基于超图学习的多视角人体行为识别方法的时间超图构建过程的一实施例的示意图。
图5为按照本发明的基于超图学习的多视角人体行为识别方法的超图与关联矩阵的变换过程的一实施例的示意图。
图6为按照本发明的基于超图学习的多视角人体行为识别方法的空间超图神经网络的一实施例的结构示意图。
图7为按照本发明的基于超图学习的多视角人体行为识别方法的时间超图神经网络的一实施例的结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,从P个视角获取视频数据。
执行步骤110,对所述视频数据进行预处理,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
执行步骤120,根据关节点信息构建空间超图,所述空间超图是指以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,构建的一个按照肢体构图策略空间超图实现关节点空间信息聚合,其中,表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。所述空间超图的构建方法包括以下子步骤:
执行步骤121,将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标;
执行步骤130,根据关节点信息构建时间超图,所述时间超图是指以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构建的一个超图其中表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。所述时间超图的构建方法包括以下子步骤:
执行步骤131,将每个时间超图的初始顶点特征初始化为特征矩阵Xp,矩阵的每一行为人体关节点的坐标;
执行步骤140,使用超图神经网络对所述空间超图和所述时间超图进行特征学习,所述超图神经网络包括空间超图神经网络和时间超图神经网络。
所述空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层。所述空间超图神经网络的构建方法包括以下子步骤:
执行步骤141,将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练;
执行步骤143,将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
所述时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。所述时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。所述时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与所述时间超图基本块1相同。
执行步骤150,提取超图所表示的高阶信息,进行人体动作的行为识别。包括以下子步骤:
执行步骤151,对所述空间超图神经网络进行训练,得到空间超图特征,将初始化为特征矩阵Xn、拉普拉斯矩阵自连接矩阵I作为空间超图神经网络的输入,fspatial为空间超图神经网络的输出,表示空间超图特征。
执行步骤152,对所述时间超图神经网络进行训练,得到时间超图特征,将初始化为特征矩阵Xp、拉普拉斯矩阵作为时间超图神经网络的输入,其中,仅输入时间超图基本块的第五个分支,ftemporal为时间超图神经网络的输出,表示时间超图特征。
执行步骤153,将所述空间超图特征和所述时间超图特征进行融合。
执行步骤154,通过Softmax计算行为预测概率值。
执行步骤155,提取概率值最大的对应行为动作类别作为预测类别。
实施例二
为了在复杂环境下实现人体行为的精准识别,如图2所示,本发明提出一种基于超图学习的多视角人体行为识别方法,通过识别不同视角的视频序列,使用超图对人体进行时间和空间建模,利用超图神经网络对超图进行学习,实现复杂环境下的人体行为识别。
1.视频的获取
使用不同的摄像头获取视频数据,对多视视频数据进行预处理。从P个视角获取视频数据作为输入,将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
2.空间超图的构建
(1)对于空间超图,以关节点为顶点,将人体分为躯干、左手、右手、左腿、右腿五个部位,同一时刻不同视角中相同部位的关节点用一条超边连接,以此来构建一个按照肢体构图策略空间超图实现关节点空间信息聚合。其中,表示空间超图的顶点集,εspa表示其超边集,Wspa表示超边集中每个超边的权重,是一个权值矩阵。
(2)将每个空间超图的初始顶点特征初始化为特征矩阵Xn,矩阵的每一行为人体关节点的坐标。
3.时间超图的构建
(1)对于时间超图,以关节点为顶点,将相同视角的序列帧分成一组,其超边连接同一视角序列帧的相同关节点,构造一个时间超图 其中表示时间超图的顶点集,εtem表示其超边集,Wtem表示超边集中每个超边的权重,是一个权值矩阵。
(2)将每个时间超图的初始顶点特征初始化为特征矩阵Wp,矩阵的每一行为人体关节点的坐标。
4.用超图神经网络对超图进行特征学习
构建好超图后,使用空间超图神经网络对空间超图进行特征学习,使用时间超图神经网络对时间超图进行特征学习,提取超图所表示的高阶信息,进行人体动作的行为识别。
(1)空间超图神经网络的构建
对于空间超图神经网络,由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层,然后将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练,通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵另一个超图基本块在此处相加的是自连接矩阵I。最后将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出。
(2)时间超图神经网络的构建
时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。为了进行高效的学习训练,减少网络中的计算量,时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与时间超图基本块1相同。
(3)训练与预测
将初始化为特征矩阵Xn、拉普拉斯矩阵自连接矩阵I作为空间超图神经网络的输入,fspatial为空间超图神经网络的输出,表示空间超图特征;将初始化为特征矩阵Xp、拉普拉斯矩阵作为时间超图神经网络的输入,其中,仅输入时间超图基本块的第五个分支,ftemporal为时间超图神经网络的输出,表示时间超图特征。最后将所得特征进行融合,再通过Softmax计算行为预测概率值,最后预测类别为概率值最大的对应行为动作类别。
实施例三
空间超图构建过程示意图如图3所示。本发明以同一时刻不同视角中所有人体关节点作为超图的顶点集,相同时刻不同视角同一部位的关节点用一条超边进行连接,所有超边的集合构成超图的超边集,以此构造一个空间超图。由于每个视角有N帧,故一共构建N个空间超图。
实施例四
时间超图构建过程示意图如图4所示。本发明以同一视角不同时刻中所有人体关节点作为超图的顶点集,同一视角不同时刻的相同关节点用一条超边进行连接,所有超边的集合构成超图的超边集,以此构造一个时间超图。由于共有P个视角,故一共构建P个时间超图。
实施例五
若超图被定义为其中是超图中顶点的集合,集合中的元素记为ε是超图中超边的集合,集合中的元素记为e∈ε;W是超边权重矩阵,记录了每个超边的权值,记为ω(e),则超边和顶点的关系通过构造关联矩阵H进行表示,它是一个的矩阵。具体而言,如果顶点v存在于超边e之中,则h(v,e)=1,否则h(v,e)=0,如图5所示。
实施例六
如图6所示,空间超图神经网络由两个空间超图基本块组成,每个空间超图基本块包括两个分支,每个分支包含一个1×1卷积层和一个池化层,然后将这两个分支得到的特征矩阵进行拼接,经过多层感知器MLP进行训练,通过一个1×1卷积层对特征进行聚合后,与对应的矩阵进行元素相加,一个空间超图基本块在此处相加的是矩阵另一个超图基本块在此处相加的是自连接矩阵I。最后将经过两个空间超图基本块得到的特征矩阵进行拼接操作,作为空间超图神经网络的输出
实施例七
如图7所示,时间超图神经网络由10层组成,在第一层中使用时间超图基本块1,在其他层中使用时间超图基本块2,从而实现时间序列特征信息的有效学习训练。为了进行高效的学习训练,减少网络中的计算量,时间超图基本块1将顶点特征X作为五个分支的输入,每个分支包含1×1卷积层以减少通道维数;第一和第二分支分别包含两种不同膨胀率的时间卷积,并在减少参数数量的同时提取不同周期的特征信息;第三和第五分支分别包含一个3×1最大池层,用于去除冗余信息,并将五个分支的结果连接起来以获得输出。时间超图基本块2将顶点特征X平均分为x1、x2两部分,x1作为前四个分支的输入,x2作为第五个分支的输入,每个分支包含的网络层与时间超图基本块1相同。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种基于超图学习的多视角人体行为识别方法,包括从P个视角获取视频数据,其特征在于,还包括以下步骤:
步骤1:对所述视频数据进行预处理;
步骤2:根据关节点信息构建空间超图;
步骤3:根据关节点信息构建时间超图;
步骤4:使用超图神经网络对所述空间超图和所述时间超图进行特征学习;
步骤5:提取超图所表示的高阶信息,进行人体动作的行为识别。
2.如权利要求1所述的基于超图学习的多视角人体行为识别方法,其特征在于,所述预处理的方法包括将视频数据分割成N帧,通过Openpose提取每一帧的关节点信息,以关节点坐标x和y存储,保存为json文件,根据关节点信息构建空间超图和时间超图。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440742.7A CN115830707A (zh) | 2022-11-17 | 2022-11-17 | 一种基于超图学习的多视角人体行为识别方法 |
US18/388,868 US20240177525A1 (en) | 2022-11-17 | 2023-11-13 | Multi-view human action recognition method based on hypergraph learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440742.7A CN115830707A (zh) | 2022-11-17 | 2022-11-17 | 一种基于超图学习的多视角人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115830707A true CN115830707A (zh) | 2023-03-21 |
Family
ID=85528811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211440742.7A Pending CN115830707A (zh) | 2022-11-17 | 2022-11-17 | 一种基于超图学习的多视角人体行为识别方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240177525A1 (zh) |
CN (1) | CN115830707A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690190A (zh) * | 2024-01-31 | 2024-03-12 | 吉林大学 | 基于超图文本对比的水下动作识别方法、系统及存储介质 |
-
2022
- 2022-11-17 CN CN202211440742.7A patent/CN115830707A/zh active Pending
-
2023
- 2023-11-13 US US18/388,868 patent/US20240177525A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690190A (zh) * | 2024-01-31 | 2024-03-12 | 吉林大学 | 基于超图文本对比的水下动作识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20240177525A1 (en) | 2024-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310707A (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
Saputra et al. | Learning monocular visual odometry through geometry-aware curriculum learning | |
CN111311685A (zh) | 一种基于imu/单目图像的运动场景重构无监督方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN111695457A (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
Chen et al. | 3D point cloud semantic segmentation toward large-scale unstructured agricultural scene classification | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN114972439A (zh) | 一种新的无人机目标跟踪算法 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning | |
CN115223201A (zh) | 基于单目序列图像的三维人体关节点估算方法、系统及装置 | |
CN114550014A (zh) | 道路分割方法及计算机装置 | |
Son et al. | Partial convolutional LSTM for spatiotemporal prediction of incomplete data | |
Wang et al. | EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
Li et al. | Structure-guided camera localization for indoor environments | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
CN113239771A (zh) | 一种姿态估计方法、系统及其应用 | |
Wei et al. | SiamSYB: simple yet better methods to enhance Siamese tracking | |
Zhou et al. | GAF-Net: Geometric Contextual Feature Aggregation and Adaptive Fusion for Large-Scale Point Cloud Semantic Segmentation | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN117876843B (zh) | 一种具有动态降低图像冗余的高效农作物病害识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |