CN116778576A - 基于骨架的时序动作分割的时空图变换网络 - Google Patents
基于骨架的时序动作分割的时空图变换网络 Download PDFInfo
- Publication number
- CN116778576A CN116778576A CN202310657425.9A CN202310657425A CN116778576A CN 116778576 A CN116778576 A CN 116778576A CN 202310657425 A CN202310657425 A CN 202310657425A CN 116778576 A CN116778576 A CN 116778576A
- Authority
- CN
- China
- Prior art keywords
- space
- time
- skeleton
- time sequence
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000009471 action Effects 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 title claims abstract description 30
- 238000010586 diagram Methods 0.000 title claims abstract description 25
- 230000009466 transformation Effects 0.000 title claims abstract description 18
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000000379 polymerizing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000002123 temporal effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于骨架的时序动作分割的时空图变换网络,以解决视频动作分割技术中存在的无法捕获隐含的远程依赖关系、缺乏对高级语义信息分析的技术难题,属于视频处理与理解领域。在本发明中,考虑了骨骼关节之间的空间层次结构,从而将部分中的动作建模为拓扑图。时空图变换网络采用编码器‑解码器结构,编码器与解码器都包含多个骨架图转换块。其中,时空图层采用自适应图策略增强了图结构的灵活性和鲁棒性,骨架图转换块中的时空转换层构建了并行注意机制来模拟动态空间和非线性时序相关性。实践证明,本发明缓解了过度分割错误和模糊边界问题,回应了视频动作分割技术中对分割细粒度实现的迫切需求。
Description
技术领域
本发明涉及视频处理与理解领域,尤其涉及一种面向人类动作细粒度识别的视频时序分割技术。
背景技术
视频理解是计算机视觉领域的一个重要研究课题,可以应用于异常检测、智能服务和人机交互等领域。动作识别是视频理解的一个分支,它用单个语义标签对预修剪的视频片段进行分类。动作识别中最先进的方法可以在多达数百万个片段的数据集上区分许多动作类别。然而,这些方法在感知动作间的相关性方面存在局限性。为了克服这些限制,研究人员专注于长程未修剪的视频,这些视频被密集地标记,包含多个具有强连续性的动作,类似于人类的日常行为。这些视频使逐帧分类变得困难,使得人们对时序动作分割方法的兴趣增加,以设计复杂的网络来提升未修剪视频的性能。
早期的方法依赖于滑动窗口法来提取手工特征。尽管这类方法取得了突破,但由于最大化问题,它们在处理长视频时面临挑战。受语音合成启发,研究人员使用时序卷积网络,以改进早期的架构。对于以运动为中心的视频理解任务,骨架模式提供了比光流、RGB特征更为丰富的信息输入。基于骨骼的时序动作分割是一项比动作识别更复杂的任务,因为它既需要分类动作,又需要准确地定位动作片段发生的起始和结束时间。目前方法存在以下两点难题:一是无法捕捉人体关节之间的潜在的时空联系,二是缺乏考虑动态的关节信息以及非线性的时序信息等技术问题。
目前为止,因为存在上述关键技术难点,现有方法中(包含MS-TCN、ASRF、BCN、ETSN等方法),都不能够实现视频时序信息中人类动作的细粒度语义分割。
发明内容
为了解决上述技术问题,本发明提供了一种基于骨架的时序动作分割的时空图变换网络,可以提高对于视频序列中人体动作细粒度识别的精度。
在公开的技术方法中,包含提出模型的体系结构、时空位置嵌入(STPE)、时空图层、自适应图策略、时空变换层。
基于骨架的时序动作分割的时空图变换网络应用编码器-解码器结构,该结构包括带有残差连接的骨架图转换块(SGT块),并将它们输入到通用的时序动作分割骨干网络中,以改进初始预测,从而生成逐帧动作分割结果。同时,还提出了一种时空位置嵌入(STPE)方法,将时序信息和图信息与SGT块中的注意机制融合在一起。
为了编码骨架数据中张量特征,本发明引入了时空位置嵌入(STPE),以学习人体关节之间的相互关系。首先用向量编码每帧时序位置,然后采用struc2vec方法联合表述图结构信息。
为了对图结构中固有的非结构化模式进行建模,本发明提出了时空图层。通过检测相邻关节来学习特征,对关节的相邻特征进行聚合生成中间特征,然后对聚合后的特征进行线性投影和激活函数传递。本发明将连续帧中对应于相同身体部位的关节在时域中以非线性方式连接起来,然后是批处理归一化层(BN)和ReLU激活
本发明提出了一种鲁棒的自适应图策略,通过时空自适应块从时序和空间维度捕获互补的判别特征。通过相邻帧之间的相似性与时序维度嵌入,建模结构相似函数,采用Softmax等函数,生成时序自适应块。同时,建模空间自适应块,结合图本身、参数化图、嵌入图,提取空间域的信息特征要素。
为了建模关节之间的动态时空相关性信息,本发明设计了一种时空转换层,通过门控融合模块的时空关注来增强模型的时空关联能力。时空转换层通过空间注意力来捕捉网络中节点之间的相关性,沿着时序维度赋予不同关节不同的权重。时空转换层通过时序注意来计算不同时序位置之间的非线性相关性,将隐藏状态与STPE结合起来,并采用M个并行注意机制来计算时序注意得分。时空转换层采用门控融合模块,自适应融合时空信息,通过引入分支系数与非线性激活,增加对时空分支的非线性管控能力,并在每个关节和时序位置对空间和时序相关性的流动进行建模。
与现有方案相比,本方案具有以下技术优点:
本发明针对视频分析技术中难以实现人体动作细粒度分割的技术难题,提出了一种基于骨架的时序动作分割的时空图变换网络。本发明捕获了隐式的远程依赖关系并动态学习节点之间随时序的时空相关性,充分考虑了动作的时序因素,从而使图结构具有更强的鲁棒性。综合来看,该方法提高了人体动作细粒度分割的精度,回应了视频动作分割技术中对分割细粒度实现的迫切需求。
附图说明
图1为网络整体框图。(a)为STGT的结构,(b)为STPE的结构,(c)为SGT块结构;
图2为自适应图策略的结构;
图3为局部-全局空间注意结构。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提出的基于骨架的时序动作分割的时空图变换网络,包含时空位置嵌入(STPE)、时空图层、自适应图策略、自适应时空网络结构调整、反映时空相关性的时空变换层。
在本发明公开的时空位置嵌入(STPE)技术方法中,基于骨架的时序动作分割的时空图变换网络,如图1(a)所示。基于骨架的时序动作分割任务旨在通过应用包含L个骨架图转换块(SGT块)和残余连接器的编码器-解码器结构,并将它们传输到一般时序动作分割主干以改进初始预测,从而从时空图变压器网络生成帧智能动作分割结果。为了获得视频的时变表示,还提出了一种时空位置嵌入(STPE)方法,将时序信息和图结构与SGT块中的注意机制融合在一起。此外,为了便于残差连接,STGT中的所有层都会产生d_model维度的输出。
在本发明所提出的基于骨架的动作片段包含数百或数千个在时序域中连接的连续骨架动作。将这些动作建模成一个基于骨架的时序动作分割任务。在空间维度上,本发明将框架t的骨架作用定义为空间图GS上的模型,其中N为关节个数。GS可进一步表示为加权有向图GS=(V,ES,A),其中,V=(v1,…,vN)是N=|V|个顶点的集合,表示人体关节的骨骼动作;A∈RN×N为加权邻接矩阵,其中Avi,vj表示关节vi与vj之间的接近度;ES=(e1,…,eM)用于构造空间边,其中存在M=|ES|空间边。在时序维度上,本发明构造时序边ET=(e1,…,eT),其中T=|eT|表示视频的帧数。最后,基于骨架的动作表示为时空图GST=(V,{ES,ET},A)。
本发明将骨架动作序列X={X1,...,XT}∈RN×T×D分布一个预定义的C动作类集合a:={1,…,C}。其中,每一帧t∈{1,...,T},其中T为最大帧数,D为每个关节的三维坐标。本发明将视频v作为输入,并生成初始帧位预测。通过概率向量和预测标签等信息,通过最大位运算算符,优化得到最终预测。
在本发明公开的时空位置嵌入技术方法中,骨架数据被组织成一个张量来馈送到神经网络中,张量的每个元素的定义顺序或结构对于表明它们的身份至关重要(例如,帧索引或关节索引)。因此,本发明引入了时空位置嵌入(STPE),如图1(b)所示。首先,为每个帧表示配备时序嵌入,通过将每个时序位置编码为向量来反映动态相关性。然后,使用一热编码将每个时序位置编码为RT,然后使用两层全连接神经网络将时序特征转换为向量Rd_model,表示为然而,不同动作节段关节之间的框架内关系通常是不同的。在这方面,本发明提出空间嵌入将关节编码为保留图结构信息的特征表示。采用struc2vec方法来学习联合表示。为了用整个模型训练预学习的向量,这些表示被传递到一个两层全连接的神经网络。最后得到空间位置嵌入,表示为/>其中vj∈V。
本发明将空间和时序嵌入结合起来创建STPE。对于时刻为ti的关节vj,STPE表示为因此,N个跨框架节点的STPE定义为ESTPE∈RN×T×d_model。该方法结合了时序信息和图结构,并将其应用于变压器骨架图块(SGT块)的时空变压器层。
在本发明公开的时空图层技术方法中,提出的图卷积网络将传统的卷积运算推广到图结构中,使其能够对图中固有的非结构化模式进行建模。本发明对关节的相邻特征进行聚合生成中间特征,然后对聚合后的特征进行线性投影和激活函数传递。图卷积的更新规则可以表示为
式中,Kv为空间维度的核大小,设为3;Wk∈Rd_model×d_model为卷积的可学习权矩阵,为邻接矩阵A的归一化形式;/>可视为节点相邻特征的集合,其中Dk∈RN×ND为Ak的对角节点度矩阵;Ak为距离k的邻接矩阵,类似于A∈RN×N,表示结点之间距离为k的路径数;/>表示点积运算。最后,fGC(·)被认为是相邻关节之间进行特征聚合后,每个关节自我更新。
图卷积网络在连续帧中对应于相同身体部位的关节在时域中以非线性方式连接起来,然后是批处理归一化层(BN)和Relu激活,使用时序卷积从空间图卷积生成的特征映射中学习时序模式。时空图层表示为:
fout=fTC(fGC(fin))+fin
其中,fout为输出特征映射,fTC为核大小为Kt的时序卷积滤波器。在时空图层中加入残差连接来增强原始特征,并保证梯度的稳定传播。
在本发明公开的自适应图策略技术方法中,通过时空自适应块从时序和空间维度捕获互补的判别特征。相邻帧之间的相似性可以捕获骨架序列的局部差异,并提供帧间时序运动信息的度量。为了使图拓扑自适应,对时序自适应块的处理进行调整,表示为:
其中,TA(·)和fTout∈RN×T×d_model表示时序自适应块的处理和时序自适应块图层第n帧的输出骨架张量,用于评估每两帧或跨帧之间的特征相似性。
本发明采用空间自适应块来提供空间域中的信息特征,主要包含三个重要图:图本身参数化图/>嵌入图/>表示为:
其中,Wθk和分别为嵌入函数θ和/>的可学习参数。将骨架张量fin嵌入到θ和/>函数中,这些函数输出嵌入空间的维数为N×TCe。空间自适应块的处理可表述如下:
其中SA(·)和fSout∈RN×T×d_model分别为空间自适应块的处理和空间自适应块图层第n帧的输出骨架张量。结合自适应图策略,将的图卷积fGC(·)的表述进一步整合为:
fout=fGC(fin)=fTout+fSout+fin
在本发明提出的时空变压器层中,通过门控融合模块的时空关注来增强模型的时空关联能力。第l个骨架图变压器块(SGT块)中的时空变压器层输入表示为其中关节vj在时刻的隐藏状态表示为/>另外,将第l块时空变压器层的时空注意力输出设为/>和其中关节vj在时刻ti的隐藏状态分别表示为/>和/>经过门控融合模块后,产生第l块的时空变压器层输出,记为Hl。
在分割涉及“单指点”和“双指点”的骨骼序列时,空间信息对于判断这两个高度相关的动作具有重要意义。为了对这种特性进行建模,本发明利用空间注意力来捕捉网络中节点之间的相关性。计算每对关节之间的关系,表示如下:
其中和d_model分别表示级联操作和维数;<,>是内积运算。随后,利用softmax激活对空间相关矩阵的元素进行归一化,并计算其加权系数。
为了捕捉不同尺度的空间特征,减轻计算负担,本发明对空间注意力进行了优化,并进一步提出了局部-全局空间注意力,如图3所示。具体而言,将空间注意修改为多头注意,其中M个平行注意机制与不同的可学习投影连接在一起,并将图中的N个节点随机分成P个部分,每个部分由Q=NP个节点组成。在每个部分中,计算空间注意力,以学习关节之间的局部空间相关性,其中参数在各个部分之间共享。随后,利用最大池化操作为每个部分生成独立的表示。然后,计算不同部分之间的全局空间相关性,从而得到每个部分的全局表示。最后,将各部分组成的局部空间特征与相应的全局特征相加,作为最终输出。
当分割包括“向下挥动”和“向上挥动”的骨架序列时,时序信息对于识别相似的运动外观动作变得更加重要。为了模拟这些属性,利用时序注意来计算不同时间位置之间的非线性相关性。将隐藏状态与STPE结合起来,并采用M个并行注意机制来计算时序注意得分。
其中,表示时序ti与t之间的重要性。
本发明在时空变压器层采用门控融合模块,自适应融合时空信息。在第l个SGT块中,空间和时序注意力的输出分别表示为和/>门控融合模块的处理如下:
其中g表示闸门操作,Wg,S∈Rd_model×d_model,Wg,T∈Rd_model×d_model,bg∈Rd_model为可学习参数。获得门控融合模块的输出后,在每个关节和时序位置对空间和时序相关性的流动进行建模。
本发明方法在两个数据集(PKU-MMD v2与HuGaDB)上与多个方法对比如表一、表二所示。实验证明,本发明方法可以显著提升视频序列中人体动作细粒度识别精度,对相关领域的研究有着积极作用。
表一
表二
Claims (9)
1.基于骨架的时序动作分割的时空图变换网络,其特征在于:采用编码器-解码器结构,其中编码器和解码器都包含多个骨架图转换块(SGT块),时空图层采用自适应图策略,SGT块中的时空转换层构建了时空注意力机制。
2.根据权利要求1所述的基于骨架的时序动作分割的时空图变换网络,其特征在于,包括:
模型整体架构,包含L个骨架图转换块(SGT块)和残差连接的编码器-解码器结构,并将它们传输到一般时序动作分割主干以改进初始预测,从而生成逐帧动作分割结果,通过一种时空位置嵌入(STPE)方法,将时序信息和图信息与骨架图转换块中的注意机制融合在一起,网络结构采用残差连接结构;
时空位置嵌入(STPE)将每个时序位置编码为向量来反映动态相关性,使用独热编码的方式编码时序信息,然后使用两层全连接神经网络将时序特征转换为向量;
时空图层,对关节的相邻特征进行聚合生成中间特征,然后对聚合后的特征进行线性投影和激活函数传递;
自适应图策略,通过时空自适应块从时序和空间维度捕获互补的判别特征;
时空变换层,建模空间注意力与时序注意力,并通过门控融合模块的时空关注来增强模型的时空关联能力,以增强关节之间的动态时空相关性。
3.根据权利要求2所述的模型整体架构,其特征在于:将数百或数千个在时序域中连接的连续骨架动作建模成一个基于骨架的时序动作分割任务,通过表征框架骨架、人体关节的骨骼动作、关节接近度系数矩阵、空间边,然后对经过初始计算的帧类别进行优化修订获得最终预测。
4.根据权利要求2所述的时空位置嵌入,其特征在于:采用struc2vec方法来学习联合表示,将这些表示传递到一个两层全连接的神经网络,得到空间位置嵌入,并应用于图转换骨架图块(SGT块)的时空变压器层。
5.根据权利要求2所述的时空图层,其特征在于:空间维度核大小为3,采用包含点积算子在内的数学算子对卷积的可学习权矩阵、归一化的邻接矩阵、对角节点度矩阵等进行计算,将相同身体部位的关节在时域中以非线性方式连接起来,通过批处理归一化层和激活函数后,采用残差的方式将输入的特征信息映射到输出。
6.根据权利要求2所述的自适应图策略,其特征在于:时序自适应块利用两个归一化内嵌高斯函数计算每两帧的相似度,将两个时间维度的嵌入被重构为两个不同尺度的矩阵,然后,将两个特征映射相乘,通过softmax层得到帧的相似函数。
7.根据权利要求2所述的自适应图策略,其特征在于:空间自适应块包含图本身、参数化图、嵌入图,通过乘法运算后,通过softmax层激活得到空间维度的相似矩阵,进而生成空间自适应块图层第n帧的输出骨架张量,结合自适应图策略,采用残差的方式,融合时序与空间方向上的信息。
8.根据权利要求2所述的时空变换层,其特征在于:利用空间注意中来捕捉网络中节点之间的相关性,通过级联操作与内积计算每对关节之间的关系,并采用softmax激活函数对空间相关矩阵的元素进行归一化,采用多头注意力,并随机将图中节点分开以学习关节之间的局部空间相关性,利用最大池化操作为每个部分生成独立的表示,然后计算不同部分之间的全局空间相关性,最后将各部分组成的局部空间特征与相应的全局特征相加,作为最终输出。
9.根据权利要求2所述的时空变换层,其特征在于:利用时序注意力描述了每个关节沿时序维度的运动轨迹,将输入信息中间层信息与STPE结合起来,并采用多个并行注意机制来计算时序注意得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657425.9A CN116778576A (zh) | 2023-06-05 | 2023-06-05 | 基于骨架的时序动作分割的时空图变换网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310657425.9A CN116778576A (zh) | 2023-06-05 | 2023-06-05 | 基于骨架的时序动作分割的时空图变换网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116778576A true CN116778576A (zh) | 2023-09-19 |
Family
ID=88012563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310657425.9A Withdrawn CN116778576A (zh) | 2023-06-05 | 2023-06-05 | 基于骨架的时序动作分割的时空图变换网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778576A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002003304A2 (en) * | 2000-06-30 | 2002-01-10 | Tct International Plc | Predicting changes in characteristics of an object |
WO2021220008A1 (en) * | 2020-04-29 | 2021-11-04 | Deep Render Ltd | Image compression and decoding, video compression and decoding: methods and systems |
KR102388806B1 (ko) * | 2021-04-30 | 2022-05-02 | (주)에이아이매틱스 | 주행 상황 판단 시스템 |
CN114973418A (zh) * | 2022-06-09 | 2022-08-30 | 常州大学 | 一种跨模态三维点云序列时空特征网络的行为识别方法 |
WO2022193412A1 (zh) * | 2021-03-15 | 2022-09-22 | 华南理工大学 | 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质 |
CN115311745A (zh) * | 2022-08-24 | 2022-11-08 | 中国传媒大学 | 一种花样滑冰分层动作识别方法 |
CN115393948A (zh) * | 2022-07-13 | 2022-11-25 | 河北大学 | 基于改进Transformer模型的手语视频生成方法 |
EP4099213A1 (en) * | 2021-05-31 | 2022-12-07 | Toyota Jidosha Kabushiki Kaisha | A method for training a convolutional neural network to deliver an identifier of a person visible on an image, using a graph convolutional neural network |
EP4181091A1 (en) * | 2021-11-16 | 2023-05-17 | Waymo Llc | Pedestrian behavior prediction with 3d human keypoints |
-
2023
- 2023-06-05 CN CN202310657425.9A patent/CN116778576A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002003304A2 (en) * | 2000-06-30 | 2002-01-10 | Tct International Plc | Predicting changes in characteristics of an object |
WO2021220008A1 (en) * | 2020-04-29 | 2021-11-04 | Deep Render Ltd | Image compression and decoding, video compression and decoding: methods and systems |
WO2022193412A1 (zh) * | 2021-03-15 | 2022-09-22 | 华南理工大学 | 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质 |
KR102388806B1 (ko) * | 2021-04-30 | 2022-05-02 | (주)에이아이매틱스 | 주행 상황 판단 시스템 |
EP4099213A1 (en) * | 2021-05-31 | 2022-12-07 | Toyota Jidosha Kabushiki Kaisha | A method for training a convolutional neural network to deliver an identifier of a person visible on an image, using a graph convolutional neural network |
EP4181091A1 (en) * | 2021-11-16 | 2023-05-17 | Waymo Llc | Pedestrian behavior prediction with 3d human keypoints |
CN114973418A (zh) * | 2022-06-09 | 2022-08-30 | 常州大学 | 一种跨模态三维点云序列时空特征网络的行为识别方法 |
CN115393948A (zh) * | 2022-07-13 | 2022-11-25 | 河北大学 | 基于改进Transformer模型的手语视频生成方法 |
CN115311745A (zh) * | 2022-08-24 | 2022-11-08 | 中国传媒大学 | 一种花样滑冰分层动作识别方法 |
Non-Patent Citations (3)
Title |
---|
XIAO YAN TIAN 等: "Spatial-temporal graph transformer network for skeleton-based temporal action segmentation", MULTIMED TOOLS APPL, pages 1 - 25 * |
ZHAO ZHANG 等: "Semantic Segmentation of Metal Surface Defects and Corresponding Strategies", IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, no. 72, pages 1 - 13 * |
杨青连: "基于3D骨骼序列的动态手势识别的局部时空同步网络模型", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 1873 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN110309732B (zh) | 基于骨架视频的行为识别方法 | |
CN112733656B (zh) | 基于多流空间注意力图卷积sru网络的骨架动作识别方法 | |
CN115063445B (zh) | 基于多尺度层次化特征表示的目标跟踪方法与系统 | |
CN108876044B (zh) | 一种基于知识增强神经网络的线上内容流行度预测方法 | |
CN113239897B (zh) | 基于时空特征组合回归的人体动作评价方法 | |
Zhao et al. | Spiking capsnet: A spiking neural network with a biologically plausible routing rule between capsules | |
CN111783540A (zh) | 一种视频中人体行为识别方法和系统 | |
Xu et al. | RGB-T salient object detection via CNN feature and result saliency map fusion | |
An et al. | Pedestrian re-identification algorithm based on visual attention-positive sample generation network deep learning model | |
Liu et al. | Relation-based discriminative cooperation network for zero-shot classification | |
CN114241515A (zh) | 一种基于时空上下文特征感知的三维人体姿态估计方法 | |
Habib et al. | Knowledge distillation in vision transformers: A critical review | |
Zhang et al. | Structure-feature fusion adaptive graph convolutional networks for skeleton-based action recognition | |
Jiang et al. | Cross-level reinforced attention network for person re-identification | |
Li et al. | Two‐stage single image dehazing network using swin‐transformer | |
CN116579505B (zh) | 一种无全寿命周期样本的机电设备跨域剩余寿命预测方法及系统 | |
Gao et al. | Dynamic spatiotemporal interactive graph neural network for multivariate time series forecasting | |
Bai et al. | Double chain networks for monocular 3D human pose estimation | |
CN116778576A (zh) | 基于骨架的时序动作分割的时空图变换网络 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN116148864A (zh) | 一种基于DyConvGRU和Unet的预测细化结构的雷达回波外推方法 | |
Chen et al. | MSTP-net: Multiscale spatio-temporal parallel networks for human motion prediction | |
CN113936333A (zh) | 一种基于人体骨架序列的动作识别算法 | |
CN115293399A (zh) | 一种基于时空图卷积网络的交通流量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230919 |
|
WW01 | Invention patent application withdrawn after publication |