CN113780129B - 基于无监督图序列预测编码的动作识别方法及存储介质 - Google Patents

基于无监督图序列预测编码的动作识别方法及存储介质 Download PDF

Info

Publication number
CN113780129B
CN113780129B CN202111009498.4A CN202111009498A CN113780129B CN 113780129 B CN113780129 B CN 113780129B CN 202111009498 A CN202111009498 A CN 202111009498A CN 113780129 B CN113780129 B CN 113780129B
Authority
CN
China
Prior art keywords
graph
sequence
data
network
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111009498.4A
Other languages
English (en)
Other versions
CN113780129A (zh
Inventor
赵生捷
梁爽
叶珂男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111009498.4A priority Critical patent/CN113780129B/zh
Publication of CN113780129A publication Critical patent/CN113780129A/zh
Application granted granted Critical
Publication of CN113780129B publication Critical patent/CN113780129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于无监督图序列预测编码的动作识别方法及存储介质,其中,动作识别方法,包括模型的训练与使用,用于识别骨骼序列中的人体所进行的各种动作,旨在解决现有动作识别方法高度依赖大量的有标注数据,在仅有少量标注的情况下精度较低与现有无监督方法过拟合没有利用图的拓扑信息及严重泛化能力较差的问题。本系统方法包括对骨骼序列数据的视角不变变换、重采样与块级骨骼图数据增强;时空图卷积骨骼序列块嵌入表示提取;图卷积循环神经网络聚合上下文特征;预测编码构造正、负样本对;通过预训练模型提取特征利用分类器得到待识别骨骼序列对应的动作类别。与现有技术相比,本发明具有训练难度低、识别精度高、性能优异等优点。

Description

基于无监督图序列预测编码的动作识别方法及存储介质
技术领域
本发明涉及动作识别技术领域,尤其是涉及一种基于无监督图序列预测编码的动作识别方法及存储介质。
背景技术
在计算机视觉任务中,动作识别是现在备受关注的热点问题。无人驾驶机器人、智慧城市、智能交通等领域都需要对人体的行为进行分析识别。近年来,随着图卷积被越来越多的研究者重视与利用,位姿估计算法和深度传感器的发展,以及骨架数据的鲁棒性与去视觉特征专注于动作本身的特点,利用骨架数据的动作识别成为了目前研究的热点。
早期的动作识别主要基于静态图片。近年来,随着研究的深入,越来越多的研究人员对动作的动态本质给予了更多的关注,因此将注意力转向基于视频的动作识别。基于视频的动作识别相比于基于静态图片的方法最显著的不同是增加了时间维度,数据变成了2D图片的时间序列。但时间维度提供丰富的特征的同时,也带来了巨大的挑战——算力与存储空间的增加。基于骨骼的动作识别减轻了动作识别算法的计算需求,但大多数方法都是基于有监督的任务,高度依赖于数据集样本的数量与质量。由于动作的高度的类间相似性,准确地标注足够的数据来训练深度学习模型是一件具有挑战性、代价巨大的问题,因此迫切需要研究人员找到一种健壮的、无标签的方法来学习动作识别的表示更好地利用时间和空间信息。现有的无监督工作试图解决使用编码器的潜在嵌入来绘制或重建骨架序列的借口任务。然而,这些编解码器模型通常将空间通道展平为单一的特征向量,忽略了骨架图的空间关系。并且这些借口任务通常存在过拟合的问题,并且在下游任务中并不总是有帮助。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种训练难度低、识别精度高、性能优异的基于无监督图序列预测编码的动作识别方法及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于无监督图序列预测编码的动作识别方法,所述的动作识别方法包括:
步骤1:获取骨骼数据序列,并对数据序列进行预处理,获得输入训练数据块;
步骤2:将输入训练数据块输入时空图卷积网络f(·),获得序列骨骼图块的嵌入表示,并将其输入到循环神经网络g(·),聚合上下文信息;
步骤3:根据上下文信息,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示,预测得到的嵌入表示也输入进循环神经网络g(·)中,得到新的上下文表示,重复若干次得到一系列预测的图嵌入表示;
步骤4:将得到的预测图嵌入表示与真实图嵌入表示进行比较,通过对比损失函数反向传导优化上述时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),经过若干次迭代,得到预训练模型;
步骤5:根据得到的预训练模型去掉预测网络Φ(·),将时空图卷积网络f(·)与循环神经网络g(·)部分作为特征提取器,在其上层添加分类器,再经过输入有标签数据的训练,得到最终分类模型;
步骤6:获取待检测的骨骼数据序列,并对其进行预处理,获得输入预测数据块;
步骤7:将输入预测数据块输入分类模型,对需要进行识别的人的各类动作概率进行预测,完成动作识别。
优选地,所述的步骤1具体为:
步骤1-1:对于给定骨骼序列数据X,经过视角不变变换F(·),得到矫正视角的骨骼序列数据
Figure BDA0003238364090000021
步骤1-2:对于给定矫正视角后的骨骼序列数据
Figure BDA0003238364090000022
和输入样本窗口大小Twindow,首先,将具有Tsample帧的骨架序列采用线性插值上采样为Twindow×k帧的序列,其中k∈N+,Twindow·(k-1)<Tsample<Twindow·k;
步骤1-3:对于前置步骤得到的插值后的数据
Figure BDA0003238364090000023
切分为包含Tpatch帧的序列块,P={p1,p2,...,pn},对于每个序列块pi应用随机骨骼图数据增强,最终得到增强后的骨骼序列块/>
Figure BDA0003238364090000024
优选地,所述的步骤2具体为:
步骤2-1:根据步骤1中得到的骨骼序列块
Figure BDA0003238364090000025
将输入数据块输入时空图卷积网络f(·)中,得到嵌入表示/>
Figure BDA0003238364090000031
步骤2-2:根据步骤2-1:得到的嵌入表示
Figure BDA0003238364090000032
输入图卷积循环神经网络g(·)中得到上下文表示Ci
优选地,所述的步骤3具体为:
步骤3-1:根据步骤2得到的上下文信息Ci,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示
Figure BDA0003238364090000033
步骤3-2:根据步骤3-1得到的图嵌入表示
Figure BDA0003238364090000034
通过图卷积循环神经网络g(·)获得上下文信息/>
Figure BDA0003238364090000035
步骤3-3:根据步骤3-2得到的上下文信息
Figure BDA0003238364090000036
以此类推重复步骤3-1和步骤3-2若干次,得到一系列预测的图嵌入表示/>
Figure BDA0003238364090000037
优选地,所述的时空图卷积网络f(·)与循环神经网络g(·)均基于图卷积神经网络构建,预测网络Φ(·)基于神经网络构建。
更加优选地,所述的时空图卷积网络f(·)与循环神经网络g(·)的图卷积规则为:
Figure BDA0003238364090000038
其中,
Figure BDA0003238364090000039
和/>
Figure BDA00032383640900000310
分别表示输入特征图与输出特征图;/>
Figure BDA00032383640900000311
为图定义的领接矩阵A加上单位矩阵I,即节点自身也链接节点自身,/>
Figure BDA00032383640900000312
表示其对角度矩阵,τ表示激活函数,Θ表示图卷积层的可学习权重矩阵。
更加优选地,所述的循环神经网络g(·)的构造基于门控循环单元GRU,计算规则为:
Figure BDA00032383640900000313
Figure BDA00032383640900000314
Figure BDA00032383640900000315
Figure BDA00032383640900000316
其中,zt表示更新门,rt表示复位门,
Figure BDA00032383640900000317
表示候选激活向量;/>
Figure BDA00032383640900000318
为图形卷积运算符;⊙表示哈达玛积;σ表示Sigmoid激活函数,ψ为Tanh激活函数;ωzz、ωhz、ωzr和ωhr分别为各记忆门参数;qt为记忆/遗忘权重。
优选地,所述步骤4中的对比损失函数具体为:
Figure BDA0003238364090000041
其中,zi,k
Figure BDA0003238364090000042
分别表示取自第i个样本的zk与/>
Figure BDA0003238364090000043
Figure BDA0003238364090000044
表示嵌入表示对
Figure BDA0003238364090000045
的相似度。
优选地,所述的步骤5具体为:
步骤5-1:根据步骤4得到的与训练模型包含时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),仅取用f(·)与g(·),将Φ(·)更换为分类器网络
Figure BDA0003238364090000046
构建分类模型;
步骤5-2:输入有标签的训练数据,经过标注数据训练,得到最终分类模型。
一种存储介质,所述的存储介质存储有如上述任一项所属的基于无监督图序列预测编码的动作识别方法。
与现有技术相比,本发明具有以下有益效果:
一、训练难度低本发明中基于无监督图卷积的骨架动作识别框架可以从未标记的数据中通过对比学习来学习人体动作的有效表示,减少了样本标注的需求,简化了训练难度。
二、识别精度高:本发明中基于无监督图序列预测编码的动作识别方法利用图形卷积和对比学习来同时充分利用空间和时间依赖性,避免了生成性学习和基于样本的对比学习在基于无监督骨架的动作识别中的局限,提高了动作识别精度。
三、性能优异:本发明中基于无监督图序列预测编码的动作识别方法对于无监督的基于骨架的动作识别,在三个基准数据集上与最新的SOTA方法对比,性能笔SOTA高出20%。
附图说明
图1为本发明中动作识别方法的流程图;
图2为本发明中整个框架的工作流程示意图;
图3为本发明中基于对比学习的与训练模型训练示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本实施例提供基于无监督图卷积的骨架动作识别方法,最主要的目的就是利用无监督对比学习方法从没标注过的数据中学习动作识别的表示,同时最大化利用骨架序列的时间信息与骨架图的空间信息,通过少量标注数据对学习到的表示进行分类模型训练,以便更精确地识别人物动作。
如图1和图2所示本实施例中基于无监督图序列预测编码的动作识别方法主要包含以下步骤:
步骤1:获取骨骼数据序列,经过视角不变变换、时间窗口重采样与块级数据增强对数据进行预处理,获得固定窗口大小的被切分为特定长度的输入训练数据块;
具体为:
步骤1-1:对于给定骨骼序列数据X,经过视角不变变换F(·),得到矫正视角的骨骼序列数据
Figure BDA0003238364090000051
步骤1-2:对于给定矫正视角后的骨骼序列数据
Figure BDA0003238364090000052
和输入样本窗口大小Twindow,首先,将具有Tsample帧的骨架序列采用线性插值上采样为Twindow×k帧的序列,其中k∈N+,Twindow·(k-1)<Tsample<Twindow·k;
步骤1-3:对于前置步骤得到的插值后的数据
Figure BDA0003238364090000053
切分为包含Tpatch帧的序列块,P={p1,p2,...,pn},对于每个序列块pi应用随机骨骼图数据增强,块内使用同样的增强,块间使用不同增强;增强包括位移、倾斜与旋转,最终得到增强后的骨骼序列块
Figure BDA0003238364090000054
步骤2:将输入训练数据块输入时空图卷积网络f(·),获得序列骨骼图块的嵌入表示,并将其输入到循环神经网络g(·),聚合上下文信息;
具体为:
步骤2-1:根据步骤1中得到的骨骼序列块
Figure BDA0003238364090000055
将输入数据块输入时空图卷积网络f(·)中,得到嵌入表示/>
Figure BDA0003238364090000056
步骤2-2:根据步骤2-1:得到的嵌入表示
Figure BDA0003238364090000057
输入图卷积循环神经网络g(·)中得到上下文表示Ci
步骤3:根据上下文信息,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示,预测得到的嵌入表示也输入进循环神经网络g(·)中,得到新的上下文表示,重复若干次得到一系列预测的图嵌入表示;
具体为:
步骤3-1:根据步骤2得到的上下文信息Ci,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示
Figure BDA0003238364090000061
步骤3-2:根据步骤3-1得到的图嵌入表示
Figure BDA0003238364090000062
通过图卷积循环神经网络g(·)获得上下文信息/>
Figure BDA0003238364090000063
步骤3-3:根据步骤3-2得到的上下文信息
Figure BDA0003238364090000064
以此类推重复步骤3-1和步骤3-2若干次,得到一系列预测的图嵌入表示/>
Figure BDA0003238364090000065
步骤4:将得到的预测图嵌入表示与真实图嵌入表示进行比较,通过对比损失函数反向传导优化上述时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),经过若干次迭代,得到预训练模型,如图3所示;
本实施例中时空图卷积网络f(·)与循环神经网络g(·)均基于图卷积神经网络构建,预测网络Φ(·)基于神经网络构建;
时空图卷积网络f(·)与循环神经网络g(·)的图卷积规则为:
Figure BDA0003238364090000066
其中,
Figure BDA0003238364090000067
和/>
Figure BDA0003238364090000068
分别表示输入特征图与输出特征图;/>
Figure BDA0003238364090000069
为图定义的领接矩阵A加上单位矩阵I,即节点自身也链接节点自身,/>
Figure BDA00032383640900000610
表示其对角度矩阵,τ表示激活函数,Θ表示图卷积层的可学习权重矩阵;
循环神经网络g(·)的构造基于门控循环单元GRU,计算规则为:
Figure BDA00032383640900000611
Figure BDA00032383640900000612
Figure BDA00032383640900000613
Figure BDA00032383640900000614
其中,zt表示更新门,rt表示复位门,
Figure BDA00032383640900000615
表示候选激活向量;/>
Figure BDA00032383640900000616
为图形卷积运算符;⊙表示哈达玛积;σ表示Sigmoid激活函数,ψ为Tanh激活函数;ωzz、ωhz、ωzr和ωhr分别为各记忆门参数;qt为记忆/遗忘权重。
对比损失函数具体为:
Figure BDA0003238364090000071
其中,zi,k
Figure BDA0003238364090000072
分别表示取自第i个样本的zk与/>
Figure BDA0003238364090000073
Figure BDA0003238364090000074
表示嵌入表示对
Figure BDA0003238364090000075
的相似度;
步骤5:根据得到的预训练模型去掉预测网络Φ(·),将时空图卷积网络f(·)与循环神经网络g(·)部分作为特征提取器,在其上层添加分类器,再经过输入有标签数据的训练,得到最终分类模型;
具体为:
步骤5-1:根据步骤4得到的与训练模型包含时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),仅取用f(·)与g(·),将Φ(·)更换为分类器网络
Figure BDA0003238364090000077
构建分类模型;
步骤5-2:输入有标签的训练数据,经过标注数据训练,得到最终分类模型;
步骤6:获取待检测的骨骼数据序列,并对其进行预处理,获得输入预测数据块;
步骤7:将输入预测数据块输入分类模型,对需要进行识别的人的各类动作概率进行预测,完成动作识别。
本实施例中预测网络Φ(·)为单层全连接神经网络构建,分类器网络
Figure BDA0003238364090000078
为多分类分类器,通过多层感知机等方法训练获取。
为了支持以及验证本发明提出的动作识别方法性能,在三个被广泛使用的公开标准数据集上,将本方法同其它最新最前沿的动作识别方法进行了比较,比较结果如表1所示。
实验比较使用了三个广泛使用的公开标准数据集:NTU RGB+D 60、Northwestern-UCLA(NW-UCLA)与UWA3D Multiview Activity II(UWA3D)。实验采用无监督学习方法广泛使用的线性探针验证法验证,即固定预训练模型权重,训练一个以与训练模型输出特征为输入的线性分类器,并报告测试集的性能以衡量学习表征的有效性。
表1比较结果
Figure BDA0003238364090000076
Figure BDA0003238364090000081
比较结果表示,本实施例中提出的动作识别方法性能优异。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的动作识别方法包括:
步骤1:获取骨骼数据序列,并对数据序列进行预处理,获得输入训练数据块;
步骤2:将输入训练数据块输入时空图卷积网络f(·),获得序列骨骼图块的嵌入表示,并将其输入到循环神经网络g(·),聚合上下文信息;
步骤3:根据上下文信息,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示,预测得到的嵌入表示也输入进循环神经网络g(·)中,得到新的上下文表示,重复若干次得到一系列预测的图嵌入表示;
步骤4:将得到的预测图嵌入表示与真实图嵌入表示进行比较,通过对比损失函数反向传导优化上述时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),经过若干次迭代,得到预训练模型;
步骤5:根据得到的预训练模型去掉预测网络Φ(·),将时空图卷积网络f(·)与循环神经网络g(·)部分作为特征提取器,在其上层添加分类器,再经过输入有标签数据的训练,得到最终分类模型;
步骤6:获取待检测的骨骼数据序列,并对其进行预处理,获得输入预测数据块;
步骤7:将输入预测数据块输入分类模型,对需要进行识别的人的各类动作概率进行预测,完成动作识别。
2.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的步骤1具体为:
步骤1-1:对于给定骨骼序列数据X,经过视角不变变换F(·),得到矫正视角的骨骼序列数据
Figure FDA0003238364080000011
步骤1-2:对于给定矫正视角后的骨骼序列数据
Figure FDA0003238364080000012
和输入样本窗口大小Twindow,首先,将具有Tsample帧的骨架序列采用线性插值上采样为Twindow×k帧的序列,其中k∈N+,Twindow·(k-1)<Tsample<Twindow·k;
步骤1-3:对于前置步骤得到的插值后的数据
Figure FDA0003238364080000013
切分为包含Tpatch帧的序列块,P={p1,p2,...,pn},对于每个序列块pi应用随机骨骼图数据增强,最终得到增强后的骨骼序列块
Figure FDA0003238364080000021
3.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的步骤2具体为:
步骤2-1:根据步骤1中得到的骨骼序列块
Figure FDA0003238364080000022
将输入数据块输入时空图卷积网络f(·)中,得到嵌入表示/>
Figure FDA0003238364080000023
步骤2-2:根据步骤2-1:得到的嵌入表示
Figure FDA0003238364080000024
输入图卷积循环神经网络g(·)中得到上下文表示Ci
4.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的步骤3具体为:
步骤3-1:根据步骤2得到的上下文信息Ci,通过预测网络Φ(·)预测下一序列的骨骼图块嵌入表示
Figure FDA0003238364080000025
步骤3-2:根据步骤3-1得到的图嵌入表示
Figure FDA0003238364080000026
通过图卷积循环神经网络g(·)获得上下文信息/>
Figure FDA0003238364080000027
步骤3-3:根据步骤3-2得到的上下文信息
Figure FDA0003238364080000028
以此类推重复步骤3-1和步骤3-2若干次,得到一系列预测的图嵌入表示/>
Figure FDA0003238364080000029
5.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的时空图卷积网络f(·)与循环神经网络g(·)均基于图卷积神经网络构建,预测网络Φ(·)基于神经网络构建。
6.根据权利要求5所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的时空图卷积网络f(·)与循环神经网络g(·)的图卷积规则为:
Figure FDA00032383640800000210
其中,
Figure FDA00032383640800000211
和/>
Figure FDA00032383640800000212
分别表示输入特征图与输出特征图;/>
Figure FDA00032383640800000213
为图定义的领接矩阵A加上单位矩阵I,即节点自身也链接节点自身,/>
Figure FDA00032383640800000214
表示其对角度矩阵,τ表示激活函数,Θ表示图卷积层的可学习权重矩阵。
7.根据权利要求5所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的循环神经网络g(·)的构造基于门控循环单元GRU,计算规则为:
Figure FDA0003238364080000031
Figure FDA0003238364080000032
Figure FDA0003238364080000033
Figure FDA0003238364080000034
其中,zt表示更新门,rt表示复位门,
Figure FDA0003238364080000035
表示候选激活向量;/>
Figure FDA0003238364080000036
为图形卷积运算符;⊙表示哈达玛积;σ表示Sigmoid激活函数,ψ为Tanh激活函数;ωzz、ωhz、ωzr和ωhr分别为各记忆门参数;qt为记忆/遗忘权重。
8.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述步骤4中的对比损失函数具体为:
Figure FDA0003238364080000037
其中,zi,k
Figure FDA0003238364080000038
分别表示取自第i个样本的zk与/>
Figure FDA0003238364080000039
Figure FDA00032383640800000310
表示嵌入表示对
Figure FDA00032383640800000311
的相似度。
9.根据权利要求1所述的一种基于无监督图序列预测编码的动作识别方法,其特征在于,所述的步骤5具体为:
步骤5-1:根据步骤4得到的与训练模型包含时空图卷积网络f(·)、图卷积循环神经网络g(·)与预测网络Φ(·),仅取用f(·)与g(·),将Φ(·)更换为分类器网络
Figure FDA00032383640800000312
构建分类模型;
步骤5-2:输入有标签的训练数据,经过标注数据训练,得到最终分类模型。
10.一种存储介质,其特征在于,所述的存储介质存储有如权利要求1~9中任一项所属的基于无监督图序列预测编码的动作识别方法。
CN202111009498.4A 2021-08-31 2021-08-31 基于无监督图序列预测编码的动作识别方法及存储介质 Active CN113780129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009498.4A CN113780129B (zh) 2021-08-31 2021-08-31 基于无监督图序列预测编码的动作识别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009498.4A CN113780129B (zh) 2021-08-31 2021-08-31 基于无监督图序列预测编码的动作识别方法及存储介质

Publications (2)

Publication Number Publication Date
CN113780129A CN113780129A (zh) 2021-12-10
CN113780129B true CN113780129B (zh) 2023-07-04

Family

ID=78840308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009498.4A Active CN113780129B (zh) 2021-08-31 2021-08-31 基于无监督图序列预测编码的动作识别方法及存储介质

Country Status (1)

Country Link
CN (1) CN113780129B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019397B (zh) * 2022-06-15 2024-04-19 北京大学深圳研究生院 一种基于时空信息聚合的对比自监督人体行为识别方法及系统
CN115035606B (zh) * 2022-08-11 2022-10-21 天津大学 一种基于片段驱动对比学习的骨骼动作识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及系统
CN111339942A (zh) * 2020-02-26 2020-06-26 山东大学 基于视点调整的图卷积循环网络骨骼动作识别方法及系统
WO2021069945A1 (en) * 2019-10-09 2021-04-15 Toyota Motor Europe Method for recognizing activities using separate spatial and temporal attention weights

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
WO2021069945A1 (en) * 2019-10-09 2021-04-15 Toyota Motor Europe Method for recognizing activities using separate spatial and temporal attention weights
CN111339942A (zh) * 2020-02-26 2020-06-26 山东大学 基于视点调整的图卷积循环网络骨骼动作识别方法及系统
CN111310707A (zh) * 2020-02-28 2020-06-19 山东大学 基于骨骼的图注意力网络动作识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于残差时空图卷积网络的3D人体行为识别;管珊珊;张益农;;计算机应用与软件(03);全文 *

Also Published As

Publication number Publication date
CN113780129A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Mukhopadhyay et al. Facial emotion recognition based on textural pattern and convolutional neural network
CN113780129B (zh) 基于无监督图序列预测编码的动作识别方法及存储介质
CN111582210B (zh) 基于量子神经网络的人体行为识别方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN113158815B (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115100709B (zh) 一种特征分离的图像人脸识别与年龄估计方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
Liang et al. Context-aware network for RGB-D salient object detection
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN117154256A (zh) 锂电池的电化学修复方法
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
CN110135253B (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
Nimbarte et al. Biased face patching approach for age invariant face recognition using convolutional neural network
CN107679505B (zh) 一种实现对手写体字符拒识的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant