CN115019397A - 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 - Google Patents
一种基于时空信息聚合的对比自监督人体行为识别方法及系统 Download PDFInfo
- Publication number
- CN115019397A CN115019397A CN202210680841.6A CN202210680841A CN115019397A CN 115019397 A CN115019397 A CN 115019397A CN 202210680841 A CN202210680841 A CN 202210680841A CN 115019397 A CN115019397 A CN 115019397A
- Authority
- CN
- China
- Prior art keywords
- encoder
- skeleton
- information
- similarity
- similarity matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002776 aggregation Effects 0.000 title claims abstract description 15
- 238000004220 aggregation Methods 0.000 title claims abstract description 15
- 238000012544 monitoring process Methods 0.000 title description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 18
- 210000000988 bone and bone Anatomy 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009340 sequential cropping Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统。该方法对输入的骨架动作序列进行数据增强得到增强后的两个动作序列;利用第一编码器和第二编码器即动量更新编码器将其编码成特征向量;利用预测器得到另一组特征向量,通过损失函数构造有效的单个数据流的特征空间。进一步地,计算骨架序列的运动信息和骨骼信息,并同样作为上述步骤的输入,并在得到特征之后计算特征相似度,数据流内部的相似度矩阵做尖锐处理,并在不同数据流间投票融合,得到相似度伪标签,将时空信息有效聚合后约束单个数据流的分布,来训练更优的模型。本发明训练得到的模型可以在实际应用中取得很好的行为识别效果。
Description
技术领域
本发明属于机器人视觉技术和智能监控领域,具体涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统;通过自监督学习范式分别针对关节点信息、骨骼信息以及运动信息进行训练,进一步地,在训练过程中将时空信息通过不断交互的方式有效聚合,来训练更优的模型,可以在实际应用中取得很好的行为识别效果。
背景技术
目前,行为识别在智能监控、人机交互、视频内容分析等领域有着广泛的应用前景,受到了越来越多的关注。特别的,骨架数据相比于图像数据对背景、外观、光照的变化具有较强的鲁棒性,且数据量小,近年来深度传感器和姿态估计算法的发展也使得骨架数据的获得变得容易,因此骨架行为识别逐渐成为行为识别领域一个研究热点。然而,现有的骨架行为识别方法通常需要大量标注好的“数据-标签”对,且行为识别性能有限。因此,自监督骨架行为识别的需求变得迫切,因为其可以在代理任务中利用大量的无标签数据,并在实际下游任务应用时能够实现很好的性能。
基于动作重建的自监督骨架行为识别方法致力于通过重建任务提取关键的时空特征,常见的解决方案是利用编码器-解码器框架实现端到端的序列重建(Nenggan Zheng,Jun Wen,Risheng Liu,Liangqu Long,Jianhua Dai,and Zhefeng Gong.Unsupervisedrepresentation learning with long-term dynamics for skeleton based actionrecognition.AAAI,2018.),而编码器输出的特征向量则能够很好地表征该动作序列。有文献在此基础上提出了弱化解码器的方法来迫使编码器学习到更优的特征(Kun Su,XiulongLiu,and Eli Shlizerman.Predict&cluster:Unsupervised skeleton based actionrecognition.CVPR,2020:9631–9640.)。
基于对比学习的自监督骨架行为识别不专注于骨架行为序列的每一个细节,而是关注实例级别的特征,能够通过对比损失构造出更有判别力的特征空间。一种常见的解决方案(Linguo Li,Minsi Wang,Bingbing Ni,Hang Wang,Jiancheng Yang,WenjunZhang.3D human action representation learning via cross-view consistencypursuit.CVPR:4741–4750.)是利用图像领域常见的自监督对比学习框架,并将其扩展到自监督骨架行为识别领域。
对比来看,虽然这些方法推动了自监督骨架行为识别领域的发展,但仍存在诸多限制。例如,基于重建的自监督方法专注于重建出序列,对于运动模式的变化就相对较为敏感;基于对比学习的方法则需要精心设计相关的策略来维护负样本,并且时空数据之间的交互不够充分。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种基于时空信息聚合的对比自监督人体行为识别方法及系统。通过单个数据流的无负样本对比学习和多个数据流时空信息的有效聚合实现了高效的自监督骨架行为识别。本发明既不需要采用显式的负样本,又能够有效地聚合时空信息,进而实现更准确的行为识别。
本发明采用的技术方案如下:
一种基于时空信息聚合的对比自监督人体行为识别方法,包括以下步骤:
1)输入一段骨架动作序列;
2)对输入的一段骨架动作序列进行数据增强得到两段增强后的骨架动作序列;
3)利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量,并将第一编码器输出的特征向量连接预测器,得到预测器输出的特征向量,并计算损失函数;
4)对于增强后的两段骨架动作序列,分别计算出运动信息和骨骼信息;
5)对步骤4)计算出的运动信息和骨骼信息,同样作为输入进行步骤3)的处理(即对运动信息和骨骼信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理),并最终得到相应的特征向量;
6)将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算,得到相似度矩阵;
7)将步骤6)得到的三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票,得到相似度矩阵伪标签,并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签;
8)实际部署阶段,利用步骤1)-步骤7)训练好的第一编码器实现最终的行为识别。
进一步地,步骤1)中提及的骨架数据,可以是深度传感器得到的数据,也可以是由姿态估计算法得到的数据。
进一步地,步骤2)所述数据增强为剪切和时序裁剪,一个输入的骨架动作序列最终增强得到两个骨架动作序列。
进一步地,步骤3)采用的第一编码器为骨架行为识别时空图卷积网络ST-GCN,采用L2损失函数约束特征相似,进而构造特征空间。
进一步地,步骤3)采用的第二编码器为动量更新编码器,不同于第一编码器依靠损失函数反传的梯度进行更新,第二编码器利用自己本身的参数和第一编码器的参数进行更新。
进一步地,步骤4)对于增强后的两段骨架动作序列,通过相邻帧对应相减计算出运动信息,通过相邻关节点对应相减计算出骨骼信息。
进一步地,步骤7)使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐,并执行“与”操作来获得单个数据流中的相似度矩阵伪标签,其中Sharpen(·)操作是将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1,将其他元素设置为0。
进一步地,步骤8)利用训练完成的第一编码器连接一个分类器来实现最终的人体行为识别。
一种基于时空信息聚合的对比自监督人体行为识别系统,包括以下步骤:
关节点信息数据流处理模块,用于对输入的一段骨架动作序列进行数据增强,得到增强后的两段骨架动作序列;利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量,并将第一编码器输出的特征向量连接预测器,得到预测器输出的特征向量,并计算损失函数;
运动信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出运动信息,对计算出的运动信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
骨骼信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出骨骼信息,对计算出的骨骼信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
时空信息聚合模块,用于将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算,得到相似度矩阵;将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票,得到相似度矩阵伪标签,并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签;
人体行为识别模块,用于利用训练完成的第一编码器实现最终的人体行为识别。
本发明的有益效果如下:
本发明提出了一种新的自监督骨架行为识别框架,可以无需负样本实现自监督骨架行为识别。本发明提出了一种高效的时空信息聚合方式,将时空信息有效地聚合,进而得到更加可靠的特征。该发明可被引入智能监控系统、行为识别系统中,实现更加完备的智能监控技术。
附图说明
图1.基于单个数据流的自监督模型训练示意图。
图2.基于多个数据流的自监督模型训练示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
如图1为本发明的单个数据流模型,包括步骤1)-步骤3)这几个步骤,图2为本发明在单个数据流模型的基础上构建的模型,包括步骤4)-步骤7)。
步骤1),输入骨架动作序列。
骨架动作序列即图2中的关节点信息。设输入的原始骨架动作序列为s,在实际训练过程中,输入的骨架动作序列数据往往为一批数据,以保证在训练优化过程中能更稳定地优化模型参数。
步骤2),利用时间域和空间域的数据增强方式对步骤1)输入的骨架数据进行数据增强。
空间域的增强方式为剪切(Shear),剪切增强是在空间维度上的一个线性变换。身体关节的三维坐标形状呈随机角度倾斜,变换矩阵的定义为:
其中,a12、a13、a21、a23、a31、a32是从均匀分布[-β,β]中随机抽样的剪切因子,β是剪切振幅。在本发明一个实施例中,设置β=0.5,然后将骨架序列s在通道维度上乘以变换矩阵A。
时间域的增强方式为时序裁剪,具体来说,对称地将一些帧填充到序列s上,然后将其随机裁剪到原始长度。填充长度定义为T/γ,其中γ是填充比,在本发明中我们设置γ=6。
这样,通过时间域和空间域的增强,一个输入的骨架动作序列s可以得到随机增强的两个骨架动作序列x和x′。
步骤3,设第一编码器为fθ(·),其参数为θ,第二编码器为fξ(·),其参数为ξ。其中,第一编码器是骨干网络和多层感知机的组合,第二编码器也称为动量更新编码器,和第一编码器有着一样的结构,但参数更新方式不同,第一编码器通过损失函数梯度反向传播更新参数,第二编码器即动量更新编码器的参数更新如下:
ξ←τξ+(1-τ)θ
其中,τ表示目标衰减率且τ∈[0,1]。第二编码器之所以称为动量更新编码器,是因为不同于第一编码器依靠损失函数反传的梯度进行更新,第二编码器的参数利用自己本身的参数和第一编码器的参数进行更新。
对于增强后的两个骨架动作序列x和x′,将其分别送入第一编码器和第二编码器,进而编码成特征向量:
zθ=fθ(x),z′θ=fθ(x′),zξ=fξ(x),z′ξ=fξ(x′)
进一步地,利用预测器qθ(·)(多层感知机结构)得到特征向量qθ(zθ)、qθ(z′θ),并计算损失函数:
其中,sg(zξ)、sg(z′ξ)表示将zξ和z′ξ停止梯度传播得到的特征向量。
步骤4),对于增强后的两段骨架动作序列,通过相邻帧对应相减计算出运动信息,通过相邻关节点对应相减计算出骨骼信息。
步骤5),将骨骼信息和运动信息同样作为步骤3)的输入,即图2中的单个数据流框架,得到相应的特征向量。具体包括:
将骨骼信息进行数据增强,得到两段增强后的骨骼信息序列,然后将两段增强后的骨骼信息序列经过第一编码器、第二编码器、预测器的处理,得到骨骼信息的特征向量;
将运动信息进行数据增强,得到两段增强后的运动信息序列,然后将两段增强后的运动信息序列经过第一编码器、第二编码器、预测器的处理,得到运动信息的特征向量。
步骤6),将三种不同数据流得到的特征向量进行批量内的相似度计算。以一个数据流(骨架动作序列数据流)为例,以批量的形式将qθ(zθ),qθ(z′θ),sg(zξ),sg(z′ξ)进行L2正则化,分别得到Q,Q′,K,K′,接着计算骨架动作序列数据流的余弦相似度(即相似度矩阵):
Sjoint=QK′T,S′joint=Q′KT
相应地,骨骼信息数据流的相似度矩阵Sbone,S′bone、运动信息数据流的相似度矩阵Smotion,S′motion也可以用类似的方式得到。
步骤7),本发明希望得到一个更尖锐的相似度矩阵来获得一个更有区别的特征空间。因此,使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐,并执行“与”操作来获得单个数据流(骨架动作序列数据流)中的相似度矩阵伪标签:
其中,Sharpen(·)操作是指将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1,将其他元素设置为0,以得到更尖锐的相似度矩阵。同样地,也可以分别得到其中为骨骼信息数据流的相似度矩阵伪标签,为运动信息数据流的相似度矩阵伪标签。
其中vote(·)表示对结果进行集成,确定每个元素的值为1或0。具体来说,当有两个以上的数据流认为该元素应该是1时,它将是1,否则,它将是0。
本发明提出使用作为监督信号来优化每个数据流的相似度矩阵,然后优化后的每个数据流的相似矩阵可以更好地生成这样,就可以有效地聚合不同流之间的信息,从而获得更好的特征表示。因此,相似度差异最小化损失可以这样计算:
其中Si∈{Sjoint,S′joint,Smotion,S′motion,Sbone,S′bone}。
采用的相似度差异最小化损失函数能够有效地提升单个数据流和集成结果的相似性,进而增益模型表现。
步骤8),实际部署阶段,利用步骤1)-步骤7)训练好的第一编码器连接一个分类器即可实现最终的行为识别。
实验数据:在不同的数据集上,采用本发明方法得到的人体行为识别的准确率如表1所示。
表1
数据集 | 本发明的准确率 |
NTU-60跨受试者协议 | 78.6% |
NTU-60跨视角协议 | 84.5% |
NTU-120跨受试者协议 | 68.5% |
NTU-120跨视角协议 | 71.1% |
基于同一发明构思,本发明的另一实施例提供一种基于时空信息聚合的对比自监督人体行为识别系统,包括以下步骤:
关节点信息数据流处理模块,用于对输入的一段骨架动作序列进行数据增强,得到增强后的两段骨架动作序列;利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量,并将第一编码器输出的特征向量连接预测器,得到预测器输出的特征向量,并计算损失函数;
运动信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出运动信息,对计算出的运动信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
骨骼信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出骨骼信息,对计算出的骨骼信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
时空信息聚合模块,用于将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算,得到相似度矩阵;将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票,得到相似度矩阵伪标签,并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签;
人体行为识别模块,用于利用训练完成的第一编码器实现最终的人体行为识别。
其中各模块的具体实施过程参见前文对本发明方法的描述。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于时空信息聚合的对比自监督人体行为识别方法,包括以下步骤:
对输入的一段骨架动作序列进行数据增强,得到增强后的两段骨架动作序列;
利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量,并将第一编码器输出的特征向量连接预测器,得到预测器输出的特征向量,并计算损失函数;
对于增强后的两段骨架动作序列,分别计算出运动信息和骨骼信息;
对计算出的运动信息和骨骼信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算,得到相似度矩阵;
将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票,得到相似度矩阵伪标签,并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签;
利用训练完成的第一编码器实现最终的人体行为识别。
2.如权利要求1所述的方法,其特征在于,所述数据增强为剪切和时序裁剪,一个输入的骨架动作序列最终增强得到两个骨架动作序列。
3.如权利要求1所述的方法,其特征在于,所述第一编码器为骨架行为识别时空图卷积网络ST-GCN,采用L2损失函数约束特征相似,进而构造特征空间。
4.如权利要求1所述的方法,其特征在于,所述第二编码器为动量更新编码器,不同于第一编码器依靠损失函数反传的梯度进行更新,第二编码器利用自己本身的参数和第一编码器的参数进行更新。
5.如权利要求1所述的方法,其特征在于,所述对于增强后的两段骨架动作序列,分别计算出运动信息和骨骼信息,包括:对于增强后的两段骨架动作序列,通过相邻帧对应相减计算出运动信息,通过相邻关节点对应相减计算出骨骼信息。
6.如权利要求1所述的方法,其特征在于,所述得到相似度矩阵伪标签,是使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐,并执行“与”操作来获得单个数据流中的相似度矩阵伪标签,其中Sharpen(·)操作是将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1,将其他元素设置为0。
7.如权利要求1所述的方法,其特征在于,所述利用训练完成的第一编码器实现最终的人体行为识别,是利用训练完成的第一编码器连接一个分类器来实现最终的人体行为识别。
8.一种基于时空信息聚合的对比自监督人体行为识别系统,包括以下步骤:
关节点信息数据流处理模块,用于对输入的一段骨架动作序列进行数据增强,得到增强后的两段骨架动作序列;利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量,并将第一编码器输出的特征向量连接预测器,得到预测器输出的特征向量,并计算损失函数;
运动信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出运动信息,对计算出的运动信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
骨骼信息数据流处理模块,用于对于增强后的两段骨架动作序列,计算出骨骼信息,对计算出的骨骼信息进行数据增强,并经过第一编码器、第二编码器、预测器的处理,得到相应的特征向量;
时空信息聚合模块,用于将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算,得到相似度矩阵;将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票,得到相似度矩阵伪标签,并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签;
人体行为识别模块,用于利用训练完成的第一编码器实现最终的人体行为识别。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680841.6A CN115019397B (zh) | 2022-06-15 | 2022-06-15 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680841.6A CN115019397B (zh) | 2022-06-15 | 2022-06-15 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019397A true CN115019397A (zh) | 2022-09-06 |
CN115019397B CN115019397B (zh) | 2024-04-19 |
Family
ID=83074591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210680841.6A Active CN115019397B (zh) | 2022-06-15 | 2022-06-15 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019397B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115965995A (zh) * | 2022-12-27 | 2023-04-14 | 上海人工智能创新中心 | 基于部分时空数据的骨架自监督方法和模型 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780129A (zh) * | 2021-08-31 | 2021-12-10 | 同济大学 | 基于无监督图序列预测编码的动作识别方法及存储介质 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
CN114511924A (zh) * | 2021-12-31 | 2022-05-17 | 南京理工大学 | 基于自适应增广与表示学习的半监督骨骼动作识别方法 |
CN114511751A (zh) * | 2020-10-26 | 2022-05-17 | 罗伯特·博世有限公司 | 视频特征提取器的无监督训练 |
US20220156591A1 (en) * | 2020-11-13 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for semi-supervised learning with contrastive graph regularization |
-
2022
- 2022-06-15 CN CN202210680841.6A patent/CN115019397B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN114511751A (zh) * | 2020-10-26 | 2022-05-17 | 罗伯特·博世有限公司 | 视频特征提取器的无监督训练 |
US20220156591A1 (en) * | 2020-11-13 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for semi-supervised learning with contrastive graph regularization |
CN113780129A (zh) * | 2021-08-31 | 2021-12-10 | 同济大学 | 基于无监督图序列预测编码的动作识别方法及存储介质 |
CN114511924A (zh) * | 2021-12-31 | 2022-05-17 | 南京理工大学 | 基于自适应增广与表示学习的半监督骨骼动作识别方法 |
CN114329036A (zh) * | 2022-03-16 | 2022-04-12 | 中山大学 | 一种基于注意力机制的跨模态特征融合系统 |
Non-Patent Citations (1)
Title |
---|
田曼;张艺;: "多模型融合动作识别研究", 电子测量技术, no. 20, 23 October 2018 (2018-10-23) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115965995A (zh) * | 2022-12-27 | 2023-04-14 | 上海人工智能创新中心 | 基于部分时空数据的骨架自监督方法和模型 |
CN115965995B (zh) * | 2022-12-27 | 2024-05-28 | 上海人工智能创新中心 | 基于部分时空数据的骨架自监督方法和模型 |
Also Published As
Publication number | Publication date |
---|---|
CN115019397B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091045B (zh) | 一种基于时空注意力机制的手语识别方法 | |
WO2020228655A1 (zh) | 优化量化模型的方法、装置、电子设备及计算机存储介质 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN106663316A (zh) | 一种基于块稀疏压缩感知的红外图像重构方法及其系统 | |
Guo et al. | JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
Zhai | [Retracted] Dance Movement Recognition Based on Feature Expression and Attribute Mining | |
Liebel et al. | Multidepth: Single-image depth estimation via multi-task regression and classification | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN115723287B (zh) | 基于温度控制聚氨酯发泡的生产设备 | |
CN114663798B (zh) | 一种基于强化学习的单步视频内容识别方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN115019397A (zh) | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 | |
CN117892175A (zh) | 一种snn多模态目标识别方法、系统、设备及介质 | |
CN115775350A (zh) | 一种图像增强方法和装置、计算设备 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN113393385B (zh) | 基于多尺度融合的无监督去雨方法、系统、装置及介质 | |
Chong et al. | Solving inverse problems in compressive imaging with score-based generative models | |
CN114240999A (zh) | 一种基于增强图注意力与时间卷积网络的运动预测方法 | |
CN113850012A (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
Sun et al. | A three-dimensional human motion pose recognition algorithm based on graph convolutional networks | |
CN113361510B (zh) | 超分网络模型训练方法、装置、电子设备以及存储介质 | |
CN109166118A (zh) | 织物表面属性检测方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |