CN114373224A - 基于自监督学习的模糊3d骨架动作识别方法及装置 - Google Patents

基于自监督学习的模糊3d骨架动作识别方法及装置 Download PDF

Info

Publication number
CN114373224A
CN114373224A CN202111622518.5A CN202111622518A CN114373224A CN 114373224 A CN114373224 A CN 114373224A CN 202111622518 A CN202111622518 A CN 202111622518A CN 114373224 A CN114373224 A CN 114373224A
Authority
CN
China
Prior art keywords
skeleton
learning
probability
self
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111622518.5A
Other languages
English (en)
Other versions
CN114373224B (zh
Inventor
吴庆耀
苏宇堃
郝运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111622518.5A priority Critical patent/CN114373224B/zh
Publication of CN114373224A publication Critical patent/CN114373224A/zh
Application granted granted Critical
Publication of CN114373224B publication Critical patent/CN114373224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督学习的模糊3D骨架动作识别方法,方法包括:从视频流中的人体目标图像中提取3D骨架动作集;在不同视角下构造3D骨架动作集的正负对;设计共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;通过蒙特卡罗采样逼近概率问题,将特征表示映射到基于多维高斯分布的概率嵌入空间中,学习3D骨架的潜在特征表示;将学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。本方法通过在不同视角下构造三维骨架动作的正负对,研究三维骨架动作中的不确定性,在基于多维高斯分布的概率嵌入空间中学习骨架动作的潜在特征表示,减少遇到模糊三维骨架输入时的不确定性,提高了识别性能。

Description

基于自监督学习的模糊3D骨架动作识别方法及装置
技术领域
本发明属于骨架动作识别的技术领域,具体涉及一种基于自监督学习的模糊3D骨架动作识别方法及装置。
背景技术
近年来,人工智能及相关产业正迅速发展壮大,成为学术界、工业界以及世界各国政府关注的焦点。自监督学习已被证明在语言和视觉领域从未标记数据学习表示非常有效,然而在骨架动作行为识别领域,很少有工具性的自我监督方法用于三维骨骼动作理解,直接应用其他领域的现有自监督学习方法进行骨骼动作学习可能会受到表示不一致和一些限制。由于不同视角的3D骨架姿态固有的模糊性或对比学习中的采样算法,骨架动作存在一些不确定性,因此,在确定性嵌入空间中区分动作特征是不合适的。如何减轻遇到模糊3D骨架输入时的不确定性也是诸如社区安防,大型公共场所监控下应用亟待解决的关键问题。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于自监督学习的模糊3D骨架动作识别方法及装置,通过在不同视角下构造三维骨架动作的正负对,考虑输入的特征表示距离,并研究三维骨架动作中的不确定性,提出了基于多维高斯分布的概率嵌入空间中的动作表示模型,以减少在遇到模糊三维骨架输入时的不确定性。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提供了基于自监督学习的模糊3D骨架动作识别方法,包括下述步骤:
从视频流中的人体目标图像中提取3D骨架动作集;
在不同视角下构造3D骨架动作集的正负对;
构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
作为优选的技术方案,所述从视频流中的人体目标图像中提取3D骨架动作集,具体为:
对视频流中的人体目标图像进行部署变换后,每T帧中生成两个具有不同视点的相同骨架动作片段xi,进行N次获得3D骨架动作集,表示为:
Figure BDA0003437994440000021
其中,xi表示第i个骨架动作片段,N表示骨架动作片段的数目。
作为优选的技术方案,所述在不同视角下构造3D骨架动作集的正负对,具体为:
对于3D骨架动作集中的某一骨架动作片段xi,以及其在不同视角下对应的骨架动作片段
Figure BDA0003437994440000027
将同一骨架片段下的不同视角对
Figure BDA0003437994440000028
视为正对,其余的不同骨架片段
Figure BDA0003437994440000022
视为负对。
作为优选的技术方案,所述使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示,具体为:
将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练,采用自我监督学习方式训练得到共享权重编码器f(·,θ),首先对输入数据进行归一化,接着对空间和时间维度进行变换,最后使用平均池化,全连接层对特征进行分类,最终将所述编码器将骨架动作片段xi建模为其对应的潜在特征表示zi,代表骨架动作片段在潜在空间中运动的时空特征。
作为优选的技术方案,所述学习3D骨架的潜在特征表示具体为:
利用模型中概率嵌入空间的匹配概率m,将嵌入距离放宽为D(zi,zn):=p(m|zi,zn)=σ(W||zi-zn||2+b),其中σ(·)表示Sigmoid函数,W、b为可学习参数,zn表示经过编码器后的其他骨架动作片段。
将概率嵌入分布改写为zi~p(zi|xi),将输入匹配概率扩展到概率嵌入:
Figure BDA0003437994440000023
其中,p(·|·)表示条件概率;
使用蒙特卡罗抽样,从每个分布中抽取K个样本,来近似概率嵌入:
Figure BDA0003437994440000024
其中,K表示抽取样本数,k1、k2分别表示抽取的样本个例;
使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模,并使用重新参数化在训练期间实现反向传播,最终得到:
Figure BDA0003437994440000025
其中,
Figure BDA0003437994440000026
表示第k个骨架片段和不同于第k个骨架片段的其他骨架片段。
作为优选的技术方案,所述将任务指定为度量学习问题,使用对比损失和约束损失对进行训练,具体为:
将任务指定为度量学习问题;
构建对比损失函数:
Figure BDA0003437994440000031
其中,M表示负对数量,
Figure BDA0003437994440000035
表示
Figure BDA0003437994440000036
经过共享权重编码器后的潜在特征表示,D(·,·)表示欧式距离计算函数,τ表示缩放距离超参数;
在训练过程中,在KL散度嵌入中引入约束损失和拿书:
Figure BDA0003437994440000032
其中,μ(·)表示均值,υ(·)表示对角协方差,
Figure BDA0003437994440000033
表示预设单位高斯分布;
采用随机抖动增强算法避免学习低级特征;
通过联合优化对比损失和约束损失,得到概率嵌入模型的最终训练损失:
Figure BDA0003437994440000034
其中,λ1、λ2分别表示权重超参数,用于平衡优化。
本发明另一方面提供了基于自监督学习的模糊3D骨架动作识别系统,包括数据提取模块、正负对构造模块、特征表示模块、训练模块以及识别模块;
所述数据提取模块,用于从视频流中的人体目标图像中提取3D骨架动作集;
所述正负对构造模块,用于在不同视角下构造3D骨架动作集的正负对;
所述特征表示模块,用于构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
所述训练模块,用于在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
所述识别模块,用于将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
本发明又一方面提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序
指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于自监督学习的模糊3D骨架动作识别方法。
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于自监督学习的模糊3D骨架动作识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
1.本发明提出了一种基于自监督学习的模糊3D骨架动作识别方法,将自监督3D骨骼表示学习转化为数据驱动的度量学习,并设计在不同视角下构建正样本和负样本对,并设计一个好的表示学习编码器可以区分不同动作的潜在特征,这可以使相似的运动更接近,同时将不同的运动推开。
2.本发明通过在不同视角下构造三维骨架动作的正负对,考虑输入的特征表示距离,并研究三维骨架动作中的不确定性,提出了基于多维高斯分布的概率嵌入空间中的动作表示模型,以减少在遇到模糊三维骨架输入时的不确定性,
3.本发明提升模型在遇到模糊三维骨架时的识别性能和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于自监督学习的模糊3D骨架动作识别方法的流程图;
图2为本发明实施例中更为具体的3D骨架动作识别方法的流程图;
图3为本发明实施例概率表示嵌入模块示意图;
图4是本发明实施例基于自监督学习的模糊3D骨架动作识别系统的结构图;图5是本发实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
实施例
请参阅图1,在本申请的一个实施例中提供了一种基于自监督学习的模糊3D骨架动作识别方法,包括下述步骤:
S1、从视频流中的人体目标图像中提取3D骨架动作集;
S2、在不同视角下构造3D骨架动作集的正负对;
S3、构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
S4、通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
S5、将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
更具体的,步骤S1中,如图2所示,骨架动作集提取步骤为:
对视频流中的人体目标图像进行部署变换后,每T帧中生成两个具有不同视点的相同骨架动作片段xi,进行N次获得3D骨架动作集,表示为:
Figure BDA0003437994440000051
其中,xi表示第i个骨架动作片段,N表示骨架动作片段的数目。
更具体的,步骤S2具体为:
对于3D骨架动作集中的某一骨架动作片段xi,以及其在不同视角下对应的骨架动作片段
Figure BDA0003437994440000052
将同一骨架片段下的不同视角对
Figure BDA0003437994440000053
视为正对,其余的不同骨架片段
Figure BDA0003437994440000054
视为负对;
更具体的,步骤S4具体为:
将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练,采用自我监督学习方式训练得到共享权重编码器f(·,θ),首先对输入数据进行归一化,接着对空间和时间维度进行变换,最后使用平均池化,全连接层对特征进行分类,最终将所述编码器将骨架动作片段xi建模为其对应的潜在特征表示zi,代表骨架动作片段在潜在空间中运动的时空特征;这样一个共享权重的编码器可以使映射到的空间更稳定,使网络更容易将正对和负对区分开来。
如图3所示,步骤S5具体为:
S51、利用概率嵌入空间的匹配概率m,将嵌入距离放宽为D(zi,zn):=p(m|zi,zn)=σ(W||zi-zn||2+b),其中σ(·)表示Sigmoid函数,W、b为可学习参数,zn表示经过编码器后的其他骨架动作片段。
S52、为了在模糊输入xi出现的情况下表示对应的特征zi,将分布改写为zi~p(zi|xi),将输入匹配概率扩展到概率嵌入:
Figure BDA0003437994440000061
其中,p(·|·)表示条件概率;
S53、使用蒙特卡罗抽样,从每个分布中抽取K个样本,来近似上述积分:
Figure BDA0003437994440000062
其中,K表示抽取样本数,k1、k2分别表示抽取的样本个例;
S54、在实践中,通过使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模,并使用重新参数化技巧来在训练期间实现轻松的反向传播,最终得到
Figure BDA0003437994440000063
其中,
Figure BDA0003437994440000064
表示第k个骨架片段和不同于第k个骨架片段的其他骨架片段。
更具体的,步骤S6具体为:
S61、将概率嵌入模型的任务指定为度量学习问题;
S62、构建概率嵌入模型的对比损失:
Figure BDA0003437994440000065
其中,M表示负对数量,
Figure BDA0003437994440000066
表示
Figure BDA0003437994440000067
经过共享权重编码器后的潜在特征表示,D(·,·)表示欧式距离计算函数,τ表示缩放距离超参数;
S63、在模型训练过程中,为了防止方差归零并规范嵌入的平均幅度,在KL散度嵌入中引入约束损失:
Figure BDA0003437994440000068
其中,μ(·)表示均值,υ(·)表示对角协方差,
Figure BDA0003437994440000069
表示预设单位高斯分布;
S64、采用随机抖动增强来避免模型通过学习琐碎的解决方案或低级特征来“走捷径”;
S65、通过联合优化对比损失和约束损失,概率嵌入模型最终训练损失定义为
Figure BDA00034379944400000610
其中,λ1、λ2分别表示权重超参数,用于平衡优化模型。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于自监督学习的模糊3D骨架动作识别方法相同的思想,本发明还提供了基于自监督学习的模糊3D骨架动作识别系统,该系统可用于执行上述基于自监督学习的模糊3D骨架动作识别方法。为了便于说明,基于自监督学习的模糊3D骨架动作识别系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图4,在本申请的另一个实施例中,提供了一种基于自监督学习的模糊3D骨架动作识别系统100,该系统至少包括数据提取模块101、正负对构造模块102、特征表示模块103、训练模块104以及识别模块105;
所述数据提取模块101,用于从视频流中的人体目标图像中提取3D骨架动作集;
所述正负对构造模块102,用于在不同视角下构造3D骨架动作集的正负对;
所述特征表示模块103,用于构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
所述训练模块104,用于在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
所述识别模块105,用于将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
需要说明的是,本发明的基于自监督学习的模糊3D骨架动作识别系统与本发明的基于自监督学习的模糊3D骨架动作识别方法一一对应,在上述基于自监督学习的模糊3D骨架动作识别方法的实施例阐述的技术特征及其有益效果均适用于基于自监督学习的模糊3D骨架动作识别系统的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于自监督学习的模糊3D骨架动作识别系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于自监督学习的模糊3D骨架动作识别系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
请参阅图5,在一个实施例中,提供了一种实现基于自监督学习的模糊3D骨架动作识别方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于自监督学习的模糊3D骨架动作识别程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于自监督学习的模糊3D骨架动作识别程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的基于自监督学习的模糊3D骨架动作识别程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
从视频流中的人体目标图像中提取3D骨架动作集;
在不同视角下构造3D骨架动作集的正负对;
构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.基于自监督学习的模糊3D骨架动作识别方法,其特征在于,包括下述步骤:
从视频流中的人体目标图像中提取3D骨架动作集;
在不同视角下构造3D骨架动作集的正负对;
构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
2.根据权利要求1所述基于自监督学习的模糊3D骨架动作识别方法,其特征在于,所述从视频流中的人体目标图像中提取3D骨架动作集,具体为:
对视频流中的人体目标图像进行部署变换后,每T帧中生成两个具有不同视点的相同骨架动作片段xi,进行N次获得3D骨架动作集,表示为:
Figure FDA0003437994430000011
其中,xi表示第i个骨架动作片段,N表示骨架动作片段的数目。
3.根据权利要求2所述基于自监督学习的模糊3D骨架动作识别方法,其特征在于,所述在不同视角下构造3D骨架动作集的正负对,具体为:
对于3D骨架动作集中的某一骨架动作片段xi,以及其在不同视角下对应的骨架动作片段
Figure FDA0003437994430000012
将同一骨架片段下的不同视角对
Figure FDA0003437994430000013
视为正对,其余的不同骨架片段
Figure FDA0003437994430000014
视为负对。
4.根据权利要求3所述基于自监督学习的模糊3D骨架动作识别方法,其特征在于,所述使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示,具体为:
将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练,采用自我监督学习方式训练得到共享权重编码器f(·,θ),首先对输入数据进行归一化,接着对空间和时间维度进行变换,最后使用平均池化,全连接层对特征进行分类,最终将所述编码器将骨架动作片段xi建模为其对应的潜在特征表示zi,代表骨架动作片段在潜在空间中运动的时空特征。
5.根据权利要求4所述自监督学习的模糊3D骨架动作识别方法,其特征在于,所述学习3D骨架的潜在特征表示具体为:
利用模型中概率嵌入空间的匹配概率m,将嵌入距离放宽为D(zi,zn):=p(m|zi,zn)=σ(W||zi-zn||2+b)其中σ(·)表示Sigmoid函数,W、b为可学习参数,zn表示经过编码器后的其他骨架动作片段;
将概率嵌入分布改写为zi~P(zi|xi),将输入匹配概率扩展到概率嵌入:
Figure FDA0003437994430000021
其中,p(·|·)表示条件概率;
使用蒙特卡罗抽样,从每个分布中抽取K个样本,来近似概率嵌入:
Figure FDA0003437994430000022
其中,K表示抽取样本数,k1、k2分别表示抽取的样本个例;
使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模,并使用重新参数化在训练期间实现反向传播,最终得到:
Figure FDA0003437994430000023
其中,
Figure FDA0003437994430000024
表示第k个骨架片段和不同于第k个骨架片段的其他骨架片段。
6.根据权利要求5所述基于自监督学习的模糊3D骨架动作识别方法,其特征在于,所述将任务指定为度量学习问题,使用对比损失和约束损失对进行训练,具体为:
将任务指定为度量学习问题;
构建对比损失函数:
Figure FDA0003437994430000025
其中,M表示负对数量,
Figure FDA0003437994430000026
表示
Figure FDA0003437994430000027
经过共享权重编码器后的潜在特征表示,D(·,·)表示欧式距离计算函数,τ表示缩放距离超参数;
在训练过程中,在KL散度嵌入中引入约束损失和拿书:
Figure FDA0003437994430000028
其中,μ(·)表示均值,υ(·)表示对角协方差,
Figure FDA0003437994430000029
表示预设单位高斯分布;
采用随机抖动增强算法避免学习低级特征;
通过联合优化对比损失和约束损失,得到概率嵌入模型的最终训练损失:
Figure FDA00034379944300000210
其中,λ1、λ2分别表示权重超参数,用于平衡优化。
7.基于自监督学习的模糊3D骨架动作识别系统,其特征在于,包括数据提取模块、正负对构造模块、特征表示模块、训练模块以及识别模块;
所述数据提取模块,用于从视频流中的人体目标图像中提取3D骨架动作集;
所述正负对构造模块,用于在不同视角下构造3D骨架动作集的正负对;
所述特征表示模块,用于构建基于多维高斯分布的概率嵌入模型,使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示;
所述训练模块,用于在模型中,通过蒙特卡罗采样逼近概率问题,将特征表示映射到概率嵌入空间中,学习3D骨架的潜在特征表示;
所述识别模块,用于将自监督的3D骨架表示学习任务指定为度量学习问题,使用对比损失和约束损失对进行训练,获得识别结果。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序
指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6中任意一项所述的基于自监督学习的模糊3D骨架动作识别方法。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述的基于自监督学习的模糊3D骨架动作识别方法。
CN202111622518.5A 2021-12-28 2021-12-28 基于自监督学习的模糊3d骨架动作识别方法及装置 Active CN114373224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111622518.5A CN114373224B (zh) 2021-12-28 2021-12-28 基于自监督学习的模糊3d骨架动作识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111622518.5A CN114373224B (zh) 2021-12-28 2021-12-28 基于自监督学习的模糊3d骨架动作识别方法及装置

Publications (2)

Publication Number Publication Date
CN114373224A true CN114373224A (zh) 2022-04-19
CN114373224B CN114373224B (zh) 2024-07-23

Family

ID=81142055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111622518.5A Active CN114373224B (zh) 2021-12-28 2021-12-28 基于自监督学习的模糊3d骨架动作识别方法及装置

Country Status (1)

Country Link
CN (1) CN114373224B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116687406A (zh) * 2023-05-06 2023-09-05 粤港澳大湾区精准医学研究院(广州) 情绪识别方法、装置、电子设备及存储介质
CN117893696A (zh) * 2024-03-15 2024-04-16 之江实验室 一种三维人体数据生成方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818887A (zh) * 2021-02-08 2021-05-18 中国科学院自动化研究所 基于无监督学习的人体骨架序列行为识别方法
CN113221628A (zh) * 2021-03-15 2021-08-06 华南理工大学 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质
CN113408343A (zh) * 2021-05-12 2021-09-17 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818887A (zh) * 2021-02-08 2021-05-18 中国科学院自动化研究所 基于无监督学习的人体骨架序列行为识别方法
CN113221628A (zh) * 2021-03-15 2021-08-06 华南理工大学 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质
CN113408343A (zh) * 2021-05-12 2021-09-17 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116687406A (zh) * 2023-05-06 2023-09-05 粤港澳大湾区精准医学研究院(广州) 情绪识别方法、装置、电子设备及存储介质
CN116687406B (zh) * 2023-05-06 2024-01-02 粤港澳大湾区精准医学研究院(广州) 情绪识别方法、装置、电子设备及存储介质
CN117893696A (zh) * 2024-03-15 2024-04-16 之江实验室 一种三维人体数据生成方法、装置、存储介质及电子设备
CN117893696B (zh) * 2024-03-15 2024-05-28 之江实验室 一种三维人体数据生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN114373224B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
Felzenszwalb et al. Object detection grammars.
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN110222718B (zh) 图像处理的方法及装置
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN114373224A (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
CN110659723A (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN115273244B (zh) 基于图神经网络的人体动作识别方法和系统
CN113011387B (zh) 网络训练及人脸活体检测方法、装置、设备及存储介质
CN113011568B (zh) 一种模型的训练方法、数据处理方法及设备
CN113254927B (zh) 一种基于网络防御的模型处理方法、装置及存储介质
CN114241459B (zh) 一种驾驶员身份验证方法、装置、计算机设备及存储介质
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
CN114596589A (zh) 一种基于交互级联轻量化transformers的域自适应行人重识别方法
CN114299304B (zh) 一种图像处理方法及相关设备
CN116434347A (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统
CN114677611B (zh) 数据识别方法、存储介质及设备
CN111461091B (zh) 万能指纹生成方法和装置、存储介质及电子装置
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN116863531A (zh) 基于自注意力增强图神经网络的人体行为识别方法及系统
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
Pajares et al. Stereo matching based on the self-organizing feature-mapping algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant