CN113989849A - 基于骨架分离与统一及注意力机制的姿态识别方法与装置 - Google Patents

基于骨架分离与统一及注意力机制的姿态识别方法与装置 Download PDF

Info

Publication number
CN113989849A
CN113989849A CN202111299036.0A CN202111299036A CN113989849A CN 113989849 A CN113989849 A CN 113989849A CN 202111299036 A CN202111299036 A CN 202111299036A CN 113989849 A CN113989849 A CN 113989849A
Authority
CN
China
Prior art keywords
skeleton
characteristic
feature
attention mechanism
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111299036.0A
Other languages
English (en)
Inventor
贾冰
佟达
宿南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Qingxiang Technology Co ltd
Original Assignee
Hangzhou Qingxiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Qingxiang Technology Co ltd filed Critical Hangzhou Qingxiang Technology Co ltd
Priority to CN202111299036.0A priority Critical patent/CN113989849A/zh
Publication of CN113989849A publication Critical patent/CN113989849A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及基于骨架分离与统一及注意力机制的姿态识别方法与装置。所述方法包括:获取骨架数据;从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征;将第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;将第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;Softmax分类器识别并输出姿态类型。本申请对骨架数据进行处理,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的精准识别,提升了骨架识别效率。

Description

基于骨架分离与统一及注意力机制的姿态识别方法与装置
技术领域
本申请涉及目标检测与姿态识别技术领域,具体涉及基于骨架分离与统一及注意力机制的姿态识别方法与装置。所述方法包括:获取骨架数据;从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征;将第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;将第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;Softmax分类器识别并输出姿态类型。本申请对骨架数据进行处理,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的精准识别,提升了骨架识别效率。
背景技术
随着深度学习的发展,光学图像目标检测技术已渗透到工业的各个领域,在工厂车间的应用也逐渐普遍起来,基于深度学习的方法可以检测工厂车间生产线工人的工作状态,以达到用机器替代人工监测,进而提高办公效率。
然而当前人体的姿态估计方法大多因为环境背景较为复杂,而难以准确检测到人的位置。另外,当前人体的姿态识别方法局限于局部关节连接性,将人体关节视为一组独立的特征,存在实时性不高和准确率低等问题。
发明内容
基于上述技术问题,本发明旨在采用一种基于骨架分离与统一及注意力机制结合的图卷积技术方案进行识别工厂车间生产线的工人姿态。车间生产线运作的时候,工人坐姿相对固定,而且生产线上上肢动作较为单一,我们通过关注工人们手臂关节点特征,对骨架数据进行处理,超越局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,从而实现工厂工人生产线工作时肢体动作的识别。
本申请实施例提供了基于骨架分离与统一及注意力机制的姿态识别方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
本发明第一方面提供了一种基于骨架分离与统一及注意力机制的姿态识别方法,包括:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
具体地,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
再具体地,所述时间窗的统一时空算子为:
Figure 234059DEST_PATH_IMAGE001
其中,t表示当前时刻,τ表示滑动时间窗口,
Figure 65749DEST_PATH_IMAGE002
表示邻接矩阵,
Figure 570679DEST_PATH_IMAGE003
Figure 524729DEST_PATH_IMAGE002
的对角矩阵,
Figure 177427DEST_PATH_IMAGE004
表示激活函数,
Figure 750491DEST_PATH_IMAGE005
表示可学习的权矩阵。
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
Figure 234562DEST_PATH_IMAGE006
其中,V表示扩展速率,F表示扩展前特征,H表示第一骨架特征。
进一步优选地,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
本发明第二方面提供了一种骨架神经网络模型,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
优选地,所述输入模块用于输入图序列;所述池化模块用于对所述注意力机制模块的处理结果进行池化操作;所述分类模块用于将所述池化模块输出的池化结果进行分类识别;所述输出模块用于将分类模块识别的姿态类别输出。
本发明第三方面提供了一种基于骨架神经网络模型的姿态识别方法,所述方法应用如本发明第二方面提出的所述骨架神经网络模型,所述基于骨架神经网络模型的姿态识别方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
本发明第四方面提供了一种基于骨架分离与统一及注意力机制的姿态识别装置,所述装置包括:
获取模块,用于获取骨架数据;
多尺度模块,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块,用于输出所述Softmax分类器识别的姿态类型。
本发明第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
本发明第六方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
本申请的有益效果为:本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高。另外时空算子中使用的邻接矩阵是多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息,提升了骨架识别效率。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1示出了本申请一示例性实施例的方法流程示意图;
图2示出了本申请一示例性实施例中通过注意力映射得到第二骨架特征的过程示意图;
图3示出了本申请一示例性实施例的装置结构示意图;
图4示出了本申请一示例性实施例所提供的一种电子设备的结构示意图;
图5示出了本申请一示例性实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-5给出几个实施例来描述根据本申请示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
实施例1:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别方法,如图1所示,包括:
S1、获取骨架数据;
S2、从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
S3、将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
S4、将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
S5、所述Softmax分类器识别并输出姿态类型。
具体地,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
再具体地,所述时间窗的统一时空算子为:
Figure 500458DEST_PATH_IMAGE007
其中,Y表示时空算子,但这里是迭代处理的,t表示当前时刻,τ表示滑动时间窗口,
Figure 374873DEST_PATH_IMAGE002
表示邻接矩阵,
Figure 876262DEST_PATH_IMAGE003
Figure 152522DEST_PATH_IMAGE008
的对角矩阵,
Figure 323741DEST_PATH_IMAGE009
表示激活函数,
Figure 13348DEST_PATH_IMAGE005
表示可学习的权矩阵。
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
Figure 990531DEST_PATH_IMAGE006
其中,V表示扩展速率,F表示扩展前特征,H表示第一骨架特征。
进一步优选地,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高,提升了骨架识别效率。
实施例2:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别方法,步骤详述如下。
第一步,获取骨架数据。
具体地,获取骨架数据包括在实际的工厂车间场景里获取到工人坐姿的骨架数据。需说明的是,本申请是采用一种基于骨架分离与统一和注意力机制模块的图卷积工厂车间生产线工人姿态识别方法。考虑到车间生产线运作的时候,工人坐姿相对固定,而且生产线上上肢动作较为单一,我们通过关注工人们手臂关节点特征,对骨架数据进行处理,所以首先第一步就是获取关于工厂车间生产线工人坐姿的骨架数据。在一种具体的实施方式中,获取骨架数据可以采用摄像机拍摄视频,然后通过Kinect平台提取骨架数据,Kinect平台是一个专门提取骨骼点的平台,可以直接获取骨骼的空间坐标。优选地,把所有骨架数据变换为一个五维数组。
第二步,从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图。
优选地,每个视频长度为300帧,不够300帧的在后面补零,选择的图序列要至少包含300帧图像,即300帧时空子图。另外选择性地,还可以在所有骨架数据中分别找到XYZ三方向上的最大值和最小值,对其做归一化处理。
获得骨架数据,需要从中选择图序列,其中,所述图序列包括多帧时空子图。再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征。这原理在于针对时空子图需超越局部关节连接性,提取多尺度结构特征和长期依赖关系,因为结构上分离的关节也可以有很强的相关性。再在肢体重要关节点处增加注意力机制处理,再经过后续处理实现工厂工人生产线工作时肢体动作的识别。这里需要说明的是,多尺度学习的图卷积处理采用不同膨胀率的空间卷积,以在不增加卷积核大小的情况下,获取更大的感受野。具体地,使用多尺度邻接矩阵公式为:
Figure 58981DEST_PATH_IMAGE010
其中,Vi和Vj代表两个骨骼点,
Figure 791314DEST_PATH_IMAGE011
为Vi 和Vj骨骼点间的最短距离,通过设置不同的K值得到不同尺度的邻接矩阵,消除了远处邻域对较近邻域权重的冗余依赖性(即距离该节点近的权重会比较高),解决了有偏权重问题。时空算子中使用的邻接矩阵正是该多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息。
再具体地,从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,图序列包括多帧时空子图,包括:从骨架数据中选择图序列,其中,图序列包括多帧时空子图;多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;利用时间窗的统一时空算子结合学习好的权矩阵将图序列变为第三骨架特征;利用不同的扩展速率扩展后的时空图卷积块对第三骨架特征进行卷积操作,得到第一骨架特征。
在一种可能的实施方式中,例如,我们首先考虑输入图序列上大小为τ的滑动时间窗口,它在每一步获得一帧时空子图
Figure 640321DEST_PATH_IMAGE012
Figure 93299DEST_PATH_IMAGE013
其中,
Figure 344152DEST_PATH_IMAGE014
是窗口中跨τ帧的所有节点集的并集,初始边集
Figure 247386DEST_PATH_IMAGE015
通过将
Figure 521373DEST_PATH_IMAGE016
平铺到块邻接矩阵
Figure 840358DEST_PATH_IMAGE017
中来定义,
Figure 8035DEST_PATH_IMAGE018
表示为:
Figure 957536DEST_PATH_IMAGE019
直观地说,每个子矩阵中的每个节点都通过将帧方向的空间连通性外推至时间域而连接到其自身及其在当前帧的相邻帧。因此,在所有τ帧中,
Figure 515556DEST_PATH_IMAGE012
内的每个节点都密集地连接到自身及相邻帧,由此得出了时间窗的统一时空图卷积算子:
Figure 700550DEST_PATH_IMAGE020
其中,Y表示时空算子,但这里是迭代处理的,t表示当前时刻,τ表示滑动时间窗口,
Figure 660416DEST_PATH_IMAGE021
表示邻接矩阵,
Figure 780819DEST_PATH_IMAGE003
Figure 154031DEST_PATH_IMAGE022
的对角矩阵,
Figure 814820DEST_PATH_IMAGE009
表示激活函数,
Figure 566875DEST_PATH_IMAGE005
表示可学习的权矩阵,这里表示在代表着在网络的l层的一个可学习的权矩阵。
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
Figure 248392DEST_PATH_IMAGE006
其中,V表示扩展速率,Vt1、Vt2、Vt3表示针对不同帧运用不用的扩展速率,F表示扩展前特征,H表示第一骨架特征,Ht1、Ht2、Ht3表示不同帧经扩展后的特征,这些组合起来才构成第一骨架特征。优选地,根据多尺度卷积核的大小来获取不同的扩展速率,扩展速率在64帧每秒至100帧每秒的范围,Vt1 、Vt2、Vt3可以分别采用64、67和73等不同的扩展速率即可。H由Ht1、Ht2、Ht3组合而成,但可以理解的是,不一定只包含三帧,这里只是描述利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作过程。
第三步,将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征。
进一步地,再如图2所示,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:S31、获取骨架训练样本;S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;S33、迭代执行S32,获得优化的注意力权重;S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。其中,所谓的回溯处理表示在训练好注意力权重的基础上,再用其处理当前要处理的所述第一骨架特征。
在一种可能的具体实施方式中,假设所述第一骨架特征为X,基于所述优化的注意力权重回溯处理所述第一骨架特征X时,将得到X+X*M,这里的M即为注意力权重。在骨骼点进行特征提取之后的地方引入这个注意力机制处理,得到加权特征图,使关键的骨骼点得到强化。注意力机制网络属于一种卷积神经网络结构,例如给定一个输入Y,其通道数为C',经过一系列卷积等一般变换后得到一个特征通道数为C的特征图,将其送入注意力机制网络进行处理,其会进行时空变换,将每个二维的特征通道变为一个实数,输出的维度和输入的特征通道数相匹配,然后为每个通道生成权重,最后再通过乘法逐个通道加权到先前的特征例如当前处理的是第一骨架特征X,完成对第一骨架特征X的重标定得到加权特征图。
第四步,将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器。
第五步,所述Softmax分类器识别并输出姿态类型。
本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高。另外时空算子中使用的邻接矩阵是多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息,提升了骨架识别效率。
实施例3:
本实施例提供了一种骨架神经网络模型,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
优选地,所述输入模块用于输入图序列;所述池化模块用于对所述注意力机制模块的处理结果进行池化操作;所述分类模块用于将所述池化模块输出的池化结果进行分类识别;所述输出模块用于将分类模块识别的姿态类别输出。
实施例4:
本实施例提供了一种基于骨架神经网络模型的姿态识别方法,所述方法应用如实施例3中的所述骨架神经网络模型,所述基于骨架神经网络模型的姿态识别方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
需要说明的是,训练好的所述骨架神经网络模型在训练好之前需要训练,进行迭代训练到一定次数,其中需要不断调整损失函数,具体训练过程等在此不做具体限定。
实施例5:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别装置,如图3所示,所述装置包括:
获取模块701,用于获取骨架数据;
多尺度模块702,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块703,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块704,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块705,用于输出所述Softmax分类器识别的姿态类型。
下面请参考图4,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图4所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于骨架分离与统一及注意力机制的姿态识别方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于骨架分离与统一及注意力机制的姿态识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法对应的计算机可读存储介质,请参考图5,图5示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(包括计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,包括:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
2.根据权利要求1所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
3.根据权利要求2所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,所述时间窗的统一时空算子为:
Figure 395662DEST_PATH_IMAGE001
其中,t表示当前时刻,τ表示滑动时间窗口,
Figure 253897DEST_PATH_IMAGE002
表示邻接矩阵,
Figure 69406DEST_PATH_IMAGE003
Figure 216354DEST_PATH_IMAGE002
的对角矩阵,
Figure 41090DEST_PATH_IMAGE004
表示激活函数,
Figure 957094DEST_PATH_IMAGE005
表示可学习的权矩阵。
4.根据权利要求3所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
Figure 677925DEST_PATH_IMAGE006
其中,V表示扩展速率,F表示扩展前特征,H表示第一骨架特征。
5.根据权利要求1所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
6.一种骨架神经网络模型,其特征在于,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
7.一种基于骨架神经网络模型的姿态识别方法,其特征在于,所述方法应用如权利要求6所述的骨架神经网络模型,所述方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
8.一种基于骨架分离与统一及注意力机制的姿态识别装置,其特征在于,所述装置包括:
获取模块,用于获取骨架数据;
多尺度模块,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块,用于输出所述Softmax分类器识别的姿态类型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5、7任一所述方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5、7任一所述方法的步骤。
CN202111299036.0A 2021-11-04 2021-11-04 基于骨架分离与统一及注意力机制的姿态识别方法与装置 Pending CN113989849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111299036.0A CN113989849A (zh) 2021-11-04 2021-11-04 基于骨架分离与统一及注意力机制的姿态识别方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111299036.0A CN113989849A (zh) 2021-11-04 2021-11-04 基于骨架分离与统一及注意力机制的姿态识别方法与装置

Publications (1)

Publication Number Publication Date
CN113989849A true CN113989849A (zh) 2022-01-28

Family

ID=79746387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111299036.0A Pending CN113989849A (zh) 2021-11-04 2021-11-04 基于骨架分离与统一及注意力机制的姿态识别方法与装置

Country Status (1)

Country Link
CN (1) CN113989849A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024036825A1 (zh) * 2022-08-16 2024-02-22 深圳先进技术研究院 姿态处理方法、装置、系统以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024036825A1 (zh) * 2022-08-16 2024-02-22 深圳先进技术研究院 姿态处理方法、装置、系统以及存储介质

Similar Documents

Publication Publication Date Title
CN105938559B (zh) 使用卷积神经网络的数字图像处理
CN110889325B (zh) 多任务面部动作识别模型训练和多任务面部动作识别方法
CN109902548B (zh) 一种对象属性识别方法、装置、计算设备及系统
US9202144B2 (en) Regionlets with shift invariant neural patterns for object detection
US20200074227A1 (en) Neural network-based action detection
CN111291809B (zh) 一种处理装置、方法及存储介质
WO2018162929A1 (en) Image analysis using neural networks for pose and action identification
CN113326835B (zh) 一种动作检测方法、装置、终端设备和存储介质
Cadena et al. Semantic segmentation with heterogeneous sensor coverages
CN106716439A (zh) 基于事件的下采样
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN108960192A (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
WO2021098802A1 (en) Object detection device, method, and systerm
CN112200157A (zh) 一种降低图像背景干扰的人体3d姿态识别方法及其系统
CN111507219A (zh) 一种动作识别方法、装置及电子设备和存储介质
CN111507288A (zh) 图像检测方法、装置、计算机设备和存储介质
Koh et al. Joint 3d object detection and tracking using spatio-temporal representation of camera image and lidar point clouds
Fung et al. Using deep learning to find victims in unknown cluttered urban search and rescue environments
CN113989849A (zh) 基于骨架分离与统一及注意力机制的姿态识别方法与装置
CN113627421B (zh) 一种图像处理方法、模型的训练方法以及相关设备
KR102333768B1 (ko) 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법
CN105303554A (zh) 一种图像特征点的3d重建方法和装置
CN111914809B (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
CN118015054A (zh) 一种用于激光制造的点云刚性配准方法及相关装置
Nan et al. Object Detection by Channel and Spatial Exchange for Multimodal Remote Sensing Imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination