CN113989849A - 基于骨架分离与统一及注意力机制的姿态识别方法与装置 - Google Patents
基于骨架分离与统一及注意力机制的姿态识别方法与装置 Download PDFInfo
- Publication number
- CN113989849A CN113989849A CN202111299036.0A CN202111299036A CN113989849A CN 113989849 A CN113989849 A CN 113989849A CN 202111299036 A CN202111299036 A CN 202111299036A CN 113989849 A CN113989849 A CN 113989849A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- characteristic
- feature
- attention mechanism
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000007246 mechanism Effects 0.000 title claims abstract description 60
- 238000000926 separation method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000011176 pooling Methods 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000036544 posture Effects 0.000 abstract description 21
- 238000004519 manufacturing process Methods 0.000 abstract description 16
- 230000009471 action Effects 0.000 abstract description 8
- 230000007774 longterm Effects 0.000 abstract description 7
- 210000003414 extremity Anatomy 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 238000003892 spreading Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及基于骨架分离与统一及注意力机制的姿态识别方法与装置。所述方法包括:获取骨架数据;从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征;将第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;将第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;Softmax分类器识别并输出姿态类型。本申请对骨架数据进行处理,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的精准识别,提升了骨架识别效率。
Description
技术领域
本申请涉及目标检测与姿态识别技术领域,具体涉及基于骨架分离与统一及注意力机制的姿态识别方法与装置。所述方法包括:获取骨架数据;从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征;将第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;将第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;Softmax分类器识别并输出姿态类型。本申请对骨架数据进行处理,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的精准识别,提升了骨架识别效率。
背景技术
随着深度学习的发展,光学图像目标检测技术已渗透到工业的各个领域,在工厂车间的应用也逐渐普遍起来,基于深度学习的方法可以检测工厂车间生产线工人的工作状态,以达到用机器替代人工监测,进而提高办公效率。
然而当前人体的姿态估计方法大多因为环境背景较为复杂,而难以准确检测到人的位置。另外,当前人体的姿态识别方法局限于局部关节连接性,将人体关节视为一组独立的特征,存在实时性不高和准确率低等问题。
发明内容
基于上述技术问题,本发明旨在采用一种基于骨架分离与统一及注意力机制结合的图卷积技术方案进行识别工厂车间生产线的工人姿态。车间生产线运作的时候,工人坐姿相对固定,而且生产线上上肢动作较为单一,我们通过关注工人们手臂关节点特征,对骨架数据进行处理,超越局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,从而实现工厂工人生产线工作时肢体动作的识别。
本申请实施例提供了基于骨架分离与统一及注意力机制的姿态识别方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
本发明第一方面提供了一种基于骨架分离与统一及注意力机制的姿态识别方法,包括:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
具体地,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
再具体地,所述时间窗的统一时空算子为:
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
其中,V表示扩展速率,F表示扩展前特征,H表示第一骨架特征。
进一步优选地,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
本发明第二方面提供了一种骨架神经网络模型,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
优选地,所述输入模块用于输入图序列;所述池化模块用于对所述注意力机制模块的处理结果进行池化操作;所述分类模块用于将所述池化模块输出的池化结果进行分类识别;所述输出模块用于将分类模块识别的姿态类别输出。
本发明第三方面提供了一种基于骨架神经网络模型的姿态识别方法,所述方法应用如本发明第二方面提出的所述骨架神经网络模型,所述基于骨架神经网络模型的姿态识别方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
本发明第四方面提供了一种基于骨架分离与统一及注意力机制的姿态识别装置,所述装置包括:
获取模块,用于获取骨架数据;
多尺度模块,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块,用于输出所述Softmax分类器识别的姿态类型。
本发明第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
本发明第六方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
本申请的有益效果为:本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高。另外时空算子中使用的邻接矩阵是多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息,提升了骨架识别效率。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1示出了本申请一示例性实施例的方法流程示意图;
图2示出了本申请一示例性实施例中通过注意力映射得到第二骨架特征的过程示意图;
图3示出了本申请一示例性实施例的装置结构示意图;
图4示出了本申请一示例性实施例所提供的一种电子设备的结构示意图;
图5示出了本申请一示例性实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-5给出几个实施例来描述根据本申请示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
实施例1:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别方法,如图1所示,包括:
S1、获取骨架数据;
S2、从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
S3、将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
S4、将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
S5、所述Softmax分类器识别并输出姿态类型。
具体地,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
再具体地,所述时间窗的统一时空算子为:
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
其中,V表示扩展速率,F表示扩展前特征,H表示第一骨架特征。
进一步优选地,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高,提升了骨架识别效率。
实施例2:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别方法,步骤详述如下。
第一步,获取骨架数据。
具体地,获取骨架数据包括在实际的工厂车间场景里获取到工人坐姿的骨架数据。需说明的是,本申请是采用一种基于骨架分离与统一和注意力机制模块的图卷积工厂车间生产线工人姿态识别方法。考虑到车间生产线运作的时候,工人坐姿相对固定,而且生产线上上肢动作较为单一,我们通过关注工人们手臂关节点特征,对骨架数据进行处理,所以首先第一步就是获取关于工厂车间生产线工人坐姿的骨架数据。在一种具体的实施方式中,获取骨架数据可以采用摄像机拍摄视频,然后通过Kinect平台提取骨架数据,Kinect平台是一个专门提取骨骼点的平台,可以直接获取骨骼的空间坐标。优选地,把所有骨架数据变换为一个五维数组。
第二步,从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图。
优选地,每个视频长度为300帧,不够300帧的在后面补零,选择的图序列要至少包含300帧图像,即300帧时空子图。另外选择性地,还可以在所有骨架数据中分别找到XYZ三方向上的最大值和最小值,对其做归一化处理。
获得骨架数据,需要从中选择图序列,其中,所述图序列包括多帧时空子图。再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征。这原理在于针对时空子图需超越局部关节连接性,提取多尺度结构特征和长期依赖关系,因为结构上分离的关节也可以有很强的相关性。再在肢体重要关节点处增加注意力机制处理,再经过后续处理实现工厂工人生产线工作时肢体动作的识别。这里需要说明的是,多尺度学习的图卷积处理采用不同膨胀率的空间卷积,以在不增加卷积核大小的情况下,获取更大的感受野。具体地,使用多尺度邻接矩阵公式为:
其中,Vi和Vj代表两个骨骼点,为Vi 和Vj骨骼点间的最短距离,通过设置不同的K值得到不同尺度的邻接矩阵,消除了远处邻域对较近邻域权重的冗余依赖性(即距离该节点近的权重会比较高),解决了有偏权重问题。时空算子中使用的邻接矩阵正是该多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息。
再具体地,从骨架数据中选择图序列,再基于时间窗的统一时空算子对图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,图序列包括多帧时空子图,包括:从骨架数据中选择图序列,其中,图序列包括多帧时空子图;多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;利用时间窗的统一时空算子结合学习好的权矩阵将图序列变为第三骨架特征;利用不同的扩展速率扩展后的时空图卷积块对第三骨架特征进行卷积操作,得到第一骨架特征。
直观地说,每个子矩阵中的每个节点都通过将帧方向的空间连通性外推至时间域而连接到其自身及其在当前帧的相邻帧。因此,在所有τ帧中,内的每个节点都密集地连接到自身及相邻帧,由此得出了时间窗的统一时空图卷积算子:
进一步地,利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征,其操作方法为:
其中,V表示扩展速率,Vt1、Vt2、Vt3表示针对不同帧运用不用的扩展速率,F表示扩展前特征,H表示第一骨架特征,Ht1、Ht2、Ht3表示不同帧经扩展后的特征,这些组合起来才构成第一骨架特征。优选地,根据多尺度卷积核的大小来获取不同的扩展速率,扩展速率在64帧每秒至100帧每秒的范围,Vt1 、Vt2、Vt3可以分别采用64、67和73等不同的扩展速率即可。H由Ht1、Ht2、Ht3组合而成,但可以理解的是,不一定只包含三帧,这里只是描述利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作过程。
第三步,将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征。
进一步地,再如图2所示,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:S31、获取骨架训练样本;S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;S33、迭代执行S32,获得优化的注意力权重;S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。其中,所谓的回溯处理表示在训练好注意力权重的基础上,再用其处理当前要处理的所述第一骨架特征。
在一种可能的具体实施方式中,假设所述第一骨架特征为X,基于所述优化的注意力权重回溯处理所述第一骨架特征X时,将得到X+X*M,这里的M即为注意力权重。在骨骼点进行特征提取之后的地方引入这个注意力机制处理,得到加权特征图,使关键的骨骼点得到强化。注意力机制网络属于一种卷积神经网络结构,例如给定一个输入Y,其通道数为C',经过一系列卷积等一般变换后得到一个特征通道数为C的特征图,将其送入注意力机制网络进行处理,其会进行时空变换,将每个二维的特征通道变为一个实数,输出的维度和输入的特征通道数相匹配,然后为每个通道生成权重,最后再通过乘法逐个通道加权到先前的特征例如当前处理的是第一骨架特征X,完成对第一骨架特征X的重标定得到加权特征图。
第四步,将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器。
第五步,所述Softmax分类器识别并输出姿态类型。
本申请对骨架数据进行处理,超越骨架数据中局部关节连接性,提取多尺度结构特征和长期依赖关系,再在肢体重要关节点处增加注意力机制处理,基于优化的注意力权重回溯处理骨架特征,获得数据增强了的骨架特征,从而实现了工厂车间工人在生产线工作时肢体动作及姿态的识别,能准确检测工人的位置,实时性高,准确率高。另外时空算子中使用的邻接矩阵是多尺度邻接矩阵,通过多尺度学习的图卷积处理,从而本申请能更好地提取不同节点距离的特征信息,提升了骨架识别效率。
实施例3:
本实施例提供了一种骨架神经网络模型,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
优选地,所述输入模块用于输入图序列;所述池化模块用于对所述注意力机制模块的处理结果进行池化操作;所述分类模块用于将所述池化模块输出的池化结果进行分类识别;所述输出模块用于将分类模块识别的姿态类别输出。
实施例4:
本实施例提供了一种基于骨架神经网络模型的姿态识别方法,所述方法应用如实施例3中的所述骨架神经网络模型,所述基于骨架神经网络模型的姿态识别方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
需要说明的是,训练好的所述骨架神经网络模型在训练好之前需要训练,进行迭代训练到一定次数,其中需要不断调整损失函数,具体训练过程等在此不做具体限定。
实施例5:
本实施例实施了一种基于骨架分离与统一及注意力机制的姿态识别装置,如图3所示,所述装置包括:
获取模块701,用于获取骨架数据;
多尺度模块702,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块703,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块704,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块705,用于输出所述Softmax分类器识别的姿态类型。
下面请参考图4,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图4所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于骨架分离与统一及注意力机制的姿态识别方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的基于骨架分离与统一及注意力机制的姿态识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法对应的计算机可读存储介质,请参考图5,图5示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于骨架分离与统一及注意力机制的姿态识别方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(包括计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,包括:
获取骨架数据;
从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器;
所述Softmax分类器识别并输出姿态类型。
2.根据权利要求1所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,所述从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图,包括:
从所述骨架数据中选择图序列,其中,所述图序列包括多帧时空子图;
所述多帧时空子图中的任一当前帧的邻接矩阵节点通过将帧方向的空间连通性外推至时间域中多帧时空子图的相邻帧,得到时间窗的统一时空算子;
利用所述时间窗的统一时空算子结合学习好的权矩阵将所述图序列变为第三骨架特征;
利用不同的扩展速率扩展后的时空图卷积块对所述第三骨架特征进行卷积操作,得到所述第一骨架特征。
5.根据权利要求1所述的基于骨架分离与统一及注意力机制的姿态识别方法,其特征在于,所述将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征,包括:
S31、获取骨架训练样本;
S32、将所述骨架训练样本进行注意力机制处理并完成对所述骨架训练样本的时空权重转换,得到注意力权重;
S33、迭代执行S32,获得优化的注意力权重;
S34、基于所述优化的注意力权重回溯处理所述第一骨架特征,获得加权特征图作为第二骨架特征。
6.一种骨架神经网络模型,其特征在于,所述骨架神经网络模型包括输入模块、多尺度特征提取模块、注意力机制模块、池化模块、分类模块及输出模块,所述多尺度特征提取模块执行所述基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征的步骤;所述注意力机制模块执行将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征的步骤。
7.一种基于骨架神经网络模型的姿态识别方法,其特征在于,所述方法应用如权利要求6所述的骨架神经网络模型,所述方法包括:
获取骨架数据;
将所述骨架数据输入训练好的所述骨架神经网络模型中进行识别;
输出所述骨架神经网络模型识别的姿态类型。
8.一种基于骨架分离与统一及注意力机制的姿态识别装置,其特征在于,所述装置包括:
获取模块,用于获取骨架数据;
多尺度模块,用于从所述骨架数据中选择图序列,再基于时间窗的统一时空算子对所述图序列做多尺度学习的图卷积处理,得到第一骨架特征,其中,所述图序列包括多帧时空子图;
注意力模块,用于将所述第一骨架特征进行注意力机制处理并完成对所述第一骨架特征的重标定得到加权特征图,作为第二骨架特征;
分类模块,用于将所述第二骨架特征进行全局平均池化处理,并将全局平均池化处理结果输入Softmax分类器进行识别;
输出模块,用于输出所述Softmax分类器识别的姿态类型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5、7任一所述方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5、7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299036.0A CN113989849A (zh) | 2021-11-04 | 2021-11-04 | 基于骨架分离与统一及注意力机制的姿态识别方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299036.0A CN113989849A (zh) | 2021-11-04 | 2021-11-04 | 基于骨架分离与统一及注意力机制的姿态识别方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989849A true CN113989849A (zh) | 2022-01-28 |
Family
ID=79746387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111299036.0A Pending CN113989849A (zh) | 2021-11-04 | 2021-11-04 | 基于骨架分离与统一及注意力机制的姿态识别方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989849A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024036825A1 (zh) * | 2022-08-16 | 2024-02-22 | 深圳先进技术研究院 | 姿态处理方法、装置、系统以及存储介质 |
-
2021
- 2021-11-04 CN CN202111299036.0A patent/CN113989849A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024036825A1 (zh) * | 2022-08-16 | 2024-02-22 | 深圳先进技术研究院 | 姿态处理方法、装置、系统以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105938559B (zh) | 使用卷积神经网络的数字图像处理 | |
CN110889325B (zh) | 多任务面部动作识别模型训练和多任务面部动作识别方法 | |
CN109902548B (zh) | 一种对象属性识别方法、装置、计算设备及系统 | |
US9202144B2 (en) | Regionlets with shift invariant neural patterns for object detection | |
US20200074227A1 (en) | Neural network-based action detection | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
WO2018162929A1 (en) | Image analysis using neural networks for pose and action identification | |
CN113326835B (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
Cadena et al. | Semantic segmentation with heterogeneous sensor coverages | |
CN106716439A (zh) | 基于事件的下采样 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN108960192A (zh) | 动作识别方法及其神经网络生成方法、装置和电子设备 | |
WO2021098802A1 (en) | Object detection device, method, and systerm | |
CN112200157A (zh) | 一种降低图像背景干扰的人体3d姿态识别方法及其系统 | |
CN111507219A (zh) | 一种动作识别方法、装置及电子设备和存储介质 | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
Koh et al. | Joint 3d object detection and tracking using spatio-temporal representation of camera image and lidar point clouds | |
Fung et al. | Using deep learning to find victims in unknown cluttered urban search and rescue environments | |
CN113989849A (zh) | 基于骨架分离与统一及注意力机制的姿态识别方法与装置 | |
CN113627421B (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
KR102333768B1 (ko) | 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법 | |
CN105303554A (zh) | 一种图像特征点的3d重建方法和装置 | |
CN111914809B (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 | |
CN118015054A (zh) | 一种用于激光制造的点云刚性配准方法及相关装置 | |
Nan et al. | Object Detection by Channel and Spatial Exchange for Multimodal Remote Sensing Imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |