CN112232134B - 一种基于沙漏网络结合注意力机制的人体姿态估计方法 - Google Patents

一种基于沙漏网络结合注意力机制的人体姿态估计方法 Download PDF

Info

Publication number
CN112232134B
CN112232134B CN202010991889.XA CN202010991889A CN112232134B CN 112232134 B CN112232134 B CN 112232134B CN 202010991889 A CN202010991889 A CN 202010991889A CN 112232134 B CN112232134 B CN 112232134B
Authority
CN
China
Prior art keywords
hourglass
module
attention
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010991889.XA
Other languages
English (en)
Other versions
CN112232134A (zh
Inventor
俞俊
董谢娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010991889.XA priority Critical patent/CN112232134B/zh
Publication of CN112232134A publication Critical patent/CN112232134A/zh
Application granted granted Critical
Publication of CN112232134B publication Critical patent/CN112232134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于沙漏网络结合注意力机制的人体姿态估计方法。本发明步骤如下:步骤(1)、在沙漏模块前面我们把加入一条分支计算非局部注意力特征,并把这个注意力特征融入主分支。我们称之为全局注意力模块。步骤(2)、在沙漏模块后面我们把输出分成若干通道分别做注意力计算得到每个通道的特征作为输出。我们称之为局部注意力模块。步骤(3)、通过反向传播算法对网络参数进行训练,直至整个网络模型收敛。本发明解决了原来模型的人际间关节的干扰和自我关节的干扰的问题。人体姿态估计在基于图像或视频分析人类行为中起着重要作用,准确高效的人体姿势估计可以促进各种应用,提出的改善方法使得原模型最终的检测效果得到提升。

Description

一种基于沙漏网络结合注意力机制的人体姿态估计方法
技术领域
本发明涉及人体姿态估计领域。尤其是涉及沙漏网络和注意力机制的姿态估计方法。
背景技术
人体姿态估计的目的是定位人体关节,例如头部,膝盖和脚踝。人体姿态估计在基于图像或视频分析人类行为中起着重要作用。准确高效的人体姿势估计可以促进各种应用,例如人体动作识别,人机交互和视频对象跟踪等。
从2012年开始使用AlexNet以来,深度学习开始迅速发展,对图像分类,目标检测和分割等问题得到了前所未有的发展。2014年,基于CNN的深度特征表示首次引入单人姿态估计问题。随后,大量研究继续改进最新的姿态估计。然而,由于摄像机的视角易变且人体姿势复杂,经过数年的研究,人体姿势估计仍然是一项艰巨的任务。
用现有技术方法容易忽视的两个问题是检测时人际间关节的干扰和自我关节的干扰。前一个问题通常在多个人彼此非常接近时发生,从而一个人的身体关节会影响另一个人的关节检测。后一个问题是关节检测被同一人的视觉相似关节所干扰,特别是在检测人体中的对称关节时。为解决这个问题提出了一个新颖的框架,用于人体姿态估计,称为全局和局部注意力增强的沙漏网络。全局注意力模块是通过在每个沙漏模块之前插入一个非局部注意块来实现的。
发明内容
本发明采用沙漏网络作为人体姿势估计的基本网络结构。堆叠的沙漏网络包含八个沙漏模块,每个沙漏模块都捕获输入信号的多尺度特征表示。在每个沙漏模块之前,将全局注意力模块融入沙漏网络中。此外,每个沙漏模块后面都融入有一个局部注意模块;得到一个融合后堆叠的沙漏网络;利用融合后堆叠的沙漏网络来逐步改善每个模块产生的检测结果。其具体实现步骤如下:
步骤(1)、在沙漏网络开始阶段,计算全局注意力特征C,并把这个注意力特征融入沙漏模块,该过程称之为全局注意力模块。
步骤(2)、针对每个沙漏模块,将其输出分成若干通道,对每个通道分别做局部注意力计算,将得到的每个通道的局部注意力特征拼接后作为输出,该过程称之为局部注意力模块。
步骤(3)、通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型。通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练,直至整个网络模型收敛。
进一步的,步骤(1)具体实现如下:
1-1.计算图像位置xi处的全局注意力特征C,表示为:
其中,x为输入信号,i是要计算其响应的输出位置的索引,而j是枚举所有可能位置的索引;h(·)是线性映射:h(xj)=whxj,wh是要被学习的权重矩阵。M(x)为正则化因子表示为:
其中,l(·)可以通过多种方式实现。且本发明中,通过映射为高斯函数来计算特征之间的相似度:
其中,θ(xi)=wθ*xi是关于xi和xj的线性映射。
1-2.为了增强姿势估计网络的非局部感知能力,在每个沙漏模块前融入一个全局注意模块。此过程表示为:
其中,S表示沙漏模块的个数;fs是当前沙漏模块的输入特征,fs-1是前一沙漏模块的输入特征,是前一个沙漏模块输出的特征,ys-1是前一个沙漏模块后局部注意力模块输出的预测热图(详见公式7)。U(·)包括几个运算:将前一沙漏模块的输入特征fs-1、前一沙漏模块的输出特征/>和前一沙漏模块的预测热图ys-1通过卷积统一维度后,对应位置的元素值相加;而⊕表示维度上拼接操作。
进一步的,步骤(2)所述具体实现如下:
是当前沙漏模块的输出特征,则与每个预测位置相关的特征通过/>来计算ws是需要被学习的权重矩阵;我们通过卷积操作将通道数转变为要预测的目标位置的个数P,我们将Fs的p个通道切片记作Fs_p,Fs_p表示第s个沙漏模块第p个预测位置的特征。
通过使用相关性权重矩阵Ap更新每个特征Fs_p,从而实现局部注意力机制。该特定相关性权重矩阵Ap是通过利用特征中两个特征形成的特征对之间的相似性来计算:
其中,局部注意力模块对于通道p的输出特征通过以下方式获得:
最后在通道p处预测位置的预测热图ys_p计算为:
其中,ws_p是需要被学习的权重矩阵。
步骤(3)通过反向传播算法对上述步骤的深度网络模型参数进行训练,直至整个网络模型收敛,其具体过程如下:
通过步骤(1)和步骤(2)在沙漏网络中融合全局注意力模块和局部注意力模块,得到我们的模型称之为一种基于沙漏网络结合注意力机制的模型。
针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
其中,p代表第p个预测位置,(m,n)表示模型输出预测的热图的空间位置,yp分别代表输出的预测热图和真实标签的热图。
本发明有益效果:
本发明通过将全局和局部注意力机制融合进入沙漏模块,一定程度解决了原来模型的人际间关节的干扰和自我关节的干扰的问题。人体姿态估计在基于图像或视频分析人类行为中起着重要作用,准确高效的人体姿势估计可以促进各种应用,提出的改善方法使得原模型最终的检测效果得到提升。
附图说明
图1是本发明方法的具体流程示意图。
图2是本发明方法中沙漏模块示意图
图3是本发明方法中全局注意力模块示意图
图4是本发明方法中局部注意力模块示意图。
图5为本发明方法中构造的网络框架示意图。
具体实施方式
下面结合附图对本发明做进一步具体说明。
如图1所示,本发明提供一种基于沙漏网络结合注意力机制的人体姿态估计方法。
如图2所示,沙漏网络由八个堆叠的沙漏模块组成,一个沙漏模块首先通过堆叠若干次下采样操作每次下采样前用残差块来进行特征的提取,然后通过堆叠一系列上采样操作进行特征重构。上采样的过程采取最近邻插值的方式,而下采样就是简单的pool操作。模型在每个沙漏模块的输出做中间监督,这样做可以使模型更加有效的收敛。一个残差块由正则化、ReLU激活和2D卷积的三次重复操作组成。
步骤(1)所述的在沙漏网络开始阶段,计算全局注意力特征C,并把这个注意力特征融入沙漏模块,该过程称之为全局注意力模块。在沙漏模块前面加入一条分支计算非局部注意力特征,并把这个注意力特征融入主分支。称之为全局注意力模块。具体如下:
首先计算将输入数据在开始阶段计算非局部注意力特征,由于计算开销较大,在堆叠的8次模块循环中仅仅开头一次计算非局部注意力图,在接下去的8次循环,模块的输入使用第一次计算的结果。在每次沙漏模块前将原输入特征和非局部注意力模块进行拼接,由原本的256通道变为512通道,为了恢复原始通道,接着用一个1×1的卷积核改变通道,这样沙漏模块融合入非局部注意力特征,称之为全局注意力模块。该增强了模型的性能,使得模型关节点检测能力得到提升。在数据集MPII上进行了实验,的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值,将此关节的预测结果记作1,否则为0。所有图片对应的关节总值取平均为该节点的准确率。表1所示为加入的全局注意力的模型与原模型结果:
表1
方法 肩膀 手肘 手腕 臀部 膝盖 脚踝 平均
原沙漏模型 97.4 96.2 90.8 86.5 90.1 86.7 83.6 90.3
加入全局注意力模块的模型 97.6 96.3 91.4 87.1 90.8 87.5 84.4 90.8
步骤(2)所述的针对每个沙漏模块,将其输出分成若干通道,对每个通道分别做局部注意力计算,将得到的每个通道的局部注意力特征拼接后作为输出,该过程称之为局部注意力模块。具体如下:
由于最后预测的关节点有16个,所以将其划分为16个通道分别作局部注意力计算,该过程是通过直接将特征矩阵切片的方式分割。分割后得道1×64×64的矩阵块,将分别作注意力计算后再拼接成16×64×64的矩阵作为模型的输出。在数据集MPII上进行了实验,的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值,将此关节的预测结果记作1,否则为0。所有图片对应的关节总值取平均为该节点的准确率。表2所示为加入的局部注意力的模型与原模型结果:
表2
方法 肩膀 手肘 手腕 臀部 膝盖 脚踝 平均
原沙漏模型 97.4 96.2 90.8 86.5 90.1 86.7 83.6 90.3
加入全局注意力模块的模型 97.5 96.4 91.1 86.9 90.1 87.5 84.8 90.7
步骤(3)所述的通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型。通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练,直至整个网络模型收敛。具体如下:
根据公式6的最优化问题,在已经构建好的深度学习模型上进行反向传播训练,直至网络模型收敛。初始时,学习率为0.00025,选择的优化器为RMSprop,采用mini-batch的方法,每一个batch的大小为8张图片,在训练验证集合结果平稳的时候把学习率下降十倍。在数据集MPII上进行了实验。在数据的预处理阶段,对数据进行增强,包括图片缩放,旋转,和水平翻转。的评价方法采用PCKh@0.5。PCKh表示归一化的概率。预测关节与真实关节位置之间的距离小于一特定值,将此关节的预测结果记作1,否则为0。所有图片对应的关节总值取平均为该节点的准确率从表3中可以看出,发明的方法对关节点的检测效果有明显的提升。
表3
方法 肩膀 手肘 手腕 臀部 膝盖 脚踝 平均
原沙漏模型 97.4 96.2 90.8 86.5 90.1 86.7 83.6 90.3
加入全局注意力模块的模型 97.6 96.5 91.6 87.6 91.3 87.8 84.4 91.0

Claims (2)

1.一种基于沙漏网络结合注意力机制的人体姿态估计方法,其特征在于采用沙漏网络作为人体姿势估计的基本网络结构;堆叠的沙漏网络包含八个沙漏模块,每个沙漏模块都捕获输入信号的多尺度特征表示;在每个沙漏模块之前,将全局注意力模块融入沙漏网络中;此外,每个沙漏模块后面都融入有一个局部注意模块;得到一个融合后堆叠的沙漏网络模型;利用融合后堆叠的沙漏网络模型来逐步改善每个模块产生的检测结果;其具体实现步骤如下:
步骤(1)、在沙漏网络开始阶段,计算全局注意力特征C,并把这个注意力特征融入沙漏模块,该过程称之为全局注意力模块;
步骤(2)、针对每个沙漏模块,将其输出分成若干通道,对每个通道分别做局部注意力计算,将得到的每个通道的局部注意力特征拼接后作为输出,该过程称之为局部注意力模块;
步骤(3)、通过结合步骤(1)和步骤(2)的模块得到融合后堆叠的沙漏网络模型;通过反向传播算法对融合后堆叠的沙漏网络模型的参数进行训练,直至整个网络模型收敛;
步骤(1)具体实现如下:
1-1.计算图像位置xi处的全局注意力特征C,表示为:
其中,x为输入信号,i是要计算其响应的输出位置的索引,而j是枚举所有可能位置的索引;h(·)是线性映射:h(xj)=whxj,wh是要被学习的权重矩阵;M(x)为正则化因子表示为:
其中,l(·)通过映射为高斯函数来计算特征之间的相似度:
其中,θ(xi)=wθ*xi是关于xi和xj的线性映射;
1-2.在每个沙漏模块前融入一个全局注意模块,此过程表示为:
其中,S表示沙漏模块的个数;fs是当前沙漏模块的输入特征,fs-1是前一沙漏模块的输入特征,是前一个沙漏模块输出的特征,ys-1是前一个沙漏模块后局部注意力模块输出的预测热图;U(·)包括几个运算:将前一沙漏模块的输入特征fs-1、前一沙漏模块的输出特征/>和前一沙漏模块的预测热图ys-1通过卷积统一维度后,对应位置的元素值相加;而/>表示维度上拼接操作;
步骤(2)所述具体实现如下:
是当前沙漏模块的输出特征,则与每个预测位置相关的特征通过/>来计算,ws是需要被学习的权重矩阵;通过卷积操作将通道数转变为要预测的目标位置的个数P,将Fs的p个通道切片记作Fs_p,Fs_p表示第s个沙漏模块第p个预测位置的特征;
通过使用相关性权重矩阵Ap更新每个特征Fs_p,从而实现局部注意力机制;该相关性权重矩阵Ap是通过利用特征中两个特征形成的特征对之间的相似性来计算:
其中,局部注意力模块对于通道p的输出特征通过以下方式获得:
最后在通道p处预测位置的预测热图ys_p计算为:
其中,ws_p是需要被学习的权重矩阵。
2.根据权利要求1所述的一种基于沙漏网络结合注意力机制的人体姿态估计方法,其特征在于步骤(3)通过反向传播算法对上述步骤的沙漏网络模型参数进行训练,直至整个沙漏网络模型收敛,其具体过程如下:
通过步骤(1)和步骤(2)在沙漏网络中融合全局注意力模块和局部注意力模块,得到沙漏网络模型;
针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
其中,p代表第p个预测位置,(m,n)表示模型输出预测的热图的空间位置,yp分别代表输出的预测热图和真实标签的热图。
CN202010991889.XA 2020-09-18 2020-09-18 一种基于沙漏网络结合注意力机制的人体姿态估计方法 Active CN112232134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010991889.XA CN112232134B (zh) 2020-09-18 2020-09-18 一种基于沙漏网络结合注意力机制的人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010991889.XA CN112232134B (zh) 2020-09-18 2020-09-18 一种基于沙漏网络结合注意力机制的人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN112232134A CN112232134A (zh) 2021-01-15
CN112232134B true CN112232134B (zh) 2024-04-05

Family

ID=74107965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010991889.XA Active CN112232134B (zh) 2020-09-18 2020-09-18 一种基于沙漏网络结合注意力机制的人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN112232134B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221626B (zh) * 2021-03-04 2023-10-20 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113486734B (zh) * 2021-06-18 2023-11-21 广东技术师范大学 一种步态识别方法、系统、设备及存储介质
CN113449681B (zh) * 2021-07-15 2022-11-18 东南大学 一种联合注意力机制的3d人体姿态识别双分支网络模型
CN114119627B (zh) * 2021-10-19 2022-05-17 北京科技大学 基于深度学习的高温合金微观组织图像分割方法及装置
CN114155556B (zh) * 2021-12-07 2024-05-07 中国石油大学(华东) 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统
CN114492522B (zh) * 2022-01-24 2023-04-28 四川大学 基于改进堆叠沙漏神经网络的自动调制分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109376571A (zh) * 2018-08-03 2019-02-22 西安电子科技大学 基于变形卷积的人体姿态估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN109376571A (zh) * 2018-08-03 2019-02-22 西安电子科技大学 基于变形卷积的人体姿态估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进CPN的人体关键点定位算法研究;林怡雪;高尚;王光彩;刘晓欣;范迪;;现代计算机;20200425(第12期);全文 *

Also Published As

Publication number Publication date
CN112232134A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN111612008A (zh) 基于卷积网络的图像分割方法
CN111723707B (zh) 一种基于视觉显著性的注视点估计方法及装置
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN113313810A (zh) 一种透明物体的6d姿态参数计算方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-cnn structure for face super-resolution
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Ye et al. Depth super-resolution via deep controllable slicing network
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
Zhang et al. Planeseg: Building a plug-in for boosting planar region segmentation
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN116758219A (zh) 基于神经网络的区域感知多视角立体匹配三维重建方法
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
Polasek et al. Vision UFormer: Long-range monocular absolute depth estimation
CN115661858A (zh) 一种基于局部特征与全局表征耦合的2d人体姿态估计方法
CN111709945B (zh) 一种基于深度局部特征的视频拷贝检测方法
CN114723973A (zh) 大尺度变化鲁棒的图像特征匹配方法及装置
Zhang [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant