CN117373064A - 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 - Google Patents
基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117373064A CN117373064A CN202311422121.0A CN202311422121A CN117373064A CN 117373064 A CN117373064 A CN 117373064A CN 202311422121 A CN202311422121 A CN 202311422121A CN 117373064 A CN117373064 A CN 117373064A
- Authority
- CN
- China
- Prior art keywords
- dimension
- human body
- adaptive
- convolution
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003044 adaptive effect Effects 0.000 claims abstract description 64
- 230000006870 function Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000012014 frustrated Lewis pair Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- -1 AP75 Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质,所述方法包括:获取人体姿态估计数据集,并通过输入通道将所述人体姿态估计数据集输入到自适应跨维度加权高分辨率网络;将所有输入通道平均分成两组,从而在所述自适应跨维度加权高分辨率网络的模块内部形成两个分支;在第一分支的通道上应用层序列,执行自适应分辨率加权操作;在所述的第一分支上执行跨维度分裂卷积操作;在所述的第一分支上执行自适应空间加权操作;在具有不同特征表示的两组通道之间使用通道混洗进行信息交换;在自适应跨维度加权高分辨率网络中重复交换不同分辨率的信息,将所述自适应跨维度加权高分辨率网络的最后输出用于人体姿态估计。
Description
技术领域
本申请涉及人体姿态估计的技术领域,具体地涉及一种基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质。
背景技术
图像和视频中的人体姿态估计是指从图像或视频中预测人体关键点(例如,肘、膝盖等)的位置。人体姿态估计可以应用于许多实际场景,如人体动作识别、人机交互、姿态跟踪等。在人体姿态估计中,高分辨率网络通过在并行的多分辨率架构上反复交换信息来进行重复的多尺度融合,使人体关键点的检测精度得到了显著的提高。虽然高分辨率网络可以在具有中等计算能力的特殊硬件上实现接近实时的处理,但是高分辨率表示带来了巨大的计算成本导致它很难在资源受限的设备上实现。现实世界的应用程序(例如,游戏、VR和AR等)需要更高效的人体姿态估计方法,从而带来更好的交互体验。因此,如何在保持良好性能的同时设计出计算量小的人体姿态估计方法具有非常重要的意义。
现阶段的轻量级人体姿态估计网络主要从两个方面进行设计,第一是从高效的卷积神经网络中获取模块化深度可分离卷积,然后将其嵌入到高分辨率网络中得到轻量级高分辨网络。第二是用通道加权替代高分辨率网络中高成本的卷积层进行特征提取。然而,上述两种方法中存在两个明显问题:(1)目前对高分辨率网络的网络模块设计都是静态的,即其中包含的操作类型和数量与其输入数据无关。静态和固定的网络结构并不能充分利用高分辨率网络的多尺度结构,难以使其达到最优化的计算效率。(2)现有的加权方法通过构建通道之间的依赖关系或用于空间加权的空间掩码来提升标准卷积层生成特征表示的能力,然而,并没有考虑跨维度交换信息对网络性能可能具有有利影响。因此,要想设计更高效的高分辨率网络,需采用更有效的方法在空间和通道维度之间建立跨维度相互依赖性。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本发明实施例意图提供一种基于自适应跨维度加权的人体姿态估计方法,通过对不同输入特征进行自适应变换能够有效地提取上下文信息和多尺度信息,其中的跨维度分裂卷积通过在通道和空间维度之间建立依赖性,使其在进行充分的跨维度信息交换的同时提升了捕获特征空间关系的能力,在不增加额外计算复杂性的情况下提高了人体姿态估计的准确度。
在第一方面,本发明实施例提供了一种基于自适应跨维度加权的人体姿态估计方法,所述方法包括如下步骤:获取人体姿态估计数据集,并通过输入通道将所述人体姿态估计数据集输入到自适应跨维度加权高分辨率网络;将所有输入通道平均分成两组,从而在自适应跨维度加权高分辨率网络的模块内部形成两个分支;在第一分支的通道上应用层序列,执行自适应分辨率加权操作;在所述的第一分支上执行跨维度分裂卷积操作;在所述的第一分支上执行自适应空间加权操作;在具有不同特征表示的两组通道之间使用通道混洗进行信息交换;在自适应跨维度加权高分辨率网络中重复交换不同分辨率的信息,将所述自适应跨维度加权高分辨率网络的最后输出用于人体姿态估计。
可选的,所述自适应分辨率加权操作包括如下步骤:通过自适应空间池化操作,将所有输入特征汇集到当前分支的最低分辨率;将得到的所有池化特征拼接在一起;将拼接之后得到的特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵;将所述权重矩阵上采样到相应的分辨率并与所对应分辨率的原始特征执行加权操作,得到最终的输出特征。
可选的,所述自适应空间池化操作包括:通过1×1卷积和softmax层以获得空间掩码,然后通过自适应变换将所述空间掩码应用于特征图以获得空间特征。
可选的,所述跨维度分裂卷积操作包括如下步骤:使用通道分割操作来将所有输入通道平均分组;跨维度权重计算模块根据各组通道的不同输入特征为同一组通道上的卷积核计算注意力权重;利用所述注意力权重对每一组的卷积核的权重参数进行加权;在所述每一组的通道上分别进行不同卷积核大小的深度卷积操作;在通道维度上拼接所述每一组的卷积特征;在具有不同特征表示的各组通道之间使用通道混洗进行信息交换。
可选的,所述计算注意力权重包括如下步骤:将跨维度权重计算模块分为三分支模块,所述三个分支模块接收输入张量并输出相同形状的细化张量;在第一分支中,构建通道维度和高度维度之间的交互;在第二分支中,构建通道维度和宽度维度之间的交互;在第三分支中,通过通道注意力和空间注意力来细化特征;将三个分支中生成的细化张量聚合。
可选的,所述在第一分支中,构建通道维度和高度维度之间的交互包括:将输入特征沿着第一轴逆时针旋转90°得到旋转张量;所述旋转张量依次通过Z-pool函数、卷积层、批归一化层,最后通过sigmoid激活函数层来生成注意力权重;所述生成的注意力权重应用于所述旋转张量后沿着所述第一轴顺时针旋转90°。
可选的,所述在第二分支中,构建通道维度和宽度维度之间的交互包括:将输入特征沿着第二轴逆时针旋转90°得到旋转张量;所述旋转张量依次通过Z-pool函数、卷积层、批归一化层,最后通过sigmoid激活函数层来生成注意力权重;所述生成的注意力权重应用于所述旋转张量后沿着所述第二轴顺时针旋转90°。
可选的,所述自适应空间加权操作包括如下步骤:通过自适应空间池化操作压缩输入特征;所述压缩后的输入特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵;将所述权重矩阵与原始特征执行加权操作,得到最终的输出特征。
在本发明实施例中,在第二方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中任一项所述的基于自适应跨维度加权的人体姿态估计方法的步骤。
在第三方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中任一项所述的基于自适应跨维度加权的人体姿态估计方法的步骤。
本发明实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
以下,结合附图来详细说明本发明的实施例,所示出的元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
图1示出了一种可以实施本发明实施例的自适应跨维度加权高分辨率网络结构的示意图;
图2示出了一种可以实施本发明实施例的自适应跨维度加权方法的流程示意图;
图3示出了一种可以实施本发明实施例的自适应分辨率加权的实施步骤流程示意图;
图4示出了一种可以实施本发明实施例的自适应空间池化的实施步骤流程示意图;
图5示出了一种可以实施本发明实施例的跨维度分裂卷积的实施步骤流程示意图;
图6示出了一种可以实施本发明实施例的自适应空间加权的实施步骤流程示意图;
图7示出了一种可以实施本发明实施例计算机设备示意图;
图8示出了另一种可以实施本发明实施例计算机设备示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在本发明的实施例中提供了一种基于自适应跨维度加权的高分辨率人体姿态估计网络(ACW-HRNet),获得ACW-HRNet的过程包括如下步骤:
步骤一:获取人体姿态估计数据集,包括训练集和测试集,并对其进行数据预处理;在本实施例中所使用人体姿态估计数据集是COCO2017公开数据集;
步骤二:以Lite-HRNet网络模型作为基础模型,构建人体姿态估计网络ACW-HRNet(Adaptive Cross-dimensional Weighting High-Resolution Network);为了与最先进的轻量级高分辨率网络进行比较,设计了ACW-HRNet-18和ACW-HRNet-30;除了网络模块具体结构不同外,ACW-HRNet的网络深度和宽度与Lite-HRNet和Dite-HRNet相当,计算量和参数量也处于同一水平;
步骤三:使用COCO train2017数据集在一个RTX Titan显卡上对ACW-HRNet-18和ACW-HRNet-30进行训练,batchsize设为32,采用Adam优化器,初始学习率为2e-3,在第170和第200个epochs分别下降到2e-4和2e-5;COCO train2017数据集的图像大小调整为256×192或384×288;
步骤四:将训练得到的ACW-HRNet模型在COCO val2017数据集上进行测试;本实例采用基于对象关键点相似度(OKS)的平均精度(AP)和平均召回率(AR)得分对测试精度进行评估,另外还对模型的参数量指标(#Params)和计算量指标(FLOPs)进行计算,以验证本申请实施例的轻量性和高效性。
在本申请实施例中,提供一种基于自适应跨维度加权的人体姿态估计方法,通过对不同输入特征进行自适应变换能够有效地提取上下文信息和多尺度信息,其中的跨维度分裂卷积通过在通道和空间维度之间建立依赖性,使网络能够进行充分的跨维度信息交换;通过本申请实施例提供的轻量级人体姿态估计网络ACW-HRNet,将上述的自适应跨维度加权模块应用到一个轻量级高分辨率网络中,使其在进行充分的跨维度信息交换的同时提升了捕获特征空间关系的能力,在不增加额外计算复杂性的情况下提高了人体姿态估计的准确度。
在本申请实施例中,提供一种计算机设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本发明实施例的基于自适应跨维度加权的人体姿态估计方法。
图1示出了一种可以实施本发明实施例的自适应跨维度加权高分辨率网络结构的示意图。如图1所示,人体姿态估计网络ACW-HRNet(Adaptive Cross-dimensionalWeighting High-Resolution Network)共包含四个阶段,第一阶段包括一个高分辨率的子网络,后面每个阶段逐步增加高分辨率到低分辨率的子网络,并将多分辨率的子网络并行连接;每个新添加的子网络具有先前子网络一半的分辨率和两倍通道数量;在ACW-HRNet的四个阶段中,第一个阶段是主干模块,可以包括一个步幅为2的3×3卷积和一个shuffleblock(混洗块)组成,在提取特征的同时将特征图分辨率压缩到输入分辨率的1/4倍,通道数由3增加到32;后续每个阶段由一系列交叉分辨率模块组成,这些交叉分辨率模块由两个自适应跨维度加权(Adaptive Cross-dimensional Weighting,ACW)模块和特征融合模块组成;在第二阶段中,主干网络上分辨率不变,通道数增加到40,新添加的分支上分辨率降低到输入分辨率的1/8倍,通道数增加到80;在第三阶段中,主干网络上分辨率和通道数不变,新添加的分支上分辨率降低到输入分辨率的1/16倍,通道数增加到160;在第四阶段中,主干网络上分辨率和通道数不变,新添加的分支上分辨率降低到输入分辨率的1/32倍,通道数增加到320;在每个阶段中,重复地交换跨分辨率的信息,网络输出的高分辨率表示用于随后的姿态估计。图1所示实施例中ACW-HRNet包括的阶段数目,每个阶段的分辨率以及通道数目都是为了示意说明,本申请实施例并不作具体限制。
图2示出了一种可以实施本发明实施例的自适应跨维度加权方法的流程示意图。如图2所示,所述自适应跨维度加权(Adaptive Cross-dimensional Weighting,ACW)包括如下步骤:
S201:使用第一次通道分割操作将所有输入通道平均分成两组,从而在模块内部形成两个分支;在本申请实施例中人体姿态估计数据集通过输入通道输入到自适应跨维度加权人体姿态估计网络。
S202:在一个分支的通道上应用层序列,执行自适应分辨率加权操作;
S203:在步骤S202的分支上执行跨维度分裂卷积操作;
S204:在步骤S203的分支上执行自适应空间加权操作;
S205:把两个分支的输出在通道维度上进行特征拼接
S206:在具有不同特征表示的两组通道之间使用通道混洗进行信息交换。
图2所示实施例中提供的自适应跨维度加权方法既降低了人体姿态估计模块的参数量和计算量,又能够保留特征的丰富表示。
进一步地,上述步骤S202中的自适应分辨率加权操作的具体过程详见图3所示。图3示出了一种可以实施本发明实施例的自适应分辨率加权的实施步骤流程示意图。如图3所示所述自适应分辨率加权操作的步骤包括:
S301:通过自适应空间池化操作,将所有输入特征汇集到当前分支的最低分辨率;输入网络的张量维度一般可以表示为C、H和W,分别表示输入特征的通道数、高度和宽度,可以表示为在第n级中,存在n个并行的分辨率,经过自适应空间池化操作。进一步地,所述自适应空间池化的操作详见图4所示。
图4示出了一种可以实施本发明实施例的自适应空间池化的实施步骤流程示意图。如图4所示的自适应空间池化操作包如下:
通过1×1卷积和softmax层以获得空间掩码,然后通过一系列分辨率自适应变换(Reshape)将空间掩码应用于特征图以获得空间特征,来自所有n个分支的输出特征被汇集到最低分辨率Hm×Wm,这个过程可以表示为公式(1):
其中,ASPool(Hn,Wn)表示自适应空间池化,Xk表示具有第k个最高分辨率的输入张量,Hm×Wm表示最小分辨率大小。
S302:将所有池化特征拼接在一起,这个过程可以表示为公式(2):
其中,f(·)表示特征拼接;
S303:拼接之后得到的特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵,整个过程可以表示为公式(3):
其中,Conv.表示1×1卷积,Wn’表示权重矩阵(大小为Ck×Hk×Wk的三维张量),Hardswish表示Hardswish激活函数;
S304:将权重矩阵(W1’,W’2,...W’n,-1上采样到相应的分辨率,输出(W1,W2,...,Wn-1),每一个权重矩阵与其对应分辨率的原始特征执行加权操作,得到第k分支上的最终的输出特征Yk,这个过程可以表示为公式(4):
其中,⊙表示两个矩阵对应位置处的两个元素的乘法,Wk表示权重矩阵(大小为Ck×Hk×Wk的三维张量)。
进一步地,上述步骤S203中跨维度分裂卷积操作包括,使用第二次使用通道分割,并对第二次分割形成的G个分支分别依次执行1个深度卷积操作和1个跨维度权重计算操作,然后把所述第二次分割形成G个分支的输出在通道维度上进行拼接,最后使用通道混洗来在具有不同特征的信息,详见图5所示的实施例。
图5示出了一种可以实施本发明实施例的跨维度分裂卷积的实施步骤流程示意图。如图5所示,所述跨维度分裂卷积的实施步骤为:
S501:使用通道分割操作来将所有输入特征通道C平均分成G组,每一组的通道维度为N,这个过程可以表示为公式(5):
N=C/G (5);
在一些实施例中G可以设置为不同的值,例如G=1或G=2或G=4。当G=1时,对输入通道不进行分组,这时候只分配1个3×3卷积。当G=2时,输入通道平均分割为2组,2组通道分别分配1个3×3卷积和1个5×5卷积。当G=4时,输入通道平均分割为4组,4组通道分别分配1个3×3卷积、1个5×5卷积、1个7×7卷积和1个9×9卷积。图5为了示意说明给出了G=4的实施例,但是本申请不作具体限制。
S502:跨维度权重计算模块根据各组通道的不同输入特征来为同一组通道上的卷积核计算注意力权重;所述跨维度权重计算方法的实施步骤为:
S5021:将跨维度权重计算(Cross-dimensional Weight Computation,CWC)模块定义为三分支模块,其接收输入张量并输出相同形状的细化张量;给定一个输入张量首先将其传递给跨维度权重计算模块中的每一个分支;
S5022:在第一个分支中,构建通道维度和高度维度之间的交互;首先,输入X沿着H轴逆时针旋转90°。这个旋转张量表示为其形状为(W×H×C);然后,/>通过Z-pool,得到形状为(2×H×C)的/>然后,/>通过卷积核大小为3×3的卷积层,随后是批归一化层,该层提供维度(1×H×C)的中间输出;然后,张量通过sigmoid激活函数层来生成注意力权重,生成的注意力权重随后被应用于/>最后沿着H轴顺时针旋转90°为了和X的原始输入形状保持一致;
其中,Z-pool层连接跨维度的平均池化和最大池化特征,将张量的第零维度减少到2,这个过程可以表示为公式(6):
Z-pool(X)=[MaxPool0d(X),AvgPool0d(X)] (6);
其中,0d是在第零维度上进行最大池化和平均池化操作;例如,输入张量的形状为(C×H×W),经过Z-Pool,输出张量形状为(2×H×W);
S5023:在第二个分支中,输入X沿着W轴逆时针旋转90°;首先,旋转张量的维度用(H×C×W)表示;然后,经过Z-pool层,得到形状为(2×C×W)的张量/> 通过卷积核大小为3×3的卷积层,然后经过批归一化层,输出形状为(1×C×W)的张量;最后,张量传递给sigmoid激活函数层来生成注意力权重,将其应用于/>上,输出沿着W轴顺时针旋转90°以保持与输入X相同的形状;
S5024:对于最后的分支,输入张量X经过通道注意力模块来生成注意力权重,然后将其应用于X上,得到形状为(C×H×W)的X*;然后,张量X*经过Z-pool层,得到形状为(2×H×W)的然后,该张量经过卷积核大小为3×3的卷积层,然后经过批归一化层;最后,输出通过sigmoid激活函数层以生成注意力权重,将其应用于X*;
S5025:通过简单的平均将三个分支中生成的细化张量聚合;对于输入张量跨维度注意力权重计算的过程可以表示为:
其中,σ表示sigmoid激活函数,αi表示三个分支中卷积核大小为3的卷积层,ωi表示第i个分支所得到的注意力权重;等式中的和/>表示顺时针旋转90°以保持原始输入形状(C×H×W)。
S503:利用所述注意力权重对每一组的卷积核的权重参数进行加权;
S504:在每一组的通道上分别进行不同卷积核大小的深度卷积操作,这个过程可以表示为:
Yi=DWConv(ki×ki∣N)(Xi),ki=2i+1,i∈[1,G] (9);
其中,Xi和Yi分别表示第i组通道上深度卷积的输入和输出,DWConv(ki×ki|N)(·)是具有核大小ki×ki和通道维度N的深度卷积,G表示组的数目;
S505:把G组卷积特征输出在通道维度上进行拼接;
S506:在具有不同特征表示的G组通道之间使用通道混洗来进行信息交换;其中,若i∈[1,G],则第i组通道上深度卷积的卷积核大小为ki=2i+1,通道维度为N=C/G;因此可以通过调节G的大小来优化跨维度分裂卷积的计算效率;在高分辨率分支上,使用较小的卷积核更为高效;而在高分辨率分支上,使用混合卷积可能更具性价比;在高分辨率到低分辨的4个网络上,分别设置G为1、1、2、4,使计算效率达到最优。
进一步地,上述实施例中的步骤S204中的自适应空间加权操作,详见图6所示。图6示出了一种可以实施本发明实施例的自适应空间加权的实施步骤流程示意图,所述自适应空间加权操作的步骤包括:
S601:先通过自适应空间池化操作将维度为C×H×W的输入特征压缩为C×1×1,这个过程可以表示为:
其中,ASPool(1,1)表示当输出大小为1×1时的自适应空间池化;
S602:压缩后的特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵,整个过程可以表示为:
其中,Conv.表示1×1卷积,Wk表示权重矩阵(大小为Ck×Hk×Wk的三维张量),Hardswish表示Hardswish激活函数;
S603:将得到的权重矩阵与原始特征执行加权操作,得到第k分支上最终的输出特征Yk,这个过程可以表示为:
Yk=Xk⊙Wk,1≤k≤n (12);
其中,⊙表示两个矩阵对应位置处的两个元素的乘法,Wk表示权重矩阵(大小为Ck×Hk×Wk的三维张量)。
采用定量评价方式来评价本发明的有效性,本申请实施例在COCO 2017这个广泛使用的人体姿态估计公开数据集上进行了对比实验,比较了本申请实施例提供的方法与一些经典或先进的方法的性能优劣。
表(1)为相同的参数量(#Params)和计算量(FLOPs)下,ACW-HRNet优于最先进的轻量级人体姿态估计网络Lite-HRNet和Dite-HRNet,分别获得了1.5和0.4的AP得分提高。与大型网络相比,例如CPN和SimpleBaseline,ACW-HRNet以更低的计算复杂度实现了更高的精度,证明了本申请实施例提供的ACW-HRNet轻量级人体姿态估计网络在不增加额外计算复杂性的情况下提高了人体姿态估计的准确度。
表(1)
其中,表(1)为ACW-HRNet方法与其他方法在COCO val2017数据集上的对比实验结果,表(1)中:#Params表示参数量,FLOPs表示计算量,(AP、AP50、AP75、APM、APL、AR)为基于对象关键点相似度(OKS)指标的各种精度指标。
图7示出了一种可以实施本发明实施例计算机设备示意图。如图7所示计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对于人体姿态估计的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现任意一种本申请实施例提供的基于自适应跨维度加权的人体姿态估计方法。
图8示出了另一种可以实施本发明实施例计算机设备示意图。该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时可以实现任意一种本申请实施例提供的基于自适应跨维度加权的人体姿态估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例的方法、程序、系统、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
除非明确指出,根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本文中,针对本发明的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
已参考上述实施例具体示出并描述了本发明的示例性系统及方法,其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。
Claims (10)
1.一种基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述方法包括如下步骤:
获取人体姿态估计数据集,并通过输入通道将所述人体姿态估计数据集输入到自适应跨维度加权的高分辨率人体姿态估计网络;
将所有输入通道平均分成两组,从而在所述自适应跨维度加权的高分辨率人体姿态估计网络的模块内部形成两个分支;
在第一分支的通道上应用层序列,执行自适应分辨率加权操作;
在所述的第一分支上执行跨维度分裂卷积操作;
在所述的第一分支上执行自适应空间加权操作;
在具有不同特征表示的两组通道之间使用通道混洗进行信息交换;
在人体姿态估计网络中重复交换不同分辨率的信息,将所述自适应跨维度加权的高分辨率人体姿态估计网络的最后输出用于人体姿态估计。
2.根据权利要求1所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述自适应分辨率加权操作包括如下步骤:
通过自适应空间池化操作,将所有输入特征汇集到当前分支的最低分辨率;
将得到的所有池化特征拼接在一起;
将拼接之后得到的特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵;
将所述权重矩阵上采样到相应的分辨率并与所对应分辨率的原始特征执行加权操作,得到最终的输出特征。
3.根据权利要求2所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述自适应空间池化操作包括:通过1×1卷积和softmax层以获得空间掩码,然后通过自适应变换将所述空间掩码应用于特征图以获得空间特征。
4.根据权利要求1所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述跨维度分裂卷积操作包括如下步骤:
使用通道分割操作来将所有输入特征通道平均分组;
跨维度权重计算模块根据各组通道的不同输入特征为同一组通道上的卷积核计算注意力权重;
利用所述注意力权重对每一组的卷积核的权重参数进行加权;
在所述每一组的通道上分别进行不同卷积核大小的深度卷积操作;
在通道维度上拼接所述每一组的卷积特征;
在具有不同特征表示的各组通道之间使用通道混洗进行信息交换。
5.根据权利要求4所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述计算注意力权重包括如下步骤:
将跨维度权重计算模块分为三分支模块,所述三个分支模块接收输入张量并输出相同形状的细化张量;
在第一分支中,构建通道维度和高度维度之间的交互;
在第二分支中,构建通道维度和宽度维度之间的交互;
在第三分支中,通过通道注意力和空间注意力来细化特征;
将三个分支中生成的细化张量聚合。
6.根据权利要求5所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述在第一分支中,构建通道维度和高度维度之间的交互包括:将输入张量沿着第一轴逆时针旋转90°得到旋转张量;
所述旋转张量依次通过Z-pool函数、卷积层、批归一化层,最后通过sigmoid激活函数层来生成注意力权重;
所述生成的注意力权重应用于所述旋转张量后沿着所述第一轴顺时针旋转90°。
7.根据权利要求5所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述在第二分支中,构建通道维度和宽度维度之间的交互包括:将输入张量沿着第二轴逆时针旋转90°得到旋转张量;
所述旋转张量依次通过Z-pool函数、卷积层、批归一化层,最后通过sigmoid激活函数层来生成注意力权重;
所述生成的注意力权重应用于所述旋转张量后沿着所述第二轴顺时针旋转90°。
8.根据权利要求1所述的基于自适应跨维度加权的人体姿态估计方法,其特征在于,所述自适应空间加权操作包括如下步骤:
通过自适应空间池化操作压缩输入特征;
所述压缩后的输入特征依次经过一个1×1卷积、一个Hardswish激活函数层、一个1×1卷积、一个sigmoid激活函数层,得到权重矩阵;
将所述权重矩阵与原始特征执行加权操作,得到最终的输出特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的基于自适应跨维度加权的人体姿态估计方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于自适应跨维度加权的人体姿态估计方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422121.0A CN117373064A (zh) | 2023-10-30 | 2023-10-30 | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311422121.0A CN117373064A (zh) | 2023-10-30 | 2023-10-30 | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117373064A true CN117373064A (zh) | 2024-01-09 |
Family
ID=89394328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311422121.0A Pending CN117373064A (zh) | 2023-10-30 | 2023-10-30 | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711028A (zh) * | 2024-02-06 | 2024-03-15 | 深圳大学 | 一种基于注意力机制模块的人体姿态估计方法及系统 |
-
2023
- 2023-10-30 CN CN202311422121.0A patent/CN117373064A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711028A (zh) * | 2024-02-06 | 2024-03-15 | 深圳大学 | 一种基于注意力机制模块的人体姿态估计方法及系统 |
CN117711028B (zh) * | 2024-02-06 | 2024-05-24 | 深圳大学 | 一种基于注意力机制模块的人体姿态估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Generative partial multi-view clustering with adaptive fusion and cycle consistency | |
EP3732619B1 (en) | Convolutional neural network-based image processing method and image processing apparatus | |
Gao et al. | MSCFNet: A lightweight network with multi-scale context fusion for real-time semantic segmentation | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN109255392B (zh) | 基于非局部神经网络的视频分类方法、装置及设备 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112613581A (zh) | 一种图像识别方法、系统、计算机设备和存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110838108A (zh) | 基于医疗图像的预测模型构建方法、预测方法及装置 | |
CN111553215A (zh) | 人员关联方法及其装置、图卷积网络训练方法及其装置 | |
CN111340077A (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN117373064A (zh) | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 | |
CN114463805B (zh) | 深度伪造检测方法、装置、存储介质及计算机设备 | |
CN113449700A (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
US11966850B1 (en) | Systems and methods for training predictive models that ignore missing features | |
CN113627163A (zh) | 一种注意力模型、特征提取方法及相关装置 | |
CN106169961A (zh) | 基于人工智能的神经网络的网络参数处理方法及装置 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN115131194A (zh) | 一种图像合成模型的确定方法和相关装置 | |
CN112132253B (zh) | 3d动作识别方法、装置、计算机可读存储介质及设备 | |
CN113642592B (zh) | 一种训练模型的训练方法、场景识别方法、计算机设备 | |
CN113139490A (zh) | 一种图像特征匹配方法、装置、计算机设备及存储介质 | |
CN113222832A (zh) | 一种基于结构化张量的分簇多光谱图像修复方法及装置 | |
CN111242299A (zh) | 基于ds结构的cnn模型压缩方法、装置及存储介质 | |
CN112613376B (zh) | 重识别方法及装置,电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |