CN115222959A - 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 - Google Patents
一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 Download PDFInfo
- Publication number
- CN115222959A CN115222959A CN202210826824.9A CN202210826824A CN115222959A CN 115222959 A CN115222959 A CN 115222959A CN 202210826824 A CN202210826824 A CN 202210826824A CN 115222959 A CN115222959 A CN 115222959A
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- layer
- feature map
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,采用深度可分离卷积与两个残差块相结合作为特征提取主干网络,采用轻量化卷积网络与Transformer相结合进行关键点检测。深度可分离卷积与传统CNN相比减少了大量冗余的参数,同时两个残差块又结合了标准卷积的优点,在压缩模型参数,加快运行效率的同时,使得本文的特征提取网络在图像特征提取方面达到不俗的效果,轻量化卷积网络对图像特征进行更好提取的同时减少了参数量,Transformer中自我注意力层能获得全局约束关系,并保留细粒度的局部特征信息,从而可以有效地捕获人体各部位之间的空间关系,通过更少的参数和更快的速度,达到了可以媲美基于CNN最先进的人体关键点检测技术的精度。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种轻量化卷积网络与Transformer相结合的人体关键点检测方法。
背景技术
人体关键点检测是指基于图像来重建人的关节和肢干,即找出人体骨骼的关键点并将其组合。在计算机视觉(Computer Vision,CV)领域,人体的关键点定位至今依旧是热门的研究方向。发展到现在,人体关键点检测已经催生了很多应用,在人机交互、病人监护系统、智能视频监控、虚拟现实、运动员辅助训练、智能家居、人体动画、智能安防等领域都有着重要的意义和广泛的应用前景。
目前,人体关键点检测方法大多是基于传统的卷积神经网络,虽然能够很好地学习特征检测关键点,但是这些卷积神经网络结构复杂且参数量大,训练及推理会占用大量计算资源和时间。Transformer采用基于自注意力和多层感知器的编码器架构,使得其在学习位置关系上的约束方面比CNN具有天然优势,多层注意力模块使模型能够捕获任何关键点位置之间的关系,并且其网络结构比传统卷积网络更加简易。然而Transformer在提取图像低级特征方面远不如卷积网络,也导致使用Transformer模型进行关键点检测的精度大打折扣。
发明内容
针对现有技术的不足,本发明提出了一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,针对轻量化卷积网络对图像纹理信息的特征提取优势和模型轻量性,与Transformer结构的全局建模特点相结合,在关键点精度较高的前提下大大提高了检测的速度。
本申请采用以下技术方案:一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,包括:
步骤1:获取图片数据,处理后作为输入;
步骤2:构建轻量化卷积网络作为特征提取器,将图片数据输入特征提取器进行特征提取,得到目标特征图;
步骤3:对目标特征图进行位置编码,使得目标特征图中的特征向量保持独立地空间位置关系;
步骤4:将带有位置编码的目标特征图输入Transformer的多层注意力模块,注意力模块从特征向量序列中捕获不同特征之间的依赖关系,将获得不同注意力权重的特征图与目标特征图再次融合,得到更新后的特征向量;
步骤5:将更新后的特征向量输入至Transformer的多层感知机MLP模块,得到最终的输出特征;
步骤6:通过回归热图的方法预测输出特征的关键点坐标。
作为优选,所述步骤2中,特征提取器包括深度可分离卷积块和两个深度残差块;在进行特征提取时:Stage1,采用步长为1的卷积核,对输入通道为3的输入图片进行逐通道卷积,同时保持通道独立,将通道维度升到128,得到第一特征图;stage2:逐点卷积,采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合,生成第二特征图;stage3:将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中,使用3*3*64的卷积核进一步提取特征,得到第三特征图;stage4:将第三特征图通道维度升到128维,输入至4层bottleneck残差块中,使用3*3*128的卷积核提取特征,得到目标特征图。
作为优选,所述3步骤中,编码过程表示为:
作为优选,所述步骤4中,多层注意力模块带有3个权重参数矩阵wq,wk,wv∈Rd×d,表示注意力指标的矩阵A∈RN×N的计算公式为:
其中,特征向量X1乘以wq的权重矩阵qi得到新向量q1,q1表示包含Q值矩阵权重的向量;特征向量X1乘以wk的权重矩阵ki的到新向量k1,k1表示包含K值矩阵权重的向量;将q1和k1的点积除以d的平方根后进行加权平均得到注意力指标矩阵,其中d表示K值矩阵向量的维数,然后V值矩阵中的权重向量wi分别对矩阵A进行加权求和,完成对特征向量的更新。
作为优选,所述步骤5中,将更新后的特征向量输入至前馈神经网络,经过两个全连接层和一个Relu激活层后,再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。
作为优选,所述步骤6中,Transformer的输出连接至一个头部网络,头部网络由两个卷积层组成,第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致,第二卷积层将Transformer模块的输出升维后再降到k,从而预测k类关键点热图,其中k为关键点的个数。
作为优选,采用COCO2017公开数据集作为图片数据来源,并将其等比缩放为256*192尺寸后作为输入。
本发明具有以下有益效果:1、采用深度可分离卷积与两个残差块相结合作为特征提取主干网络,深度可分离卷积与传统CNN相比减少了大量冗余的参数,同时两个残差块又结合了标准卷积的优点,在压缩模型参数,加快运行效率的同时,使得本文的特征提取网络在图像特征提取方面达到不俗的效果。2、采用轻量化卷积网络与Transformer相结合进行关键点检测,其中轻量化卷积网络对图像特征进行更好提取的同时减少了参数量,Transformer中自我注意力层能获得全局约束关系,并保留细粒度的局部特征信息,从而可以有效地捕获人体各部位之间的空间关系,本发明通过更少的参数和更快的速度,达到了可以媲美基于CNN最先进的人体关键点检测技术的精度。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本发明人体关键点检测流程图;
图2为本发明整体结构图;
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,如图1和图2所示,包括以下步骤:
步骤1:获取图片数据,本实施例采用COCO2017公开数据集作为图片数据来源,并将其等比缩放为256*192尺寸后作为输入;
步骤2:构建轻量化卷积网络作为特征提取器,将图片数据输入特征提取器进行特征提取,得到目标特征图;
本实施例中,特征提取器包括深度可分离卷积块和两个深度残差块。在进行特征提取时,首先采用深度可分离卷积块:Stage1,采用步长为1的卷积核,对输入通道为3的输入图片进行逐通道卷积,同时保持通道独立,将通道维度升到128,得到第一特征图;stage2:逐点卷积,采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合,生成第二特征图;stage3:将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中,使用3*3*64的卷积核进一步提取特征,得到第三特征图;stage4:将第三特征图通道维度升到128维,输入至4层bottleneck残差块中,使用3*3*128的卷积核提取特征,得到目标特征图。
步骤3:对目标特征图进行位置编码,使得目标特征图中的特征向量保持独立地空间位置关系;
鉴于Transformer模块本身是缺失位置信息的,所以在进入Transformer模块之前需要对目标特征图中的特征向量加上位置编码,使得特征向量的位置信息在图像水平x和垂直y方向上独立,保持独立的空间位置关系。编码过程可表示为:
步骤4:将带有位置编码的目标特征图输入Transformer的多层注意力模块,注意力模块从特征向量序列中捕获不同特征之间的依赖关系,将获得不同注意力权重的特征图与目标特征图再次融合,得到更新后的特征向量;
多层注意力模块通过查询量(query)-键(key)-值(value)迭代地从特征向量序列中捕获不同特征比如关键点特征之间的依赖关系,然后将获得不同注意力权重的特征图与步骤3得到的特征图融合。具体地,多层注意力模块带有3个权重参数矩阵wq,wk,wv∈Rd×d,表示注意力指标的矩阵A∈RN×N的计算公式为:
其中,特征向量X1乘以wq的权重矩阵qi得到新向量q1,q1表示包含Q值矩阵权重的向量;特征向量X1乘以wk的权重矩阵ki的到新向量k1,k1表示包含K值矩阵权重的向量;将q1和k1的点积除以d的平方根后进行加权平均得到注意力指标矩阵A,其中d表示K值矩阵向量的维数,然后V值矩阵中的权重向量wi分别对矩阵A进行加权求和,完成对特征向量的更新。不同特征获得不同权重后的特征图称之为注意力图,注意力图也可以看作是特征的动态权重。
将得到的注意力图与低维特征图再次融合,做LayerNorm运算,以进行不同尺度特征信息的交换。特征图融合过程为特征图中的特征向量进行前向传播的同时也进行反向传播,最后进行归一化。
步骤5:将更新后的特征向量输入至Transformer的多层感知机MLP模块,得到最终的输出特征;
多层感知机MLP模块包括位置前馈网络层(feed-forward network,FFN),其作用是可以更好的构建出关键点之间的空间位置联系,提升模型的定位效率。将更新后的特征向量输入至前馈神经网络,经过两个全连接层和一个Relu激活层后,再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。
步骤6:通过回归热图的方法预测输出特征的关键点坐标。
Transformer的输出连接至一个简单的头部网络,其作用是通过回归热图的方法预测关键点坐标。具体地,头部网络由两个卷积层组成,第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致,第二卷积层的作用是特征的分类与回归。将Transformer模块的输出升维到E∈Rc×H×W,其中H和W表示输入图像的长和宽,c表示特征图的通道维数;通过1×1卷积将E的通道维数从c降到k,从而预测k类关键点热图P∈Rk×h×w,其中k为关键点的个数,c表示特征图的通道维数,h和w表示关键点热图的长和宽且h和w分别为输入图像尺寸的1/4。
使用基于OKS(Object Keypoint Similarity)的平均准确率AP(AveragePrecision)和FPS(Frames Per Second)作为评估指标,评估模型的精度和处理速度。其中OKS表示关键点之间的相似度,平均准确率AP(Average Precision)表示的是成功检测出关键点的目标个数与目标总个数的比值,FPS表示一秒钟模型处理的图片张数。
将本文方法与主流的基于CNN的人体关键点检测方法AlphaPose、HRNet分别进行比较,实验结果如下表所示:
Model | AP | FPS |
AlphaPose | 72.3 | 20 |
HRNet | 73.1 | 27 |
本文方法 | 73.5 | 78 |
从实验结果可以看出,相比较基于CNN的主流关键点检测方法,本发明提出的轻量化卷积与TransFormer模型结合的方法在平均准确率都不低于上面两种方法的前提下,大大提高了检测速度(FPS),加快了模型运行速度。
上述只是本发明的具体实施例,并非对本发明作任何形式上的限制。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改等,都应落在本发明技术方案保护的范围内。
Claims (7)
1.一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,其特征在于,包括:
步骤1:获取图片数据,处理后作为输入;
步骤2:构建轻量化卷积网络作为特征提取器,将图片数据输入特征提取器进行特征提取,得到目标特征图;
步骤3:对目标特征图进行位置编码,使得目标特征图中的特征向量保持独立地空间位置关系;
步骤4:将带有位置编码的目标特征图输入Transformer的多层注意力模块,注意力模块从特征向量序列中捕获不同特征之间的依赖关系,将获得不同注意力权重的特征图与目标特征图再次融合,得到更新后的特征向量;
步骤5:将更新后的特征向量输入至Transformer的多层感知机MLP模块,得到最终的输出特征;
步骤6:通过回归热图的方法预测输出特征的关键点坐标。
2.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,其特征在于,所述步骤2中,特征提取器包括深度可分离卷积块和两个深度残差块;
在进行特征提取时:Stage1,采用步长为1的卷积核,对输入通道为3的输入图片进行逐通道卷积,同时保持通道独立,将通道维度升到128,得到第一特征图;stage2:逐点卷积,采用1*1*128的卷积核将第一特征图在深度方向上进行加权组合,生成第二特征图;stage3:将第二特征图的通道维度降到64维并输入至3层bottleneck残差块中,使用3*3*64的卷积核进一步提取特征,得到第三特征图;stage4:将第三特征图通道维度升到128维,输入至4层bottleneck残差块中,使用3*3*128的卷积核提取特征,得到目标特征图。
5.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,其特征在于,所述步骤5中,将更新后的特征向量输入至前馈神经网络,经过两个全连接层和一个Relu激活层后,再进行LayerNorm运算与上层特征向量融合得到最终的特征向量。
6.根据权利要求5所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,其特征在于,所述步骤6中,Transformer的输出连接至一个头部网络,头部网络由两个卷积层组成,第一卷积层将步骤5得到的特征向量维度保持与第二卷积层一致,第二卷积层将Transformer模块的输出升维后再降到k,从而预测k类关键点热图,其中k为关键点的个数。
7.根据权利要求1所述的一种轻量化卷积网络与Transformer相结合的人体关键点检测方法,其特征在于,采用COCO2017公开数据集作为图片数据来源,并将其等比缩放为256*192尺寸后作为输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210826824.9A CN115222959A (zh) | 2022-07-14 | 2022-07-14 | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210826824.9A CN115222959A (zh) | 2022-07-14 | 2022-07-14 | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222959A true CN115222959A (zh) | 2022-10-21 |
Family
ID=83611429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210826824.9A Pending CN115222959A (zh) | 2022-07-14 | 2022-07-14 | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222959A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934859A (zh) * | 2023-09-18 | 2023-10-24 | 博志生物科技(深圳)有限公司 | 基于矢状位图的关键点识别方法及相关装置 |
-
2022
- 2022-07-14 CN CN202210826824.9A patent/CN115222959A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934859A (zh) * | 2023-09-18 | 2023-10-24 | 博志生物科技(深圳)有限公司 | 基于矢状位图的关键点识别方法及相关装置 |
CN116934859B (zh) * | 2023-09-18 | 2024-01-05 | 博志生物科技(深圳)有限公司 | 基于矢状位图的关键点识别方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN108038420B (zh) | 一种基于深度视频的人体行为识别方法 | |
Liu et al. | Efficient crowd counting via structured knowledge transfer | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
WO2020107847A1 (zh) | 基于骨骼点的跌倒检测方法及其跌倒检测装置 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN107122712B (zh) | 基于cnn和双向vlad的掌纹图像识别方法 | |
Guo et al. | JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing | |
CN111639580B (zh) | 一种结合特征分离模型和视角转换模型的步态识别方法 | |
CN109558805A (zh) | 基于多层深度特征的人体行为识别方法 | |
Liu et al. | GeometryMotion-Net: A strong two-stream baseline for 3D action recognition | |
Shah et al. | Multi-view action recognition using contrastive learning | |
Dai et al. | Video scene segmentation using tensor-train faster-RCNN for multimedia IoT systems | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Liu et al. | Dual context-aware refinement network for person search | |
CN115222959A (zh) | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 | |
Zeng et al. | Contrastive 3d human skeleton action representation learning via crossmoco with spatiotemporal occlusion mask data augmentation | |
Guo et al. | Mgtr: End-to-end mutual gaze detection with transformer | |
CN112348033B (zh) | 一种协同显著性目标检测方法 | |
Qiu et al. | Ivt: An end-to-end instance-guided video transformer for 3d pose estimation | |
Wang et al. | Global and local spatio-temporal encoder for 3d human pose estimation | |
Tong et al. | Unconstrained Facial expression recognition based on feature enhanced CNN and cross-layer LSTM | |
CN116977763A (zh) | 模型训练方法、装置、计算机可读存储介质及计算机设备 | |
Huang et al. | Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention | |
Ameur et al. | Unconstrained face verification based on monogenic binary pattern and convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |