CN115661858A

CN115661858A - 一种基于局部特征与全局表征耦合的2d人体姿态估计方法

Info

Publication number: CN115661858A
Application number: CN202211249602.1A
Authority: CN
Inventors: 陈乔松; 吴济良
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-01-31

Abstract

本发明请求保护一种基于局部特征与全局表征耦合的2D人体姿态估计方法，包括如下步骤：获取数据集，选取并划分人体姿态估计任务所需的训练集和验证集；获取人体的具体位置，对样本图像进行分割，同时对分割后的图像进行数据增强；将处理后的数据输入基于Pytorch开源深度学习框架设计的卷积神经网络中；输出的热度图能表示人体关节点的位置；计算网络模型的输出热度图与对应标注热度图的损失，训练并优化检测模型；步骤五，利用优化后的模型参数，检测真实场景图像中人体关节点的位置，得到相应的人体骨骼框架。本发明基于耦合卷积神经网络提取的局部特征和Transformer捕捉的全局表征来提升网络的特征提取能力，实现了端到端的人体姿态估计方法。

Description

一种基于局部特征与全局表征耦合的2D人体姿态估计方法

技术领域

本发明涉及卷积神经网络、Transformer和人体姿态估计技术，尤其涉及基于耦合局部特征和全局表征来实现人体姿态估计的方法。

背景技术

人体姿态估计是计算机视觉中重要的研究课题之一，同时也是计算机视觉中十分具有挑战性的任务之一，其旨在让机器识别出输入图像中人体关节点的空间位置并生成一副能代表姿态的人体骨骼框架。随着人工智能理论的发展，基于深度学习的人体姿态估计算法已经逐渐取代了传统的算法，成为了计算机领域的热门研究课题，揭开了人工智能时代的大幕，其应用的领域包括：智能运动、智能监控和安防等领域。

目前基于神经网络的人体姿态估计方法分为自上而下和自下而上两类，前者是先确定人体的位置，然后再位置内确定人体的关节点位置；后者是先计算出图中所有关节点位置，然后在利用人体模型拟合或者相关算法进行分组形成独立的人体骨骼框架。自上而下算法包括：Pose Machines、HRNet、TransPose，而自下而上算法包括：OpenPose等。上述方法中只有TransPose同时使用了卷积神经网络和Transformer，但是并未深入探索耦合局部特征和全局表征再人体姿态估计领域的作用。

CN114565938A，一种融合局部和全局特征的三维人体姿态估计方法，包括：提出可应用于3D人体姿态估计模型的观测模式I；提出可应用于3D人体姿态估计模型的观测模式II；调整训练完成的图像-2D姿态的网络；全连接模块捕捉人体姿态的全局特征；分组连接模块捕捉人体姿态的局部特征；融合局部特征和全局特征被并回归到3D姿势，最终得到3D人体姿态估计的模型。本发明的有益效果在于：提出了一种融合局部和全局特征的三维人体姿态估计方法，通过分别使用全连接模块和分组连接模块捕捉人体姿态的全局特征和局部特征，然后融合提取到的特征，获得泛化性能更好的3D人体姿态估计模型，并显着提高具有高局部特征相似性姿势估计性能指标。

区别：CN114565938A使用的是卷积神经网络提取局部特征和全局特征，本文使用卷积神经网络提取局部特征，使用transformer捕捉的全局特征；CN114565938A的全局特征提取模块和局部特征提取模块提取到特征后只有一次融合就回归到人体关节点的位置，整个过程只有一次融合；本文作者采用的方式是：卷积神经网络和transformer提取到特征后进行耦合，然后再耦合后的技术之上提取特征，然后继续耦合，上述过程多次后才回归出人体关节点的位置，整个过程有多次耦合。

本文的优势在于：通过特征耦合模块，能够丰富局部特征的全局信息和全局表征的局部信息；卷积神经网络善于提取纹理等细节信息，对称关节点周围的纹理信息更为相似；Transformer擅长捕捉长短距离依赖关系，形成关节点之间的空间相对关系；使用特征耦合模块耦合两种特征后，网络既能提取丰富的细节信息，更能捕捉更为精确的长短距离关系；当图像中的人体关节点因为服饰的变化导致对称关节点周围的纹理信息差异较大时，网络能够通过提取的空间相对关系还原出这些难点。同时由于人体姿态十分灵活，数据集不能囊括人体所有的姿态，当网络遇到不常见的姿态如杂技时，网络在捕捉空间相对关系时相对较差，但模型能够通过提取的丰富的细节特征进行弥补。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于局部特征与全局表征耦合的2D人体姿态估计方法。本发明的技术方案如下：

一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其包括以下步骤：

1)、获取数据集，选取并划分人体姿态估计任务所需的训练集和验证集；

2)、获取人体关节点的具体位置，分别对训练集图像和验证集图像中的样本图像进行分割，同时对分割后的图像进行数据增强；

3)、将步骤2)处理后的数据输入基于Pytorch开源深度学习框架设计的卷积神经网络中；所述基于Pytorch开源深度学习框架设计的卷积神经网络是一个串行结构，图片先经过基础特征网络提取特征后送入局部-全局特征耦合模块进行特征耦合，上一个特征耦合模块的输出是下一个特征耦合模块的输入，每一个特征耦合模块的输出还会送入头部网络参与中间监督计算，网络最后输出的是热度图，每一个热度图代表一个关节点；

4)、计算网络模型的输出热度图与对应标注热度图的损失，对应标注热度图为原图的关节点位置转换而来，训练并优化检测模型；

5)、利用优化后的模型，检测真实场景图像中人体关节点的位置，得到相应的人体骨骼框架。

进一步的，所述步骤1)的训练集使用coco2017 train数据集，其中包含118287张图片和149813个可见的人体实例；验证集使用coco2017 val数据集，含5000张图片和6352个可见的人体实例。

进一步的，所述步骤2)采用自上而下的方案，自上而下的方案指的是：先检测出图片中人体的位置，然后再在人体位置中检测人体关节点的位置，所以在处理数据集的时候先根据图片中人体的位置进行分割处理，使得每一个分割的结果都只包含一个人体实例。

进一步的，所述基础特征提取网络为resnet和hrnet。

进一步的，所述局部-全局特征耦合模块进行特征耦合具体包括：

上一阶段得到的局部特征和全局表征通过点积运算得到相似矩阵，相似矩阵经过softmax计算后与全局表征进行点积计算，上一步计算的结果与局部特征进行通道拼接并使用卷积进行维度调整，得到的结果便是耦合后的局部特征；计算过程公式描述如下：

其中local_m和global_m分别代表耦合后的局部特征和全局表征，Conv代表卷积运算，local和global分别代表耦合前的局部特征和全局表征,

和

代表local和global向量的维度，*代表点积运算；+代表特征图通道拼接。

进一步的，所述局部-全局特征耦合模块还包括局部-全局特征交流模块，具体为：

图像或者特征图被划分成不重叠的块，块内再次细分后并编码成不同的PatchToken，Patch Token表示切分图片后形成的不重叠的块，属于同一块内的所有Patch Token经过下采样得到局部-全局交流令牌，局部-全局交流令牌代表此块的高层语义信息；对局部-全局交流令牌等分洗牌后，得到的每一个新的局部-全局交流令牌中都包含所有块的高层语义信息，再将新的局部-全局交流令牌与原有分块的Patch Token进行通道拼接；经过上述的计算后，每一个块中不仅包含代表自身语义信息，还包含其它块少量的高层语义信息。

进一步的，所述步骤4)计算网络模型的输出热度图与对应标注热度图的损失，对应标注热度图为原图的关节点位置转换而来，训练并优化检测模型，具体包括：

其中loss表示损失，num_joints表示数据集中标注的人体关节点的数量，height和weight分别表示热度图的高度和宽度，output和target分别表示模型计算得到的热度图和代表人体关节点实际位置的热度图。

计算模型输出的热度图和真实标签转换而成的热度图之间的损失使用交叉熵函数，热度图的大小为56*56；由于每一个关节都带有一个热度图，因此在计算损失时先计算每一个关节之间的损失，再计算平均值；计算每一个关节点之间的损失就是计算每一对热度图对应的3136对元素的交叉熵和。

本发明的优点及有益效果如下：

本发明基于卷积神经网络和transformer，首先构建了一个局部-全局特征耦合模块，该模块采用注意力计算和残差的机构深度耦合卷积神经网络提取的局部特征和transformer提取的全局表征；其次设计了一个局部-全局信息交流模块来减小耦合过程中局部特征和全局表征数据源范围差异带来的模型精度损失。

利用注意力计算的方式耦合局部特征和全局表征，这样能使的局部特征中含有全局信息，全局特征中含有局部信息，能增强模型的特征提取能力。同时注意力计算过程中的点集计算能用来评判向量的相关度，具有关节点尤其是人体对称关节点比如左右手手腕的向量的相似度较高，因此利用注意力计算的方式耦合局部特征和全局表征的方式在计算过程中能不断地精细化确定人体关节点的位置。

附图说明

图1是本发明提供优选实施例网络模型整体框架图；

图2是局部-全局特征耦合模块图；

图3是局部全局信息交流模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

方法的流程如图1，图像经过基础网络进行浅层特征提取后将特征送入局部-全局特征耦合模块，前一个模块的输出是后一个模块的输入，并且每一个模块的输出都会送入头部网络用于计算模型最终输出的能代表关节点位置的热度图。具体分为以下步骤：

2)、由于作者提出的方案是自上到下类型，这种方案需要先知道人体的具体位置，因此分别对训练集图像和验证集图像中的样本图像进行分割，同时对分割后的图像进行数据增强；

3)、将步骤二处理后的数据输入基于Pytorch开源深度学习框架设计的卷积神经网络中；输出的热度图能表示人体关节点的位置；

4)、计算网络模型的输出热度图与对应标注热度图(原图的关节点位置转换而来)的损失，训练并优化检测模型；

5)、利用优化后的模型参数，检测真实场景图像中人体关节点的位置，得到相应的人体骨骼框架。

所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其中步骤1)本次训练集使用coco2017 train数据集，其中包含118287张图片和149813个可见的人体实例。验证集使用coco2017 val数据集，含5000张图片和6352个可见的人体实例。

所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其中步骤2)本方案采用自上而下的方案，所以在处理数据集的时候先根据图片中人体的位置进行分割处理，使得每一个分割的结果都只包含一个人体实例。

所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其中步骤3)网络如图1所示，详细描述如下：

网络整体结构是一个串行结构，图片先经过基础特征网络提取特征后送入局部-全局特征耦合模块进行特征耦合，上一个特征耦合模块的输出是下一个特征耦合模块的输入，每一个特征耦合模块的输出还会送入头部网络参与中间监督计算，网络最后输出的是热度图。每一个热度图代表一个关节点。

基础特征提取网络：本网络采用的基础特征提取网络为resnet和hrnet。

局部-全局特征耦合模块：其结构如图2所示：上一阶段得到的局部特征和全局表征通过点积运算得到相似矩阵，为了丰富局部特征的全局信息，相似矩阵经过softmax计算后与全局表征进行点积计算，为了保证局部特征的性质，上一步计算的结果与局部特征进行通道拼接并使用卷积进行维度调整，得到的结果便是耦合后的局部特征；丰富全局表征的局部性过程与此类似。计算过程公式描述如下：

和

局部-全局特征交流模块：结构图如图2所示，详细描述如下：在局部-全局特征耦合模块中，注意力计算范围被限制在不重叠的块中，但是卷积神经网络计算过程是连续且重叠的，因此在耦合计算过程中全局表征的计算来源要小于局部特征的计算来源，即局部特征和全局表征的数据源范围存在差异，这会影响模型的精度；因此作者局部-全局特征交流模块来减小数据源范围差异带来的影响。流程为：图像或者特征图被划分成不重叠的块，块内再次细分后并编码成不同的Patch Token。属于同一块内的所有Patch Token经过下采样得到局部-全局交流令牌(图中的LGC Token)，局部-全局交流令牌代表此块的高层语义信息。对局部-全局交流令牌等分洗牌后，得到的每一个新的局部-全局交流令牌中都包含所有块的高层语义信息，再将新的局部-全局交流令牌与原有分块的Patch Token进行通道拼接；经过上述的计算后，每一个块中不仅包含代表自身语义信息，还包含其它块少量的高层语义信息。通过上述的流程就能减小局部特征和全局表征的数据源范围的差异。

所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其中步骤4)，包括：

计算模型输出的热度图和真实标签转换而成的热度图之间的损失使用交叉熵函数，热度图的大小为56*56。由于每一个关节都带有一个热度图，因此在计算损失时先计算每一个关节之间的损失，在计算平均值。计算每一个关节点之间的损失就是计算每一对热度图对应的3136(56*56＝3136)对元素的交叉熵和。

所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其中步骤5)，包括：

利用优化后的模型，选择验证集图像测试已训练模型的检测性能，即通过前向传播，计算人体关节点的位置，最后还原出图片中所有人的人体关节点骨骼框架。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，包括以下步骤：

5)、利用优化后的检测模型，检测真实场景图像中人体关节点的位置，得到相应的人体骨骼框架。

2.根据权利要求1所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述步骤1)的训练集使用coco2017 train数据集，其中包含118287张图片和149813个可见的人体实例；验证集使用coco2017 val数据集，含5000张图片和6352个可见的人体实例。

3.根据权利要求1所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述步骤2)采用自上而下的方案，自上而下的方案指的是：先检测出图片中人体的位置，然后再在人体位置中检测人体关节点的位置，所以在处理数据集的时候先根据图片中人体的位置进行分割处理，使得每一个分割的结果都只包含一个人体实例。

4.根据权利要求1所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述基础特征提取网络为resnet和hrnet。

5.根据权利要求4所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述局部-全局特征耦合模块进行特征耦合具体包括：

和

6.根据权利要求5所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述局部-全局特征耦合模块还包括局部-全局特征交流模块，具体为：

图像或者特征图被划分成不重叠的块，块内再次细分后并编码成不同的Patch Token，Patch Token为切分图片后形成的不重叠的块，属于同一块内的所有Patch Token经过下采样得到局部-全局交流令牌，局部-全局交流令牌代表此块的高层语义信息；对局部-全局交流令牌等分洗牌后，得到的每一个新的局部-全局交流令牌中都包含所有块的高层语义信息，再将新的局部-全局交流令牌与原有分块的Patch Token进行通道拼接；经过上述的计算后，每一个块中不仅包含代表自身语义信息，还包含其它块少量的高层语义信息。

7.根据权利要求5所述的一种基于局部特征与全局表征耦合的2D人体姿态估计方法，其特征在于，所述步骤4)计算网络模型的输出热度图与对应标注热度图的损失，对应标注热度图为原图的关节点位置转换而来，训练并优化检测模型，具体包括：

其中loss表示损失，num_joints表示数据集中标注的人体关节点的数量，height和weight分别表示热度图的高度和宽度，output和target分别表示模型计算得到的热度图和代表人体关节点实际位置的热度图；