CN114155556B

CN114155556B - 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统

Info

Publication number: CN114155556B
Application number: CN202111484327.7A
Authority: CN
Inventors: 张千; 宫法明; 梁其耀; 梁鸿; 任洁; 王子昊; 童彦淇
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2024-05-07
Anticipated expiration: 2041-12-07
Also published as: CN114155556A

Abstract

本发明公开了一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统。所述人体姿态估计方法包括：采集作业现场视频，经筛选、分帧、去重转化成COCO数据集格式，再使用改进后的人体目标检测器YOLOv4‑person模型将数据集中含有人体目标的区域进行裁剪，使用加入通道混洗模块的堆叠沙漏网络进行人体关键点的检测；将检测到的图像重新映射回原图像中，即可完成对图像的人体姿态的估计识别。本发明不仅有效提升了不同尺度的人的检测效果，还克服了检测时关键点遮挡问题的问题，有效提升了在面对多人姿态估计时存在的关键点遮挡时的检测效果。

Description

一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统

技术领域

本发明属于作业现场下人体姿态估计的技术领域，具体涉及一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统。

背景技术

人体姿态估计一直以来都是计算机视觉领域的热点。作为理解图像人物肢体动作的基础，人体姿态估计可以从图像中定位出人体关键点的信息，从而可以更好地分析人体的行为，常常应用在视频监控和人机交互等领域。

随着深度学习技术的发展，深度卷积神经网络开始被应用到人体姿态估计任务中。DeepPose是第一个将深度卷积神经网络应用到人体姿态估计领域的模型。Newell等人提出的经典网络结构——堆叠沙漏网络，可以更好地混合全局和局部信息，在姿态估计任务上具有重要的意义。Papandreou等人先使用Faster R-CNN检测出可能包含人物的区域，然后利用全卷积残差网络(ResNet)预测每个人的关键点坐标，但是人体目标检测效果不理想。

多人姿态估计需要对多个人体姿态进行区分和匹配，加大了算法的复杂程度，存在以下难点：(1)图像中存在的人数不定；需要使用检测器遍历图像才能知道图像中的人数，这就对检测器的速度和精度提出了高要求。(2)检测尺度问题；图像中不同人离镜头的远近使得人与人之间相对图像的占比会有所不同，这就涉及到人体多尺度的检测。(3)关键点遮挡问题；包括人体自身衣物的遮挡和物体对部分关节的遮挡。

发明内容

为了克服现有技术中的问题，本发明提供了一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统。结合先进的人体目标检测模型YOLOv4提高人体目标检测的准确率；通过对通道上的信息进行多尺度融合加强网络学习能力，帮助信息在特征通道间流动，有助于人体多尺度的识别；在沙漏网络的残差模块中加入注意力机制，提高了网络对小尺度关键点的关注度，更好地解决遮挡问题，继而可以提高人体姿态估计的识别效果。

为实现上述目的，本发明公开采用如下技术方案：

本发明提供了一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，包括如下步骤：

步骤S1：采集作业现场视频，初步筛选后进行分帧、去重处理，同时转化成COCO数据集格式，得到数据集；

步骤S2：使用改进后的人体目标检测器YOLOv4-person模型将步骤S1的数据集中图像含有人体目标的区域裁剪出来；

步骤S3：使用加入通道混洗模块的堆叠沙漏网络CA-SHN对步骤S2中含有人体目标的区域进行人体关键点的检测；

步骤S4：将步骤S3中检测到的含有人体关键点的图像重新映射回原图像中，即可完成对图像的人体姿态的估计识别。

进一步的，所述步骤S2中YOLOv4-person模型是在YOLOv4模型的基础上修改anchor尺寸、使用Soft-NMS替代NMS、自动忽略小像素人体目标。

进一步的，所述anchor尺寸的获得是通过k-means算法聚类得到的，具体步骤为：

(1)从数据集中收集所有对象是人的bounding box；

(2)随机选择9个bounding box作为聚类初始中心；

(3)计算每个bounding box到上述9个聚类初始中心的距离，按最小距离原则分配到最近邻聚类；

(4)重复步骤(2)和(3)，直到聚类中心不再变化，得到9个聚类；

(5)将每个聚类的bounding box取平均值，得到anchor尺寸。

进一步的，所述自动忽略小像素人体目标中是将像素小于20×50的人体目标所在区域进行忽略。

进一步的，所述步骤S3中通道混洗模块是在原始沙漏网络的基础上，将数据集中图像下采样前的卷积特征Conv_1-Conv_4进行通道混洗之后作为新的特征加入到上采样之后的模块中，以加强不同尺度下多层特征之间的跨通道信息交互。

进一步的，所述通道混洗的具体操作步骤为：

(1)将卷积特征Conv_2-Conv_4进行上采样得到与卷积特征Conv_1相同的分辨率，接着在通道维度上进行张量拼接操作，得到1024维大小的特征；

(2)将1024维的通道特征图进行数据重组为(g,n)，其中g为分组且g×n＝1024；然后进行转置操作，得到规模为(n,g)的通道特征图；再进行一次数据重组操作，得到新的1024维的通道特征图；

(3)将步骤(2)的通道特征图划分为(g,n)，接着进行下采样，得到了混洗后的新特征Conv_s1-Conv_s4；

(4)对Conv_s1-Conv_s4分别进行1×1卷积后，与沙漏网络上采样得到相同分辨率的Conv_4b-Conv_1b特征进行元素相加，从而完成了一个沙漏模块在通道特征图上的多尺度融合。

进一步的，所述步骤(3)中的加入通道混洗模块的堆叠沙漏网络CA-SHN通过Squeeze操作和Excitation操作融入了注意力机制的残差网络。

进一步的，在所述Squeeze操作中，对输入V进行全局池化操作得到通道统计量z∈R^c，其中H,W为特征映射的高度和宽度，C代表通道数，u_c∈R^H ^×W，使用上式将H×W×C的输入转换成1×1×C的输出，从而得到了全局描述特征。

进一步的，在所述Excitation操作中，为了降低模型复杂度以及提升泛化能力，使用两个全连接层的bottleneck结构；在第一个全连接层中把通道数减少为原始通道的1/16，然后经过一个ReLU层激活；再使用一个全连接层恢复原始维度；接着经过Sigmoid函数获得0～1之间归一化的权重，得到的注意力权重s，s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂(δ(W₁(z))))，最后通过一个缩放(scale)操作将归一化后的权重加权到每个通道的特征上，增加对关键通道的注意力，最终得到重新调节变换的输出如式：

进一步的，所述步骤S1中分帧时设置每秒钟保存8-12帧。

本发明还提供了一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计系统，包括图像处理模块，用来对采集作业现场的视频进行筛选、分帧、去重处理；人体目标检测器，用来裁剪数据集中含有人体目标的区域；加入通道混洗模块的堆叠沙漏网络结构，用来调整高层特征和低层特征之间的依赖性，进而将不同尺度的特征做到互相加强。

与现有技术相比，本发明的优点和有益技术效果是：

本发明为解决多人姿态估计中小尺度关键点(手腕、脚踝等)定位准确率低的问题，采用自顶向上的方式，结合先进的人体目标检测模型YOLOv4，提出了一种基于堆叠沙漏网络改进的多人姿态估计方法。一方面本发明在沙漏网络中融入通道混洗模块，加强不同尺度下多层特征之间的跨通道信息交流以提高被遮挡关键点的识别效果；另一方面本发明使用注意力机制对沙漏网络原有的残差模块进行特征增强，抑制无用特征并提升有用特征从而提高小尺度关键点的识别率。且经实验证实，在MSCOCO数据集上的AP@0.75相比原始网络提升了4.6％，证明了本发明技术方案的有效性，其不仅有效提升了不同尺度的人的检测效果，还克服了检测时关键点遮挡问题的问题，有效提升了在面对多人姿态估计时存在的关键点遮挡时的检测效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明所述的人体姿态估计方法的步骤流程图；

图2是钻井作业现场部分视频数据示例；

图3是加入通道混洗模块后的沙漏网络结构；

图4是通道混洗模块网络结构；

图5是MSCOCO数据集的姿态估计效果；

图6是钻井作业现场姿态估计效果图；

图7是提取出的人体姿势的骨架图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案进一步的详细说明，但本发明要求保护的范围并不局限于实例表述的范围。

本发明所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，流程图如图1所示，具体包括以下操作步骤：

(1)构建人体姿态估计数据集。通过油田下的各种钻井作业现场的摄像头进行视频采集，采集到的视频人工筛选以去掉重复无用的视频，利用视频处理工具进行裁剪得到所需要的简短视频段，对视频段进行分帧(每秒钟保存8-12帧)、去重处理，并将筛选后的图片进转化成COCO数据集格式；

(2)使用改进后的人体目标检测器YOLOv4-person模型将含有人体目标的区域裁剪出来；所述YOLOv4-person模型重新修改了anchor尺寸、使用Soft-NMS替代NMS、自动忽略小像素人体目标；

(3)结合加入通道混洗模块的沙漏网络结构(CA-SHN)进行人体关键点的检测；

(4)将检测后的图像重新映射回原图像中，即可完成对一张图像的多人姿态估计识别。

实施例1

钻井作业现场作为油田开发重要的生产现场之一，在油田生产中扮演着重要的角色。本发明采用的钻井作业现场数据集是来自中石化胜利石油工程有限公司安全监督中心提供的监控系统中的视频，以及在多个井队现场使用移动摄像头和专业摄像机拍摄的监控视频数据，钻井作业现场部分视频数据示例如图2所示。

钻井作业现场工作场景丰富，背景复杂多样，包含钻台、井场、泥浆泵、司钻房、二层台等。视频数据从几分钟到几个小时长短不一，总视频数据量可达500G。将采集到的视频进行人工筛选，去掉重复无用的视频，然后使用视频处理工具进行裁剪，得到所需要的简短的视频段。对于裁剪后的视频段使用程序进行分帧，每秒钟保存8-12帧，对分帧之后得到的图片进行挑选，去掉重复图片，得到最终所需的数据集。

1、使用改进后的人体目标检测器(YOLOv4-person)将含有人体目标的区域裁剪出来

在YOLOv4网络模型中，其多尺度检测为检测不同尺度的人物目标在速度和精度上提供了保障。本发明采用的人体姿态估计方法使用修改后的人体目标检测器(YOLOv4-person)将含有人体目标的区域裁剪出来。所述YOLOv4-person相比较YOLOv4的改进之处在于修改anchor尺寸、使用Soft-NMS替代NMS、自动忽略小像素人体目标。

所述YOLOv4-person修改了之前YOLOv4中anchor的尺寸，每个anchor趋向于一个长方体，这与人体目标的特征是符合的，以便捕捉各种尺寸的人物目标。对于anchor的选取，是通过k-means算法得到的，步骤如下：(1)从COCO和VOC数据集中收集所有对象是人的bounding box；(2)随机选择9个bounding box作为聚类初始中心；(3)计算每个boundingbox到这9个中心的距离，按最小距离原则分配到最近邻聚类；(4)重复步骤(2)和(3)，直到聚类中心不再变化；(5)然后得到9个聚类；(6)最后将每个聚类的bounding box取平均值。得到的anchor尺寸大小如表1所示。前三个小尺度anchor用作检测小人物，中间的三个anchor检测中等尺寸的人物，最后的三个anchor检测大尺度的人体目标。

表1

所述的YOLOv4-person修改了之前的YOLOv4中的NMS，使用Soft-NMS进行替代。NMS(Non Maximum Suppression)算法直接将大于某个阈值的边界框的得分置零，这样会将多人重叠情况下检测到的正确的边界框错误的删除，造成人体目标的大量漏检。而Soft-NMS将阈值较大的框中分数较小的框的置信度大幅衰减，而不是直接去除掉，保证了在多人重叠情况下有相对较高的召回率，从而提高了人体目标检测的准确率。

所述的YOLOv4-person自动忽略小像素人体目标。在Pascal VOC和COCO数据集中，存在着很多像素特别小的人体目标，这对于单一的目标检测来说，训练这些小目标是非常重要的，有助于检测多尺度的人体目标。但是，对于本发明来说，还要将检测到的人体目标进行后续的姿态估计，太小的人体也无法对其进行较为准确的姿态估计。因此，在网络训练时，将像素小于20×50的人体目标所在区域进行忽略，让网络不对其所在区域的人物进行学习。

将改进前的YOLOv4模型与改进后的YOLOv4-person模型同时在Pascal VOC2007和Pascal VOC2012数据集的person类上训练和测试，其中Pascal VOC2007含有人物目标的图像2095张，Pascal VOC2012含有人物的图像9566张。使用80％作为训练集，20％作为验证集。实验结果如表2所示。

表2

对于钻井作业现场数据集进行目标检测模型的实验，使用Pascal VOC格式图片标注工具对筛选后的图片进行人工标定，标定后按照VOC数据集文件格式进行调整，按照8:2的比例划分为训练验证数据集和测试数据集，然后将训练验证数据集按照8:2的比例划分为训练集和验证集，得到的最终数据集包括5786张图片及其对应标注数据。训练时将batchsize设置为64，图像输入大小为608×608，动量设置为0.9，初始学习率为1e^-3，在1000轮和1600轮时学习率迭代下降，均训练2000轮。实验结果如表3所示，改进后的YOLOv4-person模型在钻井作业现场人物目标检测数据集上提升了3.7个百分点。

表3

2、本发明使用加入通道混洗模块的沙漏网络结构进行人体关键点的检测

在原始姿态估计网络的基础上，将不同尺度的特征图在通道维度上进行混洗操作，进一步调整高层特征和低层特征之间的依赖性，进而将不同尺度的特征做到互相加强。通过对通道上的信息进行多尺度的融合也可以加强网络学习能力，帮助信息在特征通道间流动，从而可以更好地识别出被遮挡的关键点。同时，将不同分辨率的图像采样到相同的尺度，在经过反复的融合，加上网络自身的学习能力，会使得多次融合后的结果更加接近于正确的结果表示。加入通道混洗模块的沙漏网络结构如图3所示。

本发明在原始沙漏网络的基础上，将下采样前的卷积特征Conv_1-Conv_4进行通道混洗之后作为新的特征加入到上采样之后的模块中，加强不同尺度下多层特征之间的跨通道信息交互，这样增强的特征图不仅包含了原始特征图的信息和不同尺度特征图的信息，还包含了混合特征图后的跨通道信息。

所述通道混洗具体操作如图4所示，具体操作步骤如下：

步骤1：把Conv_2-Conv_4进行上采样得到与Conv_1相同的分辨率，接着在通道维度上进行张量拼接操作，得到1024维大小的特征；

步骤2：对长特征进行混洗操作：

(1)把1024维的通道特征图进行数据重组为(g,n)，其中g为分组且g×n＝1024；

(2)进行转置操作，得到规模为(n,g)的通道特征图；

(3)再进行一次数据重组操作，得到新的1024维的特征；

步骤3：对特征图进行分组并下采样

(1)通过上一步的操作得到的通道特征图划分到之前的组数，接着进行下采样，得到了混洗后的新特征Conv_s1-Conv_s4；

(2)对Conv_s1-Conv_s4分别进行1×1卷积后，与沙漏网络上采样得到相同分辨率的Conv_4b-Conv_1b特征进行元素相加，从而完成了一个沙漏模块在通道特征图上的多尺度融合。

本发明的加入通道混洗模块的沙漏网络结构CA-SHN融入了注意力机制的残差网络，此步骤需要两个操作，Squeeze操作和Excitation操作。在Squeeze操作中，对输入V进行全局池化操作得到通道统计量z∈R^C，其中H,W为特征映射的高度和宽度，C代表通道数，u_c∈R^H×W，使用上式将H×W×C的输入转换成1×1×C的输出，从而得到了全局描述特征。在Excitation操作中，为了降低模型复杂度以及提升泛化能力，使用两个全连接层的bottleneck结构。在第一个全连接层中把通道数减少为原始通道的1/16；然后经过一个ReLU层激活；再使用一个全连接层恢复原始维度；接着经过Sigmoid函数获得0～1之间归一化的权重，得到的注意力权重s，s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂(δ(W₁(z))))，最后通过一个缩放(scale)操作将归一化后的权重加权到每个通道的特征上，增加对关键通道的注意力，最终得到重新调节变换的输出如式：/>

3、将检测后的图像重新映射回原图像中，即可完成对一张图像的多人姿态估计识别

MSCOCO数据集是由Microsoft团队整理的用来进行图像识别任务的公开数据集，可用于目标检测与分割、姿态估计和语义分割等多种场景下的实验。MSCOCO中的图片包括生活中常见的目标图片，也有来自自然场景下的图片，总共包括91类目标，328k个影像和2500k个标签。MSCOCO关键点数据集包括10万多人的训练样本和大约8万人的测试样本，训练集包含超过100万个标记的关键点，标记了18个人体关键点，通过关键点之间的连接组成了人体的肢体。

在本发明中，使用的是MSCOCO2017数据集，对于关键点信息的标注采用了JSON类型文件格式，由“info”、“licence”、“image”、“annotation”、“categories”这几个字段组成。其中，“info”是指info类型的实例描述；“licence”是对该数据集用于非市场化的申明；“images”是对图片名称、长宽大小、id等信息的描述，“annotation”是指关于人的boundingbox的信息，“categories”种类数组元素此处为1，因为只有人体这一个目标。其中，在annotation字段中，“keypoints”为一个3(关键点个数)的数组，每个keypoint为长度为3的数组(x,y,v)，(x,y)为坐标值，v为标注位，v＝0时表示该关键点没有标注，1代表关键点已标注但被遮挡，2代表关节点可见且已标注。

在MSCOCO数据上的实验结果如表4所示。从表中看出，在MSCOCO数据集上，本发明的方法在AP@0.75、AP(M)以及AP(L)上的结果要优于之前的方法，同时本发明提出的方法与堆叠沙漏网络相比，各种评价指标的精度均有提升，整体的AP提高了4.4个百分点，在AP(M)上提升了7.5个百分点，证明在中等尺寸目标上的关节点的识别效果提高较为明显。

表4

实施例2：利用加入通道混洗模块的堆叠沙漏网络的姿态估计方法进行人体姿态估计

本发明所述的加入通道混洗模块的堆叠沙漏网络的姿态估计方法，具体包括以下步骤：

步骤1：使用实施例1所述的改进后的人体目标检测器YOLOv4-person模型将含有人体目标的区域裁剪出来。所述改进的YOLOv4-person模型的改进之处在于：修改anchor尺寸、使用Soft-NMS替代NMS、自动忽略小像素人体目标。

步骤2：将步骤1得到的裁剪出来的含有人体目标的区域送入改进后的姿态估计网络(CA-SHN)进行人体关键点的检测。

步骤3：将含有步骤2人体关键点的检测后的图像重新映射回原图像中，即可完成对一张图像的多人姿态估计识别。

如图5所示，本发明提出的技术方案可以很好地处理各种人体姿势、关键点遮挡、多人重叠和杂乱的场景下的图像。其中，(a)组显示的是改进前的网络检测的结果，当多人存在时会存在关节点连接混乱、错误连接的情况。本发明改进后的测试结果如(b)组所示，极大地减少了错误连接的情况，基本可以做到在多人重叠的情况下，也可以较为清晰的识别出关节点，并对个人的关节点进行正确的连接，达到了预期的效果，提高了姿态估计的准确率。

在钻井作业现场数据集上进行姿态估计模型的实验，使用Labelme标注工具对部分钻井数据集进行人工关键点的标定，将生成的JSON文件按照COCO数据集文件格式进行转换。因人体关键点标注的复杂性，最终标定得到的钻井作业现场关键点数据集包括1100张图片、3500个人体及其对应标注数据。在第100和150轮时，将学习率降低10倍，一共训练200轮。实验结果如表5所示，改进后的模型在钻井作业现场人体关键点数据集上的识别率与堆叠沙漏相比提高了4.3个百分点。其中，改进后的模型包括改进后的人物目标检测器(YOLOv4-person)和改进后的姿态估计网络共同组成。

表5

将训练好的模型对钻井作业现场的工人进行多人姿态估计，识别结果如图6所示，其中(a)为输入原图；(b)为使用堆叠沙漏网络得到的识别效果，既存在人体肢体关键点检测不全、漏检或误检的情况，又存在着肢体连接错误的情况；(c)为改进后的CA-SHN算法得到的姿态估计效果。

通过姿态估计提取出的姿态信息可以有效地区分和识别不同的违规行为，同时还可以去除钻井作业现场复杂背景的干扰。因此，本发明仅提取人体的骨架信息作为动作分类的重点，提取出的五种违规行为的骨架图如图7所示。图7中的(a)、(b)、(c)、(d)、(e)列展示的分别是吸烟、跨越栏杆、扶栏杆、倾倒和敲击作业的骨架图信息。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims

1.一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，包括如下步骤：

步骤S2：使用改进后的人体目标检测器YOLOv4-person模型将步骤S1的数据集中图像含有人体目标的区域裁剪出来；所述YOLOv4-person模型是在YOLOv4模型的基础上修改anchor尺寸、使用Soft-NMS替代NMS、自动忽略小像素人体目标；

步骤S3：使用加入通道混洗模块的堆叠沙漏网络CA-SHN对步骤S2中含有人体目标的区域进行人体关键点的检测；所述通道混洗模块是在原始沙漏网络的基础上，将数据集中图像下采样前的卷积特征Conv_1-Conv_4进行通道混洗之后作为新的特征加入到上采样之后的模块中，以加强不同尺度下多层特征之间的跨通道信息交互；所述步骤S3中的加入通道混洗模块的堆叠沙漏网络CA-SHN通过Squeeze操作和Excitation操作融入了注意力机制的残差网络；

2.根据权利要求1所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，所述anchor尺寸的获得是通过k-means算法聚类得到的，具体步骤为：

（1）从数据集中收集所有对象是人的bounding box；

（2）随机选择9个bounding box作为聚类初始中心；

（3）计算每个bounding box到上述9个聚类初始中心的距离，按最小距离原则分配到最近邻聚类；

（4）重复步骤（2）和（3），直到聚类中心不再变化，得到9个聚类；

（5）将每个聚类的bounding box取平均值，得到anchor尺寸。

3.根据权利要求1所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，所述自动忽略小像素人体目标中是将像素小于20×50的人体目标所在区域进行忽略。

4.根据权利要求1所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，所述通道混洗的具体操作步骤为：

（1）将卷积特征Conv_2-Conv_4进行上采样得到与卷积特征Conv_1相同的分辨率，接着在通道维度上进行张量拼接操作，得到1024维大小的特征；

（2）将1024维的通道特征图进行数据重组为，其中/>为分组且/>；然后进行转置操作，得到规模为/>的通道特征图；再进行一次数据重组操作，得到新的1024维的通道特征图；

（3）将步骤（2）的通道特征图划分为,接着进行下采样，得到了混洗后的新特征Conv_s1-Conv_s4；

（4）对Conv_s1-Conv_s4分别进行1×1卷积后，与沙漏网络上采样得到相同分辨率的Conv_4b-Conv_1b特征进行元素相加，从而完成了一个沙漏模块在通道特征图上的多尺度融合。

5.根据权利要求1所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，在所述Squeeze操作中，对输入进行全局池化操作得到通道统计量/>，/>，其中/>为特征映射的高度和宽度，/>代表通道数，，使用上式将/>的输入转换成/>的输出，从而得到了全局描述特征；

在所述Excitation操作中，为了降低模型复杂度以及提升泛化能力，使用两个全连接层的bottleneck结构；在第一个全连接层中把通道数减少为原始通道的1/16，然后经过一个ReLU层激活；再使用一个全连接层恢复原始维度；接着经过Sigmoid函数获得0~1之间归一化的权重，得到的注意力权重，/>，最后通过一个缩放(scale)操作将归一化后的权重加权到每个通道的特征上，增加对关键通道的注意力，最终得到重新调节变换的输出如式：/>。

6.根据权利要求1所述的基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法，其特征在于，所述步骤S1中分帧时设置每秒钟保存8-12帧。

7.一种基于权利要求1所述的加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法的姿态估计系统，其特征在于，包括图像处理模块，用来对采集作业现场的视频进行筛选、分帧、去重处理；人体目标检测器，用来裁剪数据集中含有人体目标的区域；加入通道混洗模块的堆叠沙漏网络结构，用来调整高层特征和低层特征之间的依赖性，进而将不同尺度的特征做到互相加强。