CN114359974B

CN114359974B - 一种人体姿态的检测方法、设备及存储介质

Info

Publication number: CN114359974B
Application number: CN202210217925.6A
Authority: CN
Inventors: 柳明珠; 吴志伟
Original assignee: Guangdong Lvan Industry And Commerce Co ltd
Current assignee: Guangdong Lvan Industry And Commerce Co ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-07
Anticipated expiration: 2042-03-08
Also published as: CN114359974A

Abstract

本发明公开一种人体姿态的检测方法、设备及存储介质，方法包括：若检测到视频数据中的原始图像数据包含服务人员所处的目标区域，则检测服务人员的躯体的关节点，并得到服务人员的躯体的热力图，将目标区域与热力图连接为参考图像数据，融合参考图像数据的特征，得到目标图像数据并输入残差网络，以预测服务人员在原始图像数据中的姿态，根据关节点之间的匹配程度追踪相邻帧的原始图像数据中的服务人员，当同一服务人员在连续多帧原始图像数据中符合预设的报警条件则报警，对原始图像数据与热力图融合获得特征丰富度高的图像数据，用残差网络进行姿态预测确保了正确率，通过多帧原始图像数据满足条件才触发报警，减少因部分帧的误判对结果的影响。

Description

一种人体姿态的检测方法、设备及存储介质

技术领域

本发明涉及人工智能领域中的计算机视觉技术，尤其涉及一种人体姿态的检测方法、设备及存储介质。

背景技术

随着国民经济快速发展，服务行业的市场越来越大，对从业人员的行为规范要求越来越严格，目前对从业人员的行为进行监管主要是以人工现场监督和视频人工值守的形式，人工监管存在监管力度不足，容易放松懈怠，并且需要耗费大量的人力。因此，在管理从业人员的行为规范时，通过计算机视觉技术对从业人员的异常动作进行检测成为一项有效手段。

目前，人体的姿态估计常用的方法是利用人体姿态估计算法openpose。目前基于openpose的行为检测主要有以下两种方法：1、通过其输出人体的关节点坐标，依据几何条件判断或者使用SVM（support vector machines，支持向量机）或BP（back propagation，一种多层的前馈神经网络）神经网络来进行预测；2、通过openpose输出人体骨架彩色图片，采用BP神经网络进行预测。方法1在多人遮挡的情况下特征提取丰富度低，导致人体姿态的预测准确度较低，方法2中的人体骨架彩色图片由于缺乏充分的特征，人体姿态的预测准确度也有待提高。

发明内容

本发明提供了一种人体姿态的检测方法、设备及存储介质，以解决用人体姿态估计算法openpose得到的结果直接输入SVM或BP神经网络进行预测时由于特征不充分而导致预测准确度低的问题。

根据本发明的一方面，提供了一种人体姿态的检测方法，所述方法包括：

面向多个服务人员办公的服务场所采集视频数据，所述视频数据中具有多帧原始图像数据；

若在所述原始图像数据中检测到包含所述服务人员所处的目标区域，则在所述目标区域中检测所述服务人员的躯体的关节点；

在所述目标区域中根据所述关节点与非办公姿态的相关性扩大化所述关节点的范围，得到所述服务人员的躯体的热力图，所述非办公姿态包括叉腰与抱胸；

将所述目标区域与所述热力图连接为参考图像数据；

在所述参考图像数据的基础上，融合所述参考图像数据的特征，得到目标图像数据；

将所述目标图像数据输入至预设的残差网络中进行处理，以预测所述服务人员的躯体在所述原始图像数据中呈现的姿态，所述姿态包括所述非办公姿态；

针对时间上相邻的两帧所述原始图像数据，根据所述关节点之间的匹配程度追踪同一所述服务人员；

针对时间上连续的多帧所述原始图像数据，若同一所述服务人员的所述非办公姿态符合预设的报警条件，则对所述服务人员执行报警操作。

根据本发明的另一方面，提供了一种残差网络的训练方法，所述方法包括：

获取面向多个服务人员办公的服务场所采集视频数据，所述视频数据中具有多帧原始图像数据，所述原始图像数据标注有姿态；

将所述目标区域与所述热力图连接为参考图像数据；

计算标注的所述姿态与预测的所述姿态之间的差异，作为损失值；

根据所述损失值更新所述残差网络；

判断是否满足预设的训练条件；若是，则确定所述残差网络完成训练，若否，则返回执行所述将所述目标图像数据输入至预设的残差网络中进行处理，以预测所述服务人员的躯体在所述原始图像数据中呈现的姿态。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述人体姿态的检测方法以及所述残差网络的训练方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述人体姿态的检测方法以及所述残差网络的训练方法。

本发明实施例的技术方案，首先面向多个服务人员办公的服务场所采集视频数据，视频数据中具有多帧原始图像数据，当原始图像数据中包含服务人员时，确定服务人员所处的目标区域并针对目标区域检测服务人员的躯体的关节点，此时仅仅针对关节点进行特征提取的范围小则特征较少，通过关节点与叉腰与抱胸等非办公姿态的相关性扩大化关节点的范围从而得到服务人员的躯体的热力图，扩大关节点的范围后针对关节点进行特征提取的范围变大则特征也会相应增多，将目标区域与热力图连接为参考图像数据，实现针对目标区域将原始图像数据中关节点具体位置、关节点与关节点之间的位置关系等特征与热力图中关节点的位置范围、关节点与关节点之间的位置关系等特征进行叠加，使得参考图像数据的特征变得丰富，对参考图像数据进行融合得到目标图像数据，并输入至预设的残差网络中进行处理，以预测服务人员的躯体在原始图像数据中呈现的姿态，针对时间上相邻的两帧原始图像数据，根据关节点之间的匹配程度追踪同一服务人员，针对时间上连续的多帧原始图像数据，若同一服务人员的非办公姿态符合预设的报警条件，则对服务人员执行报警操作，本发明实施例利用对原始图像数据与热力图的融合获得丰富度更高的图像数据，避免了单一数据中提取特征导致特征缺乏的问题，另外使用残差网络来进行姿态的预测，相比于其他的常用的神经网络如LSTM、VGG而言，残差网络更容易优化，并且残差网络拥有较深的网络层数，所以可以确保预测的正确率，进一步，通过时间上连续的多帧原始图像数据满足条件才触发报警，可以减少因为部分帧的误判对最终结果的影响。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种人体姿态的检测方法的流程图；

图2是根据本发明实施例一提供的一种连接示意图；

图3是根据本发明实施例一提供的一种特征融合示意图；

图4是根据本发明实施例一提供的一种残差网络架构示意图；

图5是根据本发明实施例一提供的一种叉腰报警示意图；

图6是根据本发明实施例一提供的一种抱胸报警示意图；

图7是根据本发明实施例二提供的一种残差网络的训练方法的流程图；

图8是根据本发明实施例三提供的一种人体姿态的检测装置；

图9是根据本发明实施例四提供的一种残差网络的训练装置；

图10是根据本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种人体姿态的检测方法的流程图，本实施例可适用于银行大厅、酒店等禁止服务人员出现叉腰、抱胸等非办公姿态的场所，通过对这些服务场所的服务人员进行姿态检测，可以对服务人员的姿态情况进行展示和记录，以便对服务人员进行管理。该方法可以由人体姿态的检测装置来执行，该人体姿态的检测装置可以采用硬件和/或软件的形式实现。

如图1所示，人体姿态的检测方法包括如下步骤：

S110，面向多个服务人员办公的服务场所采集视频数据。

本实施例中，在固定的场所里提供一定范围内的服务的人员称为服务人员，这个固定的场所称为服务场所，在服务场所里享受服务的人员称为服务对象。示例性地，当服务场所为银行时，服务人员即为银行的工作人员，而需要办理业务的人员称为服务对象。在部分服务场所，例如银行这种大部分工作时间都会有服务对象在场的场所中，对服务人员的行为举止有着规范的要求。对服务人员的姿态进行规范管理时，可以在服务场所内安装多个固定或可活动的摄像头，利用摄像头对服务场所进行采集视频数据。

摄像头采集到视频数据以后，可以通过OpenCV，一种跨平台的计算机视觉和机器学习软件库，读取摄像头对服务场所进行的实时采集视频数据，也可以是读取摄像头进行采集后存储为本地文件的视频数据，然后可以将视频数据上传至服务器，以便对视频数据做进一步的处理。

S120，视频数据中具有多帧原始图像数据，若在原始图像数据中检测到包含服务人员所处的目标区域，则在目标区域中检测服务人员的躯体的关节点。

在服务场所中，无论是服务对象还是服务人员都可能在某一段时间内处于固定或者走动的状态，对于视频数据中的多帧原始图像数据，某些帧的原始图像数据可能只存在服务对象，可能只存在服务人员，也可能同时存在服务对象和服务人员，还有可能不存在任何人体。

在原始图像数据中的服务对象的姿态是无需进行检测监控的，为了避免不必要的运算操作，可以对原始图像数据中的服务人员进行识别，然后只针对识别出来的服务人员做相应的处理。因此，可以在实施本实施例之前，预先对服务人员注册人脸数据，作为参考人脸数据，利用人脸识别算法在每帧原始图像数据中进行人脸检测，得到一个或多个人脸数据，记为目标人脸数据，计算目标人脸数据与参考人脸数据之间的相似度，如果相似度大于预设的阈值，则认为该目标人脸数据与参考人脸数据相同，则可以认为确认原始图像数据中存在服务人员，而该目标人脸数据所对应的人脸即为服务人员。

当监测到原始图像数据中包含服务人员时，从原始图像数据中提取服务人员所处的区域（如服务人员人体的最小外切矩形），作为目标区域。

对于每个目标区域，可以调整至固定的尺寸（如高为256，宽为128），将固定尺寸的目标区域输入到Openpose等人体姿态估计算法中，检测目标区域中服务人员的躯体的关节点，这些关节点具有类型、坐标等信息。

S130，在目标区域中根据关节点与非办公姿态的相关性扩大化关节点的范围，得到服务人员的躯体的热力图。

输出的人体的关节点包括：鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右髋、右膝盖、右脚踝、左髋、左膝盖、左脚踝、右眼、左眼、右耳、左耳。

人体的关节点与不同的姿态有着不同的相关性，示例性地，如果需要检测抬腿的姿态，明显地，抬腿这个姿态与上半身关节点的相关性会比与下半身关节点的相关性低。在银行等服务场所中禁止服务人员出现的姿态可以称为非办公姿态，非办公姿态包括叉腰与抱胸。服务人员的躯体的热力图中，每个关节点在热力图中的坐标可以通过该关节点在目标区域的坐标进行转换，而在进行坐标的转换时，各关节点的热力图的坐标范围受与非办公姿态的相关性影响，与非办公姿态的相关性越高则该关节点的热力图坐标范围越大，实现扩大化关节点的范围。相对于原来只有一个关节点所包含的内容来说，扩大化关节点的范围，在后续进行特征提取时会因为提取的范围变大从而得到更多的特征内容。

在本实施例中，通常Openpose算法输出的人体的关节点会有多个，每一个关节点可以对应一个关节点热力图，每张关节点热力图反映该关节点的具体位置，服务人员的躯体的热力图可以是由该躯体的所有关节点热力图进行叠加而组成，通过叠加组成的躯体的热力图还可以反映同一服务人员的不同关节点之间的位置关系。另外，对于躯体的热力图，可以调整至与目标区域相同的尺寸（如高为256，宽为128），使所有目标区域及其对应的躯体的热力图的尺寸达到统一。进一步，为了方便下一步对热力图的读取，可以将躯体的热力图保存为numpy（一个开源的科学计算库）的ndarray（矩阵）格式。

在一种实施例中，S130包括如下步骤：

S130-1，查询关节点在原始图像数据中的坐标。

该步骤中，可以直接从人体姿态估计算法输出的关节点的坐标结果中对某个关节点在原始图像数据中的坐标进行查询。

S130-2，按照关节点与非办公姿态的相关性配置直径系数，直径系数与关节点与非办公姿态的相关性正相关。

该步骤中，不同的关节点与非办公姿态之间的相关性可以相同也可以不相同，为不同的关节点配置直径系数时，关节点与非办公姿态的相关性越高，所配置的直径系数越大。

在一种实施例中，S130-2包括如下步骤：

若关节点的类型属于第一集合，则对关节点配置第一系数，作为直径系数；

若关节点的类型属于第二集合，则对关节点配置第二系数，作为直径系数；

其中，第一集合内的关节点与非办公姿态的相关性高于第二集合内的关节点与非办公姿态的相关性，第一系数大于第二系数；

第一集合内的关节点包括如下至少一者：

右肩、右手肘、右手腕、左肩、左手肘、左手腕；

第二集合内的关节点包括如下至少一者：

鼻子、脖子、右髋、右膝盖、右脚踝、左髋、左膝盖、左脚踝、右眼、左眼、右耳、左耳。

该步骤中，第一集合内的关节点包括如下至少一者：右肩、右手肘、右手腕、左肩、左手肘、左手腕，第一集合所包括的关节点分别与叉腰或者抱胸的姿态的相关性高于第二集合内的关节点。

S130-3，以坐标作为圆心，直径系数的多倍值作为直径，生成扩大化后关节点的范围；

S130-4，针对范围中的点，计算坐标与点之间的第一距离；

S130-5，对第一距离的相反数取指定的比例，获得第一参数值；

S130-6，以自然数为底数，第一参数值为指数，计算获得第二参数值；

S130-7，将第二参数值与预设的阶数乘积设置为点的热力值，以生成服务人员的躯体的热力图。

在具体实现时，可以按照如下公式对关节点的热力值进行计算：

该公式中，对于原始图像数据中服务人员的躯体的关节点，可以按照S130-1至S130-7的步骤进行关节点的热力值的计算，针对原始图像数据中没有输出关节点的部分，则相应地将其对应的热力值设置为0。

其中：I_i为某关节点i生成热力图的热力值；x_i0为关节点坐标的横坐标；y_i0为关节点坐标的纵坐标；x_i为关节点在热力图中的横坐标，取值范围为（x_i0-3ɑ_i,x_i0+3ɑ_i），即扩大化后关节点的横坐标范围；y_i为关节点在热力图中的纵坐标，取值范围为（y_i0-3ɑ_i,y_i0+3ɑ_i），即扩大化后关节点的横坐标范围；ɑ_i为直径系数。

另外，预设的阶数设置为255，因为RGB颜色的取值是0~255，在这里用255作为其中一个乘数，可以将热力图中的热力值0~1变成0~255，使得与目标区域切割出来的RGB图片的颜色的数值在一个范围内。

S140，将目标区域与热力图连接为参考图像数据。

该步骤中，参考图2所示的连接示意图，可以将目标区域与热力图在通道方向进行堆叠生成C*W*H的数据，其中C为通道数，W为宽度，H为高度，如图2所示，当目标区域的格式为C₁*W*H的数据，热力图的格式为C₂*W*H的数据，连接完成后等到的参考图像数据的格式则为（C₁+C₂）*W*H。在本实例中，目标区域属于RGB三通道图像，而热力图由鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右髋、右膝盖、右脚踝、左髋、左膝盖、左脚踝、右眼、左眼、右耳、左耳这18个关节点热力图叠加而组成，因此躯体的热力图的通道数为18。目标区域与热力图的通道数总和为21，而在原先的尺寸变形中，目标区域与热力图均经过变形至高为256，宽为128尺寸，因此，本实施例中将目标区域与热力图在通道方向进行堆叠生成的参考图像数据的格式可以是21*128*256。在具体实现时，可以通过concatenate（拼接）操作（即图2中的㊉所代表的操作），将目标区域与热力图的特征联合，得到维度联合后的参考图像数据，也就是利用目标区域与热力图这两个较小的数据组成一个大的数据。

S150，在参考图像数据的基础上，融合参考图像数据的特征，得到目标图像数据。

为了完成对参考图像数据的特征抽取，并且避免过拟合化，可以进行池化操作，池化操作是对图像的某一个区域用一个值代替，如最大值或平均值。如果采用最大值，叫做全局最大池化；如果采用均值，叫做全局平均池化。池化操作可以降低图像尺寸但是保持维度的不变。池化层的具体实现是对具有联合特征的参考图像数据进行分块，参考图像数据可以被划分成的不相交块，计算这些块内的最大值或平均值，得到池化后的图像。

对参考图像数据进行池化操作后，可以通过全连接层将池化后得到的所有有用的信息提取整合，得到拥有丰富特征的目标图像数据。

在一种实施例中，S150包括如下步骤：

S150-1，对参考图像数据执行全局平均池化操作，获得第一参考特征数据；

S150-2，将第一参考特征数据输入预设的第一全连接层中映射为第二参考特征数据；

S150-3，将第二参考特征数据输入预设的第二全连接层中映射为第三参考特征数据；

S150-4，将第三参考特征数据作为权重，通过乘法逐通道加权到参考图像数据上，得到目标图像数据。

参考图3所示的特征融合示意图，其中，图上的F_gp表示全局平局池化，F_fc1表示第一全连接层，F_fc2表示第二全连接层。从图3可以看出，输入的数据（也就是参考图像数据）的维度与全局平局池化操作后的数据的维度一致，而第一全连接层的输出结果的维度C₃会比C₁ 与C₂的和值小，也就是先降维，降维的目的是为了可以得到更高的语义特征，第二全连接层的输出结果的维度会升回到C₁与C₂的和值，与参考图像数据的维度保持一致，以完成S150-4 的操作，图3中的

所代表的操作为乘法运算，图3中的U表示乘法运算后得到的结果。

参考图像数据经过全局平均池化操作后可以得到维度不变，但是高度和宽度可以降低的特征图，在一种具体实现中，对于格式为21*128*256的参考图像数据，可以得到格式为21*1*1的第一参考特征数据。在具体的池化操作时，可以通过如下公式来完成：

其中，F_gp表示全局平局池化；U’表示参考图像数据；S₁表示全局平均池化后格式为21*1*1的第一参考特征数据。

在得到第一参考特征数据后，可以将第一参考特征数据输入预设的第一全连接层中，在预设的第一全连接层中，将第一参考特征数据与第一全连接层的参数w₁相乘，得到的结果经过批量标准化的处理可以让数据的分布能够一致，最后经过激活函数处理，对特征进行激活，同时可以增加非线性表达能力。

可以经过如下的过程映射得到第二参考特征数据：

其中，F_fc1表示第一全连接层，δ表示Relu函数（Rectified linear unit，修正线性单元，激活函数的一种），B表示批量标准化，w₁表示第一全连接层的参数，S₂表示第二参考特征数据，S₁表示第一参考特征数据。

在第一全连接层中，为了得到更高的语义特征，可以对第一参考特征数据进行降维处理，第二参考特征数据的通道数比第一参考特征数据的通道数要少。

在得到降维后的第二参考特征数据，可以将第二参考特征数据输入预设的第二全连接层中，在预设的第二全连接层中，将第二参考特征数据与第二全连接层的参数w₂相乘，得到的结果经过批量标准化的处理，最后经过激活函数处理，得到第三参考特征数据。

可以经过如下的过程映射得到第三参考特征数据：

其中，F_fc2表示第二全连接层，δ表示Relu函数，B表示批量标准化，w₂表示第二全连接层的参数，S₃表示第三参考特征数据，S₂表示第二参考特征数据。

在第二全连接层中，为了得到的第三参考特征数据可以与参考图像数据进行乘法运算得到目标图像数据，第三参考特征数据与参考图像数据必须保持维度一致，因此，从第二全连接层中输出的第三参考特征数据的通道数可以从降维后的第二参考特征数据的通道数升维回到与参考图像数据的通道数相同的通道数值。

S160，将目标图像数据输入至预设的残差网络中进行处理，以预测服务人员的躯体在原始图像数据中呈现的姿态。

该步骤中，在获得目标图像数据后，可以通过预先学习完成的残差网络中，实现姿态的预测。在输入至残差网络之前，为了消除特征之间的差异化，还可以先对目标图像数据进行数据标准化操作。在一种具体实现中，因为目标图像数据的维度为21，在对目标图像数据进行数据标准化处理时，可以使标准化后的目标图像数据满足以下公式：

S₅=（S₄-mean）/scale

其中，S₅为标准化后的目标图像数据，S₄为目标图像数据，mean取128，scale取1/256。

在将目标图像数据输入至预设的残差网络中进行处理后，残差网络可以针对预先的分类输出各分类的概率。姿态包括非办公姿态，可以根据需要预测的姿态情况来确定残差网络中的分类，例如分类可以是叉腰、抱胸以及办公姿态这三种类别，可以根据残差网络输出的针对各分类的概率值，选取概率值最高的类别作为预测服务人员的躯体在原始图像数据中呈现的姿态。

在一种实施例中，残差网络包括卷积层、第一残差块、第二残差块、第三残差块和第三全连接层；S160包括如下步骤：

S160-1，将目标图像数据输入至卷积层进行卷积操作，得到第一候选特征数据；

S160-2，对第一候选特征数据执行最大池化操作，得到第二候选特征数据；

S160-3，将第二候选特征数据输入至第一残差块中进行残差处理，得到第三候选特征数据；

S160-4，将第三候选特征数据输入至第二残差块中进行残差处理，得到第四候选特征数据；

S160-5，将第四候选特征数据输入至第三残差块进行残差处理，得到第五候选特征数据；

S160-6，对第五候选特征数据执行平均池化操作，得到第六候选特征数据；

S160-7，将第六候选特征数据输入至第三全连接层中映射为服务人员的躯体在原始图像数据中呈现的姿态。

其中，第一残差块中具有四层卷积层，每两层卷积层之间具有残差连接；

第二残差块中具有四层卷积层，每两层卷积层之间具有残差连接；

第三残差块中具有四层卷积层，每两层卷积层之间具有残差连接；

第一候选特征数据的通道的数量与第三候选特征数据的通道的数量相等；

第三候选特征数据的通道的数量小于第四候选特征数据的通道的数量；

第四候选特征数据的通道的数量小于第五候选特征数据的通道的数量。

该步骤中，为了适应目标图像数据的维度，可以把残差网络的输入通道设置为与目标图像数据的维度一致。在一种具体实现中，目标图像数据的维度为21，因此，可以把残差网络的输入通道设置为21。

如图4所示的残差网络架构示意图，图中的image为目标图像数据，在残差网络中，经过卷积层、池化层后，还会按顺序经过第一残差块、第二残差块以及第三残差块，每个残差块里面又包含了4层卷积层。如图4所示，每两层卷积层之间具有残差连接，用实线进行连接的代表使用的是恒等快捷连接，恒等快捷连接是一种没有引入外部参数、没有增加计算复杂度，并且具有相同数量的参数、深度、宽度，另外，实现连接的卷积层之间输入和输出的维度是相等的。而对于用虚线连接的卷积层，输出与输入相比，维度会增加。该残差网络设置三个残差块可以实现提取丰富的语义从而确保特征分类的准确度，也避免了由于残差块过多而发生的过拟合情况。

进一步，通过图4可以看出，第一候选特征数据与第三候选特征数据的通道的数量相同。另外，第二候选特征数据的通道数、高和宽与第三候选特征数据的通道数、高和宽均相同，并且其高和宽比第一候选特征数据的小。与第三候选特征数据相比，第四候选特征数据与第五候选特征数据的通道的数量在逐层递增，而高和宽则在逐层递减。第五候选特征数据的通道的数量与第六候选特征数据的通道的数量相等，而第六候选特征数据的高和宽比第五候选特征数据小。

在具体实现时，对于第三全连接层的输入可以根据第六候选特征数据进行设置，而输出则可以根据预先的分类数进行设置。在一种具体实现中，由于第六候选特征数据格式为256*10*2，因此，第三全连接层的输入可以设置为5120，因为256*10*2=5120。当残差网络用于检测叉腰与抱胸这两个非办公姿态时，可以把类别设为叉腰、抱胸以及办公姿态这三类，因此，输出可以设置为3。

针对第三全连接层输出的结果，可以根据输出的对于不同类别的概率去映射服务人员的躯体在原始图像数据中呈现的姿态，示例性地，当输出的结果为叉腰0.9，抱胸0.09，办公姿态0.01，则认为输出结果中概率最高的叉腰即为该服务人员的躯体在原始图像数据中呈现的姿态。

S170,针对时间上相邻的两帧原始图像数据，根据关节点之间的匹配程度追踪同一服务人员。

该步骤中，虽然可以通过采集服务人员的人脸数据从而在原始图像数据中确定是否为服务人员以及将原始图像数据中所检测的服务人员与其身份信息进行对应。但是如果依据各服务人员的人脸数据来对服务人员进行跟踪，这样的方式会大大增加计算量以及资源的占用。因此，可以通过关节点之间的匹配程度对同一服务人员进行追踪。

在一种具体实现中，利用关节点之间的匹配程度来进行追踪时，可以通过计算相邻的两帧原始图像数据中所有服务人员的对应关节点的相似距离，当相似距离小于一定距离阈值时，则认为两个关节点相同。当相同的关节点的个数大于一定个数阈值时，则可以认为相邻的两帧原始图像数据中的两个服务人员隶属同一个服务人员。其中，距离阈值可以取0.5，个数阈值可以取3。

在一种实施例中，S170包括如下步骤：

S170-1，在第一图像数据中选取任一服务人员为第一人员，在第二图像数据中选择任一服务人员为第二人员，第一图像数据与第二图像数据为时间上相邻的两帧原始图像数据。

S170-2，在第一人员的关节点的类型与第二人员的关节点的类型相同的条件下，计算第一人员的关节点与第二人员的关节点之间的第二距离。

该步骤中，在计算第一人员的关节点与第二人员的关节点之间的第二距离时，可以通过欧式距离来进行计算，公式为：

，其中，d_i为第二距离，m表示第一人员，n表示第二人员，（x_mi，y_mi）为第一人员的关节i的坐标，（x_ni，y_ni）为第而人员的关节i的坐标。

S170-3，选择最大面积值，最大面积值为第一人员所处的目标区域的面积与第二人员所处的目标区域的面积中的较大者。

该步骤中，由于目标区域可以是一个矩形框，因此，可以通过确定矩形框的宽度和高度来实现矩形框面积的确定。将第一人员所处的目标区域在第一图像数据中的面积进行计算，即第一人员所处的目标区域的面积为其对应的矩形框的宽度与高度的乘积，同时可以将第二人员所处的目标区域在第二图像数据中的面积进行计算，即第二人员所处的目标区域的面积为其对应的矩形框的宽度与高度的乘积。对第一人员所处的目标区域的面积与第二人员所处的目标区域的面积进行比较，面积较大的确定为最大面积值。

S170-4，按照关节点的类型对关节点配置惩罚系数。

该步骤中，可以根据大量试验结果来完成惩罚系数的配置。在一种具体实现中，δ_i表示某关节点的惩罚系数，对应鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右髋、右膝盖、右脚踝、左髋、左膝盖、左脚踝、右眼、左眼、右耳、左耳，这18个关节点的顺序，δ_i取值按对应上述关节点的类型的顺序，取值为[0.27，2.50，2.50，2.07，1.54，2.50，2.07，1.54，4.58，3.03，3.17，4.58，3.028，3.17，0.25，0.25，0.49，0.49]*10^-2。

S170-5，以自然数作为底数，目标比值的相反数为指数，计算第一人员的关节点与第二人员的关节点之间的相似度，目标比值的分子为第二距离、目标比值的分母为预设的第一数值、第二数值与惩罚系数之间的乘积，第二数值为最大面积值与预设的第三数值之间的和值。

该步骤中，第一人员的关节点与第二人员的关节点之间的相似度计算公式如下：

其中，i表示某关节点，s_i表示相似度，δ_i表示某关节点的惩罚系数，a_i表示最大面积值，d_i表示第二距离。

S170-6，若第一人员的关节点与第二人员的关节点之间的相似度小于预设的第一阈值，则确定第一人员的关节点与第二人员的关节点相同；

S170-7，若第一人员的关节点与第二人员的关节点相同的数量大于预设的第二阈值，则确定第一人员与第二人员属于同一服务人员。

S180,针对时间上连续的多帧原始图像数据，若同一服务人员的非办公姿态符合预设的报警条件，则对服务人员执行报警操作。

该步骤中，报警条件可以是在多帧原始图像数据中，同一服务人员出现非办公姿态的帧数达到报警阈值，则认为该服务人员当前的姿态为非办公姿态。示例性的，当同一个人连续10帧画面中出现5次及以上叉腰姿态时，则认为其为叉腰状态，并在最后一帧画面中利用外切矩形框将人员框出，提示报警。如图5的叉腰报警示意图所示，当同一服务人员的姿态为叉腰并符合预设的报警条件，框出叉腰人员，并且在画面中，用文字显示“AkimboWarning”（叉腰警告）。另外，如图6的抱胸报警示意图所示，当同一服务人员的姿态为抱胸并符合预设的报警条件，框出抱胸人员，并且在画面中，用文字显示“Crossarm Warning”（抱胸警告）。其中，图5与图6的画面中用数字指示相应的躯体的关节点。

在具体实现时，当对处于非办公姿态的服务人员进行框出后，可以对框出的服务人员通过人脸识别确认其身份信息，可以对应其身份信息，记录并存储其非办公姿态的名称、发生的日期时间信息以及处于非办公姿态的视频片段或多帧图像等，以方便后期对服务人员的评价，以及为实现标准化和规范化的管理提供数据。

实施例二

图7为本发明实施例二提供的一种残差网络的训练方法的流程图。

如图7所示，残差网络的训练方法包括如下步骤：

S710，获取面向多个服务人员办公的服务场所采集视频数据，视频数据中具有多帧原始图像数据，原始图像数据标注有姿态；

S720，若在原始图像数据中检测到包含服务人员所处的目标区域，则在目标区域中检测服务人员的躯体的关节点；

S730，在目标区域中根据关节点与非办公姿态的相关性扩大化关节点的范围，得到服务人员的躯体的热力图，非办公姿态包括叉腰与抱胸；

S740，将目标区域与热力图连接为参考图像数据；

S750，在参考图像数据的基础上，融合参考图像数据的特征，得到目标图像数据；

S760，将目标图像数据输入至预设的残差网络中进行处理，以预测服务人员的躯体在原始图像数据中呈现的姿态，姿态包括非办公姿态；

S770，计算标注的姿态与预测的姿态之间的差异，作为损失值；

S780，根据损失值更新残差网络；

S790，判断是否满足预设的训练条件；若是，则执行S7010，若否，则返回执行S760；

S7010，确定残差网络完成训练。

在该训练过程中，可以通过获取面向多个服务人员办公的服务场所采集视频数据，将视频数据中具有的多帧原始图像数据作为制作训练样本的元素。在具体实现时，还可以将来自其他途径的（如从互联网中下载）大量的叉腰、抱胸、其余动作的图像数据也作为制作训练样本的元素，以保证制作训练样本的元素数量充足以及样本的姿态多变，其中叉腰、抱胸的图像数据可以包含正面、侧面、背面以及全身、半身等多种情况，其余动作尽可能包含人体各种姿态。

将每一帧图像数据作为原始图像数据，原始图像数据可以为RGB图像。针对原始图像数据中每一个人体的姿态情况，对原始图像数据标注有姿态。

对已经标注姿态的原始图像数据进行目标区域的检测，为了得到更多的目标区域进行后续的训练，可以利用人脸识别算法将原始图像数据中所识别出来的人脸认为是服务人员，即所有人体所处的区域（如人体的最小外切矩形）作为目标区域。

人体姿态估计算法输出的人体的关节点包括：鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右髋、右膝盖、右脚踝、左髋、左膝盖、左脚踝、右眼、左眼、右耳、左耳。

人体的关节点与不同的姿态有着不同的相关性，服务人员的躯体的热力图中，每个关节点在热力图中的坐标受与非办公姿态的相关性影响，非办公姿态包括叉腰与抱胸，与非办公姿态的相关性越高则该关节点的热力图坐标范围越大，实现扩大化关节点的范围。相对于原来只有一个关节点所包含的内容来说，扩大化关节点的范围，在后续进行特征提取时会因为提取的范围变大从而得到更多的特征内容。

各关节点在其关节点的热力图中的热力值可以通过其在原始图像数据中的坐标进行计算获得，计算公式为：

该公式中，对于原始图像数据中服务人员的躯体的关节点，可以按照

进行关节点的热力值的计算，针对原始图像数据中没有输出关节点的部分，则相应地将其对应的热力值设置为0。

其中：I_i为某关节点i生成热力图的热力值；x_i0为关节点坐标的横坐标；y_i0为关节点坐标的纵坐标；x_i为关节点在热力图中的横坐标，取值范围为（x_i0-3ɑ_i,x_i0+3ɑ_i），即扩大化后关节点的横坐标范围；y_i为关节点在热力图中的纵坐标，取值范围为（y_i0-3ɑ_i,y_i0+3ɑ_i），即扩大化后关节点的横坐标范围；ɑ_i为直径系数，关节点与非办公姿态的相关性越高，直径系数则越大。

同一服务人员的各关节点的热力图组成该服务人员的躯体的热力图。目标区域的格式为C₁*W*H的数据，热力图的格式为C₂*W*H的数据。在获得各服务人员的目标区域以及其躯体的热力图以后，将目标区域与热力图连接为参考图像数据，得到格式为（C₁+C₂）*W*H的参考图像数据，此时，参考图像数据具有了目标区域与热力图的所有特征。

在参考图像数据的基础上，可以进行全局平均池化以及两次全连接层的处理，并将第二次全连接层的输出结果作为权重，通过乘法逐通道加权到参考图像数据上，得到目标图像数据，此时，将目标图像数据作为残差网络的训练样本。

在得到大量的目标图像数据以后，可以将目标图像数据作为残差网络的输入，使残差网络输出预测服务人员的躯体在原始图像数据中呈现的姿态的预测结果，在这里的预测结果是残差网络中预先设定的分类及其分类所对应的概率，将输出的预测结果与一开始对原始图像数据中标注的姿态进行对比，计算标注的姿态与预测的姿态之间的差异，作为损失值，在确定损失值时，可以将标注的姿态与预测的姿态的概率带入预设的损失函数中，如交叉熵损失函数，从而得到损失值。

对残差网络进行优化时，可以根据损失值来更新残差网络，在对残差网络进行反向传播的过程中，将损失值代入优化算法中，如SGD（stochastic gradient descent，随机梯度下降），计算残差网络中各参数的更新幅度，按照残差网络中各参数的更新幅度更新残差网络中的各参数，从而完成残差网络的更新。

可以预先设置残差网络的训练条件作为停止训练的条件，例如，迭代的次数达到阈值，损失值连续多次的变化幅度小于阈值等，在每轮的训练中判断是否满足预设的训练条件，如果满足则可以认为残差网络训练完成，如果未满足，则继续进行下一轮的训练。

在本发明实施例中，将标注有姿态的原始图像数据与其对应的躯体的热力图连接后成为目标图像数据后作为训练样本输入至残差网络中，此时的训练样本所具有的特征比单独的原始图像数据或者热力图要丰富，将目标图像数据输入至预设的残差网络中进行处理，以预测服务人员的躯体在原始图像数据中呈现的姿态，姿态包括非办公姿态；计算标注的姿态与预测的姿态之间的差异，作为损失值，根据损失值更新残差网络，当满足预设的训练条件，则确定残差网络完成训练，通过原始图像数据与其对应的躯体的热力图相融合，构建了特征更加丰富的训练样本，提高了残差网络对人体姿态预测的准确性，尤其是预测非办公姿态与办公姿态的准确性。

实施例三

图8为本发明实施例三提供的一种人体姿态的检测装置，包括如下模块：

第一采集模块810，用于面向多个服务人员办公的服务场所采集视频数据，所述视频数据中具有多帧原始图像数据；

第一检测模块820，用于若在所述原始图像数据中检测到包含所述服务人员所处的目标区域，则在所述目标区域中检测所述服务人员的躯体的关节点；

第一热力图确定模块830，用于在所述目标区域中根据所述关节点与非办公姿态的相关性扩大化所述关节点的范围，得到所述服务人员的躯体的热力图，所述非办公姿态包括叉腰与抱胸；

第一连接模块840，用于将所述目标区域与所述热力图连接为参考图像数据；

第一融合模块850，用于在所述参考图像数据的基础上，融合所述参考图像数据的特征，得到目标图像数据；

第一预测模块860，用于将所述目标图像数据输入至预设的残差网络中进行处理，以预测所述服务人员的躯体在所述原始图像数据中呈现的姿态，所述姿态包括所述非办公姿态；

追踪模块870，用于针对时间上相邻的两帧所述原始图像数据，根据所述关节点之间的匹配程度追踪同一所述服务人员；

报警模块880，用于针对时间上连续的多帧所述原始图像数据，若同一所述服务人员的所述非办公姿态符合预设的报警条件，则对所述服务人员执行报警操作。

在一种实施例中，所述第一热力图确定模块830包括如下子模块：

坐标查询子模块，用于查询所述关节点在所述原始图像数据中的坐标；

直径系数配置子模块，用于按照所述关节点与非办公姿态的相关性配置直径系数，所述直径系数与所述关节点与非办公姿态的相关性正相关；

范围生成子模块，用于以所述坐标作为圆心，所述直径系数的多倍值作为直径，生成扩大化后所述关节点的范围；

第一距离计算子模块，用于针对所述范围中的点，计算所述坐标与所述点之间的第一距离；

第一参数值确定子模块，用于对所述第一距离的相反数取指定的比例，获得第一参数值；

第二参数值确定子模块，用于以自然数为底数，所述第一参数值为指数，计算获得第二参数值；

热力图确定子模块，用于将所述第二参数值与预设的阶数乘积设置为所述点的热力值，以生成所述服务人员的躯体的热力图。

在一种实施例中，所述直径系数配置子模块具体用于：

若所述关节点的类型属于第一集合，则对所述关节点配置第一系数，作为直径系数；

若所述关节点的类型属于第二集合，则对所述关节点配置第二系数，作为直径系数；

其中，所述第一集合内的所述关节点与非办公姿态的相关性高于所述第二集合内的所述关节点与非办公姿态的相关性，所述第一系数大于所述第二系数；

所述第一集合内的所述关节点包括如下至少一者：

右肩、右手肘、右手腕、左肩、左手肘、左手腕；

所述第二集合内的所述关节点包括如下至少一者：

在一种实施例中，所述第一融合模块850包括如下子模块：

第一池化操作子模块，用于对所述参考图像数据执行全局平均池化操作，获得第一参考特征数据；

第一映射子模块，用于将所述第一参考特征数据输入预设的第一全连接层中映射为第二参考特征数据；

第二映射子模块，将所述第二参考特征数据输入预设的第二全连接层中映射为第三参考特征数据；

目标图像数据确定子模块，用于将所述第三参考特征数据作为权重，通过乘法逐通道加权到所述参考图像数据上，得到目标图像数据。

在一种实施例中，所述残差网络包括卷积层、第一残差块、第二残差块、第三残差块和第三全连接层；所述第一预测模块860，包括如下子模块：

卷积操作子模块，用于将所述目标图像数据输入至所述卷积层进行卷积操作，得到第一候选特征数据；

第二池化操作子模块，用于对所述第一候选特征数据执行最大池化操作，得到第二候选特征数据；

第一残差处理子模块，用于将所述第二候选特征数据输入至所述第一残差块中进行残差处理，得到第三候选特征数据；

第二残差处理子模块，用于将所述第三候选特征数据输入至所述第二残差块中进行残差处理，得到第四候选特征数据；

第三残差处理子模块，用于将所述第四候选特征数据输入至所述第三残差块进行残差处理，得到第五候选特征数据；

第三池化操作子模块，用于对所述第五候选特征数据执行平均池化操作，得到第六候选特征数据；

第三映射子模块，用于将所述第六候选特征数据输入至所述第三全连接层中映射为所述服务人员的躯体在所述原始图像数据中呈现的姿态。

在一种实施例中，所述第一残差块中具有四层卷积层，每两层所述卷积层之间具有残差连接；

所述第二残差块中具有四层卷积层，每两层所述卷积层之间具有残差连接；

所述第三残差块中具有四层卷积层，每两层所述卷积层之间具有残差连接；

所述第一候选特征数据的通道的数量与所述第三候选特征数据的通道的数量相等；

所述第三候选特征数据的通道的数量小于所述第四候选特征数据的通道的数量；

所述第四候选特征数据的通道的数量小于所述第五候选特征数据的通道的数量。

在一种实施例中，所述追踪模块870包括如下子模块：

人员选取子模块，用于在第一图像数据中选取任一所述服务人员为第一人员，在第二图像数据中选择任一所述服务人员为第二人员，所述第一图像数据与所述第二图像数据为时间上相邻的两帧所述原始图像数据；

第二距离计算子模块，用于在所述第一人员的所述关节点的类型与所述第二人员的所述关节点的类型相同的条件下，计算所述第一人员的所述关节点与所述第二人员的所述关节点之间的第二距离；

最大面积值选择子模块，用于选择最大面积值，所述最大面积值为所述第一人员所处的所述目标区域的面积与所述第二人员所处的所述目标区域的面积中的较大者；

惩罚系数配置子模块，用于按照所述关节点的类型对所述关节点配置惩罚系数；

相似度计算子模块，用于以自然数作为底数，目标比值的相反数为指数，计算所述第一人员的所述关节点与所述第二人员的所述关节点之间的相似度，所述目标比值的分子为所述第二距离、所述目标比值的分母为预设的第一数值、第二数值与所述惩罚系数之间的乘积，所述第二数值为所述最大面积值与预设的第三数值之间的和值；

相同关节点判定子模块，用于若所述第一人员的所述关节点与所述第二人员的所述关节点之间的相似度小于预设的第一阈值，则确定所述第一人员的所述关节点与所述第二人员的所述关节点相同；

相同服务人员判定子模块，用于若所述第一人员的所述关节点与所述第二人员的所述关节点相同的数量大于预设的第二阈值，则确定所述第一人员与所述第二人员属于同一所述服务人员。

本发明实施例所提供的人体姿态的检测装置可执行本发明实施例一所提供的人体姿态的检测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图9为本发明实施例四提供的一种残差网络的训练装置，包括如下模块：

第二采集模块910，用于获取面向多个服务人员办公的服务场所采集视频数据，所述视频数据中具有多帧原始图像数据，所述原始图像数据标注有姿态；

第二检测模块920，用于若在所述原始图像数据中检测到包含所述服务人员所处的目标区域，则在所述目标区域中检测所述服务人员的躯体的关节点；

第二热力图确定模块930，用于在所述目标区域中根据所述关节点与非办公姿态的相关性扩大化所述关节点的范围，得到所述服务人员的躯体的热力图，所述非办公姿态包括叉腰与抱胸；

第二连接模块940，用于将所述目标区域与所述热力图连接为参考图像数据；

第二融合模块950，用于在所述参考图像数据的基础上，融合所述参考图像数据的特征，得到目标图像数据；

第二预测模块960，用于将所述目标图像数据输入至预设的残差网络中进行处理，以预测所述服务人员的躯体在所述原始图像数据中呈现的姿态，所述姿态包括所述非办公姿态；

损失值确定模块970，用于计算标注的所述姿态与预测的所述姿态之间的差异，作为损失值；

残差网络更新模块980，用于根据所述损失值更新所述残差网络；

判断模块990，用于判断是否满足预设的训练条件；若是，则调用训练完成确定模块9010，若否，则返回调用所述第二预测模块960；

训练完成确定模块9010，用于确定所述残差网络完成训练。

本发明实施例所提供的残差网络的训练装置可执行本发明实施例二所提供的残差网络的训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图10示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图10所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如人体姿态的检测方法或者残差网络的训练方法。

在一些实施例中，人体姿态的检测方法以及残差网络的训练方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的人体姿态的检测方法或者残差网络的训练方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行人体姿态的检测方法或者残差网络的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种人体姿态的检测方法，其特征在于，所述方法包括：

查询所述关节点在所述原始图像数据中的坐标；按照所述关节点与非办公姿态的相关性配置直径系数，所述直径系数与所述关节点与非办公姿态的相关性正相关；以所述坐标作为圆心，所述直径系数的多倍值作为直径，生成扩大化后所述关节点的范围，得到所述服务人员的躯体的热力图，所述非办公姿态包括叉腰与抱胸；

将所述目标区域与所述热力图连接为参考图像数据；

2.根据权利要求1所述的方法，其特征在于，所述得到所述服务人员的躯体的热力图，包括：

针对所述范围中的点，计算所述坐标与所述点之间的第一距离；

对所述第一距离的相反数取指定的比例，获得第一参数值；

以自然数为底数，所述第一参数值为指数，计算获得第二参数值；

将所述第二参数值与预设的阶数乘积设置为所述点的热力值，以生成所述服务人员的躯体的热力图。

3.根据权利要求2所述的方法，其特征在于，所述按照所述关节点与非办公姿态的相关性配置直径系数，包括：

所述第一集合内的所述关节点包括如下至少一者：

右肩、右手肘、右手腕、左肩、左手肘、左手腕；

所述第二集合内的所述关节点包括如下至少一者：

4.根据权利要求1所述的方法，其特征在于，所述在所述参考图像数据的基础上，融合所述参考图像数据的特征，得到目标图像数据，包括：

对所述参考图像数据执行全局平均池化操作，获得第一参考特征数据；

将所述第一参考特征数据输入预设的第一全连接层中映射为第二参考特征数据；

将所述第二参考特征数据输入预设的第二全连接层中映射为第三参考特征数据；

将所述第三参考特征数据作为权重，通过乘法逐通道加权到所述参考图像数据上，得到目标图像数据。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述残差网络包括卷积层、第一残差块、第二残差块、第三残差块和第三全连接层；

所述将所述目标图像数据输入至预设的残差网络中进行处理，以预测所述服务人员的躯体在所述原始图像数据中呈现的姿态，包括：

将所述目标图像数据输入至所述卷积层进行卷积操作，得到第一候选特征数据；

对所述第一候选特征数据执行最大池化操作，得到第二候选特征数据；

将所述第二候选特征数据输入至所述第一残差块中进行残差处理，得到第三候选特征数据；

将所述第三候选特征数据输入至所述第二残差块中进行残差处理，得到第四候选特征数据；

将所述第四候选特征数据输入至所述第三残差块进行残差处理，得到第五候选特征数据；

对所述第五候选特征数据执行平均池化操作，得到第六候选特征数据；

将所述第六候选特征数据输入至所述第三全连接层中映射为所述服务人员的躯体在所述原始图像数据中呈现的姿态。

6.根据权利要求5所述的方法，其特征在于，

所述第一残差块中具有四层卷积层，每两层所述卷积层之间具有残差连接；

7.根据权利要求1-4中任一项所述的方法，其特征在于，所述针对时间上相邻的两帧所述原始图像数据，根据所述关节点之间的匹配程度追踪同一所述服务人员，包括：

在第一图像数据中选取任一所述服务人员为第一人员，在第二图像数据中选择任一所述服务人员为第二人员，所述第一图像数据与所述第二图像数据为时间上相邻的两帧所述原始图像数据；

在所述第一人员的所述关节点的类型与所述第二人员的所述关节点的类型相同的条件下，计算所述第一人员的所述关节点与所述第二人员的所述关节点之间的第二距离；

选择最大面积值，所述最大面积值为所述第一人员所处的所述目标区域的面积与所述第二人员所处的所述目标区域的面积中的较大者；

按照所述关节点的类型对所述关节点配置惩罚系数；

以自然数作为底数，目标比值的相反数为指数，计算所述第一人员的所述关节点与所述第二人员的所述关节点之间的相似度，所述目标比值的分子为所述第二距离、所述目标比值的分母为预设的第一数值、第二数值与所述惩罚系数之间的乘积，所述第二数值为所述最大面积值与预设的第三数值之间的和值；

若所述第一人员的所述关节点与所述第二人员的所述关节点之间的相似度小于预设的第一阈值，则确定所述第一人员的所述关节点与所述第二人员的所述关节点相同；

若所述第一人员的所述关节点与所述第二人员的所述关节点相同的数量大于预设的第二阈值，则确定所述第一人员与所述第二人员属于同一所述服务人员。

8.一种残差网络的训练方法，其特征在于，所述方法包括：

将所述目标区域与所述热力图连接为参考图像数据；

根据所述损失值更新所述残差网络；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的人体姿态的检测方法以及权利要求8中所述的残差网络的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的人体姿态的检测方法以及权利要求8中所述的残差网络的训练方法。