CN115205906B

CN115205906B - 基于人体解析的仓储作业人员的检测方法、装置及介质

Info

Publication number: CN115205906B
Application number: CN202211118464.3A
Authority: CN
Inventors: 王玉石; 尹旭; 马兵; 张烁; 王玉增; 续敏; 刘建斌; 朱运恒
Original assignee: Shandong Energy Shuzhiyun Technology Co ltd
Current assignee: Shandong Energy Shuzhiyun Technology Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-23
Anticipated expiration: 2042-09-15
Also published as: CN115205906A

Abstract

本申请涉及图像处理技术领域，提供了基于人体解析的仓储作业人员的检测方法、装置及介质，包括：获取仓储作业场景包括多个作业人员的待处理图像后，将待处理图像输入第一人体特征解析网络，得到全局特征图；采用Fast R‑CNN网络对待处理图像进行处理后输入第二人体特征解析网络，得到各作业人员的实例掩码局部特征图；采用Mask R‑CNN网络对待处理图像进行处理后输入第三人体特征解析网络，得到各作业人员的实例真值掩码特征图；基于全局特征图、各作业人员的实例掩码局部特征图和各作业人员的实例真值掩码特征图中的各特征，得到各作业人员的初始人体特征解析图和相应人体特征解析图。该方法提高了人体解析的检测精度。

Description

基于人体解析的仓储作业人员的检测方法、装置及介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及基于人体解析的仓储作业人员的检测方法、装置及介质。

背景技术

随着近年来仓储物流的发展，仓库建设也在不断的铺开，但是仓库安全隐患也随之增加，而由此造成的损失也不计其数，做好仓库安全管理工作迫在眉睫。仓储是指保管、储存物品的建筑物和场所，仓储管理则是对仓库及仓库内的物资所进行的科学而又系统的管理过程。随着经济社会的快速发展，企业仓储、粮食仓储、快递仓储、烟酒类仓储等涉及的材料、成品、设备、配件等资产，仓储作业人员的不规范操作，将会给仓储管理造成安全隐患，甚至直接会给企业造成损失。因此，对仓储作业人员进行规范化管理显得尤为重要，尤其是对仓储作业人员的行为、穿戴进行检测，能够有效提升仓储管理的安全性和规范性。

传统的机器学习方法能够对人员进行分类，但对作业人员的行为动作进行精细化检测，需借助计算机视觉相关的技术。在仓储环境下，对作业人员进行活动检测时，局部特征相似部位通常难以区分。例如，人体的左右手臂在局部特征如纹理、颜色等方面非常相似，仅仅利用这些特征无法准确的将他们区分开。

为了解决局部特征相似部位难以区分的问题，主要有以下两种思路：一是利用多尺度特征提取方式获取全局信息，这类方法将原始图片处理成多种尺度，再分别将多种尺度的图片作为输入，如设计ASPP模块、金字塔池化模块等；二是引入注意力机制，利用注意力模块获取全局信息，如设计引入Non-local模块获取全局特征。

然而，ASPP和金字塔池化模块只能从周围像素收集信息不能形成密集的上下文信息，且不能满足不同像素需要不同上下文依赖的条件。而Non-local方法又需要耗费大量时间和空间，有着较高的计算复杂度且占用太大的GPU内存。综上，现有两种区分局部特征相似部位的检测结果不准确。

发明内容

本申请实施例的目的在于提供了基于人体解析的仓储作业人员的检测方法、装置及介质，用以解决了现有技术存在的上述问题，提高了人体解析的检测精度。

第一方面，提供了一种基于人体解析的仓储作业人员的检测方法，该方法可以包括：

获取仓储作业场景的待处理图像，所述待处理图像包括多个作业人员；

将所述待处理图像输入训练好的第一人体特征解析网络，得到所述第一人体特征解析网络输出的全局特征图；

采用Fast R-CNN网络对所述待处理图像进行处理，得到各作业人员的人体实例图像，并将得到的人体实例图像输入训练好的第二人体特征解析网络，得到所述第二人体特征解析网络输出的各作业人员的实例掩码局部特征图；

采用Mask R-CNN网络对所述待处理图像进行处理，得到所述各作业人员的人体实例真值掩码图像，将得到的人体实例真值掩码图像输入训练好的第三人体特征解析网络，得到所述第三人体特征解析网络输出的各作业人员的实例真值掩码特征图；

基于预设的特征融合规则，对所述全局特征图、所述各作业人员的实例掩码局部特征图和所述各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到所述各作业人员的初始人体特征解析图；

根据所述各作业人员的初始人体特征解析图和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图。

在一个可能的实现中，所述第一人体特征解析网络是基于历史获取的包含多个作业人员的图像作为训练数据，对融合全局信息与局部细节的单人人体解析网络进行训练得到的；

所述第二人体特征解析网络是在利用Fast R-CNN网络对历史获取的包含多个作业人员的图像检测出各作业人员的人体实例图像后，基于得到的各作业人员的人体实例图像对融合全局信息与局部细节的单人人体解析网络进行训练得到的；

所述第三人体特征解析网络是在利用Mask R-CNN网络对历史获取的包含多个作业人员的图像检测出各作业人员的人体实例真值掩码图像后，基于得到的各作业人员的人体实例真值掩码图像对融合全局信息与局部细节的单人人体解析网络进行训练得到的。

在一个可能的实现中，所述融合全局信息与局部细节的单人人体解析网络依次包括一个ResNet-101网络、两个串联的注意力模块、一个高分辨率嵌入模块和一个边缘感知模块；其中，所述注意力模块包括3个1×1的卷积单元、1个特征融合单元和1个特征聚合单元；

所述高分辨率嵌入模块包括与所述注意力模块连接的1个双线性插值单元、1个1×1的卷积单元和与所述边缘感知模块连接的1个特征级联单元；

所述边缘感知模块包括与所述ResNet-101网络的连接的3个1×1的第一卷积单元、3个1×1的第二卷积单元、1个特征融合单元、两个串联的1×1卷积单元。

在一个可能的实现中，每个注意力模块的具体处理过程包括：

将待输入特征图分别经过所述3个1×1的卷积单元，得到三个特征图，所述三个特征图包括特征图Q、特征图K和特征图V；

按照预设的特征融合算法，对所述特征图Q和所述特征图K进行特征融合，得到第一注意力特征图A;

按照预设的特征聚合算法，对所述第一注意力特征图A、所述特征图V和所述待输入特征图进行特征聚合，得到第二注意力特征图

，所述第二注意力特征图

中每个像素位置都包含所述第二注意力特征图

中所有像素的像素信息。

在一个可能的实现中，基于预设的特征融合规则，对所述各作业人员的全局特征图、实例掩码局部特征图和实例真值掩码特征图中的各特征进行特征融合，得到所述各作业人员的初始人体特征解析结果，包括：

获取所述各作业人员的全局特征图、实例掩码局部特征图和实例真值掩码特征图中各特征对应的像素位置；

基于所述各特征对应的像素位置，将任一相同像素位置的像素值相加后取平均，得到各相同像素位置对应的特征平均值；

基于所述各相同像素位置对应的特征平均值，获取所述各作业人员的初始人体特征解析结果。

在一个可能的实现中，根据所述各作业人员的初始人体特征解析结果和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图之后，所述方法还包括：

采用标签优化法，对所述初始人体特征解析图中所述各作业人员的边缘特征和细节特征进行解析，得到所述待处理图像对应的实例级的人体特征解析图。

采用预设的分类器，对所述各作业人员的人体特征解析图进行姿态分类；所述预设的分类器是基于获取的经标注姿态的包含多个作业人员的人体特征解析图作为训练数据集，对预训练的极限学习机进行训练得到的。

第二方面，提供了一种基于人体解析的仓储作业人员的检测装置，该装置可以包括：

获取单元，用于获取仓储作业场景的待处理图像，所述待处理图像包括多个作业人员；

输入单元，用于将所述待处理图像输入训练好的第一人体特征解析网络，得到所述第一人体特征解析网络输出的全局特征图；

以及，采用Fast R-CNN网络对所述待处理图像进行处理，得到各作业人员的人体实例图像，并将得到的人体实例图像输入训练好的第二人体特征解析网络，得到所述第二人体特征解析网络输出的各作业人员的实例掩码局部特征图；

以及，采用Mask R-CNN网络对所述待处理图像进行处理，得到所述各作业人员的人体实例真值掩码图像，将得到的人体实例真值掩码图像输入训练好的第三人体特征解析网络，得到所述第三人体特征解析网络输出的各作业人员的实例真值掩码特征图；

融合单元，用于基于预设的特征融合规则，对所述全局特征图、所述各作业人员的实例掩码局部特征图和所述各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到所述各作业人员的初始人体特征解析图；

确定单元，用于根据所述各作业人员的初始人体特征解析图和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本申请实施例提供的基于人体解析的仓储作业人员的检测方法，在获取仓储作业场景的包括多个作业人员的待处理图像后，将待处理图像输入训练好的第一人体特征解析网络，得到全局特征图；采用Fast R-CNN网络对待处理图像进行处理，得到各作业人员的人体实例图像，并将得到的人体实例图像输入训练好的第二人体特征解析网络，得到各作业人员的实例掩码局部特征图；采用Mask R-CNN网络对待处理图像进行处理，得到各作业人员的人体实例真值掩码图像，将得到的人体实例真值掩码图像输入训练好的第三人体特征解析网络，得到各作业人员的实例真值掩码特征图；基于预设的特征融合规则，对全局特征图、各作业人员的实例掩码局部特征图和各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到各作业人员的初始人体特征解析图；根据各作业人员的初始人体特征解析图和各作业人员的人体实例真值掩码图像，确定各作业人员的人体特征解析图。该方法通过对作业人员的具体身体部位以及对作业人员的携带设备、安全帽、通讯设备等进行精确检测，提高了人体解析的检测精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于人体解析的仓储作业人员检测方法的处理过程示意图；

图2为本申请实施例提供的一种基于人体解析的仓储作业人员的检测方法的流程示意图；

图3为本申请实施例提供的一种融合全局信息与局部细节的单人人体解析网络的结构示意图；

图4为本申请实施例提供的一种注意力模块的结构示意图；

图5为本申请实施例提供的一种像素信息传递的过程示意图；

图6为本申请实施例提供的一种基于人体解析的仓储作业人员的检测装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人体解析，其主要任务是根据给定的输入人体图片，将图像中的人体分割成多个语义相同的部件，例如左臂，头部，右脚等，有些情况下还包括不同的衣物类别，如大衣和裙子等等。该任务作为一种细粒度的语义分割任务，比单纯分割图像中的人体和背景更具挑战性，是近年来计算机视觉领域中的一个重要研究方向。该任务可应用到虚拟现实、增强现实、视频监控和人类行为分析等多个以人为中心的领域，有着广泛的应用前景。

人体掩码检测，又叫人体实例分割，属于语义分割和目标检测相结合的领域，实例分割的目的是将图像中每个感兴趣的对象的像素分割出来，相同类别的不同目标也要被区分开来，而人体实例分割就是将图像中每个人的像素分别分割出来。本发明属于单人实例分割，具体方法一般为，先用人体检测器从包含多人的图像中检测多个人体，确定每个人的位置，然后扣取一个人的图像或特征图，在扣取出来的图像或特征图上检测这个人在图像中的所有像素，即人体掩码。本发明的方法虽然属于单人实例分割，但可以通过与人体检测器结合从而扩展到多人实例分割。

本申请实施例提供的基于人体解析的仓储作业人员检测方法可以应用在服务器中，也可以应用在具有较强计算能力的终端中。该服务器可以是物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理（PDA）、平板电脑（PAD）等用户设备（User Equipment，UE）、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台（Mobile Station，MS）、移动终端（Mobile Terminal）等。

目前在人体解析任务中由于存在很多局部特征相似的类别，仅利用局部特征难以准确区分，因此，在该任务中图像的全局信息对于准确预测更为重要。例如，人体的左右手臂在局部特征如纹理、颜色等方面非常相似，仅仅利用这些特征无法准确的将他们区分开。因此目前的人体解析方法无法对作业人员的具体身体部位进行精确检测，无法对作业人员的携带设备、安全帽、通讯设备等进行精确检测。

为了解决上述问题，本申请提供的基于人体解析的仓储作业人员检测方法的处理过程可以如图1所示：在获取到仓储作业场景中包含多个作业人员的待处理图像后，首先，将待处理图像输入训练好的第一人体特征解析网络，得到全局特征图，如图1中的第一处理支路（或称“全局解析分支”）所示；以及，利用Fast R-CNN网络，检测出待处理图像中各作业人员的人体实例框，并依据检测结果，将待处理图像分成只包含单个人体的图像，再将包含单个人体的图像输入到训练好的第二人体特征解析网络，得到各作业人员的实例掩码局部特征图，如图1中的第二处理支路所示；以及，考虑到真实的人体实例标注数据更接近准确的单人图像，所以使用Mask R-CNN网络对待处理图像进行检测，得到实例级各作业人员的分割图像，即人体实例真值掩码图像，将人体实例真值掩码图像中人体更加精确的划分为单个人体，然后，将人体实例真值掩码图像送入训练好的第三人体特征解析网络，得到各作业人员的实例真值掩码特征图，如图1中的第三处理支路所示。

然后，将全局特征图、各作业人员的实例掩码局部特征图和各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到各作业人员的初始人体特征解析图；

之后，将各作业人员的初始人体特征解析图与Mask R-CNN网络得到的各作业人员的人体实例真值掩码图像进行特征融合，得到各作业人员的人体特征解析图。

进一步的，为了能够对人体的边缘部位和细节部位进行精确解析，可以使用标签优化法对初始人体特征解析图中各作业人员的边缘部位和细节部位进行精确解析，最终得到实例级多人人体特征解析图。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本申请实施例提供的一种基于人体解析的仓储作业人员的检测方法的流程示意图。如图2所示，该方法可以包括：

步骤S210、获取仓储作业场景中包含多个作业人员的待处理图像。

具体实施中，若本申请的仓储作业人员检测方法应用在服务器中，则需要具有摄像头的终端在采集到仓储作业场景中包含多个作业人员的待处理图像后，终端需要通过通信连接将待处理图像发送至服务器，以使服务器获取该待处理图像。

若本申请的仓储作业人员检测方法应用在终端中，则该终端需要具有摄像头，来采集仓储作业场景中包含多个作业人员的待处理图像，以使终端获取该待处理图像。

步骤S220、将待处理图像输入训练好的第一人体特征解析网络，得到第一人体特征解析网络输出的全局特征图。

第一人体特征解析网络是基于历史采集的包含多个作业人员的图像数据作为训练数据，对融合全局信息与局部细节的单人人体解析网络进行训练得到的。

结合图1的第一处理支路，本申请使用多人作业图像数据集训练出第一人体特征解析网络。然后，利用此分支的输出作为局部解析的补充。当多人之间存在遮挡时，全局解析分支可以提供上下文信息。例如，不同人的相同语义部分很容易区分，可以捕获人之间的空间关系以处理遮挡情况。但是，对于尺寸较小的语义部分很可能被其忽略。

步骤S230、采用Fast R-CNN网络对待处理图像进行处理，得到各作业人员的人体实例图像，并将得到的人体实例图像输入训练好的第二人体特征解析网络，得到第二人体特征解析网络输出的各作业人员的实例掩码局部特征图。

第二人体特征解析网络是在利用Fast R-CNN网络对历史获取的包含多个作业人员的图像检测出各作业人员的人体实例图像后，基于得到的各作业人员的人体实例图像对融合全局信息与局部细节的单人人体解析网络进行训练得到的。

具体实施中，首先利用Fast R-CNN网络检测出待处理图像中的各作业人员的人体实例图像，并调整该图像大小以适合第二人体特征解析网络输入的图像大小。然后，将调整后的各作业人员的人体实例图像作为输入，送入第二人体特征解析网络中进行解析预测，以得到各作业人员的实例掩码局部特征图。

其中，利用Fast R-CNN网络检测出的各作业人员的人体实例图像的尺寸可能不相同，为了与全局解析分支中预测出的图像尺寸一致，可以用像素值0来填充，以使人体实例图像的尺寸与全局解析分支中预测出的图像尺寸一致。

步骤S240、采用Mask R-CNN网络对待处理图像进行处理，得到各作业人员的人体实例真值掩码图像，将得到的人体实例真值掩码图像输入训练好的第三人体特征解析网络，得到第三人体特征解析网络输出的各作业人员的实例真值掩码特征图。

第三人体特征解析网络是在利用Mask R-CNN网络对历史获取的包含多个作业人员的图像检测出各作业人员的人体实例真值掩码图像后，基于得到的各作业人员的人体实例真值掩码图像，对融合全局信息与局部细节的单人人体解析网络进行训练得到的。

具体实施中，为了进一步细致解析结果，考虑到真实的人体实例标注数据更接近准确的单人图像，因此，利用Mask R-CNN网络对待处理图像进行实例级人体分割，得到各作业人员的人体实例真值掩码图像，然后，将各作业人员的人体实例真值掩码图像输入到第三人体特征解析网络中，该处理分支以真实人体实例标注数据为指导来获取各作业人员的实例真值掩码特征图，进一步提高了局部解析的性能。

需要说明的是，步骤S220、步骤S230和步骤S240的执行顺序可以按照步骤顺序执行也可以同时执行，本申请在此不对该执行顺序进行限定。

步骤S250、基于预设的特征融合规则，对全局特征图、各作业人员的实例掩码局部特征图和各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到各作业人员的初始人体特征解析图。

具体实施中，获取各作业人员的全局特征图、实例掩码局部特征图和实例真值掩码特征图中各特征对应的像素位置；

基于各特征对应的像素位置，将任一相同像素位置的像素值相加后取平均，得到各相同像素位置对应的特征平均值；

基于各相同像素位置对应的特征平均值。获取各作业人员的初始人体特征解析结果。

步骤S260、根据各作业人员的初始人体特征解析图和各作业人员的人体实例真值掩码图像，确定各作业人员的人体特征解析图。

具体实施中，将初始人体特征解析图与Mask R-CNN网络输出的各作业人员的人体实例真值掩码图像进行特征融合，以对各作业人员的不同部位进行实例级解析，最终得到各作业人员的人体特征解析图，即实例级的多人人体解析图。

进一步的，在确定各作业人员的人体特征解析图之后，采用标签优化法，可以对初始人体特征解析图中所述各作业人员的边缘特征和细节特征进行解析，得到待处理图像对应的实例级的人体特征解析图。

上述步骤所获得初始人体特征解析图中可以根据Mask R-CNN网络生成的人体检测结果来分配身体部位的实例级部位标签。具体来说，通过与Mask R-CNN网络输出的实例图进行特征融合，对每一个人体的不同部位进行实例级解析，当某一部位属于同一语义类别但不属于同一人体实例时，它们将被分配不同的实例级部位标签。

然而，Mask R-CNN网络具有细分特征不足的现象，针对这个问题，为了进一步保证解析结果的可靠性，本申请使用标签优化的方法，在超出人体实例边界的区域，扩大与具有相同解析语义标签的相邻像素的相交区域。边缘部分的某些区域，例如头发、手很可能在预测的人体实例区域之外，因此对于前期步骤中获得的语义部位的每个边界像素，使用广度优先搜索来查找被赋予实例类标签但由于分割的不准确性而没有部位标签的像素，从而使得被人体实例区域所排除的身体部位可以有效地包含在最终实例级结果中。

进一步的，在确定各作业人员的人体特征解析图之后，可以采用预设的分类器，对各作业人员的人体特征解析图进行姿态分类；预设的分类器是基于获取的经标注姿态的包含多个作业人员的人体特征解析图作为训练数据集，对预训练的极限学习机进行训练得到的。

不同于传统的单隐层前馈神经网络（SLFNs），极限学习机随机分配输入权重和隐层偏置，同时不需要向神经网络中误差反向传播那样调整参数。极限学习机网络模型的输出权重直接通过求解线性模型确定，因此极限学习机的训练阶段只通过一次迭代完成，训练速度极快。极限学习机的网络结构包含：输入层，隐含层和输出层，输入层与隐含层之间的连接通过输入权重

建立，隐含层与输出层之间的连接由输出权重

建立。

假设给定多人人体解析图像由N个任意不同样本组成的训练数据集

，其中对于每一个多人人体解析特征图样本

包括n个特征，标签

包括m个输出类别。一个包含L个神经元的标准SLFN的输出可以表示为：

其中，

；

；

;

表示第i个隐层神经元的输入权重，

表示第i个隐层神经元的偏置,

表示第i个神经元的输出权重，

表示第j个神经元的网络输出值，

表示激活函数，

表示第j个神经元的输入的多人人体解析特征图样本，m表示输出类别，

表示m个输出类别的样本的特征空间，n表示输出特征类别，

表示n个输出特征类别的样本的特征空间。

极限学习机中，Sigmoid函数常被当作激活函数：

其中，b为神经网络中通用的神经元的偏置。

表示神经元的权重，x表示神经元的输入。

标准SLFN的损失函数：

。在网络参数

完全可调的情况下，能够无限接近于零误差。在这种情况下，一个包含L个神经元的标准SLFN的输出可以表示为：

因此，上述N个式子可以组合在一起，变成矩阵的形式：

；其中，

矩阵H是隐含层的输出，T是真实类标签。输出权重

是通过解决最小二乘问题计算：

；其中，

隐层输出H的MP广义逆。

在一些实施例中，如图3所示，融合全局信息与局部细节的单人人体解析网络依次包括一个ResNet-101网络、两个串联的注意力模块、一个高分辨率嵌入模块和一个边缘感知模块。

其中，ResNet-101网络的输入端为融合全局信息与局部细节的单人人体解析网络的输入端，ResNet-101网络的第一输出端与第一个注意力模块的输入端相连，第一个注意力模块的输出端与第二个注意力模块的输入端相连，第二个注意力模块的输出端与高分辨率嵌入模块的输入端相连，高分辨率嵌入模块的输出端与边缘感知模块的第一输入端相连，边缘感知模块的3个第二输入端分别与ResNet-101网络的三个第二输出端相连。

ResNet-101网络，用于提取输入融合全局信息与局部细节的单人人体解析网络的输入图像的图像特征；

边缘感知模块，用于对该图像特征进行边缘检测，得到边缘检测结果，即边缘图；

两个串联的注意力模块，用于从该图像特征中获取全局特征；两个注意力模块分别收集水平和垂直方向的上下文信息，以增强像素级代表能力。

高分辨率嵌入模块，用于从该图像特征中获取局部解析结果，即局部特征图。

进一步的，高分辨率嵌入模块可以包括与第二个注意力模块连接的1个双线性插值单元、1个1×1的卷积单元和与边缘感知模块连接的1个特征级联单元；边缘感知模块可以包括与ResNet-101网络的连接的3个1×1的第一卷积单元、3个1×1的第二卷积单元、1个特征融合单元和两个串联的1×1卷积单元。

（a）高分辨率嵌入模块

在人体解析中，存在几个要分割的小目标对象，例如“安全帽”、“对讲机”、“靴子”和“手套”等。因此，用于像素级别分类的高分辨率特征对于分割的准确性至关重要。为了恢复丢失的细节特征，本发明将来自中间层的低层视觉特征嵌入到高层语义特征中，利用卷积中的功能来捕获高分辨率细节。

（b）边缘感知模块

边缘感知模块的目的是为了学习目标对象轮廓的表示，以进一步锐化和完善预测。本申请引入了三个侧分支来获取多尺度语义边缘信息。对骨干网络的第3、4、5阶段分别进行1×1卷积操作，以生成3个语义边界的通道特征图。然后，执行3次1×1卷积操作之后进行一次1×1卷积操作，获得边缘融合图。边缘分支的那些中间特征被上采样并与高分辨率的特征连接在一起。最后，对级联特征图执行1×1卷积操作，以预测像素级人体部位。

（c）注意力模块

如图4所示，每个注意力模块可以包括输入单元、3个1×1的卷积单元、1个特征融合单元和1个特征聚合单元；输入单元的输入端为该注意力模块的输入端，输入单元的3个第一输出端分别与3个1×1的卷积单元的输入端相连，即3个1×1的卷积单元的输入端输入的数据为相同的数据；3个1×1的卷积单元中的2个1×1的卷积单元输出端分别与特征融合单元的输入端相连；特征融合单元的输出端、3个1×1的卷积单元中最后的1×1的卷积单元的输出端和输入单元的第二输出端分别与特征聚合单元的三个输入端相连，特征聚合单元的输出端为该注意力模块的输出端。

其中，每个注意力模块的具体处理过程包括：

将待输入特征图分别经过3个1×1的卷积单元，得到三个特征图，三个特征图包括特征图Q、特征图K和特征图V；具体的，待输入特征图X的大小为

，其中，H为待输入特征图的长、W为待输入特征图的宽、C为待输入特征图的通道数；待输入特征图X分别经过3个1×1的卷积单元后，得到特征图Q、特征图K和特征图V；特征图Q、特征图K和特征图V的大小均为

，图通道数

小于C。

按照预设的特征融合算法，对特征图Q和特征图K进行特征融合，得到第一注意力特征图A;其中，第一注意力特征图A的大小为

。

预设的特征融合算法可表示为：

；其中，

表示特征融合后的特征，u表示特征图Q中某一像素位置，此处认为Q_u为一个

的向量，Ω _u是指对应的从K中取与像素位置u同行同列的所有像素值组成的向量，其维度为

，

表示

中的第i个向量，其中

。

按照预设的特征聚合算法，对第一注意力特征图A和特征图V进行特征，得到第二注意力特征图

，第二注意力特征图

中每个像素位置都包含第二注意力特征图

中所有像素的像素信息；具体的，对于特征图V中的每一个像素位置u，可以得到一个向量

，

为通道数C维度的特征空间和一个集合

，集合

是特征图V中所有与像素位置u同行同列的像素集合。将第一注意力特征图A和特征图V进行聚合操作得到上下文信息。

预设的特征聚合算法可表示为：

；其中，

表示第一注意力特征图A的第i通道、第

像素位置的像素值，

表示特征图V的第i通道中与像素位置u同行同列的像素，

表示像素位置

和第i通道在第二注意力特征图

中对应的特征向量，X_u表示像素位置u和第i通道在待输入特征图X中对应的特征向量。

特征图中的每个位置通过预测的稀疏注意力图与处于同一行和同一列中的其他位置连接，将上下文信息添加到局部特征以增强局部特征并增强像素方式表示。因此，它具有广泛的上下文视图，并根据空间注意力图选择性地聚合上下文。

尽管注意力模块可以在水平和垂直方向上获取上下文信息，但是像素和周围像素之间地连接仍然是稀疏的。为了获取更加密集的上下文信息，在上述注意力模块的基础上进行一轮递归操作，即将注意力模块所获得的第二注意力特征图

作为输入图像，输入第二注意力模块中并得到第三注意力特征图

。这时

的每个像素位置都继承了所有像素的信息。

如图5所示，展示了右上角像素点

如何将像素信息传递到左下角像素点

的过程，在左图中，左下角点

只能得到左上角点

和右下角点

的信息，右上角点

的信息只能传递到

和

，还不能传播到左下角点

；在右图中，左下角点能够从左上角点

和右下角点

中得到信息，这时已经包含了

点的信息，所以右上角点

的像素信息传播到左下角点

。同理，任何不能一次遍历的位于十字位置的像素点只需两次经过注意力模块就能完全遍历。

在一些实施例中，融合全局信息与局部细节的单人人体解析网络在训练过程中，该网络的损失函数可以表述为：

；

其中，

表示边缘感知模块检测到的边缘图与二进制边缘真值图之间的加权交叉熵损失函数；

表示高分辨率嵌入模块的局部特征图与解析真值之间的交叉熵损失函数；

表示从边缘感知分支预测的最终解析结果与解析真值之间的交叉熵损失函数。

本申请提供的基于人体解析的仓储作业人员的检测方法能够在特定场景下对作业人员进行位置和行为的检测，实现了对作业人员的具体身体部位，以及对作业人员的携带设备、安全帽、通讯设备等进行精确检测，提高了人体解析的检测精度。

与上述方法对应的，本申请实施例还提供一种基于人体解析的仓储作业人员的检测装置，如图6所示，该装置包括：

获取单元610，用于获取仓储作业场景的待处理图像，所述待处理图像包括多个作业人员；

输入单元620，用于将所述待处理图像输入训练好的第一人体特征解析网络，得到所述第一人体特征解析网络输出的全局特征图；

融合单元630，用于基于预设的特征融合规则，对所述全局特征图、所述各作业人员的实例掩码局部特征图和所述各作业人员的实例真值掩码特征图中的各特征进行特征融合，得到所述各作业人员的初始人体特征解析图；

确定单元640，用于根据所述各作业人员的初始人体特征解析图和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图。

本申请上述实施例提供的基于人体解析的仓储作业人员检测装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本申请实施例提供的基于人体解析的仓储作业人员检测装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本申请实施例还提供了一种电子设备，如图7所示，包括处理器710、通信接口720、存储器730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。

存储器730，用于存放计算机程序；

处理器710，用于执行存储器730上所存放的程序时，实现如下步骤：

上述提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本申请实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于人体解析的仓储作业人员的检测方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于人体解析的仓储作业人员的检测方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种基于人体解析的仓储作业人员的检测方法，其特征在于，所述方法包括：

根据所述各作业人员的初始人体特征解析图和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图；

其中，基于预设的特征融合规则，对所述各作业人员的全局特征图、实例掩码局部特征图和实例真值掩码特征图中的各特征进行特征融合，得到所述各作业人员的初始人体特征解析结果，包括：

2.如权利要求1所述的方法，其特征在于，所述第一人体特征解析网络是基于历史获取的包含多个作业人员的图像作为训练数据，对融合全局信息与局部细节的单人人体解析网络进行训练得到的；

3.如权利要求2所述的方法，其特征在于，所述融合全局信息与局部细节的单人人体解析网络依次包括一个ResNet-101网络、两个串联的注意力模块、一个高分辨率嵌入模块和一个边缘感知模块；其中，

所述注意力模块包括3个1×1的卷积单元、1个特征融合单元和1个特征聚合单元；

4.如权利要求3所述的方法，其特征在于，每个注意力模块的具体处理过程包括：

将待输入特征图分别经过所述3个1×1的卷积单元，得到三个特征图，所述三个特征图包括特征图、特征图和特征图；

按照预设的特征融合算法，对所述特征图和所述特征图进行特征融合，得到第一注意力特征图；

按照预设的特征聚合算法，对所述第一注意力特征图、所述特征图和所述待输入特征图进行特征聚合，得到第二注意力特征图，所述第二注意力特征图中每个像素位置都包含所述第二注意力特征图中所有像素的像素信息。

5.如权利要求1所述的方法，其特征在于，根据所述各作业人员的初始人体特征解析结果和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图之后，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，根据所述各作业人员的初始人体特征解析结果和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图之后，所述方法还包括：

7.一种基于人体解析的仓储作业人员的检测装置，其特征在于，所述装置包括：

确定单元，用于根据所述各作业人员的初始人体特征解析图和所述各作业人员的人体实例真值掩码图像，确定所述各作业人员的人体特征解析图；

所述融合单元，具体用于：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。