CN113205067B

CN113205067B - 作业人员监控方法、装置、电子设备和存储介质

Info

Publication number: CN113205067B
Application number: CN202110576967.4A
Authority: CN
Inventors: 付小龙
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2024-04-09
Anticipated expiration: 2041-05-26
Also published as: CN113205067A

Abstract

本发明实施例公开了一种作业人员监控方法、装置、电子设备和存储介质，作业人员监控方法包括：通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的ROI框的位置信息和每个ROI框的分类信息，每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度；根据各个作业人员分别对应的ROI框的位置信息合并具有相同动作标签的作业人员的动作置信度，得到监控图像的预测信息，该预测信息包括监控图像具有每个动作标签的预测值；根据监控图像具有每个动作标签的预测值确定监控图像的目标标签；根据目标标签确定现场动作是否规范。本发明实施例能够自动确定现场动作是否规范，提高确定结果的准确度。

Description

作业人员监控方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术，尤其涉及一种作业人员监控方法、装置、电子设备和存储介质。

背景技术

在逐渐推进的智慧物流园区中，安防监控变得越来越重要，可以通过人工查看监控视频来确定作业人员的动作是否规范。在实现本发明的过程中，发明人发现，人工查看监控视频来确定作业人员的动作是否规范的方法，不够智能、成本高、且存在标准不统一、不够准确等问题。

发明内容

本发明实施例提供一种作业人员监控方法、装置、电子设备和存储介质，能够避免人工确定方法带来的不智能、成本高、标准不统一等问题，提高确定结果的准确度。

第一方面，本发明实施例提供一种作业人员监控方法，包括：

通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个所述ROI框的分类信息，每个所述ROI框的分类信息包括对应ROI框中的所述作业人员的动作标签和动作置信度；

根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值；

根据所述监控图像具有每个所述动作标签的预测值确定所述监控图像的目标标签；

根据所述目标标签确定现场动作是否规范。

第二方面，本发明实施例提供一种作业人员监控装置，包括：

检测模块，用于通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个所述ROI框的分类信息，每个所述ROI框的分类信息包括对应ROI框中的所述作业人员的动作标签和动作置信度；

置信度合并模块，用于根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值；

标签确定模块，用于根据所述监控图像具有每个所述动作标签的预测值确定所述监控图像的目标标签；

规范确定模块，用于根据所述目标标签确定现场动作是否规范。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的作业人员监控方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的作业人员监控方法。

本发明实施例中，可以通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个ROI框的分类信息，每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度；根据各个作业人员分别对应的ROI框的位置信息合并具有相同动作标签的作业人员的动作置信度，得到监控图像的预测信息，监控图像的预测信息包括监控图像具有每个动作标签的预测值；根据监控图像具有每个动作标签的预测值确定监控图像的目标标签；根据目标标签确定现场动作是否规范。即本发明实施例可以通过目标检测神经网络对监控图像进行检测，从而自动确定现场动作是否规范，避免了人工确定方法带来的不智能、成本高、标准不统一等问题；进一步地，通过将具有相同动作标签的作业人员的动作置信度进行合并，从而得到监控图像的预测信息，可以提高确定结果的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的作业人员监控方法的一个流程示意图。

图2是本发明实施例提供的目标检测神经网络的一个结构示意图。

图3是本发明实施例提供的监控图像的检测方法的一个流程示意图。

图4是本发明实施例提供的区域合并的一个效果示意图。

图5是本发明实施例提供的动作识别准确率与训练迭代次数的一个关系示意图。

图6是本发明实施例提供的动作识别损失值与训练迭代次数的一个关系示意图。

图7是本发明实施例提供的作业人员监控方法的另一流程示意图。

图8是本发明实施例提供的监控图像的一个检测结果示意图。

图9是本发明实施例提供的作业人员监控装置的一个结构示意图。

图10是本发明实施例提供的电子设备的一个结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的作业人员监控方法的一个流程示意图，该方法可以由本发明实施例提供的作业人员监控装置来执行，该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中，该装置可以集成在电子设备中，电子设备比如可以是巡检机器人、计算机、服务器等。以下实施例将以该装置集成在电子设备中为例进行说明，参考图1，该方法具体可以包括如下步骤：

步骤101，通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的ROI框的位置信息和每个ROI框的分类信息，每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度。

示例地，本发明实施例的方法可用于仓库作业现场，作业人员可以是仓库作业人员，比如入库、出库、盘点、打包等环节的作业人员，可以采集仓库作业现场的监控视频，从监控视频中提取监控图像，对监控图像进行检测分析，从而确定仓库作业人员的作业动作是否符合规范。当然，本发明实施例的方法还可以应用在其他需要对作业人员进行监控的场景，本发明实施例对具体的应用场景不做限定。

具体地，可以利用巡检机器人在作业现场巡检以采集监控视频，并对采集到的监控视频中的监控图像进行检测分析，从而确定作业人员的作业动作是否符合规范。另外，还可以通过作业现场安装的影像采集设备(比如摄像头)采集监控视频，将采集的监控视频上传给计算机或服务器，由计算机或服务器对监控视频中的监控图像进行检测分析，从而确定作业人员的作业动作是否符合规范。

具体实现中，目标检测神经网络可以是卷积神经网络，目标检测神经网络可预先通过训练数据训练得到，将监控图像输入训练好的目标检测神经网络，网络输出可以是各个作业人员在监控图像上分别对应的感兴趣区域(Region Of Interest，ROI)框的位置信息和每个ROI框的分类信息。其中，ROI框可以是方框、矩形框、圆、椭圆、不规则多边形等，一个ROI框可以用来标示一个作业人员；每个ROI框的位置信息可以用位置坐标、宽和高这四个属性值表示；每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度，动作标签用来标记作业人员的动作类型，动作置信度用来标记作业人员的动作属于某一动作(动作标签)的概率或可信程度。在一个具体的实施例中，动作标签可以包括但不限于：跳跃、打电话、阅读、玩乐器、骑自行车、骑马、跑步、拍照、使用电脑、走路、其他(不属于前面提到的这些标签)等，动作置信度例如70％、80％等。

在一个具体的实施例中，一张监控图像中可以包括多个作业人员，每个作业人员在监控图像中都可以具有对应的检测框和分类信息，在分类信息中，不同作业人员的动作标签和动作置信度可能相同，也可能不同。比如，一张监控图像的检测结果可如下表1所示：

作业人员	ROI框	动作标签	动作置信度
				人员1	ROI框1	打电话	82％
人员2	ROI框2	走路	75％
				人员3	ROI框3	打电话	78％
人员4	ROI框4	打电话	86％
				人员5	ROI框5	使用电脑	70％
人员6	ROI框6	走路	78％

表1

表1所示，即检测到这张监控图像中有六个作业人员，其中人员1、人员3和人员4的动作标签是打电话，人员2和人员6的动作标签是走路，人员5的动作标签是使用电脑。

步骤102，根据各个作业人员分别对应的ROI框的位置信息合并具有相同动作标签的作业人员的动作置信度，得到监控图像的预测信息，监控图像的预测信息包括监控图像具有每个动作标签的预测值。

即将具有相同动作标签的作业人员的动作置信度进行合并，从而得到监控图像具有每个动作标签的预测值。具体的合并方法，可以如下：

(1)可以直接将具有相同动作标签的作业人员的动作置信度相加。具体地，可以根据作业标签对所有ROI框分类，同一类ROI框中的作业人员的动作标签相同，将每类ROI框中的作业人员的动作置信度相加，从而得到监控图像具有每个动作标签的预测值。

以通过目标检测神经网络检测监控图像得到的数据如表1所示为例，则监控图像具有每个动作标签的预测值可如下表2所示：

动作标签	预测值
		打电话	82％+78％+86％＝2.46
走路	75％+78％＝1.53
		使用电脑	70％＝0.7

表2

表2所示，即监控图像具有打电话这个动作标签的预测值为2.46，具有走路这个动作标签的预测值为1.53，具有使用电脑这个动作标签的预测值为0.7。

(2)可以设置相关权重，结合相关权重对具有相同动作标签的作业人员的动作置信度进行合并。具体地，可以根据动作标签对所有ROI框分类，同一类ROI框中的作业人员的动作标签相同，从每类ROI框中确定出主要框和次要框，根据每类ROI框中主要框内作业人员的动作置信度和第一权重、以及对应类别的ROI框中所述次要框内作业人员的动作置信度和第二权重确定监控图像具有对应的动作标签的预测值。比如，可以将每类ROI框中主要框内作业人员的动作置信度与第一权重的乘积，与对应类别的ROI框中次要框内作业人员的动作置信度与第二权重的乘积求和，得到监控图像具有对应的动作标签的预测值。

其中，每类ROI框中的主要框和次要框可通过用户操作确定，比如可以将目标检测神经网络对监控图像的检测结果输出至预设界面显示，用户可以通过预设界面指定每类ROI框中哪个ROI框是主要框，则该类ROI框中除用户指定ROI框之外的其他ROI框就为次要框；例如表1所示，针对打电话这个动作标签对应的所有ROI框，用户可以指定ROI框1为主要框，则ROI框3和ROI框4就为次要框。或者，也可以自动将每类ROI框中动作置信度具有最大值的ROI框作为主要框，则该类ROI框中除主要框之外的其他ROI框就为次要框。例如表1所示，针对打电话这个动作标签对应的所有ROI框，可以直接将ROI框4作为主要框，则ROI框1和ROI框3就为次要框。

其中，第一权重为主要框内作业人员的动作置信度对应的权重，第二权重为次要框内作业人员的动作置信度对应的权重，第一权重和第二权重可以根据实际需要或实验数据设置，每类动作标签对应的第一权重和第二权重可以相同，也可以不同。在一个具体的实施例中，第二权重可以有多个，每个次要框对应一个第二权重，每个次要框对应的第二权重可以相同，第一权重可以等于多个第二权重之和，比如第一权重为0.5，多个第二权重之和也为0.5。通过训练实验得知，第一权重为0.5、多个第二权重之和也为0.5时，可以达到较好动作识别效果。

比如，针对打电话这个动作标签，具有这一类动作标签的ROI框总共有三个，则第一权重可以为0.5，第二权重可以为0.25。再比如，针对走路这个动作标签，具有这一类动作标签的ROI框总共有两个，则第一权重可以为0.5，第二权重也可以为0.5。以通过目标检测神经网络检测监控图像得到的数据如表1所示、以ROI框1为具有打电话这一类动作标签的主要框，以ROI框6为具有走路这一类动作标签的主要框，则按照这种方法设置权重之后，计算得到的监控图像具有每个动作标签的预测值可如下表3所示：

动作标签	预测值
		打电话	82％0.5+78％0.25+86％*0.25＝0.82
走路	75％0.5+78％0.5＝0.765
		使用电脑	70％＝0.7

表3

表3所示，即监控图像具有打电话这个动作标签的预测值为0.82，具有走路这个动作标签的预测值为0.765，具有使用电脑这个动作标签的预测值为0.7

步骤103，根据监控图像具有每个动作标签的预测值确定监控图像的目标标签。

具体地，可以从监控图像具有的每个动作标签的预测值中确定出最大值，将最大值对应的动作标签确定为目标标签。比如，当监控图像具有每个动作标签的预测值如表2所示时，即监控图像具有打电话这个动作标签的预测值最大，则可以确定监控图像的目标标签为打电话。再比如，当监控图像具有每个动作标签的预测值如表3所示时，同样可以确定监控图像的目标标签为打电话。

步骤104，根据目标标签确定现场动作是否规范。

具体地，可以根据目标标签和预设现场标签确定现场动作是否规范，预设现场标签可根据实际需要预先设置。

比如，可以确定目标标签与预设现场标签是否匹配；在目标标签与预设现场标签匹配时，确定现场动作规范；以及在目标标签与预设现场标签不匹配时，确定现场动作不规范。其中，目标标签与预设现场标签的匹配，可以采用字符串相似度算法实现，字符串相似度算法例如：余弦相似度算法、矩阵相似度算法、字符串编辑距离算法，此处不做具体限定。

进一步地，在确定现场动作不规范时，可以发出动作纠正提示信息，以提示作业人员纠正自己的动作；或者可以向相关工作人员发送提示信息，以提示相关工作人员去规范现场动作。

本发明实施例可以通过目标检测神经网络对监控图像进行检测，从而自动确定现场动作是否规范，避免了人工确定方法带来的不智能、成本高、标准不统一等问题；进一步地，通过将具有相同动作标签的作业人员的动作置信度进行合并，从而得到监控图像的预测信息，可以提高确定结果的准确度。

下面介绍本发明实施例提供的目标检测神经网络，在一个具体的实施例中，该目标检测神经网络可以采用基于区域的全卷积神经网络(R-FCN)，R-FCN网络的结构例如图2所示，可以包括残差网络ResNet、区域候选网络(Region Proposal Network，RPN)、分类网络Classification和回归网络Regression。

利用R-FCN对监控图像进行检测的过程可如图3所示，可以包括如下步骤：

步骤201，将监控图像输入残差网络，以通过残差网络生成第一特征图和第二特征图。

监控图像输入残差网络ResNet之后，通过ResNet来提取特征，ResNet主要包括5个卷积网络块conv1～conv5，其中conv4的输出为第一特征图，该第一特征图作为区域候选网络RPN的输入；conv5的输出是2048-d的，因而又加了一个新的卷积网络块new conv来降低通道channel的维度，输出的维度为1024-d，输出即第二特征图，第二特征图再输入到两个平行的卷积层conv layer中，一个用来做分类，另一个用来做回归。

步骤202，将第一特征图输入区域候选网络，以通过区域候选网络生成各个作业人员分别对应的ROI框。

区域候选网络RPN是用来提取ROI框的，本发明实施例中，为了提高处理效率，提高区域划分的准确度，在区域候选网络中可以采用选择性搜索算法生成各个作业人员分别对应的ROI框。即将第一特征图输入区域候选网络之后，可以利用基于图的图像分割的方法得到小尺度的区域，即各个初始区域，然后采用选择性搜索算法对各个初始区域进行合并，得到各个作业人员分别对应的ROI框。

具体地，在采用选择性搜索算法对各个初始区域进行合并时，可以如下：

(1)将各个初始区域加入候选区域列表。

(2)基于相似度合并一些区域。

比如，可以计算任意两个区域的颜色相似度、纹理相似度、尺寸相似度和交叠相似度，根据任意两个区域的颜色相似度、纹理相似度、尺寸相似度和交叠相似度确定任意两个区域的区域相似度，根据任意两个区域的区域相似度对各个区域进行合并。

其中，颜色相似度的计算，可以选用HSV(Hue，Saturation，Value)颜色空间中的色调，对于RGB(Red，Green，Blue)图像中的每个区域G中单个通道的色调在bin＝25的直方图上进行投票，将投票结果利用归一化后直方图交叉核式算子进行计算，从而得到两个区域的颜色相似度。

纹理相似度的计算，可以采用高斯分布在8邻域方向做梯度统计，然后每个通道的梯度方向以bins＝10计算直方图，将结果采用归一化后直方图交叉核式算子进行计算，从而得到两个区域的纹理相似度。

尺寸相似度的计算，可以采用像素面积计算，比如size_image为整个图像的像素面积，size_G1为区域G1的像素面积，size_G2为区域G2的像素面积，S_size表示两个区域的尺寸相似度，则：

显然，当G1、G2都很小时，尺寸相似度趋近1，这保证了较小的区域优先合并，从而避免大区域不断合并小区域。

交叠相似度的计算，同样可以采用像素面积计算，如果区域G1包含在区域G2内，应该首先合并；另一方面，如果区域G1很难与区域G2相接，那么他们不应该合并在一起。这里定义的交叠相似度主要是为了衡量两个区域是否更加“吻合”，其指标是合并后的区域的边界框(Bounding Box)越小，其吻合度越高，即相似度越接近1。

具体地，在计算任意两个区域的区域相似度时，可以结合对应的权重(颜色相似度对应的权重、纹理相似度对应的权重、尺寸相似度对应的权重、交叠相似度对应的权重)进行计算，即可以将任意两个区域的颜色相似度、纹理相似度、尺寸相似度、交叠相似度与对应的权重相乘后求和，从而得到这两个区域的区域相似度。具体地，在根据任意两个区域的区域相似度对各个区域进行合并时，可以选取区域相似度满足预设相似度条件的区域进行合并。示例地，采用选择性搜索算法对各个初始区域进行合并的效果可如图4所示，图4中(a)图为原始图，(b)图为区域合并得到的效果图。

(3)将合并之后的区域作为一个整体，跳转至步骤(1)。通过不停的迭代，候选区域列表中的区域越来越大，直至候选区域列表中区域的数量满足预设数量条件时，停止合并，最终候选区域列表中剩下的区域即检测到的ROI。

步骤203，将第二特征图输入分类网络，以通过分类网络生成位置敏感得分图，并基于各个作业人员分别对应的ROI框对位置敏感得分图进行池化操作，得到每个ROI框的分类信息。

在分类网络中，new conv层输出的1024-d的第二特征图输入到一个1*1的卷积层中，然后得到一个k²(c+1)维度的位置敏感得分图(position sensitive score map)，k²(c+1)表示有k²个位置敏感得分图，每个位置敏感得分图是c+1维的，代表着c+1个类别。例如，k＝3时，即得到9个位置敏感得分图，分别代表左上、中上、右上、左中、正中、右中、左下、正下、右下。以左上的位置敏感得分图为例，这个位置敏感得分图上的每个点都代表了该点出现在目标(作业人员)左上角的概率(得分)，也就是说该点右下方刚好是目标的得分。所以剩下的八张图依次代表图上的每个点出现在目标的正上方、右上方、左中方、正中方、右中方、左下方、正下方和右下方的概率(得分)。

示例地，通过区域候选网络提取的ROI框，是包含了“坐标、宽、高”四个属性值的，也就是说，不同的ROI框能够对应到位置敏感得分图的不同位置上，而一个ROI框会分成k*k个bins(也就是子区域，每个子区域的宽高分别是w表示ROI框的宽、h表示ROI框的高)，即每个bin都能对应到位置敏感得分图的某一个区域，池化操作就是在该bin在位置敏感得分图上对应的区域执行，具体的池化过程可用下面的公式表示：

其中，(x₀,y₀)为ROI框的左上点的坐标，θ为网络参数，(x，y)表示bin(i，j)中的点的坐标，所以(x+x₀,y+y₀)就是bin(i，j)中的点在第二特征图上的坐标，z_i,j,c(x+x₀,y+y₀|θ)就表示bin(i，j)中的点在第二特征图上的坐标对应的像素点的值，所以公式右侧的意思是bin(i，j)中所有点对应的像素点的值加和然后求平均，这就是说在bin(i，j)中采用的是平均池化，最后得到的r_c(i,j|θ)表示的是用第(i，j)个位置敏感得分图上第(i，j)个bin中的点对应的像素点的值进行平均池化的结果。

在池化后，每个ROI框针对每个类别，都可以得到k²个得分，利用这k²个得分对这个ROI框进行投票，就可以得到每个类别的得分。即针对每个类别，可以将该类别对应的这k²个得分相加，就得到了该类别的得分，具体计算公式可以如下：

r_c(θ)＝∑_i,jr_c(i,j|θ)

其中，r_c(θ)表示某个类别的得分。

在得到每个类别(c+1个类别)的得分之后，可以用一个分类函数softmax对c+1个类别的得分分类，分类之后就得分了每个ROI框的分类信息。具体地，此处还可以直接比较每个ROI框的c+1个类别的得分，将得分最大的类别作为对应ROI框的类别，将该类别对应的类别标签作为该ROI框中的作业人员的动作标签，将该类别的得分作为该ROI框中的作业人员的动作置信度。

具体实现中，当动作标签包括跳跃、打电话、阅读、玩乐器、骑自行车、骑马、跑步、拍照、使用电脑、走路、其他这11个类别时，上面的c的取值可以为10。

步骤204，将第二特征图输入回归网络，以通过回归网络生成回归得分图，并基于各个作业人员分别对应的ROI框对回归得分图进行池化操作，得到每个ROI框的位置信息。

回归网络的处理过程与分类网络的处理过程类似，只是维度改变了一下。在回归的时候，同样将new conv输出的第二特征图输入到一个1*1的卷积层中，不过这个卷积层输出的维度是4k²，即输出k²个回归得分图，每个回归得分图的维度是4，代表四个属性值(坐标，宽、高)，使用与分类网络类似的方法对回归得分图进行池化操作，对每个位置，都有k²个得分，对这k²个得分求平均值，得到一个4维向量，这个4维向量代表每个ROI框需要偏移的位置，根据这个4维向量对ROI框的位置进行调整，即可得到每个ROI框的位置信息(坐标，宽、高)。

具体实现中，可以获取多张原始图像；在每张原始图像中为预设人员标记ROI框和动作标签，得到目标图像；以原始图像作为训练输入、以目标图像指导训练输出进行网络训练，在训练的过程中，通过损失函数反向优化模型参数，从而得到目标检测神经网络。

其中，原始图像可以来自预设的标准数据集，比如PASCAL VOC 2012，PASCAL VOC2012为图像识别和分类提供了一系列标准的数据，在ImageSets的Action文件夹下的数据是为做预测静态图像中人的动作而准备的。其中包括了跳跃，打电话，阅读，玩乐器，骑自行车，骑马，跑步，拍照，使用电脑，走路和其他(不属于前10个类别的图像)11个动作类别的图像。训练图像、验证图像的数量可以分别是2296和2292张，这种比例的数据也是PASCALVOC2012数据集的特性之一。

在训练阶段输入的图像可以是224×224的RGB图像，在网络训练之前可以将图像的每个像素值减去图像像素均值，同时对训练数据进行归一化处理，这可以提高训练的精度和速率。所有隐藏层的激活函数都可以为ReLU，使用批处理Batch大小为64的误差反向传播网络训练模型，最后的dropout层随机去掉神经元的比例可以为0.5。训练可以进行多次迭代，对于前面卷积层权值的初始化可以用随机初始化，对最后的全连接层初始化权值时，可以使用前面调整后的权值进行初始化，即预训练的初始化，这样可以有助于提高计算速度，避免从随机化开始计算。同时可以采用多尺度训练，尺度收缩范围可以为256到512，这种多尺度训练方法可以使训练模型能够识别不同大小尺寸的图像。

在一个具体的实施例中，通过训练得到的动作识别准确率与训练迭代次数的关系可如图5所示，通过图5可知，当训练迭代次数在400次左右时，各类动作识别准确率开始趋于稳定，达到较好的效果。

在一个具体的实施例中，通过训练得到的各类动作识别损失值与训练迭代次数的关系可如图6所示，通过图6可知，当训练迭代次数在400次左右时，各类动作识别损失值开始趋于稳定，达到较小的损失状态。

在一个具体的实施例中，训练得到的目标检测神经网络的各项网络参数可如表下4所示：

表4

通过本发明实施例提供的目标检测神经网络对监控图像进行检测，可以提高检测准确率，提升检测效果。

需要说明的是，本发明实施例仅以目标检测神经网络采用R-FCN网络为例进行说明，实际应用中，目标检测神经网络还可以采用其他网络，此处不做具体限定。

下面进一步描述本发明实施例提供的作业人员监控方法，如图7所示，该方法可以包括如下步骤：

步骤301，通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的ROI框的位置信息和每个ROI框的分类信息，每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度。

具体地，本发明实施例的目标检测神经网络可以是前面实施例提及的R-FCN网络，将监控图像输入训练好的目标检测神经网络，网络输出可以是各个作业人员在监控图像上分别对应的ROI框的位置信息和每个ROI框的分类信息。其中，ROI框可以是方框、矩形框、圆、椭圆、不规则多边形等，一个ROI框可以用来标示一个作业人员；每个ROI框的位置信息可以用位置坐标、宽和高这四个属性值表示；每个ROI框的分类信息包括对应ROI框中的作业人员的动作标签和动作置信度，动作标签用来标记作业人员的动作类型，动作置信度用来标记作业人员的动作属于某一动作(动作标签)的概率或可信程度。在一个具体的实施例中，动作标签可以包括但不限于：跳跃、打电话、阅读、玩乐器、骑自行车、骑马、跑步、拍照、使用电脑、走路、其他(不属于前面提到的这些标签)等，动作置信度例如70％、80％等。

在一个具体的实施例中，一张监控图像中可以包括多个作业人员，每个作业人员在监控图像中都可以具有对应的检测框和分类信息，在分类信息中，不同作业人员的动作标签和动作置信度可能相同，也可能不同。

步骤302，根据各个作业人员分别对应的ROI框的位置信息及动作标签对各个作业人员分别对应的ROI框分类，同一类ROI框中的作业人员的动作标签相同。

比如，按照动作标签可以将ROI框分为：跳跃、打电话、阅读、玩乐器、骑自行车、骑马、跑步、拍照、使用电脑、走路、其他等类。

步骤303，从每类ROI框中确定出主要框和次要框。

其中，每类ROI框中的主要框和次要框可通过用户操作确定，比如可以将目标检测神经网络对监控图像的检测结果输出至预设界面显示，用户可以通过预设界面指定每类ROI框中哪个ROI框是主要框，则该类ROI框中除用户指定ROI框之外的其他ROI框就为次要框。或者，也可以自动将每类ROI框中动作置信度具有最大值的ROI框作为主要框，则该类ROI框中除主要框之外的其他ROI框就为次要框。

在一个具体的实施例中，比如监控图像的检测结果如图8所示，包括3个ROI框，三个ROI框中的人员的动作标签均为跳跃，则可以根据用户选择将ROI框1确定为主要框，则ROI框2和ROI框3即为次要框。

步骤304，根据每类ROI框中主要框内作业人员的动作置信度和第一权重、以及对应类别的ROI框中次要框内作业人员的动作置信度和第二权重确定监控图像具有对应的动作标签的预测值。

具体地，可以将每类ROI框中主要框内作业人员的动作置信度与第一权重的乘积，与对应类别的ROI框中次要框内作业人员的动作置信度与第二权重的乘积求和，得到监控图像具有对应的动作标签的预测值。

步骤305，从监控图像具有的每个动作标签的预测值中确定出最大值。

比如，当监控图像具有的各个动作标签的预测值中，打电话这个动作标签的预测值最大，则可以确定监控图像的目标标签为打电话。

步骤306，将最大值对应的动作标签确定为监控图像的目标标签。

步骤307，确定目标标签与预设现场标签是否匹配，若匹配，则执行步骤308，否则，执行步骤309。

其中，目标标签与预设现场标签的匹配，可以采用字符串相似度算法实现，字符串相似度算法例如：余弦相似度算法、矩阵相似度算法、字符串编辑距离算法，此处不做具体限定。

步骤308，确定现场动作规范。

步骤309，确定现场动作不规范。

比如，当目标标签为打电话，而预设现场标签为行走，二者不匹配，则可以确定现场动作不规范。

图9是本发明是实施例提供的作业人员监控装置的一个结构图，该装置适用于执行本发明实施例提供的作业人员监控方法。如图9所示，该装置具体可以包括：

检测模块401，用于通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个所述ROI框的分类信息，每个所述ROI框的分类信息包括对应ROI框中的所述作业人员的动作标签和动作置信度；

置信度合并模块402，用于根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值；

标签确定模块403，用于根据所述监控图像具有每个所述动作标签的预测值确定所述监控图像的目标标签；

规范确定模块404，用于根据所述目标标签确定现场动作是否规范。

一实施例中，所述置信度合并模块402具体用于：

根据各个所述作业人员分别对应的ROI框的位置信息及所述动作标签对各个所述作业人员分别对应的ROI框分类，同一类ROI框中的所述作业人员的动作标签相同；

从每类所述ROI框中确定出主要框和次要框；

根据每类所述ROI框中所述主要框内所述作业人员的动作置信度和第一权重、以及对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度和第二权重确定所述监控图像具有对应的所述动作标签的预测值。

一实施例中，所述置信度合并模块402根据每类所述ROI框中所述主要框内所述作业人员的动作置信度和第一权重、以及对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度和第二权重确定所述监控图像具有对应的所述动作标签的预测值，包括：

将每类所述ROI框中所述主要框内所述作业人员的动作置信度与第一权重的乘积，与对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度与第二权重的乘积求和，得到所述监控图像具有对应的所述动作标签的预测值。

一实施例中，所述标签确定模块403具体用于：

从所述监控图像具有的每个所述动作标签的预测值中确定出最大值；

将所述最大值对应的所述动作标签确定为所述目标标签。

一实施例中，所述规范确定模块404具体用于：

确定所述目标标签与预设现场标签是否匹配；

在所述目标标签与所述预设现场标签匹配时，确定现场动作规范；以及

在所述目标标签与所述预设现场标签不匹配时，确定现场动作不规范。

一实施例中，所述目标检测网络包括残差网络、区域候选网络、分类网络和回归网络，所述检测模块401具体用于：

将所述监控图像输入所述残差网络，以通过所述残差网络生成第一特征图和第二特征图；

将所述第一特征图输入所述区域候选网络，以通过所述区域候选网络生成各个所述作业人员分别对应的ROI框；

将所述第二特征图输入所述分类网络，以通过所述分类网络生成位置敏感得分图，并基于各个所述作业人员分别对应的ROI框对所述位置敏感得分图进行池化操作，得到每个所述ROI框的分类信息；以及

将所述第二特征图输入所述回归网络，以通过所述回归网络生成回归得分图，并基于各个所述作业人员分别对应的ROI框对所述回归得分图进行池化操作，得到每个所述ROI框的位置信息。

一实施例中，所述检测模块401将所述第一特征图输入所述区域候选网络，以通过所述区域候选网络生成各个所述作业人员分别对应的ROI框，包括：

将所述第一特征图输入所述区域候选网络，以通过所述区域候选网络生成各个初始区域，并采用选择性搜索算法对各个所述初始区域进行合并，得到各个所述作业人员分别对应的ROI框。

一实施例中，所述检测模块401采用选择性搜索算法对各个所述初始区域进行合并，得到各个所述作业人员分别对应的ROI框，包括：

计算任意两个所述初始区域的颜色相似度、纹理相似度、尺寸相似度和交叠相似度；

根据任意两个所述初始区域的颜色相似度、纹理相似度、尺寸相似度和交叠相似度确定任意两个所述初始区域的区域相似度；

根据任意两个所述初始区域的区域相似度对各个所述初始区域进行合并，得到各个所述作业人员分别对应的ROI框。

一实施例中，所述装置还包括：

训练模块，用于获取多张原始图像；在每张所述原始图像中为预设人员标记ROI框和动作标签，得到目标图像；以所述原始图像作为训练输入、以所述目标图像指导训练输出进行网络训练，得到所述目标检测神经网络。

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例的装置，可以通过目标检测神经网络对监控图像进行检测，从而自动确定现场动作是否规范，避免了人工确定方法带来的不智能、成本高、标准不统一等问题；进一步地，通过将具有相同动作标签的作业人员的动作置信度进行合并，从而得到监控图像的预测信息，可以提高确定结果的准确度。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例提供的作业人员监控方法。

本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例提供的作业人员监控方法。

面参考图10，其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图10示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括检测模块、置信度合并模块、标签确定模块和规范确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个所述ROI框的分类信息，每个所述ROI框的分类信息包括对应ROI框中的所述作业人员的动作标签和动作置信度；根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值；根据所述监控图像具有每个所述动作标签的预测值确定所述监控图像的目标标签；根据所述目标标签确定现场动作是否规范。

根据本发明实施例的技术方案，可以通过目标检测神经网络对监控图像进行检测，从而自动确定现场动作是否规范，避免了人工确定方法带来的不智能、成本高、标准不统一等问题；进一步地，通过将具有相同动作标签的作业人员的动作置信度进行合并，从而得到监控图像的预测信息，可以提高确定结果的准确度。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种作业人员监控方法，其特征在于，包括：

根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值，包括：根据各个所述作业人员分别对应的ROI框的位置信息及所述动作标签对各个所述作业人员分别对应的ROI框分类，同一类ROI框中的所述作业人员的动作标签相同；从每类所述ROI框中确定出主要框和次要框；根据每类所述ROI框中所述主要框内所述作业人员的动作置信度和第一权重、以及对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度和第二权重确定所述监控图像具有对应的所述动作标签的预测值；其中，每类所述ROI框中的主要框和次要框通过用户操作确定，或者将每类所述ROI框中动作置信度具有最大值的ROI框作为主要框，则对应类ROI框中除主要框之外的其他ROI框为次要框；

根据所述目标标签确定现场动作是否规范。

2.根据权利要求1所述的作业人员监控方法，其特征在于，所述根据每类所述ROI框中所述主要框内所述作业人员的动作置信度和第一权重、以及对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度和第二权重确定所述监控图像具有对应的所述动作标签的预测值，包括：

3.根据权利要求1所述的作业人员监控方法，其特征在于，所述根据所述监控图像具有每个所述动作标签的预测值确定所述监控图像的目标标签，包括：

将所述最大值对应的所述动作标签确定为所述目标标签。

4.根据权利要求1所述的作业人员监控方法，其特征在于，所述根据所述目标标签确定现场动作是否规范，包括：

确定所述目标标签与预设现场标签是否匹配；

5.根据权利要求1至4任一所述的作业人员监控方法，其特征在于，所述目标检测神经网络包括残差网络、区域候选网络、分类网络和回归网络，所述通过目标检测神经网络检测作业现场的监控图像，得到各个作业人员分别对应的感兴趣区域ROI框的位置信息和每个所述ROI框的分类信息，包括：

6.根据权利要求5所述的作业人员监控方法，其特征在于，所述将所述第一特征图输入所述区域候选网络，以通过所述区域候选网络生成各个所述作业人员分别对应的ROI框，包括：

7.根据权利要求6所述的作业人员监控方法，其特征在于，所述采用选择性搜索算法对各个所述初始区域进行合并，得到各个所述作业人员分别对应的ROI框，包括：

8.根据权利要求1所述的作业人员监控方法，其特征在于，所述目标检测神经网络通过如下方法训练得到：

获取多张原始图像；

在每张所述原始图像中为预设人员标记ROI框和动作标签，得到目标图像；

以所述原始图像作为训练输入、以所述目标图像指导训练输出进行网络训练，得到所述目标检测神经网络。

9.一种作业人员监控装置，其特征在于，包括：

置信度合并模块，用于根据各个所述作业人员分别对应的ROI框的位置信息合并具有相同动作标签的所述作业人员的动作置信度，得到所述监控图像的预测信息，所述监控图像的预测信息包括所述监控图像具有每个所述动作标签的预测值；包括：根据各个所述作业人员分别对应的ROI框的位置信息及所述动作标签对各个所述作业人员分别对应的ROI框分类，同一类ROI框中的所述作业人员的动作标签相同；从每类所述ROI框中确定出主要框和次要框；根据每类所述ROI框中所述主要框内所述作业人员的动作置信度和第一权重、以及对应类别的所述ROI框中所述次要框内所述作业人员的动作置信度和第二权重确定所述监控图像具有对应的所述动作标签的预测值；其中，每类所述ROI框中的主要框和次要框通过用户操作确定，或者将每类所述ROI框中动作置信度具有最大值的ROI框作为主要框，则对应类ROI框中除主要框之外的其他ROI框为次要框；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一所述的作业人员监控方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一所述的作业人员监控方法。