CN111445524B

CN111445524B - 基于场景理解的施工现场工人不安全行为识别方法

Info

Publication number: CN111445524B
Application number: CN202010244878.5A
Authority: CN
Inventors: 方东平; 郭红领; 周颖; 郁润; 罗柱邦; 张知田; 马羚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-04-27
Anticipated expiration: 2040-03-31
Also published as: CN111445524A

Abstract

本发明公开了一种基于场景理解的施工现场工人不安全行为识别方法，包括以下步骤：采集实体的二维彩色图像和三维点云数据；对二维彩色图像进行标注，得到标注文件，其中，标注文件包括训练集、验证集和测试集；将训练集输入Mask R‑CNN中进行训练，获得多个候选实体识别模型，利用验证集比选候选实体识别模型的平均精度均值，得到最优实体识别模型；根据最优实体识别模型获取工人关节点三维空间坐标、实体上的关键点三维空间坐标，通过实体间距离计算和方位关系判别实现不安全行为的识别，从而构建基于场景理解的施工现场工人不安全行为识别方法。该方法可以有效识别靠近危险源、PPE使用不当等不安全行为，并为动作识别提供环境信息。

Description

基于场景理解的施工现场工人不安全行为识别方法

技术领域

本发明涉及建筑施工安全技术领域，特别涉及一种基于场景理解的施工现场工人不安全行为识别方法。

背景技术

建筑业是推动国民经济发展和社会进度的支柱产业之一，但同时建筑业也是安全事故高发行业，安全问题也日趋严重。自2012年起，建筑业由安全事故引起的人员死亡人数已经超过煤矿行业，建筑业成为所有工业生产领域中最危险的行业。

海因里希调查发现，88％的事故是由于人的不安全行为所造成的，工人的不安全行为是导致施工安全事故发生的重要原因。因此，有必要加强对工人不安全行为的管控。而当前基于行为的安全管理主要通过事前安全培训、现场安全巡查、视频监控等方法，干预并约束工人不安全行为的发生。然而，现场安全巡查通常需要安全员长时间对工人作业行为进行观察，费时费力，且观察区域有限，不免出现遗漏的情况。此外，视频监控虽然覆盖区域较大，但也需要对视频进行人工判断，大量视频数据处于未处理状态。换言之，当前基于行为的安全管理措施主要依赖于人工的方式进行，虽然对减少工人不安全行为及相关事故的发生起到了一定程度的作用，但从近些年建筑业的伤亡人数来看，上述措施管控力度有限，也不利于施工现场工人行为数据的整合与后续分析。由于施工现场环境的动态性与复杂性，以及工人作业行为的随机性，传统的不安全行为管控方法与技术难以有效发挥作用，其关键问题是难以有效快速获取现场工人的行为数据。因此，有必要研究工人不安全行为的自动识别方法。

近年来，新技术的发展，尤其是可穿戴式技术和计算机视觉技术的发展，使得工人不安全行为的自动识别成为可能。基于可穿戴式技术的识别方法，主要通过在工人身上安装定位标签、加速度计等设备获取工人位置信息或运动信息，从中提取特征后进行分析与训练，实现工人不安全行为的识别。但该类方式需要工人佩戴额外设备，繁琐不便且对工人正常作业存在一定影响，甚至可能引起新的安全隐患。而基于计算机视觉技术的识别方法不存在上述局限性，主要通过采集工人行为图像，从中提取关键特征并进行分析、训练，实现工人不安全行为的识别。此外，目前监控相机较为广泛地被应用于施工现场之中，也为计算机视觉技术的应用提供基础。因此，基于计算机视觉技术的识别方法更适用于实际施工环境，为工人不安全行为的自动识别提供有效支持。

然而，施工现场工人的不安全行为十分复杂，不安全行为被认为是人和环境的不合理交互过程，其发生依赖于特定工作环境。因此，工人与工作环境中动态实体之间的关系识别问题是施工现场工人不安全行为识别的核心，其在安全维度下通常表现为碰撞检测问题，即分别对工人与其他动态实体进行检测、识别、定位的基础上，判别其空间方位关系，以及距离是否临近等。工人PPE(personal protective equipment，个人防护用品)使用情况识别是典型的工人与动态实体之间的关系识别，现有装置主要存在以下局限：1)主要集中在安全帽，安全带等特定PPE的识别，较少考虑其他实体(如梯子)的识别和影响；2)侧重于二维图像识别结果，忽略实体的空间位置关系，因此无法确定PPE的使用状态，即仅能识别是否穿戴PPE，不能明确其是否被(正确)使用(如安全带钩子是否被置于合适位置)。

因此，亟待一种针对施工现场动态实体间关系识别，以计算机视觉技术和深度学习算法为基础，结合施工现场工人不安全行为特点，设计能够准确识别施工现场工人不安全行为的装置。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于场景理解的施工现场工人不安全行为识别方法，该方法可以有效识别靠近危险源、PPE使用不当等不安全行为，并为动作识别提供环境信息。

为达到上述目的，本发明实施例提出了基于场景理解的施工现场工人不安全行为识别方法，包括以下步骤：步骤S1，采集实体的二维彩色图像和三维点云数据；步骤S2，对所述二维彩色图像进行标注，得到标注文件，其中，所述标注文件包括训练集、验证集和测试集；步骤S3，将所述训练集输入Mask R-CNN中进行训练，获得多个候选实体识别模型，利用所述验证集对所述候选实体识别模型进行评估，获得最优实体识别模型；步骤S4，根据所述最优实体识别模型获取获取工人关节点和实体关键点的二维像素坐标，进而映射得到其对应的三维空间坐标，通过实体间距离计算和方位关系判别工人的不安全行为，构建基于场景理解的施工现场工人不安全行为识别方法。

本发明实施例的基于场景理解的施工现场工人不安全行为识别方法，以计算机视觉技术和Mask-RCNN深度学习算法为基础，结合施工现场工人不安全行为特点，设计能够准确且自动识别施工现场工人不安全行为方法，该方法可以有效识别靠近危险源、PPE使用不当等不安全行为，并为动作识别提供环境信息。

另外，根据本发明上述实施例的基于场景理解的施工现场工人不安全行为识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1包括：获取施工现场的动态实体分类清单，根据所述动态实体分类清单构建数据采集原则；根据所述数据采集原则对采集设备进行布置；利用所述采集设备采集所述动态实体分类清单中每个实体的二维彩色图像和三维点云数据。

进一步地，在本发明的一个实施例中，所述动态实体分类清单包括工人、自身具备移动能力的实体和可作为移动对象的实体。

可选地，在本发明的一个实施例中，标注所述二维彩色图像前，先确定目标实体的类别，再确定各类别实体的图像特征，且每个图像特征之间界定清晰。

进一步地，在本发明的一个实施例中，标注所述二维彩色图像时，沿实体的轮廓进行标注，并使不同类别实体的标注最大程度分离，当实体被遮挡时，将当前遮挡程度与预设遮挡程度进行比较，若大于则不标注。

进一步地，在本发明的一个实施例中，所述步骤S3还包括：利用所述测试集对所述最优实体识别模型的选取精确率和召回率进行评估，以保证所述最优实体识别模型的质量。

进一步地，在本发明的一个实施例中，所述选取精确率为最优实体识别模型型输出的某对象结果中识别正确的比例，计算公式为：

其中，Precision表示选取精确率，TP表示模型输出的某对象的识别结果中识别正确的数量，FP表示模型输出的某对象的识别结果中识别错误的数量。

进一步地，在本发明的一个实施例中，所述召回率为某对象客观存在的数量中被识别出并且识别正确的比例，计算公式为：

其中，Recall表示召回率，TP表示模型输出的某对象的识别结果中识别正确的数量，FN表示模型认为图像中无某对象但实际上存在某对象的情况对应的数量。

进一步地，在本发明的一个实施例中，所述人体关节点识别方法包括：利用OpenPose算法在所述二维图像中识别的人体骨骼关节点，得到所述人体骨骼关节点对应的二维像素点；将所述二维像素点与所述三维点云数据相结合，得到二维像素坐标至三维空间坐标的映射。

进一步地，在本发明的一个实施例中，所述实体间关系识别方法可以包括：利用所述最优实体识别模型对目标实体进行识别，判断工人与动态危险原是否共存；若共存，则分别提取所述工人与所述动态危险源的外轮廓，以计算所述工人与所述动态危险源之间的空间距离及方位关系；判断所述空间距离是否小于预设安全距离，若小于，则判断所述方位关系是否属于预设危险方位关系，若属于，则属于危险状态，反之，属于危险预警状态。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的实体间关系识别逻辑框架图；

图2为根据本发明一个实施例的基于场景理解的施工现场工人不安全行为识别方法的流程图；

图3为根据本发明一个实施例的深度图像示意图；

图4为根据本发明一个实施例的各类情况下的实体标注方法示例图，其中，(a)为无遮挡(分离)，(b)为连续面积遮挡，(c)为连续面积遮挡，(d)为交叉遮挡；

图5为根据本发明一个实施例的基于场景理解的施工现场工人不安全行为识别方法的详细流程图；

图6为根据本发明一个实施例的实体识别模型训练与使用的流程图；

图7为根据本发明一个实施例的实体识别模型验证与测试的流程图；

图8为根据本发明一个实施例的实体预测区域与实际区域的交集与并集示意图；

图9为根据本发明一个实施例的OpenPose算法识别的人体骨骼图示意图；

图10为根据本发明一个实施例的三类不安全行为中工人与其他动态实体间的关系示意图；

图11为根据本发明一个实施例的工人靠近动态危险源的识别流程图；

图12为根据本发明一个实施例的PPE使用不当的识别流程图；

图13为根据本发明一个实施例的工人处于动态危险位置点的识别流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

首先，如图1所示，本发明实施例的实体间关系识别方法主要分为四个阶段：数据采集、数据标注、实体识别以及实体间关系识别。各个阶段之间互有联系，应满足一致性要求。例如，使用可靠的三维空间坐标进行实体间关系识别，就需要同时获取二维彩色图像与三维点云数据；而使用Mask R-CNN进行模型训练，在数据标注时则应按轮廓进行标注。

其中，数据采集是数据标注、实体识别与实体间关系识别的基础。所采集数据的数量、清晰度、多样性等将直接影响后续的标注与识别工作。数据采集阶段主要包括施工现场动态实体分类、数据采集原则构建、相机布置以及实体的二维彩色图像与三维点云数据采集这几个过程。其中，所采集的二维彩色图像用于后续模型训练与评估，而三维点云数据用于实体间关系识别。数据标注是衔接数据采集与实体识别模型训练与评估这两个阶段的重要环节，即对采集的二维彩色图像中的目标实体进行标注，以支持实体识别模型的训练。标注的质量将直接影响后续模型的识别效果。实体识别模型训练与评估是本本发明实施例的核心阶段，也是实体间关系识别的重要前提，模型的质量直接影响实体间共存关系的识别，从而影响后续的实体间位置关系识别。实体识别模型训练与评估包括模型训练与调用，以及模型评估这两个过程，后者包括验证与测试这两个环节。实体间关系识别是最后阶段，识别效果受到前三阶段的影响。实体间关系识别包括实体间共存关系的识别与位置关系的识别这两个过程，后者包括人体关节点识别与二维像素坐标获取、其他实体关键点选取与二维像素坐标获取、二位像素坐标至三维空间坐标的映射、实体间距离计算与方位关系判别。

下面参照附图描述根据本发明实施例提出的基于场景理解的施工现场工人不安全行为识别方法。

图2是本发明一个实施例的基于场景理解的施工现场工人不安全行为识别方法的流程图。

如图2所示，该基于场景理解的施工现场工人不安全行为识别方法包括以下步骤：

在步骤S1中，采集实体的二维彩色图像和三维点云数据。

进一步地，步骤S1包括：获取施工现场的动态实体分类清单，根据动态实体分类清单构建数据采集原则，其中，动态实体分类清单包括工人和其他可移动实体(包括自身具备移动能力的实体和人为移动的实体)；根据数据采集原则对采集设备进行布置；利用采集设备采集动态实体分类清单中每个实体的二维彩色图像和三维点云数据。

需要说明的是，构建施工现场动态实体清单是数据采集的基础。动态实体是指现场发生运动的实体，既包括自身能够运动的实体，也包括可由人发动或搬运而导致其运动的实体。可结合文献综述、资料调查、实地考察、专家访谈等方法，对现场实体进行清晰分类，如表1所示。

表1施工现场动态实体分类清单

进一步地，数据采集原则指采集的数据类型同时包括二维彩色图像与三维点云数据，以支持实体识别以及实体间关系识别，如表2所示。

表2数据采集原则

进一步地，采集设备的性能及其布置方法对采集数据的质量有重要影响。首先，根据后续识别需求选取采集设备，采集设备一般专指相机，考虑到关系识别需要使用可靠的三维空间坐标，如图3所示，在采集阶段便需要同时存储二维彩色图像与三维点云数据，两者的组合为深度图像，可通过红外相机或立体相机(两个及以上经过标定的单筒相机)获得。其中，红外相机主要适用于室内环境，而立体相机可同时适用于室内环境与室外环境。其次，需研究相机的布置方法。一方面，需考虑识别对象的活动范围。例如，若需要识别高处作业，则需将相机角度向上调节，保证目标对象能在相机拍摄范围之内。另一方面，应尽量选取遮挡情况较少的位置。施工现场遮挡问题严重，不利于实体识别。在采集数据用以训练时，应尝试将相机布置在多个位置以采集不同角度的数据，并同时分析不同位置下的遮挡情况，从而确定最优的相机位置，为实际应用过程中的位置选取提供有效参考，即获取遮挡少的数据，使实体能够更为准确地为模型所识别。

可以理解的是，施工现场环境复杂多变，遮挡问题严重，仅凭借二位像素坐标往往难以准确、可靠地识别实体之间的关系，需使用更为可靠的三维空间坐标以支持实体间关系识别。三维点云数据即二维像素点对应的三维空间坐标数据，其核心在于深度信息。因此选择立体相机，通过调用其程序接口以获取所拍摄图像的三维点云数据并进行存储。

在步骤S2中，对二维彩色图像进行标注，得到标注文件，其中，标注文件包括训练集、验证集和测试集。

需要说明的是，本发明实施例构建的实体数据标注方法即结合Mask R-CNN训练所需数据的特点，构建数据标注规则以规范标注流程，并据此对各类别实体进行标注，从而为模型训练提供可靠的数据集，避免多人标注时因标注标准不统一而引起的数据集质量问题以及后续的误识别问题。如表3所示，主要对Mask R-CNN相关的标注方法进行说明，并按照标注前、标注时、标注后进行划分。

表3数据标注方法(规则)

进一步地，在本发明的一个实施例中，标注二维彩色图像前，先确定目标实体的类别，再确定各类别实体的图像特征，且每个图像特征之间界定清晰。

具体而言，标注前，(1)明确目标实体的类别。一方面，需根据后续的识别需求考虑类别的细度，例如，统一标注为工人或细分为站着的工人、蹲着的工人等；另一方面，若所标注实体与图像中的其他实体有较高的相似性时，为减少误识别的情况，可将相似物体也列入标注清单，以对两者进行区分。(2)明确各类别实体的图像特征并清晰界定，防止混淆。在标注前需确定所标注实体的类别及相应名称，而在实际标注时，存在标注人基于已有知识或经验难以将图像中的实体与类别文字准确对应的问题，例如，将挖土机认为是移动式起重机，因此需明确各类别实体的图像特征，并可以制定图文对照的标注实体清单。特别地，对于相似实体，需制定清晰的划分标准。

进一步地，在本发明的一个实施例中，标注二维彩色图像时，沿实体的轮廓进行标注，并使不同类别实体的标注最大程度分离，当实体被遮挡时，将当前遮挡程度与预设遮挡程度进行比较，若大于则不标注。

具体地，标注时，(1)应沿着实体的轮廓进行标注。与Faster R-CNN不同，Mask R-CNN对实体对象进行分割，相应地应勾勒出与实体尽量贴合的外轮廓线，而非选用矩形框框出。(2)需使不同类别实体的标注尽可能分离。若某一类别实体的标注中包含了大量其他类别实体，则容易引起后续的误识别问题。因此，应尽量避免重合问题，以减少对后续训练的干扰。第三，对于被遮挡实体，需根据遮挡程度及遮挡方式，结合后续应用需求采取不同标注方式。从遮挡程度而言，若被完全遮挡，则不标注；若小面积(如20％)被遮挡，则对显示区域进行正常标注；若较大面积(如60％以上)被遮挡，则应结合后续应用需求进行判断，例如，若需较高的识别效果或定位精度时，应尽可能对可见部分进行标注并保证标注的完整性。从遮挡方式而言，若被连续的面积遮挡，则标注可见的区域；若形成互相交叉且较难分离的情况，可对前面的物体进行标注，并结合后续应用需求判断是否需要标注后面的物体，并选取最少交叠的方式进行最大化标注。如图4所示，对于图4(b)中的梯子右下角，可以沿着人的脚底边采用迂回标注方式，使梯脚与其他部分相连；在图4(d)中，可对梯子全部标注，而对人同样采取迂回标注的方式，尽可能避开梯子部分，减少干扰。

可以理解的是，标注后应及时进行检查，保证所标注的对象与其类别标签一致，否则将直接影响所训练模型的质量，并产生误识别问题。

在步骤S3中，将训练集输入Mask R-CNN中进行训练，获得多个获得多个候选实体识别模型，利用验证集比选每个候选实体识别模型的平均精度均值，得到最优实体识别模型。

进一步地，如图5所示，在本发明的一个实施例中，步骤S3还包括：

利用测试集对最优实体识别模型的选取精确率和召回率进行评估，以保证最优实体识别模型的质量。

也就是说，将标注文件中的训练集输入Mask R-CNN中进行训练，以获得实体识别模型并实现调用，使用验证集对候选模型进行评估，从中优选模型，并使用测试集对选取的模型进行评估，以保证识别模型的质量从而支撑实体间关系识别。

具体地，如图6所示，模型训练是实现实体识别的基础。本发明实施例中使用MaskR-CNN对模型进行训练：将标注好的实体图像数据输入Mask R-CNN中进行有监督训练，以获得具备实体识别能力的模型；在训练过程中，不断改变模型参数，以获得更高质量的模型。在模型训练的基础上，需对所训练的模型进行调用或使用：将非训练图像数据输入已训练的模型中，能够输出识别结果，具体包括一定置信度下的预测实体类别、预测外接矩形框(的对顶点二维像素坐标)以及实体的预测区域(即预测Mask)。

进一步地，在模型训练并实现调用的基础上，需对所训练的模型进行评估，以衡量模型的质量。如图7所示，训练的模型需要经过验证与测试两个环节，前者使用已标注的验证集对训练的候选模型进行检测以选取最优模型用于测试环节，而测试集用于评估该模型的效果。上述验证与测试的两个环节本质上都是对模型的评估，因此需要构建模型的评估指标。本发明实施例在验证环节，选择平均精度均值(mAP，mean Average Precision，mAP)作为模型的整体评估指标，选取mAP最高的模型作为最优模型；在测试环节，选取精确率(Precision)和召回率(Recall)作为模型对各对象识别效果的评估指标。此外，平均精度均值、精确率与召回率的确定都是基于一定的阈值，即超过该阈值后模型输出的结果才可接受。通常采用模型分类器输出的一定置信度或者基于实体预测面积与实际面积计算出的一定IoU(Intersection over Union)作为阈值，其中，IoU的计算需要被检测数据是标注状态，本发明实施例选取一定的IoU与置信度分别作为验证环节与测试环节的阈值。

需要说明的是，模型分类器的输出结果并不是“某实体为某一标注对象”，而是“认为某对象在多大概率下是某一标注对象”，该概率值及置信度，取值在0至1之间，当置信度越接近1，说明模型越认为某对象为某一标注对象。因此，需要选取一定的置信度作为阈值以作为后续计算评估指标的门槛，即当置信度大于该阈值时，认为模型输出的结果可接受，并进行后续各类评估指标的计算。当阈值较高时，选取精确率通常会提高，但是召回率会下降；反之，召回率通常会上升，但是精确率会下降。因此，需要选取一个适中的阈值，以平衡精确率与召回率。

除模型输出的概率值之外，还可将IoU(Intersection over Union)作为门槛，以计算各评估指标。如图8所示，IoU能够衡量模型预测区域覆盖某对象实际区域的精准程度，它是“预测区域与实际区域的交集”在“预测区域与与实际区域的并集”中的占比，如下述计算公式。一般认为IoU>0.5是比较好的识别结果。

选取精确率(Precision)与召回率(Recall)是模型中某一类对象识别效果的评估指标。选取精确率是指实体识别模型输出的某对象结果中识别正确的比例，而召回率则是某对象客观存在的数量中被识别出来并且识别正确的比例。在本发明实施例中，只采用的最优实体模型的选取精确率和召回率，因此，只对最优实体识别模型的选取精准率和召回率进行计算，其中，选取精确率的计算公式为：

式中Precision表示选取精确率，TP表示模型输出的某对象的识别结果中识别正确的数量，FP表示模型输出的某对象的识别结果中识别错误的数量。

召回率的计算公式为：

式中Recall表示召回率，TP表示模型输出的某对象的识别结果中识别正确的数量，FN表示模型认为图像中无某对象但实际上存在某对象的情况对应的数量。

需要说明的是，未出现在上述公式中的TN(Negative Positive)是指模型认为图像中无某对象且实际无某对象的数量。

另外，平均精度(AP)也是模型中某一类对象识别效果的评估指标，可在精确率和召回率的基础上计算可得。由于某对象的实际数量是固定的，召回率只有在TP增加时才会增加。精确率和召回率形成P-R曲线，召回率为横轴，精确率为纵轴。对于某一召回率水平，选取大于该召回率水平的所有召回率对应的精确率的最大值，取代原先该召回率水平对应的精确率，形成新的P-R曲线，该P-R曲线下方面积即为AP。平均精度均值(mAP)并非针对某个对象，而是衡量模型整体识别效果的指标，即取不同类目AP的平均值，其计算公式为：

其中，C为对象类别的数目。

在步骤S4中，根据最优实体识别模型获取工人关节点三维空间坐标、实体上的关键点三维空间坐标，构建人体关节点识别方法和实体间关系识别方法。

具题地，如图5所示，根据最优实体识别模型获取工人关节点和实体关键点的二维像素坐标，进而映射得到其对应的三维空间坐标，通过实体间距离计算和方位关系判别实现不安全行为的识别，从而构建基于场景理解的施工现场工人不安全行为识别方法。

进一步地，在本发明的一个实施例中，人体关节点识别方法包括：

利用OpenPose算法在二维图像中识别的人体骨骼关节点，得到人体骨骼关节点对应的二维像素点；

将二维像素点与三维点云数据相结合，得到二维像素坐标至三维空间坐标的映射。

可以理解的是，OpenPose算法是一种效率较高且效果较好的人体姿态估计算法，可对人体关节点进行识别。预先使用图像数据分别对OpenPose算法与Mask R-CNN算法进行测试，结果表明OpenPose算法的识别效率与效果更佳，更适用于实时性要求较高的不安全行为识别，因此选择OpenPose算法作为人体关节点识别与提取方法。

如图9所示，具体实施过程可为：利用OpenPose算法识别的人体骨骼共计18个关节点，在二维普通图像中，可以通过OpenPose算法识别出关节点，该点对应的像素点可以表示为(W,H,R,G,B)。其中，(W,H)是关节点的二维像素坐标，反应其位置信息，其中W为宽度，H为高度，通常左上角的二维像素坐标为(0,0)；而(R,G,B)反应的是该点的颜色信息，R、G、B三值均为0至255之间的数值；然后，调用相机程序获取采集的三维点云数据，将每个空间点输出为(W,H,R,G,B,X,Y,Z)的形式，此处的(W,H)为二维像素坐标，(R,G,B)为像素点的颜色信息，(X,Y,Z)为对应的三维空间坐标。因此，可以在三维点云数据中查询通过实体识别模型或人体姿态估计算法识别出的目标点的二维像素坐标，以匹配其三维空间坐标，从而实现二维像素坐标至三维空间坐标的映射。

进一步地，在本发明的一个实施例中，实体间关系识别方法可以包括：

利用最优实体识别模型对目标实体进行识别，判断工人与动态危险原是否共存；

若共存，则分别提取工人与动态危险源的外轮廓，以计算工人与动态危险源之间的距离及方位关系；

判断距离是否小于预设安全距离，若小于，则判断方位关系是否属于预设危险方位关系，若属于，则属于危险状态，反之，属于危险预警状态。

需要说明的是，如图10所示，实体间关系识别方法选取“工人靠近危险源”、“PPE使用不当”两项典型不安全行为，对其中工人与其他实体间关系的识别流程进行说明。其中，“工人靠近危险源”又分为“工人靠近动态危险源”与“工人处于动态危险位置点”，后者一般为非主动产生运动的对象。

具体而言，如图11所示，以“工人靠近动态危险源”的识别过程为：首先，基于实体识别方法对图像中的工人与动态危险源进行识别，以判断其是否满足共存关系。然后，若工人与动态危险源之间满足共存关系，则触发位置关系识别，即可提取其外轮廓关键点并获取该点的三维空间坐标，以计算并识别工人与动态危险源之间的距离与方位关系。当距离过近(即超过预先设定的安全距离)且其方位关系又属于危险方位关系(如工人处于机械底部)时，为危险状态；当其距离过近而方位关系不属于危险方位关系时，为危险预警状态。特别地，在无法获取三维空间坐标的情况下，可先计算工人与动态危险源的外轮廓之间的二维平面距离，可对平面上相离的情况进行判别；若在平面上存在重叠，还需结合工人与动态危险源各自对应的平面区域的大小，以判别工人与危险源之间是空间相离而平面错位的关系，还是空间上存在接触的关系，并推测相应的距离与方位关系。

进一步地，工人处于动态危险位置点时，容易因为失稳等原因引起高处坠落事故，以及坠落后的二次事故等。因此，如图12所示，以“工人处于危险位置点”的识别过程为：对工人与危险位置点所在的实体进行识别，判断其共存关系。然后，若其满足共存关系，则触发位置关系识别，以计算其空间方位关系与距离。若其距离小于预设的安全距离，则触发工人关节点识别，获取工人关节点三维空间坐标，同时获取危险位置点处的三维空间坐标，比较特定关节点与危险位置点之间的关系。若两者关系构成预先设定的危险关系(如工人膝盖点超过梯子顶部点)，则为危险状态；若不构成危险关系时，为危险预警状态。

进一步地，PPE使用不当即未正常佩戴或使用安全帽、安全带、防护眼镜等个人防护设备。如图13所示，以“PPE使用不当”的识别过程为：首先对作业姿势下的工人、场景特征实体、PPE进行识别，当作业姿势下的工人出现在某场景中即当作业姿势下的工人与场景特征实体满足共存关系时，判别PPE是否与其满足共存关系。若PPE与作业姿势下的工人及场景特征实体不共存时，则为第一类危险状态，即PPE未出现在所要求的场景中；若满足共存关系，则触发工人关节点识别，计算PPE与工人关节点之间的空间位置关系，以判别工人是否将PPE穿戴在正确位置或者是否在正确位置处使用了PPE。例如，将防护眼镜戴于脸部，将手持防护眼罩置于脸部前等。若工人未在正确的位置上穿戴或使用PPE，则为第二类危险状态。

根据本发明实施例提出的基于场景理解的施工现场工人不安全行为识别方法，通过以计算机视觉技术和Mask-RCNN深度学习算法为基础，结合施工现场工人不安全行为特点，设计能够准确且自动识别施工现场工人不安全行为方法，该方法可以有效识别靠近危险源、PPE使用不当等不安全行为，并为动作识别提供环境信息。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于场景理解的施工现场工人不安全行为识别方法，其特征在于，包括以下步骤：

步骤S1，采集实体的二维彩色图像和三维点云数据；

步骤S2，对所述二维彩色图像进行标注，得到标注文件，其中，所述标注文件包括训练集、验证集和测试集；

步骤S3，将所述训练集输入Mask R-CNN中进行训练，获得多个候选实体识别模型，利用所述验证集比选每个候选实体识别模型的平均精度均值，得到最优实体识别模型；

步骤S4，根据所述最优实体识别模型获取工人关节点三维空间坐标、实体上的关键点三维空间坐标，以构建人体关节点识别方法和实体间关系识别方法；

所述步骤S1包括：

获取施工现场的动态实体分类清单，根据所述动态实体分类清单构建数据采集原则；

根据所述数据采集原则对采集设备进行布置；

利用所述采集设备采集所述动态实体分类清单中每个实体的二维彩色图像和三维点云数据；

所述动态实体分类清单包括工人、自身具备移动能力的实体和可作为移动对象的实体；

标注所述二维彩色图像前，先确定目标实体的类别，再确定各类别实体的图像特征，且每个图像特征之间界定清晰；

标注所述二维彩色图像时，沿实体的轮廓进行标注，并使不同类别实体的标注最大程度分离，当实体被遮挡时，将当前遮挡程度与预设遮挡程度进行比较，若大于则不标注；

所述实体间关系识别方法包括：

利用所述最优实体识别模型对目标实体进行识别，判断工人与动态危险源是否共存；

若共存，则分别提取所述工人与所述动态危险源的外轮廓，以计算所述工人与所述动态危险源之间的空间距离及方位关系；

判断所述空间距离是否小于预设安全距离，若小于，则判断所述方位关系是否属于预设危险方位关系，若属于，则属于危险状态，反之，属于危险预警状态；

其中，不安全行为包括“工人靠近危险源”和“PPE使用不当”， “工人靠近危险源”分为“工人靠近动态危险源”与“工人处于动态危险位置点”；

“工人靠近动态危险源”的识别过程为：

基于实体识别方法对图像中的工人与动态危险源进行识别，以判断其是否满足共存关系；若工人与动态危险源之间满足共存关系，则提取其外轮廓关键点并获取该外轮廓关键点的三维空间坐标，以计算并识别工人与动态危险源之间的距离与方位关系；当距离超过预设安全距离且其方位关系属于危险方位关系时，为危险状态；当其距离小于预设安全距离而方位关系不属于危险方位关系时，为危险预警状态；其中，在无法获取三维空间坐标的情况下，先计算工人与动态危险源的外轮廓之间的二维平面距离，对平面上相离的情况进行判别；若在平面上存在重叠，结合工人与动态危险源各自对应的平面区域的大小，以判别工人与危险源之间是空间相离而平面错位的关系，还是空间上存在接触的关系，并推测相应的距离与方位关系；

“工人处于危险位置点”的识别过程为：

对工人与危险位置点所在的实体进行识别，判断其共存关系；若其满足共存关系，则计算其空间方位关系与距离；若其距离小于预设安全距离，则获取工人关节点三维空间坐标，同时获取危险位置点处的三维空间坐标，比较特定关节点与危险位置点之间的关系；若两者关系构成预先设定的危险关系，则为危险状态；若不构成危险关系时，为危险预警状态；

“ PPE使用不当”的识别过程为：

对作业姿势下的工人、场景特征实体、PPE进行识别，当作业姿势下的工人出现在某场景中即当作业姿势下的工人与场景特征实体满足共存关系时，判别PPE是否与其满足共存关系；若PPE与作业姿势下的工人及场景特征实体不共存时，则为第一类危险状态；若满足共存关系，则计算PPE与工人关节点之间的空间位置关系，以判别工人是否将PPE穿戴在正确位置或者是否在正确位置处使用了PPE；若工人未在正确的位置上穿戴或使用PPE，则为第二类危险状态。

2.根据权利要求1所述的方法，其特征在于，所述步骤S3还包括：

利用所述测试集对所述最优实体识别模型的选取精确率和召回率进行评估，以保证所述最优实体识别模型的质量。

3.根据权利要求2所述的方法，其特征在于，所述选取精确率为最优实体识别模型输出的某对象结果中识别正确的比例，计算公式为：

4.根据权利要求2所述的方法，其特征在于，所述召回率为某对象客观存在的数量中被识别出并且识别正确的比例，计算公式为：

5.根据权利要求1所述的方法，其特征在于，所述人体关节点识别方法包括：

利用OpenPose算法在所述二维彩色图像中识别的人体骨骼关节点，得到所述人体骨骼关节点对应的二维像素点；

将所述二维像素点与所述三维点云数据相结合，得到二维像素坐标至三维空间坐标的映射。