CN116264004A

CN116264004A - 基于工人重新识别和个人防护装备分类对现场安全合规性进行的基于视觉的监测

Info

Publication number: CN116264004A
Application number: CN202211397280.5A
Authority: CN
Inventors: 黄觉尧; 梁柏谦; 郑展鹏
Original assignee: Hong Kong University of Science and Technology HKUST
Current assignee: Hong Kong University of Science and Technology HKUST
Priority date: 2021-12-14
Filing date: 2022-11-09
Publication date: 2023-06-16
Also published as: US20230186634A1

Abstract

一种用于监测工人穿着个人防护装备的合规性的系统，包括多个相机和计算系统。多个相机被配置为获得数据，并且数据包括与一个或多个对象相关联的多个图像。计算系统被配置为处理数据以基于对被训练用于重新识别的第一模型的实施来确定与多个图像相关联的一个或多个对象的安全合规性。计算系统还被配置为基于相似性损失更新第一模型来训练用于重新识别的第一模型。

Description

基于工人重新识别和个人防护装备分类对现场安全合规性进行的基于视觉的监测

相关申请的交叉引用

本申请要求于2021年12月14日提交的题为“VISION-BASED MONITORING OF SITESAFETY COMPLIANCE BASED ON WORKER RE-IDENTIFICATION AND PERSONAL PROTECTIVEEQUIPMENT CLASSIFICATION”的美国临时申请No.63/289,142的权益，其全部内容通过引用并入本文。

技术领域

本申请涉及图像处理技术领域，具体地，涉及一种用于监测安全合规性的系统和方法。

背景技术

建筑业是非常危险的行业之一，过去几年记录了较高的事件率。从2013至2019年，中国香港的建筑业在14个主要工业部门中每年具有最高的死亡率。美国还报道了2019年大约20％的职业性死亡发生在建筑工地。例如，由于补偿索赔，现场事件导致利益相关者的重大经济损失，这需要现场安全监测的系统实践。建筑工地涉及多个工人和设备(例如挖掘机、卡车)之间的高度动态的交互。特别地，建筑伤害和死亡的主要原因包括与移动物体的碰撞和从高处跌落。为了避免严重伤害，应当识别和矫正工人的任何不安全行为。示例包括分析工人的现场移动和检查个人防护设备(PPE)的正确穿戴，这些的记录可以被记录到常规现场日志中以供审阅和行为分析。传统的现场安全监测的做法主要涉及到现场安全人员对工人的行为和工作操作进行人工观察。然而，连续地监测分散在大型工地的工人是劳动密集型的并且容易出错，其中不安全的行为可能被忽略。

为此，监测相机视频的自动处理可以潜在地促进现场监测。监测相机通常被用于各种目的，例如，在机场等公共区域识别犯罪嫌疑人。通过将计算机视觉和深度学习技术结合到视频处理中，可以自动地解释视频帧上的视觉内容。以监督学习为例，利用图像训练深度卷积神经网络(CNN)，其期望的输出被手动标记，使得网络学习从图像提取用于各种任务(诸如对象检测和分类)的有用特征。这些技术也已经应用于土木工程，例如，用于结构健康评估的缺陷检测、诸如现场的工人和设备的位置跟踪和活动分类的建筑工地的监测、现场事件监测和生产率评估。一些研究还专注于识别工人是否穿戴必要的PPE，例如安全头盔和反光服。

然而，现有的研究仅监测由单个相机捕获的小的子区域内的各个工人。然而，工人的移动不能在整个场地上被连续跟踪。由于工人通常在现场的不同区域中到处移动，所以在大范围内连续跟踪工人将能够进行更全面的行为分析和安全监测。因此，需要改进图像处理技术，以便在更广的区域范围内监测各个工人，以及其它应用。

发明内容

在示例性实施例中，本公开提供了一种用于监测穿着个人防护装备的合规性的系统。用于监测穿着个人防护装备的合规性的系统包括多个相机和计算系统。多个相机被配置为获得数据。该数据包括与一个或多个对象相关联的多个图像。计算系统被配置为处理数据以基于对用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性。所述计算系统还被配置为训练用于重新识别的所述第一模型。训练用于重新识别的所述第一模型包括：获得第一组图像；使用所述第一模型，基于从所述图像提取的特征，确定包括所述第一组图像中的图像对的相似性得分的相似性矩阵；基于标记在所述第一组图像上的所述标识，确定包括所述第一组图像中的所述图像对的真实相似性得分的真实相似性矩阵；通过在所述相似性矩阵和所述真实相似性矩阵之间执行逐元素比较，来确定比较矩阵；基于所述比较矩阵中具有最大值的元素，确定相似性损失；以及基于所述相似性损失，来更新所述第一模型。所述第一组图像中的每个图像包括对象并且被标记有与所述对象相关联的标识。

在另一示例性实施例中，基于平滑参数P来确定所述第一组图像中的图像对的真实相似性得分，其中，P在0和1之间是可调整的。

在另一示例性实施例中，具有相同标识的每对图像被分配P作为相应的真实相似性得分，具有不同标识的每对图像被分配(1-P)作为相应的真实相似性得分。

在另一示例性实施例中，第一组图像中的每对图像包括第一图像和第二图像。确定包括所述第一组图像中的图像对的相似性得分的所述相似性矩阵还包括：针对每对图像，确定相应的第一图像的第一特征向量和相应的第二图像的第二特征向量；以及基于所述第一特征向量和所述第二特征向量，确定余弦相似性作为图像对的所述相似性得分。通过将所述第一特征向量和所述第二特征向量的乘积除以所述第一特征向量和所述第二特征向量的绝对值来获得所述余弦相似性。

在另一示例性实施例中，通过在所述相似性矩阵与所述真实相似性矩阵之间执行逐元素比较来确定所述比较矩阵还包括：确定所述相似性矩阵中的每个相似性得分与所述真实相似性矩阵中的对应真实相似性得分之间的绝对差或平方差。各个相似性得分和对应的真实相似性得分与相应同一图像对相关联。

在另一示例性实施例中，计算系统还被配置为训练用于个人防护装备分类的第二模型。训练用于个人防护装备分类的所述第二模型包括：接收与多个类别相关联的第二组图像，确定所述多个类别中的每个类别中的图像的总数；确定所述多个类别中具有最大图像数量的第一类别；基于所述第一类别中的图像的最大数量与所述多个类别中的类别中的图像的数量的比，确定与该类别相关联的权重；以及每次迭代基于与所述多个类别相关联的所述权重来更新所述第二模型。第二组图像中的每个图像被标记有类别。

在另一示例性实施例中，在所述第二模型的训练期间，与类别相关联的权重被分配给该类别中的所有图像。每次迭代的损失计算基于与所述第二组图像中的图像相关联的权重。

在另一示例性实施例中，处理所述数据以确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性还包括：通过使用所述第一模型，基于从所述数据中的所述多个图像提取的特征，来识别所述一个或多个对象；通过使用所述第二模型，基于从所述数据中的所述多个图像提取的所述特征，对所述一个或多个对象进行分类；以及基于识别和分类结果，来确定所述一个或多个对象穿着个人防护装备的合规性。

在另一示例性实施例中，识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联。计算系统还被配置为：确定所述多个图像中的图像的子集与事件相关联。图像的子集处于指示不符合安全状态的类别中。图像的子集与大于等于最小缓冲时间阈值的时间段相关联。图像的子集包括一个或多个时间间隙。每个时间间隙短于时间间隙阈值。

在另一示例性实施例中，计算系统还被配置为：生成包括检测到的事件的日志；以及生成与检测到的事件对应的警告。警告包括警告消息、警报、闪光灯中的任一者。

在另一示例性实施例中，本公开提供了一种用于监测穿着个人防护装备的合规性的方法。该方法包括：计算系统从多个相机获得数据以及处理所述数据以基于对被训练用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性。所述数据包括与一个或多个对象相关联的多个图像。基于以下步骤，训练所述第一模型用于重新识别：获得第一组图像；使用所述第一模型，基于从所述图像提取的特征，确定包括所述第一组图像中的图像对的相似性得分的相似性矩阵；基于标记在所述第一组图像上的所述标识，确定包括所述第一组图像中的所述图像对的真实相似性得分的真实相似性矩阵；通过在所述相似性矩阵和所述真实相似性矩阵之间执行逐元素比较，来确定比较矩阵；基于所述比较矩阵中具有最大值的元素，确定相似性损失；以及基于所述相似性损失，来更新所述第一模型。所述第一组图像中的每个图像包括对象并且被标记有与所述对象相关联的标识。

在另一示例性实施例中，该方法还包括训练用于个人防护装备分类的第二模型。训练用于个人防护装备分类的所述第二模型包括：接收与多个类别相关联的第二组图像；确定所述多个类别中的每个类别中的图像的总数；确定所述多个类别中具有最大图像数量的第一类别；基于所述第一类别中的图像的最大数量与所述多个类别中的类别中的图像的数量的比，确定与该类别相关联的权重；以及每次迭代基于与所述多个类别相关联的所述权重来更新所述第二模型。第二组图像中的每个图像被标记有类别。

在另一示例性实施例中，识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联。方法还包括：确定所述多个图像中的图像的子集与事件相关联。图像的子集处于指示不符合安全状态的类别中。图像的子集与大于等于最小缓冲时间阈值的时间段相关联。图像的子集包括一个或多个时间间隙。每个时间间隙短于时间间隙阈值。

在又一示例性实施例中，本公开提供了一种非暂时性计算机可读介质，其上存储有用于使用计算系统监测穿着个人防护装备的合规性的处理器可执行指令。计算系统执行指令以促使：从多个相机获得数据；以及处理所述数据以基于对被训练用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性。所述数据包括与一个或多个对象相关联的多个图像。基于以下步骤，训练所述第一模型用于重新识别：获得第一组图像；使用所述第一模型，基于从所述图像提取的特征，确定包括所述第一组图像中的图像对的相似性得分的相似性矩阵；基于标记在所述第一组图像上的所述标识，确定包括所述第一组图像中的所述图像对的真实相似性得分的真实相似性矩阵；通过在所述相似性矩阵和所述真实相似性矩阵之间执行逐元素比较，来确定比较矩阵；基于所述比较矩阵中具有最大值的元素，确定相似性损失；以及基于所述相似性损失，来更新所述第一模型。所述第一组图像中的每个图像包括对象并且被标记有与所述对象相关联的标识。

在另一示例性实施例中，计算系统执行指令以进一步促使训练用于个人防护装备分类的第二模型。训练用于个人防护装备分类的所述第二模型包括：接收与多个类别相关联的第二组图像；确定所述多个类别中的每个类别中的图像的总数；确定所述多个类别中具有最大图像数量的第一类别；基于所述第一类别中的图像的最大数量与所述多个类别中的类别中的图像的数量的比，确定与该类别相关联的权重；以及每次迭代基于与所述多个类别相关联的权重来更新所述第二模型。第二组图像中的每个图像被标记有类别。

在另一示例性实施例中，在所述训练期间，与类别相关联的权重被分配给该类别中的所有图像。每次迭代的损失计算基于与所述第二组图像中的图像相关联的权重。

在另一示例性实施例中，识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联。计算系统执行指令以还促使：确定所述多个图像中的图像的子集与事件相关联。图像的子集处于指示不符合安全状态的类别中。图像的子集与大于等于最小缓冲时间阈值的时间段相关联。图像的子集包括一个或多个时间间隙。每个时间间隙短于时间间隙阈值。

附图说明

下面参考附图详细描述用于监测安全合规性的系统和方法，其中：

图1A示出了根据一些实施例的用于实现本公开中的技术的网络环境。

图1B是根据一些实施例的被配置为实现各种功能的示例性计算装置的框图。

图2A是根据一些实施例的用于监测现场安全合规性的方法的流程图。

图2B示出了根据一些实施例的执行如图2A所示的用于监测现场安全合规性的方法的示例。

图2C是根据一些实施例的用于训练用于重新识别的模型的方法的流程图。

图2D是根据一些实施例的用于训练用于执行PPE分类的模型的方法的流程图。

图2E是根据一些实施例的用于监测现场安全合规性的方法的流程图。

图3示出了根据一些实施例的获得用于监测现场安全合规性的图像的流程图。

图4是根据一些实施例的呈现为监测现场安全合规性而获得的示例性数据的表。

图5示出了根据一些实施例的示例性相似性矩阵。

图6示出根据一些实施例的由ReID模型生成的相似性矩阵和真实相似性矩阵之间的逐元素比较。

图7示出了根据一些实施例的用于PPE分类的工作流。

图8是根据一些实施例的呈现与用于监测现场安全合规性的多个图像相关联的信息的表。

图9A是根据一些实施例的现场监测软件的示例性用户界面900的屏幕截图。

图9B示出了根据一些实施例的由计算装置执行的用于事件计数的示例性过程。

具体实施方式

公开了涉及用于监测工人穿着个人防护装备的合规性(下文简称为“安全合规性”)的基于视觉的框架的系统和方法。该框架组合了用于工人的重新识别(ReID)和个人防护设备(PPE)的分类的算法。基于深度学习的方法被实现以解决上述两个任务中的挑战。关于ReID的任务，一种新的损失函数(称为相似性损失)被设计成促进深度学习模型学习更有辨别力的人类特征，从而实现对各个工人的更稳健的跟踪。对于分类任务，当在类别之间给定不平衡的样本时，使用加权类别策略来减轻模型偏差，以便尽管训练样本有限，也提高对所识别的工人的PPE状态进行分类的性能。通过组合ReID和PPE分类结果，开发了工作流以记录工人没有穿戴必要PPE的任何事件。

当应用于分析实际建筑工地数据集时，本公开的示例性实施方式能够通过促进现场视频分析和检查工人的现场安全合规性来实现比传统技术显著提高的工人ReID和PPE分类的准确度。

图1A示出了根据一些实施例的用于实现本公开中的技术的网络环境100。

适用于实现本公开的实施例的网络环境可以包括一个或多个相机120、计算装置130和/或其他装置140。作为示例而非限制，相机120可以具体化为成像装置，诸如视频相机、监测装置/系统等，或者被集成在电子装置/系统(如智能电话、自主车辆、无人机、机器人等)中的成像模块。计算装置130可以包括一个或多个客户端装置、一个或多个服务器或其组合。计算装置130的示例可以包括但不限于个人计算机(PC)、笔记本电脑、工作站等。其他装置140可以包括网络附接存储专注(NAS)、其他后端装置或任何其他合适的装置。

网络环境100的组件可以经由(一个或多个)网络110彼此通信，该(一个或多个)网络可以是有线的、无线的或两者。(一个或多个)网络110可以包括多个网络或多个网络中的一个网络。作为示例，(一个或多个)网络110可以包括一个或多个广域网(WAN)、一个或多个局域网(LAN)、一个或多个公共网络(诸如因特网和/或公共交换电话网(PSTN))和/或一个或多个专用网络。在(一个或多个)网络110包括无线电信网络的情况下，诸如基站、通信塔或甚至接入点(以及其他组件)的组件可以提供无线连接。

兼容网络环境可以包括一个或多个对等网络环境(在这种情况下，服务器可以不包括在网络环境中)以及一个或多个客户端服务器网络环境(在这种情况下，一个或多个服务器可以包括在网络环境中)。在对等网络环境中，本文关于(一个或多个)服务器描述的功能可以在任何数量的客户端装置上实现。

在至少一个实施例中，网络环境100可以包括一个或多个基于云的网络环境、分布式计算环境、其组合等。基于云的网络环境可以提供执行本文描述的计算和/或数据存储功能(或其一个或多个部分)的任何组合的云计算和/或云存储。这些功能中的任何功能可以从(例如，可以跨州、地区、国家、全球等分布的一个或多个数据中心的)中央或核心服务器分布在多个位置上。基于云的网络环境可以是私有的(例如，限于单个组织)、可以是公共的(例如，可用于许多组织)、和/或其组合(例如，混合云环境)。

图1B是根据一些实施例的被配置为实现各种功能的示例性计算装置130的框图。计算系统可以包括一个或多个计算装置130和其他合适的装置/组件。

如图1B所示，计算装置130可以包括一个或多个处理器150、通信接口170和存储器160。(一个或多个)处理器150可以被配置为根据存储在存储器160中的指令来执行操作。(一个或多个)处理器150可以包括任何适当类型的通用或专用微处理器，诸如中央处理单元(CPU)、图形处理单元(GPU)、并行处理单元(PPU)等。存储器160可以被配置为存储计算机可读指令，该指令在由(一个或多个)处理器150执行时能够使(一个或多个)处理器150执行本文公开的各种操作。存储器160可以是任何非暂时性类型的大容量存储装置，诸如易失性或非易失性、磁性、基于半导体、基于磁带、光学、可移动、不可移动或其他类型的存储装置或有形计算机可读介质，包括但不限于只读存储器(“ROM”)、闪存、动态随机存取存储器(“RAM”)和/或静态RAM。

通信接口170可以被配置为在计算装置130和其他装置或系统(诸如，(一个或多个)相机120、另一计算装置130或(一个或多个)其他装置140，如图1A所示)之间传送信息。例如，通信接口170可以包括综合业务数字网(“ISDN”)卡、电缆调制解调器、卫星调制解调器或提供数据通信连接的调制解调器。作为另一个示例，通信接口170可以包括局域网(“LAN”)卡，以提供到兼容LAN的数据通信连接。作为进一步的示例，通信接口170可以包括高速网络适配器，诸如光纤网络适配器、10G以太网适配器等。无线链路也可以由通信接口170实现。在这样的实现中，通信接口170可以经由网络发送和接收携带表示各种类型的信息的数字数据流的电、电磁或光信号。网络通常可以包括蜂窝通信网络、无线局域网(“WLAN”)、广域网(“WAN”)等。

通信接口170还可以包括各种I/O装置，诸如键盘、鼠标、触摸板、触摸屏、麦克风、相机、生物传感器等。用户可以通过通信接口170向计算装置130(例如，终端装置)输入数据。

在一些实施例中，显示器可以被集成为计算装置130的一部分，或者可以被提供为通信地耦接到计算装置130的单独的装置。显示器可以包括显示装置，例如液晶显示器(“LCD”)、发光二极管显示器(“LED”)、等离子体显示器或任何其他类型的显示器，并且提供呈现在显示器上的图形用户界面(“GUI”)以供用户输入和数据描绘。在一些实施例中，显示器可以集成为通信接口170的一部分。

图2A是根据一些实施例的用于监测现场安全合规性的方法200的流程图。方法200可由包括如图1A/图1B所示的可在如图1A所示的网络环境100中建立的多个相机120、一个或多个计算装置130以及其他合适装置的系统来执行。将认识到，方法200可在任何合适的环境中执行，并且图2A中的任何框可以任何合适的顺序执行。图2B示出了执行图2A所示的方法200的示例性过程242。

在步骤210，计算装置130从一个或多个相机120获得数据。

一个或多个相机120可以被分配在现场的多个位置处。每个相机120可以提供对应于相机120的视场的现场的覆盖范围。图3示出了根据一些实施例的获得用于监测现场安全合规性的图像的流程图300。在框310中示出了现场的多个相机的示例性布局。如320所示，相机320a由实心三角形表示，相机的视场320b由空心三角形表示。在该示例中，四个相机被放置在该现场的不同位置处。每个相机可以被分配唯一的相机编号(或索引)，诸如相机312a的编号是Cam1。相机312a(Cam1)具有视场312b，相机314a(Cam2)具有视场314b，相机316a(Cam2)具有视场316b，并且相机318a(Cam2)具有视场318b。每个相机120可以获得对应位置的视频流，其包括一些原始图像(视频帧)。相机120可以经由网络环境100向计算装置130发送包括视频流的数据。另外，每个原始图像可与指示捕获图像的时刻的时间戳和指示捕获图像的相机的相机编号相关联。图3中的框330示出了分别来自四个相机Cam1、Cam2、Cam3和Cam4的四个原始图像322、324、326和328。原始图像中的每个可捕获一个或多个所关注对象，例如在此示例中为工人。

计算装置130可以实现各种对象识别算法以检测原始图像中的对象。在实施例中，一个或多个边界框可以覆盖在原始图像中的每一个上以将检测到的(一个或多个)对象分装在原始图像中。例如，边界框可以表示对人的检测，其包括原始图像中的像素子集。如图3所示，在图像322中，计算装置130可检测到一个人并用边界框332分装所检测到的人。类似地，计算装置130可产生图像324中的边界框334、336、图像326中的边界框338和图像342中的边界框340、342和344。

在进一步的实施例中，计算装置130可以通过以最小背景杂波剪裁原始图像的在对象(例如，工人)周围的部分，来调整每个边界框的大小，从而减少背景噪声。这可以通过以下方式自动进行：首先，在每个对象周围生成矩形边界框，然后，剪裁每个边界框以移除原始图像中与该对象无关的像素。

在下文中，术语“图像”是指从原始图像中剪裁的与边界框相对应的图像的一部分。

计算装置130可以对图像执行特征提取，以跨多个相机识别对象并且产生分组的图像，如框350中所示，这将在方法200的稍后步骤中详细描述。

在图2B中，框210通过使用计算装置130执行方法200的步骤210来演示示例性结果。在该示例中，计算装置130可以从Cam1和Cam2获得原始图像。然后，计算装置130可以生成来自Cam1的原始图像中的所识别的对象的图像212a和212b，并且生成来自Cam2的原始图像中的所识别的对象的图像214a、214b和214c。在另一实施例中，计算装置130可以将与原始图像对应的信息，诸如时间戳和相机索引，关联到所生成的图像。图4是呈现为监测现场安全合规性而获得的示例性数据的表400。表400包括由计算装置130生成的图像410以及时间戳420和相机索引430的对应信息。

返回参考图2A，在步骤220，计算装置130基于从数据提取的特征来识别一个或多个对象。计算装置130可以处理从步骤210获得的图像以提取与每个检测到的对象相关的特征。通过找到所提取的特征的相似性，计算装置130可以将具有相似特征的图像分组，以便跨多个相机120识别每个对象。图2B中的框220示出了通过执行步骤220的示例性结果，其中基于特征的相似性对为检测到的工人生成的图像进行分组，并且向每个组分配唯一的标识(ID)，诸如在该示例中的ID1 222和ID2 224。以此方式，计算装置130可以跨多个相机120识别对应于ID1 222的第一工人和对应于ID2 224的第二工人。

通常，跨多个相机跟踪多个人可被公式化构建为个人重新识别(ReID)问题。给定来自具有不重叠视场的不同相机的视频，计算装置130可以首先检测每帧中所捕获的人，并且生成对应于所检测到的人的图像，例如，作为从原始图像剪裁的边界框。计算装置130然后可以通过使用ReID模型来处理图像，该模型从每个人提取有区别的人类特征并且确定图像之间的特征相似性。计算装置130可以基于特征相似性来匹配相同的标识并且在图像中区分不同的标识。这样，ReID模型可被用于确定跨多个相机120的一致标识。

以前对ReID的研究遇到了几个技术挑战，其可以分为两个方面。第一方面是人外观变化(intra-person appearance variation)。当同一人在不同的位置被捕获时，由于视角、衣服、光照条件的变化或人体的部分遮挡，人的外观可能变化很大。如果所提取的特征对这种变化敏感，则标识可能丢失。第二方面是人际外表模糊(inter-person appearanceambiguity)。当捕获任意组的人时，他们可以具有非常相似的视觉特征，诸如服装颜色、风格和某些物品。如果依赖于不够独特的一些通用特征描述符，则标识可能混淆。鉴于这些技术挑战，需要开发稳健的ReID方法，其可以提取标识有区别的视觉特征。

在一个实施例中，计算装置130可实施ReID模型，以对每一检测到的工人执行特征提取，根据所述特征提取，可利用有区别的人类特征来跨多个相机匹配工人标识且区分不同工人。计算装置130可以使用ReID模型来确定特征向量，以表示每个图像中的特征。特征向量可包括多个元素，每个元素可对应于在ReID模型中使用的特征图，用于从图像中滤除一个特定特征。这样，计算装置130可以执行特征提取过程以获得从方法200的步骤210获得的图像的特征向量。然后，计算装置130可以比较特征向量，以便直接量化图像中的工人之间的视觉相似性以用于标识匹配。许多研究已经提出了不同的ReID模型，其中最近的工作主要设计了新颖的卷积神经网络(CNN)体系结构来提取有区别的特征。然而，用于促进模型训练过程的损失函数的开发相对地未被充分探索，这对于调节特征表示的学习过程是至关重要的。

在一个实施例中，被称为“相似性损失”的损失函数可以在ReID模型中实现，以通过学习更多的有区别的人类特征而促进ReID模型的有效训练过程。通过实现具有相似性损失的损失函数的方式，ReID模型可被训练成使确定图像对之间的相似性时的误差最小化。图像对可以被分类为两种类型。正图像对可以包括与相同标识相关联的两个图像。负图像对可以包括与不同标识相关联的两个图像。ReID模型可被训练以生成每对图像的相似性得分。直观地，对于正对的相似性得分预期为高，而对于负对的相似性得分预期为低。相似性损失可以用于将不同图像之间的计算的相似性得分直接并入训练目标，诸如损失函数。这样，可以引导ReID模型学习能够在正和负对之间输出合理的相似性得分的特征。相似性损失的公式将在下文中详细描述。

在示例性训练过程中，训练图像集和训练图像中的图像对的真实相似性标签(或真实相似性)可被提供来训练模型，以学习一致的相似性。该模型可以生成图像对的相似性得分，在使用具有相似性损失的损失函数计算损失的阶段中，将所述相似性得分与真实相似性标签进行比较。模型中的可学习参数可以基于计算的损失来调整。通过学习训练图像集之间的相似性，真实信息可以促进模型输出正对之间的高的相似性得分，和在负对之间的低的得分。

在一个示例中，相似性得分可以被认为是范围在0和1之间的概率值，即，所有正对具有1.0的相似性得分，而负对具有0.0的得分。这种真实相似性的公式化可用于强制模型学习积极特征表示，其尽可能多地最大化正对和负对之间的相对相似性差异。为此，模型可以学习能够确信地匹配具有1.0的相似性得分的相同工人并且区分具有0.0的得分的不同工人的有区别的人类特征。

然而，上述针对正对和负对的相似性得分的设置可能在一些情况下引起问题，其中一些冗余或甚至无关的特征可以被用来产生真实相似性，从而引起标识匹配的误导结果。例如，如果注意到像钢筋那样的一些背景干扰而不是感兴趣的工人，则不同的标识可能由于类似的背景而被错误地匹配。

从另一个角度来看，在正和负样本之间的相似性得分的标记可以类似于对象分类的标记过程，即，在正和负类别之间分布真实概率。例如，在图像的K个可能的类别标签中，直接一位热门(one-hot)标签(包括具有单个“1”位和所有其它低“0”位的一组位)给正类别1.0的概率，而所有其它负类别具有0.0的概率。然而，由于模型被迫学习有力地增加其预测的类别标签的置信度的特征，所以产生这样的大的相对差异可能导致过度拟合。因此，可以学习某些不相关的特征，其可能无法很好地从训练图像归纳得出。

在一个示例中，Szegedy等人在“Speed/accuracy trade-offs for modernconvolutional object detectors”(published at Proc.-30^th IEEEConf.Comput.Vis.Pattern Recognition,CVPR 2017,2017:pp.3296–3305)中描述的标签平滑技术可用于减轻学习如上所述的误导特征的机会，该技术的全部内容通过引用结合于此。标签平滑技术提取一小部分概率并均匀地分布到所有负类别。为了作为示例进行说明，数据集可以包括五个类别，其中一个真实类别和其余类别是负类别(例如，包括与不同标识相关联的图像)。在该示例中，可以从真实类别中提取总概率的10％，导致四个剩余的负类别中的每一个接收2.5％的概率标签。这可以有效地调整训练过程，使得可以防止模型学习误导特征。

在另一示例中，如标签平滑技术所启发的，可以在相似性损失的公式化中并入平滑参数P，从而允许相似性标签的更灵活定义。图5是包括在多对训练图像之间生成的相似性标签的相似性矩阵500的示例。每个训练图像510与ID 520相关联。可以基于与训练图像510相关联的ID 520来生成真实相似性标签。图像对之间的相似性标签被呈现在相似性矩阵500中的字段530中。如字段530所示，对于一对相同图像不生成相似性标签，包括具有相同ID的两个不同图像的图像对被给予P作为相似性标签，并且包括具有不同ID的两个不同图像的图像对被给予(1-P)作为相似性标签。

类似地，在一批B个图像的成对相似性矩阵中，每个正对被标记有相似性得分P(0和1之间的十进制数)，而每个负对被标记有相似性得分(1-P)。应当注意，不同的P值可以用在不同图像对的相似性矩阵中。这样，每个相似性标记具有在0和1之间的有限范围。基本上，平滑参数P可以控制在正对和负对之间的真实相似性的相对差异。例如，如果P减少到0.7，则正对和负对分别具有0.7和0.3的真实相似性，导致比用1.0和0.0标记小得多的相对差异。另外，可以调整平滑参数P以实现对模型训练的不同效果。通过将P定义为正对的真实相似性，在调整平滑参数P时，相似性损失是通用的并且可适用于不同的ReID场景。

通过比较每个图像对的标识标签是相同的还是不同的，可以自动生成用于训练图像集的相似性标签。这样，可以形成用于所述训练图像集中的该批B个图像的成对B×B相似性矩阵，其然后可以在训练期间构成该批的真实，从而引导ReID模型利用在所述训练图像中最佳地复制所述真实相似性得分的特征。

利用所生成的真实相似性标签，训练图像可以被馈送到ReID模型中以用于特征表示学习。可以采用用于深度CNN的监督学习的范例。在训练期间，ReID模型可以经由前向传播生成输出，并且计算输出与真实的偏差作为训练损失，并且然后经由后向传播迭代地更新模型中的可学习参数。用于ReID任务的CNN架构可以包括骨干(backbone)模型，其可以包括若干卷积层、池化层和完全连接层，用于利用来自镜像的隐藏特征。骨干模型可以为每个图像生成特征向量。特征向量中的元素可以表示从图像提取的特征。特征向量的维度，即特征向量中的元素的数量，可以取决于CNN的模型架构。在一些情况下，骨干模型可以处理每批B个图像，并且生成与该批中的图像对应的B个特征向量。随后，ReID模型可以通过关联对应的B个特征向量来评估B个图像之间的视觉相似性。更具体地，可以在特征向量中计算B×B成对相似性矩阵，其可以与真实相似性矩阵进行比较。

图6示出由ReID模型生成的相似性矩阵(M)610和真实相似性矩阵(M_GT)620之间的逐元素比较600。逐元素比较600是将为每个图像对生成的相似性标签(或相似性得分)与该图像对的真实相似性标签进行比较。相似性矩阵中的元素可以通过索引集(i,j)来查询，其中i是行索引，j是列索引。在这个示例中，对于真实相似性矩阵620中的正对，P被设置为1.0。

可以应用各种度量来计算相似性得分。在一个公式中，可以采用余弦相似性，其通过强制相似性得分在0和1之间的有限范围内而有益于相似性损失的计算。这样，相似性得分的范围与相似性标签的定义范围匹配。相似性矩阵中的每个元素(i,j)可以由下式计算，

如果i≠j，则余弦相似性

否则为零(公式1)

其中，f_i和f_j分别表示与相似矩阵中排列的第i个和第j个图像对应的特征向量。通过应用公式1，可以计算特征向量f_i和f_j之间的余弦相似性。由于沿着对角线轴的所有元素表示特征向量本身的自相似性(由于等价性，其总是1.0)，因此当计算相似性损失时忽略这些元素。这样，在训练具有相似性损失的ReID模型期间，可以比较两个相似性矩阵，例如图6所示的M610和M_GT620。

下面示出训练在计算装置130中实现的ReID模型的示例。将认识到，计算装置130可以在任何合适的环境中并且以任何合适的顺序执行在该示例中描述的步骤。首先，计算装置130可以通过ReID模型的前向传播来计算矩阵M610。其次，计算装置130可产生矩阵M_GT620作为真实相似性矩阵。第三，计算装置130可以通过应用下式计算相似性损失，

相似性损失＝max((M-M_GT)²) (公式2)

接着，计算装置130可基于根据公式2计算的相似性损失来执行用于模型更新的反向传播，具体来说，计算装置130可产生矩阵M610与M_GT620之间的逐元素的平方差，其可形成具有与矩阵M610和M_GT620的维度相同的维度的比较矩阵。比较矩阵捕获图像对的生成/预测的相似性得分相对于对应的真实偏离了多少。随后，计算装置130可以通过应用max()运算来提取比较矩阵中的最大值。因此，计算装置130可获得一批训练图像中的相似性损失值，其被定义为相似性得分的最大偏差。损失函数的公式化可以引导ReID模型学习逐渐重建真实相似性得分的特征表示。为此，计算装置130可能能够确定正对中的较高相似性，以及负对中的较低相似性。与将ReID训练公式化为分类任务的常用softmax损失相比，相似性损失的训练目标更好地与ReID任务的测试过程对齐，使得ReID模型在其训练过程期间受到更直接的监督。

此外，如公式2所示，对两个矩阵之间的差求平方，以便估计绝对量值。可以在公式2中实现诸如绝对差的其他变型，以计算相似性损失。另外，max()运算有效地抑制了ReID模型的输出与真实的偏差。max()运算可以由其它变型(例如，mean()运算)代替。例如，mean()运算可以在公式2中实现，以取一批中所有图像对之间的平均偏差。

在测试阶段，计算装置130可以处理由经训练的ReID模型提取的特征向量，并基于特征向量将工人标识与图像相关联，这在不同图像和不同相机上应当是一致的。换句话说，计算装置130可以向同一工人的所有图像给予唯一的标识，并且同时区分不同的工人。基于所提取的特征向量，将标识匹配的任务公式化为聚类问题。可以实现各种算法来解决聚类问题。例如，可以采用以下内容：Wong等人在“Enriched and discriminativeconvolutional neural network features for pedestrian re-identification andtrajectory modeling”(公开于Comput.Civ.Infrastruct.Eng.36(2021)，可用于:doi.org/10.1111/mice.12750)(其全部内容通过引用结合于此)中描述的方法，以及Han等人在“Data mining:concepts and techniques”(公开于Elsevier,2011,可用于:doi.org/10.1016/C2009-0-61819-5)(其全部内容通过引用结合于此)描述的集结层序聚类算法的改善版本。对ReID模型的研究表明，标识匹配过程很大程度上依赖于所提取的特征的质量，例如，每个特征向量的标识区别程度如何。因此，开发一种稳健的ReID方法被认为是促进图2A所示方法200中步骤220的关键，这是通过在如本公开所述的ReID模型中实现相似性损失来实现的。

图2C是通过实现步骤220中描述的技术来训练用于重新识别的模型的方法250的流程图。方法250可以由包括多个相机120、一个或多个计算装置130和如图1A/图1B所示的其他合适装置的系统来执行，其可以在如图1A所示的网络环境100中建立。将认识到，方法250可以在任何合适的环境中执行，并且图2C中的任何框可以以任何合适的顺序执行。

在步骤252，计算装置130获得一组图像。该组图像中的每个图像包括对象，并且被标记有与该对象相关联的标识。例如，具有标识的图像可以与图5所示的相似性矩阵500中的图像相似。

在步骤254，计算装置130使用模型基于从图像提取的特征来确定相似性矩阵。相似性矩阵包括该组图像中的图像对的相似性得分。

在步骤256，计算装置130基于在该组图像上标记的标识来确定真实相似性矩阵。所述真实相似性矩阵包括该组图像中的图像对的真实相似性得分。

在步骤258，计算装置130通过在相似性矩阵和真实相似性矩阵之间执行逐元素的比较来确定比较矩阵。

在步骤260，计算装置130基于比较矩阵中具有最大值的元素来确定相似性损失。

在步骤262，计算装置130基于相似性损失来更新模型。

经训练的模型可由计算装置130用来执行如图2A所示的方法200的步骤220。

在步骤230，计算装置130基于从数据提取的特征对一个或多个对象进行分类。图2B中的框230示出了通过执行步骤230的示例性结果。如框230中所示，每个图像与诸如标签232、234、236和238的标签相关联，该标签指示图像中的所检测到的工人的PPE状态。研究表明，大多数时间需要包括头盔和背心的必要PPE来现场工作。因此，对工人是否携带这两种PPE进行分类将能够监测关于现场安全的常规合规性。可以将工人的PPE状态的识别公式化为多类别分类问题。例如，每个工人可以被分类为预定义PPE状态之一。

图7示出了用于PPE分类的工作流700，其可以由计算装置130执行。如框710中所示，计算装置130可以获得包括原始图像712的数据，并且通过执行如图2A中所示的方法200的步骤210来生成原始图像712中的检测到的工人的边界框720。图像720对应于边界框720。计算装置130可以将CNN 730实现为分类器，其将图像720作为输入并且输出PPE状态作为预定义PPE状态之一，如框740中所示。在该示例中，定义了四个PPE类别/状态。第一类别“W”表示工人未穿戴两种必要的PPE。第二类别“WH”表示工人仅戴了头盔。第三类别“WV”表示工人仅穿了背心。第四类别“WHV”表示工人既戴了头盔又穿了背心。

用于检测工人穿戴的头盔和背心的各种基于视觉的方法可被计算装置130采用，以训练模型(例如，CNN 730)来促进步骤230。

研究表明，包括类别之间不平衡的样本的训练数据集可显著降低关于PPE分类的模型的准确性。例如，在训练数据集中，用类别“WH”和“WHV”标记的图像样本可以构成训练数据集的大部分(即，超过90％)，而用类别“W”和“WV”标记的图像样本是训练数据集中的少数类别。训练数据集中的类别之间的不平衡样本可能使模型的特征学习偏向多数类别，这是因为模型由于样本不足而无法利用来自其他类别的图像的特征。因此，训练模型，例如图7中的CNN 730，可能显示低得多的分类准确度，特别是对于少数类别“W”和“WV”，导致这些样本的一部分被错误地分类为多数类别。例如，可以将用“WV”标记的图像分类为“WHV”。换句话说，相当多的没有头盔的工人可能不期望地被忽视，因此使得对安全合规性的监测不可靠。由于数据集中的类别不平衡可能是根本原因，因此需要一种方法来在有限的训练样本下对少数类实现稳健的性能。

在一个实施例中，计算装置130可在如图7所示的工作流700中采用加权类别策略，以便于CNN 730对训练数据集中的少数类别的模型学习。当训练数据集中的样本(即，图像样本)参与模型的后向传播时，加权类别策略可以例如通过控制每个样本影响模型的更新的程度来操纵类别的权重。一般原理是增加少数类别中的样本的权重，使得这些样本对损失计算施加比多数类别中的样本更大的影响。在某些情况下，每个类别的权重可以由下式确定，

新类别权重

其中W_c是类别c的新类别权重，S_c是类别c中的样本数量。根据公式3，确定类别的权重考虑了所有类别中的样本计数的比。形式上，给定每个类别(S_c)中的样本数量，首先通过

找到最大数量。然后，在每个类别c内，通过将/>

除以类别c(S_c)的样本计数来确定新类别权重。然后，在模型训练期间，可以将新权重W_c分配给类别c的每个样本。这样，样本可以根据它们的分配的权重对损失的计算做出贡献。加权类别策略可以与用于损失计算的各种类型的算法组合。例如，计算装置130可以采用softmax损失算法进行损失计算，其中，可以根据通过应用公式3计算的新类别权重来处理训练数据集中的样本。

加权类别策略旨在当数据集包括不同类别中的不平衡数量的样本时，均衡所有类别的聚合贡献。在数字上，具有最大样本计数的类别的新权重是

具有较少样本的其它类别的新权重与样本计数的比成比例地增加，/>

例如，具有样本的最大数量的一半的类别可接收2.0的新权重，使得每个样本相对于具有最大样本计数的类别中的样本对模型具有加倍的影响。另一方面，对于每个类别c，乘积S_c×W_c产生/>

的相同的值，使得每个类别中的样本的合计加权影响是相等的。这样，由于不同类别中的不平衡样本导致的有偏训练的问题可以通过平衡加权影响来减轻。因此，结合加权类别策略的训练模型在执行PPE分类时，尤其是对于具有有限训练样本的少数类别，可以更稳健。

图2D是通过实现步骤230中描述的技术来训练用于执行分类的模型的方法270的流程图。方法270可以由包括多个相机120、一个或多个计算装置130和如图1A/图1B所示的其他合适装置的系统来执行，其可以在如图1A所示的网络环境100中建立。将认识到，方法270可以在任何合适的环境中执行，并且图2D中的任何框可以以任何合适的顺序执行。

在步骤272，计算装置130接收与多个类别相关联的一组图像。每个图像都用一个类别来标记。

在步骤274，计算装置130确定多个类别中的每个类别中的图像的总数。

在步骤276，计算装置130确定多个类别中具有最大图像数量的第一类别。

在步骤278，计算装置130基于第一类别中的图像的最大数量与多个类别中的一个类别中的图像的数量的比来确定与相应类别相关联的权重。

在步骤280，计算装置130每次迭代基于与多个类别相关联的权重，更新模型。

经训练的模型可由计算装置130用来执行如图2A所示的方法200的步骤230。

在步骤240，计算装置130基于来自步骤220和230的识别和分类结果来确定一个或多个对象的安全合规性。通过使用计算装置130执行步骤240的示例性结果在图2B的框240中示出。

通过执行方法200的步骤220和230，计算装置130可以获得与图像相关联的附加信息，诸如工人ID和PPE类别，其可以作为附加行被添加到图4所示的表400。图8是呈现与多个图像相关联的信息以用于监测现场安全合规性的表800。如图8所示，表800包括图像行410、时间戳行420和相机索引行430，这些行也包括在表400中。在执行步骤220和230之后，计算装置130可以确定工人ID 810和PPE类别820，并且然后将对应的行添加到表800。在一些变型中，计算装置130可以在图像上添加指示与图像对应的PPE类别820的标签，诸如822和824。

如上所述，可以为每个工人输出标识和PPE状态。为此，可以将所有工人的结果进行整合，以便例如通过确定每个工人是否在现场正确穿戴了必要的PPE来监测现场的安全合规性。可以记录丢失PPE的任何事件以定期报告。在一些示例中，可以定期生成安全报告，诸如图2B中所示的框240中的报告，以供现场工作人员查看工人的现场行为并设计补救措施以增强安全意识。

此外，可以以各种方式使用所确定的安全状态(例如，如图2B所示的安全报告)。在一个示例中，可以基于对安全状态的监测来生成现场警告。例如，当检测到缺少PPE的事件时，可以实时触发警报、闪光或其组合，以警告工作人员不顺从的动作。可以基于事件的严重性来预定义不同的警告级别。在另一示例中，可以基于对安全状态的监测来生成警告消息。警告消息的示例包括但不限于经由移动电话上的信使应用(APP)(例如WhatsApp信使APP)的消息、具有捕获任何事件的屏幕截图的系统生成的电子邮件等。警告消息可以用于通知非现场人员或安全管理员现场潜在的风险，以允许更认真的监测现场工人的行为。在又一个示例中，可以收集历史数据，用于对检测到的事件的趋势进行统计分析，例如，以生成每个特定区域或项目现场中的每个事件类型的每日或每月的概要。统计分析可以为承包商提供指导以计划长期补救行动，从而改变工人行为并减轻现场危险。

在一些示例中，计算装置130可以运行被开发以促进ReID和PPE分类功能的软件，以便使现场监测过程自动化。通过运行软件，计算装置130可以使得显示用户界面，其可以呈现用于实践中的现场分析的总体工作流和功能。图9A是现场监测软件的示例性用户界面900的屏幕截图。软件可以在各种类型的计算装置上运行，优选地具有诸如图形处理单元(GPU)的加速计算资源。首先，用户可以首先选择用于存储原始输入视频的数据文件夹，以及用于保存所生成的输出的文件夹。软件可以为用户提供选项以定义上班和/或下班时间。上班时间可以用于选择性地处理某些时间段内的视频。例如，如果12:00至13:00是现场操作大部分暂停时的午餐时间，则可以省略这段时间内的视频。软件还可以允许用户定义要生成的事件报告的时间跨度和类型。例如，可以输入1个月的时间段，使得分析该时间段内的视频。记录像没有穿戴PPE的工人的任何事件，其中可以每天、每周或每月汇总事件统计。对于安全人员的视觉检查，将捕获事件的视频帧提取到本地数据库。为了保护工人的隐私，在保存视频帧时，他们的面部可以自动地被模糊处理。通过点击用户界面上的“运行”按钮，视频处理开始并且结果被自动保存。

工作流可以被设计用于更实际的事件计数，其伪代码在表1中总结。计算装置130可以基于如表1所示的代码执行事件计数的过程。

表1.事件计数的伪代码。

输入：

1.所有处理的边界框，每个边界框标记了时间戳t、标识i、PPE状态p

2.时间阈值T_b、T_r

对于每个标识i：

在计算装置130通过执行方法200的步骤210至230来处理来自多个相机120的视频帧之后，计算装置130可以获得一组边界框，每个边界框被标记有时间戳(“t”)、工人标识(“i”)和PPE状态(“p”)。然后，计算装置130可以针对每个单独的工人执行事件计数。例如，计算装置130可以提取与每个工人相关联的框，并且按照时间顺序对所提取的框进行排序。对于每个工人，初始化状态跟踪器(表1中的“状态”)和事件计数器(表1中的“计数”)。通过处理每个边界框的标记信息(t、i和p)，在满足识别事件的标准时，更新状态跟踪器和事件计数器。

计算装置130可以基于两个参数来决定如何对事件进行计数，这两个参数是(1)最小缓冲时间T_b，以及(2)最大重置时间T_r。图9B示出了由计算装置130执行的用于由两个参数T_b和T_r所控制的事件计数的示例性过程920。如图9B所示，沿时间轴932排序与工人相关联的框930。如框934所示，例如经由图9A所示的用户接口900，将参数T_b和T_r设置为预定值。

参数T_b在开始计数一个事件中的框之前施加最小周期作为缓冲时间。最小缓冲时间T_b旨在通过插入延迟计数机制来使事件记录更合理，因为工人可以例如在安全的环境条件下将头盔取下一会儿以调整其紧密度。在没有缓冲时间的情况下，由于不在每一帧中穿戴PPE而处罚工人可能对于顺应性监测而言过于严格。作为确定事件的示例，计算装置130可以对连续框930的数量进行计数，每个框与在相应框930中识别的“无PPE”状态相关联，并且基于所计数的框930的时间戳来确定累积时间段。当累积时间段大于等于T_b时，计算装置130可以决定连续框930的数量与之相关联的事件的示例。如图9B所示，计算装置130可以确定第一事件940和第二事件946。计算装置130可以决定示例944不是事件，因为与示例944对应的累积时间段短于最小缓冲时间T_b。在表1所示的伪码中，设置计时器t_b以跟踪未穿戴任何必要PPE的工人的持续时间。当计时器t_b达到最小缓冲时间(即，t_b≥T_b)时，相应工人的状态变为“正”，并且事件计数递增。否则(即，t_b＜T_b)，状态返回到“负”。一旦计算装置130识别出具有“无PPE”状态的下一个框，则可以开始对下一个事件的框的计数。

另一参数T_r用来决定是否要分别计数其间具有时间间隙的两个事件。最大时间间隙定义了合理的持续时间，超过该持续时间，事件终止。例如，如果计算装置130在特定时间段内没有观察到“无PPE”状态，则计算装置130可以将状态跟踪器重置为初始值“负”。如图9B所示，当对与事件1 940相关联的框进行计数时，计算装置130可以维持状态跟踪器的“正”状态。然后，计算装置130可能不能在时间间隙内检测到工人。例如，工作人员可能离开受监测的场景(例如，回到不需要PPE的现场办公室)，使得在该时间间隙内PPE状态是未知的。在工人再次出现时，任何丢失PPE的行为都应当与先前的事件无关，因此被计数为新的行为。这样，如果具有“正”状态的两个框被预定义的时间间隙(即，t-t_curr≥T_r)分开，则当前事件的计数器被重置，并且在满足最小缓冲器标准时，将来时间戳中具有“正”状态的任何框将可能被计数为另一事件。否则(即，t-t_curr＜T_r)，计算装置130可以继续计数具有“正”状态的框为被包括在当前事件中。例如，如图9B所示的事件2 946包括小于最大重置时间T_r的时间间隙。

图2E是由计算装置130执行的用于通过实现步骤240中描述的技术来监测现场安全合规性的方法290的流程图。将认识到，方法290可以在任何合适的环境中执行，并且图2E中的任何框可以以任何合适的顺序执行。

在步骤292，计算装置130获得多个图像。每个图像与时间戳、标识和安全状态相关联，例如，如图8中的表800所示。

在步骤294，计算装置130将多个图像中的图像子集确定为与事件相关联。图像子集与大于等于最小缓冲时间阈值的时间段相关联。此外，图像子集可以包括一个或多个时间间隙，每个时间间隙短于时间间隙阈值。

在Cheng,J.P.,Wong,P.K.Y.,Luo,H.,Wang,M.,&Leung,P.H.的“Vision-basedmonitoring of site safety compliance based on worker re-identification andpersonal protective equipment classification,”Automation in Construction,139,104312(在doi.org/10.1016/j.autcon.2022.104312可用)中讨论了与本公开的示例性实施例相关的其它细节和优点，其全部内容通过引用并入本文。

注意，本文描述的技术可以体现在存储在计算机可读介质中的可执行指令中，该指令用于由基于处理器的指令执行机器、系统、设备或装置使用或与其结合使用。本领域技术人员将理解，对于一些实施例，可以包括各种类型的计算机可读介质以用于存储数据。如本文所使用的，“计算机可读介质”包括用于存储计算机程序的可执行指令的任何合适的介质中的一个或多个，使得指令执行机器、系统、设备或装置可以从计算机可读介质读取(或取出)指令，并执行用于执行所描述的实施例的指令。合适的存储格式包括电子、磁、光学和电磁格式中的一种或多种。常规的示例性计算机可读介质的非穷举列表包括：便携式计算机磁盘；随机存取存储器(RAM)；只读存储器(ROM)；可擦除可编程只读存储器(EPROM)；闪存装置；以及光学存储装置，包括便携式光盘(CD)、便携式数字视频光盘(DVD)等。

应当理解，附图中所示的组件的布置是出于说明性目的，并且其他布置是可能的。例如，本文描述的一个或多个元件可以整体或部分地实现为电子硬件组件。这些元件可以用软件、硬件或软件和硬件的组合来实现。此外，这些其它元件中的一些或全部可以被组合，一些可以被一起省略，并且可以添加额外的部件，同时仍然实现本文描述的功能。因此，本文所述的主题可以以许多不同的变化来实施，并且所有这样的变化被认为在权利要求的范围内。

为了便于理解本文所述的主题，按照动作顺序来描述许多方面。本领域技术人员将认识到，各种动作可以由专用电路或电路系统、由一个或多个处理器执行的程序指令、或由两者的组合来执行。这里对任何动作顺序的描述不是要暗示必须遵循为执行该顺序而描述的特定顺序。除非本文另有说明或与上下文明显矛盾，否则本文所述的所有方法可以任何合适的顺序进行。

在描述主题的上下文中(特别是在随附权利要求的上下文中)使用术语“一个(a、an)”和“该(the)”以及类似的参考被解释为涵盖单数和复数，除非在此另外指出或与上下文明显矛盾。除非本文另有说明或与上下文明显矛盾，使用术语“至少一个”后接一个或多个项目的列表(例如，“A和B中的至少一个”)应理解为是指选自所列项目(A或B)的一个项目或所列项目(A和B)中的两个或更多个的任何组合。此外，前述描述仅用于说明的目的，而不是用于限制的目的，因为所寻求的保护范围由如在随附权利要求及其任何等同物限定。本文提供的任何和所有示例或示例性语言(例如，“诸如”)的使用仅旨在更好地说明主题，并且不对主题的范围施加限制，除非另外要求。在权利要求书和书面描述中，术语“基于”和其他类似短语的使用表示产生结果的条件，并不排除任何其他产生该结果的条件。说明书中的语言不应被解释为指示任何未要求保护的元素对于如所要求保护的本发明的实践是必要的。

Claims

1.一种用于监测穿着个人防护装备的合规性的系统，包括：

多个相机，其被配置为获得数据，所述数据包括与一个或多个对象相关联的多个图像；以及

计算系统，其被配置为处理所述数据，以基于对被训练用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性；

其中，所述计算系统还被配置为训练用于重新识别的所述第一模型，其中，训练用于重新识别的所述第一模型包括：

获得第一组图像，所述第一组图像中的每个图像包括对象并且被标记有与所述对象相关联的标识；

使用所述第一模型，基于从所述图像提取的特征，确定包括所述第一组图像中的图像对的相似性得分的相似性矩阵；

基于标记在所述第一组图像上的所述标识，确定包括所述第一组图像中的所述图像对的真实相似性得分的真实相似性矩阵；

通过在所述相似性矩阵和所述真实相似性矩阵之间执行逐元素比较，来确定比较矩阵；

基于所述比较矩阵中具有最大值的元素，确定相似性损失；以及

基于所述相似性损失，来更新所述第一模型。

2.根据权利要求1所述的系统，其中，基于平滑参数P来确定所述第一组图像中的图像对的真实相似性得分，其中，P在0和1之间是可调整的。

3.根据权利要求2所述的系统，其中，具有相同标识的每对图像被分配P作为相应的真实相似性得分，具有不同标识的每对图像被分配(1-P)作为相应的真实相似性得分。

4.根据权利要求1所述的系统，其中，所述第一组图像中的每对图像包括第一图像和第二图像，并且

确定包括所述第一组图像中的图像对的相似性得分的相似性矩阵还包括：

针对每对图像，确定相应的第一图像的第一特征向量和相应的第二图像的第二特征向量；以及

基于所述第一特征向量和所述第二特征向量，确定余弦相似性作为图像对的相似性得分，其中，通过将所述第一特征向量和所述第二特征向量的乘积除以所述第一特征向量和所述第二特征向量的绝对值来获得所述余弦相似性。

5.根据权利要求1所述的系统，其中，通过在所述相似性矩阵与所述真实相似性矩阵之间执行逐元素比较来确定所述比较矩阵还包括：

确定所述相似性矩阵中的每个相似性得分与所述真实相似性矩阵中的对应真实相似性得分之间的绝对差或平方差，其中，相似性得分和对应的真实相似性得分与相应的同一图像对相关联。

6.根据权利要求1所述的系统，其中，所述计算系统还被配置为训练用于个人防护装备分类的第二模型，训练用于个人防护装备分类的所述第二模型包括：

接收与多个类别相关联的第二组图像，其中，所述第二组图像中的每个图像被标记有类别；

确定所述多个类别中的每个类别中的图像的总数；

确定所述多个类别中具有最大图像数量的第一类别；

基于所述第一类别中的图像的最大数量与所述多个类别中的类别中的图像的数量的比，确定与该类别相关联的权重；以及

每次迭代基于与所述多个类别相关联的权重来更新所述第二模型。

7.根据权利要求6所述的系统，其中，在所述第二模型的训练期间，与类别相关联的权重被分配给该类别中的所有图像；以及

其中，每次迭代的损失计算基于与所述第二组图像中的图像相关联的权重。

8.根据权利要求6所述的系统，其中，处理所述数据以确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性还包括：

通过使用所述第一模型，基于从所述数据中的所述多个图像提取的特征，来识别所述一个或多个对象；

通过使用所述第二模型，基于从所述数据中的所述多个图像提取的所述特征，对所述一个或多个对象进行分类；以及

基于识别和分类结果，来确定所述一个或多个对象穿着个人防护装备的合规性。

9.根据权利要求8所述的系统，其中，所述识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联；并且

所述计算系统还被配置为：确定所述多个图像中的图像的子集与事件相关联，其中，所述图像的子集处于指示不符合安全状态的类别中，所述图像的子集与大于等于最小缓冲时间阈值的时间段相关联，所述图像的子集包括一个或多个时间间隙，每个时间间隙短于时间间隙阈值。

10.根据权利要求9所述的系统，其中，所述计算系统还被配置为：

生成包括检测到的事件的日志；以及

生成与检测到的事件对应的警告，其中，所述警告包括警告消息、警报、闪光灯中的任一者。

11.一种用于监测穿着个人防护装备的合规性的方法，包括：

计算系统从多个相机获得数据，所述数据包括与一个或多个对象相关联的多个图像；以及

所述计算系统处理所述数据以基于对被训练用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性；

其中，基于以下步骤，训练所述第一模型用于重新识别：

基于所述相似性损失，来更新所述第一模型。

12.根据权利要求11所述的方法，还包括训练用于分类的第二模型，其中，训练用于个人防护装备分类的所述第二模型包括：

确定所述多个类别中的每个类别中的图像的总数；

确定所述多个类别中具有最大图像数量的第一类别；

每次迭代基于与所述多个类别相关联的所述权重来更新所述第二模型。

13.根据权利要求12所述的方法，其中，在所述第二模型的训练期间，与类别相关联的权重被分配给该类别中的所有图像；以及

14.根据权利要求12所述的方法，其中，处理所述数据以确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性还包括：

15.根据权利要求14所述的方法，其中，所述识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联；以及

其中，所述方法还包括：确定所述多个图像中的图像的子集与事件相关联，其中，所述图像的子集处于指示不符合安全状态的类别中，其中，所述图像的子集与大于等于最小缓冲时间阈值的时间段相关联，所述图像的子集包括一个或多个时间间隙，每个时间间隙短于时间间隙阈值。

16.一种非暂时性计算机可读介质，其上存储有用于监测穿着个人防护装备的合规性的处理器可执行指令，其中，所述处理器可执行指令在被执行时促使：

从多个相机获得数据，所述数据包括与一个或多个对象相关联的多个图像；以及

处理所述数据以基于对被训练用于重新识别的第一模型的实施，来确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性；

其中，基于以下步骤，训练所述第一模型用于重新识别：

基于所述相似性损失，来更新所述第一模型。

17.根据权利要求16所述的非暂时性计算机可读介质，其中，所述处理器可执行指令在被执行时还促使：训练用于个人防护装备分类的第二模型，其中，训练用于分类的所述第二模型包括：

确定所述多个类别中的每个类别中的图像的总数；

确定所述多个类别中具有最大图像数量的第一类别；

18.根据权利要求17所述的非暂时性计算机可读介质，其中，在所述训练期间，与类别相关联的权重被分配给该类别中的所有图像；以及

19.根据权利要求17所述的非暂时性计算机可读介质，其中，处理所述数据以确定与所述多个图像相关联的所述一个或多个对象穿着个人防护装备的合规性还包括：

20.根据权利要求19所述的非暂时性计算机可读介质，其中，所述识别和分类结果包括所述多个图像，并且所述多个图像中的每个图像与时间戳、标识和安全状态相关联；以及

其中，所述处理器可执行指令在被执行时还促使：确定所述多个图像中的图像的子集与事件相关联，其中，所述图像的子集处于指示不符合安全状态的类别中，所述图像的子集与大于等于最小缓冲时间阈值的时间段相关联，所述图像的子集包括一个或多个时间间隙，每个时间间隙短于时间间隙阈值。