CN115131765A

CN115131765A - 多用途车辆和用于多用途车辆的相应装置、方法和计算机程序

Info

Publication number: CN115131765A
Application number: CN202210287158.6A
Authority: CN
Inventors: J·亨斯巴勒; L·M·皮斯特; T·雅各布森
Original assignee: Grezper Technology Co ltd
Current assignee: Grezper Technology Co ltd
Priority date: 2021-03-25
Filing date: 2022-03-23
Publication date: 2022-09-30
Also published as: JP2022151735A; KR20220133810A; JP7443409B2; US20220307231A1; EP4064118A1

Abstract

本公开的各种示例涉及一种多用途车辆以及用于多用途车辆的相应装置、方法和计算机程序。该装置包括至少一个接口，用于从多用途车辆的一个或多个摄像头获得视频数据。该装置还包括一个或多个处理器。该一个或多个处理器被配置为识别或重识别在视频数据中示出的一个或多个人。该一个或多个处理器被配置为基于对在视频数据中示出的一个或多个人的识别或重识别来确定一个或多个人在围绕多用途车辆的一个或多个安全区域上的违规行为。该一个或多个处理器被配置为向输出设备提供指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号。

Description

多用途车辆和用于多用途车辆的相应装置、方法和计算机程序

技术领域

本公开的各种实施例涉及一种多用途车辆以及用于多用途车辆的相应装置、方法和计算机程序。

背景技术

车辆的安全性是一个研发领域。例如，在个人车辆中，基于摄像头的人体检测先前已用于导航和安全执法。例如，在一些现代车辆中，可以自动识别出行人并以三维或自上而下的视图对其进行可视化。另外，可以给出警告，或者车辆可以自动制动。在个人车辆(例如轿车)中，摄像头通常被放置在低高度(例如，大约1m)，这使得难以使用基于图像的方法评估从车辆到人的实际三维位置的距离。例如，在这样的设置中，一个在近处的小人和一个在远处的大人可能在视觉上看起来相似。

类似的系统也用于施工机械。施工机械通常比个人车辆大，因此摄像头被放置在比个人车辆略高的高度。然而，有关基于图像计算距离的挑战仍然存在。另外，这种系统通常仅提供基本功能，例如检测施工机械的一定距离范围内的人。

发明内容

本公开的各个方面基于以下发现：在施工现场，不同的人具有允许他们执行不同任务的不同角色，并且可以假设不同的人对施工现场的施工机械的运动具有不同水平的认识。例如，非熟练工人的认识水平可能低于工头，工头可能被允许执行非熟练工人所不能的其他任务。类似地，与涉及施工现场的不同方面的工人相比，负责指挥施工车辆操作的人可能对施工车辆的运动具有更高水平的认识。因此，负责指挥施工车辆操作的人可被允许位于施工车辆周围的安全区域内，而涉及施工现场的不同方面的工人可能不被允许位于安全区域内。因此，基于对在多用途车辆(例如施工车辆)周围的安全区域中的人进行检测的安全构想可以考虑该人的身份。例如，取决于所述人的身份，可能容许所述人出现在所述多用途车辆周围的安全区域中(例如，如果在安全区域中检测到工头或负责指挥多用途车辆的操作的人)，或者可能检测到对安全区域的违规行为(例如，如果在安全区域中检测到非熟练工人或涉及施工现场的不同方面的工人)。

本公开的各个方面涉及一种用于多用途车辆的装置。所述装置包括至少一个接口，用于从所述多用途车辆的一个或多个摄像头获得视频数据。所述装置还包括一个或多个处理器。所述一个或多个处理器被配置为识别或重识别在所述视频数据中示出的一个或多个人。所述一个或多个处理器被配置为基于对所述视频数据中示出的所述一个或多个人的识别或重识别来确定所述一个或多个人在围绕所述多用途车辆的一个或多个安全区域上的违规行为。所述一个或多个处理器被配置为向输出设备提供指示所述一个或多个人在所述一个或多个安全区域上的违规行为的至少一个信号。通过识别或重识别所述一个或多个人，可以在具有不同认识水平的人之间或在对于在施工现场执行任务具有不同权限的人之间进行区分。

可以使用几种方法之一来执行对所述一个或多个人的识别或重识别。例如，一个或多个处理器可以被配置为使用对视频数据的面部识别来识别一个或多个人。当使用面部识别时，可以通过提供一个新人的面部的一张或多张照片，用所述装置对该人进行注册。

或者，可以使用(视觉)人员重识别来重识别所述一个或多个人。与寻求确定人的绝对身份的识别相比，视觉人员重识别的目的是仅从人的外表来对其进行区分或重识别。所述一个或多个处理器可以被配置为使用被训练用于人员重识别的机器学习模型来重识别所述一个或多个人。在这种情况下，可以通过提供代表一个新人的所谓的重识别代码，用所述装置对该人进行注册。

可替换地或附加地，由所述一个或多个人携带或佩戴的外部标识可用于识别所述一个或多个人。例如，所述一个或多个处理器可以被配置为通过在所述视频数据中检测由所述一个或多个人携带(例如，佩戴)的视觉标识(例如具有机器可读代码的徽章)来识别所述一个或多个人。可替换地或附加地，所述一个或多个处理器可以被配置为通过检测由所述一个或多个人携带的有源信标(例如有源无线电信标或有源视觉信标)来识别所述一个或多个人。无源视觉标识(例如包括在徽章中的视觉标识或印刷在附着于安全头盔的标签上的视觉标识)容易实施，因其可以打印出来并作为徽章的一部分进行佩戴，而有源信标更容易检测，代价是相应的人需要携带/佩戴额外的硬件。与有源信标相反，无源视觉标识可以在不对其相应的内容进行有源传输的情况下传送所述内容。

总体而言，用于在图像中检测人的机器学习模型通常被训练成预测所述人周围的所谓“边界框”的位置，该边界框即一方面完全包围相应人而另一方面尽可能小的矩形框。所述边界框可用于例如通过确定所述边界框与所述一个或多个安全区域之间的重叠来确定所述一个或多个人在所述一个或多个安全区域上的违规行为。为了提高检测的准确性，可以例如使用姿态估计技术以更高的精度跟踪所述一个或多个人的轮廓。例如，所述一个或多个处理器可以被配置为使用机器学习模型来处理所述视频数据，以确定所述视频数据中示出的一个或多个人的姿态信息。所述机器学习模型可以被训练成基于视频数据生成姿态估计数据。所述一个或多个处理器可以被配置为基于对所述视频数据中示出的所述一个或多个人的姿态信息来确定所述一个或多个人在所述一个或多个安全区域上的违规行为。例如，可以使用所述一个或多个人的肢体的实际轮廓来确定违规行为，而不是通过检测矩形边界框和所述一个或多个安全区域的重叠来确定所述违规行为。

在一些示例中，可以针对所述视频数据的每个帧单独地计算所述姿态信息以及相应的在所述一个或多个安全区域上的违规行为。或者，可以在多个帧上分析所述视频数据，并且当确定违规行为时，可以考虑相应姿态的进展。例如，所述机器学习模型可以被训练成输出姿态估计数据，该姿态估计数据具有关于如在所述视频数据的多个帧的过程中所示的所述一个或多个人的姿态随时间的进展的信息。所述一个或多个处理器可以被配置为基于所述一个或多个人的姿态随时间的进展来确定关于所述一个或多个人的预测的行为的信息，并且基于所述一个或多个人的所述预测的行为来确定所述一个或多个人在所述一个或多个安全区域上的违规行为。例如，所述预测的行为可以示出相应的人是否朝向或远离所述一个或多个安全区域移动，或者相应的人是否表现出疏忽或不安全的行为。

因此，所述一个或多个处理器可以被配置为基于所述一个或多个人的姿态随时间的进展来确定所述一个或多个人的疏忽或不安全的行为，并且基于所确定的疏忽或不安全的行为来确定对所述一个或多个安全区域的违规行为。换句话说，可以分析所述一个或多个人的行为来估计相应的一个或多个人的认识水平。

附加地或替代地，所述一个或多个处理器可以被配置为基于所述一个或多个人的姿态的进展来估计所述一个或多个人相对于所述一个或多个安全区域的路径，并且基于所估计的所述一个或多个人的路径来确定在所述一个或多个安全区域上的违规行为。例如，如果相应的人朝向所述一个或多个安全区域中的一个运动，则可以检测到违规行为，而如果相应的人远离所述一个或多个安全区域运动，则可以忽略违规行为。

例如，所述一个或多个处理器可以被配置为基于所述一个或多个人的姿态生成围绕所述一个或多个人的一个或多个多边形边界区域，并且基于所生成的一个或多个多边形边界区域确定所述一个或多个人的姿态在所述一个或多个安全区域上的违规行为。如上所述，跟随所述一个或多个人的姿态的多边形边界区域可以比矩形边界框更精确。

在许多施工现场，对着装都有规定。例如，在许多施工现场，安全帽、安全靴和/或安全背心是强制性的。此外，某些物品可能被禁止，如个人背包。所述一个或多个处理器可以被配置为使用机器学习模型来检测所述一个或多个人是否携带多个预定义的物品中的至少一个，其中所述机器学习模型被训练成在所述视频数据中检测所述多个预定义的物品。还可以基于所述一个或多个人是否携带所述至少一个物品来确定所述一个或多个人在所述一个或多个安全区域上的违规行为。例如，所述多个预定义的物品可以包括一个或多个安全服装物品和/或一个或多个违禁物品。例如，携带强制性安全装备的人可以被允许进入所述一个或多个安全区域，而不携带强制性安全装备或携带违禁物品的人可能不被允许进入所述一个或多个安全区域。

总体而言，多用途车辆可能会在施工现场周围运动。取决于其运动，所述一个或多个安全区域可以改变。例如，当所述多用途车辆向前运动时，所述一个或多个安全区域可以(大部分)在所述车辆的前面。例如，所述一个或多个处理器可以被配置为确定所述多用途车辆的未来路径，并且基于所述多用途车辆的所述未来路径确定或调整所述一个或多个安全区域的范围。

指示违规行为的信号有各种可能的实现方式。例如，指示所述一个或多个人在所述一个或多个安全区域上的违规行为的所述至少一个信号可以包括显示信号和/或音频信号，例如用于在显示器上说明违规行为和/或给出听得见的报警信号。

例如，指示所述一个或多个人在所述一个或多个安全区域上的违规行为的所述至少一个信号可以包括显示信号，该显示信号包括所述一个或多个人相对于所述一个或多个安全区域的视觉表示。例如，可以将所述显示信号提供给所述多用途车辆的显示器或所述多用途车辆的用户的显示器。例如，所述视觉表示可以示出所述视频数据，其上覆盖示出所述一个或多个安全区域以及勾勒所述一个或多个人的所述(多边形)边界框。

在各种示例中，所述一个或多个处理器可以被配置为无论是否确定有违规行为都生成所述显示信号，其中在所述显示信号内以与不对所述一个或多个安全区域违规的人不同的颜色突出显示对所述一个或多个安全区域违规的人。这样，也可以使操作所述多用途车辆的人知道允许在所述安全区域内的人。

在一些示例中，指示所述一个或多个人在所述一个或多个安全区域上的违规行为的所述至少一个信号可以包括音频警告信号。例如，可以将所述音频(警告)信号提供给位于所述多用途车辆的车厢内的扬声器和/或适于警告所述多用途车辆外部的所述一个或多个人的扬声器。例如，提供给位于车厢内的扬声器的音频信号可用于警告从所述多用途车辆内部操作所述车辆的人，而提供给适于警告所述多用途车辆外部的一个或多个人的扬声器的音频信号可用于警告所述一个或多个人(例如，如果确定了违规行为)。

在各种示例中，所述视频数据包括所述一个或多个安全区域的来自上方的视图。例如，来自上方的视图可以便于检测所述一个或多个人在所述一个或多个安全区域上的违规行为。

本公开的各种示例涉及一种用于多用途车辆的相应方法。所述方法包括从所述多用途车辆的一个或多个摄像头获得视频数据。所述方法包括识别或重识别在所述视频数据中示出的一个或多个人。所述方法包括基于对所述视频数据中示出的所述一个或多个人的识别或重识别来确定所述一个或多个人在围绕所述多用途车辆的一个或多个安全区域上的违规行为。所述方法包括向输出设备提供指示所述一个或多个人在所述一个或多个安全区域上的违规行为的至少一个信号。

本公开的各种示例涉及一种计算机程序，该计算机程序具有当所述计算机程序在计算机、处理器、处理电路或可编程硬件部件上执行时用于执行上述方法的程序代码。

本公开的各种示例涉及一种多用途车辆，该多用途车辆包括上述装置和/或被配置为执行上述方法。所述多用途车辆包括一个或多个摄像头。例如，上述装置可以集成到所述多用途车辆中，或者所述方法可以由所述多用途车辆执行，以提高所述多用途车辆操作的安全性。例如，所述一个或多个摄像头可以被布置在所述多用途车辆的车厢顶部，或者所述一个或多个摄像头可以被布置在从所述多用途车辆的车厢顶部延伸的平台处。这两种放置方式都适于提供所述一个或多个安全区域的来自上方的视图。

附图说明

下面将仅通过示例的方式并参照附图来描述装置和/或方法的一些示例，其中：

图1a示出了用于多用途车辆的装置的示例的框图；

图1b示出了包括装置的多用途车辆(特别是施工车辆)的示例的示意图；

图1c和图1d示出了用于多用途车辆的方法的示例的流程图；

图2示出了包括两个摄像头、处理部件以及输入输出部件的系统的示意图；

图3a和图3b示出了将摄像头放置在车辆顶部的示例；

图4a至图4c示出了在多用途车辆周围的安全区域中检测到的人的可视化效果的示例；以及

图5a至图5h示出了静态姿态或信号姿态的示例的示意图。

具体实施方式

现在参照附图更详细地描述一些示例。然而，其它可能的示例并不限于这些详细描述的实施例的特征。其它示例可以包括这些特征的修改以及这些特征的等同和替换特征。此外，本文中用于描述某些示例的术语不应限制其他可能的示例。

在对附图的整个描述中，相同或相似的附图标记指代相同或相似的元件和/或特征，这些元件和/或特征可以相同或以经过修改的形式实施，同时提供相同或相似的功能。为了清楚起见，图中的线、层和/或区域的厚度也可能进行了夸大。

除非在个别情况下另有明确定义，当使用“或”来组合两个元件A和B时，这将被理解为公开了所有可能的组合，即仅A、仅B以及A和B。作为相同组合的另一种措辞，可以使用“A和B中的至少一个”或“A和/或B”。这同样适用于两个以上元件的组合。

如果使用单数形式，例如“一个”、“一种”和“该”，并且没有明确或隐含地将仅使用单个元件定义为强制性，则另外的示例也可以使用几个元件来实现相同的功能。如果一个功能在下文被描述为使用多个元件来实现，则另外的示例可以使用单个元件或单个处理实体来实现相同的功能。还应当理解，术语“包括”和/或“包含”在使用时描述特定特征、整体、步骤、操作、过程、元件、部件和/或其组合的存在，但不排除一个或多个其它特征、整体、步骤、操作、过程、元件、部件和/或其组合的存在或添加。

本公开的各种示例总体上涉及多用途车辆(例如施工车辆)，具体而言，涉及用于多用途车辆自动安全实施的构想以及用于控制多用途车辆的构想。

在下文中，给出了用于多用途车辆的装置、包括这种装置的多用途车辆以及相应方法和计算机程序的各种示例。以下示例基于对多用途车辆附近的人的基于图像的自动检测，用于安全实施或用于控制多用途车辆。

图1a示出了用于多用途车辆100的装置10的示例的框图。装置10包括至少一个接口12以及一个或多个处理器14。可选地，装置10还包括一个或多个存储设备16。一个或多个处理器14耦合到至少一个接口12以及可选的一个或多个存储设备16。总体而言，该装置的功能由一个或多个处理器14在至少一个接口12(用于例如与多用途车辆的一个或多个摄像头102、多用途车辆的一个或多个输出设备108和/或一个或多个移动设备20交换信息，如图1b所示)的帮助下和/或在一个或多个存储设备16(用于存储信息)的帮助下来提供。例如，至少一个接口可以适于和/或被配置为从多用途车辆的一个或多个摄像头102获得视频数据。

图1b示出了包括装置10的多用途车辆100(特别是施工车辆)的示例的示意图。图1b所示的施工车辆是前装载机。然而，相同的构想也可用于其它多用途车辆或施工车辆。例如，多用途车辆可以是挖掘机、压实机、推土机、平地机、起重机、装载机、卡车、叉车、道路清扫机、拖拉机、联合收割机等中的一种。例如，多用途车辆可以是陆地车辆。然而，相同的构想也可以应用于其它设备，例如机器人，例如固定机器人(例如，在制造环境中使用的固定机器人)或能够运动的移动或车辆机器人。因此，机器人可以包括装置10以及一个或多个摄像头102。如上面所指出的，多用途车辆100包括一个或多个摄像头102，该一个或多个摄像头102被布置在图1b所示的前装载机的车厢104的顶部。多用途车辆可以包括一个或多个附加部件，例如一个或多个输出设备108。例如，多用途车辆可以包括显示器108a、布置在车厢104中的扬声器108b和布置在车厢104外部的扬声器108c中的一个或多个。

总体而言，多用途车辆100的各个方面由装置10控制。由装置10提供的功能又可以关于结合图1c和/或1d介绍的相应方法来表达。例如，一个或多个处理器14可以被配置为在至少一个接口12(用于交换信息)和/或可选的一个或多个存储设备16(用于存储信息)的帮助下执行图1c和/或1d的方法。

图1c和图1d示出了用于多用途车辆100的相应(计算机实现的)方法的示例的流程图。该方法包括从多用途车辆的一个或多个摄像头获得110视频数据。该方法包括识别160或重识别视频数据中示出的一个或多个人。该方法还包括基于对视频数据中示出的一个或多个人的识别或重识别来确定170一个或多个人在围绕多用途车辆的一个或多个安全区域上的违规行为。该方法包括向输出设备提供180指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号。如图1d所示，该方法可以包括结合装置10和/或多用途车辆100介绍的一个或多个附加的可选特征。

下面的描述涉及装置10、多用途车辆100、图1c和/或1d的相应方法以及相应的计算机程序。结合装置10和/或多用途车辆100介绍的特征同样可以应用于相应的方法和计算机程序。

本公开的示例涉及对由多用途车辆的一个或多个摄像头提供的视频数据的分析。图2示出了包括两个摄像头102、处理部件200以及输入/输出部件210的系统的示意图。例如，处理部件200和/或输入/输出部件210可以由图1a和图1b的装置10例如结合用于输入/输出部件210的输出设备108a-108c来实现。图2示出了所提出的构想的高层次抽象，其中视频数据由一个或多个摄像头102生成，然后由一个或多个算法200(其可以使用能够用一个或多个机器学习模型来实现的深度网络过程)分析，然后经由输入/输出部件210例如作为可视化效果、听觉信号或作为用于控制多用途车辆的一个方面的控制信号进行输出。

因此，一个或多个处理器14被配置为从车辆的一个或多个摄像头102(如图1a和图1b所示)获得视频数据。在一些情况下，多用途车辆可以包括单个摄像头，例如单个2D摄像头或单个深度摄像头。然而，在一些示例中，车辆可以包括多个摄像头(即，两个或更多个摄像头)，这些摄像头可以覆盖多用途车辆周围的多个区域。在一些示例中，多个摄像头可以覆盖多用途车辆周围的多个非重叠区域。然而，在一些示例中，多用途车辆周围的多个区域可以部分重叠。例如，在视频数据分析中至少一个或多个感兴趣的区域可以被两个或更多个摄像头覆盖，以例如实现或帮助三维姿态估计和/或避免人被物体遮挡。

在一些示例中，从两个或更多个摄像头获得视频数据。例如，两个或更多个摄像头的视频数据的视场可以被“展开”以形成车辆周围环境的单个、统一的自上而下的视图。或者，从摄像头获得的视频数据可以各自进行处理(例如，使用机器学习模型)，而不是在统一视图中“展开”(然后进行处理)。例如，可以记录视频数据(例如统一视图或单独视图)，以供以后使用。

在许多情况下，多用途车辆(例如施工车辆)是高大的车辆。例如，卡车、起重机、压实机等可以是三米高(或甚至更高)，车厢通常放置在两米或更高的高度。该离地高度可用于获得对多用途车辆周围区域的概览，可进一步有助于避免人员遮挡。此外，将摄像头放置在高处有助于获得对多用途车辆附近的人(和物体)的准确位置的概览。因此，一个或多个摄像头可以被放置在车辆的顶部，例如，在多用途车辆的车厢104的顶部处或其上方。例如，可以在车辆的位于高处(例如，在多用途车辆的操作员的车厢顶上)的每个“角落”放置两到四个(或多于四个，或甚至只有一个)摄像头。虽然该构想可以通过使用单个摄像头来实现，但是该摄像头的视野可能在施工现场被遮挡。

图3a和图3b示出了将摄像头102放置在多用途车辆300、310顶部的示例。图3a示出了从上方观察的车辆二维图，其中摄像头102被放置在车辆的“角落”处。在图3a中，四个摄像头102被放置在多用途车辆300的车厢104顶部的角落处。图3b示出了车辆的正视图的二维图。在图3b中，摄像头102被放置在高处(使得能够对人容易地进行概览并准确定位)，例如被布置在从多用途车辆的车厢顶部延伸的平台106处。例如，可以从车厢104的顶部升起可伸缩杆来形成平台106。例如，平台106可以在车厢104顶部上方至少一米。此外，一个或多个摄像头可以被放置在地面以上至少两米(或至少三米)的高度处。因此，视频数据可以包括来自上方的视图，例如，来自上方的关于一个或多个人的视图，或者来自上方的关于围绕多用途车辆的一个或多个安全区域的视图。来自摄像头的视图可以一起覆盖多用途车辆周围的区域，例如一个或多个安全区域。

在本公开的各种示例中，分析视频数据以识别视频数据中示出的一个或多个人的姿态。例如，该分析可以借助于被训练成基于视频数据生成姿态估计数据的机器学习模型(进一步表示为“姿态估计机器学习模型”)来执行。例如，姿态估计机器学习模型可以被训练成对视频数据执行姿态估计。换句话说，一个或多个处理器可以被配置为使用姿态估计机器学习模型来处理视频数据，以确定视频数据中所示的一个或多个人的姿态信息。相应地，该方法可以包括使用姿态估计机器学习模型来处理120视频数据，以确定姿态信息。

总体而言，姿态信息对视频数据中示出的一个或多个人采取的(身体)姿态进行标识。在本公开的背景下，人的姿态可以基于一个或多个人的肢体的相对位置和角度，或由一个或多个人的肢体的相对位置和角度形成。例如，一个或多个人中的每一个可以由所谓的姿态估计骨架来表示，该骨架包括多个关节和多个肢体。然而，姿态估计骨架的术语“关节”和“肢体”是在抽象意义上使用，不一定意味着与医学中使用的术语相同。姿态估计骨架可以是图，其中关节是图中的顶点，肢体是图中的边。在姿态估计骨架中，关节通过肢体互连。虽然用于构建姿态估计骨架的一些肢体对应于其生物学上的对应物，例如“上臂”、“下臂”、“大腿”和“小腿”，但是姿态估计骨架可以包括在生物学意义上不被认为是肢体的一些肢体，例如代表脊柱的肢体、连接肩关节的肢体或连接髋关节的肢体。实际上，肢体连接关节，类似于图形中的边连接顶点。例如，肢体可以在连接相应肢体的关节处相对于彼此旋转。例如，姿态估计机器学习模型可以被训练成基于视频数据输出姿态估计骨架(例如，以图的形式)。

在一些示例中，姿态估计机器学习模型可以被训练成输出二维姿态估计数据。换句话说，一个或多个人的姿态信息可以基于或包括关于一个或多个人的姿态的二维姿态估计数据。在这种情况下，姿态估计数据可以包括姿态估计骨架，其中骨架的关节在二维空间中定义，例如在与视频数据的帧的坐标系相对应的坐标系中定义。例如，视频数据可用作姿态估计机器学习模型的输入，并且可以由姿态估计机器学习模型输出二维姿态估计数据。各种公知的机器学习模型可用于该任务，例如深度姿态(DeepPose)或用于人类姿态估计的深度高分辨率表示学习(Deep High-Resolution Representation Learning for HumanPose Estimation，HRNet)。这样的二维姿态估计数据可以满足姿态信息的后续处理。

然而，在一些示例中，可以使用三维姿态估计数据，即，一个或多个人的姿态信息可以包括或基于关于一个或多个人的姿态的三维姿态估计数据，并且/或者姿态估计骨架的关节位置可以在三维坐标系中定义。例如，姿态估计机器学习模型可以被训练成执行二维姿态估计。在一些示例中，姿态估计机器学习模型可以被训练成基于来自多个摄像头的从多个观察角度示出一个或多个人的视频数据来执行三维姿态估计。例如，多个观察角度可以示出由放置在空间区域周围的多个摄像头记录的一个或多个人在该空间区域中的运动和姿态。或者，姿态估计机器学习模型可以被训练成基于来自单个摄像头的视频数据来执行三维姿态估计。在这种情况下，例如，当仅来自单个摄像头的视频数据可用时，或者如果一个或多个附加摄像头的视场被遮挡，则来自单个摄像头的视频数据可以足以确定三维姿态。

或者，可以基于二维姿态估计数据生成三维姿态估计数据。一个或多个处理器可以被配置为例如使用另一机器学习模型或使用基于不同观察角度的姿态估计数据的多个时间同步样本的三角测量，对二维姿态估计数据进行后处理以生成三维姿态估计数据。

总体而言，视频数据包括视频数据的多个帧。在一些示例中，姿态估计机器学习模型可以被训练成针对视频数据的多个帧中的每个帧单独地生成和输出姿态估计数据。或者，姿态估计机器学习模型可以被训练成例如通过跨帧跟踪姿态估计骨架的关节来跨帧生成姿态估计数据。这可用于跟踪跨越视频数据的多个帧的姿态进展。因此，姿态估计机器学习模型可以被训练成输出具有关于人的姿态随时间的进展(如在多个帧的过程中所示)的信息的姿态估计数据，并且姿态信息可以包括关于人的姿态随时间的进展(如在视频数据的多个帧的过程中所示)的信息。例如，关于人的姿态随时间的进展的信息可以包括或用于生成姿态的进展的动画。例如，关于姿态的进展的信息(例如动画)可以由另一机器学习模型/深度网络进一步处理，以提供关于人随时间的运动的详细信息。例如，姿态信息可以包括针对视频数据的每个帧或帧的子集的二维或三维姿态估计数据。

在一些情况下，视频数据可以示出多个人。在这种情况下，姿态估计机器学习模型可以针对每个人单独输出姿态估计数据。例如，姿态估计机器学习模型的输出可以枚举识别出的人并输出每个识别出的人的姿态估计数据。因此，姿态估计机器学习模型还可以被训练成执行人物分割，以便分离视频数据中可见的多个人。例如，姿态估计机器学习模型可以被训练成使用人的位置、人的视觉外观、人的身体姿态、相应人的肢体长度或使用人的重识别来对人进行区分。然而，在一些情况下，可以基于姿态估计机器学习模型的输出单独地执行分割(例如，通过单独的机器学习模型或通过分割算法)。例如，如果视频数据示出多个人，则一个或多个处理器可以被配置为基于姿态估计机器学习模型的输出来分割这些人的姿态估计数据。

根据本公开的第一方面，视频数据用于检测在多用途车辆周围的一个或多个安全区域中一个或多个人的存在。例如，可以获得来自一个或多个2D摄像头的视频帧，可以使用深度神经网络在视频数据内检测人体部位，并且如果人在一个或多个安全区域内(即，太靠近移动和操作中的施工车辆)，则可以生成警告。

例如，一个或多个处理器可以被配置为确定一个或多个人在多用途车辆周围的一个或多个安全区域上的违规行为。总体而言，一个或多个安全区域可以是围绕多用途车辆的一个或多个“危险”区域。换句话说，可以检查一个或多个安全区域是否有违规行为，因为多用途车辆可能对存在于一个或多个安全区域内的人构成危险。例如，在多用途车辆运动(通过使用其车轮)的情况下，或者在多用途车辆的部件运动的情况下(例如，在挖掘机的平台相对于挖掘机的框架旋转的情况下，或者在挖掘机铲运动的情况下)，一个或多个安全区域可能是潜在危险的。因此，由于多用途车辆的潜在运动，多用途车辆周围的一个或多个安全区域可能是危险的。

在一些示例中，一个或多个安全区域的位置可以具有静态尺寸并且相对于多用途车辆处于静态位置。然而，在一些示例中，一个或多个安全区域可以改变。例如，一个或多个安全区域可以由多用途车辆的操作员例如经由多用途车辆的触摸屏显示器108a(如图1b所示)来限定。多用途车辆的操作员可以认识到该多用途车辆的潜在运动，并因此相应地调整一个或多个安全区域。可替换地或附加地，可以自动地调整一个或多个安全区域。例如，一个或多个处理器可以被配置为自动调整一个或多个安全区域的范围(即，相对于多用途车辆的尺寸和位置)。如上所述，安全区域被设计成覆盖多用途车辆周围的危险区域，这些危险区域通常是由于多用途车辆的至少一个部件的潜在运动。因此，一个或多个处理器可以被配置为确定多用途车辆的未来路径，并且基于多用途车辆的未来路径确定一个或多个安全区域的范围。例如，一个或多个处理器可以被配置为基于多用途车辆的当前运动和转向角，或者基于后视摄像头系统的路径预测来确定多用途车辆的未来路径。例如，一个或多个安全区域的范围可以覆盖该多用途车辆通过在预测的未来路径上行驶而可能在几秒内(例如以每小时5公里行驶5秒)到达的多用途车辆周围的区域。

在本公开的背景下，术语“安全区域”可以表示车辆周围的物理位置。然而，“安全区域”也可以表示视频数据中示出的视场(或多个视场)的至少一部分。例如，多用途车辆周围的一个或多个安全区域可以在视频数据中示出的视场的一个或多个部分中示出。如果视频数据从上方示出一个或多个安全区域，则视频数据中示出的人与一个或多个安全区域之间相交可以指示人在安全区域内。摄像头被放置得越高，在视频数据中与一个或多个安全区域相交的人与在一个或多个安全区域的物理位置处进入一个或多个安全区域的人之间的匹配越好。

在图4a至图4c中，示出了该构想的可视化效果。图4a至图4c示出了在多用途车辆周围的安全区域400中检测到的人410的可视化效果的示例。在图4a至图4c中，使用上述“统一视图”，其中图像由多个(在本案例中为两个)摄像头的视频数据组成。在视频数据的统一视图中，用户定义的指示一个或多个安全区域的区域400(其可以以中间为中心，例如使用钻石形状作为默认形状)可以定义可能不允许人进入的危险区域。在图4a中，示出了由多边形(非矩形)边界框勾勒出的人朝向形成钻石形状400的两个安全区域的轮廓行走。在图4a中，人在安全区域之外，因此可以以第一颜色(例如，绿色)示出人的多边形边界区域。在图4b中，人410在安全区域内，示出(人410的脚)在安全区域400内部。在这种情况下，可以以第二颜色(例如，红色)示出多边形边界区域。在图4c中，人已经离开视场。

在各种示例中，可以使用不同级别的安全区域。例如，一个或多个安全区域可以就安全区域有多危险以及在安全区域内允许哪些类型的人或哪种行为而有所不同。例如，可以定义危险水平逐渐增加的几个安全区域，并且当违规行为发生时，可以提供强度逐渐增加的警告信号。

基于视频数据确定一个或多个人在一个或多个安全区域上的违规行为。例如，在简单示例中，被训练用于人员检测的机器学习模型可用于在视频数据中示出的人周围生成矩形边界框，或者输出在视频数据中示出的人的坐标。如果矩形边界框或坐标与视频数据中示出的一个或多个安全区域相交，则可以检测到一个或多个人在一个或多个安全区域上的违规行为。

如图4a和图4b所示，可以检测到更详细的身体姿态，而不是简单的人体检测(坐标点或边界框)。换句话说，可以执行身体姿态分析。这使得可以对一个或多个安全区域进行更准确的检测。例如，姿态信息(特别是姿态估计数据)可用于确定一个或多个人在一个或多个安全区域上的违规行为。换句话说，一个或多个处理器可以被配置为基于对视频数据中示出的一个或多个人的姿态信息来确定一个或多个人在一个或多个安全区域上的违规行为。例如，不使用除了相应的人之外还包围大量空白空间的矩形边界框，而是可以基于由姿态估计机器学习模型生成的姿态估计数据的关节(和肢体)的位置来重新绘制边界框。例如，一个或多个处理器可以被配置为基于一个或多个人的姿态生成围绕一个或多个人的一个或多个多边形边界区域。例如，一个或多个多边形边界区域可以是非矩形的(或者至少不必是矩形的)，但是跟随代表由边界框勾勒出的相应人的姿态估计骨架的肢体和关节。例如，如图4a和图4b所示，肢体的凸包(即，进行包围的最小凸多边形)可用于生成一个或多个多边形边界区域。一个或多个处理器可以被配置为基于所生成的一个或多个多边形边界区域来确定一个或多个人的姿态在一个或多个安全区域上的违规。例如，如果多边形边界区域与视频数据中示出的一个或多个安全区域相交，则可以检测到一个或多个人在一个或多个安全区域上的违规行为。

可替换地或附加地，可以基于一个或多个相应的姿态估计骨架来识别一个或多个人的脚，并且如果一个或多个人的脚与视频数据中示出的一个或多个安全区域相交，则可以确定违规行为。换句话说，一个或多个处理器可以被配置为基于一个或多个人的一个或多个姿态估计骨架的脚与视频数据中示出的一个或多个安全区域相交来确定一个或多个人在一个或多个安全区域上的违规行为。

在一些示例中，不仅可以考虑由一个或多个人采取的静态姿态。当分析视频数据时，可以跨视频数据的多个帧跟踪一个或多个人的一个或多个姿态，并且可以确定一个或多个人的姿态的进展。该姿态的进展可用于推断一个或多个人的行为。例如，不是基于在单个帧中示出的姿态来确定在一个或多个安全区域上的违规行为，而是可以分析行为以确定例如违规行为是否只是暂时的(因为相应的人将要离开一个或多个安全区域)，或者是否根本存在违规行为(因为一个或多个安全区域的危险性质可能取决于相关人员是否专心)。通过使用基于图像的机器学习算法(例如深度网络)来识别身体部位，可以提取关于图像中可见的人的行为信息。附加图像识别的使用使得可以推断人的行为以增加准确性，例如区分正在跑开或保持静止的人。

例如，一个或多个处理器可以被配置为基于一个或多个人的姿态的进展来估计一个或多个人相对于一个或多个安全区域的路径。例如，由相应的人采取的姿态可以指示该人的取向(例如，基于该人的目光)，并且姿态的进展可以指示该人(究竟)是否正在行走。基于取向并且基于人是否在行走，可以估计相应人的路径。一个或多个处理器可以被配置为基于所估计的一个或多个人的路径来确定在一个或多个安全区域上的违规行为。例如，如果所估计的人的路径指示该人将要(例如，在接下来的1到2秒内)离开一个或多个安全区域，则违规行为可以忽略。如果所估计的人的路径指示该人可能留在一个或多个安全区域，则可以认为对该一个或多个安全区域违规。

附加地或可替换地，可以针对一个或多个人的注意力来分析一个或多个人的行为。例如，一个或多个处理器可以被配置为基于一个或多个人的姿态随时间的进展来确定关于一个或多个人的预测的行为的信息。因此，该方法可以包括基于一个或多个人的姿态随时间的进展来确定140关于一个或多个人的预测的行为的信息。例如，可以基于一个或多个人的预测的行为来确定一个或多个人在一个或多个安全区域上的违规行为。使用对一个或多个人的身体姿态或运动的分析，可以识别例如疏忽的人(例如，通过分析注视方向)、参与不安全活动的人或表现出不希望的行为(例如坐、躺或类似行为)的人。例如，一个或多个处理器可以被配置为基于一个或多个人的姿态随时间的进展来确定一个或多个人的疏忽或不安全的行为。例如，一个或多个处理器可以被配置为将一个或多个人的姿态和/或一个或多个人的姿态的进展跟与疏忽或不安全的行为(例如吃饭、打电话、看移动设备、不朝多用途车辆看、坐在安全区域中、吸烟等)相关联的多个姿态进行比较。一个或多个处理器可以被配置为基于所确定的疏忽或不安全的行为来确定对一个或多个安全区域的违规行为。例如，如果一个人表现出疏忽或不安全的行为，则可以认为他们对一个或多个安全区域违规。

附加图像识别的使用还使得可以推断用于策略实施的附加特征。在所提出的构想的各种示例中，除了一个或多个人之外，还可以同时识别场景中的物体。例如，图像识别和分类(例如，使用分类机器学习模型)可用于识别视频数据中所示的物体，例如，在一个或多个人处理过程中自由放置的障碍物或物体。一个或多个处理器可以被配置为使用另一机器学习模型(进一步表示为“物体检测机器学习模型”)来检测一个或多个人是否携带多个预定义的物品中的至少一个。该方法可以包括检测一个或多个人是否携带多个预定义的物品中的至少一个。例如，可以分析视频数据以检测安全头盔、高能见度安全背心、移动电话、铲子或其它设备等。此特征可用于施工现场的策略实施。例如，在施工现场，安全帽/头盔、钢脚趾靴、安全背心等的使用可能是强制性的。特别地，结合先前描述的对身体部位的识别，通过使用物体检测机器学习模型(例如深度网络)进一步分析图像，可以检测人们是否穿着所需的施工现场安全物品，例如安全帽和高能见度背心。还可以检测一个人是否在使用例如手机的违禁物品、吃、喝或类似行为。因此，多个预定义的物品可以包括一个或多个安全服装物品(例如安全头盔(即，“安全帽”)、安全背心或钢趾靴)和/或一个或多个违禁物品(例如移动电话、香烟、个人背包等)。一个或多个处理器可以被配置为基于一个或多个人是否携带至少一个物品来确定一个或多个人在一个或多个安全区域上的违规行为。例如，如果一个或多个人中的一个人缺少一个或多个强制性安全服装，例如，如果该人没有戴安全帽、安全背心或钢脚趾靴，则可以认为该人在一个或多个安全区域上违规。如果该人穿着所有强制性安全服装，则该人在一个或多个安全区域上的违规行为可以忽略。类似地，如果发现一个或多个人中的一个人携带违禁物品，则即使相应的人在其他方面表现出注意和/或配备有强制性的安全服装，仍可认为该人在一个或多个安全区域上违规。

在各种示例中，所提出的构想可以与用于识别或重识别视频数据中示出的一个或多个人的子部件一起使用。这可以改变安全系统的行为，以匹配视频数据中的人的特别分配的角色。例如，可以允许工头或多用途车辆的操作员进入安全区域，而不熟练的工人则不允许。例如，如果多用途车辆的操作员充当多用途车辆外部的特殊“地面指挥员”，则可以允许操作员定位在一个或多个安全区域的子区域内。对人的识别或重识别可以使用基于图像的技术，例如面部识别或re-id、QR(快速响应)码或类似技术，或使用其它类型的非基于图像的识别技术，例如无线电信标(例如，蓝牙信标)或有源视觉信标(例如，红外发射器/接收器)。因此，一个或多个处理器被配置为识别或重识别在视频数据中示出的一个或多个人，并且基于对视频数据中示出的一个或多个人的识别或重识别来确定一个或多个人在一个或多个安全区域上的违规行为。换句话说，是否确定违规行为可以基于相应人的身份。对违规行为的确定可取决于相应人的身份。例如，如果两个人并排站在一个或多个安全区域中，他们中的一个可能在一个或多个安全区域上违规，而另一个可能不违规。

有各种构想能够识别或重识别一个或多个人。例如，一个或多个处理器可以被配置为使用对视频数据的面部识别来识别一个或多个人。例如，机器学习模型(进一步表示为“面部识别机器学习模型”)可以被训练成执行面部识别的各个方面。例如，面部识别机器学习模型可以被训练成对视频数据执行面部检测，并且提取检测到的面部的特征。一个或多个处理器可以被配置为将检测到的面部的提取特征与存储在面部识别数据库中的特征进行比较。例如，被允许在一个或多个安全区域中的人的特征可以存储在面部识别数据库内。可选地，明确不被允许在一个或多个安全区域中的人的特征也可以存储在面部识别数据库内。如果在面部识别数据库中发现站在一个或多个安全区域之一中的人，并且该人被允许在一个或多个安全区域中，则不会发现对一个或多个安全区域的违规行为(即，可以忽略违规行为)。如果在面部识别数据库中发现站在一个或多个安全区域之一中的人，并且该人明确不被允许在一个或多个安全区域中，或者如果在面部识别数据库中没有发现该人，则可以确定违规行为。

或者(或附加地)，可以使用人员重识别。换句话说，一个或多个处理器可以被配置为使用经训练用于人员重识别的机器学习模型(进一步表示为“人员重识别机器学习模型”)来重识别一个或多个人。与寻求确定人的绝对身份(通常从面部特征确定)的识别系统相比，视觉人员重识别系统的目的是仅从人的外表来对他们进行区分或重识别。在本公开的背景下，术语人员重识别表示人被重新识别，即，先前已经记录过的人被再次记录并与先前的记录匹配。

在各种示例中，重识别基于所谓的重识别代码，该重识别代码从视觉数据(例如视频数据)生成。人的重识别代码代表该人，并且对于一个人的不同图像而言应该是相似的。可以将一个人的重识别代码与其他的人的重识别代码进行比较。如果在第一和第二重识别代码之间找到匹配(即，如果重识别代码之间的差小于阈值)，则可以认为第一和第二重识别代码代表同一个人。为了执行重识别，使用两个部件来执行实际的重识别，一个部件用于生成重识别代码，一个部件用于评估这些重识别代码。在一些示例中，可以使用人员重识别来实现上述面部识别。例如，可以通过生成重识别代码来执行特征提取，该重识别代码可以与存储在面部识别数据库中的其他重识别代码进行比较。

可以通过基于人的图像生成重识别代码并将所生成的代码存储在一个或多个存储设备上来将人添加到重识别系统。可以训练人员重识别机器学习模型以针对视频数据中所示的每个人输出相应的重识别代码。一个或多个处理器可以被配置为使用重识别机器学习模型来对视频数据中示出的一个或多个人生成一个或多个重识别代码，并且将所存储的一个或多个重识别代码与该一个或多个人的重识别代码进行比较。如果发现匹配，则可以重识别在频数据中示出的人。根据已知该人被允许进入一个或多个安全区域还是明确不被允许进入一个或多个安全区域，可以确定违规(或不违规)。如果不能重识别在视频数据中示出的人，并且发现该人在安全区域内，则可以确定违规。

作为面部识别和/或重识别的替代或补充，辅助标识可用于识别一个或多个人。例如，可以在相应人的安全头盔上放置特殊标记(例如，代替面部识别)。在标记的帮助下，可以在场景中唯一地识别一个或多个人。使用这种标记，可以允许特别指定的辅助物或类似物出现在一个或多个安全区域中的一些中。

在下文中将介绍两种通用类型的辅助标识，即无源视觉标识和有源信标。例如，一个或多个处理器可以被配置为通过在视频数据中检测由一个或多个人携带的(无源)视觉标识来识别该一个或多个人。例如，视觉标识可以被放置在一个或多个人的背心或头盔上，或者作为一个或多个人的徽章的一部分佩戴。例如，无源视觉标识可以示出计算机可读代码，例如快速响应(QR)或其它二维视觉代码。一个或多个处理器可以被配置为在视频数据中检测视觉标识，并且基于检测到的视觉标识来识别一个或多个人。例如，可以将人的身份和/或权限编码到人的视觉标识中。或者，视觉标识可以产生代码，该代码可以在数据库中查找(通过一个或多个处理器)。

可替换地或附加地，有源信标可用于识别一个或多个人。例如，一个或多个处理器可以被配置为通过检测有源信标来识别一个或多个人，有源信标例如是由一个或多个人携带的有源无线电信标(例如，蓝牙信标)或有源视觉信标(例如，有源红外发射器)。例如，一个或多个处理器可以被配置为在视频数据中检测有源视觉信标的发射，或者使用视觉传感器(例如红外传感器)来检测有源视觉信标。类似地，一个或多个处理器可以被配置为使用无线电接收器来检测有源无线电信标的传输，该无线电接收器可以经由至少一个接口连接。例如，可以将人的身份和/或权限编码到由有源信标(例如有源视觉信标或有源无线电信标)传输的代码中，或者有源信标的传输可以产生代码，例如在蓝牙信标的情况下的媒体访问控制(Media Access Control)代码，该代码可以在数据库中查找(通过一个或多个处理器)。

在各种示例中，一个或多个处理器被配置为向输出设备提供指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号(例如，经由至少一个接口)。例如，如结合图1b所概述的，输出设备可以是显示器108a、用于在车厢中输出声音的扬声器108b或用于在多用途车辆外部输出声音的扬声器108c。因此，指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号可以包括显示信号和/或音频信号。或者，输出设备可以是移动设备20，该移动设备20可以经由无线连接与多用途车辆耦合。在这种情况下，也可以使用音频信号和/或显示信号。

例如，如结合图4a和图4b所示出的，指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号可以包括显示信号，该显示信号包括一个或多个人相对于一个或多个安全区域的视觉表示。如图4a和图4b所示，一个或多个安全区域的轮廓400和检测到的一个或多个人的轮廓410可以示为一个或多个人相对于一个或多个安全区域的视觉表示的一部分。例如，可以使或不使视频数据(例如作为统一视图或单独针对一个或多个摄像头中的每一个)对操作员可视化。因此，在视觉表示中，可以在视频数据上覆盖轮廓，或者可以示出一个或多个人和一个或多个安全区域的抽象表示。如结合图4a至图4c所说明的，一个或多个处理器可以被配置为无论是否确定违规都生成显示信号，其中在显示信号内以与不对一个或多个安全区域违规的人(例如，结合图4a提及的绿色)不同的颜色突出显示对一个或多个安全区域违规的人(例如，结合图4b提及的红色)。可以将显示信号提供给多用途车辆的显示器(例如显示器108a)或多用途车辆的用户的显示器(例如移动设备20的显示器)。

附加地或替代地，可以为多用途车辆的操作员和/或为一个或多个人提供音频警告信号。例如，指示一个或多个人在一个或多个安全区域上的违规行为的至少一个信号可以包括音频警告信号。例如，可以将音频信号提供给位于多用途车辆的车厢104内的扬声器108b、适于警告多用途车辆外部的一个或多个人的扬声器108c或移动设备20的扬声器(如图1b所示)。

在一些示例中，一个或多个处理器可以被配置为基于该车辆来控制该车辆，例如，以在即将发生危险的情况下启用“自动中断”或自动关闭。换句话说，一个或多个处理器可以被配置为如果检测到违规，则停止多用途车辆的行进。

在前面介绍的示例中，姿态估计主要用于确定人在安全区域上的违规行为。根据本公开的第二方面，例如，除了检测在一个或多个安全区域上的违规行为之外，姿态估计功能还可用于控制多用途车辆。例如，车辆外部的人可以使用特定的身体姿态来控制车辆的行为。因此，一个或多个处理器可以被配置为基于人的姿态信息检测至少一个预定义的姿态，并且基于检测到的至少一个预定义的姿态控制多用途车辆。在这种情况下，多用途车辆的操作员可以站在多用途车辆的外部并从外部控制多用途车辆。

例如，可以采用与飞机地面指挥员在跑道上使用的系统类似的信号系统。在这种情况下，多用途车辆的操作员可以是多用途车辆的“地面指挥员”。作为地面指挥员，操作员可以被允许进入多用途车辆的一个或多个安全区域。因此，可以忽略操作员在一个或多个安全区域上的违规行为(即，可以不检测违规行为)。然而，谨慎的做法是确保多用途车辆仅由有权限的人员控制。

在各种示例中，可以限制对多用途车辆的控制，例如以避免对多用途车辆的错误或恶意接管。因此，所提出的构想可以包括用于确定关于控制多用途车辆的人员权限的部件。例如，负责控制多用途车辆的人可具有指示多用途车辆执行任何命令的权限，而其他人可以没有权限或者可以只有停止多用途车辆(或多用途车辆的发动机)的权限，但不能指示多用途车辆运动。换句话说，一个或多个处理器可以被配置为确定人的权限级别，并且如果该人具有控制多用途车辆的足够权限，则控制该多用途车辆。例如，基于权限级别，一个或多个处理器可以发出一些命令，而其他命令可能被阻止。换句话说，不同级别的权限可以允许发出不同的命令。

为了限制对多用途车辆的控制，可以选择两种通用方法。第一种，可以识别或重识别在视频数据中示出的人，如果被识别或重识别的人有权限控制多用途车辆，例如，当该人被注册为多用途车辆的操作员或“地面指挥员”时，可以对多用途车辆进行控制。因此，一个或多个处理器可以被配置为对人进行识别或重识别，并且例如如果该人被识别或重识别为有权限控制多用途车辆，则基于该人的识别或重识别来控制多用途车辆。例如，一个或多个处理器可以被配置为基于对人的识别或重识别来确定该人的权限级别。例如，一个或多个处理器可以被配置为例如基于对人的重识别的身份在数据库中查找该人的权限级别。

第二种，该人可能携带有权限控制车辆的人所专用的特殊装备。例如，与上述类似，一个或多个处理器可以被配置为检测该人是否携带预定义的物品，例如(手持式)信令信标和/或安全背心，并且如果该人携带预定义的物品，则控制多用途车辆。例如，只有携带一个或两个(手持式)安全信标和安全背心的人才有权限控制多用途车辆。如上所述，信令信标可以显示持有者有权限控制多用途车辆(例如，车辆的任何命令)。在这种情况下，姿态检测可以专门针对携带信令信标的人。换句话说，可以训练机器学习模型以基于视频数据生成携带至少一个信令信标的人的姿态估计数据。例如，可以将信令信标视为姿态估计骨架的另一肢体。

安全背心可以显示持有者有权限执行命令的子集，例如以停止多用途车辆或停止多用途车辆的发动机。而且其它外部标识(例如视觉标识或有源信标)也可用于确定佩戴或携带外部标识的人的权限级别。换句话说，一个或多个处理器可以被配置为基于由人携带或佩戴的外部标识来确定该人的权限级别。

存在能够用于控制多用途车辆的多种可能的姿态和信号。例如，伸直手臂并将手掌面对摄像头的信号(如图5a所示)可以被解释为停止车辆进一步朝向该人运动的指令。类似地，在身体前方交叉手臂(如图5b所示)可以在紧急情况下完全关闭机器。类似于飞机地面指挥员使用的视觉身体运动信号可用于更精细地控制多用途车辆。

为了提高所提出的构想的安全性，可以消除模糊性。这可以通过具有固定的一组可能的姿态和固定的一组控制指令来实现，每个控制指令与该组姿态中的一个相关联。换句话说，一个或多个处理器可以被配置为检测多个预定义的姿态(即，该固定的一组姿态)中的至少一个。相应地，该方法可以包括基于人的姿态信息检测130至少一个预定义的姿态。多个预定义的姿态中的每个姿态可以与用于控制多用途车辆的特定控制指令相关联。换句话说，在多个预定义姿态中的姿态与相应的控制指令之间可以存在一对一关系。一个或多个处理器可以被配置为基于与检测到的姿态相关联的控制指令来控制多用途车辆。相应地，该方法可以包括基于检测到的至少一个预定义的姿态来控制190多用途车辆。换句话说，当检测到多个预定义的姿态中的姿态时，相关联的控制指令可用于控制多用途车辆。例如，一个或多个处理器可以被配置为基于检测到的姿态(例如基于与检测到的姿态相关联的控制指令)生成用于控制多用途车辆的控制信号。

如上所述，姿态估计数据可以包括所谓的姿态估计骨架，该骨架包括多个关节和多个肢体。多个预定义的姿态中的每一个可以导致骨架的一些肢体之间的特定角度。例如，右上臂和右下臂之间的60至120度的角度可以指示图5a所示的姿态。多个预定义的姿态的相应特征角度可以存储在数据库中。一个或多个处理器可以被配置为将由姿态估计机器学习模型生成的姿态估计骨架的角度与存储在数据库中的多个预定义的姿态的特征角度进行比较，并且基于该比较来检测至少一个预定义的姿态。或者，机器学习可用于检测多个预定义的姿态中的该至少一个预定义的姿态。

如上所述，不仅可以使用姿态估计机器学习模型来识别静态姿态，而且可以确定姿态的进展。例如，与不包括运动元素的静态姿态相比，姿态的进展可用于识别包括随时间运动的姿态，即所谓的信号姿态。换句话说，多个预定义的姿态包括一个或多个静态姿态以及一个或多个信号姿态，其中一个或多个信号姿态基于从第一姿态到第二姿态的转变。一个或多个处理器可以被配置为基于关于姿态的进展的信息来检测至少一个预定义的姿态。因此，一个或多个处理器可以被配置为基于关于姿态的进展的信息来检测至少一个预定义的信号姿态。例如，由于该至少一个预定义的信号基于从第一姿态到第二姿态的转变，所以可以通过将姿态的角度与存储在数据库中的第一和第二姿态的特征角度进行比较来检测至少一个预定义的信号姿态。

结合图5a至图5h，给出了姿态和相关控制指令的各种示例。图5a至图5h示出了静态姿态或信号姿态的示例的示意图。例如，如图5a所示，多个预定义的姿态可以包括与用于停止多用途车辆的运动的控制指令相关联的静态姿态。如上所述，图5a示出了地面指挥员朝向多用途车辆举起右手。因此，右上臂和右下臂之间的60至120度的角度可以指示图5a所示的姿态，即，与用于停止多用途车辆的运动的控制指令相关联的静态姿态。

例如，如图5b所示，多个预定义的姿态可以包括与用于停止多用途车辆的发动机的控制指令相关联的静态姿态。在图5b中，地面指挥员的手臂在身体前方交叉，导致地面指挥员的“肩臂”和上臂之间具有约为负45度的特征角度。

如图5c所示，多个预定义的姿态可以包括与用于启动多用途车辆的发动机的控制指令相关联的静态姿态。例如，在与用于启动多用途车辆的发动机的控制指令相关联的静态姿态的该示例中，地面指挥员的臂可以斜向外朝向地板伸展。

在图5d至图5g中，示出了几个信号姿态。例如，多个预定义的姿态可以包括与用于向左调整多用途车辆的转向角的控制指令相关联的信号姿态(图5d)和/或与用于向右调整多用途车辆的转向角的控制指令相关联的信号姿态(图5e)。如图5d所示，与用于向左调整多用途车辆的转向角的控制指令相关联的信号姿态可以基于右臂笔直向外伸展并且左臂斜向外朝向天空伸展的第一姿态和右臂保持笔直向外伸展并且左臂斜向内向天空伸展的第二姿态。在用于向右调整多用途车辆的转向角的相应信号姿态中，臂的角色可以相反。

例如，多个预定义的姿态可以包括与用于控制多用途车辆向前运动的控制指令相关联的信号姿态(图5f)以及与用于控制多用途车辆向后运动的控制指令相关联的信号姿态(图5g)。如图5g所示，与用于控制多用途车辆向后运动的控制指令相关联的信号姿态可以包括右下臂相对于右上臂成大约75至105度的角度并朝向天空伸展的第一姿态以及右下臂向前倾斜从而相对于右上臂成约115至150度的角度的第二姿态。在图5f中，下臂向后倾斜，而不是向前倾斜。

在图5h中，示出了使用两个信令信标执行的信号姿态。如上所述，可以训练姿态估计机器学习模型以输出携带一个或两个信令信标的人的姿态估计数据。在这种情况下，可以将信令信标视为姿态估计骨架的附加肢体。

本公开的至少一些示例基于机器学习模型或机器学习算法的使用。机器学习是指计算机系统在不使用显式指令而是依赖于模型和推断的情况下可以用来执行特定任务的算法和统计模型。例如，在机器学习中，可以使用从历史和/或训练数据的分析推断的数据变换来代替基于规则的数据变换。例如，可以使用机器学习模型或使用机器学习算法来分析图像内容。为了让机器学习模型分析图像内容，可以使用训练图像作为输入以及训练内容信息作为输出来训练机器学习模型。通过用大量的训练图像和相关联的训练内容信息来训练机器学习模型，机器学习模型“学习”识别图像内容，因此可以使用机器学习模型来识别没有包含在训练图像中的图像内容。相同的原理也可用于其他类型的传感器数据：通过使用训练传感器数据和期望的输出来训练机器学习模型，机器学习模型“学习”传感器数据和输出之间的变换，该变换可用于基于提供给机器学习模型的非训练传感器数据提供输出。

使用训练输入数据来训练机器学习模型。上面指定的示例使用了一种称为“监督学习”的训练方法。在监督学习中，使用多个训练样本和多个期望输出值来训练机器学习模型，其中每个样本可以包括多个输入数据值，即每个训练样本与期望输出值相关联。通过指定训练样本和期望输出值，机器学习模型基于与在训练期间提供的样本类似的输入样本来“学习”要提供哪个输出值。除了监督学习之外，还可以使用半监督学习。在半监督学习中，一些训练样本缺乏相应的期望输出值。监督学习可以基于监督学习算法，例如，分类算法、回归算法或相似度学习算法。当输出被限制为有限的一组值时可以使用分类算法，即输入被分类为有限的一组值中的一个。当输出可以具有任何数值(在一个范围内)时，可以使用回归算法。相似度学习算法类似于分类算法和回归算法，但是相似度学习算法基于使用度量两个对象的相似度或相关度的相似度函数从示例中学习。

除了监督或半监督学习之外，无监督学习也可用于训练机器学习模型。在无监督学习中，可以(仅)提供输入数据，并且例如通过对输入数据进行分组或聚类、找到数据中的共性，可以使用无监督学习算法来找到输入数据中的结构。聚类是将包括多个输入值的输入数据分配到子集(聚类)中，使得同一聚类内的输入值根据一个或多个(预定义的)相似度标准而相似，而与包括在其它聚类中的输入值不相似。

强化学习是第三组机器学习算法。换句话说，强化学习可用于训练机器学习模型。在强化学习中，训练一个或多个软件行为者(称为“软件智能体”)以在环境中采取行动。根据所采取的行动，计算奖励。强化学习基于训练一个或多个软件智能体来选择使得累积奖励增加的行动，导致形成在执行给定的任务时变得更好的软件智能体(如增加的奖励所表明的)。

在上面介绍的各种示例中，使用各种机器学习模型，例如姿态估计机器学习模型、用于分割视频数据中所示的多个人的姿态估计数据的机器学习模型、物体检测机器学习模型、面部识别机器学习模型或人员重识别机器学习模型。例如，如下所示，可以使用各种技术来训练这些机器学习模型。

例如，可以使用监督学习来训练姿态估计机器学习模型。例如，视频数据可以用作训练的训练样本，并且相应的姿态估计数据(例如，姿态估计骨架在二维或三维坐标系中的点)可以用作期望的输出。或者，可以使用强化学习，其中具有旨在使所生成的姿态估计数据与用于训练的视频数据中示出的实际姿态的偏差最小化的奖励函数。

例如，可以使用无监督学习来训练用于分割在视频数据中示出的多个人的姿态估计数据的机器学习模型，因为可以使用聚类来执行分割。或者，可以使用监督学习，其中示出多个人的视频数据用作训练样本，相应的经分割的姿态估计数据用作期望的输出。

通过提供包括要检测的物体的图像作为训练样本以及要检测的物体的位置作为训练的期望输出，可以使用监督学习来训练物体检测机器学习模型。

例如，通过训练机器学习模型以在视频数据内检测面部并输出要用于矩形边界框的相应位置(其中提供视频数据的帧作为训练样本，提供边界框的相应位置作为期望的训练输出)，还可以使用监督学习来训练用于面部识别的一个或多个机器学习模型。特征提取是一个分类问题，因此可以应用分类算法。或者，如上所述，可以使用人员重识别机器学习模型来实现面部识别。

例如，可以使用一种基于三元组损失的训练来训练人员重识别机器学习模型。在三元组损失中，将基线输入与正输入以及负输入进行比较。对于用于训练人员重识别机器学习模型的每组输入，示出同一人的两个样本可用作基线输入和正输入，来自不同人的样本可用作基于三元组损失的训练的负输入。然而，人员重识别机器学习模型的训练可以可替换地基于其它监督学习、无监督学习或强化学习算法。例如，Ye等人的“Deep Learningfor Person Re-identification:A Survey and Outlook”(2020)提供了基于机器学习的重识别系统的示例以及相应的训练方法。

机器学习算法通常基于机器学习模型。换句话说，术语“机器学习算法”可以指可用于创建、训练或使用机器学习模型的指令集。术语“机器学习模型”可以指表示例如基于由机器学习算法执行的训练所学习的知识的数据结构和/或规则集。在实施例中，机器学习算法的使用可以意味着下层机器学习模型(或多个下层机器学习模型)的使用。机器学习模型的使用可以意味着由机器学习算法训练机器学习模型和/或作为机器学习模型的数据结构/规则集。

例如，机器学习模型可以是人工神经网络(ANN)。ANN是受例如可以在大脑中找到的生物神经网络启发的系统。ANN包括多个互连的节点以及节点之间的多个连接(所谓的边)。通常有三种类型的节点，接收输入值的输入节点，(仅)连接到其他节点的隐藏节点，以及提供输出值的输出节点。每个节点可以代表一个人工神经元。每个边可以将信息从一个节点传输到另一个节点。节点的输出可被定义为其输入之和的(非线性)函数。节点的输入可基于提供输入的边或节点的“权重”用于该函数中。可以在学习过程中调整节点和/或边的权重。换句话说，人工神经网络的训练可以包括调整人工神经网络的节点和/或边的权重，即针对给定输入实现期望输出。在至少一些实施例中，机器学习模型可以是深度神经网络，例如包括一个或多个隐藏节点层(即，隐藏层)的神经网络，优选地是有多个隐藏节点层。

或者，机器学习模型可以是支持向量机。支持向量机(即支持向量网络)是具有相关联的学习算法的监督学习模型，其可用于例如在分类或回归分析中分析数据。可以通过向输入提供属于两个类别之一的多个训练输入值来训练支持向量机。支持向量机可以被训练为将新的输入值分配给两个类别之一。或者，机器学习模型可以是贝叶斯网络，其是概率有向无环图模型。贝叶斯网络可以使用有向无环图来表示一组随机变量及其条件依赖关系。或者，机器学习模型可以基于遗传算法，遗传算法是模仿自然选择过程的搜索算法和启发式技术。

结合图1a介绍的至少一个接口12可以对应于用于在模块内、模块之间或不同实体的模块之间接收和/或传输信息的一个或多个输入和/或输出，该信息可以是根据指定代码的数字(位)值。例如，至少一个接口12可以包括被配置为接收和/或传输信息的接口电路。例如，结合图1a介绍的一个或多个处理器14可以使用一个或多个处理单元、一个或多个处理设备、任何用于处理的装置(例如处理器)、计算机或可与相应适配的软件一起运行的可编程硬件部件来实施。换句话说，一个或多个处理器14的所述功能也可以以软件来实施，然后在一个或多个可编程硬件部件上执行该软件。这样的硬件部件可以包括通用处理器、数字信号处理器(DSP)、微控制器等。在一些示例中，一个或多个处理器可以是或包括一个或多个可重新配置的硬件元件，例如现场可编程门阵列(FPGA)。例如，结合图1a介绍的一个或多个存储设备16可以包括诸如磁性或光学存储介质的计算机可读存储介质的组中的至少一个元件，例如硬盘驱动器、闪存、软盘、随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)或网络存储器。

关于前述示例中的一个特定示例所描述的方面和特征也可以与另一示例的一个或多个方面和特征进行组合，以替换该另一示例的相同或相似的特征，或者将这些特征附加地引入到该另一示例中。

示例还可以是或涉及包括程序代码的(计算机)程序，以当该程序在计算机、处理器或其他可编程硬件部件上执行时执行上述方法中的一个或多个。因此，上述方法中的不同方法的步骤、操作或过程也可以由编程的计算机、处理器或其它可编程硬件部件执行。示例还可以涵盖程序存储设备(例如数字数据存储介质)，该程序存储设备是机器、处理器或计算机可读的，并且对机器可执行、对处理器可执行或对计算机可执行的程序和指令进行编码和/或包含这些程序和指令。程序存储设备例如可以包括或可以是数字存储设备、例如磁盘和磁带的磁存储介质、硬盘驱动器或光学可读数字数据存储介质。其他示例还可以包括被编程为执行上述方法的步骤的的计算机、处理器、控制单元、(现场)可编程逻辑阵列((F)PLA)、(现场)可编程门阵列((F)PGA)、图形处理器单元(GPU)、专用集成电路(ASIC)、集成电路(IC)或片上系统(SoC)的系统。

还应当理解，除非在个别情况下明确说明或出于技术原因所必需，说明书或权利要求书中公开的几个步骤、过程、操作或功能的公开不应被解释为暗示这些操作必须依赖于所描述的顺序。因此，前面的描述不将几个步骤或功能的执行限制为某一顺序。此外，在其他示例中，单个步骤、功能、过程或操作可以包括和/或可以是分解成几个子步骤、子功能、子过程或子操作。

如果已经关于设备或系统描述了一些方面，则这些方面也应当被理解为对相应方法的描述。例如，设备或系统的块、装置或者功能方面可以对应于相应方法的特征(例如方法步骤)。因此，关于方法描述的方面也应理解为对相应设备或相应系统的相应块、相应元件、属性或功能特征的描述。

在此将下面的权利要求书并入详细描述中，其中每个权利要求可以独立作为单独的示例。还应当注意，尽管在权利要求书中从属权利要求涉及与一个或多个其它权利要求的特定组合，但是其它示例也可以包括从属权利要求与任何其它从属或独立权利要求的主题的组合。在此明确提出这种组合，除非在个别情况下声明不打算进行特定组合。此外，即使一项权利要求没有被直接定义为从属于任何其它独立权利要求，对于该其它独立权利要求而言，也应当包括该权利要求的特征在内。

Claims

1.一种用于多用途车辆(100、300、310)的装置(10)，所述装置包括：

至少一个接口(12)，用于从所述多用途车辆的一个或多个摄像头(102)获得视频数据；

一个或多个处理器(14)，被配置为：

识别或重识别所述视频数据中示出的一个或多个人，

基于对所述视频数据中示出的所述一个或多个人的识别或重识别来确定所述一个或多个人(410)在围绕所述多用途车辆的一个或多个安全区域(400)上的违规行为，并且

向输出设备提供指示所述一个或多个人在所述一个或多个安全区域上的违规行为的至少一个信号。

2.根据权利要求1所述的装置，其中，所述一个或多个处理器被配置为使用对所述视频数据的面部识别来识别所述一个或多个人，或者

其中，所述一个或多个处理器被配置为使用被训练用于人员重识别的机器学习模型来重识别所述一个或多个人。

3.根据权利要求1或2所述的装置，其中，所述一个或多个处理器被配置为通过在所述视频数据中检测由所述一个或多个人携带的视觉标识来识别所述一个或多个人，并且/或者

其中，所述一个或多个处理器被配置为通过检测由所述一个或多个人携带的有源信标来识别所述一个或多个人。

4.根据权利要求1至3中任一项所述的装置，其中，所述一个或多个处理器被配置为使用机器学习模型来处理所述视频数据以确定在所述视频数据中示出的一个或多个人的姿态信息，并基于在所述视频数据中示出的所述一个或多个人的所述姿态信息确定所述一个或多个人在所述一个或多个安全区域上的违规行为，所述机器学习模型被训练成基于视频数据生成姿态估计数据。

5.根据权利要求4所述的装置，其中，所述机器学习模型被训练成输出具有关于如在所述视频数据的多个帧的过程中所示的所述一个或多个人的姿态随时间的进展的信息的所述姿态估计数据，其中所述一个或多个处理器被配置为基于所述一个或多个人的姿态随时间的所述进展来确定关于所述一个或多个人的预测的行为的信息，并基于所述一个或多个人的所述预测的行为来确定所述一个或多个人在所述一个或多个安全区域上的违规行为。

6.根据权利要求5所述的装置，其中，所述一个或多个处理器被配置为基于所述一个或多个人的姿态生成围绕所述一个或多个人的一个或多个多边形边界区域，并且基于所生成的一个或多个多边形边界区域确定所述一个或多个人的姿态在所述一个或多个安全区域上的违规行为。

7.根据权利要求5或6所述的装置，其中，所述一个或多个处理器被配置为基于所述一个或多个人的姿态随时间的所述进展来确定所述一个或多个人的疏忽或不安全的行为，并且基于所确定的疏忽或不安全的行为来确定对所述一个或多个安全区域的违规行为。

8.根据权利要求6或7所述的装置，其中，所述一个或多个处理器被配置为基于所述一个或多个人的姿态的所述进展来估计所述一个或多个人相对于所述一个或多个安全区域的路径，并且基于所估计的所述一个或多个人的路径来确定在所述一个或多个安全区域上的违规行为。

9.根据权利要求1至8中任一项所述的装置，其中，所述一个或多个处理器被配置为使用机器学习模型来检测所述一个或多个人是否携带多个预定义的物品中的至少一个，并且还基于所述一个或多个人是否携带所述至少一个物品来确定所述一个或多个人在所述一个或多个安全区域上的违规行为，所述机器学习模型被训练成在所述视频数据中检测所述多个预定义的物品，所述多个预定义的物品包括一个或多个安全服装物品和/或一个或多个违禁物品。

10.根据权利要求1至9中任一项所述的装置，其中，所述一个或多个处理器被配置为确定所述多用途车辆的未来路径，并且基于所述多用途车辆的所述未来路径确定所述一个或多个安全区域的范围。

11.根据权利要求1至10中任一项所述的装置，其中，指示所述一个或多个人在所述一个或多个安全区域上的违规行为的所述至少一个信号包括显示信号和/或音频信号。

12.一种多用途车辆(100、300、310)，包括根据权利要求1至11中任一项所述的装置(10)以及一个或多个摄像头(102)。

13.根据权利要求12所述的多用途车辆，其中，所述一个或多个摄像头被布置在所述多用途车辆的车厢(104)的顶部，或者其中，所述一个或多个摄像头被布置在从所述多用途车辆的所述车厢(104)的顶部延伸的平台(106)处。

14.一种用于多用途车辆的方法，所述方法包括：

从所述多用途车辆的一个或多个摄像头获得(110)视频数据；

识别或重识别(160)在所述视频数据中示出的一个或多个人；

基于对所述视频数据中示出的所述一个或多个人的识别或重识别来确定(170)所述一个或多个人在围绕所述多用途车辆的一个或多个安全区域上的违规行为；并且

向输出设备提供(180)指示所述一个或多个人在所述一个或多个安全区域上的违规行为的至少一个信号。

15.一种计算机程序，其具有当该计算机程序在计算机、处理器、处理电路或可编程硬件部件上执行时用于执行根据权利要求14所述的方法的程序代码。