CN114648809A

CN114648809A - 计算机实施的处理监视方法、装置、系统和记录介质

Info

Publication number: CN114648809A
Application number: CN202111509000.0A
Authority: CN
Inventors: 詹皮耶罗·弗朗西斯卡
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-12-18
Filing date: 2021-12-10
Publication date: 2022-06-21
Also published as: US20220198802A1; JP2022097461A; EP4016376A1

Abstract

用于监视要由人执行的处理的计算机实施的方法，包括：获得执行处理的人的至少一个图像；在至少一个图像中检测人的人体姿态；在至少一个图像中检测至少一个对象；基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系，返回关于处理的监视信息。

Description

计算机实施的处理监视方法、装置、系统和记录介质

技术领域

本公开涉及动作检测和处理监视的领域。具体地，本公开涉及用于监视要由人执行的处理的计算机实施的方法。该处理可以是工业处理，例如制造或修理。

背景技术

最近的研究已表明，尽管自动化，但是在工业处理中，大多数质量缺陷与人类的错误有关。人类工人比机器人更容易训练且更灵活，但是他们在处理中引入变化性，因为他们的表现取决于不能容易控制的因素，诸如疲劳、年龄、身体或心理健康等。

在监视由人类执行的动作的尝试中，已经开发了依赖于动作检测的端到端人工智能系统。然而，因为这些系统需要隐含地理解要监视的复杂动作，所以它们需要很多训练数据。此外，由于难以理解它们是如何工作的，它们常常被视作黑盒子，并且有时不被人类所良好地接受。因此，存在改进的空间。

发明内容

在此方面，本公开涉及用于监视要由人执行的处理(process)的计算机实施的方法，包括：

获得执行该处理的人的至少一个图像；

在至少一个图像中检测人的人体姿态；

在至少一个图像中检测至少一个对象；

基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系，返回关于该处理的监视信息。

获得至少一个图像可以包括，例如通过诸如摄像机的图像获取模块获取图像，或者从数据库(例如本地或远程服务器等)取得已经获取的图像。在下文中，除非另有声明，否则“图像”指代至少一个图像。更一般地，在下文中，冠词“该”可以指代“该至少一个”。

人是人类。人体姿态检测(也称为人体姿态估计)本身例如在机器学习领域中是已知的。人体姿态检测可以使用专用人工神经网络，并且可以配置为输出图像中至少一个人类人(优选地每个人类人)的位置、尺寸和/或姿势中的至少一个指标。

对象检测本身例如在机器学习领域中也是已知的。对至少一个对象的检测可以使用专用人工神经网络(即，与执行人体姿态检测的人工神经网络不同的)，并且可以配置为输出图像中至少一个对象的位置、尺寸和/或类型中的至少一个指标。要检测的至少一个对象可以例如由于其在要监视的处理中的重要性而预先确定。

考虑到以上，应当理解，人体姿态检测和对象检测是单独地、显式地并且可能彼此独立地执行的。“显式地”意味着检测到的人体姿态和检测到的对象被提供作为相应检测步骤的显式输出。与学习在不确切地知道图像中的什么是人和图像中的什么是对象或者甚至不知道图像中是否存在人的情况下检测动作的端到端经训练的动作检测系统相反，以上方法利用了以下事实：在要监视的处理中，对执行该处理的人与重要对象(可能是他可能与其交互的那些对象)之间的交互进行了充分存档。因此，能够将对处理进行监视的问题简化为识别人、识别对该处理重要的对象以及确定检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系。在此基础上，返回监视信息。

尤其与通常用作黑盒子的端到端经训练的动作检测人工神经网络相比，使用显式对象检测和人体姿态检测提高了监视方法的可理解性。此外，对象检测和人体姿态检测是比端到端动作检测更容易的任务，并且使得监视方法训练更快，即使它们中的至少一者使用人工神经网络。总之，以上监视方法显示出了提高的效率和可靠性。

在一些实施例中，至少一个图像包括视频片段的多个连续帧。替代性地，至少一个图像可以包括例如以给定采样频率(例如视频片段的每三帧)选择的视频片段的多个非连续帧。还替代性地，该至少一个图像可以包括一个或多个静态图像，例如照片。使用来自视频片段的帧能够考虑时间信息，从而准许获得更广泛和更详细的监视信息。

在一些实施例中，该处理包括重复地执行的循环，并且该方法包括在视频片段中识别循环的至少一次发生(occurrence)，并且返回至少一次发生中的每一次发生的监视信息。例如在装配线上，或更一般地在生产线上，工业处理通常包括子处理或循环的重复。在这些情形下，期望能够在视频片段中识别这些子处理中的一个子处理的时间边界，即循环的一次发生，并且基于该次发生的内容(可选地，独立于循环的其它次发生中发生的内容)返回监视信息。可以针对检测到的多次发生中的每次发生返回监视信息，从而提供例如关于每个处理的产品的信息。对于每次发生，监视信息可以具有相同的性质。

在一些实施例中，监视信息是基于连续帧中的至少两帧中的至少一个几何关系确定的。两个连续帧可以属于相同的循环发生。这使得能够有冗余以限制误检测。几何关系可以是相同的例如用以测量在期间执行了动作的时间或者例如当第二给定步骤被假定为跟随第一给定步骤时可以从一个帧到另一帧而不同。

在一些实施例中，至少一个对象包括人在执行该处理的同时要与其交互的对象。该至少一个对象可以包括物件(诸如，要制造或修理的物件)、部件(可选地，在其上或使用其来执行处理的部件)、设备或工具等。替代性地或附加地，该至少一个对象可以包括标记或参考点、支撑件(包括吊架)等。替代性地或附加地，该至少一个对象可以包括人在执行处理的同时必须不与其交互的对象，例如，因为该对象可能代表危害。

在一些实施例中，检测至少一个对象包括确定边界框，并且可选地确定至少一个对象的类型。边界框可以以多边形(例如矩形)图示。对象类型可以是在可能的多个对象类型的预定列表中选择的。

在一些实施例中，检测人体姿态包括检测人的多个身体关节或身体部位。身体关节或身体部位(在下文中称为“身体特征”)可以被标记为例如对应于头、左手、右膝盖、脚等。因此，可以执行几何关系的精确评估。

在一些实施例中，监视信息包括以下至少一个指标：处理的步骤是否已由人执行、人是否已处于危险中、人是否已犯了错误、人的人体工程学、人的效率、处理持续时间或其组合。因此，处理的性能、人体工程学和安全性可以根据从监视方法输出的指标(多个指标)输出来推导，从而能够改进处理定义和准则。

在一些实施例中，至少一个几何关系包括人体姿态与对象之间的距离和/或重叠率，和/或人体姿态处于参考检测到的对象而限定的区域中，并且监视信息是基于将几何关系与预定规则进行比较而返回的。距离、重叠率或处于特定区域中可以视可能的情况而针对身体特征中的一个或多个身体特征来确定，并且预定规则可以根据一些对象和一些身体特征来具体地限定。对象可以通过其边界框来表示。距离可以是在图像中检测到的两个项目(例如身体特征和对象)之间的最短距离。重叠率可以定义为图像上两个项目的表面比率。然而，也可能是其它数学定义，只要它们与哪个身体部位应当或不应当与哪个对象交互的处理规范匹配。

在一些实施例中，该处理包括在生产线上的物件的制造步骤。在一些实施例中，上述循环包括在生产线上的物件的制造步骤。生产线可以是装配线。

在一些实施例中，至少一个对象包括物件的支撑件。物件的支撑件可以提供比物件自身更稳定或更可靠的参考。

本公开还指向用于监视要由人执行的处理的装置，该装置包括：

用于获得执行该处理的人的至少一个图像的模块；

用于在至少一个图像中检测人的人体姿态的模块；

用于在至少一个图像中检测至少一个对象的模块；

用于基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系返回关于该处理的监视信息的模块。

该装置可以配置为实行上述监视方法，并且可以具有上述特征的部分或全部。该装置可以具有计算机的硬件结构。

本公开还指向系统，该系统包括上述装置，该装置配备有视频或图像获取模块以获得至少一个图像。视频或图像获取模块可以是摄像机等。

本公开还指向计算机程序，该计算机程序包括指令，该指令用于在当程序由计算机执行时执行上述监视方法的步骤。

该程序可以使用任何编程语言，并且可以采用源代码、目标代码或源代码和目标代码之间的中间代码的形式，诸如部分编译的形式或者任何其它期望的形式。

本公开还指向记录介质，该记录介质可由计算机读取，并且该记录介质上记录有计算机程序，该计算机程序包括用于执行上述监视方法的步骤的指令。

记录介质可以是能够存储程序的任何实体或装置。例如，该介质可以包括诸如ROM(例如CD ROM或微电子电路ROM)或磁存储装置(例如磁盘(软盘)或硬盘)的存储装置。

替代性地，该记录介质可以是其中并入有程序的集成电路，该电路适于执行所讨论的方法或要在其执行中使用。

附图说明

在阅读以下作为非限制性示例给出的实施例的详细描述时，将更好地理解本发明及其优点。本说明指的是附图，其中：

图1是图示根据实施例的用于监视处理的计算机实施的方法的步骤的图；

图2是图示根据示例的几何关系的图；

图3是图示根据实施例的用于监视处理的计算机实施的方法的运行的图。

具体实施方式

参照图1描述根据实施例的用于监视要由人执行的处理的计算机实施的方法(在下文中称为“监视方法”)。如前所述，监视方法10包括获得执行处理的人的至少一个图像的获得步骤12。如果要实时实行该方法，则该至少一个图像可以由图像获取模块(诸如例如摄像机等(视频摄像机、照片摄像机等)的视频获取模块)实时获取。替代性地或附加地，例如在摄影处理的后处理的情况下，该至少一个图像可以被预先获取，并且稍后通过监视方法10获得。

在下面，假设该至少一个图像包括视频片段的多个连续帧。尽管如此，如以上详细描述的，设想了其它情况，并且该方法可以被转用到一个或多个图像，而不管它们的起源如何。

所获得的至少一个图像(或视频片段的连续帧)按原样或通过中间图像处理作为输入被提供给对象检测步骤14和人体姿态检测步骤16。如下面将详细描述的，对象检测步骤14和人体姿态检测步骤16被配置为提取有关该处理的信息。对象检测步骤14和人体姿态检测步骤16可以串行或并行执行。在一个实施例中，如所图示的，对象检测步骤14和人体姿态检测步骤16是独立的，即它们中没有一者依赖于由另一者执行的处理来执行其自身的处理。

如前所述，对象检测步骤14包括在至少一个图像中检测至少一个对象(object)。在多个图像(例如多个帧)的情况下，对象检测步骤14可以包括在该多个图像中的一个图像、部分图像或全部图像中检测至少一个对象。对象可以是相同的或者是从一图像到另一图像而不同的。

对象检测步骤14可以包括执行计算机视觉算法。更具体地，对象检测步骤14可包括使用基于深度学习的对象检测器，例如，该对象检测器可被训练以从图像中检测感兴趣的对象。在示例中，基于深度学习的对象检测器可以包括YOLOv3(J.Redmon,A.Farhadi,YOLOv3:An incremental improvement,arXiv:1804.02767,2018))。然而，也可以使用其他对象检测器，例如EfficientNet(M.Tan,R.Pang,Q.V Le,EfficientDet:Scalable andefficient object detection,Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition(CVPR),doi:10.1109/cvpr42600.2020.01079,2020)、RetinaNet(T.Lin,P.Goyal,R.Girshick,K.He,P.Dollár,Focal Loss for Dense ObjectDetection,Proceedings of the IEEE International Conference on Computer Vision(ICCV),pp.2999-3007,doi:10.1109/ICCV.2017.324,2017)、SSD(W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.Fu,A.C Berg,SSD:Single shot multibox detector,Proceedings of the European Conference on Computer Vision(ECCV),pp.21–37,doi:10.1007/978-3-319-46448-0_2,2016)、FCOS(Z.Tian,C.Shen,H.Chen,T.He,FCOS:Fullyconvolutional one-stage object detection,Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),pp.9627–9636,doi:10.1109/ICCV.2019.00972,2019)、CenterNet(K.Duan,S.Bai,L.Xie,H.Qi,Q.Huang,Q.Tian,CenterNet:Keypoint triplets for object detection,Proceedings of the IEEEInternational Conference on Computer Vision(ICCV),pp.6568–6577,doi:10.1109/ICCV.2019.00667,2019)等。

对象检测步骤14可以包括确定边界框(bounding box)，并且可选地确定至少一个对象的类型。图3中图示出了一示例，在该示例中，对象检测步骤14已检测到吊架36的吊架顶-前部38和吊架底-后部40。如图所示，边界框可以是多边形的，例如是矩形的。边界框可以由对象检测步骤14作为顶点坐标的列表返回或者以任何其它合适的格式返回。

对象类型可以从要在图像上检测的预定的多个对象类型中选择。该多个对象类型可以是例如在训练期间显式地输入到计算机视觉算法中的，或者是从深度学习模型中学习的。参见图3，该多个对象类型可以是“吊架顶-前部”和“吊架底-后部”。然而，可以确定其它对象。

值得注意的是，对象检测器可以是相当通用的，并且仅需要针对要检测的对象进行训练。因此，所需的注释精力是极小的。

如前所述，人体姿态检测步骤16包括在至少一个图像中检测执行处理的人的人体姿态(human pose)。在多个图像(例如多个帧)的情况下，人体姿态检测步骤16可以包括在该多个图像中的一个图像、部分图像或全部图像中检测人的人体姿态。该人可以是相同的或者是从一图像到另一图像而不同的。可以在至少一个图像中检测到一个或多个人。

人体姿态检测步骤16可以包括执行计算机视觉算法。更具体地，人体姿态检测步骤16可以包括使用基于深度学习的人体姿态估计器。检测人体姿态可以包括检测人的身体特征，例如一个或多个身体关节和/或身体部位或者该人。在一示例中，人体姿态检测步骤16可以包括针对图像中每个人计算3D和/或2D骨架。身体特征可以包括每个人的至少一个手、至少一个臂、至少一个肘、至少一个肩、至少一个脚、至少一个腿、至少一个膝盖、颈和/或头。

在一示例中，基于深度学习的人体姿态估计器可以包括LCR-Net(Rogez,Weinzaepfel,Schmid,LCR-Net:Real-time multi-person 2E and 3D human poseestimation,IEEE Trans.PAMI,2019)。然而，可以使用其它人体姿态估计器，诸如DOPE(Weinzaepfel,P.,Brégier,R.,Combaluzier,H.,Leroy,V.,Rogez,G.,DOPE:DistillationOf Part Experts for whole-body 3D pose estimation in the wild,ECCV,2020)、OpenPose(Z.Cao,G.Hidalgo Martinez,T.Simon,S.Wei,Y.A.Sheikh.OpenPose:RealtimeMulti-Person 2D Pose Estimation using Part Affinity Fields,IEEE Transactionson Pattern Analysis and Machine Intelligence,2019)、DeepCut(Leonid Pishchulin,Eldar Insafutdinov,Siyu Tang,Bjoern Andres,Mykhaylo Andriluka,Peter Gehler,Bernt Schiele,DeepCut:Joint Subset Partition and Labeling for Multi PersonPose Estimation,IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016)、AlphaPose(Fang,H.S.,Xie,S.,Tai,Y.W.,Lu,C.,RMPE:RMPE:RegionalMulti-person Pose Estimation,ICCV,2017)等。值得注意的是，人体姿态估计估计器可以是相当通用的，并且仅需要利用通用的人体姿态进行训练。因此，可以使用公共可用的训练集，而不需要特殊的适配。结果，监视方法10的设置是快速和简单的。

图2示出了检测到的人体姿态24的一个示例，该人体姿态24包括诸如颈26的多个身体部位和诸如左膝盖28的多个身体关节。在该图中，检测到的身体部位以及将身体部位彼此连接的检测到的身体关节形成骨架。检测到的身体特征26、28可以由人体姿态检测步骤16作为点或线坐标返回或者以任何其它合适的格式返回。

人体姿态检测步骤16在执行该处理的同时提供人的姿势或姿态的表示。这种表示可以用于执行人体工程学研究，并且可能用于适配该处理以向人提供更好的人体工程学。

再次参见图1，由相应的检测步骤14、16输出的检测到的对象和检测到的人体姿态被提供作为向确定步骤18的输入，该确定步骤18配置为基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系来返回关于该处理的监视信息。检测到的对象和检测到的人体姿态形成要监视的处理的数字表示。

图2中图示了确定步骤18可以如何运行的示例。图2示出检测到的人体姿态24以及通过其边界框32a表征的检测到的对象32。在该示例中，例如因为对象类型对应于人不应当接近的对象，所以该对象类型被指定为危险。确定步骤18评估人体姿态24与检测到的对象32之间的几何关系。例如，规定在人体姿态24的任何部分与边界框32a之间重叠的情况下，则人在执行处理的同时处于危险中。在当前情况下，由于右手30与边界框32a重叠，确定步骤18将返回指示危险的监视信息。

确定步骤18可以依赖于规则引擎，该规则引擎包括一个或多个预定规则，并且评估检测到的对象与检测到的人体姿态之间的几何关系是否满足该规则中的一个或多个规则。换句话说，规则引擎可以包括几何推理逻辑。

图2的示例图示一个规则可能性。本领域技术人员应理解，许多不同的规则可以用于作为确定步骤18的基础的规则引擎。例如，至少一个几何关系可以包括人体姿态与对象之间的距离和/或重叠率，和/或人体姿态处于参考检测到的对象而限定的区域中。几何关系可以应用于整个人体姿态或仅应用于人体姿态的一部分，例如当要检查那个手执行或不执行特定动作时的手。可以指定或不指定相应的身体特征：该规则可以仅应用于一些预定的身体特征，或者可以只要任何身体特征满足条件就可以满足该规则。例如取决于人体姿态和对象是如何检测到的，几何关系可以以2D和/或3D确定。在一实施例中，即使对象首先是以2D被检测，也可以基于要监视的处理的给定数据来估计其3D位置，例如对象实际上具有总是相同尺寸、用于获得图像的摄像机被固定等。此后，可以以3D确定几何关系。3D确定允许更精确和更具代表性的监视。

代替于或附加于人应当避免的危险对象，至少一个对象可以包括人在执行处理的同时要与之交互的对象。例如，这将对应于人在处理的同时必须对其操纵或工作的对象。

这些规则可以根据处理标准来推导：由于该处理(特别是在工业处理的情况下)被良好地定义，这些定义可以被转化成几何关系将满足或不满足的数学规则。与规则必须在无中生有的情况下开发的其它方法相比，这种情况容易实施，因为这些规则已经存在并且仅需要几何转化。

在此基础上，确定并返回监视信息。由确定步骤18输出的监视信息可以包括，有关在其期间特定事件(对应于一个或多个预定规则)已经发生的视频帧的信息，以及对于这些帧中的每一帧，这种事件发生的位置。该位置可以基于检测到的人体姿态的位置和检测到的对象的位置来确定。

此外，该监视信息可以基于该帧中的至少两帧中的至少一个几何关系来确定。这些帧可以是连续的或不连续的。考虑时间维度，提供了更丰富的监视信息，例如用以确定人在哪些任务上花费了多少时间，并且最终用以检测源自不合规处理的可能的质量缺陷。替代地或附加地，确定步骤可以包括时间规则，以便检查在正常可应用的时间期间是否适当地执行了动作，而与可能偶然满足该规则相对短时间的人的无意的多余手势相反。

回到图1，可选地，监视方法10可以包括分拣步骤20，以便评估由确定步骤18返回的监视信息预测，并通过去除潜在误差(例如来自对几何关系的不准确评定)来改善这些预测。

分拣步骤20可以包括执行分类器。更具体地，分拣步骤20可以包括使用人体行为识别(human activity recognition)算法。在一示例中，该算法可以基于密集轨迹(densetrajectories)(Wang Heng,

Alexander,Schmid Cordelia,Liu Cheng-Lin.(2014).WangH2013-dense trajectories-IJCV)，尽管其它手段也是可能的。分类器一旦被训练，就能够将监视的处理与其他伪行为区分开。在一示例中，训练可以基于确定步骤18的输出的手动标注的数据集，进而从示出处理的多个样本(例如700)和示出伪行为的多个样本(例如700)获得。然而，也涵盖其它训练：在几次迭代之后如有必要，可以由本领域技术人员基于其对本领域的知识来执行对适当分类器的选择和对训练样本数量的定义。

参照图3描述了将监视方法应用于实际处理的示例。在图3中，处理包括在生产线上的物件(在此为机动车辆)的制造步骤。然而，涵盖了其它处理，无论是否在线上，并且替代于制造可以是例如修理或利用。

在该情况下，制造步骤包括在汽车的后灯中索环的安装。然而，涵盖了其它步骤：车辆不需要是汽车，并且该步骤不需要是安装，或者可以是另一部件的安装。

在装配线上，汽车34向前移动，即在图3中从左向右移动，其后跟着另一汽车，在该另一个汽车上一般要实行类似的步骤(如果不是相同的步骤)。这些步骤的每次重复是循环的发生，并且本示例是对该处理包括重复地执行的循环的情况的图示。在这些情形下，该方法可以包括，例如在视频片段中，识别循环的至少一次发生，并且返回至少一次发生中的每一次发生的监视信息。因此，应当解决两个子问题：检测发生(循环节段)和返回每一次发生的监视信息。

为了向前移动，在此示例中，汽车34可以由支撑件(例如吊架36)支撑。要检测的至少一个对象可以包括汽车(物件)34自身的一部分或支撑件(在此为吊架36)的一部分：如前所述，在此示例中，对象检测步骤14被设定为检测吊架顶-前部38和吊架底-后部40作为感兴趣的对象。然而，可以附加地或替代地检测其它部分。此外，即使汽车34不移动，该汽车34也可以由支撑件支撑。虽然汽车型号可能变化，但是支撑件可以是相同的；因此，支撑件可以提供不改变的参考以估计在图像中的位置。

具体地，在图3的示例中，监视方法10应当确定每一次发生的开始和结束。一种可能性是考虑图像上的循环界限线46。循环界限线46可以是假想线(例如图像的边缘或在与之相距设定距离处的线)或者实际线(例如装配线的界标)。循环界限线46可以是直的或弯曲的。也涵盖除了线之外的其它界限。

基于吊架36与汽车34一起移动的事实，监视方法可以在每当吊架36(和/或汽车34)的给定部分跨越循环界限线46时，确定循环的发生开始或结束。例如，在图3的示例中，当吊架顶-前部38跨越循环界限线46时确定新的发生开始，并且当吊架底-后部40跨越循环界限线46时确定此次发生结束。也可以设定其他规则，特别地，对于检测发生的开始和结束，循环界限线46不需要是相同的。此外，结束可以不显式地检测，而可以被设定为对应于后一循环的开始。反之，开始可以不显式地检测，而可以被设定为对应于前一循环的结束。

对发生的开始和/或结束的检测一般触发非常少的错误(如果有的话)，使得所得到的预测可能不需要通过分拣步骤20处理，尽管其余监视信息要通过分拣步骤20处理。这导致了提高的计算效率。

为了确定其余监视信息，在该示例中，几何关系定义如下：根据吊架底-后部40的位置，定义了手区域42和脚区域44。这些区域被定义为例如在距离吊架底-后部40的设定坐标处的多边形。在确定步骤18中，当人在他的手在手区域42中且他的脚在脚区域44中时，确定实行索环的安装。更一般地，检测到的人体姿态与检测到的对象之间的几何关系可以包括人体姿态的一部分或全部处于参考检测到的对象而限定的区域中。

在本实施例中，可以在监视信息的确定的同时实行几次发生的视频片段的分割：确定步骤18可以包括用以识别当前图像属于哪一次发生的特定规则，而其他规则旨在确定与检测到的人体姿态相关的其余监视信息。在其它实施例中，可以在获得步骤12和检测步骤14、16之间或者甚至在获得步骤12之前实行循环的几次发生的视频片段的分割，在这种情况下，获得步骤12可以将仅一次发生作为输入。

如上详述的，监视信息然后可以经历分拣步骤20。

由确定步骤18和/或分拣步骤20输出的监视信息可以包括以下至少一个指标：处理的步骤是否已由人执行(例如，如果手和脚分别在手区域和脚区域中)、人是否已处于危险中(例如，如参照图2详细描述的那样)、人是否已犯了错误(例如，如果发生具有不寻常的持续时间，或者如果人体姿态不具有期望的姿势)、人的人体工程学(例如，基于人体姿态)、人的效率(例如，基于不必要的手势或处理完成时间)、处理持续时间或其组合。该指标可以作为连续值或离散值输出，或者以任何其它合适的格式输出。

尽管图1的图已经在方法步骤的方面描述，其可以同等地表示用于监视要由人执行的处理的装置的架构，该装置包括：用于获得执行处理的人的至少一个图像的模块12；用于在至少一个图像中检测人的人体姿态的模块14；用于在至少一个图像中检测至少一个对象的模块16；用于基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系返回关于处理的监视信息的模块18。该装置可以是计算机或类似计算机的系统。如图1中所图示的，该装置可以配备有视频获取模块，该视频获取模块示出为获得模块12中的摄像机，以获得至少一个图像。

虽然本公开涉及具体的示例性实施例，但是在不背离如权利要求所限定的本发明的一般范围的情况下，可以对这些示例提供变形。特别地，可以在附加实施例中组合不同的所图示/提及的实施例的各个特征。因此，应当以说明性而不是限制性的方式来考虑说明书和附图。

Claims

1.用于监视要由人执行的处理的计算机实施的方法，包括：

获得执行所述处理的所述人的至少一个图像；

在所述至少一个图像中检测所述人的人体姿态；

在所述至少一个图像中检测至少一个对象；

基于检测到的所述人体姿态与检测到的所述至少一个对象之间的至少一个几何关系，返回关于所述处理的监视信息。

2.根据权利要求1所述的方法，其中，所述至少一个图像包括视频片段的多个连续帧。

3.根据权利要求2所述的方法，其中，所述处理包括重复地执行的循环，并且所述方法包括在所述视频片段中识别所述循环的至少一次发生，以及返回所述至少一次发生中的每一次发生的所述监视信息。

4.根据权利要求2或3所述的方法，其中，所述监视信息是基于所述连续帧中的至少两帧中的所述至少一个几何关系确定的。

5.根据权利要求1至4中任一项所述的方法，其中，所述至少一个对象包括所述人在执行所述处理的同时要与其交互的对象。

6.根据权利要求1至5中任一项所述的方法，其中，所述检测至少一个对象包括确定边界框，并且可选地确定所述至少一个对象的类型。

7.根据权利要求1至6中任一项所述的方法，其中，所述检测人体姿态包括检测所述人的多个身体关节或身体部位。

8.根据权利要求1至7中任一项所述的方法，其中，所述监视信息包括以下至少一个指标：所述处理的步骤是否已由所述人执行、所述人是否已处于危险中、所述人是否已犯了错误、所述人的人体工程学、所述人的效率、所述处理持续时间或其组合。

9.根据权利要求1至8中任一项所述的方法，其中，所述至少一个几何关系包括所述人体姿态与所述对象之间的距离和/或重叠率，和/或所述人体姿态处于参考检测到的所述对象而限定的区域中，并且所述监视信息是基于将所述几何关系与预定规则进行比较而返回的。

10.根据权利要求1至9中任一项所述的方法，其中所述处理包括在生产线上的物件的制造步骤。

11.根据权利要求10所述的方法，其中所述至少一个对象包括所述物件的支撑件。

12.用于监视要由人执行的处理的装置，所述装置包括：

用于获得执行所述处理的所述人的至少一个图像的模块；

用于在所述至少一个图像中检测所述人的人体姿态的模块；

用于在所述至少一个图像中检测至少一个对象的模块；

用于基于检测到的所述人体姿态与检测到的所述至少一个对象之间的至少一个几何关系返回关于所述处理的监视信息的模块。

13.系统，其包括根据权利要求12所述的装置，所述装置配备有视频获取模块以获得所述至少一个图像。

14.记录介质，其可由计算机读取，并且其上记录有计算机程序，所述计算机程序包括用于执行根据权利要求1至11中任一项所述的方法的步骤的指令。