CN113716416A

CN113716416A - 在第一人称视频和第三人称视频中基于机器学习的人类活动检测和分类

Info

Publication number: CN113716416A
Application number: CN202011393545.5A
Authority: CN
Inventors: A·巴蒂亚; 王国强; M·艾尔查米; C·皮内洛; A·提瓦里; M·L·吉奥多
Original assignee: Otis Elevator Co
Current assignee: Otis Elevator Co
Priority date: 2020-05-26
Filing date: 2020-12-03
Publication date: 2021-11-30
Anticipated expiration: 2040-12-03
Also published as: US20210374424A1; CN113716416B; EP3915917B1; EP4321465A2; US11544931B2; EP4321465A3; EP3915917A1

Abstract

本发明的标题为“在第一人称视频和第三人称视频中基于机器学习的人类活动检测和分类”。一种用于监测由个体对电梯系统执行的维护的分析装置，所述分析装置包括：处理器；以及包括计算机可执行指令的存储器，所述计算机可执行指令当由处理器执行时，使处理器执行操作，所述操作包括：使用第一摄像机捕获第一视频流；至少从第一视频流中提取序列；从序列中提取特征；以及使用长短期记忆模型来分析序列以确定是否正确执行由个体对电梯系统执行的维护。

Description

在第一人称视频和第三人称视频中基于机器学习的人类活动检测和分类

背景技术

本文公开的主题一般涉及运送系统的领域，并且特别地涉及用于监测运送系统的维护的方法和设备。

监测诸如例如电梯系统、自动扶梯系统和移动步道之类的输送系统的维护可能是困难的和/或昂贵的。

发明内容

根据实施例，提供了一种用于监测由个体对电梯系统执行的维护的分析装置。所述分析装置包括：处理器；以及包括计算机可执行指令的存储器，所述计算机可执行指令当由所述处理器执行时，使所述处理器执行操作，所述操作包括：使用第一摄像机捕获第一视频流；至少从所述第一视频流中提取序列；从所述序列中提取特征；以及使用长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：使用所述长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护还包括：基于紧接在帧之前的序列，对所述第一视频流的所述帧生成预测。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述预测包括预测标签。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述预测标签包括活动、物体或人手位置中的至少一个。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述操作还包括：将所述预测标签组织到时间线中以形成一个或多个自动机，所述一个或多个自动机由通过动作分离的一个或多个状态组成；以及将所述自动机与过程进行比较以确定是否正确执行由所述个体对所述电梯系统执行的所述维护。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述操作还包括：确定序列内的所述预测标签中的任何预测标签是否在逻辑上相互冲突。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述长短期记忆模型通过以下步骤来训练：获得个体对所述电梯系统执行维护活动的训练视频；标注所述训练视频，其中感兴趣的区域标注有活动、物体或人手位置中的至少一个；从所述训练视频中提取帧和剪辑；从所述训练视频的所述帧和剪辑中提取序列；以及从来自所述训练视频的所述序列中提取特征以产生所述训练模型。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述操作还包括：使用第二摄像机来捕获第二视频流；以及同步所述第一视频流和所述第二视频流，其中在同步之后至少从所述第一视频流和所述第二视频流中提取所述序列。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述同步所述第一视频流和所述第二视频流还包括：检测所述第一视频流的时间戳；检测所述第二视频流的时间戳；并且基于所述第一视频流的所述时间戳和所述第二视频流的所述时间戳来同步所述第一视频流和所述第二视频流。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述同步所述第一视频流和所述第二视频流还包括：检测所述第一视频流的原初动作；检测所述第二视频流的原初动作；并且基于所述第一视频流的所述原初动作和所述第二视频流的所述原初动作来同步所述第一视频流和所述第二视频流。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述第一视频流是第一人称视角，并且其中所述第二视频流是第三人称视角。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述第一视频流是第一人称视角。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述操作还包括：使用与所述电梯系统的控制器通信的传感器来检测数据；并且基于所述数据，确认是否正确执行由所述个体对所述电梯系统执行的所述维护。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述操作还包括：使用与所述电梯系统的控制器通信的传感器来检测数据；并且基于所述数据和所述视频流，确定是否正在正确操作所述传感器。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：所述第一摄像机位于可穿戴装置中。

根据另一个实施例，提供了一种体现在非暂时性计算机可读介质上的计算机程序产品。所述计算机程序产品包括指令，所述指令在由处理器执行时，使所述处理器执行操作，所述操作包括：至少从第一视频流中提取序列；从所述序列中提取特征；以及使用长短期记忆模型来分析所述序列以确定是否正确执行由个体对电梯系统执行的维护。

除了本文所述的特征中的一个或多个外，或作为备选方案，另外的实施例可包括：使用所述长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护还包括：基于紧接在帧之前的所述序列，对所述第一视频流的帧生成预测。

本公开的实施例的技术效果包括：利用对来自第一人称视频和/或第三人称视频的视频流的视频分析，分析对电梯系统执行的维护。

除非另有明确指出，否则前述特征和元件可采用各种组合进行组合而没有排他性。根据以下描述和附图，这些特征和元件及其操作将变得更加明显。然而，应当理解，以下描述和附图旨在本质上是说明性和解释性的，并且非限制性的。

附图说明

本公开通过示例的方式示出并且不限于附图，在所述附图中，相似附图标号指示类似元件。

图1是可以采用本公开的各种实施例的电梯系统的示意图；

图2根据本公开的实施例的维护监测系统的示意图；

图3是根据本公开的实施例供由图2的维护监测系统使用的分析方法的流程图；

图4是根据本公开的实施例同步来自多个摄像机的视频流的方法的流程图；

图5是根据本公开的实施例同步来自多个摄像机的视频流的方法的流程图；

图6是根据本公开的实施例用于视频流中的多动作过程验证和检测的系统级方法的流程图；

图7A是根据本公开的实施例的原初动作时间线，作为模块化动作检测模块的输出，和通过在与动作持续时间一致的时间间隔上平滑原初动作时间线来调整的时间线；

图7B是根据本公开的实施例的图6的方法的检测模块；

图7C是根据本公开的实施例在视频中的过程检测时间线的示例；

图8是根据本公开的实施例利用具有维护监测系统的电梯系统的多个传感器的方法的流程图；

图9是根据本公开的实施例利用具有维护监测系统的电梯系统的多个传感器的方法的流程图；和

图10是根据本公开的实施例的用于通过使用上下文信息来改进视频数据中的人类活动的检测和分类的方法的流程图。

具体实施方式

图1是电梯系统101的透视图，所述电梯系统101包括电梯轿厢103、配重105、受拉构件107、导轨109、机器111、定位参考系统113和控制器115。电梯轿厢103和配重105通过受拉构件107彼此连接。受拉构件107可包括或配置为例如绳索、钢缆和/或涂层钢带。配重105配置成平衡电梯轿厢103的负载，并且配置成促进电梯轿厢103在电梯井117内并沿着导轨109相对于配重105同时地并且在相反方向上移动。

受拉构件107接合机器111，所述机器111是电梯系统101的高架（overhead）结构的部分。机器111配置成控制电梯轿厢103和配重105之间的移动。定位参考系统113可安装在电梯井117顶部的固定部分上，诸如安装在支撑件（support）或导轨上，并且可配置成提供与电梯轿厢103在电梯井117内的定位有关的定位信号。在其他实施例中，定位参考系统113可直接安装到机器111的移动组件，或者可位于如本领域中已知的其他定位和/或配置中。定位参考系统113可以是如本领域中已知的用于监测电梯轿厢和/或配重的定位的任何装置或机构。例如但不限于，定位参考系统113可以是编码器、传感器或其他系统，并且可包括速度感测、绝对定位感测等，如本领域技术人员将理解的那样。

控制器115如所示出的那样定位于电梯井117的控制器室121中，并且配置成控制电梯系统101以及特别是电梯轿厢103的操作。例如，控制器115可向机器111提供驱动信号，以控制电梯轿厢103的加速、减速、调平、停止等。控制器115还可配置成从定位参考系统113或任何其他期望的定位参考装置接收位置信号。当在电梯井117内沿着导轨109向上或向下移动时，电梯轿厢103可停止在一个或多个层站125处，如由控制器115所控制的那样。尽管在控制器室121中被示出，但是本领域技术人员将领会的是，控制器115能够位于和/或配置在电梯系统101内的其他定位或位置中。在一个实施例中，控制器可远程地定位或定位于云中。

机器111可包括马达或类似的驱动机构。根据本公开的实施例，机器111配置成包括电驱动马达。用于马达的电力供应可以是任何电源，包括电力网，所述电源与其他组件组合而被供应给马达。机器111可包括曳引轮，所述曳引轮对受拉构件107施加力以使电梯轿厢103在电梯井117内移动。

尽管利用包括受拉构件107的绕绳系统来示出和描述，但采用在电梯井内移动电梯轿厢的其他方法和机构的电梯系统可采用本公开的实施例。例如，实施例可在使用线性马达来将运动施加到电梯轿厢的无绳电梯系统中被采用。实施例还可在使用液压升降机来将运动施加到电梯轿厢的无绳电梯系统中被采用。图1仅是出于说明性和解释性目的而呈现的非限制性示例。

在其他实施例中，系统包括使乘客在楼层之间和/或沿着单个楼层移动的运送系统。这样的运送系统可包括自动扶梯、人员移动装置（people mover）等。因此，本文中描述的实施例不限于电梯系统，诸如在图1中所示出的电梯系统。在一个示例中，本文公开的实施例可以是可适用的运送系统（诸如电梯系统101）和运送系统的运送设备（诸如电梯系统101的电梯轿厢103）。在另一个示例中，本文公开的实施例可以是可适用的运送系统（诸如自动扶梯系统）和运送系统的运送设备（诸如自动扶梯系统的移动楼梯）。

电梯系统101还包括一个或多个电梯门104。电梯门104可以整体附着到电梯轿厢103，或者电梯门104可以位于电梯系统101的层站125上。本文公开的实施例可以可适用于整体附着到电梯轿厢103的电梯门104或位于电梯系统101的层站125上的电梯门104两者。电梯门104打开以允许乘客进和出电梯轿厢103。

监测诸如例如电梯系统、自动扶梯系统和移动步道之类的运送系统的维护可能是困难的和/或高成本的。在一个示例中，可以执行基于视频的维护监测以确保技术人员正确地执行维护，然而这种基于视频的监测要求专家来复查所有视频，这是非常劳动密集的并且无法很好地扩展。本文公开的实施例涉及使基于视频的维护监测的复查过程自动化。

现在继续参考图2并继续参考图1，根据本公开的实施例示出了维护监测系统200。应当理解，尽管在示意性框图中单独定义了特定系统，但是可以经由硬件和/或软件将系统中的每个或任何以其他方式组合或分离。维护监测系统200配置成监测和分析由电梯系统101上的个体500执行的维护。

如图2所示，维护监测系统200可以包括配置成捕获视频流310（例如，图像序列）的摄像机490a、490b、490c、490d。监测系统200可以另外包括配置成捕获声音数据的麦克风492。摄像机490a-490d和麦克风492可以构成单个装置。维护监测系统200可以包括一个或多个摄像机490a-490d，并且摄像机490a-490d中的每个的位置可以如图2所示那样变化。仅具有单个视点可能无法捕获正在执行的整个维护活动，因此具有不止一个摄像机490a-490d可以是有利的。

在实施例中，摄像机490a可以位于能够由个体500携带和/或穿戴的移动装置400内。可以理解的是，现场可以存在不止一个具有不止一个摄像机490的个体500。移动装置400可以穿戴在个体500的头部上，诸如，例如在帽子、头带或头盔中。在实施例中，移动装置400是可穿戴装置，并且摄像机490a位于可穿戴装置中。有利的是，如果在个体500对电梯系统101或电梯系统101的特定组件执行维护时穿戴了摄像机490a，则摄像机490a可以从个体500的第一人称视角记录视频流310。麦克风492a也可以位于移动装置400内。

在实施例中，摄像机490b可以位于电梯系统101附近的层站125上。麦克风492b也可以位于电梯系统101附近的层站125上。在实施例中，摄像机490c可以位于电梯轿厢103内。麦克风492c也可以位于电梯轿厢103内。在实施例中，摄像机490d可以位于电梯井117内。麦克风492d也可以位于电梯井117内。应当理解，尽管示出了摄像机490a-490d和麦克风492a-492d的四个示例位置，但是本文公开的实施例适用于任何位置。一些其他位置可以包括在电梯系统101的机房内部或在由个体500带到电梯系统101的三脚架（tripod）上。

移动装置400可以属于个体500，诸如，例如在电梯系统101上工作的电梯技工/技术人员。移动装置400可以是通常由人携带的移动装置，诸如，例如智能电话、蜂窝电话、PDA、智能手表、平板、膝上型计算机、专用摄像机装置或本领域技术人员已知的类似装置。

如图2所示，移动装置400可以包括处理器420、存储器410和通信模块430。处理器420可以是计算机处理器的任何类型或组合，诸如微处理器、微控制器、数字信号处理器、图形处理单元（GPU）、专用集成电路、可编程逻辑装置和/或现场可编程门阵列。存储器410是有形地体现在移动装置400中的非暂时性计算机可读存储介质的示例，包括存储在其中的可执行指令，例如作为固件。通信模块430可以实现一个或多个通信协议，诸如，例如短程无线协议和长程无线协议。通信模块430可以与计算网络250和分析装置280中的至少一个通信。在实施例中，通信模块430可以使用短程无线协议和长程无线协议中的至少一个通过计算网络250与分析装置280通信。短程无线协议可包括但不限于蓝牙、Wi-Fi、HaLow（801.11ah）、zWave、ZigBee或无线M-Bus。长程无线协议可以包括但不限于蜂窝、LTE（NB-IoT、CAT M1）、LoRa、卫星、Ingenu或SigFox。

分析装置280可以是计算装置，诸如，例如台式计算机、基于云的计算机和/或基于云的人工智能（AI）计算系统。分析装置280可以包括处理器282和包括计算机可执行指令的相关联的存储器284，该计算机可执行指令在由处理器282执行时，使处理器282执行各种操作。处理器282可以是但不限于宽范围的可能架构中的任何的单处理器或多处理器系统，包括现场可编程门阵列（FPGA）、中央处理单元（CPU）、专用集成电路（ASIC）、数字信号处理器（DSP）或图形处理单元（GPU）硬件，其同构或异构布置。存储器284可以是但不限于随机存取存储器（RAM）、只读存储器（ROM）或其他电子、光、磁或任何其他计算机可读介质。

移动装置400还可以包括摄像机490和麦克风492。移动装置400的通信模块430配置成经由短程无线协议203和/或长程无线协议204将视频流310和/或声音数据320传送到分析装置280。通信模块430可以通过计算网络250将视频流310和/或声音数据320传送到分析装置280。计算网络250可以是计算网络，诸如，例如云计算网络、蜂窝网络或本领域技术人员已知的任何其他计算网络。

移动装置400可以配置成在通过通信模块430传送到分析装置280之前，使用处理器420处理视频流310和/或声音数据320。该处理被称为边缘处理。备选地，移动装置400可以配置成通过通信模块430将视频流310和/或声音数据320作为原始数据（即，未处理的数据）传送到分析装置280。然后分析装置280可以处理视频流310和/或声音数据320。

不位于移动装置400内的摄像机490b-490d可以配置成在通过通信模块（为简化起见而未示出）传送到分析装置280之前，使用处理器（为简化起见未示出）处理视频流310。该处理被称为边缘处理。备选地，不位于移动装置400内的摄像机490b-490d的通信模块（为简单起见未示出）可以配置成将视频流310作为原始数据（即，未处理的数据）传送到分析装置280。然后分析装置280可以处理视频流310。不位于移动装置400内的摄像机490b-490d的通信模块（为简单起见未示出）可以通过计算网络250无线连接到分析装置280。

不位于移动装置400内的麦克风492b-492d可以配置成在通过通信模块（为了简单起见未示出）传送到分析装置280之前，使用处理器（为了简单起见未示出）来处理声音数据320。该处理被示为边缘处理。备选地，不位于移动装置400内的麦克风492b-492d的通信模块（为简单起见未示出）可以配置成将声音数据320作为原始数据（即，未处理的数据）传送到分析装置280。然后分析装置280可以处理声音数据320。不位于移动装置400内的麦克风492b-492d的通信模块（为简单起见未示出）可以通过计算网络250无线连接到分析装置280。

视频流310可以被处理以对在电梯系统101上执行的维护执行合规性复查。对执行的维护的合规性复查可以指示维护是否曾由个体500正确地执行，如本文中进一步讨论的那样。

声音数据320可以被处理以执行对在电梯系统101上执行的维护的合规性复查。对执行的维护的合规性复查可以指示维护是否曾由个体500正确地执行，如本文中进一步讨论的那样。

视频流310和声音数据320可以单独或一起被处理以关联或链接，从而对在电梯系统101上执行的维护执行合规性复查。例如，如果要求个体转动组件直到可听的“咔哒”声，则可以通过视频流310捕获组件的转动，并且可以通过声音数据320捕获可听的咔嗒声。

现在参考图3，并继续参考图1-2，根据本公开的实施例示出了供图2的维护监测系统200使用的分析方法600。分析方法600可以由图2的分析装置280利用。在实施例中，分析方法600可以采取安装在图2的分析装置280上或可由其访问的软件的形式被存储。图3是计算架构/工作流程概览，以及图2是总体维护监测系统200的硬件架构/示意图。框604-620用于训练以构建将在分析装置280上使用的模型。执行框632-634中执行的测试以使用本领域技术人员已知的最佳实践来评估训练模型636对在训练中从未使用过的视频流的标签进行准确识别的能力。框632-634可以在分析装置280上用于推断。

在框604处，包含视频流310的训练视频（即，训练数据集）获得在电梯系统101上执行维护活动的个体500。可以收集电梯系统101上每个可能的维护活动的训练视频。在实施例中，从第一人称视角记录训练视频。在另一个实施例中，从第三人称视角记录训练视频。在另一个实施例中，从第一人称视角和第三人称视角记录训练视频。

在框606处，标注训练视频。训练视频的每个单独的视频帧和视频帧中的感兴趣区域可以标注有活动、物体或相对于物体的人手位置中的至少一个。该活动可能是打开门、按下开关、取钥匙或任何其他活动。该物体可以是钥匙、锁、鞋、电子开关、门或任何其他物体。相对于物体的人手位置可以是握住螺丝刀的手、红色按钮旁边的手或任何其他人手位置。

在框608处，示出了框606的标注过程的输出。输出可以是.csv文件，这是一个以逗号分隔的值文件。

在框610处，提取和组织来自训练视频的帧和剪辑。在框612处示出组织的输出。组织标注的数据，例如，以将机器学习系统训练成适合于所利用的计算流水线/库的格式。在框612处，训练视频的帧和剪辑被组织和保存。在框614处，提取帧和剪辑及其标签的序列。

在框616处，出于训练的目的提取序列内的特征以产生长短期记忆（LSTM）模型636，其配置成对在电梯系统101上执行的维护执行合规性复查。特征可以包括形状和物体识别。

框616是神经网络，并且可以是公共域网络，诸如，例如InceptionV3。可以使用其他网络和相关联的学习模型（也称为学习权重）代替“InceptionV3”。框616可以仅利用公共域网络的第一阶段，其专注于检测基本特征而不是特定特征。例如，球体可以是基本特征，而棒球可以是特定特征。由神经网络在学习识别图像/物体的过程中已经学习了这些特征，并且没有明确设计。这些特征表示“在（彩色）图像中存在给定的2D图案”（例如，可能已经学习到的一些图案）。例如，“图像的顶部主要是红色的”、“存在具有垂直条纹的角”或“在图像的某一区域中沿对角线边缘存在鲜明的对比度”。

在框618中，基于从框614提取的序列和标签，以及从框616提取的特征，训练LSTM模型636。LSTM模型636可以使用机器学习、数据挖掘、人工递归神经网络（RNN）中的至少一种被训练。在图3中，LSTM模型636是LSTM人工神经网络。在框620处，使用指定函数来计算LSTM模型636的损失。该损失在LSTM模型636中反向传播以更新其权重（即，使用本领域技术人员已知的方法对其进行训练）。所计算的损失表示在框604处LSTM模型636针对训练视频流和在框614处标记的训练视频流的精度。在框630处获得测试视频，并且在框632处从测试视频中提取序列。理解的是，当在现场部署时，框630的测试视频将以非测试视频（例如，实时视频流310）替换。在框634处，从测试视频的序列中提取特征，并且然后将该特征馈送到LSTM模型636。LSTM模型636配置成产生测试视频的预测638，并且然后在框640处分析该预测。在实施例中，LSTM模型636配置成基于先前帧的序列在测试视频的每个帧上生成预测。用于进行预测的帧的数量是架构中的可调变量，预期该可调变量影响性能和精度。它是控制旋钮（knob），其正在试图近似地捕获“在能够自信地确定活动是什么之前，需要连续观察活动多久

”的直觉。

预测638可以包括诸如例如活动、物体和相对于物体的人手位置之类的预测标签。框640处的分析可以是维护活动是否被正确地执行。该分析可以通过人在视觉上复查数据或使用分析来完成，如稍后关于图6和图10所讨论的那样。

现在参考图4和图5，并继续参考参考图1-3，示出了根据本公开的实施例分析来自多个摄像机490a-490b的视频流310的方法700a、700b。理解的是，虽然在图2中仅示出了两个摄像机490a-490b，可以利用任何数量的摄像机。利用多个摄像机490a-490b来分析由个体500对电梯系统101执行的维护可能是有利的，因为在任何给定的时间点，一个摄像机可能会模糊（blurred）或可能不能简单地捕获摄像机的视野中的维护。例如，当个体500在电梯系统101上执行维护时，通常位于个体500的身体上的摄像机490a可以捕获个体500的手的第一人称视角，而不在个体500的身体的摄像机490b可以捕获正在执行的维护的更宽阔的视角。静止的摄像机490b-490d可以提供电梯系统101的特定组件的更宽阔的视角。

当利用来自不止一个摄像机490a-490b的视频流310时出现的问题是同步视频流310，使得来自每个摄像机的视频流的对应帧对齐。图4的方法700a通过基于每个视频流中的时间戳而同步视频流310来解决该问题，而图5的方法700b通过基于常见的检测到的特征而同步视频来解决此问题。

如图4所示，摄像机490a从第一人称视角捕获视频流310，并且该视频流流过动作和物体检测模块710，其生成作为时间线716的输出，所述时间线716指示对于每个时间间隔什么是正在发生的最可能的（一个或多个）原初动作。

如图4所示，静止的摄像机490b从第三人称视角捕获视频流310，并且该视频流流过动作和物体检测模块710，其生成作为时间线716的输出，所述时间线716指示对于每个时间间隔什么是正在发生的最可能的（一个或多个）原初动作。

使用原初动作检测方法和/或物体检测方法来获得每个视频流310的时间线716。用于视频流化的常规动作检测算法提供了高精度以检测原初动作（高的真阳性），但可能遭受降低召回率（即，高数量的假阳性）。来自动作和物体检测模块710的输出时间线716首先被时间同步。

在图4的框720处，视频流310的每个流的时间线716可以基于预同步的时钟并使用那些时钟从而对视频开始加时间戳来同步（例如，当使用诸如移动电话装置、第一人称摄像机之类的智能摄像机时是可行的）。

在图5的框730处，视频流310的每个流的时间线716也可以基于检测到的原初动作来同步。原初动作可以是来自在电梯系统上工作的个体500的特定动作/信号（例如，类似于摄影中使用的拍板），或者利用个体500在常规工作包中执行的其他声音或动作（例如，电梯门打开、点击按钮等）。

在同步之后，在740处将各个流相关联以改进预测的精度（例如，参见图3的预测638），特别是减少假阳性的数量。这可以利用神经网络/机器学习方法来实现，特别是当视频流310的数量和种类是先验已知的（例如，一个体上摄像机和一个固定摄像机）时。基于自动机或其他明确编程的过滤技术的方法也是可能的（例如，多数表决，优先权重表决等）。可以处理投票后的流，以查找长期关系（相关性、因果关系等），以验证对标准工作的遵守。

现在参考图6、图7A、图7B和图7C并继续参考图1-5，根据本公开的实施例示出了用于在视频流310中进行多动作过程验证和检测的方法800。

方法800具有两个输入，包括来自操作手册的相关联的自动机模块705和过程的集合，其中每个过程由原初动作的集合按规定顺序以及个体500执行来自摄像机490a的过程的视频流310来定义，所述摄像机490a是第一人称可穿戴摄像机。方法800产生作为时间线的输出790，该时间线指示视频流310中可能已经成功发生该过程或者已经发生该过程的潜在违反的部分，并且因此要求人类操作员进行复查。

如图6所示，摄像机490a-490d捕获视频流310，并且视频流310流过动作和物体检测模块710，其生成作为时间线716的输出，所述时间线716指示对于每个时间间隔什么是正在发生的最可能的动作。在框760处，时间线716被平滑以调整动作的时间比例。

框760可以是图5的框730的一部分。框760尝试通过对时间线716进行平滑/滤波来减少假阳性。在一个示例中，平滑将要采取检测窗口并将存在最多的动作分配给该窗口。在另一个示例中，平滑将如下所述：对于给定的时刻，选择1秒的超前窗口，并检查每个原初动作存在多少，并且向该时刻分配发生过最多的原初动作。

图7A示出了根据本公开的实施例作为模块化动作和物体检测模块710的输出的原初动作时间线762以及通过在与动作持续时间一致的时间间隔上平滑原初动作时间线762而形成的调整后的时间线764。原初动作时间线762和调整后的时间线764各自包括第一动作时间线766和第二动作时间线768，它们一旦被平滑就可以对齐。

在框770处，将时间线716与过程和相关联的自动机模块705进行比较。首先识别出组成所选过程的原初动作，并且对于每个过程，自动机模块805如图7B所示的那样被构造。每个自动机模块805是由状态810的集合构成的有限状态机，其中当检测到动作812时在状态810之间发生转变。每个状态810可以是特定事件，诸如，例如“门打开”、“在电梯中”或类似的事件。

当检测到时间线中的动作812时，自动机805改变状态810，自动机805的接受状态指示动作810的集合已经以与选定时间限制内的过程和相关联的自动机模块705一致的规定顺序发生了。自动机805还可以具有状态810，其指示当针对过程检测到错误顺序时的时间线中的区段，因此针对复查被标记为过程的潜在违反。如上所述，方法800产生作为时间线的输出790，该时间线指示视频流310的一部分，其中可能已经成功地发生了该过程，或者已经发生了对该过程的潜在违反，并且因此要求人类操作员进行复查。图7C是视频流310中的过程检测时间线的示例，并且示出了自动机805的输出，其突出显示要求人类操作员复查的视频流310的区段310a。

现在参考图8和图9并继续参考图1-7，根据本公开的实施例示出了利用电梯系统101的多个传感器与维护监测系统200的方法900a、900b。除了由摄像机490a-490d提供的视频流310之外，可以由多个其他传感器910提供附加信息，以帮助分析由个体500执行的维护。多个传感器910可以包括门关闭传感器912、安全门楔（SDW）接合传感器913、轿厢检查开关（TOCIS）的顶部/轿厢紧急停止开关（TOCESS）的顶部传感器914、电梯呼叫的传感器916、钥匙插入传感器918或本领域技术人员已知的任何其他传感器。多个传感器910中的每个可以与电梯系统101的控制器115通信。摄像机490a-490d中的每个还可以与电梯系统101的控制器115通信。

这使得能够在摄像机490a-490d和多个传感器910之间建立对应关系，这还允许摄像机490a-490d将电梯系统101的控制器115的公共基本时钟用作参考时钟。因此，由摄像机490a-490d生成的所有视频流310和由多个传感器910生成的所有数据相对于相同参考时钟加时间戳。这为数据融合模块1010提供有由摄像机490a-490d和多个传感器910捕获的事件的时间顺序上的全局视图。来自多个传感器910的数据和来自摄像机490a-490d的视频流310被部分标记并发送到推断模块1020。

当从多个传感器910接收的数据被认为是可靠的时，仅需要将活动/任务推断应用于那些视频片段，而无需通过数据融合模块进行注释。换句话说，基于从传感器910接收的数据的注释是基本事实，因为传感器数据可以被信任并且是可靠的。然而，当基于视频流310的推断的置信水平高时，其结果可以用于对多个传感器910进行检验/重新校准推荐，所述多个传感器910的数据与推断模块1020针对对应帧所预测的数据不同。在这种场景下，来自传感器910的数据不是可靠的。例如，一些原因可能是传感器910可能需要被校准。由于推断置信水平高，因此推断结果被认为是基本事实，并且可以用于校准传感器910。

现在参考图10并继续参考图1-9，根据本公开的实施例示出了用于通过使用上下文信息来改进视频数据310中的人类活动的检测和分类的方法1100。

方法1100的输入数据是预测标签1112的序列1110，所述序列1110是多个基于机器学习的分类器的组合的输出。在图3的预测638中生成预测标签1112。预测标签1112包括活动（例如，开门、按下开关、取钥匙）、物体（例如，钥匙、锁、鞋子、电子开关、门）或相对于物体的人手位置（例如，握住螺丝刀的手、红色按钮旁边的手）中的至少一个。活动、物体和人手位置的组合的最佳选择可以根据感兴趣的应用进行细调。使用逻辑公式1120和图形表示1130的组合来表示反映不同类型的标签（例如，活动、物体、人手位置等）之间的域知识的相互关系。图表示1130和逻辑公式1120的给定集合可以例如表示当所执行的实际活动是“打开门”时，在预测标签1112的给定的序列1110中的不同预测标签1112之间应该有效的约束。逻辑公式1120可以是例如简单的命题公式（propositional formula）或更复杂的公式，诸如使用时间逻辑（例如，LTL、CTL或mu-演算）表达的那些公式。方法1100的输出是预测输入标签的子集，其遵守所提供的域知识并且导致更可能反映实际活动。序列1110内在逻辑上彼此冲突的预测标签1112中的任何将被移除。换句话说，将移除在逻辑上没有意义的预测标签1112的序列1110。例如，如果个体500当前位于电梯轿厢103的外部并且电梯轿厢103的门104是关闭的，则个体500不能按下电梯轿厢103内的电梯按钮。

该序列反映了每个帧上的预测标签1112到约束的集合的映射。预测标签1112可以是关于活动、物体、个体500或其任何组合。序列反映了不同类型的约束，已知的这些约束随着时间的推移应发生或不发生。例如，如果跟踪某些物体应出现在视频流中的顺序（即，序列），则序列可以由物体标签构成，并将其与约束的适当集合进行比较。

在相同的视频帧上，还可以确定关于个体500或个体500的活动的预测标签1112。预测标签1112的子集可以构成序列，并且然后将那些序列针对相应的约束进行比较。例如，物体的预测标签1112可以包括：螺丝刀、锤子、钉子、绝缘胶带。例如，个体500（即，人）的预测标签1112可以包括：1个人、2个人、人的手、人的鞋。例如，用于活动的预测标签1112可以包括握住螺丝刀、顺时针旋转旋钮、从袋子中取出物体、按下按钮。注意，在以上示例和方法中，可能虑及丢弃非常嘈杂的标签。其间可能存在一些帧，其中我们没有任何明确的标签。可以将这些序列中的每个与不同类型的约束进行比较（每个约束反映上下文信息的不同部分）。

如上所述，实施例可采用处理器实现的过程和用于实践那些过程的装置（诸如，处理器）的形式。实施例还可采用含有体现在有形介质（诸如，网络云存储、SD卡、闪存驱动器、软盘、CD ROM、硬驱动器或任何其它计算机可读存储介质）中的指令的计算机程序代码的形式（例如，计算机程序产品），其中当计算机程序代码被加载到计算机并由计算机执行时，计算机变成用于实践实施例的装置。实施例还可采用以下形式的计算机程序代码：所述计算机程序代码例如无论是存储在存储介质中、加载到计算机中和/或由计算机执行，还是通过一些传输介质传送，诸如通过电线或电缆、通过光纤（fiber optics）、或经由电磁辐射；其中当计算机程序代码被加载到计算机中并由计算机执行时，计算机变成用于实践实施例的装置。当在通用微处理器上实现时，计算机程序代码段配置微处理器以创建特定的逻辑电路。

术语“大约”旨在包括与基于在提交本申请时可用的设备的制造公差和/或特定量的测量相关联的误差程度。

本文中使用的术语仅仅出于描述特定实施例的目的，并且不旨在限制本公开。如本文中所使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”以及“该”旨在还包括复数形式。将进一步理解，术语“包括（comprise和/或comprising）”当在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件组件和/或其群组的存在或添加。

本领域技术人员将理解，本文中示出和描述各种示例实施例，每个示例实施例具有特定实施例中的某些特征，但本公开不因此被限制。相反，本公开能够被修改以合并此前未描述但与本公开的范围相称的任何数量的变体、变更、替换、组合、子组合或等同布置。另外，虽然已经描述本公开的各种实施例，但将理解的是，本公开的方面可仅包括所描述的实施例中的一些实施例。因此，本公开将不被视为受前述描述所限制，而是仅受所附权利要求书的范围所限制。

Claims

1.一种用于监测由个体对电梯系统执行的维护的分析装置，所述分析装置包括：

处理器；以及

包括计算机可执行指令的存储器，所述计算机可执行指令当由所述处理器执行时，使所述处理器执行操作，所述操作包括：

使用第一摄像机捕获第一视频流；

至少从所述第一视频流中提取序列；

从所述序列中提取特征；以及

使用长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护。

2.根据权利要求1所述的分析装置，其中使用所述长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护还包括：

基于紧接在帧之前的所述序列，对所述第一视频流的所述帧生成预测。

3.根据权利要求2所述的分析装置，其中所述预测包括预测标签。

4.根据权利要求3所述的分析装置，其中所述预测标签包括活动、物体或人手位置中的至少一个。

5.根据权利要求3所述的分析装置，其中所述操作还包括：

将所述预测标签组织到时间线中以形成一个或多个自动机，所述一个或多个自动机由通过动作分离的一个或多个状态组成；以及

将所述自动机与过程进行比较以确定是否正确执行由所述个体对所述电梯系统执行的所述维护。

6.根据权利要求3所述的分析装置，其中所述操作还包括：

确定序列内的所述预测标签中的任何预测标签是否在逻辑上相互冲突。

7.根据权利要求1所述的分析装置，其中所述长短期记忆模型通过以下步骤来训练：

获得个体对所述电梯系统执行维护活动的训练视频；

标注所述训练视频，其中感兴趣的区域标注有活动、物体或人手位置中的至少一个；

从所述训练视频中提取帧和剪辑；

从所述训练视频的所述帧和剪辑中提取序列；以及

从来自所述训练视频的所述序列中提取特征以产生所述训练模型。

8.根据权利要求1所述的分析装置，其中所述操作还包括：

使用第二摄像机来捕获第二视频流；以及

同步所述第一视频流和所述第二视频流，

其中在同步之后至少从所述第一视频流和所述第二视频流中提取所述序列。

9.根据权利要求8所述的分析装置，其中所述同步所述第一视频流和所述第二视频流还包括：

检测所述第一视频流的时间戳；

检测所述第二视频流的时间戳；以及

基于所述第一视频流的所述时间戳和所述第二视频流的所述时间戳来同步所述第一视频流和所述第二视频流。

10.根据权利要求8所述的分析装置，其中所述同步所述第一视频流和所述第二视频流还包括：

检测所述第一视频流的原初动作；

检测所述第二视频流的原初动作；以及

基于所述第一视频流的所述原初动作和所述第二视频流的所述原初动作来同步所述第一视频流和所述第二视频流。

11.根据权利要求8所述的分析装置，其中所述第一视频流是第一人称视角，以及

其中所述第二视频流是第三人称视角。

12.根据权利要求1所述的分析装置，其中所述第一视频流是第一人称视角。

13.根据权利要求1所述的分析装置，其中所述操作还包括：

使用与所述电梯系统的控制器通信的传感器来检测数据；以及

基于所述数据，确认是否正确执行由所述个体对所述电梯系统执行的所述维护。

14.根据权利要求1所述的分析装置，其中所述操作还包括：

基于所述数据和所述视频流，确定是否正在正确操作所述传感器。

15.根据权利要求1所述的分析装置，其中所述第一摄像机位于可穿戴装置中。

16.一种体现在非暂时性计算机可读介质上的计算机程序产品，所述计算机程序产品包括指令，所述指令在由处理器执行时，使所述处理器执行操作，所述操作包括：

至少从第一视频流中提取序列；

从所述序列中提取特征；以及

使用长短期记忆模型来分析所述序列以确定是否正确执行由个体对电梯系统执行的维护。

17.根据权利要求16所述的计算机程序产品，其中使用所述长短期记忆模型来分析所述序列以确定是否正确执行由所述个体对所述电梯系统执行的所述维护还包括：

18.根据权利要求17所述的计算机程序产品，其中所述预测包括预测标签。

19.根据权利要求18所述的计算机程序产品，其中所述预测标签包括活动、物体或人手位置中的至少一个。

20.根据权利要求18所述的计算机程序产品，其中所述操作还包括：