ES2972867T3

ES2972867T3 - Detección y clasificación de la actividad humana en vídeos en primera persona y tercera persona basada en aprendizaje automático

Info

Publication number: ES2972867T3
Application number: ES20213493T
Authority: ES
Inventors: Amit Bhatia; Guoqiang Wang; Chamie Mahmoud El; Claudio Pinello; Ankit Tiwari; Massimiliano L Chiodo
Original assignee: Otis Elevator Co
Current assignee: Otis Elevator Co
Priority date: 2020-05-26
Filing date: 2020-12-11
Publication date: 2024-06-17
Anticipated expiration: 2040-12-11
Also published as: EP4321465A3; EP3915917B1; CN113716416A; US20210374424A1; US11544931B2; CN113716416B; EP3915917A1; EP4321465A2

Abstract

Un dispositivo analítico (200) para monitorear el mantenimiento en un sistema de ascensor realizado por un individuo que incluye: un procesador (282); y una memoria (284) que incluye instrucciones ejecutables por computadora que, cuando las ejecuta el procesador (282), hacen que el procesador (282) realice operaciones, incluyendo las operaciones: capturar un primer flujo de video (310) usando una primera cámara de video (490a-d); extraer secuencias de al menos el primer flujo de vídeo (310); extraer características de las secuencias; y analizar, utilizando un modelo de memoria a largo plazo, la secuencia para determinar si el mantenimiento realizado en el sistema de ascensor por el individuo se realiza correctamente. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Detección y clasificación de la actividad humana en vídeos en primera persona y tercera persona basada en aprendizaje automático

Antecedentes

El objeto descrito en la presente memoria se refiere en general al campo de los sistemas de transporte, y específicamente a un método y un aparato para supervisar el mantenimiento de los sistemas de transporte.

Supervisar el mantenimiento de sistemas de transporte, tales como, por ejemplo, sistemas de ascensores, sistemas de escaleras mecánicas y pasarelas móviles puede ser difícil y/o costoso. El documento EP 3409 629 A1 describe un sistema de análisis de imágenes en comunicación con una cámara a través de una red; la cámara que proporciona una imagen de referencia y una imagen actual al sistema de análisis de imágenes; el sistema de análisis de imágenes que compara la imagen actual con la imagen de referencia para detectar una diferencia entre la imagen actual y la imagen de referencia.

El documento US 2020/102188 A1 describe un sistema de ascensor que comprende datos de imagen de referencia asociados con una o más ubicaciones en el sistema de ascensor, y una cámara, que recibe datos de imagen asociados con al menos una de la una o más ubicaciones en el sistema de ascensor, y compara los datos de imagen con los datos de referencia para determinar un fallo en un componente de ascensor en el sistema de ascensor.

El documento CN 108275524 B describe un dispositivo según el preámbulo de la reivindicación 1 y describe un dispositivo de supervisión y guiado para operaciones de mantenimiento y protección de ascensores de inteligencia artificial, y se refiere a un dispositivo de guiado estandarizado basándose en la evaluación de la operación de secuencia de vídeo en primera perspectiva. Un algoritmo de extracción de fotograma de clave de vídeo se diseña para entrenar un modelo de estado, establecer una base de datos de grupo de imágenes de los mantenimientos del ascensor, y regularizar un módulo de entrenamiento de aprendizaje profundo. Esto identifica el flujo de trabajo de mantenimiento basándose en información contextual y proporciona guiado en tiempo real.

El documento US 2020/125923 A1 describe un sistema para la detección de anomalías de vídeo que incluye una interfaz de entrada configurada para aceptar un vídeo de entrada de una escena, y una memoria configurada para almacenar parches de vídeo de entrenamiento de un vídeo de entrenamiento de la escena que captura la actividad normal en la escena, y almacenar una red neuronal entrenada para comparar dos parches de vídeo para declarar los parches de vídeo comparados como similares o diferentes.

Breve compendio

Según la presente invención reivindicada, se proporciona un dispositivo de análisis para supervisar el mantenimiento en un sistema de ascensor realizado por un individuo. El dispositivo de análisis que incluye: un procesador; y una memoria que incluye instrucciones ejecutables por ordenador que, cuando se ejecutan por el procesador, hacen que el procesador realice operaciones, las operaciones que incluyen: capturar un primer flujo de vídeo usando una primera cámara de vídeo; extraer secuencias de al menos el primer flujo de vídeo; extraer características de las secuencias; y analizar, usando un modelo de memoria a corto y largo plazo, la secuencia para determinar si el mantenimiento realizado en el sistema de ascensor por el individuo se realiza correctamente; en donde el análisis incluye además: generar predicciones en un fotograma del primer flujo de vídeo basándose en las secuencias inmediatamente anteriores al fotograma.

Algunas realizaciones pueden incluir que las predicciones incluyan etiquetas predichas.

Algunas realizaciones pueden incluir que las etiquetas predichas incluyan al menos una de una actividad, un objeto o una ubicación de una mano humana.

Algunas realizaciones pueden incluir que las operaciones incluyan además: organizar las etiquetas predichas en una línea de tiempo para formar uno o más autómatas compuestos de uno o más estados separados por acciones; y comparar los autómatas con procedimientos para determinar si el mantenimiento realizado en el sistema de ascensor por el individuo se realiza correctamente.

Algunas realizaciones pueden incluir que las operaciones incluyan además: determinar si cualquiera de las etiquetas predichas dentro de una secuencia entran lógicamente en conflicto entre sí.

Algunas realizaciones pueden incluir que el modelo de memoria a corto y largo plazo se entrene mediante: obtener vídeos de entrenamiento de individuos que realizan actividades de mantenimiento en el sistema de ascensor; etiquetar los vídeos de entrenamiento, en donde una región de interés se etiqueta con al menos una de una actividad, un objeto o una ubicación de una mano humana; extraer fotogramas y clips de los vídeos de entrenamiento; extraer secuencias de los fotogramas y clips de los vídeos de entrenamiento; y extraer características de las secuencias de los vídeos de entrenamiento para producir los modelos de entrenamiento.

Algunas realizaciones pueden incluir que las operaciones incluyan además: capturar un segundo flujo de vídeo usando una segunda cámara de vídeo; y sincronizar el primer flujo de vídeo y el segundo flujo de vídeo, en donde las secuencias se extraen de al menos el primer flujo de vídeo y el segundo flujo de vídeo después de la sincronización.

Algunas realizaciones pueden incluir que la sincronización del primer flujo de vídeo y el segundo flujo de vídeo incluya además: detectar una marca de tiempo del primer flujo de vídeo; detectar una marca de tiempo del segundo flujo de vídeo; y sincronizar el primer flujo de vídeo y el segundo flujo de vídeo basándose en la marca de tiempo del primer flujo de vídeo y la marca de tiempo del segundo flujo de vídeo.

Algunas realizaciones pueden incluir que la sincronización del primer flujo de vídeo y el segundo flujo de vídeo incluya además: detectar una acción primitiva del primer flujo de vídeo; detectar una acción primitiva del segundo flujo de vídeo; y sincronizar el primer flujo de vídeo y el segundo flujo de vídeo basándose en la acción primitiva del primer flujo de vídeo y la acción primitiva del segundo flujo de vídeo.

Algunas realizaciones pueden incluir que el primer flujo de vídeo es un punto de vista en primera persona, y en donde el segundo flujo de vídeo es un punto de vista en tercera persona.

Algunas realizaciones pueden incluir que el primer flujo de vídeo es un punto de vista en primera persona.

Algunas realizaciones pueden incluir que las operaciones incluyan además: detectar datos usando un sensor en comunicación con un controlador del sistema de ascensor; y confirmar si el mantenimiento realizado en el sistema de ascensor por el individuo se realiza correctamente basándose en los datos.

Algunas realizaciones pueden incluir que las operaciones incluyan además: detectar datos usando un sensor en comunicación con un controlador del sistema de ascensor; y determinar si el sensor está funcionando correctamente basándose en los datos y el flujo de vídeo.

Según un aspecto de la presente invención reivindicada, se proporciona un producto de programa informático incorporado en un medio legible por ordenador. El producto de programa informático incluye instrucciones que, cuando se ejecutan por un procesador, hacen que el procesador realice operaciones que incluyen: extraer secuencias de al menos el primer flujo de vídeo; extraer características de las secuencias; y analizar, usando un modelo de memoria a corto y largo plazo, la secuencia para determinar si el mantenimiento realizado en el sistema de ascensor por el individuo se realiza correctamente, en donde el análisis incluye además: generar predicciones en un fotograma del primer flujo de vídeo basándose en las secuencias inmediatamente anteriores al fotograma.

Algunas realizaciones pueden incluir que las predicciones incluyen etiquetas predichas.

Los efectos técnicos de las realizaciones de la presente descripción incluyen analizar el mantenimiento realizado en un sistema de ascensor utilizando análisis de vídeo de flujos de vídeo de un vídeo en primera persona y/o un vídeo en tercera persona.

Las características y elementos anteriores pueden combinarse en diversas combinaciones sin exclusividad, salvo que se indique expresamente lo contrario. Estas características y elementos, así como la operación de los mismas, serán más evidentes a la luz de la siguiente descripción y los dibujos adjuntos. Debe entenderse, sin embargo, que la siguiente descripción y dibujos pretenden ser de naturaleza ilustrativa y explicativa y no limitativa.

Breve descripción de los dibujos

La presente descripción se ilustra a modo de ejemplo y no se limita en las figuras adjuntas en las que números de referencia iguales indican elementos similares.

La FIG. 1 es una ilustración esquemática de un sistema de ascensor que puede emplear diversas realizaciones de la presente descripción;

la FIG. 2 es una ilustración esquemática de un sistema de supervisión del mantenimiento, según una realización de la descripción;

la FIG. 3 es un diagrama de flujo de un método de análisis para su uso por el sistema de supervisión del mantenimiento de la FIG. 2, según una realización de la descripción;

la FIG. 4 es un diagrama de flujo de un método de sincronización de flujo de vídeo desde múltiples cámaras, según una realización de la descripción;

la FIG. 5 es un diagrama de flujo de un método de sincronización de flujo de vídeo desde múltiples cámaras, según una realización de la descripción;

la FIG. 6 es un diagrama de flujo de un método a nivel de sistema para la verificación y detección de procedimientos multiacción en flujos de vídeo, según una realización de la descripción;

la FIG. 7A es una línea de tiempo de acciones primitivas como la salida del módulo de detección de acciones modular y una línea de tiempo ajustada suavizando la línea de tiempo de acciones primitivas durante un intervalo de tiempo consistente con la duración de la acción, según una realización de la descripción;

la FIG. 7B es un módulo de detección del método de la FIG. 6, según una realización de la descripción;

la FIG. 7C es un ejemplo de una línea de tiempo de detección de procedimientos en un vídeo, según una realización de la descripción;

la FIG. 8 es un diagrama de flujo de un método para utilizar una pluralidad de sensores del sistema de ascensor con el sistema de supervisión del mantenimiento, según una realización de la descripción;

la FIG. 9 es un diagrama de flujo de un método para utilizar una pluralidad de sensores del sistema de ascensor con el sistema de supervisión del mantenimiento, según una realización de la descripción; y

la FIG. 10 es un diagrama de flujo de un método para mejorar la detección y clasificación de actividades humanas en datos de vídeo a través del uso de información contextual, según una realización de la descripción.

Descripción detallada

La FIG. 1 es una vista en perspectiva de un sistema 101 de ascensor que incluye una cabina 103 de ascensor, un contrapeso 105, un miembro 107 de tensión, un carril 109 de guía, una máquina 111, un sistema 113 de referencia de posición y un controlador 115. La cabina 103 de ascensor y el contrapeso 105 se conectan entre sí por el miembro 107 de tensión. El miembro 107 de tensión puede incluir o configurarse como, por ejemplo, cuerdas, cables de acero y/o correas de acero revestido. El contrapeso 105 se configura para equilibrar una carga de la cabina 103 de ascensor y se configura para facilitar el movimiento de la cabina 103 de ascensor simultáneamente y en una dirección opuesta con respecto al contrapeso 105 dentro de un hueco 117 de ascensor y a lo largo del carril 109 de guía.

El miembro 107 de tensión se acopla a la máquina 111, que forma parte de una estructura superior del sistema 101 de ascensor. La máquina 111 se configura para controlar el movimiento entre la cabina 103 de ascensor y el contrapeso 105. El sistema 113 de referencia de posición puede estar montado en una parte fija en la parte superior del eje 117 de ascensor, tal como en un soporte o carril de guía, y puede estar configurado para proporcionar señales de posición relacionadas con una posición de la cabina 103 de ascensor dentro del eje 117 de ascensor. En otras realizaciones, el sistema 113 de referencia de posición se puede montar directamente en un componente móvil de la máquina 111, o se puede ubicar en otras posiciones y/o configuraciones como se conoce en la técnica. El sistema 113 de referencia de posición puede ser cualquier dispositivo o mecanismo para supervisar una posición de una cabina de ascensor y/o contrapeso, como se conoce en la técnica. Por ejemplo, sin limitación, el sistema 113 de referencia de posición puede ser un codificador, sensor u otro sistema y puede incluir detección de velocidad, detección de posición absoluta, etc., como apreciarán los expertos en la técnica.

El controlador 115 se ubica, como se muestra, en una sala 121 de control del hueco 117 de ascensor y se configura para controlar la operación del sistema 101 de ascensor, y en particular la cabina 103 de ascensor. Por ejemplo, el controlador 115 puede proporcionar señales de accionamiento a la máquina 111 para controlar la aceleración, desaceleración, nivelación, parada, etc. de la cabina 103 de ascensor. El controlador 115 también puede configurarse para recibir señales de posición desde el sistema 113 de referencia de posición o cualquier otro dispositivo de referencia de posición deseado. Cuando se mueve hacia arriba o hacia abajo dentro del eje 117 de ascensor a lo largo del carril 109 de guía, la cabina 103 de ascensor puede detenerse en uno o más rellanos 125 controlados por el controlador 115. Aunque se muestra en una sala 121 de control, los expertos en la técnica apreciarán que el controlador 115 puede ubicarse y/o configurarse en otras ubicaciones o posiciones dentro del sistema 101 de ascensor. En una realización, el controlador se puede ubicar de forma remota o en la nube.

La máquina 111 puede incluir un motor o un mecanismo de accionamiento similar. Según realizaciones de la descripción, la máquina 111 se configura para incluir un motor accionado eléctricamente. La fuente de alimentación para el motor puede ser cualquier fuente de alimentación, incluida una red eléctrica, que, en combinación con otros componentes, se suministra al motor. La máquina 111 puede incluir una polea de tracción que imparte fuerza al miembro 107 de tensión para mover la cabina 103 de ascensor dentro del hueco 117 de ascensor.

Aunque se muestra y describe con un sistema de cuerdas que incluye el miembro 107 de tensión, los sistemas de ascensor que emplean otros métodos y mecanismos para mover una cabina de ascensor dentro de un hueco de ascensor pueden emplear realizaciones de la presente descripción. Por ejemplo, se pueden emplear realizaciones en sistemas de ascensor sin cuerdas que utilizan un motor lineal para impartir movimiento a una cabina de ascensor. También pueden emplearse realizaciones en sistemas de ascensor sin cable que utilizan un ascensor hidráulico para impartir movimiento a una cabina de ascensor. La FIG. 1 es meramente un ejemplo no limitativo presentado con fines ilustrativos y explicativos.

En otras realizaciones, el sistema comprende un sistema de transporte que mueve pasajeros entre plantas y/o a lo largo de una sola planta. Tales sistemas de transporte pueden incluir escaleras mecánicas, cintas transportadoras de personas, etc. Por consiguiente, las realizaciones descritas en la presente memoria no se limitan a sistemas de ascensor, tales como los mostrados en la FIG. 1. En un ejemplo, las realizaciones descritas en la presente memoria pueden ser sistemas de transporte aplicables tales como un sistema 101 de ascensor y un aparato de transporte del sistema de transporte tal como una cabina 103 de ascensor del sistema 101 de ascensor. En otro ejemplo, las realizaciones descritas en la presente memoria pueden ser sistemas de transporte aplicables tales como un sistema de escalera mecánica y un aparato de transporte del sistema de transporte tal como una escalera móvil del sistema de escalera mecánica.

El sistema 101 de ascensor también incluye una o más puertas 104 de ascensor. La puerta 104 de ascensor puede estar unida integralmente a la cabina 103 de ascensor o la puerta 104 de ascensor puede estar situada en un rellano 125 del sistema 101 del ascensor. Las realizaciones descritas en la presente memoria pueden ser aplicables tanto a una puerta 104 de ascensor unida integralmente a la cabina 103 de ascensor como a una puerta 104 de ascensor situada en un rellano 125 del sistema 101 de ascensor. La puerta 104 de ascensor se abre para permitir a los pasajeros entrar y salir de la cabina 103 de ascensor.

Supervisar el mantenimiento de sistemas de transporte, tales como, por ejemplo, sistemas de ascensores, sistemas de escaleras mecánicas y pasarelas móviles puede ser difícil y/o costoso. En un ejemplo, la supervisión del mantenimiento basándose en vídeo puede realizarse para garantizar que los técnicos están realizando correctamente el mantenimiento, sin embargo, esta supervisión basándose en vídeo requiere que un experto revise todo el vídeo, lo que requiere mucho trabajo y no escala muy bien. Las realizaciones descritas en la presente memoria se refieren a la automatización del proceso de revisión de la supervisión del mantenimiento basándose en vídeo.

Haciendo referencia ahora a la FIG. 2 con referencia continua a la FIG. 1, se ilustra un sistema 200 de supervisión del mantenimiento, según una realización de la presente descripción. Debe apreciarse que, aunque los sistemas particulares se definen por separado en los diagramas de bloques esquemáticos, cada uno o cualquiera de los sistemas pueden combinarse o separarse de otro modo mediante hardware y/o software. El sistema 200 de supervisión del mantenimiento está configurado para supervisar y analizar el mantenimiento que está realizando un individuo 500 en un sistema 101 de ascensor.

Como se ilustra en la FIG. 2, el sistema 200 de supervisión del mantenimiento puede incluir una cámara 490a, 490b, 490c, 490d configurada para capturar un flujo 310 de vídeo (por ejemplo, una secuencia de imágenes). El sistema 200 de supervisión puede incluir adicionalmente un micrófono 492 configurado para capturar datos de sonido. La cámara 490a-490d y el micrófono 492 pueden estar compuestos en un solo dispositivo. El sistema 200 de supervisión del mantenimiento puede incluir una o más cámaras 490a-490d y las ubicaciones de cada una de las cámaras 490a-490d pueden variar como se indica en la FIG. 2. Tener solo un único punto de vista puede no ser capaz de capturar toda la actividad de mantenimiento que se está realizando, por lo que puede ser ventajoso tener más de una cámara 490a-490d.

En una realización, una cámara 490a puede estar situada dentro de un dispositivo 400 móvil que es capaz de ser transportado y/o llevado por el individuo 500. Se entiende que puede haber más de un individuo 500 con más de una cámara 490 in situ. El dispositivo 400 móvil se puede llevar en la cabeza de un individuo 500, tal como, por ejemplo, en un sombrero, banda para la cabeza o casco. En una realización, el dispositivo 400 móvil es un dispositivo portátil y la cámara 490a está situada en el dispositivo portátil. Ventajosamente, si la cámara 490a se lleva puesta mientras el individuo 500 está realizando el mantenimiento en el sistema 101 de ascensor o un componente específico del sistema 101 de ascensor, la cámara 490a puede grabar un flujo 310 de vídeo desde una vista en primera persona del individuo 500. Un micrófono 492a también puede estar situado dentro del dispositivo 400 móvil.

En una realización, una cámara 490b puede estar situada en un rellano 125 próximo al sistema 101 de ascensor. Un micrófono 492b también puede estar situado en el rellano 125 próximo al sistema 101 de ascensor. En una realización, una cámara 490c puede estar situada dentro de la cabina 103 de ascensor. Un micrófono 492c también puede estar situado dentro de la cabina 103 de ascensor. En una realización, una cámara 490d puede estar situada dentro del eje 117 del ascensor. Un micrófono 492d también puede estar situado dentro del eje 117 de ascensor. Se entiende que aunque se ilustran cuatro ubicaciones de ejemplo de las cámaras 490a-490d y los micrófonos 492a-492d, las realizaciones descritas en la presente memoria se aplican a cualquier ubicación. Algunas otras ubicaciones pueden incluir el interior de una sala de máquinas de un sistema 101 de ascensor o sobre un trípode llevado al sistema 101 de ascensor por el individuo 500.

El dispositivo 400 móvil puede pertenecer a un individuo 500, tal como, por ejemplo, un mecánico/técnico de ascensor que trabaja en el sistema 101 de ascensor. El dispositivo 400 móvil puede ser un dispositivo móvil que es llevado típicamente por una persona, tal como, por ejemplo, un teléfono inteligente, teléfono celular, PDA, reloj inteligente, tableta, portátil, dispositivo de cámara dedicado o dispositivo similar conocido por un experto en la técnica.

El dispositivo 400 móvil puede incluir un procesador 420, una memoria 410 y un módulo 430 de comunicación, como se muestra en la FIG. 2. El procesador 420 puede ser cualquier tipo o combinación de procesadores de ordenador, tales como un microprocesador, microcontrolador, procesador de señal digital, unidad de procesamiento gráfico (GPU), circuito integrado específico de aplicación, dispositivo lógico programable y/o matriz de puertas programable en campo. La memoria 410 es un ejemplo de un medio de almacenamiento legible por ordenador no transitorio incorporado en el dispositivo 400 móvil que incluye instrucciones ejecutables almacenadas en el mismo, por ejemplo, como firmware. El módulo 430 de comunicación puede implementar uno o más protocolos de comunicación, tales como, por ejemplo, protocolos inalámbricos de corto alcance y protocolos inalámbricos de largo alcance. El módulo 430 de comunicación puede estar en comunicación con al menos una de la red 250 informática y el dispositivo 280 de análisis. En una realización, el módulo 430 de comunicación puede estar en comunicación con el dispositivo 280 de análisis a través de la red 250 informática usando al menos uno de los protocolos inalámbricos de corto alcance y los protocolos inalámbricos de largo alcance. Los protocolos inalámbricos de corto alcance pueden incluir, pero no se limitan a, Bluetooth, Wi-Fi, HaLow (801.11ah), zWave, ZigBee o M-Bus inalámbrico. Los protocolos inalámbricos de largo alcance pueden incluir, pero no se limitan a, celular, LTE (NB-IoT, CAT M1), LoRa, satélite, Ingenu o SigFox.

El dispositivo 280 de análisis puede ser un dispositivo informático, tal como, por ejemplo, un ordenador de escritorio, un ordenador basado en la nube, y/o un sistema informático de inteligencia artificial (AI) basado en la nube. El dispositivo 280 de análisis puede incluir un procesador 282 y una memoria 284 asociada que comprende instrucciones ejecutables por ordenador que, cuando se ejecutan por el procesador 282, hacen que el procesador 282 realice diversas operaciones. El procesador 282 puede ser, pero no se limita a, un sistema de procesador único o de multiprocesador de cualquiera de una amplia gama de arquitecturas posibles, incluyendo matriz de puertas programables en campo (FPGA), unidad central de procesamiento (CPU), circuitos integrados de aplicación específica (ASIC), procesador de señal digital (DSP) o el hardware de la unidad de procesamiento de gráficos (GPU) dispuestos homogénea o heterogéneamente. La memoria 284 puede ser, pero no se limita a, una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM) u otro medio electrónico, óptico, magnético o cualquier otro legible por ordenador.

El dispositivo 400 móvil también puede incluir la cámara 490 y el micrófono 492. El módulo 430 de comunicación del dispositivo 400 móvil está configurado para transmitir el flujo 310 de vídeo y/o los datos 320 de sonido al dispositivo 280 de análisis a través de protocolos 203 inalámbricos de corto alcance y/o protocolos 204 inalámbricos de largo alcance. El módulo 430 de comunicación puede transmitir el flujo 310 de vídeo y/o los datos 320 de sonido al dispositivo 280 de análisis a través de la red 250 informática. La red 250 informática puede ser una red informática, tal como, por ejemplo, una red informática en la nube, red celular, o cualquier otra red de informática conocida por un experto en la técnica.

El dispositivo 400 móvil puede configurarse para procesar el flujo 310 de vídeo y/o los datos 320 de sonido usando el procesador 420 antes de transmitir al dispositivo 280 de análisis a través del módulo 430 de comunicación. Este procesamiento se conoce como procesamiento perimetral. Alternativamente, el dispositivo 400 móvil puede configurarse para transmitir como datos brutos (es decir, datos no procesados) el flujo 310 de vídeo y/o los datos 320 de sonido al dispositivo 280 de análisis a través del módulo 430 de comunicación. A continuación, el dispositivo 280 de análisis puede procesar el flujo 310 de vídeo y/o los datos 320 de sonido.

Las cámaras 490b-490d no situadas dentro del dispositivo 400 móvil pueden configurarse para procesar el flujo 310 de vídeo usando un procesador (no mostrado por simplicidad) antes de transmitir al dispositivo 280 de análisis a través de un módulo de comunicación (no mostrado por simplicidad). Este procesamiento se conoce como procesamiento perimetral. Alternativamente, el módulo de comunicación (no mostrado por simplicidad) de las cámaras 490b-490d no situadas dentro del dispositivo 400 móvil puede configurarse para transmitir como datos brutos (es decir, datos no procesados) el flujo 310 de vídeo al dispositivo 280 de análisis. A continuación, el dispositivo 280 de análisis puede procesar el flujo 310 de vídeo. El módulo de comunicación (no mostrado por simplicidad) de las cámaras 490b-490d no situadas dentro del dispositivo 400 móvil puede conectarse inalámbricamente al dispositivo 280 de análisis a través de la red 250 informática.

Los micrófonos 492b-492d no situados dentro del dispositivo 400 móvil pueden configurarse para procesar los datos 320 de sonido usando un procesador (no mostrado por simplicidad) antes de transmitir al dispositivo 280 de análisis a través de un módulo de comunicación (no mostrado por simplicidad). Este procesamiento se conoce como procesamiento perimetral. Alternativamente, el módulo de comunicación (no mostrado por simplicidad) de los micrófonos 492b-492d no situados dentro del dispositivo 400 móvil puede configurarse para transmitir como datos brutos (es decir, datos no procesados) los datos 320 de sonido al dispositivo 280 de análisis. A continuación, el dispositivo 280 de análisis puede procesar los datos 320 de sonido. El módulo de comunicación (no mostrado por simplicidad) de los micrófonos 492b-492d no situados dentro del dispositivo 400 móvil puede conectarse inalámbricamente al dispositivo 280 de análisis a través de la red 250 informática.

El flujo 310 de vídeo puede procesarse para realizar una revisión de cumplimiento del mantenimiento realizado en el sistema 101 de ascensor. La revisión de cumplimiento del mantenimiento realizado puede indicar si el mantenimiento fue realizado correctamente por el individuo 500, como se analiza adicionalmente en la presente memoria.

Los datos 320 de sonido pueden procesarse para realizar una revisión de cumplimiento del mantenimiento realizado en el sistema 101 de ascensor. La revisión de cumplimiento del mantenimiento realizado puede indicar si el mantenimiento fue realizado correctamente por el individuo 500, como se analiza adicionalmente en la presente memoria.

El flujo 310 de vídeo y los datos 320 de sonido pueden procesarse por separado o conjuntamente para asociar o enlazar para realizar una revisión de cumplimiento del mantenimiento realizado en el sistema 101 de ascensor. Por ejemplo, si se requiere que el individuo gire un componente hasta un “clic” audible, entonces el giro del componente puede capturarse por el flujo 310 de vídeo y el clic audible puede capturarse por los datos 320 de sonido.

Haciendo referencia ahora a la FIG. 3, con referencia continua a las FIGS. 1-2, se ilustra un método 600 de análisis para uso por el sistema 200 de supervisión del mantenimiento de la FIG. 2 según una realización de la presente descripción. El método 600 de análisis puede ser utilizado por el dispositivo 280 de análisis de la FIG. 2. En una realización, el método 600 de análisis puede almacenarse en la forma de software instalado en o accesible para el dispositivo 280 de análisis de la FIG. 2. La FIG. 3 es una vista general de arquitectura/flujo de trabajo informático y la FIG. 2 es una arquitectura/esquema de hardware del sistema 200 de supervisión del mantenimiento general. Los bloques 604-620 se usan para el entrenamiento para construir un modelo que se usará en el dispositivo 280 de análisis. La prueba realizada en los bloques 632-634 se realiza para evaluar la capacidad del modelo 636 entrenado para reconocer exactamente las etiquetas para flujos de vídeo que nunca se usaron en el entrenamiento, usando las mejores prácticas conocidas por los expertos en la técnica. Los bloques 632-634 se pueden usar en el dispositivo 280 de análisis para la inferencia.

En el bloque 604, se obtienen vídeos de entrenamiento (es decir, conjuntos de datos de entrenamiento) que contienen flujos 310 de vídeo de individuos 500 que realizan actividades de mantenimiento en un sistema 101 de ascensor. Se puede recopilar un vídeo de entrenamiento de cada posible actividad de mantenimiento en el sistema 101 de ascensor. En una realización, los vídeos de entrenamiento se graban desde un punto de vista en primera persona. En una realización, los vídeos de entrenamiento se graban desde un punto de vista en tercera persona. En otra realización, los vídeos de entrenamiento se graban desde un punto de vista en primera persona y un punto de vista en tercera persona.

En el bloque 606, los vídeos de entrenamiento se etiquetan. Cada fotograma de vídeo individual del vídeo de entrenamiento y una región de interés en el fotograma de vídeo pueden etiquetarse con al menos uno de una actividad, un objeto o una ubicación de una mano humana con respecto a un objeto. La actividad puede ser abrir una puerta, pulsar un interruptor, buscar una llave, o cualquier otra actividad. El objeto puede ser una llave, una cerradura, zapatos, interruptores eléctricos, puertas, o cualquier otro objeto. La ubicación de una mano humana con respecto a un objeto puede ser una mano que sostiene un destornillador, una mano junto a un botón rojo o cualquier otra ubicación de una mano humana.

En el bloque 608, se ilustra una salida del proceso de etiquetado del bloque 606. La salida puede ser un archivo .csv, que es un archivo de valores separados por comas.

En el bloque 610, se extraen y organizan fotogramas y clips de los vídeos de entrenamiento. La salida de la organización se ilustra en el bloque 612. Los datos etiquetados se organizan, por ejemplo, para entrenar el sistema de aprendizaje automático en un formato que es adecuado para la tubería (pipeline)/bibliotecas informáticas que se utilizan. En el bloque 612, los fotogramas y clips de los vídeos de entrenamiento se organizan y se guardan. En el bloque 614, se extraen las secuencias de los fotogramas y clips y sus etiquetas.

En el bloque 616, las características dentro de las secuencias se extraen con el fin de entrenar para producir un modelo 636 de memoria a corto y largo plazo (LSTM) configurado para realizar una revisión de cumplimiento del mantenimiento realizado en el sistema 101 de ascensor. Las características pueden incluir formas y reconocimiento de objetos.

El bloque 616 es una red neuronal y puede ser una red de dominio público tal como, por ejemplo, InceptionV3. Podrían usarse otras redes y modelos aprendidos asociados (también conocidos como ponderaciones aprendidas) en lugar de “InceptionV3”. El bloque 616 solo puede utilizar las primeras etapas de la red de dominio público que se centran en detectar características básicas en lugar de características específicas. Por ejemplo, una esfera puede ser una característica básica, mientras que una pelota de béisbol puede ser una característica específica. Estas características han sido aprendidas por la red neuronal en el proceso de aprendizaje para reconocer imágenes/objetos, y no están diseñadas explícitamente. Estas características representan “presencia de un patrón 2D dado en la imagen (coloreada)” (por ejemplo, algunos patrones que podrían haberse aprendido). Por ejemplo, “ la parte superior de la imagen es en su mayor parte roja”, “hay una esquina con franjas verticales” o “hay un contraste agudo a lo largo de un borde diagonal en una cierta área de la imagen”.

En el bloque 618, un modelo 636 de LSTM se entrena basándose en las secuencias y etiquetas extraídas del bloque 614, y las características extraídas del bloque 616. El modelo 636 de LSTM puede ser entrenado usando al menos uno de entre aprendizaje automático, minería de datos, una red neuronal recurrente artificial (RNN). En la FIG. 3, el modelo 636 de LSTM es una red neuronal artificial de LSTM. En el bloque 620, se calcula una pérdida del modelo 636 de LSTM usando una función especificada. La pérdida se propagar hacia atrás en el modelo 636 de LSTM para actualizar sus ponderaciones (es decir, para entrenarla, usando métodos conocidos por un experto en la técnica). La pérdida calculada representa una precisión del modelo 636 de LSTM frente a flujos de vídeo de entrenamiento en el bloque 604 y los flujos de vídeo de entrenamiento etiquetados en el bloque 614. Los vídeos de prueba se obtienen en el bloque 630 y las secuencias se extraen de los vídeos de prueba en el bloque 632. Se entiende que cuando se despliegan en el campo, los vídeos de prueba del bloque 630 se reemplazarán por vídeo que no es de prueba (por ejemplo, flujos 310 de vídeo en directo). En el bloque 634, las características se extraen de las secuencias de vídeos de prueba y luego se alimentan al modelo 636 de LSTM. El modelo 636 de LSTM está configurado para producir predicciones 638 de los vídeos de prueba y luego las predicciones se analizan en el bloque 640. En una realización, el modelo 636 de LSTM está configurado para generar predicciones en cada fotograma del vídeo de prueba basándose en una secuencia de fotogramas anteriores. El número de fotogramas usados para hacer predicciones es una variable ajustable en la arquitectura que se espera que afecte al rendimiento y a la precisión. Es un mando de control que está tratando de capturar aproximadamente la intuición sobre “¿cuánto tiempo necesita observarse una actividad continuamente antes de que pueda determinarse con confianza cuál es la actividad?”.

Las predicciones 638 pueden incluir etiquetas predichas tales como, por ejemplo, actividades, objetos, y ubicación de una mano humana con respecto a un objeto. El análisis en el bloque 640 puede ser si la actividad de mantenimiento se está realizando correctamente. Este análisis se puede realizar mediante una revisión visual de los datos por un humano o usando análisis como se analiza más adelante en relación con las FIG. 6 y 10.

Haciendo referencia ahora a las FIGS. 4 y 5 con referencia continua a las FIGS 1-3, se ilustra un método 700a, 700b de análisis de flujos 310 de vídeo de múltiples cámaras 490a-490b, según una realización de la presente descripción. Se entiende que, aunque solo se ilustran dos cámaras 490a-490b en la FIG. 2, se puede utilizar cualquier número de cámaras. Puede ser ventajoso utilizar múltiples cámaras 490a-490b para analizar el mantenimiento realizado en el sistema 101 de ascensor por un individuo 500 porque en cualquier momento dado en el tiempo una cámara puede estar borrosa o simplemente no puede capturar el mantenimiento en el campo de visión de la cámara. Por ejemplo, una cámara 490a que está situada típicamente en el cuerpo del individuo 500 puede capturar un punto de vista en primera persona de las manos del individuo 500 cuando el individuo 500 realiza el mantenimiento en el sistema 101 de ascensor, mientras que una cámara 490b situada fuera del cuerpo del individuo 500 puede capturar un punto de vista más amplio del mantenimiento que se está realizando. Las cámaras 490b-490d que están fijas pueden proporcionar una vista más amplia de componentes específicos del sistema 101 de ascensor.

Un problema que surge cuando se utiliza el flujo 310 de vídeo desde más de una cámara 490a-490b es sincronizar el flujo 310 de vídeo de manera que los fotogramas correspondientes de flujos de vídeo de cada cámara están alineados. El método 700a de la FIG. 4 resuelve este problema sincronizando los flujos 310 de vídeo basándose en marcas de tiempo en cada flujo de vídeo, mientras que el método 700b de la FIG. 5 resuelve este problema sincronizando los vídeos basándose en características comunes detectadas.

Como se ilustra en la FIG. 4, una cámara 490a captura un flujo 310 de vídeo desde un punto de vista en primera persona y el flujo de vídeo pasa a través de un módulo 710 de detección de acción y objeto, que genera una salida que es una línea 716 de tiempo que indica para cada intervalo de tiempo cuál es la acción o acciones primitivas más probables que está(n) ocurriendo.

Como se ilustra en la FIG. 4, una cámara 490b que está fija captura un flujo 310 de vídeo desde un punto de vista en tercera persona y el flujo de vídeo pasa a través de un módulo 710 de detección de acción y objeto, que genera una salida que es una línea 716 de tiempo que indica para cada intervalo de tiempo cuál es la acción o acciones primitivas más probables que está(n) ocurriendo.

Se usa un método de detección de acción primitiva y/o un método de detección de objetos para obtener una línea 716 de tiempo para cada flujo 310 de vídeo. Los algoritmos de detección de acción convencionales para la transmisión de vídeo proporcionan alta precisión para detectar una acción primitiva (altos positivos verdaderos), pero pueden sufrir baja recuperación (es decir, alto número de falsos positivos). Las líneas 716 de tiempo de salida del módulo 710 de detección de acción y objeto están sincronizadas en primer lugar en el tiempo.

En el bloque 720 de la FIG. 4, las líneas 716 de tiempo para cada flujo del flujo 310 de vídeo pueden sincronizarse basándose en relojes presincronizados y usar aquellos para marcar la hora del inicio del vídeo (por ejemplo, viable cuando se usan cámaras inteligentes tales como un dispositivo de teléfono móvil, cámara en primera persona, y similares).

En el bloque 730 de la FIG. 5, las líneas 716 de tiempo para cada flujo del flujo 310 de vídeo también pueden sincronizarse basándose en las acciones primitivas detectadas. La acción primitiva puede ser una acción/señal específica del individuo 500 que trabaja en el sistema de ascensor (por ejemplo, similar a la claqueta usada en cinematografía) o que aprovecha otros sonidos o acciones que el individuo 500 realiza en el paquete de trabajo regular (por ejemplo, puertas de una abertura de ascensor, el clic de un botón, etc.).

Después de la sincronización, los diversos flujos se correlacionan en 740 para mejorar la precisión de la predicción (por ejemplo, véase las predicciones 638, FIG. 3), en particular para reducir el número de falsos positivos. Esto puede conseguirse con un enfoque de red neuronal/aprendizaje automático, especialmente cuando el número y tipo de flujos 310 de vídeo se conoce a priori (por ejemplo, una cámara en el cuerpo y una cámara fija). También son posibles enfoques basándose en autómatas u otras técnicas de filtrado explícitamente programadas (por ejemplo, votación por mayoría, votación ponderada por prioridad, etc.). El flujo votado puede procesarse para buscar relaciones a largo plazo (correlaciones, causalidad, etc.) para verificar la adherencia al trabajo estándar.

Con referencia ahora a las FIGS. 6, 7A, 7B y 7C, con referencia continua a las FIGS. 1-5, se ilustra un método 800 para la verificación y detección de procedimientos de acción múltiple en flujos 310 de vídeo, según una realización de la presente descripción.

El método 800 tiene dos entradas que incluyen un conjunto de procedimientos y módulos 705 de autómata asociados de un manual de operación donde cada procedimiento se define por un conjunto de acciones primitivas en un orden prescrito y el flujo 310 de vídeo de un individuo 500 que realiza los procedimientos desde una cámara 490a que es una cámara portátil en primera persona. El método 800 produce una salida 790 que es una línea de tiempo que indica la parte del flujo 310 de vídeo en donde el procedimiento ha ocurrido potencialmente con éxito o ha ocurrido una violación potencial de los procedimientos, y por lo tanto requiere una revisión por un operador humano.

Como se ilustra en la FIG. 6, una cámara 490a-490d captura un flujo 310 de vídeo y el flujo 310 de vídeo pasa a través de un módulo 710 de detección de acción y objeto, que genera una salida que es una línea 716 de tiempo que indica para cada intervalo de tiempo cuál es la acción más probable o acciones más probables que está(n) ocurriendo. En el bloque 760, la línea 716 de tiempo se suaviza para ajustar la escala de tiempo de las acciones.

El bloque 760 puede ser parte del bloque 730 de la FIG. 5. El bloque 760 intenta reducir los falsos positivos suavizando/filtrando la línea 716 de tiempo. En un ejemplo, el suavizado consistiría en tomar una ventana de detecciones y asignar a esa ventana la acción que estuviera más presente. En otro ejemplo, el suavizado sería como sigue: para un instante de tiempo dado, seleccionar una ventana anticipada de 1 segundo, y comprobar cuántas acciones primitivas están presentes, y asignar a ese instante de tiempo la acción primitiva que ocurrió más.

La FIG. 7A es una línea 762 de tiempo de acciones primitivas como la salida del módulo 710 de detección de acción y objeto y una línea 764 de tiempo ajustada formada suavizando la línea 762 de tiempo de acciones primitivas durante un intervalo de tiempo consistente con la duración de la acción, según una realización de la descripción. La línea 762 de tiempo de acciones primitivas y la línea 764 de tiempo ajustada incluyen cada una primera línea 766 de tiempo de acción y una segunda línea 768 de tiempo de acción que pueden alinearse una vez suavizada.

En el bloque 770, las líneas 716 de tiempo se comparan con los procedimientos y módulos 705 de autómata asociados. Las acciones primitivas que componen los procedimientos seleccionados se identifican en primer lugar, y para cada módulo 805 de autómata de procedimiento se construye como se ilustra en la FIG. 7B. Cada módulo 805 de autómata es una máquina de estados finitos compuesta por un conjunto de estados 810 en los que la transición entre los estados 810 ocurre cuando se detecta una acción 812. Cada estado 810 puede ser un evento específico, tal como, por ejemplo, “ la puerta está abierta”, “en el ascensor”, o un evento similar.

El autómata 805 cambia de estado 810 cuando se detecta una acción 812 en la línea de tiempo, un estado de aceptación del autómata 805 indica que se ha ocurrido un conjunto de acciones 810 en un orden prescrito que es consistente con el procedimiento y los módulos 705 de autómata asociados dentro de los límites de tiempo seleccionados. El autómata 805 también puede tener un estado 810 que indica la sección en la línea de tiempo cuando se detecta un orden incorrecto para un procedimiento, por lo tanto marcado para revisión como una violación potencial de un procedimiento. Como se mencionó anteriormente, el método 800 produce una salida 790 que es una línea de tiempo que indica la parte del flujo 310 de vídeo en la que el procedimiento ha ocurrido potencialmente con éxito o ha ocurrido una violación potencial de los procedimientos, y por lo tanto requiere una revisión por un operador humano. La FIG. 7C es un ejemplo de una línea de tiempo de detección de procedimiento en un flujo 310 de vídeo e ilustra la salida del autómata 805, que resalta la sección 310a del flujo 310 de vídeo que requiere revisión por un operador humano.

Haciendo referencia ahora a las FIGS. 8 y 9, con referencia continua a las FIGS. 1-7, se ilustra un método 900a, 900b de utilización de una pluralidad de sensores del sistema 101 de ascensor con el sistema 200 de supervisión del mantenimiento, según una realización de la presente descripción. Además del flujo 310 de vídeo proporcionada por las cámaras 490a-490d, una pluralidad de otros sensores 910 pueden proporcionar información adicional para ayudar a analizar el mantenimiento que está realizando el individuo 500. La pluralidad de sensores 910 puede incluir un sensor 912 de puerta cerrada, un sensor 913 de cuña de puerta segura (SDW) acoplado, un sensor 914 de interruptor de inspección de parte superior de cabina (TOCIS)/interruptor de parada de emergencia de parte superior de cabina (TOCESS), un sensor 916 de ascensor llamado, un sensor 918 de llave insertada, o cualquier otro sensor conocido por un experto en la técnica. Cada uno de la pluralidad de sensores 910 puede estar en comunicación con el controlador 115 del sistema 101 de ascensor. Cada una de las cámaras 490a-490d también puede estar en comunicación con el controlador 115 del sistema 101 de ascensor.

Esto permite la relación de correspondencia entre las cámaras 490a-490d y la pluralidad de sensores 910, lo que también permite que las cámaras 490a-490d usen como reloj de referencia el reloj de base común del controlador 115 del sistema 101 de ascensor. Por lo tanto, todos los flujos 310 de vídeo generados por las cámaras 490a-490d y todos los datos generados por la pluralidad de sensores 910 están marcados con la hora con respecto al mismo reloj de referencia. Esto proporciona un módulo 1010 de fusión de datos con una vista global en el orden temporal de los eventos que son capturados por las cámaras 490a-490d y la pluralidad de sensores 910. Los datos de la pluralidad de sensores 910 y el flujo 310 de vídeo de las cámaras 490a-490d se etiquetan parcialmente y se envían al módulo 1020 de inferencia.

Cuando los datos recibidos de la pluralidad de sensores 910 se consideran fiables, una inferencia de actividad/tarea solo necesita aplicarse a aquellos segmentos de vídeo sin anotación por el módulo de fusión de datos. En otras palabras, las anotaciones basándose en los datos recibidos de los sensores 910 son la verdad fundamental ya que los datos de los sensores pueden ser confiables y son fiables. Sin embargo, cuando un nivel de confianza de inferencias basándose en el flujo 310 de vídeo es alto, su resultado se puede usar para hacer recomendaciones de comprobación/recalibración para la pluralidad de sensores 910 cuyos datos son diferentes de lo que predice el módulo 1020 de inferencia para los fotogramas correspondientes. En este escenario, los datos de los sensores 910 no son fiables. Por ejemplo, algunas de las razones pueden ser que los sensores 910 pueden necesitar ser calibrados. Puesto que el nivel de confianza de inferencia es alto, el resultado de inferencia se considera como una verdad fundamental y se puede usar para calibrar los sensores 910.

Haciendo referencia ahora a la FIG. 10, con referencia continua a las FIGS. 1-9, se ilustra un método 1100 para mejorar la detección y clasificación de actividades humanas en datos 310 de vídeo a través del uso de información contextual, según una realización de la presente descripción.

Los datos de entrada para el método 1100 son secuencias 1110 de etiquetas 1112 predichas que son salidas de una combinación de múltiples clasificadores basados en aprendizaje automático. Las etiquetas 1112 predichas se generan en las predicciones 638 de la FIG. 3. Las etiquetas 1112 predichas incluyen al menos una de una actividad (por ejemplo, abrir puerta, pulsar un interruptor, buscar una llave), un objeto (por ejemplo, llave, cerradura, zapatos, interruptores eléctricos, puertas), o una ubicación de una mano humana con respecto a un objeto (por ejemplo, mano que sostiene un destornillador, mano junto a un botón rojo). La elección óptima de la combinación de actividades, objetos y ubicación de una mano humana se puede ajustar con precisión a una aplicación de interés. La interrelación que refleja el conocimiento del dominio entre diferentes tipos de etiquetas (por ejemplo, actividades, objetos, ubicación de una mano humana, etc.) se representa usando una combinación de fórmulas 1120 lógicas y representaciones 1130 gráficas. Un conjunto dado de fórmulas 1120 lógicas y representaciones 1130 gráficas podría representar, por ejemplo, las restricciones que deberían ser verdaderas entre diferentes etiquetas 1112 predichas en una secuencia 1110 dada de etiquetas 1112 predichas cuando la actividad real que se está realizando es “abrir una puerta”. La fórmula 1120 lógica podría ser, por ejemplo, fórmulas proposicionales simples o fórmulas más sofisticadas, tales como las expresadas usando lógicas temporales (por ejemplo, LTL, CTL o mu-cálculo). La salida del método 1100 es un subconjunto de las etiquetas de entrada predichas que respetan el conocimiento de dominio proporcionado y dan como resultado una mayor probabilidad de reflejar la actividad real. Cualquiera de las etiquetas 1112 predichas dentro de una secuencia 1110 que lógicamente entran en conflicto entre sí se eliminará. En otras palabras, se eliminarán las secuencias 1110 de las etiquetas 1112 predichas que lógicamente no tienen sentido. Por ejemplo, un individuo 500 no puede presionar los botones del ascensor dentro de la cabina 103 de ascensor si el individuo 500 está situado actualmente fuera de la cabina 103 de ascensor y las puertas 104 de la cabina 103 de ascensor están cerradas.

La secuencia refleja el mapeo de etiquetas 1112 predichas en cada fotograma a un conjunto de restricciones. Las etiquetas 1112 predichas podrían ser acerca de una actividad, un objeto, un individuo 500, o cualquier combinación de los mismos. Las secuencias reflejan diferentes tipos de restricciones que se sabe que deben ocurrir o no a medida que el tiempo avanza. Por ejemplo, si se realiza un seguimiento del orden (es decir, secuencia) en el que ciertos objetos deben aparecer en un flujo de vídeo, entonces se puede componer una secuencia a partir de las etiquetas de objeto y compararla con un conjunto apropiado de restricciones.

En los mismos fotogramas de vídeo, las etiquetas 1112 predichas también se pueden determinar sobre el individuo 500 o actividades del individuo 500. Los subconjuntos de las etiquetas 1112 predichas se pueden componer en secuencias y luego comparar esas secuencias contra las restricciones respectivas. Por ejemplo, una etiqueta 1112 predicha para un objeto puede incluir: destornillador, martillo, clavo, cinta aislante. Por ejemplo, una etiqueta 1112 predicha para un individuo 500 (es decir, humano) puede incluir: 1 humano, 2 humanos, mano humana, zapatos humanos. Por ejemplo, una etiqueta 1112 predicha para una actividad puede incluir sostener un destornillador, girar un mando en el sentido de las agujas del reloj, sacar un objeto de la bolsa, presionar un botón. Obsérvese que en los ejemplos y enfoques anteriores puede haber un margen para la eliminación de etiquetas muy ruidosas. Podría haber algunos fotogramas intermedios en los que no tengamos ninguna etiqueta definida. Cada una de estas secuencias puede compararse con diferentes tipos de restricciones (cada una reflejando diferentes partes de información contextual).

Como se ha descrito anteriormente, las realizaciones pueden adoptar la forma de procesos y dispositivos implementados por procesador para poner en práctica esos procesos, tal como un procesador. Las realizaciones también pueden adaptar la forma de código de programa informático (por ejemplo, producto de programa informático) que contiene instrucciones incorporadas en medios tangibles, tal como almacenamiento en la nube en red, tarjetas SD, unidades flash, disquetes, CD ROM, discos duros o cualquier otro medio de almacenamiento legible por ordenador, en donde, cuando el código de programa informático se carga y ejecuta en un ordenador, el ordenador se convierte en un dispositivo para poner en práctica las realizaciones. Las realizaciones también pueden adoptar la forma de código de programa informático, por ejemplo, ya sea almacenado en un medio de almacenamiento, cargado y/o ejecutado por un ordenador, o transmitido a través de algún medio de transmisión, tal como cableado o cableado eléctrico, fibra óptica o radiación electromagnética, en donde, cuando el código de programa informático se carga en un ordenador y se ejecuta, el ordenador se convierte en un dispositivo para poner en práctica las realizaciones. Cuando se implementa en un microprocesador de uso general, los segmentos de código de programa informático configuran el microprocesador para crear circuitos lógicos específicos.

El término "aproximadamente" pretende incluir el grado de error asociado con la medición de la cantidad particular y/o las tolerancias de fabricación basándose en el equipo disponible en el momento de presentar la solicitud.

La terminología usada en la presente memoria tiene el fin de describir solo determinadas realizaciones y no pretende ser limitativa de la presente descripción. Como se usa en la presente memoria, las formas singulares «un», «una» y «el», «la» pretenden incluir también las formas plurales, a menos que el contexto indique claramente lo contrario. Se comprenderá además que los términos "comprende" y/o "que comprende", cuando se usan en la presente memoria descriptiva, especifican la presencia de las características, los enteros, las etapas, las operaciones, los elementos y/o los componentes que se indican, pero no excluyen la presencia o incorporación de una o más de otras características, enteros, etapas, operaciones, elementos, componentes y/o grupos adicionales de estos.

Los expertos en la técnica apreciarán que en la presente memoria se muestran y describen diversas realizaciones de ejemplo, cada una de las cuales tiene ciertas características en las realizaciones particulares, pero la presente invención no se limita por ello. Más bien, la descripción puede modificarse para incorporar cualquier número de variaciones, alteraciones, sustituciones, combinaciones, subcombinaciones o disposiciones equivalentes no descritas hasta ahora, pero que sean acordes con el alcance de la presente descripción. Adicionalmente, aunque se han descrito diversas realizaciones de la presente descripción, debe comprenderse que los aspectos de la presente descripción pueden incluir solo algunas de las realizaciones descritas. En consecuencia, la presente descripción no debe verse limitada por la anterior descripción, sino que está solo limitada por el alcance de las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un dispositivo (280) de análisis para supervisar el mantenimiento en un sistema (101) de ascensor realizado por un individuo, el dispositivo (280) de análisis que comprende:

un procesador (282); y

una memoria (284) que comprende instrucciones ejecutables por ordenador que, cuando se ejecutan por el procesador (282), hacen que el procesador (282) realice operaciones, las operaciones que comprenden: capturar un primer flujo (310) de vídeo usando una primera cámara (490) de vídeo;

extraer secuencias (632) de al menos el primer flujo (310) de vídeo; y

extraer características de las secuencias (634); caracterizado por:

analizar, usando un modelo (636) de memoria a corto y largo plazo, la secuencia para determinar si el mantenimiento realizado en el sistema (101) de ascensor por el individuo se realiza correctamente; en donde el análisis comprende además:

generar predicciones (638) en un fotograma del primer flujo (310) de vídeo basándose en las secuencias (632) inmediatamente anteriores al fotograma.

2. El dispositivo (280) de análisis de la reivindicación 1, en donde las predicciones (638) incluyen etiquetas (1112) predichas, opcionalmente en donde las etiquetas (1112) predichas incluyen al menos una de una actividad, un objeto o una ubicación de una mano humana.

3. El dispositivo (280) de análisis de la reivindicación 2, en donde las operaciones comprenden además: organizar las etiquetas (1112) predichas en una línea (716) de tiempo para formar uno o más autómatas (805) compuestos de uno o más estados separados por acciones; y

comparar los autómatas (805) con procedimientos para determinar si el mantenimiento realizado en el sistema (101) de ascensor por el individuo se realiza correctamente.

4. El dispositivo (280) de análisis de la reivindicación 2 o 3, en donde las operaciones comprenden además: determinar si cualquiera de las etiquetas (1112) predichas dentro de una secuencia entran lógicamente en conflicto entre sí.

5. El dispositivo (280) de análisis de cualquier reivindicación precedente, en donde el modelo (636) de memoria a corto y largo plazo se entrena mediante:

obtener vídeos de entrenamiento de individuos que realizan actividades de mantenimiento en el sistema (101) de ascensor;

etiquetar los vídeos (606) de entrenamiento, en donde una región de interés está etiquetada con al menos uno de una actividad, un objeto o una ubicación de una mano humana;

extraer fotogramas y clips de los vídeos (610) de entrenamiento;

extraer secuencias de los fotogramas y clips de los vídeos (614) de entrenamiento; y

extraer características de las secuencias de uno de los vídeos (616) de entrenamiento para producir los modelos (618) de entrenamiento.

6. El dispositivo (280) de análisis de cualquier reivindicación precedente, en donde las operaciones comprenden además:

capturar un primer flujo (310) de vídeo usando una segunda cámara (490) de vídeo; y

sincronizar el primer flujo (310) de vídeo y el segundo flujo (310) de vídeo,

en donde las secuencias se extraen de al menos el primer flujo de vídeo y el segundo flujo de vídeo después de la sincronización (720).

7. El dispositivo (280) de análisis de la reivindicación 6, en donde la sincronización del primer flujo (310) de vídeo y el segundo flujo (310) de vídeo comprende además:

detectar una marca de tiempo del primer flujo (310) de vídeo;

detectar una marca de tiempo del segundo flujo (310) de vídeo; y

sincronizar el primer flujo (310) de vídeo y el segundo flujo (310) de vídeo basándose en la marca de tiempo del primer flujo (310) de vídeo y la marca de tiempo del segundo flujo (310) de vídeo.

8. El dispositivo (280) de análisis de la reivindicación 6 o 7, en donde la sincronización del primer flujo (310) de vídeo y el segundo flujo (310) de vídeo comprende además:

detectar una acción (710) primitiva del primer flujo (310) de vídeo;

detectar una acción (710) primitiva del segundo flujo (310) de vídeo; y

sincronizar el primer flujo (310) de vídeo y el segundo flujo (310) de vídeo basándose en la acción (710) primitiva del primer flujo (310) de vídeo y la acción (710) primitiva del segundo flujo (310) de vídeo.

9. El dispositivo (280) de análisis de la reivindicación 6, 7 u 8, en donde el primer flujo (310) de vídeo es un punto de vista en primera persona, y

en donde el segundo flujo (310) de vídeo es un punto de vista en tercera persona.

10. El dispositivo (280) de análisis de cualquier reivindicación precedente, en donde el primer flujo (310) de vídeo es un punto de vista en primera persona.

11. El dispositivo (280) de análisis de cualquier reivindicación precedente, en donde las operaciones comprenden además:

detectar datos usando un sensor en comunicación con un controlador del sistema (101) de ascensor; y confirmar si el mantenimiento realizado en el sistema (101) de ascensor por el individuo se realiza correctamente basándose en los datos.

12. El dispositivo (280) de análisis de cualquier reivindicación precedente, en donde las operaciones comprenden además:

detectar datos usando un sensor (910) en comunicación con un controlador (115) del sistema (101) de ascensor; y

determinar si el sensor (910) está funcionando correctamente basándose en los datos y el flujo (310) de vídeo.

13. Un producto de programa informático incorporado en un medio legible por ordenador no transitorio, el producto de programa informático que incluye instrucciones que, cuando se ejecutan por un procesador (282) hacen que el procesador (282) realice operaciones que comprenden:

extraer secuencias (632) de al menos el primer flujo (310) de vídeo; y

extraer características (634) de las secuencias (310); caracterizado por:

analizar, usando un modelo (636) de memoria a corto y largo plazo, la secuencia para determinar si el mantenimiento realizado en el sistema (101) de ascensor por el individuo se realiza correctamente, en donde el análisis comprende además:

generar predicciones (638) en un fotograma del primer flujo (310) de vídeo basándose en las secuencias inmediatamente anteriores al fotograma.

14. El producto de programa informático de la reivindicación 13, en donde las predicciones (638) incluyen etiquetas (1112) predichas, además opcionalmente en donde las etiquetas (1112) predichas incluyen al menos una de una actividad, un objeto o una ubicación de una mano humana.

15. El producto de programa informático de la reivindicación 14, en donde las operaciones comprenden además:

organizar las etiquetas (1112) predichas en una línea (716) de tiempo para formar uno o más autómatas (805) compuestos de uno o más estados separados por acciones; y