ES2907007T3

ES2907007T3 - Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo

Info

Publication number: ES2907007T3
Application number: ES18728657T
Authority: ES
Inventors: Jérémie Jakubowicz
Original assignee: Centre National de la Recherche Scientifique CNRS; Institut Mines Telecom IMT
Current assignee: Centre National de la Recherche Scientifique CNRS; Institut Mines Telecom IMT
Priority date: 2017-06-12
Filing date: 2018-06-08
Publication date: 2022-04-21
Anticipated expiration: 2038-06-08
Also published as: FR3067496A1; FR3067496B1; CN111052128A; CN111052128B; US20200210774A1; US11501110B2; EP3639190B1; WO2018228955A1; EP3639190A1

Abstract

Método de aprendizaje de descriptores de clase para la detección y la localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el método: - una base de aprendizaje, constituida por vídeos de referencia y que contiene tramas anotadas ((xt,yt)1<=t<=T), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje, - una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros (2, 3, 4), y - una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo, y un método en donde, para cada clase de objetos (j), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas**(Ver fórmula)** para definir descriptores de clase**(Ver fórmula)** utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase , una versión de los parámetros (θj,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase**(Ver fórmula)** .

Description

DESCRIPCIÓN

Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo

La presente invención se refiere a un método para detectar y localizar objetos en vídeos digitales.

La detección y localización automática de objetos en vídeos digitales es un campo especialmente activo y complejo, para el que ninguna solución existente puede competir con la actuación humana cuando el catálogo de objetos a detectar y localizar es muy amplio.

El término "objeto" debe entenderse en un sentido amplio y designa cualquier entidad coherente y delimitada espacial y temporalmente en los vídeos. Las personas, los rostros, los vehículos, los animales, los edificios se consideran, entre otras cosas, como objetos.

El problema de detectar y localizar objetos ha sido investigado en el contexto de imágenes, conduciendo a métodos que tienen actuaciones próximas a las actuaciones humanas para la detección de objetos. En particular, la detección de dígitos escritos a mano por métodos de aprendizaje automático muestra un rendimiento igual o superior al humano, tal como se describe en el artículo de D. Ciresan et al “Multi-column Deep Neural Networks for Image Clasification”, Computer Vision and Pattern Recognition, 2012. La detección de rostros también ha alcanzado un nivel de madurez suficiente para ser utilizado en diferentes dispositivos de adquisición de imágenes, tal como se muestra en el artículo de Y. Taigman et al, “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”, Computer Visión and Pattern Recognition, 2014.

El problema de detectar y localizar objetos en imágenes digitales está vinculado y es distinto del problema análogo en los vídeos. En efecto, en las imágenes, el problema se complica por el hecho de que carece de la dimensión temporal que permite facilitar la detección en la medida en que el movimiento coherente de una entidad ayuda a identificarla como tal. Por otro lado, se simplifica por la menor cantidad de datos a procesar.

La elección de los descriptores constituye un gran desafío, ya que estos últimos condicionan fuertemente el resultado final de la búsqueda o de la clasificación. Los descriptores de forma caracterizan los contornos de los objetos y permiten separarlos en clases. Un método para reconocer objetos tanto en vídeos como en imágenes es utilizar el aprendizaje automático supervisado (“supervised machine learning” en inglés). Esta técnica requiere una base de datos anotada, denominada base de aprendizaje, en donde se identifican los objetos que se busca localizar y se indica su clase. La creación de bases de datos anotadas depende del tedioso trabajo humano. Los esfuerzos de colaboración han hecho posible configurar bases de datos tan grandes para imágenes, descritas en particular en el artículo de J. Deng et al, "ImageNet: A Large-Scale Hierarchical Image Database", Computer Vision and Pattern Recognition, 2009. Pero las bases de datos de alcance comparable que permite la detección de una gran clase de objetos no existen actualmente para vídeos.

Es conocido por la solicitud internacional WO 2016/081880 buscar, en un gran volumen de datos de vídeo, vídeos que contengan ciertos objetos, a partir de una solicitud de un cliente que proporciona una relación para buscar entre estos objetos, por ejemplo, un accidente de tráfico entre un vehículo y un ciclista en vídeos de vigilancia.

Las patentes estadounidenses n° 8.792.732 y n° 8.254.699 describen métodos de anotación que utilizan metadatos de contenido de vídeo, en particular de vídeos de YouTube, para anotar de manera automática bases de datos de vídeo para crear una base de descriptores.

La mayoría de las técnicas actuales conocidas para el reconocimiento de objetos, ya sea para imágenes o para vídeos, utilizan las denominadas redes neuronales "profundas", que actualmente contienen cada vez más parámetros, tal como la arquitectura descrita en el artículo de QV Le et al., “Building high-level features using large scale unsupervised learning”, International Conference on Machine Learning, 2012. Por ejemplo, la arquitectura ResNet, descrita en el artículo de K. He et al, “Deep Residual Learning for Image Recognition”, Computer Vision and Pattern Recognition, 2016, utiliza 152 capas ocultas para reconocer 1000 clases de objetos.

Esta red neuronal profunda muestra un buen rendimiento, pero no es comparable al rendimiento humano, para el problema de clasificación de objetos en imágenes digitales, así como las redes neuronales derivadas de la arquitectura "Faster R-CNN" descrita en el artículo de S. Ren et al, “Faster R-CNN: towards real-time object detection with region proposal networks”, Advances in Neural Information Processing Systems, 2015, tal como la red YOLO del artículo de J. Redmon et al, “You only look once: Unified, real-time object detection”, Computer Vision and Pattern Recognition, 2016, o la red SD de W. Liu et al (“SD: Single shot multibox detector”, European Conference on Computer Vision, 2016).

En la medida en que estas arquitecturas se basan en el análisis de una única imagen, pueden ser utilizadas para un vídeo que sea una sucesión de imágenes, denominadas "tramas" en lo sucesivo, analizándose cada trama independientemente de las demás.

La solicitud US 2012/0238254 describe un método que permite a un usuario seleccionar una zona de una imagen de un vídeo que está viendo en un dispositivo móvil, para identificar un objeto ubicado en esta zona utilizando una biblioteca de objetos, con el objetivo en particular de generar ofertas publicitarias relacionadas con el objeto identificado y provenientes de al menos un sitio comercial.

Es conocido por la patente US 7.246.314 seleccionar interactivamente una escena en un vídeo para encontrar escenas similares en el resto del vídeo o en otros vídeos. Este método, que utiliza modelos de segmentación y gausianos, no permite la detección precisa de objetos.

En la mayoría de los vídeos de interés para los consumidores, existe una redundancia importante entre dos tramas sucesivas del mismo vídeo. Puesto que esta redundancia no se tiene en cuenta de manera explícita en estas soluciones, pueden aparecer fenómenos de oscilación: en una trama, por ejemplo, se detecta correctamente un objeto, en la siguiente, debido al ruido, ya no lo es, luego se detecta de nuevo unas tramas más adelante. A lo sumo, es posible regularizar la detección a posteriori, es decir, favorecer las detecciones que pueden coincidir con detecciones anteriores.

El documento US2009/141969 A1 da a conocer un método de aprendizaje de descriptores y de anotaciones de vídeo utilizando redes neuronales.

Para el aprendizaje de los modelos asociados a tales arquitecturas, es necesario distribuir los cálculos, porque la potencia de cálculo requerida es muy alta, y se puede utilizar una cantidad muy grande de entidades de cálculo, por ejemplo, hasta cien procesadores gráficos (“GPUs”). El artículo de Dean et al, "Large Scale Distributed Deep Networks", Advances in Neural Information Procesing Systems, 2012 describe un sistema, que se muestra en la Figura 1, que utiliza un servidor de parámetros 101 que alimenta diferentes entidades informáticas 102, 103, 104, cada una de ellas en funcionamiento en paralelo en un fragmento de datos 106, 107, 108 ("shards" en inglés), y la actualización de los parámetros w de forma asíncrona, sin que las entidades de cálculo se esperen unas a las otras. Más concretamente, cada entidad de cálculo realiza la lectura de los parámetros actuales w mediante una solicitud dirigida al servidor de parámetros, realiza sus cálculos y devuelve los parámetros actualizados Aw mediante otra solicitud dirigida al servidor de parámetros. Los parámetros finales w' son función de los parámetros actuales w, de los parámetros Aw actualizados en cada entidad, y de n que es la tasa de aprendizaje del modelo, en este ejemplo: w' = w — nAw. Existe, pues, una distribución de cálculos y una distribución de los datos.

Este sistema, si logra superar las dependencias de cálculo utilizando operaciones de lectura/escritura asíncronas desde y hacia el servidor de parámetros, crea un punto de dificultad a través de las solicitudes dirigidas al único servidor de parámetros que se convierte en el cuello de botella del sistema. Cuantas más entidades de cálculo trabajen en paralelo, mayor será esta dificultad para distribuir los cálculos.

Existe la necesidad de obtener un método eficaz para detectar y localizar objetos en vídeos, que permita la ampliación para detectar y localizar fácilmente numerosas clases de objetos en numerosos vídeos.

El objeto de la invención es así, según un primero de sus aspectos, un método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el método:

- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<T, cada una de las cuales comprende etiquetas que identifican cada objeto detectado en las tramas,

- descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,

- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y

- una pluralidad M de entidades de cálculo m que trabajan en paralelo,

método en donde, para cada clase de objetos j, es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas ( t , z Jk f ) para definir descriptores

de clase "¿es ,

utilizando cada entidad de cálculo m , para el cálculo de los descriptores de clase Zg¡ , una versión de los parámetros 6j,m del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y

los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase z 9; .

La invención permite, mediante el uso de técnicas de detección y de localización de objetos en imágenes fijas, disponer de una base etiquetada suficientemente grande y representativa y descriptores efectivos.

El método, según la invención, constituye también un algoritmo distribuido y asíncrono sobre varias entidades de cálculo y de almacenamiento que trabajan en paralelo, apto para el aprendizaje de modelos de detección y localización, para una gran cantidad de datos. Los parámetros de las redes neuronales están así distribuidos, y el aprendizaje es asíncrono, no esperando una entidad de cálculo el resultado del cálculo de las otras entidades para actualizar sus parámetros. El hecho de que cada entidad de cálculo tenga su propia estimación de los parámetros permite no depender de un único servidor de parámetros.

El método según la invención permite un escalado efectivo, al proponer el aprendizaje de un modelo basado en numerosos vídeos con numerosas clases de objetos a detectar y localizar. Las redes neuronales objeto de aprendizaje para la puesta en práctica de la invención son así transferibles desde un vídeo a otro.

La invención puede aplicarse a la supervisión de los contenidos de vídeo a gran escala, tal como los disponibles en redes sociales, y a la publicidad online en vídeos, en particular para la venta online, denominada en inglés “ecommerce”. Los objetos a detectar en los vídeos pueden corresponder o parecerse a objetos de un catálogo de ventas. Se puede hacer clic en el contenido del vídeo, en particular para poder hacer clic en ciertos objetos detectados, para volver al sitio de ventas online correspondiente a los objetos seleccionados.

Las redes neuronales utilizadas en la invención son preferentemente redes neuronales convolucionales (“CNN”). En este tipo de redes, las convoluciones se realizan tanto en el tiempo como en el espacio, siendo seguida la capa de convolución por capas totalmente conectadas para realizar la clasificación.

Base de aprendizaje

La base de aprendizaje se forma de manera preferida a partir de la detección y localización de objetos trama por trama, en cada vídeo de referencia.

Un vídeo de referencia X consta de un conjunto T de tramas xt en donde t es el índice de la trama, que varía entre 1 y T: X=(xt)i<t<T. Se puede utilizar una pluralidad N de vídeos de referencia Xn (con 1 < n < N) para constituir la base de aprendizaje.

Cada trama xt incluye objetos yt. El vector yt comprende, de manera ventajosa, una secuencia de componentes yi,t que representan un número escalar comprendido entre 0 y 1 y codifican la presencia del objeto obj(i) en el lugar loc(i), designando en particular 1 su presencia y 0 su ausencia. Los tipos de objetos y sus localizaciones se pueden representar mediante un conjunto finito de índices cuya cardinalidad es la dimensión de los vectores yt, constante para todos los vectores yt de un mismo vídeo de referencia Xn.

Las posibles localizaciones de los objetos en una trama pueden corresponder a rectángulos deslizantes sobre la trama, de diferentes dimensiones, cubriendo toda la trama.

La base de aprendizaje contiene, de manera ventajosa, los datos (xt,yt)i<t<T registrados para cada trama xt de cada vídeo de referencia X, trama por trama, para un conjunto de T tramas. Las tramas anotadas de la base de aprendizaje pueden incluir etiquetas que designen los objetos detectados por su nombre.

La detección de objetos en las tramas de los vídeos de referencia se puede realizar utilizando un clasificador de objetos, por ejemplo, el clasificador que utiliza la red neuronal "VGG-16" desarrollada por la Universidad de Oxford.

La anotación de las tramas para constituir la base de aprendizaje puede realizarse utilizando información de bajo nivel para detectar los objetos, es decir, en particular detectando sus bordes y/o sus texturas.

Se puede utilizar una primera red neuronal para aprender la base de aprendizaje.

Solamente las primeras capas de la red neuronal se pueden utilizar para aprender la base de aprendizaje, permaneciendo a nivel de píxeles.

Los vídeos de referencia pueden provenir de vídeos de marcas o de sitios de venta online, en particular para publicidad online.

La base de aprendizaje, formada de antemano, puede estar contenida en la o en las máquinas que ejecutan el método según la invención. En una variante, la base de aprendizaje es remota y accesible a través de una red, tal como por ejemplo, una red cableada, Internet, Wifi o Bluetooth®.

En una variante, la base de aprendizaje es proporcionada por otro método de anotación, en particular por una base de trama anotada ya existente, por ejemplo, ImageNet o incluso Cifar-10 o Cifar-100.

Aprendizaje de los descriptores

La red neuronal de preprocesamiento es objeto de aprendizaje preferentemente para detectar objetos en la última trama de un grupo de h tramas anotadas sucesivas (xt, xt—i x t —h+i) de la base de aprendizaje utilizando las tramas anteriores del grupo para aprender los descriptores correspondientes a los objetos detectados.

La red aprende así el vínculo entre los descriptores y las etiquetas, por ejemplo, el descriptor asociado a la etiqueta “casa”, a la etiqueta “nube”, etc. Se dice que esta red neuronal de preprocesamiento es supervisada porque toma como entrada h tramas sucesivas (xt, xt—i , ..., xt—h+i) para predecir el vector de objetos yt.

Para el aprendizaje de los descriptores a partir de la base de aprendizaje, se pueden utilizar así, de manera sucesiva, dos redes neuronales, dando lugar a dos aprendizajes sucesivos diferentes, y mejorando la calidad del método de aprendizaje según la invención.

Cada grupo de tramas puede comprender entre 2 y 32 tramas, por ejemplo, 4 tramas.

La red neuronal se puede expresar como la composición de dos funciones y g ° <t>w, en donde &w(xt, xt—h+i) representa la parte convolucional, correspondiente a la función de cálculo de los descriptores, y y y j la parte completamente conectada, w y 6 representan el conjunto de los parámetros de las capas correspondientes de la red. Aprendizaje de los descriptores de clases

Para cada clase de objetos j ( l < j < J ) , es objeto de aprendizaje una de las redes neuronales de la arquitectura, para definir descriptores de clase z e} , utilizando como datos de entrada los descriptores y las etiquetas z fc,t) definidos con anterioridad.

Se aprende así un modelo por clase de objetos, estando disponibles tantos modelos como clases de objetos.

La base de aprendizaje permite tener pares (xk,t,yk,t) en donde k es un índice que identifica el k-ésimo vídeo de referencia y t designa el índice de trama. Gracias al aprendizaje de los descriptores por parte de la red neuronal de preprocesamiento, estos datos se transforman, de manera ventajosa, en pares z l , t ) en donde tpkt = d>(xk,t, xk,t—i, xkt—h+i) y en donde corresponde a la proyección del vector ykt sobre la componente i tal que obj(i) corresponde a la clase j.

Cada entidad de cálculo m, que utiliza una versión local de los parámetros j recibida desde uno de los servidores de parámetros, puede calcular de manera iterativa un descenso de gradiente proyectado:

C '/!= n,Wm-r*riW J)

en donde n& designa la proyección sobre 0 , yn designa una secuencia de números escalares denominada secuencia de pasos y l es la función de coste que se busca minimizar en el aprendizaje, designando n la iteración n-ésima. Una vez que la entidad de cálculo m ha realizado su cálculo, elige de manera aleatoria otra entidad de cálculo m' y actualiza los parámetros según la regla:

~ ^ j .m ^

El artículo de P. Bianchi y J. Jakubowicz, “Convergence of a Multi-Agent Projected Stochastic Gradient Algorithm for Non-Convex Optimization”, IEEE Transactions on Automatic Control, 2013, demuestra que el método según la invención converge bien hacia el óptimo buscado en la fase de aprendizaje.

Arquitectura de redes neuronales

La arquitectura según la invención comprende así redes neuronales que aprenden diferentes parámetros para cada clase de objetos. Las redes neuronales de la arquitectura están así especializadas por tipo de objeto.

Solamente una parte de las redes neuronales de la arquitectura se pueden aprender de forma distribuida sobre las diferentes entidades de cálculo. Preferentemente, solamente se aprende de forma distribuida la parte superior de las capas de las redes neuronales. En una variante, la parte inferior de las capas de las redes neuronales también se aprende de manera distribuida. Las capas altas corresponden a capas de mayor nivel, en donde la red es cada vez más sensible a los detalles de las tramas.

Las entidades de cálculo están preferentemente contenidas en máquinas informáticas, tales como ordenadores o servidores de cálculo. Cada máquina informática puede incluir varios procesadores gráficos ("GPU") que trabajan en paralelo y constituyen tantas entidades informáticas diferentes.

De manera ventajosa, las máquinas informáticas están conectadas en red, por ejemplo, mediante una red cableada, Wifi o Bluetooth®.

Los servidores de parámetros pueden estar contenidos en la memoria de acceso aleatorio de las máquinas informáticas. En una variante, los servidores de parámetros son remotos y accesibles a través de una red cableada, Wifi o Bluetooth®.

Puede haber tantos servidores de parámetros como entidades de cálculo. En variantes, existe una relación de un servidor de parámetros para dos entidades de cálculo, o un servidor de parámetros para cuatro entidades de cálculo, o incluso un servidor de parámetros para cuatro entidades de cálculo, o un servidor de parámetros para ocho entidades de cálculo, mejor aún, un servidor de parámetros para dieciséis entidades de cálculo.

Cada entidad de cálculo m utiliza preferiblemente solamente una parte de los datos de entrada. Los datos de entrada pueden así distribuirse entre diferentes entidades de almacenamiento de manera que cada entidad de cálculo solamente trabaje sobre una parte de los datos. La distribución de los datos de entrada entre las entidades de cálculo se realiza, de manera ventajosa, de forma aleatoria, pudiendo dividirse los datos de entrada en tantas partes como entidades de cálculo y/o de almacenamiento existan, siguiendo así los datos de entrada una ley uniforme sobre el número de entidades.

Cada entidad de cálculo puede incluir al menos una zona de memoria.

La zona de memoria de una entidad de cálculo m' está, de manera ventajosa, disponible para ser interrogada por otra entidad de cálculo m y responder a la misma, en particular en el marco de una solicitud de lectura/escritura en el servidor de parámetros de cuya entidad de cálculo m' depende, incluso mientras realiza su propio cálculo.

Dispositivo de aprendizaje de descriptores

Otro objeto de la invención, según otro de sus aspectos, es un dispositivo de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el dispositivo:

- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<T, cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, y - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,

comprendiendo el dispositivo una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y una pluralidad M de entidades de cálculo m que trabajan en paralelo, estando configurado el dispositivo para el aprendizaje, para cada clase de objetos j , de una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas (0fc,p z¿ t ) Para definir descriptores de clase

utilizando cada entidad de cálculo m, para el cálculo de los descriptores de clase Zg¡} una versión de los parámetros ^{6 j ,m} del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambiando entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase z 9¡.

Detección y localización de los objetos

Otro objeto de la invención, según otro de sus aspectos, es un método de detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, en donde el proceso:

- se utiliza los descriptores de clase ZgT aprendidos durante el proceso de aprendizaje de descriptores de clase tal como se definió con anterioridad, para aprender una función (zq; ° <PW ) de cálculo de descriptores tomando al menos el vídeo de prueba como entrada, y

- se obtienen puntuaciones de detección y localización en el vídeo de prueba para cada clase de objetos j.

Las características establecidas con anterioridad para el método de aprendizaje de descriptores de clase se aplican al método de detección y localización de objetos.

Producto de programa informático

Otro objeto de la invención, según otro de sus aspectos, es un producto de programa informático para la puesta en práctica del método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo tal como se ha descrito con anterioridad, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el método:

- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<r, comprendiendo cada una de las cuales etiquetas que designan cada objeto detectado en las tramas,

- una pluralidad M de entidades de cálculo m que trabajan en paralelo,

comprendiendo el producto de programa informático un soporte y registrado en este soporte instrucciones legibles por un procesador para cuando se ejecutan, para cada clase de objetos j , siendo objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y etiquetas

para definir descriptores de clase utilizando cada entidad de cálculo m, para el cálculo de los descriptores de clase ZQ¡, solamente una parte de los datos de entrada y una versión de los parámetros 6¡,m del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambian entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase

Las características establecidas con anterioridad para el método de aprendizaje de descriptores de clase se aplican al producto del programa informático.

DESCRIPCIÓN DETALLADA

La invención se comprenderá mejor con la lectura de la descripción detallada siguiente, ejemplos no limitativos de su forma de realización, y con el examen del dibujo adjunto, en donde:

- la Figura 1, ya descrita, representa una arquitectura de redes neuronales según el estado de la técnica;

- la Figura 2 es un diagrama que representa las etapas para poner en práctica el método según la invención; - la Figura 3 ilustra la anotación de la base, trama por trama;

- la Figura 3A representa un ejemplo de trama que contiene, en diferentes posiciones, objetos pertenecientes a diferentes clases;

- la Figura 4 ilustra el aprendizaje de los descriptores; y

- la Figura 5 representa un dispositivo de aprendizaje de los descriptores de clase que comprende una arquitectura distribuida de redes neuronales según la invención.

Las etapas del método de detección y localización de objetos en un vídeo, según la invención, se representan en la Figura 2. Cada objeto pertenece a una clase de objetos j de entre un conjunto J de clases. El método según la invención utiliza, de manera ventajosa, un dispositivo 1 de aprendizaje de descriptores de clase, representado en la Figura 5 y que comprende una arquitectura de redes neuronales CNN definidas por parámetros centralizados en una pluralidad de servidores de parámetros 2, 3, 4 y en una pluralidad M de entidades de cálculo mi,p, m²,p, m¡,p, con p = 1...4, que trabajan en paralelo. El método según la invención se puede dividir en varias etapas, que se describirán en detalle a continuación.

Durante una etapa 11, se forma una base de aprendizaje a partir de vídeos de referencia y proporciona tramas anotadas (xt, yt)i<t<r. Esta base de aprendizaje se utiliza, en una etapa 12, para hacer que una red neuronal de preprocesamiento, del tipo CNN, aprenda los descriptores asociados a las etiquetas contenidas en las tramas anotadas, tal como se observa en la Figura 4(a). Estas etapas 11 y 12 se pueden realizar de manera previa, siendo los descriptores y las etiquetas obtenidos utilizados como datos de entrada para el aprendizaje, en una

etapa 13, de una de las redes neuronales de la arquitectura 1 para definir descriptores de clase z 0} para cada clase de objetos (/').

Durante una etapa 14, los descriptores de clase ¿ q ’¡ se utilizan para aprender una función {zg } ° &w ) para calcular descriptores tomando al menos el vídeo de prueba como entrada. Durante una etapa 15, esta función se utiliza para obtener puntuaciones de detección y de localización en el vídeo de prueba para cada clase de objetos j. Estas puntuaciones de detección son, de manera preferible, números escalares comprendidos entre 0 y 1 que dan una probabilidad de presencia de objetos, por ejemplo, 1 designa su presencia y 0 su ausencia.

Tal como se muestra en la Figura 3, la base de aprendizaje utilizada para aprender los descriptores es objeto de aprendizaje preferiblemente a partir de vídeos de referencia y contiene tramas anotadas (xt, yt)i<t<r, cada una de las cuales comprende una o varias etiquetas que identifican cada objeto detectado en las tramas. El vector yt comprende una secuencia de componentes (yt,t) que representan un número escalar comprendido entre 0 y 1 y que codifican la presencia del objeto obj(i) en la ubicación loc(i), por ejemplo, 1 designa su presencia y 0 su ausencia.

A continuación, se muestra un ejemplo de un vector yt, con 4 posiciones en la trama t y 3 clases de objetos.

Los valores yt,i corresponden a una puntuación de presencia del objeto de clase j en la posición correspondiente. Las puntuaciones próximas a 1 de las componentes ya, yt,4, yt,9 e yt,6, corresponden a la presencia de la estrella en las posiciones 1 y 4, del cuadrado en la posición 1 y del círculo en la posición 2, tal como se observa en la Figura 3A. En este ejemplo, el vector zj es igual a: z1 = y a ... ya , z2 = yt,5... y a y z3 = y a ... yt^,12.

pos(í) = 1 obj{1) - 1

po&(2) - 2 oDj(2) = 1

pos(3! - 3 ob¡(3) - 1

pos(4J - 4 obj{4) = 1

pos{5) = ¹ob¡{5) = 2

pos(6) - 2 obj{6) - 2

OOSfT) - 3 obj (7)" 2

^pGS(8)- 4 objfB) - 2

P0S(9) = 1 obp) = 3

pos( 10) = 2 ob jílQ )^

^{Vt,11 ~ 005 pos(11) = 3 €bjfll) =3}

V ^{Vt.,12-0.05/ pos(12) - 4 otsj(12) = 3}

Se utiliza, de manera ventajosa, una primera red neuronal para aprender la base de aprendizaje.

Tal como se describió con anterioridad, la red neuronal de preprocesamiento es objeto de aprendizaje para detectar objetos en la última trama xt de un grupo de h tramas sucesivas (xt, xt-i, ..., xt-h+i), visibles en la Figura 4(b), o en el número de 4 en el ejemplo considerado y provenientes de la base de aprendizaje previamente constituida. Para ello, la red neuronal de preprocesamiento utiliza las tramas anteriores (xt—i, xt^—2, x— ) del grupo para aprender los descriptores &w(xt,..., xt—h+i) correspondientes a los objetos detectados, tal como se muestra en la Figura 4(b).

En la Figura 5 se representa un dispositivo 1 de aprendizaje de descriptores de clases según la invención que comprende una arquitectura distribuida de redes neuronales. En el ejemplo considerado, el dispositivo 1 comprende tres máquinas informáticas mi, m², m3, comprendiendo cada una de estas máquinas informáticas cuatro procesadores gráficos "GPU" mi,p, m²,p, m3,p, con p = i...4 , que constituyen cada uno una entidad de cálculo en el sentido de la invención.

Tal como se describió con anterioridad, para el cálculo de los descriptores de clase z 9¡, cada entidad de cálculo m utiliza una versión de los parámetros 6¡,m del servidor de parámetros del que depende la entidad, y devuelve a este servidor de parámetros los parámetros actualizados al final de su cálculo. Los servidores de parámetros 2, 3, 4 intercambian entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase Zq '¡ .

De manera preferible y tal como se muestra, cada máquina informática mi, m², m? utiliza solamente una parte de los datos de entrada

La invención no se limita al ejemplo que se acaba de describir.

Se puede utilizar un mayor número de tramas por grupo, lo que permite un aprendizaje más rápido. La elección del número de tramas por grupo de tramas puede depender del tipo de vídeo: por ejemplo, si existe cambios frecuentes de escenas, se elige un número reducido de tramas por grupo, o si el movimiento general del vídeo es lento, se elige un mayor número de tramas por grupo.

En el ejemplo de la Figura 5, el dispositivo según la invención comprende 3 servidores de parámetros y 3 máquinas informáticas, pero la invención no se limita a un número particular de entidades de cálculo y de servidores de parámetros.

Claims

REIVINDICACIONES

1. Método de aprendizaje de descriptores de clase para la detección y la localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j ) entre un conjunto (J ) de clases, utilizando el método: - una base de aprendizaje, constituida por vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,

- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros (2, 3, 4), y

- una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo, y

un método en donde, para cada clase de objetos (/'), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas z k,[) Para definir descriptores de clase (% ;),

utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase ( z ^ ) , una versión de los parámetros (6¡,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y

los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase i z 9 j).

2. Método según la reivindicación 1, en donde la base de aprendizaje está constituida a partir de la detección y localización de los objetos, trama por trama, en cada vídeo de referencia.

3. Método según la reivindicación 1 o 2, en donde la base de aprendizaje contiene datos ((xt,yt)i<t<r) registrados para cada trama (xt) de cada vídeo de referencia (X), trama por trama, para un conjunto de (T) tramas, conteniendo estos datos un vector (yt) que comprende una secuencia de componentes (y,t) que representan un número escalar comprendido entre 0 y 1 y codifican la presencia del objeto (obj(i)) en la ubicación (loc(i)), con, en particular 1 designa su presencia y 0 su ausencia.

4. Método según cualquiera de las reivindicaciones 1 a 3, en donde se utiliza una primera red neuronal para aprender la base de aprendizaje.

5. Método según cualquiera de las reivindicaciones 1 a 4, en donde es objeto de aprendizaje la red neuronal de preprocesamiento para detectar objetos en la última trama de un grupo de (h) tramas sucesivas (xt, xt—i , ..., xt— h+i) de la base de aprendizaje utilizando las tramas anteriores del grupo para aprender los descriptores (&w(xt,...,xt—h+¹)) correspondientes a los objetos detectados.

6. Método según la reivindicación anterior, en donde cada grupo de tramas comprende entre 2 y 32 tramas, por ejemplo, 4 tramas.

7. Método según cualquiera de las reivindicaciones anteriores, en donde cada entidad de cálculo (m) utiliza solamente una parte de los datos de entrada.

8. Método según cualquiera de las reivindicaciones anteriores, en donde cada entidad de cálculo (m), que utiliza una versión local de los parámetros (0¡M) recibidos desde uno de los servidores de parámetros, calcula, de manera iterativa, un descenso de pendiente proyectado:

en donde n 0 designa la proyección sobre 0 , f designa una secuencia de números escalares denominada secuencia de pasos y l es la función de coste que buscamos minimizar en el aprendizaje.

9. Método según cualquiera de las reivindicaciones anteriores, en donde, una vez que la entidad de cálculo (m) ha realizado su cálculo, elige, de manera aleatoria, otra entidad de cálculo (m') y asegura una actualización de los parámetros según la regla:

10. Método según cualquiera de las reivindicaciones anteriores, en donde, comprendiendo cada entidad de cálculo al menos una zona de memoria, la zona de memoria de una entidad de cálculo (m') está disponible para ser interrogada por otra entidad de cálculo (m) y responderla, en particular en el contexto de una solicitud de lectura/escritura en el servidor de parámetros del que depende la entidad de cálculo (m'), incluso mientras esta última está realizando su propio cálculo.

11. Método según cualquiera de las reivindicaciones anteriores, en donde solamente se aprende de forma distribuida sobre las distintas entidades de cálculo una parte de las redes neuronales de la arquitectura.

12. Método según la reivindicación anterior, en donde solamente se aprende de forma distribuida la parte superior de las capas de las redes neuronales.

13. Método para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, en cuyo método:

- se utiliza los descriptores de clase ( z e; ) aprendidos en el método de aprendizaje de descriptores de clase según cualquiera de las reivindicaciones anteriores, para aprender una función (Sg¡ ° 4>w ) de cálculo de descriptores tomando al menos el vídeo de prueba como entrada, y

- se obtiene las puntuaciones de detección y localización en el vídeo de prueba para cada clase de objetos (j).

14. Dispositivo (1) para el aprendizaje de descriptores de clases para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el dispositivo (1):

- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, y - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,

comprendiendo el dispositivo (1) una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo,

estando configurado el dispositivo para el aprendizaje, para cada clase de objetos (/), de una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas (_<pk,c> ¡3 para definir descriptores de clase í z 9 ¡\

- utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase ( z 9f ), una versión de los parámetros ^{( 6 j ,m)} del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y

los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase ( z e; ) .

15. Producto de programa informático para la puesta en práctica del método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo según se define en las reivindicaciones 1 a 13, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el método:

- una base de aprendizaje, constituida a partir de vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que designan cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,

una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo,

el producto de programa informático que comprende un medio y registrado en este medio son instrucciones legibles por un procesador para cuando se ejecutan, para cada clase de objetos (/'), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada descriptores y etiquetas z l para definir descriptores de clase ( z ^ ) ,

cada entidad de cálculo (m) utilizando, para el cálculo de los descriptores de clase ( z o¡) , solamente una parte de los datos de entrada y una versión de los parámetros (0¡,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y

los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase ( z 6 j ) -