ES2907007T3 - Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo - Google Patents

Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo Download PDF

Info

Publication number
ES2907007T3
ES2907007T3 ES18728657T ES18728657T ES2907007T3 ES 2907007 T3 ES2907007 T3 ES 2907007T3 ES 18728657 T ES18728657 T ES 18728657T ES 18728657 T ES18728657 T ES 18728657T ES 2907007 T3 ES2907007 T3 ES 2907007T3
Authority
ES
Spain
Prior art keywords
calculation
class
learning
objects
descriptors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18728657T
Other languages
English (en)
Inventor
Jérémie Jakubowicz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Institut Mines Telecom IMT
Original Assignee
Centre National de la Recherche Scientifique CNRS
Institut Mines Telecom IMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Institut Mines Telecom IMT filed Critical Centre National de la Recherche Scientifique CNRS
Application granted granted Critical
Publication of ES2907007T3 publication Critical patent/ES2907007T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Método de aprendizaje de descriptores de clase para la detección y la localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el método: - una base de aprendizaje, constituida por vídeos de referencia y que contiene tramas anotadas ((xt,yt)1<=t<=T), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje, - una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros (2, 3, 4), y - una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo, y un método en donde, para cada clase de objetos (j), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas**(Ver fórmula)** para definir descriptores de clase**(Ver fórmula)** utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase , una versión de los parámetros (θj,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase**(Ver fórmula)** .

Description

DESCRIPCIÓN
Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo
La presente invención se refiere a un método para detectar y localizar objetos en vídeos digitales.
La detección y localización automática de objetos en vídeos digitales es un campo especialmente activo y complejo, para el que ninguna solución existente puede competir con la actuación humana cuando el catálogo de objetos a detectar y localizar es muy amplio.
El término "objeto" debe entenderse en un sentido amplio y designa cualquier entidad coherente y delimitada espacial y temporalmente en los vídeos. Las personas, los rostros, los vehículos, los animales, los edificios se consideran, entre otras cosas, como objetos.
El problema de detectar y localizar objetos ha sido investigado en el contexto de imágenes, conduciendo a métodos que tienen actuaciones próximas a las actuaciones humanas para la detección de objetos. En particular, la detección de dígitos escritos a mano por métodos de aprendizaje automático muestra un rendimiento igual o superior al humano, tal como se describe en el artículo de D. Ciresan et al “Multi-column Deep Neural Networks for Image Clasification”, Computer Vision and Pattern Recognition, 2012. La detección de rostros también ha alcanzado un nivel de madurez suficiente para ser utilizado en diferentes dispositivos de adquisición de imágenes, tal como se muestra en el artículo de Y. Taigman et al, “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”, Computer Visión and Pattern Recognition, 2014.
El problema de detectar y localizar objetos en imágenes digitales está vinculado y es distinto del problema análogo en los vídeos. En efecto, en las imágenes, el problema se complica por el hecho de que carece de la dimensión temporal que permite facilitar la detección en la medida en que el movimiento coherente de una entidad ayuda a identificarla como tal. Por otro lado, se simplifica por la menor cantidad de datos a procesar.
La elección de los descriptores constituye un gran desafío, ya que estos últimos condicionan fuertemente el resultado final de la búsqueda o de la clasificación. Los descriptores de forma caracterizan los contornos de los objetos y permiten separarlos en clases. Un método para reconocer objetos tanto en vídeos como en imágenes es utilizar el aprendizaje automático supervisado (“supervised machine learning” en inglés). Esta técnica requiere una base de datos anotada, denominada base de aprendizaje, en donde se identifican los objetos que se busca localizar y se indica su clase. La creación de bases de datos anotadas depende del tedioso trabajo humano. Los esfuerzos de colaboración han hecho posible configurar bases de datos tan grandes para imágenes, descritas en particular en el artículo de J. Deng et al, "ImageNet: A Large-Scale Hierarchical Image Database", Computer Vision and Pattern Recognition, 2009. Pero las bases de datos de alcance comparable que permite la detección de una gran clase de objetos no existen actualmente para vídeos.
Es conocido por la solicitud internacional WO 2016/081880 buscar, en un gran volumen de datos de vídeo, vídeos que contengan ciertos objetos, a partir de una solicitud de un cliente que proporciona una relación para buscar entre estos objetos, por ejemplo, un accidente de tráfico entre un vehículo y un ciclista en vídeos de vigilancia.
Las patentes estadounidenses n° 8.792.732 y n° 8.254.699 describen métodos de anotación que utilizan metadatos de contenido de vídeo, en particular de vídeos de YouTube, para anotar de manera automática bases de datos de vídeo para crear una base de descriptores.
La mayoría de las técnicas actuales conocidas para el reconocimiento de objetos, ya sea para imágenes o para vídeos, utilizan las denominadas redes neuronales "profundas", que actualmente contienen cada vez más parámetros, tal como la arquitectura descrita en el artículo de QV Le et al., “Building high-level features using large scale unsupervised learning”, International Conference on Machine Learning, 2012. Por ejemplo, la arquitectura ResNet, descrita en el artículo de K. He et al, “Deep Residual Learning for Image Recognition”, Computer Vision and Pattern Recognition, 2016, utiliza 152 capas ocultas para reconocer 1000 clases de objetos.
Esta red neuronal profunda muestra un buen rendimiento, pero no es comparable al rendimiento humano, para el problema de clasificación de objetos en imágenes digitales, así como las redes neuronales derivadas de la arquitectura "Faster R-CNN" descrita en el artículo de S. Ren et al, “Faster R-CNN: towards real-time object detection with region proposal networks”, Advances in Neural Information Processing Systems, 2015, tal como la red YOLO del artículo de J. Redmon et al, “You only look once: Unified, real-time object detection”, Computer Vision and Pattern Recognition, 2016, o la red SD de W. Liu et al (“SD: Single shot multibox detector”, European Conference on Computer Vision, 2016).
En la medida en que estas arquitecturas se basan en el análisis de una única imagen, pueden ser utilizadas para un vídeo que sea una sucesión de imágenes, denominadas "tramas" en lo sucesivo, analizándose cada trama independientemente de las demás.
La solicitud US 2012/0238254 describe un método que permite a un usuario seleccionar una zona de una imagen de un vídeo que está viendo en un dispositivo móvil, para identificar un objeto ubicado en esta zona utilizando una biblioteca de objetos, con el objetivo en particular de generar ofertas publicitarias relacionadas con el objeto identificado y provenientes de al menos un sitio comercial.
Es conocido por la patente US 7.246.314 seleccionar interactivamente una escena en un vídeo para encontrar escenas similares en el resto del vídeo o en otros vídeos. Este método, que utiliza modelos de segmentación y gausianos, no permite la detección precisa de objetos.
En la mayoría de los vídeos de interés para los consumidores, existe una redundancia importante entre dos tramas sucesivas del mismo vídeo. Puesto que esta redundancia no se tiene en cuenta de manera explícita en estas soluciones, pueden aparecer fenómenos de oscilación: en una trama, por ejemplo, se detecta correctamente un objeto, en la siguiente, debido al ruido, ya no lo es, luego se detecta de nuevo unas tramas más adelante. A lo sumo, es posible regularizar la detección a posteriori, es decir, favorecer las detecciones que pueden coincidir con detecciones anteriores.
El documento US2009/141969 A1 da a conocer un método de aprendizaje de descriptores y de anotaciones de vídeo utilizando redes neuronales.
Para el aprendizaje de los modelos asociados a tales arquitecturas, es necesario distribuir los cálculos, porque la potencia de cálculo requerida es muy alta, y se puede utilizar una cantidad muy grande de entidades de cálculo, por ejemplo, hasta cien procesadores gráficos (“GPUs”). El artículo de Dean et al, "Large Scale Distributed Deep Networks", Advances in Neural Information Procesing Systems, 2012 describe un sistema, que se muestra en la Figura 1, que utiliza un servidor de parámetros 101 que alimenta diferentes entidades informáticas 102, 103, 104, cada una de ellas en funcionamiento en paralelo en un fragmento de datos 106, 107, 108 ("shards" en inglés), y la actualización de los parámetros w de forma asíncrona, sin que las entidades de cálculo se esperen unas a las otras. Más concretamente, cada entidad de cálculo realiza la lectura de los parámetros actuales w mediante una solicitud dirigida al servidor de parámetros, realiza sus cálculos y devuelve los parámetros actualizados Aw mediante otra solicitud dirigida al servidor de parámetros. Los parámetros finales w' son función de los parámetros actuales w, de los parámetros Aw actualizados en cada entidad, y de n que es la tasa de aprendizaje del modelo, en este ejemplo: w' = w — nAw. Existe, pues, una distribución de cálculos y una distribución de los datos.
Este sistema, si logra superar las dependencias de cálculo utilizando operaciones de lectura/escritura asíncronas desde y hacia el servidor de parámetros, crea un punto de dificultad a través de las solicitudes dirigidas al único servidor de parámetros que se convierte en el cuello de botella del sistema. Cuantas más entidades de cálculo trabajen en paralelo, mayor será esta dificultad para distribuir los cálculos.
Existe la necesidad de obtener un método eficaz para detectar y localizar objetos en vídeos, que permita la ampliación para detectar y localizar fácilmente numerosas clases de objetos en numerosos vídeos.
El objeto de la invención es así, según un primero de sus aspectos, un método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el método:
- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<T, cada una de las cuales comprende etiquetas que identifican cada objeto detectado en las tramas,
- descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y
- una pluralidad M de entidades de cálculo m que trabajan en paralelo,
método en donde, para cada clase de objetos j, es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas ( t , z Jk f ) para definir descriptores
de clase "¿es ,
utilizando cada entidad de cálculo m , para el cálculo de los descriptores de clase Zg¡ , una versión de los parámetros 6j,m del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y
los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase z 9; .
La invención permite, mediante el uso de técnicas de detección y de localización de objetos en imágenes fijas, disponer de una base etiquetada suficientemente grande y representativa y descriptores efectivos.
El método, según la invención, constituye también un algoritmo distribuido y asíncrono sobre varias entidades de cálculo y de almacenamiento que trabajan en paralelo, apto para el aprendizaje de modelos de detección y localización, para una gran cantidad de datos. Los parámetros de las redes neuronales están así distribuidos, y el aprendizaje es asíncrono, no esperando una entidad de cálculo el resultado del cálculo de las otras entidades para actualizar sus parámetros. El hecho de que cada entidad de cálculo tenga su propia estimación de los parámetros permite no depender de un único servidor de parámetros.
El método según la invención permite un escalado efectivo, al proponer el aprendizaje de un modelo basado en numerosos vídeos con numerosas clases de objetos a detectar y localizar. Las redes neuronales objeto de aprendizaje para la puesta en práctica de la invención son así transferibles desde un vídeo a otro.
La invención puede aplicarse a la supervisión de los contenidos de vídeo a gran escala, tal como los disponibles en redes sociales, y a la publicidad online en vídeos, en particular para la venta online, denominada en inglés “ecommerce”. Los objetos a detectar en los vídeos pueden corresponder o parecerse a objetos de un catálogo de ventas. Se puede hacer clic en el contenido del vídeo, en particular para poder hacer clic en ciertos objetos detectados, para volver al sitio de ventas online correspondiente a los objetos seleccionados.
Las redes neuronales utilizadas en la invención son preferentemente redes neuronales convolucionales (“CNN”). En este tipo de redes, las convoluciones se realizan tanto en el tiempo como en el espacio, siendo seguida la capa de convolución por capas totalmente conectadas para realizar la clasificación.
Base de aprendizaje
La base de aprendizaje se forma de manera preferida a partir de la detección y localización de objetos trama por trama, en cada vídeo de referencia.
Un vídeo de referencia X consta de un conjunto T de tramas xt en donde t es el índice de la trama, que varía entre 1 y T: X=(xt)i<t<T. Se puede utilizar una pluralidad N de vídeos de referencia Xn (con 1 < n < N) para constituir la base de aprendizaje.
Cada trama xt incluye objetos yt. El vector yt comprende, de manera ventajosa, una secuencia de componentes yi,t que representan un número escalar comprendido entre 0 y 1 y codifican la presencia del objeto obj(i) en el lugar loc(i), designando en particular 1 su presencia y 0 su ausencia. Los tipos de objetos y sus localizaciones se pueden representar mediante un conjunto finito de índices cuya cardinalidad es la dimensión de los vectores yt, constante para todos los vectores yt de un mismo vídeo de referencia Xn.
Las posibles localizaciones de los objetos en una trama pueden corresponder a rectángulos deslizantes sobre la trama, de diferentes dimensiones, cubriendo toda la trama.
La base de aprendizaje contiene, de manera ventajosa, los datos (xt,yt)i<t<T registrados para cada trama xt de cada vídeo de referencia X, trama por trama, para un conjunto de T tramas. Las tramas anotadas de la base de aprendizaje pueden incluir etiquetas que designen los objetos detectados por su nombre.
La detección de objetos en las tramas de los vídeos de referencia se puede realizar utilizando un clasificador de objetos, por ejemplo, el clasificador que utiliza la red neuronal "VGG-16" desarrollada por la Universidad de Oxford.
La anotación de las tramas para constituir la base de aprendizaje puede realizarse utilizando información de bajo nivel para detectar los objetos, es decir, en particular detectando sus bordes y/o sus texturas.
Se puede utilizar una primera red neuronal para aprender la base de aprendizaje.
Solamente las primeras capas de la red neuronal se pueden utilizar para aprender la base de aprendizaje, permaneciendo a nivel de píxeles.
Los vídeos de referencia pueden provenir de vídeos de marcas o de sitios de venta online, en particular para publicidad online.
La base de aprendizaje, formada de antemano, puede estar contenida en la o en las máquinas que ejecutan el método según la invención. En una variante, la base de aprendizaje es remota y accesible a través de una red, tal como por ejemplo, una red cableada, Internet, Wifi o Bluetooth®.
En una variante, la base de aprendizaje es proporcionada por otro método de anotación, en particular por una base de trama anotada ya existente, por ejemplo, ImageNet o incluso Cifar-10 o Cifar-100.
Aprendizaje de los descriptores
La red neuronal de preprocesamiento es objeto de aprendizaje preferentemente para detectar objetos en la última trama de un grupo de h tramas anotadas sucesivas (xt, xt—i x t —h+i) de la base de aprendizaje utilizando las tramas anteriores del grupo para aprender los descriptores correspondientes a los objetos detectados.
La red aprende así el vínculo entre los descriptores y las etiquetas, por ejemplo, el descriptor asociado a la etiqueta “casa”, a la etiqueta “nube”, etc. Se dice que esta red neuronal de preprocesamiento es supervisada porque toma como entrada h tramas sucesivas (xt, xt—i , ..., xt—h+i) para predecir el vector de objetos yt.
Para el aprendizaje de los descriptores a partir de la base de aprendizaje, se pueden utilizar así, de manera sucesiva, dos redes neuronales, dando lugar a dos aprendizajes sucesivos diferentes, y mejorando la calidad del método de aprendizaje según la invención.
Cada grupo de tramas puede comprender entre 2 y 32 tramas, por ejemplo, 4 tramas.
La red neuronal se puede expresar como la composición de dos funciones y g ° <t>w, en donde &w(xt, xt—h+i) representa la parte convolucional, correspondiente a la función de cálculo de los descriptores, y y y j la parte completamente conectada, w y 6 representan el conjunto de los parámetros de las capas correspondientes de la red. Aprendizaje de los descriptores de clases
Para cada clase de objetos j ( l < j < J ) , es objeto de aprendizaje una de las redes neuronales de la arquitectura, para definir descriptores de clase z e} , utilizando como datos de entrada los descriptores y las etiquetas z fc,t) definidos con anterioridad.
Se aprende así un modelo por clase de objetos, estando disponibles tantos modelos como clases de objetos.
La base de aprendizaje permite tener pares (xk,t,yk,t) en donde k es un índice que identifica el k-ésimo vídeo de referencia y t designa el índice de trama. Gracias al aprendizaje de los descriptores por parte de la red neuronal de preprocesamiento, estos datos se transforman, de manera ventajosa, en pares z l , t ) en donde tpkt = d>(xk,t, xk,t—i, xkt—h+i) y en donde corresponde a la proyección del vector ykt sobre la componente i tal que obj(i) corresponde a la clase j.
Cada entidad de cálculo m, que utiliza una versión local de los parámetros j recibida desde uno de los servidores de parámetros, puede calcular de manera iterativa un descenso de gradiente proyectado:
C '/!= n,Wm-r*riW J)
en donde n& designa la proyección sobre 0 , yn designa una secuencia de números escalares denominada secuencia de pasos y l es la función de coste que se busca minimizar en el aprendizaje, designando n la iteración n-ésima. Una vez que la entidad de cálculo m ha realizado su cálculo, elige de manera aleatoria otra entidad de cálculo m' y actualiza los parámetros según la regla:
Figure imgf000005_0002
~ ^ j .m ^
Figure imgf000005_0001
El artículo de P. Bianchi y J. Jakubowicz, “Convergence of a Multi-Agent Projected Stochastic Gradient Algorithm for Non-Convex Optimization”, IEEE Transactions on Automatic Control, 2013, demuestra que el método según la invención converge bien hacia el óptimo buscado en la fase de aprendizaje.
Arquitectura de redes neuronales
La arquitectura según la invención comprende así redes neuronales que aprenden diferentes parámetros para cada clase de objetos. Las redes neuronales de la arquitectura están así especializadas por tipo de objeto.
Solamente una parte de las redes neuronales de la arquitectura se pueden aprender de forma distribuida sobre las diferentes entidades de cálculo. Preferentemente, solamente se aprende de forma distribuida la parte superior de las capas de las redes neuronales. En una variante, la parte inferior de las capas de las redes neuronales también se aprende de manera distribuida. Las capas altas corresponden a capas de mayor nivel, en donde la red es cada vez más sensible a los detalles de las tramas.
Las entidades de cálculo están preferentemente contenidas en máquinas informáticas, tales como ordenadores o servidores de cálculo. Cada máquina informática puede incluir varios procesadores gráficos ("GPU") que trabajan en paralelo y constituyen tantas entidades informáticas diferentes.
De manera ventajosa, las máquinas informáticas están conectadas en red, por ejemplo, mediante una red cableada, Wifi o Bluetooth®.
Los servidores de parámetros pueden estar contenidos en la memoria de acceso aleatorio de las máquinas informáticas. En una variante, los servidores de parámetros son remotos y accesibles a través de una red cableada, Wifi o Bluetooth®.
Puede haber tantos servidores de parámetros como entidades de cálculo. En variantes, existe una relación de un servidor de parámetros para dos entidades de cálculo, o un servidor de parámetros para cuatro entidades de cálculo, o incluso un servidor de parámetros para cuatro entidades de cálculo, o un servidor de parámetros para ocho entidades de cálculo, mejor aún, un servidor de parámetros para dieciséis entidades de cálculo.
Cada entidad de cálculo m utiliza preferiblemente solamente una parte de los datos de entrada. Los datos de entrada pueden así distribuirse entre diferentes entidades de almacenamiento de manera que cada entidad de cálculo solamente trabaje sobre una parte de los datos. La distribución de los datos de entrada entre las entidades de cálculo se realiza, de manera ventajosa, de forma aleatoria, pudiendo dividirse los datos de entrada en tantas partes como entidades de cálculo y/o de almacenamiento existan, siguiendo así los datos de entrada una ley uniforme sobre el número de entidades.
Cada entidad de cálculo puede incluir al menos una zona de memoria.
La zona de memoria de una entidad de cálculo m' está, de manera ventajosa, disponible para ser interrogada por otra entidad de cálculo m y responder a la misma, en particular en el marco de una solicitud de lectura/escritura en el servidor de parámetros de cuya entidad de cálculo m' depende, incluso mientras realiza su propio cálculo.
Dispositivo de aprendizaje de descriptores
Otro objeto de la invención, según otro de sus aspectos, es un dispositivo de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el dispositivo:
- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<T, cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, y - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
comprendiendo el dispositivo una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y una pluralidad M de entidades de cálculo m que trabajan en paralelo, estando configurado el dispositivo para el aprendizaje, para cada clase de objetos j , de una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas (0fc,p z¿ t ) Para definir descriptores de clase
utilizando cada entidad de cálculo m, para el cálculo de los descriptores de clase Zg¡} una versión de los parámetros 6 j ,m del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambiando entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase z 9¡.
Detección y localización de los objetos
Otro objeto de la invención, según otro de sus aspectos, es un método de detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, en donde el proceso:
- se utiliza los descriptores de clase ZgT aprendidos durante el proceso de aprendizaje de descriptores de clase tal como se definió con anterioridad, para aprender una función (zq; ° <PW ) de cálculo de descriptores tomando al menos el vídeo de prueba como entrada, y
- se obtienen puntuaciones de detección y localización en el vídeo de prueba para cada clase de objetos j.
Las características establecidas con anterioridad para el método de aprendizaje de descriptores de clase se aplican al método de detección y localización de objetos.
Producto de programa informático
Otro objeto de la invención, según otro de sus aspectos, es un producto de programa informático para la puesta en práctica del método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo tal como se ha descrito con anterioridad, perteneciendo cada objeto a una clase de objetos j entre un conjunto J de clases, utilizando el método:
- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas (xt,yt)i<t<r, comprendiendo cada una de las cuales etiquetas que designan cada objeto detectado en las tramas,
- descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y
- una pluralidad M de entidades de cálculo m que trabajan en paralelo,
comprendiendo el producto de programa informático un soporte y registrado en este soporte instrucciones legibles por un procesador para cuando se ejecutan, para cada clase de objetos j , siendo objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y etiquetas
Figure imgf000007_0001
para definir descriptores de clase utilizando cada entidad de cálculo m, para el cálculo de los descriptores de clase ZQ¡, solamente una parte de los datos de entrada y una versión de los parámetros 6¡,m del servidor de parámetros del que depende la entidad, y devolviendo a este servidor de parámetros los parámetros actualizados al final de su cálculo, y los servidores de parámetros intercambian entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase
Las características establecidas con anterioridad para el método de aprendizaje de descriptores de clase se aplican al producto del programa informático.
DESCRIPCIÓN DETALLADA
La invención se comprenderá mejor con la lectura de la descripción detallada siguiente, ejemplos no limitativos de su forma de realización, y con el examen del dibujo adjunto, en donde:
- la Figura 1, ya descrita, representa una arquitectura de redes neuronales según el estado de la técnica;
- la Figura 2 es un diagrama que representa las etapas para poner en práctica el método según la invención; - la Figura 3 ilustra la anotación de la base, trama por trama;
- la Figura 3A representa un ejemplo de trama que contiene, en diferentes posiciones, objetos pertenecientes a diferentes clases;
- la Figura 4 ilustra el aprendizaje de los descriptores; y
- la Figura 5 representa un dispositivo de aprendizaje de los descriptores de clase que comprende una arquitectura distribuida de redes neuronales según la invención.
Las etapas del método de detección y localización de objetos en un vídeo, según la invención, se representan en la Figura 2. Cada objeto pertenece a una clase de objetos j de entre un conjunto J de clases. El método según la invención utiliza, de manera ventajosa, un dispositivo 1 de aprendizaje de descriptores de clase, representado en la Figura 5 y que comprende una arquitectura de redes neuronales CNN definidas por parámetros centralizados en una pluralidad de servidores de parámetros 2, 3, 4 y en una pluralidad M de entidades de cálculo mi,p, m2,p, m¡,p, con p = 1...4, que trabajan en paralelo. El método según la invención se puede dividir en varias etapas, que se describirán en detalle a continuación.
Durante una etapa 11, se forma una base de aprendizaje a partir de vídeos de referencia y proporciona tramas anotadas (xt, yt)i<t<r. Esta base de aprendizaje se utiliza, en una etapa 12, para hacer que una red neuronal de preprocesamiento, del tipo CNN, aprenda los descriptores asociados a las etiquetas contenidas en las tramas anotadas, tal como se observa en la Figura 4(a). Estas etapas 11 y 12 se pueden realizar de manera previa, siendo los descriptores y las etiquetas obtenidos utilizados como datos de entrada para el aprendizaje, en una
etapa 13, de una de las redes neuronales de la arquitectura 1 para definir descriptores de clase z 0} para cada clase de objetos (/').
Durante una etapa 14, los descriptores de clase ¿ q ’¡ se utilizan para aprender una función {zg } ° &w ) para calcular descriptores tomando al menos el vídeo de prueba como entrada. Durante una etapa 15, esta función se utiliza para obtener puntuaciones de detección y de localización en el vídeo de prueba para cada clase de objetos j. Estas puntuaciones de detección son, de manera preferible, números escalares comprendidos entre 0 y 1 que dan una probabilidad de presencia de objetos, por ejemplo, 1 designa su presencia y 0 su ausencia.
Tal como se muestra en la Figura 3, la base de aprendizaje utilizada para aprender los descriptores es objeto de aprendizaje preferiblemente a partir de vídeos de referencia y contiene tramas anotadas (xt, yt)i<t<r, cada una de las cuales comprende una o varias etiquetas que identifican cada objeto detectado en las tramas. El vector yt comprende una secuencia de componentes (yt,t) que representan un número escalar comprendido entre 0 y 1 y que codifican la presencia del objeto obj(i) en la ubicación loc(i), por ejemplo, 1 designa su presencia y 0 su ausencia.
A continuación, se muestra un ejemplo de un vector yt, con 4 posiciones en la trama t y 3 clases de objetos.
Los valores yt,i corresponden a una puntuación de presencia del objeto de clase j en la posición correspondiente. Las puntuaciones próximas a 1 de las componentes ya, yt,4, yt,9 e yt,6, corresponden a la presencia de la estrella en las posiciones 1 y 4, del cuadrado en la posición 1 y del círculo en la posición 2, tal como se observa en la Figura 3A. En este ejemplo, el vector zj es igual a: z1 = y a ... ya , z2 = yt,5... y a y z3 = y a ... yt,12.
pos(í) = 1 obj{1) - 1
po&(2) - 2 oDj(2) = 1
pos(3! - 3 ob¡(3) - 1
pos(4J - 4 obj{4) = 1
pos{5) = 1 ob¡{5) = 2
pos(6) - 2 obj{6) - 2
OOSfT) - 3 obj (7)" 2
pGS(8) - 4 objfB) - 2
P0S(9) = 1 obp) = 3
Figure imgf000008_0001
pos( 10) = 2 ob jílQ )^
Vt,11 ~ 005 pos(11) = 3 €bjfll) =3
V Vt.,12-0.05/ pos(12) - 4 otsj(12) = 3
Se utiliza, de manera ventajosa, una primera red neuronal para aprender la base de aprendizaje.
Tal como se describió con anterioridad, la red neuronal de preprocesamiento es objeto de aprendizaje para detectar objetos en la última trama xt de un grupo de h tramas sucesivas (xt, xt-i, ..., xt-h+i), visibles en la Figura 4(b), o en el número de 4 en el ejemplo considerado y provenientes de la base de aprendizaje previamente constituida. Para ello, la red neuronal de preprocesamiento utiliza las tramas anteriores (xt—i, xt—2, x— ) del grupo para aprender los descriptores &w(xt,..., xt—h+i) correspondientes a los objetos detectados, tal como se muestra en la Figura 4(b).
En la Figura 5 se representa un dispositivo 1 de aprendizaje de descriptores de clases según la invención que comprende una arquitectura distribuida de redes neuronales. En el ejemplo considerado, el dispositivo 1 comprende tres máquinas informáticas mi, m2, m3, comprendiendo cada una de estas máquinas informáticas cuatro procesadores gráficos "GPU" mi,p, m2,p, m3,p, con p = i...4 , que constituyen cada uno una entidad de cálculo en el sentido de la invención.
Tal como se describió con anterioridad, para el cálculo de los descriptores de clase z 9¡, cada entidad de cálculo m utiliza una versión de los parámetros 6¡,m del servidor de parámetros del que depende la entidad, y devuelve a este servidor de parámetros los parámetros actualizados al final de su cálculo. Los servidores de parámetros 2, 3, 4 intercambian entre sí los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase Zq '¡ .
De manera preferible y tal como se muestra, cada máquina informática mi, m2, m? utiliza solamente una parte de los datos de entrada
Figure imgf000009_0001
La invención no se limita al ejemplo que se acaba de describir.
Se puede utilizar un mayor número de tramas por grupo, lo que permite un aprendizaje más rápido. La elección del número de tramas por grupo de tramas puede depender del tipo de vídeo: por ejemplo, si existe cambios frecuentes de escenas, se elige un número reducido de tramas por grupo, o si el movimiento general del vídeo es lento, se elige un mayor número de tramas por grupo.
En el ejemplo de la Figura 5, el dispositivo según la invención comprende 3 servidores de parámetros y 3 máquinas informáticas, pero la invención no se limita a un número particular de entidades de cálculo y de servidores de parámetros.

Claims (15)

REIVINDICACIONES
1. Método de aprendizaje de descriptores de clase para la detección y la localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos j ) entre un conjunto (J ) de clases, utilizando el método: - una base de aprendizaje, constituida por vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros (2, 3, 4), y
- una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo, y
un método en donde, para cada clase de objetos (/'), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas z k,[) Para definir descriptores de clase (% ;),
utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase ( z ^ ) , una versión de los parámetros (6¡,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y
los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase i z 9 j).
2. Método según la reivindicación 1, en donde la base de aprendizaje está constituida a partir de la detección y localización de los objetos, trama por trama, en cada vídeo de referencia.
3. Método según la reivindicación 1 o 2, en donde la base de aprendizaje contiene datos ((xt,yt)i<t<r) registrados para cada trama (xt) de cada vídeo de referencia (X), trama por trama, para un conjunto de (T) tramas, conteniendo estos datos un vector (yt) que comprende una secuencia de componentes (y,t) que representan un número escalar comprendido entre 0 y 1 y codifican la presencia del objeto (obj(i)) en la ubicación (loc(i)), con, en particular 1 designa su presencia y 0 su ausencia.
4. Método según cualquiera de las reivindicaciones 1 a 3, en donde se utiliza una primera red neuronal para aprender la base de aprendizaje.
5. Método según cualquiera de las reivindicaciones 1 a 4, en donde es objeto de aprendizaje la red neuronal de preprocesamiento para detectar objetos en la última trama de un grupo de (h) tramas sucesivas (xt, xt—i , ..., xt— h+i) de la base de aprendizaje utilizando las tramas anteriores del grupo para aprender los descriptores (&w(xt,...,xt—h+1)) correspondientes a los objetos detectados.
6. Método según la reivindicación anterior, en donde cada grupo de tramas comprende entre 2 y 32 tramas, por ejemplo, 4 tramas.
7. Método según cualquiera de las reivindicaciones anteriores, en donde cada entidad de cálculo (m) utiliza solamente una parte de los datos de entrada.
8. Método según cualquiera de las reivindicaciones anteriores, en donde cada entidad de cálculo (m), que utiliza una versión local de los parámetros (0¡M) recibidos desde uno de los servidores de parámetros, calcula, de manera iterativa, un descenso de pendiente proyectado:
Figure imgf000010_0001
en donde n 0 designa la proyección sobre 0 , f designa una secuencia de números escalares denominada secuencia de pasos y l es la función de coste que buscamos minimizar en el aprendizaje.
9. Método según cualquiera de las reivindicaciones anteriores, en donde, una vez que la entidad de cálculo (m) ha realizado su cálculo, elige, de manera aleatoria, otra entidad de cálculo (m') y asegura una actualización de los parámetros según la regla:
Figure imgf000011_0001
10. Método según cualquiera de las reivindicaciones anteriores, en donde, comprendiendo cada entidad de cálculo al menos una zona de memoria, la zona de memoria de una entidad de cálculo (m') está disponible para ser interrogada por otra entidad de cálculo (m) y responderla, en particular en el contexto de una solicitud de lectura/escritura en el servidor de parámetros del que depende la entidad de cálculo (m'), incluso mientras esta última está realizando su propio cálculo.
11. Método según cualquiera de las reivindicaciones anteriores, en donde solamente se aprende de forma distribuida sobre las distintas entidades de cálculo una parte de las redes neuronales de la arquitectura.
12. Método según la reivindicación anterior, en donde solamente se aprende de forma distribuida la parte superior de las capas de las redes neuronales.
13. Método para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, en cuyo método:
- se utiliza los descriptores de clase ( z e; ) aprendidos en el método de aprendizaje de descriptores de clase según cualquiera de las reivindicaciones anteriores, para aprender una función (Sg¡ ° 4>w ) de cálculo de descriptores tomando al menos el vídeo de prueba como entrada, y
- se obtiene las puntuaciones de detección y localización en el vídeo de prueba para cada clase de objetos (j).
14. Dispositivo (1) para el aprendizaje de descriptores de clases para la detección y localización automática de objetos en un vídeo, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el dispositivo (1):
- una base de aprendizaje, formada a partir de vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que identifican cada objeto detectado en las tramas, y - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
comprendiendo el dispositivo (1) una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo,
estando configurado el dispositivo para el aprendizaje, para cada clase de objetos (/), de una de las redes neuronales de la arquitectura utilizando como datos de entrada los descriptores y las etiquetas (_<pk,c> ¡3 para definir descriptores de clase í z 9 ¡\
- utilizando cada entidad de cálculo (m), para el cálculo de los descriptores de clase ( z 9f ), una versión de los parámetros ( 6 j ,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y
los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase ( z e; ) .
15. Producto de programa informático para la puesta en práctica del método de aprendizaje de descriptores de clase para la detección y localización automática de objetos en un vídeo según se define en las reivindicaciones 1 a 13, perteneciendo cada objeto a una clase de objetos (j) entre un conjunto (J) de clases, utilizando el método:
- una base de aprendizaje, constituida a partir de vídeos de referencia y que contiene tramas anotadas ((xt,yt)i<t<r), cada una de las cuales comprende una o más etiquetas que designan cada objeto detectado en las tramas, - descriptores asociados con estas etiquetas y aprendidos de antemano por una red neuronal de preprocesamiento a partir de las tramas anotadas de la base de aprendizaje,
- una arquitectura de redes neuronales definida por parámetros centralizados en una pluralidad de servidores de parámetros, y
una pluralidad (M) de entidades de cálculo (m) que trabajan en paralelo,
el producto de programa informático que comprende un medio y registrado en este medio son instrucciones legibles por un procesador para cuando se ejecutan, para cada clase de objetos (/'), es objeto de aprendizaje una de las redes neuronales de la arquitectura utilizando como datos de entrada descriptores y etiquetas z l para definir descriptores de clase ( z ^ ) ,
cada entidad de cálculo (m) utilizando, para el cálculo de los descriptores de clase ( z o¡) , solamente una parte de los datos de entrada y una versión de los parámetros (0¡,m) del servidor de parámetros del que depende la entidad, y devolver a este servidor de parámetros los parámetros actualizados al final de su cálculo, y
los servidores de parámetros intercambian entre ellos los parámetros de cada entidad de cálculo para el aprendizaje de las redes neuronales para cada descriptor de clase ( z 6 j ) -
ES18728657T 2017-06-12 2018-06-08 Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo Active ES2907007T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1755232A FR3067496B1 (fr) 2017-06-12 2017-06-12 Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video
PCT/EP2018/065241 WO2018228955A1 (fr) 2017-06-12 2018-06-08 Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video

Publications (1)

Publication Number Publication Date
ES2907007T3 true ES2907007T3 (es) 2022-04-21

Family

ID=60382268

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18728657T Active ES2907007T3 (es) 2017-06-12 2018-06-08 Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo

Country Status (6)

Country Link
US (1) US11501110B2 (es)
EP (1) EP3639190B1 (es)
CN (1) CN111052128B (es)
ES (1) ES2907007T3 (es)
FR (1) FR3067496B1 (es)
WO (1) WO2018228955A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3094115B1 (fr) * 2019-03-22 2021-02-26 Idemia Identity & Security France Procede d’identification de bagages
US11037666B1 (en) * 2019-05-29 2021-06-15 Bottomline Technologies, Inc. Method and apparatus for detecting diverted drugs
US11551447B2 (en) * 2019-06-06 2023-01-10 Omnix Labs, Inc. Real-time video stream analysis system using deep neural networks
CN112015749B (zh) * 2020-10-27 2021-02-19 支付宝(杭州)信息技术有限公司 基于隐私保护更新业务模型的方法、装置及系统
CN112633382B (zh) * 2020-12-25 2024-02-13 浙江大学 一种基于互近邻的少样本图像分类方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6774917B1 (en) 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US8345962B2 (en) * 2007-11-29 2013-01-01 Nec Laboratories America, Inc. Transfer learning methods and systems for feed-forward visual recognition systems
US8254699B1 (en) 2009-02-02 2012-08-28 Google Inc. Automatic large scale video object recognition
US20120238254A1 (en) 2011-03-17 2012-09-20 Ebay Inc. Video processing system for identifying items in video frames
US20130278760A1 (en) * 2012-04-20 2013-10-24 Pharmavite Llc Augmented reality product display
US9593982B2 (en) * 2012-05-21 2017-03-14 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
CN103544506B (zh) * 2013-10-12 2017-08-08 Tcl集团股份有限公司 一种基于卷积神经网络的图像分类方法和装置
US10452992B2 (en) * 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US10083233B2 (en) * 2014-09-09 2018-09-25 Microsoft Technology Licensing, Llc Video processing for motor task analysis
CN104268563B (zh) * 2014-09-15 2017-05-17 合肥工业大学 一种基于异常行为检测的视频摘要方法
US10275656B2 (en) 2014-11-21 2019-04-30 Trustees Of Boston University Large scale video search using queries that define relationships between objects
US10572735B2 (en) * 2015-03-31 2020-02-25 Beijing Shunyuan Kaihua Technology Limited Detect sports video highlights for mobile computing devices
US9805264B2 (en) * 2015-10-19 2017-10-31 Disney Enterprises, Inc. Incremental learning framework for object detection in videos
CN105630882B (zh) * 2015-12-18 2019-09-20 哈尔滨工业大学深圳研究生院 基于遥感数据深度学习的近海污染物识别与跟踪方法
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
CN106557778B (zh) * 2016-06-17 2020-02-07 北京市商汤科技开发有限公司 通用物体检测方法和装置、数据处理装置和终端设备
US10229347B2 (en) * 2017-05-14 2019-03-12 International Business Machines Corporation Systems and methods for identifying a target object in an image

Also Published As

Publication number Publication date
FR3067496A1 (fr) 2018-12-14
FR3067496B1 (fr) 2021-04-30
CN111052128A (zh) 2020-04-21
CN111052128B (zh) 2024-04-05
US20200210774A1 (en) 2020-07-02
US11501110B2 (en) 2022-11-15
EP3639190B1 (fr) 2021-12-15
WO2018228955A1 (fr) 2018-12-20
EP3639190A1 (fr) 2020-04-22

Similar Documents

Publication Publication Date Title
ES2907007T3 (es) Método de aprendizaje de descriptores para la detección y la localización de objetos en un vídeo
Dai et al. Rgb-d slam in dynamic environments using point correlations
Mei et al. Closing loops without places
Whelan et al. ElasticFusion: Real-time dense SLAM and light source estimation
Botterill et al. Bag‐of‐words‐driven, single‐camera simultaneous localization and mapping
CN106767812B (zh) 一种基于语义信息提取的室内语义地图更新方法与系统
Meng et al. Backtracking regression forests for accurate camera relocalization
US20200193628A1 (en) Detecting objects in crowds using geometric context
Yu et al. Fast action detection via discriminative random forest voting and top-k subvolume search
US9134399B2 (en) Attribute-based person tracking across multiple cameras
TWI766618B (zh) 關鍵點檢測方法、電子設備及電腦可讀儲存介質
US8660306B2 (en) Estimated pose correction
US20160071024A1 (en) Dynamic hybrid models for multimodal analysis
US20120030208A1 (en) Facilitating People Search in Video Surveillance
Yan et al. Semantics in mobile sensing
Taverriti et al. Real-time wearable computer vision system for improved museum experience
WO2023087758A1 (zh) 定位方法、定位装置、计算机可读存储介质和计算机程序产品
Lin et al. Keypoint-based category-level object pose tracking from an RGB sequence with uncertainty estimation
Alam et al. A review of recurrent neural network based camera localization for indoor environments
Fu et al. Self-supervised learning of LiDAR odometry based on spherical projection
CN115482252A (zh) 基于运动约束的slam闭环检测和位姿图优化方法
US11164039B2 (en) Framework for few-shot temporal action localization
Islam et al. A semantically aware place recognition system for loop closure of a visual SLAM system
Guo et al. SiFi: self-updating of indoor semantic floorplans for annotated objects
Agarwal et al. Ordered Atomic Activity for Fine-grained Interactive Traffic Scenario Understanding