ES2764484T3 - Procedimiento de procesamiento de una señal asíncrona - Google Patents

Procedimiento de procesamiento de una señal asíncrona Download PDF

Info

Publication number
ES2764484T3
ES2764484T3 ES16715016T ES16715016T ES2764484T3 ES 2764484 T3 ES2764484 T3 ES 2764484T3 ES 16715016 T ES16715016 T ES 16715016T ES 16715016 T ES16715016 T ES 16715016T ES 2764484 T3 ES2764484 T3 ES 2764484T3
Authority
ES
Spain
Prior art keywords
pixel
events
type
context
contexts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16715016T
Other languages
English (en)
Inventor
Ieng Sio-Ho�?
Benosman Ryad
Shi Bertram
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Institut National de la Sante et de la Recherche Medicale INSERM
Sorbonne Universite
Original Assignee
Centre National de la Recherche Scientifique CNRS
Institut National de la Sante et de la Recherche Medicale INSERM
Sorbonne Universite
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Institut National de la Sante et de la Recherche Medicale INSERM, Sorbonne Universite filed Critical Centre National de la Recherche Scientifique CNRS
Application granted granted Critical
Publication of ES2764484T3 publication Critical patent/ES2764484T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • H04N25/44Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled by partially reading an SSIS array
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

Procedimiento de reconocimiento de formas en una señal asíncrona producida por un sensor de luz, teniendo el sensor una matriz de píxeles dispuesta frente a una escena, el procedimiento comprende: /a/ la ejecución de un procedimiento de procesamiento de una señal asíncrona según: - recibir del sensor de luz la señal asíncrona (500) que comprende, para cada píxel de la matriz, unos eventos sucesivos procedentes de dicho píxel; - analizar (501) la señal asíncrona con la ayuda de perfiles de actividad a medida que se reciben eventos en la señal asíncrona; /b/ a medida que se reciben los eventos, para cada píxel (p) actual de dicho sensor: /b1/ determinación (501) de un contexto (Sp) para dicho píxel actual, estando dicho contexto (Sp) definido como un conjunto de perfiles de actividad de píxeles situados a menos de una distancia predeterminada de dicho píxel (p) actual, /b2/ determinación de un contexto tipo (Ck) de entre un conjunto de contextos tipo (504) predeterminados, teniendo el contexto tipo determinado, de entre el conjunto de los contextos tipo, una distancia al contexto determinado en la etapa /b1/ mínima, /c/ determinación (521) de una firma función de un número de ocurrencias de determinación de los contextos tipo en la etapa /b2/; /d/ determinación (524) de una forma por una comparación de dicha firma con una base de firma tipo; en el que el perfil de actividad comprende al menos, para cada píxel (p) del sensor, un valor de actividad (S(p)) que decrece en función del tiempo (t) transcurrido desde un evento más reciente (310, 311, 312, 313, 314, 320, 321, 322) de entre los eventos sucesivos procedentes de dicho píxel.

Description

DESCRIPCIÓN
Procedimiento de procesamiento de una señal asíncrona
Sector de la técnica
La presente invención se refiere al campo del procesamiento de señal asíncrona, en concreto, para la detección de formas en esta señal.
Estado de la técnica
Diversas técnicas de procesamiento de señal de vídeo se han desarrollado históricamente. En general, se basan en el enfoque de trama tradicional.
Existen unos sensores asíncronos (DVS, ATIS). Estos sensores pueden reemplazar ventajosamente a unas cámaras tradicionales.
Pero el procesamiento de la señal es menos intuitivo que en el mundo de las cámaras de trama. Si se han puesto a punto ciertos algoritmos para procesar ciertas familias de problemas (ej., flujo óptico, seguimiento de formas), otros problemas permanecen poco o no explorados o son de una resolución más delicada.
Este es, en concreto, el caso para el reconocimiento de formas.
Con el fin de detectar unas formas y/o unos movimientos, los procedimientos actuales (es decir, que utilizan unos datos de vídeo que provienen de cámaras convencionales) buscan identificar ciertas características visuales propias de un conjunto de píxeles situados en la proximidad en los datos de vídeo en cuestión.
Estas características visuales son con mayor frecuencia aprehendidas por el experto en la técnica como una información espacial de una imagen (incluso si esta información espacial puede estar en movimiento).
Por consiguiente, la información temporal de datos de vídeo, con frecuencia, se pasa por alto: a lo sumo, se puede buscar una variación/evolución de una característica visual entre dos o varias imágenes (o tramas) de los datos de vídeo.
El pasar por alto el componente temporal puede explicarse principalmente por la tecnología de adquisición habitual de los vídeos: los datos de vídeo son el fruto de una adquisición que produce un gran número de imágenes estáticas (o frame en inglés, trama en francés).
Esta tecnología de adquisición de los vídeos ha condicionado históricamente la manera en que se procesan o indican en pantalla los vídeos. La existencia de esta sucesión de imágenes estáticas hace que las informaciones temporales (o dinámicas) de los datos de vídeo sean difícilmente manipulables.
Si es posible aumentar el número de imágenes por segundo de los datos de vídeo, es raro que la frecuencia de estas imágenes exceda los 100 Hz, tanto por unas cuestiones de límites materiales al nivel de la adquisición, como por unas cuestiones de procesamiento en tiempo real de estos datos con las herramientas convencionales de detección de forma.
De este modo, existe una necesidad para la detección de formas fiable y que se pueda utilizar haciendo el mejor uso de la información temporal de los datos de vídeo.
La presente invención viene, de este modo, a mejorar la situación.
Contrariamente a las cámaras convencionales que graban unas imágenes sucesivas en unos instantes de muestreo regulares, se han desarrollado unas retinas biológicas inspiradas en el funcionamiento del ojo humano. Las retinas biológicas no transmiten más que pocas informaciones redundantes sobre la escena a visualizar y esto de manera asíncrona.
Unos sensores de visión asíncronos basados en evento suministran unos datos digitales comprimidos en forma de eventos.
Se puede consultar una presentación de unos sensores de este tipo en "Activity-Driven, Event-Based Vision Sensors", T. Delbrück et al., Proceedings of 2010 IEEE International Symposium on Circuits and Systems (ISCAS), pág. 2426­ 2429. Los sensores de visión basados en evento tienen como ventaja que eliminan redundancia, que reducen los tiempos de latencia y que aumentan el rango dinámico con respecto a las cámaras convencionales.
La salida de un sensor de visión de este tipo puede consistir, para cada dirección de píxel, en una secuencia de eventos asíncronos representativos de los cambios de reflectancia de la escena en el momento en que se producen.
Cada píxel del sensor es independiente y detecta unos cambios de intensidad superiores a un umbral desde la emisión del último evento (por ejemplo, un contraste de un 15 % sobre el logaritmo de la intensidad). Cuando el cambio de intensidad excede el umbral fijado, el píxel genera un evento ENCENDIDO o APAGADO según si la intensidad aumenta o disminuye (sensores DVS). Ciertos sensores asíncronos asocian los eventos detectados a unas mediciones de intensidad de luz (sensores ATIS).
No muestreándose el sensor sobre un reloj como una cámara convencional, puede dar cuenta de la secuenciación de los eventos con una precisión temporal muy grande (por ejemplo, del orden de 1 js). Si se utiliza un sensor de este tipo para reconstruir una secuencia de imágenes, se puede alcanzar una cadencia de imágenes de varios kilohercios, frente a algunas decenas de hercios para unas cámaras convencionales.
La gran precisión temporal de estas cámaras puede permitir hacer el mejor uso de la información temporal de un vídeo.
No obstante, el procesamiento de los eventos que provienen de estos sensores puede ser complejo, ya que los eventos son unos conceptos puntuales en tiempo (t) y en el espacio (x, y). Por consiguiente, su procesamiento y su análisis pueden ser difíciles.
De este modo, existe una necesidad de crear unos instrumentos simples y manipulables para hacer un análisis pertinente de una señal procedente de un sensor asíncrono.
El análisis debe constar, en concreto, de las dimensiones espaciales y la dimensión temporal para facilitar la identificación de características espacio-temporales en los eventos extremadamente numerosos que suministra un sensor de este tipo, sin perder la dinámica de este.
El artículo ZHENJIANG N. ET AL: "Asynchronous Event-Based Visual Shape Tracking for Stable Haptic Feedback in Microrobotics", IEEE TRANSACTIONS ON ROBOTICS, IEEE SERVICE CENTER, PISCATAWAY, NJ, EEUU, vol. 28, n.° 5, 1 de octubre de 2012 (01/10/2012), páginas 1081-1089, ISSN: 1552-3098, DOI: 10.1109/ TRO.2012.2198930 divulga un método para manipular un objeto con la ayuda de una pinza robótica. Una cámara viene a complementar un sistema de pinza robótica que comprende, igualmente, una retina DVS de silicio, utilizándose dicha cámara únicamente para la detección de objetos estáticos. Los planos focales del DVS (128x128 píxeles) y de la cámara (659x494 píxeles) están unidos por una transformada homográfica. En el transcurso de la aplicación, el círculo correspondiente a la esfera a manipular se detecta con la ayuda de una transformada de Hough mediante la cámara convencional. Una vez detectado el círculo, su ubicación se convierte en el sistema de coordenadas del plano focal de la retina basada en los eventos, con el fin de permitir la manipulación del objeto por la pinza robótica.
El artículo WIESMANN G. ET AL: "Event-driven embodied system for feature extraction and object recognition in robotic applications", COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), 2012 IEEE COMPUTER SOCIETY CONFERENCE ON, IEEE, 16 de junio de 2012 (16/06/2012), páginas 76-82, DOI: 10.1109/CVPRW.2012.6238898ISBN: 978-1-4673-1611-8 divulga un sistema que se basa en el procesamiento de señal que proviene de una cámara asíncrona para la extracción de características y el reconocimiento de objeto para unas aplicaciones robóticas. El procesamiento se basa en una agrupación espacio-temporal de los eventos y la detección de círculos.
El artículo SCHRAML S. ET AL: "A real-time pedestrian classification method for event-based dynamic stereo vision", COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), 2010 IEEE COMPUTER SOCIETY CONFERENCE ON, IEEE, PISCATAWAY, NJ, EUA, 13 de junio de 2010 (13/06/2010), páginas 93-99, ISBN: 978-1­ 4244-7029-7 divulga un método de reconocimiento de peatones o ciclistas con la ayuda de un sistema de visión asíncrono estéreo. El método procede en dos etapas principales: la agrupación para reagrupar unos eventos asíncronos correspondientes a un mismo objeto y la clasificación para identificar a unos peatones y unos ciclistas de entre los objetos obtenidos en la etapa de agrupación.
El artículo ORCHARD G. ET AL: "HFirst: A Temporal Approach to Object Récognition", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 37, n.° 10, 14 de enero de 2015 (14/01/2015), páginas 2028-2040, EUA ISSN: 0162-8828, DOI: 10.1109/TPAMI.2015.2392947 divulga un método de reconocimiento de objeto con la ayuda de un sistema de visión asíncrono. El método se basa en un modelo jerárquico biológicamente inspirado, en particular, una arquitectura de tipo de red neuronal de pulso (en inglés "spiking neural network") que hace uso de la información temporal de los pulsos ("spike timing").
Objeto de la invención
La presente invención propone un procedimiento de reconocimiento de formas según una de las reivindicaciones 1 a 7, tales como se definen en anexo.
El "perfil de actividad" de un píxel puede verse como una curva función del tiempo cuyo valor es representativo, al menos, del tiempo del último evento recibido para este píxel (eventualmente filtrado sobre una polaridad dada). Los perfiles de actividad establecidos de este modo constituyen unas herramientas de análisis que resumen la aparición de los eventos conservando localmente su estructura espacio-temporal.
Se ha constatado que la morfología de los perfiles de actividad denota la presencia de ciertas formas elementales en la escena observada por el sensor.
Estos perfiles evolucionan a medida que se reciben los eventos asíncronos y, por lo tanto, conservan la dinámica del sensor.
El conjunto de los perfiles de actividad constituye lo que se puede llamar una "tarjeta de frescura" del sensor.
Unas numerosas aplicaciones de procesamiento de señal se pueden poner a punto con el análisis que utiliza los perfiles de actividad. De forma no limitativa, es posible utilizarlos para:
- el reconocimiento de formas: se hace referencia a una biblioteca de perfiles tipo que traducen unos movimientos predefinidos de formas elementales predefinidas. Si el análisis revela un perfil de actividad similar a un perfil tipo de la biblioteca, tiene lugar un reconocimiento de forma y se estima una indicación de velocidad de desplazamiento de esta forma;
- estimación de movimiento en la escena: si se detecta un perfil de actividad una primera vez, luego, poco después (o un perfil de actividad muy similar) en una región cercana, se puede determinar una estimación sobre la velocidad de desplazamiento de un objeto en el campo de visión del sensor;
- estimación de profundidad en una imagen (estéreo): si se detecta un mismo perfil de actividad (o similar) en dos imágenes que provienen de dos sensores que capturan la misma escena, es posible considerar que los píxeles asociados a los perfiles de actividades corresponden al mismo punto de la escena capturada y, de este modo, determinar la profundidad de este punto;
- etc.
La "señal asíncrona" puede ser el conjunto de los eventos que provienen de un sensor retiniano dado o un subconjunto de estos eventos (subconjunto espacial: limitado a ciertos píxeles solamente; o/y subconjunto temporal: limitado a un período de tiempo dado).
Además, el perfil de actividad puede decrecer exponencialmente en función del tiempo transcurrido desde un evento más reciente de entre los eventos sucesivos procedentes de dicho píxel.
Este decrecimiento exponencial puede permitir poner mejor de manifiesto los últimos eventos recibidos por el sensor. En un modo de realización particular, el perfil de actividad puede estar, además, en función del tiempo transcurrido desde un evento anterior al evento más reciente de entre los eventos sucesivos procedentes de dicho píxel.
Incluso es posible tomar en cuenta todos los eventos recibidos para este píxel, con el fin de determinar el perfil de actividad asociado.
Las distancias pueden ser unas distancias en el sentido matemático. De este modo, las distancias pueden ser unas distancias euclidianas, unas distancias de Manhattan, unas distancias de Minkoswski, unas distancias de Tchebychev o cualesquiera otras distancias.
Con mayor frecuencia, es posible representar un "contexto" como una superficie en un espacio tridimensional (dos ejes representativos de las coordenadas de los píxeles y un eje sin dimensión (función de un tiempo)).
Este contexto permite aprehender el entorno cercano al evento considerado (es decir, actual) espacial y temporalmente. Un contexto puede verse como un conjunto de valores asociados a unas coordenadas de los píxeles situados a menos de una distancia predeterminada de un píxel del que proviene el evento actual (denominado "píxel actual"), relativamente al píxel actual.
Con mayor frecuencia, es posible representar un "conjunto de componentes" gráficamente como un "histograma". La terminología "histograma" o "firma" se utiliza, igualmente, en la continuación de la descripción.
En otro modo de realización, es posible tomar en cuenta un modelo jerárquico para los contextos tipo utilizados. La presente invención puede, de este modo, dirigirse a un procedimiento de reconocimiento de formas que comprende (un modelo jerárquico de contextos tipo que están definidos, estando cada contexto tipo asociado a una pluralidad de nivel del modelo jerárquico):
/a/ utilización de los eventos de la señal asíncrona del sensor como eventos actuales y utilización de los contextos tipo del primer nivel del modelo jerárquico como contextos tipo actuales;
/b/ ejecución del procedimiento de procesamiento de una señal asíncrona como se ha indicado anteriormente con los eventos actuales;
/c/ a medida que se reciben los eventos actuales, para cada píxel actual de dicho sensor:
/c1/ determinación de un contexto para dicho píxel actual, estando dicho contexto definido como un conjunto de perfiles de actividad utilizados en la etapa /b/ para unos píxeles situados a menos de una distancia predeterminada de dicho píxel actual,
/c2/ determinación de un contexto tipo (Ck) de entre los contextos tipo actuales (504), teniendo el contexto tipo determinado, de entre el conjunto de los contextos tipo actuales, una distancia al contexto determinado en la etapa /c1/ mínima,
/c3/ generación de un evento función del contexto tipo identificado en la etapa /c2/;
/d/ si no se ha utilizado un nivel del modelo jerárquico:
- utilización de los eventos generados en la etapa /c3/ como eventos actuales,
- utilización de los contextos tipo de un nivel del modelo jerárquico todavía no utilizado como contextos tipo actuales;
- nueva ejecución de las etapas /b/ a /e/;
/e/ si se han utilizado todos los niveles del modelo jerárquico:
- determinación (521) de una firma función de un número de ocurrencias de determinación de los contextos tipo en la última ocurrencia de la etapa /c2/;
- determinación (524) de una forma por una comparación de dicha firma con una base de firmas tipo.
Estos niveles jerárquicos permiten proceder a un reconocimiento paso a paso: el primer nivel jerárquico permite identificar unas formas muy básicas, permitiendo los niveles jerárquicos de orden superior identificar unas formas más complejas a partir de los niveles inferiores.
En un modo de realización particular, la determinación de un contexto toma en cuenta, por separado, los eventos que tienen unas polaridades diferentes.
Por ejemplo, la polaridad puede corresponder al hecho de que una intensidad de píxel varía (ej., 1 en caso de aumento o -1 en caso de disminución). La polaridad puede corresponder, igualmente, al contexto tipo identificado para el nivel jerárquico inmediatamente inferior.
El hecho de tomar en cuenta por separado los eventos que tienen unas polaridades diferentes permite aumentar la pertinencia de los contextos determinados.
En este caso, un contexto puede verse como un conjunto de valores asociados:
- a unas coordenadas de los píxeles situados a menos de una distancia predeterminada de un "píxel actual", relativamente al píxel actual; y
- a una polaridad dada.
Ventajosamente, la distancia utilizada en la etapa /e/ es una distancia de Bhattacharyya o una distancia estandarizada. Un programa informático, que implementa todo o parte del procedimiento descrito anteriormente, instalado en un equipo preexistente, es, en sí mismo, ventajoso.
De este modo, la presente invención se dirige, igualmente, a un programa informático que incluye unas instrucciones para la implementación del procedimiento según una de las reivindicaciones 1 a 7, tales como se definen en anexo, cuando este programa es ejecutado por un procesador.
Este programa puede utilizar cualquier lenguaje de programación (por ejemplo, un lenguaje de objeto u otro) y estar en forma de un código fuente interpretable, de un código parcialmente compilado o de un código totalmente compilado.
La figura 5 descrita en detalle a continuación puede formar el diagrama de flujo del algoritmo general de un programa informático de este tipo.
Descripción de las figuras
Otras características y ventajas de la invención se pondrán de manifiesto también a la lectura de la descripción que va a seguir. Esta es puramente ilustrativa y debe leerse frente a los dibujos en anexo en los que:
- la figura 1 es un esquema sinóptico de un sensor asíncrono de luz de tipo ATIS;
- la figura 2 es un diagrama que muestra unos eventos generados por un sensor asíncrono colocado frente a una escena que incluye una estrella giratoria;
- las figuras 3a y 3b son unos ejemplos de representación de una "señal de actividad" para los eventos de un píxel dado;
- la figura 3c es un ejemplo de una superficie 3D que representa una tarjeta de "frescura" dada según un modo de realización de la invención;
- la figura 3d es un ejemplo de una superficie 3D que representa un contexto según un modo de realización de la invención;
- la figura 4 ilustra la ocurrencia de eventos en el flujo de eventos cuando unas tarjetas de juego son devueltas; - la figura 5 es un ejemplo de diagrama de flujo de un modo de realización posible de la invención;
- las figuras 6a a 6c son unos ejemplos de contextos tipo en un modo de realización posible de la invención;
- la figura 7 ilustra un dispositivo para la implementación de un modo de realización según la invención;
- las figuras 8a a 8c son unos ejemplos de rendimientos de detección de formas para diferentes formas a reconocer.
Descripción detallada de la invención
La figura 1 ilustra el principio del ATIS.
Un píxel 101 de la matriz que constituye el sensor incluye dos elementos fotosensibles 102a, 102b, tales como unos fotodiodos, respectivamente asociados a unos circuitos electrónicos de detección 103a, 103b.
El sensor 102a y su circuito 103a producen un pulso P0 cuando la intensidad de luz recibida por el fotodiodo 102a varía de una cantidad predefinida.
El pulso P0 que marca este cambio de intensidad activa el circuito electrónico 103b asociado al otro fotodiodo 102b. Este circuito 103b genera, entonces, un primer pulso P1, luego, un segundo pulso P2 tan pronto como el fotodiodo 102b recibe una cantidad de luz dada (número de fotones).
El desvío temporal 5t entre los pulsos P1 y P2 es inversamente proporcional a la intensidad de luz recibida por el píxel 101 justo después de la aparición del pulso P0.
La información asíncrona procedente del ATIS comprende dos trenes de pulsos combinados para cada píxel (104): el primer tren de los pulsos P0 indica los instantes en que la intensidad de luz ha cambiado más allá del umbral de detección, mientras que el segundo tren se compone de los pulsos P1 y P2 cuyo desvío temporal 5t indica las intensidades de luz, o niveles de gris, correspondientes.
Un evento e(p,t) procedente de un píxel 101 de posición p en la matriz del ATIS incluye, entonces, dos tipos de información: una información temporal dada por la posición del pulso P0, que da el instante t del evento y una información de nivel de gris dada por el desvío temporal 5t entre los pulsos P1 y P2.
Entonces, se pueden colocar los eventos que provienen de los píxeles en una representación de espacio-tiempo tridimensional, tal como la presentada en la figura 2. En esta figura, cada punto p localiza un evento e(p,t) generado de manera asíncrona en un instante t al nivel de un píxel p del sensor, de posición ( ^ , por el movimiento de una estrella que gira a velocidad angular constante, como se esquematiza en el recuadro A. La mayor parte de estos puntos se distribuyen en la proximidad de una superficie de forma general helicoidal. Además, la figura muestra un cierto número de eventos a distancia de la superficie helicoidal que se miden sin corresponder al movimiento efectivo de la estrella. Estos eventos son ruido de adquisición.
Los eventos e(p,t) se pueden definir, entonces, por el conjunto de las siguientes informaciones:
Figure imgf000007_0001
con C el campo espacial del sensor, pol la polaridad que representa la dirección del cambio de luminancia (ej., 1 para un aumento o -1 para una disminución) y I(p,t) la señal de intensidad de luz del punto p.
La señal de intensidad de luz puede ser, de este modo, el conjunto de los trenes de pulsos combinados 104, tal como se describe en la Figura 1. Si tu representa el tiempo de ocurrencia del evento y el desvío entre te+,u y te-,u representa un valor inversamente proporcional a la variación de intensidad, es posible codificar la intensidad con la ayuda de tres Dirac 5, de tal modo que I(p,t) = 5 (t- tu) + 5 (t- te+,u) 5(t - te-,u). La señal de intensidad del píxel situado en la coordenada p permite, entonces, codificar temporalmente las informaciones de luminancia.
Es posible anotar el i ° evento de un sensor como ev(i), estando ev(i), entonces, definido por el conjunto de las siguientes informaciones:
Figure imgf000007_0002
con C el campo espacial del sensor, el punto del sensor afectado por el i ° evento, poli la polaridad que representa un tipo de eventos (por ejemplo, la dirección del cambio de luminancia para el i ° evento, ej. 1 para un aumento o -1 para una disminución), ti el tiempo de ocurrencia del i ° evento y li(p,t) la señal de intensidad de luz del punto (si este valor está disponible).
Con el fin de manipular de manera más simple los eventos, es posible definir para cada píxel p y para cada polaridad pol una función S representativa de una "frescura" de los eventos, siendo S(p,pol) función al menos del tiempo t de ocurrencia del último evento para este píxel y teniendo esta polaridad pol.
í Pi = P
Es posible definir la función S como la suma, para cada evento evp(i) = \poh = pol de un píxel p dado y para una tp
(m áx(h + 0. ( tp —í),0) si t polaridad pol dada, en un instante t dado, de la función primitiva Sprim (p,pol,t) > t p siendo (. 0 s i no
h un valor predeterminado y siendo 0 un factor
predeterminado correspondiente a la velocidad del decrecimiento de, la función primitiva.
La "suma" de la función primitiva puede, igualmente, verse matemáticamente como una convolución:
. , ., . ... „ , (m áx(h — 0. — t, 0) s i t > 0 - d , e la función primitiva Spnm(p,t) = j p (o, más generalmente, de cualquier función (. 0 s i no
decreciente),
t P i = P
- con una señal que incluye un Dirac para cada tiempo tp al que un evento evp(i) = Ipok = pol ha ocurrido.
( tP
A título de ilustración, la figura 3a muestra tres señales de actividad posibles t ^ S, para tres píxeles p1, p2 y p3 del sensor (y para un valor de polaridad pol dado).
En ausencia de eventos, el valor de S(p1, t), S(p2, t) o S(p3, t) es nulo. No obstante, durante la ocurrencia de un evento de polaridad pol (por ejemplo, 310) al nivel del píxel p1, S(p1, t) toma un valor umbral predeterminado (en el presente documento, h, pudiendo este valor h ser unitario).
El valor de la señal de actividad S(p1, t) decrece, entonces, progresivamente después de este evento para tender hacia 0.
Lo mismo sucede para el evento 311 para el píxel pi, para el evento 312 para el píxel p2 o para el evento 313 / 314 para el píxel p3,
Si el decrecimiento de la señal de actividad S es, en el presente documento, lineal, es posible prever cualquier tipo de decrecimiento como un decrecimiento exponencial:
_t-tp
h.e t
Este decrecimiento exponencial se puede ilustrar por la figura 3b (véase la curva 3b y el evento 320).
Por otra parte, es posible que, durante la ocurrencia de un evento para el píxel considerado (ej., p4, en el presente documento), el valor de la función S no sea desdeñable con respecto al valor de h (ej., el evento 321 está temporalmente cercano al evento 322).
En un modo de realización, durante la ocurrencia del evento ulterior 322, el valor de la señal de actividad S se puede fijar en la suma (eventualmente ponderada) del valor actual de S justo antes del evento 322 (es decir, h0) y de h. De este modo, el decrecimiento de la curva S partirá del valor h+h0, como lo muestra la figura 3b. Por otra parte, es posible prever que el valor de h+h0 esté capado a un valor h1 predeterminado (es decir, mín(h1, h+h0))
En otro modo de realización, durante la ocurrencia del evento ulterior 322, el valor de la curva S se fija al valor h sea el que sea el valor de h0 (es decir, los eventos anteriores al último evento (es decir, el evento ulterior) se ignoran). En este otro modo de realización, es posible definir un tiempo denominado "tiempo de último evento" definido como sigue:
T(p,pol,i) = máx(tj) | j < i
o
T(p,pol,t) = máx(ty) | tj < t
con tj los tiempos de eventos que ocurren para el píxel para un píxel p con la polaridad pol.
Conceptualmente, p ^ T(p,pol,t) define una tarjeta de los tiempos de los últimos eventos de misma polaridad ocurridos temporalmente justo antes de un tiempo de referencia (es decir, t).
Entonces, se puede definir, en este otro modo de realización, p ^ S(p,pol,t) como que es una función de este conjunto de tiempos T(p,pol,t).
Por ejemplo, p ^ S(p,pol,t):
Figure imgf000008_0001
0 sí no
con t y h una constante temporal predeterminada (S puede ser cualquier función decreciente con el tiempo t sobre un intervalo que comprende como límite inferior T(p,pol,t)).
La creación de una tarjeta S de píxeles representativa de la "frescura" de eventos de estos píxeles es ventajosa, ya que permite una representación continua y simple de conceptos discontinuos (es decir, los eventos). Esta tarjeta creada permite transformar la representación de los eventos en un campo simple de aprehensión.
Por consiguiente, su creación simplifica el manejo y la comparación de los eventos.
Una vez determinada la tarjeta de píxeles p ^ S(p,pol,t), es posible realizar un gráfico en 3D de la amplitud de S en función de las coordenadas p, por un tiempo t y para un valor de polaridad pol fijados (véase Figura 3c).
Por supuesto, S puede comprender N juegos de valores separados (es decir, (p, pol) ^ S(p,pol,t), uno para cada valor de polaridad pol posible (si existen N valores de polaridad posibles).
Se llama Sp el "contexto" del píxel p el conjunto de los valores de (q,pol) ^ S(q,pol,t) para los píxeles q en la proximidad del píxel p (es decir, situado a una distancia predeterminada del píxel p, ej. distancia en el sentido matemático, por ejemplo, en un cuadrado de lado 2R+1 centrado sobre el píxel p ). Con el fin de representar visualmente el contexto (que comprende varios valores de polaridad posibles), es posible yuxtaponer varias representaciones de q^ S(q,pol,t) para los diferentes valores de pol posibles.
Por ejemplo, la figura 3d puede ser representativa del "contexto" 350 del píxel p : la meseta 351 es, entonces, representativa de un valor de la función q ^ S(q,1,t) y la meseta 352 es representativa de un valor de la función q ^ S(q,-1,t) (por supuesto, las mesetas pueden tener cualesquiera formas, permitiendo la elección de la meseta simplemente facilitar la visualización). Asimismo, el punto 353 y 354 corresponde a un valor de la función S para un mismo píxel, pero para una polaridad diferente.
Es posible definir un contexto Sp para cualquier píxel p.
Con el fin de poder caracterizar los diferentes contextos posibles, es posible definir unos contextos denominados "tipo".
Estos contextos tipo pueden estar predeterminados o pueden determinarse sobre la base del algoritmo proporcionado por el documento D. Ballard y J. Jehee, "Dynamic coding of signed quantifies in cortical feedback circuits" Frontiers in Psychology, vol. 3 n.° 254, 20 l2 o utilizando otro método (método de los "k-means", ("k-medias") por ejemplo).
Para cada contexto Sp identificado para un píxel p, es posible asociar al píxel p un contexto tipo correspondiente al contexto tipo más cercano a Sp. La distancia entre el contexto Sp y un contexto tipo puede estar, por ejemplo, determinado calculando una suma de las distancias euclidianas entre los valores del contexto Sp y del contexto tipo para unos mismos píxeles p y unas mismas polaridades pol. La distancia puede ser, igualmente, función de la suma de las distancias euclidianas al cuadrado.
Si la distancia calculada está por encima de un cierto umbral predeterminado, es posible no asociar ningún contexto tipo al píxel p.
Estos contextos tipo {Ck} se definen sobre un campo espacial limitado como se ha aludido anteriormente para los contextos Sp (ej., sobre unos cuadrados de lado 2R + 1).
Es posible, igualmente, definir varios niveles jerárquicos de contextos tipo, definiendo cada nivel jerárquico m una pluralidad de contextos tipo {Ck_m}. El interés de unos niveles jerárquicos de este tipo se detalla respecto a la descripción de la figura 5.
A título de ilustración, la figura 6a ilustra un primer nivel jerárquico de contextos tipo posibles (es decir, tamaño 5x5 píxeles para una polaridad de 1 (zona de la izquierda de cada uno de los contextos tipo) o para una polaridad de -1 (zona de la derecha de cada uno de los contextos tipo)).
Por lo demás, en un instante t dado y después de identificación de los contextos tipo {Ck} (o, más generalmente, {Ck_m} para un nivel jerárquico m fijado) asociados a cada píxel p, es posible calcular un número de ocurrencias de cada uno de los contextos tipo para el conjunto de los píxeles p posibles.
Estos números de ocurrencias calculados permiten crear unas firmas / histogramas que caracterizan el flujo de eventos (en ordenada, el número de ocurrencias, en abscisa, el índice del contexto tipo identificado).
La caracterización del flujo de eventos que permite el reconocimiento de forma también puede utilizar otros métodos, tales como unas Echo-State Networks (Redes de Ecoestado) o unas Redes neuronales recurrentes.
A título de ilustración, la figura 4 ilustra la ocurrencia de eventos "ENCENDIDO" (puntos blancos) y de eventos "APAGADO" (puntos negros) cuando unas tarjetas de juego que incluyen un trébol, un diamante, un corazón y una pica son devueltas. Los histogramas respectivamente asociados a cada uno de flujos de eventos (a), (b), (c) y (d) se indican en pantalla, igualmente, por debajo de estos flujos de eventos: estos histogramas constituyen una especie de "firma" de las formas a reconocer en el flujo de eventos.
Es posible construir estos histogramas durante un número predeterminado de entrenamientos (es decir, generación de histogramas por la presentación de un flujo de eventos representativos de una misma forma): de este modo, es posible determinar un "histograma tipo" promediando los histogramas obtenidos durante el entrenamiento para una misma forma y/o un mismo movimiento.
Una vez determinados estos histogramas tipo, entonces, es posible determinar de nuevo un histograma actual a partir de un flujo de eventos y comparar este histograma con los histogramas tipo determinados durante la fase de entrenamiento.
El histograma tipo que tiene la distancia más cercana con el histograma actual puede permitir, entonces, identificar la forma correspondiente al flujo de eventos.
Además, es posible que se devuelvan los histogramas tipo k-más cercanos (eventualmente con una nota correspondiente a su proximidad).
La distancia entre dos histogramas 1 y 2 se puede calcular como una distancia matemática entre dos vectores que tienen como coordenadas los números de ocurrencias para cada uno de los contextos tipo:
d ( j f i ; j f 2) = p f i - J f 2||
Igualmente, es posible calcular una distancia estandarizada como sigue
Figure imgf000010_0001
con ta r je ta ^ i) el número de contextos tipo (es decir, barra vertical) del histograma .
La distancia de Bhattacharyya se puede utilizar, igualmente, como reemplazo de la distancia convencional:
Figure imgf000010_0002
con “^ 7 (i) el número de ocurrencias del i 0 contexto tipo del histograma .
Se puede utilizar, igualmente, cualquier otra distancia matemática.
Por consiguiente, es posible considerar que la forma correspondiente al histograma tipo asociado ha ocurrido en el flujo de eventos.
Gracias a este histograma tipo, un reconocimiento de forma es, de este modo, posible.
La figura 5 es un ejemplo de diagrama de flujo de un modo de realización posible de la invención.
A la recepción de un evento i de un flujo de evento 500 que proviene de un sensor asíncrono y asociado a tiempo ti, es posible determinar o actualizar (etapa 501) los valores de S(p,pol,t) para cada píxel p del sensor y para cada valor de pol, como se ha indicado esto anteriormente: esta etapa permite crear o actualizar la tarjeta de "frescura" del sensor. Para la etapa 501, la constante de tiempo utilizada para el decrecimiento de la función primitiva de S está anotada n. De este modo, podemos, por ejemplo, tener:
Figure imgf000010_0003
Una vez efectuada esta determinación, es posible, para cada píxel p del sensor, extraer un contexto Sp (etapa 502) de la tarjeta de frescura anteriormente calculada en la etapa 501: esta extracción permite aislar ciertos valores de S(q,pol,ti) para los píxeles q en la proximidad espacial Np del píxel p considerado y para un valor de polaridad pol dado. A título de ilustración, Np_i puede definir un cuadrado o un rectángulo centrado alrededor de la posición espacial p considerada. La proximidad espacial Np_i puede definirse, con el fin de que los contextos extraídos, de este modo, sean de dimensiones iguales a las dimensiones de los contextos tipo del primer nivel jerárquico 503 (Ck_1), con el fin de ser comparados con estos últimos.
A título de ilustración, la figura 6a ilustra un primer nivel jerárquico de contextos tipo posibles (es decir, tamaño 5x5 píxeles para una polaridad de 1 (zona de la izquierda de cada uno de los contextos tipo) o para una polaridad de -1 (zona de la derecha de cada uno de los contextos tipo)).
La comparación del contexto determinado Sp_1 y asociado al píxel p con los contextos tipo posibles {Gm } del primer nivel jerárquico permite identificar el contexto tipo más cercano a Sp_1 (etapa 504), como se ha indicado anteriormente. Esta identificación del contexto tipo más cercano Ck_iprox de entre los contextos tipo posibles {C _ } del primer nivel jerárquico permite generar, para el píxel p, un evento ev1 que indica el contexto tipo asociado a este píxel p (etapa 505):
t
ev1(p) =
CK-lprox
con t el tiempo actual.
Si no se identifica ningún contexto tipo más cercano (véase aquí arriba), no se genera ningún evento.
La generación de estos eventos evi(p) constituye, igualmente, un flujo asíncrono de eventos (506).
Por consiguiente, es posible procesar estos eventos 506 de manera similar a los eventos 500 que provienen del sensor.
De este modo, a la recepción de cada evento j del flujo de evento 506 y asociado a tiempo tj, es posible determinar o actualizar (etapa 511) los valores de una nueva tarjeta de "frescura" (es decir, tarjeta para el segundo nivel jerárquico) que tiene como valor (p,pol) ^ S2 (p,pol,tj) para cada píxel p del sensor y para cada valor de pol (sabiendo que para esta etapa 511 los valores de pol son representativos del contexto tipo identificado durante la etapa 504 para el primer nivel jerárquico, es decir, 4 contextos tipo posible en el marco de la figura 6a, teniendo cada contexto tipo dos polaridades), como se ha indicado esto anteriormente.
Para la etapa 511, la constante de tiempo utilizada para el decrecimiento de la función primitiva está anotada T2 con T2 > ti. De este modo, podemos, por ejemplo, tener:
t j - T ( p , t j )
S2(p,tj) = h.e T2
Una vez efectuada esta determinación, es posible, para cada píxel p del sensor, extraer un contexto Sp_2 (etapa 512) de la tarjeta de frescura anteriormente calculada en la etapa 511: esta extracción permite aislar ciertos valores de S2 (q,pol,t) para los píxeles q en la proximidad espacial Np_2 del píxel p considerado y para un valor de polaridad pol dado. A título de ilustración, Np_2 puede definir un cuadrado o un rectángulo centrado alrededor de la posición espacial p considerada. La proximidad espacial Np_2 puede definirse, con el fin de que los contextos extraídos, de este modo, sean de dimensiones iguales a las dimensiones de los contextos tipo del segundo nivel jerárquico 513 (Ck_2), con el fin de ser comparados con estos últimos.
A título de ilustración, la figura 6b ilustra un segundo nivel jerárquico de ocho contextos tipo posibles.
Si cada contexto tipo del primer nivel jerárquico posee dos zonas (una zona para los eventos de polaridad -1 (APAGADO) y una zona para los eventos de polaridad 1 (ENCENDIDO), véase Figura 6a), los contextos tipo del segundo nivel jerárquico poseen tantas zonas (es decir, 4) como contexto tipo en el nivel jerárquico inmediatamente inferior (es decir, el primer nivel jerárquico, en el presente documento, véase Figura 6b).
Por otra parte, los contextos tipo del segundo nivel jerárquico pueden ser tales que la proximidad espacial Np_2 defina una zona más grande que la definida por la proximidad espacial Np_i (ej., si Np_i está definida por un cuadrado de lado 2 R1 + 1, entonces, si Np_2 puede estar definida por un cuadrado de lado 2 R2+1 con R2 > Ri).
La comparación del contexto determinado Sp_2 y asociado al píxel p con los contextos tipo posibles {Ck_2} del primer nivel jerárquico permite identificar el contexto tipo más cercano a Sp_2 (etapa 514), como se ha indicado anteriormente.
Esta identificación del contexto tipo más cercano Ck_2prox de entre los contextos tipo posibles {Ck_2} del segundo nivel jerárquico permite generar, para el píxel p, un evento ev2 que indica el contexto tipo asociado a este píxel p (etapa 515):
t
ev2(p) = CK- 2 prox
con t el tiempo actual.
Si no se identifica ningún contexto tipo más cercano (véase aquí arriba), no se genera ningún evento.
La generación de estos eventos ev2 (p) constituye, igualmente, un flujo asíncrono de eventos (516).
Por consiguiente, es posible procesar estos eventos 516 de manera similar a los eventos 506: si existe un nivel jerárquico superior (prueba 517, salida OK, por ejemplo, el nivel jerárquico de nivel tres representado por la figura 6c (6(c)(1) y 6(c)(2))), es posible reiterar las etapas 511 a 515 tomando a la entrada los eventos generados por el nivel jerárquico inmediatamente inferior y utilizando los contextos tipo de este nivel jerárquico superior (véase 513).
Si no existe un nivel jerárquico superior, es posible contar el número de ocurrencias de los contextos tipo (513) identificados para todos los píxeles p y para un tiempo t fijado. Como se ha explicado más arriba, este conteo permite <TJ'
la determinación de un histograma representativo del número de ocurrencias de los contextos tipo identificados (etapa 521).
A partir de los histogramas determinados en la etapa 513, entonces, es posible calcular una distancia entre unos histogramas tipo (523) representativos de formas y/o de movimientos y, de este modo, determinar el histograma tipo más cercano (etapa 522).
Gracias a este histograma tipo determinado, es posible determinar la forma y/o el movimiento asociado a este (etapa 524) y, de este modo, devolver esta forma y/o este movimiento (525).
Por supuesto, si el diagrama de flujo de la figura 5 muestra la ejecución de las etapas 520 a 524 después del análisis de al menos un segundo nivel jerárquico de contextos tipo, estas etapas 520 a 524 pueden ejecutarse completamente después de las etapas 501 a 505 (es decir, con el análisis de un solo nivel jerárquico).
La figura 7 ilustra un dispositivo para la implementación de un modo de realización según la invención.
En este modo de realización, el dispositivo incluye un ordenador 700, que comprende una memoria 705 para almacenar unas instrucciones que permiten la implementación del procedimiento, los datos relativos al flujo de eventos recibido y unos datos temporales para realizar las diferentes etapas del procedimiento, tal como se ha descrito anteriormente.
El ordenador incluye, además, un circuito 704. Este circuito puede ser, por ejemplo:
- un procesador adecuado para interpretar unas instrucciones en forma de programa informático o
- una tarjeta electrónica cuyas etapas del procedimiento de la invención están descritas en el silicio o también - un chip electrónico programable como un chip FPGA (para "Field-Programmable Gate Array" en inglés, "Matriz de Puertas Programables de Campo").
Este ordenador incluye una interfaz de entrada 703 para la recepción de los eventos de los sensores y una interfaz de salida 706 para el suministro de las formas 707 identificadas en el flujo de evento. Por último, el ordenador puede incluir, para permitir una interacción fácil con un usuario, una pantalla 701 y un teclado 702. Por supuesto, el teclado es facultativo, en concreto, en el marco de un ordenador que tiene la forma de una tableta táctil, por ejemplo.
La figura 8a es un ejemplo de rendimiento de detección de formas (trébol, diamante, corazón y pica).
Cada línea (véase ordenada 801) corresponde a los datos relativos a una forma particular que se ha aprendido (es decir, histograma tipo, véase aquí arriba).
Cada columna (véase abscisa 802) corresponde a los datos relativos a una forma particular que deben reconocerse (es decir, histograma a reconocer).
La intersección de una línea y de una columna (correspondiente al conjunto 803, por ejemplo) permite visualizar la distancia del histograma tipo con el histograma a reconocer para varias presentaciones de la forma (en el presente documento, 9 presentaciones de la forma, estas presentaciones están separadas por un trazo vertical punteado): - la barra blanca (barra de la izquierda) corresponde a una distancia convencional;
- la barra gris (barra del medio) corresponde a una distancia estandarizada;
- la barra negra (barra de la derecha) corresponde a una distancia de Bhattacharyya.
Las tres distancias (respectivamente convencional, estandarizada y de Bhattacharyya) representadas, de este modo, poseen un rendimiento respectivo de un 94 %, un 100 % y un 97 % para estas formas.
La figura 8b es un ejemplo de rendimiento de detección de formas (cifras y letras mayúsculas).
Cada línea (véase ordenada 804) corresponde a los datos relativos a una forma particular que se ha aprendido (es decir, histograma tipo, véase aquí arriba).
Cada columna (véase abscisa 805) corresponde a los datos relativos a una forma particular que deben reconocerse (es decir, histograma a reconocer).
La intersección de una línea y de una columna (correspondiente al conjunto 806, por ejemplo) permite visualizar la distancia del histograma tipo con el histograma a reconocer para una presentación de la forma:
- la barra blanca (barra de la izquierda) corresponde a una distancia convencional;
- la barra gris (barra del medio) corresponde a una distancia estandarizada;
- la barra negra (barra de la derecha) corresponde a una distancia de Bhattacharyya.
Las tres distancias (respectivamente convencional, estandarizada y de Bhattacharyya) representadas, de este modo, poseen todas un rendimiento de un 100 % para estas formas.
La figura 8c es un ejemplo de rendimiento de detección de formas (caras).
Cada tabla (807, 808 y 809) presenta el número de ocurrencias de reconocimiento de una cara presentada (abscisa) con la ayuda de cara aprendida (ordenadas) para 19 presentaciones de esta cara.
La tabla 807 utiliza una distancia convencional para efectuar el reconocimiento de cara (tasa de reconocimiento: un 37 %).
La tabla 808 utiliza una distancia estandarizada para efectuar el reconocimiento de cara (tasa de reconocimiento: un 78 %).
La tabla 808 utiliza una distancia de Bhattacharyya para efectuar el reconocimiento de cara (tasa de reconocimiento: un 79 %).
Por otra parte, el esquema funcional presentado en la figura 5 es un ejemplo típico de un programa del que ciertas instrucciones pueden realizarse por parte del dispositivo descrito. A este respecto, la figura 5 puede corresponder al diagrama de flujo del algoritmo general de un programa informático en el sentido de la invención.
Por supuesto, la presente invención no se limita a las formas de realización descritas anteriormente a título de ejemplo; se extiende a otras variantes.
Otras realizaciones son posibles.
Por ejemplo, los contextos tipo de las figuras 6a a 6c pueden ser de cualesquiera dimensiones.

Claims (8)

REIVINDICACIONES
1. Procedimiento de reconocimiento de formas en una señal asíncrona producida por un sensor de luz, teniendo el sensor una matriz de píxeles dispuesta frente a una escena,
el procedimiento comprende:
/a/ la ejecución de un procedimiento de procesamiento de una señal asíncrona según:
- recibir del sensor de luz la señal asíncrona (500) que comprende, para cada píxel de la matriz, unos eventos sucesivos procedentes de dicho píxel;
- analizar (501) la señal asíncrona con la ayuda de perfiles de actividad a medida que se reciben eventos en la señal asíncrona;
/b/ a medida que se reciben los eventos, para cada píxel (p ) actual de dicho sensor:
/b1/ determinación (501) de un contexto (Sp) para dicho píxel actual, estando dicho contexto (Sp) definido como un conjunto de perfiles de actividad de píxeles situados a menos de una distancia predeterminada de dicho píxel (p) actual,
/b2/ determinación de un contexto tipo (Ck) de entre un conjunto de contextos tipo (504) predeterminados, teniendo el contexto tipo determinado, de entre el conjunto de los contextos tipo, una distancia al contexto determinado en la etapa /b1/ mínima,
/c/ determinación (521) de una firma función de un número de ocurrencias de determinación de los contextos tipo en la etapa /b2/;
/d/ determinación (524) de una forma por una comparación de dicha firma con una base de firma tipo;
en el que el perfil de actividad comprende al menos, para cada píxel (p) del sensor, un valor de actividad (S(p)) que decrece en función del tiempo (t) transcurrido desde un evento más reciente (310, 311, 312, 313, 314, 320, 321, 322) de entre los eventos sucesivos procedentes de dicho píxel.
2. Procedimiento de reconocimiento de formas en una señal asíncrona producida por un sensor de luz, teniendo el sensor una matriz de píxeles dispuesta frente a una escena, el procedimiento comprende, un modelo jerárquico de contextos tipo que están definidos, estando cada contexto tipo asociado a una pluralidad de nivel del modelo jerárquico: /a/ utilización de eventos de la señal asíncrona del sensor como eventos actuales y utilización de los contextos tipo del primer nivel del modelo jerárquico como contextos tipo actuales;
/b/ ejecución de un procedimiento de procesamiento de una señal asíncrona según:
- recibir los eventos actuales;
- analizar (501) la señal asíncrona con la ayuda de perfiles de actividad a medida que se reciben eventos actual; /c/ a medida que se reciben los eventos actuales, para cada píxel (p) actual de dicho sensor:
/c1/ determinación (501) de un contexto (Sp) para dicho píxel actual, estando dicho contexto (Sp) definido como un conjunto de perfiles de actividad utilizados en la etapa /b/ para unos píxeles situados a menos de una distancia predeterminada de dicho píxel (p) actual,
/c2/ determinación de un contexto tipo (Ck) de entre los contextos tipo actuales (504), teniendo el contexto tipo determinado, de entre el conjunto de los contextos tipo actuales, una distancia al contexto determinado en la etapa /c1/ mínima,
/c3/ generación de un evento función del contexto tipo identificado en la etapa /c2/;
/d/ si no se ha utilizado un nivel del modelo jerárquico:
- utilización de los eventos generados en la etapa /c3/ como eventos actuales,
- utilización de los contextos tipo de un nivel del modelo jerárquico todavía no utilizado como contextos tipo actuales;
- nueva ejecución de las etapas /b/ a /e/;
/e/ si se han utilizado todos los niveles del modelo jerárquico:
- determinación (521) de una firma función de un número de ocurrencias de determinación de los contextos tipo en la última ocurrencia de la etapa /c2/;
- determinación (524) de una forma por una comparación de dicha firma con una base de firmas tipo; en el que el perfil de actividad comprende al menos, para cada píxel (p) del sensor, un valor de actividad (S(p)) que decrece en función del tiempo (t) transcurrido desde un evento más reciente (310, 311, 312, 313, 314, 320, 321, 322) de entre los eventos sucesivos procedentes de dicho píxel.
3. Procedimiento según una de las reivindicaciones anteriores, en el que el perfil de actividad decrece exponencialmente en función del tiempo (t) transcurrido desde un evento más reciente (310, 311, 312, 313, 314, 320, 321, 322) de entre los eventos sucesivos procedentes de dicho píxel.
4. Procedimiento según una de las reivindicaciones anteriores, en el que el perfil de actividad está, además, en función del tiempo (t) transcurrido desde un evento anterior al evento más reciente (310, 311, 312, 313, 314, 320, 321, 322) de entre los eventos sucesivos procedentes de dicho píxel.
5. Procedimiento según una de las reivindicaciones anteriores, en el que la determinación de un contexto toma en cuenta, por separado, los eventos que tienen unas polaridades diferentes.
6. Procedimiento según la reivindicación 2, en el que la comparación de la etapa /e/ incluye el cálculo de una distancia de Bhattacharyya.
7. Procedimiento según la reivindicación 2, en el que la comparación de la etapa /e/ incluye el cálculo de una distancia estandarizada.
8. Producto-programa informático que incluye unas instrucciones para la implementación del procedimiento según una de las reivindicaciones 1 a 7, cuando este programa es ejecutado por un procesador.
ES16715016T 2015-03-16 2016-03-15 Procedimiento de procesamiento de una señal asíncrona Active ES2764484T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1552155A FR3033914A1 (fr) 2015-03-16 2015-03-16 Procede de traitement d'un signal asynchrone
PCT/FR2016/050574 WO2016146937A1 (fr) 2015-03-16 2016-03-15 Procédé de traitement d'un signal asynchrone

Publications (1)

Publication Number Publication Date
ES2764484T3 true ES2764484T3 (es) 2020-06-03

Family

ID=54140531

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16715016T Active ES2764484T3 (es) 2015-03-16 2016-03-15 Procedimiento de procesamiento de una señal asíncrona

Country Status (9)

Country Link
US (1) US10440296B2 (es)
EP (1) EP3271869B1 (es)
JP (1) JP6833708B2 (es)
KR (1) KR20180020123A (es)
CN (1) CN107873097A (es)
ES (1) ES2764484T3 (es)
FR (1) FR3033914A1 (es)
HK (1) HK1248357A1 (es)
WO (1) WO2016146937A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3120897A1 (en) * 2015-07-22 2017-01-25 Université Pierre et Marie Curie (Paris 6) Method for downsampling a signal outputted by an asynchronous sensor
JP7209622B2 (ja) * 2016-09-09 2023-01-20 サントル ナショナル ドゥ ラ ルシェルシュ シアンティフィック 複数の信号におけるパターン認識のための方法
CN108961318B (zh) * 2018-05-04 2020-05-15 上海芯仑光电科技有限公司 一种数据处理方法及计算设备
CN108764078B (zh) * 2018-05-15 2019-08-02 上海芯仑光电科技有限公司 一种事件数据流的处理方法及计算设备
US11416759B2 (en) * 2018-05-24 2022-08-16 Samsung Electronics Co., Ltd. Event-based sensor that filters for flicker
WO2020067410A1 (ja) * 2018-09-28 2020-04-02 ソニーセミコンダクタソリューションズ株式会社 データ処理装置、データ処理方法、及び、プログラム
EP3690736A1 (en) * 2019-01-30 2020-08-05 Prophesee Method of processing information from an event-based sensor
EP3694202A1 (en) * 2019-02-11 2020-08-12 Prophesee Method of processing a series of events received asynchronously from an array of pixels of an event-based light sensor
JP7120180B2 (ja) * 2019-08-07 2022-08-17 トヨタ自動車株式会社 イメージセンサ
WO2022254789A1 (ja) * 2021-05-31 2022-12-08 ソニーグループ株式会社 受信装置および送受信システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272723B (zh) * 2011-12-19 2018-08-21 苏黎世大学 特别用于将时变图像数据的取样亮度感测和异步检测相结合的光电阵列
FR2985065B1 (fr) * 2011-12-21 2014-01-10 Univ Paris Curie Procede d'estimation de flot optique a partir d'un capteur asynchrone de lumiere
EP2677500B1 (en) * 2012-06-19 2021-06-23 Samsung Electronics Co., Ltd. Event-based image processing apparatus and method

Also Published As

Publication number Publication date
JP6833708B2 (ja) 2021-02-24
EP3271869A1 (fr) 2018-01-24
US10440296B2 (en) 2019-10-08
KR20180020123A (ko) 2018-02-27
EP3271869B1 (fr) 2019-10-16
US20180063449A1 (en) 2018-03-01
WO2016146937A1 (fr) 2016-09-22
JP2018509847A (ja) 2018-04-05
CN107873097A (zh) 2018-04-03
FR3033914A1 (fr) 2016-09-23
HK1248357A1 (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
ES2764484T3 (es) Procedimiento de procesamiento de una señal asíncrona
US12347145B2 (en) Determining the relative locations of multiple motion-tracking devices
JP7399210B2 (ja) ヘッドマウントディスプレイシステムの装着者の眼の眼画像を処理するための方法
US11488320B2 (en) Pose estimation method, pose estimation apparatus, and training method for pose estimation
KR102357680B1 (ko) 이벤트에 기반하여 객체의 이동을 감지하는 장치 및 방법
CN110546644B (zh) 识别装置、识别方法以及记录介质
KR20210015695A (ko) 포즈 추정 방법, 포즈 추정 장치, 및 포즈 추정을 위한 트레이닝 방법
JP2017059945A (ja) 画像解析装置及び画像解析方法
CN105765608A (zh) 用于根据闪耀点进行眼睛检测的方法和设备
JP2018181273A (ja) 画像処理装置及びその方法、プログラム
Hu et al. Temporal head pose estimation from point cloud in naturalistic driving conditions
CN112492195A (zh) 光学传感装置及方法
JP6452235B2 (ja) 顔検出方法、顔検出装置、及び顔検出プログラム
Planinc et al. Computer vision for active and assisted living
Athavale et al. One eye is all you need: Lightweight ensembles for gaze estimation with single encoders
Chang et al. Eye on you: Fusing gesture data from depth camera and inertial sensors for person identification
Raghavan et al. Infant movement detection and constant monitoring using wireless sensors
JP6652263B2 (ja) 口領域検出装置及び口領域検出方法
US20220360847A1 (en) Systems and methods for characterizing joint attention during real world interaction
WO2022190206A1 (ja) 骨格認識方法、骨格認識プログラムおよび体操採点支援システム
Solbach et al. Blocks world revisited: The effect of self-occlusion on classification by convolutional neural networks
Abdullah et al. Real-time Face Tracking for Service-Robot.
Yang et al. Visual-GPS: ego-downward and ambient video based person location association
Santos et al. Human robot interaction studies on laban human movement analysis and dynamic background segmentation
Dinesh et al. A survey on human motion capturing (HMC) system based on distributed computing technology with flexible architecture