ES2205728T3

ES2205728T3 - Procedimiento de deteccion de la profundidad relativa entre dos objetos de una escena a partir de un par de imagenes resultantes de tomas de vistas diferentes.

Info

Publication number: ES2205728T3
Application number: ES99401252T
Authority: ES
Inventors: Olivier Avaro; Lothar Bergen; Fernand Meyer
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1998-05-27
Filing date: 1999-05-25
Publication date: 2004-05-01
Anticipated expiration: 2019-05-25
Also published as: JP4880807B2; DE69909892T2; FR2779257B1; FR2779257A1; EP0961227B1; JP2000048207A; EP0961227A1; US6262409B1; DE69909892D1

Abstract

LA PRESENTE INVENCION SE REFIERE A UN PROCEDIMIENTO DE DETECCION DE LA PROFUNDIDAD RELATIVA DE DOS REGIONES VECINAS EN MOVIMIENTO RELATIVO UNA CON RELACION A LA OTRA EN DOS IMAGENES PROCEDENTES DE TOMAS DE VISTAS DIFERENTES DE UNA ESCENA PARA CONOCER LA COMPOSICION DE LA ESCENA. SEGUN ESTA INVENCION, EL PROCEDIMIENTO CONSISTE EN REALIZAR: - UNA SEGMENTACION ESPACIAL DE UNA DE LAS IMAGENES, QUE SE LLAMA IMAGEN DE REFERENCIA, - UNA ESTIMACION LOCAL DEL MOVIMIENTO ENTRE LAS DOS IMAGENES, CUYO CAMPO DE VECTORES RESULTANTE SE LLAMA MOVIMIENTO LOCAL, - UNA DETERMINACION DE LOS ERRORES DE ESTIMACION DE MOVIMIENTO A LO LARGO DE LAS FRONTERAS DEL MOVIMIENTO, - UN ANALISIS DE LOCALIZACION DE LOS ERRORES DE ESTIMACION DE MOVIMIENTO A LO LARGO DE LAS FRONTERAS DEL MOVIMIENTO PARA CONCLUIR QUE UNA REGION A SE ENCUENTRA DELANTE DE UNA REGION B CUANDO EL ERROR DE ESTIMACION DEL MOVIMIENTO A LO LARGO DE LA FRONTERA ESTA PRINCIPALMENTE LOCALIZADO POR EL LADO B DE ESTA FRONTERA.

Description

Procedimiento de detección de la profundidad relativa entre dos objetos de una escena a partir de un par de imágenes resultantes de tomas de vistas diferentes.

La invención se refiere a un procedimiento de detección de la profundidad relativa entre objetos en una imagen a partir de un par de imágenes.

El contexto general de la invención es la estimación de las profundidades relativas de objetos vistos en imágenes resultantes de tomas de vistas diferentes, tanto si se trata de imágenes tomadas sucesivamente en el tiempo como si se trata de imágenes tomadas bajo distintos ángulos.

Este procedimiento queda enmarcado en las numerosas aplicaciones que requieren un análisis semántico de secuencias de imágenes. Particularmente en el campo de la comunicación por medios múltiples, la creciente cantidad de datos audiovisuales crea la necesidad de nuevas funcionalidades tales como la interactividad y la integración de objetos de naturaleza distinta. El nuevo estándar MPEG-4 permite representar una escena como una composición de objetos, pero no especifica de qué manera se hace el análisis de la escena.

Las técnicas actuales pertinentes dentro del marco de esta invención estudian las zonas de ocultaciones que aparecen en una secuencia de imágenes. En el párrafo siguiente se describen estas técnicas en un ejemplo de ocultación.

La figura 1 muestra un ejemplo de situación que da lugar a la ocultación. Un captador, representado aquí por un ojo, ve dos objetos A y B: un objeto B que se mueve hacia la izquierda cubre un segundo objeto A que se mueve hacia la derecha.

Observando el movimiento, es decir el desplazamiento de los objetos unos con respecto a otros, uno se da cuenta de que en un determinado número de situaciones un objeto pasa por delante de otro.

La profundidad relativa de un objeto con respecto a otro es la profundidad con respecto a la visión que de los mismos puede tener un observador siguiendo la línea que va desde el ojo del observador y atraviesa los objetos de la escena.

Según este eje, hay objetos que se encuentran en planos distintos.

De hecho, no se busca aquí evaluar la propia profundidad, sino saber qué objeto está delante con respecto a otro objeto de la escena. Esta información es necesaria para un número determinado de aplicaciones, y en particular para la codificación cuando se desea hacer predicción de imágenes. Dicha información permite, por ejemplo, la reconstrucción del fondo de una imagen.

En efecto, al conocer la profundidad relativa, se puede definir el segundo plano de una imagen, y eventualmente a) neutralizar este segundo plano o b) hacerlo borroso o c) sustituirlo por otro o d) comprimir la información con muy pocos bits y concentrar lo esencial de la información en la parte que está delante.

La detección de la profundidad relativa entre objetos tiene por consiguiente la finalidad de aportar una mejor comprensión de la escena observada.

Observando la manera en como los objetos se mueven y constatando que los mismos se encuentran detrás de otros objetos que no se mueven o tienen un movimiento que les es propio, puede así definirse la organización de la escena sin introducir conocimiento semántico, es decir sin ser capaces de reconocer el tipo de objeto que se encuentra en la escena.

Se sabe simplemente que se trata de un conjunto de componentes homogéneos en cuanto a color y textura, es decir de zonas homogéneas que se procede a vincular unas a otras porque tienen el mismo movimiento. Las zonas homogéneas son reunidas en entidades que tienen movimientos propios.

Observando las fronteras de movimiento entre las distintas entidades, puede deducirse de ello que la entidad E1 se encuentra localmente delante de la entidad E2, que por su parte se encuentra delante de la entidad E3.

Integrando estas informaciones en el tiempo a través de las imágenes sucesivamente, puede sacarse una estructura de profundidad relativa.

Así pues, para estudiar la profundidad relativa de las regiones se tiene necesidad de detectar sus fronteras de movimiento. En el estado de la técnica, estas fronteras son obtenidas gracias a una segmentación de movimiento.

Se recuerda que la segmentación de imagen es una técnica conocida que consiste en transformar un conjunto de pixels en una imagen mosaico donde cada partícula conexa del mosaico tiene una homogeneidad de color o de textura (es decir de luminancia) o de movimiento o una combinación de varios criterios. En el caso de la segmentación de movimiento, cada mosaico tiene una homogeneidad de movimiento.

Ahora bien, para estudiar el desplazamiento de una frontera de movimiento es necesario tener en cuenta tres imágenes de la escena en calidad de información de entrada.

En efecto, las técnicas existentes procuran detectar las fronteras de movimiento, y después comparan el movimiento de estas fronteras con el movimiento de las regiones adyacentes para concluir. Ahora bien, para estimar el movimiento es necesario analizar dos imágenes sucesivas, y para estimar el movimiento de la frontera son necesarias dos posiciones sucesivas de la frontera, o sea 3 imágenes a analizar.

Se detalla a continuación esta técnica haciendo referencia a las figuras 2A, 2B, 2C.

Analizando dos imágenes consecutivas I1, I2 de una escena, puede estimarse el movimiento de la escena. Este movimiento puede servir para segmentar la escena en objetos A, B cuyos movimientos son independientes. La figura 2A muestra el movimiento de los dos objetos A, B, así como la segmentación.

Esta segmentación del movimiento no contiene informaciones suficientes para deducir la profundidad relativa de los dos objetos. El análisis del movimiento de un segundo par de imágenes I_{2} e I_{3} proporciona la información que falta: las dos segmentaciones permiten estimar el movimiento del contorno (o frontera) entre los dos objetos.

La comparación del movimiento del contorno (frontera) con el movimiento de la textura (luminancia) de los dos lados permite deducir la profundidad relativa: la región que tiene el mismo movimiento que el contorno corresponde al objeto ocultante. En este ejemplo las dos segmentaciones consecutivas del movimiento, figura 2A y figura 2B, indican que el contorno se mueve hacia la izquierda, figura 2C. Como que este movimiento es idéntico al movimiento de la región derecha, se saca la conclusión de que el objeto de la derecha oculta al objeto de la izquierda.

En la literatura se encuentran distintos estudios que sacan provecho de este hecho. Thompson, Mutch y Berzins (ref. D14 más adelante) utilizan el apareamiento de puntos característicos para obtener un campo de velocidad dispersa que explica el movimiento entre dos imágenes. A continuación detectan discontinuidades en este campo de velocidad. El análisis de dos campos de velocidad (calculados a partir de dos pares de imágenes) les permite deducir la profundidad relativa.

Un segundo enfoque está descrito por Darrell y Fleet (ref. D12 más adelante). Este enfoque segmenta la escena en planos con un movimiento coherente utilizando exclusivamente la información de movimiento. La evolución de estos planos permite determinar el movimiento de los contornos, que a su vez permite la estimación de la profundidad relativa.

En cuanto a las técnicas descritas y corrientemente utilizadas para el tratamiento de imágenes, es también posible referirse al estado de la técnica que constituyen los documentos D1-D8 referenciados a continuación:

D1: S. Beucher. Segmentation d'Images et Morphologie Mathématique, Phd. thesis, E.N.S. des Mines de Paris, 1990.

D2: J. Barron, D. Fleet and S. Beauchemin. Performance of optical flow techniques. International Journal of Computer Vision, 12(1): 43-77, 1994.

D3: K. M. Mutch and W. B. Thompson. Analysis of accretion and deletion at boundaries in dynamic scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 7: 133-138, 1985.

D4: E. Decencière Ferrandière, C. De Fouquet and F. Meyer. Applications of kriging to image sequence coding. Accepted for publication in signal Processing: Image Communication, 1997.

D5: F. Hampel, E. Ronchetti, P. Rouesseeuw, and W. Stahel. Robust Statistics - The approach Based on Influence Function. Wiley, 1986.

D6: P. Huber. Robust Statistics. John Wiley, New York, 1981.

D7: Peter Meer, Doron Mintz, Dong Yoon Kim, and Azriel Rosenfeld. Robust regression methods for computer vision. A review. International Journal of Computer Vision, 6(1): 59-70, abril 1991.

D8: Nikhil R. Pal and Sankar K. Pal. A review on image segmentation techniques. Pattern Recognition, 26(9): 1277-1294, 1993.

D9: J. Y. A. Wang and E. H. Adelson. Representing moving images with layers. The IEEE Transactions on Image Processing Special Issue: Image Sequence compression, 3(5): 625-638, septiembre 1994.

D10: G. Wolberg. Digital Image Warping. IEEE Computer Press, 1990.

D11: J. Cichosz and F. Meyer. Morphological multiscale image segmentation. En Work-shop on Image Analysis for Multimedia Interactive Services (WIAMIS'97), páginas 161-166, Louvain-la-Neuve (Bélgica), junio 1997.

D12: Trevor Darrel and David Fleet. Second-order method for occlusion relationships in motion layers. Technical Report 314, MIT Media Lab Vismod, 1995.

D13: B. K. P. Horn and B. G. Schunck. Determining optical flow. Artificial Intelligence, 17: 185-203, 1981.

D14: W. B. Thompson, K. M. Mutch, and V. A. Berzins. Dynamic occlusion analysis in optical flow fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 7: 374-383, 1985.

D15: Zhengyou Zhang. Parameter estimation techniques: A tutorial with application to conic fitting. Technical Report 2676, Institut National de Recherche en Informatique et en Automatique, Sophia-Antipolis Cedex, Francia, octubre 1995.

D16: P. Chauvet. Aide Mémoire de géostatique linéaire. Ecole des Mines de Paris, 1993.

D17: Michael J. Black and Allan D. Jepson. Estimating optical flow in segmented images using variable-order parametric models with local deformations. IEEE Trans. Pattern Analysis and Machine Intelligence, 18(10): 972-986, octubre 1996.

D18: L. Bergen and F. Meyer. Segmentation du mouvement des objets dans une scène. En Coresa 97, 1997.

Los inconvenientes de las técnicas presentadas en el párrafo precedente (documentos D12, D14) son los siguientes:

- Estas técnicas están enteramente basadas en el movimiento, lo cual conlleva una localización de las fronteras de movimiento poco precisa.

- Estas técnicas utilizan tres imágenes (dos segmentaciones del movimiento) para determinar el movimiento de los contornos; propagándose los problemas de falta de precisión en la localización de las fronteras a la estimación del movimiento de los contornos y por consiguiente a la detección de la profundidad. Además, esto conlleva un retardo suplementario en el análisis.

- Además, el campo de aplicación de estas técnicas está limitado a los casos en los que el movimiento es relativamente importante.

La finalidad de la invención es la detección de la profundidad relativa entre objetos a partir de un par de imágenes que no presente los inconvenientes de las técnicas anteriores.

A tal efecto, la invención tiene por objeto un procedimiento que, a partir de un par de imágenes resultantes de tomas de vistas diferentes de una misma escena, es capaz de detectar las fronteras de movimiento de manera muy precisa y de precisar para cada frontera la profundidad relativa de cada región adyacente.

En todo lo expuesto a continuación, se entenderá por movimiento de un punto el desplazamiento de este punto cuando se pasa de una imagen a otra, siendo estas imágenes resultantes de tomas de vistas diferentes de una escena, tanto si estas tomas de vistas son sucesivas en el tiempo como si son simultáneas pero con un ángulo diferente, por ejemplo.

Así pues, la invención tiene más en particular por objeto un procedimiento de detección de la profundidad relativa de dos regiones cercanas en movimiento relativo una con respecto a la otra en dos imágenes resultantes de tomas de vistas diferentes de una escena; estando dicho procedimiento principalmente caracterizado por el hecho de que el mismo comprende las etapas siguientes:

- una segmentación espacial de una de las imágenes, llamada imagen de referencia,

- una estimación local del movimiento entre las dos imágenes, cuyo campo de vectores resultante es llamado movimiento local,

- una determinación de los errores de estimación de movimiento a lo largo de las fronteras de movimiento, y

- un análisis de la localización de los errores de estimación de movimiento a lo largo de las fronteras de movimiento para deducir que una región A se encuentra delante de una región B cuando el error de estimación de movimiento a lo largo de la frontera se encuentra principalmente localizado en el lado B de esta frontera.

Según otra característica, después de las dos primeras etapas del procedimiento se procederá a una etapa de fusión de las regiones para obtener regiones de movimiento homogéneo.

Preferiblemente, la segmentación espacial será realizada según un método morfológico, y más en particular según el método basado en la línea divisoria de aguas.

Otras características de la presente invención se refieren a distintas formas de realización para la determinación de los errores de estimación de movimiento a lo largo de las fronteras de movimiento.

Otras ventajas y particularidades de la invención quedarán de manifiesto a la luz de la descripción que se hace y se da a título de ejemplo no limitativo y haciendo referencia a los dibujos, en los cuales:

- la figura 1 ilustra esquemáticamente el fenómeno de ocultación,

- las figuras 2A a 2C ilustran esquemáticamente las etapas de tratamiento de imágenes según la técnica anterior,

- las figuras 3A a 3C ilustran esquemáticamente las etapas de tratamiento de imágenes según el procedimiento según la invención,

- la figura 4 representa imágenes esquemáticas resultantes de las distintas etapas de tratamiento según el procedimiento,

- las figuras 5A y 5B ilustran distintas variantes de realización para evaluar el error de estimación de movimiento a lo largo de las fronteras de movimiento.

El procedimiento según la invención puede ser puesto en práctica por medio de un programa cargado en un microordenador apto para poner en práctica las distintas etapas que serán descritas a continuación, o por un dispositivo electrónico concebido con esta finalidad.

El microordenador (no representado) podrá estar conectado a una o dos cámaras que permitan obtener las dos tomas de vistas diferentes de la escena U, W que son utilizadas en calidad de datos de entrada en la cadena de tratamiento subsiguiente y se encuentran en forma de matrices de pixels tras numerización.

Se entiende que en lugar de ello podría disponerse de material audiovisual que dispusiese de una unidad de tratamiento y de imágenes pregrabadas.

Para mejor comprender lo expuesto a continuación, hágase referencia a las figuras 3A-3C y 4 y 5A, 5B.

La figura 3A ilustra la cadena de tratamientos.

Esta cadena comprende dos conjuntos de tratamiento paralelos, de los cuales uno I permite realizar una segmentación espacial de una de las imágenes, como por ejemplo la imagen U, que será a continuación considerada como la imagen de referencia, y el otro II permite obtener una estimación de movimiento en cada pixel. Se trata de una estimación local del movimiento entre las dos imágenes U, W cuyo campo de vectores resultante es llamado movimiento local (figura 4).

A la salida de estos tratamientos se obtiene una división P de la imagen a partir de la segmentación espacial y un campo V de vectores de movimiento que explica el movimiento de cada punto de imagen (pixel) a partir de la estimación de movimiento.

En cada región de la segmentación espacial es ajustado un modelo de movimiento que explica lo mejor posible el movimiento global de la región, siendo esto detallado a continuación.

Se realiza a continuación una etapa de fusión de las regiones que han sido obtenidas mediante la segmentación espacial y tienen movimientos similares (etapa II bis). Esto permite hacer que aparezcan las fronteras de movimiento.

Como que la estimación local de movimiento produce una estimación errónea a lo largo de la frontera de movimiento, se procura a continuación determinar el error de estimación para localizarlo y conocer así el lado de la región ocultada puesto que este error no aparece más que en el lado de la región ocultada (etapa III).

El conocimiento de la región ocultada conduce a la detección de la profundidad relativa de dos regiones en movimiento una con respecto a otra (etapa IV).

Se tiene necesidad de un criterio para determinar (o calcular) el error. Un primer criterio elegido será llamado "fidelidad de compensación", y un segundo criterio elegido será llamado "disparidad de movimiento".

Para el criterio llamado "fidelidad de compensación", se procede a una compensación de movimiento de la segunda imagen (de la textura), según el campo de vectores V, a fin de construir una estimación de la imagen de referencia, y se estudia la repartición del error de compensación directamente. Se podrá entonces proceder como en las siguientes formas de realización (a, b, c) para descubrir en qué banda BFg o BFd es más importante el error.

Para el criterio llamado "disparidad de movimiento", se ajusta un modelo de movimiento en el interior de cada región de la división P a partir del campo V de vectores de movimiento.

A lo largo de cada frontera de movimiento se constituye una banda de observación BF (o según otra variante dos bandas BFg y BFd a cada lado de la frontera).

a) - Se compara el modelo regional con el movimiento local, o bien,

b) - Se estima un modelo de movimiento a partir del campo V en la banda BF y se compara este movimiento con el de las regiones adyacentes. La región adyacente que tiene el movimiento más parecido es la que se encuentra delante de la otra, o bien,

c) - Se estima un modelo de movimiento a partir del campo V en las dos bandas BFg y BFd. La región X para la cual la estimación en la banda BFx y la estimación global en la región X son más acordes es la que se encuentra delante de la otra.

Se detalla a continuación cada etapa del procedimiento haciendo referencia a las figuras 3A-3C:

I. La segmentación espacial permite definir la composición de la imagen por regiones homogéneas en cuanto a color, textura y nivel de gris, independientemente de toda consideración de movimiento. No es necesario para ello tener dos imágenes de entrada como en el caso de la segmentación de movimiento.

Para obviar los problemas de ruido y para tener suficiente información, se toma en consideración el movimiento en el interior de una ventana. Así, el vector de movimiento afecto al centro de la ventana no representa el movimiento en este punto, sino el movimiento dominante en el interior de la ventana, lo cual provoca una considerable imprecisión, en particular a lo largo de las fronteras de movimiento.

Las fronteras que se obtienen al segmentar el movimiento por los métodos de la técnica anterior son menos precisas que las fronteras que son obtenidas al segmentar la luminancia o el color. Esto es debido al hecho de que el campo de velocidad debe ser estimado en todos los puntos, mientras que los niveles de gris o el color pueden ser vistos directamente en cada punto sin previa estimación.

La técnica de segmentación espacial permite obtener regiones homogéneas en cuanto a la textura, por ejemplo, y sus fronteras de manera muy precisa a partir de una imagen U.

El método utilizado será preferiblemente un método de segmentación morfológica, y más en particular un método basado en el gradiente de imagen y la línea divisoria de aguas (watershed transform).

II. La estimación de movimiento es realizada por medio de una segunda imagen W y de la primera imagen U.

Este método permite obtener un campo de vectores de movimiento V que explica el movimiento de cada punto de la imagen. Se utilizará preferentemente un método diferencial clásico en sí para realizar esta estimación de movimiento. Las dos imágenes son prefiltradas a fin de preparar la diferenciación y de mejorar la relación señal/ruido.

Como que la información de movimiento observable en cada pixel es incompleta, pues solamente está disponible la componente de la velocidad normal a los contornos de isoluminancia, se integra esta información incompleta de cada pixel a través del ajuste de un modelo de movimiento en cada región. Puede elegirse una representación en forma polinomial. Puede igualmente elegirse una representación en forma nodal. La elección del número de nodos depende de la complejidad de la escena.

Un número de nodos fijos es elegido en función de la complejidad del movimiento. La modelización se hace asignando a cada uno de estos nodos el movimiento que por interpolación hace que sea lo mejor posible el movimiento observado en cada pixel. La técnica de interpolación que se utiliza es una técnica clásica que se llama krigeaje (D4, D16). La velocidad en cada punto de una región es una función lineal de las velocidades en los nodos fijos. Se sabe que un nodo produce una traslación simple, tres nodos producen un modelo afinado, y más nodos dan modelos cada vez más complejos.

La fusión de regiones (etapas II bis) se hace de manera iterativa: En cada iteración son candidatos a la fusión todos los pares de regiones cercanas. En lugar de intentar comparar el movimiento en el espacio de los parámetros, se calcula un nuevo juego de parámetros para cada uno de los pares, y se evalúa la calidad de la modelización. Esta modelización se hace por resolución de un sistema lineal sobredeterminado que es ponderado mediante los pesos resultantes de la estimación robusta inicial.

Las distintas etapas de la fusión de regiones son las siguientes:

1. se fija un criterio de similitud de movimiento basado en la calidad de la modelización para todos los pares de regiones (por ejemplo un valor máximo que no debe ser sobrepasado),

2. fusión del par que tiene el movimiento más similar,

3. actualización de los criterios de similitud para todas las regiones afectadas por la fusión (esto son todos los pares de regiones que contienen una de las regiones fusionadas),

4. iteración de partir de 2.

La fusión se detiene cuando el criterio de similitud desciende hasta llegar a ser inferior a un valor predefinido.

La etapa siguiente III del procedimiento consiste a continuación, como se ha dicho anteriormente, en determinar (o evaluar) el error de estimación de movimiento.

Se proponen a continuación varias formas de realización para realizar esta determinación de error de estimación de movimiento. Estas diferentes formas de realización aparecen en las figuras 3B y 3C.

Una primera forma de realización se fundamenta en la utilización de un método de compensación de movimiento, y otras dos se fundamentan en la disparidad de movimiento.

La primera forma de realización III.1 pone en práctica el criterio llamado "fidelidad de compensación". Para ello, el error de estimación de movimiento es obtenido comparando la imagen de referencia P, es decir la imagen obtenida mediante la segmentación espacial, y la imagen obtenida por compensación del movimiento a fin de reconstruir una estimación de la imagen de referencia a partir de la segunda imagen.

Las técnicas de compensación de movimiento son técnicas bien conocidas, pudiendo hacerse referencia, por ejemplo, al libro que lleva la referencia D10.

Según una primera variante de ejecución, el movimiento es el movimiento local (III-1.1(a)) en la figura 3B.

Según otra variante de ejecución, el movimiento es resultante de un modelo llamado modelo local ajustado en una banda en el interior de la región localizada a lo largo de la frontera entre A y B (III.1.2 b y c). En b se consideran dos bandas BFg, BFd, y en c se considera una sola banda BF.

Podrá tomarse un solo modelo local estimado en el interior de una banda que se extiende a uno y otro lado de la frontera (III-1.2c).

El modelo utilizado podrá ser por ejemplo un modelo polinomial. Podrá igualmente tratarse de un modelo nodal tal como los modelos descritos en la publicación D4.

Según una segunda forma de realización III.2 que pone en práctica el criterio de disparidad de movimiento, el error de estimación de movimiento es calculado comparando el movimiento resultante de un modelo llamado modelo regional que representa el movimiento de la región y el movimiento local (véase la figura 3B).

El cálculo del error se hará de manera preferente por medio de una técnica de estimación robusta.

La utilización de una técnica de estimación robusta (estimadores M) es conocida, y una técnica de este tipo está descrita en los documentos D5, D6 y D7, por ejemplo.

Se recuerda sin embargo que las técnicas de estimación robusta aplicadas a la estimación de parámetros de un modelo de movimiento permiten detectar los vectores de movimiento aberrantes y eliminar o reducir su influencia en la estimación: Se obtienen parámetros que corresponden a la mayoría de los vectores de velocidad observados. Las técnicas robustas proporcionan igualmente el error de modelización en cada punto de soporte del modelo.

Una tercera forma de realización III.3 que pone en práctica el criterio llamado "disparidad de movimiento" consiste en determinar el error de estimación de movimiento en cada región comparando las estimaciones de movimiento dadas por dos modelos distintos:

- un modelo que representa el movimiento de la región, llamado modelo regional, y

- un modelo que representa el movimiento de una banda en el interior de la región localizada a lo largo de la frontera entre A y B, llamado modelo local.

El modelo regional podrá ser por ejemplo un modelo polinomial o nodal. Se dan ejemplos de tales modelos por ejemplo respectivamente en la publicación D17 y en la publicación D4.

El modelo local podrá ser por ejemplo polinomial o nodal. De la misma manera, estos modelos podrán ser por ejemplo tales como los que están publicados respectivamente en la publicación D17 y en el documento D4.

Según una variante de ejecución, se estima un solo modelo local en el interior de una banda que discurre a uno y otro lado de la frontera.

Según las dos últimas formas de realización que han sido descritas, el movimiento de la región podría ser calculado por ajuste de un modelo ponderando las medidas en función de su distancia a la frontera entre A y B (III.2.1.1 o III.3.1.1).

Una posibilidad consiste en excluir las medidas que vienen de una banda a lo largo de la frontera (lo cual corresponde a asignar un peso cero a estas medidas durante la modelización).

Según otra variante de ejecución relativa a estas dos formas de realización, el movimiento de la región puede ser calculado por ajuste de un modelo utilizando una técnica de estimación robusta (III.2.2.1 o III.3.1.2).

La puesta en práctica de una estimación robusta está al alcance del experto en la materia, siendo estas técnicas conocidas. Es posible por otra parte referirse a los documentos D5, D6 y D7, que describen tales técnicas.

Dentro del marco de la forma de realización que utiliza dos modelos, el error de estimación de movimiento es calculado comparando el movimiento resultante del modelo regional y del modelo local en cada punto del soporte común según una primera variante de ejecución. (III.2.2.1 o II.3.2.1 A).

Este error de estimación de movimiento puede ser también calculado comparando los parámetros del modelo regional y del modelo local (III.3.2.1.B). La comparación de dos modelos en el espacio de los parámetros es en sí conocida y puede ser fácilmente implementada por un experto en la materia dentro del marco de esta variante de ejecución. Es posible por otra parte referirse al documento D9, que describe una comparación de este tipo.

Según otra variante de ejecución, el error de estimación de movimiento es calculado comparando el modelo regional y el modelo local por medio de una modelización conjunta (III.2.1.C). Una modelización de este tipo es en sí conocida. Es posible remitirse al artículo D18 anteriormente citado.

El error del lado de la región ocultada permite detectar la profundidad relativa; etapa IV.

Las medidas aberrantes que son debidas a la ocultación están situadas en torno a la frontera de movimiento.

Se hace la suma de todos los errores en bandas a uno y otro lado de las fronteras de movimiento. Se fijan dos umbrales t_{bajo} y t_{alto} para tener un claro orden de profundidad. Existe un orden claro si la suma de los errores de un lado (A) se mantiene por debajo de t_{bajo} y si la suma de los errores del otro lado (B) está por encima de t_{alto}. En todos los otros casos, nada puede decirse sobre la profundidad. El umbral bajo admite un determinado error del lado ocultante, y el umbral alto indica el error mínimo necesario para considerar una región ocultada.

En esta forma, la detección no es eficaz más que para los casos más sencillos. Si por ejemplo a lo largo del contorno de una región no hay más que una pequeña parte donde la componente del movimiento normal al contorno no es nula, los umbrales indicarán que no hay orden bien definido. Esto es debido al hecho de que el umbral alto no será superado.

Así pues, está previsto dividir la banda en varios pedazos o subbandas. Se aplicará entonces un mecanismo de voto: Sólo los pares que indiquen claramente un orden de profundidad contribuyen a la detección de la profundidad.

Al proceder a continuación a las comparaciones de la suma de los valores obtenidos para cada una de las subbandas con los umbrales fijados, se realiza una determinación más robusta del orden de profundidad puesto que solamente las subbandas que responden a los criterios de los umbrales participan en la determinación de la profundidad.

Como se ha visto anteriormente, la estimación de movimiento local toma en consideración el movimiento en el interior de una ventana. Si además la ventana contiene una frontera de movimiento marcada por un fuerte gradiente espacial, el movimiento aparente estará dominado por el movimiento de la ventana. Si se toma ahora un punto a cada lado de la frontera: el que pertenece a la región ocultante experimenta el mismo movimiento como la frontera, y será por lo tanto estimado correctamente, mientras que el punto situado en la región ocultada será mal estimado. Esto es lo que produce una disimetría en la repartición de los errores de estimación de movimiento entre los dos lados de las fronteras de movimiento que tienen un fuerte gradiente espacial.

El procedimiento según la invención saca partido de esta disimetría para detectar la profundidad relativa de dos regiones en movimiento una con respecto a la otra.

Este efecto es tanto más visible cuanto más fuerte es el contraste de luminancia o crominancia entre regiones adyacentes.

Por otra parte, el efecto está estrictamente localizado a lo largo de la frontera. Así pues, es importante detectar ésta última con precisión, lo cual permite la segmentación espacial.

Para abreviar, el procedimiento no exige más que dos imágenes de entrada, contrariamente a los métodos tradicionales que han sido descritos anteriormente. Las fronteras de movimiento que son consideradas son un subconjunto del conjunto de las fronteras espaciales.

Claims

1. Procedimiento de detección de la profundidad relativa de dos regiones cercanas en movimiento relativo una con respecto a la otra en dos imágenes resultantes de tomas de vistas diferentes de una escena; estando dicho procedimiento caracterizado por el hecho de que comprende las etapas siguientes:

- una determinación de los errores de estimación de movimiento a lo largo de las fronteras de movimiento,

2. Procedimiento según la reivindicación 1, según el cual el error de estimación de movimiento es obtenido comparando la imagen de referencia y la imagen obtenida por compensación del movimiento para reconstruir una estimación de la imagen de referencia a partir de la segunda imagen.

3. Procedimiento según las reivindicaciones 1 y 2, según el cual el movimiento es movimiento local.

4. Procedimiento según las reivindicaciones 1 y 2, según el cual el movimiento es resultante de un modelo, llamado modelo local, ajustado en una banda en el interior de la región localizada a lo largo de la frontera entre A y B.

5. Procedimiento según las reivindicaciones 1, 2 y 4, según el cual se estima un solo modelo local en el interior de una banda que discurre a uno y otro lado de la frontera.

6. Procedimiento según la reivindicación 1, según el cual el error de estimación de movimiento es calculado comparando el movimiento resultante de un modelo, llamado modelo regional, que representa el movimiento de la región y el movimiento local.

7. Procedimiento según las reivindicaciones 1 y 6, según el cual el error de estimación de movimiento es calculado por una técnica de estimación robusta.

8. Procedimiento según la reivindicación 1, según el cual en cada región el error de estimación de movimiento es obtenido comparando las estimaciones de movimiento dadas por dos modelos distintos:

- un modelo que representa el movimiento de la región, llamado modelo regional,

9. Procedimiento según las reivindicaciones 1 y 8, según el cual se estima un solo modelo local en el interior de una banda que discurre a uno y otro lado de la frontera.

10. Procedimiento según las reivindicaciones 1 y 6 ó 1 y 8, según el cual el movimiento de la región es calculado por ajuste de un modelo ponderando las medidas en función de su distancia a la frontera entre A y B.

11. Procedimiento según las reivindicaciones 1 y 6 ó 1 y 8, según el cual el movimiento de la región es calculado por ajuste de un modelo utilizando una técnica de estimación robusta.

12. Procedimiento según las reivindicaciones 1, 8 y 9, según el cual el error de estimación de movimiento es calculado comparando el movimiento resultante del modelo regional y del modelo local en cada punto del soporte común.

13. Procedimiento según las reivindicaciones 1, 8 y 9, según el cual el error de estimación de movimiento es calculado comparando parámetros del modelo regional y del modelo local.

14. Procedimiento según las reivindicaciones 1, 8 y 9, según el cual el error de estimación de movimiento es calculado comparando el modelo regional y el modelo local por medio de una modelización conjunta.

15. Procedimiento según cualquiera de las reivindicaciones precedentes, en el cual la segmentación se hace según métodos morfológicos.

16. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado por el hecho de que comprende una etapa de fusión de las regiones que tienen un movimiento similar.

17. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado por el hecho de que la profundidad relativa es obtenida comparando la suma de los errores de un lado (A) de la frontera con un primer umbral fijado, y comparando la suma de los errores del otro lado (B) de la frontera con un segundo umbral.

18. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado por el hecho de que las dos imágenes son imágenes tomadas sucesivamente en el tiempo, y se llamará movimiento de un punto al desplazamiento de este punto en el tiempo al pasar de una imagen a la otra.

19. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado por el hecho de que las dos imágenes son tomadas bajo ángulos distintos, y se llamará movimiento de un punto al desplazamiento de este punto en el plano de la imagen al pasar de una imagen a la otra.