ES2205728T3 - Procedimiento de deteccion de la profundidad relativa entre dos objetos de una escena a partir de un par de imagenes resultantes de tomas de vistas diferentes. - Google Patents
Procedimiento de deteccion de la profundidad relativa entre dos objetos de una escena a partir de un par de imagenes resultantes de tomas de vistas diferentes.Info
- Publication number
- ES2205728T3 ES2205728T3 ES99401252T ES99401252T ES2205728T3 ES 2205728 T3 ES2205728 T3 ES 2205728T3 ES 99401252 T ES99401252 T ES 99401252T ES 99401252 T ES99401252 T ES 99401252T ES 2205728 T3 ES2205728 T3 ES 2205728T3
- Authority
- ES
- Spain
- Prior art keywords
- movement
- model
- border
- region
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001514 detection method Methods 0.000 title abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 11
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000005303 weighing Methods 0.000 claims description 2
- 238000002844 melting Methods 0.000 claims 1
- 230000008018 melting Effects 0.000 claims 1
- 239000000203 mixture Substances 0.000 abstract description 3
- 238000011282 treatment Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000001594 aberrant effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000005045 desmin Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
LA PRESENTE INVENCION SE REFIERE A UN PROCEDIMIENTO DE DETECCION DE LA PROFUNDIDAD RELATIVA DE DOS REGIONES VECINAS EN MOVIMIENTO RELATIVO UNA CON RELACION A LA OTRA EN DOS IMAGENES PROCEDENTES DE TOMAS DE VISTAS DIFERENTES DE UNA ESCENA PARA CONOCER LA COMPOSICION DE LA ESCENA. SEGUN ESTA INVENCION, EL PROCEDIMIENTO CONSISTE EN REALIZAR: - UNA SEGMENTACION ESPACIAL DE UNA DE LAS IMAGENES, QUE SE LLAMA IMAGEN DE REFERENCIA, - UNA ESTIMACION LOCAL DEL MOVIMIENTO ENTRE LAS DOS IMAGENES, CUYO CAMPO DE VECTORES RESULTANTE SE LLAMA MOVIMIENTO LOCAL, - UNA DETERMINACION DE LOS ERRORES DE ESTIMACION DE MOVIMIENTO A LO LARGO DE LAS FRONTERAS DEL MOVIMIENTO, - UN ANALISIS DE LOCALIZACION DE LOS ERRORES DE ESTIMACION DE MOVIMIENTO A LO LARGO DE LAS FRONTERAS DEL MOVIMIENTO PARA CONCLUIR QUE UNA REGION A SE ENCUENTRA DELANTE DE UNA REGION B CUANDO EL ERROR DE ESTIMACION DEL MOVIMIENTO A LO LARGO DE LA FRONTERA ESTA PRINCIPALMENTE LOCALIZADO POR EL LADO B DE ESTA FRONTERA.
Description
Procedimiento de detección de la profundidad
relativa entre dos objetos de una escena a partir de un par de
imágenes resultantes de tomas de vistas diferentes.
La invención se refiere a un procedimiento de
detección de la profundidad relativa entre objetos en una imagen a
partir de un par de imágenes.
El contexto general de la invención es la
estimación de las profundidades relativas de objetos vistos en
imágenes resultantes de tomas de vistas diferentes, tanto si se
trata de imágenes tomadas sucesivamente en el tiempo como si se
trata de imágenes tomadas bajo distintos ángulos.
Este procedimiento queda enmarcado en las
numerosas aplicaciones que requieren un análisis semántico de
secuencias de imágenes. Particularmente en el campo de la
comunicación por medios múltiples, la creciente cantidad de datos
audiovisuales crea la necesidad de nuevas funcionalidades tales
como la interactividad y la integración de objetos de naturaleza
distinta. El nuevo estándar MPEG-4 permite
representar una escena como una composición de objetos, pero no
especifica de qué manera se hace el análisis de la escena.
Las técnicas actuales pertinentes dentro del
marco de esta invención estudian las zonas de ocultaciones que
aparecen en una secuencia de imágenes. En el párrafo siguiente se
describen estas técnicas en un ejemplo de ocultación.
La figura 1 muestra un ejemplo de situación que
da lugar a la ocultación. Un captador, representado aquí por un
ojo, ve dos objetos A y B: un objeto B que se mueve hacia la
izquierda cubre un segundo objeto A que se mueve hacia la
derecha.
Observando el movimiento, es decir el
desplazamiento de los objetos unos con respecto a otros, uno se da
cuenta de que en un determinado número de situaciones un objeto
pasa por delante de otro.
La profundidad relativa de un objeto con
respecto a otro es la profundidad con respecto a la visión que de
los mismos puede tener un observador siguiendo la línea que va
desde el ojo del observador y atraviesa los objetos de la
escena.
Según este eje, hay objetos que se encuentran en
planos distintos.
De hecho, no se busca aquí evaluar la propia
profundidad, sino saber qué objeto está delante con respecto a otro
objeto de la escena. Esta información es necesaria para un número
determinado de aplicaciones, y en particular para la codificación
cuando se desea hacer predicción de imágenes. Dicha información
permite, por ejemplo, la reconstrucción del fondo de una
imagen.
En efecto, al conocer la profundidad relativa,
se puede definir el segundo plano de una imagen, y eventualmente a)
neutralizar este segundo plano o b) hacerlo borroso o c)
sustituirlo por otro o d) comprimir la información con muy pocos
bits y concentrar lo esencial de la información en la parte que
está delante.
La detección de la profundidad relativa entre
objetos tiene por consiguiente la finalidad de aportar una mejor
comprensión de la escena observada.
Observando la manera en como los objetos se
mueven y constatando que los mismos se encuentran detrás de otros
objetos que no se mueven o tienen un movimiento que les es propio,
puede así definirse la organización de la escena sin introducir
conocimiento semántico, es decir sin ser capaces de reconocer el
tipo de objeto que se encuentra en la escena.
Se sabe simplemente que se trata de un conjunto
de componentes homogéneos en cuanto a color y textura, es decir de
zonas homogéneas que se procede a vincular unas a otras porque
tienen el mismo movimiento. Las zonas homogéneas son reunidas en
entidades que tienen movimientos propios.
Observando las fronteras de movimiento entre las
distintas entidades, puede deducirse de ello que la entidad E1 se
encuentra localmente delante de la entidad E2, que por su parte se
encuentra delante de la entidad E3.
Integrando estas informaciones en el tiempo a
través de las imágenes sucesivamente, puede sacarse una estructura
de profundidad relativa.
Así pues, para estudiar la profundidad relativa
de las regiones se tiene necesidad de detectar sus fronteras de
movimiento. En el estado de la técnica, estas fronteras son
obtenidas gracias a una segmentación de movimiento.
Se recuerda que la segmentación de imagen es una
técnica conocida que consiste en transformar un conjunto de pixels
en una imagen mosaico donde cada partícula conexa del mosaico tiene
una homogeneidad de color o de textura (es decir de luminancia) o
de movimiento o una combinación de varios criterios. En el caso de
la segmentación de movimiento, cada mosaico tiene una homogeneidad
de movimiento.
Ahora bien, para estudiar el desplazamiento de
una frontera de movimiento es necesario tener en cuenta tres
imágenes de la escena en calidad de información de entrada.
En efecto, las técnicas existentes procuran
detectar las fronteras de movimiento, y después comparan el
movimiento de estas fronteras con el movimiento de las regiones
adyacentes para concluir. Ahora bien, para estimar el movimiento es
necesario analizar dos imágenes sucesivas, y para estimar el
movimiento de la frontera son necesarias dos posiciones sucesivas
de la frontera, o sea 3 imágenes a analizar.
Se detalla a continuación esta técnica haciendo
referencia a las figuras 2A, 2B, 2C.
Analizando dos imágenes consecutivas I1, I2 de
una escena, puede estimarse el movimiento de la escena. Este
movimiento puede servir para segmentar la escena en objetos A, B
cuyos movimientos son independientes. La figura 2A muestra el
movimiento de los dos objetos A, B, así como la segmentación.
Esta segmentación del movimiento no contiene
informaciones suficientes para deducir la profundidad relativa de
los dos objetos. El análisis del movimiento de un segundo par de
imágenes I_{2} e I_{3} proporciona la información que falta:
las dos segmentaciones permiten estimar el movimiento del contorno
(o frontera) entre los dos objetos.
La comparación del movimiento del contorno
(frontera) con el movimiento de la textura (luminancia) de los dos
lados permite deducir la profundidad relativa: la región que tiene
el mismo movimiento que el contorno corresponde al objeto
ocultante. En este ejemplo las dos segmentaciones consecutivas del
movimiento, figura 2A y figura 2B, indican que el contorno se mueve
hacia la izquierda, figura 2C. Como que este movimiento es idéntico
al movimiento de la región derecha, se saca la conclusión de que
el objeto de la derecha oculta al objeto de la izquierda.
En la literatura se encuentran distintos
estudios que sacan provecho de este hecho. Thompson, Mutch y
Berzins (ref. D14 más adelante) utilizan el apareamiento de puntos
característicos para obtener un campo de velocidad dispersa que
explica el movimiento entre dos imágenes. A continuación detectan
discontinuidades en este campo de velocidad. El análisis de dos
campos de velocidad (calculados a partir de dos pares de imágenes)
les permite deducir la profundidad relativa.
Un segundo enfoque está descrito por Darrell y
Fleet (ref. D12 más adelante). Este enfoque segmenta la escena en
planos con un movimiento coherente utilizando exclusivamente la
información de movimiento. La evolución de estos planos permite
determinar el movimiento de los contornos, que a su vez permite la
estimación de la profundidad relativa.
En cuanto a las técnicas descritas y
corrientemente utilizadas para el tratamiento de imágenes, es
también posible referirse al estado de la técnica que constituyen
los documentos D1-D8 referenciados a
continuación:
D1: S. Beucher. Segmentation d'Images et
Morphologie Mathématique, Phd. thesis, E.N.S. des Mines de
Paris, 1990.
D2: J. Barron, D. Fleet and S.
Beauchemin. Performance of optical flow techniques.
International Journal of Computer Vision, 12(1):
43-77, 1994.
D3: K. M. Mutch and W. B. Thompson.
Analysis of accretion and deletion at boundaries in dynamic
scenes. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 7: 133-138, 1985.
D4: E. Decencière Ferrandière, C. De
Fouquet and F. Meyer. Applications of kriging to image
sequence coding. Accepted for publication in signal Processing:
Image Communication, 1997.
D5: F. Hampel, E. Ronchetti, P.
Rouesseeuw, and W. Stahel. Robust Statistics - The
approach Based on Influence Function. Wiley, 1986.
D6: P. Huber. Robust Statistics. John
Wiley, New York, 1981.
D7: Peter Meer, Doron Mintz,
Dong Yoon Kim, and Azriel Rosenfeld. Robust
regression methods for computer vision. A review. International
Journal of Computer Vision, 6(1): 59-70,
abril 1991.
D8: Nikhil R. Pal and Sankar
K. Pal. A review on image segmentation techniques. Pattern
Recognition, 26(9): 1277-1294,
1993.
D9: J. Y. A. Wang and E. H.
Adelson. Representing moving images with layers. The IEEE
Transactions on Image Processing Special Issue: Image Sequence
compression, 3(5): 625-638, septiembre
1994.
D10: G. Wolberg. Digital Image Warping.
IEEE Computer Press, 1990.
D11: J. Cichosz and F. Meyer.
Morphological multiscale image segmentation. En
Work-shop on Image Analysis for Multimedia
Interactive Services (WIAMIS'97), páginas 161-166,
Louvain-la-Neuve (Bélgica), junio
1997.
D12: Trevor Darrel and David Fleet.
Second-order method for occlusion relationships in
motion layers. Technical Report 314, MIT Media Lab Vismod,
1995.
D13: B. K. P. Horn and B. G.
Schunck. Determining optical flow. Artificial
Intelligence, 17: 185-203, 1981.
D14: W. B. Thompson, K. M. Mutch,
and V. A. Berzins. Dynamic occlusion analysis in optical
flow fields. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 7: 374-383, 1985.
D15: Zhengyou Zhang. Parameter estimation
techniques: A tutorial with application to conic fitting. Technical
Report 2676, Institut National de Recherche en Informatique et en
Automatique, Sophia-Antipolis Cedex, Francia,
octubre 1995.
D16: P. Chauvet. Aide Mémoire de
géostatique linéaire. Ecole des Mines de Paris, 1993.
D17: Michael J. Black and Allan D.
Jepson. Estimating optical flow in segmented images using
variable-order parametric models with local
deformations. IEEE Trans. Pattern Analysis and Machine
Intelligence, 18(10): 972-986, octubre
1996.
D18: L. Bergen and F. Meyer.
Segmentation du mouvement des objets dans une scène. En
Coresa 97, 1997.
Los inconvenientes de las técnicas presentadas
en el párrafo precedente (documentos D12, D14) son los
siguientes:
- Estas técnicas están enteramente basadas en el
movimiento, lo cual conlleva una localización de las fronteras de
movimiento poco precisa.
- Estas técnicas utilizan tres imágenes (dos
segmentaciones del movimiento) para determinar el movimiento de los
contornos; propagándose los problemas de falta de precisión en la
localización de las fronteras a la estimación del movimiento de los
contornos y por consiguiente a la detección de la profundidad.
Además, esto conlleva un retardo suplementario en el análisis.
- Además, el campo de aplicación de estas
técnicas está limitado a los casos en los que el movimiento es
relativamente importante.
La finalidad de la invención es la detección de
la profundidad relativa entre objetos a partir de un par de
imágenes que no presente los inconvenientes de las técnicas
anteriores.
A tal efecto, la invención tiene por objeto un
procedimiento que, a partir de un par de imágenes resultantes de
tomas de vistas diferentes de una misma escena, es capaz de detectar
las fronteras de movimiento de manera muy precisa y de precisar
para cada frontera la profundidad relativa de cada región
adyacente.
En todo lo expuesto a continuación, se entenderá
por movimiento de un punto el desplazamiento de este punto cuando
se pasa de una imagen a otra, siendo estas imágenes resultantes de
tomas de vistas diferentes de una escena, tanto si estas tomas de
vistas son sucesivas en el tiempo como si son simultáneas pero con
un ángulo diferente, por ejemplo.
Así pues, la invención tiene más en particular
por objeto un procedimiento de detección de la profundidad relativa
de dos regiones cercanas en movimiento relativo una con respecto a
la otra en dos imágenes resultantes de tomas de vistas diferentes
de una escena; estando dicho procedimiento principalmente
caracterizado por el hecho de que el mismo comprende las etapas
siguientes:
- una segmentación espacial de una de las
imágenes, llamada imagen de referencia,
- una estimación local del movimiento entre las
dos imágenes, cuyo campo de vectores resultante es llamado
movimiento local,
- una determinación de los errores de estimación
de movimiento a lo largo de las fronteras de movimiento, y
- un análisis de la localización de los errores
de estimación de movimiento a lo largo de las fronteras de
movimiento para deducir que una región A se encuentra delante de una
región B cuando el error de estimación de movimiento a lo largo de
la frontera se encuentra principalmente localizado en el lado B de
esta frontera.
Según otra característica, después de las dos
primeras etapas del procedimiento se procederá a una etapa de
fusión de las regiones para obtener regiones de movimiento
homogéneo.
Preferiblemente, la segmentación espacial será
realizada según un método morfológico, y más en particular según el
método basado en la línea divisoria de aguas.
Otras características de la presente invención
se refieren a distintas formas de realización para la determinación
de los errores de estimación de movimiento a lo largo de las
fronteras de movimiento.
Otras ventajas y particularidades de la
invención quedarán de manifiesto a la luz de la descripción que se
hace y se da a título de ejemplo no limitativo y haciendo
referencia a los dibujos, en los cuales:
- la figura 1 ilustra esquemáticamente el
fenómeno de ocultación,
- las figuras 2A a 2C ilustran esquemáticamente
las etapas de tratamiento de imágenes según la técnica
anterior,
- las figuras 3A a 3C ilustran esquemáticamente
las etapas de tratamiento de imágenes según el procedimiento según
la invención,
- la figura 4 representa imágenes esquemáticas
resultantes de las distintas etapas de tratamiento según el
procedimiento,
- las figuras 5A y 5B ilustran distintas
variantes de realización para evaluar el error de estimación de
movimiento a lo largo de las fronteras de movimiento.
El procedimiento según la invención puede ser
puesto en práctica por medio de un programa cargado en un
microordenador apto para poner en práctica las distintas etapas que
serán descritas a continuación, o por un dispositivo electrónico
concebido con esta finalidad.
El microordenador (no representado) podrá estar
conectado a una o dos cámaras que permitan obtener las dos tomas de
vistas diferentes de la escena U, W que son utilizadas en calidad
de datos de entrada en la cadena de tratamiento subsiguiente y se
encuentran en forma de matrices de pixels tras numerización.
Se entiende que en lugar de ello podría
disponerse de material audiovisual que dispusiese de una unidad de
tratamiento y de imágenes pregrabadas.
Para mejor comprender lo expuesto a
continuación, hágase referencia a las figuras 3A-3C
y 4 y 5A, 5B.
La figura 3A ilustra la cadena de
tratamientos.
Esta cadena comprende dos conjuntos de
tratamiento paralelos, de los cuales uno I permite realizar una
segmentación espacial de una de las imágenes, como por ejemplo la
imagen U, que será a continuación considerada como la imagen de
referencia, y el otro II permite obtener una estimación de
movimiento en cada pixel. Se trata de una estimación local del
movimiento entre las dos imágenes U, W cuyo campo de vectores
resultante es llamado movimiento local (figura 4).
A la salida de estos tratamientos se obtiene una
división P de la imagen a partir de la segmentación espacial y un
campo V de vectores de movimiento que explica el movimiento de cada
punto de imagen (pixel) a partir de la estimación de
movimiento.
En cada región de la segmentación espacial es
ajustado un modelo de movimiento que explica lo mejor posible el
movimiento global de la región, siendo esto detallado a
continuación.
Se realiza a continuación una etapa de fusión de
las regiones que han sido obtenidas mediante la segmentación
espacial y tienen movimientos similares (etapa II bis). Esto
permite hacer que aparezcan las fronteras de movimiento.
Como que la estimación local de movimiento
produce una estimación errónea a lo largo de la frontera de
movimiento, se procura a continuación determinar el error de
estimación para localizarlo y conocer así el lado de la región
ocultada puesto que este error no aparece más que en el lado de la
región ocultada (etapa III).
El conocimiento de la región ocultada conduce a
la detección de la profundidad relativa de dos regiones en
movimiento una con respecto a otra (etapa IV).
Se tiene necesidad de un criterio para
determinar (o calcular) el error. Un primer criterio elegido será
llamado "fidelidad de compensación", y un segundo criterio
elegido será llamado "disparidad de movimiento".
Para el criterio llamado "fidelidad de
compensación", se procede a una compensación de movimiento de la
segunda imagen (de la textura), según el campo de vectores V, a fin
de construir una estimación de la imagen de referencia, y se
estudia la repartición del error de compensación directamente. Se
podrá entonces proceder como en las siguientes formas de
realización (a, b, c) para descubrir en qué banda BFg o BFd es más
importante el error.
Para el criterio llamado "disparidad de
movimiento", se ajusta un modelo de movimiento en el interior de
cada región de la división P a partir del campo V de vectores de
movimiento.
A lo largo de cada frontera de movimiento se
constituye una banda de observación BF (o según otra variante dos
bandas BFg y BFd a cada lado de la frontera).
a) - Se compara el modelo regional con el
movimiento local, o bien,
b) - Se estima un modelo de movimiento a partir
del campo V en la banda BF y se compara este movimiento con el de
las regiones adyacentes. La región adyacente que tiene el
movimiento más parecido es la que se encuentra delante de la otra,
o bien,
c) - Se estima un modelo de movimiento a partir
del campo V en las dos bandas BFg y BFd. La región X para la cual
la estimación en la banda BFx y la estimación global en la región X
son más acordes es la que se encuentra delante de la otra.
Se detalla a continuación cada etapa del
procedimiento haciendo referencia a las figuras
3A-3C:
I. La segmentación espacial permite definir la
composición de la imagen por regiones homogéneas en cuanto a color,
textura y nivel de gris, independientemente de toda consideración de
movimiento. No es necesario para ello tener dos imágenes de
entrada como en el caso de la segmentación de movimiento.
Para obviar los problemas de ruido y para tener
suficiente información, se toma en consideración el movimiento en
el interior de una ventana. Así, el vector de movimiento afecto al
centro de la ventana no representa el movimiento en este punto,
sino el movimiento dominante en el interior de la ventana, lo cual
provoca una considerable imprecisión, en particular a lo largo de
las fronteras de movimiento.
Las fronteras que se obtienen al segmentar el
movimiento por los métodos de la técnica anterior son menos
precisas que las fronteras que son obtenidas al segmentar la
luminancia o el color. Esto es debido al hecho de que el campo de
velocidad debe ser estimado en todos los puntos, mientras que los
niveles de gris o el color pueden ser vistos directamente en cada
punto sin previa estimación.
La técnica de segmentación espacial permite
obtener regiones homogéneas en cuanto a la textura, por ejemplo, y
sus fronteras de manera muy precisa a partir de una imagen U.
El método utilizado será preferiblemente un
método de segmentación morfológica, y más en particular un método
basado en el gradiente de imagen y la línea divisoria de aguas
(watershed transform).
II. La estimación de movimiento es realizada por
medio de una segunda imagen W y de la primera imagen U.
Este método permite obtener un campo de vectores
de movimiento V que explica el movimiento de cada punto de la
imagen. Se utilizará preferentemente un método diferencial clásico
en sí para realizar esta estimación de movimiento. Las dos imágenes
son prefiltradas a fin de preparar la diferenciación y de mejorar
la relación señal/ruido.
Como que la información de movimiento observable
en cada pixel es incompleta, pues solamente está disponible la
componente de la velocidad normal a los contornos de isoluminancia,
se integra esta información incompleta de cada pixel a través del
ajuste de un modelo de movimiento en cada región. Puede elegirse una
representación en forma polinomial. Puede igualmente elegirse una
representación en forma nodal. La elección del número de nodos
depende de la complejidad de la escena.
Un número de nodos fijos es elegido en función
de la complejidad del movimiento. La modelización se hace asignando
a cada uno de estos nodos el movimiento que por interpolación hace
que sea lo mejor posible el movimiento observado en cada pixel. La
técnica de interpolación que se utiliza es una técnica clásica que
se llama krigeaje (D4, D16). La velocidad en cada punto de una
región es una función lineal de las velocidades en los nodos fijos.
Se sabe que un nodo produce una traslación simple, tres nodos
producen un modelo afinado, y más nodos dan modelos cada vez más
complejos.
La fusión de regiones (etapas II bis) se hace de
manera iterativa: En cada iteración son candidatos a la fusión
todos los pares de regiones cercanas. En lugar de intentar comparar
el movimiento en el espacio de los parámetros, se calcula un nuevo
juego de parámetros para cada uno de los pares, y se evalúa la
calidad de la modelización. Esta modelización se hace por
resolución de un sistema lineal sobredeterminado que es ponderado
mediante los pesos resultantes de la estimación robusta
inicial.
Las distintas etapas de la fusión de regiones
son las siguientes:
1. se fija un criterio de similitud de
movimiento basado en la calidad de la modelización para todos los
pares de regiones (por ejemplo un valor máximo que no debe ser
sobrepasado),
2. fusión del par que tiene el movimiento más
similar,
3. actualización de los criterios de similitud
para todas las regiones afectadas por la fusión (esto son todos los
pares de regiones que contienen una de las regiones
fusionadas),
4. iteración de partir de 2.
La fusión se detiene cuando el criterio de
similitud desciende hasta llegar a ser inferior a un valor
predefinido.
La etapa siguiente III del procedimiento
consiste a continuación, como se ha dicho anteriormente, en
determinar (o evaluar) el error de estimación de movimiento.
Se proponen a continuación varias formas de
realización para realizar esta determinación de error de estimación
de movimiento. Estas diferentes formas de realización aparecen en
las figuras 3B y 3C.
Una primera forma de realización se fundamenta
en la utilización de un método de compensación de movimiento, y
otras dos se fundamentan en la disparidad de movimiento.
La primera forma de realización III.1 pone en
práctica el criterio llamado "fidelidad de compensación". Para
ello, el error de estimación de movimiento es obtenido comparando
la imagen de referencia P, es decir la imagen obtenida mediante la
segmentación espacial, y la imagen obtenida por compensación del
movimiento a fin de reconstruir una estimación de la imagen de
referencia a partir de la segunda imagen.
Las técnicas de compensación de movimiento son
técnicas bien conocidas, pudiendo hacerse referencia, por ejemplo,
al libro que lleva la referencia D10.
Según una primera variante de ejecución, el
movimiento es el movimiento local
(III-1.1(a)) en la figura 3B.
Según otra variante de ejecución, el movimiento
es resultante de un modelo llamado modelo local ajustado en una
banda en el interior de la región localizada a lo largo de la
frontera entre A y B (III.1.2 b y c). En b se consideran dos bandas
BFg, BFd, y en c se considera una sola banda BF.
Podrá tomarse un solo modelo local estimado en
el interior de una banda que se extiende a uno y otro lado de la
frontera (III-1.2c).
El modelo utilizado podrá ser por ejemplo un
modelo polinomial. Podrá igualmente tratarse de un modelo nodal tal
como los modelos descritos en la publicación D4.
Según una segunda forma de realización III.2 que
pone en práctica el criterio de disparidad de movimiento, el error
de estimación de movimiento es calculado comparando el movimiento
resultante de un modelo llamado modelo regional que representa el
movimiento de la región y el movimiento local (véase la figura
3B).
El cálculo del error se hará de manera
preferente por medio de una técnica de estimación robusta.
La utilización de una técnica de estimación
robusta (estimadores M) es conocida, y una técnica de este tipo
está descrita en los documentos D5, D6 y D7, por ejemplo.
Se recuerda sin embargo que las técnicas de
estimación robusta aplicadas a la estimación de parámetros de un
modelo de movimiento permiten detectar los vectores de movimiento
aberrantes y eliminar o reducir su influencia en la estimación: Se
obtienen parámetros que corresponden a la mayoría de los vectores
de velocidad observados. Las técnicas robustas proporcionan
igualmente el error de modelización en cada punto de soporte del
modelo.
Una tercera forma de realización III.3 que pone
en práctica el criterio llamado "disparidad de movimiento"
consiste en determinar el error de estimación de movimiento en cada
región comparando las estimaciones de movimiento dadas por dos
modelos distintos:
- un modelo que representa el movimiento de la
región, llamado modelo regional, y
- un modelo que representa el movimiento de una
banda en el interior de la región localizada a lo largo de la
frontera entre A y B, llamado modelo local.
El modelo regional podrá ser por ejemplo un
modelo polinomial o nodal. Se dan ejemplos de tales modelos por
ejemplo respectivamente en la publicación D17 y en la publicación
D4.
El modelo local podrá ser por ejemplo polinomial
o nodal. De la misma manera, estos modelos podrán ser por ejemplo
tales como los que están publicados respectivamente en la
publicación D17 y en el documento D4.
Según una variante de ejecución, se estima un
solo modelo local en el interior de una banda que discurre a uno y
otro lado de la frontera.
Según las dos últimas formas de realización que
han sido descritas, el movimiento de la región podría ser calculado
por ajuste de un modelo ponderando las medidas en función de su
distancia a la frontera entre A y B (III.2.1.1 o III.3.1.1).
Una posibilidad consiste en excluir las medidas
que vienen de una banda a lo largo de la frontera (lo cual
corresponde a asignar un peso cero a estas medidas durante la
modelización).
Según otra variante de ejecución relativa a
estas dos formas de realización, el movimiento de la región puede
ser calculado por ajuste de un modelo utilizando una técnica de
estimación robusta (III.2.2.1 o III.3.1.2).
La puesta en práctica de una estimación robusta
está al alcance del experto en la materia, siendo estas técnicas
conocidas. Es posible por otra parte referirse a los documentos D5,
D6 y D7, que describen tales técnicas.
Dentro del marco de la forma de realización que
utiliza dos modelos, el error de estimación de movimiento es
calculado comparando el movimiento resultante del modelo regional y
del modelo local en cada punto del soporte común según una primera
variante de ejecución. (III.2.2.1 o II.3.2.1 A).
Este error de estimación de movimiento puede ser
también calculado comparando los parámetros del modelo regional y
del modelo local (III.3.2.1.B). La comparación de dos modelos en el
espacio de los parámetros es en sí conocida y puede ser fácilmente
implementada por un experto en la materia dentro del marco de esta
variante de ejecución. Es posible por otra parte referirse al
documento D9, que describe una comparación de este tipo.
Según otra variante de ejecución, el error de
estimación de movimiento es calculado comparando el modelo regional
y el modelo local por medio de una modelización conjunta
(III.2.1.C). Una modelización de este tipo es en sí conocida. Es
posible remitirse al artículo D18 anteriormente citado.
El error del lado de la región ocultada permite
detectar la profundidad relativa; etapa IV.
Las medidas aberrantes que son debidas a la
ocultación están situadas en torno a la frontera de movimiento.
Se hace la suma de todos los errores en bandas a
uno y otro lado de las fronteras de movimiento. Se fijan dos
umbrales t_{bajo} y t_{alto} para tener un claro orden de
profundidad. Existe un orden claro si la suma de los errores de un
lado (A) se mantiene por debajo de t_{bajo} y si la suma de los
errores del otro lado (B) está por encima de t_{alto}. En todos
los otros casos, nada puede decirse sobre la profundidad. El
umbral bajo admite un determinado error del lado ocultante, y el
umbral alto indica el error mínimo necesario para considerar una
región ocultada.
En esta forma, la detección no es eficaz más que
para los casos más sencillos. Si por ejemplo a lo largo del
contorno de una región no hay más que una pequeña parte donde la
componente del movimiento normal al contorno no es nula, los
umbrales indicarán que no hay orden bien definido. Esto es debido
al hecho de que el umbral alto no será superado.
Así pues, está previsto dividir la banda en
varios pedazos o subbandas. Se aplicará entonces un mecanismo de
voto: Sólo los pares que indiquen claramente un orden de
profundidad contribuyen a la detección de la profundidad.
Al proceder a continuación a las comparaciones
de la suma de los valores obtenidos para cada una de las subbandas
con los umbrales fijados, se realiza una determinación más robusta
del orden de profundidad puesto que solamente las subbandas que
responden a los criterios de los umbrales participan en la
determinación de la profundidad.
Como se ha visto anteriormente, la estimación de
movimiento local toma en consideración el movimiento en el interior
de una ventana. Si además la ventana contiene una frontera de
movimiento marcada por un fuerte gradiente espacial, el movimiento
aparente estará dominado por el movimiento de la ventana. Si se
toma ahora un punto a cada lado de la frontera: el que pertenece a
la región ocultante experimenta el mismo movimiento como la
frontera, y será por lo tanto estimado correctamente, mientras que
el punto situado en la región ocultada será mal estimado. Esto es
lo que produce una disimetría en la repartición de los errores de
estimación de movimiento entre los dos lados de las fronteras de
movimiento que tienen un fuerte gradiente espacial.
El procedimiento según la invención saca partido
de esta disimetría para detectar la profundidad relativa de dos
regiones en movimiento una con respecto a la otra.
Este efecto es tanto más visible cuanto más
fuerte es el contraste de luminancia o crominancia entre regiones
adyacentes.
Por otra parte, el efecto está estrictamente
localizado a lo largo de la frontera. Así pues, es importante
detectar ésta última con precisión, lo cual permite la segmentación
espacial.
Para abreviar, el procedimiento no exige más que
dos imágenes de entrada, contrariamente a los métodos tradicionales
que han sido descritos anteriormente. Las fronteras de movimiento
que son consideradas son un subconjunto del conjunto de las
fronteras espaciales.
Claims (19)
1. Procedimiento de detección de la profundidad
relativa de dos regiones cercanas en movimiento relativo una con
respecto a la otra en dos imágenes resultantes de tomas de vistas
diferentes de una escena; estando dicho procedimiento
caracterizado por el hecho de que comprende las etapas
siguientes:
- una segmentación espacial de una de las
imágenes, llamada imagen de referencia,
- una estimación local del movimiento entre las
dos imágenes, cuyo campo de vectores resultante es llamado
movimiento local,
- una determinación de los errores de estimación
de movimiento a lo largo de las fronteras de movimiento,
- un análisis de la localización de los errores
de estimación de movimiento a lo largo de las fronteras de
movimiento para deducir que una región A se encuentra delante de
una región B cuando el error de estimación de movimiento a lo largo
de la frontera se encuentra principalmente localizado en el lado B
de esta frontera.
2. Procedimiento según la reivindicación 1,
según el cual el error de estimación de movimiento es obtenido
comparando la imagen de referencia y la imagen obtenida por
compensación del movimiento para reconstruir una estimación de la
imagen de referencia a partir de la segunda imagen.
3. Procedimiento según las reivindicaciones 1 y
2, según el cual el movimiento es movimiento local.
4. Procedimiento según las reivindicaciones 1 y
2, según el cual el movimiento es resultante de un modelo, llamado
modelo local, ajustado en una banda en el interior de la región
localizada a lo largo de la frontera entre A y B.
5. Procedimiento según las reivindicaciones 1, 2
y 4, según el cual se estima un solo modelo local en el interior de
una banda que discurre a uno y otro lado de la frontera.
6. Procedimiento según la reivindicación 1,
según el cual el error de estimación de movimiento es calculado
comparando el movimiento resultante de un modelo, llamado modelo
regional, que representa el movimiento de la región y el movimiento
local.
7. Procedimiento según las reivindicaciones 1 y
6, según el cual el error de estimación de movimiento es calculado
por una técnica de estimación robusta.
8. Procedimiento según la reivindicación 1,
según el cual en cada región el error de estimación de movimiento
es obtenido comparando las estimaciones de movimiento dadas por dos
modelos distintos:
- un modelo que representa el movimiento de la
región, llamado modelo regional,
- un modelo que representa el movimiento de una
banda en el interior de la región localizada a lo largo de la
frontera entre A y B, llamado modelo local.
9. Procedimiento según las reivindicaciones 1 y
8, según el cual se estima un solo modelo local en el interior de
una banda que discurre a uno y otro lado de la frontera.
10. Procedimiento según las reivindicaciones 1 y
6 ó 1 y 8, según el cual el movimiento de la región es calculado
por ajuste de un modelo ponderando las medidas en función de su
distancia a la frontera entre A y B.
11. Procedimiento según las reivindicaciones 1 y
6 ó 1 y 8, según el cual el movimiento de la región es calculado
por ajuste de un modelo utilizando una técnica de estimación
robusta.
12. Procedimiento según las reivindicaciones 1,
8 y 9, según el cual el error de estimación de movimiento es
calculado comparando el movimiento resultante del modelo regional y
del modelo local en cada punto del soporte común.
13. Procedimiento según las reivindicaciones 1,
8 y 9, según el cual el error de estimación de movimiento es
calculado comparando parámetros del modelo regional y del modelo
local.
14. Procedimiento según las reivindicaciones 1,
8 y 9, según el cual el error de estimación de movimiento es
calculado comparando el modelo regional y el modelo local por medio
de una modelización conjunta.
15. Procedimiento según cualquiera de las
reivindicaciones precedentes, en el cual la segmentación se hace
según métodos morfológicos.
16. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado por el hecho de
que comprende una etapa de fusión de las regiones que tienen un
movimiento similar.
17. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado por el hecho de
que la profundidad relativa es obtenida comparando la suma de los
errores de un lado (A) de la frontera con un primer umbral fijado,
y comparando la suma de los errores del otro lado (B) de la
frontera con un segundo umbral.
18. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado por el hecho de
que las dos imágenes son imágenes tomadas sucesivamente en el
tiempo, y se llamará movimiento de un punto al desplazamiento de
este punto en el tiempo al pasar de una imagen a la otra.
19. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado por el hecho de
que las dos imágenes son tomadas bajo ángulos distintos, y se
llamará movimiento de un punto al desplazamiento de este punto en
el plano de la imagen al pasar de una imagen a la otra.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9806685A FR2779257B1 (fr) | 1998-05-27 | 1998-05-27 | Procede de detection de la profondeur relative entre objets dans une image a partir d'un couple d'images |
FR9806685 | 1998-05-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2205728T3 true ES2205728T3 (es) | 2004-05-01 |
Family
ID=9526771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99401252T Expired - Lifetime ES2205728T3 (es) | 1998-05-27 | 1999-05-25 | Procedimiento de deteccion de la profundidad relativa entre dos objetos de una escena a partir de un par de imagenes resultantes de tomas de vistas diferentes. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6262409B1 (es) |
EP (1) | EP0961227B1 (es) |
JP (1) | JP4880807B2 (es) |
DE (1) | DE69909892T2 (es) |
ES (1) | ES2205728T3 (es) |
FR (1) | FR2779257B1 (es) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000011863A1 (en) * | 1998-08-21 | 2000-03-02 | Koninklijke Philips Electronics N.V. | Problem area location in an image signal |
US6625333B1 (en) * | 1999-08-06 | 2003-09-23 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through Communications Research Centre | Method for temporal interpolation of an image sequence using object-based image analysis |
FR2817694B1 (fr) * | 2000-12-05 | 2003-10-03 | Thomson Licensing Sa | Procede et dispositif de lissage spatial pour les zones sombres d'une image |
US6985612B2 (en) * | 2001-10-05 | 2006-01-10 | Mevis - Centrum Fur Medizinische Diagnosesysteme Und Visualisierung Gmbh | Computer system and a method for segmentation of a digital image |
KR100746022B1 (ko) * | 2005-06-14 | 2007-08-06 | 삼성전자주식회사 | 서브픽셀 움직임 추정시 모델 스위칭을 통한 압축 효율을증가시키는 인코딩 방법 및 장치 |
ATE511522T1 (de) * | 2005-12-28 | 2011-06-15 | Exxonmobil Chem Patents Inc | Halogenierungsverfahren |
US7783118B2 (en) * | 2006-07-13 | 2010-08-24 | Seiko Epson Corporation | Method and apparatus for determining motion in images |
US8125510B2 (en) | 2007-01-30 | 2012-02-28 | Ankur Agarwal | Remote workspace sharing |
JPWO2012114975A1 (ja) * | 2011-02-24 | 2014-07-07 | ソニー株式会社 | 画像処理装置および画像処理方法 |
WO2014132748A1 (ja) * | 2013-02-27 | 2014-09-04 | 日立オートモティブシステムズ株式会社 | 撮像装置及び車両制御装置 |
US9727967B2 (en) | 2014-06-23 | 2017-08-08 | Samsung Electronics Co., Ltd. | Methods for determining estimated depth in an image and systems thereof |
US10200666B2 (en) * | 2015-03-04 | 2019-02-05 | Dolby Laboratories Licensing Corporation | Coherent motion estimation for stereoscopic video |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08163565A (ja) * | 1994-12-05 | 1996-06-21 | Canon Inc | 動きベクトル検出方法及びその装置 |
US5929940A (en) * | 1995-10-25 | 1999-07-27 | U.S. Philips Corporation | Method and device for estimating motion between images, system for encoding segmented images |
JPH10108198A (ja) * | 1996-09-30 | 1998-04-24 | Sanyo Electric Co Ltd | 画像領域統合方法 |
-
1998
- 1998-05-27 FR FR9806685A patent/FR2779257B1/fr not_active Expired - Lifetime
-
1999
- 1999-05-25 ES ES99401252T patent/ES2205728T3/es not_active Expired - Lifetime
- 1999-05-25 EP EP99401252A patent/EP0961227B1/fr not_active Expired - Lifetime
- 1999-05-25 DE DE69909892T patent/DE69909892T2/de not_active Expired - Lifetime
- 1999-05-26 US US09/320,147 patent/US6262409B1/en not_active Expired - Lifetime
- 1999-05-27 JP JP14895199A patent/JP4880807B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP4880807B2 (ja) | 2012-02-22 |
DE69909892T2 (de) | 2004-08-05 |
FR2779257B1 (fr) | 2000-08-11 |
FR2779257A1 (fr) | 1999-12-03 |
EP0961227B1 (fr) | 2003-07-30 |
JP2000048207A (ja) | 2000-02-18 |
EP0961227A1 (fr) | 1999-12-01 |
US6262409B1 (en) | 2001-07-17 |
DE69909892D1 (de) | 2003-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632533B2 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
Pandey et al. | Total relighting: learning to relight portraits for background replacement. | |
Pozo et al. | An integrated 6DoF video camera and system design | |
US9117310B2 (en) | Virtual camera system | |
ES2205728T3 (es) | Procedimiento de deteccion de la profundidad relativa entre dos objetos de una escena a partir de un par de imagenes resultantes de tomas de vistas diferentes. | |
Prock et al. | Towards real-time voxel coloring | |
WO2007041657A1 (en) | Photographing big things | |
Goldlucke et al. | Joint 3D-reconstruction and background separation in multiple views using graph cuts | |
Basha et al. | Structure and motion from scene registration | |
Richardt et al. | Dense wide-baseline scene flow from two handheld video cameras | |
US20230217001A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
Niklaus et al. | Learned dual-view reflection removal | |
Liu et al. | Learning to see through obstructions with layered decomposition | |
WO2019213392A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
Cui et al. | Time slice video synthesis by robust video alignment | |
Patel et al. | Comparison of optical flow algorithms for speed determination of moving objects | |
Xu et al. | Spatio-temporal video completion in spherical image sequences | |
Leimkühler et al. | Perceptual real-time 2D-to-3D conversion using cue fusion | |
Wei et al. | Dense and occlusion-robust multi-view stereo for unstructured videos | |
Szeliski et al. | Motion estimation | |
Yang et al. | Multiview video depth estimation with spatial-temporal consistency. | |
Li | A hybrid camera system for low-light imaging | |
Szeliski et al. | Dense motion estimation | |
Berent | Coherent multi-dimensional segmentation of multiview images using a variational framework and applications to image based rendering | |
Čech et al. | Joint disparity and optical flow by correspondence growing |