ES2312881T3 - Modelizacion por computadora de escenas fisicas. - Google Patents

Modelizacion por computadora de escenas fisicas. Download PDF

Info

Publication number
ES2312881T3
ES2312881T3 ES04013783T ES04013783T ES2312881T3 ES 2312881 T3 ES2312881 T3 ES 2312881T3 ES 04013783 T ES04013783 T ES 04013783T ES 04013783 T ES04013783 T ES 04013783T ES 2312881 T3 ES2312881 T3 ES 2312881T3
Authority
ES
Spain
Prior art keywords
image
images
correspondence
neural network
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04013783T
Other languages
English (en)
Inventor
Anders Moden
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Saab AB
Original Assignee
Saab AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saab AB filed Critical Saab AB
Application granted granted Critical
Publication of ES2312881T3 publication Critical patent/ES2312881T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Un procedimiento de modelización automática de una escena física que incluye una pluralidad de objetos, incluyendo el procedimiento: la recepción de al menos dos imágenes (I1, I2) de la escena, imágenes de las que se registra una primera imagen (I1) en una primera posición y un primer ángulo con respecto a la escena y una segunda imagen (I2) que se registra en una segunda posición y en un segundo ángulo con respecto a la escena, donde al menos una de la segunda posición y del segundo ángulo es diferente de la primera posición y del primer ángulo, la puesta en correspondencia de al menos un objeto de imagen en la primera imagen (I 1) contra al menos un objeto de imagen en la segunda imagen (I2) para obtener un resultado de puesta en correspondencia (M12), el cálculo en base al resultado de la puesta en correspondencia (M12), una matriz fundamental (F12) que define una relación entre la primera imagen (I 1) y la segunda imagen (I2) y el cálculo, en base a la matriz fundamental (F12), de un mapa de profundidad (D12) que describe unas diferencias de distancia entre un conjunto de puntos de imagen de la primera imagen (I1) y un conjunto correspondiente de puntos de imagen de la segunda imagen (I2), caracterizado por comprender la etapa de puesta en correspondencia la carga de valores de píxeles para una primera porción de imagen de la primera imagen (I1) dentro de una red neuronal artificial (133), el barrido, por medio de la red neuronal artificial (133), donde la segunda imagen (I2) a la búsqueda de píxeles que representen una segunda porción de imagen correspondiente a la primera porción de imagen, y la determinación de una posición de la segunda porción de imagen tras la cumplimentación de un criterio de puesta en correspondencia de la red neuronal artificial (133) con respecto a las primera y segunda porciones de imagen, en el que el barrido comprende también la generación de una base de datos (134) que representa motivos de imagen que se producen en la primera imagen (I1), y la ejecución del barrido de la segunda imagen (I2) con el soporte de representaciones (R1) de la base de datos (134).

Description

Modelización por computadora de escenas físicas.
Antecedentes de la invención y técnica anterior
La presente invención se refiere en general al campo de la modelización basada en la imagen. Más concretamente la invención se refiere a un procedimiento de modelización automática de una escena física de acuerdo con el preámbulo de la reivindicación 1 y a un aparato correspondiente de acuerdo con el preámbulo de la reivindicación 9. La invención se refiere también a un programa informático de acuerdo con la reivindicación 7 y a un medio legible por computadora de acuerdo con la reivindicación 8.
El procesamiento de imágenes moderno nos ha provisto de unas herramientas de gran eficacia para registrar las propiedades de escenas físicas complejas. Los avances de los gráficos por computadora han posibilitado también una visualización en tiempo real de dichas escenas.
El documento "un sistema de puesta en correspondencia estéreo neuronal jerárquica para la detección de obstáculos en tiempo real utilizando cámaras lineales" de Ruicheck Y, SISTEMAS DE TRANSPORTE INTELIGENTE, 2003, ACTAS 2003 IEEE, OCT. 12-15, 2003, PISCATAWAY, NJ, EE.UU., IEEE, vol. 1, 12 de Octubre de 2003, páginas 299-304 ["INTELLIGENT TRANSPORTATION SYSTEMS", 2003. PROCEEDINGS 203 IEEE, OCT 12-15, 203, PISCATAWAY, NJ. USA, IEEE, vol. 1, 12 October 2003, pages 209-304] XP010673840, ISBN: 0-7803-8125-A, describe un sistema neuronal jerárquico para poner en correspondencia los bordes extraídos de unas imágenes lineales estéreo. La puesta en correspondencia de bordes estéreos a diferentes niveles se lleva a cabo con un procedimiento de red neuronal. En cada nivel, el procedimiento se inicia mediante la selección de los bordes con respecto a su magnitud gradiente. Los bordes seleccionados se ponen entonces en correspondencia con el fin de obtener unos pares de referencia a partir de los cuales los bordes restantes se pondrán en correspondencia en el nivel siguiente. En cada nivel, la tarea de puesta en correspondencia se formula como un problema de optimización donde una función objetiva, que representa las condiciones de la solución, se reduce al mínimo gracias a la red neuronal Hopfield.
Pollefeys, M., "Curso sobre modelización en 3D a partir de imágenes", Katholike Universiteit, Leuven, 26 de Junio de 2000, Dublín, Irlanda ["Tutorial on 3D Modeling from images", Katholike Universiteit, Leuven, 26 June 2000, Dublin, Ireland] en combinación con el ECCV 2000 describe cómo un modelo de superficie tridimensional de una escena puede obtenerse a partir de una secuencia de imágenes tomadas mediante una cámara en movimiento libre. Pollefeys propone la creación de un mapa de profundidad mediante la regulación de diferentes imágenes de los mismos objetos entre sí, por ejemplo en base a la extracción de características y a la correlación cruzada. El mapa de profundidad, a su vez, constituye una base para un modelo tridimensional de la escena en la cual están incluidos los objetos.
Aunque el algoritmo de Pollefeys es sólido y fiable, sigue siendo un procesamiento demasiado concentrado para llevarse a cabo en tiempo real. Así, debe llevarse a cabo una sintetización basada en este algoritmo con anterioridad a cualquier visualización. Por otro lado, los procedimientos de registro activo en los que la luz (por ejemplo láser o infrarroja) se proyecta hacia la escena, pueden posibilitar una generación más rápida. Sin embargo estas estrategias proporcionan una solución sustancialmente inferior (la cual depende de la luz proyectada), y por consiguiente no pueden utilizarse para llevar a cabo un grado satisfactorio de realismo.
Sumario de la invención
El objetivo de la presente invención lo constituye por consiguiente la provisión de una modelización tridimensional mejorada de una escena física, que alivie los problemas expuestos y ofrezca así un medio para generar el mapa de profundidad en tiempo real.
De acuerdo con un aspecto de la invención el objetivo se consigue mediante el procedimiento tal como se describió inicialmente, en el que la etapa de puesta en práctica en correspondencia comporta: la carga de valores de píxeles para una primera porción de imagen de la primera imagen dentro de una red neuronal artificial; el barrido, por medio de la red neuronal artificial, de la segunda imagen a la búsqueda de los píxeles que representen una segunda porción de imagen correspondiente a la primera porción de imagen; y la determinación de una posición de la segunda porción de imagen tras la cumplimentación de un criterio de puesta en correspondencia de la red neuronal artificial con respecto a las primera y segunda porciones de imagen, y el barrido implica además: la generación de una base de datos que representa unos motivos de imagen que se producen en la primera imagen; y la ejecución del barrido de la segunda imagen con el soporte procedente de las representaciones existentes en la base de datos. Esto es deseable porque la base de datos potencia al máximo la eficacia del procedimiento.
Este procedimiento es ventajoso porque la red neuronal artificial posibilita un cambio inmediato entre el aprendizaje y el reconocimiento, y por tanto puede obtenerse un filtrado no lineal eficaz. Así mismo, el procedimiento es completamente automático, y la memoria intermedia de profundidad generada de esta forma es muy apropiada para su uso en un procedimiento de obtención a base de imágenes. En consecuencia, también puede llevarse a cabo una visualización eficaz en tiempo real.
De acuerdo con una forma de realización preferente de este aspecto de la invención, la etapa de puesta en correspondencia incluye: la división de la primera imagen en una pluralidad de primeras zonas de interés, y para cada primera zona de interés; la carga de valores de píxeles para la primera zona de interés dentro de la red neuronal artificial; el barrido, por medio de la red neuronal artificial, de la segunda imagen a la búsqueda de una segunda zona correspondiente a la primera zona de interés; y la determinación de una posición de la segunda zona de la segunda imagen tras la cumplimentación de un criterio de puesta en correspondencia dentro de la red neuronal artificial con respecto a las primeras zonas de interés y a la segunda zona. La división propuesta de la primera imagen en zonas de interés es ventajosa porque de esta forma la búsqueda llevada a cabo en la etapa de barrido subsecuente puede estrecharse de modo sustancial.
De acuerdo con otra forma de realización preferente de este aspecto de la invención, la etapa de puesta en correspondencia incluye una subetapa de filtrado, en la que las primera y segunda imágenes son procesadas (por ejemplo con filtro paso alto) en las correspondientes primera y al menos una segunda imágenes filtradas con respecto a las cuales se llevan a cabo las etapas subsecuentes del procedimiento. De esta forma, se mejora la precisión de la puesta en correspondencia.
De acuerdo con otra forma de realización preferente adicional de este aspecto de la invención, la etapa de filtrado inicial específicamente comporta la aplicación de un operador de detector de borde. Esto, a su vez, mejora en mayor medida la precisión de la puesta en correspondencia subsecuente. De acuerdo con otra forma de realización preferente más de este aspecto de la invención, el procedimiento incluye la calibración del mapa de profundidad en un modelo métrico de la escena física. Concretamente de este modo puede fácilmente llevarse a cabo mediciones con respecto al modelo.
De acuerdo con un aspecto adicional de la invención el objetivo se consigue mediante un programa informático, que puede directamente cargarse en una memoria interna de una computadora, e incluye un software para controlar el procedimiento anteriormente propuesto cuando dicho programa es ejecutado en una computadora.
De acuerdo con otro aspecto de la invención, el objetivo se consigue mediante un medio legible por computadora que incorpora un programa registrado sobre él, donde el programa está reseñado para controlar una computadora para ejecutar el procedimiento anteriormente propuesto.
De acuerdo con otro aspecto de la invención, el objetivo se consigue mediante el aparato inicialmente descrito, en el que el módulo de puesta en correspondencia incluye una red neuronal artificial, la cual está adaptada para poner en correspondencia los objetos de imagen de la primera imagen contra los objetos de imagen de la segunda imagen mediante: la recepción de unos valores de píxeles para al menos una primera porción de la primera imagen; el barrido de la segunda imagen a la búsqueda de píxeles que representen una respectiva segunda porción correspondiente a cada una de la al menos una primera porción; y la determinación de una posición de la respectiva segunda porción tras la cumplimentación de un criterio de puesta en correspondencia con respecto a las primera y segunda porciones, y el aparato incluye una base de datos dentro de la cual está adaptada la red neuronal artificial para almacenar representaciones de motivos de imágenes que se producen en la primera imagen. La red neuoronal artificial está también adaptada para llevar a cabo un barrido de la segunda imagen con el soporte procedente de las representaciones de la base de datos. Esto potencia al máximo la eficacia del aparato.
Una importante ventaja obtenida mediante este aparato es que la red neuronal artificial en el módulo de puesta en correspondencia posibilita un cambio inmediato entre el aprendizaje y el reconocimiento, lo cual a su vez posibilita un eficaz filtrado no lineal. Como resultado de ello, puede llevarse a cabo una visualización plena de recursos en tiempo real de la escena física.
De acuerdo con una forma de realización preferente de este aspecto de la invención, el módulo de puesta en correspondencia incluye unos medios de división, los cuales están adaptados para dividir la primera imagen en una pluralidad de primeras zonas de interés. Para cada primera zona de interés, el módulo de puesta en correspondencia carga unos valores de píxeles para la primera zona de interés dentro de la red neuronal artificial; barre la segunda imagen a la búsqueda de una segunda zona correspondiente a la primera zona de interés; y determina una posición de la segunda zona tras la cumplimentación de un criterio de puesta en correspondencia con respecto a la primera zona de interés y a la segunda zona.
De acuerdo con otra forma de realización preferente más de este aspecto de la invención, el procesador de imagen incluye un primer medio de filtro, que está adaptado para llevar a cabo un filtrado inicial, en el que las primera y segunda imágenes son procesadas en las correspondientes primera y segunda imágenes filtradas con respecto a las cuales los medios de división están adaptados para llevar a cabo las etapas subsecuentes. Este filtrado es ventajoso porque potencia al máximo la precisión de los medios de división. Preferentemente, el medio de filtrado incluye un operador de detección de borde. Concretamente, de esta forma la precisión se mejora aún más.
De acuerdo con otra forma de realización preferente adicional de este aspecto de la invención, la interfaz de imágenes se adapta para que esté conectada a una cámara, la cual registra las al menos dos imágenes, y las suministra al aparato por medio de la interfaz de imágenes. Por consiguiente, se obtiene una disposición de registro de la escena completa.
La solución propuesta utiliza un medio de registro de datos enteramente pasivo. Esto permite que la invención esté bien adaptada para aplicaciones militares, en las que la indetectabilidad es típicamente una cuestión esencial. Así mismo, una estrategia pasiva es en general preferible en extensiones largas, por ejemplo, exteriores, donde las alternativas activas a menudo resultan problemáticas. Un procedimiento pasivo es también ventajoso porque posibilita el análisis y el cálculo de la profundidad de imagen, tanto en tiempo real como posterior. Así mismo, se obtiene una correcta correlación entre la memoria intermedia de imagen y la memoria intermedia de profundidad, dado que esta última se calcula a partir de la primera.
Otras ventajas, características ventajosas y aplicaciones de la presente invención se pondrán de manifiesto a partir de la descripción subsecuente y de las reivindicaciones dependientes.
Breve descripción de los dibujos
La presente invención se expondrá a continuación con mayor detenimiento por medio de determinadas formas de realización preferentes, las cuales se divulgan como ejemplos, y con referencia a los dibujos adjuntos.
La Figura 1 muestra un diagrama de bloques acerca de un aparato de acuerdo con una forma de realización de la invención, y
la Figura 2 ilustra, por medio de un diagrama de flujo, un procedimiento general de modelación automática de una escena física de acuerdo con la invención.
Descripción de determinadas formas de realización preferentes de la invención
Un aparato 100 para la modelización automática de una escena física de acuerdo con una forma de realización de la invención se ilustra por medio de un diagrama de bloques en la figura 1. Se presume que la escena que va a ser modelizada incluye al menos un objeto, como por ejemplo un edificio, un vehículo o un árbol, el cual tiene determinadas dimensiones y propiedades superficiales.
El aparato 100 incluye una interfaz de imagen 110, un precursor de imagen 120, un módulo de puesta en correspondencia 130 y al menos un módulo de cálculo 140 y 150. Preferentemente, el aparato 100 contiene también una unidad de procesamiento central 170 para el control de funcionamiento de los demás módulos y unidades situadas en aquél. La unidad de procesamiento central 170, a su vez, funciona de acuerdo con un programa informático, el cual está almacenado en un medio legible por computadora 180 asociado con el aparato 100.
La interfaz de imagen 110 está adaptada para recibir una pluralidad de imágenes I_{1} e I_{2} (al menos dos) de la escena que va a ser modelizada. Preferentemente, la interfaz de imagen 110 está adaptada para ser conectada a una cámara (por ejemplo una cámara de vídeo), la cual a su vez, registra las imágenes I_{1} e I_{2}. Una primera imagen I_{1} es registrada en una primera posición y en un primer ángulo con respecto a la escena, y una segunda imagen I_{2} es registrada en una segunda posición y en un segundo ángulo con respecto a la escena. La segunda posición y/o el segundo ángulo son aquí diferentes en una primera posición y/o del primer ángulo, de forma que el contenido de las imágenes I_{1} e I_{2} son diferentes hasta cierto punto. El preprocesador de imagen 120 está adaptado para ajustar los niveles de intensidad de las imágenes recibidas I_{1} e I_{2,} de forma que un procesamiento de imágenes subsecuente se efectúa de manera independiente de cualquier diferencia inicial en un nivel de interferencia absoluto entre las imágenes recibidas I_{1} e I_{2}. En la práctica, este preprocesamiento normalmente comporta un filtrado paso alto I_{1} e I_{2}.
El módulo de puesta en correspondencia 130 está adaptado para poner en correspondencia los objetos de imagen de la primera imagen I_{1} contra los objetos de imagen de la segunda imagen I_{2}, y en respuesta a ello producir un resultado de puesta en correspondencia M_{12} que describe una relación entre las primera y segunda imágenes. De acuerdo con la invención, el módulo de puesta en correspondencia 130 incluye una red neuronal artificial 133, la cual está adaptada para poner en correspondencia los objetos de imagen de la primera imagen I_{2} contra los objetos de imagen de la segunda imagen I_{2} mediante la recepción de valores de píxeles para al menos una primera porción de la primera imagen I_{2}. A continuación, la red neuoronal artificial 133 barre la segunda imagen I_{2} a la búsqueda de píxeles que representen una segunda porción correspondiente a cada una de la al menos primera porción. Tras la cumplimentación del criterio de puesta en correspondencia con respecto a las primera y segunda porciones, la red neuronal artificial 133 determina una posición de la respectiva segunda porción, y suministra un resultado de puesta en correspondencia M_{12} que refleja esta información.
De acuerdo con una forma de realización preferente de la invención, el módulo de puesta en correspondencia 130 está asociado con, o incluye, una base de datos 134 dentro de la cual está adaptada la red neuronal artificial 133 para almacenar las representaciones R_{1} de los motivos de imagen que tienen lugar en la primera imagen. La red neuronal artificial 133 está por tanto adaptada además para llevar a cabo el barrido de la segunda imagen I_{2} con el soporte procedente de las representaciones R_{1} existentes en la base de datos 134.
De acuerdo con otra forma de realización preferente de la invención, el módulo de puesta en correspondencia 130 incluye unos medios de división 132, los cuales están adaptados para dividir la primera imagen I_{1} en una pluralidad de zonas de interés. Para cada primera zona de interés el módulo de puesta en correspondencia 130 carga los valore de píxeles para la primera zona de interés dentro de la red neuronal artificial 133; controla la red neuronal artificial 133 para barrer la segunda imagen I_{1} a la búsqueda de una segunda zona correspondiente a la primera zona de interés; y tras la cumplimentación de un criterio de puesta en correspondencia, con respecto a la primera zona de interés y a la segunda zona, determina una posición de la segunda zona.
Preferentemente, el preprocesador de imagen 120 contiene unos medios de filtro, como por ejemplo un operador de detección de borde, que está adaptado para ejecutar un filtrado inicial de las primera y segunda imágenes I_{1} e I_{2}. Los medios de filtro procesan las imágenes I_{1} e I_{2} convirtiéndolas en unas correspondientes primera y segunda imágenes filtradas I_{1F} e I_{2F} con respecto a las cuales los medios de división 132, están adaptados para llevar a cabo las etapas subsecuentes.
Un primer módulo de cálculo 140 está adaptado para recibir el resultado de puesta en correspondencia M_{12} a partir del módulo de puesta en correspondencia 130. En base a este resultado de puesta en correspondencia M_{12}, el primer módulo de cálculo 140 calcula una matriz fundamental F_{12} que define una relación entre la primera imagen I_{1} y la segunda imagen I_{2}. Con el fin de producir la matriz fundamental F_{12}, sin embargo, se requieren varias puestas en correspondencia (típicamente al menos nueve). Por ejemplo, la matriz fundamental F_{12} puede describir dispersiones (o diferencias) en los valores de píxeles entre las imágenes I_{1} e I_{2}. Un segundo módulo de cálculo 150 está adaptado para recibir la matriz fundamental F_{12}, y en base a ello calcular un mapa de profundidad D_{12}, el cual describe las diferencias de distancia (esto es profundidad) entre un conjunto de puntos de imagen de la primera imagen I_{1} y un correspondiente conjunto de puntos de imagen de la segunda imagen I_{2}. Por supuesto, los cálculos de la matriz fundamental - mapa de profundidad pueden igualmente llevarse perfectamente a cabo en un módulo o unidad única, como en los dos módulos anteriormente descritos 140 y 150.
De acuerdo con otra forma de realización preferente de la invención, el aparato 100 incluye unos medios de calibración 160 que están adaptados para calibrar el mapa de profundidad D_{12} convirtiéndolo en un modelo métrico D_{12-m} de la escena física. De esta forma, el modelo puede ser utilizado para llevar a cabo las mediciones convenientes de la escena física.
A modo de resumen, el procedimiento general de modelización automática de una escena física de acuerdo con la invención se describirá a continuación con referencia a la Figura 2.
Una primera etapa 205 recibe al menos dos imágenes de la escena, por ejemplo una imagen quieta - o una cámara de vídeo. Por razones de claridad en la exposición, sin embargo, el procedimiento que sigue supone que solo se reciben dos imágenes. No obstante, de acuerdo con la invención el procedimiento es aplicable a una multiplicidad de imágenes superiores a o igual a dos. En cualquier caso, una primera imagen de estas imágenes se supone que va a ser registrada en una primera posición y en un primer ángulo con respecto a la escena, y una segunda imagen se supone que va a ser registrada en una segunda posición y en un segundo ángulo con respecto a la escena, donde al menos una entre la segunda posición y el segundo ángulo es diferente de la segunda posición y del primer ángulo.
A continuación, una etapa 210 preprocesa las imágenes recibidas mediante el ajuste de los niveles de intensidad de las imágenes, de forma que se ejecuta un procesamiento de imágenes subsecuente de manera independiente de cualquier diferencia inicial en un nivel de intensidad absoluto entre las imágenes recibidas. A continuación, una etapa 215 carga unos valores de píxeles para una porción de imagen de una primera imagen dentro de una red neuronal artificial.
A continuación, por medio de la red neuronal artificial, una etapa 220 barre la segunda imagen a la búsqueda de píxeles que presenten la porción de la segunda imagen correspondiente a la porción de la primera imagen. Una etapa subsecuente 225 investiga si se ha encontrado una correspondencia, y si es así una etapa 230 sigue a continuación. En otro caso, el procedimiento retorna a la etapa 220.
La etapa 230 determina una posición de la segunda porción de imagen donde la red neuronal artificial encontró que se cumplimentaba que el criterio de puesta en correspondencia. A continuación una etapa 235 verifica si la entera segunda imagen ha sido ya barrida, y si no el procedimiento vuelve a la etapa 220, de forma que la búsqueda puede continuar después de cualquier puesta en correspondencia mejor. Si la etapa 235 encuentra que la entera segunda imagen ha sido barrida una etapa 240 verifica si existe cualquier porción de imagen adicional de la primera imagen para su puesta en correspondencia contra la segunda imagen, y si es así el procedimiento vuelve a la etapa 205. En otro caso, se produce un resultado de puesta en correspondencia en base a las (posiblemente reiteradas) puestas en correspondencia determinadas en la etapa 230, y una etapa 245 sigue a continuación. Aquí, se calcula una matriz fundamental, la cual define una relación entre la primera imagen y la segunda imagen. A continuación, una etapa 250 calcula, en base a la matriz fundamental, un mapa de profundidad que describe las diferencias de distancia entre un conjunto de puntos de imagen de la primera imagen y un conjunto correspondiente de puntos de imagen de la segunda imagen. Finalmente, el mapa de profundidad sirve como base para la generación del modelo de la escena física registrada por las al menos dos imágenes.
Todas las etapas del proceso, así como cualquier etapa subsecuente, descrita con referencia a la Figura 2 anterior pueden ser controladas por medio de un aparato informático programado. Así mismo, aunque las formas de realización de la invención anteriormente descritas con referencia a los dibujos comprenden un aparato informático y unos procesos ejecutados en un aparato informático, la invención se extiende así a programas informáticos, concretamente a programas informáticos sobre o en un soporte, adaptado para poner en práctica la invención. El programa puede consistir en un código fuente; en un código objeto, o una fuente intermedia de código y en un código objeto como por ejemplo en forma parcialmente compilado, o en cualquier otra forma apropiada para su uso en la implementación del proceso de acuerdo con la invención. El soporte puede ser cualquier entidad o dispositivo capaz de llevar a cabo el programa. Por ejemplo, el soporte puede comprender un medio de almacenaje como por ejemplo una memoria Flash, una ROM (Memoria de Solo Lectura), por ejemplo un CD (Disco Compacto) o una ROM semiconductora, una EPROM (Memoria de Solo Lectura Programable Borrable) una EEPROM (Memoria de Solo Lectura Programable Eléctricamente Borrable), o un medio de registro magnético, por ejemplo un disco flexible o un disco duro. Así mismo, el soporte puede ser un soporte transmisible como por ejemplo una señal eléctrica u óptica que pueda ser transportada por medio de un cable eléctrico u óptico, o por radio o por cualquier otro medio. Cuando el programa esté incorporado en una señal que puede ser transportada directamente por un cable u otro dispositivo o medio, el soporte puede estar constituido por dicho cable, o dispositivo o medio. Como alternativa, el soporte puede ser un circuito integrado en el cual esté incrustado el programa, estando el circuito adaptado para llevar a cabo, o para su uso en la realización de los procesos relevantes.
El término "comprende(n) / que comprende(n)" cuando se utilice(n) en esta memoria descriptiva se adopta(n) para especificar la presencia de las características, números enteros, etapas o componentes expuestos. Sin embargo, el término no precluye la presencia o adición de una o más características, números enteros, etapas o componentes, grupos de éstos adicionales.
La invención no queda restringida a las formas de realización descritas en las figuras, sino que puede modificarse libremente dentro del alcance de las reivindicaciones.

Claims (15)

1. Un procedimiento de modelización automática de una escena física que incluye una pluralidad de objetos, incluyendo el procedimiento:
la recepción de al menos dos imágenes (I_{1}, I_{2}) de la escena, imágenes de las que se registra una primera imagen (I_{1}) en una primera posición y un primer ángulo con respecto a la escena y una segunda imagen (I_{2}) que se registra en una segunda posición y en un segundo ángulo con respecto a la escena, donde al menos una de la segunda posición y del segundo ángulo es diferente de la primera posición y del primer ángulo,
la puesta en correspondencia de al menos un objeto de imagen en la primera imagen (I_{1}) contra al menos un objeto de imagen en la segunda imagen (I_{2}) para obtener un resultado de puesta en correspondencia (M_{12}),
el cálculo en base al resultado de la puesta en correspondencia (M_{12}), una matriz fundamental (F_{12}) que define una relación entre la primera imagen (I_{1}) y la segunda imagen (I_{2}) y
el cálculo, en base a la matriz fundamental (F_{12}), de un mapa de profundidad (D_{12}) que describe unas diferencias de distancia entre un conjunto de puntos de imagen de la primera imagen (I_{1}) y un conjunto correspondiente de puntos de imagen de la segunda imagen (I_{2}), caracterizado por comprender la etapa de puesta en correspondencia
la carga de valores de píxeles para una primera porción de imagen de la primera imagen (I_{1}) dentro de una red neuronal artificial (133),
el barrido, por medio de la red neuronal artificial (133), donde la segunda imagen (I_{2}) a la búsqueda de píxeles que representen una segunda porción de imagen correspondiente a la primera porción de imagen, y
la determinación de una posición de la segunda porción de imagen tras la cumplimentación de un criterio de puesta en correspondencia de la red neuronal artificial (133) con respecto a las primera y segunda porciones de imagen,
en el que el barrido comprende también
la generación de una base de datos (134) que representa motivos de imagen que se producen en la primera imagen (I_{1}), y
la ejecución del barrido de la segunda imagen (I_{2}) con el soporte de representaciones (R_{1}) de la base de datos (134).
2. Un procedimiento de acuerdo con la reivindicación 1, caracterizado por comprender la etapa de puesta en correspondencia
la división de la primera imagen (I_{1}) en una primera pluralidad de primeras zonas de interés, y para cada primera zona de interés
la carga de valores de píxeles para la primera zona de interés dentro de la red neuronal artificial (133),
el barrido, por medio de la red neuronal artificial (133), de la segunda imagen (I_{2}) a la búsqueda de una segunda zona correspondiente a la primera zona de interés, y
la determinación de una posición de la segunda zona de la segunda imagen (I_{2}) tras la cumplimentación de un criterio de puesta en correspondencia de la red neuronal artificial (133) con respecto a las primeras zonas de interés y a las segundas zonas.
3. Un procedimiento de acuerdo con la reivindicación 2, caracterizado por comprender la etapa de puesta en correspondencia una subetapa de filtrado en la que las primera y segunda imágenes (I_{1}, I_{2}) son procesadas en las correspondientes primera y al menos una segunda imágenes filtradas (I_{1F}, I_{2F}) con respecto a las cuales se llevan a cabo las subsecuentes etapas del procedimiento.
4. Un procedimiento de acuerdo con la reivindicación 3, caracterizado por comportar la etapa de filtrado inicial la operación de un operador de detección de borde.
5. Un procedimiento de acuerdo con una cualquiera de las reivindicaciones precedentes, caracterizado por la calibración del mapa de profundidad (D_{12}) en un modelo métrico de la escera física.
6. Un procedimiento de acuerdo con una cualquiera de las reivindicaciones precedentes, caracterizado por el preprocesamiento de las imágenes recibidas (I_{1,} I_{2}) mediante el ajuste de los niveles de la intensidad de las imágenes (I_{1}, I_{2}), de forma que se lleve a cabo un procesamiento de imágenes subsecuente con independencia de cualquier diferencia inicial en un nivel de intensidad absoluto entre las imágenes recibidas (I_{1}, I_{2}).
7. Un programa informático que puede cargarse directamente en una memoria interna de una computadora, que comprende un software para el control de las etapas de cualquiera de las reivindicaciones 1 a 6 cuando dicho programa es ejecutado en una computadora.
8. Un medio legible por computadora (180) que tiene un programa registrado en él, donde el programa está destinado a llevar a cabo un control por computadora de las etapas de cualquiera de las reivindicaciones 1 a 6.
9. Un aparato (100) de modelización automática de una escena física que incluye una pluralidad de objetos, comprendiendo el aparato:
una interfaz de imagen (110) adaptada para recibir al menos dos imágenes (I_{1}, I_{2}) de la escena, imágenes de las cuales una primera imagen (I_{1}) es registrada en una primera posición y en un primer ángulo con respecto a la escena y una segunda imagen (I_{2}) es registrada en una segunda posición y en un segundo ángulo con respecto a la escena donde al menos uno entre la segunda posición y el segundo ángulo es diferente de la primera posición y del primer ángulo, un módulo de puesta en correspondencia (130) adaptado para poner en correspondencia objetos de imagen de la primera imagen (I_{1}) contra objetos de imagen de la segunda imagen (I_{2}), y en respuesta a ello producir un resultado de puesta en correspondencia (M_{12}),
un primer módulo de cálculo (140) adaptado para recibir el resultado de puesta en correspondencia (M_{12}), y en base a ello calcular una matriz fundamental (F_{12}) que define una relación entre la primera imagen (I_{1}) y la segunda imagen (I_{2}), y
un segundo módulo de cálculo (150) adaptado para recibir la matriz fundamental (F_{12}), y en base a ello calcular un mapa de profundidad (D_{12}) que describe diferencias de distancias entre un conjunto de puntos de imagen de la primera imagen (I_{1}) y un conjunto correspondiente de puntos de imagen de la segunda imagen (I_{2})
caracterizado porque
el módulo de puesta en correspondencia (130) comprende una red neuronal artificial (133) que está adaptada para poner en correspondencia los objetos de imagen de la primera imagen (I_{1}) contra los objetos de la segunda imagen (I_{2}) mediante
la recepción de valores de píxeles en al menos una primera porción de la primera imagen (I_{1}),
el barrido de la segunda imagen (I_{2}) a la búsqueda de píxeles que representen una respectiva segunda porción correspondiente a cada una de la al menos una primera porción, y
la determinación de una posición de la segunda porción respectiva tras la cumplimentación del criterio de puesta en correspondencia con respecto a la primera y segunda porciones,
y porque el aparato comprende una base de datos (134) dentro de la cual está adaptada la red neuronal artificial para almacenar las representaciones (R_{1}) de motivos de imagen que se producen en la primera imagen, y la red neuronal artificial está también adaptada para llevar a cabo el barrido de la segunda imagen (I_{2}) con el soporte de las representaciones (R_{1}) de la base de datos (134).
10. Un aparato (100) de acuerdo con la reivindicación 9, caracterizado porque el módulo de puesta en correspondencia (130) comprende unos medios de división (132) adaptados para dividir la primera imagen (I_{1}) en una primera pluralidad de primeras zonas de interés, para cada primera zona de interés el módulo de puesta en correspondencia está adaptado para
cargar valores de píxeles para la primera zona de interés dentro de la red neuronal artificial (133),
barrer la segunda imagen (I_{2}) a la búsqueda de una segunda zona de correspondencia con la primera zona de interés, y
determinar una posición de la segunda zona tras la cumplimentación de un criterio de puesta en correspondencia con respecto a las primeras zonas de interés y a la segunda zona.
11. Un aparato (100) de acuerdo con la reivindicación 10, caracterizado porque comprende un preprocesador de imagen (120) adaptado para ajustar los niveles de intensidad de las imágenes recibidas (I_{1}, I_{2}) de forma que un procesamiento de imagen subsecuente se lleva a cabo de manera independiente a partir de cualquier diferencia inicial en un nivel de intensidad absoluto entre las imágenes recibidas (I_{1}, I_{2}).
\newpage
12. Un aparato (100) de acuerdo con la reivindicación 11, caracterizado porque el preprocesador de imagen (120) comprende unos medios de filtro para llevar a cabo un filtrado inicial en el que las primera y segunda imágenes (I_{1}, I_{2}) son procesadas hasta convertirse en unas primera y segunda imágenes filtradas (I_{1F}, I_{2F}), con respecto a las cuales están adaptados los medios de división (132) para llevar a cabo las etapas subsecuentes.
13. Un aparato (100) de acuerdo con la reivindicación 12, caracterizado porque los medios de filtro comprenden un operador de detección de borde.
14. Un aparato (100) de acuerdo con una cualquiera de las reivindicaciones 9 a 13, caracterizado porque comprende unos medios de calibración (160) adaptados para calibrar el mapa de profanidad (D_{12}) convirtiéndolo en un modelo métrico (D_{12-m}) de la escena física.
15. Un aparato (100) de acuerdo con una cualquiera de las reivindicaciones 9 a 14, caracterizado porque la interfaz de imagen (110) está adaptada para ser conectada a una cámara, dicha cámara está adaptada para registrar las al menos dos imágenes (I_{1}, I_{2}), y suministrar las imágenes (I_{1}, I_{2}) al aparato (100) por medio de la interfaz de imagen (110).
ES04013783T 2004-06-11 2004-06-11 Modelizacion por computadora de escenas fisicas. Expired - Lifetime ES2312881T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP04013783A EP1612731B1 (en) 2004-06-11 2004-06-11 Computer modeling of physical scenes

Publications (1)

Publication Number Publication Date
ES2312881T3 true ES2312881T3 (es) 2009-03-01

Family

ID=34925334

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04013783T Expired - Lifetime ES2312881T3 (es) 2004-06-11 2004-06-11 Modelizacion por computadora de escenas fisicas.

Country Status (6)

Country Link
US (1) US7813543B2 (es)
EP (1) EP1612731B1 (es)
AT (1) ATE404950T1 (es)
DE (1) DE602004015759D1 (es)
ES (1) ES2312881T3 (es)
WO (1) WO2005122091A1 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698270B2 (en) * 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
EP3057016A1 (en) 2007-02-14 2016-08-17 NIKE Innovate C.V. Collection and display of athletic information
US9030536B2 (en) 2010-06-04 2015-05-12 At&T Intellectual Property I, Lp Apparatus and method for presenting media content
US9787974B2 (en) 2010-06-30 2017-10-10 At&T Intellectual Property I, L.P. Method and apparatus for delivering media content
US8918831B2 (en) 2010-07-06 2014-12-23 At&T Intellectual Property I, Lp Method and apparatus for managing a presentation of media content
US9049426B2 (en) 2010-07-07 2015-06-02 At&T Intellectual Property I, Lp Apparatus and method for distributing three dimensional media content
US9560406B2 (en) 2010-07-20 2017-01-31 At&T Intellectual Property I, L.P. Method and apparatus for adapting a presentation of media content
US9232274B2 (en) 2010-07-20 2016-01-05 At&T Intellectual Property I, L.P. Apparatus for adapting a presentation of media content to a requesting device
US9032470B2 (en) 2010-07-20 2015-05-12 At&T Intellectual Property I, Lp Apparatus for adapting a presentation of media content according to a position of a viewing apparatus
US8994716B2 (en) * 2010-08-02 2015-03-31 At&T Intellectual Property I, Lp Apparatus and method for providing media content
US8438502B2 (en) 2010-08-25 2013-05-07 At&T Intellectual Property I, L.P. Apparatus for controlling three-dimensional images
US8947511B2 (en) 2010-10-01 2015-02-03 At&T Intellectual Property I, L.P. Apparatus and method for presenting three-dimensional media content
US8692827B1 (en) * 2011-01-24 2014-04-08 Google Inc. Carving buildings from a three-dimensional model, and applications thereof
US9602766B2 (en) 2011-06-24 2017-03-21 At&T Intellectual Property I, L.P. Apparatus and method for presenting three dimensional objects with telepresence
US9445046B2 (en) 2011-06-24 2016-09-13 At&T Intellectual Property I, L.P. Apparatus and method for presenting media content with telepresence
US8947497B2 (en) 2011-06-24 2015-02-03 At&T Intellectual Property I, Lp Apparatus and method for managing telepresence sessions
US9030522B2 (en) 2011-06-24 2015-05-12 At&T Intellectual Property I, Lp Apparatus and method for providing media content
US8587635B2 (en) 2011-07-15 2013-11-19 At&T Intellectual Property I, L.P. Apparatus and method for providing media services with telepresence
KR101875532B1 (ko) * 2011-11-23 2018-07-11 엘지이노텍 주식회사 계층적 스테레오 매칭 장치 및 방법
IN2013CH05313A (es) * 2013-11-18 2015-05-29 Nokia Corp
US9836765B2 (en) 2014-05-19 2017-12-05 Kibo Software, Inc. System and method for context-aware recommendation through user activity change detection
US10460511B2 (en) * 2016-09-23 2019-10-29 Blue Vision Labs UK Limited Method and system for creating a virtual 3D model
WO2019089039A1 (en) * 2017-11-03 2019-05-09 Google Llc Aperture supervision for single-view depth prediction
CN109087383B (zh) * 2018-08-06 2023-01-06 林嘉恒 组合式偏差分离特征提取扫描方法及系统
IT201900001749A1 (it) 2019-02-06 2020-08-06 Primeconcept S R L Sistema di controllo di un processo soggetto a regole di esecuzione.
US11593581B2 (en) 2019-02-28 2023-02-28 Stats Llc System and method for calibrating moving camera capturing broadcast video

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644651A (en) * 1995-03-31 1997-07-01 Nec Research Institute, Inc. Method for the estimation of rotation between two frames via epipolar search for use in a three-dimensional representation
US6556704B1 (en) * 1999-08-25 2003-04-29 Eastman Kodak Company Method for forming a depth image from digital image data

Also Published As

Publication number Publication date
ATE404950T1 (de) 2008-08-15
EP1612731B1 (en) 2008-08-13
WO2005122091A1 (en) 2005-12-22
EP1612731A1 (en) 2006-01-04
DE602004015759D1 (es) 2008-09-25
US20070250465A1 (en) 2007-10-25
US7813543B2 (en) 2010-10-12

Similar Documents

Publication Publication Date Title
ES2312881T3 (es) Modelizacion por computadora de escenas fisicas.
Toft et al. Long-term visual localization revisited
Liang et al. Forest data collection using terrestrial image-based point clouds from a handheld camera compared to terrestrial and personal laser scanning
Schops et al. A multi-view stereo benchmark with high-resolution images and multi-camera videos
Khaloo et al. Hierarchical dense structure-from-motion reconstructions for infrastructure condition assessment
US7509241B2 (en) Method and apparatus for automatically generating a site model
CN109242890A (zh) 用于飞行器的激光散斑系统和方法
US20090154793A1 (en) Digital photogrammetric method and apparatus using intergrated modeling of different types of sensors
CN110223389B (zh) 融合图像与激光数据的场景建模方法、系统、装置
KR102338763B1 (ko) V2x 정보 융합을 이용하여 hd 맵을 업데이트하기 위한 자차량 위치 결정을 수행하는 방법 및 장치
CN105981086A (zh) 自身位置计算装置以及自身位置计算方法
KR102543871B1 (ko) 도로정보 변화 영역 보완 방법 및 시스템
CN107134006A (zh) 创建物理场景模型的方法和装置、辅助驾驶的方法和装置
CN112254670B (zh) 一种基于光扫描和智能视觉融合的3d信息采集设备
Patrucco et al. Thermal and optical data fusion supporting built heritage analyses
Zhang et al. Photogrammetric modeling of linear features with generalized point photogrammetry
CN111340889A (zh) 基于车载激光扫描自动获取匹配图像块与点云球的方法
Restrepo et al. Evaluation of feature-based 3-d registration of probabilistic volumetric scenes
CN111316324A (zh) 一种自动驾驶模拟系统、方法、设备及存储介质
JPWO2020153264A1 (ja) 校正方法および校正装置
Church The forensic utility of photogrammetry in surface scene documentation
CN112489190B (zh) 一种全自动室内扫描方法、系统及计算机可读存储介质
Bay et al. 3D from line segments in two poorly-textured, uncalibrated images
Kiriiak Development and implementation of technical decision for digital support of construction using photogrammetry methods
KR20060087649A (ko) 레이저 영상측량 장치