ES2695157T3

ES2695157T3 - Método de renderización

Info

Publication number: ES2695157T3
Application number: ES15168192T
Authority: ES
Inventors: Marcel Germann; Stadler Stephan Würmlin; Richard Keiser; Remo Ziegler; Christoph Niederberger; Alexander Hornung; Markus Gross
Original assignee: Vizrt AG
Current assignee: Vizrt AG
Priority date: 2010-04-30
Filing date: 2011-04-29
Publication date: 2019-01-02
Anticipated expiration: 2031-04-29
Also published as: EP2930689A1; JP5784356B2; JP2011238222A; EP2383696A1; EP2383699A2; ES2553258T3; EP2383699A3; US20110267344A1; US8830236B2; EP2930689B1; EP2383699B1

Abstract

Un método implementado por ordenador para la renderización (representación) de una imagen virtual (12) vista desde una cámara virtual (11), dado un modelo de objeto articulado (4), en el que el modelo de objeto articulado (4) es un modelo en 3D basado en ordenador (1) de un objeto del mundo real (14) observado por dos o más cámaras de origen (9), y el modelo de objeto articulado (4) representa una pluralidad de articulaciones (2) y de enlaces (3) que enlazan las articulaciones (2), y en el que la pose del modelo de objeto articulado (4) está definido por la localización espacial de las articulaciones (2), el método comprende los pasos de - determinar una estimación de la pose en 3D, es decir, las posiciones de las articulaciones en 3D del modelo de objeto articulado (4); - asociar cada enlace (3) con una o más superficies de proyección (5), en las que las superficies de proyección (5) son superficies definidas en el modelo en 3D, y la posición y la orientación de cada superficie de proyección (5) están determinadas por la posición y la orientación del enlace asociado (3); - en el que las superficies de proyección (5), para cada enlace (3), comprenden un abanico (7) de 15 carteleras (6), cada cartelera (6) está asociada con una cámara de origen (9), y cada cartelera es una superficie plana atravesada por su enlace asociado (3) y un vector que es normal tanto a este enlace (3) como a una línea que conecta un punto del enlace (3) a la cámara de origen (9); - para cada cámara de origen (9), proyectar segmentos de la imagen de origen asociada (10) sobre la cartelera asociada (6) , lo que crea las imágenes de cartelera; - para cada enlace (3), proyectar las imágenes de cartelera en la imagen virtual (12) y mezclar las imágenes de cartelera para formar una parte correspondiente de la imagen virtual (12).

Description

DESCRIPCION

Metodo de renderizacion

Campo de la invencion

La invencion se refiere al campo del procesamiento de imagenes de video. Se refiere a un metodo para la renderizacion (representacion) de una imagen virtual vista desde una camara virtual.

Antecedentes de la invencion

La renderizacion basada en imagenes (IBR, por sus siglas en ingles) se introdujo en el trabajo pionero de Levoy et al. [LH96] y Gortler et al. [GGSC96]. El objetivo basico es simple: IBR se esfuerza por crear una sensacion de una escena del mundo real en 3D basada en datos de imagenes capturadas. Muchos trabajos posteriores han explorado los fundamentos teoricos, por ej., la dependencia de la geometrfa y las imagenes relativas al requerimiento de muestreo minimo [CCST00], o han desarrollado implementaciones mas eficientes y menos restrictivas [BBM*01]. Una importante vision general de estos trabajos es que un proxy geometrico suficientemente preciso de la escena reduce considerablemente el numero de imagenes de entrada requeridas.

Un pequeno numero de vistas de entrada es un requisito previo importante para la aplicacion de IBR en entornos y aplicaciones del mundo real. Un ejemplo destacado es la retransmision deportiva, donde observamos una creciente demanda de repeticion de punto de vista libre para el analisis de la escena. Sin embargo, para estas y la mayorfa de las otras aplicaciones que no son de estudio, IBR deberfa operar sobre la base de la infraestructura existente, tales como camaras de television operadas manualmente. Esto plantea la cuestion fundamental de como podemos generar robustamente un proxy geometrico suficientemente preciso, a pesar de las camaras de lfnea de base ancha, las condiciones de adquisicion no controladas, la baja calidad de la textura y resolucion, y la calibracion de camara inexacta. Estos problemas son aun mas graves para el procesamiento de secuencias de video en lugar de las imagenes fijas. En estas dificiles condiciones del mundo real, las tecnicas de reconstruccion 3D clasicas tales como cascos visuales [MBR*00] o estereo de multiples vistas [Mid09] por lo general son inaplicables. Debido a las dificultades involucradas, uno de los enfoques actualmente mas populares en este campo sigue siendo el uso de carteleras planas simples [HS06], a pesar de los artefactos visuales inevitables tales como imagenes fantasmas.

Existe una variedad de diferentes representaciones en 3D y metodos de renderizado que utilizan imagenes o videos como origen. La mayorfa de ellos estan estrechamente relacionados con determinadas configuraciones de adquisicion:

Si muchas camaras con diferentes puntos de vista estan disponibles, se puede calcular el campo de luz [LH96] de la escena, el cual representa la radiacion como una funcion del espacio. Buehler et al. [BBM*01] generaliza este enfoque para incluir proxys geometricos. El sistema EyeVision utilizado para la Super Bowl [Eye09] utiliza mas de 30 camaras controladas para las repeticiones de los eventos deportivos. El metodo de Reche et al. [RMD04] para los arboles requiere de 20 a 30 imagenes por objeto. Un enfoque reciente de Mahajan et al. [MHM*09] utiliza interpolacion de vista basada en gradientes. En contraste con estos metodos, este metodo no requiere una densa colocacion de la camara.

Muchos metodos utilizan, ademas, datos de intervalo o estimacion de profundidad en su representacion. Shade et al. [SGwHS98] utiliza la informacion de profundidad estimada para la representacion de imagenes en capas de profundidad. Waschbusch et al. [WWG07] utiliza el color y la profundidad para calcular nubes de cartelera de video en 3D, que permite representaciones de alta calidad desde puntos de vista arbitrarios. Pekelny y Gotsman [PG08] utilizan un unico sensor de profundidad para la reconstruccion de la geometrfa de un personaje articulado. Si bien estos metodos requieren ya sea datos de profundidad o siluetas precisas y densas, esto no esta disponible en las escenas no controladas con solo unas pocas camaras de video y calibraciones debiles.

Se propusieron varios metodos para la coincidencia de siluetas basada en plantillas para configuraciones de estudio controladas [CTMS03, VBMP08, dAST*08]. Para la representacion de punto de vista libre, las imagenes de la camara se mezclan sobre la superficie de un modelo de plantilla coincidente o deformado. Sin embargo, estos metodos requieren imagenes de origen exactas de configuraciones de estudio, mientras que las carteleras articuladas se pueden utilizar con camaras escasamente colocadas y calibradas incorrectamente. En estas situaciones, la geometrfa de carteleras articuladas es mucho mas robusta frente a errores que, por ej., un modelo de cuerpo de la plantilla completo en el que la textura tiene que ser proyectada con precision sobre partes curvadas y con frecuencia delgadas (por ej., un brazo). Ademas, los modelos de plantilla 3D altamente teselados que por lo general se requieren no son eficientes para la representacion de los sujetos a menudo pequenos con baja calidad de textura y resolucion. Debevec et al.

[DTM96] propuso un metodo que utiliza la correspondencia estereo con un modelo en 3D simple. Sin embargo, se aplica a la arquitectura y no es directamente ampliable a figuras articuladas sin lfneas rectas.

Recientemente, los metodos mejorados para cascos visuales, el casco visual conservador y el casco visual dependiente de la vista, mostraron resultados prometedores [GTH*07, KSHG07]. Sin embargo, estos metodos estan basados en el tallado de volumen que requiere posiciones de camara seleccionadas para eliminar partes no corporales en todos los lados del sujeto. Este metodo no requiere una configuracion especial de la camara y se puede utilizar con solo dos camaras de origen para exhibir, por ejemplo, la perspectiva de vista de pajaro desde un punto de vista por encima de las posiciones de todas las camaras. Un trabajo reciente de Guillemaut et al. [GKH09] aborda muchos retos para el video de punto de vista libre en las retransmisiones deportivas por medio de la optimizacion conjunta de la segmentacion de escenas y la reconstruccion de multiples vistas. Su enfoque esta dando lugar a una geometria mas precisa que el casco visual, pero aun requiere un numero bastante grande de camaras colocadas en forma bastante densa (6 a 12). Se compara nuestro metodo con sus resultados de reconstruccion en la Seccion 7.

Un metodo simple para configuraciones no controladas es la mezcla entre carteleras [HS06] por sujeto y camara. Sin embargo, este tipo de carteleras estandar sufre de artefactos de efecto fantasma y no conservan la pose del cuerpo en 3D de una persona debido a su representacion plana. La idea de subdividir el cuerpo en partes representadas por las carteleras es similar en espiritu a la representacion de nubes de cartelera [DDS03, BCF*05], microfacetas [YSK*02, GM03] o subdivision en impostores [ABB*07, ABT99]. Sin embargo, estos metodos no son adecuados para nuestra aplicacion de destino, ya que dependen de escenas controladas, datos de profundidad o incluso modelos dados. Lee et al. [LBDGG05] propuso un metodo para extraer las carteleras del flujo optico. Sin embargo, utilizaron imagenes de entrada generadas de los modelos sinteticos de alta calidad.

Tambien se relacionado con este enfoque el gran cuerpo de trabajo en la estimacion de pose de humanos y la segmentacion del cuerpo a partir de imagenes. Aqui, solo se pueden discutir los trabajos mas relevantes. Efros et al. [EBMM03] ha presentado un enfoque interesante para el reconocimiento de la accion humana a una distancia con aplicaciones para la estimacion de poses. Su metodo requiere una estimacion del flujo de la escena optica que a menudo es dificil de estimar en entornos dinamicos y no controlados. Agarwal y Triggs [AT06], Jaeggli et al. [JKMG07], y Gammeter et al. [GEJ*08] presentan metodos basados en el aprendizaje para la estimacion y el seguimiento de poses humanas en 3D. Sin embargo, las poses calculadas a menudo son solo aproximaciones, mientras que se requieren estimaciones precisas de posiciones de las articulaciones del sujeto. Ademas, por lo general hay que lidiar con una calidad de imagen y resolucion mucho mas baja en este ajuste. Por lo tanto, se presenta un enfoque semiautomatico, basado en datos, dado que una cantidad limitada de la interaccion del usuario es aceptable en muchos escenarios de aplicacion si conduce a una mejora considerable en la calidad.

Descripcion de la invencion

Un objeto de la invencion es proporcionar un metodo para la renderizacion (representacion) de una imagen virtual vista desde una camara virtual.

Otro objeto es crear un metodo para la estimacion de una pose de un modelo de objeto articulado del tipo mencionado inicialmente, que supere las desventajas mencionadas con anterioridad.

Otro objeto mas aun es proporcionar un metodo para la determinacion de una segmentacion de un segmento de imagen de origen.

El metodo para la estimacion de una pose de un modelo de objeto articulado, en el que el modelo de objeto articulado es un modelo en 3D basado en ordenador de un objeto del mundo real observado por una o mas camaras de origen, y el modelo de objeto articulado representa una pluralidad de articulaciones y de enlaces que enlazan las articulaciones, y en el que la pose del modelo de objeto articulado esta definida por la localizacion espacial de las articulaciones, comprende los pasos de • obtener por lo menos una imagen de origen a partir de una corriente de video que comprende una vista del objeto del mundo real grabado por una camara de origen (en el que la corriente de video es en vivo o de una grabacion);

• procesar la por lo menos una imagen de origen para extraer un segmento de imagen de origen correspondiente que comprende la vista del objeto del mundo real separado del fondo de la imagen; • mantener, en una base de datos en forma legible por ordenador, un conjunto de siluetas de referencia, cada silueta de referencia esta asociada con un modelo de objeto articulado y con una pose de referencia particular de este modelo de objeto articulado;

• comparar el por lo menos un segmento de imagen de origen con las siluetas de referencia y seleccionar un numero predeterminado de siluetas de referencia, teniendo en cuenta, para cada silueta de referencia,

^o un error de coincidencia que indica cuan estrechamente la silueta de referencia coincide con el segmento de imagen de origen y

^o un error de consistencia que indica cuanto la pose de referencia es consistente con la pose del mismo objeto del mundo real de acuerdo con lo estimado a partir de por lo menos una de las imagenes de origen precedentes y siguientes de la corriente de video;

• recuperar (de la base de datos) las poses de referencia de los modelos de objeto articulado asociados con las siluetas de referencia seleccionadas; y

• calcular una estimacion de la pose del modelo de objeto articulado a partir de las poses de referencia de las siluetas de referencia seleccionadas. Esta pose es la pose en 2D del modelo de objeto articulado en la imagen de origen, por lo que para cada una de las imagenes de origen, se estima una pose separada en 2D.

Un enlace que enlaza dos articulaciones puede ser representado por una seccion de lfnea recta entre las dos articulaciones, es decir, el enlace puede ser denominado un enlace lineal, sin subdivisiones o articulaciones intermedias. Un enlace puede estar asociado con una longitud de enlace, que posiblemente limita o define una distancia entre las articulaciones. Dependiendo del metodo utilizado para identificar la pose del modelo, una longitud de enlace se supone como constante, lo que limita el ajuste de las ubicaciones de las articulaciones, y/o la longitud del enlace se puede ajustar de acuerdo con una estimacion de las posiciones de las articulaciones. Un enlace puede tener una relacion geometrica por lo menos parcialmente restringida con una superficie de proyeccion asociada.

El problema de la estimacion de una pose sobre la base de unas pocas o solo una imagen de entrada esta mal planteado debido a las ambiguedades y la informacion faltante. En la presente invencion, se hace uso de una base de datos como una previa para superar este problema mal planteado.

El paso de procesamiento de la por lo menos una imagen de origen para extraer un segmento de imagen de origen correspondiente preferiblemente comprende por lo menos el paso de segmentar la imagen de origen. Los metodos de segmentacion de imagenes como tales son muy conocidos y pueden ser adaptados para su uso en la presente invencion. En una realizacion preferente de la invencion, el paso de procesamiento comprende un paso adicional tal como un paso de compensacion de movimiento. Este paso de compensacion de movimiento puede ser ejecutado antes del paso de segmentacion (en la imagen no segmentada) o despues del paso de segmentacion (en los segmentos de la imagen). El paso de compensacion de movimiento compensa, de una manera conocida, por ej., el movimiento de la camara de origen y/o el objeto del mundo real.

La compensacion de movimiento en esta etapa se puede utilizar para dar una estimacion inicial de parte del cuerpo u otros segmentos en un marco particular de interes, dada una parte del cuerpo o de otra segmentacion de un marco anterior y/o posterior. La segmentacion dada del ultimo marco (es decir, anterior o posterior) se mueve de acuerdo con la compensacion de movimiento o flujo optico entre el ultimo marco y el marco de interes, y se utiliza como la estimacion inicial para la segmentacion del marco de interes.

Los segmentos de imagen de origen y las siluetas de referencia representan ambas las imagenes parciales; que se denominan "segmentos" y "siluetas", ya que se generan en diferentes contextos. Ellos se pueden representar conceptualmente y/o en una forma legible por ordenador en una variedad de diferentes maneras, tales como, por ejemplo •

• una mancha de pfxeles; o

• un esquema, por ej., en una representacion basada en pfxeles o vectores, opcionalmente con un color de relleno o modelo de color que caracteriza el area interior.

En una realizacion preferente de la invencion, se toman en cuenta el error de coincidencia y el error de consistencia como una suma ponderada de ambos. El error de coincidencia puede estar basado en la informacion de imagen (pixel) de la silueta de referencia y el segmento de imagen de origen, y/o en su respectivo flujo optico. En este ultimo caso, un flujo optico tambien se almacena como parte de la silueta de referencia. Esto hace que sea posible diferenciar entre las imagenes de objetos que tienen la misma pose pero que se mueven de una manera diferente. El error de consistencia, tambien, de acuerdo con una realizacion adicional preferente de la invencion, tiene en cuenta el flujo optico y/o la compensacion de movimiento.

Por ejemplo, dado un marco de imagen actual y una imagen anterior, se calculan los parametros de compensacion de movimiento que describen la diferencia entre estas imagenes (por lo menos en el area relevante de las imagenes). A continuacion, la pose que se estimo en el marco de imagen anterior se mueve de acuerdo con los parametros de compensacion de movimiento. Esta es una estimacion de la pose en el marco actual. Ahora bien, esta estimacion de la pose (en lugar de la pose del marco de imagen precedente) se compara con la pose de referencia cuando se determina el error de consistencia.

En otra realizacion preferente de la invencion, la estimacion de la pose se determina moviendo la pose del marco de imagen precedente de acuerdo con un flujo optico. Este flujo optico puede ser el de la imagen anterior, o de la imagen actual, o de la imagen de referencia, o de una combinacion de los mismos, tal como un promedio (ponderado).

Los ejemplos anteriores y otros se refieren sobre todo a un marco de imagen anterior. Sin embargo, los mismos metodos se pueden aplicar teniendo en cuenta mas de un marco de imagen, y tambien despues de marcos de imagen (o posteriores, o futuros). La informacion de todos estos marcos, ya sea relacionada con compensacion de movimiento o flujo optico, se puede combinar por medio de, por ej., promedio ponderado, en particular, por medio del pesaje de los marcos cercanos mas que los marcos que estan mas lejos en el tiempo desde el marco actual.

En una realizacion preferente de la invencion, el paso de comparar el por lo menos un segmento de imagen de origen con las siluetas de referencia comprende los pasos de, para cada silueta de referencia con la que se compara el segmento de imagen de origen:

• determinar una transformacion proyectiva que mapea el segmento de imagen de origen en la silueta de referencia; y

• calcular el error de coincidencia ya sea como proporcional al tamano relativo del area de la imagen en la que el segmento de imagen de origen mapeado y la silueta de referencia no se superponen, o como una medida de la distancia entre las lineas del segmento de imagen de origen escalado y de la silueta de referencia, con el error de coincidencia, opcionalmente, siendo tambien dependiente de parametros de la transformacion proyectiva;

• y utilizar este error de coincidencia como una medida de cuan estrechamente coinciden el segmento de imagen de origen y la silueta de referencia.

Los parametros de la transformacion proyectiva en principio comprenden informacion acerca de hasta que punto el segmento de imagen de origen y la silueta de referencia deben estar distorsionadas para coincidir en la medida en que dicha coincidencia se puede conseguir por medio de la transformacion proyectiva. Por esta razon, uno o mas parametros de la transformacion proyectiva, o una combinacion de los mismos, se incorpora preferentemente en el calculo del error de coincidencia.

En una realizacion preferente de la invencion, la determinacion de la transformacion proyectiva se efectua por medio del escalamiento del segmento de imagen de origen para que sea del mismo tamano que la silueta de referencia. Los parametros de escalamiento, que no necesitan mantener la proporcion del segmento de imagen, corresponden a los de una transformacion proyectiva.

La distancia entre los contornos del segmento de imagen de origen escalado y de la silueta de referencia se puede calcular por medio de una metrica basada en linea, tal como la distancia de Hausdorff.

En una realizacion preferente de la invencion,

• el paso de escalamiento mencionado con anterioridad se logra por medio del re-muestreo de ya sea el segmento de imagen de origen o las siluetas de referencia o ambas para tener cuadros delimitadores del mismo tamano de pixel, y

• tanto el segmento de imagen de origen como la silueta de referencia estan representadas por imagenes binarias que tienen la misma dimension de pixel, y el valor de error se calcula por medio del recuento del numero de pixeles correspondientes del segmento de imagen de origen y la silueta de referencia que difieren en valor.

• recuperar la pose del mismo objeto del mundo real estimado a partir de una imagen de origen anterior de la corriente de video;

• calcular el error de consistencia como proporcional a la diferencia entre esta estimacion de la pose precedente y la pose de referencia de la silueta de referencia, y utilizar este error de consistencia como una medida de la consistencia con la imagen de origen anterior.

En una realizacion preferente de la invencion, el paso de calcular una estimacion de la pose del modelo de objeto articulado a partir de las poses de referencia de las siluetas de referencia seleccionadas comprende

• repetir los pasos anteriores para una o mas imagenes de origen adicionales de una o mas corrientes de video de camaras de origen adicionales, cada imagen de origen adicional comprende una vista del mismo objeto del mundo real que ha sido grabado al mismo tiempo pero desde un punto de vista diferente, de ese modo se obtiene para cada imagen de origen adicional un numero predeterminado de siluetas de referencia seleccionadas y poses de referencia seleccionadas asociadas;

• llevar a cabo una optimizacion para seleccionar para cada imagen de origen una pose de referencia mas plausible, por medio del calculo para cada combinacion de poses de referencia seleccionadas para las diferentes imagenes de origen una medida de consistencia de las articulaciones totales por medio de,

^o la proyeccion de las articulaciones de las poses de referencia seleccionadas de esta combinacion en el espacio 3D, la estimacion de una posicion en 3D de las articulaciones y el calculo, para cada articulacion, de una medida de consistencia de las articulaciones que expresa cuan estrechamente la posicion de la articulacion en 3D estimada coincide con la proyeccion de la articulacion de las poses de referencia seleccionadas;

^o la combinacion de las medidas de consistencia de las articulaciones de todas las articulaciones para obtener la medida de consistencia de las articulaciones totales;

• seleccionar la combinacion de las poses de referencia para las diferentes imagenes de origen que optimiza la medida de consistencia de las articulaciones totales, lo que de ese modo determina una pose de referencia optima para cada imagen de origen.

Ademas de determinar una pose de referencia optima para cada imagen de origen, el procedimiento anterior tambien proporciona una estimacion de la posicion en 3D de cada articulacion.

En una realizacion preferente de la invencion, el paso de llevar a cabo una optimizacion ademas comprende el paso de variar y optimizar un desplazamiento en 2D de cada silueta en el plano de su imagen de origen asociada con el fin de corregir los errores de calibracion de la camara de origen.

En una realizacion preferente de la invencion, el paso adicional de exhibir, en un dispositivo de visualizacion, por lo menos una imagen de origen con posiciones de las articulaciones estimadas superpuestas sobre la imagen de origen y aceptar una entrada de usuario para modificar en forma interactiva una o mas posiciones de las articulaciones.

Por lo general, los modelos de objeto articulado asociados con las poses de referencia tienen la misma topologfa de enlace que el modelo de objeto articulado del objeto del mundo real. Cada articulacion de uno de estos modelos de objeto articulado coincide unicamente con una articulacion de los otros modelos de objeto articulado.

De acuerdo con otro aspecto de la invencion, se proporciona un metodo para la estimacion de una pose de un modelo de objeto articulado, en el que, con el fin de determinar una pose en 3D que coincide con una pose en 2D dada asociada con una imagen de origen, se llevan a cabo los siguientes pasos: •

• calcular, a partir de la pose en 2D dada una pose en 3D aproximada que comprende posiciones de las articulaciones aproximadas que coinciden aproximadamente con las posiciones de las articulaciones correspondientes de la pose en 2D cuando se proyecta en el plano de la imagen de la imagen de origen asociada con la pose en 2D;

• modificar la pose en 3D aproximada para coincidir exactamente con la pose en 2D por medio de, para cada articulacion, el movimiento de la posicion de la articulacion desde la posicion de la articulacion aproximada a una posicion definida por la interseccion de un rayo que pasa desde la camara a traves de la posicion de la articulacion en la imagen de origen con un plano paralelo al plano de imagen de la imagen de origen y que pasa a traves de la posicion de la articulacion aproximada.

Estos dos pasos se pueden llevar a cabo solos, con el fin de mejorar una pose en 2D dada a traves de una pose en 3D estimada, en la que la pose en 2D dada se determina por medio de un metodo de estimacion anterior arbitrario, o en combinacion con las realizaciones preferentes de la invencion que se han descrito con anterioridad.

De acuerdo con otro aspecto de la invencion, se proporciona un metodo para la estimacion de una pose de un modelo de objeto articulado, en el que el modelo de objeto articulado es un modelo en 3D basado en ordenador de un objeto del mundo real observado por dos o mas camaras de origen, y el modelo de objeto articulado representa una pluralidad de articulaciones y de enlaces que enlazan las articulaciones, y en donde la pose del modelo de objeto articulado esta definida por la localizacion espacial de las articulaciones, denominada posiciones de las articulaciones en 3D, el metodo comprende los pasos de

• determinar una estimacion inicial de la pose en 3D, es decir, las posiciones de las articulaciones en 3D del modelo de objeto articulado;

• asociar cada enlace con una o mas superficies de proyeccion, en el que las superficies de proyeccion son superficies definidas en el modelo en 3D, y la posicion y la orientacion de cada superficie de proyeccion estan determinadas por la posicion y la orientacion del enlace asociado;

• adaptar en forma iterativa las posiciones de las articulaciones en 3D por medio de, para cada articulacion,

^o el calculo de un puntaje de posicion asignado a su posicion de la articulacion en 3D, siendo el puntaje de posicion una medida del grado en el que los segmentos de imagen desde las diferentes camaras de origen, cuando se proyectan sobre las superficies de proyeccion de enlaces adyacentes a la articulacion, son consistentes entre si;

^o la variacion de la posicion de la articulacion en 3D de la articulacion hasta que se logre un puntaje de posicion optimo;

• repetir el paso de adaptacion en forma iterativa de las posiciones de las articulaciones en 3D para todas las articulaciones durante un numero predeterminado de veces o hasta que los puntajes de posicion converjan.

Al repetir la adaptacion iterativa para todas las articulaciones, las posiciones convergen despues de algunos pases por todas las articulaciones. Se establece que los puntajes de posicion convergen, por ejemplo, cuando la mejora de los puntajes de posicion cae por debajo de un lfmite predeterminado.

En una realizacion preferente de la invencion, la estimacion inicial de la pose en 3D se determina de acuerdo con uno o mas de los aspectos anteriores de la invencion, por ejemplo, cuando se determina una pose de referencia optima para cada imagen de origen por la estimacion de la pose en 2D, o despues de mejorar por medio del ajuste de la plantilla a una pose en 3D estimada.

En una realizacion preferente de la invencion, el paso de variar la posicion de la articulacion en 3D de las articulaciones se lleva a cabo por medio de la variacion de las posiciones de la articulacion en 3D sujetas a limitaciones antropometricas, siendo las limitaciones antropometricas por lo menos una de las siguientes:

• la articulacion esta en o por encima del suelo;

• las longitudes de los enlaces topologicamente simetricos no difieren mas de 10%;

• las longitudes de los enlaces estan dentro de los estandares antropometricos;

• las distancias entre las articulaciones que no estan conectadas por un enlace estan dentro de los estandares antropometricos.

En una realizacion preferente de la invencion, las superficies de proyeccion, para cada enlace, comprenden un abanico de carteleras, cada cartelera esta asociada con una camara de origen, y cada cartelera es una superficie plana atravesada por su enlace asociado y un vector que es normal tanto a este enlace como a una lfnea que conecta un punto del enlace a la camara de origen. En otras palabras, cada cartelera es una superficie de proyeccion y esta asociada con un enlace y con una camara de origen.

En una realizacion preferente de la invencion, el puntaje de posicion de una posicion de la articulacion en 3D de una articulacion se calcula por medio de los pasos de, para cada enlace adyacente a la articulacion,

• proyectar las imagenes de las diferentes camaras de origen sobre las superficies de proyeccion asociadas del enlace y de allf en una imagen virtual, vista por una camara virtual;

• para un area (o para todos los pfxeles) en la imagen virtual que corresponden a la proyeccion de estas superficies de proyeccion en la imagen virtual, calcular un puntaje de posicion parcial para este enlace de acuerdo con el grado en el que los segmentos de imagen de las distintas camaras de origen se solapan y tienen un color similar;

• combinar (por ej., por medio de adicion) los puntajes de posicion parciales para obtener el puntaje de posicion.

En otras palabras, la consistencia de las proyecciones de los segmentos de imagen de las diferentes camaras de origen se evalua en una vista correspondiente a la de la camara virtual. Dado que la optimizacion se basa en funciones objetivo que estan definidas en la imagen virtual, en definitiva no se determina ningun parametro innecesario, y la eficiencia global es alta.

En una realizacion preferente de la invencion, el calculo y la combinacion del puntaje de posicion parcial comprende los pasos de

• calcular el puntaje de posicion parcial para cada par de camaras de origen que contribuyen a la imagen virtual;

• combinar estos puntajes de posicion parciales por medio de la adicion de los mismos, ponderando cada puntaje de posicion parcial de acuerdo con el angulo entre las direcciones de vision del par asociado de camaras de origen.

De acuerdo con otro aspecto, se proporciona un metodo para la renderizacion (representacion) de una imagen virtual vista desde una camara virtual, dado un modelo de objeto articulado, en el que el modelo de objeto articulado es un modelo en 3D basado en ordenador de un objeto del mundo real observado por dos o mas camaras de origen, y el modelo de objeto articulado representa una pluralidad de articulaciones y de enlaces que enlazan las articulaciones, y en donde la pose del modelo de objeto articulado esta definida por la localizacion espacial de las articulaciones, el metodo comprende los pasos de

• determinar una estimacion de la pose en 3D, es decir, las posiciones de las articulaciones en 3D del modelo de objeto articulado;

• asociar cada enlace con una o mas superficies de proyeccion, en las que las superficies de proyeccion son superficies definidas en el modelo en 3D, y la posicion y la orientacion de cada superficie de proyeccion estan determinadas por la posicion y la orientacion del enlace asociado;

• en el que las superficies de proyeccion, para cada enlace, comprenden un abanico de carteleras, cada cartelera esta asociada con una camara de origen, y cada cartelera es una superficie plana atravesada por su enlace asociado y un vector que es normal tanto a este enlace como a una lfnea que conecta un punto del enlace a la camara de origen;

• para cada camara de origen, proyectar segmentos de la imagen de origen asociada sobre la cartelera asociada, lo que crea las imagenes de cartelera;

• para cada enlace, proyectar las imagenes de cartelera en la imagen virtual y mezclar las imagenes de cartelera para formar una parte correspondiente de la imagen virtual.

Las imagenes de cartelera se mezclan, es decir, multiples carteleras por un enlace no se ocluyen el uno al otro). Sin embargo, la oclusion puede ocurrir entre enlaces separados, es decir, las partes del cuerpo separadas.

De acuerdo con otro aspecto de la invencion, se proporciona un metodo para la determinacion de una segmentacion de un segmento de imagen de origen, el metodo comprende los pasos de •

• obtener por lo menos una imagen de origen a partir de una corriente de video que comprende una vista de un objeto del mundo real grabado por una camara de origen;

• procesar la por lo menos una imagen de origen para extraer un segmento de imagen de origen correspondiente que comprende la vista del objeto del mundo real separada del fondo de la imagen; • mantener, en una base de datos en forma legible por ordenador, un conjunto de siluetas de referencia, cada silueta de referencia esta asociada con una segmentacion de referencia, la segmentacion de referencia define sub-segmentos de la silueta de referencia, cada sub-segmento se le asigna una etiqueta unica;

• determinar una silueta de referencia coincidente que se asemeja mas estrechamente al segmento de imagen de origen y recuperar la segmentacion de referencia de la silueta de referencia;

• para cada sub-segmento, superponer, tanto una version engrosada como afinada del sub-segmento sobre el segmento de imagen de origen y etiquetar los pfxeles de la imagen de origen que se encuentran tanto en la version engrosada como afinada con la etiqueta del sub-segmento;

• etiquetar todos los pfxeles restantes del segmento de imagen de origen como inseguros;

• para cada sub-segmento, determinar un modelo de color que sea representativo del color de los pfxeles etiquetados con la etiqueta del sub-segmento;

• etiquetar los pfxeles inseguros de acuerdo con el modelo de color, por medio de la asignacion de cada pixel inseguro a un sub-segmento cuyo modelo de color se ajusta mas estrechamente al color del pixel inseguro.

Los pasos anteriores para la segmentacion de un segmento de imagen de origen se pueden llevar a cabo solos, con el fin de mejorar una pose en 2D dada, a traves de una pose en 3D estimada, en el que la pose en 2D es determinada por un metodo de estimacion anterior arbitraria, o en combinacion con las realizaciones preferentes de la invencion descritas con anterioridad.

Un modelo de color es un modelo probabilfstico para la distribucion de color de los pfxeles. Al tener un modelo de este tipo para cada parte del cuerpo, se permite calcular las probabilidades para un nuevo pixel para estimar a que parte del cuerpo pertenece. Por ejemplo, un modelo de color puede ser un Modelo de Mezcla Gaussiana.

En una realizacion preferente de la invencion, la asignacion de pfxeles inseguros no tiene en cuenta si el sub-segmento al que se le asigna un pixel permanece cerca del pixel. Esto permite asignar pfxeles en forma correcta, incluso si no hay pfxeles seguros del sub-segmento visibles en absoluto.

En una realizacion alternativa, la asignacion tiene en cuenta la ubicacion de un pixel inseguro, y en caso de que el color del pixel coincida con el modelo de color de mas de un sub-segmento, lo asigna al subsegmento que se encuentra mas cercano al pixel.

Una observacion general con respecto a la presente invencion es que la pose en 3D y la forma de un personaje puede ser bien capturada por carteleras articuladas, es decir, por una subdivision articulada del cuerpo en primitivas geometricas simples. En lugar de depender de la informacion de la silueta exacta para el calculo de los cascos visuales o correspondencias en estereo, esta representacion requiere una estimacion de la pose en 2D de un sujeto en las vistas de entrada. Esto se puede lograr de una manera sencilla y muy eficiente por medio de un algoritmo semi-automatico basado en datos. Desde esta pose entonces es posible construir un modelo articulado de cartelera 3D, que es una representacion fiel de la geometrfa de los sujetos y que permite un video de punto de vista libre fotorrealista. Los diferentes aspectos de la invencion son

• Carteleras articuladas, una representacion de forma novedosa del video de punto de vista libre de personajes humanos en condiciones de adquisicion exigentes.

• Estimacion de pose en 2D semi-automatica basada en datos y basada en siluetas aproximadas.

• Segmentacion automatica de partes del cuerpo por medio de ajuste de plantilla 3D y aprendizaje de modelos de color.

• Generacion del modelo de cartelera articulado por optimizacion de pose en 3D y correccion de costura para la consistencia de textura optima.

• Mezcla basada en GPU de pfxeles precisos y representacion para la sfntesis de vista realista y eficiente.

Las aplicaciones de las carteleras articuladas son videos de vista multiple de escenas dinamicas con los humanos capturados en ambientes no controlados. Incluso desde tan solo dos imagenes de camara de TV convencionales, una escena se puede representar en una alta calidad a partir de puntos de vista virtuales donde ninguna camara de origen estaba grabando.

Por medio de la combinacion de los diferentes aspectos del metodo descritos con anterioridad, se puede implementar el siguiente flujo de trabajo: La idea basica es la aproximacion de la forma articulada en 3D del cuerpo humano por el uso de una subdivision en carteleras texturizadas a lo largo de la estructura de esqueleto. Las carteleras se agrupan en abanicos de manera tal que cada hueso del esqueleto contenga una cartelera por camara de origen. En primer lugar, para cada vista de entrada, se utiliza una estimacion de pose en 2D basada siluetas de imagen, datos de captura de movimiento, y la consistencia temporal de video para crear una mascara de segmentacion para cada parte del cuerpo. Luego, a partir de las poses en 2D y la segmentacion, el modelo de cartelera articulado real se construye por medio de una optimizacion de las articulaciones en 3D y la compensacion por los errores de calibracion de la camara. El metodo de renderizado aplicado posteriormente combina las contribuciones de textura de cada cartelera y preferentemente cuenta con una correccion de costura adaptativa para eliminar discontinuidades visibles entre las texturas de carteleras adyacentes. El uso de carteleras articuladas no solo minimiza los artefactos del efecto fantasma conocidos de la representacion de cartelera convencional, sino que tambien alivia las restricciones a la configuracion y la sensibilidad a los errores de representaciones en 3D mas complejas y tecnicas de reconstruccion de vista multiple. Los resultados demuestran la flexibilidad y la solidez del enfoque con videos de punto de vista libre de alta calidad generados a partir de imagenes de difusion de entornos no controlados desafiantes.

Observacion general con respecto a la terminologfa: la expresion "A esta asociada con B" significa que hay una asignacion, o, en otras palabras, una relacion entre A y B. La relacion puede ser una relacion de uno a uno, de uno a muchos o de muchos a muchos.

Un producto de programa de ordenador para la estimacion de una pose de un modelo de objeto articulado de acuerdo con la invencion se puede cargar en una memoria interna de un ordenador digital o un sistema de ordenador que comprende una memoria de ordenador y una unidad de procesamiento acoplada a la memoria de ordenador, y comprende medios de codigo de programa de ordenador, es decir, instrucciones legibles por ordenador, para hacer que, cuando dicho medio de codigo de programa de ordenador es cargado en el ordenador, el ordenador ejecuta el metodo de acuerdo con la invencion. En una realizacion preferente de la invencion, el producto de programa de ordenador comprende un medio de almacenamiento legible por ordenador, que tiene los medios de codigo de programa de ordenador grabado en el.

Otras realizaciones preferentes son evidentes a partir de las reivindicaciones dependientes de la patente.

Breve descripcion de los dibujos

El objetivo de la invencion se explicara con mas detalle en el siguiente texto con referencia a realizaciones representativas preferidas que se ilustran en los dibujos adjuntos, en los cuales:

Figura 1 representa en forma esquematica una vision general sobre una escena del mundo real; Figura 2 es un modelo de objeto articulado con superficies de proyeccion asociadas;

Figura 3a es una silueta tfpica de una imagen segmentada;

Figura 3b son tres mejores poses de coincidencia a partir de una base de datos;

Figura 3c una pose del esqueleto en 2D estimada a partir de la mejor coincidencia;

Figura 4 estimacion de articulaciones en 3D a partir de dos imagenes de la camara;

Figura 5a una imagen con posiciones de las articulaciones (manualmente) corregidas;

Figura 5b una adaptacion inicial de una plantilla de forma 3D pre-segmentada para una imagen; Figura 5c un ajuste corregido que coincide exactamente con las posiciones de las articulaciones en 5a; " Figura 6a una segmentacion inicial de una imagen de un cuerpo, con pixeles seguros derivados de un modelo de plantilla, y con pixeles limftrofes inseguros;

Figura 6b una segmentacion despues del etiquetado de acuerdo con un modelo de color capacitado;

Figura 6c una segmentacion final despues de la eliminacion morfologica de los valores atfpicos; Figura 7a carteleras mal alineadas en un abanico de cartelera;

Figura 7b un abanico de cartelera antes de la optimizacion de la articulacion;

Figura 7c el mismo abanico de cartelera despues de la optimizacion de la articulacion;

Figura 8a errores de muestreo que provocan grietas entre las carteleras;

Figura 8b un artefacto de representacion correspondiente;

Figura 8c correccion del artefacto de representacion;

Figura 9a ejemplo de peso de mezcla para dos camaras de origen;

Figura 9b imagen representada sin suavizado;

Figura 9c imagen representada con un suavizado de adaptacion;

Figura 9d discontinuidades donde se ha aplicado el suavizado; y

Figura 10 un diagrama de flujo de un metodo de acuerdo con la invencion.

Los sfmbolos de referencia utilizados en los dibujos, y sus significados, se enumeran en forma sintetizada en la lista de sfmbolos de referencia. En principio, las partes identicas se proporcionan con los mismos sfmbolos de referencia en los dibujos.

Descripcion detallada de realizaciones preferentes

La Figura 1 muestra en forma esquematica una vision general de una escena del mundo real 8, la escena 8 comprende un objeto del mundo real 14 tal como un ser humano, que esta siendo observado por dos o mas camaras de origen 9, 9', cada una de los cuales genera una corriente de video de imagenes de origen 10, 10'. El sistema y el metodo de acuerdo con la invencion genera una imagen virtual 12 que muestra la escena 8 desde un punto de vista de una camara virtual 11 que es distinto de los puntos de vista de las camaras de origen 9, 9'. En forma opcional, a partir de una secuencia de imagenes virtuales 12 se genera una corriente de video virtual. Un aparato de acuerdo con la invencion comprende una unidad de procesamiento 15 que lleva a cabo los calculos de procesamiento de imagenes que aplican el metodo de la invencion, dadas las imagenes de origen 10, 10' y generan una o mas imagenes virtuales 12. La unidad de procesamiento 15 esta configurada para interactuar con una unidad de almacenamiento 16 para el almacenamiento de imagenes de origen 10, imagenes virtuales 12 y los resultados intermedios. La unidad de procesamiento 15 se controla por medio de una estacion de trabajo 19 que en forma tfpica comprende un dispositivo de visualizacion, un dispositivo de entrada de datos tales como un teclado y un dispositivo de senalizacion tal como un raton. La unidad de procesamiento 15 puede estar configurada para suministrar una corriente de video virtual a un transmisor de radiodifusion de television 17 y/o a los dispositivos de visualizacion de video 18.

La Figura 2 muestra en forma esquematica un modelo en 3D 1 de la escena 8, que comprende un modelo de objeto articulado 4 del objeto del mundo real 14. El modelo en 3D 1 en forma tfpica ademas comprende otros modelos de objetos, por ej., que representan otros seres humanos, el suelo, edificios, etc. (no mostrados). El modelo de objeto articulado 4 comprende articulaciones 2 que estan conectadas por enlaces 3, que corresponde aproximadamente a los huesos o las extremidades en el caso del modelo de un humano. Cada articulacion 2 esta definida como un punto en el espacio 3D, y cada enlace 3 puede ser representado por una lfnea recta que conecta dos articulaciones 2 a traves del espacio 3D. Ademas, se muestra una variedad de superficies de proyeccion 5 que puede estar asociada con los enlaces 3 del modelo de objeto articulado 4. Esta asociacion comprende una relacion por lo menos en parte geometrica fija entre las superficies de proyeccion 5 y el enlace, por consiguiente, las superficies de proyeccion 5 se mueven con el enlace. Las superficies de proyeccion 5 son (de izquierda a derecha)

• cuerpos elipsoidales;

• cuerpos cilfndricos; o

• un conjunto de carteleras 6 que forman un abanico de cartelera 7.

La asociacion entre un enlace y una superficie de proyeccion puede ser, por ejemplo, que el enlace (es decir, una lfnea recta que enlaza las dos articulaciones conectadas por el enlace) define un eje mayor de tal cuerpo elipsoidal o cilindro, o se encuentra dentro del plano de una o mas de tales carteleras. Las carteleras 6 per se, para la proyeccion de vistas virtuales, son conocidas en la tecnica. En la presente invencion, dos o mas carteleras planas 6 estan asociadas con un solo enlace 3 del modelo de objeto articulado 4. Cada cartelera 6 esta asociada con una camara de origen 9. El plano de la cartelera 6 comprende el enlace 3, con la orientacion de la cartelera 6 alrededor del enlace 3 definido por la ubicacion de la camara de origen asociada 9. Con preferencia, la cartelera 6 es normal a la lfnea mas corta entre la camara de origen 9 y la direccion del enlace 3. Todas las carteleras 6 para un enlace 3 forman juntos un a b a n i c o de cartelera 7. Las imagenes de las camaras de origen 9 se proyectan sobre las carteleras asociadas 6 de cada enlace 3, y luego proyectadas en la camara virtual 11, y mezcladas juntas, desde las carteleras 6 del enlace 3, para formar la imagen virtual 12 del enlace 3. Por lo tanto, las carteleras 6 del enlace 3 no se ocluyen la una a la otra. Sin embargo, pueden ocluir las carteleras 6 de otro enlace 3.

1. Informacion general

Uno de los objetivos es permitir virtualmente sin restricciones la representacion de punto de vista libre de los sujetos humanos de un pequeno conjunto de secuencias de video de lfnea de base ancha. Utilizamos una representacion basada en las carteleras articuladas 6. La base de este modelo es una estructura de esqueleto humano en 3D 4 (vease la Figura 2). Cada hueso o enlace 3, representado por un vector 3D bj y la posicion de su articulacion extrema 2 xj, corresponde a un componente principal del cuerpo del mundo real 14, por ej., el torso o las extremidades. Con cada hueso que se asocia un abanico 7 de carteleras 6, que contiene una cartelera 6 por cada imagen de entrada I j de un sujeto (vease la Figura 2). Mas especfficamente, para cada I j el plano de la cartelera correspondiente esta definido por la articulacion xj, la direccion de hueso b j, y el vector bi x (cj -x), donde cj es la posicion de la camara de I j. Por lo tanto, las carteleras 6 estan alineadas con los huesos del personaje y tan ortogonal como sea posible a sus vistas de entrada asociadas 10, 10'.

La idea basica de este metodo es calcular una pose en 3D del modelo de cartelera articulado, es decir, una configuracion de articulacion espacial de la estructura del esqueleto subyacente 4, que trae su proyeccion 2D en correspondencia con la pose del sujeto en cada marco de entrada del video. Despues de esta alineacion, un mapa de textura y mascara alfa se genera para cada cartelera 6 de su vista asociada 10, 10'. Sin embargo, un calculo totalmente automatico de una sola pose en 3D, que es perfectamente compatible con todas las vistas de entrada, puede no ser posible en presencia de cuestiones tales como la calibracion de la camara imperfecta o baja resolucion de la textura. En tales casos, se aplica un enfoque semiautomatico, basado en datos, que opera en tres fases consecutivas: la estimacion de la pose en 2D y la segmentacion de imagenes basada en plantillas, la construccion del modelo de cartelera 3D articulado, y la representacion real.

En primer lugar, para la estimacion de la pose en 2D en cada vista de entrada individual, se utiliza una base de datos de siluetas, la consistencia temporal de movimiento de los sujetos en el video, y los datos de captura de movimiento para ayudar al usuario en la colocacion rapida y precisa de las articulaciones 2. Teniendo en cuenta estas posiciones de articulaciones 2D, una segmentacion de la imagen en las diferentes partes del cuerpo, es decir, el torso o las extremidades, se calcula por el uso de un modelo de plantilla humana con el fin de mapear los pfxeles de imagenes a las carteleras (vease la Seccion 2 "Estimacion de poses y Segmentacion Basada en Plantillas").

La segunda fase del algoritmo integra la informacion de la pose y la textura de todas las vistas individuales y genera el modelo de cartelera articulado definitivo para la representacion. Este paso de procesamiento incluye una optimizacion de las posiciones de las articulaciones en 3D y una compensacion por los errores de calibracion de la camara, lo que optimiza la superposicion de textura para cada segmento del modelo, es decir, para cada abanico 7 de carteleras 6. Una optimizacion final de mascara alfa y textura elimina las costuras visibles y discontinuidades entre carteleras adyacentes (vease la Seccion 3 "Construccion del Modelo de Cartelera Articulado 3D").

El ultimo paso es la representacion real en tiempo real de nuevos puntos de vista. La Seccion 4 describe un algoritmo para un esquema de mezcla por pixel totalmente basada en el GPU, dependiente de la vista, que esta optimizado para representar modelos de cartelera articulados de manera eficiente, mientras que preserva el fotorrealismo del video de entrada original.

2. Estimacion de la Pose y Segmentacion Basada en Plantillas

En la primera fase del metodo se calcula una estimacion inicial de las posiciones de las articulaciones del sujeto 14 en el espacio de la imagen y una segmentacion de los pfxeles en las diferentes partes del cuerpo. Para la calibracion de los parametros intrfnsecos y extrfnsecos de la camara actualmente se utiliza el metodo de Thomas [Tho06]. De acuerdo con lo mencionado con anterioridad, una estimacion y segmentacion de pose completamente automatica es muy diffcil debido a la baja resolucion y la calidad. En consecuencia, se propone el siguiente enfoque semi-automatico que minimiza la interaccion del usuario necesaria con solo unos pocos clics de raton. Entonces, dadas las posiciones de las articulaciones 2, la segmentacion de las piezas del cuerpo del sujeto 14 se calcula por medio del ajuste de un modelo de plantilla humano con una segmentacion conocida para los marcos de video de entrada.

2.1. Estimacion de la Pose en 2D

Se supone que una segmentacion gruesa del sujeto 14 del fondo esta disponible, por ej., por el uso de codificacion de colores o sustraccion de fondo. La Figura 3a muestra un ejemplo tfpico de una imagen segmentada 13 en este escenario de aplicacion. La idea basica para calcular una estimacion inicial de la pose de un sujeto, es decir, las posiciones en 2D de las articulaciones 2 del esqueleto, es compararla con una base de datos de siluetas, para la que se conocen las respectivas poses de esqueleto (vease la Figura 3b). En primer lugar, para cada vista /,-, se normaliza para los sujetos de diferentes tamanos por medio del re-muestreo de la silueta 13 en una cuadrfcula de 32 x 40 y se apila la informacion de silueta binaria en cada punto de la cuadrfcula en un vector Vj e [0,1]n, con n = 32 x 40. Entonces, para cada vy, este algoritmo encuentra las mejores entradas k coincidentes en la base de datos, que minimizan el error

donde w es una entrada en la base de datos q, sus correspondientes posiciones de las articulaciones en 2D, y m es el numero de articulaciones de esqueleto. El vector pi contiene las coordenadas de las articulaciones del marco de video anterior. El primer termino de la Ecuacion (1) asegura una coincidencia adecuada de las siluetas mientras que el segundo termino explota la consistencia de movimiento temporal del sujeto que esta en el video. En otras palabras, la reduccion al mfnimo de (1) devuelve la entrada de la base de datos que se parece mas a la imagen actual y cuyas posiciones de las articulaciones 2 estan mas cerca de las posiciones de las articulaciones de la imagen anterior. Esto es de particular ayuda para resolver ambiguedades de izquierda a derecha en las siluetas. La influencia del segundo termino puede ser ponderada por el valor A. Para el primer marco de una secuencia simplemente se ajusta A = 0, para todos los demas marcos se utilizo un valor de A = 0,5 para todos los ejemplos. Las posiciones de las articulaciones 2 tambien se procesan en coordenadas normalizadas con respecto al cuadro delimitador del sujeto. El uso de este error Es, el k = 3 mejores siluetas coincidentes y sus correspondientes posiciones de las articulaciones en 2D para cada vista individual I, se recuperan de la base de datos.

Con el fin de seleccionar la pose en 2D mas plausible de cada uno de estos conjuntos se ejecuta una optimizacion de multiples vistas para cada combinacion de poses: se calculan los rayos 3D de cada centro de camara Cj a traves de las posiciones de las articulaciones recuperadas en I,. A continuacion, se calcula el representante 3D para cada articulacion 2 que esta mas proxima a los rayos correspondientes. La Figura 4 muestra un ejemplo con dos camaras 9, 9'.

La medida para la calidad de una combinacion particular de poses es la suma acumulada de las distancias de cada articulacion en 3D a partir de sus respectivos rayos. Con el fin de hacer este procedimiento mas robusto para la calibracion de la camara a menudo inexacta, esta optimizacion de multiples vistas tambien incluye un paso de correccion simple. Para cada silueta, un desplazamiento en 2D en el plano de la imagen se introduce como un parametro adicional. Al minimizar la suma acumulada de las distancias, estos desplazamientos en 2D son variados tambien, por el uso del algoritmo de Levenberg-Marquardt. Esta correccion de calibracion ha demostrado ser muy eficaz: para algunas imagenes de la silueta el desplazamiento en 2D necesario para minimizar la medida de error puede ser de hasta 8 pfxeles.

En resumen, la optimizacion mencionada con anterioridad se lleva a cabo para cada combinacion de las mejores siluetas coincidentes para cada vista. Por ejemplo, dadas dos camaras, y habiendo encontrado para cada camara (o vista) tres mejores siluetas coincidentes, a continuacion, se lleva a cabo la optimizacion de multiples vistas nueve veces. Para cada camara, se elige la pose en 2D que da la suma acumulada mas pequena de distancias a lo largo de todas las ejecuciones de optimizacion.

De acuerdo con lo demostrado en la Figura 3c, esta estimacion de pose basada en siluetas y optimizacion de articulaciones proporciona por lo general una buena suposicion de posiciones de las articulaciones en 2D del sujeto en cada vista I^j. Con una interfaz sencilla el usuario puede corregir manualmente estas posiciones por medio del movimiento de las articulaciones (vease la Figura 5a). Despues de este paso de refinamiento manual de las articulaciones la silueta y posiciones de las articulaciones se anaden preferentemente de inmediato a la base de datos. El aumento de poses en la base de datos ha demostrado llevar a correspondencias significativamente mejores para nuevas secuencias. En escenarios de aplicacion, donde no se dispone de informacion de la silueta en absoluto, el usuario puede recurrir a la colocacion de todas las articulaciones manualmente.

2.2. Ajuste de Plantilla en 3D

Incluso con articulaciones en 2D precisas una segmentacion robusta de la imagen en las partes del cuerpo del sujeto sigue siendo un problema diffcil. El uso de una base de datos de siluetas segmentadas en lugar de la segmentacion de siluetas binarias anterior no es una opcion deseable, ya que la creacion de una base de datos tal serfa extremadamente compleja y requiere mucho tiempo, y todavfa no podrfamos esperar encontrar siempre coincidencias suficientemente precisas.

En su lugar, se ajusta un modelo de plantilla generico y pre-segmentado en 3D a las imagenes. Esto tiene la ventaja considerable de que se obtiene una solucion de partida buena para el proceso de segmentacion y que se puede resolver las oclusiones con facilidad. Sin embargo, el ajuste de un modelo en 3D requiere, para cada vista de entrada particular, el calculo de una pose en 3D cuya proyeccion esta perfectamente alineada con las articulaciones en 2D. Una pose en 3D que lleva una coincidencia perfecta en todas las vistas a menudo puede no ser encontrada debido a imprecisiones de calibracion o leves errores de posicion de las articulaciones. Por lo tanto, se ajusta un modelo en 3D por vista de entrada. Una solucion para el calculo de una pose en 3D aproximada para los modelos articulados a partir de una sola imagen ha sido presentada por Hornung et al. [HDK07]. Dadas las posiciones de las articulaciones en 2D xi para una imagen I j, su enfoque utiliza una base de datos de los datos de captura de movimiento 3D para encontrar un conjunto de posiciones de las articulaciones en 3D x, cuya proyeccion coincide aproximadamente con las articulaciones de entrada en 2D (vease la Figura 5b). Se proporciona una modificacion simple pero eficaz de su algoritmo para calcular el ajuste exacto requerido.

Esto se lleva a cabo de acuerdo con lo presentado a continuacion: La coincidencia en 3D aproximada se deforma, tal como para alinearse con las articulaciones en 2D, de acuerdo con el siguiente algoritmo: A traves de cada articulacion en 3D X,, se crea un plano paralelo al plano de la imagen de Ij. A continuacion, se lanza un rayo desde el centro de la camara Cj a traves de la posicion de la articulacion objetivo correspondiente x, en Ij y se calcula su interseccion con el plano. La pose en 3D se actualiza a continuacion, por medio del movimiento de cada X, al punto de interseccion respectivo y la actualizacion del sistema de coordenadas del hueso en 3D en consecuencia. En otras palabras: este procedimiento supone que la distancia desde la camara a la articulacion es correcta, y ajusta la posicion en 3D de la articulacion para que coincida con la imagen mientras mantiene la distancia de la constante de la camara. El resultado es la pose en 3D requerida que se proyecta exactamente en las articulaciones en 2D estimadas previamente. El modelo de plantilla en 3D ahora se puede ajustar a la imagen por medio de la deformacion de acuerdo con esta pose en 3D calculada usando tecnicas estandar para la animacion basada en esqueletos [LCF00] (vease la Figura 5c). Se debe tener en cuenta que este algoritmo por lo general no conserva las longitudes de las extremidades del esqueleto en 3D original y por lo tanto, permite una adaptacion de la plantilla de malla en 3D para adaptarse a las dimensiones del sujeto con mayor precision.

2.3. Segmentacion de las Partes del Cuerpo

El modelo de plantilla pre-segmentado ajustado no segmenta perfectamente el marco de entrada Ij y podrfa no cubrir toda la silueta por completo. Por lo tanto, un refinamiento de la segmentacion se lleva a cabo en tres sencillos pasos. En un primer paso, un modelo de color se aprende por segmento corporal con base en los pfxeles seguros seleccionados automaticamente de las partes del cuerpo presegmentadas (vease la Figura 6a). En un segundo paso, el modelo de color formado se utiliza para etiquetar los pfxeles inseguros que conducen a una segmentacion ajustada a las dimensiones del cuerpo y la silueta de los sujetos (vease la Figura 6b). En un tercer paso, una operacion de cierre morfologica elimina valores atfpicos de acuerdo con lo representado en la Figura 6c.

Para determinar los pfxeles seguros, se proyecta una version ligeramente adelgazada y engrosada del modelo de plantilla en la imagen y se etiquetan los pfxeles de siluetas en consecuencia. Los pfxeles que reciben la misma etiqueta en ambas proyecciones se marcan como pfxeles seguros y se etiquetan con el segmento del cuerpo correspondiente. Todos los pfxeles que quedan dentro de la silueta son etiquetados como inseguros de acuerdo con lo mostrado en la Figura 6a.

Al aprender el modelo de color en lfnea, se proporciona un algoritmo de segmentacion robusto que es capaz de manejar la segmentacion en entornos no controlados. Las condiciones cambiantes de iluminacion, el aspecto especffico del sujeto o el aspecto dependiente de la vista se pueden de este modo manejar de forma segura.

El procedimiento de estimacion de pose y segmentacion se lleva a cabo para todas las vistas y marcos de entrada a partir de los cuales las representaciones de punto de vista libre se han de generar. Como resultado, el enfoque de segmentacion por el uso de estimaciones de pose en 2D sucesivas y ajustes de plantillas en 3D maneja automaticamente las partes del cuerpo ocluidas, es robusto incluso para una calidad y resolucion de imagen baja, y requiere solo una pequena cantidad de interaccion de usuario sencilla durante el refinamiento de las posiciones de las articulaciones.

3. Construccion del Modelo de Cartelera Articulado en 3D

Se utilizan las posiciones de articulaciones en 3D computadas de la Seccion 2.1 como una pose inicial para la representacion de cartelera articulada final. Si una articulacion en 3D del modelo de cartelera articulado no esta posicionada de manera optima, la textura resultante de la representacion de todas las carteleras de un abanico de cartelera no se alineara (vease la Figura 7a). En esta seccion, se describe como las posiciones de las articulaciones en 3D se pueden optimizar en base a una medida cuantitativa de la alineacion de las texturas de la cartelera.

A continuacion, primero se define una funcion de puntaje para una posicion de una articulacion en una vista y para un par de camara. Esta funcion de puntaje se extiende luego a varias vistas y camaras. Usando esta funcion de puntaje y las limitaciones antropometricas, se optimiza la pose en 3D del modelo de cartelera articulado. Por ultimo, se describira una correccion de costura que elimina las discontinuidades de textura entre las carteleras adyacentes.

3.1. Puntaje de Posicion

Para calificar la calidad de una posicion de la articulacion de una vista de salida V, se evaluan todas las carteleras adyacentes a esta articulacion. Para cada abanico de carteleras, la alineacion de sus carteleras para un par de vistas de entrada (I1J2) se puntua por medio de una comparacion pixel por pixel de las texturas proyectadas. Para cada pixel de salida p de V, el puntaje por pixel s/1 , 12 (p) se define como

p activo en !\ y h

de otra manera (2)

donde V/i (p) es la contribucion del color de una cartelera asociada con la vista Ij del pixel p. a( ) es una medida de distancia de color en RGB. Los pfxeles activos se definen como aquellos pfxeles en la vista de salida V que reciben una contribucion de color valida desde las vistas de entrada Ii y I2. La segmentacion generada en la Seccion 2.3 se utiliza para resolver la oclusion de forma fiable. El puntaje para una articulacion en una vista V es la suma normalizada de todos los pfxeles

I * /,/> ( /* )* ( /* )

^, pf-v ^'

*7, M v ) = ~ { , ------• (3)

PG L PV ri\P)

El factor de normalizacion n(p) es 1, si por lo menos uno de los dos pfxeles esta activo y 0, de lo contrario. Por lo tanto, la funcion de puntaje mide la coincidencia de los valores de textura, mientras que n(p) penaliza las partes no alineadas como en la Figura 7a. Estas operaciones por pfxeles se implementan de manera eficiente en la GPU por el uso de sombreadores de fragmentos. En resumen, el procedimiento de acuerdo con (1) y (2) determina en que grado coinciden las contribuciones de imagen de las diferentes camaras, de acuerdo con lo observado desde el punto de vista virtual y en la imagen de salida virtual, y solo para aquellos pfxeles para los que la imagen de salida recibe una contribucion de ambas camaras de origen.

Para mas de dos vistas de entrada, se define el puntaje como un promedio ponderado de todos los pares de camara, donde el peso para cada par de camara depende del angulo Pi,i2 entre las direcciones de vision respectivas, con angulos estrechos que reciben un mayor peso:

donde I es el conjunto de todos los pares de vistas de entrada y w(6) es, por ejemplo, un peso de Gauss:

Un valor adecuado para a se determino en forma empmca como 0,32. Por ultimo, el puntaje de la posicion de la articulacion es la suma normalizada de las puntuaciones en todas las vistas evaluadas:

donde V es el conjunto de todos las vistas evaluadas.

3.2. Optimizacion de la Pose en 3D

Dado que la puntuacion de la posicion de la articulacion depende de las vistas evaluadas, se necesita un conjunto adecuado V . Con el fin de cubrir una variedad razonable de posiciones de visualizacion, se evalua la funcion de puntaje en las posiciones de camara de todas las vistas de entrada y las vistas virtuales en el centro entre cada par de camara. Para la optimizacion de posicion de una articulacion, se evalua Sv en las posiciones candidatas espacialmente cercanas en una cuadrfcula en 3D adaptativa y discreta. La cuadrfcula se refina de manera codiciosa en torno a esas posiciones candidatas que consiguen un puntaje mas alto Sv, hasta que se alcanza una resolucion de la cuadrfcula dada (ajustada en forma empfrica a 1,2 cm).

Para evitar configuraciones degeneradas con abanicos de cartelera de longitud cero, adicionalmente se considera la consistencia antropometrica [NAS09] durante la evaluacion de cada pose. Una posicion de la articulacion recibe un puntaje de cero si no se mantiene una de las siguientes limitaciones:

• La articulacion esta en o por encima del suelo.

• Las longitudes de los huesos del esqueleto topologicamente simetricos (por ej., el brazo izquierdo/derecho) no difieren mas del 10%.

• Las longitudes de los huesos adyacentes estan dentro de los estandares antropometricos.

• Las distancias a las articulaciones inconexas estan dentro de los estandares antropometricos.

Para las dos ultimas restricciones, se utiliza el quinto percentil de sujetos femeninos que se redondea hacia abajo como longitudes mfnimas y el percentil numero 95 de los sujetos masculinos se redondea como longitudes maximas.

Este proceso de optimizacion de busqueda de cuadrfcula se repite en forma iterativa a lo largo del esqueleto. Es decir, en cada iteracion, la posicion se optimiza por separado, de acuerdo con lo descrito, para cada articulacion del conjunto de todas las articulaciones. En estos experimentos, se ha hallado que por lo general converge despues de 4 iteraciones. Dado que la optimizacion esta basada en funciones objetivo que estan definidas en la imagen virtual, no se determinan parametros innecesarios en ultima instancia, y la eficiencia global es alta. Vease la Figura 7 para un modelo de cartelera articulado antes (7b) y despues (7c) de la optimizacion.

3.3. Correccion de la Costura de la Textura

Debido a la toma de muestras de las mascaras de segmentacion de las carteleras durante la representacion con la texturizacion proyectiva (vease la Figura 8a), pueden aparecer pequenas discontinuidades (grietas visibles) entre las carteleras adyacentes en la vista de salida de acuerdo con lo mostrado en la Figura 8b: En la imagen virtual 12, un pixel de salida a partir de una primera cartelera 6 puede caer, cuando se proyecta en la imagen de origen segmentada 10, dentro de un segundo segmento 13b que se asigna a una segunda cartelera 6' adyacente, en lugar de en un primer segmento 13a asignado a la primera cartelera 6. En consecuencia, el pixel de salida no recibe ninguna contribucion de color en absoluto. Para superar este problema, estos pfxeles de costura tienen que ser representados para ambas carteleras adyacentes. Por lo tanto, se marcan los pfxeles como pfxeles de costura en las vistas de entrada si cubren las carteleras sobre dos huesos del esqueleto adyacentes o enlaces 3 (por ej., un pixel encerrado por lfneas discontinuas en la Figura 8a).

Para detectar los pfxeles de costura, la mascara de segmentacion es atravesada para cada vista de entrada. Un pixel p esta marcado como pixel de costura, si cumple ambas de las siguientes condiciones:

• Por lo menos un pixel p ’ en su vecindario de 4 tiene una etiqueta diferente pero viene de la misma materia

• jprofundidad(p) - profundidad(p')j < p

donde la profundidad( ) es el valor de profundidad en este pixel. El umbral p distingue entre las partes de oclusion y las partes conectadas. Se ajusto en forma empfrica a p= 3 cm. Un ejemplo para la mascara de segmentacion corregida en su costura y la mejora de representacion resultante se muestra en la Figura 8c.

4. Renderizacion

En lo que sigue se describe un procedimiento de renderizacion para carteleras articuladas. Se ha disenado este algoritmo de acuerdo con los criterios generales definidos por Buehler et al. [BBM*01]. Debido a este entorno desafiante con errores de calibracion y un posicionamiento de la camara muy escaso, este enfoque particular esta en:

• Aspecto Consistente: Las carteleras adyacentes deben intersectar sin grietas o artefactos perturbadores y mezclarse de manera realista con el medio ambiente.

• Continuidad Visual: Las carteleras no deben cambiar repentinamente o aparecer al mover el punto de vista.

• Interpolacion de Vistas: Al ver la escena desde un angulo y posicion originales de la camara, la vista representada debe reproducir la de la camara de entrada.

Las entradas al procedimiento de renderizacion son el modelo de cartelera articulado, las vistas de entrada segmentadas I (Seccion 2.3) y las costuras calculadas en la Seccion 3.3. Para cada marco de salida representado, las carteleras articuladas estan ordenadas de atras hacia adelante para un manejo adecuado de las oclusiones. Con el fin de cumplir con los objetivos anteriores, se lleva a cabo un procedimiento de mezcla por pixel. Se separa entre los pesos por camara que se calculan una vez por cartelera y los ultimos pesos por pixel.

4.1. Pesos de la Mezcla de la Camara

Para una mezcla suave de las carteleras 6 asociadas con un abanico 7 de carteleras 6, se utiliza el mismo peso de Gauss que en la Ecuacion (5). Para lograr una interpolacion en una vista de camara original 10, se introduce una funcion de atenuacion que asegura que todas las vistas de una perspectiva de camara original 9 son identicas a las imagenes de origen de la camara correspondientes 10 mientras que se sigue asumiendo una transicion suave entre las diferentes vistas. La funcion de atenuacion se define como f(I^Max) = 1 para la vista de origen î Max con el valor mas alto de w( ) (es decir, la camara de origen 9 mas cercana) y

para todas las otras camaras Ij. d(V, i^Max) es la distancia euclfdea desde la posicion de la camara virtual del espectador 11 hasta la posicion de la camara de origen 9 de la vista iWMax. La constante a se determina en empfricamente como de 1 metro, que es inferior a la distancia minima entre dos camaras de origen 9 y por lo tanto no da lugar a ningun tipo de discontinuidad.

4.2 Procesamiento por Pixel

Las carteleras de un abanico de cartelera se mezclan por pixel. De acuerdo con lo mostrado en la Figura 8a, se lleva a cabo una busqueda de camaras en la mascara de segmentacion correspondiente de cada cartelera. Esto determina si el pixel de salida de corriente p esta en la parte del cuerpo que pertenece a esta cartelera. Si es asf, entonces la contribucion de color correspondiente Vj (p) = 0 desde la vista de origen ij y su valor alfa a j(p) se puede anadir a la vista de salida V. De lo contrario, se ajusta aj (p) = 0, es decir, transparente. El ultimo caso tambien se produce cuando la parte del cuerpo correspondiente se ocluye en Ij y la informacion de color se debe tomar de otras camaras. El valor de color resultante V(p) del pixel de pantalla es entonces

con el conjunto de todas las vistas de entrada I como en la Ecuacion (2) y los pesos por pixel

Esto se hace para todos los canales de color por separado. El valor alfa resultante es

donde se aplica el primer caso, si la camara mas cercana se utiliza para este pixel. La Ecuacion (8) y la Ecuacion (10) se aseguran de que los valores de color se mezclen de manera tal que los factores sumen 1. Sin embargo, los valores de alfa no tienen que sumar 1, por ej., si los valores de alfa continuos estan disponibles en lugar de las mascaras de segmentacion binaria.

Ademas de esto, las carteleras vistas en un angulo oblicuo o desde la parte trasera, es decir, que tienen una normal en un angulo proximo a o mas de 90 grados de distancia de la direccion de vision, simplemente se desvanecen. Para simplificar, estos factores no se muestran en las ecuaciones.

Un ejemplo para la mezcla de intensidades (es decir, un canal de color) de dos camaras se muestra en la Figura 9a donde los angulos de azimut y altitud son de coordenadas esfericas de la posicion de vista alrededor del abanico de carteleras. Los dos puntos pico en (0,0, 0,0) y (0,5, 0,5) corresponden a las posiciones de las camaras de origen. De acuerdo con lo que se puede observar en el grafico, al acercarse a estos puntos, el peso de la camara correspondiente aumenta al modelo en 3D 1,0 y todos los otros pesos de la camara disminuyen a 0,0. Por lo tanto, en este caso solo se utiliza la camara de origen, lo que da lugar a la reproduccion exacta de la imagen de origen.

Por ultimo, para evitar los bordes no suaves en los limites de un abanico de carteleras con respecto al fondo, otros abanicos de cartelera, y en lugares donde otras vistas de entrada reciben el peso mas alto (por ej., debido a las oclusiones en una cartelera), se aplica un paso de suavizado gaussiano adicional. Esto se lleva a cabo de forma adaptativa como un proceso posterior solo en las discontinuidades detectadas y almacenadas mientras que se representan las carteleras. Las Figuras 9b, c y d muestran un ejemplo: 9b imagen sin suavizado, 9c con suavizado adaptativo, 9d ubicaciones donde las discontinuidades se han eliminado a traves de suavizado. La Figura 10 muestra un diagrama de flujo de un metodo de acuerdo con la invencion. En un primer paso 21, se adquiere por lo menos una imagen por camara de origen 9, ya sea desde una corriente de video en vivo, o a partir de imagenes o corrientes de video almacenadas. En un segundo paso 22, se lleva a cabo la estimacion de la pose en 2D. En un tercer paso opcional 23, se lleva a cabo la optimizacion de multiples vistas. En un cuarto paso 24, se lleva a cabo el ajuste de plantilla en 3D. En un quinto paso 25, se lleva a cabo la segmentacion de las partes del cuerpo. En un sexto paso 26, se lleva a cabo la optimizacion de la pose en 3D, con base en la puntuacion de posicion. En un septimo paso 27, se lleva a cabo la correccion de la costura de la textura. En un octavo paso 28, se lleva a cabo la mezcla de la camara de las carteleras 6 de cada abanico de cartelera 7. En un noveno paso 29, la imagen final se almacena y/o se exhibe. Mientras que la explicacion anterior se refiere a la representacion y la renderizacion de un unico objeto articulado, la imagen final puede comprender una pluralidad de objetos articulados e imagenes de un fondo y otros objetos.

Si bien la invencion se ha descrito en las presentes realizaciones preferentes de la invencion, se entiende claramente que la invencion no esta limitada a las mismas, sino que de otro modo puede realizarse y ponerse en practica de diversas formas dentro del alcance de las reivindicaciones.

Bibliograffa

ABB*07

ANDUJAR C., BOO J., BRUNET P., FAIREN M., NAVAZO I., VAZQUEZ P., VINACUA A.:

Omni-directional relief impostors.

Computer Graphics Forum 26, 3 (2007), 553- 560.

ABT99

AUBEL A., BOULIC R., THALMANN D.:

Lowering the cost of virtual human rendering with structured animated impostors.

En WSCG'99 (1999).

AT06

AGARWAL A., TRIGGS B.:

Recovering 3d human pose from monocular images.

IEEE Trans. Pattern Anal. Mach. Intell. 28, 1 (2006), 44- 58.

BBM*01

BUEHLER C., BOSSE M., MCMILLAN L., GORTLER S., COHEN M.:

Unstructured lumigraph rendering.

En SIGGRAPH '01 (2001), pp. 425-432.

BCF*05

BEHRENDT S., COLDITZ C., FRANZKE O., KOPF J., DEUSSEN O.:

Realistic real-time rendering of landscapes using billboard clouds.

Computer Graphics Forum 24, 3 (2005), 507- 516.

CCST00

CHAI J.-X., CHAN S.-C., SHUM H.-Y., TONG X.:

Plenoptic sampling.

En SIGGRAPH '00 (Nueva York, NY, USA, 2000), ACM Press/Addison-Wesley Publishing Co., pp. 307- 318.

CTMS03

CARRANZA J., THEOBALT C., MAGNOR M. A., SEIDEL H.-P.:

Free-viewpoint video of human actors.

En SIGGRAPH '03 (2003), pp. 569-577.

dAST*08

DE AGUIAR E., STOLL C., THEOBALT C., AHMED N., SEIDEL H.-P., THRUN S.:

Performance capture from sparse multi-view video.

En SIGGRAPH '08 (2008), pp. 1-10.

DDS03

DECORET X., DURAND F., SILLION F. X.:

Billboard clouds.

En SCG '03 (2003), pp. 376- 376.

DTM96

DEBEVEC P. E., TAYLOR C. J., MALIK J.:

Modeling and rendering architecture from photographs: A hybrid geometry-and image-based approach.

SIGGRAPH'96 (1996), 11- 20.

EBMM03

EFROS A. A., BERG A. C., MORI G., MALIK J.:

Recognizing action at a distance.

En ICCV (2003), pp. 726-733.

Eye09

EYEVISION:.

http://www.ri.cmu.edu/events/sb35/tksuperbowl.html (2009).

GEJ*08

GAMMETER S., ESS A., JAEGGLI T., SCHINDLER K., LEIBE B., GOOL L. J. V.:

Articulated multi-body tracking under egomotion.

En ECCV (2) (2008), pp. 816-830.

GGSC96

GORTLER S. J., GRZESZCZUK R., SZELISKI R., COHEN M. F.:

The lumigraph.

En SIGGRAPH '96 (1996), pp. 43-54.

GKH09

GUILLEMAUT J.-Y., KILNER J., HILTON A.:

Robust graph-cut scene segmentation and reconstruction for free-viewpoint video of complex dynamic scenes.

En ICCV (Kyoto, Japon, Septiembre 2009).

GM03

GOLDLUECKE B., MAGNOR M.:

Real-time microfacet billboarding for free-viewpoint video rendering.

En ICIP'03 (2003), vol. 3, pp. 713-716.

GTH*07

GRAU O., THOMAS G. A., HILTON A., KILNER J., STARCK J.:

A robust free-viewpoint video system for sport scenes.

In Proceedings of the 3DTV Conference (Abril 2007).

HDK07

HORNUNG A., DEKKERS E., KOBBELT L.:

Character animation from 2D pictures and 3D motion data.

ACM Transactions on Graphics 26, 1 (2007).

HS06

HAYASHI K., SAITO H.:

Synthesizing free-viewpoint images from multiple view videos in soccer stadium.

En CGIV (2006), pp. 220- 225.

JKMG07

JAEGGLI T., KOLLER-MEIER E., GOOL L. J. V.:

Learning generative models for monocular body pose estimation.

En ACCV (1) (2007), pp. 608-617.

KSHG07

KILNER J., STARCK J., HILTON A., GRAU O.:

Dual-mode deformable models for free-viewpoint video of sports events. 3dim (2007), 177-184. LBDGG05

LEE O., BHUSHAN A., DIAZ-GUTIERREZ P., GOPI M.:

Capturing and view-dependent rendering of billboard models.

En ISVC (2005), pp. 601- 606.

LCF00

LEWIS J. P., CORDNER M., FONG N.:

Pose space deformation: a unified approach to shape interpolation and skeleton-driven deformation. En SIGGRAPH '00 (2000), pp. 165-172.

LH96

LEVOY M., HANRAHAN P.:

Light field rendering.

En SIGGR APH '96 (1996), pp 31- 42.

MBR*00

MATUSIK W., BUEHLER C., RASKAR R., GORTLER S. J., MCMILLAN L.:

Image-based visual hulls.

En SIGGRAPH '00 (2000), pp. 369- 374.

MHM*09

MAHAJAN D., HUANG F.-C., MATUSIK W., RAMAMOORTHI R., BELHUMEUR P.N.: Moving gradients: a path-based method for plausible image interpolation.

ACM Trans. Graph. 28, 3 (2009).

Mid09

Middlebury multi-view stereo evaluation. http://vision.middlebury.edu/mview/, Octubre 2009. NAS09

NASA:

Anthropometry and biomechanics.

http://msis.jsc.nasa.gov/sections/section03.htm (2009).

PG08

PEKELNY Y., GOTSMAN C.:

Articulated object reconstruction and markerless motion capture from depth video.

Comput. Graph. Forum 27, 2 (2008), 399- 408.

RMD04

RECHE A., MARTIN I., DRETTAKIS G.:

Volumetric reconstruction and interactive rendering of trees from photographs.

SIGGRAPH'0423, 3 (Julio 2004).

SGwHS98

SHADE J., GORTLER S., WEI HE L., SZELISKI R.:

Layered depth images.

En SIGGRAPH'98 (1998), pp. 231- 242.

Tho06

THOMAS G.:

Real-time camera pose estimation for augmenting sports scenes.

Visual Media Production, 2006. CVMP 2006.3rd European Conference on (2006), 10- 19

VBMP08

VLASIC D., BARAN I., MATUSIK W., POPOVIC J.:

Articulated mesh animation from multi-view silhouettes.

En SIGGRAPH '08 (2008), pp. 1- 9.

WWG07

WASCHBUSCH M., WURMLIN S., GROSS M.:

3d video billboard clouds.

Computer Graphics Forum 26, 3 (2007), 561- 569.

YSK02

YAMAZAKI S., SAGAWA R., KAWASAKI H., IKEUCHI K., SAKAUCHI M.:

Microfacet billboarding.

En EGRW '02 (2002), pp. 169-180.

Lista de designaciones

1 modelo en 3D

2 articulacion

3 enlace

4 modelo de objeto articulado

5 superficie de proyeccion

6 cartelera

7 abanico de cartelera

8 escena

9, 9' camara de origen

10, 10' imagen de origen

11 camara virtual

12 imagen virtual

13, 13a, 13b segmento de imagen de origen

14 objeto del mundo real

15 unidad de procesamiento

16 unidad de almacenamiento

17 transmisor

18 dispositivo de visualizacion de video

19 estacion de trabajo

Claims

REIVINDICACIONES

1. Un metodo implementado por ordenador para la renderizacion (representacion) de una imagen virtual (12) vista desde una camara virtual (11), dado un modelo de objeto articulado (4), en el que el modelo de objeto articulado (4) es un modelo en 3D basado en ordenador (1) de un objeto del mundo real (14) observado por dos o mas camaras de origen (9), y el modelo de objeto articulado (4) representa una pluralidad de articulaciones (2) y de enlaces (3) que enlazan las articulaciones (2), y en el que la pose del modelo de objeto articulado (4) esta definido por la localizacion espacial de las articulaciones (2), el metodo comprende los pasos de

• determinar una estimacion de la pose en 3D, es decir, las posiciones de las articulaciones en 3D del modelo de objeto articulado (4);

• asociar cada enlace (3) con una o mas superficies de proyeccion (5), en las que las superficies de proyeccion (5) son superficies definidas en el modelo en 3D, y la posicion y la orientacion de cada superficie de proyeccion (5) estan determinadas por la posicion y la orientacion del enlace asociado (3);

• en el que las superficies de proyeccion (5), para cada enlace (3), comprenden un abanico (7) de carteleras (6), cada cartelera (6) esta asociada con una camara de origen (9), y cada cartelera es una superficie plana atravesada por su enlace asociado (3) y un vector que es normal tanto a este enlace (3) como a una lfnea que conecta un punto del enlace (3) a la camara de origen (9);

• para cada camara de origen (9), proyectar segmentos de la imagen de origen asociada (10) sobre la cartelera asociada (6) , lo que crea las imagenes de cartelera;

• para cada enlace (3), proyectar las imagenes de cartelera en la imagen virtual (12) y mezclar las imagenes de cartelera para formar una parte correspondiente de la imagen virtual (12).

2. El metodo de acuerdo con la reivindicacion 1, que comprende los pasos de

• obtener por lo menos una imagen de origen (10) que comprende una vista de un objeto del mundo real (14) a partir de una corriente de video grabada por una camara de origen (9) de las dos o mas camaras de origen (9);

• procesar la por lo menos una imagen de origen (10) para extraer un segmento de imagen de origen correspondiente (13) que comprende la vista del objeto del mundo real (14) separado del fondo de la imagen;

• mantener, en una base de datos en forma legible por ordenador, un conjunto de siluetas de referencia, cada silueta de referencia esta asociada con una segmentacion de referencia, la segmentacion de referencia define sub-segmentos de la silueta de referencia, cada sub-segmento se le asigna una etiqueta unica;

• determinar una silueta de referencia coincidente que se asemeja mas estrechamente al segmento de imagen de origen (13) y recuperar la segmentacion de referencia de la silueta de referencia;

• para cada sub-segmento, superponer tanto una version engrosada como afinada del sub-segmento sobre el segmento de imagen de origen (13) y etiquetar los pfxeles de la imagen de origen que se encuentran tanto en la version engrosada como afinada con la etiqueta del sub-segmento;

• etiquetar todos los pfxeles restantes del segmento de imagen de origen (13) como inseguros;

3. El metodo de acuerdo con la reivindicacion 1 o la reivindicacion 2, en el que la pose del modelo de objeto articulado (4), se estima mediante los pasos de

• obtener por lo menos una imagen de origen (10) que comprende una vista de un objeto del mundo real (14) a partir de una corriente de video grabado por una camara de origen (9) de las dos o mas camaras de origen (9);

• procesar la por lo menos una imagen de origen (10) para extraer un segmento de imagen de origen correspondiente (13) que comprende la vista del objeto del mundo real (14) separada del fondo de la imagen;

• mantener, en una base de datos en forma legible por ordenador, un conjunto de siluetas de referencia, cada silueta de referencia esta asociada con un modelo de objeto articulado (4) y con una pose de referencia particular de este modelo de objeto articulado (4);

• comparar el por lo menos un segmento de imagen de origen (13) con las siluetas de referencia y seleccionar un numero predeterminado de siluetas de referencia, teniendo en cuenta, para cada silueta de referencia,

^o un error de coincidencia que indica cuan estrechamente la silueta de referencia coincide con el segmento de imagen de origen (13) y

^o un error de consistencia que indica cuanto la pose de referencia es consistente con la pose del mismo objeto del mundo real (14) de acuerdo con lo estimado a partir de por lo menos una de las imagenes de origen precedentes y siguientes (10) de la corriente de video;

• recuperar las poses de referencia de los modelos de objeto articulado (4) asociados con las siluetas de referencia seleccionadas; y

• calcular una estimacion de la pose del modelo de objeto articulado (4) a partir de las poses de referencia de las siluetas de referencia seleccionadas.

4. El metodo de acuerdo con la reivindicacion 3, en el que el paso de comparar el por lo menos un segmento de imagen de origen (13) con las siluetas de referencia comprende los pasos de, para cada silueta de referencia con la que se compara el segmento de imagen de origen (13):

• determinar una transformacion proyectiva que mapea el segmento de imagen de origen (13) sobre la silueta de referencia por medio del escalamiento del segmento de imagen de origen (13) para ser del mismo tamano que la silueta de referencia; y

• calcular el error de coincidencia ya sea como proporcional al tamano relativo del area de la imagen en la que el segmento de imagen de origen mapeado (13) y la silueta de referencia no se superponen, o como una medida de la distancia entre los contornos del segmento de imagen de origen escalado (13) y de la silueta de referencia, con el error de coincidencia, opcionalmente, siendo tambien dependiente de parametros de la transformacion proyectiva;

• y utilizar este error de coincidencia como una medida de cuan estrechamente coinciden el segmento de imagen de origen (13) y la silueta de referencia.

5. El metodo de acuerdo con la reivindicacion 4, en el que

• el paso de escalamiento se logra por medio del re-muestreo ya sea del segmento de imagen de origen (13) o las siluetas de referencia o ambos para tener cuadros delimitadores del mismo tamano de pixel, y • tanto el segmento de imagen de origen (13) como la silueta de referencia estan representados por imagenes binarias que tienen la misma dimension de pixel, y el valor de error se calcula por medio del recuento del numero de pfxeles correspondientes del segmento de imagen de origen (13) y la silueta de referencia que difieren en valor.

6. El metodo de acuerdo con una de las reivindicaciones 3 a 5, en el que el paso de comparar el por lo menos un segmento de imagen de origen (13) con las siluetas de referencia comprende los pasos de, para cada silueta de referencia con la que se compara el segmento de imagen de origen (13):

• recuperar la pose del mismo objeto del mundo real (14) estimada a partir de una imagen de origen anterior (10) de la corriente de video;

• calcular el error de consistencia como proporcional a la diferencia entre esta estimacion de pose anterior y la pose de referencia de la silueta de referencia, y utilizar este error de consistencia como una medida de la consistencia con la imagen de origen anterior (10).

7. El metodo de acuerdo con una de las reivindicaciones 3 a 6, en el que el paso de calcular una estimacion de la pose del modelo de objeto articulado (4) a partir de las poses de referencia de las siluetas de referencia seleccionadas comprende

• repetir los pasos anteriores para una o mas imagenes de origen adicionales (10) de una o mas corrientes de video adicionales de camaras de origen adicionales (9), cada imagen de origen adicional (10) comprende una vista del mismo objeto del mundo real (14) que se ha grabado al mismo tiempo pero desde un punto de vista diferente, obteniendo de este modo para cada imagen de origen adicional (10) un numero predeterminado de siluetas de referencia seleccionadas y poses de referencia seleccionadas asociadas;

• llevar a cabo una optimizacion para seleccionar para cada imagen de origen (10) una pose de referencia mas plausible, por medio del calculo para cada combinacion de poses de referencia seleccionadas para las diferentes imagenes de origen (10) una medida de consistencia de las articulaciones totales ,

^o proyectando las articulaciones (2) de las poses de referencia seleccionadas de esta combinacion en el espacio 3D, estimando una posicion en 3D de las articulaciones (2) y calculando, para cada articulacion, una medida de consistencia de las articulaciones que expresa lo bien que la posicion de la articulacion en 3D estimada coincide con la proyeccion de la articulacion (2) de las poses de referencia seleccionadas;

^o combinando las medidas de consistencia de las articulaciones de todas las articulaciones para obtener la medida de consistencia de las articulaciones totales;

• seleccionar la combinacion de las poses de referencia para las diferentes imagenes de origen (10) que optimiza la medida de consistencia de las articulaciones totales.

8. El metodo de acuerdo con la reivindicacion 7, en el que el paso de llevar a cabo una optimizacion ademas comprende el paso de variar y optimizar un desplazamiento en 2D de cada silueta en el plano de su imagen de origen asociada (10) con el fin de corregir los errores de calibracion de la camara de origen (9)

9. El metodo de acuerdo con una de las reivindicaciones 3 a 8, que comprende el paso adicional de exhibir, en un dispositivo de visualizacion, por lo menos una imagen de origen (10) con posiciones de las articulaciones estimadas superpuestas sobre la imagen de origen (10) y aceptar una entrada de usuario para modificar en forma interactiva una o mas posiciones de las articulaciones.

10. El metodo de acuerdo con una de las reivindicaciones 3 a 9, en el que, con el fin de determinar una pose en 3D que coincide con una pose en 2D dada asociada con una imagen de origen (10), se llevan a cabo los siguientes pasos:

• calcular, desde la pose en 2D dada una pose en 3D aproximada que comprende posiciones de las articulaciones (2) aproximadas que coinciden aproximadamente con las posiciones de las articulaciones correspondientes (2) de la pose en 2D cuando se proyecta en el plano de imagen de la imagen de origen (10) asociada con la pose en 2D;

• modificar la pose en 3D aproximada para coincidir exactamente con la pose en 2D, para cada articulacion (2), moviendo la posicion de la articulacion (2) desde la posicion de la articulacion aproximada (2) a una posicion definida por la interseccion de un rayo que pasa desde la camara a traves de la posicion de la articulacion (2) en la imagen de origen (10) con un plano paralelo al plano de imagen de la imagen de origen (10) y que pasa a traves de la posicion de la articulacion aproximada (2)

11. El metodo de acuerdo con una de las reivindicaciones 3 a 10, en el que la pose del modelo de objeto articulado (4) esta definido por la localizacion espacial de las articulaciones (2), denominada posiciones de las articulaciones en 3D, el metodo comprende los pasos de

• determinar una estimacion inicial de la pose en 3D, es decir, las posiciones de las articulaciones en 3D del modelo de objeto articulado (4);

• asociar cada enlace (3) con una o mas superficies de proyeccion (5), en las que las superficies de proyeccion (5) son superficies definidas en el modelo en 3D, y la posicion y la orientacion de cada superficie de proyeccion (5) se determinan por la posicion y la orientacion del enlace asociado (3); • adaptar en forma iterativa las posiciones de las articulaciones en 3D, para cada articulacion (2),

^o calculando un puntaje de posicion asignado a su posicion de la articulacion en 3D, siendo el puntaje de posicion una medida del grado en el que los segmentos de imagen de las diferentes camaras de origen (9), cuando se proyectan sobre las superficies de proyeccion (5) de enlaces (3) adyacentes a la articulacion (2), son consistentes entre si;

^o variando la posicion de la articulacion en 3D de la articulacion (2) hasta que se logre un puntaje de posicion optimo;

• repetir el paso de adaptar en forma iterativa las posiciones de las articulaciones en 3D para todas las articulaciones (2) durante un numero predeterminado de veces o hasta que los puntajes de posicion converjan.

12. El metodo de acuerdo con la reivindicacion 11, en el que el paso de variar la posicion de la articulacion en 3D de las articulaciones (2) varfa las posiciones de la articulacion en 3D sujetas a limitaciones antropometricas, siendo las limitaciones antropometricas al menos una de las siguientes:

• la articulacion esta en o por encima del suelo;

• las longitudes de los enlaces topologicamente simetricos no difieren mas del 10%;

• las distancias entre las articulaciones que no estan conectadas por un enlace estan dentro de los estandares antropometricos

13. El metodo de acuerdo con la reivindicacion 11 o 12, en el que las superficies de proyeccion (5), para cada enlace (3), comprenden un abanico (7) de carteleras (6), cada cartelera (6) esta asociada con una camara de origen (9), y cada cartelera es una superficie plana atravesada por su enlace asociado (3) y un vector que es normal tanto a este enlace (3) como a una lfnea que conecta un punto del enlace (3) con la camara de origen (9).

14. El metodo de acuerdo con la reivindicacion 11 o 12 o 13, en el que el puntaje de posicion de una posicion de la articulacion en 3D de una articulacion (2) se calcula por medio de los pasos de, para cada enlace (3) adyacente a la articulacion (2),

• proyectar las imagenes de las diferentes camaras de origen (9) sobre las superficies de proyeccion asociadas (5) del enlace (3) y desde allf en una imagen virtual (12) vista por una camara virtual (11);

• para un area (12) que corresponde a la proyeccion de estas superficies de proyeccion (5) en la imagen virtual (12), calcular una puntaje de posicion parcial para este enlace de acuerdo con el grado en el que los segmentos de imagen de las distintas camaras de origen (9) se solapan y tienen un color similar;

• combinar los puntajes de posicion parciales para obtener el puntaje de posicion.

15. El metodo de acuerdo con la reivindicacion 14, en el que el calculo y la combinacion del puntaje de posicion parcial comprende los pasos de

• calcular el puntaje de posicion parcial para cada par de camaras de origen (9) que contribuyen a la imagen virtual (12);

• combinar estos puntajes de posicion parciales por medio de la adicion de los mismos, ponderando cada puntaje de posicion parcial de acuerdo con el angulo entre las direcciones de vision del par asociado de camaras de origen (9)