ES2585903T3

ES2585903T3 - Método y sistema para generar una representación de una escena 3D dinámicamente cambiante

Info

Publication number: ES2585903T3
Application number: ES07720162.2T
Authority: ES
Inventors: Stephan Würmlin; Christoph Niederberger
Original assignee: LIBEROVISION AG
Current assignee: LIBEROVISION AG
Priority date: 2006-06-02
Filing date: 2007-05-24
Publication date: 2016-10-10
Anticipated expiration: 2027-05-24
Also published as: EP2024937B1; ES2712375T3; US9406131B2; EP2492870A3; EP1862969A1; EP2024937A1; JP2009539155A; WO2007140638A1; EP2492870B1; US20090315978A1; EP2492870A2

Abstract

Un método para generar una representación 3D de una escena 3D dinámicamente cambiante, que comprende las etapas de a) adquirir (102) al menos dos emisiones (120) de video de al menos dos cámaras (702) localizadas en diferentes localizaciones y que observan la misma escena 3D (701); b) determinar (103) parámetros (122) de cámara que comprenden la posición, la orientación y parámetros internos para dichas al menos dos cámaras (702); c) seguir el movimiento de los objetos (310a,b, 312a,b; 330a,b, 331a,b, 332a,b; 410a,b, 411a,b; 430a,b, 431a,b; 420a,b, 421a,b) en cada una de las al menos dos emisiones (104) de video, en las que un objeto es un jugador o un árbitro o una pelota en una escena deportiva; d) determinar la posición 3D de los objetos combinando la información de las al menos dos emisiones (107) de video; caracterizado por que la etapa de seguimiento (104) del movimiento de objetos (310a,b, 312a,b; 330a,b, 331a,b, 332a,b; 410a,b, 411a,b; 430a,b, 431a,b; 420a,b, 421a,b) en cada una de las al menos dos emisiones (12) de video usa la posición 3D de los objetos (130) como se deduce en la etapa de determinación de la posición 3D de los objetos (107); y el método comprende la etapa de e) determinar la identidad de dichos objetos en las al menos dos emisiones (105) de video asociando objetos con identificadores únicos y asociando así los objetos con información (132) almacenada, previamente conocida sobre objetos del mundo real; f) determinar la posición y orientación de los objetos (903) de reproducción 3D correspondientes a los objetos en la emisión de video, en los que los objetos (903) de reproducción 3D sirven para reproducir información de imagen de una o más emisiones de video cuando generan la representación 3D de la escena.

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCION

Metodo y sistema para generar una representacion de una escena 3D dinamicamente cambiante Campo de la invencion

La invencion se refiere al campo del procesamiento de video y a la generacion de imagenes virtuales, y es aplicable por ejemplo a la cobertura de deportes por television mediante reconstruccion basada en video en situaciones de juego en tres dimensiones. Se refiere a un metodo y un sistema para generar una representacion 3D de una escena 3D dinamicamente cambiante, como se describe en el preambulo de las reivindicaciones independientes correspondientes.

Antecedentes de la invencion

El documento "A Video-Based 3D-Reconstruction of Soccer Games", T. Bebie y H. Bieri, EUROGRAPHICS 2000, Vol. 19 (2000), n.° 3, describe un sistema de reconstruccion disenado para generar vistas en 3D virtuales, animadas, (tridimensionales) a partir de dos secuencias de video smcronas de parte de un juego de futbol. Para crear una reconstruccion 3D de una escena dada, se ejecutan las siguientes etapas: 1) Se calculan los parametros de camara de todos los fotogramas de ambas secuencias (calibrado de la camara). 2) Se extrae la textura del campo de juego de las secuencias de video. 3) Se calculan las trayectorias de la pelota y las cabezas de los jugadores despues de especificar manualmente sus posiciones de imagen en unos pocos fotogramas clave. 4) Se extraen las texturas de jugador automaticamente del video. 5) Se separan automaticamente las formas de jugadores que colisionan o se ocluyen. 6) Para la visualizacion, se mapea la textura de las formas de jugador sobre rectangulos colocados apropiadamente en un espacio virtual. Se supone que las camaras permanecen en la misma posicion durante toda la secuencia de video que se esta procesando.

El documento EP 1 465 115 A2 describe la generacion de una vista deseada desde un punto de vista seleccionado. Se obtienen imagenes de escena a partir de varias camaras con diferentes puntos de vista. Los objetos seleccionados se identifican en al menos una imagen, y se determina una estimacion de la posicion de los objetos seleccionados. Dado un punto de vista deseado, se determinan las posiciones de los objetos seleccionados en la vista deseada resultante, y las vistas de los objetos seleccionados se interpretan usando los datos de imagen de las camaras.

Se hace referencia adicional a las siguientes publicaciones de la tecnica anterior:

- "Architecture and algorithms for tracking football players with multiple cameras". M. Xu, J. Orwell y D. Thirde; IEE Proceedings - Vision, Image, and Signal Processing - abril 2005 - Volumen 152, edicion 2, pag. 232-241. Este documento describe la extraccion de la posicion de jugadores de futbol y la posicion 3D de una pelota, dadas por imagenes de video de camaras estaticas. Sin embargo, no se aborda la smtesis de una representacion 3D.

- "Multiple camera tracking of interacting and occluded human motion". Dockstader, S. y Tekalp, A. M.; 2001a. Proceedings of the IEEE 89, 1441-1455. Este documento se dirige a hacer un seguimiento de multiples personas que se mueven e interactuan, dadas multiples imagenes de camara. No se aborda la smtesis de una representacion 3D y la calibrado de la localizacion de la camara y/u orientacion.

- "Sports scene analysis and visualization from multiple-view video". Hideo Saito, Naho Inamoto, Sachiko Iwase; Int. Conf Multimedia and Expo (ICME) 2004: 1395-1398. Este documento describe una visualizacion desde un punto de vista libre de una escena de futbol a partir de multiples vistas de camara.

- "Robust Tracking of Athletes Using Multiple Features of Multiple Views". Toshihiko Misu, Seiichi Gohsi, Yoshinori Izumi, Yoshihiko Misu, Masahide Naemura; Proceedings of WSCG'2004. Pags. 285-292. Para realizar el seguimiento de objetos moviles en imagenes 2D, se usa un numero de programas de instalacion para observar multiples caractensticas tales como textura, color, movimiento y region, y la informacion de los diferentes programas de instalacion se condensa entonces, ponderando la informacion adaptativamente segun una fiabilidad proporcionada por cada programa de instalacion.

- "Live mixed-reality 3D video in soccer stadium". Koyama, T. Kitahara, I. Ohta, Y.; Mixed and Augmented Reality, 2003. The Second IEEE and ACM International Symposium on mixed and augmented reality (ISMAR): 7-10 de octubre de 2003; paginas: 178-186. Se reconstruye un modelo 3D simplificado a partir de multiples imagenes de video, y se proyecta la informacion de video seleccionada sobre el modelo. Una camara especializada, instalada verticalmente por encima del campo de juego, se requiere para determinar la posicion de un jugador. Se requieren instrumentos de interrogacion laser para calibrar las posiciones de las otras camaras.

- "Immersive Observation of Virtualized Soccer Match at Real Stadium Model". Naho Inamoto, Hideo Saito; The Second IEEE and ACM International Symposium on mixed and augmented reality (ISMAR); 7-10 de octubre de 2003; paginas 188-197. Se genera una representacion de una escena de futbol virtual a partir de imagenes reales, y se muestra a una persona que lleva un dispositivo montado en la cabeza (HMD).

5

10

15

20

25

30

35

40

45

50

Descripcion de la invencion

Es un objeto de la invencion crear un metodo y un sistema para generar una representacion 3D de una escena 3D dinamicamente cambiante del tipo mencionado inicialmente, que proporciona una mejora sobre sistemas conocidos. En este contexto, la representacion que se va a generar se entiende por sf misma como una representacion 3D, es decir, un modelo de la escena que comprende informacion sobre la posicion y orientacion 3D de los objetos modelados. Esto es diferente de las representaciones 2D, en las cuales se manipula y analiza una imagen 2D, por ejemplo, identificacion de objetos y seguimiento del movimiento de uno o mas objetos, sin determinar la posicion 3D del objeto.

Estos objetos pueden conseguirse por un metodo y un sistema para generar una representacion 3D de una escena dinamicamente cambiante de acuerdo con las reivindicaciones independientes correspondientes.

El metodo para generar una representacion 3D de una escena dinamicamente cambiante comprende las etapas de

• adquirir al menos dos emisiones de video, preferiblemente sincronizadas desde al menos dos camaras localizadas en diferentes localizaciones, y que observan la misma escena 3D;

• determinar parametros de camara, que comprenden posicion, orientacion, y parametros internos tales como, por ejemplo, ajuste de zoom, para dichas al menos dos camaras;

• seguir el movimiento de objetos en las al menos dos emisiones de video;

• determinar la identidad de dichos objetos en las al menos dos emisiones de video;

• determinar la posicion 3D de los objetos combinando la informacion desde al menos dos emisiones de video;

en el que al menos una de las etapas mostradas anteriormente depende de la informacion obtenida a partir de las al menos dos emisiones de video por una de las etapas posteriores.

Como resultado, se implementa un bucle de retroalimentacion de informacion, es decir, una etapa particular en la secuencia de las etapas de procesamiento de informacion usa informacion obtenida en una o mas etapas posteriores del proceso. Esta informacion tfpicamente se obtiene a partir de informacion de video que se genero en el instante anterior en el tiempo. Tal uso de una informacion, a priori, mejora la calidad y fiabilidad de los resultados de dicha etapa particular. En una realizacion preferida de la invencion, la posicion 3D de al menos un objeto se extrapola de al menos dos posiciones 3D anteriores del objeto.

En una realizacion preferida de la invencion, la etapa de seguir el movimiento de objetos en las al menos dos emisiones de video usa informacion que se obtiene en una de las etapas posteriores de las al menos dos emisiones de video y parte de uno o mas instantes anteriores en el tiempo.

En una realizacion preferida adicional de la invencion, la informacion obtenida del uno o mas instantes anteriores en el tiempo es la posicion 3D del objeto.

Como resultado, la calidad y robustez del seguimiento 2D en una emision de video mejora. Segun el estado de la tecnica, el seguimiento en una emision de video solo esta basado en la informacion disponible a partir de la propia emision de video. Esto conduce a ambiguedades cuando dos objetos colisionan o solapan en una de las emisiones de video. Dada una posicion 3D de un objeto y una informacion de calibrado de camara, el movimiento de la proyeccion de los objetos en el espacio de imagen puede predecirse con mayor precision usando retroproyeccion de la posicion 3D de los objetos en la imagen. Ademas, es posible desambiguar entre diferentes interpretaciones de la misma imagen. Proyectando la posicion 3D del objeto de vuelta a la imagen, el algoritmo de seguimiento puede detectar objetos que colisiona/solapan y mantiene la identificacion correcta despues de que ambos objetos se separen de nuevo.

En una variante preferida de la invencion, la posicion 3D de al menos un objeto se extrapola de al menos dos posiciones 3D anteriores del objeto. Esto se realiza, por ejemplo, por interpolacion de primer orden o superior de la trayectoria anterior del objeto sobre los ultimos fotogramas de la imagen. El termino "objetos" en este punto y mas adelante se refiere a objetos moviles de interes en la escena que son observados por la camara. En un contexto deportivo, los objetos son, por ejemplo, los jugadores, una pelota y un arbitro. Otros elementos de imagen clave son el fondo, que es esencialmente estacionario, y que por un lado puede comprender la cancha o campo de juego, elementos caractensticos tales como lmeas y otras marcas en la cancha, paredes y un entorno (por ejemplo un estadio) que rodea la cancha. Si se requiere, se denominaran "objetos de fondo". Los espectadores en el entorno, aunque estan en movimiento, no se consideran como "objetos moviles" con el fin de esta solicitud. En general "2D" se refiere a las posiciones o formas de objetos o elementos en una imagen de video, mientras que "posiciones 3D" se refiere a la posicion de un objeto en un modelo computacional tridimensional de una escena. En una realizacion preferidas de la invencion, tal modelo 3D se mantiene y actualiza dinamicamente. La informacion de imagen o textura de video a partir de varias alimentaciones de video se interpreta sobre superficies definidas por este modelo 3D. Esto permite sintetizar vistas arbitrarias, dinamicas del modelo 3D, generando alimentaciones de video sinteticas

5

10

15

20

25

30

35

40

45

50

55

o virtuales adicionales.

En este punto y en el resto de la solicitud, el termino "reproduccion" se entiende que significa, como es habitual en graficos informaticos, el proceso de producir los p^xeles de una imagen a partir de una descripcion de mayor nivel de sus componentes. En este caso, la descripcion de mayor nivel es la combinacion del modelo 3D y su informacion de textura asociada, y la reproduccion se consigue mapeando la informacion de textura sobre el modelo 3D y determinando que camara virtual se ve en el modelo 3D.

En una variante preferida de la invencion, el calibrado de la camara se basa en el seguimiento de los elementos de referencia. Para inicializar el proceso de seguimiento, es necesario identificar, en cada entrada de video, un numero de elementos de referencia, es decir, por asociacion de cada uno de ellos con un identificador unico. Cada elemento de referencia esta asociado con un elemento de la escena (por ejemplo, posicion, lmea, esquina, drculo, etc.) en el espacio 3D. Dados estos elementos y la proyeccion de los elementos de referencia, como se ve en las imagenes de video, se determinan los parametros de camara y, en particular, la posicion, orientacion y ajuste de zoom y posiblemente otros parametros opticos de la camara. Todo el conjunto de estos parametros se denominara de aqu en adelante como "parametros de camara". La etapa de determinar estos parametros se denomina calibrado de la camara y, tipicamente, se realiza para cada fotograma de cada entrada de video que se procesa. Para hacer esto, el movimiento de los elementos de referencia dentro de cada emision de video puede seguirse por un metodo y sistema de seguimiento apropiado, como se conoce en la tecnica.

En una variante preferida de la invencion, se calcula una posicion de imagen esperada del elemento de referencia en una de las imagenes de video a partir de la localizacion 3D conocida del elemento de referencia. Esto es particularmente util cuando, despues de mover o ampliar el zoom de la vista, un elemento de referencia que no era visible durante un tiempo resulta visible de nuevo: a partir del modelo 3D y dados los parametros de camara actuales, se determina que un elemento de referencia particular (con identidad conocida) debena ser visible en una posicion esperada en el fotograma actual. La proximidad de la posicion esperada se examina por extraccion del elemento, y a un elemento mostrado en la imagen (y preferiblemente que es el mismo tipo que el elemento de referencia esperado) se le asigna automaticamente la identidad del elemento de referencia esperado.

En una variante preferida de la invencion, el calibrado se consigue en base a las imagenes de video en solitario. La etapa de calibrado de la camara puede conseguirse alternativamente determinando la posicion, orientacion y ajuste de zoom de la camara por medios de medicion (electro)mecanicos, o extrayendo los valores correspondientes de un sistema de control que controla estos parametros.

En una variante preferida adicional de la invencion, para cada emision de video, a los elementos de referencia se les asigna su identidad en una imagen de referencia. En un escenario de juego tfpico, los elementos de referencia son lmeas y otras marcas en la cancha. Un usuario los identifica en una imagen estatica de un video

• apuntando, con un dispositivo de entrada grafica, a una representacion del mismo elemento de referencia en una representacion esquematica de la cancha, y seleccionando dicha representacion del elemento de referencia;

• apuntando, con un dispositivo de entrada grafica, a un elemento de referencia particular, como se ve en la imagen estatica del video y seleccionando dicho elemento de referencia; y

• asociando la identidad de la representacion del elemento de referencia con el elemento de referencia visto en la imagen estatica.

La accion de seleccionar una representacion o elemento se efectua mediante una orden o entrada de usuario, tal como por ejemplo clicar un boton del raton o pulsar una tecla predeterminada despues de apuntar a la representacion o elemento. El orden de seleccion del elemento de referencia (primero o segundo) y su representacion esquematica (segunda o primera) puede variar. La representacion del elemento de referencia y la imagen de video pueden mostrarse en pantallas diferentes o dentro de ventanas diferentes en la misma pantalla. Este metodo para inicializar la asociacion entre elementos de imagen y elementos del modelo permite un rapido ajuste del sistema.

En otra variante preferida de la invencion, en la etapa de seleccionar dicho elemento de referencia en la imagen estatica de video, se realizan las siguientes subetapas para determinar la posicion exacta del elemento de referencia en la imagen estatica del video:

• realizar automaticamente, en las proximidades de la posicion seleccionada por el usuario, una extraccion de elemento y, en particular, una extraccion de lmeas, intersecciones y esquinas;

• determinar la posicion del elemento de referencia como la posicion de uno de los elementos extrafdos y, en particular, de un elemento cuyo tipo es el mismo que el seleccionado en la representacion esquematica de la cancha.

Esto permite "ajustar" automaticamente la seleccion a la mejor posicion del elemento, segun se determina a partir del fotograma del video. Esto corrige pequenos errores de posicion, realizados por el usuario cuando apunta al

5

10

15

20

25

30

35

40

45

50

55

elemento y, por lo tanto, simplifica y acelera el proceso de inicializacion.

En otra realizacion preferida adicional mas de la invencion, la etapa de seguir el movimiento de los objetos comprende la etapa de incorporar parametros de camara dinamicamente cambiantes en la funcion de seguimiento, de manera que la funcion de seguimiento compense cambios en los parametros de camara. Esto significa que, para cada etapa de localizacion de un objeto seguido particular, se calcula no solo su posicion esperada y preferiblemente tambien su tamano, basandose en la posicion y preferiblemente tambien su tamano en fotogramas anteriores, sino que dicha posicion y tamano esperados se corrigen segun los cambios conocidos de los ajustes de la camara, incluyendo el zoom entre el fotograma de video anterior y actual. La correccion significa que se usa el movimiento de la camara (paneo e inclinacion) para determinar el cambio esperado de posicion en la imagen, mientras la cantidad de zoom tiene influencia en el tamano esperado del objeto. Esto conduce a una prediccion mas precisa del algoritmo de seguimiento, que aumenta el tiempo de procesamiento de todo el metodo de seguimiento.

Los parametros de camara tenidos en cuenta en la etapa de compensacion o correccion de la funcion de seguimiento son cualquiera de

• parametros de camara determinados por una etapa de calibrado de camara realizada para el mismo fotograma de video para el cual se realiza el seguimiento, o

• parametros de camara determinados por una etapa de calibrado de camara realizada para uno o mas fotogramas de video previos.

En el primer caso, la etapa de seguimiento tiene que esperar a que se complete el calibrado de la camara, en el ultimo caso, las etapas de seguimiento y calibrado pueden realizarse en paralelo. En el ultimo caso, los parametros de camara opcionalmente pueden extrapolarse, por ejemplo por interpolacion lineal o de mayor orden, a partir de dos o mas ajustes anteriores de los parametros de camara.

En una variante preferida adicional de la invencion, para inicializar identificaciones de objeto, se realizan las siguientes etapas:

• un usuario selecciona, en una primera imagen estatica de la primera de las emisiones de video, un objeto y asigna a este un identificador unico; y

• determinar automaticamente, en otra imagen estatica de al menos otra emision de video, un objeto cuya identidad es la misma.

Esta "asistencia de identificacion automatica" reduce el trabajo de identificar cada objeto en cada uno de los conjuntos de imagenes estaticas (uno para cada emision de video, y bajo para la precondicion de que todas las imagenes se toman en el mismo momento). Identificar un objeto en una imagen significa que un objeto, como se ve en una imagen, esta asociado con ser un "arbitro" o una "pelota" o el "jugador Vroomfondel" u otro jugador, etc. Idealmente, la identificacion de un objeto puede realizarse clicando sobre (o seleccionando de otra manera) un objeto solo en una de las imagenes estaticas. Suponiendo que todos los objetos estan localizados a nivel del campo de juego, la posicion 3D del objeto seleccionado en el campo de juego se determina intersecando el vector que apunta desde la camara hacia la posicion del objeto segun se ve por la camara con el plano del campo de juego. Cuando no se supone que los objetos estan localizados al nivel del terreno, el punto 3D mas cercano a todos dichos vectores puede calcularse como la posicion del objeto. Desde esta posicion, se calcula la posicion esperada en el otro video estatico. Para cada uno de los otros videos estaticos, si un objeto esta en la posicion esperada, entonces su identidad se ajusta para que sea la misma que la del objeto en la primera imagen estatica. El sistema preferiblemente muestra la otra imagen estatica que incorpora una representacion visual de dicha identidad y permite al usuario confirmar o rechazar la asociacion con dicha identidad. En los casos en los que los objetos solapan en una o mas imagenes estaticas, en ocasiones puede detectarse automaticamente, por ejemplo si el area total, la forma o el histograma de color, etc., no es como se esperaba. En tales casos, se informa al usuario, y la identidad del objeto en la imagen respectiva se ajusta manualmente. En otros casos, puede ser necesario identificar el objeto en otro fotograma a partir de la misma emision de video, en el cual en dicho otro fotograma el objeto es mas facil de separar de los otros objetos.

Puede darse una situacion en la cual un objeto, tfpicamente un jugador, no es visible en ninguna de las entradas de video y, de esta manera, no se puede realizar su seguimiento nunca mas. Como resultado, cuando el objeto reaparece en una de las emisiones de video, su identidad no se reconoce. En este caso, el sistema realiza las etapas de:

• alertar al usuario de la presencia de un objeto movil no identificado; y

• permitir al usuario asociar un identificador con el objeto.

La etapa de detectar un objeto movil comprende detectar la presencia de movimiento significativo entre fotogramas (compensando los cambios en los parametros de camara, como se ha esbozado anteriormente, descontando objetos que ya se han seguido, las areas restantes de movimiento pueden corresponder al objeto de reentrada.

5

10

15

20

25

30

35

40

45

50

55

Despues de superar un umbral predeterminado respecto al tamano del objeto y, por ejemplo, criterios de coincidencia con un modelo estad^stico del conjunto de objetos conocidos, se indica al usuario la presencia del objeto.

En otra variante preferida de la invencion, no es necesario mantener la identidad completa de un objeto, es decir, no es importante conocer que el objeto X representa al "jugador Vroomfondel". Es suficiente con saber que el objeto es de una categona particular, por ejemplo, un jugador del equipo A, que puede determinarse automaticamente a partir de los colores del objeto o simplemente un jugador. Para este escenario, un objeto movil identificado preferiblemente se asocia automaticamente con un identificador unico generado por el sistema. Esto permite generar una reconstruccion y representacion 3D continua, sin intervencion manual.

En el transcurso del seguimiento del movimiento, los objetos comunmente se asocian con "cuadros de delimitacion", que son areas de pfxeles rectangulares en las cuales se sabe o se espera que este situado el objeto. En un sentido mas general, un cuadro de delimitacion puede reemplazarse por una silueta de diferentes formas alrededor del objeto. Los cuadros de delimitacion (o siluetas) preferiblemente se generan por seguimiento y refinado mediante la ultima etapa de segmentacion, como se explica mas adelante.

Alternativamente, en una realizacion preferida adicional de la invencion, una o mas camaras de vision general se situan para cubrir siempre todo el campo de juego. No se mueven y no utilizan zoom. La vista desde esas camaras permite seguir todos los objetos, siempre y cuando no dejen el campo, y elimina la necesidad de identificar objetos cuya identidad se ha perdido. Esta camara puede ser una camara de menor coste que las camaras usadas para generar las imagenes de TV que finalmente se difunden.

La etapa de localizar la posicion de los objetos moviles puede conseguirse tambien o estar asistida por la incorporacion de uno o mas transpondedores de RF (radiofrecuencia) en los objetos, y midiendo sus posiciones con el sistema de localizacion RF. De esta manera, la identidad y posicion del objeto se conocen con precision en cada momento temporal.

En una variante preferida de la invencion, los objetos se clasifican como pertenecientes a una de al menos dos categonas. Las categonas preferiblemente estan basadas en un modelo estadfstico, tal como un modelo gaussiano mixto, y comprenden al menos dos del primer equipo, segundo equipo, primer portero del equipo, segundo portero del equipo, pelota y arbitro. Los parametros incorporados por el modelo estadfstico preferiblemente son el color o colores de los objetos. Se sabe por ejemplo que el Equipo A viste de un primer conjunto de colores, el Equipo B de un segundo conjunto, los porteros de los equipos tienen diferentes colores que los de ambos equipos, y que el arbitro predominantemente viste de negro u otro color, y el verde de fondo, blanco y una diversidad de otros colores (color del cesped, marcas, postes de gol y espectadores). De esta manera, la imagen se segmenta no solo separando los objetos del fondo, sino que los objetos se clasifican en diferentes conjuntos. El modelo estadfstico preferiblemente se genera a partir de una imagen estatica de una camara y despues se aplica a las emisiones de video de todas las camaras. El modelo estadfstico se genera, para cada categona de objetos, cuando el usuario mueve, mediante un dispositivo de senalizacion, una marca de referencia a lo largo de una trayectoria sobre una diversidad de puntos que pertenecen a dicha categona. Los colores de los puntos en dicha trayectoria forman una muestra que representa dicha categona en la generacion del modelo estadfstico.

Cuando se segmentan los fotogramas de video en cada una de las entradas de video, la separacion de los objetos del fondo y la distincion de un objeto comprende preferiblemente la etapa de

• usar un canal alfa coincidente para asignar, a cada elemento de la imagen o pixel, un valor que expresa la probabilidad con la cual el pixel es parte de un objeto o parte del fondo.

Tal valor se conoce como valor Alfa, y se almacena por ejemplo como informacion de canal alfa asociada con la imagen o emision. Como resultado, no hay lfmites estrictos (binarios) alrededor de los objetos, lo que mejora la calidad de las ultimas etapas de reproduccion en las que las imagenes objeto se combinan y/o mapean sobre una superficie 3D.

En una realizacion preferida adicional de la invencion, la etapa de segmentacion comprende, despues de recortar los objetos del fondo, llenar los huecos correspondientes que quedan en el fondo mediante restauracion de la imagen, vease por ejemplo "View Interpolation for Image Synthesis", Chen y Williams, ACM SIGGRAPH 1993, pags. 279288. Tales elementos de imagen restaurada se marcan como datos de imagen sinteticos. Esto se realiza ajustando un bit correspondiente para cada pixel restaurado en la imagen llena o asociando la entrada de video con un canal adicional que comprende dicha informacion de marcado. Esta informacion adicional permite, en un momento posterior en el metodo inventivo, ignorar los datos de imagen sinteticos para elementos de imagen para los cuales estan disponibles datos de imagen reales.

Por favor, observese que los terminos "vista sintetica", "smtesis de imagen", etc. - a diferencia de "datos de imagen sinteticos" - se refieren a algo diferente, en concreto a las imagenes virtuales o vistas virtuales de una escena 3D que se generan de acuerdo con la invencion, y que estan basadas tanto en datos de imagen reales como en datos de imagen sinteticos.

5

10

15

20

25

30

35

40

45

50

De esta manera, "los datos de imagen reales" relacionados con una localizacion de superficie o parche de superficie en la escena 3D tipicamente es informacion de imagen a partir de una o mas emisiones de video que proceden de la observacion de este parche en el instante de tiempo en el que se representa. En contraste, los "datos de imagen sinteticos" son informacion de imagen generada, por ejemplo

- por restauracion de imagen mediante tecnicas 2D, tal como llenando un hueco, partiendo en el lfmite, con colores o disenos encontrados en el lfmite;

- usar datos de imagen procedentes del mismo parche de superficie pero obtenidos a partir de una emision de video en otro instante de tiempo;

- usar datos de imagen procedentes del mismo parche de superficie pero obtenidos de otra emision de video (en el mismo o en otro instante de tiempo);

- usar datos de imagen obtenidos de una emision de video en el mismo instante de tiempo pero procedentes de otro parche de superficie;

- restaurar una imagen por tecnicas 3D, tal como llenando un hueco con disenos de la escena que rodea el hueco mientras se considera la localizacion 3D de los parches de superficie llenos y usados para el llenado.

Se presentan ahora los modos preferidos de generacion de datos de imagen sinteticos (fondo), que tipicamente combinan aspectos de los dos ultimos puntos. Tal restauracion de imagen 3D usa no solo partes de imagen de la cercama de un hueco para llenar el hueco, sino que tambien tiene en cuenta el conocimiento sobre relaciones espaciales (es decir, 3D) entre parches de superficie. Es decir, cuando se usan datos de imagen de un "parche de origen" para llenar datos de imagen en un "parche de destino", entonces se considera la relacion espacial entre estos parches, que puede implicar rotacion y/o una perspectiva diferente.

El objetivo es llenar los huecos con colores o texturas que se parezcan a la imagen esperada real tanto como sea posible. Un enfoque conocido es elegir un parche de destino que se extienda sobre el lfmite de un hueco, de esta manera comprende partes conocidas y desconocidas de la imagen. Se realiza entonces una busqueda para encontrar un parche de origen, con una parte del parche de origen que coincide con las partes conocidas. La parte restante del parche de origen se usa despues para llenar las partes desconocidas por copiado. Sin embargo, esta busqueda y copiado solo tiene lugar en el plano de una imagen de video.

De acuerdo con la invencion, se usa la posicion y/u orientacion conocidas de los parches de origen y destino en el espacio 3D cuando se buscan parches de origen y cuando se copian datos de imagen de origen a un parche de destino.

En una realizacion preferida adicional de la invencion, la informacion sobre la localizacion de marcas se usa para guiar la restauracion de la imagen. Las marcas son elementos caractensticos inmoviles, tfpicamente elementos que se extiende linealmente, tal como lmeas rectas o circulares sobre el campo de juego, cuya localizacion nominal es conocida. Este enfoque incorpora preferiblemente conocimiento a partir de un modelo de campo que comprende la localizacion y orientacion de las lmeas en el campo de juego. Preferiblemente, esto se combina con la informacion 3D sobre la localizacion de parches a lo largo de la marca.

Por ejemplo, se implementan uno o mas de los siguientes enfoques:

- si un parche de destino comprende una parte de una marca, entonces los parches de origen se buscan a lo largo de la marca y se mapean sobre localizaciones dentro del hueco en el cual se espera que este la marca;

- si un parche de destino esta situado en un drculo, entonces el parche de destino se transforma (por ejemplo, se rota y cambia de escala, tfpicamente sin preservar su relacion de aspecto) antes de compararlo con un parche de origen potencial a lo largo del drculo o viceversa. Igualmente, el parche de origen se transforma cuando se copia al parche de destino.

- Si un parche de destino esta situado lo largo de una lmea recta, entonces el parche de destino se cambia de escala (tfpicamente preservando su relacion de aspecto) antes de compararlo con un parche de origen potencial mas distante - desde el punto de vista de la camara - a lo largo de la lmea. Igualmente, el parche de origen se cambia de escala de vuelta cuando se copia al parche de destino.

La restauracion de la imagen preferiblemente se realiza individualmente para varias emisiones de video, dando como resultado un conjunto de emisiones de video que muestran la misma escena de fondo, sin los objetos (moviles) desde diferentes perspectivas. En un ultimo punto de procesamiento, estas imagenes de fondo de imagen restauradas se usan para colorear o "pintar" el modelo de fondo 3D. Sin embargo, en otra realizacion de la invencion, la restauracion de imagen tiene lugar cuando el modelo de fondo 3D esta coloreado: el modelo de fondo se colorea en primer lugar de acuerdo con la informacion de imagen de fondo de una o mas emisiones de video, y despues se pinta cualquier parche no coloreado restante en el modelo 3D, de una manera similar a la descrita anteriormente, es decir, con informacion de imagen de otras localizaciones o instantes en el tiempo.

5

10

15

20

25

30

35

40

45

50

El metodo de llenado de huecos descrito anteriormente puede implementarse independientemente de los otros aspectos de la invencion descrita en la presente memoria, en particular independientemente de las etapas de seguimiento e identificacion del objeto 3D, calibrado de la camara, etc....

Preferiblemente, la etapa de segmentacion comprende la etapa de refinar la posicion y dimensiones de los cuadros de delimitacion. Esto significa que los cuadros de delimitacion alrededor de los objetos, cuando estos se producen por el seguimiento del objeto, se adaptan de acuerdo con la informacion de segmentacion: esto tiene sentido puesto que la calidad de los algoritmos de seguimiento convencionales esta limitada en tanto que los cuadros de delimitacion que se crean alrededor de objetos moviles a menudo tienden a quedar detras de la posicion del objeto real o tienden a aumentar de tamano. Por lo tanto, el cuadro de delimitacion esta adaptado para contener el objeto despues de la segmentacion de la imagen. La posicion del objeto, que preferiblemente esta definida como la parte media inferior (o alternativamente, una predeterminada de las esquinas del cuadro de delimitacion) en consecuencia se adapta tambien.

En una variante preferida de la invencion, se proporciona una vista sintetizada que muestra la escena desde un punto de vista habitual que es distinto de las posiciones de las camaras reales. Esta comprende las etapas de:

• proporcionar parametros de camara de una camara virtual;

• determinar una imagen de fondo como vista por la camara virtual;

• determinar una proyeccion de cada uno de los objetos en la camara virtual y superponerlos en la imagen de fondo;

• producir o almacenar la imagen combinada para almacenamiento o para procesamiento adicional.

Como resultado, se mantiene y actualiza dinamicamente una representacion 3D global de toda la escena, basandose en la entrada desde las emisiones de video. La informacion de video o imagen a partir de las emisiones de video se reproduce en la representacion 3D, permitiendo generar imagenes desde los puntos de vista que difieren de las localizaciones ffsicas reales de las camaras que proporcionan las entradas de video de origen. Esto esta en contraste con la tecnica anterior, donde solo se colocan rectangulos aislados en el espacio 3D y se mapea la textura de las imagenes en estos rectangulos, pero sin considerar la cancha y los objetos de fondo restantes.

En este punto y en el resto de la solicitud, el termino "textura" significa datos de imagen o dibujo desde la superficie de un objeto real (o, alternativamente, de uno generado por ordenador). Los datos de textura, por ejemplo, se observan mediante una o mas camaras o se recuperan de una base de datos, y pueden transformarse geometricamente y reproducirse mapeandolos sobre la superficie de un objeto en el modelo 3D.

En una variante preferida adicional de la invencion, la etapa de determinar una imagen de fondo como se ve por la camara virtual comprende las etapas de

• combinar, para cada elemento de la imagen de fondo, informacion de imagen desde las diferentes emisiones de video que corresponden a la misma localizacion de fondo;

• dar prioridad a la informacion de imagen que no esta marcada como datos de imagen sinteticos; y

• reproducir la informacion de imagen sobre un modelo de fondo que comprende una o mas superficies que representan el fondo, es decir, objetos de fondo.

Como resultado, siempre y cuando esten disponibles datos de imagen real, el fondo, estara coloreado con una combinacion de colores de los datos reales disponibles, puesto que a los datos reales se les da prioridad sobre los datos sinteticos. Solo cuando no estan disponibles datos reales el fondo en el modelo 3D se coloreara con datos sinteticos de uno o mas de los fondos de las diferentes entradas de video despues de la segmentacion.

En una variante preferida de la invencion, la superficie que representa el fondo es una superficie que representa el campo de juego o cancha y, opcionalmente, tambien comprende superficies que representan un modelo de entorno, almacenado por ejemplo, en un modulo de datos de entorno. El modelo de entorno puede ser un simple modelo generico que se aplica a cualquier entorno, o un modelo de entorno derivado de datos de CEA del entorno real. En otra variante preferida de la invencion, la etapa de terminar una imagen de fondo como se ve por la camara virtual comprende ademas reproducir datos de imagen predeterminados en el modelo de fondo, superponerlos sobre o reemplazar la informacion de imagen proporcionada por las emisiones de video.

En otra variante preferida de la invencion, la etapa de determinar una proyeccion de cada uno de los objetos en la camara virtual comprende las etapas de determinar la posicion y orientacion de un objeto de reproduccion, y despues reproducir la informacion de video extrafda de las diferentes entradas de video y asociado con este objeto sobre el objeto de reproduccion.

En una realizacion preferida de la invencion, el objeto de reproduccion es lo que se denomina valla publicitaria, es

10

15

20

25

30

35

40

45

50

dedr, un plano vertical situado en la cancha. El tamano y orientacion de la valla publicitaria se determina de acuerdo con el cuadro de delimitacion para este objeto desde una de las entradas de video. La localizacion de la valla publicitaria esta definida por la posicion 3D calculada del objeto descrito anteriormente. La posicion 3D se combina entonces con la proyeccion del cuadro de delimitacion para producir cuatro vertices 3D de un rectangulo tridimensional. Para ello, la normal del rectangulo es igual al eje optico o normal al plano de vision definido por la camara real desde la cual se origino el cuadro de delimitacion, o por la camara virtual. En el primer caso, pueden usarse multiples vallas publicitarias para cada objeto, cada una de las cuales corresponde a una camara real. La imagen reproducida al final esta compuesta de una combinacion de las imagenes reproducidas sobre estas multiples vallas publicitarias. La combinacion se controla dependiendo de la localizacion de la camara virtual.

En otra variante preferida de la invencion, las vallas publicitarias aumentan con un campo de altura que define la geometna aproximada del objeto. Es decir, se determinan campos de altura a partir de dos o mas vistas de camaras reales, por ejemplo mediante forma a partir de siluetas o forma a partir de metodos en estereo, como se describe por ejemplo en "Multiple View Geometry in Computer Vision", Richard Hartley y Andrew Zisserman, Cambridge University Press, 2000. Estos campos de altura se usan despues preferiblemente para mejorar la calidad final de reproduccion del objeto. Las vallas publicitarias pueden aumentarse tambien usando mapas de desplazamiento que representan detalles mas finos de la geometna del objeto. Esto ultimo es util para una reproduccion mas rapida.

En una variante preferida adicional de la invencion, la superposicion en la camara virtual de la proyeccion de los objetos y la imagen de fondo se realiza mediante combinacion alfa. Los valores en los canales alfa de las vallas publicitarias del objeto se usan entonces directamente, o se ponderan adicionalmente basandose en similitud de angulo, resolucion o campo de vista entre las caractensticas opticas de las camaras reales y la camara virtual.

El metodo para

• usar una representacion de un elemento de referencia en una representacion esquematica de la cancha para identificar elementos de referencia;

• seleccionar la posicion de un elemento de referencia a la posicion de uno de los elementos extrafdos en el proceso de identificacion de elemento de referencia;

• seguir la compensacion y correccion segun parametros de camara cambiantes;

• identificacion automatica de asistencia;

• alertar al usuario de la presencia de un objeto no identificado;

• clasificar elementos de imagen como pertenecientes al fondo o de una de al menos dos categonas de objetos;

• usar coincidencia de canal alfa;

• marcar elementos de imagen no restaurados como datos de imagen sinteticos;

• restaurar imagen por tecnicas 3D;

• refinar la posicion y dimensiones de los cuadros de delimitacion alrededor de los objetos basandose en los resultados de la segmentacion;

• reproducir informacion de video sobre un modelo de fondo 3D;

puede implementarse tambien, cada uno de ellos, en principio, en un sistema que no incorpora el seguimiento del movimientos de los objetos en las al menos dos emisiones de video usando informacion de posicion derivada de la posicion 3D de los objetos.

El sistema de acuerdo con la invencion comprende un modulo de adquisicion de datos provisto de emisiones de video a partir de una entidad de produccion, y comprende ademas un modulo de calibrado de camara, un modulo de seguimientos 2D, un modulo de identificacion de objetos, una combinacion 3D y un modulo de calculo de posicion del objeto 3D y, preferiblemente, un modulo de recortado de objetos y un modulo de smtesis de imagen que proporciona datos de video a un consumidor.

Un producto de programa informatico para generar una representacion 3D de una escena 3D dinamicamente cambiante segun la invencion puede cargarse en una memoria interna de un ordenador digital, y comprende medios de codigo de programa informatico para hacer, cuando dichos medios de codigo de programa informatico estan localizado en el ordenador, que el ordenador ejecute el metodo segun la invencion. En una realizacion preferida de la invencion, el producto del programa informatico comprende un medio legible por ordenador, que tiene un medio de codigo de programa informatico registrado en el mismo.

Son evidentes otras realizaciones preferidas a partir de las reivindicaciones de patente dependientes. Los elementos

5

10

15

20

25

30

35

40

45

50

de las reivindicaciones del metodo pueden combinarse con elementos de las reivindicaciones del sistema y viceversa.

Breve descripcion de los dibujos

La materia objeto de la invencion se explicara con mayor detalle en el siguiente texto con referencia a las realizaciones ejemplares preferidas que se ilustran en los dibujos adjuntos, en los que:

la Figura 1 muestra esquematicamente una vista general de la estructura de un sistema y metodo de acuerdo con la invencion;

la Figura 2 muestra esquematicamente imagenes usadas en la fase de interaccion del usuario del metodo de calibrado;

la Figura 3 muestra esquematicamente imagenes que ilustran el metodo de seguimiento;

la Figura 4 muestra esquematicamente una situacion en la que dos (o mas) objetos colisionan como proyecciones

2D en imagenes de video de una camara pero no en las de otra camara;

la Figura 5 muestra esquematicamente una realizacion de una estructura de posicion y tamano de un objeto 2D, un cuadro de delimitacion;

la Figura 6 ilustra esquematicamente el refinado del cuadro de delimitacion;

la Figura 7 muestra una vista global esquematica del sistema inventivo con dispositivos perifericos;

la Figura 8 muestra esquematicamente imagenes con un hueco para llenar y un hueco con una marca que pasa a

traves del mismo;

la Figura 9 muestra esquematicamente un drculo proyectado y la rotacion de parches;

la Figura 10 muestra esquematicamente una proyeccion en perspectiva de una marca y la asignacion por pfxeles para una marca;

la Figura 11 muestra esquematicamente un modelo de entorno 3D; y la Figura 12 muestra una imagen reconstruida generada segun la invencion.

Los sfmbolos de referencia usados en los dibujos y sus significados, se indican de forma resumida en la lista de sfmbolos de referencia. En principio, a las partes identicas se les proporcionan los mismos sfmbolos de referencia en las figuras.

Descripcion detallada de la realizacion preferida

La Figura 1 muestra esquematicamente una vista general de un sistema 100 y un metodo correspondiente con componentes de sistema y submetodos correspondientes. Los componentes estan unidos mediante interfaces, es decir, entradas y salidas de datos. De esta manera, la figura muestra, por un lado, los componentes o modulos y el flujo de datos principal entre estos modulos. Por otro lado, los modulos corresponden a etapas de metodo, del metodo implementado por el sistema. Por lo tanto, los modulos se denominaran tambien metodos, dependiendo del contexto.

El sistema 100 y sus componentes pueden implementarse mediante modulos de software y/o modulos de hardware especializado, dependiendo de los requisitos de procesamiento real de los componentes individuales. De esta manera, el sistema 100 puede implementarse en un dispositivo de procesamiento de datos de proposito general, u ordenador que comprenda una unidad de procesamiento, una unidad de almacenamiento de datos y dispositivos de entrada/salida tales como una pantalla, teclado, dispositivo de senalizacion e interfaces de comunicacion de datos.

El sistema comprende un modulo 102 de adquisicion de datos provisto de entradas de video desde una entidad 101 de produccion, y comprende ademas un modulo 103 de calibrado de camara, un modulo 104 de seguimiento 2D, un modulo 105 de identificacion de objetos, un modulo 106 de recortado de objetos, un modulo 107 de combinacion 3D y calculo de posicion de objetos 3D, y un modulo 108 de smtesis de imagenes que proporciona datos de video a un consumidor 109. El sistema 100 puede comprender ademas, o estar relacionado con, un modelo 110 de datos de recursos y un modulo 113 de datos de entorno. Los diferentes tipos de datos que fluyen a traves de las interfaces entre los modulos se muestran en la lista de designaciones.

En la Figura 1, la secuencia muestra, de arriba abajo, la direccion de avance del procesamiento de la informacion (con la etapa 103 de calibrado de camara precediendo a la etapa 104 de seguimiento 2D, y cada una de las otras etapas precediendo a las etapas mostradas a continuacion de las mismas). De esta manera, se considera que una etapa es una etapa posterior de cualquier etapa que la preceda en el orden mostrado. La flecha que surge del calculo 107 de la posicion del objeto 3D denota la posicion 130 del objeto 3D, que es proporcionada a las etapas

5

10

15

20

25

30

35

40

45

50

55

precedentes tales como el modulo 104 de seguimiento 2D y/o el modulo 105 de identificacion de objetos. De esta manera, la posicion 130 del objeto 3D constituye una retroalimentacion de informacion, que fluye contra la direccion comunmente implementada del procesamiento de informacion.

La invencion, en una realizacion preferida, funciona de la siguiente manera: se producen 101 dos o mas emisiones de video 120 y se proporcionan en tiempo real al sistema 100. Normalmente, la entrada se proporciona mediante cables de hardware y los datos en su interior en el formato SDI (Interfaz Digital en Serie), como un sistema que se usa habitualmente por los productores de television en el sitio de produccion para transporte de video. El formato o hardware no es esencial para la invencion y puede diferir en otras realizaciones.

En una primera etapa, un metodo 102 de adquisicion de datos usa un componente de hardware preferiblemente fuera de la plataforma, que captura (digitalizada) estas dos o mas emisiones de video 120 en una memoria interna del ordenador. Este metodo puede convertir adicionalmente el formato de los datos en RGB o YUV u otro formato de representacion de imagenes para procesamiento adicional. Adicionalmente, una etapa opcional de este metodo comprende un metodo de desentrelazado usando metodos convencionales, vease "De-Interlacing: A Key Technology for Scan Rate Conversion", Bellars y De Haan, Elsevier, 2000. La salida del metodo 102 se digitaliza como datos 121 de textura de color de todas las representaciones de video entrantes para todos los fotogramas.

Despues, se usa el metodo 103 de calibrado de camara para determinar cada posicion de la camara, orientacion y parametros internos 122 que se usan en otros metodos. La Figura 2 muestra una vista esquematica de la interaccion del usuario usada para inicializar o corregir, en caso de fallo, el metodo de calibrado. En el fotograma de cada entrada de video correspondiente a un tiempo de inicializacion (por ejemplo t_inic), el usuario identifica elementos que pueden ser localizaciones 2D 203a,b exactas, lmeas 203c, drculos 203d u otros elementos conocidos. Este proceso es asistido por un metodo de "seleccion" que identifica elementos de imagenes tales como lmeas o drculos usando metodos conocidos, o puede obtenerse por ejemplo a partir de "una biblioteca de vision por ordenador de codigo abierto" en
http://www.intel.com/technology/computing/opencv/.

Cuando el dispositivo de entrada de usuario (puntero del raton) esta cerca de uno de estos elementos, este "selecciona" dicho elemento cambiado su posicion en el elemento en la imagen. Despues de haber seleccionado (clicando, pulsando una tecla, etc.) el elemento 203a-d en la imagen 201 de video, el usuario selecciona el elemento 204a-d correspondiente de la vista 202 esquematica. Despues de haber seleccionado algunos elementos 203a-d y su representacion 204a-d esquematica correspondiente, un algoritmo de calculo de calibrado, por ejemplo como en "A flexible new technique for camera calibration", Z. Zhang, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11): 1330-1334, 2000, calcula la posicion, orientacion y parametros internos de la camara para este fotograma preciso, conocido como informacion de calibrado. Estas etapas se llevan a cabo para cada fotograma de inicializacion de la camara en el momento t_inic.

Para fotogramas posteriores (en el momento t(k) = t_inic+1, t_inic+2,...) y para cada emision de video, el metodo de calibrado sigue automaticamente los elementos identificados en la imagen 2D usando un algoritmo de seguimiento, por ejemplo "Condensation - conditional density propagation for visual tracking", Isard y Blake, International Journal of Computer Vision, 29, 1, 5-28, 1998.

En paralelo, o despues del metodo 103 de calibrado, el metodo 104 de seguimiento usa los datos 121 de textura de color digitalizados, los datos de calibrado de la camara de las etapas 131 actuales y/o (dependiendo de si es en paralelo o no) previas, y la posicion 131 del objeto 3D extrapolada para determinar la posicion 2D y la forma 123 de todos los objetos visibles en cada conjunto de datos 121 de textura de color.

En el fotograma de inicializacion en t_inic, el usuario preferiblemente especifica la localizacion de los objetos en cada imagen de video de todas las camaras. Puede usarse un metodo automatico para proponer candidatos para este proceso. En una realizacion preferida del metodo, el usuario especifica un rectangulo 2D, lo que se denomina cuadro de delimitacion 501, usando el dispositivo de entrada de raton y/o el teclado. Este rectangulo 501 puede cambiarse por pfxeles en la posicion 509 y tamano (anchura 510 y altura 511) usando el raton y/o teclado en cualquier momento posterior. En otra realizacion preferida, el usuario clica/apunta sobre cada objeto y un metodo automatizado determina el cuadro de delimitacion 501 u otra indicacion de la forma (semi)automaticamente. Esto puede realizarse usando un metodo similar al usado en el metodo de refinado del metodo 106 de recortado de objetos, descrito mas adelante de forma adicional.

Para otros fotogramas, el metodo de seguimiento funciona automaticamente. Basicamente, los metodos de seguimiento aplicables (tambien en tiempo real), por ejemplo, "Condensation - conditional density propagation for visual tracking", Isard y Blake, International Journal of Computer Vision, 29, 1, 5-28, 19.8, funcionan de la siguiente manera:

1. Extrapolar el estado 2D de los objetos en la imagen basandose en estados previos.

2. Buscar los alrededores de esta posicion 2D extrapolada comparando los elementos de la muestra de busqueda con los elementos del objeto. Tal comparacion del elemento de muestra puede basarse en un histograma de color, un modelo gaussiano mixto o modelos similares ("Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000).

5

10

15

20

25

30

35

40

45

50

55

3. Seleccionar una o mas de las muestras de busqueda como el estado actual.

La Figura 3 muestra esquematicamente nuestro metodo de seguimiento mejorado descrito en la presente memoria. A partir del metodo 107 de calculo de posicion de objetos 3D, el metodo 103 de calibrado consigue la posicion del objeto 3D extrapolada de todos los objetos. Esta extrapolacion se realiza en el modelo 3D de la escena 303, donde por ejemplo la posicion 3D del fotograma anterior 331 a,b y del fotograma antes del fotograma anterior 330a,b, se usan para extrapolar la posicion del objeto 3D en el fotograma actual 332a,b, basandose en un esquema de interpolacion lineal o de mayor orden.

Observese que la Figura 3 no representa un unico fotograma, sino que muestra la posicion de los objetos 310a,b, 312a,b ... superpuestos desde dos fotogramas diferentes con fines de explicacion. Una emision de video real mostrana, en un primer fotograma, los objetos 310a y 310b y, en un fotograma posterior, los objetos 311a, 311b. Los objetos corresponden, en un fotograma de video actual, a segmentos de imagen determinados por seguimiento y segmentacion, como se describe adicionalmente mas adelante.

Los algoritmos de seguimiento del estado de la tecnica solo siguen un objeto en una unica secuencia de video, permaneciendo de esta manera en el espacio de imagen 2D. Las trayectorias 2D del objeto seguido basandose solo en las posiciones 2D seguidas se representan como lmeas con flechas 311a,b para los objetos A y B, dando como resultado una posicion 312a,b 2D esperada en el fotograma previo 301, donde otro algoritmo de seguimiento empezana a buscar el objeto.

En nuestro caso, no se espera que las camaras esten fijas, de esta manera, pueden cambiar su orientacion y parametros internos (tal como el zoom) con el tiempo, dando como resultado una vista diferente de la escena en el momento actual (fotograma 302) que previamente (fotograma 301). Cuando solo se tienen en cuenta las posiciones 2D resultantes de otro algoritmo de seguimiento, la busqueda del metodo de seguimiento empezara en las mismas posiciones 2D 321a,b que las mostradas en el fotograma previo 312a,b. Usando los datos de calibrado 131 reales o extrapolados del metodo 103 de calibrado y la posicion 130 del objeto 3D extrapolada del metodo 107 de calculo de posicion de objetos 3D, se calculan las posiciones 2D de las proyecciones 3D extrapoladas y las posiciones 320a,b en la imagen real. Esto no solo afecta a la posicion 2D de la estimacion del objeto, sino tambien al tamano o forma del objeto de la imagen de video. De esta manera, la etapa de busqueda de seguimiento comenzara con una posicion 2D y estimacion de forma mejoradas, dando como resultado un menor espacio de busqueda que reduce el esfuerzo computacional del metodo de seguimiento.

Otra mejora del metodo de seguimiento es que los objetos que entran o salen del area visible de la camara pueden detectarse facilmente si se conoce su posicion 3D. Proyectando las posiciones 130 del objeto 3D extrapoladas de todos los objetos en la imagen 2D, deben considerarse todas las posiciones 2D situadas dentro de los lfmites del fotograma durante el seguimiento. Esto puede realizarlo automaticamente el metodo o puede estar asistido por el usuario, segun las circunstancias y la informacion de video disponible.

Otra mejora del metodo de seguimiento es la manipulacion de colisiones de objetos en el espacio de la imagen 2D, como se muestra esquematicamente en la Figura 4. En la vista esquematica de la escena 403, las posiciones 3D de los objetos A, B se muestran para un momento previo t(k-1) 430a,b y para el tiempo actual t(k) 431a,b. Puede verse la misma situacion en la vista 401 desde una camara con ambos objetos 411a,b colisionando en 2D, mientras que la misma situacion desde la vista 402 de otra camara no muestra colision de los objetos 421a,b. Esto conduce a dos tipos adicionales de informacion para el metodo de seguimiento:

1. El metodo de seguimiento puede usar la informacion de que dos o mas objetos colisionan en una cierta vista 401 y, de esta manera, sabe que hay dos o mas objetos aunque unicamente "un objeto" es reconocible de la vista 2D en solitario.

2. El metodo de seguimiento puede mantener facilmente el seguimiento de los objetos despues de una colision, puesto que sabe donde estan localizados los objetos o se espera que esten en un espacio 3D y, por lo tanto, tambien en la vista 2D y, de esta manera, continuara el seguimiento de cada objeto individual y correctamente.

Finalmente, el metodo de seguimiento determina la posicion del objeto en 2D y la forma 123 para todos los objetos visibles en todos los fotogramas de todas las camaras, y se las proporciona al modulo 105 de identificacion de objetos.

Despues del metodo de seguimiento, el metodo 105 de identificacion de objetos asocia, para cada objeto visible en cada emision de video, la posicion 2D del objeto y la forma en los datos 123 de textura de color con un objeto real (por ejemplo, jugadores, porteros, arbitros, pelota, etc.) basandose en los datos 122 de calibrado de la camara, la informacion sobre objetos 132 del mundo real contenidos en un modulo de datos de recursos (o simplemente "recurso") 110, y posiblemente tambien la posicion 130 del objeto 3D extrapolada y la posicion 2D y la forma 123 para esencialmente todos los objetos en todos los fotogramas de todas las camaras proporcionados por el metodo 104 de seguimiento. En este punto y en cualquier otro, "todos" significa "esencialmente todos", es decir, sin defectos o entidades patologicas o que funcionen mal (objetos, camaras).

En el transcurso de la inicializacion para el fotograma en el momento t_inic, el usuario asocia cada informacion 123

5

10

15

20

25

30

35

40

45

50

de posicion 2D y forma de una camara con un objeto 132 del mundo real espedfico, que todos conocen previamente (nombres de jugador, nombres de los porteros, arbitros, pelota, etc.) desde el recurso 110. Para los fotogramas de la otra camara en el momento t_inic, el metodo de identificacion de objetos preferiblemente sugiere automaticamente la identificacion (por ejemplo un nombre) llevando a cabo las siguientes etapas:

1. Para todos los objetos identificados

a. Calcular una aproximacion de la posicion 3D (usando la suposicion a nivel de suelo como se describe en el metodo 107 de calculo de la posicion 3D) si no hay posicion 3D disponible por extrapolacion 130.

b. Calcular una posicion 2D proyectando dicha posicion 3D en cada fotograma de la camara en una imagen usando los datos 122 de calibrado.

c. Para todas dichas posiciones 2D dentro del lfmite del fotograma de la camara respectiva

i. Determinar la informacion 123 de posicion 2D y forma que esta localizada cerca de dicha posicion 2D.

ii. Si solo hay una posicion 2D dentro de algun umbral definido por el usuario respecto a la distancia, esta informacion 123 de posicion 2D y forma esta asociada con el objeto del mundo real asociado con dicho objeto identificado.

iii. Si hay mas de una posicion 2D dentro de dicho umbral, presentar al usuario una lista acortada por la distancia desde la cual puede seleccionar activamente a mano la segunda o mas distante. En caso de que no haya accion por parte del usuario, permanece seleccionada el primera. Asociar la informacion 123 de posicion 2D y forma con el objeto de mundo real asociado con dicho objeto seleccionado.

d. Para todas las posiciones 2D y forma de cada camara que no se hayan asociado con un objeto del mundo real en una de las etapas previas, determinar una lista de posibles candidatos

i. Eliminando aquellos objetos del mundo real que ya esten asociados con informacion 123 de posicion 2D y forma en dicho fotograma de la camara.

ii. Ordenando a los candidatos restantes aumentando la distancia de la proyeccion 2D desde su posicion 3D en la imagen (como en 1b).

iii. Los objetos cuya posicion 3D aun no es calculable se colocan en la parte delantera o trasera de la lista, dependiendo de los ajustes de usuario.

Para todos los fotogramas posteriores, el metodo de identificacion de objetos lleva a cabo las siguientes etapas:

1. Si la informacion 123 de posicion y forma del objeto 2D ya se ha identificado y asociado en el fotograma previo, usar la informacion 132 consecuente de nuevo.

2. Si la informacion 123 de posicion y forma del objeto 2D aun no se ha identificado en la etapa previa del metodo del seguimiento, llevar a cabo las mismas etapas que durante el fotograma de inicializacion para objetos no identificados.

3. Si la informacion 123 sobre la posicion y forma del objeto 2D aun no se ha asociado con una informacion 132 del mundo real, marcar los fotogramas que requieren la interaccion del usuario.

4. Para todos los fotogramas, donde se ha encontrado una identificacion no ambigua de toda la informacion 123 sobre posicion y forma del objeto 2D proporcionada por el metodo 104 de seguimiento, marcar dicho fotograma como realizado y que no requiere interaccion adicional del usuario.

El usuario asocia despues manualmente la informacion 123 sobre posicion y forma del objeto 2D en todos los fotogramas marcados segun requieran interaccion del usuario usando las listas de posibles candidatos hasta que todos los fotogramas contengan una identificacion no ambigua de toda la informacion 123 de posicion y forma del objeto 2D.

El metodo 105 de identificacion de objetos da como resultado la posicion y forma del objeto 2D y la identificacion 124 del objeto para todas las posiciones y formas del objeto 2D encontradas en el metodo 104 de seguimiento de todas las emisiones de video.

Los datos proporcionados por la adquisicion de datos 102 y la identificacion de objetos 105, en concreto los datos 121 de textura de color y la posicion y forma del objeto 2D incluyendo la identificacion 124 de objetos se introducen en el metodo 106 de recortado de objetos.

El metodo calcula una segmentacion o recorte de los datos de textura de color dentro del area definida por la posicion y tamano del objeto entre los pfxeles en primer plano (objetos) y los pfxeles de fondo, lo que se denomina mascara alfa. De esta manera, una salida del metodo de recortado de objetos son los datos de textura del objeto

5

10

15

20

25

30

35

40

45

50

55

asociados con una mascara alfa 126.

La Figura 5 muestra esquematicamente una realizacion de una posicion y estructura de tamano del objeto 2D, en un cuadro de delimitacion 501. Representa tambien la diferencia entre el primer plano 502 y el fondo 503 de los valores 505 de la mascara alfa resultantes del metodo de recorte o segmentacion.

Si el cuadro de delimitacion 501 no contiene todo el objeto o interseca el cuadro de delimitacion, dicho cuadro de delimitacion 501 puede suponerse a priori o estar definido por un usuario, el cuadro de delimitacion puede ampliarse en un cierto tamano, ya sea por el usuario, en un valor fijo, o por un procedimiento automatico que analiza el cuadro de delimitacion 501.

En este metodo, los objetos se clasifican en primer lugar de acuerdo con al menos dos categonas. Las categonas preferiblemente estan basadas en modelos de elementos estadfsticos, tales como un histograma, un modelo gaussiano mixto, o metodos similares ("Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000). Los elementos preferibles incluyen, aunque sin limitacion, colores o bordes. Antes del procesamiento, el modelo estadfstico para todas las categonas de objetos se construye usando imagenes estaticas de una o mas camaras y despues se aplica a las emisiones de video de todas las camaras. El modelo estadfstico se genera, para cada categona de objetos, moviendo el usuario, mediante un dispositivo de senalizacion, una marca de referencia a lo largo de una trayectoria sobre una diversidad de puntos que pertenecen a dicha categona. Los elementos de los puntos de dicha trayectoria forman una muestra que representa dicha categona en la generacion del modelo estadfstico. Para cada categona de objetos, los puntos con la marca de referencia o los elementos de imagen (pfxeles) se etiquetan como pertenecientes al fondo o al primer plano. El usuario marca el fondo preferiblemente para pfxeles fuera del cuadro de delimitacion 501 y dentro del cuadro de delimitacion 501 pero en regiones en las que el fondo es realmente visible. El usuario marca el fondo para las partes dentro del cuadro de delimitacion en regiones que pertenecen al primer plano. Preferiblemente, el modelo se genera usando una o multiples imagenes 102 de entrada.

Posteriormente, se genera el modelo usando los metodos apropiados para los modelos usados, por ejemplo mediante agrupacion de medios k o metodos de Expectacion-Maximizacion, vease, "Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000. Preferiblemente, el modelo se define por un numero de parametros estadfsticos, por ejemplo por la media, varianzas o matrices de covarianza. El recorte se realiza procesando todos los pfxeles en los cuadros de delimitacion usando los parametros del modelo estadfstico correspondiente, teniendo en cuenta:

1. Similitud de datos, es decir, medicion de la concordancia de color de una muestra de datos con los modelos de color, calculando probabilidades entre parametros de modelo y muestras de datos.

2. Proximidad o similitud previa, es decir, evaluar las diferencias de color entre muestras espacial y temporalmente adyacentes. Se penalizan las desviaciones de color fuertes y se asegura coherencia espacial y temporal en el proceso de seleccion.

Para realizar el recorte, la segmentacion se interpreta preferiblemente como un problema de etiquetado de graficos que produce una solucion usando un metodo de recorte mmimo. Por ejemplo, puede encontrarse una formulacion y solucion en "An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision", Boykov y Kolmogorov, IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 9, 1124-1137, el resultado del recorte es una segmentacion binaria (etiquetas) del cuadro de delimitacion 501 en el primer plano 504 y el fondo 503 o 0 (fondo) y 1 (primer plano).

Preferiblemente, un metodo de post-procesamiento asigna valores alfa 505 a todos los pfxeles en la proximidad del lfmite entre los pfxeles del primer plano 508 y del fondo 506, incluyendo pfxeles que tienen valores intermedios 507. Estos valores intermedios expresan el lfmite suave del objeto y pueden calcularse usando por ejemplo "A Bayesian Approach to Digital Matting", Chuang, Curless, Salesin y Szeliski, IEEE Computer Vision y Pattern Recognition, Vol. II, 264-271, 2001.

Usando la mascara alfa, la posicion y forma del objeto 2D del objeto se refinan y proporcionan como salida adicional 127 del metodo 106 de recortado de objetos.

La Figura 6 ilustra esquematicamente tal refinado del cuadro de delimitacion. Para ello, para cada cuadro de delimitacion 601 dado inicialmente (lmea de trazos) se atraviesa la mascara alfa y se calculan los valores mmimo y maximo en ambas dimensiones (horizontal y vertical, o u, v) para los que existen pfxeles de primer plano. Se reduce el tamano del cuadro de delimitacion 601 (lmea solida) y hace coincidir mejor la forma del objeto actual 602. El mmimo sirve entonces como la nueva posicion del cuadro de delimitacion y las diferencias entre maximo y mmimo en cada direccion se toman como la nueva anchura (en la direccion u) y altura (en la direccion v) del cuadro de delimitacion. Se toma la referencia o punto de anclaje 604 para el metodo de calculo de la posicion 3D, por ejemplo, para la direccion u como que es el punto medio entre el maximo y el mmimo, y en la direccion v como que es el mmimo.

Finalmente, el metodo determina todas las areas del primer plano (un cierto conjunto de pfxeles) en los datos de

5

10

15

20

25

30

35

40

45

50

textura de color de las emisiones de video 121 atravesando todos los objetos en cada emision de video y marcando los p^xeles que, en los datos 121 de textura de color, estan marcados como primer plano con un banderm. Para conseguir datos de textura de fondo sin los objetos de primer plano y sin huecos, estas areas se llenan usando un metodo de restauracion de imagen, vease por ejemplo "View Interpolation for Image Synthesis", Chen y Williams, ACM SIGGRAPH 1993, pags. 279-288, que, para cada hueco-pfxel en el borde de un hueco, selecciona posteriormente los parches mas similares a partir de regiones no marcadas de la imagen y asigna el valor correspondiente a este pixel de borde, llenando asf el hueco desde el borde hasta el medio. Todos estos pfxeles generados sinteticamente se marcan especialmente como "restaurados", usando un banderm asociado con el pixel, dando como resultado una salida adicional del metodo de recortado que son unos datos 125 de textura de fondo llenos y marcados.

En resumen, la salida del modulo 106 de recortado comprende

• Datos 125 de textura de fondo llenos y marcados;

• Textura de objeto y mascara alfa por camara y objeto del mundo real, por ejemplo informacion 126 de segmentacion; y

• Posicion y formatos del objeto 2D de refinado con identificacion 127 del objeto del mundo real.

El metodo 107 de calculo de la posicion del objeto 3D usa la informacion de posicion y tamano 2D refinada con la informacion 127 del mundo real y los datos 122 de calibrado de la camara de (todas) las camaras para determinar la posicion 3D de (todos) los objetos. El metodo lleva a cabo las siguientes etapas:

1. Para cada objeto del mundo real, se recoge la informacion asociada de posicion y forma 2D.

2. Para objetos visibles sin camara, la posicion 3D de las etapas previas (si esta disponible) se extrapola usando un esquema de interpolacion de primer orden o superior.

3. Para objetos visibles en solo una camara, se supone que el objeto esta localizado a nivel de suelo, de esta manera, el vector desde la posicion de la camara que pasa a traves de la posicion 2D en la imagen 2D proyectada se interseca con el plano de suelo, dando como resultado la posicion 3D del objeto.

4. Para objetos visibles en dos o mas camaras, pueden usarse dos metodos diferentes:

a. Se supone que todos los objetos estan localizados a nivel de suelo, de esta manera, se usa el mismo metodo que el descrito anteriormente, dando como resultado dos o mas posiciones 3D a nivel del suelo desde las cuales se calcula la media o promedio como la posicion 3D final del objeto.

b. El otro metodo no supone que los objetos estan localizados a nivel de suelo y calcula el punto de aproximacion mas cercano a los vectores usando una tecnica convencional, por ejemplo "Intersection of two lines in three space", Goldman, En Andrew Glassner, editor "Graphics Gems" pagina 304. Academic Press, 1990.

De esta manera, el metodo 107 de calculo de la posicion 3D asigna a cada objeto modelado una posicion 3D para cada momento (fotogramas de video) y produce estas posiciones 3D de todos los objetos 128. Puede accederse a estos desde otros metodos en etapas posteriores, en las que "posterior" se entiende en el sentido temporal - estas etapas pueden ser "etapas precedentes" en el contexto de la estructura del sistema 100, con el efecto de que este acceso constituya un bucle de retroalimentacion.

■ El metodo 108 de smtesis de imagenes interpoladas usa la informacion del fotograma actual 128,

■ el metodo 104 de seguimiento preferiblemente usa la informacion 130 de posicion del objeto 3D extrapolada de uno o mas fotogramas previos y

■ el metodo 105 de identificacion de objetos preferiblemente usa dicha informacion 130 para asociar la informacion 123 de posicion y forma del objeto 2D con la correspondiente informacion 132 del objeto del mundo real.

El metodo 108 de smtesis de imagen interpolada genera la vista sintetica de la escena. Las entradas a este metodo son las posiciones 3D de los objetos 128, los datos 122 de calibrado de la camara, la textura del objeto y las mascaras alfa 126 y los datos 125 de textura de fondo llenos y marcados. Opcionalmente, las entradas comprenden datos 135 de reconstruccion 3D del entorno, proporcionados por el modulo 113 de datos del entorno y/o formas de los objetos.

El metodo de smtesis de imagen comprende las siguientes etapas:

1. Reproducir los objetos a partir de una vista virtual usando una representacion 3D particular de la escena y usando texturas 126 del objeto y cualquier valor alfa fijo (a partir de la etapa 106 de recortado) o valor alfa dependiente de la vista, teniendo en cuenta la similitud angular, la resolucion y el campo de vista. Preferiblemente, el mapeo de textura se consigue usando texturado proyectivo usando los datos 122 de calibrado. La similitud angular penaliza vistas

5

10

15

20

25

30

35

40

45

50

cuyo eje optico esta mas alejado del eje optico de la vista virtual. La similitud de resolucion penaliza camaras que, por ejemplo, estan mas alejadas de la geometna diana o tienen menor resolucion en general. El campo de vision penaliza similarmente datos de las vistas de camara que no ven la geometna diana de la vista virtual.

2. Reproducir la geometna del fondo mediante combinacion alfa y almacenamiento temporal de la profundidad con los objetos ya reproducidos por combinacion de una o mas texturas 125 de fondo con huecos llenos, y teniendo en cuenta las muestras de datos marcadas durante la combinacion. Preferiblemente, se consigue el mapeo de textura usando texturado proyectivo usando los datos 122 de calibrado.

En la etapa 1, la representacion 3D particular preferiblemente son una o mas vallas publicitarias, vallas publicitarias potenciadas para campo de altura, vallas publicitarias potenciadas para mapa de desplazamiento o modelos de 3D completos de objetos.

Para la etapa 2, la geometna del fondo se modela ya sea mediante superficies que representan unicamente el campo de juego (o cancha) o que tambien incluyen una representacion del entorno, tal como un modelo de estadio de mayor o menor complejidad. De esta manera, pueden usarse vallas publicitarias, vallas publicitarias potenciadas para mapa de profundidad o modelos 3D completos para la reproduccion.

La Figura 11 muestra esquematicamente un modelo de entorno 3D que comprende una superficie 901 plana que representa una cancha, y otras superficies 902 (inclinadas) que representan un estadio que rodea la cancha. La Figura 12 muestra una imagen reconstruida generada de acuerdo con la invencion. Las vallas publicitarias 903, que normalmente no se muestran, se destacan para ilustracion.

Teniendo en cuenta las muestras de datos marcadas durante la combinacion significa lo siguiente: en lugares donde existen varias vistas de la misma superficie de fondo, y donde en al menos una vista un parche de superficie se marca como imagen restaurada (es decir, datos sinteticos), y en al menos otra vista el mismo parche se marca como imagen no restaurada (es decir, datos reales), los datos sinteticos se ignoran y solo se usan los datos reales. Si estan disponibles datos reales de varias fuentes, pueden combinarse, o pueden usarse datos de una unica fuente.

Ademas, superficies arbitrarias de la escena 3D pueden colorearse reproduciendo imagenes estaticas o dinamicas predeterminadas sobre los mismos. La smtesis 108 de imagenes genera automaticamente una vista que muestra dichas imagenes como si se hubieran pintado sobre las superficies modeladas correspondientes. De esta manera, los datos determinados por el usuario tales como logos, publicidad, patrocinios, anotaciones interactivas, estadfsticas de jugadores, etc. se insertan en la escena 3D y se proyectan en la vista 2D sintetica.

Finalmente, la salida del metodo 108 de smtesis de imagen interpolada, en concreto la emision 129 del video interpolado sintetizado, se hace pasar al destino o consumidor 109 despues de haberla transformado a un formato conveniente para el consumidor, por ejemplo un formato SDI convencional como se usa para las entradas de emisiones 120 de video.

La Figura 7 muestra una vista global esquematica del sistema inventivo 100 con dispositivos perifericos, es decir, al menos dos camaras reales 702 (dibujadas en negro) dispuestas en un campo de juego 701, una unidad de control 704 de un productor de contenidos para recoger, gestionar y dirigir multiples emisiones de video a una unidad 705 de distribucion de medios, conectada a una unidad de difusion, tal como una antena 706. El sistema 100 se dispone para recibir al menos dos emisiones de video de entrada y generar al menos una emision de video de salida. La emision de video de salida puede proporcionarse a la unidad 705 de distribucion, como se muestra, o a la unidad 704 de control. El sistema 100 genera vistas correspondientes a camaras virtuales 703 (dibujadas en lmea discontinua) localizadas en posiciones y orientaciones donde no existen camaras reales.

Llenado de huecos/completado de imagenes

La Figura 8 muestra esquematicamente imagenes con un hueco que se tiene que llenar y un hueco con una marca que pasa a traves del mismo. Las imagenes son de un fondo y se han generado segmentando la imagen original en una parte 801 de fondo, con una textura conocida tambien denominada "area conocida", y un "area desconocida" o huecos 802 en areas donde los objetos se han identificado y recortado del fondo. En una realizacion preferida de la invencion, la etapa de llenar los huecos 802 en el fondo preferiblemente comprende la aplicacion repetida de las etapas de

- Seleccionar un "parche de destino" 803a, 803b,... cuya area es parcialmente conocida y parcialmente desconocida;

- Seleccionar un "parche de origen" 804a, 804b,. que comprende al menos un pixel con un valor de color conocido, es decir, a partir del area 801 conocida;

- Copiar los datos de imagen (o textura) del parche de origen a las localizaciones correspondientes en el parche de destino para aquellas areas del parche de destino que son desconocidas, es decir, en el hueco 802. Como resultado, el area del hueco 802 se reduce.

5

10

15

20

25

30

35

40

45

50

55

60

Vease por ejemplo "Fragment-based image completion", Drori, I., Cohen-Or, D. y Yeshurun, H., 2003. ACM Trans. Graph. 22, 3 (jul. 2003), pags. 303-312 o "Image completion with structure propagation", Sun, J. Yuan, L., Jia, J. y Shum, H., 2005, En ACM SIGGRAPH 2005 Papers. J. Marks., Ed. SIGGRAPH'O5. ACM Press, Nueva York, NY, pags. 861-868. Tales parches preferiblemente son de forma rectangular o circular. Preferiblemente, multiples parches de destino 803a y 803b solapan entre sf. En una realizacion preferida de la invencion, los parches de destino solapantes se combinan en la region comun 805.

En una realizacion preferida de las etapas de llenado de agujeros en la imagen de fondo, el parche de destino 803a, 803b,... tiene el mismo tamano y orientacion que el parche de origen 804a. Despues, la informacion de pixel desde el parche de origen puede copiarse directamente. En otra realizacion preferida, el parche de origen y de destino tienen diferentes tamanos, forma y orientacion que las del parche 804b. En tales casos, puede generarse facilmente una funcion que mapea las posiciones del parche de destino a las posiciones de los parches de origen, donde una persona debe consultar los valores de color correspondientes. Despues, el copiado puede implicar rotacion y/o cambio de escala de la imagen de parche de origen (tal como 804b).

En una realizacion preferida de la invencion, la etapa de seleccionar un parche de origen 804a, 804b,. comprende una comparacion de parches de origen potencialmente posibles con el parche de destino 803a, 803b,. para encontrar un parche de origen cuyos valores del pixel correspondan a los valores de pixel conocidos en el parche de destino. Atravesando las regiones conocidas del parche de destino, puede realizarse una comparacion por pfxeles (dando como resultado la diferencia de los valores de pixel) de todos los parches de origen potencialmente coincidentes con la region conocida para encontrar un buen parche de origen coincidente. Preferiblemente, se construye la suma de estas diferencias para encontrar un valor de comparacion global de los parches. La diferencia de los valores de pixel puede basarse en (aunque no esta restringida a) RGB, HSV u otros valores del sistema de color del pixel.

En una realizacion preferida de la invencion, las etapas de llenado de los huecos 802 en el fondo 801 conocido tiene en cuenta el conocimiento previo sobre las marcas 806a, 806b,. en el fondo. Tales marcas, por ejemplo, son las lmeas y drculos en una cancha de futbol y son importantes para la percepcion correcta y el reconocimiento de la escena. Puesto que los parametros de camara son conocidos de la etapa de calibrado de la camara y la posicion de las marcas normalmente esta bien definida en las normas del juego, es posible proyectar las marcas desde el espacio 3D de vuelta a la imagen de video. Como resultado, se conocen las posiciones 2D de las marcas (por ejemplo, las lmeas o drculos proyectados) en la imagen de video. Usando este conocimiento, pueden detectarse regiones desconocidas (por ejemplo huecos) en las marcas proyectadas atravesando toda las posiciones (es decir, pfxeles) relacionados con una marca y comprobando la existencia de un hueco 802. Para marcas con regiones 807 desconocidas identificadas, la recreacion de las partes que faltan de las marcas puede realizarse por separado antes de llenar los huecos restantes. Para ello, se seleccionan los parches de destino 803c, 803d a lo largo de la marca que se va a completar. Preferiblemente, el punto medio de cada parche siempre esta situado en las posiciones proyectadas hacia atras de la marca dentro de la imagen. Preferiblemente, los parches de origen se buscan despues a lo largo de las regiones conocidas de la marca 804c, 804d. Puesto que los parches de origen correspondientes mas probablemente muestran una estructura similar, la coloracion y orientacion de la marca que contienen, la marca dentro del hueco puede recuperarse mas rapido y con una mejor calidad.

La aplicacion repetida de tales parches de origen recreara despues una imagen de la marca dentro del hueco. En esta realizacion, el tamano de los parches preferiblemente se elige para cubrir al menos la anchura maxima de la marca.

La Figura 9 muestra esquematicamente un cfrculo proyectado y la rotacion de parches: en una realizacion preferida de la invencion, las etapas de llenado de huecos en el fondo, usando el conocimiento previo sobre las marcas, determina un angulo de rotacion entre el parche de origen 804e y el parche de destino 803e cuando se trata con marcas 806b no lineales (es decir, que no son en lmea recta), por ejemplo drculos o similares. Este angulo de rotacion puede calcularse a partir del angulo 809 entre las normales 808a, 808b (es decir, la lmea perpendicular a la marca en una cierta posicion) en las posiciones de los parches en la marca proyectada. Antes de comparar el parche de origen con el parche de destino, el angulo de rotacion se integra en la funcion de mapeo. De esta manera, un parche de origen de una parte distante del cfrculo puede compararse con, y aplicarse, al parche de destino con una orientacion correcta, reduciendo la aparicion de defectos visibles en el resultado.

En una realizacion preferida de la invencion, la busqueda de parches de origen comienza en la proximidad cercana del parche de destino antes de considerar parches de origen a una mayor distancia. En esta realizacion, puede definirse un valor umbral que detiene la busqueda cuando se encuentra un parche de origen cuyo valor coincidente es menor que el umbral - si "menor" corresponde a una mejor coincidencia. De esta manera, el algoritmo buscara unicamente hasta que se encuentra un buen parche de origen (pero puede que no sea el mejor).

En otra realizacion preferida de la invencion, la seleccion de los parches de destino cambia alternativamente entre ambos lados de un hueco, si el hueco esta entre los extremos de la marca - por ejemplo en ambos lados del hueco, parte de las lmeas son visibles. En esta realizacion, los parches de origen encontrados se aplican alternativamente a parches de destino en ambos lados 803c y 803d del hueco, llenandolo o creciendo hacia dentro desde el lfmite del hueco, a lo largo de la longitud 10 de la marca, hasta que se alcanza la mitad del hueco. De esta manera, los pfxeles

5

10

15

20

25

30

35

40

45

desconocidos en ambos lados del hueco proporcionan una mejor aproximacion a los p^xeles circundantes conocidos que lo que conseguina un llenado unidireccional en el lado distante del hueco. El parche de origen de los parches aplicados alternativamente puede diferir para cada etapa de aplicacion, o puede permanecer igual para varias etapas alternas.

En otra realizacion preferida de la invencion, los pfxeles del parche de origen seleccionado actualmente se combinan (por ejemplo, se mezclan) con los pfxeles de al menos uno de los ultimos parches de origen aplicados antes de aplicarse a un parche de destino actual. El factor de combinacion depende de la distancia 801 desde el parche de destino 803c real a la posicion donde estaba el ultimo parche 803d de destino. Por ejemplo, si la distancia 801 es grande, entonces el parche de origen no se altera antes de aplicarlo. Sin embargo, cuando la distancia es pequena, el parche de origen se altera de manera que parece similar al ultimo parche de destino cercano. De esta manera, el parche de destino actual tendra una diferencia en disminucion por pfxeles de otros parches de destino con el aumento de la distancia, lo que conduce a un solapamiento sin costuras en el medio del hueco.

La Figura 10 muestra esquematicamente una proyeccion en perspectiva de una marca en lmea recta y la asignacion por pfxeles para una marca: otra realizacion preferida de la invencion usa parametros de camara conocidos para determinar un factor de escala integrado en la funcion de mapeo de los pfxeles de parche de origen a los pfxeles de parche de destino (y viceversa). Una marca que empieza en un punto 806c, respectivamente cercano a la camara, y que termina en un punto distante 806d, conduce a una proyeccion de la marca que requiere parches de origen mas grandes correspondientes a posiciones cerca de la camara 804f que los parches de origen correspondientes a las posiciones alejadas 804g debido a la proyeccion de perspectiva. Usando calculos de geometna proyectiva, el factor de escala entre un parche de origen 804f, 804g y un parche de destino 803f se determina y aplica durante la comparacion y aplicacion de los parches. Preferiblemente, este factor de escala se usa tambien cuando se elige el tamano de los parches de origen y de destino, respectivamente.

En una realizacion preferida adicional de la invencion, las marcas no se consideran como lmeas o elementos unidimensionales, por ejemplo, puntos, lmeas rectas o drculos, sino que se asocian tambien con una dimension adicional perpendicular a la orientacion principal, tal como la anchura de una lmea. La anchura de la marca real puede medirse en el sitio o suponerse facilmente, basandose en la experiencia. Esto da como resultado una marca que se describe por un area delimitada por dos bordes 811 en lugar de solo por una lmea o cfrculo 806c. En la proyeccion de la marca en la imagen, los pfxeles o, mas en general, las partes de la imagen, pueden clasificarse entonces como pertenecientes a la marca 812, no pertenecientes a la marca 813 o pertenecientes parcialmente a la marca 814. Preferiblemente, la funcion de comparacion integra este conocimiento para proporcionar una comparacion mejorada de los parches. Asimismo, la aplicacion del parche de origen sobre el parche de destino integra preferiblemente este conocimiento.

En una realizacion preferida de la invencion, las etapas de recrear las marcas implican un tratamiento especial de las areas donde al menos dos marcas se intersecan o unen entre sf en un hueco. Tales regiones debenan regenerarse de una manera diferente, puesto que la aplicacion de parches como se ha descrito anteriormente puede conducir a efectos visuales. Preferiblemente, la regeneracion de estas areas se realiza basandose en la clasificacion de pfxeles como pertenecientes a la marca 812, no pertenecientes a la marca 813 o parcialmente pertenecientes a la marca 814. Despues, los pfxeles que pertenecen a la marca en el parche de origen se comparan y aplican unicamente si se mapean sobre un pixel que pertenece a la marca en el parche de destino y viceversa. En otras palabras, para aquellas areas de hueco en las que se espera una marca, el algoritmo de coincidencia de parches solo considera los pfxeles que son parte de la marca. Preferiblemente, tal realizacion tiene un tratamiento especial para combinar pfxeles clasificados como parcialmente pertenecientes a la marca, por ejemplo por combinacion o seleccion del mas probable.

Aunque la invencion se ha descrito en las presentes realizaciones de la invencion, se entiende claramente que la invencion no esta limitada a estas, sino que de lo contrario puede realizarse y practicarse variadamente dentro del alcance de las reivindicaciones.

Listado de designaciones

101: El origen (productor) de al menos dos emisiones de video (120)

102: Adquisicion de al menos dos emisiones de video (120) en la memoria interna

103: Metodo de calibrado

104: Metodo de seguimiento

105: Metodo de identificacion de objetos

106: Metodo de recortado de objetos

107: Metodo de calculo de la posicion del objeto 3D

108 Metodo de smtesis de imagen interpolada

109 El destino (consumidor) de la emision o emisiones de video resultantes

110 Un recurso (archivo, base de datos, etc.) que contiene informacion (equipo, nombre, numero, etc.) sobre

todos los objetos del mundo real (jugadores, porteros, arbitros, pelota)

113 Un recurso (archivo, base de datos, modelo, etc.) que proporcione informacion sobre el entorno (3D, CAD, etc.)

120 Al menos dos emisiones de video aisladas

121 Datos de textura de color

122 Datos de calibrado de camara

123 Posicion y forma 2D del objeto

124 Posicion y forma 2D del objeto e identificacion del objeto del mundo real

125 Datos de textura de fondo llenos y marcados

126 Textura de objeto y mascara alfa por camara y objeto del mundo real, por ejemplo informacion de

segmentacion

127 Posicion y forma 2D del objeto refinado con identificacion del objeto del mundo real

128 Posicion 3D del objeto

129 Emision de video interpolada sintetizada

130 La posicion 3D del objeto extrapolada

131 Datos de calibrado de camara reales o extrapolados

132 Informacion sobre un objeto del mundo real segun se almacena en (110)

135 Modelo 3D, datos o informacion similar sobre el entorno

201 La primera imagen de la emision de video que muestra algunos elementos en perspectiva

202 Una vista esquematica de la escena con sus elementos 203a-d Elementos marcados en la imagen de video

204a-d Elementos correspondientes en la vista esquematica

301 Un fotograma de una emision de video en el tiempo t-n (n>0)

302 Un fotograma de una emision de video en el tiempo t

303 Una vista esquematica de la situacion 3D de las escenas en diversos momentos 310a,b La posicion 2D de los objetos A, B en el fotograma 301

311a,b Las trayectorias real y extrapolada de los objetos A, B

312a,b La posicion 2D extrapolada de los objetos A, B en el fotograma 301 (espacio de imagen)

320a,b Las posiciones 2D reales de los objetos A, B en el fotograma 302

321a,b Las mismas posiciones 2D que en 312a,b en el fotograma 302 (la misma localizacion espacial de la imagen)

330a,b La posicion 3D conocida de los objetos A, B en el tiempo t-2n

331a,b La posicion 3D conocida de los objetos A, B en el tiempo t-n

332a,b La posicion 3D estimada de los objetos A, B en el tiempo t

401 Una vista de camara de una escena donde dos objetos A, B colisionan en 2D

402 La misma escena que en 401 vista desde otra camara

403 Una vista esquematica de la escena en 3D (desde arriba)

410a,b Posiciones 2D de los objetos A, B en el tiempo t0 en 401

411a,b Posiciones 2D de los objetos A, B en el tiempo t1 en 401

420a,b Posiciones 2D de los objetos A, B en el tiempo t0 en 402

421a,b Posiciones 2D de los objetos A, B en el tiempo t1 en 402

430a,b Las posiciones 3D de los objetos A, B en el tiempo t0

431a,b Las posiciones 3D de los objetos A, B en el tiempo t1

501 El cuadro de delimitacion

502 El objeto esta completamente dentro del cuadro de delimitacion

503 Cierta parte del cuadro de delimitacion pertenece al fondo

504 Cierta parte del cuadro de delimitacion pertenece al primer plano (pertenece al objeto)

505 Un aumento de una parte de lfmite entre el primer plano y el fondo consiste en pfxeles

506 Algunos de estos pfxeles pueden clasificarse como 100% fondo

507 Algunos de estos pfxeles no pueden clasificarse como 100% fondo o 100% primer plano, pero por ejemplo sf como 57% primer plano

508 Algunos de estos pfxeles pueden clasificarse como 100% primer plano

509 El cuadro de delimitacion se define mediante su posicion en la esquina inferior izquierda

510 ...y su anchura

511 ... y su altura

601 Un cuadro de delimitacion proporcionado por (123) y (124) es demasiado grande comparado con los lfmites del objeto

602 El cuadro de delimitacion refinado despues del metodo de recortado del objeto (106)

603 Un cuadro de delimitacion proporcionado por (123) y (124) interseca los lfmites de los objetos

604 El punto de anclaje del cuadro de delimitacion para el metodo (107) de calculo de la posicion 3D

801 El area conocida de la imagen

802 El area desconocida de la imagen, es decir, el hueco 803a,b Parches de destino solapantes

803c,d Parches de destino en una marca (806a) en ambos lados del hueco 804a Un parche de origen

804b Un parche de origen con diferente tamano y orientacion 804c,d Parches de origen en una marca (806a)

805 La region solapantes de los parches de destino

806a Una marca de lmea proyectada 806b Una marca de drculo proyectado

806c Una marca con una anchura perpendicular a la direccion de la marca 807 La parte de la marca dentro del hueco 808a,b Normales de la marca circular proyectada

809 Angulo entre dos normales correspondientes a parches

810 La longitud de la parte de la marca dentro del hueco

811 Lfmites de una marca (806c) definida por la anchura

812 Pfxeles clasificados como pertenecientes a la marca (806c)

813 Pfxeles clasificados como no pertenecientes a la marca (806c)

814 Pfxeles clasificados como parcialmente pertenecientes a la marca (806c)

901 Cancha, campo de juego

902 Modelo de estadio 3D

903 Valla publicitaria

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Un metodo para generar una representacion 3D de una escena 3D dinamicamente cambiante, que comprende las etapas de

a) adquirir (102) al menos dos emisiones (120) de video de al menos dos camaras (702) localizadas en diferentes localizaciones y que observan la misma escena 3D (701);

b) determinar (103) parametros (122) de camara que comprenden la posicion, la orientacion y parametros internos para dichas al menos dos camaras (702);

c) seguir el movimiento de los objetos (310a,b, 312a,b; 330a,b, 331a,b, 332a,b; 410a,b, 411a,b; 430a,b, 431a,b; 420a,b, 421a,b) en cada una de las al menos dos emisiones (104) de video, en las que un objeto es un jugador o un arbitro o una pelota en una escena deportiva;

d) determinar la posicion 3D de los objetos combinando la informacion de las al menos dos emisiones (107) de video;

caracterizado por que la etapa de seguimiento (104) del movimiento de objetos (310a,b, 312a,b; 330a,b, 331a,b, 332a,b; 410a,b, 411a,b; 430a,b, 431a,b; 420a,b, 421a,b) en cada una de las al menos dos emisiones (12) de video usa la posicion 3D de los objetos (130) como se deduce en la etapa de determinacion de la posicion 3D de los objetos (107); y

el metodo comprende la etapa de

e) determinar la identidad de dichos objetos en las al menos dos emisiones (105) de video asociando objetos con identificadores unicos y asociando asf los objetos con informacion (132) almacenada, previamente conocida sobre objetos del mundo real;

f) determinar la posicion y orientacion de los objetos (903) de reproduccion 3D correspondientes a los objetos en la emision de video, en los que los objetos (903) de reproduccion 3d sirven para reproducir informacion de imagen de una o mas emisiones de video cuando generan la representacion 3D de la escena.
2. El metodo de la reivindicacion 1, en el que la posicion 3D de al menos un objeto se extrapola de al menos dos posiciones 3D previas del objeto (332a,b).
3. El metodo de una de las reivindicaciones anteriores, en donde la etapa de determinar la identidad de los objetos (105) en las al menos dos emisiones (120) de video usa informacion que se deduce de una de las etapas (107) posteriores de las al menos dos emisiones (120) de video y surge a partir de uno o mas instantes anteriores en el tiempo.
4. El metodo de la reivindicacion 3, en donde la informacion deducida del uno o mas instantes anteriores en el tiempo es la posicion 3D del objeto (130).
5. El metodo de una de las reivindicaciones anteriores, en donde la etapa de seguir el movimiento de los objetos (104) comprende la etapa de incorporar parametros (131) de camara dinamicamente cambiantes en la funcion (104) de seguimiento, de manera que la funcion (104) de seguimiento compensa los cambios en los parametros (131) de camara.
6. El metodo de la reivindicacion 5, en donde los parametros de camara tenidos en cuenta en la funcion de seguimiento son parametros (131) de camara determinados por una etapa (103) de calibrado de camara, realizada para el mismo fotograma de video para el que se realiza el seguimiento.
7. El metodo de la reivindicacion 5, en donde los parametros de camara tenidos en cuenta en la funcion de seguimiento son parametros (131) de camara determinados por una etapa (103) de calibrado de camara, realizada para uno o mas fotogramas de video previos y que se extrapolan opcionalmente.
8. El metodo de una de las reivindicaciones anteriores, que comprende una etapa (106) de segmentacion en la cual los objetos se separan del fondo, que comprende la etapa de

• usar coincidencia de canal alfa para asignar, a cada elemento de la imagen, un valor que expresa la probabilidad con la cual el pixel es parte de un objeto o parte del fondo.
9. El metodo de una de las reivindicaciones anteriores, que comprende proporcionar (108) una vista sintetizada a partir de un punto de vista virtual que es distinto de las posiciones de la camara mediante las etapas de:

• proporcionar parametros de camara de una camara virtual (703);

• determinar una imagen de fondo segun se ve por la camara (703) virtual en un modelo de fondo (901, 902);

5

10

15

20

25

30

35

40

45

• determinar una proyeccion de cada uno de los objetos en la camara (703) virtual y superponerla sobre la imagen de fondo; y

• producir la imagen combinada para almacenamiento o para procesamiento adicional,

y que comprende ademas una etapa (106) de segmentacion, en la cual los objetos se separan del fondo, que comprende la etapa de

• despues de retirar los objetos, llenar los huecos correspondientes o partes desconocidas que quedan en el fondo mediante restauracion de imagen y marcar tales elementos de imagen restaurada como datos de imagen sinteticos.
10. El metodo de la reivindicacion 9, en donde la etapa de determinar una imagen de fondo segun se ve por la camara (703) virtual comprende las etapas de

• combinar, para cada elemento de la imagen de fondo, informacion de imagen desde las diferentes emisiones de video que corresponden a la misma localizacion de fondo;

• dar prioridad a la informacion de imagen que no esta marcada como datos de imagen sinteticos; y

• hacer que la informacion de imagen en un modelo de fondo comprenda una o mas superficies (901, 902) que representan el fondo.
11. El metodo de la reivindicacion 10, en el que, en el modelo de fondo, la superficie que representa el fondo es una superficie (901) que representa el campo de juego (701) y opcionalmente tambien comprende superficies (902) que representan un modelo de entorno 3D.
12. El metodo de una de las reivindicaciones 9 a 11, en donde la etapa de determinar una imagen de fondo segun se ve por la camara (703) virtual comprende ademas:

• reproducir datos de imagen predeterminados en el modelo de fondo (901, 902), superponiendolos sobre o reemplazando la informacion de imagen proporcionada por las emisiones de video.
13. El metodo de una de las reivindicaciones 9 a 12, en donde la etapa de determinar una proyeccion de cada uno de los objetos en la camara (703) virtual comprende la etapa de

• reproducir la informacion de imagen a partir de una o mas emisiones de video en objetos de reproduccion 3D (903) situados en el modelo de fondo 3D (901, 902).
14. El metodo de la reivindicacion 13, en donde los objetos de reproduccion son vallas publicitarias (903) y se realiza una superposicion en la camara (703) virtual de la proyeccion de los objetos y la imagen de fondo mediante valores ponderados en canales alfa de las vallas publicitarias (903) basandose en similitud de angulo, resolucion o campo de vista entre las caractensticas opticas de las camaras (702) reales y la camara (703) virtual.
15. Un sistema de procesamiento de datos para generar una representacion 3D de una escena 3D dinamicamente cambiante, que comprende

a) un modulo (102) de adquisicion de datos que adquiere al menos dos emisiones de video de al menos dos camaras localizadas en diferentes localizaciones y que observa la misma escena 3D;

b) un modulo (103) de calibrado de camara para determinar parametros de camara, que comprende la posicion, la orientacion y parametros internos, para dichas al menos dos camaras;

c) un modulo (104) de seguimiento 2D para seguir el movimiento de objetos en las al menos dos emisiones de video, en donde un objeto es un jugador o un arbitro o una pelota en una escena deportiva; y

d) un modulo (107) de combinacion 3D y calculo de posicion de objetos 3D para determinar la posicion 3D (128) de los objetos combinando la informacion determinada a partir de las al menos dos emisiones de video;

caracterizado por que

el modulo (104) de seguimiento 2D esta configurado para depender de la posicion 3D (128) de los objetos determinada por el modulo (107) de combinacion 3D y calculo de posicion de objetos 3D; y por que el sistema comprende ademas

e) un modulo (105) de identificacion de objetos para determinar la identidad de dichos objetos en las al menos dos emisiones de video asociando objetos con identificadores unicos y, de esta manera, asociando los objetos con informacion (132) almacenada, previamente conocida, sobre objetos del mundo real; y

por que el modulo (107) de combinacion 3D y calculo de posicion de objetos 3D esta configurado para proporcionar

la funcion de

f) determinar la posicion y orientacion de objetos (903) de reproduccion 3D que corresponden a los objetos en la emision de video, en donde los objetos (903) de reproduccion 3D sirven para reproducir informacion de imagen de una o mas emisiones de video cuando se genera la representacion 3D de la escena.

5 16. El sistema de procesamiento de datos de la reivindicacion 15, que comprende un modulo (106) de recortado de

objetos para determinar

• datos (125) de textura de fondo llenos que incorporan un banderm que especifica si un parche de imagen particular o pixel se deriva de datos de imagen reales o se ha generado sinteticamente,

• una textura de objeto y mascara alfa (126) para cada emision de video y cada objeto que se sigue y

10 • para cada objeto que se sigue, una posicion y forma 2D del objeto y una identificacion (127) del objeto del mundo

real.
17. El sistema de procesamiento de datos de la reivindicacion 16, que comprende

- un modulo (108) de smtesis de imagen que proporciona, a partir de la posicion 3D (128) de los objetos, los datos (125) de textura de fondo llenos y la textura de objeto y mascara alfa (126) de los datos de video a un consumidor 15 (109).