ES2712375T3

ES2712375T3 - Método y sistema para generar una representación 3D en una escena 3D dinámicamente cambiante

Info

Publication number: ES2712375T3
Application number: ES12002185T
Authority: ES
Inventors: Stadler Stephan Würmlin; Christoph Niederberger
Original assignee: Vizrt AG
Current assignee: Vizrt AG
Priority date: 2006-06-02
Filing date: 2007-05-24
Publication date: 2019-05-13
Anticipated expiration: 2027-05-24
Also published as: WO2007140638A1; EP2492870B1; ES2585903T3; EP2492870A3; EP2024937A1; EP1862969A1; US9406131B2; EP2024937B1; US20090315978A1; JP2009539155A; EP2492870A2

Abstract

Método para llenar los huecos (802) que quedan en el fondo de una imagen (201) después de recortar los objetos del fondo, que comprende las etapas de - adquirir (102) una imagen (201) de una cámara (702) que observa una escena 3D (701); - segmentar la imagen (201) separando los objetos del fondo de la imagen (201) ; - llenar los huecos (802) correspondientes que quedan en el fondo mediante restauración de la imagen, mapeo de los datos de imagen que corresponde a los parches de origen (804a, 804b, 804c, 804d) que comprenden datos de imagen reales a los parches de destino (803a, 803b, 803c, 803d) que comprenden partes desconocidas de la imagen, llenando así los huecos (802); en el que el mapeo implica una transformación de los parches de acuerdo con su relación espacial, es decir, 3D caracterizado porque una parte desconocida de la imagen se sabe que comprende un elemento de marca (807), en el que un elemento de marca es un elemento de fondo inmóvil cuya localización nominal es conocida y es un elemento que se extiende linealmente sobre un campo de juego, y el método comprende las etapas de - seleccionar un parche de destino (803c, 803d) para cubrir al menos parte del elemento de marca (807), y buscar en la imagen un parche de origen correspondiente (804c, 804d) a lo largo de la marca (806a).

Description

DESCRIPCION

Metodo y sistema para generar una representacion 3D de una escena 3D dinamicamente cambiante

Campo de la invencion

La invencion se refiere al campo del procesamiento de video y a la generacion de imagenes virtuales, y es aplicable, por ejemplo, a la cobertura de deportes por television mediante reconstruccion basada en video de situaciones de juego en tres dimensiones. Se refiere a un metodo para llenar los huecos que quedan en el fondo de una imagen despues de recortar los objetos como se describe en el preambulo de la reivindicacion 1.

Antecedentes de la invencion

El documento "A Video-Based 3D-Reconstruction of Soccer Games", T. Bebie y H. Bieri, EUROGRAPHICS 2000,Vol. 19 (2000), n.° 3, describe un sistema de reconstruccion disenado para generar vistas en 3D (tridimensionales) virtuales, animadas, a partir de dos secuencias de video sfncronas de parte de un juego de futbol. Para crear una reconstruccion 3D de una escena dada, se ejecutan las siguientes etapas: 1) Se calculan los parametros de camara de todos los fotogramas de ambas secuencias (calibrado de la camara).

2) Se extrae la textura del campo de juego de las secuencias de video. 3) Se calculan las trayectorias de la pelota y las cabezas de los jugadores despues de especificar manualmente sus posiciones de imagen en unos pocos fotogramas clave. 4) Se extraen las texturas de los jugadores automaticamente del video. 5) Se separan automaticamente las formas de jugadores que colisionan o se ocluyen. 6) Para la visualizacion, se mapea la textura de las formas de jugador sobre rectangulos colocados apropiadamente en un espacio virtual. Se supone que las camaras permanecen en la misma posicion durante toda la secuencia de video que se esta procesando.

El documento EP 1 465 115 A2 describe la generacion de una vista deseada desde un punto de vista seleccionado. Se obtienen imagenes de la escena a partir de varias camaras con diferentes puntos de vista. Los objetos seleccionados se identifican en al menos una imagen, y se determina una estimacion de la posicion de los objetos seleccionados. Dado un punto de vista deseado, se determinan las posiciones de los objetos seleccionados en la vista deseada resultante, y las vistas de los objetos seleccionados se renderizan usando los datos de imagen de las camaras.

Se hace referencia adicional a las siguientes publicaciones de la tecnica anterior:

- "Architecture and algorithms for tracking football players with multiple cameras". M. Xu, J. Orwell y D. Thirde; IEE Proceedings - Vision, Image, and Signal Processing - abril 2005 - Volumen 152, edicion 2, pag. 232-241. Este documento describe la extraccion de la posicion de jugadores de futbol y la posicion 3D de una pelota, dadas las imagenes de video de camaras estaticas. Sin embargo, no se aborda la sfntesis de una representacion 3D.

-"Multiple camera tracking of interacting and occluded human motion". Dockstader, S. y Tekalp, A. M.; 2001a. Proceedings of the IEEE 89, 1441-1455. Este documento se dirige a hacer un seguimiento de multiples personas que se mueven e interactuan, dadas multiples imagenes de camara. No se aborda la sfntesis de una representacion 3D y el calibrado de la localizacion y/u orientacion de la camara.

-"Sports scene analysis and visualization from multiple-view video". Hideo Saito, Naho Inamoto, Sachiko Iwase; Int. Conf Multimedia and Expo (ICME) 2004: 1395-1398. Este documento describe una visualizacion desde un punto de vista libre de una escena de futbol a partir de multiples vistas de camara.

-"Robust Tracking of Athletes Using Multiple Features of Multiple Views". Toshihiko Misu, Seiichi Gohshi, Yoshinori Izumi, Yoshihiro Fujita, Masahide Naemura; Proceedings of WSCG'2004. Pags. 285-292. Para realizar el seguimiento de objetos moviles en imagenes 2D, se usa un numero de programas de instalacion para observar multiples caracterfsticas tales como textura, color, movimiento y region, y la informacion de los diferentes programas de instalacion se condensa entonces, ponderando la informacion adaptativamente segun una medida de fiabilidad proporcionada por cada programa de instalacion.

- "Live mixed-reality 3D video in soccer stadium". Koyama, T. Kitahara, I. Ohta, Y.; Mixed and Augmented Reality, 2003. The Second IEEE and ACM International Symposium on mixed and augmented reality (ISMAR); 7-10 de octubre de 2003; paginas: 178-186. Se reconstruye un modelo 3D simplificado a partir de multiples imagenes de video, y se proyecta la informacion de video seleccionada sobre el modelo. Una camara especializada, instalada verticalmente sobre el campo de juego, se requiere para determinar la posicion del jugador. Se requieren instrumentos de topograffa laser para calibrar las posiciones de las otras camaras.

- "Immersive Observation of Virtualized Soccer Match at Real Stadium Model". Naho Inamoto, Hideo Saito; The Second IEEE and ACM International Symposium on mixed and augmented reality (ISMAR); 7-10 de octubre de 2003; paginas 188-197. Se genera una representacion de una escena de futbol virtual a partir de imagenes reales, y se muestra a una persona que lleva un dispositivo montado en la cabeza (HMD).

Descripcion de la invencion

Es un objeto de la invencion crear un metodo para para llenar los huecos que quedan en el fondo de una imagen despues de recortar los objetos del tipo mencionado inicialmente, lo que proporciona una mejora sobre los sistemas conocidos. Descripcion modificada pagina 3a, con el texto inserto en la pagina 3, despues de la linea 16 y precediendo al encabezado “Descripcion de la invencion.

El documento US2006/0120592 A1 describe la generacion de informacion de la imagen de fondo para reemplazar partes de una primera imagen tomada desde un primer punto de vista con partes de imagen de otras vistas que se transforman como si se vieran desde el primer punto de vista. Por lo tanto, la informacion de la imagen utilizada proviene de la misma ubicacion o parche de superficie en el espacio 3D, pero vista desde otro punto de vista. La parte de la imagen de fondo se mapea sin tener en cuenta las caracterfsticas particulares del fondo.

"Motion Layer Based Object Removal in Videos". Yunjun Zhang et al: 2005 7th IEEE Workshops On Applications Of Computer Vision, 5-7 de enero de 2005, paginas 516-521, describe la separacion de capas de movimiento y la eliminacion selectiva de objetos en una capa de movimiento particular en un solo flujo de video de camara. El fondo del objeto eliminado se regenera a partir de otros fotogramas, o de parches similares, pero nuevamente sin tener en cuenta las caracterfsticas particulares conocidas del fondo. Este ultimo enfoque puede implicar deformacion proyectiva.

"Video completion by motion field transfer", Takaaki Shiratori et al., Conference On Computer Vision And Pattern Recognition, 17-22 de junio de 2006, paginas 411-418, basa la similitud de los parches utilizados para llenar un hueco en una imagen (que puede deberse, entre otros, a la eliminacion de objetos) en la similitud de campos de movimiento. El metodo utiliza una secuencia de imagenes de video y completa los datos faltantes para secciones de una o mas imagenes o para fotogramas completos.

"Virtualized reality: Constructing time-varying virtual worlds from real word events", by Peter Rander et al., Visualization '97., Proceedings; 24 de octubre de 1997, paginas 277-283, describe la generacion de una representacion virtual completa en 3D de eventos dinamicos de multiples flujos de video. Las mediciones de rango e intensidad de multiples camaras se fusionan para formar un "modelo de superficie completo". Se pueden generar vistas sinteticas al renderizar el modelo para una camara virtual. Esto puede implicar que los datos de una vista se usan para complementar los datos que faltan en otra vista.

Estos objetos se logran mediante un metodo para llenar los huecos que quedan en el fondo de una imagen despues de recortar los objetos segun la reivindicacion 1.

Se presentan ahora los modos preferidos de generacion de datos de imagen sinteticos (fondo), que tfpicamente combinan aspectos de los dos ultimos puntos. Tal restauracion de imagen 3D usa no solo parches de imagen de la proximidad de un hueco para llenar el hueco, sino que tambien tiene en cuenta el conocimiento sobre relaciones espaciales (es decir, 3D) entre parches de superficie. Es decir, cuando se usan datos de imagen de un "parche de origen" para llenar datos de imagen en un "parche de destino", entonces se considera la relacion espacial entre estos parches, que puede implicar rotacion y/o una perspectiva diferente. El objetivo es llenar los huecos con colores o texturas que se parezcan a la imagen esperada real tanto como sea posible. Un enfoque conocido es elegir un parche de destino que se extienda sobre el lfmite de un hueco, de esta manera comprende partes conocidas y desconocidas de la imagen. Se realiza entonces una busqueda para encontrar un parche de origen, con una parte del parche de origen que coincide con las partes conocidas. La parte restante del parche de origen se usa despues para llenar las partes desconocidas por copiado. Sin embargo, esta busqueda y copiado solo tiene lugar en el plano de una imagen de video.

De acuerdo con la invencion, se usa la posicion y/u orientacion conocidas de los parches de origen y destino en el espacio 3D cuando se buscan parches de origen y cuando se copian datos de imagen de origen a un parche de destino.

En una realizacion preferente adicional de la invencion, la informacion sobre la localizacion de marcas se usa para guiar la restauracion de la imagen. Las marcas son elementos del fondo caracterfsticos inmoviles, tfpicamente elementos que se extienden linealmente, tal como lfneas rectas o circulares sobre el campo de juego, cuya localizacion nominal es conocida. Este enfoque incorpora preferiblemente conocimiento a partir de un modelo de campo que comprende la localizacion y orientacion de las lfneas en el campo de juego. Preferiblemente, esto se combina con la informacion 3D sobre la localizacion de parches a lo largo de la marca.

Por ejemplo, se implementan uno o mas de los siguientes enfoques:

- Si un parche de destino comprende una parte de una marca, entonces los parches de origen se buscan a lo largo de la marca y se mapean sobre localizaciones dentro del hueco en el cual se espera que este la marca;

- Si un parche de destino esta situado en un cfrculo, entonces el parche de destino se transforma (por ejemplo, se rota y cambia de escala, tfpicamente sin preservar su relacion de aspecto) antes de compararlo con un parche de origen potencial a lo largo del cfrculo o viceversa. Igualmente, el parche de origen se transforma cuando se copia al parche de destino.

- Si un parche de destino esta situado a lo largo de una lfnea recta, entonces el parche de destino se cambia de escala (tfpicamente preservando su relacion de aspecto) antes de compararlo con un parche de origen potencial mas distante, desde el punto de vista de la camara, a lo largo de la lfnea. Igualmente, el parche de origen se cambia de escala de vuelta cuando se copia al parche de destino.

La restauracion de la imagen preferiblemente se realiza individualmente para varios flujos de video, dando como resultado un conjunto de flujos de video que muestran la misma escena de fondo, sin los objetos (moviles) desde diferentes perspectivas. En un ultimo punto de procesamiento, estas imagenes de fondo restauradas se usan para colorear o "pintar" el modelo de fondo 3D. Sin embargo, en otra realizacion de la invencion, la restauracion de imagen tiene lugar cuando el modelo de fondo 3D esta coloreado: el modelo de fondo se colorea en primer lugar de acuerdo con la informacion de imagen de fondo de uno o mas flujos de video, y despues se pinta cualquier parche no coloreado restante en el modelo 3D, de una manera similar a la descrita anteriormente, es decir, con informacion de imagen de otras localizaciones o instantes en el tiempo. El metodo de llenado de huecos descrito anteriormente puede implementarse independientemente de los otros aspectos de la invencion descrita en la presente memoria, en particular independientemente de las etapas de seguimiento e identificacion del objeto 3D, calibrado de la camara, etc. ...

Un metodo para generar una representacion 3D de una escena 3D dinamicamente cambiante, comprende las etapas de

• adquirir al menos dos flujos de video preferiblemente sincronizados desde al menos dos camaras localizadas en diferentes localizaciones y que observan la misma escena 3D;

• determinar parametros de camara, que comprenden la posicion, orientacion y parametros internos tales como, por ejemplo, ajuste de zoom, para dichas al menos dos camaras;

• seguir el movimiento de objetos en los al menos dos flujos de video;

• determinar la identidad de dichos objetos en los al menos dos flujos de video;

• determinar la posicion 3D de los objetos combinando la informacion desde los al menos dos flujos de video; en el que al menos una de las etapas mostradas anteriormente depende de la informacion obtenida a partir de los al menos dos flujos de video por una de las etapas posteriores.

Como resultado, se implementa un bucle de retroalimentacion de informacion, es decir, una etapa particular en la secuencia de las etapas de procesamiento de informacion usa informacion obtenida en una o mas etapas posteriores del proceso. Esta informacion tfpicamente se obtiene a partir de informacion de video que se genero en el instante anterior en el tiempo. Tal uso de una informacion a priori mejora la calidad y fiabilidad de los resultados de dicha etapa particular. En una realizacion preferente de la invencion, la posicion 3D de al menos un objeto se extrapola de al menos dos posiciones 3D anteriores del objeto.

En una realizacion preferente de la invencion, la etapa de seguir el movimiento de objetos en los al menos dos flujos de video usa informacion que se obtiene en una de las etapas posteriores de los al menos dos flujos de video y parte de uno o mas instantes anteriores en el tiempo.

En una realizacion preferente adicional de la invencion, la informacion obtenida del uno o mas instantes anteriores en el tiempo es la posicion 3D del objeto.

Como resultado, la calidad y robustez del seguimiento 2D en los flujos de video mejora. Segun el estado de la tecnica, el seguimiento en un flujo de video solo esta basado en la informacion disponible en el propio flujo de video. Esto conduce a ambiguedades cuando dos objetos colisionan o se solapan en uno de los flujos de video. Dada una posicion 3D de un objeto y una informacion de calibrado de la camara, el movimiento de la proyeccion del objeto en el espacio de imagen puede predecirse con mayor precision usando retroproyeccion de la posicion 3D del objeto en la imagen. Ademas, es posible desambiguar entre diferentes interpretaciones de la misma imagen. Proyectando la posicion 3D del objeto de vuelta a la imagen, el algoritmo de seguimiento puede detectar objetos que colisionan/se solapan y mantener la identificacion correcta despues de que ambos objetos se separen de nuevo.

En una variante preferente de la invencion, la posicion 3D de al menos un objeto se extrapola de al menos dos posiciones 3D anteriores del objeto. Esto se realiza, por ejemplo, por interpolacion de primer orden o superior de la trayectoria anterior del objeto sobre los ultimos fotogramas de la imagen. El termino "objetos" en este punto y mas adelante se refiere a objetos moviles de interes en la escena que son observados por la camara. En un contexto deportivo, los objetos son, por ejemplo, los jugadores, una pelota y un arbitro. Otros elementos de imagen clave son el fondo, que es esencialmente estacionario, y que por un lado puede comprender la cancha o campo de juego, elementos caracterfsticos tales como lfneas y otras marcas en la cancha, paredes y un entorno (por ejemplo un estadio) que rodea la cancha. Si se requiere, se denominaran "objetos de fondo". Los espectadores en el entorno, aunque estan en movimiento, no se consideran como "objetos moviles" a los efectos de esta solicitud. En general "2D" se refiere a las posiciones o formas de objetos o elementos en una imagen de video, mientras que "posiciones 3D" se refiere a la posicion de un objeto en un modelo computacional tridimensional de una escena. En una realizacion preferente de la invencion, tal modelo 3D se mantiene y actualiza dinamicamente. La informacion de textura o imagen de video a partir de varias entradas de video se renderiza sobre superficies definidas por este modelo 3D. Esto permite sintetizar vistas arbitrarias, dinamicas del modelo 3D, generando entradas de video sinteticas o virtuales adicionales.

En este punto y en el resto de la solicitud, el termino "renderizacion" se entiende que significa, como es habitual en infograffa, el proceso de producir los pfxeles de una imagen a partir de una descripcion de mayor nivel de sus componentes. En este caso, la descripcion de mayor nivel es la combinacion del modelo 3D y su informacion de textura asociada, y la renderizacion se consigue mapeando la informacion de textura sobre el modelo 3D y determinando lo que ve una camara virtual en el modelo 3D.

En una variante preferente de la invencion, el calibrado de la camara se basa en el seguimiento de los elementos de referencia. Para inicializar el proceso de seguimiento, es necesario identificar, en cada entrada de video, un numero de elementos de referencia, es decir, por asociacion de cada uno de ellos con un identificador unico. Cada elemento de referencia esta asociado con un elemento de la escena (por ejemplo, posicion, lfnea, esquina, cfrculo, etc.) en el espacio 3D. Dados estos elementos y la proyeccion de los elementos de referencia, como se ve en las imagenes de video, se determinan los parametros de camara y, en particular, la posicion, orientacion y ajuste de zoom y posiblemente otros parametros opticos de la camara. Todo el conjunto de estos parametros se denominara de aquf en adelante como "parametros de camara". La etapa de determinar estos parametros se denomina calibrado de la camara y, tfpicamente, se realiza para cada fotograma de cada entrada de video que se procesa. Para hacer esto, el movimiento de los elementos de referencia dentro de cada flujo de video puede seguirse por un metodo y sistema de seguimiento apropiado, como se conoce en la tecnica.

En una variante preferente de la invencion, se calcula una posicion de imagen esperada del elemento de referencia en una de las imagenes de video a partir de la localizacion 3D conocida del elemento de referencia. Esto es particularmente util cuando, despues de mover o acercar con el zoom la vista, un elemento de referencia que no era visible durante un tiempo resulta visible de nuevo: A partir del modelo 3D y dados los parametros de camara actuales, se determina que un elemento de referencia particular (con identidad conocida) deberfa ser visible en una posicion esperada en el fotograma actual. La proximidad de la posicion esperada se examina por extraccion del elemento, y a un elemento mostrado en la imagen (y preferiblemente que es del mismo tipo que el elemento de referencia esperado) se le asigna automaticamente la identidad del elemento de referencia esperado.

En una variante preferente de la invencion, el calibrado se consigue basandose unicamente en las imagenes de video. La etapa de calibrado de la camara puede conseguirse alternativamente determinando la posicion, orientacion y ajuste de zoom de la camara por medios de medicion (electro) mecanicos, o extrayendo los valores correspondientes de un sistema de control que controla estos parametros.

En una variante preferente adicional de la invencion, para cada uno de los flujos de video, a los elementos de referencia se les asigna su identidad en una imagen de referencia. En un escenario deportivo tfpico, los elementos de referencia son lfneas y otras marcas en la cancha. Un usuario los identifica en una imagen estatica de video

• apuntando, con un dispositivo de entrada grafica, a una representacion del mismo elemento de referencia en una representacion esquematica de la cancha, y seleccionando dicha representacion del elemento de referencia;

• apuntando, con un dispositivo de entrada grafica, a un elemento de referencia particular, como se ve en la imagen estatica de video y seleccionando dicho elemento de referencia; y

• asociando la identidad de la representacion del elemento de referencia con el elemento de referencia visto en la imagen estatica.

La accion de seleccionar una representacion o elemento se efectua mediante una orden o entrada de usuario, tal como, por ejemplo, clicar un boton del raton o pulsar una tecla predeterminada despues de apuntar a la representacion o elemento. El orden de seleccion del elemento de referencia (primero o segundo) y su representacion esquematica (segunda o primera) puede variar. La representacion del elemento de referencia y la imagen de video pueden mostrarse en pantallas diferentes o dentro de ventanas diferentes en la misma pantalla. Este metodo para inicializar la asociacion entre elementos de la imagen y elementos del modelo permite un rapido ajuste del sistema.

En otra variante preferente de la invencion, en la etapa de seleccionar dicho elemento de referencia en la imagen estatica de video, se realizan las siguientes subetapas para determinar la posicion exacta del elemento de referencia en la imagen estatica de video:

• realizar automaticamente, en las proximidades de la posicion seleccionada por el usuario, una extraccion de elementos y, en particular, una extraccion de lfneas, intersecciones y esquinas;

• determinar la posicion del elemento de referencia como la posicion de uno de los elementos extrafdos y, en particular, de un elemento cuyo tipo es el mismo que el seleccionado en la representacion esquematica de la cancha.

Esto permite "ajustar" automaticamente la seleccion a la mejor posicion del elemento, segun se determina a partir del fotograma de video. Esto corrige pequenos errores de posicion, realizados por el usuario cuando apunta al elemento y, por lo tanto, simplifica y acelera el proceso de inicializacion.

En otra realizacion preferente adicional mas de la invencion, la etapa de seguir el movimiento de los objetos comprende la etapa de incorporar parametros de camara dinamicamente cambiantes en la funcion de seguimiento, de manera que la funcion de seguimiento compense los cambios en los parametros de camara. Esto significa que, para cada etapa de localizacion de un objeto seguido particular, se calculan no solo su posicion esperada y, preferiblemente, tambien su tamano basandose en la posicion y preferiblemente tambien su tamano en fotogramas anteriores, sino que dicha posicion y tamano esperados se corrigen segun los cambios conocidos de los ajustes de la camara, incluyendo el zoom entre el fotograma de video anterior y actual. La correccion significa que se usa el movimiento de la camara (paneo e inclinacion) para determinar el cambio esperado de posicion en la imagen, mientras la cantidad de zoom tiene influencia en el tamano esperado del objeto. Esto conduce a una prediccion mas precisa del algoritmo de seguimiento, que aumenta el tiempo de procesamiento de todo el metodo de seguimiento.

Los parametros de camara tenidos en cuenta en la etapa de compensacion o correccion de la funcion de seguimiento son bien

• parametros de camara determinados por una etapa de calibrado de la camara realizada para el mismo fotograma de video para el cual se realiza el seguimiento, o

• parametros de camara determinados por una etapa de calibrado de la camara realizada para uno o mas fotogramas de video previos.

En el primer caso, la etapa de seguimiento tiene que esperar a que se complete el calibrado de la camara, en el segundo caso, las etapas de seguimiento y calibrado pueden realizarse en paralelo. En el segundo caso, los parametros de camara opcionalmente pueden extrapolarse, por ejemplo, por interpolacion lineal o de mayor orden de dos o mas conjuntos anteriores de parametros de camara.

En una variante preferente adicional de la invencion, para inicializar identificaciones de objeto, se realizan las siguientes etapas:

• un usuario selecciona, en una primera imagen estatica del primero de los flujos de video, un objeto y asigna a este un identificador unico; y

• determinar automaticamente, en otra imagen estatica de al menos otro flujo de video, un objeto cuya identidad es la misma.

Esta "asistencia de identificacion automatica" reduce el trabajo de identificar cada objeto en cada uno de los conjuntos de imagenes estaticas (uno para cada flujo de video, y bajo la condicion previa de que todas las imagenes se toman en el mismo momento). Identificar un objeto en una imagen significa que un objeto, como se ve en una imagen, esta asociado con ser un "arbitro" o una "pelota" o el "jugador Vroomfondel" u otro jugador, etc. Idealmente, la identificacion de un objeto puede realizarse clicando sobre (o seleccionando de otra manera) un objeto solo en una de las imagenes estaticas. Suponiendo que todos los objetos estan localizados a nivel del campo de juego, la posicion 3D del objeto seleccionado en el campo de juego se determina intersecando el vector que apunta desde la camara hacia la posicion del objeto, segun se ve por la camara, con el plano del campo de juego. Cuando no se supone que los objetos estan localizados al nivel del suelo, el punto 3D mas cercano a todos los citados vectores puede calcularse como la posicion del objeto. Desde esta posicion, se calcula la posicion esperada en el otro video estatico. Para cada uno de los otros videos estaticos, si un objeto esta en la posicion esperada, entonces su identidad se ajusta para que sea la misma que la del objeto en la primera imagen estatica. El sistema preferiblemente muestra la otra imagen estatica que incorpora una representacion visual de dicha identidad y permite al usuario confirmar o rechazar la asociacion con dicha identidad. Los casos en los que los objetos se solapan en una o mas imagenes estaticas, en ocasiones pueden detectarse automaticamente, por ejemplo si el area total, la forma o el histograma de color etc., no es como se esperaba. En tales casos, se informa al usuario y la identidad del objeto en la imagen respectiva se ajusta manualmente. En otros casos, puede ser necesario identificar el objeto en otro fotograma del mismo flujo de video, en el cual en dicho otro fotograma el objeto es mas facil de separar de los otros objetos.

Puede darse una situacion en la cual un objeto, tfpicamente un jugador, no es visible en ninguna de las entradas de video y, de esta manera, no se puede realizar su seguimiento nunca mas. Como resultado, cuando el objeto reaparece en uno de los flujos de video, su identidad ya no se reconoce. En este caso, el sistema realiza las etapas de:

• alertar al usuario de la presencia de un objeto movil no identificado; y

• permitir al usuario asociar un identificador con el objeto.

La etapa de detectar un objeto movil comprende detectar la presencia de movimiento significativo entre fotogramas (compensando los cambios en los parametros de camara, como se ha esbozado anteriormente), descontando objetos que ya se han seguido, las areas restantes de movimiento pueden corresponder al objeto de reentrada. Despues de superar un umbral predeterminado respecto al tamano del objeto y, por ejemplo, criterios de coincidencia con un modelo estadfstico del conjunto de objetos conocidos, se indica al usuario la presencia del objeto.

En otra variante preferente de la invencion, no es necesario mantener la identidad completa de un objeto, es decir, no es importante conocer que el objeto X representa al "jugador Vroomfondel". Es suficiente con saber que el objeto es de una categorfa particular, por ejemplo, un jugador del equipo A, que puede determinarse automaticamente a partir de los colores del objeto o simplemente un jugador. Para este escenario, un objeto movil identificado preferiblemente se asocia automaticamente con un identificador unico generado por el sistema. Esto permite generar una reconstruccion y representacion 3D continua, sin intervencion manual.

En el transcurso del seguimiento del movimiento, los objetos comunmente se asocian con "cuadros delimitadores", que son areas de pfxeles rectangulares en las cuales se sabe o se espera que este situado el objeto. En un sentido mas general, un cuadro delimitador puede reemplazarse por una silueta de forma diferente alrededor del objeto. Los cuadros delimitadores (o siluetas) preferiblemente se generan por seguimiento y refinado mediante la ultima etapa de segmentacion, como se explica mas adelante.

Alternativamente, en una realizacion preferente adicional de la invencion, una o mas camaras de vision general se situan para cubrir siempre todo el campo de juego. No se mueven y no utilizan zoom. La vista desde esas camaras permite seguir todos los objetos, siempre y cuando no dejen el campo, y elimina la necesidad de identificar objetos cuya identidad se ha perdido. Esta camara puede ser una camara de menor coste que las camaras usadas para generar las imagenes de TV que finalmente se difunden.

La etapa de localizar la posicion de los objetos moviles puede conseguirse tambien o estar asistida por la incorporacion de uno o mas transpondedores de RF (radiofrecuencia) en los objetos, y midiendo sus posiciones con el sistema de localizacion RF. De esta manera, la identidad y posicion del objeto se conocen con precision en cada momento temporal.

En una variante preferente de la invencion, los objetos se clasifican como pertenecientes a una de al menos dos categorfas. Las categorfas preferiblemente estan basadas en un modelo estadfstico, tal como un modelo mixto gaussiano, y comprenden al menos dos del primer equipo, segundo equipo, portero del primer equipo, portero del segundo equipo, pelota y arbitro. Los parametros incorporados por el modelo estadfstico preferiblemente son el color o colores de los objetos. Se sabe por ejemplo que el Equipo A viste de un primer conjunto de colores, el Equipo B de un segundo conjunto, los porteros de los equipos tienen diferentes colores que los de ambos equipos, y que el arbitro predominantemente viste de negro u otro color, y el verde de fondo, blanco y una diversidad de otros colores (color del cesped, marcas, postes de gol y espectadores). De esta manera, la imagen se segmenta no solo separando los objetos del fondo, sino que los objetos se clasifican en diferentes conjuntos. El modelo estadfstico preferiblemente se genera a partir de una imagen estatica de una camara y despues se aplica a los flujos de video de todas las camaras. El modelo estadfstico se genera, para cada categorfa de objetos, cuando el usuario mueve, mediante un dispositivo senalador, una marca de referencia a lo largo de una trayectoria sobre una diversidad de puntos que pertenecen a dicha categorfa. Los colores de los puntos en dicha trayectoria forman una muestra que representa dicha categorfa en la generacion del modelo estadfstico.

Cuando se segmentan los fotogramas de video en cada una de las entradas de video, la separacion de los objetos del fondo y la distincion entre si comprende preferiblemente la etapa de

• usar un canal alfa coincidente para asignar, a cada elemento de la imagen o pixel, un valor que expresa la probabilidad con la cual el pixel es parte de un objeto o parte del fondo.

Tal valor se conoce como valor Alfa, y se almacena por ejemplo como informacion del canal alfa asociada con la imagen o flujo. Como resultado, no hay lfmites estrictos (binarios) alrededor de los objetos, lo que mejora la calidad de las etapas de renderizacion posteriores en las que las imagenes de objetos se combinan y/o mapean sobre una superficie 3D.

En una realizacion preferente adicional de la invencion, la etapa de segmentacion comprende, despues de recortar los objetos del fondo, llenar los huecos correspondientes que quedan en el fondo mediante restauracion de la imagen, vease por ejemplo "View Interpolation for Image Synthesis", Chen y Williams, ACM SIGGRAPH 1993, pags. 279-288. Tales elementos de imagen restaurada se marcan como datos de imagen sinteticos. Esto se realiza ajustando un bit correspondiente para cada pixel restaurado en la imagen rellena o asociando la entrada de video con un canal adicional que comprende dicha informacion de marcado. Esta informacion adicional permite, en un momento posterior en el metodo inventivo, ignorar los datos de imagen sinteticos para elementos de imagen para los cuales estan disponibles datos de imagen reales.

Por favor, observese que los terminos "vista sintetica", "sfntesis de imagen", etc., a diferencia de "datos de imagen sinteticos", se refieren a algo diferente, en concreto a las imagenes virtuales o vistas virtuales de una escena 3D que se generan de acuerdo con la invencion, y que estan basadas tanto en datos de imagen reales como en datos de imagen sinteticos.

De esta manera, "los datos de imagen reales" relacionados con una localizacion de superficie o parche de superficie en la escena 3D tfpicamente es informacion de imagen a partir de uno o mas flujos de video que procede de la observacion de este parche en el instante de tiempo en el que se representa. En cambio, los "datos de imagen sinteticos" son informacion de imagen generada, por ejemplo, al

- restaurar una imagen mediante tecnicas 2D, tal como llenar un hueco, comenzando en el lfmite, con colores o disenos encontrados en el lfmite;

- usar datos de imagen procedentes del mismo parche de superficie pero obtenidos a partir de un flujo de video en otro instante de tiempo;

- usar datos de imagen procedentes del mismo parche de superficie pero obtenidos de otro flujo de video (en el mismo o en otro instante de tiempo);

- usar datos de imagen obtenidos de un flujo de video en el mismo instante de tiempo pero procedentes de otro parche de superficie;

- restaurar una imagen mediante tecnicas 3D, tal como llenar un hueco con disenos de la escena que rodean el hueco mientras se considera la localizacion 3D de los parches de superficie llenos y usados para el llenado.

Preferiblemente, la etapa de segmentacion comprende la etapa de refinar la posicion y dimensiones de los cuadros delimitadores. Esto significa que los cuadros alrededor de los objetos, cuando estos se producen por el seguimiento del objeto, se adaptan de acuerdo con la informacion de segmentacion: Esto tiene sentido puesto que la calidad de los algoritmos de seguimiento convencionales esta limitada en tanto que los cuadros de delimitacion que crean alrededor de objetos moviles a menudo tienden a quedar detras de la posicion real del objeto o tienden a aumentar de tamano. Por lo tanto, el cuadro delimitador esta adaptado para contener el objeto despues de la segmentacion de la imagen. La posicion del objeto, que preferiblemente esta definida como la parte media inferior (o alternativamente, una predeterminada de las esquinas del cuadro delimitador) en consecuencia se adapta tambien.

En una variante preferente de la invencion, se proporciona una vista sintetizada que muestra la escena desde un punto de vista virtual que es distinto de las posiciones de las camaras reales. Esta comprende las etapas de:

• proporcionar parametros de camara de una camara virtual;

• determinar una imagen de fondo como vista por la camara virtual;

• determinar una proyeccion de cada uno de los objetos en la camara virtual y superponerlos en la imagen de fondo;

• producir o almacenar la imagen combinada para almacenamiento o para procesamiento adicional.

Como resultado, se mantiene y actualiza dinamicamente una representacion 3D global de toda la escena, basandose en la entrada de los flujos de video. La informacion de video o imagen a partir de los flujos de video se renderiza en la representacion 3D, permitiendo generar imagenes desde los puntos de vista que difieren de las localizaciones ffsicas reales de las camaras que proporcionan las entradas de video de origen. Esto esta en contraste con la tecnica anterior, donde solo se colocan rectangulos aislados en el espacio 3D y se mapea la textura de las imagenes en estos rectangulos, pero sin considerar la cancha y los objetos de fondo restantes.

En este punto y en el resto de la solicitud, el termino "textura" significa datos de imagen o dibujo de la superficie de un objeto real (o, alternativamente, de uno generado por ordenador). Los datos de textura, por ejemplo, se observan mediante una o mas camaras o se recuperan de una base de datos, y pueden transformarse geometricamente y renderizarse mapeandolos sobre la superficie de un objeto en el modelo 3D. En una variante preferente adicional de la invencion, la etapa de determinar una imagen de fondo como se ve por la camara virtual comprende las etapas de

• mezclar, para cada elemento de la imagen de fondo, la informacion de imagen de los diferentes flujos de video que corresponden a la misma localizacion de fondo;

• dar prioridad a la informacion de imagen que no esta marcada como datos de imagen sinteticos; y

• renderizar la informacion de imagen sobre un modelo de fondo que comprende una o mas superficies que representan el fondo, es decir, objetos de fondo.

Como resultado, siempre y cuando esten disponibles datos de imagen reales, el fondo, se colorea con una combinacion de colores de los datos reales disponibles, puesto que a los datos reales se les da prioridad sobre los datos sinteticos. Solo cuando no estan disponibles datos reales, el fondo en el modelo 3D se colorea con datos sinteticos de uno o mas de los fondos de las diferentes entradas de video despues de la segmentacion.

En una variante preferente de la invencion, la superficie que representa el fondo es una superficie que representa el campo de juego o cancha y, opcionalmente, tambien comprende superficies que representan un modelo de entorno, almacenado por ejemplo, en un modulo de datos de entorno. El modelo de entorno puede ser un simple modelo generico que se aplica a cualquier entorno, o un modelo de entorno derivado de datos CAD del entorno real. En otra variante preferente de la invencion, la etapa de terminar una imagen de fondo como se ve por la camara virtual comprende ademas renderizar datos de imagen predeterminados en el modelo de fondo, superponerlos sobre o reemplazar la informacion de imagen proporcionada por los flujos de video.

En otra variante preferente de la invencion, la etapa de determinar una proyeccion de cada uno de los objetos en la camara virtual comprende las etapas de determinar la posicion y orientacion de un objeto de renderizacion, y despues renderizar la informacion de video extrafda de las diferentes entradas de video y asociada con este objeto sobre el objeto de renderizacion.

En una realizacion preferente de la invencion, el objeto de renderizacion es lo que se denomina valla publicitaria, es decir, un plano vertical situado en la cancha. El tamano y orientacion de la valla publicitaria se determina de acuerdo con el cuadro delimitador para este objeto a partir de una de las entradas de video. La localizacion de la valla publicitaria esta definida por la posicion 3D calculada del objeto descrito anteriormente. La posicion 3D se combina entonces con la proyeccion del cuadro delimitador para producir cuatro vertices 3D de un rectangulo tridimensional. Para ello, la normal del rectangulo es igual al eje optico o normal al plano de vista definido por la camara real desde la cual se origino el cuadro delimitador, o por la camara virtual. En el primer caso, pueden usarse multiples vallas publicitarias para cada objeto, cada una de las cuales corresponde a una camara real. La imagen renderizada final esta compuesta de una combinacion de las imagenes renderizadas sobre estas multiples vallas publicitarias. La combinacion se controla dependiendo de la localizacion de la camara virtual.

En otra variante preferente de la invencion, las vallas publicitarias se aumentan con un campo de altura que define la geometrfa aproximada del objeto. Es decir, se determinan campos de altura a partir de dos o mas vistas de camaras reales, por ejemplo, mediante forma a partir de siluetas o forma a partir de metodos estereo, como se describe por ejemplo en "Multiple View Geometry in Computer Vision", Richard Hartley y Andrew Zisserman, Cambridge University Press, 2000. Estos campos de altura se usan despues preferiblemente para mejorar la calidad final de renderizacion del objeto. Las vallas publicitarias pueden aumentarse tambien usando mapas de desplazamiento que representan detalles mas finos de la geometrfa del objeto. Esto ultimo es util para una renderizacion mas rapida.

En una variante preferente adicional de la invencion, la superposicion en la camara virtual de la proyeccion de los objetos y la imagen de fondo se realiza mediante combinacion alfa. Los valores en los canales alfa de las vallas publicitarias de objetos se usan entonces directamente o se ponderan adicionalmente basandose en la similitud de angulo, resolucion o campo de vision entre las caracterfsticas opticas de las camaras reales y la camara virtual.

Los metodos para

• usar una representacion de un elemento de referencia en una representacion esquematica de la cancha para identificar elementos de referencia;

• ajustar la posicion de un elemento de referencia a la posicion de uno de los elementos extrafdos en el proceso de identificacion del elemento de referencia;

• seguimiento de la compensacion y correccion segun parametros de camara cambiantes;

• asistencia de identificacion automatica;

• alertar al usuario de la presencia de un objeto no identificado;

• clasificar elementos de imagen como pertenecientes al fondo o de una de al menos dos categorfas de objetos;

• usar coincidencia de canal alfa;

• marcar elementos de imagen restaurados como datos de imagen sinteticos;

• restaurar imagen por tecnicas 3D;

• refinar la posicion y dimensiones de los cuadros delimitadores alrededor de los objetos basandose en los resultados de la segmentacion;

• renderizar informacion de video sobre un modelo de fondo 3D;

pueden implementarse tambien, cada uno de ellos, en principio, en un sistema que no incorpora el seguimiento del movimiento de objetos en los al menos dos flujos de video usando informacion de posicion derivada de la posicion 3D de los objetos.

El sistema de acuerdo con la invencion comprende un modulo de adquisicion de datos provisto de flujos de video de una entidad de produccion, y comprende ademas un modulo de calibrado de camara, un modulo de seguimiento 2D, un modulo de identificacion de objetos, un modulo de fusion 3D y calculo de posicion de objeto 3D, y, preferiblemente, un modulo de recortado de objetos y un modulo de sfntesis de imagen que proporciona datos de video a un consumidor.

Un producto de programa informatico para generar una representacion 3D de una escena 3D dinamicamente cambiante segun la invencion puede cargarse en una memoria interna de un ordenador digital, y comprende medios de codigo de programa informatico para hacer, cuando dichos medios de codigo de programa informatico se cargan en el ordenador, que el ordenador ejecute el metodo segun la invencion. En una realizacion preferente de la invencion, el producto de programa informatico comprende un medio legible por ordenador, que tiene un medio de codigo de programa informatico registrado en el mismo.

Son evidentes otras realizaciones preferentes a partir de las reivindicaciones dependientes de la patente. Las caracterfsticas de las reivindicaciones del metodo pueden combinarse con caracterfsticas de las reivindicaciones del sistema y viceversa.

Breve descripcion de los dibujos

El objeto de la invencion se explicara con mayor detalle en el siguiente texto con referencia a las realizaciones ejemplares preferentes que se ilustran en los dibujos adjuntos, en los que:

la Figura 1 muestra esquematicamente una vista general de la estructura de un sistema y metodo de acuerdo con la invencion;

la Figura 2 muestra esquematicamente imagenes usadas en la fase de interaccion del usuario del metodo de calibrado;

la Figura 3 muestra esquematicamente imagenes que ilustran el metodo de seguimiento;

la Figura 4 muestra esquematicamente una situacion en la que dos (o mas) objetos colisionan como proyecciones 2D en imagenes de video de una camara pero no en las de otra camara; la Figura 5 muestra esquematicamente una realizacion de una estructura de tamano y posicion de un objeto 2D, un cuadro delimitador;

la Figura 6 ilustra esquematicamente el refinado del cuadro delimitador;

la Figura 7 muestra una vista global esquematica del sistema inventivo con dispositivos perifericos;

la Figura 8 muestra esquematicamente imagenes con un hueco para llenar y un hueco con una marca que pasa a traves del mismo;

la Figura 9 muestra esquematicamente un cfrculo proyectado y la rotacion de parches;

la Figura 10 muestra esquematicamente una proyeccion en perspectiva de una marca y la asignacion por pfxeles para una marca;

la Figura 11 muestra esquematicamente un modelo de entorno 3D; y

la Figura 12 muestra una imagen reconstruida generada segun la invencion.

Los sfmbolos de referencia usados en los dibujos y sus significados, se indican de forma resumida en la lista de sfmbolos de referencia. En principio, a las partes identicas se les proporcionan los mismos sfmbolos de referencia en las figuras.

Descripcion detallada de las realizaciones preferentes

La Figura 1 muestra esquematicamente una vista general de un sistema 100 y el metodo correspondiente con componentes de sistema y submetodos correspondientes. Los componentes estan unidos mediante interfaces, es decir, entradas y salidas de datos. De esta manera, la figura muestra, por un lado, los componentes o modulos y el flujo de datos principal entre estos modulos. Por otro lado, los modulos corresponden a etapas de metodo del metodo implementado por el sistema. Por lo tanto, los modulos se denominaran tambien metodos, dependiendo del contexto.

El sistema 100 y sus componentes pueden implementarse mediante modulos de software y/o modulos de hardware especializado, dependiendo de los requisitos de procesamiento real de los componentes individuales. De esta manera, el sistema 100 puede implementarse en un dispositivo de procesamiento de datos de proposito general, u ordenador que comprenda una unidad de procesamiento, una unidad de almacenamiento de datos y dispositivos de entrada/salida tales como una pantalla, teclado, dispositivo senalador e interfaces de comunicacion de datos.

El sistema comprende un modulo de adquisicion de datos 102 provisto de flujos de video de una entidad de produccion 101, y comprende ademas un modulo de calibrado de camara 103, un modulo de seguimiento 2D 104, un modulo de identificacion de objetos 105, un modulo de recortado de objetos 106, un modulo de fusion 3D y calculo de posicion de objeto 3D 107, y un modulo de sfntesis de imagenes 108 que proporciona datos de video a un consumidor 109. El sistema 100 puede comprender ademas, o estar relacionado con, un modelo de datos de recursos 110 y un modulo de datos del entorno 113. Los diferentes tipos de datos que fluyen a traves de las interfaces entre los modulos se muestran en la lista de designaciones.

En la Figura 1, la secuencia muestra, de arriba abajo, la direccion de avance del procesamiento de la informacion (con la etapa de calibrado de camara 103 precediendo a la etapa de seguimiento 2D 104, y cada una de las otras etapas precediendo a las etapas mostradas a continuacion de las mismas). De esta manera, se considera que una etapa es una etapa posterior de cualquier etapa que la preceda en el orden mostrado. La flecha que surge del calculo de la posicion del objeto 3D 107 denota la posicion del objeto 3D 130, que es proporcionada a las etapas precedentes tales como el modulo de seguimiento 2D 104 y/o el modulo de identificacion de objetos 105. De esta manera, la posicion del objeto 3D 130 constituye una retroalimentacion de informacion, que fluye contra la direccion comunmente implementada del procesamiento de informacion. La invencion, en una realizacion preferente, funciona de la siguiente manera: se producen 101 dos o mas flujos de video 120 y se proporcionan en tiempo real al sistema 100. Normalmente, la entrada se proporciona mediante cables de hardware y los datos en su interior en el formato SDI (Interfaz Digital en Serie), un sistema que se usa habitualmente por los productores de television en el sitio de produccion para transporte de video. El formato o hardware no es esencial para la invencion y puede diferir en otras realizaciones.

En una primera etapa, un metodo de adquisicion de datos 102 usa un componente de hardware preferiblemente comercial, que captura (digitaliza) estos dos o mas flujos de video 120 en una memoria interna del ordenador. Este metodo puede convertir adicionalmente el formato de los datos en RGB o YUV u otro formato de representacion de imagenes para procesamiento adicional. Adicionalmente, una etapa opcional de este metodo comprende un metodo de desentrelazado usando metodos convencionales, vease "De-Interlacing: A Key Technology for Scan Rate Conversion", Bellars y De Haan, Elsevier, 2000. La salida del metodo 102 es datos de textura de color 121 digitalizados de todos los flujos de video entrantes para todos los fotogramas.

Despues, se usa el metodo de calibrado de camara 103 para determinar cada posicion de la camara, orientacion y parametros internos 122 que se usan en otros metodos. La Figura 2 muestra una vista esquematica de la interaccion del usuario usada para inicializar o corregir, en caso de fallo, el metodo de calibrado. En el fotograma de cada entrada de video correspondiente a un tiempo de inicializacion (por ejemplo, t_inic), el usuario identifica elementos que pueden ser localizaciones 2D exactas 203a, b, lfneas 203c, cfrculos 203d u otros elementos conocidos. Este proceso es asistido por un metodo de "seleccion" que identifica elementos de imagen tales como, lfneas o cfrculos usando metodos conocidos, como puede obtenerse, por ejemplo, de la "biblioteca de vision por ordenador de codigo abierto" en http://www.intel.com/technoloav/computina/opencv/.

Cuando el dispositivo de entrada de usuario (puntero del raton) esta cerca de uno de estos elementos, este "selecciona" dicho elemento cambiando su posicion en el elemento en la imagen. Despues de haber seleccionado (clicando, pulsando una tecla, etc.) el elemento 203a-d en la imagen de video 201, el usuario selecciona el elemento 204a-d correspondiente de la vista esquematica 202. Despues de haber seleccionado algunos elementos 203a-d y su correspondiente representacion esquematica 204a-d, un algoritmo de calculo de calibrado, por ejemplo como en "A flexible new technique for camera calibration", Z. Zhang, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11): 1330-1334, 2000, calcula la posicion, orientacion y parametros internos de la camara para este mismo fotograma, conocido como informacion de calibrado. Estas etapas se llevan a cabo para cada fotograma de inicializacion de la camara en el momento t_inic.

Para fotogramas posteriores (en el momento t(k) = t_inic+1, t_inic+2,...) y para cada flujo de video, el metodo de calibrado sigue automaticamente los elementos identificados en la imagen 2D usando un algoritmo de seguimiento, por ejemplo "Condensation - conditional density propagation for visual tracking", Isard y Blake, International Journal of Computer Vision, 29, 1, 5-28, 1998.

En paralelo, o despues del metodo de calibrado 103, el metodo de seguimiento 104 usa los datos de textura de color 121 digitalizados, los datos de calibrado de la camara de las etapas 131 actuales y/o (dependiendo de si es en paralelo o no) previas, y la posicion del objeto 3D extrapolada 131 para determinar la forma y posicion 2D 123 de todos los objetos visibles en cada conjunto de datos de textura de color 121.

En el fotograma de inicializacion en t_inic, el usuario preferiblemente especifica la localizacion de los objetos en cada imagen de video de todas las camaras. Puede usarse un metodo automatico para proponer candidatos para este proceso. En una realizacion preferente del metodo, el usuario especifica un rectangulo 2D, lo que se denomina cuadro delimitador 501, usando el dispositivo de entrada de raton y/o el teclado. Este rectangulo 501 puede cambiarse por pfxeles en posicion 509 y tamano (anchura 510 y altura 511) usando el raton y/o teclado en cualquier momento posterior. En otra realizacion preferente, el usuario clica/apunta sobre cada objeto y un metodo automatizado determina el cuadro delimitador 501 u otra indicacion de la forma (semi)automaticamente. Esto puede realizarse usando un metodo similar al usado en el metodo de refinado del metodo 106 de recortado de objetos, descrito mas adelante de forma adicional.

Para otros fotogramas, el metodo de seguimiento funciona automaticamente. Basicamente, los metodos de seguimiento aplicables (tambien en tiempo real), por ejemplo, "Condensation - conditional density propagation for visual tracking", Isard y Blake, International Journal of Computer Vision, 29, 1, 5-28, 1998, funcionan de la siguiente manera:

1. Extrapolar el estado 2D del objeto en la imagen basandose en estados previos.

2. Buscar los alrededores de esta posicion 2D extrapolada comparando los elementos de la muestra de busqueda con los elementos del objeto. Tal comparacion del elemento de muestra puede basarse en un histograma de color, un modelo mixto gaussiano o modelos similares ("Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000).

3. Seleccionar una o mas de las muestras de busqueda como el estado actual.

La Figura 3 muestra esquematicamente nuestro metodo de seguimiento mejorado descrito en la presente memoria. A partir del metodo de calculo de posicion del objeto 3D 107, el metodo de calibrado 103 consigue la posicion del objeto 3D extrapolada de todos los objetos. Esta extrapolacion se realiza en el modelo 3D de la escena 303, donde por ejemplo la posicion 3D del fotograma anterior 331 a,b y del fotograma antes del fotograma anterior 330a,b, se usan para extrapolar la posicion del objeto 3D en el fotograma actual 332a,b, basandose en un esquema de interpolacion lineal o de mayor orden.

Observese que la Figura 3 no representa un unico fotograma de video, sino que muestra la posicion de los objetos 310a,b, 312a,b ... superpuestos de dos fotogramas diferentes con fines de explicacion. Un flujo de video real mostrarfa, en un primer fotograma, los objetos 310a y 310b y, en un fotograma posterior, los objetos 311a, 311b. Los objetos corresponden, en un fotograma de video actual, a segmentos de imagen determinados por seguimiento y segmentacion, como se describe mas adelante.

Los algoritmos de seguimiento del estado de la tecnica solo siguen un objeto en una unica secuencia de video, permaneciendo de esta manera en el espacio de imagen 2D. Las trayectorias 2D del objeto seguido basadas solo en las posiciones 2D seguidas se representan como lfneas con flechas 311a,b para los objetos A y B, dando como resultado una esperada posicion 2D 312a,b en el fotograma previo 301, donde otro algoritmo de seguimiento empezarfa a buscar el objeto.

En nuestro caso, no se espera que las camaras esten fijas, de esta manera, pueden cambiar su orientacion y parametros internos (tal como el zoom) con el tiempo, dando como resultado una vista diferente de la escena en el momento actual (fotograma 302) que previamente (fotograma 301). Cuando solo se tienen en cuenta las posiciones 2D resultantes de otro algoritmo de seguimiento, la busqueda del metodo de seguimiento empezara en las mismas posiciones 2D 321a,b que las mostradas en el fotograma previo 312a,b. Usando los datos de calibrado reales o extrapolados 131 del metodo de calibrado 103 y la posicion del objeto 3D extrapolada 130 del metodo de calculo de la posicion del objeto 3D 107, se calculan las posiciones 2D de las proyecciones 3D extrapoladas y las posiciones 320a,b en la imagen real. Esto no solo afecta a la posicion 2D de la estimacion del objeto, sino tambien al tamano o forma del objeto en la imagen de video. De esta manera, la etapa de busqueda de seguimiento comenzara con una estimacion de forma y posicion 2D mejoradas, dando como resultado un menor espacio de busqueda que reduce el esfuerzo computacional del metodo de seguimiento.

Otra mejora del metodo de seguimiento es que los objetos que entran o salen del area visible de la camara pueden detectarse facilmente si se conoce su posicion 3D. Proyectando las posiciones del objeto 3D extrapoladas 130 de todos los objetos en la imagen 2D, deben considerarse todas las posiciones 2D situadas dentro de los lfmites del fotograma durante el seguimiento. Esto puede realizarlo automaticamente el metodo o puede estar asistido por el usuario, segun las circunstancias y la informacion de video disponible.

Otra mejora del metodo de seguimiento es la gestion de colisiones de objetos en el espacio de la imagen 2D, como se muestra esquematicamente en la Figura 4. En la vista esquematica de la escena 403, las posiciones 3D de los objetos A, B se muestran para un momento previo t(k-1) 430a,b y para el tiempo actual t(k) 431a,b. Puede verse la misma situacion en la vista 401 desde una camara con ambos objetos 411a,b colisionando en 2D, mientras que la misma situacion desde la vista 402 de otra camara no muestra colision de los objetos 421a,b. Esto conduce a dos tipos adicionales de informacion para el metodo de seguimiento:

1. El metodo de seguimiento puede usar la informacion de que dos o mas objetos colisionan en una cierta vista 401 y, de esta manera, sabe que hay dos o mas objetos aunque unicamente "un objeto" es reconocible desde la vista 2D en solitario.

2. El metodo de seguimiento puede mantener facilmente el seguimiento de los objetos despues de una colision, puesto que sabe donde estan localizados los objetos o se espera que esten en un espacio 3D y, por lo tanto, tambien en la vista 2D y, de esta manera, continuara el seguimiento de cada objeto individualmente y correctamente.

Finalmente, el metodo de seguimiento determina la forma y posicion del objeto en 2D 123 para todos los objetos visibles en todos los fotogramas de todas las camaras, y se las proporciona al modulo de identificacion de objetos 105.

Despues del metodo de seguimiento, el metodo de identificacion de objetos 105 asocia, para cada objeto visible en cada flujo de video, la forma y posicion 2D del objeto en los datos de textura de color 123 con un objeto real (por ejemplo, jugadores, porteros, arbitros, pelota, etc.) basandose en los datos de calibrado de la camara 122, la informacion sobre objetos 132 del mundo real contenidos en un modulo de datos de recursos (o simplemente "recurso") 110, y posiblemente tambien la posicion del objeto 3D extrapolada 130 y la forma y posicion 2D 123 para esencialmente todos los objetos en todos los fotogramas de todas las camaras proporcionados por el metodo de seguimiento 104. En este punto y en cualquier otro, "todos" significa "esencialmente todos", es decir, sin defectos o entidades patologicas o que funcionen mal (objetos, camaras). En el transcurso de la inicializacion para el fotograma en el momento t_inic, el usuario asocia cada informacion de forma y posicion 2D 123 de una camara con un objeto 132 del mundo real especffico, que son todos conocidos previamente (nombres de jugadores, nombres de los porteros, arbitros, pelota, etc.) desde el recurso 110. Para los otros fotogramas de camara en el momento t_inic, el metodo de identificacion de objetos preferiblemente sugiere de manera automatica la identificacion (por ejemplo un nombre) llevando a cabo las siguientes etapas:

1. Para todos los objetos identificados

a. Calcular una aproximacion de la posicion 3D (usando la suposicion a nivel de suelo como se describe en el metodo de calculo de la posicion 3D 107) si no hay posicion 3D disponible por extrapolacion 130. b. Calcular una posicion 2D proyectando dicha posicion 3D en cada imagen de fotograma de la camara usando los datos de calibrado 122.

c. Para todas dichas posiciones 2D dentro del lfmite del fotograma de la camara respectiva

i. Determinar la informacion de forma y posicion 2D 123 que esta localizada cerca de dicha posicion 2D.

ii. Si solo hay una posicion 2D dentro de algun umbral definido por el usuario respecto a la distancia, esta informacion de forma y posicion 2D 123 esta asociada con el objeto del mundo real asociado con dicho objeto identificado.

iii. Si hay mas de una posicion 2D dentro de dicho umbral, presentar al usuario una lista ordenada por la distancia desde la cual puede seleccionar activamente a mano la segunda o mas distante. En caso de que no haya accion por parte del usuario, permanece seleccionada la primera. Asociar la correspondiente informacion de forma y posicion 2D 123 con el objeto de mundo real asociado con dicho objeto seleccionado.

d. Para todas las formas y posiciones 2D de cada camara que no se hayan asociado con un objeto del mundo real en una de las etapas previas, determinar una lista de posibles candidatos

i. Eliminando aquellos objetos del mundo real que ya esten asociados con informacion de forma y posicion 2D 123 en dicho fotograma de la camara.

ii. Ordenando los candidatos restantes aumentando la distancia de la proyeccion 2D desde su posicion 3D en la imagen (como en 1b).

iii. Los objetos cuya posicion 3D aun no es calculable se colocan en la parte delantera o trasera de la lista, dependiendo de los ajustes del usuario.

Para todos los fotogramas posteriores, el metodo de identificacion de objetos lleva a cabo las siguientes etapas:

1. Si la informacion de forma y posicion del objeto 2D 123 ya se ha identificado y asociado en el fotograma previo, usar la informacion 132 correspondiente de nuevo.

2. Si la informacion de forma y posicion del objeto 2D 123 no se ha identificado en la etapa previa del metodo del seguimiento, llevar a cabo las mismas etapas que durante el fotograma de inicializacion para objetos no identificados.

3. Si la informacion sobre la forma y posicion del objeto 2D 123 aun no se ha asociado con una informacion del objeto 132 del mundo real, marcar los fotogramas que requieren la interaccion del usuario.

4. Para todos los fotogramas, donde se ha encontrado una identificacion no ambigua de toda la informacion sobre forma y posicion del objeto 2D 123 proporcionada por el metodo de seguimiento 104, marcar dicho fotograma como realizado y que no requiere interaccion adicional del usuario.

El usuario asocia despues manualmente la informacion sobre forma y posicion del objeto 2D 123 en todos los fotogramas marcados segun requieran interaccion del usuario usando las listas de posibles candidatos hasta que todos los fotogramas contengan una identificacion no ambigua de toda la informacion de forma y posicion del objeto 2D 123.

El metodo de identificacion de objetos 105 da como resultado una forma y posicion del objeto 2D y la identificacion 124 del objeto para todas las formas y posiciones del objeto 2D encontradas en el metodo de seguimiento 104 en todos los fotogramas de todos los flujos de video.

Los datos proporcionados por la adquisicion de datos 102 y la identificacion de objetos 105, en concreto los datos de textura de color 121 y la forma y posicion del objeto 2D incluyendo la identificacion de objetos 124 se introducen en el metodo de recortado de objetos 106.

Este metodo calcula una segmentacion o recorte de los datos de textura de color dentro del area definida por la posicion y tamano del objeto entre los pfxeles (objeto) de primer plano y los pfxeles de fondo, lo que se denomina mascara alfa. De esta manera, una salida del metodo de recortado de objetos son los datos de textura del objeto asociados con una mascara alfa 126.

La Figura 5 muestra esquematicamente una realizacion de una estructura de tamano y posicion del objeto 2D, en un cuadro delimitador 501. Representa tambien la diferencia entre el primer plano 502 y el fondo 503 de los valores 505 de la mascara alfa resultantes del metodo de recorte o segmentacion.

Si el cuadro delimitador 501 no contiene todo el objeto o interseca el cuadro delimitador, dicho cuadro delimitador 501 puede suponerse a priori o estar definido por un usuario, el cuadro delimitador puede ampliarse en un cierto tamano, ya sea por el usuario, por un valor fijo, o por un procedimiento automatico que analiza el cuadro delimitador 501.

En este metodo, los objetos se clasifican en primer lugar de acuerdo con al menos dos categorfas. Las categorfas preferiblemente estan basadas en modelos de elementos estadfsticos, tales como un histograma, un modelo mixto gaussiano, o metodos similares ("Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000). Los elementos preferibles incluyen, aunque sin limitacion, colores o bordes. Antes del procesamiento, el modelo estadfstico para todas las categorfas de objetos se construye usando imagenes estaticas de una o mas camaras y despues se aplica a los flujos de video de todas las camaras. El modelo estadfstico se genera, para cada categorfa de objetos, moviendo el usuario, mediante un dispositivo senalador, una marca de referencia a lo largo de una trayectoria sobre una diversidad de puntos que pertenecen a dicha categorfa. Los elementos de los puntos de dicha trayectoria forman una muestra que representa dicha categorfa en la generacion del modelo estadfstico. Para cada categorfa de objetos, la marca de referencia etiqueta los puntos o los elementos de imagen (pfxeles) como pertenecientes al fondo o al primer plano. El usuario marca el fondo preferiblemente para pfxeles fuera del cuadro delimitador 501 y dentro del cuadro delimitador 501 pero en regiones en las que el fondo es realmente visible. El usuario marca el fondo para las partes dentro del cuadro delimitador en regiones que pertenecen al primer plano. Preferiblemente, el modelo se genera usando una o multiples imagenes de entrada102.

Posteriormente, se genera el modelo usando los metodos apropiados para los modelos usados, por ejemplo mediante agrupamiento k-means o metodos de Expectacion-Maximizacion, vease, "Pattern Classification", Duda, Hart y Stork, Wiley Interscience, 2000. Preferiblemente, el modelo se define por un numero de parametros estadfsticos, por ejemplo por la media, varianzas o matrices de covarianza. El recorte se realiza procesando todos los pfxeles en los cuadros delimitadores usando los parametros del modelo estadfstico correspondiente, teniendo en cuenta:

1.Similitud de datos, es decir, medicion de la concordancia de color de una muestra de datos con los modelos de color, calculando probabilidades entre parametros de modelo y muestras de datos.

2.Proximidad o similitud previa, es decir, evaluar las diferencias de color entre muestras espacial y temporalmente adyacentes. Se penalizan las desviaciones de color fuertes y se asegura coherencia espacial y temporal en el proceso de seleccion.

Para realizar el recorte, la segmentacion se interpreta preferiblemente como un problema de etiquetado de graficos que produce una solucion usando un metodo de recorte mfnimo. Por ejemplo, puede encontrarse una formulacion y solucion en "An experimental comparison of min-cut/max-flow algorithms for energy minimization in vision", Boykov y Kolmogorov, IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 9, 1124 1137,2004. El resultado del recorte es una segmentacion binaria (etiquetas) del cuadro delimitador 501 en el primer plano 504 y el fondo 503, o 0 (fondo) y 1 (primer plano).

Preferiblemente, un metodo de post-procesamiento asigna valores alfa 505 a todos los pfxeles en la proximidad del lfmite entre los pfxeles del primer plano 508 y del fondo 506, incluyendo pfxeles que tienen valores intermedios 507. Estos valores intermedios expresan el lfmite suave del objeto y pueden calcularse usando por ejemplo "A Bayesian Approach to Digital Matting", Chuang, Curless, Salesin y Szeliski, IEEE Computer Vision and Pattern Recognition, Vol. II, 264-271, 2001.

Usando la mascara alfa, la forma y posicion 2D del objeto se refinan y proporcionan como salida adicional 127 del metodo de recortado de objetos 106.

La Figura 6 ilustra esquematicamente tal refinado del cuadro delimitador. Para ello, para cada cuadro delimitador 601 dado inicialmente (lfnea de trazos) se atraviesa la mascara alfa y se calculan los valores mfnimo y maximo en ambas dimensiones de imagen (horizontal y vertical, o u,v) para los que existen pfxeles de primer plano. Esto reduce el tamano del cuadro delimitador 601 (lfnea solida) y hace coincidir mejor la forma del objeto actual 602. El mfnimo sirve entonces como la nueva posicion del cuadro delimitador y las diferencias entre maximo y mfnimo en cada direccion se toman como la nueva anchura (en la direccion u) y altura (en la direccion v) del cuadro delimitador. Se toma la referencia o punto de anclaje 604 para el metodo de calculo de la posicion 3D, por ejemplo, para la direccion u como que es el punto medio entre el maximo y el mfnimo, y en la direccion v como que es el mfnimo.

Finalmente, el metodo determina todas las areas del primer plano (un cierto conjunto de pfxeles) en los datos de textura de color de los flujos de video 121 atravesando todos los objetos en cada flujo de video y marcando los pfxeles que, en los datos de textura de color 121, estan marcados como primer plano con un banderfn. Para conseguir datos de textura de fondo sin los objetos de primer plano y sin huecos, estas areas se llenan usando un metodo de restauracion de imagen, vease por ejemplo "View Interpolation for Image Synthesis", Chen y Williams, ACM SIGGRAPH 1993, pags. 279-288, que, para cada hueco-pfxel en el borde de un hueco, selecciona posteriormente los parches mas similares de regiones no marcadas de la imagen y asigna el valor correspondiente a este pixel de borde, llenando asf el hueco desde el borde hasta el medio. Todos estos pfxeles generados sinteticamente se marcan especialmente como "restaurados", usando un banderfn asociado con el pixel, dando como resultado una salida adicional del metodo de recortado que son unos datos de textura de fondo llenos y marcados 125.

En resumen, la salida del modulo de recortado 106 comprende

• Datos de textura de fondo llenos y marcados 125;

• Textura de objeto y mascara alfa por camara y objeto del mundo real, por ejemplo informacion de segmentacion 126; y

• Forma y posicion 2D del objeto refinadas con identificacion del objeto del mundo real 127.

El metodo de calculo de la posicion del objeto 3D 107 usa la informacion de tamano y posicion 2D refinadas con la informacion del mundo real 127 y los datos de calibrado de la camara 122 de (todas) las camaras para determinar la posicion 3D de (todos) los objetos. El metodo lleva a cabo las siguientes etapas: 1. Para cada objeto del mundo real, se recoge la informacion asociada de forma y posicion 2D.

2. Para objetos visibles sin camara, la posicion 3D de las etapas previas (si esta disponible) se extrapola usando un esquema de interpolacion de primer orden o superior.

3. Para objetos visibles en solo una camara, se supone que el objeto esta localizado a nivel de suelo, de esta manera, el vector desde la posicion de la camara que pasa a traves de la posicion 2D en la imagen 2D proyectada se interseca con el plano de suelo, dando como resultado la posicion 3D del objeto.

4. Para objetos visibles en dos o mas camaras, pueden usarse dos metodos diferentes:

a. Se supone que todos los objetos estan localizados a nivel de suelo, de esta manera, se usa el mismo metodo que el descrito anteriormente, dando como resultado dos o mas posiciones 3D a nivel del suelo desde las cuales se calcula la media o promedio como la posicion 3D final del objeto.

b. El otro metodo no supone que los objetos estan localizados a nivel de suelo y calcula el punto de aproximacion mas cercano a los vectores usando una tecnica convencional, por ejemplo "Intersection of two lines in three space", Goldman, En Andrew Glassner, editor "Graphics Gems" pagina 304. Academic Press, 1990.

De esta manera, el metodo de calculo de la posicion 3D 107 asigna a cada objeto modelado una posicion 3D para cada momento (fotogramas de video) y produce estas posiciones 3D de todos los objetos 128. Puede accederse a estos desde otros metodos en etapas posteriores, en las que "posterior" se entiende en el sentido temporal - estas etapas pueden ser "etapas precedentes" en el contexto de la estructura del sistema 100, con el efecto de que este acceso constituya un bucle de retroalimentacion.

■ El metodo de smtesis de imagenes interpoladas 108 usa la informacion del fotograma actual 128,

■ el metodo de seguimiento 104 preferiblemente usa la informacion de posicion del objeto 3D extrapolada 130 de uno o mas fotogramas previos y

■ el metodo de identificacion de objetos 105 preferiblemente usa dicha informacion 130 para asociar la informacion de forma y posicion del objeto 2D 123 con la correspondiente informacion del objeto 132 del mundo real.

El metodo de sfntesis de imagen interpolada 108 genera la vista sintetica de la escena. Las entradas a este metodo son las posiciones 3D de los objetos 128, los datos de calibrado de la camara 122, la textura del objeto y las mascaras alfa 126 y los datos de textura de fondo llenos y marcados 125. Opcionalmente, las entradas comprenden datos de reconstruccion 3D 135 del entorno, proporcionados por el modulo de datos del entorno 113, y/o formas de los objetos.

El metodo de sfntesis de imagen comprende las siguientes etapas:

1. Renderizar los objetos a partir de una vista virtual usando una representacion 3D particular de la escena y usando texturas del objeto 126 y bien valores alfa fijos (a partir de la etapa de recortado 106) o valores alfa dependientes de la vista, teniendo en cuenta la similitud angular, de resolucion y del campo de vision. Preferiblemente, el mapeo de textura se consigue usando texturado proyectivo usando los datos de calibrado 122. La similitud angular penaliza vistas cuyo eje optico esta mas alejado del eje optico de la vista virtual. La similitud de resolucion penaliza camaras que, por ejemplo, estan mas alejadas de la geometrfa diana o tienen menor resolucion en general. La similitud del campo de vision penaliza datos de las vistas de camara que no ven la geometrfa diana de la vista virtual.

2. Renderizar la geometrfa del fondo mediante combinacion alfa y almacenamiento temporal de la profundidad con los objetos ya renderizados y por combinacion de una o mas texturas de fondo con huecos llenos 125, y teniendo en cuenta las muestras de datos marcadas durante la combinacion. Preferiblemente, se consigue el mapeo de textura usando texturado proyectivo usando los datos de calibrado 122.

En la etapa 1, la representacion 3D particular es preferiblemente una o mas vallas publicitarias, vallas publicitarias potenciadas para campo de altura, vallas publicitarias potenciadas para mapa de desplazamiento o modelos de 3D completos de objetos.

Para la etapa 2, la geometrfa del fondo se modela ya sea mediante superficies que representan unicamente el campo de juego (o cancha) o que tambien incluyen una representacion del entorno, tal como un modelo de estadio de mayor o menor complejidad. De esta manera, pueden usarse vallas publicitarias, vallas publicitarias potenciadas para mapa de profundidad o modelos 3D completos para la renderizacion.

La Figura 11 muestra esquematicamente un modelo de entorno 3D que comprende una superficie plana 901 que representa una cancha, y otras superficies (inclinadas) 902 que representan un estadio que rodea la cancha. La Figura 12 muestra una imagen reconstruida generada de acuerdo con la invencion. Las vallas publicitarias 903, que normalmente no se muestran, se destacan para ilustracion.

Teniendo en cuenta las muestras de datos marcadas durante la combinacion significa lo siguiente: en lugares donde existen varias vistas de la misma superficie de fondo, y donde en al menos una vista un parche de superficie se marca como imagen restaurada (es decir, datos sinteticos), y en al menos otra vista el mismo parche se marca como imagen no restaurada (es decir, datos reales), los datos sinteticos se ignoran y solo se usan los datos reales. Si estan disponibles datos reales de varias fuentes, pueden combinarse, o pueden usarse datos de una unica fuente.

Ademas, superficies arbitrarias de la escena 3D pueden colorearse renderizando imagenes estaticas o dinamicas predeterminadas sobre las mismas. La sfntesis de imagenes 108 genera automaticamente una vista que muestra dicha(s) imagen(es) como si se hubieran pintado sobre las superficies modeladas correspondientes. De esta manera, los datos determinados por el usuario tales como logos, publicidad, patrocinios, anotaciones interactivas, estadfsticas de jugadores, etc. se insertan en la escena 3D y se proyectan en la vista 2D sintetica.

Finalmente, la salida del metodo de sfntesis de imagen interpolada 108, en concreto el flujo de video interpolado sintetizado 129, se hace pasar al destino o consumidor 109 despues de transformarse en un formato conveniente para el consumidor, por ejemplo, un formato SDI convencional como se usa para las entradas de flujos de video 120.

La Figura 7 muestra una vista global esquematica del sistema inventivo 100 con dispositivos perifericos, es decir, al menos dos camaras reales 702 (dibujadas en negro) dispuestas en un campo de juego 701, una unidad de control 704 de un productor de contenidos para recoger, gestionar y dirigir multiples flujos de video a una unidad 705 de distribucion de medios, conectada a una unidad de difusion, tal como una antena 706. El sistema 100 se dispone para recibir al menos dos flujos de video de entrada y generar al menos un flujo de video de salida. El flujo de video de salida puede proporcionarse a la unidad 705 de distribucion, como se muestra, o a la unidad 704 de control. El sistema 100 genera vistas correspondientes a camaras virtuales 703 (dibujadas en lfnea discontinua) localizadas en posiciones y orientaciones donde no existen camaras reales.

Llenado de huecos/Completado de imagenes

La Figura 8 muestra esquematicamente imagenes con un hueco que se tiene que llenar y un hueco con una marca que pasa a traves del mismo. Las imagenes son de un fondo y se han generado segmentando la imagen original en una parte 801 de fondo, con una textura conocida tambien denominada "area conocida", y "areas desconocidas" o huecos 802 en areas donde los objetos se han identificado y recortado del fondo. En una realizacion preferente de la invencion, la etapa de llenar los huecos 802 en el fondo preferiblemente comprende la aplicacion repetida de las etapas de

- Seleccionar un "parche de destino" 803a, 803b,...cuya area es parcialmente conocida y parcialmente desconocida;

- Seleccionar un "parche de origen" 804a, 804b,. que comprende al menos un pixel con un valor de color conocido, es decir, del area 801 conocida;

- Copiar los datos de imagen (o textura) del parche de origen a las localizaciones correspondientes en el parche de destino para aquellas areas del parche de destino que son desconocidas, es decir, en el hueco 802. Como resultado, el area del hueco 802 se reduce.

Vease por ejemplo "Fragment-based image completion", Drori, I., Cohen-Or, D. y Yeshurun, H., 2003.. ACM Trans. Graph. 22, 3 (jul. 2003), pags. 303-312 o "Image completion with structure propagation", Sun, J., Yuan, L., Jia, J., y Shum, H., 2005, En ACM SIGGRAPH 2005 Papers. J. Marks, Ed. SIGGRAPH'O5. ACM Press, Nueva York, NY, pags. 861-868. Tales parches preferiblemente son de forma rectangular o circular. Preferiblemente, multiples parches de destino 803a y 803b se solapan entre si. En una realizacion preferente de la invencion, los parches de destino solapantes se combinan en la region comun 805.

En una realizacion preferente de las etapas de llenado de agujeros en la imagen de fondo, el parche de destino 803a, 803b,. tiene el mismo tamano y orientacion que el parche de origen 804a. Despues, la informacion de pixel desde el parche de origen puede copiarse directamente. En otra realizacion preferente, el parche de origen y de destino tienen diferentes tamanos, forma u orientacion que las del parche 804b. En tales casos, puede generarse facilmente una funcion que mapea las posiciones del parche de destino a las posiciones de los parches de origen, donde una persona debe consultar los valores de color correspondientes. Despues, el copiado puede implicar rotacion y/o cambio de escala de la imagen de parche de origen (tal como 804b).

En una realizacion preferente de la invencion, la etapa de seleccionar un parche de origen 804a, 804b,...comprende una comparacion de parches de origen potencialmente posibles con el parche de destino 803a, 803b,. para encontrar un parche de origen cuyos valores del pixel correspondan a los valores de pixel conocidos en el parche de destino. Atravesando las regiones conocidas del parche de destino, puede realizarse una comparacion por pfxeles (dando como resultado la diferencia de los valores de pixel) de todos los parches de origen potencialmente coincidentes con la region conocida para encontrar un buen parche de origen coincidente. Preferiblemente, se construye la suma de estas diferencias para encontrar un valor de comparacion global de los parches. La diferencia de los valores de pixel puede basarse en (aunque no esta restringida a) RGB, HSV u otros valores del sistema de color del pixel.

En una realizacion preferente de la invencion, las etapas de llenado de los huecos 802 en el fondo 801 conocido tiene en cuenta el conocimiento previo sobre las marcas 806a, 806b,. en el fondo. Tales marcas, por ejemplo, son las lfneas y cfrculos en una cancha de futbol y son importantes para la percepcion correcta y el reconocimiento de la escena. Puesto que los parametros de camara son conocidos de la etapa de calibrado de la camara y la posicion de las marcas normalmente esta bien definida en las normas del juego, es posible proyectar las marcas desde el espacio 3D de vuelta a la imagen de video. Como resultado, se conocen las posiciones 2D de las marcas (por ejemplo, las lfneas o cfrculos proyectados) en la imagen de video. Usando este conocimiento, pueden detectarse regiones desconocidas (por ejemplo huecos) en las marcas proyectadas atravesando toda las posiciones (es decir, pfxeles) relacionados con una marca y comprobando la existencia de un hueco 802. Para marcas con regiones 807 desconocidas identificadas, la recreacion de las partes que faltan de las marcas puede realizarse por separado antes de llenar los huecos restantes. Para ello, se seleccionan los parches de destino 803c, 803d a lo largo de la marca que se va a completar. Preferiblemente, el punto medio del parche siempre esta situado en las posiciones proyectadas hacia atras de la marca en la imagen. Preferiblemente, los parches de origen se buscan despues a lo largo de las regiones conocidas de la marca 804c, 804d. Puesto que los parches de origen correspondientes probablemente mostraran una estructura, coloracion y orientacion similares de la marca que contienen, la marca dentro del hueco puede recuperarse mas rapido y con una mejor calidad.

La aplicacion repetida de tales parches de origen recreara despues una imagen de la marca dentro del hueco. En esta realizacion, el tamano de los parches preferiblemente se elige para cubrir al menos la anchura maxima de la marca.

La Figura 9 muestra esquematicamente un cfrculo proyectado y la rotacion de parches: En una realizacion preferente de la invencion, las etapas de llenado de huecos en el fondo, usando el conocimiento previo sobre las marcas, determina un angulo de rotacion entre el parche de origen 804e y el parche de destino 803e cuando se trata con marcas 806b no lineales (es decir, que no son en lfnea recta), por ejemplo cfrculos o similares. Este angulo de rotacion puede calcularse a partir del angulo 809 entre las normales 808a, 808b (es decir, la lfnea perpendicular a la marca en una cierta posicion) en las posiciones de los parches en la marca proyectada. Antes de comparar el parche de origen con el parche de destino, el angulo de rotacion se integra en la funcion de mapeo. De esta manera, un parche de origen de una parte distante del cfrculo puede compararse con, y aplicarse, al parche de destino con una orientacion correcta, reduciendo la aparicion de defectos visibles en el resultado.

En una realizacion preferente de la invencion, la busqueda de parches de origen comienza en el entorno local del parche de destino antes de considerar parches de origen a una mayor distancia. En esta realizacion, puede definirse un valor umbral que detiene la busqueda cuando se encuentra un parche de origen cuyo valor coincidente es menor que el umbral - si "menor" corresponde a una mejor coincidencia. De esta manera, el algoritmo buscara unicamente hasta que se encuentra un buen (pero quizas no el mejor) parche de origen.

En otra realizacion preferente de la invencion, la seleccion de los parches de destino cambia alternativamente entre ambos lados de un hueco, si el hueco esta entre los extremos de la marca, por ejemplo, en ambos lados del hueco, parte de las lfneas son visibles. En esta realizacion, los parches de origen encontrados se aplican alternativamente a parches de destino en ambos lados 803c y 803d del hueco, llenandolo o creciendo hacia dentro desde el lfmite del hueco, a lo largo de la longitud 10 de la marca, hasta que se alcanza la mitad del hueco. De esta manera, los pfxeles desconocidos en ambos lados del hueco proporcionan una mejor aproximacion a los pfxeles circundantes conocidos que lo que conseguirfa un llenado unidireccional en el lado distante del hueco. El parche de origen de los parches aplicados alternativamente puede diferir para cada etapa de aplicacion, o puede permanecer igual para varias etapas alternas.

En otra realizacion preferente de la invencion, los pfxeles del parche de origen seleccionado actualmente se combinan (por ejemplo, se mezclan) con los pfxeles de al menos uno de los ultimos parches de origen aplicados antes de aplicarse a un parche de destino actual. El factor de combinacion depende de la distancia 801 desde el parche de destino 803c real a la posicion donde estaba el ultimo parche de destino 803d. Por ejemplo, si la distancia 801 es grande, entonces el parche de origen no se altera antes de aplicarlo. Sin embargo, cuando la distancia es pequena, el parche de origen se altera de manera que parece similar al ultimo parche de destino cercano. De esta manera, el parche de destino actual tendra una diferencia decreciente por pfxeles con respecto a otros parches de destino con distancia decreciente, lo que conduce a un solapamiento sin costuras en el medio del hueco.

La Figura 10 muestra esquematicamente una proyeccion en perspectiva de una marca en lfnea recta y la asignacion por pfxeles para una marca: Otra realizacion preferente de la invencion usa parametros de camara conocidos para determinar un factor de escala integrado en la funcion de mapeo de los pfxeles de parche de origen a los pfxeles de parche de destino (y viceversa). Una marca que empieza en un punto 806c, relativamente cercano a la camara, y que termina en un punto distante 806d, conduce a una proyeccion de la marca que requiere parches de origen mas grandes correspondientes a posiciones cerca de la camara 804f que los parches de origen correspondientes a las posiciones alejadas 804g debido a la proyeccion de perspectiva. Usando calculos de geometrfa proyectiva, el factor de escala entre un parche de origen 804f, 804g y un parche de destino 803f se determina y aplica durante la comparacion y aplicacion de los parches. Preferiblemente, este factor de escala se usa tambien cuando se elige el tamano de los parches de origen y de destino, respectivamente.

En una realizacion preferente adicional de la invencion, las marcas no se consideran como lfneas o elementos unidimensionales, por ejemplo, puntos, lfneas rectas o cfrculos, sino que se asocian tambien con una dimension adicional perpendicular a la orientacion principal, tal como la anchura de una lfnea. La anchura de la marca real puede medirse en el sitio o suponerse facilmente, basandose en la experiencia. Esto da como resultado una marca que se describe por un area delimitada por dos bordes 811 en lugar de solo por una lfnea o cfrculo 806c. En la proyeccion de la marca en la imagen, los pfxeles o, mas en general, las partes de la imagen, pueden clasificarse entonces como pertenecientes a la marca 812, no pertenecientes a la marca 813 o pertenecientes parcialmente a la marca 814. Preferiblemente, la funcion de comparacion integra este conocimiento para proporcionar una comparacion mejorada de los parches. Asimismo, la aplicacion del parche de origen sobre el parche de destino integra preferiblemente este conocimiento.

En una realizacion preferente de la invencion, las etapas de recrear las marcas implican un tratamiento especial de las areas donde al menos dos marcas se intersecan o unen entre sf en un hueco. Tales regiones deberfan regenerarse de una manera diferente, puesto que la aplicacion de parches como se ha descrito anteriormente puede conducir a defectos visuales. Preferiblemente, la regeneracion de estas areas se realiza basandose en la clasificacion de pfxeles como pertenecientes a la marca 812, no pertenecientes a la marca 813 o parcialmente pertenecientes a la marca 814. Despues, los pfxeles que pertenecen a la marca en el parche de origen se comparan y aplican unicamente si se mapean sobre un pixel que pertenece a la marca en el parche de destino y viceversa. En otras palabras, para aquellas areas de hueco en las que se espera una marca, el algoritmo de coincidencia de parches solo considera los pfxeles que son parte de la marca. Preferiblemente, tal realizacion tiene un tratamiento especial para combinar pfxeles clasificados como parcialmente pertenecientes a la marca, por ejemplo por combinacion o seleccion del mas probable.

Aunque la invencion se ha descrito en las presentes realizaciones preferentes de la invencion, se entiende claramente que la invencion no esta limitada a estas, sino que puede realizarse de otra manera y practicarse variadamente dentro del alcance de las reivindicaciones.

Listado de designaciones

101 El origen (productor) de al menos dos flujos de video (120)

102 Adquisicion de al menos dos flujos de video (120) en la memoria interna

103 Metodo de calibrado

104 Metodo de seguimiento

105 Metodo de identificacion de objetos

106 Metodo de recortado de objetos

107 Metodo de calculo de la posicion del objeto 3D

108 Metodo de sfntesis de imagen interpolada

109 El destino (consumidor) del flujo o flujos de video resultantes

110 Un recurso (archivo, base de datos, etc.) que contiene informacion (equipo, nombre, numero, etc.) sobre todos los objetos del mundo real (jugadores, porteros, arbitros, pelota)

113 Un recurso (archivo, base de datos, modelo, etc.) que proporcione informacion sobre el entorno (3D, CAD, etc.)

120 Al menos dos flujos de video aislados

121 Datos de textura de color

122 Datos de calibrado de la camara

123 Forma y posicion 2D del objeto

124 Forma y posicion 2D del objeto e identificacion del objeto del mundo real

125 Datos de textura de fondo llenos y marcados

126 Textura de objeto y mascara alfa por camara y objeto del mundo real, por ejemplo informacion de segmentacion

127 Forma y posicion 2D del objeto refinado con identificacion del objeto del mundo real

128 Posicion 3D del objeto

129 Flujo de video interpolado sintetizado

130 La posicion 3D del objeto extrapolada

131 Datos de calibrado de la camara reales o extrapolados

132 Informacion sobre un objeto del mundo real segun se almacena en (110)

135 Modelo 3D, datos o informacion similar sobre el entorno

201 La primera imagen del flujo de video que muestra algunos elementos en perspectiva

202 Una vista esquematica de la escena con sus elementos

203a-d Elementos marcados en la imagen de video

204a-d Elementos correspondientes en la vista esquematica

301 Un fotograma de un flujo de video en el tiempo t-n (n>0)

302 Un fotograma de un flujo de video en el tiempo t

303 Una vista esquematica de la situacion 3D de las escenas en diversos momentos

310a,b La posicion 2D de los objetos A, B en el fotograma 301

311a,b Las trayectorias real y extrapolada de los objetos A, B

312a,b La posicion 2D extrapolada de los objetos A, B en el fotograma 301 (espacio de imagen) 320a,b Las posiciones 2D reales de los objetos A, B en el fotograma 302

321a,b Las mismas posiciones 2D que en 312a,b en el fotograma 302 (la misma localizacion espacial de la imagen)

330a,b La posicion 3D conocida de los objetos A, B en el tiempo t-2n

331a,b La posicion 3D conocida de los objetos A, B en el tiempo t-n

332a,b La posicion 3D estimada de los objetos A, B en el tiempo t

401 Una vista de camara de una escena donde dos objetos A, B colisionan en 2D

402 La misma escena que en 401 vista desde otra camara

403 Una vista esquematica de la escena en 3D (desde arriba)

410a,b Posiciones 2D de los objetos A, B en el tiempo t0 en 401

411a,b Posiciones 2D de los objetos A, B en el tiempo t1 en 401

420a,b Posiciones 2D de los objetos A, B en el tiempo t0 en 402

421a,b Posiciones 2D de los objetos A, B en el tiempo t1 en 402

430a,b Las posiciones 3D de los objetos A, B en el tiempo t0

431a,b Las posiciones 3D de los objetos A, B en el tiempo t1

501 El cuadro delimitador

502 El objeto esta completamente dentro del cuadro delimitador

503 Cierta parte del cuadro delimitador pertenece al fondo

504 Cierta parte del cuadro delimitador pertenece al primer plano (pertenece al objeto)

505 Un aumento de una parte de lfmite entre el primer plano y el fondo consiste en pfxeles

506 Algunos de estos pfxeles pueden clasificarse como 100% fondo

507 Algunos de estos pfxeles no pueden clasificarse como 100% fondo o 100% primer plano, pero por ejemplo sf como 57% primer plano

508 Algunos de estos pfxeles pueden clasificarse como 100% primer plano

509 El cuadro delimitador se define mediante su posicion en la esquina inferior izquierda

510 ... y su anchura

511 ... y su altura

601 Un cuadro delimitador proporcionado por (123) y (124) es demasiado grande comparado con los lfmites del objeto

602 El cuadro delimitador refinado despues del metodo de recortado del objeto (106)

603 Un cuadro delimitador proporcionado por (123) y (124) interseca los lfmites de los objetos 604 El punto de anclaje del cuadro delimitador para el metodo (107) de calculo de la posicion 3D 801 El area conocida de la imagen

802 El area desconocida de la imagen, es decir, el hueco

803a,b Parches de destino solapantes

803c,d Parches de destino en una marca (806a) en ambos lados del hueco

804a Un parche de origen

804b Un parche de origen con diferente tamano y orientacion

804c,d Parches de origen en una marca (806a)

805 La region solapante de los parches de destino

806a Una marca de lfnea proyectada

806b Una marca de cfrculo proyectado

806c Una marca con una anchura perpendicular a la direccion de la marca

807 La parte de la marca dentro del hueco

808a,b Normales de la marca circular proyectada

809 Angulo entre dos normales correspondientes a parches

810 La longitud de la parte de la marca dentro del hueco

811 Lfmites de una marca (806c) definida por la anchura

812 Pfxeles clasificados como pertenecientes a la marca (806c)

813 Pfxeles clasificados como no pertenecientes a la marca (806c) 814 Pfxeles clasificados como parcialmente pertenecientes a la marca (806c) 901 Cancha, campo de juego

902 Modelo de estadio 3d

903 Valla publicitaria

Claims

REIVINDICACIONES

1. Metodo para llenar los huecos (802) que quedan en el fondo de una imagen (201) despues de recortar los objetos del fondo, que comprende las etapas de

• adquirir (102) una imagen (201) de una camara (702) que observa una escena 3D (701);

• segmentar la imagen (201) separando los objetos del fondo de la imagen (201) ;

• llenar los huecos (802) correspondientes que quedan en el fondo mediante restauracion de la imagen, mapeo de los datos de imagen que corresponde a los parches de origen (804a, 804b, 804c, 804d) que comprenden datos de imagen reales a los parches de destino (803a, 803b, 803c, 803d) que comprenden partes desconocidas de la imagen, llenando asf los huecos (802); en el que el mapeo implica una transformacion de los parches de acuerdo con su relacion espacial, es decir, 3D

caracterizado porque una parte desconocida de la imagen se sabe que comprende un elemento de marca (807), en el que un elemento de marca es un elemento de fondo inmovil cuya localizacion nominal es conocida y es un elemento que se extiende linealmente sobre un campo de juego, y el metodo comprende las etapas de

• seleccionar un parche de destino (803c, 803d) para cubrir al menos parte del elemento de marca (807), y buscar en la imagen un parche de origen correspondiente (804c, 804d) a lo largo de la marca (806a).

2. Metodo segun la reivindicacion 1, en el que un elemento de marca es una lfnea recta o circular.

3. Metodo segun una de las reivindicaciones 1 a 2, que comprende la etapa de

• para llenar un hueco que comprende una seccion de una marca circular (806b), mapear el parche de destino (803e) al parche de origen (804e) y viceversa transformando, preferiblemente rotando y / o escalando, estos parches de acuerdo con su ubicacion a lo largo de la marca circular (806b).

4. Metodo segun una de las reivindicaciones 1 a 2, que comprende la etapa de

• para llenar un hueco que comprende una seccion de una marca en lfnea recta, mapear el parche de destino al parche de origen y viceversa transformando, preferiblemente escalando, estos parches de acuerdo con su ubicacion a lo largo de la marca en lfnea recta.

5. Metodo segun una de las reivindicaciones 1 a 4, en el que la busqueda de parches de origen comienza en el entorno local del parche de destino antes de considerar parches de origen a una mayor distancia.

6. Metodo segun una de las reivindicaciones 1 a 5, en el que la seleccion de los parches de destino cambia alternativamente entre ambos lados de un hueco si el hueco esta entre los extremos de la marca.

7. Metodo segun una de las reivindicaciones 1 a 6, que comprende la etapa de

• asociar una marca de lfnea con un ancho de lfnea

• clasificar los elementos de imagen en los parches de origen y / o destino como parte de la marca (812) o no (813), de acuerdo con dicho ancho de lfnea;

• al buscar en la imagen conocida un parche de origen correspondiente (804c, 804d), y al copiar un parche de origen (804c, 804d), a un parche de destino (803c, 803d), solo se consideran los elementos de imagen que son parte de la marca.

8. Metodo segun una de las reivindicaciones 1 a 7, que comprende la etapa de

• al llenar huecos o partes desconocidas que quedan en el fondo mediante restauracion de la imagen, marcar los elementos de imagen restaurados como datos de imagen sinteticos.

9. Metodo segun la reivindicacion 8, que comprende proporcionar (108) una vista sintetizada a partir de un punto de vista virtual que es diferente de las posiciones de camara de al menos dos camaras situadas en diferentes localizaciones y observando la misma escena 3D y proporcionar al menos dos flujos de video mediante las etapas de:

• proporcionar parametros de camara de una camara virtual (703);

• determinar una imagen de fondo segun se ve por la camara virtual (703) en un modelo de fondo (901, 902);

• determinar una proyeccion de cada uno de los objetos en la camara virtual (703) y superponerla sobre la imagen de fondo; y

• producir o almacenar la imagen combinada para almacenamiento o para procesamiento adicional, en el que la etapa de determinar una imagen de fondo segun se ve por la camara virtual (703) comprende los pasos de

• renderizar la informacion de imagen sobre un modelo de fondo que comprende una o mas superficies (901, 902) que representan el fondo.

10. Dispositivo de procesamiento de datos que comprende medios de codigo de programa informatico para hacer que el dispositivo de procesamiento de datos, cuando dichos medios de codigo de programa informatico se cargan en el dispositivo de procesamiento de datos, ejecute el metodo segun una cualquiera de las reivindicaciones 1 a 9.

11. Producto de programa informatico que puede cargarse en una memoria interna de un ordenador digital, que comprende medios de codigo de programa informatico para hacer, cuando dichos medios de codigo de programa informatico se cargan en el ordenador, que el ordenador ejecute el metodo segun una cualquiera de las reivindicaciones 1 a 9.