ES2556601T3

ES2556601T3 - Sistemas y métodos para la producción autónoma de vídeos a partir de múltiples datos detectados

Info

Publication number: ES2556601T3
Application number: ES10737234.4T
Authority: ES
Inventors: Christophe De Vleeschouwer; Fan Chen
Original assignee: KEEMOTION S A; KEEMOTION SA
Current assignee: KEEMOTION S A; KEEMOTION SA
Priority date: 2009-05-07
Filing date: 2010-05-07
Publication date: 2016-01-19
Anticipated expiration: 2030-05-07
Also published as: WO2010127418A1; GB0907870D0; CA2761187C; PL2428036T3; EP2428036A1; CA2761187A1; BRPI1011189B1; MX2011011799A; EP2428036B1; US20120057852A1; US8854457B2; BRPI1011189A2

Abstract

Un método basado en ordenador para producción autónoma de un vídeo editado a partir de múltiples corrientes de vídeo capturadas por una pluralidad de cámaras distribuidas alrededor de una escena de interés para seleccionar, como una función del tiempo, puntos de vista óptimos para ajustar la resolución de visualización y otras preferencias de usuario, y para suavizar estas secuencias para una narrativa continua y elegante, comprendiendo el método: * detectar objetos de interés en las imágenes de las corrientes de vídeo, * seleccionar para cada localización/posición de cámara prevista, un campo de visión obtenido: - o bien recortando la imagen capturada por una cámara fija, definiendo mediante ello parámetros de recorte, - o bien seleccionando los parámetros de panorámica-inclinación-zoom de una cámara motorizada o una cámara virtual, aproximando dicha cámara virtual una imagen en una posición arbitraria con un campo de visión arbitrario aprovechando una red distribuida de dichas cámaras, estando seleccionado el campo de visión basándose en procesamiento conjunto de las posiciones de múltiples objetos de interés que se han detectado, en el que la selección se hace de una manera que equilibra las métricas de completitud y cercanía como una función de preferencias de usuario individuales, en el que la completitud cuenta el número de objetos de interés que se incluyen y son visibles en el punto de vista visualizado, y la cercanía mide el número de píxeles que están disponibles para describir los objetos de interés, * montar el vídeo editado seleccionando y concatenando segmentos de vídeo proporcionados mediante una o más cámaras individuales, en el que el montaje se hace de una manera que equilibra las métricas de completitud y cercanía a lo largo del tiempo, mientras se suaviza la secuencia de dichos parámetros de recorte y/o panorámicainclinación- zoom asociados a segmentos concatenados, en el que el proceso de suavizado se implementa basándose en mecanismo de filtrado temporal de paso bajo lineal o no lineal.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Sistemas y metodos para la produccion autonoma de videos a partir de multiples datos detectados Campo de la invencion

La presente invencion se refiere a la integracion de informacion a partir de multiples camaras en un sistema de video, por ejemplo una produccion de television o sistema de vigilancia inteligente, y a la produccion automatica de contenido de video, por ejemplo para representar una accion que implica una o varias personas y/u objetos de interes.

Antecedentes tecnicos

El proyecto APIDIS (Produccion Autonoma de Imagenes basandose en la Deteccion Distribuida e Inteligente) intenta proporcionar una solucion para generar contenidos personalizados para representacion visual mejorada y de bajo coste de escenarios controlados tales como la television deportiva, donde la calidad de imagen y perceptual son tan esenciales como la integracion eficaz de informacion contextual [1].

En el contexto APIDIS, multiples camaras estan distribuidas alrededor de la accion de interes, y autonoma de contenido implica tres cuestiones tecnicas principales con respecto a estas camaras:

(i) como seleccionar puntos de vista optimos, es decir parametros de recorte en una camara dada, puedan adaptarse a resolucion de visualizacion limitada,

(ii) como seleccionar la camara correcta para representar la accion en un momento dado, y

(iii) como suavizar secuencias de camara/punto de vista para eliminar artefactos de produccion.

Los artefactos de produccion consisten tanto en artefactos visuales, que principalmente significan efectos de parpadeo debido a temblores o acercamiento/alejamiento rapido de puntos de vista, como en artefactos de narracion tales como la discontinuidad de la historia producida por cambio de camara rapido y movimientos de punto de vista drasticos.

La fusion de datos de multiples camaras se ha analizado ampliamente en la bibliografia. Estos trabajos anteriores podrian clasificarse de manera aproximada en tres categorias principales de acuerdo con sus diversos fines. Los metodos en la primera categoria tratan de la calibracion de la camara y control de camara inteligente integrando informacion contextual del entorno de multiples camaras [4]. Reconstruccion de escena en 3D [5] o la sintesis de video de punto de vista arbitrario [2] desde multiples camaras es tambien un tema candente. La tercera categoria usa multiples camaras para resolver ciertos problemas tales como oclusion en diversas aplicaciones, por ejemplo, seguimiento de personas [6]. Todos estos trabajos se centran mucho en la extraccion de informacion contextual en 3D importante, pero consideran poco las cuestiones tecnicas anteriormente mencionadas acerca de produccion de video.

Con respecto a produccion de video autonoma, existen algunos metodos propuestos en la bibliografia para seleccionar el area mas representativa desde una imagen independiente. Suh y otros [7] definen la region de recorte optima como el rectangulo minimo que contiene notabilidad sobre un umbral dado, donde la notabilidad se calculo mediante el modelo de atencion visual [8]. En la Ref. [9], se propuso otro metodo basado en modelo de atencion, donde analizaron mas la trayectoria de desplazamiento optima de atencion que la decision del punto de vista. Se conoce tambien como aprovechar una red distribuida de camaras para aproximar las imagenes que se capturarian mediante un sensor virtual localizado en una posicion arbitraria, con cobertura de punto de vista arbitraria. Para pocas camaras con lentes bastantes heterogeneas y cobertura de escena, la mayoria de los metodos de sintesis de punto de vista libres del estado de la tecnica producen resultados borrosos [2][3].

En la referencia [10] se propone un sistema de produccion automatica para videos deportivos de futbol y se analizo tambien la seleccion de punto de vista basandose en la comprension de escena. Sin embargo, este sistema unicamente cambia puntos de vista entre tres tamanos de toma fijadas de acuerdo con varias reglas fijadas, que conduce a artefactos visuales molestos debido al cambio drastico de los tamanos de toma. Adicionalmente, unicamente analizaban el caso de la camara unica.

Ademas del estudio anterior de la bibliografia, varias solicitudes de patente han considerado sistemas de multiples camaras (omnidireccionales) para producir y editar contenido de video de una manera semi-automatica. Pueden identificarse tres categorias principales de sistemas.

La primera categoria selecciona una vista (es decir, un video) entre los cubiertos mediante un conjunto de camaras predefinido, basandose en algun mecanismo de deteccion de actividad. En [15], cada camara se activa basandose en algun dispositivo externo, que acciona la adquisicion de video cada vez que se detecta un evento particular (por

la comodidad

la produccion de modo que

5

10

15

20

25

30

35

40

45

50

55

60

65

ejemplo, un objeto que entra en el campo de vision). En [16], se usan sensores de audio para identificar la direccion en la que el video deberia capturarse.

La segunda categoria captura una senal visual rica, basandose en camaras omnidireccionales o en ajuste de multiples camaras de gran angular, para ofrecer cierta flexibilidad en la manera en la que se representa la escena en el extremo de receptor. Por ejemplo, los sistemas en [17] y [18] respectivamente consideran sistemas de visualizacion de multiples camaras y omnidireccionales para capturar y difundir corrientes de video de gran angular. En [17], una interfaz permite al observador monitorizar la o las corriente de video de gran angular para seleccionar que porcion del video sacar en tiempo real. Ademas, el operador puede detener la reproduccion y controlar efectos de panoramica-inclinacion-zoom en un fotograma particular. En [18], la interfaz se mejora basandose en la deteccion automatica de las areas de video en las que esta presente un participante de evento. Por lo tanto, el observador tiene la oportunidad de elegir de manera interactiva a que participante(s) de evento desearia mirar.

De manera similar, [19-21] detecta personas de interes en una escena (tipicamente un conferencista o un participante de videoconferencia). Sin embargo, la mejora sobre [18] es doble. En primer lugar, en [19-21] se proponen metodos para definir automaticamente un conjunto de tomas candidatas basandose en analisis automatico de la escena. En segundo lugar, se definen mecanismos para seleccionar automaticamente una toma entre las tomas candidatas. En [19], la definicion de toma se basa en la deteccion y seguimiento del conferencista, y se usan reglas probabilisticas para cambiar pseudo-aleatoriamente del publico a la camara del conferencista durante una charla. En [20] y [21], se define tambien una lista de tomas candidatas basandose en la deteccion de algun objeto de interes particular (tipicamente una cara), pero se consideran efectos de edicion mas sofisticados para crear una representacion dinamica (videoconferencia). Por ejemplo, una toma puede hacer panoramica desde una persona a otra, o varias caras pueden pegarse una junto a la otra en una unica toma. El video de salida editado se construye a continuacion seleccionando una mejor toma entre las tomas candidatas para cada escena (en [20] y [21], una escena corresponde a un periodo de tiempo particular). La mejor toma se selecciona basandose en un conjunto pre- definido de reglas cinematicas, por ejemplo, para evitar demasiado de la misma toma en una fila.

Vale la pena destacar que los parametros de toma (es decir, los parametros de recorte en la vista disponible) permanecen fijos hasta que se cambia la camara. Ademas, en [19-21] una toma esta asociada directamente a un objeto, de modo que, al final, la seleccion de toma finaliza al seleccionar el objeto u objetos a representar, que puede ser dificil e irrelevante en contextos que son mas complejos que una videoconferencia o una conferencia. Especificamente, [19-21] no seleccionan la toma basandose en el procesamiento conjunto de las posiciones de los multiples objetos.

La tercera y ultima categoria de sistemas de produccion de video semi-automaticos diferencia las camaras que estan dedicadas a analisis de escena de las que se usan para capturar las secuencias de video. En [22], se usa una rejilla de camaras para fines de analisis de escena deportiva. Las salidas del modulo de analisis se aprovechan a continuacion para calcular estadisticas acerca del juego, pero tambien para controlar camaras de panoramica- inclinacion-zoom (PTZ) que recopilan videos de jugadores de interes (tipicamente el que sujeta el disco o la pelota). [22] debe implementar todos los algoritmos de analisis de escena en tiempo real, puesto que tiene por objeto controlar los parametros de PTZ de la camara instantaneamente, como una funcion de la accion observada en la escena. Mas importante y fundamentalmente, [22] selecciona los parametros de PTZ para capturar un objeto detectado especifico y no ofrecer la representacion apropiada de una accion de equipo, compuesta potencialmente de multiples objetos de interes. En esto es similar a [19-21]. Tambien, cuando se recopilan multiples videos, [22] no proporciona ninguna solucion para seleccionar uno de ellos. Solamente remite todos los videos a una interfaz que los presenta de una manera integrada a un operador humano. Este es el origen de un cuello de botella cuando se consideran muchas camaras de origen.

El documento US 2008/0129825 desvela el control de camara motorizada para capturar imagenes de un objeto seguido individual, por ejemplo para deportes individuales como competiciones de atletismo. El usuario selecciona la camara a traves de una interfaz de usuario. Las unidades de localizacion se unen al objeto. Por lo tanto son intrusivas.

El documento GB 2402011 desvela un control de camara automatizado que usa parametros de eventos. Basandose en el seguimiento de jugador y un conjunto de reglas de accionamiento, el campo de vision de las camaras se adapta y cambia entre las vistas cercana, media y lejana. Se selecciona una camara basandose en eventos de accionamiento. Un evento de accionamiento tipicamente corresponde a movimientos especificos o acciones de deportistas, por ejemplo el servicio de un jugador de tenis, o actualizaciones de informacion del marcador.

El documento US 2004/0105004 A1 se refiere a representar ponencias o reuniones. Las camaras de seguimiento se aprovechan para representar al presentador o a un miembro del publico que pregunta una cuestion. El presentador y los miembros del publico se siguen basandose en una localizacion de fuente de sonido, usando un conjunto de microfonos. Dada la posicion de la camara de seguimiento objetivo, los parametros de PTZ de la camara motorizada se controlan para proporcionar un video editado suave del objetivo. El metodo y sistema descritos son unicamente adecuados para seguir a una unica persona individual. Con respecto a la seleccion de la camara, se desvela el cambio entre un conjunto de vistas muy distintas (una vista general de la sala, una vista de las diapositivas, una vista

5

10

15

20

25

30

35

40

45

50

55

60

65

cercana del presentador y una vista cercana de un miembro del publico que habla). El proceso de seleccion de camara se controla basandose en la deteccion de evento (por ejemplo, una nueva aparicion de diapositiva, o un miembro del publico que habla) y reglas de videografia definidas por profesionales, para emular un equipo humano de produccion de video.

El documento US 5745126 desvela la seleccion dinamica automatizada de una camara de video/imagen desde multiples camaras de video/imagenes reales (o virtuales) de acuerdo con una perspectiva particular, un objeto en la escena o un evento en la escena de video.

Referencias

[1] Homepage of the APIDIS project,
http://www.apidis.org/

Videos de demostracion relacionados con este articulo:
http://www.apidis.org/Initial Results/APIDIS%20Initial%20Results.htm

[2] S. Yaguchi y H. Saito, Arbitrary viewpoint video synthesis from multiple uncalibrated cameras, IEEE Trans. Syst. Man. Cybern. B, 34(2004) 430-439.

[3] N. Inamoto, y H. Saito, Free viewpoint video synthesis and presentation from multiple sporting videos, Electronics and Communications in Japan (Part III: Fundamental Electronic Science), 90(2006) 40-49.

[4] I.H. Chen, y S.J. Wang, An efficient approach for the calibration of multiple PTZ cameras, IEEE Trans. Automation Science and Engineering, 4(2007) 286-293.

[5] P. Eisert, E. Steinbach y B. Girod, Automatic reconstruction of stationary 3-D objects from multiple uncalibrated camera views, IEEE Trans. Circuits and Systems for Video Technology, Special Issue on 3D Video Technology, 10(1999) 261-277.

[6] A. Tyagi, G. Potamianos, J.W. Davis y S.M. Chu, Fusion of Multiple camera views for kernel-based 3D tracking, WMVC'07, 1(2007) 1-1.

[7] B. Suh, H. Ling, B.B. Bederson, y D.W. Jacobs, Automatic thumbnail cropping and its effectiveness, Proc. ACM UIST 2003, 1(2003) 95-104.

[8] L. Itti, C. Koch, y E. Niebur, A model of saliency-based visual attention for rapid scene analysis, IEEE Trans. Pattern Analysis and Machine Intelligence, 20(1998) 1254-1259.

[9] X. Xie, H. Liu, W.Y. Ma, H.J. Zhang, “Browsing large pictures under limited display sizes, IEEE Trans. Multimedia, 8(2006) 707-715.

[10] Y. Ariki, S. Kubota, y M. Kumano, Automatic production system of soccor sports video by digital camera work based on situation recognition, ISM'06,1(2006) 851-860.

[11] J. Owens, Television sports production, 4a edicion, Focal Press, 2007.

[12] J.W. Gibbs, Elementary principles in statistical mechanics, Ox Bow Press, 1981.

[13] D. Chandler, Introduction to modem statistical mechanics, Oxford University Press, 1987.

[14] C. De Vleeschouwer, F. Chen, D. Delannay, C- Parisot, C. Chaudy, E. Martrou, y A. Cavallaro, Distributed video acquisition and annotation for sport-event summarization, NEM summit, (2008).

[15] Documento EP 1289282 (Al) Video sequence automatic production method and system Inventor: AYER SERGE [CH]; MOREAUX MICHEL [CH] (+1); Solicitante: DARTFISH SA [CH]; EC: H04N5/232 IPC: H04N5/232; H04N5/232; (IPC1-7): H04N5/232

[16] Documento US 20020105598, documento EP 1352521 AUTOMATIC MULTI-CAMERA VIDEO COMPOSITION; INTEL CORP

[17] Documento US 6741250 Method and system for generation of multiple viewpoints into a scene viewed by motionless cameras and for presentation of a view path; BE HERE CORP

[18] Documento US 20020191071 Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network; MICROSOFT CORP

[19] Documento US 20020196327 Automated video production system and method using expert video production

5

10

15

20

25

30

35

40

45

50

55

60

rules for online publishing of lectures; MICROSOFT CORP; Microsofit Corporation

[20] Documento US 20060251382 A1 System and method for automatic video editing using object recognition MICROSOFT CORP

[21] Documento US 20060251384 Automatic video editing for real-time multi-point video conferencing; MICROSOFT CORP

[22] Documento WO 200599423 AUTOMATIC EVENT VIDEOING, TRACKING AND CONTENT GENERATION SYSTEM; AMAN JAMES A; BENNETT PAUL MICHAEL

[23] Documento US 5745126 Machine synthesis of a virtual video camera/image of a scene from multiple video cameras/images of the scene in accordance with a particular perspective on the scene, an object in the scene, or an event in the scene.

Aspectos de la presente invencion

Un objeto de la presente invencion es proporcionar metodos y sistemas basados en ordenador para la produccion autonoma de un video editado, compuesto basandose en las multiples corrientes de video capturadas mediante una red de camaras, distribuidas alrededor de una escena de interes.

La presente invencion proporciona un metodo y un sistema autonomos basados en ordenador para produccion personalizada de videos tales como videos de deporte en equipo tales como videos de baloncesto a partir de multiples datos detectados bajo resolucion de visualizacion limitada. Sin embargo la invencion tiene un alcance de aplicacion mas amplio y no esta limitada a solamente este ejemplo. Las realizaciones de la presente invencion se refieren a la seleccion de una vista para presentar de entre las multiples corrientes de video capturadas mediante la red de camaras. Las soluciones tecnicas se proporcionan para proporcionar comodidad perceptual asi como una integracion eficaz de informacion contextual, que se implementa, por ejemplo, suavizando secuencias de punto de vista/camara generadas para mitigar los artefactos visuales de parpadeo y artefactos de narrativa discontinuos. Se desvela un diseno e implementacion del proceso de seleccion de punto de vista que se ha verificado mediante experimentos, que muestra que el metodo y sistema de la presente invencion distribuyen de manera eficaz la carga de procesamiento a traves de las camaras, y selecciona de manera eficaz puntos de vista que cubren la accion del equipo disponible mientras evita artefactos perceptuales principales.

Por consiguiente la presente invencion proporciona un metodo basado en ordenador que comprende las etapas de la reivindicacion 1.

La seleccion de parametros de representacion puede ser para todos los objetos u objetos de interes simultaneamente. El conocimiento acerca de la posicion de los objetos en las imagenes puede aprovecharse para decidir como representar la accion capturada. El metodo puede incluir seleccionar parametros de campo de vision para la camara que representa la accion como una funcion de tiempo basandose en un equilibrio optimo entre metricas de cercania y completitud. Por ejemplo, los parametros de campo de vision se refieren al corte en la vista de camara de camaras estaticas y/o a la panoramica-inclinacion-zoom o parametros de desplazamiento para camaras dinamicas y potencialmente en movimiento.

Las metricas de cercania y completitud pueden adaptarse de acuerdo con preferencias de usuario y/o recursos. Por ejemplo, un recurso de usuario puede ser resolucion de codificacion. Una preferencia de usuario puede ser al menos una de objeto preferido o camara preferida. Las imagenes desde todas las vistas de todas las camaras pueden mapearse a las mismas coordenadas temporales absolutas basandose en una referencia temporal unica comun para todas las vistas de camara. En cada instante de tiempo, y para cada vista de camara, se seleccionan parametros de campo de vision que optimizan el equilibrio entre completitud y cercania. El punto de vista seleccionado en cada vista de camara puede puntuarse de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones. Para el segmento temporal disponible, los parametros de una camara virtual optima que realiza panoramica, zoom y cambia a traves de las vistas pueden calcularse para conservar altas puntuaciones de puntos de vista seleccionados mientras se minimiza la cantidad de movimientos de camara virtual.

El metodo puede incluir seleccionar el campo de vision optimo en cada camara, en un instante de tiempo dado.

Un campo de vision vk en la kesima vista de camara se define mediante el tamano Sk y el centro ck de la ventana que se recorta en la kesima vista para visualizacion real. Se selecciona para incluir los objetos de interes y para proporcionar una descripcion de alta resolucion de los objetos, y se selecciona un campo de vision optimo vk* para maximizar una suma ponderada de objetos interesantes como sigue

5

10

15

20

25

30

35

40

45

50

imagen1

donde, en la ecuacion anterior:

• In indica el nivel de interes asignado al nesimo objeto detectado en la escena.

• xn,k indica la posicion del nesimo objeto en la vista de camara k.

• La funcion m(....) modula los pesos del nesimo objeto de acuerdo con su distancia al centro de la ventana del punto

de vista, en comparacion con el tamano de esta ventana.

• El vector u refleja las preferencias de usuario, en particular, su componente Ures define la resolucion de la corriente de salida, que esta generalmente restringida por el ancho de banda de transmision o la resolucion del dispositivo del usuario final.

• La funcion a(.) refleja la penalizacion inducida por el hecho de que la senal nativa capturada mediante la kesima camara tiene que sub-muestrearse una vez que el tamano del punto de vista se hace mayor que la resolucion maxima Ures permitida mediante el usuario.

Preferentemente a(....) se reduce con Sk y la funcion a(....) es igual a uno, cuando Sk<Ures, y se reduce posteriormente. a(....) se define mediante:

imagen2

donde el exponente ucercano es mayor que 1, y aumenta a medida que el usuario prefiere representacion a resolucion completa de area de acercamiento, en comparacion con puntos de vista grades pero sub-muestreados.

El metodo incluye puntuar el punto de vista asociado a cada camara de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones. La puntuacion mas alta deberia corresponder a una vista que (1) hace a la mayoria del objeto de interes visible, y (2) esta cerca a la accion, que significa que presenta objetos importantes con muchos detalles, es decir a alta resolucion. Formalmente, dado el interes In de cada jugador, la puntuacion Ik(vk,u) asociada a la kesima vista de camara se define como sigue:

imagen3

donde, en la ecuacion anterior:

■ In indica el nivel de interes asignado al nesimo objeto detectado en la escena.

■ Xn indica la posicion del nesimo objeto en el espacio en 3D;

■ ok(Xn| x) mide la relacion de oclusion del nesimo objeto en la vista de camara k, conociendo la posicion de todos los otros objetos, definiendose la relacion de oclusion de un objeto para que sea la fraccion de pixeles del objeto que se ocultan por otros objetos cuando se proyectan en el sensor de camara;

■ La altura hk(xn) se define para que sea la altura en pixeles de la proyeccion en la vista k de una altura de referencia de un objeto de referencia localizado en xn. El valor de hk(xn) se calcula directamente basandose en la calibracion de la camara, o cuando la calibracion no esta disponible, puede estimarse basandose en la altura del objeto detectado en la vista k.

■ La funcion $(.) refleja el impacto de las preferencias de usuario en terminos de vista de camara y resolucion de

5

10

15

20

25

30

35

40

45

50

55

60

visualizacion. $(■) se define como

imagen4

donde Uk indica el peso asignado a la kesima camara, y a(S,u) se ha definido anteriormente.

El metodo puede comprender suavizar la secuencia de indices de camara y parametros de punto de vista correspondientes, en el que el proceso de suavizado se implementa, por ejemplo, basandose en dos Campos Aleatorios de Markov, mecanismo de filtrado de paso bajo lineal o no lineal, o mediante un formalismo de modelo de grafos, resuelto basandose en el algoritmo Viterbi convencional.

La captura de las multiples corrientes de video puede ser mediante camaras estaticas o dinamicas.

La presente invencion incluye tambien un sistema basado en ordenador que comprende las caracteristicas de la reivindicacion 11.

El sistema basado en ordenador puede tener:

• Medios para detectar objetos/personas de interes en las imagenes de las corrientes de video, por ejemplo conociendo sus coordenadas del mundo en 3D reales.

• Medios para seleccionar para cada camara el campo de vision que representa la escena de interes de manera que (permite al observador) seguir la accion llevada a cabo mediante los multiples objetos/personas que interactuan que se han detectado. Los parametros del campo de vision se refieren, por ejemplo, a la ventana de recorte en una camara estatica y/o a los parametros de panoramica-inclinacion-zoom y de posicion en una camara motorizada y en movimiento. El concepto de accion que sigue puede cuantificarse midiendo la cantidad de pixeles asociados a cada objeto/personas de interes en la imagen presentada. El seguimiento preciso de la accion resulta de la representacion completa y cercana, donde la completitud cuenta el numero de objetos/personas en la imagen visualizada, mientras la cercania mide la cantidad de pixeles disponibles para describir cada objeto.

• Medios para montar el video editado seleccionando y concatenando segmentos de video proporcionados mediante una o mas camaras individuales, de manera que maximizan las metricas de completitud y cercania a lo largo del tiempo, mientras suavizan la secuencia de parametros de representacion asociados a los segmentos concatenados.

La presente invencion proporciona tambien un producto de programa informatico que comprende segmentos de codigo que cuando se ejecutan en un motor de procesamiento ejecutan cualquiera de los metodos de la invencion o implementan cualquier sistema de acuerdo con la invencion.

La presente invencion incluye tambien un medio de almacenamiento de senal legible por maquina no transitorio que almacena el producto de programa informatico.

La presente invencion puede tratar con escenas que implican varias personas/objetos de interes en movimiento. A continuacion, estas escenas se indican como acciones de equipo, y corresponden tipicamente a las escenas encontradas en contexto de deportes de equipo.

Automatizar el proceso de produccion permite:

• reducir los costes de produccion, evitando procesos hechos a mano largos y tediosos, tanto para el control de camara como la seleccion de camara;

• aumentar el ancho de banda de produccion y calidad, manejando potencialmente un numero infinito de camaras simultaneamente;

• crear contenido personalizado, repitiendo el proceso de produccion varias veces, con parametros distintos.

Un objeto de la presente invencion esta dirigido a la produccion semanticamente significativa, es decir mostrar la accion de interes, y contenidos perceptualmente comodos desde multiples datos detectados en bruto. El sistema de acuerdo con la presente invencion esta basado en ordenador, incluyendo memoria y un motor de procesamiento y es un sistema de produccion computacionalmente eficaz, por ejemplo, basandose en un paradigma divide y venceras (vease la Figura 15).

En unas realizaciones, el mejor campo de vision se calcula en primer lugar para cada camara individual, y a continuacion se selecciona la mejor camara para representar la escena. Juntos el indice de camara y su campo de

5

10

15

20

25

30

35

40

45

50

55

60

65

vision definen el punto de vista para representar la accion. Cuando la camara esta fija, la definicion del campo de vision esta limitada a un recorte de la imagen capturada mediante la camara. Cuando la camara esta motorizada, el campo de vision resulta directamente de los parametros de panoramica-inclinacion-zoom de la camara, y puede por lo tanto capturar una porcion rectangular arbitraria del campo de luz que alcanza el centro de la camara.

Para definir de una manera cuantitativa la nocion de mejor campo de vision o mejor indice de camara, la presente invencion introduce tres conceptos importantes, que son “completitud”, “cercania” y “suavidad”. Completitud establece la integridad de representacion de accion. En el contexto de representacion de accion de equipo, la completitud mide como de bien se incluyen los objetos/personas de interes en la escena (tipicamente los jugadores que participan en un deporte de equipo) en la imagen visualizada. La cercania define la precision de descripcion de detalle (tipicamente la cantidad media de pixeles que estan disponibles para representar las personas/objetos de interes), y la suavidad es un termino que hace referencia a la continuidad de la seleccion del punto de vista. Equilibrando entre estos factores, se proporcionan metodos para seleccionar (como una funcion del tiempo) puntos de vista optimos para ajustar la resolucion de visualizacion y otras preferencias de usuario, y para suavizar estas secuencias para una narrativa continua y elegante. La presente invencion es completamente autonoma y auto- regida, en el sentido de que puede seleccionar los pixeles para presentar sin ninguna intervencion humana, basandose en un conjunto por defecto de parametros de produccion y en los resultados de sistemas de deteccion de personas. Pero la invencion puede tratar tambien con preferencias de usuario, tal como el perfil de narrativa de usuario, y capacidades de dispositivo. Las preferencias de narrativa pueden resumirse en cuatro descriptores, es decir, grupo de objetos preferidos por el usuario o “equipo”, objeto preferido por el usuario o “jugador”, ‘tipo de vista’ preferida por el usuario (por ejemplo vistas de acercamiento cercano o alejamiento lejano), y “camara” preferida por el usuario. Todas las restricciones de dispositivo, tal como resolucion de visualizacion, velocidad de red, rendimiento de decodificador, se resumen como el parametro de resolucion de salida, que indica la resolucion a la que se codifica el video de salida a transportar y presentar en el anfitrion final.

La capacidad para tener en cuenta estas preferencias depende del conocimiento capturado acerca de la escena, por ejemplo, a traves de herramientas de analisis de video. Por ejemplo, se ha implementado una realizacion de la presente invencion en “Detection and Recognition of Sports(wo)men from Multiple Views”, D. Delannay, N. Danhier, y C. De Vleeschouwer, Third ACM/IEEE International Conference on Distributed Smart Cameras, Como, Italia, septiembre de 2009 para seguir y reconocer automaticamente los jugadores en movimiento en la escena de interes. Este documento se incluye como el Apendice 2.

En primer lugar, en las realizaciones de la presente invencion se considera un conjunto de camaras que (parcialmente) cubren la misma area, que es probable que se activen simultaneamente basandose en cualquier mecanismo de deteccion de actividad que es otra ventaja importante de la presente invencion sobre la tecnica anterior. El fin de la invencion, por lo tanto, no es seleccionar una vista de camara basandose en el hecho de que se detecto alguna actividad en la vista. En su lugar, el objetivo es seleccionar a lo largo del tiempo la vista de la camara y sus variaciones correspondientes en parametros tales como parametros de recorte o de PTZ, para representar mejor la accion que tiene lugar en el area cubierta. En este punto calidad de representacion se refiere a la optimizacion de un equilibrio entre medidas de cercania, completitud y suavidad.

En segundo lugar, la presente invencion tiene una ventaja de adaptar dinamicamente y suavizar parametros de puntos de vista con el tiempo, que es una mejora sobre sistemas de la tecnica anterior en los que los parametros de toma (por ejemplo, los parametros de recorte en la vista disponible) permanecen fijos hasta que se cambia la camara.

En tercer lugar, en las realizaciones de la presente invencion no se hace una eleccion entre un objeto u otro, sino en su lugar se realiza una seleccion del punto de vista basandose en el procesamiento conjunto de las posiciones de los multiples objetos que se han detectado. De acuerdo con las realizaciones de la presente invencion se realiza una seleccion de la secuencia de puntos de vista que es optima en la manera en que maximiza y suaviza las metricas de cercania y completitud, por ejemplo, para todos los objetos simultaneamente.

Esas diferencias en comparacion con la tecnica anterior proporcionan beneficios significativos cuando tratan el problema de produccion de contenido, por ejemplo, en un contexto de deporte de equipo. Permite principalmente seguir la accion de jugadores en movimiento y que interactuan, que no era posible basandose en metodos de la tecnica anterior.

Preferentemente, los metodos y sistemas de la presente invencion capturan y producen contenido automaticamente, sin la necesidad de procesos costosamente hechos a mano (no es necesario equipo tecnico u operador de camara).

Como una consecuencia de su rentabilidad, la presente invencion tiene por objeto mantener la produccion de contenido lucrativo incluso para publicos dirigidos de pequeno o medio tamano. De esta manera, promueve la emergencia de mercados novedosos, ofreciendo una gran eleccion de contenidos que son de interes para un numero relativamente pequeno de usuarios (por ejemplo, el resumen de un evento deportivo regional, una charla universitaria, o un dia en la guarderia).

5

10

15

20

25

30

35

40

45

50

55

60

65

Ademas, automatizar la produccion posibilita personalizacion de acceso de contenido. Generar un video personalizado simplemente consiste en (re-)ejecutar el proceso de produccion con parametros de entrada que corresponden a las preferencias especificas o restricciones expresadas por el usuario.

Un objeto de la presente invencion es producir un informe de video de un evento basandose en la concatenacion de segmentos de video (y opcionalmente audio correspondiente) capturados mediante un conjunto de camaras. En la practica, tanto las camaras estaticas como dinamicas pueden manipularse mediante la presente invencion:

o Usar sensores estaticos se anade a la rentabilidad puesto que permite almacenar todo el contenido relevante y procesarlo fuera de linea, para seleccionar los fragmentos de corrientes que merece la pena presentar al observador.

Los principios de produccion autonoma descritos a continuacion podrian tambien usarse para controlar una (conjunto de) camara o camaras de PTZ dinamicas. En ese caso, la informacion acerca de la localizacion de objetos de interes tiene que proporcionarse en tiempo real, por ejemplo, basandose en el analisis en tiempo real de la senal capturada mediante algun sensor audio-visual (como se hace en [ref]), o basandose en informacion recopilada desde transmisores embebidos. Ademas, el espacio de campos de vision candidatos se define mediante los parametros de posicion y de control de la camara de PTZ, y no mediante la imagen recortada en el angulo de vision cubierto mediante la camara estatica.

La principal suposicion que subyace el ajuste de adquisicion en red es la existencia de una referencia temporal unica comun para todas las vistas de camara, de modo que las imagenes desde todas las camaras pueden mapearse a las mismas coordenadas temporales absolutas de la escena disponible. Las camaras se supone por lo tanto que estan ligeramente, pero no necesariamente estrechamente, sincronizadas. En este punto, la sincronizacion ligera se refiere a un conjunto de camaras que capturan imagenes independientemente, y se basa en indicaciones de tiempo para asociar las imagenes que se han capturado a instantes de tiempo similares, pero no necesariamente identicos. En contraste, una sincronizacion estrecha se referiria a captura sincronizada de las imagenes mediante las camaras, como se hace cuando se controla la adquisicion mediante una senal de accionamiento comun.

Para decidir acerca de como representar la accion de equipo disponible, la invencion tiene que conocer la posicion de objetos de interes en la escena. Este conocimiento puede ser una estimacion (propensa a errores), y puede referirse a la posicion de objetos en la escena en 3D, o a la posicion de objetos en cada una de las vistas de camara.

Esta informacion puede proporcionarse basandose en transmisores que son llevados por los objetos a seguir en la escena de interes. Este conocimiento puede proporcionarse tambien mediante una alternativa no intrusiva, por ejemplo mediante el aprovechamiento de un conjunto de senales de video capturadas mediante una red de camaras estaticas, por ejemplo las usadas para produccion de reportaje de video, para detectar y seguir los objetos de interes. El metodo se describe en “Detection and Recognition of Sports(wo)men from Multiple Views, D. Delannay, N. Danhier, y C. De Vleeschouwer, Third ACM/IEEE International Conference on Distributed Smart Cameras, Como, Italia, septiembre de 2009” que se incorpora en el presente documento por referencia en su totalidad. Se fundamenta en un modelo de referencia de segundo plano para identificar los pixeles que cambian en cada vista. Cuando se calibran las multiples vistas, por ejemplo a traves de un proceso fuera de linea, las mascaras de deteccion de cambio que se recopilan en cada vista pueden unirse, por ejemplo en una mascara de ocupacion de superficie, para identificar la posicion de objetos de interes en el espacio en 3D (vease por ejemplo el enfoque representado en la Figura 16). Pueden usarse a continuacion filtros de particulas o tecnicas basadas en grafos para enlazar apariciones del mismo objeto a lo largo de la linea de tiempo. Observese que tal deteccion y tecnicas de seguimiento son bien conocidas para los expertos en la materia, y no se describiran en detalle en el presente documento. La realizacion de estos algoritmos que se han implementado se describe en la referencia anterior, y ofrece la ventaja de manejar oclusiones de una manera computacionalmente eficaz.

Una vez que se conocen las posiciones de los objetos de interes, la invencion soporta produccion autonoma (= seleccion de puntos de vista a lo largo del tiempo) del contenido capturado mediante la red de camaras estaticas1. El enfoque es generico en el sentido de que puede integrar una gran variedad de preferencias de usuario incluyendo recursos de transmision o de visualizacion, interes semantico (como jugador preferido), o preferencias de narrativa (que tratan de la manera preferida para visualizar la historia, por ejemplo, camara preferida o factor de acercamiento).

A traves de un periodo de tiempo dado, la presente invencion tiene por objeto seleccionar la secuencia de puntos de vista que optimiza la representacion de escena a lo largo del tiempo, con respecto a las personas/objetos de interes detectados. En este punto, un punto de vista se refiere a un indice de camara y a la ventana que se recorta en esa vista de camara particular, para visualizacion real.

La optimizacion de la secuencia de puntos de vista fundamenta un numero de nociones y principios que pueden describirse como sigue.

En cada instante de tiempo, la optimizacion de la representacion tiene que:

o Maximizar la nocion de completitud, que mide hasta que punto los (pixeles de los) objetos de interes estan incluidos y visibles en el punto de vista presentado. Opcionalmente esto implica minimizar el grado de oclusion de 5 objeto, que mide la fraccion de un objeto que esta presente en la escena, pero esta (por ejemplo, al menos parcialmente) oculto por otros objetos;

o Maximizar la nocion de cercania, que se refiere a la precision de detalles, es decir, la densidad de pixeles o resolucion, cuando se representan los objetos de interes.

10

Estos dos objetivos son en ocasiones antagonistas. Por esta razon, los metodos y sistemas de acuerdo con las realizaciones de la presente invencion proponen equilibrar la completitud y cercania, opcionalmente como una funcion de preferencias de usuario individuales (por ejemplo, en terminos de resolucion de punto de vista, o camara o jugadores preferidos).

15

Finalmente, la suavidad de las transiciones entre los parametros de representacion de fotogramas consecutivos del video editado se tiene que tener en cuenta cuando se considera la produccion de un segmento temporal. En otras palabras, es importante conservar la uniformidad entre la camara y, por ejemplo, parametros de recorte que se seleccionan a lo largo de la linea de tiempo, para evitar distraer al observador de la historia mediante cambios 20 abruptos o parpadeo constante.

Basandose en estos principios de guiado, se ha desarrollado el proceso de tres etapas representado en la Figura 14. Puede describirse como sigue:

25 Etapa 1: en cada instante de tiempo, y para cada vista de camara, seleccionar las variaciones en parametros tales como parametros de recorte que optimizan el equilibrio entre completitud y cercania. Opcionalmente, el equilibrio de completitud/cercania se mide como una funcion de las preferencias de usuario. Por ejemplo, dependiendo de la resolucion a la que accede al contenido producido, un usuario puede preferir un punto de vista pequeno (acercamiento) o uno grande (alejamiento).

30

Etapa 2: puntuar el campo de vision seleccionado en cada vista de camara de acuerdo con la calidad (en terminos de preferencias de usuario) de su equilibrio de completitud/cercania, y a su grado de oclusiones.

Etapa 3: Para el segmento temporal disponible, calcular los parametros de una camara virtual optima que realiza 35 panoramica, zoom y cambia a traves de las camaras para conservar altas puntuaciones de puntos de vista seleccionados mientras se minimiza la cantidad de movimientos de camara virtuales.

La primera etapa consiste en seleccionar el campo de vision optimo para cada camara, en un instante de tiempo dado. Para simplificar las notaciones, a continuacion, omitimos el indice de tiempo t.

40 , .

Un campo de vision vk en la kesima camara estatica se define mediante el tamano Sk y el centro ck de la ventana que se recorta en la kesima vista para visualizacion real.

Se ha de seleccionar para:

45

o Incluir los objetos de interes;

o Proporcionar una descripcion precisa, es decir, a alta resolucion, de estos objetos.

50 El campo de vision optimo vk* se selecciona preferentemente de acuerdo con preferencias de usuario, para maximizar una suma ponderada de los intereses del objeto como sigue

imagen5

55 En la ecuacion anterior:

o In indica el nivel de interes asignado al nesimo objeto reconocido en la escena.

Esta asignacion puede hacerse mediante cualquier metodo adecuado y la presente invencion supone que esta 60 asignacion se ha completado y los resultados pueden usarse mediante la presente invencion. Estos niveles de

5

10

15

20

25

30

35

40

45

50

55

interes pueden definirse mediante el usuario, por ejemplo una vez para todo el evento, y ponerse a disposicion de la presente invencion. En escenarios de aplicacion para los que se detectan objetos pero no se etiquetan, el peso se omite, es decir, se sustituye mediante un valor unitario constante.

o Xn,k indica la posicion del nesimo objeto en la vista de camara k.

o La funcion m(.) modula los pesos del nesimo objeto de acuerdo con su distancia al centro de la ventana de visualizacion, en comparacion con el tamano de esta ventana. De manera intuitiva, el peso deberia ser alto y positivo cuando el objeto de interes esta localizado en el centro de la ventana de visualizacion, y deberia ser negativo o cero cuando el objeto radica fuera del area de visualizacion. Por lo tanto, m(.) deberia ser positivo entre 0 y 0,5, e inferior o igual a cero por encima de 0,5. Son apropiadas muchas funciones, y la eleccion de un caso particular podria controlarse, por ejemplo, basandose en asuntos computacionales. Ejemplos de funciones son las funciones de sombrero mexicano o gaussiana bien conocidas. Se proporciona otro ejemplo en detalle en una realizacion particular de la invencion descrito en el apendice 1 de esta solicitud.

o El vector u refleja las restricciones o preferencias de usuario en terminos de resolucion de ventana de visualizacion e indice de camara. En particular, su componente ures define la resolucion de la corriente de salida, que esta restringida generalmente por el ancho de banda de transmision o resolucion del dispositivo de usuario final. Su componente Ucercano se establece a un valor mayor de 1 que aumenta para favorecer puntos de vista cercanos en comparacion con vistas de alejamiento grandes. Los otros componentes de u tratan de preferencias de camara, y se definen a continuacion, mientras se describe la segunda etapa de la invencion.

o La funcion a(.) refleja la penalizacion inducida por el hecho de que la senal nativa capturada mediante la kesima camara tiene que sub-muestrearse una vez que el tamano del punto de vista se hace mayor que la resolucion maxima Ures permitida mediante el usuario. Esta funcion tipicamente se reduce con Sk. Una eleccion apropiada consiste en ajustar la funcion igual a uno cuando Sk<Ures, y hacerla reducir posteriormente. Un ejemplo de a(.) se define mediante

imagen6

donde el exponente ucercano es mayor de 1, y aumenta para favorecer puntos de vista cercanos en comparacion con campos de vision de alejamiento grandes.

Vale la pena senalar que los equilibrios reflejados en la ecuacion anterior pueden formularse en muchas maneras diferentes pero equivalentes. Un ejemplo de formulacion alternativa, pero equivalente, se ha implementado en la realizacion de la invencion definida en el apendice 1. En esta formulacion la suma del producto se ha sustituido por un producto de sumas, sin afectar fundamentalmente a la idea clave de la invencion, que consiste en equilibrar cercania y completitud de acuerdo con las restricciones del usuario (con respecto a resolucion de salida) y preferencias (con respecto a puntos de vista de alejamiento o acercamiento).

La segunda etapa puntua el punto de vista asociado a cada camara de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones. La puntuacion mas alta deberia corresponder a una vista que (1) hace a la mayoria del objeto de interes visible, y (2) esta cerca de la accion, que significa que presenta objetos importantes con muchos detalles, es decir a alta resolucion.

Formalmente, dado el interes In de cada jugador, la puntuacion k(vk, u) asociada a la kesima vista de camara se define como sigue:

imagen7

En la ecuacion anterior:

■ Xn indica la posicion del nesimo objeto en el espacio en 3D;

5

10

15

20

25

30

35

40

45

50

55

60

■ Ok(Xn| x) mide la relacion de oclusion del nesimo objeto en la vista de la camara k; conociendo la posicion de todos los otros objetos. La relacion de oclusion de un objeto se define para que sea la fraccion de pfxeles del objeto que se ocultan por otros objetos cuando se proyectan en el sensor de la camara;

■ La altura hk(Xn) se define para que sea la altura en pfxeles de la proyeccion en la vista k de un objeto vertical de 182,88 centfmetros (seis pies) de alto localizado en Xn. 182,88 centfmetros (seis pies) es la altura media de los jugadores.

El valor de hk(Xn) se calcula directamente basandose en la calibracion de la camara. Cuando la calibracion no esta disponible, puede estimarse basandose en la altura del objeto detectado en la vista k.

■ La funcion $<(.) refleja el impacto de las preferencias de usuario en terminos de vista de camara y resolucion de visualizacion. Formalmente, $<(.) puede definirse como

imagen8

donde Uk indica el peso asignado a la kesima camara, y a(S,u) se define como anteriormente.

Similar a lo que se ha contado acerca de la primera etapa, vale la pena mencionar que puede imaginarse la formulacion alternativa de la misma idea basica. Por ejemplo, la realizacion de la invencion que se describe en el apendice 1 define la funcion para maximizar basandose en el producto de un factor de cercanfa con un factor de completitud, midiendo cada factor una suma ponderada de resolucion y visibilidad de objeto individual. Por lo tanto, sustituye la suma del producto por un producto de sumas, pero sigue aun la misma idea basica de tener en cuenta las preferencias de usuario mientras equilibra dos terminos antagonistas, que refleja el concepto de cercanfa y completitud, respectivamente.

De manera similar, una formulacion basandose en la suma ponderada de dos terminos que reflejan los conceptos de la cercanfa y la completitud anteriormente descritos es tambien una realizacion de la presente invencion.

La tercera y ultima etapa consiste en suavizar la secuencia de los fndices de camara y parametros de puntos de vista correspondientes.

En la realizacion propuesta de la invencion, el proceso de suavizado se implementa basandose en la definicion de dos Campos Aleatorios de Markov (vease la Figura 5, y la descripcion de la realizacion a continuacion). Otras realizaciones se pueden fundamentar asimismo en cualquier mecanismo de filtrado de paso bajo lineal o no lineal para suavizar la secuencia de fndices de camara y parametros de punto de vista. El suavizado podrfa hacerse tambien a traves de un formalismo de modelo de grafo, resuelto basandose en el algoritmo Viterbi convencional. En ese caso, los vertices del grafo corresponderfan a parametros de representacion candidatos para un fotograma dado, mientras que los bordes conectarfan estados de representacion candidatos a lo largo del tiempo. El coste asignado a cada borde reflejarfa la perturbacion inducida por un cambio de parametros de representacion entre dos fotogramas consecutivos.

El sistema y metodo de produccion de vfdeo automatizado incluye tambien un director virtual, por ejemplo un modulo de vector virtual para seleccionar y determinar cual de las multiples corrientes de vfdeo de camara es una corriente de camara actual para visualizarse. El director virtual, en cada instante de tiempo, y para cada vista de camara, selecciona las variaciones en parametros, por ejemplo en parametros de recorte que optimizan el equilibrio entre completitud y cercanfa. El equilibrio completitud/cercanfa se mide como una funcion de preferencias de usuario. Por ejemplo, dependiendo de la resolucion en la que un usuario accede al contenido producido, un usuario puede preferir un punto de vista pequeno (acercamiento) o uno grande (alejamiento). El modulo de director virtual tambien puntua el punto de vista seleccionado en cada vista de camara de acuerdo con la calidad (en terminos de preferencias de usuario) de su equilibrio de completitud/cercanfa, y a su grado de oclusiones. Finalmente el modulo de director virtual calcula los parametros de una camara virtual optima que realiza panoramica, zoom y cambia a traves de las vistas para el segmento temporal disponible, para conservar altas puntuaciones de puntos de vista seleccionados mientras se minimiza la cantidad de movimientos de camara virtual.

Se experimenta que los puntos de vista seleccionados por el director virtual, de acuerdo con las realizaciones de la presente invencion, basandose en las funciones anteriores, coinciden con las expectativas del usuario final. Incluso mas, ensayos subjetivos revelan que los observadores prefieren en general los puntos de vista seleccionados basandose en el sistema automatico que los seleccionados por un productor humano. Esto se explica parcialmente mediante la fuerte carga impuesta al operador humano cuando el numero de camaras aumenta. Por lo tanto, la presente invencion tambien mitiga el cuello de botella experimentado por un operador huando, cuando procesa conjuntamente y de manera simultanea un gran numero de camaras de origen.

5

10

15

20

25

30

35

40

45

50

55

60

65

Breve descripcion de las figuras

Figura 1: flujo de trabajo jerarquico

Figura 2: estructura jerarquica

Figura 3: funcion de ponderacion

Figura 4: comportamiento de seleccion de punto de vista

Figura 5: modelo de estimacion de dos etapas de movimiento de punto de vista

Figura 6: pianos de camara

Figura 7: vistas de muestra desde camaras

Figura 8: clip de video corto

Figura 9: secuencias de punto de vista

Figura 10: comportamiento de secuencia de camara/punto de vista Figura 11: comparacion de secuencias de camara y de punto de vista Figura 12: fotogramas en secuencias generadas Figura 13: comparacion de secuencias de camara generadas Figura 14: realizacion de 3 etapas, de la presente invencion Figura 15: realizacion de divide y venceras de la presente invencion Figura 16: uso de mascaras para deteccion

Se muestran dibujos adicionales en el apendice 2. Estos dibujos hacen referencia al apendice 2 y el texto del apendice 2 deberia leerse junto con estos dibujos y las referencias especificas a este apendice.

Descripcion detallada de la presente invencion

La presente invencion proporciona metodos y sistemas basados en ordenador para la generacion rentable y autonoma de contenidos de video desde multiples datos detectados incluyendo la extraccion automatica de contenidos inteligentes desde una red de sensores distribuidos alrededor de la escena disponible. En este punto, contenidos inteligentes se refiere a la identificacion de segmentos sobresalientes en el contenido audiovisual, usando algoritmos de analisis de escena distribuidos. Este conocimiento puede aprovecharse para automatizar la produccion y personalizar el resumen de contenidos de video.

Sin perdida de generalidad y sin limitar la presente invencion, unicamente se describiran principalmente camaras estaticas como una realizacion ilustrativa.

Una entrada son las posiciones de los objetos de interes. Para identificar segmentos sobresalientes en el contenido de video en bruto, se considera analisis de multiples camaras, en el cual la deteccion de objetos relevantes tales como metodos de deteccion de personas que se basan en que puede usarse la fusion de la informacion de probabilidad de primer plano calculada en cada vista. El analisis multi-vista puede superar obstaculos tradicionales tales como oclusiones, sombras e iluminacion cambiante. Esto es en contraste con el analisis de senal de sensor unico, que se somete en ocasiones a ambiguedades de interpretacion, debido a la ausencia de modelo preciso de la escena, y a configuraciones de escena adversas coincidentes.

De acuerdo con algunas realizaciones de la presente invencion, las posiciones de los objetos de interes se suponen que se conocen (al menos parcialmente) como una funcion del tiempo. Por ejemplo, las realizaciones de la presente invencion infieren este conocimiento desde el analisis de los campos de luz capturados mediante un conjunto distribuido de camaras estaticas. En una realizacion de este tipo puede calcularse una mascara de ocupacion de superficie uniendo la probabilidad de primer plano medida en cada vista. Las posiciones de jugador reales pueden deducirse a continuacion a traves de un proceso voraz iterativo y sensible a oclusion. El analisis multi-vista puede usarse para proporcionar las entradas requeridas al metodo y sistema de produccion de deporte de equipo autonomo de la presente invencion y se describe en el articulo “Detection and Recognition of Sports(wo)men from Multiple Views”, D. Delannay, N. Danhier, y C. De Vleeschouwer, Third ACM/IEEE International Conference on

5

10

15

20

25

30

35

40

45

50

55

60

65

Distributed Smart Cameras, Como, Italia, septiembre de 2009 se incorpora en el presente documento por referenda en su totalidad como el apendice 2.

Las realizaciones de la presente invencion continuan a continuacion en dos etapas.

En una primera etapa, dadas las posiciones de cada objeto de interes con el tiempo, la invencion selecciona un conjunto de denominados parametros relevantes para representar la escena de interes como una funcion del tiempo, usando una camara localizada en un punto que puede ser cualquier punto en 3D arbitrario alrededor de la accion.

En este punto, los parametros de representacion definen un campo de vision para la camara, y dependen de la infraestructura de la camara que se ha desplegado para capturar las imagenes de la escena. Por ejemplo, las realizaciones de la presente invencion hacen uso de una camara fija, y los parametros de representacion definen como recortar sub-imagenes en la vista de la camara. En otras realizaciones puede usarse una camara articulada y motorizada, y los parametros de representacion puede a continuacion hacer referencia a los parametros de panoramica, inclinacion y zoom de la camara. La nocion de parametros relevantes tiene que hacerse con la definicion de informativo, es decir visualizar las personas y objetos de interes, e imagenes perceptualmente agradables.

En una segunda etapa, las realizaciones de la presente invencion suponen que multiples camaras (PTZ) estan distribuidas alrededor de la escena, y se determina a continuacion como seleccionar la camara correcta para representar la accion en un tiempo dado. Esto se hace seleccionando o promoviendo camaras informativas, y evitando el cambio perceptualmente inoportuno entre camaras.

Juntos el indice de camara y su campo de vision definen el punto de vista para representar la accion.

Para producir resumenes de video semanticamente significativos y perceptualmente comodos basandose en la extraccion o interpolacion de imagenes desde el contenido en bruto, la presente invencion introduces tres conceptos fundamentales, es decir “completitud”, “suavidad” y cercania (o “precision”), para resumir el requisito de semantica y narrativa de los contenidos de video. Basandose en estos conceptos, puede determinarse la seleccion de puntos de vista de camara y la de los segmentos temporales en el resumen, siendo estos dos problemas de optimizacion independientes.

• Completitud establece tanto la integridad de la vista que representa en la seleccion de camara/punto de vista, como la de la narrativa al resumir. Un punto de vista de alta completitud incluye mas objetos sobresalientes, mientras que una historia de alta completitud consiste en mas acciones clave.

• Suavidad se refiere al desplazamiento elegante del punto de vista de la camara virtual, y a la narrativa continua resultante de la seleccion de segmentos temporales contiguos. Conservar la suavidad es importante para evitar distraer al observador de la historia por cambios abruptos de puntos de vista o saltos temporales constantes (Owen, 2007).

• Cercania o precision se refiere a la cantidad de detalles proporcionados acerca de la accion representada. Espacialmente, favorece vistas cercanas. Temporalmente, implica narrativa redundante, que incluye repeticiones. Aumentar la precision de un video no mejora unicamente la experiencia de visualizacion, sino que tambien es esencial en guiar la implicacion emocional de los observadores mediante tomas de cerca.

De acuerdo con las realizaciones de la presente invencion estos tres conceptos se optimizan, por ejemplo se maximizan para producir un contenido significativo y visualmente agradable. En la practica, la maximizacion de los tres conceptos puede dar como resultado decisiones en conflicto, bajo algunas restricciones de recursos limitados, tipicamente expresado en terminos de la resolucion espacial y duracion temporal del contenido producido. Por ejemplo, una resolucion de video de salida fija, que aumenta la completitud generalmente induce puntos de vista mas grandes, que a su vez reduce la precision de objetos sobresalientes. De manera similar, la suavidad aumentada de movimiento de punto de vista evita la busqueda precisa de acciones de interes a lo largo del tiempo. Las mismas observaciones se mantienen con respecto a la seleccion de segmentos y a la organizacion de historias a lo largo del tiempo, bajo algunas restricciones de duracion globales.

Por consiguiente, las realizaciones de la presente invencion relacionadas con metodos y sistemas basados en ordenador proporcionan un buen equilibrio entre los tres factores principales. Por ejemplo, se definen metricas cuantitativas para reflejar completitud, precision/cercania. La optimizacion restringida puede usarse a continuacion para equilibrar estos conceptos.

Ademas, para eficacia computacional mejorada, se preven tanto la produccion como el resumen en el paradigma de divide y venceras (vease la figura 15). Esto tiene sentido especialmente puesto que los contenidos de video tienen intrinsecamente una estructura jerarquica, que empieza desde cada fotograma, tomas (conjunto de fotogramas consecutivos creados por un trabajo de camara similar), a segmentos semanticos (tomas consecutivas relacionadas logicamente a la accion identica), y finalizar con la secuencia global.

5

10

15

20

25

30

35

40

45

50

55

60

Por ejemplo, un fotograma de tiempo de evento puede cortarse en primer lugar en segmentos temporales semanticamente significativos, tales como una ronda de ataque/defensa de deportes de equipo, o una entrada en noticias. Para cada segmento, se consideran varias opciones narrativas. Cada opcion define una historia local, que consiste en multiples tomas con diferente cobertura de camara. Una historia local no incluye unicamente tomas para representar la accion global disponible, sino tambien tomas para fines explicativos y decorativos, por ejemplo, repeticiones y vistas de cerca en deportes o datos de graficos en noticias. Dadas las indicaciones de tiempo y la estrategia de produccion (vista de cerca; repeticion, etc.) de las tomas que componen una opcion narrativa, el trabajo de camara asociado a cada toma se planea automaticamente, teniendo en cuenta el conocimiento inferido acerca de la escena mediante los modulos de analisis de video.

Los beneficios y costes se asignan a continuacion a cada historia local. Por ejemplo, el coste puede corresponder simplemente a la duracion del resumen. El beneficio refleja la satisfaccion del usuario (bajo algunas preferencias individuales), y mide como se satisfacen algunos requisitos generales, por ejemplo, la continuidad y completitud de la historia. Estos pares de beneficios y costes se alimentan a continuacion en un motor de resumen, que resuelve un problema de asignacion de recursos para encontrar la organizacion de historias locales que consiguen el mejor beneficio bajo la duracion de resumen restringida.

La planificacion del trabajo de camara se describira con referencia a un ejemplo, por ejemplo produccion de video de baloncesto de videos de deportes de equipo. Aunque es extensible a otros contextos (por ejemplo, control de camara de PTZ), el proceso se ha disenado para seleccionar que fraccion de la camara deberia recortarse en un conjunto distribuido de camaras fijas para representar la escena disponible de una manera semanticamente significativa y visualmente agradable suponiendo el conocimiento de las posiciones de los jugadores.

Etapa 1: seleccion de punto de vista a nivel de camara

En cada instante de tiempo y en cada vista, se supone que se conocen los apoyos de los jugadores, y seleccionan los parametros de recorte que optimizan el equilibrio entre completitud y precision.

Formalmente, un punto de vista v/, en la kesima vista de camara del i-esimo fotograma se define mediante el tamano Ski y el centro c# de la ventana que se recorta en la kesima vista para visualizacion real. Se ha de seleccionar para que incluya los objetos de interes, y proporcione una descripcion precisa, es decir a alta resolucion, de estos objetos. Si hay N objetos sobresalientes en este fotograma, y la localizacion del nesimo objeto en la kesima vista se indica mediante Xnki, seleccionamos el punto de vista optimo v/*, maximizando una suma ponderada de los objetos de interes como sigue:

imagen9

imagen10

imagen11

En la ecuacion anterior:

o In indica el nivel de interes asignado al nesimo objeto detectado en la escena. Observese que asignar pesos distintos a jugadores de deporte de equipo permite centrarse en un jugador preferido, pero tambien implica el reconocimiento de cada jugador. Un peso de unidad puede asignarse a todos los jugadores, produciendo de esta manera un video que representa la accion de deporte de equipo global.

o El vector u refleja las restricciones y preferencias de usuario en terminos de resolucion de punto de vista y vista de camara, u=[ucercano ures {u/}]. En particular, su componente des define la resolucion de la corriente de salida, que esta generalmente restringida por el ancho de banda de transmision o la resolucion del dispositivo del usuario final. Su componente ucercano se establece a un valor mayor de 1, y aumenta para favorecer puntos de vista cercanos en comparacion con vistas de alejamiento grandes. Los otros componentes de u se tratan de preferencias de camara, y se definen en la segunda etapa a continuacion.

o La funcion a(.) modula los pesos de los objetos de acuerdo con su distancia al centro del punto de vista, en comparacion con el tamano de esta ventana. De manera intuitiva, el peso deberia ser alto y positivo cuando el objeto de interes esta localizado en el centro de la ventana de visualizacion, y deberia ser negativo o cero cuando el objeto radica fuera del area de visualizacion. Muchos casos son apropiados, por ejemplo, la funcion de sombrero mexicano bien conocida.

o La funcion fi{.) refleja la penalizacion inducida por el hecho de que la senal nativa capturada mediante la kesima camara tiene que sub-muestrearse una vez que el tamano del punto de vista se hace mayor que la resolucion maxima des permitida mediante el usuario. Esta funcion tipicamente se reduce con S/. Una eleccion apropiada consiste en establecer la funcion igual a uno cuando S^ < des, y en hacerla reducir posteriormente. Un ejemplo de 0(.) se define mediante:

5

10

15

20

25

30

35

40

45

50

55

imagen12

donde ucercano > 1 aumenta para favorecer puntos de vista cercanos en comparacion con vistas de alejamiento grandes.

Etapa 2: seleccion de camara a nivel de fotograma

El punto de vista seleccionado en cada vista se puntua de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones. La puntuacion mas alta deberia corresponder a una vista que (1) hace a la mayoria del objeto de interes visible, y (2) esta cerca de la accion, que significa que presenta objetos importantes con muchos detalles, es decir a alta resolucion.

Formalmente, dado el interes In de cada jugador, la puntuacion Ik(vki, u) asociada a cada vista de camara se define como sigue:

imagen13

En la ecuacion anterior:

■ u* indica el peso asignado a la kesima camara, mientras ay Pse definen como en la primera etapa anterior.

■ I* ) mide la relacion de oclusion del nesimo objeto en la vista de camara k, conociendo la posicion de todos los otros objetos. La relacion de oclusion de un objeto se define para que sea la fraccion de pixeles del objeto que estan ocultos por otros objetos cuando se proyectan en el sensor de la camara.

■ La altura hk(Xnki) se define para que sea la altura en pixeles de la proyeccion en la vista k de un objeto vertical de 182,88 centimetros (seis pies) de alto localizado en Xnki. 182,88 centimetros (seis pies) es la altura media de los jugadores. El valor de hk(Xnki) se calcula directamente basandose en la calibracion de la camara. Cuando la calibracion no esta disponible, puede estimarse basandose en la altura del objeto detectado en la vista k.

Etapa 3: suavizado de secuencias de camara/punto de vista.

Para el segmento temporal disponible, se calculan los parametros de una camara virtual optima que realiza panoramica, zoom y cambia a traves de las vistas para conservar altas puntuaciones de puntos de vista seleccionados mientras se minimiza la cantidad de movimientos de camara virtual.

El proceso de suavizado puede implementarse basandose en la definicion de dos Campos Aleatorios de Markov. En primer lugar, se toma como datos observados en la i-esima imagen y suponiendo que son salidas de ruido deformado de algun resultado suave subyacente v*. Dada la secuencia de punto de vista suave recuperada para cada camara, se calculan las ganancias de camara Ik(vki, u) de estos puntos de vista deducidos, y se infiere una secuencia de camara suave desde el segundo campo de Markov realizando las probabilidades P(k|vw, u) de cada camara proporcionales a las ganancias Ik(vki, u).

En comparacion con filtros de suavizado gaussianos sencillos, esto posibilita suavizado adaptativo estableciendo diferente intensidad de suavizado en cada fotograma individual. Adicionalmente, el suavizado ligero iterativo en nuestro metodo puede conseguir resultados mas suaves que el suavizado intenso de una pasada.

La deteccion y reconocimiento de jugador multi-vista se obtiene en una produccion autonoma de contenido visual basandose en la deteccion (y reconocimiento) del objeto de interes en la escena.

La probabilidad de primer plano se calcula independientemente en cada vista, usando tecnicas de modelado de segundo plano convencionales. Estas probabilidades se fusionan a continuacion proyectandolas en el plano de superficie, definiendo de esta manera un conjunto de denominadas mascaras de ocupacion de superficie. El calculo de la mascara de ocupacion de superficie asociada a cada vista es eficaz, y estas mascaras se combinan y procesan para inferir la posicion real de los jugadores.

Formalmente, el calculo de la mascara de ocupacion de superficie Gk asociada a la kesima vista se describe como sigue. En un momento dado, la kesima vista es la fuente de una imagen de probabilidad de primer plano Fk e[0,1]Mk,

5

10

15

20

25

30

35

40

45

50

55

60

65

donde Mk es el numero de pixeles de la camara k, 0 < k< C.

Debido a la suposicion de la verticalidad del jugador, los segmentos de linea vertical anclados en posiciones ocupadas en el plano de superficie soportan una parte del objeto detectado, y por lo tanto proyectan hacia atras en siluetas de primer plano en cada vista de camara. Por lo tanto, para reflejar la ocupacion de superficie en x, el valor de Gk en x se define para que sea la integracion de la proyeccion (hacia delante) de Fk en un segmento vertical anclado en x. Evidentemente, esta integracion puede calcularse de manera equivalente en Fk, a lo largo de la proyeccion hacia atras del segmento vertical anclado en x. Esto es en contraste a metodos que calculan la mascara agregando las proyecciones de la probabilidad de primer plano en un conjunto de planos que son paralelos a la superficie.

Para acelerar los calculos asociados a nuestra formulacion, se observa que, a traves de una transformacion apropiada de Fk, es posible conformar el dominio de integracion proyectado hacia atras de modo que corresponde tambien a un segmento vertical en la vista transformada, haciendo de esta manera el calculo de integrales particularmente eficaz a traves del principio de imagenes integrales. La transformacion se ha disenado para tratar un doble objetivo. En primer lugar, los puntos del espacio en 3D localizado en la misma linea vertical tienen que proyectarse en la misma columna en la vista transformada (punto de fuga vertical en el infinito). En segundo lugar, los objetos verticales que permanecen en la superficie y cuyos pies se proyectan en la misma linea horizontal de la vista transformada tienen que mantener las mismas relaciones de alturas proyectadas. Una vez que se cumple la primera propiedad, los puntos en 3D que pertenecen a la linea vertical que permanecen por encima de un punto dado desde el plano de superficie proyectan simplemente en la columna de la vista transformada que permanece por encima de la proyeccion del punto de plano de superficie en 3D. Por lo tanto, G*(x) se calcula simplemente como la integral de la vista transformada sobre este segmento proyectado hacia atras vertical. La conservacion de la altura a lo largo de las lineas de la vista transformada incluso simplifica adicionalmente los calculos.

Para las vistas laterales, estas dos propiedades pueden conseguirse moviendo virtualmente (a traves de transformaciones de homografia) la direccion de visualizacion de la camara (eje principal) para proporcionar el punto de fuga vertical en el infinito y asegurar que la linea del horizonte es horizontal. Para las vistas superiores, el eje principal se establece perpendicular a la superficie y se realiza un mapeo polar para conseguir las mismas propiedades. Observese que en algunas configuraciones geometricas, estas transformaciones pueden inducir sesgado fuerte de las vistas.

Dadas las mascaras de ocupacion de superficie Gk para todas las vistas, explicamos ahora como inferir la posicion de las personas que permanecen en la superficie. A priori, en un contexto de deporte de equipo, sabemos que (i) cada jugador induce un grupo denso en la suma de mascaras de ocupacion de superficie, y (ii) el numero de personas a detectar es igual a un valor conocido N, por ejemplo N = 12 para baloncesto (10 jugadores + 2 arbitros).

Por esta razon, en cada localizacion de superficie x, consideramos la suma de todas las proyecciones - normalizadas por el numero de vistas que realmente cubren x-, y averiguamos los puntos de intensidad superiores en esta mascara de ocupacion de superficie agregada. Para localizar estos puntos, consideramos en primer lugar un enfoque voraz inicial que es equivalente a un procedimiento de busqueda de coincidencia iterativa. En cada etapa, el proceso de busqueda de coincidencia maximiza el producto interno entre un nucleo gaussiano traducido, y la mascara de ocupacion de superficie agregada. La posicion del nucleo que induce el producto interno mayor define la posicion del jugador. Antes de ejecutar la siguiente iteracion, la contribucion del nucleo gaussiano se resta de la mascara agregada para producir una mascara residual. El proceso se itera hasta que se han localizado suficientes jugadores.

Este enfoque es sencillo, pero sufre de muchas falsas detecciones en la interseccion de las proyecciones de distintas siluetas de jugadores desde diferentes vistas. Esto es debido al hecho de que las oclusiones no inducen linealidades en la definicion de la mascara de ocupacion de superficie. En otras palabras, la mascara de ocupacion de superficie de un grupo de jugadores no es igual a la suma de mascaras de ocupacion de superficie proyectadas por cada jugador individual. El conocimiento acerca de la presencia de algunas personas en el campo de superficie afecta al valor informativo de las mascaras de primer plano en estas localizaciones. En particular, si la linea vertical asociada a una posicion x es ocluida por/ocluye otro jugador cuya presencia es muy probable, esta vista particular no deberia aprovecharse para decidir si hay un jugador en x o no.

Un refinamiento implica imcializar el proceso definiendo Gk1(x) = Gk(x) para que sea la mascara de ocupacion de superficie asociada a la kesima vista, y establecer Wk1(x) a 1 cuando x se cubre mediante la kesima vista, y a 0 de otra manera.

Cada iteracion se ejecuta a continuacion en dos etapas. En la iteracion n, la primera etapa busca la posicion mas probable del nesimo jugador, conociendo la posicion de los (n-1) jugadores localizados en interacciones anteriores. La segunda etapa actualiza las mascaras de ocupacion de superficie de todas las vistas para eliminar la contribucion del jugador recien localizado.

Formalmente, la primera etapa de la iteracion n agrega la mascara de ocupacion de superficie desde todas las

5

10

15

20

25

30

35

40

45

50

55

vistas, y a continuacion busca el grupo mas denso en esta mascara. Por lo tanto, calcula la mascara agregada como:

imagen14

y a continuacion define la posicion mas probable Xn para el nesimo jugador mediante

xn = argmax<Gn ,tp(y)>

y '

donde ^(y) indica un nucleo gaussiano centrado en y, y cuyo apoyo espacial corresponde a la anchura tipica de un jugador.

En la segunda etapa, la mascara de ocupacion de superficie de cada vista se actualiza para tener en cuenta la presencia del nesimo jugador. En la posicion de superficie x, consideramos que el apoyo tipico de una silueta de jugador en la vista k es un cuadro rectangular de anchura W y altura H, y observamos que la parte de la silueta que ocluye o es ocluida por el jugador recien detectado no proporciona ninguna informacion acerca de la presencia potencial de un jugador en la posicion x. Se estima la fraccion (pk(x, Xn) de la silueta en la posicion de superficie x que se hace no informativa en la kesima vista, como consecuencia de la presencia de un jugador en ^xn. Se propone a continuacion actualizar la mascara de ocupacion de superficie y el peso de agregacion de la kesima camara en la posicion x como sigue:

Gr (*) - max(0,G; (x)-(x,x„).G\ (x„)},

<+' (*) = max (0, wnk {x)-<pk (x, x„ )).

Para eficacia computacional mejorada, las posiciones x investigadas en el enfoque refinado se limitan al maximo local 30 que se han detectado por el enfoque inicial.

Por completitud, se observa que el procedimiento de actualizacion anteriormente descrito omite la interferencia potencial entre oclusiones producidas por distintos jugadores en la misma vista. Sin embargo, la consecuencia de esta aproximacion esta lejos de ser drastica, puesto que finaliza omitiendo parte de la informacion que fue significativa para evaluar la ocupacion en posiciones ocluidas, sin afectar a la informacion que se aprovecha realmente. Tener en cuenta estas interferencias requeriria proyectar hacia atras las siluetas del jugador en cada vista, tendiendo de esta manera hacia un enfoque caro computacionalmente y en memoria. El metodo y sistema de la presente invencion no sufre de la debilidad habitual de los algoritmos voraces, tal como una tendencia engancharse en malos minimos locales.

Los beneficios tecnicos principales de la presente invencion incluyen al menos uno o una combinacion de:

• La capacidad de recortar pixeles apropiados en la memoria de imagen y/o controlar una PTZ motorizada, para representar una accion de equipo, es decir una accion que implica multiples objetos/personas de interes en movimiento, desde un punto en 3D arbitrario.

• La capacidad para (i) controlar la seleccion del campo de vision mediante la camara individual, y (ii) seleccionar una mejor camara en un conjunto de camaras. Tal capacidad hace posible manejar un numero potencialmente muy grande de camaras simultaneamente. Esto es especialmente cierto puesto que la seleccion de parametros de representacion para una camara particular puede calcularse independientemente de otras camaras.

• La posibilidad de reproducir y por lo tanto personalizar tecnicamente el proceso de seleccion de punto de vista de acuerdo con preferencias de usuario individuales. Por ejemplo, en el contexto de un evento deportivo, los entrenadores (que prefieren puntos de vista grandes que muestran todo el juego) tienen diferentes expectativas con respecto a la seleccion de punto de vista que el espectador comun (que prefiere imagenes mas cercanas y emocionalmente mas ricas). Por lo tanto estas preferencias estan directamente relacionadas con parametros tecnicos de como se controlan las camaras. Automatizar el proceso de produccion proporciona una solucion tecnica a lo que equivale contestar a solicitudes individuales.

La presente invencion incluye en su alcance mejoras adicionales. La presente invencion incluye otros criterios para seleccion de puntos de vista computacionalmente eficaces y/o que pueden resolverse analiticamente. Incluye

5

10

15

20

25

30

35

40

45

50

55

60

65

tambien mejor representacion de objetos sobresalientes tal como usar particulas en movimiento o modelos de cuerpo flexible en lugar de simples cuadros delimitadores. Adicionalmente, la seleccion y suavizado de puntos de vista y camaras en cuatro sub-etapas en la version actual simplifica la formulacion. Sin embargo, pueden resolverse en una estimacion unificada puesto que sus resultados afectan unos a los otros. La presente invencion incluye tambien otros criterios de seleccion de puntos de vista y camaras independientes de evaluaciones subjetivas.

El aprovechamiento de una red distribuida de camaras para aproximar las imagenes que se capturarian mediante un sensor virtual localizado en una posicion arbitraria, con cobertura de punto de vista arbitraria puede usarse con cualquiera de las realizaciones de la presente invencion. La presente invencion puede usarse con estos trabajos, puesto que de acuerdo con la presente invencion se realiza una seleccion del punto de vista mas apropiado en un conjunto/espacio de puntos de vista candidatos. Por lo tanto, la adicion de algoritmos de representacion de punto de vista libre a las realizaciones de la presente invencion simplemente contribuye a ampliar el conjunto de candidatos potenciales.

Los metodos y el sistema de la presente invencion pueden implementarse en un sistema informatico que puede utilizarse con los metodos y en un sistema de acuerdo con la presente invencion que incluye programas informaticos. Un ordenador puede incluir un terminal de visualizacion de video, unos medios de entrada de datos tales como un teclado, y una interfaz de usuario grafica que indica medios tales como un raton. El ordenador puede implementarse como un ordenador de fin general, por ejemplo una estacion de trabajo UNIX o un ordenador personal.

Tipicamente, el ordenador incluye una Unidad de Procesamiento Central (“CPU”), tal como un microprocesador convencional del cual un procesador Pentium suministrado por Intel Corp. Estados Unidos es unicamente un ejemplo, y un numero de otras unidades interconectadas mediante un sistema de bus. El sistema de bus puede ser cualquier sistema de bus adecuado. El ordenador incluye al menos una memoria. La memoria puede incluir cualquiera de una diversidad de dispositivos de almacenamiento de datos conocidos para el experto en la materia tal como memoria de acceso aleatorio (“RAM”), memoria de solo lectura (“ROM”), memoria de lectura/escritura no volatil tal como un disco duro como se conoce por el experto en la materia. Por ejemplo, el ordenador puede incluir adicionalmente memoria de acceso aleatorio (“RAM”), memoria de solo lectura (“RoM”), asi como un adaptador de visualizacion para conectar el bus de sistema a un terminal de visualizacion de video, y un adaptador de entrada/salida (I/O) opcional para conectar dispositivos perifericos (por ejemplo, unidades de disco y cinta) al bus de sistema. El terminal de visualizacion de video puede ser la salida visual del ordenador, que puede ser cualquier dispositivo adecuado tal como una pantalla de video basada en CRT bien conocida en la tecnica de hardware informatico. Sin embargo, con un ordenador de sobremesa, un ordenador portable o basado en portatil, el terminal de visualizacion de video puede sustituirse por una pantalla de panel plano basada en LCD o basada en un plasma de gas. El ordenador incluye adicionalmente un adaptador de interfaz de usuario para conectar un teclado, raton, altavoz opcional. El video relevante requerido puede introducirse directamente en el ordenador mediante una interfaz de graficos de video o desde dispositivos de almacenamiento, despues de lo cual un procesador lleva a cabo un metodo de acuerdo con la presente invencion. Los datos de video relevantes pueden proporcionarse en un medio de almacenamiento de senal adecuado tal como un disquete, un disco duro reemplazable, un dispositivo de almacenamiento optico tal como un CD-ROM o DVD-ROM, una cinta magnetica o similar. Los resultados del metodo pueden transmitirse a una localizacion cercana o remota adicional. Un adaptador de comunicaciones puede conectar el ordenador a una red de datos tal como internet, una intranet, una red de area local o amplia (LAN o WAN) o una CAN.

El ordenador incluye tambien una interfaz de usuario grafica que reside en el medio legible por maquina para dirigir la operacion del ordenador. Cualquier medio legible por maquina adecuado puede retener la interfaz de usuario grafica, tal como una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), un disquete magnetico, cinta magnetica, o disco optico (estando localizados los ultimos tres en unidades de disco y de cinta). Cualquier sistema operativo adecuado e interfaz de usuario grafica asociada (por ejemplo, Microsoft Windows, Linux) pueden dirigir la CPU. Ademas, el ordenador incluye un programa de control que reside en el almacenamiento de memoria informatica. El programa de control contiene instrucciones que cuando se ejecutan en la CPU permiten al ordenador llevar a cabo las operaciones descritas con respecto a cualquiera de los metodos de la presente invencion.

La presente invencion proporciona tambien un producto de programa informatico para llevar a cabo el metodo de la presente invencion y este puede residir en cualquier memoria adecuada. Sin embargo, es importante que mientras que la presente invencion haya sido, y continuara siendo, que los expertos en la materia apreciaran que los mecanismos de la presente invencion pueden distribuirse como un producto de programa informatico en una diversidad de formas, y que la presente invencion se aplica igualmente independientemente del tipo particular de senal que lleve el medio usado para llevar a cabo realmente la distribucion. Ejemplos de medios portadores de senal legible por ordenador incluyen: medio de tipo grabable tal como discos flexibles y CD ROM y medio de tipo de transmision tal como enlaces de comunicacion digitales y analogicos. Por consiguiente, la presente invencion incluye tambien un producto de software que cuando se ejecuta en un dispositivo informatico adecuado lleva a cabo cualquiera de los metodos de la presente invencion. El software adecuado puede obtenerse programando en un lenguaje de alto nivel adecuado tal como C y compilando en un compilador adecuado para el procesador informatico

5

10

15

20

25

30

35

40

45

50

55

60

65

objetivo o en un lenguaje interpretado tal como Java y a continuacion compilarse en un compilador adecuado para implementacion con la Maquina Virtual Java.

La presente invencion proporciona software, por ejemplo un programa informatico que tiene segmentos de codigo que proporcionan un programa que, cuando se ejecuta en un motor de procesamiento, proporciona un modulo de director virtual. El software puede incluir segmentos de codigo que proporcionan, cuando se ejecutan en el motor de procesamiento: cualquiera de los metodos de la presente invencion o implementar cualquiera de los medios de sistema de la presente invencion.

Otros aspectos y ventajas de la presente invencion asi como un entendimiento mas completo de la misma seran evidentes a partir de la siguiente descripcion tomada junto con las figuras embebidas y adjuntas, que ilustran a modo de ejemplo los principios de la invencion. Ademas, se pretende que el alcance de la invencion este determinado mediante las reivindicaciones adjuntas y no mediante el resumen anterior o la siguiente descripcion detallada.

Apendice 1

1. Introduccion

Dirigir la produccion de contenidos semanticamente significativos y perceptualmente comodos desde multiples datos detectados en bruto, proponemos un sistema de produccion computacionalmente eficaz, basandose en el paradigma de divide y venceras. Resumimos factores principales de nuestro objetivo mediante tres palabras clave, que son “completitud”, “cercania” y “suavidad”. La completitud establece la integridad de representacion de vista. La cercania define la precision de descripcion de detalle, y la suavidad es un termino que hace referencia a la continuidad de tanto el movimiento de punto de vista como la narrativa. Equilibrando entre estos factores, desarrollamos metodos para seleccionar puntos de vista optimos y camaras para ajustar la resolucion de visualizacion y otras preferencias de usuario, y para suavizar estas secuencias para una narrativa continua y elegante. Hay una lista larga de posibles preferencias de usuario, tales como perfil de usuario, historial de exploracion del usuario, y capacidades del dispositivo. Resumimos las preferencias de narrativa en cuatro descriptores, es decir, equipo preferido del usuario, jugador preferido del usuario, evento preferido del usuario y camara preferida del usuario. Todas las restricciones del dispositivo, tales como resolucion de visualizacion, velocidad de red, rendimiento del decodificador, se resumen como la resolucion de visualizacion preferida. Analizamos por lo tanto principalmente las preferencias de usuario con estos cinco elementos en el presente trabajo.

La capacidad para tener en cuenta estas preferencias depende evidentemente del conocimiento capturado acerca de la escena a traves de las herramientas de analisis de video, por ejemplo, detectando que equipo esta atacando o defendiendo. Sin embargo y mas importantemente, vale la pena mencionar que nuestra estructura es generica en que puede incluir cualquier tipo de preferencias de usuario.

En la seccion 2, explicamos la estructura de estimacion de tanto seleccion como suavizado de puntos de vista y vistas de camara, y proporcionamos su formulacion e implementacion detalladas. En la seccion 3, se proporcionan mas detalles tecnicos y experimentos realizados para verificar la eficacia de nuestro sistema. Finalmente, concluimos este trabajo y enumeramos un numero de posibles rutas para investigacion futura.

2. Produccion autonoma de videos de baloncesto personalizados a partir de multiples datos detectados

Aunque es dificil definir una regla absoluta para evaluar el rendimiento de historias organizadas y puntos de vista determinados al presentar un escenario generico, la produccion de videos deportivos tiene algunos principios generales. [11] Para juegos de baloncesto, resumimos estas reglas en tres equilibrios principales.

El primer equilibrio surge de la personalizacion de la produccion. Especificamente, se origina desde el conflicto entre conservar reglas de produccion generales de videos deportivos y maximizar la satisfaccion de las preferencias de usuario. Algunas reglas basicas de produccion de video para juegos de baloncesto no podrian sacrificarse para mejor satisfaccion de las preferencias de usuario, por ejemplo, la escena debe incluir siempre la pelota, y deberia tomarse la ponderacion bien equilibrada entre el jugador dominante y el jugador preferido del usuario cuando se representa un evento.

El segundo equilibrio es el balance entre completitud y cercania de la escena representada. El interes intrinseco de los juegos de baloncesto proviene parcialmente de la complejidad del trabajo en equipo, cuya descripcion evidente requiere completitud espacial en la cobertura de la camara. Sin embargo, muchas actividades destacadas normalmente ocurren en un area de juego especifica y delimitada. Una vista cercana que acentua estas areas aumenta la implicacion emocional del publico con el juego, moviendo al publico mas ceca de la escena. La cercania se requiere tambien para generar una vista del juego con suficiente resolucion espacial bajo una situacion con recursos limitados, tales como tamano de visualizacion pequeno o recursos de ancho de banda limitados de dispositivos portatiles.

El equilibrio final equilibra la busqueda precisa de acciones de interes a lo largo del tiempo, y la suavidad del

5

10

15

20

25

30

35

40

45

50

55

60

65

movimiento del punto de vista. La necesidad para que el publico conozca la situacion general con respecto al juego a lo largo de toda la competicion es un requisito primario y el fin principal del cambio de punto de vista. Cuando mezclamos angulos de diferentes camaras para destacar u otros efectos especiales, la suavidad del cambio de camara deberia tenerse en mente para ayudar al publico a re-orientar rapidamente la situacion del juego despues de los movimientos de punto de vista. [11]

Dados los meta-datos recopilados desde los datos de video de multiples sensores, planeamos cobertura de punto de vista y cambio de camara considerando los tres equilibrios anteriores. Proporcionamos una vista general de nuestra estructura de produccion en la seccion 2.1, e introducimos algunas notaciones sobre meta-datos en la seccion 2.2. En la seccion 2.3, proponemos nuestro criterio para seleccionar punto de vista y camara en un fotograma individual. El suavizado de las secuencias de punto de vista y camara se explica en la seccion 2.4.

2.1. Vista general de la estructura de produccion

Es inevitable proporcionar discontinuidad a contenidos de narrativa cuando se cambian vistas de camara. Para suprimir la influencia de esta discontinuidad, normalmente localizamos puntos de vista drasticos o cambios de camara durante el hueco entre dos eventos destacados, para evitar la posible distraccion del publico de la historia. Por lo tanto, podemos prever nuestra produccion personalizada en el paradigma de divide y venceras, como se muestra en la Figura 1. La historia total se divide en primer lugar en varios segmentos. Los puntos de vista optimos y las camaras se determinan localmente en cada segmento equilibrando entre beneficios y costes bajo preferencias de usuario especificadas. Adicionalmente, la estimacion de la camara optima o los puntos de vista se realiza en una estructura jerarquica. La fase de estimacion toma etapas de abajo a arriba desde todos los fotogramas individuales para la historia total. Empezando desde un fotograma independiente, optimizamos el punto de vista en cada vista de camara individual, determinamos la mejor vista de camara desde multiples camaras candidatas bajo los puntos de vista seleccionados, y finalmente organizamos la historia total. Cuando necesitamos representar la historia al publico, se toma un procesamiento de arriba a abajo, que en primer lugar divide el video en segmentos no solapados. Los fotogramas correspondientes para cada segmento se recogen a continuacion, y se presentan en el dispositivo objetivo con camaras y puntos de vista especificados.

La estructura jerarquica intrinseca de los juegos de baloncesto proporciona superficies razonables para la vision anterior, y proporciona tambien indicios en separacion de segmentos. Como se muestra en la Figura 2, un juego se divide en reglas en una secuencia de periodos de posesion de pelota no solapados. Un periodo de posesion de pelota es el periodo de juego cuando el mismo equipo sujeta la pelota y hace varios intentos de anotacion. En cada periodo, pueden ocurrir varios eventos durante el proceso de ataque/defensa. De acuerdo con si el evento esta relacionado con el reloj de tiro de 24 segundos, los eventos en un juego de baloncesto podrian clasificarse como eventos de reloj y eventos no de reloj. Los eventos de reloj no solapan entre si, mientras que los eventos no de reloj pueden solapar con tanto eventos de reloj/no de reloj. En general, un periodo de posesion de pelota es un periodo bastante fluido y requiere la continuidad de nivel de periodo de movimiento de punto de vista.

En este articulo, definimos en primer lugar los criterios para evaluar puntos de vista y camaras en cada fotograma individual. La suavidad de puntos de vista a nivel de camara se aplica a continuacion a todos los fotogramas en cada periodo de posesion de pelota. Basandose en puntos de vista determinados, se selecciona y suaviza una secuencia de camara.

2.2. Meta-datos y preferencia de usuario

Los datos de entrada alimentados en nuestro sistema incluyen datos de video, meta-datos asociados y preferencias de usuario. Suponiendo que hemos recogido una base de datos de secuencias de video de baloncesto, que se capturan simultaneamente mediante K camaras diferentes. Todas las camaras estan sincronizadas ligeramente y producen el mismo numero de fotogramas, es decir, N fotogramas, para cada camara. En el i-esimo fotograma capturado y en el tiempo t, Mi diferentes objetos sobresalientes, indicados mediante {om|m = 1 ,...,M} se detectan en total desde todas las vistas de camara. Tenemos dos tipos de objetos sobresalientes definidos. La primera clase incluye regiones para jugadores, arbitros y la pelota, que se usan para entendimiento de escena. La segunda clase incluye la canasta, el banquillo del entrador y algunas marcas del terreno de la cancha, que se usan en tanto entendimiento de escena como calibracion de la camara. Los objetos de la primera clase se extraen automaticamente de la escena basandose tipicamente en el algoritmo de resta de segundo plano, mientras aquellos de la segunda clase se etiquetan manualmente puesto que sus posiciones son constantes en camaras fijas. Definimos el m-esimo objeto sobresaliente como om = {okm|k = 1 ...K}, donde okm es el m-esimo objeto sobresaliente en la kesima camara.

Todos los objetos sobresalientes se representan mediante regiones de interes. Una region r es un conjunto de coordenadas de pixeles que pertenecen a esta region. Si om no aparece en la kesima vista de camara, establecemos okim al conjunto vacio <(>. Siendo r1 y r2 dos regiones arbitrarias, definimos en primer lugar varias funciones elementales sobre una o dos regiones como

5

10

15

20

25

30

35

40

45

50

Area :.4{rt) -

Centro :C(rO =

Visibilidad :V(r![r2) Distancia :X>(ri,r2)

: (1)

x£ri

: (2)

f 1, riGrj: (3)

— 1, de otra manera; ’.

)=||C(r,)-C(r2)||;: (4)

que se usaran en nuestras secciones posteriores.

Adicionalmente, definimos preferencia de usuario mediante un parametro establecido u, que incluye tanto preferencias de narrativa como restrictivas, tales como favoritos y capacidades del dispositivo.

2.3. Selection de camara y puntos de vista en fotogramas individuales

Por simplicidad, dejamos a un lado el problema de suavizado en la primera etapa, y empezamos considerando la seleccion de un punto de vista apropiado en cada fotograma independiente. Usamos las siguientes dos subsecciones para explicar nuestra solucion a este problema desde dos aspectos, es decir, evaluacion de diversos puntos de vista en la misma vista de camara y evaluacion de diferentes vistas de camara.

2.3.1. Calculo de puntos de vista optimos en cada camara individual

Aunque la evaluacion del punto de vista es una tarea altamente subjetiva que carece aun de una regla objetiva, tenemos algunos requisitos basicos en nuestra seleccion de punto de vista. Deberia ser computacionalmente eficaz, y deberia ser adaptable bajo diferentes resoluciones de dispositivo. Para un dispositivo con alta resolucion de visualizacion, normalmente preferimos una vista completa de toda la escena. Cuando la resolucion esta limitada debido al dispositivo o a restricciones del canal, tenemos que sacrificar parte de la escena para representacion mejorada de detalles locales. Para un objeto justo cerca del borde del punto de vista, deberia incluirse para mejorar la completitud global de la narrativa si muestra alta relevancia al evento actual en fotogramas posteriores, y deberia excluirse para evitar que la secuencia de punto de vista oscile si siempre aparece alrededor del borde. Para mantener un area segura para tratar con este tipo de objeto, preferimos que los objetos sobresalientes visibles dentro del punto de vista determinado esten mas cerca al centro mientras los objetos invisibles deberian conducirse lejos del borde del punto de vista, tan lejos como sea posible.

Dejamos que el punto de vista para la construccion de escena en el i-esimo fotograma de la kesima camara sea vn. El punto de vista vki se define como una region rectangular. Para representacion natural de la escena, limitamos la relacion de aspecto de todos los puntos de vista para que sea la misma relacion de aspecto del dispositivo de visualizacion. Por lo tanto, para cada vn, tenemos unicamente tres parametros libres para ajustar, es decir, el centro horizontal Vkir, el centro horizontal Vky y la anchura Vkw Se obtiene el punto de vista optimo individual maximizando la ganancia de interes aplicando el punto de vista vfa al i-esimo fotograma de la kesima camara, que se define como una suma ponderada de intereses de atencion desde todos los objetos sobresalientes visibles en ese fotograma, es decir,

Zfci(Vfcj|u) = y^Wfcim(Vfci,u)^(Ofcim|u), (5)

donde ^(°fcimlu) es el interes de un objeto sobresaliente okim bajo la preferencia de usuario u. En el presente

articulo, la funcion de interes pre-definida ^’(°fc«mlu) proporcionara diferente ponderacion de acuerdo con diferentes valores de u, que refleja las preferencias de usuario de narrativa. Por ejemplo, un jugador especificado por el publico se le asigna un interes superior que un jugador no especificado, y la pelota se le proporciona el interes mas alto de modo que siempre se incluye en la escena. Explicamos un ajuste practico de ^(°fctm|u)con m^s deta||e en la siguiente seccion.

Definimos Wkim{Vki, u) para ponderar la significancia de atencion de un unico objeto en un punto de vista. Matematicamente, tomamos Wktm{Vki, u) en una forma como sigue:

In A(vki)

exp

i ^fci)

2[uDEV]2

(6)

5

10

15

20

25

30

35

40

45

50

donde usamos uDEV para indicar la limitacion de resolucion de dispositivo actual en la preferencia de usuario u. Nuestra definicion de Wktm{Vki, u) consiste en tres partes principales: la parte exponencial que controla la intensidad de concentracion de objetos sobresalientes alrededor del centra de acuerdo con la resolucion de pixeles de la pantalla del dispositivo; la parte de cruce en cero V(°fc«mlvfc0 que separa intereses positivos de intereses negativos en el borde del punto de vista; y la parte de fraccion anadida In -^(v**)que calcula la densidad de intereses para evaluar la cercama y se establece como una funcion logaritmica. Observese que V(ofctm|vfci) es positivo unicamente cuando el objeto sobresaliente okm esta completamente contenido dentro del punto de vista Vk/, que muestra la tendencia de mantener un objeto sobresaliente intacto en la seleccion de punto de vista. Como se muestra en la Figura 3, la idea basica de nuestra definicion es cambiar la importancia relativa de completitud y cercama ajustando la agudeza de pico central y modificando la longitud de las colas. Cuando uDEV es pequeno, la parte exponencial se descompone bastante rapido, que tiene a acentuar objetos mas cercanos al centro e ignorar objetos fuera del punto de vista. Cuando uDEV se hace mayor, se aumentan las penalizaciones para objetos invisibles, que es el incentivo para completarse y presentar todos los objetos sobresalientes. Por lo tanto, 2**(vfc*|u-)describe el equilibrio entre completitud (que presenta tantos objetos como sea posible) y precision (que representa los objetos con una resolucion superior) de descripcion de escena en fotogramas individuales.

Un punto de vista que maximiza Zfcx(vfci|u)conduce los objetos visibles mas cercanos al centro y conduce a mayores

separaciones de objetos invisibles desde el centro. Sea Vfc* el punto de vista optimo calculado individualmente para cada fotograma, es decir,

Vfc» — arg max Xfci(vfci|u). (7)

vfci

Algunos ejemplos de v*» optimo bajo diferente resolucion de visualizacion se proporcionan en la Figura 4.

2.3.2. Seleccion de vistas de camara para un fotograma dado

Aunque usamos datos desde multiples sensores, lo que realmente importa no es el numero de sensores o de su situacion, sino la manera en la que utilizamos estos puntos de vista para producir un punto de vista virtual unificado que tenga un buen equilibrio entre acentuacion de detalles locales y vista general global de escenarios. Puesto que es dificil generar videos de punto de vista libre de alta calidad con los metodos del estado de la tecnica, unicamente consideramos seleccionar una vista de camara desde todas las camaras presentadas en el presente trabajo para hacer nuestro sistema mas generico. Definimos c = {cjj como una secuencia de camara, donde c indica el indice de camara para el i-esimo fotograma. Un entendimiento insignificante al evaluar una vista de camara es que los objetos sobresalientes deberian representarse evidentemente con pocas oclusiones y alta resolucion. Para el i-esimo fotograma en la kesima camara, definimos la tasa de oclusion de objetos sobresalientes como la relacion normalizada del area unida de objetos sobresalientes con respecto a la suma de su area individual, es decir,

imagen15

donde Umx»ncalcula |a union

A/'fciKi) = £r

de todos los cuadros delimitadores

Usamos

'm,oki mnvfcj^ para representar el numero de objetos visibles dentro del punto de vista va. Para normalizar la relacion de oclusion frente a diversos numerals de objetos sobresalientes en diferentes fotogramas,

reescalamos ^-Sc(vii) en el intervalo de 0 a 1 aplicando "A/fc*(v*t)/(-A/*i(vfct) — 1). Definimos la cercama de los objetos sobresalientes como areas de pixeles medias usadas para representar objetos, es decir,

= log jX/1 n •

(8)

Tambien definimos la completitud de esta vista de camara como el porcentaje de objetos sobresalientes incluidos, es decir,

5

10

15

20

25

30

35

40

45

imagen16

Por consiguiente, la ganancia de interes de elegir la kesima camara para el i-esimo fotograma se evalua mediante

Zi(A;|vfci, u) qUe se |e6j

Ti{k\v*i, u) = wk(u)'R%t(vki)'R%[(yw, u) expf-7^ ]. (10)

Ponderamos el apoyo de la preferencia de usuario actual a la camara k mediante w*(u), que asigna un valor superior a la camara k si se especifica por el usuario y asigna un valor inferior si no se especifica. Definimos a continuacion la probabilidad de tomar la kesima camara para el i-esimo fotograma bajo {vk/} como

imagen17

2.4. Generacion de secuencias de punto de vista/camara suaves

Una secuencia de video con puntos de vista individualmente optimizados tendra fluctuaciones evidentes, que conducen a artefactos visuales molestos. Resolvemos este problema generando una secuencia en movimiento suave de tanto camaras como puntos de vista basandose en su optimo individual. Usamos un grafo en la Figura 5 para explicar este procedimiento de estimacion, que cubre dos etapas de todo el sistema, es decir, suavizado de movimientos de punto de vista a nivel de camara y generacion de una secuencia de camara suave basandose en

puntos de vista determinados. En primer lugar, tomamos vfc*como datos observados y suponemos que son salidas de ruido deformado de algun resultado suave subyacente vfa. Usamos inferencia estadistica para recuperar una secuencia de punto de vista suave para cada camara. Teniendo en consideracion las ganancias de camara de estos puntos obtenidos, generamos a continuacion una secuencia de camara suave.

2.4.1. Suav/zado, a nivel de camara, de mov/m/ento de punto de vista

Empezamos desde la suavidad de movimiento de punto de vista en un video desde la misma camara. Existen dos intensidades contradictorias que controlan la optimizacion del movimiento de punto de vista: por un lado, los puntos de vista optimizados deberian estar mas cercanos al punto de vista optimo de cada fotograma individual; por otro lado, la suavidad de puntos de vista entre fotogramas evita que tenga lugar el cambio drastico. Por consiguiente, modelamos movimiento de punto de vista suave como un Campo Aleatorio de Markov (MRF) gaussiano, donde la suavidad a nivel de camara se modela como la configuracion de punto de vista a priori, es decir,

imagen18

(12) . (13)

donde M es el vecino del i-esimo fotograma, mientras una distribucion condicional

^({v*i}|u,{vfci}) = JJ

' i

exp(—H\h) EVfciexp(-^L)

n\h

iVkix ^kix) (j^kiy Vkiy) . fakiw Vkiw)

2 PkoIx WkiCrZy Wki<rlw

(14)

(15)

describe el ruido que producen los resultados finales. Anadimos un parametro fid para controlar la flexibilidad del fotograma actual al suavizar. Una fki mas pequena puede establecerse para aumentar la tendencia del fotograma actual a acercarse a su punto de vista localmente optimo. La estimacion de puntos de vista optimos {v^} se hace

maximizando la probabilidad posterior de {v/c/} sobre la observada {Vfci}, es decir, P({v^|u,{ Vfc*}), que se expresa

mediante una distribution canonica de Gibbs [12], es decir,

p({v*j iu,-{vw})

exp{-7iv}

E exp{-ftv}

{Vfct}

5 con

«v = 5EE«pri+E«.-l'

(17)

i jeMi

En fisica estadistica, la configuracion optima de la probabilidad posterior mayor se determina minimizando la 10 siguiente energia libre [13]:

T'1' = <HV) - <lnP({vH}|u, {vH})>

(18)

donde (x) ~ 2(vtl> X-P({v*>}lu> (v*‘))es el valor esperado de una cantidad 3>. Formamos a continuacion el 15 siguiente criterio considerando la restriccion de normalization de P({v«}|u,{ ^«}), como

imagen19

donde t] es un multiplicador lagrangiano. Usamos la aproximacion de campo medio [13] que supone que

20 ^({vfci}lu»{vfet}) ~ aP(yH|u,{v«})para desacoplar correlaciones de dos cuerpos. Tomando el diferencial de

con respecto a P(t7:ix|u, {Vfcj}) y ajustandolo a cero, obtenemos la estimacion optima para ^(vfcixlu> {vfci}) como:

imagen20

25

Por lo tanto, tenemos la probabilidad posterior:

30 Puesto que es una distribucion gaussiana cuyo valor medio tiene la probabilidad maximizada, el punto de vista optimo para vkix se resuelve como:

imagen21

imagen22

(22)

(23)

(24)

35 con resultados optimos para vkiy y ^kiw tambien proporcionados mediante derivacion similar. Usamos vk< en

5

10

15

20

25

30

35

40

7)* V* UZ-

las siguientes secciones para indicar el punto de vista optimo representado mediante kixi y Ktw

2.4.2. Suavizado de secuencia de camara

Una secuencia de camara suave se generara desde puntos de vista determinados. Por simplicidad, usamos pu= log

para acortar la formulacion, que se calcula usando la Ec. 11. Tenemos que equilibrar entre minimizar el cambio de camara y maximizar la ganancia global de las camaras. Usamos otro MRF para modelar estos dos tipos de intensidades. La suavidad de la secuencia de camara se modela mediante una distribucion canonica de Gibbs, que se lee,

imagen23

imagen24

con

hc = -TYJcij'pki - ^—5-^53 53 “'A'C-

(26)

i,k

i jeM

donde a es un parametro para normalizar la intensidad relativa de suavizado con respecto al tamano de la cercania, que se lee

imagen25

y es un hiper-parametro para controlar la intensidad de suavizado. Usamos la aproximacion de campo medio que

supone que u) ~ Hit ^>(c»l{vfci}> u) de nuevo para conseguir la estimacion optima. Omitimos la

derivacion detallada y mostramos unicamente el resultado final, que deduce que la probabilidad marginal de tomar la camara k para el i-esimo fotograma es

imagen26

donde - H{<*}x^({ci}Kvfci}’u)es el valor esperado de una cantidad 3?. El proceso de suavizado se realiza iterando la siguiente regla de punto fijo hasta alcanzar la convergencia,

imagen27

Despues de la convergencia, seleccionamos la camara que maximiza (&d,k) , es decir,

c* = arg max {<5Ci,fc) •

C»

(30)

3. Resultados experimentales y analisis

Organizamos una adquisicion de datos en la ciudad de Namur, Belgica, bajo entorno de juego real, donde se usaron siete camaras para grabar cuatro juegos. Todos estos videos se distribuyen publicamente en el sitio web del

5

10

15

20

25

30

35

40

45

50

55

60

proyecto APIDIS [1] y podria encontrarse explicacion mas detallada acerca de los ajustes de adquisicion en la Ref. [14]. Brevemente, estas camaras todas eran camaras IP Arecont Vision AV2100M, cuyas posiciones en la cancha de baloncesto se muestran en la Figura 6. Las lentes de ojo de pez usadas para las camaras de la vista superior son lentes Fujinon FE185C086HA-1. Los fotogramas de las siete camaras se enviaron todos a un servidor, donde se uso el tiempo de llegada de cada fotograma al sincronizar diferentes camaras. En la Figura 7, se proporcionan imagenes de muestra desde todas las siete camaras. Debido al numero limitado de camaras, establecemos la mayoria de las camaras para cubrir la cancha izquierda. Como resultado, nos centraremos principalmente en la cancha izquierda para investigar el rendimiento de nuestro sistema en produccion personalizada de videos deportivos.

Puesto que la produccion de video carece aun de una regla objetiva para evaluacion de rendimiento. Muchos parametros de determinan heuristicamente basandose en evaluacion subjetiva. Definimos varios objetos sobresalientes y se proporcionan las relaciones entre tipo de objeto e interes en la Tabla 1. Si el usuario muestra intereses especiales en un objeto sobresaliente, el peso se multiplicara por un factor de 1,2. Para suavizado de punto de vista, establecemos todos los j3ki a 1 para suavizado de punto de vista a nivel de camara en los siguientes

experimentos. Siendo tambien alx — &ly = ^ltu = y — a2y — a2w — <*2

Se usa un clip de video corto con aproximadamente 1200 fotogramas para demostrar las caracteristicas de comportamiento de nuestro sistema, especialmente su capacidad de adaptacion bajo resolucion de visualizacion limitada. Este clip cubre tres periodos de posesion de pelota e incluye cinco eventos en total. En la Figura 8, mostramos los intervalos de tiempo de todos los eventos, cuyos momentos mas destacados se marcan tambien mediante lineas continuas rojas. En la version final de este proyecto, deberian generarse los meta-datos mediante el entendimiento automatico de la escena. En el presente articulo que se centra en la produccion personalizada, evaluamos en primer lugar nuestros metodos sobre meta-datos recopilados manualmente. Exploraremos la eficacia de cada etapa de procesamiento individual de nuestro metodo, y a continuacion hacer una evaluacion global basandose en salidas finalmente generadas. Debido a la limitacion de la pagina, se proporcionan los resultados numericos y se representan mediante grafos en el presente articulo mientras sus videos correspondientes estan unicamente disponibles en el sitio web del proyecto APIDIS. [1] Los revisores estan invitados a descargar muestras de video producidas basandose en diferentes preferencias de usuario para evaluar subjetivamente la eficacia y relevancia del enfoque propuesto.

Tabla 1: Ponderacion de diferentes objetos sobresalientes

Tipo de objeto: Pelota Jugador Juez Canasta Banquillo de entrenador Otros

ZXOjfeimlu): 2 1 0,8 0,6 0,4 0,2

Empezamos investigando el rendimiento de nuestro metodo para seleccion individual de puntos de vista. Las secuencias a nivel de camara de puntos de vista determinados automaticamente mediante nuestro metodo se ponen en una tabla en la Figura 9, donde se presentan las anchuras de los puntos de vista optimos bajo tres resoluciones de visualizacion diferentes, es decir, 160x120, 320x240, y 640x480 para todas las siguiente camaras. El suavizado de punto de vista debil se ha aplicado para mejorar la legibilidad de los videos generados, donde la intensidad de suavizado se establece a 02/o1 = 4. A partir de la comparacion de los resultados bajo tres resoluciones de visualizacion diferentes, el hallazgo mas evidente es que una resolucion de visualizacion superior conduce a una anchura de punto de vista mayor mientras una resolucion de visualizacion inferior prefiere un tamano de punto de vista mas pequeno, tal como hemos esperado a partir de nuestro criterio de seleccion. Puesto que la camara 1,6 y 7 unicamente cubren la mitad de la cancha, sus tamanos de punto de vista se fijaran cuando esten todos los jugadores en la otra mitad de la cancha, que explica los segmentos planos en sus sub-grafos correspondientes. A partir de los datos de video, podriamos confirmar adicionalmente que incluso cuando la resolucion de visualizacion sea muy baja, nuestro sistema extraera un punto de vista de un tamano razonable donde la pelota se escala a un tamano visible. Aunque en algunos fotogramas unicamente se visualiza la pelota para la resolucion de visualizacion mas baja, no producira un problema puesto que estos fotogramas se filtraran mediante seleccion de camara posterior.

Los tamanos de punto de vista de secuencias suavizadas bajo diferentes intensidades de suavizado se comparan en la Figura 10(a). Siendo todos los otros parametros los mismos, la relacion de 02 a 01 se ajusta para todos los cinco casos. Una relacion superior de 02 a 01 corresponde a un proceso de suavizado mas intenso mientras que una relacion mas pequena significa suavizado mas debil. Cuando 02/01 = 1 donde se aplica suavizado muy debil, obtenemos una secuencia bastante accidentada, que da como resultado un video que parpadea con muchos movimientos de punto de vista drasticos. Con el aumento de la relacion 02/01, la curva de movimiento de punto de vista se hace para que tenga menos picos agudos, que proporciona contenidos perceptualmente mas comodos. Otra observacion importante es que las secuencias generadas seran bastante diferentes de nuestra seleccion inicial basandose en informacion de notabilidad, si se ha realizado suavizado demasiado intenso con una 02/01 muy grande. Esto producira problemas tales como que el jugador favorito o la pelota esten fuera del punto de vista suavizado. La relacion 02/01 deberia determinarse considerando el equilibrio entre puntos de vista optimizados localmente y secuencias de punto de vista globalmente suavizadas. Comprobando visualmente los videos

5

10

15

20

25

30

35

40

45

50

55

60

65

generados, consideramos que los resultados con un suavizado debil tal como 02/01 = 4 ya son perceptualmente aceptables observando el video de demostracion.

Verificamos a continuacion nuestro algoritmo de suavizado para secuencia de camara. Las secuencias de camara suavizadas bajo diversa intensidad de suavizado y se representan en la Figura 10(b). El proceso de suavizado toma la probabilidad definida en la Ec. 11 como valores iniciales, e itera la regla de actualizacion de punto fijo con una cercania de tamano de treinta hasta convergencia. Una secuencia de camara sin suavizar corresponde al sub-grafo mas superior en la Figura 10(b), mientras que la secuencia con el suavizado mas intenso se representa en el sub- grafo inferior. Es evidente que existen muchos cambios de camara drasticos en una secuencia no suavizada, que conduce a incluso artefactos visuales mas molestos que la posicion de punto de vista fluctuada, como podemos observar a partir de los videos generados. Por lo tanto, preferimos suavizado intenso en las secuencias de camara y usaremos y = 0,8 en los siguientes experimentos.

En la Figura 11 (a) y (b), comparamos los puntos de vista y camaras en secuencias generadas con respecto a diferentes resoluciones de visualizacion, respectivamente. Desde la parte superior a la inferior, mostramos los resultados para resolucion de visualizacion uDEV = 160, 320 y 640 en tres sub-grafos. Cuando se selecciona la misma camara, observamos que se prefiere un punto de vista mayor mediante una resolucion de visualizacion superior. Cuando se seleccionan diferentes camaras, necesitamos considerar tanto la posicion de la camara seleccionada como la posicion del punto de vista determinado al evaluar la cobertura de la escena de salida. De nuevo, confirmamos que los tamanos de los puntos de vista aumentan cuando la resolucion de visualizacion se hace mayor. Antes del 400-esimo fotograma, el evento tiene lugar en la cancha derecha. Hallamos que la 3a camara, es decir, la vista superior con lente de gran angular, aparece mas a menudo en la secuencia de uDEV = 640 que la de uDEV = 160 y sus puntos de vista son tambien mas amplios, que prueba que una resolucion mayor prefiere una vista mas ancha. Aunque la 2a camara aparece bastante a menudo en uDEV = 160, sus puntos de vista correspondientes son mucho mas pequenos en anchura. Esta camara se selecciona puesto que proporciona una vista lateral de la cancha derecha con objetos sobresalientes recogidos mas cerca que otras vistas de camara debido a la geometria proyectiva. Por la misma razon, la 3a camara aparece mas a menudo en uDEV = 160 cuando el juego se mueve a la cancha izquierda desde el 450-esimo fotograma al 950-esimo fotograma. Esta conclusion se confirma adicionalmente mediante las miniaturas en la Figura 12, donde los fotogramas desde el indice 100 al 900 estan dispuestos en una tabla para las tres resoluciones de visualizacion anteriores.

Debido al hecho de que se seleccionaron diferentes camaras, los puntos de vista determinados bajo uDEV = 640 parecen estar mas cerca que aquellos bajo uDEV = 320 en las ultimas cinco columnas de la Figura 12. Esto refleja la no uniformidad de importancia relativa entre completitud y cercania en seleccion de punto de vista. Puesto que unicamente se calculan puntos centrales de objetos sobresalientes en el criterio para seleccion de punto de vista, los puntos de vista resultantes no son continuos bajo diferente resolucion. Aunque la camara 7 es similar a la camara 1 con acercamiento lineal, sus puntos de vista optimos pueden tener diferentes acentuaciones en completitud y cercania. Esta uniformidad existe tambien en seleccion separada de camaras y puntos de vista. Si la seleccion de punto de vista se centra mas en cercania y la seleccion de camara se centra mas en completitud, se seleccionara en primer lugar un area de recorte pequena en la camara 7 en seleccion de punto de vista para uDEV = 320, y a continuacion se rechazara en la siguiente seleccion de camara debido a completitud insuficiente. El ensayo subjetivo nos ayudara a ajustar la ponderacion relativa de completitud y cercania. Es mas importante implementar la seleccion simultanea de puntos de vista y camaras, que requiere tanto la inclusion de informacion posicional de las camaras tales como usar homografia, y un criterio que pueda resolverse analiticamente para seleccion de punto de vista. Estos asuntos son nuestro mayor trabajo en el futuro proximo.

En todos los experimentos anteriores, no se incluyen preferencias de usuario de narrativa. Si el usuario tiene interes especial en una cierta vista de camara, podrfamos asignar una ponderacion superior to*(u)a la camara especificada. En nuestro caso establecemos to*(u)= 1,0 para las camaras no especificadas y Wfc(u) = 1,2 para una camara especificada por el usuario. Comparamos las secuencias de camara bajo diferentes preferencias en la Figura 13. Como podemos observar facilmente a partir del grafo, una camara aparece mas veces cuando se especifica, que refleja la preferencia de usuario en las vistas de camara. Como para la preferencia de usuario en equipos o jugadores, la diferencia entre los puntos de vista con y sin preferencias de usuario es dificil de indicar sin una regla de evaluacion bien definida, puesto que todos los jugadores se amontonan siempre juntos durante el juego. De hecho, estamos mas interesados en reflejar las preferencias de usuario en los jugadores o equipos extrayendo sus fotogramas relativos. Omitimos por lo tanto los resultados en la seleccion de jugador o de equipo, pero los exploramos mas tarde junto con resultados a partir de nuestro trabajo futuro sobre resumen de video.

4. Observaciones finales

Se ha propuesto un sistema autonomo para producir videos personalizados desde multiples vistas de camara. Analizamos la adaptacion automatica de puntos de vista con respecto a resolucion de visualizacion y contenidos de escenario, la fusion de datos en multiples vistas de camara, y suavidad de secuencias de punto de vista y camara para fluida. Existen cuatro ventajas principales de nuestros metodos: 1) Orientado a semantica. En lugar de usar caracteristicas inferiores tales como bordes o apariencia de fotogramas, nuestra produccion se basa en

5

10

15

20

25

30

35

40

45

50

55

60

65

entendimiento semantico del escenario, que podria tratarse con preferencia de usuario semantica mas compleja. 2) Computacionalmente eficaz. Tomamos una estrategia de divide y venceras y consideramos un procesamiento jerarquico, que es eficaz al tratar con contenidos de video largos puesto que su tiempo global es casi linealmente proporcional al numero de eventos incluidos. 3) Genericidad. Puesto que nuestros sub-metodos en cada etapa individual son todos independientes de la definicion de objetos sobresalientes e intereses, esta estructura no esta limitada a videos de baloncesto, sino que tambien puede aplicarse a otros escenarios controlados. 4) No supervisado. Aunque hay algun parametro que se deja establecer por los usuarios, el sistema no es supervisado.

Apendice 2

Los metodos presentados en este articulo tienen por objeto detectar y reconocer jugadores en un campo deportivo, basandose en un conjunto distribuido de camaras ligeramente sincronizadas. La deteccion supone la verticalidad del jugador, y suma la proyeccion acumulativa de las multiples mascaras de actividad de primer plano de las vistas en un conjunto de planos que son paralelos al plano de superficie. Despues de la suma, los valores de proyeccion grandes indican la posicion del jugador en el plano de superficie. Esta posicion se usa como un ancla para el cuadro delimitador del jugador proyectado en cada una de las vistas. En este cuadro delimitador, las regiones proporcionadas mediante segmentacion de desplazamiento medio se ordenan basandose en caracteristicas contextuales, por ejemplo, tamano y posicion relativos, para seleccionar las que es probable que correspondan a un digito. La normalizacion y clasificacion de las regiones seleccionadas a continuacion proporciona el numero e identidad del jugador. Puesto que el numero de jugador puede leerse unicamente cuando se enfrenta hacia la camara, se considera el seguimiento basado en grafo para propagar la identidad de un jugador a lo largo de su trayectoria.

I. Introduccion

En la sociedad de hoy en dia, la produccion de contenido y consumo de contenido se confrontan con una mutacion fundamental. Se observan dos tendencias complementarias. Por una parte, los individuos se hacen mas y mas heterogeneos en la manera en la que acceden al contenido. Desean acceder a contenido especializado a traves de un servicio personalizado, que puede proporcionar en lo que estan interesados, cuando lo deseen y a traves del canal de comunicacion de su eleccion. Por otra parte, los individuos y organizaciones tienen acceso mas facil a las facilidades tecnicas requeridas para implicarse en la creacion de contenido y proceso de difusion.

En este articulo, describimos las herramientas de analisis de video que participan en las evoluciones futuras de la industria de produccion de contenido hacia infraestructuras automatizadas que permiten que se produzca, almacene y acceda al contenido a bajo coste y de una manera personalizada y especializada. Mas especificamente, nuestra aplicacion dirigida considera el resumen autonomo y personalizado de eventos deportivos, sin la necesidad de procesos hechos a mano de manera costosa. En el escenario de aplicacion apoyado mediante el conjunto de datos proporcionado, los sensores de adquisicion cubren una cancha de baloncesto. El analisis distribuido e interpretacion de la escena se aprovecha a continuacion para decidir que mostrar acerca de un evento, y como mostrarlo, para producir un video compuesto de un subconjunto valioso a partir de las corrientes proporcionadas por cada camara individual. En particular, la posicion de los jugadores proporciona la entrada requerida para controlar la seleccion autonoma de parametros de punto de vista [5], mientras la identificacion y seguimiento de los jugadores detectados apoya la personalizacion del resumen, por ejemplo a traves de destacar y/o repeticion de acciones de jugador preferido [4].

Parte de este trabajo se ha encontrado mediante el proyecto europeo APIDIS FP7 y mediante el NSF Belga.

II. Vista global de sistema

Para demostrar el concepto de produccion autonoma y personalizada, el proyecto de investigacion europeo APIDIS FP7 (
www.apidis.org) ha desarrollado un sistema de adquisicion de multiples camaras alrededor de una cancha de baloncesto. Los ajustes de adquisicion en un conjunto de 7 camaras IP calibradas, recopilando cada una fotogramas de 2 Megapixeles a una tasa superior de 20 fotogramas/s. Despues de una sincronizacion temporal aproximada de las corrientes de video, este articulo investiga como aumentar el conjunto de datos de video basandose en la deteccion, el seguimiento y el reconocimiento de jugadores.

La Figura 1 analiza nuestro enfoque propuesto para calcular y etiquetar seguimientos de jugadores. Despues de la deteccion multivista conjunta de personas que permanecen en el campo de superficie en cada instante de tiempo, un algoritmo de seguimiento basado en grafo coincide posiciones que estan suficientemente cercanas - en posicion y apariencia - entre fotogramas sucesivos, definiendo de esta manera un conjunto de seguimientos disjuntos potencialmente interrumpidos, llamado tambien seguimientos parciales. En paralelo, como se representa en la Figura 5, se considera el analisis y clasificacion de imagen para cada fotograma de cada vista, para reconocer los digitos que aparecen potencialmente en las camisetas de los objetos detectados. Esta informacion se agrega a continuacion a traves del tiempo para etiquetar los seguimientos parciales.

Las mayores contribuciones de este articulo se han encontrado en la solucion de deteccion de personas propuesta,

5

10

15

20

25

30

35

40

45

50

que se representa en la Figura 2. En resumen, el proceso de deteccion sigue un enfoque de abajo a arriba para extraer grupos mas densos en un mapa de ocupacion de plano de superficie que se calcula basandose en la proyeccion de mascaras de actividad de primer plano. Se proponen dos mejoras fundamentales en comparacion con el estado de la tecnica. En primer lugar, la mascara de actividad de primer plano no se proyecta unicamente en el plano de superficie, como se recomienda en [9], sino sobre un conjunto de planos que son paralelos a la superficie. En segundo lugar, se implementa una heuristica original para manejar oclusiones, y mitigar las falsas detecciones que tienen lugar en la interseccion de las mascaras proyectadas desde distintas siluetas de jugadores mediante distintas vistas. Nuestras simulaciones demuestran que estas dos contribuciones mejoran bastante significativamente el rendimiento de deteccion.

El resto del articulo se organiza como sigue. Las secciones III, V, y IV se centran respectivamente en los problemas de deteccion, seguimiento y reconocimiento. Los resultados experimentales se presentan en la Seccion VI para validar nuestro enfoque. La seccion VII concluye.

imagen28

fotoarama

imientn : -YjJrrab.ft

'Procesamiento basado en

■ftr. '.aw. it -.'r

Deteccion de multiples vistas

Intento de reconocimiento de digito en cada vista

( Etiquetado de

seguimientos parciales

^ ___ 1_._

Seguimiento basado en grafo en L piano de superficie 3

Procesamiento basado en video

Figura 1, calculo de seguimiento de jugadores y etiquetado en cascada. La flecha discontinua refleja la inclusion opcional de los resultados de reconocimiento de digito en el modelo de apariencia considerado para seguimiento.

III. Deteccion de personas multi-vista

El rastreo de las personas que se ocluyen entre si usando un conjunto de C camaras ampliamente espaciadas, calibradas, fijas y (ligeramente) sincronizadas es una cuestion importante puesto que este tipo de configuracion es comun a aplicaciones que varian de informacion de eventos (deportivos) a vigilancia en espacios publicos. En esta seccion, consideramos un enfoque de deteccion de cambio para inferir la posicion de jugadores en el campo de superficie, en cada instante de tiempo.

A. Trabajo relacionado

La deteccion de personas desde las mascaras de actividad de primer plano calculadas en multiples vistas se ha investigado en detalle en los ultimos anos. Diferenciamos dos clases de enfoques.

Por un lado, los autores en [9], [10] adoptan un enfoque de abajo a arriba, y proyectan los puntos de la probabilidad de primer plano (siluetas restadas del segundo plano) de cada vista al plano de superficie. Especificamente, los mapas de probabilidad de cambio calculados en cada vista se distorsionan al plano de superficie basandose en homografias que se han inferido fuera de linea. Los mapas proyectados se multiplican a continuacion juntos y se realizan umbrales para definir las manchas del plano de superficie para las cuales ha cambiado la apariencia en comparacion con el modelo de segundo plano y de acuerdo con el algoritmo de deteccion de cambio de vista unica.

Por otro lado, los trabajos en [2], [7], [1 ] adoptan un enfoque de arriba a abajo. Consideran una rejilla de puntos en el plano de superficie, y estiman las probabilidades de ocupacion de cada punto en la rejilla basandose en la proyeccion hacia atras de algun tipo de modelo generativo en cada una de las multiples vistas calibradas. Por lo tanto, empiezan todos desde el plano de superficie, y validan la hipotesis de ocupacion basandose en el modelo de apariencia asociado en cada una de las vistas. Los enfoques propuestos en esta segunda categoria se diferencian principalmente basandose en el tipo de modelo generativo que consideran (rectangulo o diccionario aprendido), y en la manera en la que deciden acerca de la ocupacion en cada punto de la rejilla (combinacion de multiples clasificadores basados en vista en [2], rejilla de ocupacion probabilistica inferida a partir de mascaras de resta de segundo plano en [7], y mapa de ocupacion binaria de escasez restringida para [1]).

La primera categoria de metodos tiene la ventaja de ser computacionalmente eficaz, puesto que la decision acerca de la ocupacion del plano de superficie se toma directamente a partir de la observacion de la proyeccion de las

mascaras de deteccion de cambio de las diferentes vistas. En contraste, la complejidad de la segunda categoria de algoritmos depende del numero de puntos de plano de superficie a investigarse (elegidos para limitar el area a monitorizar), y en la carga computacional asociada a la validacion de cada hipotesis de ocupacion. Este proceso de validacion implica generalmente proyeccion hacia atras de una plantilla del mundo en 3D en cada una de las vistas.

5 A este respecto, observamos que, debido a las distorsiones de lente y de proyeccion, incluso la distorsion de una plantilla rectangular en 3D sencilla generalmente da como resultado patrones no rectangulares en cada una de las vistas, evitando de esta manera el uso de tecnicas de imagenes integrales computacionalmente eficaces. Por lo tanto, en la mayoria de los casos practicos, el segundo tipo de enfoque es significativamente mas complejo que el primero. A cambio, ofrece rendimiento aumentado puesto que no unicamente los pies, sino toda la silueta del objeto 10 se considera para tomar una decision.

imagen29

Figura 2. Deteccion de personas multi-vista. Las mascaras de primer plano se proyectan en un conjunto de planos 15 que son paralelos al plano de superficie para definir un mapa de ocupacion de plano de superficie, desde el que se infiere directamente la posicion de los jugadores.

Nuestro enfoque es un intento para tomar lo mejor de ambas categorias. Propone un enfoque de abajo a arriba computacionalmente eficaz que puede aprovechar todo el conocimiento a priori que tenemos acerca de la silueta del 20 objeto. Especificamente, el calculo de abajo a arriba de la mascara de ocupacion de superficie descrito en la seccion III-B aprovecha el hecho de que la base de la silueta radica en el plano de superficie (de manera similar a soluciones de abajo a arriba anteriores), pero tambien que la silueta es una forma aproximadamente rectangular vertical (que se reservo anteriormente en enfoques de arriba a abajo). Como una segunda contribucion, la seccion III-C propone una heuristica voraz sencilla para resolver la interferencia que tiene lugar entre las siluetas proyectadas desde distintas 25 vistas por distintos objetos. Nuestros resultados experimentales revelan que esta interferencia fue el origen de muchas falsas detecciones mientras se infieren las posiciones de objetos reales desde la mascara de ocupacion de

5

10

15

20

25

30

35

40

45

50

55

60

superficie. Hasta ahora, este fenomeno se tuvo unicamente en cuenta mediante el enfoque de arriba a abajo descrito en [7], a traves de una aproximacion iterativa compleja de las probabilidades de ocupacion posteriores conjuntas. En contraste, aunque aproximado, nuestro enfoque parece que es tanto eficaz como efectivo.

B. Enfoque propuesto, calculo de mascara de ocupacion de plano de superficie

Similar a [9], [10], [7], [1], nuestro enfoque lleva a cabo la deteccion de cambio de vista unica independientemente de cada vista para calcular un mapa de probabilidad de cambio. Para este fin, se implementa un algoritmo de resta de segundo plano convencional basandose en mezcla de modelado gaussiano. Para fusionar las siluetas de primer plano binarias resultantes, nuestro metodo las proyecta para montar una mascara de ocupacion de superficie. Sin embargo, en contraste a enfoques de abajo a arriba anteriores [9], [10], no consideramos la proyeccion en el plano de superficie unicamente, sino en un conjunto de planos que son paralelos al plano de superficie, y cortan el objeto para detectar a diferentes alturas. Bajo la suposicion de que el objeto de interes permanece aproximadamente de manera vertical, la proyeccion acumulativa de todas estas proyecciones en un plano de vista superior virtual refleja realmente la ocupacion de plano de superficie. Esta seccion explica como se calcula la mascara asociada a cada vista. La siguiente seccion investiga como unir la informacion proporcionada mediante las multiples vistas para detectar personas.

Formalmente, el calculo de la mascara de ocupacion de superficie Gi asociada a la i-esima vista se describe como sigue. En un momento dado, la i-esima vista es la fuente de una imagen de silueta restada de segundo plano binaria Bi e {0,1 }M, donde M es el numero de pixeles de la camara i, 1 < i < C. Como se ha explicado anteriormente, Bi se proyecta en un conjunto de L pianos de referenda que se definen para que sean paralelos al piano de superficie, a

fi

intervalos de altura regulares, y hasta la altura tipica de un jugador. Por lo tanto, para cada vista i, definimos ui para

que sea la proyeccion de la i-esima mascara binaria en el j-esimo piano, se calcula aplicando la homograffa que distorsiona cada pixel dese la camara i a su posicion correspondiente en el j-esimo plano de referencia, con 0 < j< L. Por construccion, los puntos desde B, que se etiquetan a 1 debido a la presencia de un jugador en el j-esimo piano

de referencia se proyectan a la correspondiente posicion de vista superior en . Por lo tanto, se espera la suma G, de las proyecciones obtenidas a diferentes alturas y desde diferentes vistas para destacar posiciones de vista superior de jugadores que permanecen verticalmente.

A medida que L aumenta, el calculo de Gi en una posicion de superficie x tiene hacia la integracion de la proyeccion de Bi en un segmento vertical anclado en x. Esta integracion puede calcularse de manera equivalente en B, a lo largo de la proyeccion hacia atras del segmento vertical. Para acelerar adicionalmente los calculos, observamos que, a traves de la transformacion apropiada de B, es posible conformar los dominios de integracion proyectados hacia atras de modo que corresponden a segmentos de lineas verticales en la vista transformada, haciendo de esta manera el calculo de integrales particularmente eficaz a traves del principio de imagenes integrales. La Figura 3 ilustra esa transformacion especifica para una vista particular. La transformacion se ha disenado para tratar un objetivo doble. En primer lugar, los puntos del espacio en 3D localizado en la misma linea vertical se han de proyectar en la misma columna en la vista transformada (punto de fuga vertical en el infinito). En segundo lugar, los objetos verticales que permanecen en la superficie y cuyos pies se proyectan en la misma linea horizontal de la vista transformada tienen que mantener mismas relaciones de alturas proyectadas.

Una vez que se cumple la primera propiedad, los puntos en 3D que pertenecen a la linea vertical que permanecen por encima de un punto dado desde el plano de superficie simplemente se proyectan en la columna de la vista transformada que permanece por encima de la proyeccion del punto de plano de superficie en 3D. Por lo tanto, G(x) se calcula simplemente como la integral de la vista transformada a traves de este segmento proyectado hacia atras vertical. La conservacion de la altura a lo largo de las lineas de la vista transformada, simplifica los calculos incluso mas.

Para vistas laterales, estas dos propiedades pueden conseguirse moviendo virtualmente - a traves de transformaciones de homograffa - la direccion de visualizacion de la camara (eje principal) para proporcionar el punto de fuga vertical en el infinito y asegurar que la linea del horizonte es horizontal. Para las vistas superiores, el eje principal se establece perpendicular a la superficie y se realiza un mapeo polar para conseguir las mismas propiedades. Observese que en algunas configuraciones geometricas, estas transformaciones pueden inducir sesgado fuerte de las vistas.

C. Enfoque propuesto: deteccion de personas a partir de ocupacion de superficie

Dadas las mascaras de ocupacion de superficie Gi para todas las vistas, explicamos ahora como inferir la posicion de las personas que permanecen en la superficie. A priori, conocemos que (i) cada jugador induce un grupo denso en la suma de mascaras de ocupacion de superficie, y (ii) el numero de personas a detectar es igual a un valor conocido K, por ejemplo K = 12 para baloncesto (jugadores + arbitros).

Por esta razon, en cada localizacion de superficie x, consideramos la suma de todas las proyecciones -

10

15

20

25

30

35

40

45

normalizadas mediante el numero de vistas que realmente cubren x -, y averiguar los puntos de intensidad superior en esta mascara de ocupacion de superficie agregada (vease la Figura 2 para un ejemplo de mascara de ocupacion de superficie agregada). Para localizar estos puntos, hemos considerado en primer lugar un enfoque voraz inicial que es equivalente a un procedimiento de busqueda de coincidencia iterativa. En cada etapa el proceso de busqueda de coincidencia maximiza el producto interno entre un nucleo gaussiano traducido, y la mascara de ocupacion de superficie agregada. La posicion del nucleo que induce el producto interno mayor define la posicion del jugador. Antes de ejecutar la siguiente iteracion, la contribucion del nucleo gaussiano se resta de la mascara agregada para producir una mascara residual. El proceso se itera hasta que se hayan encontrado suficientes jugadores.

imagen30

Figura 3. Calculo eficaz de la mascara de ocupacion de superficie: la vista original (a la izquierda) se mapea a un plano a traves de una combinacion de homografias que se eligen de modo que (l) se conserva la verticalidad durante la proyeccion desde la escena en 3D a la vista transformada, y (2) se conserva la relacion de las alturas entre la escena en 3D y la vista proyectada para los objetos que radican en la misma linea en la vista transformada.

Este enfoque es sencillo, pero sufre de muchas falsas detecciones en la interseccion de las proyecciones de distintas siluetas de jugadores desde diferentes vistas. Esto es debido al hecho de que las oclusiones no inducen linealidades1 en la definicion de la mascara de ocupacion de superficie. Por lo tanto, una vez que se sabe que algunas personas estan presentes en el campo de superficie afecta a la informacion que puede recuperarse desde las mascaras de cambio binario en cada vista. En particular, si la linea vertical asociada a una posicion x es ocluida por/ocluye otro jugador cuya presencia es muy probable, esta vista particular no deberia aprovecharse para decidir si hay o no un jugador en x.

Por esta razon, proponemos refinar nuestro enfoque inicial como sigue.

Para inicializar el proceso, definimos G?(x) para que sea la mascara de ocupacion de superficie G, asociada a la i-

esima vista (vease la seccion lll-B), y establecer u,?(x)a 1 cuando x se cubre mediante la i-esima vista, y a 0 de otra manera. Cada iteracion se ejecuta a continuacion en dos etapas. En la iteracion n, la primera etapa averigua la posicion mas probable del nesimo jugador, conociendo la posicion de los (n - 1) jugadores localizados en iteraciones anteriores. La segunda etapa actualiza las mascaras de ocupacion de superficie de todas las vistas para eliminar la contribucion del jugador recien localizado.

Formalmente, la primera etapa de la iteracion n agrega la mascara de ocupacion de superficie desde todas las vistas, y a continuacion averigua el grupo mas denso en esta mascara. Por lo tanto, calcula la mascara agregada Gn en la iteracion n como

r»,jrN E£u <(*)G?(x)

G w - ——’

(i)

x„ = argmax < Gn(x),k(y) >, (2)

y

donde k(y) indica un nucleo gaussiano centrado en y cuyo apoyo espacial corresponde a la anchura tipica de un jugador.

1En otras palabras, la mascara de ocupacion de superficie de un grupo de jugadores no es igual a la suma de mascaras de ocupacion de superficie proyectadas por cada jugador individual.

5

10

15

20

25

30

35

40

45

imagen31

Figura 4. Impacto de oclusiones en la actualizacion de mascara de ocupacion de superficie asociada a la camara i. La parte discontinua de la silueta vertical que permanece en pi(x1) y pi(x2) son conocidas para etiquetarse como primer plano puesto que se sabe que un jugador permanece en Xn. Por lo tanto se hacen inutiles para inferir si un jugador esta localizado en Xi y X2, respectivamente.

En la segunda etapa, la mascara de ocupacion de superficie de cada vista se actualiza para tener en cuenta la presencia del nesimo jugador. En la posicion de superficie x, consideramos que el apoyo tipico de una silueta de jugador en la vista i es un cuadro rectangular de anchura Wy altura H, y observamos que la parte de la silueta que ocluye o es ocluida por el jugador recien detectado no proporciona ninguna informacion acerca de la presencia potencial de un jugador en la posicion x. Indicando ai(x, Xn) la fraccion de la silueta en la posicion de superficie x que se hace no informativa en la vista i como consecuencia de la presencia de un jugador en xn. Para estimar esta relacion, consideramos la geometrfa del problema. La Figura 4 representa un piano ^*que es ortogonal a la superficie, mientras pasa a traves de la i-esima camara y la posicion de jugador xn. En P*, consideramos dos puntos de interes, en concreto bi y fi, que corresponden a los puntos en los que los rayos, originados en la i-esima camara y que pasan a traves de la cabeza y los pies del jugador, intersectan el piano de superficie y el piano paralelo a la

superficie en la altura H, respectivamente. Indicamos /* (bi) para que sea la distancia entre fi (bi) y la Ifnea vertical que apoya al jugador n en "Pi. Consideramos tambien pi(x) para indicar la proyeccion ortogonal de x en y midiendo d(x) la distancia entre x y . Basandose en estas definiciones, la relacion ai(x, x„) se estima mediante

rti(x,xn) - [(.5 - min(|jp,(x) - xn|!,<5))/a]

.[1 - nun(di(x)/W, 1)J (3)

siendo 8 igual a /*o fo/dependiendo de si p,(x) radica delante o detras de xn, con respecto a la camara. En (3), el primer y segundo factores reflejan la desalineacion de x y xn en P* y la ortogonalidad a , respectivamente.

Dada ai(x, xn), la mascara de ocupacion de superficie y peso de agregacion de la i-esima camara en posicion x se actualiza como sigue:

G^+1(x) = max(G?(x) - ai(x,xn)Gf(xn),0) (4)

Ui"+1(x) = max(iiij'(x) - a^x, x„) (5)

Para eficacia computacional mejorada, limitamos las posiciones x investigadas en el enfoque refinado al maximo local 30 que se ha detectado mediante el enfoque inicial.

Para completar, se observa que el procedimiento de actualizacion anteriormente descrito omite la interferencia potencial entre oclusiones producidas por distintos jugadores en la misma vista. Sin embargo, la consecuencia de esta aproximacion esta lejos de ser drastica, puesto que finaliza, sin afectar a la informacion que se aprovecha realmente. Teniendo en cuenta estas interferencias requeriria proyectar hacia atras las siluetas del jugador en cada vista, tendiendo de esta manera hacia un enfoque de arriba a abajo computacionalmente y en memoria caro tal como el presentado en [7].

Ademas, vale la pena mencionar que, en un contexto de arriba a abajo, los autores en [1] o en [7] proponen formulaciones que averiguan simultaneamente las K posiciones que explican mejor las multiples observaciones de mascara de primer plano. Sin embargo, considerar conjuntamente todas las posiciones aumenta la dimensionalidad del problema, e impactan drasticamente la carga computacional. Puesto que nuestros resultados experimentales

5

10

15

20

25

30

35

muestran que nuestro metodo propuesto no sufre de la debilidad habitual de los algoritmos voraces, tal como una tendencia a engancharse en malos mmimos locales, creemos que compara muy favorablemente a cualquier formulacion conjunta del problema, se resuelve tfpicamente basandose en tecnicas de optimizacion proximales iterativas.

IV. Reconocimiento de digito de jugadores

Esta seccion considera el reconocimiento de los caracteres digitales impresos en las camisetas deportivas de los atletas. El enfoque propuesto se representa en la Figura 2. Para cada posicion detectada en el plano de superficie, se proyecta un cuadro delimitador conservador de 0,8 m x 2 m en cada una de las vistas. Cada cuadro se procesa a continuacion de acuerdo con un enfoque que es similar al metodo de aproximado a preciso introducido en [12]. En la etapa inicial, la imagen del cuadro delimitador se segmenta en regiones. Las regiones candidatas de digitos se filtran a continuacion basandose en atributos contextuales. Eventualmente, las regiones seleccionadas se clasifican en dfgitos ‘0-9’ o clases binarias, y la identidad del jugador se define mediante voto mayoritario, basandose en los resultados obtenidos en diferentes vistas. Nuestro enfoque de metodo propuesto se diferencia de [12] en la manera en que se implementa cada una de estas etapas.

imagen32

Cuadro delimitador de jugadores

I

Segmentacion de imagen

t

imagen33

Seleccion de region de digito basandose en informacion contextual

imagen34

j Normalizacion

tU ■

Clasificacion SVM de digito . de multiples caracteristicas

Figura 5. Reconocimiento de dfgitos impresos en camisetas de jugadores a traves de segmentacion, seleccion y clasificacion de regiones que es probable que representen digitos.

Nuestra etapa de segmentacion esta basada en el algoritmo de desplazamiento de media [6], que es una tecnica de reconocimiento de patron que es particularmente bien adecuada para delinear regiones mas densas en algun espacio caracterfstico arbitrariamente estructurado. En la segmentacion de imagen de desplazamiento de media, la imagen se representa tfpicamente como una malla bidimensional de pfxeles L*u*v de 3 dimensiones. El espacio de la malla se conoce como el dominio espacial, mientras la informacion de color corresponde al dominio de rango. Los vectores de localizacion y de rango se concatenan en un dominio espacial-rango conjunto, y se define un nucleo multivariado como el producto de dos nucleos radialmente simetricos en cada dominio, que permite la definicion independiente de los parametros de ancho de banda hs y hr para los dominios espacial y de rango, respectivamente [6]. Los maximos locales de la densidad de dominio conjunto se calculan a continuacion, y los modos que estan mas cercanos al hs en el dominio espacial y a hr en el dominio de rango se cortan en modos significativos. Cada pfxel se asocia a continuacion con un modo significativo de la densidad de dominio conjunto localizado en su cercanfa. Eventualmente, se eliminan las regiones espaciales que contienen menos de M pfxeles. En nuestro caso, puesto que hay un fuerte contraste entre dfgito y camiseta, podemos permitir un alto valor para hr, que se establece a 8 en nuestras simulaciones. El parametro hs equilibra el tiempo de ejecucion de la segmentacion y filtrado posterior y las etapas de clasificacion. De hecho, un valor de hr pequeno define un nucleo menor, que hace la segmentacion mas rapida pero tambien da como resultado un numero mayor de regiones a procesar en etapas posteriores. En nuestras simulaciones, hr se ha establecido a 4, mientras M se ha fijado a 20.

5

10

15

20

25

30

35

40

45

50

55

60

65

Para filtrar regiones que evidentemente no corresponden a digitos, nos basamos en las siguientes observaciones:

• Regiones de digitos validas nunca tocadas por el borde del cuadro delimitador (conservativo).

• Regiones de digitos validas que son rodeadas mediante una unica region coloreada homogeneamente. En la practica, nuestro algoritmo selecciona las regiones para las que los vecinos de los 4 puntos extremos (superior/inferior, derecho/izquierdo) de la region pertenecen a la misma region.

• La altura y anchura de regiones validas varia entre dos valores que se definen relativamente al tamano del cuadro delimitador. Puesto que el tamano de la delimitacion se define de acuerdo con metricas del mundo real, el criterio de tamano adapta implicitamente el rango de los valores de altura y anchura al efecto de la perspectiva resultante de la distancia entre el objeto detectado y la camara.

Para completar, vale la pena mencionar que algunas fuentes particulares dividen algunos digitos en dos regiones distintas. Por esta razon, las regiones de digitos candidatas estan compuestas de una region unica o un par de regiones que satisfacen los criterios anteriores.

Las (parejas de) regiones que se han seleccionado como elegibles para procesamiento posterior a continuacion se normalizan y clasifican. La normalizacion implica alineacion horizontal del eje principal mayor, como se deduce a traves del calculo de momentos de inercia, y conversion a una mascara binaria de 24 x 24. La clasificacion esta basada en la estrategia SVM de multiples clases ‘uno contra uno’ [8], como se recomienda e implementa mediante la biblioteca LIBSVM [3]. Se entrena una SVM de dos clases para cada par de clases, y se aprovecha una estrategia de voto mayoritario para inferir la clase (digito de 0 a 9 o clase binaria) desde el conjunto de decisiones de clasificacion binaria. En la practica, alimentar el clasificador a cada muestra de region se describe mediante un vector caracteristico de 30 dimensiones, en concreto:

• 1 valor para definir el numero de huecos en la region;

• 3 valores que corresponden a momentos de segundo orden m02, m20, y m22;

• 2 valores para definir el centro de masa de la region;

• 2 x 12 valores para definir el histograma de la region a lo largo del eje vertical y horizontal.

Los numeros con dos digitos se reconstruyen basandose en la deteccion de dos digitos adyacentes. Para ejecutar nuestras simulaciones, hemos entrenado el clasificador de SVM basandose en mas de 200 muestras segmentadas manualmente de cada digito, y en 1200 muestras de la clase binaria. Las muestras de clase binaria corresponden a regiones no de digitos que se segmentan automaticamente en una de las vistas, y cuyo tamano es coherente con uno de un digito.

V. Seguimiento de jugadores detectados

Para seguir jugadores detectados, hemos implementado un algoritmo rudimentario aunque eficaz. La propagacion de seguimientos se hace actualmente a traves de un horizonte de 1 fotograma, basandose en el algoritmo de asignacion general de Munkres [11]. Se usa Gating para evitar coincidencias improbables, y se usa un modulo de analisis de alto nivel para enlazar juntos seguimientos parciales usando estimacion de color de camiseta. En el futuro, deberian usarse tecnicas de coincidencia de grafos para evaluar hipotesis de coincidencia de horizonte mas largas. Deberian implementarse tambien analisis mas sofisticados de alto nivel, por ejemplo para aprovechar la informacion de reconocimiento de jugador disponible o para duplicar los seguimientos parciales que siguen a dos jugadores que estan muy cercanos entre si.

VI. Validacion experimental

A. Deteccion y seguimiento de jugador

Para evaluar nuestro algoritmo de deteccion de jugador, hemos medido las puntuaciones de deteccion perdida media y falsa deteccion a traves de 180 instantes de tiempo diferentes y espaciados regularmente en el intervalo desde 18:47:00 a 18:50:00, que corresponde a un segmento temporal para el que esta disponible una verdad sobre el terreno manual. Esta informacion de verdad sobre el terreno consiste en las posiciones de los jugadores y arbitros en el sistema de referencia de coordenadas de la cancha. Consideramos que dos objetos no puedan coincidirse si la distancia medida en la superficie es mayor de 30 cm. La Figura 6 presenta varias curvas ROC, obteniendose cada curva variando el umbral de deteccion para un metodo de deteccion dado. Se comparan tres metodos, y para cada uno de ellos evaluamos nuestro algoritmo propuesto para mitigar falsas detecciones. Como un metodo de referencia y primero, consideramos el enfoque seguido por [9], [10], que proyectan las mascaras de primer plano de todas las vistas unicamente en el plano de superficie. El pobre rendimiento de este ultimo enfoque se debe principalmente a

5

10

15

20

25

30

las sombras de los jugadores, y a la pequena contribucion de los pies de los jugadores a las mascaras de primer plano. Para validar esta interpretacion, en el segundo metodo, hemos proyectado las mascaras de primer plano en un unico plano localizado un metro por encima del plano de superficie. Haciendo esto, la influencia de las sombras se atenua drasticamente, mientras que la contribucion principal ahora se origina desde las partes centrales del cuerpo, que estan normalmente bien representadas en las mascaras de primer plano. Observamos mejoras significativas en comparacion con [9], [10]. El tercer y ultimo metodo de deteccion presentado en la Figura 6 es nuestro metodo propuesto. Observamos que el beneficio obtenido desde nuestra integracion de ocupacion de superficie es sorprendente. La mejora conseguida por nuestro detector de falsas alarmas es tambien bastante evidente. Ademas, los cruces en la Figura 6 presentan un punto de operacion conseguido despues de seguimiento rudimentario de posiciones detectadas. Observamos que tener en cuenta la uniformidad temporal puede mejorar aun los resultados de deteccion.

En la configuracion de APIDIS, todas las areas de la cancha de baloncesto no se cubren mediante el mismo numero de camaras. La Figura 7 muestra la influencia de la cobertura de la camara en las tasas de detecciones perdidas y falsas. Muestra tambien que en las areas con alta cobertura, la mayoria de las detecciones perdidas son debido a jugadores que permanecen muy cercanos entre si.

B. Reconocimiento de jugador

Para validar la cascada de reconocimiento de jugador, hemos seleccionado 190 cuadros delimitadores de jugadores desde camaras de vistas laterales. En cada cuadro delimitador seleccionado, el digito fue visible y podia leerse por un observador humano, a pesar de distorsiones de apariencia posiblemente significativas. La Tabla I resume nuestros resultados de reconocimiento. La tasa de reconocimiento esta por encima del 73 %. De manera mas interesante, observamos que cuando el digito no se reconocio, se asigno mas a menudo a la clase binaria, o no paso el analisis contextual debido a error de segmentacion. Ademas, el restante 4 % de falsos positivos no incluyeron ningun desemparejamiento real entre dos digitos. Realmente, el 75 % de falsos positivos se debieron a la perdida de un digito en un numero de dos digitos. En otros casos, se han reconocido dos digitos, el correcto y uno falso detectado.

imagen35

5

10

15

20

25

30

imagen36

Ademas, un analisis mas detallado ha revelado que la mayoria de los jugadores no reconocidos permanecieron en el lado opuesto del campo, en comparacion con la vista de la camara desde la que se extrajo el cuadro delimitador. En este caso, la altura del digito se reduce a menos de 15 pixeles, que explica el pobre rendimiento de reconocimiento, por debajo del 50 %. En contraste, una camara localizada en el mismo lado del campo que el jugador consigue cerca del 90 % de tasa de reconocimiento correcta.

Basandose en estas observaciones, estamos razonablemente convencidos que el rendimiento de reconocimiento de nuestro sistema sera suficientemente bueno para asignar una etiqueta correcta a segmentos cortos de trayectorias de jugador, proporcionando de esta manera una herramienta valiosa tanto para localizar ambiguedades de seguimiento o para favorecer un jugador preferido durante produccion de resumen de video.

Reconocimiento: 73 %

Error de segmentacion: 11 %

Falso negativo: 12 %

Falso positivo: 4 %

TABLAI

RENDIMIENTO DE RECONOCIMIENTO DE JUGADOR.

VII. Conclusion

Hemos presentado algoritmos de procesamiento de video para definir la posicion e identidad de atletas que juegan en un campo deportivo, rodeados por un conjunto de camaras ligeramente sincronizadas. La deteccion se basa en la definicion de un mapa de ocupacion de superficie, mientras que el reconocimiento del jugador se fundamenta en pre-filtrado de regiones segmentadas y en clasificacion de SVM de multiples clases. Los experimentos sobre el conjunto de datos de la vida real del APIDIS demuestran la relevancia de los enfoques propuestos.

Referencias

[1] A. Alahi, Y. Boursier, L. Jacques, y P. Vandergheynst, “A sparsity constrained inverse problem to locate people in a network of cameras”, en Proceedings of the 16th International Conference on Digital Signal Processing (DSP), Santorini, Grecia, julio de 2006.

[2] J. Berclaz, F. Fleuret, y P. Fua, “Principled detection-by-classification from multiple views”, en Proceedings of the

5

10

15

20

25

30

35

International Conference on Computer Vision Theory and Application (VISAPP), vol. 2, Funchal, Madeira, Portugal, enero de 2008, pags. 375-382.

[3] C.-C. Chang y C.-J. Lin, “LIBSVM: A library for support vector machines”, en
http://www.csie.ntu.edu.tw/cjlin/papers/libsvm.pdf.

[4] F. Chen y C. De Vleeschouwer, “A resource allocation framework for summarizing team sport videos”, en IEEE International Conference on Image Processing. El Cairo, Egipto, noviembre de 2009.

[5] —, “Autonomous production of basket-ball videos from multi-sensored data with personalized viewpoints”, en Proceedings of the 10th International Workshop on Image Analysis for Multimedia Interactive Services, Londres. RU, mayo de 2009.

[6] D. Comaniciu y P. Meer, “Mean shift: a robust approach toward feature space analysis”. IEEE Transactions on Pattern Analysis y Machine Intelligence, vol. 24, n° 5, pags. 603-619, mayo de 2002.

[7] F. Fleuret. J. Berclaz, R. Lengagne, y P. Fua, “Multi-camera people tracking with a probabilistic occupancy map”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, n° 2, pags. 267-282, febrero de 2008.

[8] C.-W. Hsu y C.-J. Lin, “A comparison of methods for multiclass support vector machines”, IEEE Transactions on Neural Networks. vol. 13, n° 2. pags. 415-425, marzo de 2002.

[9] S. Khan y M. Shah, “A multiview approach to tracing people in crowded scenes using a planar homography constraint”, en Proceedings of the 9th European Conference on Computer Vision (ECCV), vol. 4, Graz, Austria, mayo de 2006, pags. 133-146.

[10] A. Lanza, L. Di Stefano, J. Berclaz, F. Fleuret, y P. Fua, “Robust multiview change detection,” en British Machine Vision Conference (BMVC), Warwick, Ru, septiembre de 2007.

[11] J. Munkres, “Algorithms for the assignment and transportation problems”. en SIAM J. Control, vol. 5, 1957, pags. 32-38.

[12] Q. Ye, Q. Huang, S. Jiang, Y. Liu, y W. Gao, “Jersey number detection in sports video for athlete identification”, en Proceedings of the SPIE, Visual Communications y Image Processing, vol. 5960, Beijing, China, julio de 2005, pags. 1599-1606.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Un metodo basado en ordenador para produccion autonoma de un video editado a partir de multiples corrientes de video capturadas por una pluralidad de camaras distribuidas alrededor de una escena de interes para seleccionar, como una funcion del tiempo, puntos de vista optimos para ajustar la resolucion de visualizacion y otras preferencias de usuario, y para suavizar estas secuencias para una narrativa continua y elegante, comprendiendo el metodo:

• detectar objetos de interes en las imagenes de las corrientes de video,

• seleccionar para cada localizacion/posicion de camara prevista, un campo de vision obtenido:

- o bien recortando la imagen capturada por una camara fija, definiendo mediante ello parametros de recorte,

- o bien seleccionando los parametros de panoramica-inclinacion-zoom de una camara motorizada o una camara virtual, aproximando dicha camara virtual una imagen en una posicion arbitraria con un campo de vision arbitrario aprovechando una red distribuida de dichas camaras,

estando seleccionado el campo de vision basandose en procesamiento conjunto de las posiciones de multiples objetos de interes que se han detectado, en el que la seleccion se hace de una manera que equilibra las metricas de completitud y cercania como una funcion de preferencias de usuario individuales, en el que la completitud cuenta el numero de objetos de interes que se incluyen y son visibles en el punto de vista visualizado, y la cercania mide el numero de pixeles que estan disponibles para describir los objetos de interes,

• montar el video editado seleccionando y concatenando segmentos de video proporcionados mediante una o mas camaras individuales, en el que el montaje se hace de una manera que equilibra las metricas de completitud y cercania a lo largo del tiempo, mientras se suaviza la secuencia de dichos parametros de recorte y/o panoramica- inclinacion-zoom asociados a segmentos concatenados, en el que el proceso de suavizado se implementa basandose en mecanismo de filtrado temporal de paso bajo lineal o no lineal.
2. El metodo basado en ordenador de la reivindicacion 1, en el que la seleccion se hace de manera que maximizan las metricas de completitud y cercania.
3. El metodo basado en ordenador de la reivindicacion 1 o 2, en el que la metrica de completitud se define como el porcentaje de objetos incluidos mientras que la metrica de cercania se define como area de pixeles media que se usa para representar.
4. El metodo de la reivindicacion 1,2 o 3 que comprende adicionalmente puntuar el punto de vista seleccionado en cada vista de camara de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones.
5. El metodo de la reivindicacion 1,2 o 3, que comprende adicionalmente seleccionar el campo de vision optimo en cada camara, en un instante de tiempo dado, en el que un campo de vision vk en la kesima vista de camara se define mediante el tamano Sk y el centro ck de la ventana que se recorta en la kesima vista para visualizacion real y se selecciona para incluir los objetos de interes y para proporcionar una descripcion a alta resolucion de los objetos, y se selecciona un campo de vision optimo vk* para maximizar una suma ponderada de intereses de objetos como sigue

imagen1

donde, en la ecuacion anterior:

• In indica el nivel de interes asignado al nesimo objeto detectado en la escena,

• xn,k indica la posicion del nesimo objeto en la vista de camara k,

• la funcion m(....) modula los pesos del nesimo objeto de acuerdo con su distancia al centro de la ventana de punto

de vista, en comparacion con el tamano de esta ventana,

• el vector u refleja las preferencias de usuario, en particular, su componente Ures define la resolucion de la corriente de salida, que esta generalmente restringida por el ancho de banda de transmision o la resolucion del dispositivo de usuario final,

5

10

15

20

25

30

35

40

45

50

55

• la funcion a(.) refleja la penalizacion inducida por el hecho de que la senal nativa capturada mediante la kesima camara tiene que sub-muestrearse una vez que el tamano del punto de vista se hace mayor que la resolucion maxima ums permitida mediante el usuario.
6. El metodo de la reivindicacion 5, en el que a(....) se reduce con Sk y la funcion a(....) es igual a uno cuando Sk<ures, y se reduce posteriormente, y en el que a(....) se define opcionalmente mediante:

imagen2

donde el exponente ucercano es mayor que 1, y aumenta a medida que el usuario prefiere representacion de resolucion completa de area de acercamiento, en comparacion con puntos de vista grandes pero sub-muestreados.
7. El metodo de cualquiera de las reivindicaciones 4 a 6 en el que la puntuacion mas alta corresponde a una vista que hace visibles a la mayoria de objetos de interes, y esta cerca de la accion.
8. El metodo de cualquiera de las reivindicaciones 4 a 7, en el que, dado el interes In de cada jugador, la puntuacion ik(vk, u) asociada a la kesima vista de camara se define como sigue:

imagen3

donde, en la ecuacion anterior:

■ In indica el nivel de interes asignado al nesimo objeto detectado en la escena;

■ xn indica la posicion del nesimo objeto en el espacio en 3D;

■ ok(xn| x) mide la relacion de oclusion del nesimo objeto en la vista de camara k, conociendo la posicion de todos los otros objetos, estando definida la relacion de oclusion de un objeto para que sea la fraccion de pixeles del objeto que se ocultan por otros objetos cuando se proyectan en el sensor de la camara;

■ la altura hk(xn) se define para que sea la altura en pixeles de la proyeccion en la vista k de una altura de referenda de un objeto de referenda localizado en xn; el valor de hk(xn) se calcula directamente basandose en la calibracion de la camara, o cuando la calibracion no esta disponible, puede estimarse basandose en la altura del objeto detectado en la vista k;

■ la funcion fik{.) refleja el impacto de las preferencias de usuario en terminos de vista de camara y resolucion de visualizacion.
9. El metodo de la reivindicacion 8, en el que (3k() se define como:

imagen4

donde Uk indica el peso asignado a la kesima camara, y a(S, u) se define como en la reivindicacion 6.
10. El metodo de cualquiera de las reivindicaciones 1 a 9 que comprende adicionalmente suavizar la secuencia de indices de camara y parametros de punto de vista correspondientes, en el que el proceso de suavizado se implementa, por ejemplo, basandose en dos Campos Aleatorios de Markov, mecanismo de filtrado de paso bajo lineal o no lineal, o mediante un formalismo de modelo de grafo, resuelto basandose en el algoritmo Viterbi convencional.
11. Sistema basado en ordenador para seleccionar, como una funcion del tiempo, puntos de vista optimos para ajustar la resolucion de visualizacion y otras preferencias de usuario, y para suavizar estas secuencias para una narrativa continua y elegante que comprende un motor de procesamiento y memoria para produccion autonoma de un video editado desde multiples corrientes de video capturadas mediante una pluralidad de camaras distribuidas

5

10

15

20

25

30

35

40

45

50

55

60

alrededor de una escena de interes, comprendiendo el sistema:

detector para detectar objetos de interes en las imagenes de las corrientes de video;

primeros medios para seleccionar uno o mas puntos de vista de camara obtenidos o bien recortando la imagen capturada mediante una camara fija, definiendo mediante ello parametros de recorte, o bien seleccionando los parametros de panoramica-inclinacion-zoom de una camara motorizada o una camara virtual, aproximando dicha camara virtual una imagen en una posicion arbitraria con un campo de vision arbitrario aprovechando una red distribuida de dichas camaras, estando seleccionado el punto de vista de la camara para incluir los objetos de interes y basandose en procesamiento conjunto de las posiciones de los multiples objetos de interes que se han detectado, en el que la seleccion se hace de manera que equilibra las metricas de completitud y cercania como una funcion de preferencias de usuario individuales, en el que la completitud cuenta el numero de objetos de interes que se incluyen y son visibles en el punto de vista visualizado, y la cercania mide el numero de pixeles que estan disponibles para describir los objetos de interes;

segundos medios para seleccionar parametros de representacion que maximizan y suavizan las metricas de cercania y completitud concatenando segmentos en las corrientes de video proporcionadas mediante una o mas camaras individuales, en el que el montaje se hace de manera que equilibra las metricas de completitud y cercania a lo largo del tiempo, mientras se suaviza la secuencia de dichos parametros de recorte y/o panoramica-inclinacion- zoom asociados a segmentos concatenados, en el que el proceso de suavizado se implementa basandose en el mecanismo de filtrado temporal de paso bajo lineal o no lineal.
12. El sistema basado en ordenador de la reivindicacion 11, en el que la seleccion se hace de manera que maximiza las metricas de completitud y cercania.
13. El metodo basado en ordenador de la reivindicacion 11 o 12, en el que la metrica de completitud se define como el porcentaje de objetos incluidos mientras la metrica de cercania se define como el area de pixeles media como se usa para representacion.
14. El sistema de la reivindicacion 11, 12 o 13, que comprende adicionalmente terceros medios para seleccionar variaciones de parametros de camara y de imagen para la vista de la camara que representa la accion como una funcion del tiempo para un conjunto de metricas de cercania y completitud conjuntas, estando adaptados opcionalmente los terceros medios para seleccionar variaciones de parametros de camara y de imagen para recortar en la vista de la camara de una camara estatica o para controlar los parametros de control de una camara dinamica.
15. El sistema de la reivindicacion 11 o 14 que comprende adicionalmente medios para mapear imagenes desde todas las vistas de todas las camaras a las mismas coordenadas temporales absolutas basandose en una referencia temporal unica comun para todas las vistas de camara.
16. El sistema of de cualquiera de las reivindicaciones 11 a 15 que comprende adicionalmente cuartos medios para seleccionar las variaciones de parametros que optimizan el equilibrio entre completitud y cercania en cada instante de tiempo, y para cada vista de camara, en el que el equilibrio de completitud/cercania se mide opcionalmente como una funcion de las preferencias de usuario.
17. El sistema de cualquiera de las reivindicaciones 11 a 16, que comprende adicionalmente medios para puntuar el punto de vista seleccionado en cada vista de camara de acuerdo con la calidad de su equilibrio de completitud/cercania, y a su grado de oclusiones.
18. El sistema de la reivindicacion 17, que comprende adicionalmente medios para calcular los parametros de una camara virtual optima que realiza panoramica, zoom y cambia a traves de las vistas para conservar altas puntuaciones de puntos de vista seleccionados mientras se minimiza la cantidad de movimientos de camara virtual, para el segmento temporal disponible.
19. El sistema de la reivindicacion 17 o 18, que comprende adicionalmente quintos medios para seleccionar el punto de vista optimo en cada vista de camara, en un instante de tiempo dado, en el que los quintos medios para seleccionar el punto de vista optimo estan adaptados, para un punto de vista v^ en la kesima vista de camara que se define mediante el tamano Sk y el centro ck de la ventana que se recorta en la kesima vista para visualizacion real y se selecciona para incluir los objetos de interes y para proporcionar una alta resolucion, esta adaptado para seleccionar una descripcion de los objetos y un punto de vista optimo vk* para maximizar una suma ponderada de los intereses de objetos como sigue:

5

10

15

20

25

30

35

40

45

50

imagen5

donde, en la ecuacion anterior:

In indica el nivel de interes asignado al neSimo objeto detectado en la escena. Xn,k indica la posicion del neSimo objeto en la vista de camara k,

la funcion m(....) modula los pesos del nesimo objeto de acuerdo con su distancia al centro de la ventana de punto de

vista, en comparacion con el tamano de esta ventana,

el vector u refleja las preferencias de usuario, en particular, su componente ures define la resolucion de la corriente de salida, que esta generalmente restringida por el ancho de banda de transmision o la resolucion del dispositivo del usuario final,

la funcion a(.) refleja la penalizacion inducida por el hecho de que la senal nativa capturada mediante la kesima camara tiene que sub-muestrearse una vez que el tamano del punto de vista se hace mayor que la resolucion maxima ures permitida mediante el usuario.
20. El sistema de la reivindicacion 19, en el que a(....) se reduce con Sk y la funcion a(....) es igual a uno cuando Sk<ures y se reduce posteriormente, en el que a(....) se define opcionalmente mediante:

a(S, u)=

donde el exponente ucercano es mayor que 1, y aumenta a medida que el usuario prefiere representacion a resolucion completa de area de acercamiento, en comparacion con puntos de vista grandes pero sub-muestreados.
21. El sistema de cualquiera de las reivindicaciones 18 a 20, que comprende adicionalmente sextos medios para seleccionar la camara en un instante de tiempo dado que hace visibles a la mayoria de objetos de interes, y esta cerca de la accion, en el cual un indice de camara optimo k* se selecciona de acuerdo con una ecuacion que es similar o equivalente a:

k' = arg max ]T ^ In-ot(x„\x)-hk{xn)-u)

imagen6

donde, en la ecuacion anterior:

■ In indica el nivel de interes asignado al nesimo objeto detectado en la escena;

■ Xn indica la posicion del nesimo objeto en el espacio en 3D;

■ ok(Xn| x) mide la relacion de oclusion del nesimo objeto en la vista de camara k, conociendo la posicion de todos los otros objetos, definiendose la relacion de oclusion de un objeto para que sea la fraccion de pixeles del objeto que se ocultan por otros objetos cuando se proyectan en el sensor de la camara;

■ la altura hk(xn) se define para que sea la altura en pixeles de la proyeccion en la vista k de una altura de referencia de un objeto de referencia localizado en xn; el valor de hk(xn) se calcula directamente basandose en la calibracion de la camara, o cuando la calibracion no esta disponible, puede estimarse basandose en la altura del objeto detectado en la vista k,

■ la funcion /?*{.) refleja el impacto de las preferencias de usuario en terminos de vista de camara y resolucion de visualizacion.
22. El sistema de la reivindicacion 21, en el que $<(.) se define como:

imagen7

donde Uk indica el peso asignado a la kesima camara, y a(S,u) se define como en la reivindicacion 20.

5 23. El sistema de cualquiera de las reivindicaciones 20 a 22 que comprende adicionalmente medios para suavizar la

secuencia de indices de camara y parametros de punto de vista correspondientes, en el que los medios para suavizar estan adaptados para suavizar basandose en dos campos aleatorios de Markov, mediante un mecanismo de filtrado de paso bajo lineal o no lineal, mediante un formalismo de modelo de grafo, resuelto basandose en el algoritmo Viterbi convencional.

10
24. Un medio de almacenamiento de serial legible por maquina no transitoria que almacena un producto de programa informatico que comprende segmentos de codigo que cuando se ejecutan en un motor de procesamiento ejecuta el metodo de cualquiera de las reivindicaciones 1 a 10 o implementa el sistema de acuerdo con cualquiera de las reivindicaciones 11 a 23.