ES2709211T3

ES2709211T3 - Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo

Info

Publication number: ES2709211T3
Application number: ES16382233T
Authority: ES
Inventors: Juan Francisco Garamendi; Martinez Pablo Arias; Sadek Rida Sadek
Original assignee: Rational Pixels S L
Current assignee: Rational Pixels S L
Priority date: 2016-05-25
Filing date: 2016-05-25
Publication date: 2019-04-15
Anticipated expiration: 2036-05-25
Also published as: US10121257B2; EP3249609B1; US20170345163A1; EP3249609A1

Abstract

Un metodo implementado por ordenador para editar una secuencia de video con consistencia en el tiempo que comprende las etapas de: i) calcular un campo de movimiento que modele la consistencia temporal entre fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas que debe poseer la secuencia de video; iii) dividir la secuencia de video en dos conjuntos, uno con fotogramas pares y otro con fotogramas impares; caracterizado por que el metodo comprende ademas las etapas: iv) calcular el campo de movimiento entre los fotogramas consecutivos en las secuencias divididas; v) llevar a cabo recursivamente las etapas iii) y iv) hasta que los conjuntos que se dividan contengan un unico fotograma para editar; vi) minimizar el funcional de energia para cada conjunto que contenga un fotograma para editar; vii) integrar los fotogramas editados y extraer la secuencia completa de video editada.

Description

DESCRIPCION

Metodo implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo

Campo de la invencion

La presente invencion se comprende dentro de los campos del procesamiento de video y edicion de video, mediante la cual un video dado se modifica para lograr un cierto objetivo.

Antecedentes de la invencion

La edicion digital de secuencias de video se ha convertido en una etapa comun para la post produccion de cine y video, principalmente debido a los avances en los campos de graficos por ordenador y vision artificial. Las tareas de edicion de video varian desde las operaciones basicas tales como arreglos, recortes, particiones y cambios de tamano de segmentos de video a los mas elaborados tales como filtros de efectos, edicion de texturas de objetos, eliminacion y adicion de objetos en un segmento de video, entre otros.

Una diferencia significativa entre la edicion de video y la edicion de imagen (fija o fotografia) es el requisito de que el resultado tenga que ser coherente a lo largo del tiempo. La coherencia temporal se define como una transicion suave entre los fotogramas sucesivos, coherentes con el movimiento de los objetos en la secuencia. Debido a esta restriccion, la edicion de un video no se puede reducir a una serie de problemas de edicion de imagenes independientes. La dependencia temporal impuesta por el movimiento tiene que tenerse en cuenta.

Diversas aproximaciones al problema de edicion de video estiman las trayectorias a parti r del video, y calculan el video editado como el minirno de un funcional de energia. En este contexto, el video, o una region de interes (ROI) en el, se representa como un vector en RN donde el numero de variables N corresponde al numero de pixeles en el ROI. Por ejemplo para un ROI rectangular de ancho W, alto H, T fotogramas y color codificado usando un espacio de color de 3 canales, por ejemplo, RGB, se tiene N = 3WHT. El video editado es calculado mediante la minimizacion de una funcional de energia E : RN ^ R con una tecnica de optimizacion adecuada. El funcional de energia se disena buscando que sus minimos correspondientes tengan las “propiedades adecuadas” de la solucion buscada. Estas propiedades vienen dadas por la tarea de edicion especifica y ciertas propiedades generales, tales como coherencia espacial y temporal.

En particular, se enfoca en funcionales de energia de video que tengan la siguiente estructura:

Donde u £ Rwindica el video desconocido vectorizado, t = 0, ..., T es el indice de fotograma, y ut representa el t-enesimo fotograma de u (tambien como un vector). La ecuacion (Ecuacion 1) establece que la energia E se puede descomponer como una suma de dos tipos de terminos.

Los terminos en el primer sumatorio consisten en energias Ete(ut) que afectan a un solo fotograma. Su forma especifica depende de las tareas de edicion. Por ejemplo, funcionales como el siguiente se han usado a menudo en la literatura:

Donde Q denota el dominio del fotograma (tipicamente un rectangulo), x £ % son las coordenadas de pixel, de manera que, u (x ,t) es el nivel de gris (color) del pixel localizado en x del fotograma t del video u. V es el operador de gradiente espacial discreto (por ejemplo usando diferencias finitas), &,p £ R son parametros del funcional, f es un video dado y g es un campo vectorial (por ejemplo el gradiente espacial de un video); f y g son conocidos, tipicamente como el resultado de una etapa de procesamiento previa. El primer sumatorio es un termino de fidelidad de datos al video f dado y el segundo sumatorio establece un acoplamiento del gradiente de la solucion con g, medido con la norma- p. Como ejemplo, si f es el video original y g = 0, se puede disenar un filtro de suavizado. Si p = 2 el suavizado resultante es equivalente a un desenfoque gaussiano del video original. Si p = 1, el suavizado preserva los bordes. Otro ejemplo podria ser un filtro para separar textura de la componente geometrica, es decir, obtener una version de un video como si fuera “dibujos animados”. Esto se lograria definiendo g como version simplificada del gradiente del video original, manteniendo solo grandes gradientes (asociados a la informacion geometrica definida por bordes fuertes) y eliminando los gradientes pequenos (asociados con la textura, los detalles, etc.). Estos ejemplos solo son dados aqui para fijar las ideas. La forma especifica del termino Ete de energia depende del tipo de edicion deseada y problema a resolver, y puede no tener la estructura dada en la Ecuacion 1.1, excepto por el hecho de que solo depende del fotograma t.

Los terminos en el segundo sumatorio Eft+1(ut,u t+1) acoplan pares de fotogramas contiguos. Su objetivo es imponer la coherencia temporal penalizando alguna medida de la variacion del video a lo largo de una trayectoria de movimiento. La forma especifica de los terminos de coherencia temporal Ettc(ut,u t+1) depende de la eleccion del criterio de coherencia temporal. Se daran ejemplos mas adelante.

Sin el acople temporal impuesto por los terminos de coherencia temporal Ettc(ut,u t+1), la minimizacion de la energia resultante se reduce a las minimizaciones de los terminos Ete(ut) que afectan a un funcional. Cada una de estas se puede minimizar independientemente de cada fotograma. A la vez que esto es atractivo desde un punto de vista computacional ya que permite la paralelizacion, no hay garantia de que el resultado sea consistente en el tiempo. Por el contrario, los terminos de coherencia temporal acoplaran todos los pares de fotogramas adyacentes, lo cual implica que la energia tiene que ser minimizada simultaneamente sobre la totalidad del volumen del video. Esto impide la paralelizacion sobre los fotogramas. Ademas, a menudo ocurre el caso donde los costes computacionales de minimizar una energia conjuntamente sobre T fotogramas, son mucho mas altos que T veces el coste de minimizar la energia sobre un solo fotograma (La complejidad del algoritmo de minimizacion se escala de forma superlineal o exponencialmente con el numero de variables).

Revision de edicion de video con coherencia temporal

Los metodos de edicion de video con coherencia temporal se pueden clasificar de acuerdo con el patron de movimiento usado. La gran mayoria de software de edicion de video profesional se basa en patrones de movimiento defenidos de manera cerrada mediante parametros. Los modelos parametricos trabajan con suposiciones hechas sobre la geometria de la escena. El caso mas comun es suponer que la escena es plana (no curva) a trozos [25,14]. En la post produccion de cine y video profesional, hay diversos programas de software que le permiten a un artista de efectos visuales, seleccionar una region plana la cual es entonces seguida de manera automatica por el software. Ejemplos de ellos son mocha [22], o seguimiento de plano de Nuke [11]. Este patron permite el calculo de un mapeado simple entre cualquier par de fotogramas, dicho mapeado se puede usar entonces para propagar la informacion de un fotograma a otro. Cuando un objeto en el dominio de edicion no es plano (es curvo), el artista necesita segmentarlo en piezas que pueden ser aproximadas por un plano, y realizar un seguimiento para cada region plana. Este proceso toma tiempo y a menudo el resultado necesita retoques para eliminar cualquier marca entre los diferentes rastreadores.

Por otra parte, los patrones no parametricos no hacen suposiciones sobre la geometria de la escena. Estos patrones usualmente calculan el movimiento en la secuencia usando flujo optico. En los anos recientes ha habido un progreso considerable en el calculo del flujo optico. Por ejemplo, los algoritmos de flujo optico del estado de la tecnica son capaces de manejar algunos desplazamientos grandes y permiten fuertes discontinuidades en el movimiento. Este es el caso de [21,8,6,2] por citar unos pocos. Estos metodos sufren aun del problema de “apertura”: el componente del vector de movimiento que es tangente a las curvas de nivel de la imagen no se puede calcular. En la practica, para aliviar este problema, se incorpora un termino de regularidad. El termino de suavidad ocasiona un efecto de llenado que provoca un calculo del flujo denso, incluso aunque este presente el problema de la apertura.

A continuacion, se revisa el estado de la tecnica de la edicion de video con coherencia temporal basado en el flujo optico. Aunque se han usado diversos efectos de flujo optico en la post produccion [19] de cine y video profesionales, su uso para edicion de video consistente en el tiempo es aun marginal en comparacion con el uso extendido de seguimiento de regiones planas.

Ejemplos de terminos de energia con coherencia en el tiempo

En esta seccion, se presentan diversos modos de modelizar la coherencia temporal usada en la literatura.

A lo largo del texto los simbolos en negrita se usaran para indicar cantidades de naturaleza vectorial asi como matrices. Los simbolos sin negrita indicaran cantidades escalares. Cabe anotar que no se hara distincion cuando se discutan ejemplos de videos 1D, y en estos casos se usaran simbolos sin negrita.

Considerese un dominio espacio- temporal continuo n x [0,T] donde n c R2 es un dominio rectangular, y T > 0, y el dominio de edicion 0 c n x [0,T] con frontera suave. En algunos lugares del texto, para impedir ecuaciones engorrosas, se usara nT a modo de notacion abreviada para el dominio de video n x [0,T]. Cada seccion temporal de 0 sera denotada por 0 t = {4 £ n: (4,t) £ 0}. De manera similar, las porciones temporales de n x [0,T] se denotan por n t : t £ [0,T], representando los fotograma del video continuo. Una ilustracion de estos dominios se puede ver en la Figura 1.

Sea u :n x [ 0 ,T ] ^ R un video de valores escalares dado y sea » : f l x [ 0 , T - 1 ] ^ R2 el campo de movimiento correspondiente. El valor del campo de movimiento en (4 , t) £ n x [0,T - 1], 9 (4 , t) representa la velocidad de la proyeccion de una particula en la escena 3D dentro del plano 2D de la imagen [12]. La trayectoria de la particula se puede obtener resolviendo la siguiente ecuacion diferencial ordinaria (ODE):

Donde t £ [0,T]. Por simplicidad se asume en este capitulo que las funciones se pueden diferenciar tantas veces como sea necesario.

Ejemplo 1: Suposicion de constancia de brillo

Para un objeto Lambertiano bajo iluminacion constante uniforme, el brillo de una particula del objeto no cambia con el tiempo, lo cual implica que u(x,t) sea constante a lo largo de las trayectorias. Esto se puede expresar en los terminos de la derivada total a lo largo de una trayectoria dando como resultado la siguiente ecuacion de constancia de brillo [13]:

Donde ^ u es la derivada de u a lo largo de las trayectorias x (t) y Vu se refiere al gradiente espacial de u. Definase la derivada convectiva como:

La derivada convectiva expresa la derivada a lo largo de las trayectorias. Esta notacion se usa para simplificar las expresiones y hacer explicita su conexion con el campo 9. Se puede imponer la constancia del brillo mediante un funcional de energia tal como (1), en la cual el termino de coherencia temporal penaliza la derivada convectiva:

Al penalizar la derivada convectiva, esta energia impone que el video vane suavemente a lo largo de las trayectorias de movimiento.

Hay diversas opciones para discretizar esta energia [18]. Una forma es usar el flujo optico adelantado a partir de t a t 1, 9e. La derivada convectiva adelantada discreta se define entonces en un punto (x, t) £ fi x {0,1, ...,T} como sigue

Cuando el flujo optico tiene una resolution de subpixel, entonces u(x 9 E(x ,t) , t 1) tiene que ser interpolado, por ejemplo usando interpolation bilineal. Con esta definition, la energia anterior es:

La suposicion de constancia del brillo se ha usado extensamente para el calculo del flujo optico [24,3], y recientemente para interpolacion de video y edition dado un flujo optico calculado. En [15] y [20] se usa para llevar a cabo la elimination de un objeto, por ejemplo segmentado por un usuario. Con el fin de eliminarlo, se tiene que recuperar el fondo ocluido. Esto se lleva a cabo propagando el fondo visible a lo largo de las trayectorias de movimiento. La derivada convectiva es discretizada usando el flujo optico adelantado.

Para la edicion de video con coherencia temporal del gradiente, los autores en [5] usan un gradiente 3D donde la componente temporal viene dada mediante la derivada convectiva. El trabajo aborda las diversas tareas de edicion de video. En el trabajo realizan dos etapas: primero se propaga la information del color (usando la Estructura a partir del Movimiento). El resultado es consistente en el tiempo en el dominio de edicion, pero pueden apreciarse uniones artificiales en el dominio espacial. Para remediar esto, se lleva a cabo una segunda etapa. Usando el gradiente espacial de la informacion propagada, se propone un funcional de energia con dos terminos. Un termino que lleva a cabo la edicion mediante la ecuacion de Poisson en cada fotograma imponiendo consistencia espacial; y, un termino que filtra a lo largo de las trayectorias de movimiento para asegurar adicionalmente la consistencia en el tiempo. Estos dos terminos son ponderados por un parametro positivo. El video resultante es coherente espacialmente y temporalmente. Este trabajo se ha elaborado adicionalmente dentro de un marco de referencia completo en [4] para filtrado de imagen y video.

Un procedimiento similar de dos etapas se aplica en [10]. La diferencia con [5] es que la primera etapa consistente en la propagacion de colores se hace usando la derivada convectiva (en lugar de usar la estructura a partir del movimiento). En [10] la derivada convectiva es discretizada alternando entre los flujos opticos adelantados y retrasados, lo que hace posible la propagacion a traves un gran numero de fotogramas sin degradacion. Despues, se usa una energia de dos terminos similar a la de [4], para eliminar las uniones artificiales en el dominio espacial de una forma coherente en el tiempo.

Una aproximacion relacionada interesante se sigue en [7], donde los autores integran explicitamente el flujo optico, calculando un conjunto de trayectorias que cubren el dominio a editar. Estas trayectorias se usan entonces para propagar la informacion del color conocida dentro del dominio de edicion. Para el calculo de estas trayectorias, el flujo optico en si mismo tiene que interpolarse en las posiciones subpixel. Ya que el flujo optico es en general mas regular que los fotogramas, los errores de interpolation que aparecen son mas pequenos y menos perceptibles en el video resultante, pero pueden aun acumularse ocasionando una desviacion considerable. Este problema se analiza en [9] donde se propone una solution elegante.

Finalmente, hay que mencionar la aproximacion de mosaicos desenvueltos de [17], la cual es interesante debido a que evita el calculo de movimiento fotograma a fotograma. En lugar de ello, los autores proponen calcular una textura estatica desenvuelta, una secuencia de mascaras de oclusion, y una secuencia de transformaciones a partir de la textura desenvuelta en cada uno de los fotogramas en el video. Luego se lleva a cabo la edicion directamente en la textura desenvuelta, y los cambios se mapean de regreso a la secuencia de video usando las transformaciones calculadas. La tecnica de los mosaicos desenvueltos permite manejar un amplio rango de situaciones que incluyen enfoques, deformaciones geometricas y oclusiones. El metodo se basa sin embargo en una maquinaria algoritmica sustancial que incluye segmentation de video exacta, seguimiento de puntos clave y optimization no lineal para calcular la textura y el mapeado. Tambien, dado que los mosaicos estan fijados, los cambios de iluminacion deben manejarse en una etapa de post procesado.

Ejemplo 2: Suposicion del cambio de brillo global (GBC):

Bajo cambios de iluminacion, no se mantiene la suposicion de constancia del brillo. En esta section esta suposicion se generaliza para tener en cuenta cambios de iluminacion aditivos espacialmente constantes. En ese caso, si se siguen las trayectorias de dos particulas, la diferencia de sus colores permanece constante. La suposicion del cambio de brillo global se basa en esta observation basica. Se consideran dos particulas que en el tiempo t estan en posiciones * 0 e f l y y 0 e f i . Sus trayectorias son indicadas por k (xo,s) y k (j o,s) con s £ [0,T]. Luego para k > 0,

^u( ^k(^{j o}, t k), t k) - u(<p(x0, t k), t k) = u(y0, t) - ^u(^{x o}, t) (8)

Esto se representa mediante la Figura 3. Despues de reorganizar los terminos, dividiendo por k y tomando k ^ 0 se obtiene en consecuencia dvu(y0,t) = dvu(xO, t ) . Dado que esto se mantiene para todas las ^xo,^{j o} £ n, se obtiene que dvu(x,t) es una funcion de t, que es:

dvu(x,t) = g(t) (9)

Aqui g(t) expresa la tasa de cambio de iluminacion global. En consecuencia, (9) generaliza el patron de constancia de brillo tomando en consideration cambios globales en la iluminacion.

Tomando el gradiente espacial en ambos lados de la Ecuacion (9), se encuentra una version diferencial de (8):

Vdvu(x,t) = O (10)

Los autores en [18] proponen un metodo variacional para la edicion de video con base en esta suposicion. Proponen una energia para propagacion a lo largo de las trayectorias de flujo optico penalizando desviaciones de la condition (10):

Egbc(u) = J077 nJ |V5vU(x,t)||2 dx dt (11)

Mientras que la Ecuacion (10) implica un cambio de iluminacion espacial constante, el modelo variacional permite cierta variation espacial en @vu . Esta es una caracteristica util en aplicaciones practicas ya que representa fuentes de luz, sombras y reflejos localizados, a la vez que se manifiesta en la frontera del dominio de edicion.

Esta energia puede ser discretizada de muchas formas, dependiendo de las discretizaciones usadas para el gradiente y los operadores de derivada convectiva [18]. Por ejemplo, se puede usar el flujo optico adelantado para discretizar la derivada convectiva como antes, y usar una discretization estandar del gradiente mediante las diferencias finitas adelantadas de la derivada convectiva.

<Eu(x,t) = [u(x e0, t ) - u (x ,t ) ,u (x e1, t ) - u (x ,t ) ]T (12)

Donde e0 = (1,0)T y e1 = (0,1)T. Con esta definition, la e n e ^a se puede escribir como una suma de los terminos que acoplan dos fotogramas consecutivos EtPl’^ 1(ut ,u t+1).

Esta e n e ^a se uso en [18] para una tarea de edition de video consistente en la modification de la superficie de los objetos en el video (por ejemplo para agregar, modificar o eliminar un logotipo). Un usuario lleva a cabo la edicion en al menos un fotograma clave, y este se propaga entonces al resto de los fotogramas mediante la minimization de Egbc. La propagation obtenida se adapta a los cambios de iluminacion los cuales son espacialmente suaves.

Ejemplo 3: La suposicion de constancia de gradiente

Aun otra alternativa es asumir que el gradiente es constante a lo largo de trayectorias de movimiento, cual se puede expresar como:

dvVu(x,t) = O (13)

En la literatura se hace referencia a esto como la suposicion de constancia de gradiente [23, 24, 16]. De forma similar a las ecuaciones (5) y (15), se puede definir un termino de energia de coherencia temporal penalizando las desviaciones de la Ecuacion (13):

Epc(u) = J0TJf i tHa„Vu(x,t)||2 dx dt (14)

Con el gradiente discreto y la derivada convectiva usados anteriormente, se obtiene una version discreta de la energia que se puede expresar como un sumatorio de los terminos que acoplan dos fotogramas sucesivos, Et,t+1(ut, ut+ i) .

Esta suposicion es mas restrictiva que la suposicion del cambio de brillo global, ya que solo se mantiene cuando el movimiento es una traslacion global. Por esta razon, este patron no se ha usado hasta ahora para la edicion de video, y se ha usado principalmente para el calculo del flujo optico [23].

Referencias:

[1] R.A. Adams. Sobolev spaces. Academic Press, New York, 1975.

[2] A. Ayvaci, M. Raptis, and S. Soatto. Sparse occlusion detection with optical flow. International Journal of Computer Vision (IJCV), 97(3):322- 338, May 2012.

[3] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski. A Database and Evaluation Methodology for Optical Flow. International Journal of Computer Vision, 92(1 ):1 -31,2011.20

[4] P. Bhat, C. L. Zitnick, M. Cohen, and B. Curless. Gradientshop: A gradient-domain optimization framework for image and video filtering. ACM Transactions on Graphics, 29:1-14, April 2010.

[5] P. Bhat, C.L. Zitnick, N. Snavely, A. Agarwala, M. Agrawala, M.F. Cohen, B. Curless, and S.B. Kang. Using photographs to enhance videos of a static scene. In Proceedings of the Eurographics Symposium on Rendering Techniques, pages 327-338. Eurographics Association, 2007.

[6] T. Brox and J. Malik. Large displacement optical flow: Descriptor matching in variational motion estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 33(3):500-513, 2011.

[7] A. Bugeau, P. Gargallo, O. D'Hondt, A Hervieu, N. Papadakis, and V. Caselles. Coherent Background Video Inpainting through Kalman Smoothing along Trajectories. In Modeling, and Visualization Workshop, page 8, 2010.

[8] A. Chambolle and T. Pock. A first-order primal-dual algorithm for convex problems with applications to imaging. Journal of Mathematical Imaging and Vision, 40(1):120-145, 2011.

[9] T. Crivelli, M. Fradet, P.-H. Conze, P. Robert, and P. Perez. Robust optical flow integration. Image Processing, IEEE Transactions on, 24(1):484-498, Jan 2015.

[10] G. Facciolo, R. Sadek, A. Bugeau, and V. Caselles. Temporally con- sistent gradient domain video editing. In Energy Minimization Methods in Computer Vision and Pattern Recognition (EMMCVPR), pages 59-73. Springer-Verlag, 2011.

[11] The Foundry. Nuke. https://www.thefoundry.co.uk/products/nuke/

[12] B.K.P. Horn. Robot Vision. Electrical Engineering and Computer Science. MIT Press, 1986.

[13] B.K.P. Horn and B.G. Schunck. Determining optical flow. Artificial Intel- ligence, 17:185-203, 1981.

[14] J. Jia, Y.-W. Tai, T.-P. Wu, and C.-K. Tang. Video repairing under variable illumination using cyclic motions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(5):832-9, 2006.

[15] A.C. Kokaram, B. Collis, and S. Robinson. Automated rig removal with bayesian motion interpolation. IEEE Journal on Vision, Image and Signal Processing, 152:407-414, Aug 2005.

[16] N. Papenberg, A. Bruhn, T. Brox, S. Didas, and J. Weickert. Highly accu- rate optic flow computation with theoretically justified warping. Interna- tional Journal of Computer Vision (IJCV), 67(2):141-158, April 2006.

[17] A. Rav-Acha, P. Kohli, C. Rother, and A. Fitzgibbon. Unwrap mosaics: A new representation for video editing. ACM Transactions on Graphics (SIGGRAPH 2008), August 2008, 21

[18] R. Sadek, G. Facciolo, P. Arias, and V. Caselles. A variational model for gradient-based video editing. International Journal of Computer Vision, 103(1):127-162, 2013.

[19] Mike Seymour. The art of optical flow. https://www.fxguide.com/ featured/art_of_optical_flow/, February 2006.

[20] T. Shiratori, Y. Matsushita, X. Tang, and S.B. Kang. Video completion by motion field transfer. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 411-418, 2006.

[21] D. Sun, S. Roth, and M.J. Black. Secrets of optical flow estimation and their principles. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2432-2439, 2010.

[22] Imagineer Systems. Mocha. http://imagineersystems.com/.

[23] S. Uras, F. Girosi, A. Verri, and V. Torre. A computational approach to motion perception. Biological Cybernetics, 60:79-87, 1988.

[24] J. Weickert, A. Bruhn, T. Brox, and N. Papenberg. A survey on varia- tional optic flow methods for small displacements. In O. Scherzer, editor, Mathematical Models for Registration and Applications to Medical Imaging, volume 10 of Mathematics in Industry. Springer, Berlin, 2006.

[25] Y. Zhang, J. Xiao, and M. Shah. Motion Layer Based Object Removal in Videos. In 7th IEEE Workshops on Application of Computer Vision, 2005.

Breve descripcion de la invencion

De acuerdo con las limitaciones de la tecnica anterior, seria deseable reducir la cantidad de tiempo y calculos necesarios para editar un video de una manera viable.

La presente invencion describe un metodo implementado por ordenador y un sistema para la minimizacion eficiente de energias que aparecen comunmente en las aplicaciones de edicion de video, construyendo una serie de energias que afectan a un solo fotograma que se pueden minimizar independientemente, y cuyos minimos se aproximan a los minimos de la energia original.

En particular, la presente invencion es util en la edicion de video que usa modelos de movimiento no parametricos tales como el flujo optico. Sin embargo, tambien es valida para modelos de movimiento parametricos, ya que un flujo optico puede estar directamente asociado a cualquier transformacion entre dos imagenes.

En consecuencia, es un objeto de la presente invencion, un metodo y un sistema implementados por ordenador que se pueden aplicar a la edicion que afectan a un video o la edicion de una secuencia de video con coherencia temporal.

El metodo implementado por ordenador incluye al menos las etapas de:

i) calcular un campo de movimiento que modele la coherencia temporal entre los fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas para ser impuestas en la secuencia de video resultado;

iii) dividir la secuencia de video en dos conjuntos, un conjunto con fotogramas pares y otro conjunto con fotogramas impares;

iv) calcular el campo de movimiento entre los fotogramas consecutivos en las secuencias divididas;

v) de manera recursiva llevar a cabo las etapas iii) y iv) hasta que los conjuntos que se van a dividir contengan un unico fotograma para editar;

vi) minimizar el funcional de energia (o si es necesario una version adaptada del funcional de energia) para cada conjunto que contenga un fotograma para editar;

vii) integrar los fotogramas editados y extraer la secuencia de video editada

Opcionalmente, el metodo implementado por ordenador puede incluir una etapa previa de identification de un fotograma en una secuencia de video la cual tiene un objeto editado para ser propagado.

Opcionalmente, el funcional de energia incluye un sumatorio de energias de edicion dependientes de los fotogramas de manera independiente y de las energias que acoplan temporalmente fotogramas consecutivos. Opcionalmente, el funcional de energia puede estar basado en una suposicion de cambio de brillo global, una suposicion de constancia de brillo o una suposicion de constancia de gradiente.

En cuanto al sistema, es adecuado para editar una secuencia de video con coherencia temporal e incluye un primer medio de procesamiento para calcular un campo de movimiento que aporte coherencia temporal entre fotogramas sucesivos y para definir un funcional de energia que modele las propiedades para ser impuestas en la secuencia de video, un segundo medio de procesamiento para dividir la secuencia de video en dos conjuntos con fotogramas pares y fotogramas impares, en donde se lleva a cabo la division recursivamente, hasta que haya un unico fotograma a editar en cada conjunto, un tercer medio de procesamiento para calcular el campo de movimiento entre dos fotogramas consecutivos en cada conjunto despues de cada division, un cuarto medio de procesamiento para minimizar el funcional de energia en cada conjunto para obtener los fotogramas editados, un quinto medio de procesamiento para integrar los fotogramas editados y extraer toda la secuencia de video editada. Cualquier medio de procesamiento debe interpretarse en la presente invencion como cualquier dispositivo electronico que comprende un procesador.

Opcionalmente, el sistema puede incluir un sexto medio de procesamiento para identificar un fotograma en una secuencia de video que tiene un objeto editado para propagar.

Los medios de procesamiento anteriores deberian interpretarse como cualquier dispositivo o dispositivos de calculo multiproposito para procesamiento y administration de datos. En particular, estos medios de procesamiento pueden implementarse como uno o mas dispositivos de calculo electronicos que incluyen, sin limitacion, un ordenador de mesa, un ordenador portatil, un servidor de red y similares.

Las realizaciones preferidas de la presente invencion seran descritas a manera solo de ejemplo con referencia en los dibujos acompanantes.

Breve description de los dibujos

Se describen brevemente a continuation una serie de dibujos los cuales ayudan a un mejor entendimiento de la invencion y estan relacionados expresamente con una realization de dicha invencion, presentada como un ejemplo no limitante de la misma.

Fig. 1: Ilustracion del dominio de edition dentro del dominio de video. Tambien muestra la portion temporal en el momento t.

Fig. 2: Diagrama del procedimiento de Division y Minimization.

Fig. 3: Diagrama del procedimiento de Division de Video Impar.

Fig. 4: Diagrama del procedimiento de Division de Video Par.

Fig. 5: Diagrama del procedimiento de Division del Movimiento Impar.

Fig. 6 Diagrama del procedimiento de Division del Movimiento Par.

Fig. 7: Diagrama del procedimiento de Integration.

Fig. 8: Ejemplo del tipo de aplicacion de edicion de video que se puede acelerar mediante el metodo divulgado. La primera fila es una secuencia f original para editar, la segunda fila muesta dicha secuencia f con el primer y ultimo fotograma editados manualmente. La tercera fila es la solution deseada calculada automaticamente. Fig. 9: Diagrama de bloques de los elementos principales de la invencion.

Descripcion detallada de la invencion

La presente realizacion describe un metodo para reducir la complejidad y resolver el tiempo de los procesos de edicion de video asumiendo coherencia temporal. Sea n x [1,T] el dominio (del video espacio temporal) donde n c R2 es el dominio espacial, y T > 1 representa el numero de fotogramas que componen el video. Sea u: n x [1,T] ^ RM un video a color (M >1) o en nivel de gris (M =1) tal que u(x,t) representa el valor del pixel en la ubicacion x del fotograma t. Ademas, sea v: n x [ 1 , T - 1 ] ^ R2 el correspondiente campo de movimiento. Este campo de movimiento da una correspondencia entre pixeles en el fotograma t y t 1 de tal forma que w(x, t) = w(x v (x ) ,t 1) (bajo la suposicion de constancia de brillo), esto es, v establece la coherencia temporal en el video.

A manera de ejemplo, a continuacion se definen diversos algoritmos escritos en seudocodigo, para un mejor entendimiento. Estos algoritmos se pueden implementar en cualquier dispositivo de procesamiento (por ejemplo un ordenador) para editar una secuencia de video de acuerdo con los principios de la invencion. Especialmente, el nucleo de la invencion se puede ver en la secuencia de las etapas que se toman en el Algoritmo 2.

Algoritmo 1: u ^ Minimizar(/,/, v)

Requiere:

Un video en escala de grises o a color /(x , t ) , t £ [1 ,) ] compuesto por T fotogramas. El campo de movimiento v(x, t), t £ [ 1 , T - 1 ]

Un funcional de ene rg ia /(w ,v ,/) para minimizar o la ecuacion en derivadas parciales que involucra el video dado f y el campo de movimiento v.

Proporciona: Un video editado u (x , t ) , t £ [1 ,)].

1: u ^ minirno de] ( u ,v , f ) con respecto a u

Algoritmo 2 : u ^ Dividir y Minimizar (J ,f,v)

Requiere:

Un video en escala de grises o a color f ( x , t ) , t £ [1 ,) ] compuesto por ) fotogramas. El campo de movimiento v(x, t), t £ [ 1 , ) - 1 ]

Un funcional de energia] ( u , v , f ) para minimizar o la ecuacion en derivadas parciales que involucra el video f dado y el campo de movimiento v.

Proporciona: Un video editado u (x ,t), t £ [1 ,)]

1. nCuadros ^ numero de fotogramas

2. si nCuadros es 1 entonces

a. u ^ Minimizar ( j , f , v ) con respecto a u

3. de otro modo{nCuadros>1}

a. f im par(x,t) ^ Division de Video Impar (f)

b. f par(x,t) ^ Division de Video Par (f)

c. v anpar(x,t) ^ Division de Movimiento Impar (v)

d. v par(x,t) ^ Division de Movimiento Par (f)

e. u ^ ^ Dividir y Minimizar (] , f ^ ,v ^ )

f. upar ^ Dividir y Minimizar (] , f par,vpar)

g. u ^ ^.In ^.tegrar( ^, u ^lmp r ^ar, u ^par ^.)

4. terminar si

5. retornar u

Algoritmo 3 : f impar ^ Division de Video Impar (f )

Requiere:

Un video en escala de grises o a color f(x, t), t £ [1,)] compuesto por ) fotogramas Proporciona: Un video f impar(x,t) compuesto por los fotogramas impares a partir de f 123

1. nCuadros ^ numero de fotogramas

2. si NCuadros es 1 entonces

a f impar ^ f

3. de otro modo{nCuadros>1}

a. j<- 1

b. para l = 1 a l=nCuadros hacer

i. si i es impar entonces

1. f lmpar (x,j) = f (x, l)

2. j ^ j 1

ii. terminar si

iii. l ^ l 1

c. terminar para

4. terminar si

5. retornar f impar

Algoritmo 4 : f par ^ Division de Video Par (f)

Requiere:

Un video en escala de grises o a color f(x , t ) , t £ [1,T] compuesto por T fotogramas Proporciona: Un video f pa r(x, t) compuesto por los fotogramas impares a partir de f

1. nCuadros ^ numero de fotogramas

2. si nCuadros es 1 entonces

a. f par ^ f

3. de otro modo {nCuadros>1}

a. j ^ 1

b. para i = 1 a i=nCuadros hacer

i. si i es par entonces

1. f par(x,j) = f ( x , i )

2. j ^ j 1

ii. terminar si

iii. i ^ i 1

c. terminar para

4. terminar si

5. retornar f par

Algoritmo 5: ] impar ^ Division de Movimiento Impar (])

Requiere:

Un campo de movimiento v (x , t ) , t £ [1,T - 1] a partir de un video compuesto de T fotogramas. El numero de fotogramas nCuadros del correspondiente video.

Proporciona: Un campo de movimiento v impar(x ,t) que debe ser coherente con la Division de Video Impar (f)

1. nCuadros ^ numero de fotogramas

2. si nCuadros es 1 entonces

a. ] ^im r ^par ^ ]

3. de otro modo {nCuadros>1}

a. 7 ^ 1

b. para i = 1 a i=nCuadros-1 hacer

i. si i es impar entonces

1. v impar(x j ) ^ v (x, i) v (x v (x, i), i 1) 2

2. 7 ^ 7 1

ii. terminar si

iii. i ^ i 1

c. terminar para

4. terminar si

5. retornar v impar

Algoritmo 6: vpar ^ Division de Movimiento Par (v)

Requiere:

Un campo de movimiento v (x , t ) , t £ [1,T - 1] a partir de un video compuesto por T fotogramas. El numero de fotogramas nCuadros del video correspondiente.

Proporciona: Un campo de movimiento v par(x, t) que podria ser coherente con la Division de Video Par (/)

1. nCuadros ^ numero de fotogramas

2. si nCuadros e s 1 entonces

a. v ^par← v

3. de otro modo {nCuadros>1}

a. j ← 1

b. para i = 1 a i=nCuadros-1 hacer

i. si i es par entonces

1. vpar(x,j) ← v(x, i) v(x v(x, i), i 1)

2. j ←j 1

ii. terminar si

iii. i ← i 1

c. terminar para

4. terminar si

5. retornar v ^par

Algoritmo 7: u ^ Integrar (uimpar ,upar )

Requiere:

Dos secuencias de video en nivel de gris o a color (uimpar ,upar ).

La diferencia en el numero de fotogramas no puede ser mayor que uno.

Asegurar: Un nuevo video u compuesto por u ^im^^par y u ^par

1. nCuadros ^impr^ar^ numero de fotogramas de u ^imp^^ar

2. nCuadrospar ^ numero de fotogramas de upar

3. i ← 1

4. j ← 1

5. a la vez que i < nCuadrosimpar o i < nCuadrospar hacer

a. u ( x j ) ← u ^im r ^par(x,i)

b. u(x, j 1) ← upar(x,i)

c. i ← i 1

d. j ←j 2

6. terminar a la vez que

Ahora el siguiente problema de edicion de video se considera como un ejemplo de como proceder para resolver el problema de acuerdo con la invention: sea f un video a color compuesto por 5 fotogramas, como se muestra en la primera fila de la Fig. 8, en la cual los fotogramas 1 y 5 se han editado manualmente cambiando dos lados de la caja (segunda fila). La idea es propagar automaticamente la information del primer y el ultimo fotograma al resto de fotogramas 2, 3 y 4, como se muestra en la Fig. 8, tercera fila.

Uno de los metodos posibles en la literatura para resolver este problema se explica a continuation. Sea 0 c A x [1,3] el dominio de edicion (0 son los lados de la caja de la Figura 8) con frontera Lipschitz [1] (para simplificar, se puede considerar que 0 tiene un Kmite suave). Sea 0 t = {x £ A: (x ,t) £ 0 , t £ [1,3] }, es decir, 0t es el area de edicion del fotograma t. Una ilustracion de estos dominios se puede ver en la Figura 1. Ademas, sea 9 el mapa de correspondencia entre los fotogramas.

El problema se puede resolver minimizando un funcional de energia. En este ejemplo, se usa la suposicion del cambio de brillo global:

l ( u) = J077 nJI<@Fu(x ,t) H2 dx dt (15)

Donde V es el operador gradiente y 3f es la derivada convectiva. Siguiendo el calculo variacional, el minimo de energia (15) es la solution a la ecuacion de Euler-Lagrange dada por la siguiente EDP (Ecuacion en Derivadas Parciales) de cuarto orden

3fdivV39w(x, t) = 0, (x, t) £ 0 (16)

donde div es la divergencia espacial adyacente a -V y 3f indica el operador adjunto de la derivada convectiva, dada por 3 f / = ->■ - d iv(9/).

Esta ecuacion se completa con las condiciones de contorno Dirichlet,

w (x,t) = w0(x ,t), x £ A / Ot (17)

De acuerdo con la propuesta actual, no se usa todo el video w0 ni todo el mapa 9 de correspondencia. De una forma informal, el metodo aplicado se expresa como sigue a continuacion: Las entradas al problema son el video f y la informacion de conectividad entre los fotogramas consecutivos. Esta informacion de conectividad (o campo de movimiento) es aproximada usualmente por el flujo 9 optico.

La primera etapa se relaciona con la division de la secuencia de video de entrada para ser editada.

De acuerdo con esta etapa, el video de entrada se puede dividir en dos conjuntos. Los fotogramas impares y los fotogramas pares (Figs. 3 y 4 y los algoritmos 3 y 4). El campo de movimiento tambien tiene que ser dividido (Figs. 5 y 6 y los algoritmos 5 y 6). Esta etapa se tiene que llevar a cabo recursivamente hasta que las secuencias de video solo tengan un solo fotograma. En el ejemplo se tienen 3 secuencias de video al final de la etapa recursiva de division, realmente no estan compuestas de un unico fotograma sino que afectan a un fotograma mas las tapas (los fotogramas ya editados). Con respecto a esto, las secuencias se denominan de un fotograma debido a que hay solo un fotograma que contiene valores desconocidos. Una vez que se crean todos los videos compuestos de un fotograma mas las tapas y sus correspondientes campos de movimiento, se resuelve el problema independientemente para cada video pequeno. Una vez que se resuelve el problema para cada video pequeno se hace necesaria una etapa de integration para componer la solucion completa a partir de cada una de las soluciones individuales de los diversos problemas pequenos, esto se lleva a cabo siguiendo la Fig. 7 y el algoritmo 7. Esta integracion puede tambien incluir algunas etapas de correction para corregir pequenos posibles errores generados por los algoritmos 5 y 6.

Ahora, se describe paso a paso el algoritmo 2 en el contexto de ejemplo del problema de edicion de video anterior para una secuencia de video f={f0, f1, f3, f4}, con los fotogramas editados manualmente {f0, f4} y el campo de movimiento v={v0, v1, v2, v3}

1. u ^ Dividir y Minimizar (J,f,v) (debido que f tiene mas de un fotograma para editar)

1.1. Dividir la secuencia de video original f={f0, f1, f2, f3, f4} siguiendo los algoritmos 3 y 4.

fo ^ Division de video Impar(f)

fo ={f0, f1 ,f3,f4}

fe ← Division de video Par(f)

fe ={f0,f2,f4}

1.2. Calcular los nuevos campos de movimiento a partir de v siguiendo los algoritmos 5 y 6

Vo ← Division del Movimiento Impar (v)

vo ={v(x,0),v(x, 1 )+v(x+v(x, 1 ),2),v(x,3)}

voe← Division del Movimiento Par (v)

ve = {v(x,0)+v(x+v(x,0),1),v(x,2)+v(x+v(x,2),3)}

1.3. Resolver el problema para cada fo, fe y sus correspondientes campos de movimiento v0, ve .

Ue ←Minimizar (J,fe,ve)(debido a que fe tiene solo un solo fotograma para editar) ue ={f0, ue1 ,f4}

u0 ← Dividir y Minimizar (J,fo,v0) (debido a que fo tiene mas de un fotograma para editar) 1.3.1. dividir la secuencia de video fo siguiendo los algoritmos 3 y 4

foo ← Division de Video Impar (fo)

foo ={f0,f1 ,f4}

foe ← Division de Video Par (fo)

foe ={f0,f3,f4}

1.3.2. Calcular los nuevos campos de movimiento a parti r de vo siguiendo los algoritmos 5 y 6

voo ← Division del Movimiento Impar(vo)

voo ={vo(X,0), vo(X,1)+vo(X+vo(X,1),2)

voe ← Division del Movimiento Par (vo)

voe ={vo(X,0)+vo(X+v(X,0),1),vo(X,2)}

1.3.3. Debido a que el numero de fotogramas para editar de foo y foe es uno, se resuelve uoo ← Minimizar (J,foo,voo)

uoo ={f0, uoo1 ,f4}

uoe ← Minimizar (J,foe,voe)

uoe ={f0, uoe1 ,f4}

1.3.4. Integrar las soluciones uoo, uoe

uo ← Integrar (uoo, uoe)

uo ={f0,uoo1, uoe 1,f4}

1.3.5. Integrar las soluciones uo, ue

u ^ Integrar (uo, ue)

U={f0,Uoo1,Ue1,Uoe1,f4}

1.3.6. Retornar el video editado u.

Como es evidente, los algoritmos anteriores se pueden codificar como instrucciones en un lenguaje de ordenador adecuado para llevar a cabo automaticamente las operaciones descritas cuando se ejecutan en un ordenador.

La Fig. 9 muestra un diagrama de bloques que representa los principales elementos funcionales que administran los datos en una realizacion. Las cajas 10-50 se pueden referir a unidades logicas definidas en un ordenador u ordenadores en una red. Una secuencia (f) de video para editar se recibe por un primer medio 10 de procesamiento el cual calcula un campo (v ) de movimiento que modela la consistencia en el tiempo entre los fotogramas (fⁱ, f^{+ i}) sucesivos y define ademas un funcional de energia (J) que modela las propiedades a cumplir por la secuencia (f) de video. Un segundo medio 20 de procesamiento divide recursivamente la secuencia (f) de video en dos conjuntos con fotogramas pares (f ^par) y fotogramas impares ( f ^impar). Esto se lleva a cabo hasta que solo haya un fotograma para editar en cada conjunto. Un tercer medio 30 de procesamiento esta a cargo de calcular el campo (v) de movimiento entre los fotogramas consecutivos en cada conjunto despues de cada division. Un cuarto medio 40 de procesamiento minimiza el funcional de energia (J) en cada conjunto para obtener los fotogramas editados. Por ultimo un quinto medio 50 de procesamiento integra los fotogramas editados y proporciona toda la secuencia (u) de video editada.

Aunque la invencion se ha explicado en relacion con su(s) realizacion(es) preferida(s) como se menciona anteriormente, se puede entender que se pueden hacer otras muchas modificaciones y variaciones sin apartarse del alcance de la presente invencion definido mediante las reivindicaciones anexas.

Claims

REIVINDICACIONES

1. Un metodo implementado por ordenador para editar una secuencia de video con consistencia en el tiempo que comprende las etapas de:

i) calcular un campo de movimiento que modele la consistencia temporal entre fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas que debe poseer la secuencia de video;

iii) dividir la secuencia de video en dos conjuntos, uno con fotogramas pares y otro con fotogramas impares; caracterizado por que el metodo comprende ademas las etapas:

v) llevar a cabo recursivamente las etapas iii) y iv) hasta que los conjuntos que se dividan contengan un unico fotograma para editar;

vi) minimizar el funcional de energia para cada conjunto que contenga un fotograma para editar;

vii) integrar los fotogramas editados y extraer la secuencia completa de video editada.

2. El metodo implementado por ordenador de la reivindicacion 1, en donde este comprende una etapa previa de identificar un fotograma en una secuencia de video que tiene un objeto editado para propagar.

3. El metodo implementado por ordenador de la reivindicacion 1 o 2, en donde el funcional de energia comprende un sumatorio de energias para la edicion que dependen de los fotogramas y las energias de acople temporal que dependen de los pares de fotogramas consecutivos.

4. El metodo implementado por ordenador de cualquiera de las reivindicaciones 1 a la 3, en donde el funcional de energia se basa en al menos uno de los siguientes modelos:

- suposicion de cambio de brillo global;

- suposicion de constancia de brillo;

- suposicion de constancia de gradiente.

5. Un sistema para editar una secuencia de video con consistencia en el tiempo que comprende:

- un primer medio (10) de procesamiento para calcular un campo (v ) de movimiento que modele consistencia en el tiempo entre los fotogramas (fⁱ, f^{i+ i}) sucesivos y para definir un funcional (J) de energia que modele las propiedades que debe poseer la secuencia (f) de video;

- un segundo medio (20) de procesamiento para dividir la secuencia (f) de video en dos conjuntos con fotogramas pares (f ^par) y fotogramas impares (f^mpar), en donde la division se hace de manera recursiva hasta que solo haya un fotograma para editar en cada conjunto;

- un tercer medio (30) de procesamiento para calcular el campo (v) de movimiento entre los fotogramas consecutivos en cada conjunto despues de cada division;

- un cuarto medio (40) de procesamiento para minimizar el funcional (J) de energia en cada conjunto para obtener los fotogramas editados;

- un quinto medio (50) de procesamiento para integrar los fotogramas editados y proporcionar la totalidad de la secuencia (u) de video editada.

6. Un sistema para editar una secuencia de video con consistencia temporal segun la reivindicacion 5, que comprende un sexto medio de procesamiento para identificar un fotograma en una secuencia de video que tiene un objeto editado para ser propagado.

7. Un producto de programa por ordenador para editar una secuencia de video con consistencia temporal comprendiendo instrucciones de codigo por ordenador almacenadas en el mismo que, cuando son ejecutadas por un procesador, ocasionan que el procesador lleve a cabo el metodo de cualquiera de las reivindicaciones 1 a la 4.