ES2709211T3 - Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo - Google Patents

Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo Download PDF

Info

Publication number
ES2709211T3
ES2709211T3 ES16382233T ES16382233T ES2709211T3 ES 2709211 T3 ES2709211 T3 ES 2709211T3 ES 16382233 T ES16382233 T ES 16382233T ES 16382233 T ES16382233 T ES 16382233T ES 2709211 T3 ES2709211 T3 ES 2709211T3
Authority
ES
Spain
Prior art keywords
frames
video
video sequence
edited
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16382233T
Other languages
English (en)
Inventor
Juan Francisco Garamendi
Martinez Pablo Arias
Sadek Rida Sadek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rational Pixels S L
Original Assignee
Rational Pixels S L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rational Pixels S L filed Critical Rational Pixels S L
Application granted granted Critical
Publication of ES2709211T3 publication Critical patent/ES2709211T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/022Electronic editing of analogue information signals, e.g. audio or video signals
    • G11B27/028Electronic editing of analogue information signals, e.g. audio or video signals with computer assistance
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20182Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

Un metodo implementado por ordenador para editar una secuencia de video con consistencia en el tiempo que comprende las etapas de: i) calcular un campo de movimiento que modele la consistencia temporal entre fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas que debe poseer la secuencia de video; iii) dividir la secuencia de video en dos conjuntos, uno con fotogramas pares y otro con fotogramas impares; caracterizado por que el metodo comprende ademas las etapas: iv) calcular el campo de movimiento entre los fotogramas consecutivos en las secuencias divididas; v) llevar a cabo recursivamente las etapas iii) y iv) hasta que los conjuntos que se dividan contengan un unico fotograma para editar; vi) minimizar el funcional de energia para cada conjunto que contenga un fotograma para editar; vii) integrar los fotogramas editados y extraer la secuencia completa de video editada.

Description

DESCRIPCION
Metodo implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo
Campo de la invencion
La presente invencion se comprende dentro de los campos del procesamiento de video y edicion de video, mediante la cual un video dado se modifica para lograr un cierto objetivo.
Antecedentes de la invencion
La edicion digital de secuencias de video se ha convertido en una etapa comun para la post produccion de cine y video, principalmente debido a los avances en los campos de graficos por ordenador y vision artificial. Las tareas de edicion de video varian desde las operaciones basicas tales como arreglos, recortes, particiones y cambios de tamano de segmentos de video a los mas elaborados tales como filtros de efectos, edicion de texturas de objetos, eliminacion y adicion de objetos en un segmento de video, entre otros.
Una diferencia significativa entre la edicion de video y la edicion de imagen (fija o fotografia) es el requisito de que el resultado tenga que ser coherente a lo largo del tiempo. La coherencia temporal se define como una transicion suave entre los fotogramas sucesivos, coherentes con el movimiento de los objetos en la secuencia. Debido a esta restriccion, la edicion de un video no se puede reducir a una serie de problemas de edicion de imagenes independientes. La dependencia temporal impuesta por el movimiento tiene que tenerse en cuenta.
Diversas aproximaciones al problema de edicion de video estiman las trayectorias a parti r del video, y calculan el video editado como el minirno de un funcional de energia. En este contexto, el video, o una region de interes (ROI) en el, se representa como un vector en RN donde el numero de variables N corresponde al numero de pixeles en el ROI. Por ejemplo para un ROI rectangular de ancho W, alto H, T fotogramas y color codificado usando un espacio de color de 3 canales, por ejemplo, RGB, se tiene N = 3WHT. El video editado es calculado mediante la minimizacion de una funcional de energia E : RN ^ R con una tecnica de optimizacion adecuada. El funcional de energia se disena buscando que sus minimos correspondientes tengan las “propiedades adecuadas” de la solucion buscada. Estas propiedades vienen dadas por la tarea de edicion especifica y ciertas propiedades generales, tales como coherencia espacial y temporal.
En particular, se enfoca en funcionales de energia de video que tengan la siguiente estructura:
Figure imgf000002_0002
Donde u £ Rwindica el video desconocido vectorizado, t = 0, ..., T es el indice de fotograma, y ut representa el t-enesimo fotograma de u (tambien como un vector). La ecuacion (Ecuacion 1) establece que la energia E se puede descomponer como una suma de dos tipos de terminos.
Los terminos en el primer sumatorio consisten en energias Ete(ut) que afectan a un solo fotograma. Su forma especifica depende de las tareas de edicion. Por ejemplo, funcionales como el siguiente se han usado a menudo en la literatura:
Figure imgf000002_0001
Donde Q denota el dominio del fotograma (tipicamente un rectangulo), x £ % son las coordenadas de pixel, de manera que, u (x ,t) es el nivel de gris (color) del pixel localizado en x del fotograma t del video u. V es el operador de gradiente espacial discreto (por ejemplo usando diferencias finitas), &,p £ R son parametros del funcional, f es un video dado y g es un campo vectorial (por ejemplo el gradiente espacial de un video); f y g son conocidos, tipicamente como el resultado de una etapa de procesamiento previa. El primer sumatorio es un termino de fidelidad de datos al video f dado y el segundo sumatorio establece un acoplamiento del gradiente de la solucion con g, medido con la norma- p. Como ejemplo, si f es el video original y g = 0, se puede disenar un filtro de suavizado. Si p = 2 el suavizado resultante es equivalente a un desenfoque gaussiano del video original. Si p = 1, el suavizado preserva los bordes. Otro ejemplo podria ser un filtro para separar textura de la componente geometrica, es decir, obtener una version de un video como si fuera “dibujos animados”. Esto se lograria definiendo g como version simplificada del gradiente del video original, manteniendo solo grandes gradientes (asociados a la informacion geometrica definida por bordes fuertes) y eliminando los gradientes pequenos (asociados con la textura, los detalles, etc.). Estos ejemplos solo son dados aqui para fijar las ideas. La forma especifica del termino Ete de energia depende del tipo de edicion deseada y problema a resolver, y puede no tener la estructura dada en la Ecuacion 1.1, excepto por el hecho de que solo depende del fotograma t.
Los terminos en el segundo sumatorio Eft+1(ut,u t+1) acoplan pares de fotogramas contiguos. Su objetivo es imponer la coherencia temporal penalizando alguna medida de la variacion del video a lo largo de una trayectoria de movimiento. La forma especifica de los terminos de coherencia temporal Ettc(ut,u t+1) depende de la eleccion del criterio de coherencia temporal. Se daran ejemplos mas adelante.
Sin el acople temporal impuesto por los terminos de coherencia temporal Ettc(ut,u t+1), la minimizacion de la energia resultante se reduce a las minimizaciones de los terminos Ete(ut) que afectan a un funcional. Cada una de estas se puede minimizar independientemente de cada fotograma. A la vez que esto es atractivo desde un punto de vista computacional ya que permite la paralelizacion, no hay garantia de que el resultado sea consistente en el tiempo. Por el contrario, los terminos de coherencia temporal acoplaran todos los pares de fotogramas adyacentes, lo cual implica que la energia tiene que ser minimizada simultaneamente sobre la totalidad del volumen del video. Esto impide la paralelizacion sobre los fotogramas. Ademas, a menudo ocurre el caso donde los costes computacionales de minimizar una energia conjuntamente sobre T fotogramas, son mucho mas altos que T veces el coste de minimizar la energia sobre un solo fotograma (La complejidad del algoritmo de minimizacion se escala de forma superlineal o exponencialmente con el numero de variables).
Revision de edicion de video con coherencia temporal
Los metodos de edicion de video con coherencia temporal se pueden clasificar de acuerdo con el patron de movimiento usado. La gran mayoria de software de edicion de video profesional se basa en patrones de movimiento defenidos de manera cerrada mediante parametros. Los modelos parametricos trabajan con suposiciones hechas sobre la geometria de la escena. El caso mas comun es suponer que la escena es plana (no curva) a trozos [25,14]. En la post produccion de cine y video profesional, hay diversos programas de software que le permiten a un artista de efectos visuales, seleccionar una region plana la cual es entonces seguida de manera automatica por el software. Ejemplos de ellos son mocha [22], o seguimiento de plano de Nuke [11]. Este patron permite el calculo de un mapeado simple entre cualquier par de fotogramas, dicho mapeado se puede usar entonces para propagar la informacion de un fotograma a otro. Cuando un objeto en el dominio de edicion no es plano (es curvo), el artista necesita segmentarlo en piezas que pueden ser aproximadas por un plano, y realizar un seguimiento para cada region plana. Este proceso toma tiempo y a menudo el resultado necesita retoques para eliminar cualquier marca entre los diferentes rastreadores.
Por otra parte, los patrones no parametricos no hacen suposiciones sobre la geometria de la escena. Estos patrones usualmente calculan el movimiento en la secuencia usando flujo optico. En los anos recientes ha habido un progreso considerable en el calculo del flujo optico. Por ejemplo, los algoritmos de flujo optico del estado de la tecnica son capaces de manejar algunos desplazamientos grandes y permiten fuertes discontinuidades en el movimiento. Este es el caso de [21,8,6,2] por citar unos pocos. Estos metodos sufren aun del problema de “apertura”: el componente del vector de movimiento que es tangente a las curvas de nivel de la imagen no se puede calcular. En la practica, para aliviar este problema, se incorpora un termino de regularidad. El termino de suavidad ocasiona un efecto de llenado que provoca un calculo del flujo denso, incluso aunque este presente el problema de la apertura.
A continuacion, se revisa el estado de la tecnica de la edicion de video con coherencia temporal basado en el flujo optico. Aunque se han usado diversos efectos de flujo optico en la post produccion [19] de cine y video profesionales, su uso para edicion de video consistente en el tiempo es aun marginal en comparacion con el uso extendido de seguimiento de regiones planas.
Ejemplos de terminos de energia con coherencia en el tiempo
En esta seccion, se presentan diversos modos de modelizar la coherencia temporal usada en la literatura.
A lo largo del texto los simbolos en negrita se usaran para indicar cantidades de naturaleza vectorial asi como matrices. Los simbolos sin negrita indicaran cantidades escalares. Cabe anotar que no se hara distincion cuando se discutan ejemplos de videos 1D, y en estos casos se usaran simbolos sin negrita.
Considerese un dominio espacio- temporal continuo n x [0,T] donde n c R2 es un dominio rectangular, y T > 0, y el dominio de edicion 0 c n x [0,T] con frontera suave. En algunos lugares del texto, para impedir ecuaciones engorrosas, se usara nT a modo de notacion abreviada para el dominio de video n x [0,T]. Cada seccion temporal de 0 sera denotada por 0 t = {4 £ n: (4,t) £ 0}. De manera similar, las porciones temporales de n x [0,T] se denotan por n t : t £ [0,T], representando los fotograma del video continuo. Una ilustracion de estos dominios se puede ver en la Figura 1.
Sea u :n x [ 0 ,T ] ^ R un video de valores escalares dado y sea » : f l x [ 0 , T - 1 ] ^ R2 el campo de movimiento correspondiente. El valor del campo de movimiento en (4 , t) £ n x [0,T - 1], 9 (4 , t) representa la velocidad de la proyeccion de una particula en la escena 3D dentro del plano 2D de la imagen [12]. La trayectoria de la particula se puede obtener resolviendo la siguiente ecuacion diferencial ordinaria (ODE):
Figure imgf000004_0003
Donde t £ [0,T]. Por simplicidad se asume en este capitulo que las funciones se pueden diferenciar tantas veces como sea necesario.
Ejemplo 1: Suposicion de constancia de brillo
Para un objeto Lambertiano bajo iluminacion constante uniforme, el brillo de una particula del objeto no cambia con el tiempo, lo cual implica que u(x,t) sea constante a lo largo de las trayectorias. Esto se puede expresar en los terminos de la derivada total a lo largo de una trayectoria dando como resultado la siguiente ecuacion de constancia de brillo [13]:
Figure imgf000004_0004
Donde ^ u es la derivada de u a lo largo de las trayectorias x (t) y Vu se refiere al gradiente espacial de u. Definase la derivada convectiva como:
Figure imgf000004_0005
La derivada convectiva expresa la derivada a lo largo de las trayectorias. Esta notacion se usa para simplificar las expresiones y hacer explicita su conexion con el campo 9. Se puede imponer la constancia del brillo mediante un funcional de energia tal como (1), en la cual el termino de coherencia temporal penaliza la derivada convectiva:
Figure imgf000004_0001
Al penalizar la derivada convectiva, esta energia impone que el video vane suavemente a lo largo de las trayectorias de movimiento.
Hay diversas opciones para discretizar esta energia [18]. Una forma es usar el flujo optico adelantado a partir de t a t 1, 9e. La derivada convectiva adelantada discreta se define entonces en un punto (x, t) £ fi x {0,1, ...,T} como sigue
Figure imgf000004_0006
Cuando el flujo optico tiene una resolution de subpixel, entonces u(x 9 E(x ,t) , t 1) tiene que ser interpolado, por ejemplo usando interpolation bilineal. Con esta definition, la energia anterior es:
Figure imgf000004_0002
La suposicion de constancia del brillo se ha usado extensamente para el calculo del flujo optico [24,3], y recientemente para interpolacion de video y edition dado un flujo optico calculado. En [15] y [20] se usa para llevar a cabo la elimination de un objeto, por ejemplo segmentado por un usuario. Con el fin de eliminarlo, se tiene que recuperar el fondo ocluido. Esto se lleva a cabo propagando el fondo visible a lo largo de las trayectorias de movimiento. La derivada convectiva es discretizada usando el flujo optico adelantado.
Para la edicion de video con coherencia temporal del gradiente, los autores en [5] usan un gradiente 3D donde la componente temporal viene dada mediante la derivada convectiva. El trabajo aborda las diversas tareas de edicion de video. En el trabajo realizan dos etapas: primero se propaga la information del color (usando la Estructura a partir del Movimiento). El resultado es consistente en el tiempo en el dominio de edicion, pero pueden apreciarse uniones artificiales en el dominio espacial. Para remediar esto, se lleva a cabo una segunda etapa. Usando el gradiente espacial de la informacion propagada, se propone un funcional de energia con dos terminos. Un termino que lleva a cabo la edicion mediante la ecuacion de Poisson en cada fotograma imponiendo consistencia espacial; y, un termino que filtra a lo largo de las trayectorias de movimiento para asegurar adicionalmente la consistencia en el tiempo. Estos dos terminos son ponderados por un parametro positivo. El video resultante es coherente espacialmente y temporalmente. Este trabajo se ha elaborado adicionalmente dentro de un marco de referencia completo en [4] para filtrado de imagen y video.
Un procedimiento similar de dos etapas se aplica en [10]. La diferencia con [5] es que la primera etapa consistente en la propagacion de colores se hace usando la derivada convectiva (en lugar de usar la estructura a partir del movimiento). En [10] la derivada convectiva es discretizada alternando entre los flujos opticos adelantados y retrasados, lo que hace posible la propagacion a traves un gran numero de fotogramas sin degradacion. Despues, se usa una energia de dos terminos similar a la de [4], para eliminar las uniones artificiales en el dominio espacial de una forma coherente en el tiempo.
Una aproximacion relacionada interesante se sigue en [7], donde los autores integran explicitamente el flujo optico, calculando un conjunto de trayectorias que cubren el dominio a editar. Estas trayectorias se usan entonces para propagar la informacion del color conocida dentro del dominio de edicion. Para el calculo de estas trayectorias, el flujo optico en si mismo tiene que interpolarse en las posiciones subpixel. Ya que el flujo optico es en general mas regular que los fotogramas, los errores de interpolation que aparecen son mas pequenos y menos perceptibles en el video resultante, pero pueden aun acumularse ocasionando una desviacion considerable. Este problema se analiza en [9] donde se propone una solution elegante.
Finalmente, hay que mencionar la aproximacion de mosaicos desenvueltos de [17], la cual es interesante debido a que evita el calculo de movimiento fotograma a fotograma. En lugar de ello, los autores proponen calcular una textura estatica desenvuelta, una secuencia de mascaras de oclusion, y una secuencia de transformaciones a partir de la textura desenvuelta en cada uno de los fotogramas en el video. Luego se lleva a cabo la edicion directamente en la textura desenvuelta, y los cambios se mapean de regreso a la secuencia de video usando las transformaciones calculadas. La tecnica de los mosaicos desenvueltos permite manejar un amplio rango de situaciones que incluyen enfoques, deformaciones geometricas y oclusiones. El metodo se basa sin embargo en una maquinaria algoritmica sustancial que incluye segmentation de video exacta, seguimiento de puntos clave y optimization no lineal para calcular la textura y el mapeado. Tambien, dado que los mosaicos estan fijados, los cambios de iluminacion deben manejarse en una etapa de post procesado.
Ejemplo 2: Suposicion del cambio de brillo global (GBC):
Bajo cambios de iluminacion, no se mantiene la suposicion de constancia del brillo. En esta section esta suposicion se generaliza para tener en cuenta cambios de iluminacion aditivos espacialmente constantes. En ese caso, si se siguen las trayectorias de dos particulas, la diferencia de sus colores permanece constante. La suposicion del cambio de brillo global se basa en esta observation basica. Se consideran dos particulas que en el tiempo t estan en posiciones * 0 e f l y y 0 e f i . Sus trayectorias son indicadas por k (xo,s) y k (j o,s) con s £ [0,T]. Luego para k > 0,
u ( k (j o, t k), t k) - u(<p(x0, t k), t k) = u(y0, t) - u (x o, t) (8)
Esto se representa mediante la Figura 3. Despues de reorganizar los terminos, dividiendo por k y tomando k ^ 0 se obtiene en consecuencia dvu(y0,t) = dvu(xO, t ) . Dado que esto se mantiene para todas las xo,j o £ n, se obtiene que dvu(x,t) es una funcion de t, que es:
dvu(x,t) = g(t) (9)
Aqui g(t) expresa la tasa de cambio de iluminacion global. En consecuencia, (9) generaliza el patron de constancia de brillo tomando en consideration cambios globales en la iluminacion.
Tomando el gradiente espacial en ambos lados de la Ecuacion (9), se encuentra una version diferencial de (8):
Vdvu(x,t) = O (10)
Los autores en [18] proponen un metodo variacional para la edicion de video con base en esta suposicion. Proponen una energia para propagacion a lo largo de las trayectorias de flujo optico penalizando desviaciones de la condition (10):
Egbc(u) = J077 nJ |V5vU(x,t)||2 dx dt (11)
Mientras que la Ecuacion (10) implica un cambio de iluminacion espacial constante, el modelo variacional permite cierta variation espacial en @vu . Esta es una caracteristica util en aplicaciones practicas ya que representa fuentes de luz, sombras y reflejos localizados, a la vez que se manifiesta en la frontera del dominio de edicion.
Esta energia puede ser discretizada de muchas formas, dependiendo de las discretizaciones usadas para el gradiente y los operadores de derivada convectiva [18]. Por ejemplo, se puede usar el flujo optico adelantado para discretizar la derivada convectiva como antes, y usar una discretization estandar del gradiente mediante las diferencias finitas adelantadas de la derivada convectiva.
<Eu(x,t) = [u(x e0, t ) - u (x ,t ) ,u (x e1, t ) - u (x ,t ) ]T (12)
Donde e0 = (1,0)T y e1 = (0,1)T. Con esta definition, la e n e ^a se puede escribir como una suma de los terminos que acoplan dos fotogramas consecutivos EtPl’^ 1(ut ,u t+1).
Esta e n e ^a se uso en [18] para una tarea de edition de video consistente en la modification de la superficie de los objetos en el video (por ejemplo para agregar, modificar o eliminar un logotipo). Un usuario lleva a cabo la edicion en al menos un fotograma clave, y este se propaga entonces al resto de los fotogramas mediante la minimization de Egbc. La propagation obtenida se adapta a los cambios de iluminacion los cuales son espacialmente suaves.
Ejemplo 3: La suposicion de constancia de gradiente
Aun otra alternativa es asumir que el gradiente es constante a lo largo de trayectorias de movimiento, cual se puede expresar como:
dvVu(x,t) = O (13)
En la literatura se hace referencia a esto como la suposicion de constancia de gradiente [23, 24, 16]. De forma similar a las ecuaciones (5) y (15), se puede definir un termino de energia de coherencia temporal penalizando las desviaciones de la Ecuacion (13):
Epc(u) = J0TJf i tHa„Vu(x,t)||2 dx dt (14)
Con el gradiente discreto y la derivada convectiva usados anteriormente, se obtiene una version discreta de la energia que se puede expresar como un sumatorio de los terminos que acoplan dos fotogramas sucesivos, Et,t+1(ut, ut+ i) .
Esta suposicion es mas restrictiva que la suposicion del cambio de brillo global, ya que solo se mantiene cuando el movimiento es una traslacion global. Por esta razon, este patron no se ha usado hasta ahora para la edicion de video, y se ha usado principalmente para el calculo del flujo optico [23].
Referencias:
[1] R.A. Adams. Sobolev spaces. Academic Press, New York, 1975.
[2] A. Ayvaci, M. Raptis, and S. Soatto. Sparse occlusion detection with optical flow. International Journal of Computer Vision (IJCV), 97(3):322- 338, May 2012.
[3] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski. A Database and Evaluation Methodology for Optical Flow. International Journal of Computer Vision, 92(1 ):1 -31,2011.20
[4] P. Bhat, C. L. Zitnick, M. Cohen, and B. Curless. Gradientshop: A gradient-domain optimization framework for image and video filtering. ACM Transactions on Graphics, 29:1-14, April 2010.
[5] P. Bhat, C.L. Zitnick, N. Snavely, A. Agarwala, M. Agrawala, M.F. Cohen, B. Curless, and S.B. Kang. Using photographs to enhance videos of a static scene. In Proceedings of the Eurographics Symposium on Rendering Techniques, pages 327-338. Eurographics Association, 2007.
[6] T. Brox and J. Malik. Large displacement optical flow: Descriptor matching in variational motion estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 33(3):500-513, 2011.
[7] A. Bugeau, P. Gargallo, O. D'Hondt, A Hervieu, N. Papadakis, and V. Caselles. Coherent Background Video Inpainting through Kalman Smoothing along Trajectories. In Modeling, and Visualization Workshop, page 8, 2010.
[8] A. Chambolle and T. Pock. A first-order primal-dual algorithm for convex problems with applications to imaging. Journal of Mathematical Imaging and Vision, 40(1):120-145, 2011.
[9] T. Crivelli, M. Fradet, P.-H. Conze, P. Robert, and P. Perez. Robust optical flow integration. Image Processing, IEEE Transactions on, 24(1):484-498, Jan 2015.
[10] G. Facciolo, R. Sadek, A. Bugeau, and V. Caselles. Temporally con- sistent gradient domain video editing. In Energy Minimization Methods in Computer Vision and Pattern Recognition (EMMCVPR), pages 59-73. Springer-Verlag, 2011.
[11] The Foundry. Nuke. https://www.thefoundry.co.uk/products/nuke/
[12] B.K.P. Horn. Robot Vision. Electrical Engineering and Computer Science. MIT Press, 1986.
[13] B.K.P. Horn and B.G. Schunck. Determining optical flow. Artificial Intel- ligence, 17:185-203, 1981.
[14] J. Jia, Y.-W. Tai, T.-P. Wu, and C.-K. Tang. Video repairing under variable illumination using cyclic motions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(5):832-9, 2006.
[15] A.C. Kokaram, B. Collis, and S. Robinson. Automated rig removal with bayesian motion interpolation. IEEE Journal on Vision, Image and Signal Processing, 152:407-414, Aug 2005.
[16] N. Papenberg, A. Bruhn, T. Brox, S. Didas, and J. Weickert. Highly accu- rate optic flow computation with theoretically justified warping. Interna- tional Journal of Computer Vision (IJCV), 67(2):141-158, April 2006.
[17] A. Rav-Acha, P. Kohli, C. Rother, and A. Fitzgibbon. Unwrap mosaics: A new representation for video editing. ACM Transactions on Graphics (SIGGRAPH 2008), August 2008, 21
[18] R. Sadek, G. Facciolo, P. Arias, and V. Caselles. A variational model for gradient-based video editing. International Journal of Computer Vision, 103(1):127-162, 2013.
[19] Mike Seymour. The art of optical flow. https://www.fxguide.com/ featured/art_of_optical_flow/, February 2006.
[20] T. Shiratori, Y. Matsushita, X. Tang, and S.B. Kang. Video completion by motion field transfer. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 411-418, 2006.
[21] D. Sun, S. Roth, and M.J. Black. Secrets of optical flow estimation and their principles. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2432-2439, 2010.
[22] Imagineer Systems. Mocha. http://imagineersystems.com/.
[23] S. Uras, F. Girosi, A. Verri, and V. Torre. A computational approach to motion perception. Biological Cybernetics, 60:79-87, 1988.
[24] J. Weickert, A. Bruhn, T. Brox, and N. Papenberg. A survey on varia- tional optic flow methods for small displacements. In O. Scherzer, editor, Mathematical Models for Registration and Applications to Medical Imaging, volume 10 of Mathematics in Industry. Springer, Berlin, 2006.
[25] Y. Zhang, J. Xiao, and M. Shah. Motion Layer Based Object Removal in Videos. In 7th IEEE Workshops on Application of Computer Vision, 2005.
Breve descripcion de la invencion
De acuerdo con las limitaciones de la tecnica anterior, seria deseable reducir la cantidad de tiempo y calculos necesarios para editar un video de una manera viable.
La presente invencion describe un metodo implementado por ordenador y un sistema para la minimizacion eficiente de energias que aparecen comunmente en las aplicaciones de edicion de video, construyendo una serie de energias que afectan a un solo fotograma que se pueden minimizar independientemente, y cuyos minimos se aproximan a los minimos de la energia original.
En particular, la presente invencion es util en la edicion de video que usa modelos de movimiento no parametricos tales como el flujo optico. Sin embargo, tambien es valida para modelos de movimiento parametricos, ya que un flujo optico puede estar directamente asociado a cualquier transformacion entre dos imagenes.
En consecuencia, es un objeto de la presente invencion, un metodo y un sistema implementados por ordenador que se pueden aplicar a la edicion que afectan a un video o la edicion de una secuencia de video con coherencia temporal.
El metodo implementado por ordenador incluye al menos las etapas de:
i) calcular un campo de movimiento que modele la coherencia temporal entre los fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas para ser impuestas en la secuencia de video resultado;
iii) dividir la secuencia de video en dos conjuntos, un conjunto con fotogramas pares y otro conjunto con fotogramas impares;
iv) calcular el campo de movimiento entre los fotogramas consecutivos en las secuencias divididas;
v) de manera recursiva llevar a cabo las etapas iii) y iv) hasta que los conjuntos que se van a dividir contengan un unico fotograma para editar;
vi) minimizar el funcional de energia (o si es necesario una version adaptada del funcional de energia) para cada conjunto que contenga un fotograma para editar;
vii) integrar los fotogramas editados y extraer la secuencia de video editada
Opcionalmente, el metodo implementado por ordenador puede incluir una etapa previa de identification de un fotograma en una secuencia de video la cual tiene un objeto editado para ser propagado.
Opcionalmente, el funcional de energia incluye un sumatorio de energias de edicion dependientes de los fotogramas de manera independiente y de las energias que acoplan temporalmente fotogramas consecutivos. Opcionalmente, el funcional de energia puede estar basado en una suposicion de cambio de brillo global, una suposicion de constancia de brillo o una suposicion de constancia de gradiente.
En cuanto al sistema, es adecuado para editar una secuencia de video con coherencia temporal e incluye un primer medio de procesamiento para calcular un campo de movimiento que aporte coherencia temporal entre fotogramas sucesivos y para definir un funcional de energia que modele las propiedades para ser impuestas en la secuencia de video, un segundo medio de procesamiento para dividir la secuencia de video en dos conjuntos con fotogramas pares y fotogramas impares, en donde se lleva a cabo la division recursivamente, hasta que haya un unico fotograma a editar en cada conjunto, un tercer medio de procesamiento para calcular el campo de movimiento entre dos fotogramas consecutivos en cada conjunto despues de cada division, un cuarto medio de procesamiento para minimizar el funcional de energia en cada conjunto para obtener los fotogramas editados, un quinto medio de procesamiento para integrar los fotogramas editados y extraer toda la secuencia de video editada. Cualquier medio de procesamiento debe interpretarse en la presente invencion como cualquier dispositivo electronico que comprende un procesador.
Opcionalmente, el sistema puede incluir un sexto medio de procesamiento para identificar un fotograma en una secuencia de video que tiene un objeto editado para propagar.
Los medios de procesamiento anteriores deberian interpretarse como cualquier dispositivo o dispositivos de calculo multiproposito para procesamiento y administration de datos. En particular, estos medios de procesamiento pueden implementarse como uno o mas dispositivos de calculo electronicos que incluyen, sin limitacion, un ordenador de mesa, un ordenador portatil, un servidor de red y similares.
Las realizaciones preferidas de la presente invencion seran descritas a manera solo de ejemplo con referencia en los dibujos acompanantes.
Breve description de los dibujos
Se describen brevemente a continuation una serie de dibujos los cuales ayudan a un mejor entendimiento de la invencion y estan relacionados expresamente con una realization de dicha invencion, presentada como un ejemplo no limitante de la misma.
Fig. 1: Ilustracion del dominio de edition dentro del dominio de video. Tambien muestra la portion temporal en el momento t.
Fig. 2: Diagrama del procedimiento de Division y Minimization.
Fig. 3: Diagrama del procedimiento de Division de Video Impar.
Fig. 4: Diagrama del procedimiento de Division de Video Par.
Fig. 5: Diagrama del procedimiento de Division del Movimiento Impar.
Fig. 6 Diagrama del procedimiento de Division del Movimiento Par.
Fig. 7: Diagrama del procedimiento de Integration.
Fig. 8: Ejemplo del tipo de aplicacion de edicion de video que se puede acelerar mediante el metodo divulgado. La primera fila es una secuencia f original para editar, la segunda fila muesta dicha secuencia f con el primer y ultimo fotograma editados manualmente. La tercera fila es la solution deseada calculada automaticamente. Fig. 9: Diagrama de bloques de los elementos principales de la invencion.
Descripcion detallada de la invencion
La presente realizacion describe un metodo para reducir la complejidad y resolver el tiempo de los procesos de edicion de video asumiendo coherencia temporal. Sea n x [1,T] el dominio (del video espacio temporal) donde n c R2 es el dominio espacial, y T > 1 representa el numero de fotogramas que componen el video. Sea u: n x [1,T] ^ RM un video a color (M >1) o en nivel de gris (M =1) tal que u(x,t) representa el valor del pixel en la ubicacion x del fotograma t. Ademas, sea v: n x [ 1 , T - 1 ] ^ R2 el correspondiente campo de movimiento. Este campo de movimiento da una correspondencia entre pixeles en el fotograma t y t 1 de tal forma que w(x, t) = w(x v (x ) ,t 1) (bajo la suposicion de constancia de brillo), esto es, v establece la coherencia temporal en el video.
A manera de ejemplo, a continuacion se definen diversos algoritmos escritos en seudocodigo, para un mejor entendimiento. Estos algoritmos se pueden implementar en cualquier dispositivo de procesamiento (por ejemplo un ordenador) para editar una secuencia de video de acuerdo con los principios de la invencion. Especialmente, el nucleo de la invencion se puede ver en la secuencia de las etapas que se toman en el Algoritmo 2.
Algoritmo 1: u ^ Minimizar(/,/, v)
Requiere:
Un video en escala de grises o a color /(x , t ) , t £ [1 ,) ] compuesto por T fotogramas. El campo de movimiento v(x, t), t £ [ 1 , T - 1 ]
Un funcional de ene rg ia /(w ,v ,/) para minimizar o la ecuacion en derivadas parciales que involucra el video dado f y el campo de movimiento v.
Proporciona: Un video editado u (x , t ) , t £ [1 ,)].
1: u ^ minirno de] ( u ,v , f ) con respecto a u
Algoritmo 2 : u ^ Dividir y Minimizar (J ,f,v)
Requiere:
Un video en escala de grises o a color f ( x , t ) , t £ [1 ,) ] compuesto por ) fotogramas. El campo de movimiento v(x, t), t £ [ 1 , ) - 1 ]
Un funcional de energia] ( u , v , f ) para minimizar o la ecuacion en derivadas parciales que involucra el video f dado y el campo de movimiento v.
Proporciona: Un video editado u (x ,t), t £ [1 ,)]
1. nCuadros ^ numero de fotogramas
2. si nCuadros es 1 entonces
a. u ^ Minimizar ( j , f , v ) con respecto a u
3. de otro modo{nCuadros>1}
a. f im par(x,t) ^ Division de Video Impar (f)
b. f par(x,t) ^ Division de Video Par (f)
c. v anpar(x,t) ^ Division de Movimiento Impar (v)
d. v par(x,t) ^ Division de Movimiento Par (f)
e. u ^ ^ Dividir y Minimizar (] , f ^ ,v ^ )
f. upar ^ Dividir y Minimizar (] , f par,vpar)
g. u ^ . In .tegrar( , u lmp r ar , u par . )
4. terminar si
5. retornar u
Algoritmo 3 : f impar ^ Division de Video Impar (f )
Requiere:
Un video en escala de grises o a color f(x, t), t £ [1,)] compuesto por ) fotogramas Proporciona: Un video f impar(x,t) compuesto por los fotogramas impares a partir de f 123
1. nCuadros ^ numero de fotogramas
2. si NCuadros es 1 entonces
a f impar ^ f
3. de otro modo{nCuadros>1}
a. j<- 1
b. para l = 1 a l=nCuadros hacer
i. si i es impar entonces
1. f lmpar (x,j) = f (x, l)
2. j ^ j 1
ii. terminar si
iii. l ^ l 1
c. terminar para
4. terminar si
5. retornar f impar
Algoritmo 4 : f par ^ Division de Video Par (f)
Requiere:
Un video en escala de grises o a color f(x , t ) , t £ [1,T] compuesto por T fotogramas Proporciona: Un video f pa r(x, t) compuesto por los fotogramas impares a partir de f
1. nCuadros ^ numero de fotogramas
2. si nCuadros es 1 entonces
a. f par ^ f
3. de otro modo {nCuadros>1}
a. j ^ 1
b. para i = 1 a i=nCuadros hacer
i. si i es par entonces
1. f par(x,j) = f ( x , i )
2. j ^ j 1
ii. terminar si
iii. i ^ i 1
c. terminar para
4. terminar si
5. retornar f par
Algoritmo 5: ] impar ^ Division de Movimiento Impar (])
Requiere:
Un campo de movimiento v (x , t ) , t £ [1,T - 1] a partir de un video compuesto de T fotogramas. El numero de fotogramas nCuadros del correspondiente video.
Proporciona: Un campo de movimiento v impar(x ,t) que debe ser coherente con la Division de Video Impar (f)
1. nCuadros ^ numero de fotogramas
2. si nCuadros es 1 entonces
a. ] im r par ^ ]
3. de otro modo {nCuadros>1}
a. 7 ^ 1
b. para i = 1 a i=nCuadros-1 hacer
i. si i es impar entonces
1. v impar(x j ) ^ v (x, i) v (x v (x, i), i 1) 2
2. 7 ^ 7 1
ii. terminar si
iii. i ^ i 1
c. terminar para
4. terminar si
5. retornar v impar
Algoritmo 6: vpar ^ Division de Movimiento Par (v)
Requiere:
Un campo de movimiento v (x , t ) , t £ [1,T - 1] a partir de un video compuesto por T fotogramas. El numero de fotogramas nCuadros del video correspondiente.
Proporciona: Un campo de movimiento v par(x, t) que podria ser coherente con la Division de Video Par (/)
1. nCuadros ^ numero de fotogramas
2. si nCuadros e s 1 entonces
a. v par ← v
3. de otro modo {nCuadros>1}
a. j ← 1
b. para i = 1 a i=nCuadros-1 hacer
i. si i es par entonces
1. vpar(x,j) ← v(x, i) v(x v(x, i), i 1)
2. j ←j 1
ii. terminar si
iii. i ← i 1
c. terminar para
4. terminar si
5. retornar v par
Algoritmo 7: u ^ Integrar (uimpar ,upar )
Requiere:
Dos secuencias de video en nivel de gris o a color (uimpar ,upar ).
La diferencia en el numero de fotogramas no puede ser mayor que uno.
Asegurar: Un nuevo video u compuesto por u im ^par y u par
1. nCuadros imp rar ^ numero de fotogramas de u imp ^ar
2. nCuadrospar ^ numero de fotogramas de upar
3. i ← 1
4. j ← 1
5. a la vez que i < nCuadrosimpar o i < nCuadrospar hacer
a. u ( x j ) ← u im r par (x,i)
b. u(x, j 1) ← upar(x,i)
c. i ← i 1
d. j ←j 2
6. terminar a la vez que
Ahora el siguiente problema de edicion de video se considera como un ejemplo de como proceder para resolver el problema de acuerdo con la invention: sea f un video a color compuesto por 5 fotogramas, como se muestra en la primera fila de la Fig. 8, en la cual los fotogramas 1 y 5 se han editado manualmente cambiando dos lados de la caja (segunda fila). La idea es propagar automaticamente la information del primer y el ultimo fotograma al resto de fotogramas 2, 3 y 4, como se muestra en la Fig. 8, tercera fila.
Uno de los metodos posibles en la literatura para resolver este problema se explica a continuation. Sea 0 c A x [1,3] el dominio de edicion (0 son los lados de la caja de la Figura 8) con frontera Lipschitz [1] (para simplificar, se puede considerar que 0 tiene un Kmite suave). Sea 0 t = {x £ A: (x ,t) £ 0 , t £ [1,3] }, es decir, 0t es el area de edicion del fotograma t. Una ilustracion de estos dominios se puede ver en la Figura 1. Ademas, sea 9 el mapa de correspondencia entre los fotogramas.
El problema se puede resolver minimizando un funcional de energia. En este ejemplo, se usa la suposicion del cambio de brillo global:
l ( u) = J077 nJI<@Fu(x ,t) H2 dx dt (15)
Donde V es el operador gradiente y 3f es la derivada convectiva. Siguiendo el calculo variacional, el minimo de energia (15) es la solution a la ecuacion de Euler-Lagrange dada por la siguiente EDP (Ecuacion en Derivadas Parciales) de cuarto orden
3fdivV39w(x, t) = 0, (x, t) £ 0 (16)
donde div es la divergencia espacial adyacente a -V y 3f indica el operador adjunto de la derivada convectiva, dada por 3 f / = ->■ - d iv(9/).
Esta ecuacion se completa con las condiciones de contorno Dirichlet,
w (x,t) = w0(x ,t), x £ A / Ot (17)
De acuerdo con la propuesta actual, no se usa todo el video w0 ni todo el mapa 9 de correspondencia. De una forma informal, el metodo aplicado se expresa como sigue a continuacion: Las entradas al problema son el video f y la informacion de conectividad entre los fotogramas consecutivos. Esta informacion de conectividad (o campo de movimiento) es aproximada usualmente por el flujo 9 optico.
La primera etapa se relaciona con la division de la secuencia de video de entrada para ser editada.
De acuerdo con esta etapa, el video de entrada se puede dividir en dos conjuntos. Los fotogramas impares y los fotogramas pares (Figs. 3 y 4 y los algoritmos 3 y 4). El campo de movimiento tambien tiene que ser dividido (Figs. 5 y 6 y los algoritmos 5 y 6). Esta etapa se tiene que llevar a cabo recursivamente hasta que las secuencias de video solo tengan un solo fotograma. En el ejemplo se tienen 3 secuencias de video al final de la etapa recursiva de division, realmente no estan compuestas de un unico fotograma sino que afectan a un fotograma mas las tapas (los fotogramas ya editados). Con respecto a esto, las secuencias se denominan de un fotograma debido a que hay solo un fotograma que contiene valores desconocidos. Una vez que se crean todos los videos compuestos de un fotograma mas las tapas y sus correspondientes campos de movimiento, se resuelve el problema independientemente para cada video pequeno. Una vez que se resuelve el problema para cada video pequeno se hace necesaria una etapa de integration para componer la solucion completa a partir de cada una de las soluciones individuales de los diversos problemas pequenos, esto se lleva a cabo siguiendo la Fig. 7 y el algoritmo 7. Esta integracion puede tambien incluir algunas etapas de correction para corregir pequenos posibles errores generados por los algoritmos 5 y 6.
Ahora, se describe paso a paso el algoritmo 2 en el contexto de ejemplo del problema de edicion de video anterior para una secuencia de video f={f0, f1, f3, f4}, con los fotogramas editados manualmente {f0, f4} y el campo de movimiento v={v0, v1, v2, v3}
1. u ^ Dividir y Minimizar (J,f,v) (debido que f tiene mas de un fotograma para editar)
1.1. Dividir la secuencia de video original f={f0, f1, f2, f3, f4} siguiendo los algoritmos 3 y 4.
fo ^ Division de video Impar(f)
fo ={f0, f1 ,f3,f4}
fe Division de video Par(f)
fe ={f0,f2,f4}
1.2. Calcular los nuevos campos de movimiento a partir de v siguiendo los algoritmos 5 y 6
Vo Division del Movimiento Impar (v)
vo ={v(x,0),v(x, 1 )+v(x+v(x, 1 ),2),v(x,3)}
voeDivision del Movimiento Par (v)
ve = {v(x,0)+v(x+v(x,0),1),v(x,2)+v(x+v(x,2),3)}
1.3. Resolver el problema para cada fo, fe y sus correspondientes campos de movimiento v0, ve .
Ue Minimizar (J,fe,ve)(debido a que fe tiene solo un solo fotograma para editar) ue ={f0, ue1 ,f4}
u0 Dividir y Minimizar (J,fo,v0) (debido a que fo tiene mas de un fotograma para editar) 1.3.1. dividir la secuencia de video fo siguiendo los algoritmos 3 y 4
foo Division de Video Impar (fo)
foo ={f0,f1 ,f4}
foe Division de Video Par (fo)
foe ={f0,f3,f4}
1.3.2. Calcular los nuevos campos de movimiento a parti r de vo siguiendo los algoritmos 5 y 6
voo Division del Movimiento Impar(vo)
voo ={vo(X,0), vo(X,1)+vo(X+vo(X,1),2)
voe Division del Movimiento Par (vo)
voe ={vo(X,0)+vo(X+v(X,0),1),vo(X,2)}
1.3.3. Debido a que el numero de fotogramas para editar de foo y foe es uno, se resuelve uoo Minimizar (J,foo,voo)
uoo ={f0, uoo1 ,f4}
uoe Minimizar (J,foe,voe)
uoe ={f0, uoe1 ,f4}
1.3.4. Integrar las soluciones uoo, uoe
uo Integrar (uoo, uoe)
uo ={f0,uoo1, uoe 1,f4}
1.3.5. Integrar las soluciones uo, ue
u ^ Integrar (uo, ue)
U={f0,Uoo1,Ue1,Uoe1,f4}
1.3.6. Retornar el video editado u.
Como es evidente, los algoritmos anteriores se pueden codificar como instrucciones en un lenguaje de ordenador adecuado para llevar a cabo automaticamente las operaciones descritas cuando se ejecutan en un ordenador.
La Fig. 9 muestra un diagrama de bloques que representa los principales elementos funcionales que administran los datos en una realizacion. Las cajas 10-50 se pueden referir a unidades logicas definidas en un ordenador u ordenadores en una red. Una secuencia (f) de video para editar se recibe por un primer medio 10 de procesamiento el cual calcula un campo (v ) de movimiento que modela la consistencia en el tiempo entre los fotogramas (fi, f+ i ) sucesivos y define ademas un funcional de energia (J) que modela las propiedades a cumplir por la secuencia (f) de video. Un segundo medio 20 de procesamiento divide recursivamente la secuencia (f) de video en dos conjuntos con fotogramas pares (f par) y fotogramas impares ( f impar). Esto se lleva a cabo hasta que solo haya un fotograma para editar en cada conjunto. Un tercer medio 30 de procesamiento esta a cargo de calcular el campo (v) de movimiento entre los fotogramas consecutivos en cada conjunto despues de cada division. Un cuarto medio 40 de procesamiento minimiza el funcional de energia (J) en cada conjunto para obtener los fotogramas editados. Por ultimo un quinto medio 50 de procesamiento integra los fotogramas editados y proporciona toda la secuencia (u) de video editada.
Aunque la invencion se ha explicado en relacion con su(s) realizacion(es) preferida(s) como se menciona anteriormente, se puede entender que se pueden hacer otras muchas modificaciones y variaciones sin apartarse del alcance de la presente invencion definido mediante las reivindicaciones anexas.

Claims (7)

REIVINDICACIONES
1. Un metodo implementado por ordenador para editar una secuencia de video con consistencia en el tiempo que comprende las etapas de:
i) calcular un campo de movimiento que modele la consistencia temporal entre fotogramas sucesivos; ii) definir un funcional de energia que modele las propiedades deseadas que debe poseer la secuencia de video;
iii) dividir la secuencia de video en dos conjuntos, uno con fotogramas pares y otro con fotogramas impares; caracterizado por que el metodo comprende ademas las etapas:
iv) calcular el campo de movimiento entre los fotogramas consecutivos en las secuencias divididas;
v) llevar a cabo recursivamente las etapas iii) y iv) hasta que los conjuntos que se dividan contengan un unico fotograma para editar;
vi) minimizar el funcional de energia para cada conjunto que contenga un fotograma para editar;
vii) integrar los fotogramas editados y extraer la secuencia completa de video editada.
2. El metodo implementado por ordenador de la reivindicacion 1, en donde este comprende una etapa previa de identificar un fotograma en una secuencia de video que tiene un objeto editado para propagar.
3. El metodo implementado por ordenador de la reivindicacion 1 o 2, en donde el funcional de energia comprende un sumatorio de energias para la edicion que dependen de los fotogramas y las energias de acople temporal que dependen de los pares de fotogramas consecutivos.
4. El metodo implementado por ordenador de cualquiera de las reivindicaciones 1 a la 3, en donde el funcional de energia se basa en al menos uno de los siguientes modelos:
- suposicion de cambio de brillo global;
- suposicion de constancia de brillo;
- suposicion de constancia de gradiente.
5. Un sistema para editar una secuencia de video con consistencia en el tiempo que comprende:
- un primer medio (10) de procesamiento para calcular un campo (v ) de movimiento que modele consistencia en el tiempo entre los fotogramas (fi, fi+ i) sucesivos y para definir un funcional (J) de energia que modele las propiedades que debe poseer la secuencia (f) de video;
- un segundo medio (20) de procesamiento para dividir la secuencia (f) de video en dos conjuntos con fotogramas pares (f par) y fotogramas impares (fmpar), en donde la division se hace de manera recursiva hasta que solo haya un fotograma para editar en cada conjunto;
- un tercer medio (30) de procesamiento para calcular el campo (v) de movimiento entre los fotogramas consecutivos en cada conjunto despues de cada division;
- un cuarto medio (40) de procesamiento para minimizar el funcional (J) de energia en cada conjunto para obtener los fotogramas editados;
- un quinto medio (50) de procesamiento para integrar los fotogramas editados y proporcionar la totalidad de la secuencia (u) de video editada.
6. Un sistema para editar una secuencia de video con consistencia temporal segun la reivindicacion 5, que comprende un sexto medio de procesamiento para identificar un fotograma en una secuencia de video que tiene un objeto editado para ser propagado.
7. Un producto de programa por ordenador para editar una secuencia de video con consistencia temporal comprendiendo instrucciones de codigo por ordenador almacenadas en el mismo que, cuando son ejecutadas por un procesador, ocasionan que el procesador lleve a cabo el metodo de cualquiera de las reivindicaciones 1 a la 4.
ES16382233T 2016-05-25 2016-05-25 Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo Active ES2709211T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP16382233.1A EP3249609B1 (en) 2016-05-25 2016-05-25 Computer-implemented method and system for processing video with temporal consistency

Publications (1)

Publication Number Publication Date
ES2709211T3 true ES2709211T3 (es) 2019-04-15

Family

ID=56108595

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16382233T Active ES2709211T3 (es) 2016-05-25 2016-05-25 Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo

Country Status (3)

Country Link
US (1) US10121257B2 (es)
EP (1) EP3249609B1 (es)
ES (1) ES2709211T3 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109275028B (zh) 2018-09-30 2021-02-26 北京微播视界科技有限公司 视频获取方法、装置、终端和介质
CN109922231A (zh) * 2019-02-01 2019-06-21 重庆爱奇艺智能科技有限公司 一种用于生成视频的插帧图像的方法和装置
CN111340852B (zh) * 2020-03-10 2022-09-27 南昌航空大学 一种基于优化语义分割的图像序列光流计算方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7787010B2 (en) * 2003-03-20 2010-08-31 Pixar Video to film flat panel digital recorder and method
JP3879692B2 (ja) * 2003-04-09 2007-02-14 ソニー株式会社 映像信号処理装置及びそれを用いたテレビ受像機
US8059915B2 (en) * 2006-11-20 2011-11-15 Videosurf, Inc. Apparatus for and method of robust motion estimation using line averages
US8184904B2 (en) * 2008-06-04 2012-05-22 Wipro Limited Method and apparatus for dynamic and adaptive enhancement of colors in digital video images
US8768438B2 (en) * 2012-06-25 2014-07-01 Xerox Corporation Determining cardiac arrhythmia from a video of a subject being monitored for cardiac function
US8977347B2 (en) * 2012-06-25 2015-03-10 Xerox Corporation Video-based estimation of heart rate variability
US8792969B2 (en) * 2012-11-19 2014-07-29 Xerox Corporation Respiratory function estimation from a 2D monocular video

Also Published As

Publication number Publication date
US10121257B2 (en) 2018-11-06
EP3249609B1 (en) 2018-09-26
US20170345163A1 (en) 2017-11-30
EP3249609A1 (en) 2017-11-29

Similar Documents

Publication Publication Date Title
Hamzah et al. Literature survey on stereo vision disparity map algorithms
Li et al. Fast guided global interpolation for depth and motion
Park et al. High-quality depth map upsampling and completion for RGB-D cameras
Dolson et al. Upsampling range data in dynamic environments
Gottfried et al. Computing range flow from multi-modal kinect data
Nair et al. A survey on time-of-flight stereo fusion
Whelan et al. Incremental and batch planar simplification of dense point cloud maps
Evangelidis et al. Fusion of range and stereo data for high-resolution scene-modeling
JP3557982B2 (ja) オプティカルフロー推定方法
Drouyer et al. Sparse stereo disparity map densification using hierarchical image segmentation
Bulatov et al. Multi-view dense matching supported by triangular meshes
Holzmann et al. Semantically aware urban 3d reconstruction with plane-based regularization
ES2709211T3 (es) Método implementado por ordenador y sistema para procesamiento de video con consistencia en el tiempo
Roxas et al. Variational fisheye stereo
Xu et al. Hrbf-fusion: Accurate 3d reconstruction from rgb-d data using on-the-fly implicits
Tykkälä et al. Live RGB-D camera tracking for television production studios
Meerits et al. Real-time scene reconstruction and triangle mesh generation using multiple RGB-D cameras
Liu et al. Automatic objects segmentation with RGB-D cameras
Cardona et al. Hybrid-space localized stylization method for view-dependent lines extracted from 3D models.
Wasenmüller et al. Combined bilateral filter for enhanced real-time upsampling of depth images
Favorskaya et al. Warping techniques in video stabilization
Ha et al. Readjusting unstable regions to improve the quality of high accuracy optical flow
Xu et al. Spatio-temporal video completion in spherical image sequences
Szirmay-Kalos Filtering and gradient estimation for distance fields by quadratic regression
Kumar et al. Charbonnier-marchaud based fractional variational model for motion estimation in multispectral vision system