ES2880462T3

ES2880462T3 - Método de procesamiento de un vídeo

Info

Publication number: ES2880462T3
Application number: ES19164588T
Authority: ES
Inventors: Waqas Hassan
Original assignee: Facit Data Systems Ltd
Current assignee: Facit Data Systems Ltd
Priority date: 2018-03-23
Filing date: 2019-03-22
Publication date: 2021-11-24
Anticipated expiration: 2039-03-22
Also published as: PL3543954T3; EP3543954A1; PT3543954T; EP3543954B1; GB201804649D0; DK3543954T3

Abstract

Un método implementado por ordenador de procesamiento de un vídeo que comprende una secuencia de marcos de imagen que comprende arreglos de píxeles, comprendiendo el método: - una etapa de modelado de fondo, en la cual información de movimiento se extrae desde una serie de imágenes de una escena y cualquier información restante se suma para crear un modelo de fondo que representa componentes estáticos de la escena; - una etapa de extracción de primer plano, en la cual el modelo de fondo se resta desde al menos un marco de imagen para extraer una escena de primer plano que representa componentes en movimiento de una escena; - una etapa de clasificación de color, en la cual objetos dentro de la escena de primer plano se clasifican de acuerdo con si cada uno de esos objetos cae dentro o fuera de un espacio de color definido; y - una etapa de enmascaramiento que comprende aplicar una máscara a imágenes de uno o más objetos que aparecen en los marcos de imagen que caen dentro del espacio de color definido; caracterizado porque la etapa de clasificación de color comprende además clasificar objetos de primer plano identificando objetos de primer plano que caen dentro de una región del espacio de color YCbCr que cumple las condiciones: **(Ver fórmula)** y **(Ver fórmula)** y **(Ver fórmula)** y **(Ver fórmula)** y **(Ver fórmula)** y **(Ver fórmula)** donde Cr y Cb son componentes de crominancia y Y es el componente de luminancia.

Description

DESCRIPCIÓN

Método de procesamiento de un vídeo

La presente invención se relaciona con un método de procesamiento de un vídeo que comprende una secuencia de marcos de imagen. En particular, pero no exclusivamente, la invención se relaciona con un método de enmascaramiento de características específicas de una secuencia de vídeo, que de aquí en adelante se denominará como la Aplicación de Facit Identity Cloak para Vídeo Vigilancia.

1. Introducción:

La aplicación de Facit Identity Cloak está específicamente, pero no exclusivamente, diseñada y desarrollada para clientes que usan cámaras de vigilancia para registrar vídeos con el propósito de seguridad y prevención de delitos. Bajo la nueva regulación GDPR, (Capítulo 3, Artículos 13, 14 y 15), cualquier persona cuya imagen se registre en un sistema de CCTV tiene derecho a buscar y ser suministrado con una copia de sus propios datos personales del metraje. Sin embargo, la identidad de cualquier otro individuo que también aparezca en cualquier parte de ese metraje necesita protegerse cuando el registro se comparte con un tercero. La aplicación de Facit Identity Cloak está diseñada para proteger la identidad de cualquier individuo. La invención también se puede usar para enmascarar u oscurecer características de identificación de otros objetos, por ejemplo placas de registro de vehículos. Este documento contiene detalles de esta aplicación.

2. Conocimiento antecedente:

En general es deseable proteger la identidad de cualquier individuo en el metraje registrado enmascarando u oscureciendo características de identificación del individuo. El método más comúnmente usado para este propósito es usar un sistema que detecta y enmascara características faciales.

Sin embargo, se ha observado que en escenarios de vida real, se detectan muy pocas características faciales debido a la ubicación de cámara, posición y calidad de imagen. También, la detección y rastreo de características faciales pueden generar grandes demandas de procesamiento de datos.

Para superar esta limitación se ha desarrollado un nuevo método basado en color y movimiento, cuyos detalles se explican en la siguiente sección.

La detección de color es una de las técnicas más comúnmente usadas en la mayoría de las aplicaciones de generación de imágenes incluyendo el rastreo de manos y rostros o reconocimiento de lenguaje de señas. El desafío es detectar el rango de color a través de todas las razas de individuos, ya que el color de piel varía entre diferentes razas. Además las condiciones de iluminación y variación de límites de luminancia son algunos otros factores que plantean problema a la técnica de detección de piel [1]. También se ha observado que la mayor parte del trabajo que se ha llevado a cabo hasta ahora es en ambientes controlados, donde hay poca o ninguna variación en condiciones de iluminación. Otro desafío es eliminar de los marcos de imagen todos los ítems que no son parte de la característica facial pero que caen en el mismo espacio de color. Por lo tanto, el método basado en color por sí solo no puede detectar las características faciales correctamente.

En la mayoría de las aplicaciones de generación de imágenes y sistemas de visión incluyendo la vídeo vigilancia [2], [3], monitorización de tráfico [4], rastreo de objetos, detección humana o detección de movimiento, una de las etapas fundamentales es separar con precisión los objetos en movimiento de una secuencia de vídeo [5]-[7]. La técnica más común involucrada en el preprocesamiento de secuencias de vídeo en tales aplicaciones es obtener una imagen o datos del fondo que incluya todos los objetos estáticos en la vista de cámara durante un período de tiempo. Luego restarlos del marco actual para obtener todos los objetos que están en movimiento. Esta técnica se denomina resta de fondo [8].

El problema al que se enfrentan la mayoría de estos algoritmos es la adaptabilidad a cambios en iluminación y diferencia en iluminación. El modelo de fondo falla cuando hay un cambio repentino en la vista de cámara o en condición de iluminación. Con el fin de lograr resultados precisos, se propone un modelo de fondo actualizado, que incorpora la información de movimiento así como cambios de iluminación.

Se describen ejemplos de métodos de redacción de vídeo conocidos en los documentos US2007/0201694 y US2013/0108105. Estos métodos incluyen las siguientes etapas de procesamiento de imágenes:

• Etapa 1: construir un modelo de fondo

• Etapa 2: extraer información de primer plano

• Etapa 3: Identificar áreas de los marcos de vídeo que representan objetos para enmascarar (por ejemplo rostros humanos, placas de registro de vehículos, etc.)

• Etapa 4: Rastrear los objetos en marcos sucesivos de la secuencia de vídeo

• Etapa 5: Enmascarar los objetos en cada uno de los marcos de la secuencia de vídeo para ocultar características de identificación.

La presente invención, como se define a continuación, difiere de los métodos descritos en los documentos US2007/0201694 y US2013/0108105 al menos en las etapas 3 y 4. Ambos métodos de la técnica anterior intentan encontrar objetos específicos dentro de la secuencia de vídeo y luego enmascararlos mientras que simultáneamente rastrea los objetos a medida que se mueven alrededor en marcos sucesivos del vídeo. En la presente invención cada marco de vídeo se trata como una escena independiente, en la cual se buscan áreas que caen dentro de un rango de color particular. Dondequiera que se encuentre el rango de color especificado se enmascara esa área del marco. La presente invención no rastrea ningún objeto, y por tanto no hay ningún vínculo o asociación entre marcos consecutivos. Las áreas seleccionadas para enmascaramiento se pueden expandir agregando diferentes rangos de color. De esta forma es posible enmascarar u oscurecer cualquier área que coincida con el rango de color seleccionado. El documento US8300890 B1 describe un sistema para el cribado de personas/objetos, en el cual una o más porciones de una imagen se reemplazan con otras imágenes. La imagen resultante puede incluir una primera porción y una o más de otras imágenes. En una realización, el fondo de una imagen se puede reemplazar por otro fondo, y el primer plano se puede extraer identificando el fondo con base en una imagen del fondo sin ningún primer plano. El documento US2013/108105 A1 describe un aparato para enmascarar una región de privacidad con base en una imagen de vídeo monitorizada. El método incluye extraer un objeto de destino desde la entrada de vídeo para detectar una región de enmascaramiento de privacidad; y procesar gráficos solo la región de enmascaramiento de privacidad detectada del objeto de destino para ocultar la región de enmascaramiento de privacidad, ocultando de esa manera la región de privacidad.

Un inconveniente de la presente invención es que si hay otros objetos en la escena que son similares al color seleccionado (que puede, por ejemplo, ser un color de piel), esas áreas también estarán enmascaradas. Sin embargo, la invención proporciona la ventaja de que no requiere el uso de ningún sistema de reconocimiento de características, tales como unos sistemas de reconocimiento facial. Esto hace posible realizar la operación de enmascaramiento con menos recursos informáticos tampoco requiere que el usuario especifique qué objetos el sistema está tratando de enmascarar. Esto significa que el sistema puede enmascarar todas las áreas en la imagen que coinciden con el rango de color seleccionado. El método también es compatible con sistemas de registro de vídeo más antiguos que usan cámaras con señales de salida analógicas.

Otro inconveniente del sistema es que a veces pasa por alto las características faciales si caen fuera del rango de color establecido. Para superar estos inconvenientes, el sistema permite a los usuarios agregar o eliminar manualmente el área de interés que va a ser enmascarada o desenmascarada usando una función de edición marco por marco.

De acuerdo con un aspecto de la presente invención se proporciona un método de procesamiento de un vídeo como se define por las reivindicaciones.

En una realización se proporciona un método de procesamiento de un vídeo que comprende una secuencia de marcos de imagen que comprende arreglos de píxeles, comprendiendo el método:

• una etapa de modelado de fondo, en la cual se extrae información de movimiento desde una serie de imágenes de una escena y se suma cualquier información restante para crear un modelo de fondo que representa componentes estáticos de la escena;

• una etapa de extracción de primer plano, en la cual el modelo de fondo se resta desde al menos un marco de imagen para extraer una escena de primer plano que representa componentes en movimiento de una escena;

• una etapa de clasificación de color, en la cual objetos dentro de la escena de primer plano se clasifican de acuerdo con si cada uno de esos objetos cae dentro o fuera de un espacio de color definido; y

• una etapa de enmascaramiento que comprende aplicar una máscara a imágenes de uno o más objetos que aparecen en los marcos de imagen que caen dentro del espacio de color definido.

La etapa de enmascaramiento comprende aplicar una máscara para eliminar características de identificación desde uno o más objetos, por ejemplo individuos u otros objetos, que aparecen en los marcos de imagen. Opcionalmente, el método también comprende una etapa de modificación de máscara, que comprende modificar manualmente la máscara aplicada en la etapa de enmascaramiento. Esto permite que un usuario agregue una máscara manualmente a áreas seleccionadas del vídeo para oscurecer áreas adicionales de interés, o para eliminar la máscara desde otras áreas que no necesitan ser oscurecidas. Esto se logra usando una función de edición marco por marco.

La etapa de enmascaramiento comprende opcionalmente difuminar u oscurecer dichos uno o más objetos que caen dentro del espacio de color definido para eliminar características de identificación de esos objetos. La etapa de modelado de fondo comprende opcionalmente seleccionar una imagen base, usar información de movimiento en imágenes subsecuentes para eliminar píxeles que representan objetos que están en movimiento, determinar una suma ponderada de todos los píxeles restantes, y usar la suma ponderada para actualizar el modelo de fondo.

La etapa de modelado de fondo que comprende además opcionalmente guardar cada enésimo marco de la secuencia de vídeo como una Imagen Previa, y calcular una Imagen de Diferencia comparando una Imagen Actual con la Imagen Previa.

La etapa de modelado de fondo opcionalmente comprende además eliminar ruido desde la Imagen de diferencia usando una función de suavización, por ejemplo una función Gaussiana, y opcionalmente extraer contornos en la Imagen de Diferencia, y opcionalmente dilatar y rellenar los contornos.

La etapa de modelado de fondo comprende además opcionalmente clasificar píxeles de movimiento y píxeles sin movimiento, calcular una suma ponderada, y actualizar el modelo de fondo con la suma ponderada.

Opcionalmente, la etapa de extracción de primer plano comprende separar objetos de primer plano en movimiento restando el modelo de fondo desde un marco de Imagen Actual de la secuencia de vídeo.

Opcionalmente, el método comprende además actualizar el modelo de fondo después de cada etapa de extracción de primer plano.

La etapa de clasificación de color comprende además clasificar objetos de primer plano identificando objetos de primer plano que caen dentro de una región del espacio de color YCbCr que cumple las condiciones:

y

y

Cr>=(-4.5652*Cb)+234.5652

y

Cr <= (1.15*Cb)+301.75

y

Cr <= (-2.2857*Cb)+432.85,

donde Cr y Cb son componentes de crominancia y Y es el componente de luminancia. Opcionalmente, el método comprende además crear una máscara que contiene solo regiones de un marco de vídeo que caen dentro del espacio de color predeterminado.

Opcionalmente, el método comprende además aplicar la máscara para oscurecer las regiones seleccionadas del marco de vídeo.

Opcionalmente, la etapa de clasificación de color comprende además usar un método basado en bordes para clasificar objetos, en donde opcionalmente el método basado en bordes comprende un método de detección de bordes de Canny.

Opcionalmente, el método comprende además seleccionar un objeto de destino en una secuencia de vídeo seleccionada, extraer posiciones de píxeles del objeto de destino desde una pluralidad de marcos dentro de la secuencia de vídeo, almacenar las posiciones de píxeles del objeto de destino en la pluralidad de marcos e información de tiempo asociada con esos marcos, y predecir la posición del objeto de destino en al menos un otro marco de la secuencia de vídeo con base en las posiciones de píxeles almacenadas e información de tiempo, y eliminar la máscara desde la secuencia de vídeo en las posiciones predichas del objeto de destino.

3. La solicitud:

Ahora se describirá una realización de la invención a modo de ejemplo con referencia a los dibujos acompañantes, en donde:

La figura 1 es un diagrama de flujo que ilustra un método de construcción de un modelo de fondo;

La figura 2 es un diagrama de flujo que ilustra un método de extracción de información de primer plano, y

La figura 3 ilustra un espacio de color usado en un proceso de clasificación de color.

La solicitud propuesta se divide en 4 secciones principales:

• Modelado de Fondo

• Extracción de Primer Plano

• Clasificación de Color

• Modificación de Máscara (opcional)

3.1. Modelado de fondo

La primera etapa de la solicitud es seleccionar una imagen base para el modelo de fondo. Una imagen base ideal se puede definir como una imagen que contiene los objetos más estáticos en la escena. Sin embargo, esto no siempre es posible, por lo que en la presente solicitud se seleccionan múltiples imágenes de acuerdo con el número de marcos en el vídeo. Después de separar los canales de RGB desde cada marco, se almacena cada canal por separado en una forma de unos apilamientos de canales multicapa. Se toma la mediana de cada apilamiento de canales multicapa para formar una imagen mediana para cada canal por separado y se fusionan en conjunto para formar una imagen mediana final, que se considera como una imagen de modelo de fondo. Esta imagen de modelo de fondo se usa como una imagen inicial para el procesamiento principal.

A continuación, se usa la información de movimiento en las imágenes subsecuentes para eliminar todas las áreas que están actualmente en movimiento. Se toma una suma ponderada de todos los píxeles restantes, en los cuales no hubo movimiento, con la imagen base, que subsecuentemente actualiza el modelo de fondo. A continuación se muestra un diagrama de flujo detallado en la figura 1. Las etapas de algoritmo usadas en una realización de la invención se describen a continuación.

Etapas de estimación de modelo de fondo:

• Selección de Imagen Base.

• Cada nésimo marco (por ejemplo cada cuarto marco) se guarda como la Imagen Previa.

• Calcular Imagen de Diferencia de la Imagen Actual e Imagen Previa.

• Eliminar Ruido desde Imagen de Diferencia usando función de suavización Gaussiana.

• Extraer contornos en Imagen de Diferencia.

• Dilatación y subsecuentemente relleno de contornos.

• Clasificar Píxeles de Movimiento y Sin Movimiento.

• Calcular suma ponderada.

• Actualizar modelo de fondo.

Se muestra un diagrama de flujo de modelo de fondo en la figura 1

El modelo de fondo se crea de tal manera que solo se agreguen regiones estacionarias del marco. Se ignora cualquier región en movimiento dentro del marco. Esto hace que el modelo de fondo sea robusto e insensible a cualquier cambio. Este proceso continúa hasta que madura el modelo de fondo.

3.2. Extracción de primer plano:

La siguiente etapa es separar todos los objetos de primer plano en movimiento del metraje de vídeo. Esto se logra restando el marco actual con el modelo de fondo generado en la configuración previa. Un modelo de fondo seleccionado en la etapa previa, se usa como imagen de referencia. En cada iteración, se actualiza el modelo de fondo. El modelo de fondo actualizado es coincidente con el marco actual para extraer el primer plano. El diagrama de flujo de proceso de extracción de primer plano se describe en la figura 2.

3.3. Clasificación de color:

La siguiente etapa es clasificar objetos de primer plano. Este proceso se lleva a cabo usando el método de clasificación de colores. Los espacios de color que se pueden usar en tales condiciones incluyen YUV, YCbCr, YIQ, RGB, HSV [10]. Es importante anotar que el color solo puede dar como resultado una clasificación falsa debido a las condiciones de iluminación variables [9]. Por tanto se ha combinado un método basado en bordes más robusto con la clasificación de color para clasificar objetos de interés. En nuestro modelo se está incorporando el espacio de color YCbCr para clasificar el píxel y luego combinarlo con un método de detección de bordes de Canny [11].

3.3.1. Modelo de color YCbCr (luminancia, crominancia):

Como se ilustra en la figura 3, YCbCr es un espacio de color que consiste en una señal RGB codificada no lineal [12]. El uso de este espacio de color se emplea comúnmente en el dominio de vídeo digital en estándares de compresión de vídeo como JPEG, MJPEG-1, MJPEG-2 y MJPEG-4, ya que se puede extraer información de color redundante usando esta representación. El componente Y es luma que representa el brillo de una imagen, y tiene una relación no lineal con los valores RGB. La información de color en este modelo de color se representa usando componentes Cb y Cr denominados croma. Cb corresponde a azul menos luma y Cr corresponde a rojo menos luma [13].

Se muestra un modelo de espacio de color YcbCr en la figura 3

Usando la Ecuación 1 a Ecuación 3, se pueden calcular los valores de Y Cb Cr a partir de valores RGB dados.

Y = 0.299R 0.287G 0.11B ⁽1 ⁾

Cr = R - Y ................................. ⁽2⁾

Cb = B - Y................................. ⁽ 3 ⁾

Para separar regiones de interés se están usando los siguientes umbrales de Y, Cb y Cr

y

y

Cr >= (-4.5652*Cb)+234.5652

y

Cr <= (-1.15*Cb)+301.75

y

Cr <= (-2.2857*Cb)+432.85

donde Cr y Cb son componentes de crominancia y Y es el componente de luminancia. La máscara resultante se crea conteniendo solo aquellas regiones que caen en el rango anterior. Esta máscara se usa subsecuentemente en la etapa final para difuminar todas las caras en la secuencia de vídeo de salida.

3.4. Modificación de máscara

La solicitud permite a los usuarios enmascarar/desenmascarar manualmente áreas de la imagen (por ejemplo, que contengan individuos). Debido a la iluminación variable, pobre calidad de vídeo y/o posición de cámara, hay la posibilidad ya sea que las áreas que no son de interés se enmascaren automáticamente, o que no se aplique una máscara a las áreas de interés que necesitan ser oscurecidas. Para superar esta situación, se proporciona una etapa opcional de modificación de máscara, que permite que una máscara sea aplicada manualmente a áreas adicionales de la imagen, y/o permite que la máscara aplicada automáticamente sea eliminada desde las áreas que no son de interés, para proporcionar en tales situaciones una secuencia de vídeo de salida mejorada.

3.5. Entrada de usuario para selección de persona

La principal funcionalidad de la aplicación es identificar individuos en la secuencia de vídeo y ocultar su identidad usando el método de difuminación (que comprende difuminar o enmascarar regiones específicas de la imagen para eliminar características de identificación). Sin embargo, por propósitos de seguridad hay un requisito de mantener identificares a uno o más individuos. Esta característica es importante cuando hay una necesidad de compartir la secuencia de vídeo con un tercero. Para este propósito, el usuario puede identificar cualquier individuo (u objeto de destino) en la secuencia de vídeo seleccionada. Las posiciones de píxeles de la cara del individuo seleccionado se extraen de los marcos clave y se almacenan junto con la información de tiempo. Se formula una relación matemática entre el número de marcos y posición de píxeles, con base en las posiciones de caras en el resto de los marcos que se predicen.

Por ejemplo, en dos marcos clave, marco clave 1 y marco clave 2 la posición en el marco clave 1 es (X1 , Y1 ) y marco clave 2 es (X2, Y2). La posición predicha es (Xp, Yp) en el enésimo marco es

n Marco \ nMarco

= X¹*(l- ^{------- -----------------------------) ----------------------------------------)}

Marc^----------o Clave 2 - Marco Clave 1/ X⁷ ^* ( ^--M^--a^---rco Clave2 - Marco Clave r

Yp = pendiente * X p C

Donde,

pendiente = Y2- ^yx

X 2 - X 1

Usando las ecuaciones anteriores, la posición de una persona se predice en tiempo real con referencia al marco actual. Usando esta posición, el área de píxeles se mantiene difuminada o no difuminada de acuerdo con el requisito de ocultar o mostrar la identidad del individuo.

Referencias

[1] Z. Hamid Al-Tairi, R. Wirza, M. I. Saripan, and P. Sulaiman, "Skin segmentation using YUV and RGB color spaces," J. Inf. Process. Syst., vol. 10, pp. 283-299, Jun. 2014.

[2] O. Barnich and M. V. Droogenbroeck, "ViBE: A powerful random technique to estimate the background in vídeo sequences," in 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, 2009, pp. 945-948.

[3] M. Van Droogenbroeck and O. Barnich, "Visual Background Extractor," Aug. 2011.

[4] A. M. Mclvor, "Background subtraction techniques," Proc Image Vis. Comput., vol. 4, pp. 3099-3104, 2000.

[5] R. J. Radke, S. Andra, O. Al-Kofahi, and B. Roysam, "Image change detection algorithms: a systematic survey," IEEE Trans. Image Process., vol. 14, no. 3, pp. 294-307, Mar. 2005.

[6] Y. Benezeth, P. M. Jodoin, B. Emile, H. Laurent, and C. Rosenberger, "Review and evaluation of commonlyimplemented background subtraction algorithms," in 2008 19th International Conference on Pattern Recognition, 2008, pp. 1-4.

[7] S. Elhabian, K. M. EI-Sayed, and S. H. Ahmed, "Moving Object Detection in Spatial Domain Using Background Removal Techniques-State-of-Art," Recent Pat. Comput. Sci., vol. 1, pp. 32-54, Jan. 2008.

[8] K. Kavitha, VIBE: Background Detection and Subtraction for Image Sequences in Vídeo.

[9] S. Kolkur, D. Kalbande, P. Shimpi, C. Bapat, and J. Jatakia, "Human Skin Detection Using RGB, HSV and YCbCr Color Models," ArXiv170802694 Cs Q-Bio, 2017.

[10] A. Elgammal, C. Muang, and D. Hu, "Skin detection-a short tutorial," Encycl. Biom., pp. 1-10, 2009.

[11] Canny, J., A Computational Approach to Edge Detection, IEEE Trans. Pattern Analysis and Machine Learning, 8(6):679-698, 1986.

[12] B. D. Zarit, B. J. Super, and F. K. H. Quek, "Comparison of five color models in skin pixel classification," in International Workshop on Recognition, Analysis, and Tracking of Faces and Gestures in Real-Time Systems, 1999. Proceedings, 1999, pp. 58-63.

[13] R. G, "Integrated Feature Extraction for Image Retrieval," Nov. 2017.

Claims

REIVINDICACIONES

1. Un método implementado por ordenador de procesamiento de un vídeo que comprende una secuencia de marcos de imagen que comprende arreglos de píxeles, comprendiendo el método:

• una etapa de modelado de fondo, en la cual información de movimiento se extrae desde una serie de imágenes de una escena y cualquier información restante se suma para crear un modelo de fondo que representa componentes estáticos de la escena;

• una etapa de enmascaramiento que comprende aplicar una máscara a imágenes de uno o más objetos que aparecen en los marcos de imagen que caen dentro del espacio de color definido;

caracterizado porque la etapa de clasificación de color comprende además clasificar objetos de primer plano identificando objetos de primer plano que caen dentro de una región del espacio de color YCbCr que cumple las condiciones:

y

y

Cr >= (-4.5652*Cb)+234.5652

y

Cr<= (1 .15*C b)+301.75

y

Cr <= (-2.2857*Cb)+432.85,

donde Cr y Cb son componentes de crominancia y Y es el componente de luminancia.

2. Un método de acuerdo con la reivindicación 1, en donde la etapa de enmascaramiento comprende difuminar u oscurecer dichos uno o más objetos que caen dentro del espacio de color definido, para eliminar características de esos objetos.

3. Un método de acuerdo con la reivindicación 1 o 2, que comprende además una etapa de modificación de máscara, que comprende modificar manualmente la máscara aplicada en la etapa de enmascaramiento.

4. Un método de acuerdo con cualquier reivindicación precedente, en donde la etapa de modelado de fondo comprende seleccionar una imagen base, usar información de movimiento en imágenes subsecuentes para eliminar píxeles que representan objetos que están en movimiento, determinar una suma ponderada de todos los píxeles restantes, y usar la suma ponderada para actualizar el modelo de fondo.

5. Un método de acuerdo con la reivindicación 4, comprendiendo la etapa de modelado de fondo además guardar cada enésimo marco de la secuencia de vídeo como una Imagen Previa, y calcular una Imagen de Diferencia comparando una Imagen Actual con la Imagen Previa.

6. Un método de acuerdo con la reivindicación 4 o 5, comprendiendo la etapa de modelado de fondo además eliminar ruido de la Imagen de Diferencia usando una función de suavización, y opcionalmente extraer contornos en la Imagen de Diferencia, y opcionalmente dilatar y rellenar los contornos.

7. Un método de acuerdo con cualquiera de las reivindicaciones 4 a 6, comprendiendo la etapa de modelado de fondo además clasificar píxeles de movimiento y píxeles sin movimiento.

8. Un método de acuerdo con cualquier reivindicación previa, en donde la etapa de extracción de primer plano comprende separar objetos de primer plano en movimiento restando el modelo de fondo de un marco de Imagen Actual de la secuencia de vídeo.

9. Un método de acuerdo con la reivindicación 8, que comprende además actualizar el modelo de fondo después de cada etapa de extracción de primer plano.

10. Un método de acuerdo con cualquier reivindicación precedente, que comprende además crear una máscara que contiene sólo regiones de un marco de vídeo que caen dentro del espacio de color predeterminado.

11. Un método de acuerdo con cualquier reivindicación precedente, que comprende además aplicar la máscara para oscurecer las regiones seleccionadas del marco de vídeo.

12. Un método de acuerdo con cualquier reivindicación precedente, en donde la etapa de clasificación de color comprende además usar un método basado en bordes para clasificar objetos, en donde opcionalmente el método basado en bordes comprende un método de detección de bordes de Canny.

13. Un método de acuerdo con cualquier reivindicación precedente, que comprende además seleccionar un objeto de destino en una secuencia de vídeo seleccionada, extraer posiciones de píxeles del objeto de destino desde una pluralidad de marcos dentro de la secuencia de vídeo, almacenar las posiciones de píxeles del objeto de destino en la pluralidad de marcos e información de tiempo asociada con esos marcos, y predecir la posición del objeto de destino en al menos un otro marco de la secuencia de vídeo con base en las posiciones de píxeles almacenadas e información de tiempo, y eliminar la máscara desde la secuencia de vídeo en las posiciones predichas del objeto de destino.