ES2334507T3

ES2334507T3 - Proceso para la descompresion de videos con base en el objeto empleando caracteristicas conformadas arbitrariamente.

Info

Publication number: ES2334507T3
Application number: ES05013280T
Authority: ES
Inventors: Ming-Chieh Lee; Iii William Chambers Powell
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1995-10-05
Filing date: 1996-10-04
Publication date: 2010-03-11
Anticipated expiration: 2016-10-04
Also published as: US5995670A; JP2008011552A; DE69638007D1; JP4242452B2; CA2432740A1; EP1122956A2; EP1122956A3; US6026182A; EP1589766B1; CA2432741A1; US5784175A; CA2432740C; DE69623330T2; US5825929A; AU7388996A; WO1997013372A3; EP1589766A2; JP2008011551A; EP1589765A2; CA2432735C

Abstract

Un método de descodificar objetos de vídeo plurales en una secuencia de vídeo, para usar en un descodificador de vídeo basados en objetos, donde el método abarca: la recepción de datos codificados para los objetos de vídeo plurales en la secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, y en donde los datos codificados incluyen: datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales; una o más máscaras que definen la forma del primer objeto de vídeo; uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite; datos intracodificados para el segundo objeto de vídeo; una o más máscaras que definen la forma del segundo objeto de vídeo; por lo menos uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales; la descodificación del sprite para el primer objeto de vídeo; la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez; la descodificación del segundo objeto de. vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y la descodificación del segundo objeto de vídeo la segunda vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de movimiento para el segundo objeto de vídeo la segunda vez para calcular los valores del píxel para los píxeles del segundo objeto de vídeo la segunda vez del segundo objeto de vídeo descodificado la primera vez, e incluyendo también la combinación de los valores del píxel calculados para los píxeles del segundo objeto de vídeo la segunda vez con una señal de error para el segundo objeto de vídeo la segunda vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la segunda vez.

Description

Proceso para descompresión de vídeos con base en el objeto empleando características conformadas arbitrariamente.

Campo de la invención

La presente invención se refiere a los procesos para comprimir señales de vídeo digital y, más concretamente, a un proceso de codificación de vídeo digital basado en objetos con un feedback de error para aumentar la precisión.

Antecedentes de la invención

Las pantallas de vídeo dinámicas basadas en señales de vídeo analógicas llevan tiempo disponibles bajo la forma de televisión. Las pantallas de vídeo dinámicas basadas en señales de vídeo digital proliferan cada vez más en el mercado, debido a que son más asequibles, así como a un aumento de las capacidades de procesado de los ordenadores. Los sistemas de vídeo digital pueden proporcionar mejoras significativas con respecto a los sistemas de vídeo analógicos convencionales a la hora de crear, modificar, transmitir, almacenar y reproducir secuencias de vídeo dinámicas.

Las pantallas de vídeo digital incluyen una gran cantidad de cuadros de imagen que se reproducen o renderizan sucesivamente a una frecuencia de entre 30 Hz y 75 Hz. Cada cuadro de imagen es una imagen fija formada a partir de una matriz de píxeles según la resolución de pantalla de un sistema concreto. A modo de ejemplo, los sistemas basados en VHS tienen resoluciones de pantalla de 320x480 píxeles, los sistemas basados en NTSC tienen resoluciones de pantalla de 720x486 píxeles y los sistemas de televisión de alta definición (HDTV) que están todavía en desarrollo disponen de resoluciones de pantalla de 1360x1024 píxeles.

Las cantidades de información digital nativa incluida en las secuencias de vídeo son enormes. El almacenamiento y transmisión de estas cantidades de información de vídeo no es factible con un ordenador personal convencional. En cuanto a una forma digitalizada de un formato de imagen VHS de resolución relativamente baja con una resolución de 320x480 píxeles, una imagen en movimiento de una duración de dos horas podría corresponder a 100 gigabytes de información de vídeo digital. En comparación, los discos ópticos compactos convencionales tienen capacidades de casi 0,6 gigabytes, los discos duros magnéticos tienen capacidades de 1-2 gigabytes, y los discos ópticos en desarrollo disponen de capacidades de hasta 8 gigabytes.

En respuesta a las limitaciones a la hora de almacenar o transmitir tales enormes cantidades de información de vídeo digital, se han establecido diversos estándares o procesos de compresión de vídeo como es el caso del MPEG-1, MPEG-2. y H.26X. Estas técnicas convencionales de compresión de vídeo se sirven de las similitudes entre los cuadros de imagen sucesivos, denominadas correlación intercuadros o temporal para ofrecer la compresión intercuadros en que las representaciones basadas en píxeles de los cuadros de imagen se convierten en representaciones de movimiento. Además, las técnicas de compresión de vídeo convencionales se sirven de similitudes dentro de los cuadros de imagen, conocidas como correlación intracuadros o correlación espacial, para proporcionar la compresión intracuadros en la cual las representaciones de movimiento dentro de un cuadro de imagen se comprimen aún más. La compresión intracuadros se basa en los procesos convencionales para comprimir imágenes fijas, tales como la codificación de la transformada de coseno discreta (DCT).

Aunque difieran en implementaciones específicas, los estándares de compresión de vídeo MPEG-1, MPEG-2 y H.26X comparten algunos aspectos parecidos. La siguiente descripción del estándar de compresión de vídeo MPEG-2 se puede aplicar normalmente al resto.

MPEG-2 ofrece compresión intercuadros y una compresión intracuadros basada en bloques cuadrados o matrices de píxeles en imágenes de vídeo. Una imagen de vídeo se divide en bloques de transformación que tienen dimensiones de 16x16 píxeles. Para cada bloque de transformación T_{N} en un cuadro de imagen N se realiza una búsqueda a través de la imagen de un cuadro de imagen N-1 inmediatamente precedente o también un cuadro de vídeo sucesivo N+1 posterior (es decir, bidireccional) para identificar los bloques de transformación T_{N} o T_{N+1} más parecidos.

Idealmente, y por lo que respecta a una búsqueda del siguiente cuadro de imagen sucesivo, los píxeles en los bloques de transformación T_{N} y T_{N+1} son idénticos, incluso si los bloques de transformación tienen diversas posiciones en sus respectivos cuadros de imagen. Bajo esas circunstancias, la información del píxel en el bloque de transformación T_{N} es redundante con respecto a la del bloque de transformación T_{N}. La compresión se alcanza sustituyendo la traslación posicional entre los bloques de transformación T_{N} y T_{N-1} para la información del píxel en el bloque de transformación T_{N-1}. En este ejemplo simplificado, se designa un solo vector de traslación (\DeltaX, \DeltaY) para la información de vídeo asociada a los 256 píxeles en el bloque de transformación T_{N-1}.

Con frecuencia, la información de vídeo (es decir, píxeles) en los correspondientes bloques de transformación T_{N} y T_{N-1} no son idénticos. La diferencia entre ellos se designa un error de bloque de transformación E, que a menudo es significativo. Aunque se comprima mediante un proceso de compresión convencional como la codificación de la transformada de coseno discreta (DCT), el error de bloque de transformación E es incómodo y limita el grado (cociente) y la precisión que permite la compresión de las señales de vídeo.

Los errores graves del bloque de transformación E se presentan en métodos de compresión de vídeo basados en bloques por diversas razones. La valoración de movimiento basada en bloques representa solamente el movimiento de traslación entre sucesivos cuadros de imagen. El único cambio entre los correspondientes bloques de transformación T_{N} y T_{N-1} que se puede representar son los cambios en las posiciones relativas de los bloques de transformación. Una desventaja de dichas representaciones es que las secuencias de vídeo dinámicas incluyen con frecuencia movimientos complejos diferentes de la traslación, como rotación, ampliación y recortado. La representación de dichos movimientos complejos con aproximaciones de traslación simples da lugar a errores significativos.

Otro aspecto de las pantallas de vídeo es que normalmente incluyen múltiples objetos o características de imagen que se mueven o cambian unos con respecto a otros. Los objetos pueden ser distintos personajes, artículos, o escenarios dentro de una pantalla de vídeo. Por lo qué respecta a una escena en una imagen en movimiento, por ejemplo, cada uno de los personajes (es decir, actores) y de los artículos (es decir, atrezzo) en la escena podría ser un objeto diferente.

El movimiento relativo entre los objetos en una secuencia de vídeo es otra fuente de los errores bloque de transformación E significativos en los procesos de compresión de vídeo convencionales. Debido a la configuración y tamaño habitual de los bloques de transformación, muchos de ellos abarcan partes de diversos objetos. El movimiento relativo entre los objetos durante cuadros de imagen sucesivos puede dar lugar a una correlación extremadamente baja (es decir, elevados errores de transformación E) entre los correspondientes bloques de transformación. Igualmente, el aspecto de las partes de los objetos en los sucesivos cuadros de imagen (por ejemplo, cuando un personaje se da la vuelta) también presenta elevados errores de transformación E.

Los métodos convencionales de compresión de vídeo aparecen estar intrínsecamente limitados debido al tamaño de los errores de transformación E. Con el aumento de la demanda de las capacidades de visualización de vídeo digital, se requieren procesos de compresión de vídeo digital mejorados.

Resumen de la invención

La presente invención incluye un proceso codificador de compresión de vídeo para comprimir señales de vídeo digitalizadas que representan el movimiento en secuencias de vídeo de múltiples cuadros de imagen. El proceso codificador utiliza la compresión de vídeo basada en objetos para mejorar la precisión y versatilidad de las características de imagen intracuadros y de movimiento intercuadros de codificación. La información de vídeo se comprime en relación con los objetos de configuraciones arbitrarias, en vez de fijas, matrices de píxeles habituales como en los métodos convencionales de compresión de vídeo. Esto reduce los componentes de error y por tanto, mejora la eficacia y precisión de compresión. Como ventaja adicional, la compresión de vídeo basada en objetos de esta invención proporciona las capacidades de edición interactiva de vídeo para procesar información de vídeo comprimida.

En una representación preferencial, el proceso o método de esta invención incluye la identificación de características de la imagen de configuración arbitraria en un primer cuadró de imagen de vídeo y la definición dentro de la característica de imagen de los múltiples y distintivos puntos de característica. Los puntos de característica de la característica de imagen en el primer cuadro de imagen de vídeo se correlacionan con los correspondientes puntos de característica de la característica de imagen en un siguiente segundo cuadro de imagen de vídeo, para así determinar una estimación de la característica de imagen en el segundo cuadro de imagen de vídeo. Una diferencia entre la característica de imagen estimada y la real en el segundo cuadro de imagen de vídeo viene determinada y codificada en un formato comprimido.

El proceso codificador de esta invención supera los defectos de los métodos convencionales de compresión de vídeo basados en bloques. El proceso codificador utiliza preferiblemente un método multidimensional de transformación para representar el trazado entre los objetos correspondientes en los sucesivos cuadros de imagen. Las dimensiones múltiples de la transformación hacen referencia al número de coordenadas en su forma generalizada. La transformación multidimensional es capaz de representar el movimiento complejo que incluye parte o la totalidad de la traslación, rotación, ampliación y recorte. En consecuencia, el movimiento complejo de los objetos entre sucesivos cuadros de imagen se puede representar con un margen de error de transformación relativamente bajo.

Otra fuente de error en los métodos de compresión convencionales de vídeo basados en bloques es el movimiento entre los objetos incluidos dentro de un bloque de transformación. La codificación o compresión de vídeo basada en objetos de esta invención elimina de manera sustancial el movimiento relativo entre los objetos dentro de los bloques de transformación. En consecuencia, el error de transformación que se origina a partir del movimiento entre objetos también disminuye sustancialmente. Los errores de transformación baja que se presentan del proceso codificador de esta invención le permiten proporcionar cocientes de compresión un 300% superior a los conseguidos con procesos codificadores anteriores como el MPEG-2.

Toda la información que antecede y las características y beneficios de la representación preferencial de la presente invención serán más evidentes una vez se exponga la siguiente descripción detallada, a la que le siguen unas ilustraciones adjuntas.

\newpage

Breve descripción de las figuras

La figura 1 es un diagrama por bloques de un ordenador que se puede utilizar para implementar un método y un aparato que incorpore la invención.

Las figuras 2A y 2B son representaciones simplificadas de la pantalla de un dispositivo de visualización de vídeo que muestra dos cuadros de imagen sucesivos correspondientes a una señal de vídeo.

La figura 3A es un diagrama por bloques funcional generalizado de un proceso codificador de compresión de vídeo para comprimir señales de vídeo digitalizadas que representan el movimiento en secuencias de vídeo de múltiples cuadros de imagen. La figura 3B es un diagrama por bloques funcional de un proceso codificador de objetos maestros según esta invención.

La figura 4 es un diagrama por bloques funcional de un proceso de segmentación de objetos para dividir objetos seleccionados de un cuadro de imagen en una secuencia de vídeo.

La figura 5A es una representación simplificada de la pantalla del dispositivo de visualización de vídeo de la figura 2 A, y la figura 5B es una representación ampliada de una porción de la pantalla de la figura 5A.

La figura 6 es un diagrama por bloques funcional de un proceso de correspondencia de polígono para determinar un vector de movimiento para los correspondientes pares de píxeles en objetos correspondientes en cuadros de imagen sucesivos.

Las figuras 7A y 7B son representaciones simplificadas de una pantalla que muestra dos cuadros de imagen sucesivos con dos objetos correspondientes.

La figura 8 es un diagrama por bloques funcional de un proceso alternativo de correlación de bloque de píxeles.

La figura 9A es una representación esquemática de un primer bloque de píxeles usado para identificar los píxeles correspondientes a diversos cuadros de imagen. La figura 9B es una representación esquemática de una matriz de píxeles que corresponde a un área de búsqueda en un cuadro de imagen anterior donde se buscan los píxeles correspondientes. Las figura 9C-9G son representaciones esquemáticas del primer bloque de píxeles que se ha explorado a través de la matriz de píxeles de la figura 9B para identificar los píxeles correspondientes.

La figura 10A es una representación esquemática de un segundo bloque de píxeles usado para identificar los píxeles correspondientes en diversos cuadros de imagen. Las figuras 10B-10F son representaciones esquemáticas del segundo bloque de píxeles que se ha explorado a través de la matriz de píxeles de la figura 9B para identificar los píxeles correspondientes.

La figura 11A es una representación esquemática de un tercer bloque de píxeles usado para identificar los píxeles correspondientes en diversos cuadros de imagen. Las figuras 11B-11F son representaciones esquemáticas del tercer bloque de píxeles que se ha explorado a través de la matriz de píxeles de la figura 9B.

La figura 12 es un diagrama por bloques funcional de un método de transformación multidimensional que incluye la generación de un trazado entre los objetos en primeros y segundos cuadros de imagen sucesivos y la cuantificación del trazado para la transmisión o el almacenamiento.

La figura 13 es una representación simplificada de una pantalla que muestra el cuadro de imagen de la figura 7B con el objeto de ilustrar el método de transformación multidimensional de la figura 12.

La figura 14 es una representación simplificada ampliada que muestra tres píxeles seleccionados de un bloque de transformación empleado en la cuantificación de coeficientes de transformación afines determinados por el método de figura 12.

La figura 15 es un diagrama por bloques funcional de un método de optimización del bloque de transformación empleado en una representación alternativa del método de transformación multidimensional de la figura 12.

La figura 16 es una representación simplificada fragmentada de una pantalla que muestra el cuadro de imagen de la figura 7B con el objeto de ilustrar el método de optimización del bloque de transformación de la figura 15.

Las figuras 17A y 17B son un diagrama por bloques funcional de un método de extrapolación de precompresión para extrapolar características de imagen de una configuración arbitraria a una configuración predefinida para facilitar la compresión.

Las figuras 18A-18D son representaciones de una pantalla en la cual un objeto simple se renderiza para mostrar varios aspectos del método de extrapolación de la figura 14.

\newpage

Las figuras 19A y 19B son diagramas por bloques funcionales de un método codificador y un método descodificador, respectivamente, empleando un método codificador en pirámide laplaciano de acuerdo con esta invención.

Las figuras 20A-20D son representaciones simplificadas de los valores del componente de color de un conjunto o matriz arbitrario de píxeles procesados de acuerdo con el proceso codificador de la figura 19A.

La. figura 21 es un diagrama por bloques funcional de un proceso codificador de vector de movimiento según esta invención.

La figura 22 es un diagrama por bloques funcional de un proceso alternativo codificador-descodificador del objeto cuantificado.

La figura 23A es un diagrama por bloques funcional generalizado de un proceso descodificador de compresión de vídeo emparejado con el proceso codificador de la figura 3. La figura 23B es un diagrama funcional de un proceso descodificador de objetos maestros según esta invención.

La figura 24A es una representación diagramática de un formato convencional de código de cadena. La figura 24B es una representación simplificada de un ejemplo de contorno para el procesado con el formato de código de cadena de la figura 24A.

La figura 25A es un diagrama por bloques funcional de un proceso de codificación de cadena de esta invención.

La figura 25B es una representación diagramática de un formato del código de cadena de la presente invención.

La figura 25C es una representación diagramática de modificaciones del código de cadena de casos especiales usada en el proceso de la figura 25A.

La figura 26 es un diagrama por bloques funcional de un proceso de generación o codificación de sprites.

Las figuras 27A y 27B son primeros y segundos objetos definidos por mapa de bits que muestran parrillas de triángulos superpuestos sobre los objetos de acuerdo con el proceso de la figura 26.

La figura 28 es un diagrama por bloques funcional de un proceso de descodificación de sprites que corresponde al proceso de codificación de la figura 26.

Descripción detallada de las representaciones preferentes

Por lo que respecta a la figura 1, las condiciones de funcionamiento de la representación preferencial de la presente invención es un sistema informático 20, ya sea para fines generales o específicos, que incluya al menos una unidad central de procesamiento (CPU) de alta velocidad 22, junto con un sistema de memoria 24, un dispositivo de entrada 26, y un dispositivo de salida 28. Estando estos elementos interconectados mediante una estructura de bus 30.

La CPU 22 ilustrada es de un diseño familiar e incluye un ALU 32 para realizar cómputos, una colección de registros 34 para el almacenamiento de datos e instrucciones . temporales, y una unidad de control 36 para controlar el funcionamiento del sistema 20. La CPU 22 puede ser un procesador con una arquitectura de entre una gran variedad que incluye Alpha de Digital, MIPS de MIPS Technology, NEC, IDT, Siemens, y otras, x86 de Intel y otros, incluida Cyrix, AMD, y Nexgen, y el PowerPC deJBM y Motorola.

El sistema de memoria 24 incluye memoria principal 38 y almacenamiento secundario 40. La memoria principal 38 que se ilustra toma la forma de 16 megabytes de memoria RAM basada en semiconductores. El almacenamiento secundario 40 toma la forma de almacenamiento de larga duración, como discos ópticos o magnéticos ROM, memoria Flash, o cinta. Los expertos en la materia apreciarán que el sistema de memoria 24 puede incluir muchos otros componentes alternativos.

Los dispositivos 26,28 de entrada y salida son también conocidos.,El dispositivo de entrada 26 puede incluir un teclado, ratón, transductor físico (por ejemplo, un micrófono), etc. El dispositivo de salida 28 puede abarcar una pantalla, impresora, transductor (por ejemplo, un altavoz), etc. Algunos dispositivos, tales como un interfaz de red o un módem, se pueden utilizar como dispositivos de entrada y/o salida.

Tal y como será de apreciación por parte ,de aquellos expertos en la materia, el sistema informático 20 incluye además un sistema operativo y al menos un programa de aplicación. El sistema operativo consiste en un software capaz de controlar la distribución y funcionamiento de los recursos del sistema informático. El programa de aplicación es el software que realiza una tarea deseada por el usuario, recurriendo a los recursos del ordenador disponibles a través del sistema operativo. Ambos son residentes en el sistema de memoria ilustrado 24.

De acuerdo con las prácticas de las personas expertas en la materia de la programación informática, a continuación se describe la presente invención en relación a las representaciones simbólicas de las operaciones que realiza el sistema informático 20, a menos que se indique lo contrario. Dichas operaciones se refieren a veces como ejecutadas mediante ordenador. Como se aprecia, las operaciones que se representan simbólicamente incluyen la manipulación mediante CPU 22 de las señales eléctricas que representan los bits de datos y el mantenimiento de los bits de datos en ubicaciones de memoria del sistema de memoria 24, así como otro procesamiento de señales. Las ubicaciones de memoria en donde se mantienen los bits de datos son las ubicaciones físicas que tienen unas características eléctricas, magnéticas u ópticas concretas que se corresponden con los bits de datos.

Las figuras 2A y 2B son representaciones simplificadas de una pantalla 50 de un dispositivo de visualización de vídeo 52 (por ejemplo, una televisión o un monitor de ordenador) en donde se muestran dos cuadros de imagen sucesivos 54a y 54b de una secuencia de imágenes de vídeo representada electrónicamente mediante la señal de vídeo correspondiente. Las señales de vídeo pueden estar en cualquiera de una variedad de formatos de señal de vídeo incluidos formatos de vídeo de televisión analógica como NTSC, PAL y SECAM, y formatos de señales de vídeo pixeladas o digitalizadas que normalmente se emplean en pantallas de ordenador como VGA, CGA, y EGA. Preferiblemente, las señales de vídeo correspondientes a los cuadros de imagen son de un formato de señal de vídeo digitalizada, ya sea tal y como se generó originalmente o de la conversión desde un formato de señal de vídeo analógica tal y como sabemos por la técnica.

Los cuadros de imagen 54a y 54b incluyen cada uno una característica de imagen sólida rectangular 56 y una característica de imagen piramidal 58 ubicadas sobre un fondo 60. Las características de imagen 56 y 58 en los cuadros de imagen 54a y 54b tienen diversos aspectos debido a que se oscurecen y muestran distintas partes. Con objeto de la descripción especificada a continuación, se alude a la forma particular de una característica de imagen en un cuadro de imagen como un objeto o, alternativamente, como una máscara. Por consiguiente, se muestra una característica de imagen sólida rectangular 56 como objetos rectangulares sólidos 56a y 56b en sus respectivos cuadros de imagen 54a y 54b, y se muestra una característica de imagen piramidal 58 como objetos 58a y 58b piramidales en sus respectivos cuadros de imagen 54a y 54b.

La característica de imagen piramidal 58 se muestra con la misma posición y orientación en los cuadros de imagen 54a y 54b y se mostraría sin movimiento al visualizarse en la secuencia de vídeo. El sólido rectangular 56 se muestra en los cuadros 54a y 54b con una orientación y posición diferente con respecto a la pirámide 58 y se mostraría como si estuviera en movimiento y rotando con respecto a la pirámide 58 al visualizarse en la secuencia de vídeo. Estos aspectos de las características de imagen 58 y 60 son figurados y exagerados. Los cuadros de imagen de una secuencia de vídeo se visualizan normalmente a velocidades dentro del rango de 30-80 Hz La percepción del ojo humano del movimiento de vídeo normalmente requiere más de dos cuadros de imagen. Los cuadros de imagen 54a y 54b proporcionan, por tanto, una representación simplificada de una secuencia de vídeo convencional con el objeto de ilustrar la presente invención. Por otra parte, como se aprecia, la presente invención no está limitada de ninguna manera a dichas imágenes de vídeo, características de imagen o secuencias simplificadas, sino que por el contrario, son de aplicación a las imágenes y secuencias de vídeo de complejidad arbitraria.

Descripción del proceso codificador de compresión

La figura 3A es un diagrama por bloques funcional generalizado de un proceso codificador de compresión de vídeo 64 para comprimir señales de vídeo digitalizadas que representan el movimiento en secuencias de vídeo de múltiples cuadros de imagen. La compresión de la información de vídeo (es decir, las secuencias o señales de vídeo) puede proporcionar almacenamiento y transmisión económicos de la información de vídeo digital en aplicaciones como por ejemplo, aplicaciones informáticas multimedia y aplicaciones de televisión digital o interactiva. Con objeto de ser lo más concisos posible, los números de referencia asignados a los bloques de función: del proceso codificador 64 se intercambian. en relación a los resultados generados por los bloques de función.

Las técnicas convencionales de compresión de vídeo utilizan similitudes entre los cuadros de imagen sucesivos, denominado correlación intercuadros o temporal para ofrecer la compresión intercuadros en que las representaciones de los cuadros de imagen basadas en píxeles son convertidas en representaciones de movimiento. Además, las técnicas de compresión de vídeo convencionales se sirven de similitudes dentro de los cuadros de imagen, conocido como correlación intracuadros o correlación espacial para proporcionar la compresión intracuadros en la cual las representaciones de movimiento dentro de un cuadro de imagen se comprimen aún más.

En tales técnicas de compresión de vídeo convencionales tales como MPEG-1, MPEG-2, y H.26X, las correlaciones temporales y espaciales vienen determinadas en relación con traslaciones simples de matrices de píxeles fijas, regulares (por ejemplo, un cuadrado). Sin embargo, la información de vídeo incluye comúnmente movimiento de vídeo arbitrario que no puede representarse con precisión trasladando matrices cuadradas de píxeles. Por consiguiente, las técnicas de compresión de vídeo convencionales incluyen normalmente componentes de error significativos que limitan la velocidad y precisión de compresión.

En cambio, el proceso codificador 64 utiliza la compresión de vídeo basada en objetos para mejorar la precisión y versatilidad de las características de imagen intracuadros y de movimiento intercuadros de la codificación. El proceso codificador 64 comprime la información de vídeo relativa a los objetos de configuraciones arbitrarias, en vez de matrices de píxeles fijas y regulares. Esto reduce los componentes de error y por tanto, mejora la eficacia y precisión de compresión. Como ventaja adicional, la compresión de vídeo basada en objetos proporciona las capacidades de edición interactiva de vídeo para procesar información de vídeo comprimida.

Por lo que respecta a la figura 3A, el bloque de función 66 indica que los objetos definidos por el usuario dentro de los cuadros de imagen de una secuencia de vídeo están divididos a partir de otros objetos dentro de los cuadros de imagen. Los objetos pueden tener una configuración arbitraria y representar preferiblemente distintas características de imagen en una imagen de pantalla. La segmentación incluye la identificación de los píxeles en los cuadros de imagen correspondientes a los objetos. Los objetos definidos por el usuario se definen en cada uno de los cuadros de imagen de la secuencia de vídeo. En las figuras 2A y 2B, por ejemplo, los objetos sólidos rectangulares 56a y 56b del sólido y los objetos piramidales 58a y 58b se dividen por separado.

Los objetos divididos se representan mediante máscaras "alphachannel" binarias o de múltiples bits (por ejemplo, 8 bits) de los objetos. Las máscaras de objeto indican la configuración, el tamaño y la posición de un objeto sobre una base de píxel por píxel. Con objeto de ser lo más concisos posible, la siguiente descripción se dirige a las máscaras binarias en las que cada píxel del objeto se representa por un bit binario suelto en vez de los típicos 24 bits (es decir, 8 bits para cada uno de valores de componente tricolor). También se han utilizado máscaras de múltiples bits (por ejemplo, de 8 bits).

El bloque de función 68 indica que los "puntos de característica" de cada objeto están definidos por un usuario. Los puntos de característica son preferiblemente rasgos distintivos o aspectos del objeto. Por ejemplo, las esquinas 70a-70c y las esquinas 72a-72c definidas por un usuario como puntos de característica del sólido rectangular 56 y sólido piramidal 58, respectivamente. Los píxeles correspondientes a cada máscara de objeto y sus puntos de característica en cada cuadro de imagen se almacenan en una base de datos de objetos incluida en el sistema de memoria 24.

El bloque de función 74 indica que los cambios en las posiciones de los puntos de característica de los cuadros de imagen sucesivos están identificados y las trayectorias vienen determinadas para los puntos de característica entre los cuadros de imagen sucesivos. Las trayectorias representan la dirección y el alcance del movimiento de los puntos de característica. El bloque de función 76 indica que las trayectorias de los puntos de característica en el objeto, entre el cuadro anterior N-1 y el cuadro actual N también se recuperan de la base de datos de objetos.

El bloque de función 78 indica que una transformación de movimiento escaso viene determinada por el objeto entre el cuadro anterior N-1 y el cuadro actual N. La transformación de movimiento escaso se basa en las trayectorias de los puntos de característica entre los cuadros N-1 y N. La transformación de movimiento escaso proporciona una aproximación del cambio del objeto entre el cuadro anterior N-1 y el cuadro actual N.

El bloque de función 80 indica que una máscara de un objeto en un cuadro actual N se recupera de la base de datos de objetos del sistema de memoria 24.

El bloque de función 90 indica que un "sprite" u objeto maestro cuantificado está formado por los objetos o las máscaras 66 correspondientes a una característica de imagen en una secuencia del cuadro de imagen y trayectorias del punto de característica 74. El objeto maestro incluye preferiblemente todos los aspectos o características de un objeto tal y como se representa en múltiples cuadros. En cuanto a las figuras 2A y 2B, por ejemplo, el sólido rectangular 56 en el cuadro 54b incluye un lado 78b que no se muestra en el cuadro 54a. Igualmente, el sólido rectangular 56 incluye un lado 78 a en el cuadro 54a que no se muestra en el cuadro 54b. El objeto maestro para el sólido rectangular 56 incluye ambos lados 78a y 78b.

La transformación de movimiento escaso 78 normalmente no proporcionará una representación completa del cambio en el objeto entre los cuadros N-1 y el N. Por ejemplo, un objeto, en un cuadro anterior N-1, como un objeto rectangular 54a, no podría incluir todas las características del Objeto en el cuadro actual N, tal y como el lado 78b del objeto rectangular 54b.

Para mejorar la precisión de transformación, por tanto, se determina una intersección de las máscaras del objeto en el cuadro anterior N-1 y el cuadro actual N, por ejemplo mediante una función de lógica AND, tal y como sabemos por la técnica. La máscara del objeto en el cuadro actual N se resta de la intersección resultante para identificar todas las porciones o características del objeto en el cuadro actual N no incluidas en el objeto del cuadro anterior N-1 (por ejemplo, el lado 78b del objeto rectangular 54b, como se describe anteriormente). Las porciones recién identificadas del objeto se incorporan al objeto maestro 90 de modo que incluya una representación completa del objeto en los cuadros N-1 y N.

El bloque de función 96 indica que una forma cuantificada de un objeto 98 en un cuadro anterior N-1 (por ejemplo, objeto sólido rectangular 56a en el cuadro de imagen 54a) se transforma mediante una transformación de movimiento denso para proporcionar una forma prevista del objeto 102 en un cuadro actual N (por ejemplo, objeto sólido rectangular 56b en el cuadro de imagen 54b). Esta transformación proporciona la compresión intercuadros basada en objetos.

La transformación de movimiento denso incluye preferiblemente la determinación de una transformación afín entre el objeto anterior cuantificado 98 en el cuadro N-1 y el objeto en el cuadro actual N, así como la aplicación de una transformación afín al objeto anterior cuantificado 98. La transformación afín preferencial se representa mediante coeficientes de transformación afín 104 y es capaz de describir la traslación, rotación, ampliación, y recorte. La transformación afín se determina a partir de una valoración de movimiento denso, preferiblemente que incluya una trazado píxel por píxel, entre el objeto cuantificado anterior 98 y el objeto del cuadro actual N.

El objeto actual previsto 102 viene representado por el objeto anterior cuantificado 98, modificado por la transformación de movimiento denso 96, y que es capaz de representar el movimiento relativamente complejo, junto con cualquier nuevo aspecto de la imagen obtenido a partir del objeto maestro 90. Dichas representaciones basadas en objetos son relativamente precisas, porque la continuidad perceptiva y espacial asociada a los objetos elimina los errores causados por las relaciones normalmente cambiantes entre los diversos objetos en los diferentes cuadros de imagen. Por otra parte, las representaciones basadas en objetos permiten a un usuario representar diversos objetos con diferentes niveles de resolución para optimizar la eficacia relativa y la precisión para representar objetos de complejidad variable.

El bloque de función 106 indica que para el cuadro de imagen N se resta el objeto actual previsto 102 del objeto original 108 para el cuadro actual N con el fin de determinar un error estimado 110 en el objeto previsto 102. El error estimado 110 es una representación comprimida del objeto actual 108 en el cuadro de imagen N relativo al objeto anterior cuantificado 98. Más concretamente, el objeto actual 108 se puede descodificar o reconstruir a partir del error estimado 110 y del objeto anterior cuantificado 98.

El bloque de función 112 indica que el error estimado 110 es comprimido o "codificado" mediante un método convencional de compresión de imágenes fijas con pérdida, como la compresión o codificación por wavelets o de sub-banda reticular, de acuerdo con lo descrito en Multirate Systems and Filter Banks de Vaidyanathan, PTR Prentice-Hall, Inc., Englewood Cliffs. New Jersey, (1993) o la codificación de transformada de coseno discreta (DCT) según lo descrito en JPEG: Still Image Data Compression Standard de Pennebaker y otros, Van Nostrand Réinhold, Nueva York (1993).

Tal y como sabemos por la técnica, los métodos de compresión con pérdida introducen la distorsión de datos para proporcionar una compresión de datos mejorada. La distorsión de datos se refiere a variaciones entre los datos originales antes de compresión y los datos como resultado de la compresión y descompresión. Con objeto de ilustrar cuanto sigue, la compresión o la codificación del bloque de función 102 se supone que es codificación por wavelets.

El bloque de función 114 indica que el error estimado codificado por wavelets del bloque de función 112 se comprime o "codifica" aún más mediante un método de compresión "sin pérdidas", convencional de imágenes fijas para formar los datos comprimidos 116. Un método convencional de compresión "sin pérdidas" de imágenes fijas es la codificación entrópica tal y como se describe en JPEG: Still Image Data Compression Standard de Pennebaker y otros. Tal y como sabemos por la técnica, los métodos de compresión "sin pérdidas" no introducen ninguna distorsión de datos.

Un bucle de realimentación de error 118 utiliza el error estimado codificado por wavelets del bloque de función 112 para el objeto en el cuadro N con el fin de obtener un objeto cuantificado anterior para el cuadro sucesivo N+1. Como primer paso en el bucle de realimentación 118, el bloque de función 120 indica que el error estimado codificado por wavelets del bloque de función 112 se ha codificado inversamente por wavelets o descodificado por wavelets para formar un error cuantificado 122 para el objeto en el cuadro de imagen N.

El efecto de codificar y descodificar sucesivamente un error estimado 110 mediante un método de compresión de imágenes fijas con pérdida es la omisión del error cuantificado 122 la información de vídeo que normalmente no es perceptible por los espectadores. Esta información está normalmente asociada a frecuencias más altas. En consecuencia, la omisión de dichos componentes de alta frecuencia puede proporcionar normalmente compresión de imágenes de hasta cerca del 200% con una degradación mínima de la calidad de la imagen.

El bloque de función 124 indica que el error cuantificado 122 y el objeto previsto 102, ambos para el cuadro de imagen N, se han añadido juntos para formar un objeto cuantificado 126 para el cuadro de imagen N. Después de un retraso de coordinación de la sincronización 128, el objeto cuantificado 126 se convierte en el objeto anterior cuantificado 98 y se utiliza como la base para procesar el objeto correspondiente en el cuadro de imagen N+1.

El proceso codificador 64 utiliza la correlación temporal de los objetos correspondientes en cuadros de imagen sucesivos para obtener una compresión intercuadros mejorada, y también utiliza la correlación espacial dentro de los objetos para obtener una compresión intracuadros precisa y eficiente. Para la compresión intercuadros, se realiza una estimación y compensación del movimiento de modo que un objeto definido en un cuadro pueda estimarse en cuadros sucesivos. La estimación basada en movimientos del objeto en el cuadro sucesivo requiere de bastante menos información que una representación convencional del objeto basada en bloques. Para la compresión intracuadros, se comprime una señal de error estimada para cada objeto con el fin de utilizar la correlación espacial del objeto dentro de un cuadro y permitir la representación de diferentes objetos en diversas resoluciones. El bucle de realimentación 118 permite la previsión de objetos en cuadros posteriores a partir de objetos completamente descomprimidos, para evitar de este modo la acumulación de un error de estimación.

El proceso codificador 64 proporciona como salida una representación comprimida o codificada de una señal de vídeo digitalizada que representa el movimiento en pantalla en las secuencias de vídeo de múltiples cuadros de imagen. La representación comprimida o codificada incluye máscaras de objeto. 66, puntos de característica 68, coeficientes de transformación afines 104, y datos de error comprimidos 116. La representación codificada se puede almacenar o transmitir, según la aplicación concreta en la cual se utiliza la información vídeo.

La figura 3B es un diagrama por bloques funcional de un proceso codificador de objetos maestros 130 para la codificación o compresión del objeto maestro 90. El bloque de función. 132 indica que el objeto maestro 90 es comprimido o codificado mediante un método convencional de compresión de imágenes fijas con pérdida, como la compresión por wavelets o sub-banda reticular o codificación de transformada de coseno discreta (DCT). Preferiblemente, el bloque de función 132 emplea la codificación por wavelets.

El bloque de función 134 indica que el objeto maestro codificado por wavelets del bloque de función 132 se comprime o codifica aún más mediante un método de compresión de imágenes fijas "sin pérdidas" convencional para formar datos de objetos maestros comprimidos 136. Un método convencional de compresión "sin pérdidas" de imágenes fijas es la codificación entrópica.

El proceso codificador 130 proporciona como salida un objeto maestro comprimido 136. Junto con las representaciones comprimidas o codificadas proporcionadas por el proceso codificador 64, el objeto maestro comprimido 136 se puede descomprimir o descodificar tras el almacenamiento o la transmisión para obtener una secuencia de vídeo de múltiples cuadros de imagen.

El proceso codificador 64 se describe en referencia a la información de vídeo de la codificación correspondiente a un solo objeto dentro de un cuadro de imagen. Según las indicaciones de las figuras 2A y 2B y lo que se indica anteriormente, el proceso codificador 64 se realiza por separado para cada uno de los objetos (por ejemplo, objetos 56 y 58 de las figuras 2A y 2B) en un cuadro de imagen. Por otra parte, muchas imágenes de vídeo incluyen un fondo sobre el cual se renderizan los números arbitrarios de características de imagen u objetos. Preferiblemente, se procesa el fondo como un objeto de acuerdo con esta invención una vez procesados todos los objetos designados por
el usuario.

El procesado de los objetos en un cuadro de imagen requiere que los objetos estén identificados por separado. Preferiblemente, el proceso codificador 64 se aplica a los objetos de un cuadro de imagen comenzando por el objeto u objetos que estén delante del todo y siguiendo con el que esté atrás del todo (por ejemplo, el fondo). La composición de los objetos codificados en una imagen de vídeo procede preferiblemente del objeto que esté más atrás del todo (por ejemplo, el fondo) siguiendo sucesivamente con el que esté más adelante del todo (por ejemplo, el sólido rectangular 56 de las figuras 2A y 2B). La estratificación de los objetos de codificación se puede comunicar como datos de estratificación distintivos que se asocian a los objetos de un cuadro de imagen o, alternativamente, transmitiendo u obteniendo los objetos codificados en una secuencia correspondiente a la secuencia de estratificación o composición.

\vskip1.000000\baselineskip

Segmentación y seguimiento del objeto

En una representación preferencial, la segmentación de los objetos dentro de los cuadros de imagen mencionados en el bloque de función 66 permite una segmentación interactiva por parte de los usuarios. La segmentación del objeto de esta invención proporciona una precisión mejorada en la segmentación de objetos y es relativamente rápida proporcionando a los usuarios flexibilidad óptima a la hora de definir los objetos que se han de segmentar.

La figura 4 es un diagrama por bloques funcional de un proceso de segmentación de objetos 140 para dividir objetos seleccionados de un cuadro de imagen en una de secuencia de vídeo. La segmentación del objeto según el proceso 140 proporciona un agrupamiento perceptivo de objetos que puede definirse fácil, rápidamente y con precisión por los usuarios.

La figura 5A es una representación simplificada de la pantalla 50 del dispositivo de visualización de vídeo 52 que muestra el cuadro de imagen 54a y la segmentación del objeto sólido rectangular 56a. En su renderización en la pantalla de visualización 50, el objeto sólido rectangular 56a incluye un perímetro de objeto 142 (mostrado apartado del objeto 56a para mayor claridad) que delimita un interior de objeto 144. El interior de objeto 144 se refiere al contorno del objeto 56a que aparece en la pantalla de visualización 50 y en general puede corresponder a una superficie interior o, como se muestra, a una superficie exterior de la característica de imagen. La figura 5B es una representación ampliada de una porción de pantalla de visualización 50 que muestra la segmentación semiautomática del objeto sólido rectangular 56a. La siguiente descripción hace referencia específicamente al objeto sólido rectangular 56a, pero también puede aplicarse a cada objeto que se ha de dividir de un cuadro de imagen.

El bloque de función 146 Índica que un usuario da forma dentro del interior del objeto 144 a un contorno interior 148 del perímetro del objeto 142. El usuario da forma preferiblemente al contorno interior 148 con un puntero convencional o un dispositivo de control cursor, como un ratón o la bola de control del cursor. El contorno interior 148 se forma dentro de una distancia nominal 150 del perímetro del objeto 142. La distancia nominal 150 se seleccionada por un usuario para que sea lo suficientemente grande para que el usuario pueda dar forma relativamente rápido al contorno interior 148 dentro de la distancia nominal 150 del perímetro 142. La distancia nominal 150 se corresponde, por ejemplo, a entre aproximadamente 4 y 10 píxeles.

El bloque de función 146 se realiza con respecto a un cuadro clave de una secuencia de vídeo. Por lo que respecta a una escena en una imagen en movimiento convencional, por ejemplo, el cuadro clave podría ser el primer cuadro de múltiples cuadros de una escena. La participación del usuario en esta función hace que el proceso de segmentación del objeto 140 sea semiautomático, pero aumenta notablemente la precisión y flexibilidad con la que los objetos se dividen. Con excepción del cuadro clave, los objetos en los siguientes cuadros de imagen se dividen automáticamente tal y como se describe a continuación en más detalle.

El bloque de función 152 indica que el contorno interior 148 se amplía automáticamente para dar forma a un contorno exterior 156. La formación del contorno exterior 156 se realiza como una ampliación de imagen relativamente simple del contorno 148 de modo que el contorno exterior 156 sea un número de píxeles definido por el usuario del contorno interior 148. Preferiblemente, la distancia entre el contorno interior 148 y el contorno exterior 156 es aproximadamente dos veces la distancia 150.

El bloque de función 158 indica que los píxeles entre el contorno interior 148 y el contorno exterior 156 están clasificados según cualidades predefinidas con respeto a si están dentro del interior del objeto 144, para identificar automáticamente el perímetro del objeto 142 y una correspondiente máscara 80 del tipo descrito con referencia a la figura 3 . A. Preferiblemente, las cualidades de la imagen incluyen color y la posición del píxel, pero cualquier cualidad se podría utilizar por separado o con otras cualidades.

En la representación preferencial, cada uno de los píxeles en el contorno interior 148 y el contorno exterior 156 definen un "centro de la agrupación" representado como un vector de cinco dimensiones bajo la forma de (r, g, b, x, y). Los términos r, g, y b corresponden a los colores rojo, verde, y azul respectivamente asociados a cada uno de los píxeles, y los términos x e y corresponden a las ubicaciones del píxel. El número m de vectores del centro de la agrupación correspondiente a los píxeles en el contorno interior 148 se denota como {I_{0}, I_{i}, I_{m-i}} y el número n de vectores del centro de la agrupación correspondiente a píxeles en el contorno exterior 156 se denota como {O_{0}, O_{i} ...., O_{n-1}}.

Los píxeles entre los vectores del centro de la agrupación I_{i} y O_{j} se clasifican al identificar el vector al cual cada píxel está más cerca en el espacio vectorial de cinco dimensiones. Para cada píxel, la distancia d_{i} y d_{j} absoluta a cada uno de los vectores I_{i} y O_{j} del centro de la agrupación se calcula según las ecuaciones siguientes:

100

donde W_{color} y W_{coord} son factores de ponderación para la información de la posición del píxel y el color. Los factores de ponderación W_{color} y W_{coord} tienen valores cuya suma equivale a 1 o bien que puedan seleccionarse por el usuario. Preferiblemente, los factores de ponderación W_{color} y W_{coord} tienen el mismo valor de 0,5. Cada píxel se asocia al interior del objeto 144 o al exterior según la distancia mínima pentadimensional a uno de los vectores I_{j} y O_{j} del centro de la agrupación.

\vskip1.000000\baselineskip

El bloque de función 162 indica que un usuario selecciona por lo menos dos, y preferible más (por ejemplo 4 a 6) puntos de característica en cada objeto de un cuadro inicial o clave. Preferiblemente, los puntos de característica son aspectos relativamente distintivos del objeto. En cuanto a la característica de imagen del sólido rectangular 56, por ejemplo, las esquinas 70a-70c podrían seleccionarse como puntos de característica.

El bloque de función 164 indica que un bloque de múltiples píxeles 166 centrados cerca de cada punto de característica seleccionado (por ejemplo, esquinas 70a-70c) está definido y emparejado con un bloque correspondiente en un cuadro de la imagen posterior (por ejemplo, el siguiente cuadro de imagen sucesivo). El bloque de píxeles 166 está definido por el usuario, pero incluye preferiblemente una matriz de 32 x 32 píxeles que contiene solamente los píxeles dentro del interior de la imagen 144. Cualquier píxel 168 (indicado con rayitas cruzadas) del bloque de píxeles 166 fuera del interior del objeto 144 según determine el bloque de función 158 (por ejemplo, esquinas 70b y 70c) se omite. Los bloques de píxeles 166 se emparejan con los bloques de píxeles correspondientes en el siguiente cuadro de imagen según un error absoluto mínimo identificado por un proceso de correspondencia de bloques convencional o un proceso de correspondencia del polígono, como se describe más abajo en detalle.

El bloque de función 170 indica que una escasa transformación del movimiento de un objeto viene determinada por los puntos de característica correspondientes en dos cuadros de imagen sucesivos. El bloque de función 172 indica que la máscara 80 del cuadro de imagen actual está transformada según la transformación de movimiento escaso para proporcionar una estimación de la máscara 80 para el siguiente cuadro de imagen. Se descarta cualquier punto de característica en un cuadro actual no identificado en un cuadró de imagen sucesivo.

El bloque de función 174 indica que la estimación, resultante de la máscara 80 para el siguiente cuadro de imagen lleva un retraso de un cuadro, y funciona como un contorno 176 del siguiente ciclo sucesivo. Igualmente, el bloque defunción 178 indica que los correspondientes puntos de característica también se retrasan un cuadro, y se utilizan como los puntos iniciales de característica 180 para el siguiente cuadro sucesivo.

Método de correspondencia de polígono

La figura 6 es un diagrama por bloques funcional de un proceso de correspondencia de polígono 200 para determinar un vector de movimiento para los correspondientes pares de píxeles en cuadros de imagen sucesivos. Una determinación de vector de movimiento denso proporciona la base para determinar las transformaciones de movimiento denso 96 de la figura 3A.

El proceso de correspondencia de polígono 200 es capaz de determinar el amplio movimiento entre los sucesivos cuadros de imagen como el proceso de correspondencia del bloque convencional. Sin embargo, en contraste con el proceso de correspondencia del bloque convencional, el proceso de correspondencia de polígono 200 mantiene su precisión para los píxeles ubicados cerca o en el perímetro del objeto y genera significativamente un error menor. Una representación preferencial del método de correspondencia de polígono 200 ha mejorado la eficacia computacional.

Él método del bloque del polígono 200 se describe en relación a las figuras 7A y 7B, que son representaciones simplificadas de la pantalla de visualización 50 que muestra dos cuadros sucesivos de imagen 202a y 202b en los cuales una característica de imagen 204 se renderiza como los objetos 204a y 204b, respectivamente.

El bloque de función 206 indica que los objetos 204a y 204b para los cuadros de imagen 202a y 202b están identificados y divididos, por ejemplo, mediante el método de segmentación de objetos 140.

El bloque de función 208 indica que las dimensiones son determinadas mediante un bloque 210b (por ejemplo, píxeles 15x15) que se aplica al objeto 204b y un área de búsqueda 212 del objeto 204a. El bloque de píxeles 210b define una región de cada píxel en el objeto 204b para cuya región se identifica un bloque de píxeles correspondientes 210a en el objeto 204a. El área de búsqueda 212 establece una región dentro de la cual se busca el bloque de píxeles correspondientes 210a. Preferiblemente, el bloque de píxeles 210b y el área de búsqueda 212 son matrices regulares rectas de píxeles y de tamaños definidos por el usuario.

El bloque de función 214 indica que un píxel inicial 216 en el objeto 204b se ha identificado y designado el píxel actual. El píxel inicial 216 puede estar definido por una variedad de criterios como el píxel en la ubicación de mayor alcance vertical y de menor alcance horizontal. Con los píxeles en la pantalla de visualización 50 dispuestos según un eje de coordenadas 220 tal y como se muestra, el píxel inicial 216 puede representarse como el píxel del objeto 214b con un valor de la coordenada y máximo, y con un valor de la coordenada x mínimo.

El bloque de función 222 indica que el bloque de píxeles 210b está centrado en el píxel actual y se extiende alrededor del mismo.

El bloque de función 224 representa una averiguación en cuanto a si el bloque de píxeles 210b abarca píxeles que no están incluidos en el objeto 204b (por ejemplo, los píxeles 226 mostrados mediante sombreado a rayas en la figura 7B). Esta averiguación se realiza en relación a los objetos identificados según el bloque de función 206. Cuando los píxeles dentro del bloque de píxeles 210b colocado en el píxel actual están fuera del objeto 204b, el bloque de función 224 procede hasta el bloque de función 228 y si no procede hasta el bloque de función 232.

El bloque de función 228 indica que los píxeles del bloque de píxeles 210b que están fuera del objeto 204b (por ejemplo, los píxeles 226) sean omitidos de la región definida por el bloque de píxeles 210b de modo que incluya solamente los píxeles dentro del objeto 204b. En consecuencia, el bloque de píxeles 210b define una región, que normalmente sería de una forma poligonal más compleja que la región cuadrada o rectangular originalmente definida.

El bloque de función 232 indica que un píxel en el objeto 204a se ha identificado como correspondiente al píxel actual en el objeto 204b. El píxel en el objeto 204a se refiere como el píxel correspondiente anterior. Preferiblemente, el píxel correspondiente anterior es identificado formando un bloque de píxeles 210a sobre cada píxel en el área de búsqueda 212 y determinando una correlación entre el bloque de píxeles 210a y el bloque de píxeles 210b sobre el píxel actual en el objeto 204b. Cada correlación entre los bloques de píxeles 210a y 210b puede determinarse, por ejemplo, por un error absoluto. El correspondiente píxel anterior se identifica mediante la identificación del bloque de píxeles 210a en el área de búsqueda 212 para la cual se ha minimizado el error absoluto relativo al bloque de píxeles 210b. Puede determinarse un error absoluto sumado E para un bloque de píxeles 210b en relación con el bloque de píxeles 210a como:

101

donde los términos r_{ij}, g_{ij} y b_{ij} corresponden a los colores rojo, verde, y azul respectivamente asociados a cada uno de los píxeles del bloque de píxeles 210b mientras que los términos r_{ij}', g_{ij}' y b_{ij}' corresponden a los colores rojo, verde, y azul respectivamente asociados a cada uno de los píxeles del bloque de píxeles 210a.

\vskip1.000000\baselineskip

Según lo dispuesto anteriormente, las sumas para el error absoluto E implican que los-bloques de píxeles tengan matrices de píxeles con dimensiones de píxeles de mxn. Los bloques de píxeles 210b de configuración poligonal se alojan de forma relativamente sencilla, mediante la definición de los valores cero para los componentes de color de todos los píxeles fuera de los bloques de píxeles poligonales 210b.

El bloque de función 234 indica que se determina un vector MV de movimiento entre cada píxel en el objeto 204b y el correspondiente píxel anterior en el objeto 204a. Un vector de movimiento viene definido por la diferencia entre las ubicaciones del píxel en el objeto 204b y el correspondiente píxel anterior en el objeto 204a:

102

donde los términos x_{i} e y_{i}' corresponden a las respectivas posiciones de las coordenadas x e y del píxel en el bloque de píxeles 210b, mientras que los términos x_{k}' e y_{j}', corresponden a las respectivas posiciones de las coordenadas x e y del correspondiente píxel anterior en el bloque de píxeles 210a.

\vskip1.000000\baselineskip

El bloque de función 236 representa una averiguación en cuanto a si el objeto 204b incluye cualquiera de los píxeles restantes. Siempre que el objeto 204b incluya los píxeles restantes, el bloque de función 236 procede hasta el bloque de función 238 y si no procede hasta terminar el bloque 240.

El bloque de función 238 indica que un píxel siguiente en el objeto 204b está identificado según un formato o secuencia predeterminados. Con el píxel inicial seleccionado tal y como se describe anteriormente en relación con el bloque de función 214, los píxeles siguientes pueden definirse primero mediante la identificación del siguiente píxel adyacente en una fila (es decir, de un valor común de coordenada y) y, si el objeto 204 no incluye ningún píxel en una fila, se procede al primer píxel o el que esté más a la izquierda (es decir, el del menor valor de coordenada x) en la siguiente fila inferior, Al píxel identificado se le designa el actual píxel y el bloque de función 238 regresa al bloque de función 222.

El método del bloque del polígono 200 identifica con exactitud los correspondientes píxeles incluso si están situados en el perímetro del objeto o cerca del mismo. Una importante fuente de error en procesos convencionales de correspondencia de bloque se elimina omitiendo o ignorando los píxeles de los bloques de píxeles 210b que están fuera del objeto 204b. Los procesos convencionales de correspondencia de bloque aplican estrictamente una configuración uniforme de bloques de píxeles y no se aplican con respecto a un objeto dividido. Las configuraciones uniformes de bloque ocasionan importantes errores a los píxeles adyacentes al perímetro de un objeto, ya que los píxeles fuera del objeto pueden experimentar cambios significativos cuando el objeto se mueve o su fondo cambia. Con tales variaciones extrínsecas de píxeles incluidas en los procesos convencionales de correspondencia de bloques, los píxeles de las proximidades del perímetro de un objeto no se pueden correlacionar con precisión con los correspondientes píxeles en los cuadros de imagen anteriores.

Para cada píxel en el objeto 204b, se identifica un píxel anterior en el objeto 204a al comparar el bloque de píxeles 210b con un bloque de píxeles 210a para cada uno de los píxeles del objeto anterior 204a. El píxel anterior es el píxel en el objeto 204a que tiene el bloque de píxeles 210a con mejor correlación con el bloque de píxeles 210b. Si se ha procesado de manera convencional, dicha determinación puede requerir un cálculo sustancial para identificar cada píxel anterior correspondiente. Para ilustrar esto, los bloques de píxeles con dimensiones de nxn píxeles, que son significativamente más pequeños que un área de búsqueda 212 con dimensiones de mxm píxeles, se requieren aproximadamente cálculos n^{2}xm^{2} para identificar cada píxel anterior correspondiente en el objeto anterior 204a.

\vskip1.000000\baselineskip

Proceso de correlación del bloque de píxeles

La figura 8 es un diagrama por bloques funcional de un proceso de correlación de bloque de píxeles modificado 260 que preferiblemente sea sustituido por el descrito en relación con el bloque de función 232. El proceso de correlación modificado 260 utiliza la redundancia inherente en la correlación de los bloques de píxeles 210b y 210a para reducir significativamente el número de cálculos necesarios.

El proceso de correlación 260 se describe en relación con las figuras 9A-9G y 10A-10G, que representan esquemáticamente grupos arbitrarios de píxeles que corresponden a los cuadros sucesivos de imágenes 202a y 202b. Particularmente, la figura 9 A es una representación esquemática de un bloque de píxeles 262 con dimensiones de 5x5 píxeles en los cuales cada letra corresponde a un píxel diferente. Los píxeles del bloque de píxeles 262 están dispuestos como una matriz regular recta de píxeles que incluye distintas columnas 264. La figura 9B representa una matriz de píxeles 266 con dimensiones de los qxq píxeles y que se corresponden a un área de búsqueda 212 en un cuadro de imagen anterior 202a. Cada uno de los números en la figura 9B representa un píxel diferente. Aunque se describe en relación con un bloque de píxeles regular, recto y convencional 262, el proceso de correlación 260 es igualmente aplicable a los bloques de píxeles poligonales del tipo descrito en relación con el proceso de correspondencia de polígono 200.

El bloque de función 268 indica que un bloque inicial de píxeles (por ejemplo, bloque de píxeles 262) está definido con respecto a un píxel central M y explorado a través de un área de búsqueda 212 (por ejemplo, una matriz de píxeles 266) generalmente en un patrón de tramas (se muestra en parte en la figura 7A) como en un proceso convencional de correspondencia del bloque. Las figuras 9C-9G ilustran esquemáticamente cinco de los aproximadamente q^{2} pasos en el proceso de correspondencia del bloque entre el bloque de píxeles 262 y la matriz de píxeles 266.

Aunque la exploración del bloque de píxeles 262 a través de la matriz de píxeles 266 se realiza de una manera convencional, los cálculos referentes a la correlación entre los mismos se realizan de forma diferente según esta invención. Particularmente, una correlación (por ejemplo, un error absoluto) se determina y almacena para cada columna 264 del bloque de píxeles 262 en cada posición de exploración. La correlación que se determina y almacena para cada columna 264 del bloque de píxeles 262 en cada posición explorada se refiere como correlación de columna 270, varias de las cuales se indican simbólicamente en las figuras 9C-9G en referencia a los píxeles correlacionados. Para ilustrar esto, la figura 9C muestra una correlación de columna 270(1) que se determina para la columna individual 264 del bloque de píxeles 262 alineado con la matriz de píxeles 266. Igualmente, la figura 9D muestra las correlaciones de columna 270(2) y 270(3) que se han determinado para las dos columnas 264 del bloque de píxeles 262 alineado con la matriz de píxeles 266. Las figuras 9E-9G muestran correlaciones de columna similares con el bloque de píxeles 262 en tres ejemplos de posiciones de exploración en relación con la matriz de píxeles 266.

La exploración del bloque de píxeles inicial 262 sobre la matriz de píxeles 266 proporciona una matriz o base de datos almacenada de las correlaciones de columna. Con el bloque de píxeles 262 que tiene un número r de columnas 264, y una matriz de píxeles 266 con qxq píxeles, la base de datos de correlación de columna incluye el número rq^{2} aproximadamente de correlaciones de columna. Este número de correlaciones de columna es solo aproximado porque el bloque de píxeles 262 se explora inicialmente a través de la matriz de píxeles 266 de modo que el píxel M esté alineado con la primera fila de píxeles en la matriz de píxeles 266.

Los pasos restantes que comienzan con el que se indica en la figura 9C se producen después de dos completas exploraciones del bloque de píxeles 262 a través de la matriz de píxeles 266 (es decir, con el píxel M alineado con la primera y segunda fila de la matriz de píxeles 266).

El bloque de función 274 indica que un siguiente bloque de píxeles 276 (figura 10A) se define, por ejemplo, desde el cuadro de imagen 202b con respecto a un píxel central N en la misma fila que el píxel M. El bloque de píxeles 276 incluye una columna de píxeles 278 no incluidos en el bloque de píxeles 262 y columnas de píxeles 280 incluidos en el bloque de píxeles 262. El bloque de píxeles 276 no incluye una columna 282 (figura 9A) que fue incluida en el bloque de píxeles 262. Una definición tan incremental del siguiente bloque de píxeles 276 es sustancialmente igual a la usada en procesos convencionales de correspondencia de bloque.

El bloque de función 284 indica que el bloque de píxeles 276 se ha explorado a través de la matriz de píxeles 266 de la manera descrita anteriormente en relación con el bloque de función 268. Al igual que las figuras 9C-9G, las figuras 10B-10G representan la exploración del bloque de píxeles 276 a través de la matriz de píxeles 266.

El bloque de función 286 indica que para la columna 278 una correlación de columna se determina y almacena en cada posición de exploración. Por consiguiente, las correlaciones de columna 288(1)-288(5) se realizan con respecto a las posiciones exploradas de la columna 278 mostrada en las respectivas figuras 10B-10F.

El bloque de función 290 indica que para cada una de las columnas 280 en el bloque de píxeles 276 se recupera una determinación de columna almacenada para cada posición de exploración previamente calculada y almacenada en el bloque de función 268. Por ejemplo, la correlación de columna 270(1) de la figura 9C es igual que la correlación de columna 270'(1) de la figura 10C. Igualmente, las correlaciones de columna 270'(2), 270'(3), 270'(5), 270'(8), y 270'(15), 270'(18) de las figuras 10D-10F son las mismas que las correspondientes correlaciones de columna de las figuras 9D, 9E, y 9G. Por tanto, para el bloque de píxeles 276, sólo se calcula una correlación de columna 288 para cada posición de exploración. En consecuencia, el número de cálculos necesarios para el bloque de píxeles 276 se reduce en casi el 80%.

El bloque de función 292 indica que un siguiente bloque de píxeles 294 (figura ^{1 }11 A) se define con respecto a un píxel central R en la fila siguiente relativa al píxel M. El bloque de píxeles 294 incluye las columnas de píxeles 296 que son parecidas, pero distintas de las columnas de píxeles 264 en el bloque de píxeles 262 de la figura 9 A. En concreto, las columnas 296 abarcan los píxeles A'-E' no incluidos en las columnas 264. Tal definición incremental del subsiguiente bloque de píxeles 294 es sustancialmente igual a la empleada en los procesos convencionales de correspondencia de bloque.

El bloque de función 298 indica que el bloque de píxeles 294 se ha explorado a través de la matriz de píxeles 266 (figura 9B) de la manera descrita anteriormente en relación con los bloques de función 268 y 276. Las figuras 11B-11F representan la exploración del bloque de píxeles 294 a través de la matriz de píxeles 266.

El bloque de función. 300 indica que una correlación de columna se determina y almacena para cada columna 296. Por consiguiente, las correlaciones de columna 302(1)-302(18) se hacen con respecto a las posiciones exploradas de las columnas 296 mostradas en las figuras 11B-11F.

Cada una de correlaciones de columna 302(1)-302(18) se puede calcular de una manera abreviada en relación con las correlaciones de columna hechas con respecto al bloque de píxeles 262 (figura 9A).

Por ejemplo, las correlaciones de columna 302(4)-302(8) de la figura 11D incluyen las correlaciones de subcolumna 304'(4)-304'(8) que son iguales que las correlaciones de subcolumna 304(4)-304(8) de la figura 9E. Por consiguiente, las correlaciones de columna 302(4)-302(8) pueden determinarse de las respectivas correlaciones de columna 270(4)-270(8) restando de los últimos valores de correlación para los píxeles 01A, 02B, 03C, 04D, y 05E para formar correlaciones de subcolumna 304(4)-304(8), respectivamente. Las correlaciones de columna 302(4)-302(8) pueden obtenerse agregando valores de correlación para los pares de píxeles 56A', 57B', 58C', 59D' y 50E' a los valores respectivos de correlación de subcolumna 304(4)-304(8), respectivamente.

La determinación de las correlaciones de columna 302(4) - 302(8) a partir de las respectivas correlaciones de columna 270(4)-270(8) implica sustraer valores individuales de correlación de píxeles que corresponden a la fila de los píxeles A-E del bloque de píxeles 262 no incluido en el bloque de píxeles 294 del píxel, y agregar los valores de correlación del píxel para la fila de píxeles A'-E' incluidos en el bloque de píxeles 294 pero no en el bloque de píxeles 262. Este método sustituye para cada una de las correlaciones de columna 302(4)-302(8), una resta y una suma para las cinco adiciones que serían necesarias para determinar cada correlación de columna de una manera convencional. Como los bloques de píxeles de mayores dimensiones son preferenciales, la mejora de este método sobre los métodos convencionales de cálculo es incluso superior. Los procesos convencionales de correspondencia de bloque identifican solamente las correlaciones totales de bloque para cada posición de exploración del bloque inicial de píxeles 262 relativa a la matriz de píxeles 266. Por consiguiente, todos los valores de correlación para todos los píxeles deben calcularse por separado para cada posición de exploración. En cambio, el proceso de correlación 260 utiliza las correlaciones de columna almacenadas 270 para reducir significativamente el número de cálculos necesarios. Las mejoras en los requisitos de recursos de velocidad y procesador proporcionados por el proceso de correlación 260 compensan los requisitos del sistema para almacenar las correlaciones de columna.

Como se aprecia, el proceso de correlación 260 se ha descrito en relación a las figuras 9-11 para ilustrar las características específicas de esta invención. Según las indicaciones de las ilustraciones, esta invención incluye características cíclicas o de recurrencia particularmente adaptadas a la ejecución mediante sistema informático. Estas características cíclicas o de recurrencia son dependientes de las dimensiones de los bloques de píxeles y de las matrices de píxeles, y pueden entenderse perfectamente e implementarse por personas experimentadas en la técnica.

\vskip1.000000\baselineskip

Transformación multidimensional

La figura 12 es un diagrama por bloques funcional de un método de transformación 350 que incluye la generación de una transformación multidimensional entre objetos en primeros y segundos cuadros de imagen sucesivos y la cuantificación del trazado para la transmisión o almacenamiento. La transformación multidimensional se utiliza preferiblemente en relación con el bloque de función 96 de la figura 3. El método de transformación 350 se describe en relación con la figura 7A y la figura 13. Ésta última al igual que la figura 7B es una representación simplificada de la pantalla de visualización 50 que muestra un cuadro de imagen 202b en la cual la característica de imagen 204 se renderiza como el objeto 204b.

El método de transformación 350 proporciona preferiblemente una transformación afín multidimensional capaz de representar movimiento complejo que incluye cualquier o toda traslación, rotación, ampliación y recorte. El método de transformación 350 proporciona una mejora significativa de los métodos convencionales de compresión de vídeo como MPEG-1, MPEG-2, y H.26X, que sólo tienen una dimensión y representan una única traslación. En este sentido, la dimensionalidad de una transformación se refiere al número de coordenadas en la forma generalizada de transformación, como se describe a continuación en más detalle. Al aumentar la precisión con la cual se representa el movimiento complejo según esta invención, se consigue reducir los errores en comparación con las representaciones convencionales, con lo que se mejora la eficacia de compresión.

El bloque de función 352 indica que se determina una estimación de movimiento densa de los píxeles en los objetos 204a y 204b. Preferiblemente, la estimación de movimiento densa se obtiene mediante el proceso de correspondencia de polígono 200. Como se describe anteriormente, la estimación de movimiento densa incluye vectores de movimiento entre los píxeles en las coordenadas (x_{i}, y_{j}) en el objeto 204b del cuadro de imagen 202b y los correspondientes píxeles en las ubicaciones (x_{i}', y_{i}') del objeto 204a en el cuadro de imagen 202a.

El bloque de función 354 indica que se define una matriz de bloques de transformación 356 para abarcar el objeto 204b. Preferiblemente, los bloques de transformación 356 son matrices regulares rectas de píxeles con dimensiones, por ejemplo, de 32x32 píxeles.

\newpage

El bloque de función 358 indica que se genera una transformación afín multidimensional para cada bloque de transformación 356. Preferiblemente, las transformaciones afines son de primer orden y están representadas como:

103

y se determinan en relación con todos los píxeles para los cuales los Vectores de movimiento tienen una confianza relativamente alta. Estas transformaciones afines son bidimensionales donde x_{i} e y_{i} se definen en relación con dos coordenadas: x_{i} e y_{i}.

\vskip1.000000\baselineskip

La confianza relativa de los vectores de movimiento se refiere a la precisión con la que el vector de movimiento entre los píxeles correspondientes se puede determinar únicamente con respecto a otros píxeles. Por ejemplo, los vectores de movimiento entre píxeles específicos que se encuentran en matrices de píxeles relativamente amplias y están coloreadas uniformemente (por ejemplo, negro) normalmente no se pueden determinar con precisión. Concretamente, para un píxel negro en un primer cuadro de imagen, habrá muchos píxeles en la matriz de píxeles del cuadro de imagen siguiente con la misma correlación (es decir, error de valor absoluto entre los bloques de píxeles).

En cambio, las matrices de píxeles en las que los píxeles se corresponden a características distintivas normalmente tendrán correlaciones relativamente elevadas para los correspondientes píxeles en sucesivos cuadros de imagen.

Las correlaciones relativamente elevadas se representan preferiblemente como una determinación de error de valor absoluto mínimo para el píxel en concreto. Los vectores de movimiento de confianza relativamente elevada pueden, por tanto, determinarse en relación con dichos valores de error extraordinariamente bajos. Por ejemplo, un vector de movimiento de elevada confianza se puede definir como uno en el que el error de valor absoluto mínimo para el vector de movimiento sea menor que el siguiente mayor valor de error asociado al píxel por una diferencia que sea mayor que una diferencia de umbral. Alternativamente, los altos vectores de movimiento de elevada confianza se pueden definir con respecto a la segunda orden derivada de los valores de error absoluto sobre los cuales se determinan las correlaciones. Una segunda orden derivativa de más de un valor específico indicaría una correlación relativamente elevada entre los correspondientes píxeles específicos.

Con el número n de píxeles con unos vectores de movimiento de tan elevada confianza, las ecuaciones de transformación afín preferenciales se resuelven en relación con el número n de píxeles correspondientes en los cuadros de imagen 202a y 202b. Los cuadros de imágenes deben incluir por lo menos tres píxeles correspondientes en los cuadros de imagen 202a y 202b con vectores de movimiento de elevada confianza por resolver para los seis coeficientes desconocidos a, b, c, d, e, y f de las ecuaciones de transformación afín preferenciales. Con las dimensiones preferenciales, cada uno de los bloques de transformación 356 incluyen 2^{10} píxeles de los cuales los números importantes tienen normalmente vectores de movimiento de confianza relativamente elevada. Por consiguiente, las ecuaciones de transformación afín se sobredetermina en que un número notablemente mayor de píxeles está disponible por solucionar para los coeficientes a, b, c, d, e, y f.

El número n resultante de las ecuaciones se puede representar mediante la expresión algebraica lineal:

1

1000

Estas ecuaciones se resuelven preferiblemente mediante un método convencional de descomposición del valor singular (SVD), que proporciona un error de mínimos cuadrados mínimo para la aproximación de los vectores de movimiento denso. El método convencional SVD se describe, por ejemplo, en Numerical Recipes in C. por Press et al., Cambridge University Press, (1992).

Como se describe anteriormente, las ecuaciones de transformación afín de dos dimensiones preferenciales son capaces de representar la traslación, rotación, ampliación, y recorte de los bloques de transformación 356 entre sucesivos cuadros de imagen 202a y 202b. En cambio, los métodos convencionales de transformación de movimiento usados en estándares de compresión anteriores emplean las ecuaciones simplificadas de transformación simplificadas de la forma:

104

Las ecuaciones simplificadas de transformación anteriores representan el movimiento mediante sólo dos coeficientes, g y h, que representa solamente una tercera parte de la información (es decir, coeficientes) obtenida por las ecuaciones multidimensionales de transformación preferenciales. Para obtener una compresión superior de la información conseguida por el método de transformación 350 relativo a los métodos convencionales de compresión, las dimensiones del bloque de transformación 356 son preferiblemente más de tres veces los correspondientes bloques de píxeles 16x16 empleados en los métodos de compresión MPEG-1 y MPEG-2. Las dimensiones preferenciales de píxeles 32x32 de los bloques de transformación 356 comprenden cuatro veces el número de píxeles empleados en los bloques de transformación de los métodos convencionales de transformación. Las mayores dimensiones de los bloques de transformación 356, junto con la precisión mejorada con la que los coeficientes de transformación afines representan el movimiento de los bloques de transformación 356, permiten que el método de transformación 350 proporcione mayor compresión que los métodos convencionales de compresión.

Como se puede apreciar, los coeficientes afines generados según la presente invención normalmente serían números no enteros y valores de coma flotante, difíciles de comprimir adecuadamente sin que ello perjudicase a su precisión. Por consiguiente, es preferible cuantificar el coeficiente de transformación afín para reducir el ancho de banda - necesario para almacenar o transmitirlos.

El bloque de función 362 indica que- los coeficientes de transformación afines generados en relación al bloque de función 358 están cuantificados para reducir el ancho de banda necesaria para almacenar o transmitirlos. La figura 14 es una representación ampliada fragmentada de un bloque de transformación 356 que muestra tres píxeles seleccionados, 364a, 364b, y 364c de los cuales se puede determinar los seises coeficientes de transformación afín preferenciales a-f.

Los píxeles 364a-364c se representan como coordenadas de píxeles (x_{1}, y_{1}), (x_{2} y_{2}), y (x_{3} y_{3}), respectivamente. En base a la estimación de movimiento densa del bloque de función 352, los píxeles 364a-364c tienen sus correspondientes píxeles (x_{1}', y_{1}'), (y_{2}', y_{2}'), (x_{3}' y_{3}') en el cuadro de imagen 202a precedente. Normalmente, las ubicaciones de píxel (x_{1}, y_{1}) están representadas por valores enteros y son soluciones a las ecuaciones de transformación afines sobre las que se basan los coeficientes de transformación afines preferenciales. Por consiguiente, los píxeles seleccionados 364a-364c se utilizan para calcular los píxeles correspondientes del cuadro de imagen precedente 202a, que normalmente serán valores de coma flotante.

La cuantificación de estos valores de coma flotante se realiza convirtiendo a un formato entero la diferencia entre los píxeles correspondientes (x_{i} - x_{i}', y_{i} - y_{i}'). Los coeficientes de transformación afines están determinados calculando primero los valores del píxel (x', y') de los vectores de diferencia y los valores del píxel (x_{i}, y_{i}), y después de solucionar las ecuaciones de transformación multidimensionales del bloque de función 358 con respecto a los valores de píxel (x_{i}', y_{i}').

\newpage

Tal y como, se muestra en la figura 14, los píxeles 364á-364c se distribuyen preferiblemente alrededor del bloque de transformación 356 para reducir al mínimo la sensibilidad de la cuantificación a las variaciones locales dentro del bloque de transformación 356. Preferiblemente, el píxel 364a se coloca en o adyacente al centro del bloque de transformación 356, y los píxeles 364b y 364c se colocan en las esquinas superiores. También en la representación preferencial, los píxeles seleccionados para cada uno de los bloques de transformación 356 en el objeto 204b tienen las mismas posiciones, permitiendo que el proceso de cuantificación se realice eficientemente.

Otro aspecto del método de cuantificación del bloque de función 362 es que pueden utilizarse diversos niveles de cuantificación para representar grados de movimiento variables. En consecuencia, el movimiento relativamente simple (por ejemplo, traslación) puede representarse por menos píxeles seleccionados 364 que los que se requieren para representar el movimiento complejo. Con respecto a las ecuaciones de transformación afines descritas anteriormente, el píxel 364a (x_{1}, y_{1}) del objeto 204b y el píxel correspondiente (x_{1}', y_{1}') del objeto 204a son suficientes para solucionar ecuaciones de transformación afines simplificadas como:

105

las cuales representan la traslación entre sucesivos cuadros de imagen. El píxel 364a se utiliza específicamente porque su posición central representa generalmente él movimiento de traslación independiente de los otros tipos de movimiento. Por consiguiente, un usuario puede representar selectivamente movimiento simplificado como la traslación con ecuaciones de transformación afines simplificadas que requieren un tercio de los datos necesarios para representar el movimiento complejo.

\vskip1.000000\baselineskip

Igualmente, un par de píxeles seleccionados (x_{1}, y_{1}) (por ejemplo, píxel 364a) y (x_{2}, y_{2}) (ya sea los píxeles 364b y 364c) del objeto 204b y los correspondientes píxeles (x_{1}', y_{1}') y (x_{2}', y_{2}') del objeto 204a son suficientes para resolver ecuaciones de transformación - afines simplificadas como:

106

las cuales son capaces de representar movimientos que incluyen la traslación y ampliación entre los cuadros de imagen sucesivos. En la forma simplificada:

107

los pares correspondientes de píxeles seleccionados son capaces de representar movimientos que incluyen traslación, rotación, y ampliación isotrópica. En esta forma simplificada, los coeficientes comunes de las variables x e y permiten que las ecuaciones se resuelvan por dos pares correspondientes de píxeles.

\vskip1.000000\baselineskip

Por consiguiente, un usuario puede representar selectivamente movimiento complejo de forma moderada que incluya traslación, rotación, y ampliación con ecuaciones de transformación afines simplificadas. Tales ecuaciones requerirían dos tercios de los datos necesarios para representar movimiento complejo. La incorporación del tercer píxel seleccionado (X_{3}, y_{3}) del objeto 204b, el píxel correspondiente (X_{3}', y_{3}') del objeto 204a, y las ecuaciones preferenciales de transformación afines completas permiten a un usuario también representar el recorte entre los cuadros de imagen sucesivos.

Una representación preferencial del método de transformación 350 (figura 12) se describe como bloques de transformación uniformes 356 con dimensiones, por ejemplo, de 32x32 píxeles. Las transformaciones afines multidimensionales preferenciales descritas en relación al bloque de función 358 se determinan en relación con los bloques de transformación 356. Como aprecia, las dimensiones de los bloques de transformación 356 afectan directamente al cociente de compresión proporcionado por este método.

Se necesitan menos bloques de transformación 356 de dimensiones relativamente grandes para representar transformaciones de un objeto entre cuadros de imagen que el número de bloques de transformación 356 que tienen dimensiones más pequeñas. Una consecuencia de los bloques de transformación 356 uniformemente grandes es que puede introducirse el mayor error para cada bloque de transformación. Por consiguiente, los bloques de transformación 356 de tamaños uniformes tienen normalmente dimensiones moderadas para equilibrar estas restricciones de rendimiento conflictivas.

\vskip1.000000\baselineskip

Optimización del bloque de transformación

La figura 15 es un diagrama por bloques funcional de un método de optimización del bloque de transformación 370 el que selecciona automáticamente las dimensiones del bloque de transformación que proporcionan un umbral de error mínimo. El método de optimización 370 se describe en referencia a la figura 16, que es una representación simplificada de la pantalla de visualización 50 que muestra una porción del cuadro de imagen 202b con el objeto 204b.

El bloque de función 372 indica que un bloque de transformación inicial 374 está definido con respecto al objeto 204b. El bloque de transformación inicial 374 tiene preferiblemente dimensiones máximas que pueden seleccionar un usuario y son, por ejemplo, los píxeles 64x64. El bloque de transformación inicial 374 es designado el bloque de transformación actual.

El bloque de función 376 indica que una relación señal-ruido (SNR) actual máxima está calculada en relación con el bloque de transformación actual. La relación señal-ruido se calcula preferiblemente como la relación de la varianza de los valores de los componentes de color del píxel dentro del bloque de transformación actual (es decir, la señal) hasta la varianza de los valores de componentes del color de los píxeles asociados al error estimado 110 (figura 3).

El bloque de función 378 indica que el bloque de transformación actual (por ejemplo, bloque de transformación 374) está subdividido, por ejemplo, en cuatro subbloques iguales 380a-380d, las transformaciones afines se determinan para cada uno de los subbloques 380a-380d, y se determina una relación señal-ruido futura con respecto, a las transformaciones afines. La relación señal-ruido futura se calcula básicamente de la misma manera que la relación señal-ruido actual descrita en relación con el bloque de función 376.

El bloque de averiguación 382 representa una averiguación en cuanto a si la futura relación señal-ruido es mayor que la relación señal-ruido actual en mayor medida que el valor umbral seleccionado por el usuario. Esta averiguación representa una determinación que una posterior subdivisión del actual bloque de transformación (por ejemplo, bloque de transformación 374) mejoraría la precisión de las transformaciones afines al menos en cuanto al valor umbral. Siempre que la futura relación señal-ruido sea mayor que la actual relación señal-ruido, por un valor superior al umbral, el bloque de averiguación 382 procede con el bloque de función 384, y si no con el bloque de función 388.

El bloque de función 384 indica que los subbloques 380a-380d son designados sucesivamente el bloque de transformación actual, y cada uno es analizado para determinar si debe ser subdividido. A modo ilustrativo, el subbloque 380a es designado la transformación actual y se procesa según el bloque de función 376 y posteriormente subdividido en subbloques 386a-386d. El bloque de función 388 indica que el siguiente bloque sucesivo de transformación 374' es identificado y designado un bloque de transformación inicial o actual.

\vskip1.000000\baselineskip

Método de extrapolación de precompresión

Las figuras 17A y B son un diagrama por bloques funcional de un método de extrapolación de precompresión 400 para extrapolar características de imagen de configuración arbitraria a una configuración predefinida para facilitar la compresión de acuerdo con el bloque de función 112 del proceso codificador 64 (ambas figuras 3). El método de extrapolación 400 permite que la compresión del bloque de función 112 sea realizada de una manera convencional tal como DCT o compresión por wavelets o reticular, como se describe anteriormente.

Los métodos de compresión de imágenes fijas convencionales como la compresión por wavelets o reticular o transformadas de coseno discretas (DCT) funcionan con matrices rectangulares de píxeles. Sin embargo, como se describe anteriormente, los métodos de la presente invención son aplicables a las características de imagen o a los objetos de configuración arbitraria. La extrapolación de dichos objetos o características de imagen a una configuración de matriz de píxeles rectangular permite el uso de los métodos convencionales de compresión de imágenes fijas tales como compresión reticular o por wavelets o DCT. El método de extrapolación 400 se describe en relación a las figuras 18A-18D, que son las representaciones de la pantalla de visualización 50 en las cuales se renderiza un objeto simple 402 para mostrar varios aspectos del método de extrapolación 400.

El bloque de función 404 indica que un límite del bloque de extrapolación 406 está definido alrededor del objeto 402. El límite del bloque de .extrapolación 406 es preferiblemente rectangular. Por lo que respecta a la figura 18A, la formación del límite del bloque de extrapolación 406 alrededor del objeto 402 se basa en una identificación de un perímetro 408 del objeto 402 mediante, por ejemplo, el método de segmentación del objeto 140 (figura 4). El límite del bloque de extrapolación 406 se muestra abarcando al objeto 402 en su totalidad para ilustrar. Como se puede observar, el límite del bloque de extrapolación 406 podría abarcar alternativamente solo una porción del objeto 402. Según lo descrito en relación con el método de segmentación del objeto 140, los píxeles incluidos en el objeto 402 tienen valores de componentes del color que difieren de los de los píxeles no incluidos en el objeto 402.

El bloque de función 410 indica que todos los píxeles 412 limitados por el límite del bloque de extrapolación 406 y no incluidos en el objeto 402 son asignados un valor predefinido como, por ejemplo, un valor cero para cada uno de los componentes del color.

El bloque de función 414 indica que las líneas horizontales de los píxeles dentro del límite del bloque de extrapolación 406 se exploran para identificar líneas horizontales con segmentos de píxeles horizontales que tienen valores de componente de color cero y diferentes a cero.

El bloque de función 416 representa una averiguación en cuanto a si los segmentos de píxeles horizontales con valores de componentes de color cero están limitados en ambos extremos por el perímetro 408 del objeto 402. En relación con la figura 18B, la región 418 representa los segmentos de píxeles horizontales con valores de componente del color cero que están limitados en ambos extremos por el perímetro 408. Las regiones 420 representan los segmentos de píxeles horizontales que tienen valores de componente del color cero y están limitados solamente en un extremo por el perímetro 408. El bloque de función 416 procede al bloque de función 426 para las regiones 418 en las cuales los segmentos de píxeles tienen valores de componente del color cero limitados en ambos extremos por el perímetro 408 del objeto 402, y si no procede con el bloque de función 422.

El bloque de función 422 indica que los píxeles en cada segmento de píxeles horizontal de una región 420 se les asigna valores de componente del color de un píxel 424 (solamente los que se muestran como ejemplo) en las correspondientes líneas horizontales y el perímetro 408 del objeto 402. Alternativamente, los valores de componente del color asignados a los píxeles en las regiones 420 se relacionan funcionalmente con los valores de componente del color de los píxeles 424.

El bloque de función 426 indica que a los píxeles en cada segmento de píxeles horizontales de la región 418 se les asigna valores de componente del color correspondientes con y preferiblemente iguales a una media de los valores de componente del color de los píxeles 428a y 428b que se encuentran en las correspondientes líneas horizontales y en el perímetro 408.

El bloque de función 430 indica que las líneas verticales de los píxeles dentro del límite del bloque de extrapolación 406 se exploran para identificar líneas verticales con segmentos de píxeles verticales que tienen valores de componente del color cero y diferentes a cero.

El bloque de función 432 representa una averiguación en cuanto a si los segmentos de píxeles verticales con valores de componentes de color cero están limitados en ambos extremos por el perímetro 408 del objeto 402. En relación con la figura 18C, la región 434 representa los segmentos de píxeles verticales con valores de componente del color cero que están limitados en ambos extremos por el perímetro 408. Las regiones 436 representan los segmentos de píxeles verticales que tienen valores de componente del color cero y están limitados solamente en un extremo por el perímetro 408. El bloque de función 432 procede al bloque de función 444 para la región 434 en, la cual los segmentos de píxeles verticales tienen valores de componente del color cero limitados en ambos extremos por el perímetro 408 del objeto 402, y si no procede con el bloque de función 438.

El bloque de función 438 indica que los píxeles en cada segmento de píxeles verticales de una región 436 se les asigna valores de componente del color de píxeles 442 (solamente los que se muestran como ejemplo) en las correspondientes líneas verticales y el perímetro 408 del objeto 402. Alternativamente, los valores de componente del color asignados a los píxeles en la región 436 sé relacionan funcionalmente con los valores de componente del color de los píxeles 442.

El bloque de función 444 indica que a los píxeles en cada segmento de píxeles verticales de la región 434 se les asigna valores de componente del color correspondientes con y preferiblemente iguales a una media de los valores de componente del color de los píxeles 446a y 446b que se encuentran en las correspondientes líneas horizontales y en el perímetro 408.

El bloque de función 448 indica que los píxeles que están en los segmentos de píxeles verticales y horizontales a los que se les asignan valores de componente del color según este método se les asigna valores de componente del color que se relacionan con, y preferiblemente son la media de los valores de componente del color de otro modo asignados a los píxeles según los segmentos de píxeles horizontales y verticales.

Ejemplos de píxeles asignados dichos valores de componente del color compuesto son los píxeles de las regiones 418 y 434.

El bloque de función 450 indica que las regiones de píxeles 452 limitadas por el límite del bloque de extrapolación 406 y el perímetro de no intersección 408 del objeto 402 a lo largo de una línea horizontal o vertical se asignan valores de componente del color compuesto relativos a, y preferiblemente equivalentes a la media de los valores de componente del color asignados a los píxeles adyacentes. Por lo que respecta a la figura 18D, a cada uno de los píxeles 454 de las regiones 452 se le asigna un valor de componente del color que es preferiblemente la media de los valores de componente del color de los píxeles 456a y 456b alineados con el píxel 454 a lo largo de las respectivas líneas horizontales y verticales y con valores de componente del color diferentes a cero asignados previamente con este método.

Una ventaja del proceso de extrapolación del objeto 400 es que se asignan suavemente valores variables de componente del color a los píxeles no incluidos en el objeto 402 y por lo tanto se optimizan las capacidades de compresión y la precisión de los métodos convencionales de compresión de imágenes fijas. Por el contrario, los métodos e imágenes espejo o acolchado cero de la anterior técnica descrita por Chang et al., "Transform Coding of Arbitrarily-Shaped Image Segments", ACM Multimedia, pp. 83-88, junio de 1993, aplican la compresión a objetos extrapolados que se rellenan de los píxeles con valores de componentes del color cero como los que se aplican en el bloque de función 410. El cambio de imagen drástico que se produce entre un objeto, y las regiones acolchadas cero introduce cambios de alta frecuencia que son difíciles de comprimir o introducir artefactos de imagen en la compresión. El método de extrapolación del objeto 400 supera dichas desventajas.

Método codificador alternativo

La figura 19A es un diagrama por bloques funcional de un método codificador 500 que emplea un método codificador en pirámide laplaciano con los filtros únicos que mantienen los aspectos no lineales de las características de la imagen, como bordes, a la vez que proporciona alta compresión. Los codificadores convencionales de pirámide laplacianos son descritos, por ejemplo, en la pirámide laplaciana como un código compacto de imagen por Bun y Addleson, IEEE Trans. Comm., Vol. 31, Nº 4, pp. 532-540, abril de 1983. El método codificador 500 es capaz de proporcionar la codificación descrita en relación con el bloque de función 112 del proceso codificador de compresión de vídeo 64 que se muestra en la figura 3, así como siempre que se sugiera o se utilice la DCT en la codificación por wavelets. A modo de ejemplo, el método codificador 500 se describe en relación con la codificación de error estimado 110 (figura 3).

Un primer filtro de decimación 502 recibe la información del píxel correspondiente a un error estimado 110 (figura 3) y filtra los píxeles según un criterio de filtrado. En un método convencional en pirámide laplaciano, el filtro de decimación es un filtro de paso bajo como una función de ponderación gaussiana. Sin embargo, de acuerdo con el método codificador 500, el filtro de decimación 502 emplea preferiblemente un filtro mediano y, más específicamente, un filtro mediano inseparable de 3x3.

Para ilustrar esto, la figura 20A es una representación simplificada de los valores de componente del color para un componente del color (por ejemplo, rojo) para un conjunto o matriz arbitraria de píxeles 504. Aunque se describe particularmente en referencia a valores de componente del color rojo, esta ilustración se aplica igualmente a los valores de componente del color verde y azul de los píxeles 504.

En cuanto a la representación preferencial del filtro de decimación 502, los bloques ~ de filtro 506 con dimensiones de 3x3 píxeles se definen entre los píxeles 504. Para cada bloque de píxeles 506, se identifica o selecciona el valor de intensidad del píxel mediano. En cuanto a los bloques de píxeles 506a-506c, por ejemplo, el filtro de decimación 502 proporciona los valores respectivos de 8, 9, y 10, que se enumeran como los primeros tres píxeles 512 en figura 20B.

Sin embargo, como se aprecia, el filtro de decimación 502 podría emplear otros filtros medianos de acuerdo con esta invención. Por consiguiente, para cada grupo de píxeles con valores de componente del color {a_{0}, a_{1} ..., a_{n-1}} del filtro mediano se seleccionaría un valor mediano a_{M}.

Un primer filtro de 2x2 de muestreo de bajada 514 muestrea píxeles alternos 512 en dirección vertical y horizontal para proporcionar una compresión adicional. La figura 20C representa un conjunto comprimido de píxeles resultante 515.

Un filtro de 2x2 de muestreo de alzada 516 inserta un píxel de valor cero en el lugar de cada píxel 512 omitido mediante el filtro de muestreo de bajada 514, y el filtro de interpolación 518 asigna al píxel de valor cero un valor de píxel que es la media de los píxeles adyacentes opuestos, o a un valor asignado anteriormente si el píxel de valor cero no está entre un par opuesto de píxeles de valor diferente a cero. Para ilustrar esto, la figura 20D representa un conjunto o matriz resultante de píxeles de valor 520.

Se toma una diferencia 522 entre los valores de componente del color del conjunto de píxeles 504 y los correspondientes valores de componente del color para el conjunto de píxeles 520 para formar un componente de imagen de orden cero I_{0}.

Un segundo filtro de decimación 526 recibe los valores de componente del color correspondientes al conjunto de píxeles comprimido 515 generado por un primer filtro de 2x2 de muestreo de bajada 514. El filtro de decimación 526 es preferiblemente idéntico al filtro de decimación 502 (por ejemplo, un filtro mediano no separable de 3x3). Por consiguiente, el filtro de decimación 526 funciona de manera semejante al filtro de decimación 502 y entrega un conjunto o matriz comprimida de píxeles como resultado (no se muestra) a un segundo filtro de 2x2 de muestreo de bajada 528.

El filtro de muestreo de bajada 528 funciona de manera similar al filtro de muestreo de bajada 514 y forma un componente de imagen L2 de segundo orden, que también se entrega a un filtro de 2x2 de muestreo de alzada 530 y un filtro de interpolación 531 que funciona de manera semejante al filtro de muestreo de alzada 516 y al filtro de interpolación 518, respectivamente. Se toma una diferencia 532 entre los valores de componente del color del conjunto de píxeles 515 y los valores de componente del color resultantes proporcionados por el filtro de interpolación 531 para formar un componente de imagen de primer orden I_{1}.

Los 108 componentes de imagen I_{0}, I1 y L2L son los respectivos conjuntos de valores de componente del color que representan los valores de componente del color para una matriz nxn de píxeles 504.

\vskip1.000000\baselineskip

El componente de imagen lo mantiene los componentes de alta frecuencia (por ejemplo bordes) de una imagen representada por el conjunto de píxeles originales 504. Los componentes de imagen I_{1} y L_{2}, representan aspectos de baja frecuencia de la imagen original. Los componentes de imagen I_{0}, I_{1}, y L_{2} proporcionan la compresión relativa de la imagen original. El componente de imagen I_{0} e I_{1} mantiene las características de alta frecuencia (por ejemplo, bordes) en un formato que sea altamente comprimible debida a la correlación relativamente elevada entre los valores de los píxeles adyacentes. El componente de imagen L_{2} no es fácilmente comprimible porque incluye sobre todo características de imagen de baja frecuencia, pero es un conjunto de tamaño relativamente pequeño.

La figura 19B es un diagrama por bloques funcional de un método descodificador 536 que descodifica o codifica inversamente los componentes de imagen I_{0}, I_{1}, y L_{2} generados por el método codificador 500. El método descodificador 536 incluye un primer filtro de 2x2 de muestreo de alzada 538 que recibe el componente de imagen L, e interpone un píxel de valor cero entre cada par adyacente de píxeles. Un filtro de interpolación 539 asigna al píxel de valor cero un valor del píxel que sea preferiblemente un promedio de los valores de los píxeles adyacentes, o un valor asignado anteriormente si el píxel de valor cero no está entre un par de píxeles de valor no cero opuesto. Un primer filtro de 2x2 de muestreo de alzada 538 funciona sustancialmente de la misma manera que los filtros de muestreo de alzada 516 y 530 de figura 19A; y el filtro de interpolación 539 funciona sustancialmente de la misma manera que los filtros de interpolación 518 y 531.

Se determina una suma 540 entre el componente de imagen I_{1} y los valores de componente del color correspondientes al conjunto de píxeles descomprimidos generados por el primer filtro de 2x2 de muestreo de alzada 538 y el filtro de interpolación 539. Un segundo filtro de 2x2 de muestreo de alzada 542 interpone un píxel de valor cero entre cada par de píxeles adyacentes generados por la suma 540. Un filtro de interpolación 543 asigna al píxel de valor cero un valor de píxel que incluye una media de los valores de los píxeles adyacentes, o un valor anteriormente asignado si el píxel de valor cero no está entre un par opuesto de píxeles con valor diferente de cero. El filtro de muestreo de alzada 542 y el filtro de interpolación 543 son sustancialmente iguales que el filtro de muestreo de alzada 538 y el filtro de interpolación 539, respectivamente.

Una suma 544 suma el componente de imagen lo con los valores de componente del color que corresponden al conjunto de píxeles descomprimidos generados por el segundo filtro de 2x2 de muestreo de alzada 542 y el filtro de interpolación 543. La suma 544 proporciona un error estimado descomprimido 110 que corresponde al error estimado 110 entregado al proceso codificador 500.

\vskip1.000000\baselineskip

Codificación de transformada de los vectores de movimiento

Los procesos convencionales del codificador de compresión vídeo, como MPEG-1 o MPEG-2, utilizan solamente campos de vectores de movimiento escaso para representar el movimiento de matrices de píxeles significativamente más grandes de un tamaño y configuración regular. Los campos de vectores de movimiento son escasos en el sentido de que solo se utiliza un vector de movimiento para representar el movimiento de una matriz de píxeles con dimensiones de, por ejemplo, 16x16 píxeles. Los campos de vectores de movimiento escaso, junto con la codificación de transformada de imágenes subyacentes o píxeles mediante, por ejemplo, codificación de transformada de coseno discreto (DCT) proporcionan codificación convencional de compresión de vídeo.

En cambio, el proceso de codificación de compresión de vídeo 64 (figura 3) utiliza los campos de vectores de movimiento denso en los cuales los vectores de movimiento vienen determinados para todos, o prácticamente todos, los píxeles de un objeto. Tales campos de vectores de movimiento denso mejoran significativamente la precisión con la cual se representa el movimiento entre los píxeles correspondientes. Aunque la precisión mejorada puede reducir significativamente los errores asociados a las representaciones convencionales del campo de vectores de movimiento escaso, la información adicional incluida en los campos de vectores de movimiento denso representa un aumento de la cantidad de la información que representa una secuencia de vídeo. De acuerdo con esta invención, por tanto, los mismos campos de vectores de movimiento denso son comprimidos o codificados para mejorar la relación de compresión de esta invención.

La figura 21 es un diagrama por bloques funcional de un proceso codificador de vector de movimiento 560 para la codificación o compresión de los campos de vectores de movimiento y, preferiblemente, los campos de vectores de movimiento denso como los generados según la transformación de movimiento denso 96 de la figura 3. Como se aprecia, dichos campos de vectores de movimiento denso de un objeto seleccionado tendrán normalmente una mayor continuidad o "suavidad" que los píxeles subyacentes correspondientes al objeto. En consecuencia, la compresión o codificación de los campos de vectores de movimiento denso alcanzarán una mayor relación de compresión que la conseguida por la compresión o codificación de los píxeles subyacentes.

\newpage

El bloque de función 562 indica que un campo de vectores de movimiento denso se obtiene para un objeto o una porción de un objeto de acuerdo con, por ejemplo, los procesos del bloque de función 96 descritos en relación con la figura 3. Por consiguiente, el campo de vectores de movimiento denso corresponderá a un objeto o a otra porción de imagen de configuración o tamaño arbitrario.

El bloque de función 564 indica que la configuración del campo de vectores de movimiento denso está extrapolada a una configuración regular, y preferiblemente rectangular, para facilitar la codificación o compresión. Preferiblemente, la configuración del campo de vectores de escaso movimiento es extrapolada a una configuración regular por el método de extrapolación de precompresión 400 descrito en relación a las figuras 17A, y 17B. Como se aprecia, los métodos de extrapolación convencionales como un método de imagen espejo, podrían utilizarse alternativamente.

El bloque de función 566 indica que el campo de vectores de movimiento denso con su configuración regular extrapolada está codificado o comprimido según transformaciones de codificación convencionales como la transformada de coseno discreta (DCT) o la compresión por wavelets o reticular, siendo esta primera la opción preferencial.

El bloque de función 568 indica que el campo de vectores de movimiento denso codificado se comprime o codifica aún más mediante un método de compresión de imágenes fijas "sin pérdidas" convencional como la codificación entrópica para formar un campo de vectores de movimiento denso codificado 570. Dicho método de compresión de imágenes fijas se describe en relación con el bloque de función 114 de la figura 3.

\vskip1.000000\baselineskip

Compresión de objetos cuantificados de cuadros de vídeo anteriores

Por lo que respecta a la figura 3A, el proceso codificador de compresión de vídeo 64 utiliza un objeto anterior cuantificado 126 determinado en relación con un cuadro N-1 anterior para codificar un objeto en un siguiente cuadro sucesivo N. Por consiguiente, el proceso codificador 64 requiere que el objeto anterior cuantificado 126 esté almacenado en una memoria búfer accesible. Con resoluciones de visualización de vídeo convencionales, dicha memoria búfer necesitaría una capacidad de al menos medio megabyte para almacenar el objeto anterior cuantificado 126 solo para un cuadro de vídeo. Los formatos de visualización de mayor resolución requerirían en consecuencia memorias búfer superiores.

La figura 22 es un diagrama por bloques funcional de un proceso codificador-descodificador. (códec) del objeto cuantificado 600 que comprime y descomprime selectivamente los objetos anteriores cuantificados 126 para reducir la capacidad requerida de la memoria búfer del objeto cuantificado.

El bloque de función 602 indica que cada objeto cuantificado 126 de un cuadro de imagen está codificado bloque por bloque mediante un método de compresión o codificación con pérdida como la codificación de la transformada de coseno discreta (DCT) o codificación por wavelets o de sub-banda reticular. Tal y como se muestra en la figura 21, la información codificada con pérdida puede experimentar un codificación adicional sin pérdidas. Alternativamente, solamente puede utilizarse la codificación sin pérdidas.

El bloque de función 604 indica que los objetos codificados o comprimidos cuantificados están almacenados en una memoria búfer (no se muestra).

El bloque de función 606 indica que los objetos cuantificados codificados se recuperan de la memoria búfer en previsión de procesar un objeto correspondiente en un siguiente cuadro de vídeo sucesivo.

El bloque de función 608 indica que el objeto cuantificado codificado se codifica a la inversa mediante, por ejemplo, DCT o descodificación por wavelets según los procesos de codificación empleados con respecto al bloque de función 602.

El proceso de códec 600 permite reducir la capacidad de la correspondiente memoria búfer hasta casi el 80%, dependiendo del cociente de compresión de vídeo total y de la calidad deseada del vídeo resultante. Por otra parte, como se aprecia, el proceso de códec 600 es igualmente aplicable al proceso descodificador correspondiente al proceso codificador de compresión de vídeo 64.

\vskip1.000000\baselineskip

Descripción del proceso descodificador de compresión de vídeo

El proceso codificador de compresión de vídeo 64 de la figura 3 proporciona representaciones codificadas o comprimidas de las señales de vídeo correspondientes a las secuencias de vídeo de múltiples cuadros de imagen. Las representaciones comprimidas incluyen máscaras de objeto 66, puntos de característica 68, coeficientes de transformación afines 104, y datos de error comprimidos 116 del proceso codificador 64 y los objetos maestro comprimidos 136 del proceso codificador 130. Estas representaciones comprimidas facilitan el almacenamiento o transmisión de la información de vídeo, y son capaces de alcanzar cocientes de compresión de hasta el 300 por ciento más que los conseguidos con métodos convencionales de compresión de vídeo como MPEG-2.

\newpage

Sin embargo, como se aprecia, la recuperación de dicha información de vídeo comprimida del. almacenamiento de datos o la recepción de la transmisión de la información de vídeo requiere que esté descodificada o descomprimida para reconstruir la señal de vídeo original y así poder renderizarla mediante un dispositivo de visualización como un dispositivo de pantalla de vídeo 52 (figuras 2A y 2B). Como en los procesos de codificación convencionales como MPEG-1, MPEG-2, y H.26X, la descompresión o descodificación de la información de vídeo es básicamente el proceso inverso por el que la señal de vídeo original se codifica o comprime.

La figura 23A es un diagrama por bloques funcional de un proceso descodificador- de compresión de vídeo 700 para descomprimir la información de vídeo generada mediante el proceso codificador de compresión de vídeo 64 de la figura 3. Con objeto de conseguir coherencia con la descripción del proceso codificador 64, el proceso descodificador 700 se describe en relación con las figuras 2A y 2B. El proceso descodificador 700 recupera de la memoria o recibe como información de vídeo codificada de transmisión que incluye máscaras de objeto 66, puntos de característica 136, coeficientes de transformación afines 104, y datos de error comprimidos 116.

El proceso descodificador 700 realiza las operaciones que son la inversa del proceso codificador 64 (figura 3). Por consiguiente, cada una de las operaciones preferenciales descritas anteriormente del proceso codificador 64 tiene una parte de descodificación a la inversa.

El bloque de función 702 indica que las máscaras de objeto 66, puntos de característica 68, coeficientes de transformación afines 104, y datos de error comprimidos 116 se recuperan de la memoria o se reciben como transmisión para procesado mediante el proceso descodificador 700.

La figura 23B es un diagrama por bloques funcional de un proceso descodificador de objetos maestro 704 para descodificar o descomprimir el objeto maestro comprimido 136. El bloque de función 706 indica que los datos del objeto maestro comprimidos 136 son descodificados entrópicamente mediante el método inverso de codificación entrópica convencional sin pérdidas en el bloque de función 134 de la figura 3B. El bloque de función 708 indica que el objeto maestro descodificado entrópicamente del bloque de función 706 se descodifica siguiendo el proceso inverso de codificación por wavelets convencional sin pérdidas usado en el bloque de función 132 de la figura 3B.

El bloque de función 712 indica que las transformaciones de movimiento denso, preferiblemente transformaciones afines multidimensionales se generan desde coeficientes afines 104. Preferiblemente, los coeficientes afines 104 se cuantifican de acuerdo con el método de transformación 350 (figura 12), y las transformaciones afines se generan de coeficientes afines cuantificados realizando lo inverso de las operaciones descritas en relación con el bloque de función 362 (figura 12).

El bloque de función 714 indica que una forma cuantificada de un objeto 716 en un cuadro anterior N-1 (por ejemplo, un objeto sólido rectangular 56a en el cuadro de imagen 54a) proporcionado a través de un retraso de sincronización 718 se transforma mediante una transformación de movimiento denso para proporcionar una forma prevista del objeto 720 en un cuadro actual N (por ejemplo, un objeto sólido rectangular 56b en el cuadro de imagen 54b).

El bloque de función 722 indica que para el cuadro de imagen N, el objeto actual previsto 720 se agrega a un error cuantificado 724 generado de los datos de error comprimidos 116. Particularmente, el bloque de función 726 indica que los datos de error comprimidos 116 se descodifican por un proceso inverso al del proceso de compresión 114 (figura 3A). En la representación preferencial, los bloques de función 114 y 726 se basan en un método de compresión convencional de imágenes fijas sin pérdidas como la codificación entrópica.

El bloque de función 728 indica que los datos de error descodificados entrópicamente del bloque de función 726 son descomprimidos o descodificados mediante un método convencional de compresión de imágenes fijas con pérdida que corresponde al utilizado en el bloque de función 112 (figura 3A). En la representación preferencial, ladescompresión o descodificación del bloque de función 728 se realiza mediante el proceso por wavelets o sub-banda reticular o transformada de coseno discreta (DCT).

El bloque de función 722 proporciona el objeto cuantificado 730 para el cuadro N como la suma del objeto previsto 720 y el error cuantificado 724, que representan un objeto reconstruido o descomprimido 732 que se entrega al bloque de función 718 para la reconstrucción del objeto en cuadros subsecuentes.

El bloque de función 734 indica que el objeto cuantificado 732 está montado con - otros objetos de un cuadro de imagen actual N para formar una señal de vídeo descomprimida.

\vskip1.000000\baselineskip

Codificación de cadena simplificada

Las máscaras, objetos, sprites, y otras características gráficas se representan comúnmente mediante el contorno. Según se indica y explica en la figura 5A, por ejemplo, el objeto sólido rectangular 56a está limitado por un perímetro o contorno del objeto 142. A un proceso convencional de codificación o compresión de contornos se lo conoce como codificación de cadena.

\newpage

La figura 24A muestra un código en cadena convencional de ocho puntos 800 del cual se definen los contornos en una matriz de píxeles rectilínea convencional. Basado sobre una localización actual X del píxel, una localización sucesiva siguiente del píxel en el contorno se extiende en una de las direcciones 802a-802h. El valor del código de cadena para el siguiente píxel sucesivo es el valor numérico que corresponde a la dirección concreta 802. A modo de ejemplo, la dirección derecha, horizontal 802a corresponde al valor del código de cadena O, y la dirección vertical hacia abajo 802g corresponde al valor del código de cadena 6. Cualquier contorno continuo se puede describir desde el código de cadena de ocho puntos 800.

En cuanto a la figura 24B, un contorno 804 representado por píxeles 806 designado X y AG se puede codificar de una manera convencional por la secuencia del código de cadena {00764432}. Particularmente, si comenzamos por el píxel X, los píxeles A y B se colocan en la dirección 0 con respecto a los píxeles X y A. El píxel C se coloca en la dirección 7 relativa al píxel B. Los píxeles restantes D-G se colocan igualmente en las direcciones correspondientes a los valores de código de cadena enumerados anteriormente. En una representación binaria, cada valor del código de cadena convencional es representado mediante tres bits digitales.

La figura 25A es un diagrama por bloques funcional de un proceso de código de cadena 810 de la presente invención capaz de proporcionar cocientes de compresión de contorno de al menos dos veces los de los procesos convencionales de código de cadena. El proceso del código de cadena 810 alcanza tales cocientes de compresión mejorados limitando el número de códigos de cadena y definiéndolos con respecto a la alineación de pares de píxeles adyacentes. Basado en la experimentación, se ha descubierto que los códigos de cadena limitados del proceso del código de cadena 810 representan directamente más del 99,8% de las alineaciones de píxeles de los contornos de máscara u objeto. Las modificaciones de código de cadena de casos especiales alojan menos del 0,2% remanente de la alineación de píxeles tal y como se describe en detalle más adelante.

El bloque de función 816 indica que un contorno se obtiene de una máscara, objeto, o sprite. El contorno puede obtenerse, por ejemplo, del proceso de segmentación del objeto 140 descrito en relación con las figuras 4 y 5.

El bloque de función 818 indica que se identifica un píxel inicial en el contorno. El píxel inicial puede identificarse por métodos comunes como por ejemplo, un píxel con unas posiciones de coordenadas X e Y mínimas.

El bloque de función 820 indica que un código de cadena predeterminado se asigna para representar la relación entre el píxel inicial y el siguiente píxel adyacente en el contorno. Preferiblemente, el código de cadena predeterminado se define para que corresponda con la dirección hacia adelante.

La figura 25B es una representación diagramática de un código de cadena de tres puntos 822 de la presente invención. El código de cadena 822 incluye tres códigos de cadena 824a, 824b, y 824c que correspondan a una dirección hacia adelante 826a, una dirección hacia la izquierda 826b, y una dirección hacia la derecha 826c de forma respetuosa. Se definen las direcciones 826a-826c en relación con una dirección de alineación precedente 828 entre un píxel actual 830 y un píxel adyacente 832 que representa al píxel precedente en el código de cadena.

La dirección de alineación precedente 828 puede extenderse en cualquiera de las direcciones 802 que se muestran en la figura 24A, pero se muestran con una orientación específica (es decir, derecha, horizontal) con objeto de ilustrar. La dirección 826ä se define, por lo tanto, al igual que la dirección 828. Las direcciones 826b y 826c difieren de la dirección 828 por los desplazamientos de un píxel hacia la izquierda y derecha.

Se ha determinado experimentalmente que algo más del 50% de los códigos de cadena 824 corresponden a la dirección hacia adelante 826a, y algo menos del 25% de los códigos de cadena 824 corresponden a cada una de las direcciones 826b y 826c.

El bloque de función 836 representa una averiguación en cuanto a si el siguiente píxel adyacente en el contorno se ajusta a una de las direcciones 826. Siempre que el siguiente píxel adyacente en el contorno se ajuste a una de las direcciones 826, el bloque de función 836 procede al bloque de función 838, y si no procede con el bloque de función 840.

El bloque de función 838 indica que al siguiente píxel adyacente se le asigna un código de cadena 824 que corresponde a su dirección 826 relativa a la dirección 828 a lo largo de la cual se alinea el precedente par de píxeles adyacentes.

El bloque de función 840 indica que una secuencia de píxeles que se ajuste a una de las direcciones 826 sea sustituida por la secuencia real de píxeles que no se ajuste. En base a experimentos, se ha determinado que tales sustituciones se presentarán normalmente en menos del 0,2% de secuencias de píxeles en un contorno y pueden ser acogidas por una de seis modificaciones de casos especiales.

La figura 25C es una representación diagramática de las seis modificaciones de casos especiales 842 para convertir secuencias de píxeles que no se ajustan a las secuencias de píxeles que se ajustan a las direcciones 826. Dentro de cada modificación 842, se convierte una secuencia de píxeles 844 a una secuencia de píxeles 846. En cada una de las secuencias de píxeles 844 de los respectivos píxeles adyacentes X^{1}, X^{2}, A, B, la dirección entre los píxeles A y B no se ajusta
a una de las direcciones 826 debido a la alineación del píxel A en relación a la alineación de los píxeles X^{1} y X^{2}.

En la secuencia de píxeles 844a, las alineaciones iniciales de píxeles 850a y 852a representan un cambio de dirección de ángulo recto que no se ajusta. Por consiguiente, en la secuencia de píxeles 846a, el píxel A de la secuencia de píxeles 844a se omite, dando lugar a una dirección de píxeles 854a que se ajusta a la dirección de píxeles 826a. Las modificaciones de la secuencia de píxeles 842b-842f convierten de igual forma las secuencias de píxeles que no se ajustan 844b-844f en secuencias que se ajustan 846b-846f, respectivamente.

Las modificaciones de la secuencia de píxeles 842 omiten los píxeles que causan alineaciones de dirección de píxeles que cambian en 90º o más en relación con las alineaciones de píxeles precedentes adyacentes X1 y X2. Un efecto es aumentar el radio de curvatura mínimo de un contorno que representa un ángulo recto en tres píxeles. Las modificaciones de píxeles 842 ocasionan, por tanto, una pérdida menor del detalle extremadamente fino del contorno. Sin embargo, de acuerdo con esta invención se ha determinado que la pérdida de dichos detalles es aceptable bajo la mayoría de las situaciones de visualización.

El bloque de función 860 representa una averiguación en cuanto a si hay otro píxel en el contorno al que se le ha de asignar un código de cadena. Siempre que haya otro píxel en el contorno al que se le ha de asignar un código de cadena, el bloque de función vuelve al bloque de función 836 y procede con el bloque de función 862.

El bloque de función 862 indica que se eliminan las direcciones de alineación de píxeles que no se ajustan y las cuales se hayan introducido o incurrido mediante el proceso del bloque de función 840. En una representación preferencial, los cambios de dirección que no se ajustan pueden ser omitidos simplemente volviendo al bloque de función 816 y repitiendo el proceso 810 hasta que no queden secuencias de píxeles que no se ajusten, lo cual se consigue normalmente en menos de 8 iteraciones. En una representación alternativa, dichos cambios de dirección incurridos que no se ajustan se pueden corregir en "tiempo real" comprobando y corrigiendo cualquier cambio de dirección incurrido que no se ajuste cada vez que se modifica un cambio de dirección que no se ajusta.

El bloque de función 864 indica que se ha generado un código de Huffman desde el código de cadena simplificado resultante. Con los códigos de cadena 824a-824c correspondientes a las direcciones 826A-826C que ocurren al aproximadamente el 50%, 25% y 25% de píxeles en un contorno, se asignan los respectivos códigos de Huffman de 0, 11 y 10. Dichos códigos de Huffman de primer orden permiten que el proceso de cadena 810 represente contornos a una velocidad de bits de menos de 1,5 bits por píxel en el contorno. Dicha velocidad de bits representa aproximadamente una mejora de la relación de compresión del 50% sobre los procesos convencionales de códigos de cadena.

Como se aprecia una codificación Huffman de un orden superior puede proporcionar cocientes de compresión más elevados. Una codificación Huffman de un orden superior incluye, por ejemplo, la asignación de valores predeterminados a secuencias preseleccionadas de códigos Huffman de primer orden.

\vskip1.000000\baselineskip

Generación de sprites

La presente invención incluye generación de sprites para su uso en relación con la codificación de determinado vídeo de movimiento (película). Los mapas de bits se acrecientan en las series de mapas de bits que abarcan una pluralidad de mapa de bits secuenciales de imágenes secuenciales procedentes de una fuente de la imagen. El aumento se utiliza para superar el problema de los píxeles ocluidos donde los objetos o figuras se desplazan unos con respecto a otros o donde una figura ocluye otra de forma parecida en que una figura en primer plano ocluye el fondo. Por ejemplo, cuando una figura en primer plano se mueve y deja ver un nuevo fondo, no hay manera de construir ese nuevo fondo de un mapa de bits anterior a menos que el mapa de bits anterior se mejorara primero incluyendo píxeles que fueran a dejarse al descubierto en el subsiguiente mapa de bits. Este método toma una imagen incompleta de una figura y mira hacia adelante en el tiempo para encontrar cualquier píxel que pertenezca a la imagen, pero no sea visible de forma inmediata. Esos píxeles se utilizan para crear un mapa de bits compuesto de la figura. Con el mapa de bits compuesto, cualquier vista futura de la figura puede ser creada distorsionando el mapa de bits compuesto.

El proceso de codificación comienza con un operario que identifica las figuras y las partes de las figuras de un mapa de bits actual a partir de una serie de mapas de bits actual. Los puntos de característica o distorsión son seleccionados por el operario en las - características de las partes sobre las cuales las partes de las figuras se mueven. Una rejilla actual de los triángulos se superpone sobre las partes del mapa de bits actual. Los triángulos que constituyen la rejilla actual de triángulos se forman conectando puntos de distorsión adyacentes. Los puntos de distorsión son los vértices de los triángulos. La ubicación actual de cada triángulo en el mapa de bits actual viene determinada y almacenada en el dispositivo de almacenamiento. Una porción de datos del mapa de bits actual que define la primera imagen dentro de la ubicación actual de cada triángulo se conserva para su uso posterior.

Un mapa de bits sucesivo que define una segunda imagen de la serie de mapa de bits actual se recibe de la fuente de imágenes y las figuras y partes de la figura son identificadas por el operario. Después, la rejilla de triángulos actual del mapa de bits actual se superpone al mapa de bits siguiente. Los puntos de distorsión de la rejilla actual de triángulos se alinean de nuevo para coincidir con las características de las figuras correspondientes en el mapa de bits sucesivos. Los puntos de la distorsión realineada dan forma a una rejilla sucesiva de triángulos en el mapa de bits subsiguiente de la segunda imagen. La ubicación siguiente de cada triángulo en el mapa de bits subsiguiente viene determinada y almacenada en el dispositivo de almacenamiento. Una porción de datos del mapa de bits siguiente que define la segunda imagen dentro de la ubicación subsiguiente de cada triángulo se conserva para su uso posterior.

El proceso de determinación y almacenamiento de las ubicaciones actuales y subsiguientes de cada triángulo se repite para la pluralidad de mapa de bits secuenciales de la serie de mapa de bits actual. Cuando se termina ese proceso, una imagen media de cada triángulo en la serie de mapa de bits actual se determina de los datos conservados por separado. La imagen media de cada triángulo se almacena en el dispositivo de almacenamiento.

Durante la reproducción, la imagen media de cada triángulo de la serie de mapa de bits actual y la ubicación actual de cada triángulo del mapa de bits actual se recupera del dispositivo de almacenamiento. Un mapa de bits previsto se genera calculando una solución de transformación para transformar la imagen media de cada triángulo en las series de mapas de bits actual en la localización actual de cada triángulo del mapa de bits actual y aplicar la solución de transformación a la imagen media de cada triángulo. El mapa de bits previsto se pasa al monitor para su visualización.

Con respecto a un vídeo de movimiento determinado de reproducción (videojuego) en el que las imágenes vienen determinadas por un programa de control en la reproducción, se almacena un mapa de bits del sprite en su totalidad en un dispositivo de almacenamiento. El mapa de bits del sprite abarca una pluralidad de bits de datos que definen una imagen del sprite. El mapa de bits del sprite se visualiza en un monitor, y las partes del sprite son identificadas por un operario y los puntos de distorsión seleccionados para las partes del sprite.

Una rejilla de triángulos se superpone sobre las partes del mapa de bits del sprite. Los triángulos que constituyen la rejilla de triángulos están formados mediante la conexión de puntos de distorsión adyacentes. Los puntos de distorsión son los vértices de los triángulos. La ubicación de cada triángulo del mapa de bits del sprite se determina y almacena en el dispositivo de almacenamiento.

Durante la reproducción, se recibe una localización subsiguiente de cada triángulo de un programa de control. El mapa de bits del sprite y la ubicación subsiguiente de cada triángulo en el mapa de bits del sprite se llaman desde el dispositivo de almacenamiento y se pasan al procesador de visualización. La localización subsiguiente de cada triángulo también se pasa al procesador de visualización.

Se calcula una solución de transformación para cada triángulo en el mapa de bits del sprite. Un mapa de bits sucesivo se genera en el procesador de visualización al aplicar la solución de transformación de cada triángulo derivado del mapa de bits del sprite que define la imagen del sprite dentro de la localización de cada triángulo. El procesador de visualización pasa el mapa de bits subsiguiente del sprite a un monitor para su visualización. Este proceso se repite para cada localización subsiguiente de cada triángulo solicitado por el programa de control.

Tal y como se muestra en la figura 26, un procedimiento de codificación para un vídeo de movimiento de película comienza en el paso 900 por la CPU 22 recibiendo de una fuente de imagen una serie de mapas de bits actuales. La serie de mapas de bits actual abarca una pluralidad de mapas de bits secuenciales de imágenes secuenciales. La serie de mapas de bits actuales tiene un mapa de bits actual que abarca una pluralidad de bits de datos que definen una primera imagen de la fuente de imágenes. La primera imagen abarca al menos una figura con como mínimo una parte.

Siguiendo con el paso 902, la primera imagen se le visualiza al operario en el monitor 28. En el monitor 28, el operario identifica las figuras de la primera imagen en el mapa de bits actual. Las partes de la figura en el mapa de bits actual son identificadas por el operario en el paso 904.

Después, en el paso 906, el operario selecciona los puntos de característica o distorsión en el mapa de bits actual. Se seleccionan los puntos de distorsión de modo que los puntos de distorsión coincidan con las características en el mapa de bits donde es probable que se produzca el movimiento relativo de una parte. Se entiende por los expertos en esta técnica que las figuras, las partes de las figuras y los puntos de distorsión en un mapa de bits se pueden identificar por el sistema informático 20 o con ayuda del mismo. Sin embargo, lo ideal es que el operario identifique las figuras, las partes de las figuras y los puntos de distorsión en un mapa de bits.

Al proceder con el paso 908, una rejilla actual de triángulos es superpuesta sobre las partes del mapa de bits actual por el sistema informático 20. En cuanto a la figura 27A, la rejilla actual abarca triángulos formados mediante la conexión de puntos de distorsión adyacentes. Los puntos de distorsión forman los vértices de los triángulos. Concretamente, la primera imagen del actual mapa de bits abarca una figura, que es una persona 970. La persona 970 tiene seis partes correspondientes a la cabeza 972, torso 974, un brazo derecho 976, un brazo izquierdo 978, la pierna derecha 980, y la pierna izquierda 982, Los puntos de distorsión se seleccionan en cada parte de la persona 970 de modo que los puntos de distorsión coincidan con las características donde es probable que se produzca el movimiento relativo de una parte. Una rejilla actual se superpone a cada parte con los triángulos de cada rejilla actual formada mediante la conexión de los puntos adyacentes de distorsión. Los puntos de distorsión son por tanto los vértices de los
triángulos.

En el paso 910, el sistema informático 20 determina una ubicación actual de cada triángulo en el mapa de bits actual. La localización actual de cada triángulo en el mapa de bits actual viene definida por la ubicación de los puntos de distorsión que forman los vértices del triángulo. En el paso 912, la localización actual de cada triángulo se almacena en el dispositivo de almacenamiento. Una porción de los datos derivados del mapa de bits actual que define la primera imagen dentro de la ubicación actual de cada triángulo se conserva en el paso 914.

\newpage

Después, en el paso 916, un siguiente mapa de bits de la actual serie de mapa de bits es recibido por la CPU 22. El mapa de bits sucesivo abarca una pluralidad de los bits de datos que definen una segunda imagen de la serie de mapa de bits actual. La segunda imagen puede o no puede incluir las figuras que corresponden a las figuras de la primera imagen. Para los pasos siguientes, se asume que la segunda imagen tiene figuras que corresponden con las figuras de la primera imagen. En el paso 918, la rejilla actual de triángulos se superpone al mapa de bits sucesivo. La segunda imagen con la rejilla triangular superpuesta se visualiza en el monitor del operario 28.

En el paso 920, los puntos de distorsión son realineados para que coincidan con las características correspondientes en el mapa de bits sucesivo por el operario con ayuda del sistema informático 20. El sistema informático 20 realinea la distorsión a través de la correspondencia de bloques. Cualquier error es corregido por el operario. En cuanto a la figura 27B, los puntos de distorsión realineados forman una rejilla sucesiva de triángulos. Los puntos de distorsión realineados son los vértices de los triángulos. Más específicamente, la segunda imagen del mapa de bits sucesivo de la persona 200 incluye cabeza 972, torso 974, brazo derecho 976, brazo izquierdo 978, pierna derecha 980, y pierna izquierda 982. En la segunda imagen, sin embargo, se eleva el brazo derecho 980. Las rejillas actuales de la primera imagen se han superpuesto sobre cada parte y sus puntos de distorsión realineados para que coincidan con las características correspondientes en la segunda imagen. Los puntos de distorsión realineados definen las sucesivas rejillas de triángulos. Las rejillas sucesivas abarcan los triángulos formados conectando los puntos de distorsión realineados. Así, el punto de distorsión realineado forma los vértices de los triángulos de las rejillas sucesivas.

Al proceder con el paso 922, el sistema informático 20 determina una localización sucesiva de cada triángulo del mapa de bits sucesivo. En el paso 924, la localización sucesiva de cada triángulo del mapa de bits sucesivo se almacena en el dispositivo de almacenamiento. Se retiene una parte de los datos derivados del mapa de bits sucesivo que define la segunda imagen dentro de la localización sucesiva de cada triángulo en el paso 926. El paso 926 lleva al paso decisivo 928 donde se determina si existe un siguiente mapa de bits sucesivo.

Si existe un siguiente mapa de bits sucesivo, el ramal YES del paso decisivo 928 lleva al paso 930 donde el mapa de bits sucesivo se convierte en el mapa de bits actual. El paso 930 vuelve al paso 916 donde la CPU 22 recibe un mapa de bits sucesivo de la serie de mapa de bits actual. Si no existe un siguiente mapa de bits sucesivo, el ramal NO del paso decisivo 928 lleva al paso 932 donde es determina una imagen media para cada triángulo de la serie de mapa de bits actual. La imagen media es el valor mediano de los píxeles de un triángulo. El uso de la imagen media hace que el proceso sea menos susceptible a la degeneración. Al proceder con el paso 934, la imagen media de cada triángulo de la serie de mapa de bits actual se almacena en el dispositivo de almacenamiento.

Después, en el paso 936, la localización actual de cada triángulo en el mapa de bits actual se recupera desde el dispositivo de almacenamiento. Una solución de transformación afín para transformar la imagen media de cada triángulo a la localización actual del triángulo en el mapa de bits actual es calculada por el sistema informático 20 en el paso 938. En el paso 940, se genera un mapa de bits previsto aplicando la solución de transformación de la imagen media de cada triángulo a la localización actual de cada triángulo en el mapa de bits actual. El mapa de bits previsto se compara con el mapa de bits actual en el paso 942.

En el paso 944 se genera un mapa de bits de corrección. El mapa de bits corregido abarca los bits de datos del mapa de bits actual que no fueron predichos con exactitud por el mapa de bits previsto. El mapa de bits corregido se almacena en el dispositivo de almacenamiento del paso 948. El paso 948 lleva al paso decisivo 950 donde se determina si existe un mapa de bits sucesivo.

Si existe un mapa de bits sucesivo, el ramal YES del paso decisivo 950 lleva al paso 952 donde el mapa de bits sucesivo se convierte en el mapa de bits actual. El paso 952 vuelve al paso 936 donde la localización actual de cada triángulo en el mapa de bits actual se recupera desde el dispositivo de almacenamiento. Si no existe un siguiente mapa de bits sucesivo el ramal NO del paso decisivo 950 lleva al paso decisivo 954 donde se determina si existe una serie de mapas de bits sucesivos. Si no existe una serie de mapas de bits sucesivos, se acaba la codificación y el ramal NO del paso decisivo 954 lleva al paso 956. Si existe una serie de mapas de bits sucesivos, el ramal SI del paso decisivo 954 lleva al paso 958 donde la CPU 22 recibe la serie de mapas de bits sucesivos como la serie de mapas de bits actuales. El paso 956 vuelve al paso 902 donde las figuras de la primera imagen de la serie de mapas de bits actuales son identificadas por el operario.

El proceso de la figura 26 describe la generación de un sprite u objeto maestro 90 para uso del proceso codificador 64 de la figura 3. El proceso de utilización del objeto maestro 90 para formar objetos previstos 102 se describe en relación con la figura 28.

Tal y como se muestra en la figura 28, el procedimiento comienza con la recuperación en el paso 1000 de una serie de mapas de bits actuales. La serie de mapas de bits actual abarca una pluralidad de mapas de bits secuenciales de imágenes secuenciales. La serie de mapas de bits actuales tiene un mapa de bits actual que abarca una pluralidad de bits de datos que definen una primera imagen de la fuente de imágenes. La primera imagen abarca al menos una figura con como mínimo una parte.

Al proceder con el paso 1002, la imagen media de cada triángulo de la serie de mapas de bits actuales se recupera del dispositivo de almacenamiento. La imagen media de cada triángulo entonces se pasa a un procesador de visualización (no se muestra) en el paso 704. Como se aprecia, el sistema informático 20 (figura 1) puede incluir opcionalmente un procesador de visualización u otros componentes dedicados para la ejecución de los procesos de esta invención. Al proceder con el paso 1006, la localización actual de cada triángulo en el mapa de bits actual se recupera del dispositivo de almacenamiento. La localización actual de cada triángulo se pasa al procesador de visualización en el paso 1008.

Después, el procesador de visualización calcula en el paso 1010 una solución de transformación afín para transformar la imagen media de cada triángulo a la localización actual de cada triángulo en el mapa de bits actual. Al proceder con el paso 1012, el procesador de visualización genera un mapa de bits previsto aplicando la solución de transformación para transformar la imagen media de cada triángulo a la localización actual de cada triángulo en el mapa de bits actual.

En el paso 1014, se recupera un mapa de bits de corrección del dispositivo de almacenamiento para el mapa de bits actual. El mapa de bits de corrección se pasa al procesador de visualización en el paso 716. Un mapa de bits de visualización se genera en el procesador de visualización superponiendo el mapa de bits previsto con el mapa de bits de corrección. El procesador de visualización retiene una copia de la imagen media de cada triángulo y pasa el mapa de bits de visualización al búfer del cuadro para su visualización en el monitor.

Después, en el paso decisivo 1020, se determina si existe un mapa de bits sucesivo de la serie de mapa de bits actual; Si existe un mapa de bits sucesivo de la serie de mapa de bits actual, el ramal YES del paso decisivo 1020 lleva al paso 1022. En el paso 1022, el mapa de bits sucesivo se convierte en el mapa de bits actual. El paso 1022 vuelve al paso 1006 donde la localización de cada triángulo en el mapa de bits actual se recupera del dispositivo de almacenamiento.

Al volver al paso decisivo 1020, si no existe un mapa de bits sucesivo de la serie de mapa de bits actual, el ramal NO del paso decisivo 1020 lleva al paso decisivo 1024. En el paso decisivo 1024, se determina si existe una serie de mapa de bits sucesivo. Si no existe una serie de mapas de bits sucesivos, se acaba el proceso y el ramal NO del paso decisivo 1024 lleva al paso 1026. Si existe una serie de mapas de bits sucesivos, el ramal YES del paso decisivo 1024 lleva al paso 1028. En el paso 1028, la serie de mapas de bits sucesivos se convierte en la serie de mapas de bits actuales. El paso 1028 vuelve al paso 1000.

Claims

```
\global\parskip0.950000\baselineskip
```
1. Un método de descodificar objetos de vídeo plurales en una secuencia de vídeo, para usar en un descodificador de vídeo basados en objetos, donde el método abarca:

la recepción de datos codificados para los objetos de vídeo plurales en la secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, y en donde los datos codificados incluyen:

datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales;

una o más máscaras que definen la forma del primer objeto de vídeo;

uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite;

datos intracodificados para el segundo objeto de vídeo;

una o más máscaras que definen la forma del segundo objeto de vídeo;

por lo menos uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y

una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales;

la descodificación del sprite para el primer objeto de vídeo;

la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez;

la descodificación del segundo objeto de. vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y

la descodificación del segundo objeto de vídeo la segunda vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de movimiento para el segundo objeto de vídeo la segunda vez para calcular los valores del píxel para los píxeles del segundo objeto de vídeo la segunda vez del segundo objeto de vídeo descodificado la primera vez, e incluyendo también la combinación de los valores del píxel calculados para los píxeles del segundo objeto de vídeo la segunda vez con una señal de error para el segundo objeto de vídeo la segunda vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la segunda vez.
```
\vskip1.000000\baselineskip
```
2. El método de la reivindicación 1 abarca además:

la descodificación del primer objeto de vídeo la segunda vez, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la segunda vez para calcular los valores de píxel para los píxeles del primer objeto de vídeo la segunda vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la segunda vez.
```
\vskip1.000000\baselineskip
```
3. El método de la reivindicación 2 abarca además:

la composición del primer objeto de vídeo descodificado y el segundo objeto de vídeo descodificado la primera vez; y

la composición del primer objetó de vídeo descodificado y el segundo objeto de vídeo descodificado la segunda vez.
```
\global\parskip1.000000\baselineskip
```
4. El método de la reivindicación 2 en donde los datos codificados incluyen además una o más señales de error para el primer objeto de vídeo, y en donde el método también abarca:

durante la descodificación del primer objeto de vídeo la primera vez, la combinación de los píxeles calculados del primer objeto de vídeo la primera vez con una señal de error para el primer objeto de vídeo la primera vez; y

durante la descodificación del primer objeto de vídeo la segunda vez, la combinación de los píxeles calculados del primer objeto de vídeo la segunda vez con una señal de error para el primer objeto de Vídeo la segunda vez.
```
\vskip1.000000\baselineskip
```
5. El método de la reivindicación 1 en donde el descodificador de vídeo basado en objetos comienza a descodificar los primeros y segundos objetos de vídeo por primera vez antes de terminar la recepción de los datos codificados por segunda vez.
6. Un método de procesamiento de datos codificados para objetos de vídeo plurales en una secuencia de vídeo, en donde los objetos de vídeo plurales incluyen un primer objeto de vídeo y un segundo objeto de vídeo, donde el método abarca:

el procesamiento de datos intracodificados para el primer objeto de vídeo, en donde los datos intracodificados para el primer objeto de vídeo abarcan un sprite, el cual abarca a su vez un mapa de bits formado de la combinación de valores del píxel para los píxeles del primer objeto de vídeo en diversos momentos plurales en la secuencia de vídeo de modo que el mapa de bits representa porciones del primer objeto de vídeo que son visibles en alguno, pero no necesariamente en todos los diversos momentos plurales;

el procesamiento de una o más máscaras que definen la forma del primer objeto de vídeo;

el procesamiento de uno o más parámetros de trayectoria para el primer objeto de vídeo en uno o más de los diversos momentos plurales, en donde el o los parámetros de trayectoria indican transformaciones para calcular valores de píxeles para píxeles del primer objeto de vídeo del sprite;

el procesamiento de datos intracodificados para el segundo objeto de vídeo;

el procesamiento de una o más máscaras que definen la forma del segundo objeto de vídeo;

el procesamiento de, al menos de uno de los diversos momentos plurales, uno o más parámetros de movimiento que indican transformaciones para calcular valores de píxeles para los píxeles del segundo objeto de vídeo; y

el procesamiento de una o más señales de error para el segundo objeto de vídeo para al menos uno de los diversos momentos plurales;

en donde los datos codificados son formateados para ser descodificados por un descodificador de vídeo basado en objetos mediante:

la descodificación del sprite para el primer objeto de vídeo;

la descodificación del primer objeto de vídeo la primera vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la primera vez para calcular los valores del píxel para los píxeles del primer objeto de vídeo la primera vez del sprite para el primer objeto de vídeo, en donde 1 a o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la primera vez;

la descodificación del segundo objeto de vídeo la primera vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la primera vez; y

la descodificación del segundo objeto de vídeo la segunda vez de los diversos momentos plurales, incluyendo la utilización de uno o más parámetros de movimiento para el segundo objeto de vídeo la segunda vez para calcular los valores del píxel para los píxeles del segundo objeto de vídeo la segunda vez del segundo objeto de vídeo descodificado la primera vez, e incluyendo también la combinación de los valores del píxel calculados para los píxeles del segundo objeto de vídeo la segunda vez con una señal de error para el segundo objeto de vídeo la segunda vez, en donde la o las máscaras que definen la forma del segundo objeto de vídeo indican qué píxeles son parte del segundo objeto de vídeo la segunda vez.
```
\vskip1.000000\baselineskip
```
7. El método de la reivindicación 6 en donde la descodificación por un descodificador de vídeo basado en objetos abarca además:

la descodificación del primer objeto de vídeo la segunda vez, incluyendo la utilización de uno o más parámetros de trayectoria para el primer objeto de vídeo la segunda vez para calcular los valores de píxel para los píxeles del primer objeto de vídeo la segunda vez del sprite para el primer objeto de vídeo, en donde la o las máscaras que definen la forma del primer objeto de vídeo indican qué píxeles son parte del primer objeto de vídeo la segunda vez.
```
\vskip1.000000\baselineskip
```
8. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo y la o las máscaras que definen la forma del segundo objeto de vídeo son máscaras binarias.
9. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo y la o las máscaras que definen la forma del segundo objeto de vídeo son máscaras alphachannel de múltiples bits.
10. El método de cualquier reivindicación precedente, en donde el primer objeto de vídeo representa el fondo en la secuencia de vídeo y el segundo objeto de vídeo representa un objeto de primer plano en la secuencia de vídeo.
11. El método de cualquier reivindicación precedente, en donde el segundo objeto de vídeo se divide en bloques, y en donde el o los parámetros de movimiento están dirigidos a los bloques del segundo objeto de vídeo.
12. El método de cualquier reivindicación precedente, en donde el o los parámetros de movimiento para el segundo objeto de vídeo son parámetros de trayectoria.
13. El método de cualquier reivindicación precedente, en donde los datos intracodificados para el segundo objeto de vídeo incluyen un sprite para el segundo objeto de vídeo, y en donde la descodificación del segundo objeto de vídeo la primera vez incluye la descodificación del sprite para el segundo objeto de vídeo.
14. El método de cualquier reivindicación precedente, en donde el o los parámetros de trayectoria para el primer objeto de vídeo se codifican en términos de coordenadas del píxel.
15. El método de cualquier reivindicación precedente, en donde la o las máscaras que definen la forma para el primer objeto de vídeo están en términos de sprite para el primer objeto de vídeo.
16. Un programa de ordenador que abarca medios de código de programas de ordenador adaptados para realizar todos los pasos de cualquiera de las reivindicaciones precedentes cuando el programa se ejecuta en un ordenador.
17. Un programa de ordenador de acuerdo con la reivindicación 16, que se plasma en un medio legible por ordenador.