ES2280947T3

ES2280947T3 - Procedimiento y disposicion para la codificacion de video, comprendiendo la codificacion de video el analisis de textura y la sintesis de textura, asi como un programa informatico correspondiente y un medio de memoria legible por ordenador correspondiente.

Info

Publication number: ES2280947T3
Application number: ES04714778T
Authority: ES
Inventors: Bela Makai; Patrick Ndjiki-Nya; Heiko Schwarz; Aljoscha Smolic; Thomas Dr.-Ing. Wiegand
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2003-02-28
Filing date: 2004-02-26
Publication date: 2007-09-16
Anticipated expiration: 2024-02-26
Also published as: JP4450828B2; WO2004077360A1; DK1599835T3; EP1635578A3; JP5063648B2; JP2010011470A; ES2318402T3; JP2006519533A; EP1635578A2; US7949053B2; EP1635578B1; EP1599835B1; ATE415052T1; US20060039617A1; ATE354143T1; DE502004002904D1; DE10310023A1; PT1599835E; EP1599835A1; DE502004008490D1

Abstract

Procedimiento para la codificación de vídeo, con las siguientes etapas: - realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse; empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse; caracterizado por - garantizar una consistencia temporal de la detección de texturas que pueden sintetizarse en una secuencia de imágenes mediante un catálogo de textura, por - almacenar la textura que puede sintetizarse de las zonas determinadas de textura que puede sintetizarse en una primera imagen de la secuencia en el catálogo de textura para iniciar el mismo; - comparar la textura que puede sintetizarse de las zonas determinadas de textura que puede sintetizarse en imágenes siguientes de la secuencia con las texturas que pueden sintetizarse,que se almacenan en el catálogo de textura; - en el caso de una coincidencia, asignar la textura que puede sintetizarse respectiva de una zona determinada de textura que puede sintetizarse bajo las siguientes imágenes de la secuencia con respecto a la textura correspondiente que puede sintetizarse almacenada en el catálogo de textura; y - en el caso de ninguna coincidencia, almacenar la textura correspondiente que puede sintetizarse de una zona determinada de textura que puede sintetizarse bajo las siguientes imágenes de la secuencia almacenada en el catálogo de textura.

Description

Procedimiento y disposición para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, así como un programa informático correspondiente y un medio de memoria legible por ordenador correspondiente.

La invención se refiere a un procedimiento y a una disposición para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, así como un programa informático correspondiente y un medio de memoria legible por ordenador correspondiente. La invención puede emplearse especialmente para reducir la tasa de transmisión de datos en la transferencia de datos de vídeo.

Muchas escenas de vídeo contienen texturas típicas tales como agua, hierba, árboles, nubes, arena, etc. Estas texturas por lo general son ricas en detalles y por tanto son muy complicadas de codificar. No obstante la reconstrucción exacta de estas texturas puede considerarse irrelevante, cuando se representan con una resolución local reducida. Por tanto no es necesario, realizar en primer lugar una codificación que requiere muchos cálculos de las zonas de textura de este tipo, transferir la (gran) cantidad de datos que se origina en este caso para reconstruir finalmente la textura basada en el MSE (MSE = mean squared error, error cuadrático medio). El espectador debe solamente poder detectar la textura representada con detalles irrelevantes, lo que precisamente a menudo no es el caso cuando se realiza la reconstrucción de este modo, si se emplea un filtro previo, dado que mediante eso se falsifica la textura.

Un procedimiento para la codificación de imágenes, que comprende el análisis de textura y la síntesis de textura se conoce, por ejemplo, por el artículo Yoon S Y et al: "Subband texture synthesis for image coding", Proceedings of the SPIE, vol. 3299, enero de 1998, págs. 489-497. El procedimiento está diseñado para imágenes sin movimiento, por lo que en zonas de la misma textura aparecen inconsistencias temporales entre imágenes consecutivas.

El objetivo de la invención consiste por tanto en facilitar un procedimiento y una disposición para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, así como un programa informático correspondiente y un medio de memoria legible por ordenador correspondiente, que evitan las desventajas mencionadas de las soluciones conocidas y especialmente permiten una reproducción de texturas sin pérdida de calidad visual con la reducción al mismo tiempo de los datos de vídeo que han de transferirse.

Este objetivo se soluciona según la invención mediante las características en las reivindicaciones 1, 16, 18 así como 19. Las reivindicaciones dependientes contienen configuraciones convenientes de la invención.

Una ventaja especial del procedimiento para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, consiste en reducir la tasa de transmisión de datos de los datos de vídeo que van a transferirse, realizándose en el lado del codificador un análisis de textura de escenas de vídeo para determinar zonas de textura que pueden sintetizarse, mediante el empleo de información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, se realiza una codificación de las escenas de vídeo y se crean metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse y en el lado del decodificador se evalúan los datos y metadatos codificados y las escenas de vídeo se reconstruyen generándose sintéticamente texturas para zonas determinadas mediante la evaluación de los metadatos.

En una forma de realización preferida del procedimiento según la invención está previsto que se determinen zonas de textura que puede sintetizarse mediante una segmentación por división y unión ("split and merge"), dividiéndose las imágenes mediante el empleo de un árbol cuaternario de resolución múltiple en imágenes secundarias (bloques). Al mismo tiempo ha demostrado ser ventajoso el hecho de que la división de un bloque (bloque de partida) se interrumpe se interrumpe cuando los bloques secundarios originados mediante la siguiente etapa de división presentan características de textura y/o color similares al bloque de partida o el tamaño de bloques de la última etapa de división se encuentra por debajo de un valor predeterminado. Además es ventajoso que los bloques, cuya división se interrumpió debido a las características de textura y/o color similares se caracterizan como bloques homogéneos y los bloques diferentes a los bloques homogéneos tras realizar la división de la imagen se caracterizan como bloques inclasificables. Para reducir el número de los bloques, en una forma de realización está previsto que tras la división de una imagen para los bloques homogéneos se realiza una evaluación de similitud y los bloques similares se reúnen para formar zonas que pueden sintetizarse. Una forma de realización especial del procedimiento según la invención prevé en este caso, que la similitud de bloques se evalúa basándose en descriptores MPEG-7, descriptor de textura "Edge Histogram" (EH) y/o descriptor de color ajustable a escala "Scalable Color" (SCC).

Otra forma de realización preferida prevé que las zonas determinadas de textura que puede sintetizarse de una imagen se comparan con zonas de textura que puede sintetizarse de imágenes anteriores de la secuencia de vídeo.

Adicionalmente es ventajoso cuando que la primera y la última imagen (los denominados cuadros clave) de un "grupo de cuadros" (GdC) se codifica basándose en un procedimiento de error cuadrático medio (basándose en MSE) y sintetizan parcialmente las imágenes B interpuestas con zonas determinadas que pueden sintetizarse. En una forma de realización preferida adicional del procedimiento según la invención se prevé garantizar la consistencia temporal de la detección de texturas que pueden sintetizarse de un "grupo de cuadros" (GdC) mediante un catálogo de
textura.

Otra forma de realización preferida prevé que las zonas que pueden sintetizarse en las imágenes que pueden sintetizarse parcialmente se adapten a zonas de textura correspondientes en los cuadros clave mediante deformaciones correspondientes (warping). En este caso se prevé especialmente que la deformación se realice con ayuda de un modelo de movimiento en perspectiva planar descrito mediante las siguientes ecuaciones:

x' = [(a_{1} + a_{3}x + a_{4}y)/(1 + a_{7}x + a_{8}y)] + x,

y' = [(a_{2} + a_{5}x + a_{6}y)/(1 + a_{7}x + a_{8}y)] + y,

en las que

(x, y) representan las coordenadas del punto de partida

(x', y') las coordenadas transformadas del punto de partida y

a_{1}, ..., a_{8} parámetros de modelo.

Se consiguen resultados especialmente buenos de la síntesis de textura si mediante la deformación la textura de la primera o de la última imagen del GdC actual se deforma en la dirección de la zona de textura que puede sintetizarse, asociando a cada zona de textura de este tipo un conjunto de parámetros de movimiento y un parámetro de control, indicando el parámetro de control si la primera o la última imagen de un GdC se emplea para la síntesis de la textura. Para ello está especialmente previsto que para la síntesis de la textura se emplea la imagen de un GdC para la que se determina una señal de diferencia menor entre la región de textura original y la sintetizada.

En una forma de realización preferida adicional del procedimiento según la invención para la codificación de vídeo está previsto que como metadatos de zonas con textura que puede sintetizarse por zona de textura se transfieran una máscara de segmentación, un conjunto de parámetros de movimiento y/o un parámetro de control.

Además ha resultado ser ventajoso cuando en la decodificación todos los macrobloques que pertenecen a una textura que puede sintetizarse se tratan como macrobloques "saltados" (skipped).

Una disposición según la invención presenta al menos un chip y/o procesador que está(n) configurado(s) de tal manera que puede realizarse un procedimiento para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, estando asociado un elemento para realizar un procedimiento para la codificación de vídeo con las siguientes etapas:

-: en el lado del codificador, realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse; empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse; y

-: en el lado del decodificador, evaluar datos y metadatos codificados y reconstruir las escenas de vídeo, generándose sintéticamente texturas para zonas determinadas mediante la evaluación de los metadatos.

En una forma de realización preferida de la disposición según la invención se prevé que la disposición comprenda un codificador de vídeo, un analizador de textura (AT), un decodificador de vídeo y un sintetizador de textura (ST), presentando el codificador de vídeo y el analizador de textura (AT) en cada caso una entrada de vídeo in y el decodificador de vídeo una salida de vídeo out, estando conectadas la salida del analizador de textura (AT) con una segunda entrada del codificador de vídeo y la salida del codificador de vídeo con la entrada del decodificador de vídeo, y estando conectada adicionalmente una segunda salida del codificador de vídeo con la entrada del sintetizador de textura (ST).

Ha resultado ser ventajoso, para realizar la codificación de vídeo según la invención, emplear un programa informático que permite a un ordenador, después de que se haya cargado en la memoria del ordenador, realizar un procedimiento para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, comprendiendo el programa informático un código de programa para realizar un procedimiento para la codificación de vídeo con las siguientes etapas:

-: en el lado del codificador realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse; empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas las zonas determinadas y para describir la textura que puede sintetizarse; y

Alternativamente a esto puede resultar ser ventajoso si se emplea un medio de memoria legible por ordenador, en el que se graba un programa, que permite a un ordenador, después de que se haya cargado en la memoria del ordenador, realizar un procedimiento para la codificación de vídeo, comprendiendo la codificación de vídeo el análisis de textura y la síntesis de textura, comprendiendo el programa informático un código de programa para realizar un procedimiento para la codificación de vídeo con las siguientes etapas:

-: en el lado del codificador, realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse, empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse; y

A continuación la invención se explica detalladamente con referencia a las figuras de los dibujos mediante un ejemplo de realización. Muestran:

la figura 1, la codificación de vídeo empleando un analizador de textura (AT) y un sintetizador de textura (ST);

la figura 2, una imagen individual segmentada tras la fase de "división" (izquierda) y tras la fase de "unión" (derecha);

la figura 3, la deformación de una zona de textura de la imagen de referencia en la dirección de la zona de la imagen que va a llenarse en el cuadro actual;

la figura 4, resultados de codificación para la secuencia de prueba "jardín de flores";

a): en la parte superior izquierda: la imagen original (imagen número 6 de la secuencia "jardín de flores");

b): en la parte inferior izquierda: la imagen decodificada con regiones de textura sintetizadas;

c): en la parte superior derecha: la señal de diferencia (factor de intensidad 3);

d): en la parte inferior derecha; máscara de compensación de movimiento conservadora;

la figura 5, ahorro de tasa de transmisión de datos (bitrate savings) en función de los parámetros de cuantificación PC.

En el ejemplo de realización descrito a continuación se sigue el planteamiento de realizar una reproducción mejorada de la textura, llevando a cabo mediante el empleo del procedimiento según la invención para la codificación de vídeo un análisis de textura en el lado del emisor y una síntesis de textura en el lado del decodificador (véase la figura 1).

El analizador de texto identifica las regiones de textura con detalles irrelevantes, crea máscaras generales correspondientes y las indica al decodificador como información de paginación para el sintetizador de textura. Este último sustituye las texturas identificadas, utilizando la información de paginación, por texturas generadas sintéticamente.

Este modo de proceder se basa en el conocimiento de que para las texturas identificadas con detalles irrelevantes no son adecuados los habituales criterios de bondad objetivos tal como, por ejemplo, el error cuadrático medio (mean squared error, MSE) para una codificación eficaz, dado que, entre otros, se transmiten y reconstruyen detalles irrelevantes. Investigaciones han mostrado que a menudo basta con una medida de similitud MPEG-7 para registrar la bondad de texturas reconstruidas con detalles irrelevantes (véase ISO/IEC JTC1/SC29/WG11/N4358: "Text of ISO/IEC 15938-3/FDIS Informationstechnology - Multimedia content description interface - Part 3 Visual", Sydney, Australia, julio de 2001; ISO/IEC JTC1/SC29/WG11/N4362: "MPEG-7 Visual part of eXperimentation Model Version 11.0", Sydney, Australia, julio de 2001). El empleo de los criterios de similitud MPEG-7 tiene como consecuencia que las texturas reconstruidas pueden presentar distintos detalles en comparación con la textura original. Estas diferencias apenas pueden percibirse, si se mantiene la resolución local de las texturas después de la reconstrucción y perturban en mucha menor medida que los artefactos correspondientes en la codificación de la señal de diferencia con una tasa de transmisión de bits correspondiente a la información de paginación.

A continuación se describirán los algoritmos empleados para el análisis de textura en el lado del emisor y para la síntesis de textura en el lado del receptor, así como la integración del sistema en un códec H.264/AVC.

Análisis de textura en el lado del codificador

En el análisis de textura se realiza para cada imagen de una secuencia una segmentación de "división y unión" (split and merge). En este caso, en la primera etapa (fase de división o "split") cada imagen se divide y se analiza en bloques empleando un árbol cuaternario de resolución múltiple (véase J. Malki et al.: "Region Queries without Segmentation for Image Retrieval by Content", VISUAL- 99, págs. 115-122, 1999). El árbol cuaternario de resolución múltiple comprende varios niveles, correspondiendo el primero (level 0) a la imagen original. El número de bloques en el nivel de orden L es de 2^{2L}. Cada bloque en el nivel (L-1) se divide en 4 bloques en el nivel superior siguiente (Level L), de manera que el número de bloques de una imagen siempre permanece igual en horizontal y vertical (por ejemplo, 4 bloques en horizontal y vertical en el segundo nivel (L = 2)).

Un bloque en el nivel (L-1) contiene una textura homogénea, si sus cuatro bloques secundarios presentan características de textura o de color similares en el nivel de orden L, tal como el propio bloque. En este caso, la similitud se determina mediante los descriptores MPEG-7 correspondientes, tal como se explicará más adelante. Solamente los bloques heterogéneos se subdividen adicionalmente en el nivel superior siguiente. Los bloques que incluso tras alcanzar el nivel de subdivisión máximo todavía son heterogéneos se asignan como inclasificables. El resultado de la fase de "división" es normalmente una imagen excesivamente segmentada que debe procesarse posteriormente en la fase de unión o "merge", reuniéndose una parte de los bloques de una imagen excesivamente segmentada.

Para ello, en la fase de "unión" se comparan bloques homogéneos por parejas y en el caso de una similitud suficiente se reúnen para formar un agrupamiento. La figura 2 muestra un ejemplo de una imagen individual segmentada tras la fase de "división" y tras la fase de "unión". Las regiones que todavía se consideran inclasificables se caracterizan por un borde negro, mientras que las regiones clasificadas se marcan con bordes que no son negros.

Puede observarse claramente que el número de las regiones homogéneas se ha reducido claramente mediante la fase de "unión" subsiguiente.

La evaluación de similitud entre dos bloque se realiza basándose en dos descriptores MPEG-7 (véase ISO/IEC JTC1/SC29/WG11/N4358: "Text of ISO/IEC 15938-3/FDIS Informationstechnology - Multimedia content description interface- Part 3 Visual", Sydney, Australia, julio de 2001; ISO/IEC JTC1/SC29/WG11/N4362: "MPEG-7 Visual part of eXperimentation Model Version 11.0", Sydney, Australia, julio de 2001). En este caso se trata por un lado del descriptor de textura "Edge Histogram" (EH) que representa la distribución espacial de cuatro cantos orientados (uno horizontal, uno vertical, y dos diagonales) y un canto no orientado para 16 regiones no solapadas locales de una imagen. La frecuencia de la aparición de las clases de cantos individuales se determina de manera separada para cada región local. El vector de característica EH tiene por tanto la dimensión 80 (16 regiones por cinco clases de cantos). El segundo descriptor MPEG-7 utilizado es el descriptor de color ajustable a escala "Scalable Color" (SCC). Representa un histograma de colores en el espacio de color HSV, representando HSV un espacio de color tridimensional con los componentes tonalidad (Hue), saturación (Saturation), y brillo (value). El vector de característica SCC empleado tiene la dimensión 256.

Dos bloques se designan como similares, cuando la separación entre los vectores de característica correspondientes se encuentra por debajo de un nivel umbral predeterminado. En este caso, el nivel umbral se refiere a la separación máxima posible. Este último depende de la métrica seleccionada (I_{1}, I_{2}, EMD) y del descriptor MPEG-7 actual (SCC o EH). El valor umbral cero indica entonces que dos bloques solamente pueden designarse como similares con una coincidencia del cien por cien de sus vectores de característica, mientras que el valor umbral 1 significa que dos bloques cualesquiera siempre son similares, dado que la separación entre sus vectores de característica no puede ser mayor que la separación mayor posible. El valor umbral de similitud se fija manualmente para cada secuencia y permanece constante por toda la secuencia.

La segmentación "división y unión" trata cada imagen independientemente de las otras imágenes de una secuencia. Se originan en este caso inconsistencias temporales inevitables con respecto a la detección de textura que interviene en las imágenes. Por tanto, las zonas de textura identificadas de una imagen actual se comparan con las zonas de textura de las imágenes anteriores. Para la aplicación que se pretende es importante que la consistencia temporal de la detección de texturas identificadas se proporcione para "grupo de cuadros" (GdC) de la secuencia contemplada. Un GdC se compone en este caso de dos cuadros clave (la primera y la última imagen de un GdC) y varios cuadros sintetizados parcialmente interpuestos. Los tramos clave son o bien imágenes I o P, que se codifican exclusivamente sobre la base del MSE.

La consistencia temporal de la detección de texturas con detalles irrelevantes identificadas de un GdC se garantiza mediante un catálogo de textura. En este catálogo de textura se almacenan las texturas presentes con detalles irrelevantes en la secuencia contemplada. El catálogo de textura se inicia con los vectores de característica de las texturas con detalles irrelevantes, que aparecen en la primera imagen con texturas con detalles irrelevantes. Las texturas identificadas de las imágenes siguientes se comparan con las entradas en el catálogo de textura y se asocian a la entrada correspondiente en caso de existir coincidencia. Si falta coincidencia las texturas con detalles irrelevantes afectadas no registradas se registran en el catálogo de textura.

La fiabilidad de la identificación basada en el color o en la textura de zonas de textura que pueden sintetizarse de un GdC puede aumentar si las zonas de textura con detalles irrelevantes se adaptan en las imágenes parcialmente sintetizadas a las zonas de textura correspondientes en los cuadros clave mediante deformaciones adecuadas (warping). Las zonas de textura con detalles irrelevantes de una imagen se deforman por tanto en la dirección de los cuadros clave correspondientes (primera y última imagen en el GdC). La deformación se realiza con ayuda del modelo de movimiento en perspectiva planar, tal como se define por el descriptor de movimiento paramétrico MPEG-7 (véase ISO/IEC JTC1/SC29/WG11/N4358: "Text of ISO/IEC 15938-3/FDIS Informationstechnology - Multimedia content description interface- Part 3 Visual", Sydney, Australia, julio de 2001; ISO/IEC JTC1/SC29/WG11/N4362: "MPEG-7 Visual part of eXperimentation Model Version 11.0", Sydney, Australia, julio de 2001). El modelo de movimiento en perspectiva se describe mediante las siguientes ecuaciones:

x' = [(a_{1} + a_{3}x + a_{4}y)/(1 + a_{7}x + a_{8}y)] + x

y' = [(a_{2} + a_{5}x + a_{6}y)/(1 + a_{7}x + a_{8}y)] + y

Las coordenadas (x', y') representan las coordenadas transformadas del punto de partida (x, y). Los ocho parámetros de modelo se describen mediante a_{1}, ..., a_{8}. El modelo en perspectiva planar puede describir cualquier movimiento de cualquier cuerpo rígido, si los funcionamientos de la cámara se limitan a la mera rotación y zoom. En el caso de cuerpos rígidos planares puede permitirse cualquier funcionamiento de cámara. En la práctica, estas condiciones se cumplen por lo general durante el corto espacio de tiempo de un GdC. Los parámetros de movimiento (a_{1}, ..., a_{8}) de las zonas de textura con detalles irrelevantes identificadas se calculan en relación con las zonas de textura correspondientes de los cuadros clave correspondientes, tal como se representa en (véase A. Smolic y J.-R. Ohm: "Robust Global Motion Estimation Using a Simplified M-Estimator Approach", Proc. ICIP2000, IEEE International Conference on Image Processing, Vancouver, Canadá, septiembre de 2000). La deformación puede realizarse solamente, si existen o se identificaron zonas de textura correspondientes en la primera o la última imagen del GdC. Solamente aquellos puntos de la zona de textura transformada que se sitúan dentro de la zona de textura correspondiente de la primera imagen del GdC pueden emplearse para la síntesis. Los puntos restantes se marcan en la imagen actual como inclasificables, con lo que se reduce la zona de textura que puede sintetizarse. Este procedimiento se repite con la última imagen del GdC. El analizador de textura proporciona por tanto dos zonas de textura reducidas compensadas en movimiento para cada región de textura identificada originalmente (tras la fase de "unión") de una imagen que puede sintetizarse parcialmente.

Síntesis de textura en el lado del decodificador

El sintetizador de textura empleado deforma ("warping") la textura de la primera o la última imagen del GdC actual en la dirección de la región de textura correspondiente (figura 3) que puede sintetizarse, identificada por el analizador de textura. Para ello para cada región de textura que puede sintetizarse, identificada por el analizador de textura es necesario un conjunto de parámetros de movimiento y un parámetro de control. El parámetro de control determina si la primera o la última imagen del GdC se emplean para la síntesis de textura. En este caso siempre se emplea la imagen de referencia que lleva a la mejor síntesis de textura. A este respecto, la mejor síntesis de textura se caracteriza por una señal de diferencia menor entre la región de textura original y la sintetizada. Este sintetizador de textura proporciona muy buenos resultados para cuerpos rígidos, siempre y cuando se cumplan las hipótesis del modelo de movimiento.

En una forma de realización a modo de ejemplo se integraron los procedimientos descritos para analizar y sintetizar texturas en un códec H.264/AVC (modelo Joint 2.1). En este caso se codifican las imágenes I y P basándose en el MSE y se emplean como cuadros clave. Sin embargo, las imágenes B pueden sintetizarse parcialmente. Para las imágenes B con zonas de textura identificadas, que pueden sintetizarse, deben transferirse por región de textura una máscara de segmentación, un conjunto de parámetros de movimiento así como un parámetro de control como información de paginación.

En la decodificación todos los macrobloques que pertenecen a una textura que puede sintetizarse se tratan como macrobloques "saltados", es decir, se fijan todos los parámetros y variables (en el orden de decodificación) necesarios para la decodificación de los macrobloques subsiguientes dentro de la rebanada (slice), tal como se especifica para los macrobloques "saltados" (véase BORRADOR ISO/IEC 14496-10:2002 (E), documento JVT-E146d37: "Editor´s Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H264 ISO/IEC 14496-10 AVC), Geneva modifications draft 36", Ginebra, Suiza, octubre de 2002). Después de que se han codificado todos los macrobloques de una imagen, se activa el sintetizador de textura para llenar las zonas de texto que van a sintetizarse.

El experimento realizado consistía en integrar un analizador de textura y un sintetizador de textura en un códec de vídeo H.264/AVC (modelo Joint 2.1) y a continuación codificar secuencias de vídeo y decodificarlas de nuevo. Para ello se emplearon dos secuencias de prueba conocidas ("jardín de flores" y "hormigón"). Ambas secuencias de prueba contienen texturas que son muy apropiadas para demostrar que puede realizarse una reconstrucción aproximada de determinadas texturas sin pérdida de calidad visual significativa.

En una forma de realización de la invención el códec H.264/AVC se ajusta de la manera siguiente:

-: 3 imágenes B,

-: 1 imagen de referencia

-: CABAC (procedimiento de codificación por entropía),

-: Optimización de la tasa de distorsión,

-: Sin entrelazado,

-: Frecuencia de cuadro de 30 Hz

-: Parámetro de cuantificación PC = 16, 20, 24, 28 y 32 (figura 5).

Los resultados para la secuencia "jardín de flores" eran de una calidad de imagen subjetiva satisfactoria. La figura 4 muestra los resultados alcanzados en el ejemplo de la 6ª imagen de la secuencia "jardín de flores". La figura 4c muestra que la señal de diferencia en la zona del cielo es casi cero, mientras que en la zona de las flores se sitúa claramente superior. No obstante, en la comparación óptica entre la imagen original y la codificada no puede detectarse casi ninguna diferencia. En este caso se muestra que el valor PSNR no es adecuado como medida de bondad para este tipo de codificación.

Para poder estimar el ahorro de la tasa de transmisión de datos en la mayor medida posible, ambas secuencias de prueba se segmentaron manualmente para las primeras pruebas. Siguieron pruebas adicionales con máscaras de segmentación generadas semiautomáticamente (véase anteriormente la sección "análisis de textura en el lado del codificador").

La figura 5 muestra los ahorros de la tasa de transmisión de bits alcanzados para ambas secuencias de prueba en función del parámetro de cuantificación PC. Los mayores ahorros se midieron para la resolución de cuantificación más alta (QP=16). Pudieron medirse ahorros del 20,29% (jardín de flores) y del 23,05% (hormigón) con máscaras segmentadas manualmente para esta resolución. Con máscaras generadas semiautomáticamente se obtuvieron ahorros del 5,6% (jardín de flores) y del 18,53% (hormigón) para PC = 16. El ahorro de la tasa de transmisión de bits se reduce con una resolución de cuantificación decreciente o con un valor PC creciente. Esto debe atribuirse a que la información de paginación transferida permanece constante independientemente del PC. Es decir, el porcentaje de información de paginación en la tasa de transmisión de datos total aumenta cada vez más con la resolución de cuantificación que es cada vez menos exacta. En los parámetros de cuantificación superiores a 28 ó 32 (figura 5) las tasas de transmisión de datos del estándar del códec de vídeo H264/AVC son aproximadamente iguales o incluso menores a las del códec con el análisis y la síntesis de textura.

La intersección de las curvas "hormigón" (figura 5) se basa en el hecho de que el número de las texturas detectadas en la segmentación semiautomática, visto por toda la secuencia, era menor que en la segmentación manual, de manera que la información de paginación que debía transferirse, era menor en la segmentación semiautomática que en la manual. Por tanto el volumen de la información de paginación era menor en el caso semiautomático que en el manual. La calidad de imagen subjetiva de las secuencias de imágenes codificadas y decodificadas en vídeo H264/AVC era para todos los ajustes de PC comparable con los resultados de la codificación con la síntesis y el análisis de la textura (véase http://bs.hhi.de/~ndjiki/SE.htm).

La invención en su forma de realización no se limita a los ejemplos de realización preferidos indicados anteriormente. Más bien puede concebirse un número de variantes que hacen uso de la disposición según la invención y el procedimiento según la invención también en el caso de realizaciones sustancialmente de tipo diferente.

Lista de números de referencia

1: codificador

2: decodificador

3: analizador de textura (AT)

4: sintetizador de textura (ST)

Claims

1. Procedimiento para la codificación de vídeo, con las siguientes etapas:

-: realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse; empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse;

caracterizado por

-: garantizar una consistencia temporal de la detección de texturas que pueden sintetizarse en una secuencia de imágenes mediante un catálogo de textura, por

-: almacenar la textura que puede sintetizarse de las zonas determinadas de textura que puede sintetizarse en una primera imagen de la secuencia en el catálogo de textura para iniciar el mismo;

-: comparar la textura que puede sintetizarse de las zonas determinadas de textura que puede sintetizarse en imágenes siguientes de la secuencia con las texturas que pueden sintetizarse, que se almacenan en el catálogo de textura;

-: en el caso de una coincidencia, asignar la textura que puede sintetizarse respectiva de una zona determinada de textura que puede sintetizarse bajo las siguientes imágenes de la secuencia con respecto a la textura correspondiente que puede sintetizarse almacenada en el catálogo de textura; y

-: en el caso de ninguna coincidencia, almacenar la textura correspondiente que puede sintetizarse de una zona determinada de textura que puede sintetizarse bajo las siguientes imágenes de la secuencia almacenada en el catálogo de textura.

2. Procedimiento según la reivindicación 1, en el que la realización del análisis de la textura presenta la división de imágenes empleando un árbol cuaternario de resolución múltiple en bloques.

3. Procedimiento según la reivindicación 2, en el que la división de un bloque se interrumpe cuando

-: los bloques originados mediante la siguiente etapa de división presentan características de textura y/o color similares como este bloque

-: el tamaño de bloques de la siguiente etapa de división se encuentra por debajo de un valor predeterminado.

4. Procedimiento según la reivindicación 3, en el que los bloques, cuya división se interrumpió debido a las características de textura y/o color similares se caracterizan como bloques homogéneos y los bloques diferentes a los bloques homogéneos tras realizar la división de la imagen se caracterizan como bloques inclasificables.

5. Procedimiento según la reivindicación 3 ó 4, en el que tras la división de una imagen para aquellos bloques, cuya división se interrumpió debido a las características de textura y/o color similares, se realiza una evaluación de similitud y los bloques similares se reúnen para formar zonas que pueden sintetizarse.

6. Procedimiento según la reivindicación 5, en el que se evalúa la similitud de bloques basándose en descriptores MPEG-7.

7. Procedimiento según la reivindicación 6, en el que se evalúa la similitud de bloques basándose en descriptores MPEG-7, descriptor de textura "Edge Histogram" (EH) y/o descriptor de color ajustable a escala "Scalable Color" (SCC).

8. Procedimiento según una de las reivindicaciones anteriores, en el que las zonas determinadas de textura que puede sintetizarse de una imagen de una secuencia de vídeo se comparan con zonas de textura que puede sintetizarse de imágenes anteriores de la secuencia de vídeo.

9. Procedimiento según una de las reivindicaciones anteriores, en el que la primera y la última imagen (los denominados cuadros clave) de un "grupo de cuadros" (GdC) se codifica basándose en un procedimiento de error cuadrático medio (basado en MSE) y se sintetizan parcialmente las imágenes B interpuestas con zonas determinadas que pueden sintetizarse.

10. Procedimiento según una de las reivindicaciones anteriores, en el que las zonas determinadas que pueden sintetizarse en las imágenes que pueden sintetizarse parcialmente se adaptan a zonas de textura correspondientes en los cuadros clave mediante deformaciones (warping) adecuadas.

11. Procedimiento según la reivindicación 10, en el que la deformación se realiza con ayuda de un modelo de movimiento en perspectiva planar descrito mediante las siguientes ecuaciones:

x' = [(a_{1} + a_{3}x + a_{4}y)/(1 + a_{7}x + a_{8}y)] + x,

y' = [(a_{2} + a_{5}x + a_{6}y)/(1 + a_{7}x + a_{8}y)] + y,

en las que

(x, y) representan las coordenadas del punto de partida

(x', y') las coordenadas transformadas del punto de partida y

a_{1}, ..., a_{8} parámetros de modelo

12. Procedimiento según la reivindicación 10 u 11, en el que mediante la deformación se deforma la textura de la primera o última imagen del GdC actual en la dirección de la zona de textura que puede sintetizarse, asociando a cada zona de textura de este tipo un conjunto de parámetros de movimiento y un parámetro de control, indicando el parámetro de control si la primera o la última imagen de un GdC se emplea para la síntesis de la textura.

13. Procedimiento según la reivindicación 13, en el que para la síntesis de la textura se emplea la imagen de un GdC para la que se determina una señal de diferencia menor entre la región de textura original y la sintetizada.

14. Procedimiento según una de las reivindicaciones anteriores, en el que como metadatos de zonas con textura que puede sintetizarse por zona de textura se generan:

-: una máscara de segmentación

-: un conjunto de parámetros de movimiento y/o

-: un parámetro de control

15. Procedimiento según una de las reivindicaciones anteriores, que en el lado del decodificador presenta además la evaluación de los datos y metadatos codificados, y la reconstrucción de escenas de vídeo, generando sintéticamente texturas para zonas determinadas mediante la evaluación de los metadatos.

16. Dispositivo para la codificación de vídeo, con

-: medios para realizar un análisis de textura de escenas de vídeo, para determinar zonas de textura que puede sintetizarse;

-: medios para, empleando información sobre zonas determinadas de textura que puede sintetizarse e información sobre la textura de estas zonas, codificar las escenas de vídeo y crear metadatos para describir las zonas determinadas y para describir la textura que puede sintetizarse; y

: uno caracterizado por

-: medios para garantizar una consistencia temporal de la detección de texturas que pueden sintetizarse en una secuencia de imágenes mediante un catálogo de textura, por

-: comparar la textura que puede sintetizarse de las zonas determinadas de textura que puede sintetizarse en imágenes siguientes de la secuencia con las texturas que pueden sintetizarse, que se almacenan en el catálogo de textura; y

-: en el caso de ninguna coincidencia, almacenar la textura correspondiente que puede sintetizarse de una zona determinada de textura que puede sintetizarse bajo las siguientes imágenes de la secuencia en el catálogo de textura.

\newpage

17. Programa informático, que permite a un ordenador, después de que se haya cargado en la memoria del ordenador, realizar un procedimiento según una de las reivindicaciones 1 a 15.

18. Medio de memoria legible por ordenador, en el que se graba un programa, que permite a un ordenador, después de que se haya cargado en la memoria del ordenador, realizar un procedimiento según una de las reivindicaciones 1 a 15.