ES2467940T3

ES2467940T3 - Método de extracción de distorsión de codificación

Info

Publication number: ES2467940T3
Application number: ES08157918.7T
Authority: ES
Inventors: Zhong Xue; Sheng Mei Shen; Teck Wee Foo; Chak Joo Lee; Shinya Kadono
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2001-11-29
Filing date: 2002-11-29
Publication date: 2014-06-13
Anticipated expiration: 2022-11-29
Also published as: KR100958982B1; EP2320660A3; PT1978747E; US20080069245A1; EP2320660B8; US7792195B2; EP2320660B1; US20070092002A1; US8369421B2; US10958940B2; US8488683B2; US8345770B2; EP2320661A3; KR20040054605A; KR100929078B1; US20110103488A1; US20170134757A1; DK1978747T3; US9888258B2; US20130195207A1

Abstract

Un método de extracción de distorsión de codificación para quitar la distorsión de codificación en pixels de dos bloques de transformación adyacentes que son compensados en movimiento y tienen un error de compensación de movimiento codificado igual a cero y están situados dentro de un mismo macrobloque, siendo el bloque de transformación una unidad para la que se aplica una transformación de frecuencia, incluyendo el método: determinar si uno de los dos bloques de transformación adyacentes está situado fuera de un bloque de compensación de movimiento en el que está situado el otro de los dos bloques de transformación adyacentes, siendo cada uno de los dos bloques de compensación de movimiento adyacentes una unidad para la que se aplica una compensación de movimiento, y quitar la distorsión de codificación en pixels en el límite de bloque entre los dos bloques de transformación adyacentes cuando uno de los dos bloques de transformación adyacentes está situado fuera de un bloque de compensación de movimiento en el que está situado el otro de los dos bloques de transformación adyacentes, donde la extracción de distorsión de codificación no se realiza cuando ambos bloques de transformación adyacentes están situados dentro de un bloque de compensación de movimiento, donde un tamaño de bloque de cada uno de los dos bloques de compensación de movimiento adyacentes es menor 20 que un tamaño de bloque del macrobloque, y un tamaño de bloque de cada uno de los dos bloques de compensación de movimiento adyacentes es más grande que un tamaño de bloque del bloque de transformación

Description

Método de extracción de distorsión de codificación

Campo técnico

La presente invención se refiere a un método de extracción de la distorsión de codificación para quitar la distorsión de codificación que tiene lugar al codificar una señal vídeo, un método de codificación y un método de decodificación para incrementar la tasa de compresión usando este método de extracción de la distorsión de codificación, y un medio de registro de datos que guarda un programa para implementar estos métodos en software.

Antecedentes de la invención

Mediante los avances en tecnologías digitales que combinan múltiples tipos de audio, vídeo, y otros tipos de corrientes de píxel en una sola corriente de transmisión, los medios de información convencionales, es decir, los medios de comunicar información a personas tales como periódicos, revistas, televisión, radio, y teléfono, pueden ser usados ahora para comunicación multimedia. “Multimedia” se refiere en general a texto, gráficos, audio y vídeo unidos conjuntamente en una sola corriente de transmisión, pero los medios de información convencionales deben ser digitalizados primero antes de que la información pueda ser manejada en un formato multimedia.

La capacidad estimada de almacenamiento necesaria para almacenar la información transportada por medios de información convencionales, cuando se convierte a datos digitales, es solamente de 1 o 2 bytes por carácter para texto, pero de 64 kbits para un segundo de audio de calidad telefónica, y 100 Mbits para un segundo de vídeo de la calidad de un receptor de televisión corriente. Por lo tanto, no es práctico manejar estas cantidades masivas de información en forma digital en los medios de información anteriores. Por ejemplo, el servicio de telefonía vídeo está disponible en líneas RDSI (red digital de servicios integrados) con una velocidad de transmisión de 64 Kbps a 1,5 Mbps, pero no se puede enviar vídeo de calidad de cámara de televisión tal cual por líneas RDSI.

Por lo tanto, la compresión de datos es esencial. El servicio de telefonía vídeo, por ejemplo, se implementa usando técnicas de compresión vídeo internacionalmente estandarizadas en las Recomendaciones H.261 y H.263 de la ITU-T (Unión Internacional de Telecomunicaciones, Sector de Estandarización de las Telecomunicaciones). Usando los métodos de compresión de datos definidos en MPEG-1, se puede grabar información vídeo con audio en un CD audio convencional (disco compacto).

El MPEG (Grupo de Expertos en Imágenes en Movimiento) es una norma internacional para comprimir digitalmente señales de imágenes en movimiento (vídeo). MPEG-1 permite comprimir una señal vídeo a 1,5 Mbps, es decir, comprimir la información en una señal de televisión a aproximadamente 100:1. Además, dado que la velocidad de transmisión para vídeo MPEG-1 se limita a aproximadamente 1,5 Mbps, MPEG-2, que se estandarizó para cumplir la demanda de una calidad de imagen aún mayor, permite comprimir una señal de imagen en movimiento a 2 Mbps a 15 Mbps.

MPEG-4 con una tasa de compresión aún más alta también ha sido estandarizado por el grupo de trabajo (ISO/IEC JTC1/SC29NVG11) que ha avanzado la estandarización de MPEG-1 y MPEG-2. MPEG-4 no solamente permite una codificación a baja tasa de bits y alta eficiencia, también introduce una potente tecnología de resistencia al error capaz de reducir la degradación subjetiva de la imagen incluso cuando se producen errores del recorrido de transmisión. La ITU-T también trabaja en estandarizar la Recomendación H.26L como un método de codificación de imágenes de la próxima generación.

“H.26L Test Model Long-Term Number 8(TML-) draft 0” por Gisle Bjontegaard (ITU Q.6/SG16, VCEG, VCEG-N10 proporciona una descripción de un método de codificación de referencia a usar para el desarrollo del nuevo método de compresión ITU-T recomendación H.26L, donde la configuración básica del algoritmo es similar a H.263.

A diferencia de las técnicas convencionales de codificación vídeo, H.26L usa un método de extracción de la distorsión de codificación acompañado por procesado complejo para quitar la distorsión de codificación. Es sabido que los métodos de codificación unitaria de bloques usando transformadas ortogonales, como las técnicas DCT ampliamente usadas en codificación vídeo, están sujetos a una distorsión a modo de rejilla conocida como distorsión de bloque en los límites del bloque de codificación. Dado que la pérdida de calidad de imagen en componentes de baja frecuencia es más visible que la pérdida de calidad de imagen en componentes de alta frecuencia, los componentes de baja frecuencia son codificados más fielmente que los componentes de alta frecuencia en codificación de unidad de bloque. Además, dado que las imágenes naturales capturadas con una cámara, por ejemplo, contienen más componentes de baja frecuencia que componentes de alta frecuencia, los bloques de codificación contienen más componentes de baja frecuencia que componentes de alta frecuencia. Por lo tanto, los bloques de codificación tienen a no tener sustancialmente componentes de alta frecuencia y los píxeles adyacentes en un bloque tienden a tener sustancialmente el mismo valor de píxeles.

Además, dado que la codificación es por unidad de bloque, no hay certeza de que los valores de píxel sean

sustancialmente los mismos en el límite entre bloques adyacentes, es decir, que los valores de píxel cambiarán de forma continua a través del límite de bloques, aunque los valores de píxel sean sustancialmente idénticos dentro de cada bloque. El resultado es que, como se representa en la figura 31 que describe el concepto de extracción de distorsión de codificación, aunque el cambio en valores de píxel sea suave y continuo en la imagen fuente a través del límite de bloques indicado por la línea de puntos como se representa en la figura 31 (a), y los valores de píxel cambian de forma continua dentro de cada bloque como se representa en la figura 31 (b) después de que la imagen fuente es codificada por unidad de bloque, se produce distorsión de bloque, es decir, una discontinuidad en los valores de píxel solamente en el límite de bloque. La distorsión de bloque es así un problema significativo de la calidad de la imagen resultante de la codificación de imagen, pero se puede reducir corrigiendo los valores de píxel de manera que sean continuos a través del límite de bloque como se representa en la figura 31 (c). Este proceso de reducir la distorsión de bloque se denomina extracción de distorsión de codificación (también denominada “desbloqueo”).

Cuando se aplica desbloqueo en la etapa de decodificación vídeo, el filtro de desbloqueo puede ser usado como un postfiltro como se representa en el diagrama de bloques de un decodificador vídeo usando un método de decodificación convencional en la figura 32, o puede ser usado como un filtro en bucle como se representa en el diagrama de bloques de un decodificador vídeo usando un método de decodificación convencional en la figura 33. Las configuraciones representadas en estos diagramas de bloques se describen a continuación.

En el diagrama de bloques de un decodificador vídeo usando un método de decodificación convencional representado en la figura 32, un decodificador de longitud variable 52 decodifica en longitud variable la señal codificada Str y envía un componente de código de frecuencia DCoef. Una unidad de exploración de deszigzagueo 54 redispone los componentes de frecuencia del componente de código de frecuencia DCoef en bloques bidimensionales, y envía el componente de frecuencia FCoef, los componentes de frecuencia de unidad de bloque. La unidad de transformada del coseno inversa 56 aplica descuantificación y operaciones DCT inversa al componente de frecuencia FCoef, y envía la imagen de diferencia DifCoef.

El compensador de movimiento 60 envía el píxel en la posición indicada por el vector de movimiento introducido externamente MV de la imagen de referencia Ref acumulada en la memoria 64 como imagen de movimiento compensado MCpel. El sumador 58 añade imagen de diferencia DifCoef e imagen de movimiento compensado MCpel a imagen reconstruida salida Coef. El filtro de desbloqueo 62 aplica extracción de distorsión de codificación a la imagen reconstruida Coef, y envía la señal de imagen decodificada Vout. La imagen reconstruida Coef se almacena en la memoria 64, y usa como imagen de referencia Ref para la decodificación de la imagen siguiente.

El diagrama de bloques de la figura 33 de un decodificador vídeo que usa un método de decodificación convencional, es sustancialmente idéntico al diagrama de bloques de un decodificador vídeo representado en la figura 32, pero difiere en la posición del filtro de desbloqueo 62. Como se verá por la figura 33, la señal de imagen decodificada Vout salida del filtro de desbloqueo 62 se almacena en la memoria 64.

El diagrama de bloques de la figura 32 de un decodificador vídeo que usa un método de decodificación convencional, representa la configuración y el método usados en MPEG-1, MPEG-2, MPEG-4, y H.263. El diagrama de bloques de la figura 33 de un decodificador vídeo que usa un método de decodificación convencional, representa la configuración y el método usados en H.261 y H.26L TM8.

Con el diagrama de bloques de la figura 32 de un decodificador vídeo que usa un método de decodificación convencional, la imagen reconstruida Coef almacenada en la memoria 64 no depende del método aplicado por el filtro de desbloqueo 62. Esto permite desarrollar e implementar varios tipos de filtros de desbloqueo 62, incluyendo filtros complejos pero de alto rendimiento así como filtros simples con un efecto relativamente pequeño según el rendimiento del hardware disponible y la aplicación específica. La ventaja es que se puede usar un filtro de desbloqueo 62 apropiado para el dispositivo.

Con el diagrama de bloques de la figura 33 de un decodificador vídeo que usa un método de decodificación convencional, la señal de imagen decodificada Vout almacenada en la memoria 64 depende del método empleado por el filtro de desbloqueo 62. El problema aquí es que el filtro no se puede cambiar por otro apropiado para el hardware o la aplicación, pero la ventaja es que en cada dispositivo se puede garantizar el mismo nivel de extracción de distorsión de codificación.

La figura 34 es un diagrama de bloques de una unidad de extracción de distorsión de codificación que usa el método convencional de extracción de la distorsión de codificación. La figura 34 representa en detalle la configuración del filtro de desbloqueo 62 en la figura 32 y la figura 33. Para quitar eficientemente solamente la distorsión de codificación de una señal de imagen conteniendo distorsión de codificación, es importante determinar la cantidad y la tendencia a distorsión de codificación en la señal de imagen y aplicar posteriormente filtración apropiada con el fin de no degradar la señal de imagen real.

Dado que los componentes de alta frecuencia suponen gran parte de la distorsión de codificación, el concepto general que subyace a la extracción de distorsión de codificación es estudiar la señal de imagen para determinar la

relación de componentes de alta frecuencia en la señal de imagen, identificar los componentes de alta frecuencia en píxeles de la señal de imagen que normalmente se considera que no contienen un componente de alta frecuencia como distorsión de codificación, y aplicar un filtro de supresión de componentes de alta frecuencia a la distorsión de codificación. Esto es posible porque la correlación entre píxeles adyacentes en una señal de imagen es alta, los píxeles que contienen un componente de alta frecuencia se concentran en las zonas de borde, y se puede considerar que los componentes de alta frecuencia dispersados son la distorsión de codificación.

Este filtro de desbloqueo 62 fue creado por los autores de la presente invención en base al contenido de la Recomendación ITU-T H.26L TML8.

El controlador de recuento de píxeles filtrados 84 usa la imagen reconstruida Coef para determinar las posiciones de píxel conteniendo distorsión de codificación, y envía el recuento de píxeles filtrados FtrPel. El controlador de coeficiente de filtro 86 usa recuento de píxeles filtrados FtrPel e imagen reconstruida Coef para determinar el coeficiente de filtro (incluyendo el número de tomas de filtro) apropiado para quitar la distorsión de codificación de los píxeles indicados, y envía el coeficiente de filtro FtrTap. El procesador de filtro 88 aplica filtración para quitar la distorsión de codificación de imagen reconstruida Coef usando el coeficiente de filtro indicado por el coeficiente de filtro FtrTap, y envía la señal de imagen decodificada Vout.

Descripción de la invención

Los métodos convencionales de extracción de distorsión de codificación descritos anteriormente son especialmente efectivos para quitar la distorsión de codificación, pero el proceso es sumamente complejo y la implementación es difícil.

Otro problema es que la cantidad de datos procesados por unidad de tiempo es alta.

Además, independientemente del método de extracción de la distorsión de codificación, es imposible distinguir exactamente señales de imagen y distorsión de codificación sin otra información adicional, y, por lo tanto, es posible que la extracción de distorsión de codificación degrade la calidad de imagen. Este problema es especialmente grande con una configuración como la representada en el diagrama de bloques en la figura 33 de un decodificador vídeo que usa un método de decodificación convencional porque el resultado del desbloqueo se usa como la imagen de referencia y por lo tanto afecta al resultado de codificar cada imagen posterior.

Por lo tanto, un objeto de la presente invención es proporcionar un método simple de extracción de distorsión de codificación.

Otro objeto es proporcionar un método de extracción de distorsión de codificación, un método de codificación, y un método de decodificación por los que la probabilidad de degradar la calidad de señal de imagen se puede reducir aplicando extracción de distorsión de codificación de alto rendimiento con menos posibilidad de degradar la calidad de señal de imagen como resultado de quitar la distorsión de codificar que la técnica anterior.

Para lograr este objeto, se propone un método de extracción de distorsión de codificación como el definido en la reivindicación 1.

Otros objetos y realizaciones conjuntamente con una comprensión más plena de la invención serán evidentes y se apreciarán con referencia a la descripción siguiente y reivindicaciones tomadas en unión con los dibujos acompañantes.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un aparato decodificador vídeo usando un método de decodificación según la presente invención.

La figura 2 es un diagrama de bloques de una unidad de extracción de distorsión de codificación que usa un método de extracción de la distorsión de codificación según una primera realización de la presente invención.

Las figuras 3(a), 3(b), 3(c), 3(d), 3(e), 3(f) y 3(g) muestran un ejemplo del tamaño de bloque de compensación de movimiento.

La figura 4 es un diagrama de flujo de un método de extracción de la distorsión de codificación según una segunda realización de la presente invención.

La figura 5 representa la correlación entre parámetro de cuantificación QP y los parámetros de extracción de distorsión de codificación en una segunda realización de la presente invención.

La figura 6 es un diagrama de flujo para determinar el número de píxeles a filtrar en un método de extracción de la

distorsión de codificación según una segunda realización de la presente invención.

La figura 7 es un diagrama de flujo para determinar el coeficiente de filtro en un método de extracción de la distorsión de codificación según una segunda realización de la presente invención. Las figuras 8(a) y 8(b) son un diagrama de bloques de una unidad de extracción de distorsión de codificación que

usa el método de extracción de la distorsión de codificación según una segunda realización de la presente invención,

y un diagrama que representa la alineación de píxeles. La figura 9 es un diagrama de bloques de un dispositivo de codificación que usa un método de codificación según una tercera realización de la presente invención.

La figura 10 es un diagrama de bloques de un dispositivo de decodificación que usa un método de decodificación

según una tercera realización de la presente invención. La figura 11 es un diagrama de bloques de una unidad de extracción de distorsión de codificación que usa el método de extracción de la distorsión de codificación según una cuarta realización de la presente invención.

Las figuras 12(a), 12(b), 12(c) y 12(d) muestran la estructura de la señal codificada Str en un método de extracción de la distorsión de codificación según una cuarta realización de la presente invención.

La figura 13 es un diagrama de bloques que representa un proceso de codificación vídeo que usa un filtro de bucle. La figura 14 es un diagrama de bloques que representa la posición de la selección automática de valor umbral en un bucle de codificación vídeo.

La figura 15 es un diagrama de flujo que representa un método para recoger datos para hallar un valor umbral

óptimo. La figura 16 es un diagrama de flujo que representa otro método para recoger datos para hallar un valor umbral óptimo.

La figura 17 es un diagrama de flujo que representa un método para seleccionar un valor umbral optimizado.

La figura 18 representa la proximidad de bloques que tienen límites comunes en los que se puede saltar el desbloqueo. La figura 19 representa un grupo conteniendo múltiples píxeles. La figura 20 (a) describe una estructura de trama y la figura 20 (b) describe una estructura de campo. La figura 21 (a) describe una estructura donde una estructura de trama y una estructura de campo se mezclan en

una sola imagen, y la figura 21(b) y la figura 21(c) describen pasos en el proceso de extracción de la distorsión de

codificación en el límite entre una estructura de campo y una estructura de trama. La figura 22 es un diagrama de flujo de un proceso de extracción de la distorsión de codificación usado cuando se mezclan estructuras de trama y campo.

La figura 23 es un diagrama de flujo para una variación en cuyos pasos se combinan las memorias 64 y 67 de la

figura 22. La figura 24 es un diagrama de flujo para una variación en cuyos pasos se combinan las memorias 65 y 68 de la figura 23.

La figura 25 es un diagrama de flujo de un proceso usado cuando un bloque de estructura de trama y un bloque de

estructura de campo están en lados opuestos del límite de bloques. Las figuras 26(a), 26(b) y 26(c) describen un medio de registro según una sexta realización de la presente invención para guardar un programa ejecutable por ordenador que implementa los métodos de codificación de longitud variable y de decodificación de longitud variable de las realizaciones primera y segunda de la invención.

La figura 27 es un diagrama de bloques que representa la configuración general de un sistema de suministro de

contenidos. La figura 28 representa un teléfono celular ejemplar que usa un método de codificación vídeo y método de decodificación vídeo.

La figura 29 es un diagrama de bloques de un teléfono celular.

La figura 30 representa un ejemplo de un sistema de emisión digital.

Las figuras 31 (a), 31(b) y 31(c) muestran diagramas de nivel de señal de píxel para describir el concepto de un método de extracción de la distorsión de codificación.

La figura 32 es un diagrama de bloques de un aparato decodificador vídeo que usa un método de decodificación de la técnica anterior.

La figura 33 es un diagrama de bloques de un aparato decodificador vídeo que usa un método de decodificación de la técnica anterior.

Y la figura 34 es un diagrama de bloques de una unidad de extracción de distorsión de codificación que usa un método de extracción de la distorsión de codificación según la técnica anterior.

Mejor modo de llevar a la práctica la invención

A continuación se describen realizaciones preferidas de la presente invención con referencia a las figuras acompañantes.

Realización 1

En el diagrama de bloques de un aparato decodificador vídeo usando un método de decodificación vídeo, el decodificador de longitud variable 52 decodifica en longitud variable la señal codificada Str y envía el componente de código de frecuencia DCoef. La unidad de exploración de deszigzagueo 54 redispone los componentes de frecuencia del componente de código de frecuencia DCoef en bloques bidimensionales, y envía el componente de frecuencia FCoef, los componentes de frecuencia de unidad de bloque. La unidad de transformada del coseno inversa 56 aplica descuantificación y operaciones DCT inversa al componente de frecuencia FCoef, y envía la imagen de diferencia DifCoef.

El compensador de movimiento 60 envía el píxel en la posición indicada por el vector de movimiento introducido externamente MV desde la imagen de referencia Ref acumulada en la memoria 64 como imagen de movimiento compensado MCpel, y envía el tamaño de bloque de compensación de movimiento MCsize que denota el tamaño del bloque de compensación de movimiento. El sumador 58 añade la imagen de diferencia DifCoef y la imagen de movimiento compensado MCpel a imagen reconstruida salida Coef.

El filtro de desbloqueo 62 recibe la imagen reconstruida Coef, el tamaño de bloque de compensación de movimiento MCsize, y la imagen de diferencia DifCoef, aplica extracción de distorsión de codificación, y envía la señal de imagen decodificada Vout. La imagen reconstruida Coef es almacenada en la memoria 64, y usada como imagen de referencia Ref para la decodificación de imagen siguiente.

La figura 2 es un diagrama de bloques del filtro de desbloqueo 62 (también llamado una unidad de extracción de distorsión de codificación) que usa un método de extracción de la distorsión de codificación según la presente invención. Este filtro de desbloqueo 62 fue creado por los autores de la presente invención con referencia al contenido de un filtro de desbloqueo descrito en la Recomendación H.26L TML8 de ITU-T.

El controlador de recuento de píxeles filtrados 4 determina las posiciones de píxel conteniendo distorsión de codificación para cada imagen reconstruida Coef, y envía el recuento de píxeles filtrados FtrPel. El recuento de píxeles filtrados FtrPel indica así la posición de píxel que precisa filtración.

El controlador de coeficiente de filtro 6 usa recuento de píxeles filtrados FtrPel y la imagen reconstruida Coef para determinar el coeficiente de filtro (incluyendo el número de tomas de filtro) apropiado para quitar la distorsión de codificación de los píxeles indicados, y envía el coeficiente de filtro FtrTap.

El procesador de filtro 8 aplica un proceso de filtración para quitar distorsión de codificación de imagen reconstruida Coef usando el coeficiente de filtro indicado por el coeficiente de filtro FtrTap, y envía la señal de imagen decodificada Vout.

La imagen de diferencia DifCoef y el tamaño de bloque de compensación de movimiento MCsize se introducen en la unidad de detección de límite de bloque de compensación de movimiento 2, que determina si la imagen de diferencia DifCoef para el bloque de proceso es menor o igual a un valor específico; por ejemplo, si es 0, detecta los límites del bloque de compensación de movimiento, y envía el señalizador de límite de bloque de compensación de movimiento IsEdge.

La figura 3 representa ejemplos del tamaño de bloque de compensación de movimiento usado en la Recomendación H.26L TML8 de ITU-T. Como se representa en estos ejemplos, el tamaño máximo del bloque de compensación de movimiento es 16 x 16 píxeles, el mismo tamaño que lo que se denomina un macrobloque. Los tamaños de bloque de compensación de movimiento representados en la figura 3 (a) a (g) son 4x4, 4x8, 8x4, 8x8, 8x16, 16x8, y 16x16 píxeles. En la Recomendación H.26L TML8 de ITU-T el tamaño apropiado para la unidad de macrobloque se selecciona a partir de estos siete tamaños de bloque de compensación de movimiento y se usa para codificar y decodificar. Se deberá indicar que la codificación y decodificación se pueden aplicar a una unidad apropiada de dos macrobloques verticalmente adyacentes, y una unidad de tales macrobloques se denomina un “par de macrobloques”.

La unidad usada para la transformada de frecuencia y codificación en la Recomendación H.26L TML8 de ITU-T es 4x4 píxeles. Esta unidad de 4x4 píxeles se denomina una “unidad de codificación”. Como se representa en la figura 3 (a), cada uno de los dieciséis bloques una a P es un bloque de 4x4 píxeles. La unidad de codificación de 4x4 píxeles corresponde el tamaño de bloque de compensación de movimiento solamente en el caso representado en la figura 3 (a). Dado que la distorsión de bloque que es especialmente visualmente disruptiva como distorsión de codificación tiene lugar en el tamaño más pequeño de la unidad de codificación de 4x4 píxeles, el método convencional de extracción de la distorsión de codificación siempre opera en unidades de 4x4 píxeles.

Si la correlación entre las imágenes es especialmente fuerte después de la codificación de compensación de movimiento, el error de compensación de movimiento codificado entre imágenes es 0. Dado que la imagen de diferencia DifCoef codificada y decodificada en unidades de 4x4 píxeles también es 0 en este caso, las discontinuidades en los valores de píxel resultantes de la distorsión de codificación durante la codificación y decodificación no tienen lugar probablemente en lugares distintos de los límites de los bloques de compensación de movimiento. Por lo tanto, si se seleccionan los bloques de compensación de movimiento como se representa en la figura 3 (b), el proceso de extracción de la distorsión de codificación no es necesario en los límites de la unidad de píxel de 4x4 indicados por la línea de puntos entre los bloques AC, BD, EG, FH, IK, JL, MO, y NP representados en la figura 3 (a). Igualmente, el desbloqueo tampoco es necesario en los límites de la unidad de píxel de 4x4 indicados por la línea de puntos entre los bloques AB, CD, EF, GH, IJ, KL, MN, y OP representados en la figura 3 (a). Si la imagen de diferencia DifCoef usada para la codificación/decodificación en unidades de 4x4 píxeles también es 0, se aplica desbloqueo solamente en los límites de los bloques de compensación de movimiento, y no es aplicado en los límites de las unidades de 4x4 píxeles dentro de los bloques de compensación de movimiento. Esto hace posible reducir el número de operaciones en el proceso de extracción de la distorsión de codificación en comparación con el desbloqueo de todos los límites de bloque.

Si la imagen de diferencia DifCoef del bloque de proceso es 0 y no es el límite de un bloque de compensación de movimiento, la unidad de detección de límite de bloque de compensación de movimiento 2 desactiva ambos selectores 10a y 10b (indicados por una línea continua) y el selector 10b envía la imagen reconstruida Coef como señal de imagen decodificada Vout. Los selectores 10a y 10b se conmutan poniendo el señalizador de límite de bloque de compensación de movimiento IsEdge. Así, se puede omitir el procesado realizado por el controlador de recuento de píxeles filtrados 4, el controlador de coeficiente de filtro 6, y el procesador de filtro 8 desactivando los selectores 10a y 10b. En casos distintos del anterior, los selectores 10a y 10b están activados (lo que se indica con la línea de puntos), y la salida del procesador de filtro 8 es enviada desde el selector 10b como señal de imagen decodificada Vout. Este estado de selector también se pone aplicando el señalizador de límite de bloque de compensación de movimiento IsEdge.

La presente invención introduce así la capacidad de omitir la operación del controlador de recuento de píxeles filtrados 4, el controlador de coeficiente de filtro 6, y el procesador de filtro 8 aplicando un señalizador de límite de bloque de compensación de movimiento IsEdge puesto apropiadamente, y el salto de estas unidades permite el procesado más rápido y reduce el consumo de potencia por parte de estos procesos.

Se deberá indicar que esta realización se describe como simple no aplicación de ningún proceso de extracción de la distorsión de codificación; se podría usar un proceso simple de extracción de la distorsión de codificación en lugar de saltar el proceso, y la conmutación podría ser entre un proceso complejo de extracción de la distorsión de codificación y un proceso de extracción de distorsión de codificación en unidades de 4x4 píxeles.

Realización 2

Un proceso específico con el que se logra fácilmente la extracción de distorsión de codificación se describe en esta realización de la invención con referencia al diagrama de flujo en la figura 4 de un método de extracción de la distorsión de codificación según la presente invención.

Primero se determina en el paso S18 si el bloque deseado es un bloque de extracción de distorsión de codificación. Si lo es, el control avanza al paso S19. Si no lo es, el control avanza al paso S24.

Se selecciona un filtro apropiado de extracción de distorsión de codificación en el paso S19, se aplica procesado de extracción de distorsión de codificación usando el filtro seleccionado en el paso S20, y el píxel deseado se cambia al

píxel no procesado siguiente en el bloque en el paso S21. Si no hay píxeles no procesados en el bloque (el paso S22 devuelve No), el control avanza al paso S24. Si hay un píxel no procesado (el paso S22 devuelve Sí), el control vuelve al paso S19 y el proceso se repite.

El paso S24 detecta si hay otro bloque no procesado en la imagen. Si lo hay, el control avanza al paso S23. Si todos los bloques han sido procesados (el paso S24 devuelve No), el proceso de extracción de la distorsión de codificación termina para dicha imagen.

Si quedan bloques no procesados, el bloque deseado se cambia al bloque siguiente no procesado en el paso S23, el control vuelve al paso S18 y el proceso se repite.

La figura 6 es un diagrama de flujo que representa cómo se determina el número de píxeles a filtrar (a continuación el “recuento de píxeles filtrados”) en el método de extracción de la distorsión de codificación de la presente invención. Este diagrama de flujo describe un ejemplo de cómo podría operar el controlador de recuento de píxeles filtrados 4 representado en la figura 2. La figura 6 representa un caso en que el bloque de compensación de movimiento es el representado en la figura 8 (a). Como se representa en la figura 8 (b), los valores de píxel deseados para extracción de distorsión de codificación son

p3, p2, p1, p0, q0, q1, q2, q3

como se representa en la figura 8 (b), y los valores de píxel después de la extracción de distorsión de codificación son

P3, P2, P1, P0, Q0, Q1, Q2, Q3.

Estos valores de píxel son asignados secuencialmente en el mismo orden que las posiciones de píxel, p0 a p3 y P0 a P3 denotan píxeles correspondientes en el mismo bloque, y q0 a q3 y C10 a Q3 denotan píxeles correspondientes en el mismo bloque.

A medida que aumenta el parámetro de cuantificación QP, los pasos de cuantificación son mayores (más bastos) y el tamaño de la distorsión de codificación también aumenta. Por lo tanto, es efectivo cambiar el filtro según el tamaño de parámetro de cuantificación QP. La figura 5 es una tabla que representa la correlación entre el parámetro de cuantificación QP y los parámetros de extracción de distorsión de codificación. La correlación entre los parámetros π, Ω y n del proceso de desbloqueo para determinar el parámetro n que denota el recuento de píxeles filtrados se expone en la tabla 1 siguiente. Se deberá indicar que no se deberá aplicar filtración si la diferencia de píxeles es grande porque esto denota un borde, y por lo tanto π se pone preferiblemente de modo que no se aplique filtración a los píxeles donde la diferencia de píxeles es menor que π. Además, si la diferencia de píxel es pequeña, la probabilidad de que los píxeles no estén en un borde incrementa a medida que la diferencia de píxel disminuye, y por lo tanto Ω se pone preferiblemente de modo que se aplique un filtro más fuerte (es decir, n es alto) en base a si la diferencia de píxel es sumamente baja (menos de Ω) o algo pequeño (menos que 2xΩ).

En otros términos, el diagrama de flujo para determinar el recuento de píxeles filtrados en el método de extracción de la distorsión de codificación de la presente invención se resume en la tabla 1.

5 El paso S27 calcula la diferencia de píxel DifPel, un parámetro que se calcula repetidas veces en el proceso de extracción de la distorsión de codificación. Obsérvese que la diferencia de píxel DifPel se refiere a dif1a y dif2a calculados en el paso S27.

10 El paso S28 compara entonces dif1a y π. Si dif1a es mayor que Ω, el paso S29 pone n = 0 y el proceso termina sin ejecutar el proceso de extracción de la distorsión de codificación. Si dif1a es menor o igual a π, el control avanza al paso S30.

En el paso S30 se compara dif2a con Ω. Si dif2a es menor que Ω, el paso S31 pone n = 2 (es decir, la extracción de

15 distorsión de codificación se aplica al segundo píxel desde el límite de cada bloque adyacente), y el proceso termina. Si dif2a es mayor o igual a Ω, el control avanza al paso S32.

En el paso S32 se compara dif2a con 2 x Ω. Si dif2a es menor que 2 x Ω, el paso S33 pone n = 1 (es decir, la extracción de distorsión de codificación se aplica al primer píxel del límite de cada bloque adyacente), y el proceso

20 termina. dif2 es el valor absoluto de la diferencia en valores de píxel cerca del límite, y dado que el número de componentes de alta frecuencia cerca del límite disminuye cuando disminuye esta diferencia, la distorsión de codificación se puede quitar eficientemente de la zona límite incrementando el número de píxeles procesados para desbloqueo cuando dif2 es menor.

25 La figura 7 es un diagrama de flujo de un proceso para determinar el coeficiente de filtro en el método de extracción de la distorsión de codificación de la presente invención, y es un ejemplo de la operación del controlador de coeficiente de filtro 6 de la figura 2.

Se comparan tres condiciones usando n, dif1a, dif2a, y ø en el paso S37. Si las tres condiciones son verdaderas, se

30 pone un proceso de filtración de tres tomas en el paso S39. Es decir, ø es el valor umbral para determinar el número de tomas de filtro, y se aplica un filtro de tres tomas cuando el componente de alta frecuencia es bajo (n = 2) y hay poco cambio en valores de píxel en el límite (Idif2a -dif1a1 < ø). Un filtro de tres tomas realiza normalmente una supresión más fuerte de componentes de alta frecuencia que un filtro de una sola toma. Dado que el proceso de filtración se puede cambiar usando el valor de n, el parámetro n puede ser usado para cambiar el tipo de filtro en

35 lugar del número de píxeles al que se aplica el filtro. El parámetro n así obtenido también puede ser usado para cambiar el número de píxeles filtrados y el tipo de filtro aplicado.

Si las tres condiciones no son verdaderas en el paso S37, el valor de n es detectado en el paso S38. Si n ≥ 1, el

paso S40 pone un proceso de filtración de una toma. Si n = 0, el paso S42 desactiva la filtración.

Se deberá indicar que el parámetro de cuantificación QP se puede cambiar con respecto a cada bloque. Sin embargo, el proceso de extracción de la distorsión de codificación es más complicado en el límite entre bloques que tienen un parámetro de cuantificación QP diferente. La presente invención lo evita usando:

*: el parámetro de cuantificación media QP de bloques adyacentes (las fracciones pueden ser redondeadas),

*: el parámetro de cuantificación QP más alto de los bloques adyacentes,

*: el parámetro de cuantificación QP más bajo de los bloques adyacentes, o

*: el parámetro de cuantificación QP del bloque adyacente a la izquierda o adyacente superior,

como el parámetro de cuantificación QP para filtrar bloques en ambos lados del límite cuando el parámetro de cuantificación QP cambia en los bloques límite. Se deberá indicar que la diferencia entre usar estos cuatro parámetros de cuantificación QP es pequeña, y se podría preseleccionar para uso.

La distorsión de codificación se puede quitar así fácilmente con el método descrito anteriormente.

La figura 8 (a) es un diagrama de bloques de otra realización del filtro de desbloqueo 62 representado en la figura 1, y una realización separada de la parte encerrada con una línea de puntos en la figura 2. Se deberá indicar que las partes análogas de la figura 8 y el diagrama de bloques de la unidad de extracción de distorsión de codificación que usa el método convencional de extracción de la distorsión de codificación representado en la figura 34 se identifican con números de referencia análogos, y aquí se omite su descripción adicional.

El calculador de diferencia de píxel 20 calcula la diferencia de píxel en el límite de bloques a partir de la imagen reconstruida Coef, y envía la diferencia de píxel DifPel. Esta diferencia de píxel DifPel contiene una señal equivalente a dif1a y dif2a. La diferencia de píxel DifPel se obtiene comparando píxeles en posiciones simétricas izquierda y derecha o encima y debajo del límite entre bloques de unidad de codificación, y usando la diferencia d1, d2, d3, d4 (diferencia de color o diferencia de luminancia) entremedio. Si la media de estas diferencias (por ejemplo, (d1 + d2 + d3 + d4)/4) es menor o igual a un valor específico, es probable que no haya una línea de límite de imagen en el rango de la anchura usada para determinar d4, y por lo tanto se aplica el filtro de desbloqueo. Por otra parte, si la media es mayor o igual a un valor específico, hay un límite de imagen y no se aplica el filtro de desbloqueo. Se deberá indicar que esta comparación podría usar uno, dos o tres de d1, d2, d3, y d4. En vez de usar la media, la diferencia más alta se podría comparar alternativamente con un valor específico.

El diagrama de flujo para determinar el recuento de píxeles filtrados puede ser usado como un ejemplo de la operación del controlador de recuento de píxeles filtrados 4. Un ejemplo de la operación del controlador de coeficiente de filtro 6 en esta realización se representa en el diagrama de flujo para determinar el coeficiente de filtro representado en la figura 7. Referenciando la diferencia de píxel DifPel como se representa en la figura 8 (b), los cálculos del número de diferencia de píxel se pueden reducir con respecto al controlador de recuento de píxeles filtrados 4 y al controlador de coeficiente de filtro 6. Por lo tanto, el controlador de recuento de píxeles filtrados 4 y el controlador de coeficiente de filtro 6 pueden poner el recuento de píxeles filtrados y el coeficiente de filtro sin referenciar la imagen reconstruida Coef.

Así será evidente que el número de cálculos se puede reducir usando repetidas veces el valor calculado como diferencia de píxel DifPel.

Realización 3

Esta realización de la invención describe un aparato codificador y un aparato decodificador que implementan el método de extracción de la distorsión de codificación descrita en otra realización de la invención.

La figura 9 es un diagrama de bloques del aparato codificador.

La unidad de detección de movimiento 30 compara la imagen de referencia Ref1 y la imagen de referencia Ref2 salidas respectivamente de la primera memoria 38 y la segunda memoria 40 con la señal de imagen Vin, y detecta el vector de movimiento MV, es decir, la cantidad de movimiento en la señal de imagen Vin con relación a la imagen de referencia. Se deberá indicar que la información que indica si el error de predicción será menos referenciando la imagen de referencia Ref1 o la imagen de referencia Ref2 también queda incluido en el vector de movimiento MV y se refiere a la unidad de compensación de movimiento 32. La unidad de compensación de movimiento 32 extrae la imagen en la posición indicada por el vector de movimiento MV de la imagen de referencia Ref1 o la imagen de referencia Ref2, y la envía como imagen de movimiento compensado MCpel.

El sustractor 42 obtiene la diferencia de la señal de imagen Vin y la imagen de movimiento compensado MCpel, y la

envía a la unidad de transformada del coseno (DCT) 46. La unidad de transformada del coseno 46 calcula la DCT y cuantifica la diferencia de entrada, y envía el componente de frecuencia FCoef. El escáner de zigzag 48 envía el componente de código de frecuencia DCoef reordenando la secuencia de componente de frecuencia FCoef, y la unidad de codificación de longitud variable 50 codifica en longitud variable el componente de código de frecuencia DCoef para enviar la señal codificada Str.

La salida de la unidad DCT (unidad de transformada del coseno) 46 también se introduce en la unidad DCT inversa (unidad de transformada del coseno inversa) 44. El componente de frecuencia FCoef y la imagen de movimiento compensado MCpel salidas de la unidad de compensación de movimiento 32 son mezcladas por el sintetizador 34, y se envía la imagen mezclada Coef. La imagen mezclada Coef se guarda tal cual en la primera memoria 38, y también es procesada por el filtro de desbloqueo 36 y la señal de imagen decodificada Vout de la que se ha quitado la distorsión de codificación, se guarda en la segunda memoria 40.

La figura 10 es un diagrama de bloques del aparato decodificador. Este aparato decodificador decodifica correctamente la señal codificada Str codificada por el aparato codificador representado en el diagrama de bloques en la figura 9. Las partes de la figura 10 que operan igual que las partes correspondientes de la figura 32 o la figura 33 son identificadas con números de referencia análogos, y aquí se omite su descripción adicional. La unidad DCT inversa (unidad de transformada del coseno inversa) 56 descuantifica el componente de frecuencia FCoef y calcula EL DCT inversa para enviar la imagen de diferencia DifCoef. El sumador 58 añade la imagen de diferencia DifCoef y la imagen de movimiento compensado MCpel para obtener la imagen reconstruida Coef. La imagen reconstruida Coef es almacenada en la primera memoria 64, y la señal de imagen decodificada Vout obtenida por el filtro de desbloqueo 62 que quita la distorsión de codificación de imagen reconstruida Coef es almacenada en la segunda memoria 66.

Como resultado de esta operación, una imagen de la que no se ha quitado distorsión de codificación, se almacena en la primera memoria 38 y primera memoria 64, y una imagen de la que se ha quitado la distorsión de codificación, se almacena en la segunda memoria 40 y segunda memoria 66. El proceso de extracción de la distorsión de codificación no siempre quita solamente la distorsión de codificación, y es posible que también se pierda parte de la señal de imagen actual. Por lo tanto, el aparato codificador representado en la figura 9 está configurado de modo que la unidad de detección de movimiento 30 siempre pueda seleccionar la mejor salida de la primera memoria 38 y la segunda memoria 40.

Si se pierde parte de la señal de imagen original quitando la distorsión de codificación con la configuración de esta realización, se puede seleccionar una imagen de referencia apropiada referenciando la primera memoria 38. Una imagen de referencia apropiada puede ser seleccionada igualmente por el aparato decodificador representado en la figura 10.

Se deberá indicar que se usa una DCT como la transformada ortogonal en esta realización de la invención, pero se podría usar una transformada Hadamard o transformada de onda pequeña.

Realización 4

La figura 11 es un diagrama de bloques de una unidad de extracción de distorsión de codificación según una realización preferida de la invención, y corresponde al filtro de desbloqueo 62 representado en la figura 1, por ejemplo. Esta unidad de extracción de distorsión de codificación se distingue determinando el valor umbral para poner el filtro. Se deberá indicar que las partes que realizan la misma operación que las partes análogas de la unidad de extracción de distorsión de codificación representado en la figura 34 se identifican con números de referencia análogos y aquí se omite su descripción adicional.

El decodificador de parámetro de posición de filtro 22 decodifica la señal de parámetro de posición de filtro FtrStr, y envía el parámetro de filtro FtrPrm. Esta señal de parámetro de posición de filtro FtrStr no es un valor umbral, sino que es un parámetro para establecer el valor umbral. El parámetro de filtro FtrPrm es equivalente a π, Ω y ø en la figura 5. Decodificando y obteniendo datos que optimizan estos parámetros π, Ω y ø para cada imagen de señal de parámetro de posición de filtro FtrStr, se habilita la extracción de distorsión de codificación apropiada para la imagen.

La figura 12 representa la estructura de la señal codificada Str en el método de extracción de la distorsión de codificación de la presente invención. La figura 12 (a) es una señal codificada para una imagen, y contiene datos de imagen PicData que contienen los datos para una imagen, y la cabecera de imagen PicHdr común a todos los datos en una imagen. Esta cabecera de imagen PicHdr contiene la señal de parámetro de posición de filtro FtrStr.

La figura 12 (b) representa la estructura de datos de imagen PicData. Estos datos de imagen PicData contienen la señal de segmento SliceStr, la señal codificada de un segmento conteniendo un grupo de múltiples unidades de bloque.

La figura 12 (c) representa la estructura de señal de segmento SliceStr, que contiene datos de segmento SliceData que contienen los datos para una segmento, y la cabecera de segmento SliceHdr común a todos los datos en el

segmento. Escribiendo señal de parámetro de posición de filtro FtrStr a la cabecera de segmento SliceHdr, se puede decodificar correctamente una señal codificada recibida en unidades de datos de segmento SliceData.

Si se contienen múltiples señales de segmento SliceStr en los datos de imagen PicData, la señal de parámetro de posición de filtro FtrStr se podría escribir solamente en algunas cabeceras de segmento SliceHdr en lugar de escribir la señal de parámetro de posición de filtro FtrStr en todas las cabeceras de segmento SliceHdr. Si el contenido de la señal de parámetro de posición de filtro FtrStr es común a cada segmento, y la señal de parámetro de posición de filtro FtrStr no se escribe en la cabecera de segmento SliceHdr como se representa en la figura 12 (c), se puede suprimir el aumento del número de bits debido para repetir la señal de parámetro de posición de filtro FtrStr sustituyendo la señal de parámetro de posición de filtro FtrStr de otra cabecera de segmento SliceHdr.

Si la señal codificada Str es transmitida en pequeñas unidades de datos tales como paquetes en lugar de una sola corriente de bits continua, las partes de cabecera y no cabecera se pueden transmitir por separado. En este caso, las partes de cabecera y datos no estarán en una sola corriente de bits como se representa en la figura 12. Sin embargo, aunque la secuencia de transmisión de las partes de cabecera y datos no sea continua, la cabecera para un paquete de datos particular se transmite simplemente en otro paquete, y el concepto es el mismo que la corriente de bits representada en la figura 12 incluso aunque la transmisión no sea una sola corriente de bits.

La figura 13 es un diagrama de bloques del aparato codificador. Obsérvese que las partes análogas de la figura 13 y la figura 9 se identifican con números de referencia análogos y aquí se omite su descripción adicional.

La memoria 217 guarda la señal de imagen Vin, es decir, la señal de imagen introducida para codificación. La unidad de comparación de calidad de imagen 216 compara la señal de imagen deseada de codificación leída de la memoria 217 con la señal de imagen decodificada Vout. El tamaño del error obtenido de la comparación realizada por la unidad de comparación de calidad de imagen 216 se almacena conjuntamente con el valor umbral del filtro de desbloqueo para la imagen decodificada en la memoria de comparación 218. La unidad de selección 219 selecciona como el valor umbral óptimo el valor umbral del filtro de desbloqueo correspondiente al error más pequeño almacenado en la memoria de comparación 218. El valor umbral óptimo seleccionado es multiplexado como una corriente de bits añadida relacionada a la corriente de bits de la imagen correspondiente. En base al valor umbral óptimo enviado por la unidad de selección 219, la unidad de control de valor umbral 215 genera un valor umbral candidato para el filtro de desbloqueo de la imagen siguiente, recomienda el filtro de desbloqueo 36 y cambia el valor umbral del proceso de extracción de la distorsión de codificación, y envía el valor umbral actualmente en uso a la memoria de comparación 218.

La figura 14 es una representación conceptual del aparato codificador específico representado en el diagrama de bloques en la figura 13. En la figura 14 la unidad de selección de valor umbral óptimo 226 realiza las operaciones de las partes en la figura 13 distintas del escáner de zigzagueo 48, la unidad de codificación de longitud variable 50, y la unidad de anexión de valor umbral 220, equivalente a la operación de la memoria 217, la unidad de comparación de calidad de imagen 216, la memoria de comparación 218, la unidad de selección 219, y la unidad de control de valor umbral 215. El codificador vídeo 227 corresponde a la operación de las partes distintas de la memoria 217, la unidad de comparación de calidad de imagen 216, la memoria de comparación 218, la unidad de selección 219, y la unidad de control de valor umbral 215 en la figura 13. El valor umbral 228 es equivalente al valor umbral óptimo anterior.

La unidad de selección de valor umbral óptimo 226 selecciona un valor umbral óptimo. Este valor umbral óptimo es equivalente al conjunto de valores π, Ω y ø determinados para cada parámetro de cuantificación QP en la figura 5. El valor umbral óptimo seleccionado es almacenado en la memoria de valor umbral 228 y se aplica al codificador vídeo 227 como señal de parámetro de posición de filtro FtrStr. La señal codificada de parámetro de posición de filtro FtrStr es procesada por el decodificador de parámetro de posición de filtro 22 representado en la figura 11, por ejemplo, en el decodificador.

Se deberá indicar que el valor umbral óptimo podría ser almacenado en la memoria en unidad de control de valor umbral 215 representada en la figura 13, y los datos de valor umbral podrían ser enviados por la unidad de control de valor umbral 215 a la unidad de anexión de valor umbral 220.

A continuación se describe una operación por la que la señal de parámetro de posición de filtro FtrStr se determina al quitar la distorsión de codificación. La figura 15, la figura 16 y la figura 17 son diagramas de flujo que representan la operación del aparato codificador descrito en la figura 13 y la figura 14.

La figura 15 es un diagrama de flujo de una operación para medir la calidad de imagen.

La trama deseada target_frame se pone primero y se envía la primera imagen (paso 229). La trama deseada target_frame es la imagen usada para derivar el valor umbral.

La unidad de control de valor umbral 215 pone entonces un rango de valores umbral (paso 230), y el valor en un extremo de este rango es enviado desde la unidad de control de valor umbral 215 como el valor umbral inicial (paso 231).

Usando este valor umbral inicial, el filtro de desbloqueo 36 quita distorsión de codificación, comienza a codificar la imagen para la trama deseada target_frame (paso 232), y la unidad de comparación de calidad de imagen 216 mide entonces la calidad de imagen de este primera imagen codificada y la señal de imagen Vin (paso 233).

El resultado de esta comparación se guarda en la memoria de comparación 218 (paso 234), y se incrementa el número de trama corriente current_frame (paso 235). Es decir, la imagen procesada se cambia de la primera imagen a la imagen siguiente, y la imagen siguiente es enviada, por ejemplo, a la unidad de selección de valor umbral óptimo 226 y el codificador vídeo 227 representado en la figura 14 o la memoria 217, la unidad de detección de movimiento 30, y el sustractor 42 representado en la figura 13.

El paso 236 determina entonces si el número de trama corriente current_frame ha alcanzado la trama deseada target_frame. En caso negativo, se repiten los pasos 233 a 235. La calidad de imagen de la imagen de entrada es medida por la unidad de comparación de calidad de imagen 216, y el resultado se guarda en la memoria de comparación 218. Si el número de trama corriente current_frame es igual a la trama deseada target_frame, el control avanza al paso 237 y el número de trama corriente current_frame se resetea a la primera imagen.

La unidad de control de valor umbral 215 incrementa entonces el valor umbral (paso 238A), es decir, el valor umbral se pone al valor siguiente. Este “valor siguiente” es el valor incrementado un incremento específico con respecto al primer valor.

Entonces se determina si se han comprobado todos los valores umbral hasta el valor umbral en el otro extremo del rango establecido (paso 238B). Si todos valores umbral han sido comprobados, termina el proceso para determinar el valor umbral óptimo. Si no todos los valores umbral han sido comprobados, el control vuelve al paso 232 y la imagen para trama deseada target_frame es codificada. La calidad de imagen puede ser medida así midiendo la calidad de imagen para todas las tramas deseadas target_frame usando un valor umbral, incrementando posteriormente el valor umbral una cantidad específica, y midiendo de nuevo posteriormente la calidad de imagen para todas las tramas deseadas target_frame.

Con referencia a continuación al diagrama de flujo en la figura 16 se describe un método para medir la calidad de imagen en una imagen usando todos los valores umbral en un rango de valores umbral establecidos, avanzando posteriormente a la imagen siguiente y midiendo la calidad de imagen usando todos los valores umbral en un rango de valores umbral establecidos.

Primero se pone la trama deseada target_frame y se envía la primera imagen (paso 239). El número de trama corriente current_frame se inicializa entonces a 0 (paso 240).

La unidad de control de valor umbral 215 pone entonces un rango de valores umbral (paso 241), y el valor umbral se pone al filtro de desbloqueo 36 (paso 242).

La primera imagen es codificada posteriormente (procesada para extracción de distorsión de codificación) usando el valor umbral inicial (paso 243), y la unidad de comparación de calidad de imagen 216 mide la calidad de imagen de la imagen codificada (paso 244).

El resultado enviado por la unidad de comparación de calidad de imagen 216 se almacena en la memoria de comparación 218 (paso 245), y la unidad de control de valor umbral 215 incrementa el valor umbral al valor siguiente (paso 246A).

Entonces se determina si todos los valores umbral han sido comprobados (paso 246B). Si no todos los valores umbral han sido comprobados, el control vuelve al paso 242 y la calidad de imagen de la misma imagen se mide usando un valor umbral diferente. Si todos los valores umbral han sido comprobados, el control avanza al paso 247.

El número de trama corriente current_frame se incrementa entonces en el paso 247. Es decir, la imagen procesada se cambia de la primera imagen (la primera trama) a la segunda imagen (la segunda trama), y la imagen siguiente es enviada, por ejemplo, a la unidad de selección de valor umbral óptimo 226 y el codificador vídeo 227 representado en la figura 14 o la memoria 217, la unidad de detección de movimiento 30, y el sustractor 42 representado en la figura 13.

El paso 248 determina entonces si el número de trama corriente current_frame ha alcanzado la trama deseada target_frame. En caso negativo, se repiten los pasos 241 a 247. Si current_frame es igual a target_frame, finaliza el proceso de medición de calidad de imagen.

La figura 17 es un diagrama de flujo de un método para seleccionar el valor umbral óptimo en base al valor umbral descrito en la figura 15 o la figura 16 y los resultados de medir la calidad de imagen a dicho valor umbral.

La unidad de selección 219 obtiene los resultados de la calidad de imagen de la medición y los datos de valor umbral

correspondientes en el paso 249 en la figura 17.

Los resultados de la medición se disponen entonces en un orden específico (paso 250).

La imagen con la mejor calidad de imagen se selecciona entonces en base a condiciones específicas (paso 251), y el valor umbral para dicha imagen se selecciona como el valor umbral óptimo. Estas condiciones específicas podrían ser alguna o una combinación de las siguientes: una baja relación S/N, la diferencia más pequeña entre la imagen reconstruida (la imagen desbloqueada al valor umbral) y la imagen original (señal de imagen introducida Vin), y el valor eficaz más bajo de la diferencia.

El valor umbral óptimo seleccionado es enviado entonces como señal de parámetro de posición de filtro FtrStr, por ejemplo, al codificador vídeo 227 en la figura 14 (paso 252).

Así se puede seleccionar el mejor valor umbral usando el método descrito con referencia a la figura 17.

Como se ha descrito anteriormente esta realización preferida mide la calidad de imagen para todos los valores umbral en un rango especificado, recoge los resultados de la medición de la calidad de imagen, y selecciona el valor umbral óptimo de entre los resultados. También es posible medir la calidad de imagen en secuencia para todos los valores umbral en un rango de valores umbral, finalizar la medición de la calidad de imagen en el punto en que se detecta un resultado con la mejor calidad de imagen, y seleccionar el valor umbral que produce dicho resultado de calidad de imagen como el valor umbral óptimo. Este método puede reducir el número de mediciones de calidad de imagen realizadas.

El proceso de extracción de la distorsión de codificación para un bloque dado compara los valores de píxel en dicho bloque con los valores de píxel en un bloque adyacente. El bloque adyacente en este caso es un bloque para el que el proceso de extracción de la distorsión de codificación ha terminado y la corrección del valor de píxel ha terminado.

Al quitar la distorsión de codificación de bloque G en la figura 18, por ejemplo, la distorsión de codificación se podría quitar por comparación con cualquiera de los cuatro bloques adyacentes E, D, H y M. Sin embargo, usando un bloque para el que ya se ha completado el procesado de extracción de distorsión de codificación, la distorsión de codificación se puede quitar más exactamente.

La distorsión de codificación se quita preferiblemente en secuencia lineal en el orden de exploración. Es decir, la distorsión de codificación se quita en la dirección de exploración de las líneas de exploración horizontal de la imagen en secuencia de líneas de exploración horizontal.

En otros términos, con referencia a la figura 18, la primera línea de exploración de los bloques A, B, E, F es procesada primero para extracción de distorsión de codificación, a continuación se procesa la línea siguiente de los bloques C, D, G, H, etc. Cada bloque tiene cuatro límites, pero el procesado de extracción de distorsión de codificación se aplica preferiblemente usando los bloques adyacentes que tocan el límite superior y el límite izquierdo.

En este caso, el procesado de extracción de distorsión de codificación no se aplica al bloque A porque hay un bloque adyacente que toca su límite superior o límite izquierdo.

Igualmente no hay ningún bloque adyacente que toque el límite superior del bloque B, y por lo tanto el desbloqueo se aplica usando el bloque A, que es adyacente al límite izquierdo del bloque B.

Los bloques E y D son adyacentes respectivamente a los límites superior e izquierdo del bloque G, y por lo tanto la distorsión de codificación se quita del bloque G usando los bloques E y D sin usar los bloques H y M.

Así, quitando la distorsión de codificación entre un nuevo bloque y los bloques adyacentes de los que ya se ha quitado la distorsión de codificación, y sin referenciar bloques adyacentes que no han sido procesados para distorsión de codificación, la distorsión de codificación se puede quitar más exactamente.

Realización 5

Esta realización describe primero un caso en el que los píxeles se dividen en grupos de múltiples píxeles cada uno, tal como grupos de cuatro píxeles en una columna, los grupos se agrupan posteriormente en pares, y se aplica extracción de distorsión de codificación a los pares de grupos. Un proceso de extracción de la distorsión de codificación usado en esta realización se refiere a determinar si aplicar desbloqueo a una zona en ambos lados de un límite de bloques, y a la operación de desbloqueo propiamente dicha. Un bloque podría ser un bloque 4x4 de 16 píxeles que es la unidad de codificación más pequeña, o cualquiera de los bloques a los que se aplica compensación de movimiento como se ha descrito anteriormente con referencia a la figura 3.

Como se representa en la figura 19, los cuatro píxeles en un grupo son un grupo de cuatro píxeles dispuestos en

línea con el límite de bloques. Cuatro de tales grupos se representan en la figura 19, r1, r2, r3, y r4. Los datos de estos cuatro grupos r1, r2, r3, y r4 pueden ser almacenados en cuatro registros (registros SIMD, por ejemplo). Los grupos r1, r2 y los grupos r3, r4 están situados simétricamente en los lados izquierdo y derecho del límite de bloques. Los valores de píxel en el grupo r1 se comparan con valores de píxel en el grupo r2, y el procesado de extracción de distorsión de codificación se aplica usando las diferencias resultantes.

Más específicamente, se obtiene la diferencia 1 entre el píxel superior en el grupo r1 y el píxel superior en el grupo r2, la diferencia 2 entre el segundo al píxel superior en el grupo r1 y el segundo al píxel superior en el grupo r2, la diferencia 3 entre el segundo al píxel inferior en el grupo r1 y el segundo al píxel inferior en el grupo r2, y la diferencia 4 entre el píxel inferior en el grupo r1 y el píxel inferior en el grupo r2. La media de la diferencia 1, la diferencia 2, la diferencia 3 y la diferencia 4, o la suma de los valores absolutos de la diferencia 1, la diferencia 2, la diferencia 3 y la diferencia 4 se usa como una diferencia representativa, y esta diferencia representativa se compara con un valor umbral específico. También son posibles otros métodos. Dado que estas operaciones se realizan en unidades de cuatro píxeles en los mismos grupos, se puede usar procesado paralelo para acelerar de forma significativa la producción en comparación con el procesado de cada píxel a la vez.

Aunque la comparación usando el grupo r1 y el grupo r2 se ha descrito anteriormente, si se requiere mayor exactitud, la luminancia de píxeles en el grupo r3 se puede comparar con los valores de luminancia de píxel del grupo r4, y las diferencias representativas de la comparación de los grupos r1 y r2 se pueden añadir o promediar con las diferencias representativas de los grupos r3 y r4 para quitar distorsión de codificación.

La operación descrita anteriormente se aplica a límites de bloque verticales, pero se puede aplicar la misma operación esencial a límites horizontales montando simplemente grupos horizontales de cuatro píxeles a lo largo de los límites horizontales.

Las figuras 20 (a) y (b) muestran casos en los que las líneas de exploración se entrelazan en pantalla. Una imagen entrelazada es una imagen en la que una trama consta de dos campos presentados en tiempos diferentes. La codificación y la decodificación de una imagen entrelazada se pueden realizar procesando una trama como una trama, como dos campos, o por estructura de trama o bloques de estructura de campo en una trama. En la figura 20 los cuadrados grises pequeños denotan píxeles de línea impar, y los cuadrados blancos pequeños denotan píxeles de línea par. Los píxeles grises de las líneas impares forman así un campo de una trama y los píxeles blancos en las líneas par forman el otro campo de la misma trama.

En una señal de imagen entrelazada una trama consta de dos campos (un campo par y un campo impar) en diferentes instantes de tiempo. En otra imagen, los valores de píxel no cambian con el tiempo, y la correlación entre líneas verticalmente adyacentes en una trama es más fuerte que la correlación entre líneas verticalmente adyacentes en un campo. En una imagen móvil, sin embargo, la imagen cambia en gran medida con el tiempo, los valores de píxel pueden diferir así en gran medida en dos campos, y la correlación entre líneas verticalmente adyacentes en un campo es más fuerte que la correlación entre líneas verticalmente adyacentes en una trama. Por lo tanto, es más eficiente procesar imágenes fijas por trama e imágenes móviles por campo.

En una imagen entrelazada (1) todos los bloques podría ser bloques de estructura de trama (la estructura de trama se describe mejor más adelante), (2) todos los bloques podrían ser bloques de estructura de campo (la estructura de campo se describe mejor más adelante), o (3) la imagen podría contener bloques de estructura de trama y de estructura de campo.

Si la imagen contiene todos los bloques de estructura de trama (1), todo desbloqueo es aplicado por la unidad de estructura de trama. Si la imagen contiene todos los bloques de estructura de campo (2), todo desbloqueo es aplicado por la unidad de estructura de campo. Si la imagen contiene bloques de estructura de trama y de estructura de campo (3), se aplica desbloqueo convirtiendo de forma adaptativa la estructura de campo a la estructura de trama

o de la estructura de trama a la estructura de campo. Estas operaciones se describen más específicamente más adelante.

Las imágenes entrelazadas que son imágenes fijas o contienen poco movimiento son procesadas por unidades de trama que constan de campos impar y de campos par como se representa en la figura 20 (a) (denominado aquí una “estructura de trama”). En una estructura de trama, como se representa en el lado derecho en la figura 20 (a), un bloque de 16 píxeles contiene tanto píxeles de línea impar como píxeles de línea par. El proceso de extracción de la distorsión de codificación se aplica entre bloques con una estructura de trama. Es decir, como se ha descrito con referencia a la figura 8 (b), el procesado de extracción de distorsión de codificación se aplica a los límites de bloque.

Las imágenes entrelazadas con mucho movimiento son procesadas por una unidad de campo separada en campos impares y campos pares como se representa en la figura 20 (b) (denominados aquí una “estructura de campos”). Como se representa en el lado derecho en la figura 20 (b), la imagen se separa en campos impares de líneas impares y campos pares de líneas pares; los campos impares contienen bloques de líneas impares, y los campos pares contienen bloques de líneas pares. El proceso de extracción de la distorsión de codificación se aplica solamente entre bloques de estructura de campo de líneas impares solamente o bloques de estructura de campo de

líneas pares solamente.

La figura 21 (a) representa un caso en el que parte de la imagen entrelazada consta de bloques de estructura de trama y otra parte consta de bloques de estructura de campo. Preferiblemente, la parte de imagen móvil de la imagen contiene los bloques de estructura de campo y la parte de imagen fija contiene los bloques de estructura de trama. La unidad más pequeña formada por una estructura de campo o estructura de trama es el macrobloque, es decir, la unidad más grande a la que se aplica DCT u otra transformada ortogonal o compensación de movimiento (o super-macrobloques de múltiples macrobloques). Se supone a continuación que el rectángulo conteniendo el coche en la figura 21 (a) contiene bloques de estructura de campo, y el resto de la imagen contiene bloques de estructura de trama.

A continuación se describe cómo se aplica extracción de distorsión de codificación al límite entre la parte de estructura de campo y la parte de estructura de trama.

Con referencia a la figura 21 (b), los bloques de las columnas C1, C2, C3, y C4 pertenecen a la zona de imagen conteniendo el coche y así tienen una estructura de campo a causa del movimiento en esta zona de imagen. Los bloques de columnas C5, C6, C7, y C8 pertenecen a la zona donde el coche no está, es decir, la zona de imagen fija, y así tienen una estructura de trama eficiente. Obsérvese que en este ejemplo los macrobloques tienen 16 píxeles por lado y los bloques tienen 4 píxeles por lado. Las columnas C4 y C5 se representan aparte en la figura 21

(b) pero están realmente adyacentes en la imagen. La extracción de distorsión de codificación como se representa en la figura 8 (b) se aplica al límite de bloques entre las columnas C3 y C4 y el límite de bloques entre las columnas C5 y C6.

Para procesar el límite de bloques entre las columnas C4 y C5, los bloques de estructura de trama en la columna C5 se convierten primero a bloques de estructura de campo como se representa en la figura 21 (c). Esto se realiza, por ejemplo, convirtiendo los píxeles de línea impar de la columna C5 representada en la figura 21 (b) en un bloque de píxeles grises en la columna C5 como se representa en la figura 21 (c), y convirtiendo los píxeles de línea par de la columna C5 representada en la figura 21 (b) en un bloque de píxeles blancos en la columna C5 como se representa en la figura 21 (c). Entonces se quita la distorsión de codificación en el límite de bloques entre las columnas C4 y C5 como se representa en la figura 8 (b).

Los bloques de estructura de trama se convierten así en bloques de estructura de campo porque la correlación vertical entre píxeles se perderá si los bloques de estructura de campo se convierten a bloques de estructura de trama cuando hay movimiento en la imagen, y tiene lugar degradación no natural si el proceso de extracción de la distorsión de codificación se aplica entre bloques verticalmente adyacentes. Por otra parte, aunque la supresión del error de codificación en componentes de alta frecuencia en la dirección vertical se reduce si los bloques de estructura de trama se convierten a bloques de estructura de campo en imágenes fijas, la correlación vertical entre píxeles no se pierde y no tiene lugar fácilmente degradación no natural de la calidad de imagen.

Los bloques de estructura de trama se convierten a bloques de estructura de campo para reducir la cantidad de procesado (convirtiendo solamente tramas en campos) en el ejemplo anterior. Sin embargo, si no preocupa el número de operaciones, se puede usar un método alternativo que convierte las tramas en campos y el campo en tramas, y así incrementa el número de operaciones en comparación con el ejemplo anterior a causa del procesado adicional requerido para convertir campos en tramas. Más específicamente, primero se determina si los píxel deseados para extracción de distorsión de codificación (es decir, el píxel corriente cuyo valor de píxel se ha de cambiar por desbloqueo) están en un bloque de estructura de trama o un bloque de estructura de campo. Si los píxeles deseados para extracción de distorsión de codificación están en un bloque de estructura de campo, los bloques de estructura de trama se convierten en bloques de estructura de campo (es decir, el tipo de bloque del píxel deseado), y si los píxeles deseados para procesado de extracción de distorsión de codificación están en un bloque de estructura de trama, los bloques de estructura de campo se convierten a bloques de estructura de trama (es decir, el tipo de bloque del píxel deseado).

La operación cuando se mezclan las estructuras de trama y las estructuras de campo se describe a continuación con referencia al diagrama de flujo en la figura 22.

Una trama en una corriente de señales de imágenes entrelazadas consta de dos campos explorados en diferentes instantes de tiempo. Por lo tanto, una trama puede ser trama codificada combinando los dos campos en una sola unidad de codificación (codificación de estructura de trama), o puede ser campo codificado con los dos campos codificados y manejados por separado (codificación de estructura de campo). Estos métodos de codificación también se pueden agrupar en las dos categorías siguientes, codificación fija y codificación adaptativa. Con codificación fija toda la imagen es conmutada entre codificación de trama o codificación de campo. Con codificación adaptativa la imagen se divide en un número de bloques y cada bloque es codificado en trama o codificado en campo.

La codificación fija incluye además codificación de trama fija aplicada a bloques de estructura de trama, y codificación de campo fija aplicada a bloques de estructura de campo. Con codificación fija la secuencia video entrelazada siempre es codificada con codificación de trama o codificación de campo independientemente del

contenido.

Con codificación adaptativa, sin embargo, la codificación de trama o la codificación de campo se pueden seleccionar de forma adaptativa en base al contenido, la imagen, o la unidad de bloque de codificación en la imagen. Estos bloques de codificación en imagen pueden ser tan pequeños como el macrobloque. Por lo tanto, con codificación adaptativa, los macrobloques individuales pueden ser codificados usando codificación de trama o codificación de campo. Los macrobloques se usan a continuación como la unidad de codificación.

Los bloques codificados en trama, es decir, bloques con una estructura de trama, pueden ser procesados para extracción de distorsión de codificación usando la misma técnica aplicada a vídeo no entrelazado.

Con bloques codificados en campo, es decir, bloques con una estructura de campo, los campos están separados en campos pares y campos impares, cada campo es manejado como una imagen separada, y por lo tanto se aplica desbloqueo a cada campo.

Con referencia al diagrama de flujo de la figura 22, primero se decide si el bloque deseado es de campo codificado o de trama codificada (paso 63). Si el bloque es de campo codificado, se ejecutan los pasos 64 a 69. Si el bloque es de trama codificada, se ejecutan los pasos 70 a 72.

Los pasos 64 a 66 procesan bloques de estructura de campo par, y los pasos 67 a 69 procesan bloques de estructura de campo impar. Los pasos 64 a 66 quitan la distorsión de codificación entre píxeles blancos en el límite entre las columnas C3 y C4 en la figura 21 (b), y los pasos 67 a 69 quitan la distorsión de codificación entre píxeles grises en el límite entre las columnas C3 y C4 en la figura 21 (b).

Más específicamente, la luminancia de píxel se compara en el paso 64 para determinar si se necesita extracción de distorsión. El número de píxeles a filtrar se determina entonces en el paso 65. La distorsión de codificación se quita entonces en el modo de campo en el paso 66.

Los pasos 67, 68, y 69 realizan las mismas operaciones que los pasos 64, 65 y 66, respectivamente.

Los pasos 70 a 72 procesan bloques de estructura de trama para quitar la distorsión de codificación en el límite entre las columnas C5 y C6 en la figura 21 (b). Más específicamente, la luminancia de píxel se compara en el paso 70 para determinar si se necesita extracción de distorsión de codificación. El número de píxeles a filtrar se determina entonces en el paso 71. La distorsión de codificación se quita entonces en el modo de trama en el paso 72.

En el paso 73 se determina si todos los bloques han sido procesados, y si lo han sido, termina la operación.

La figura 23 representa un método alternativo en el que los pasos 64 y 67 en la figura 22 se combinan en un solo paso. Más específicamente, se determina si hay que quitar distorsión de codificación de ambos bloques de campo par y bloques de campo impar, y se aplica desbloqueo a bloques de campo par e impar si es necesario. Esto simplifica el proceso de extracción de la distorsión de codificación.

La figura 24 representa otro método alternativo en el que los pasos 65 y 68 de la figura 23 se combinan en una sola operación determinando el número de píxeles en bloques de campo par y bloques de campo impar a desbloquear. Entonces se aplica extracción de distorsión de codificación a ambos bloques de campo par e impar en base al resultado. Este método simplifica además la extracción de distorsión de codificación.

La figura 25 es un diagrama de flujo de un proceso usado cuando bloques codificados en trama y bloques codificados en campo se mezclan en una sola imagen, y el límite de bloques está entre un bloque de estructura de trama y un bloque de estructura de campo.

El paso 95 determina en primer lugar si la línea límite entre los bloques procesados para extracción de distorsión de codificación es una línea límite específica, es decir, si un bloque de estructura de trama está en un lado de la línea y un bloque de estructura de campo está en el otro lado. Esto se puede comparar con determinar si la línea está entre las columnas C4 y C5 en la figura 21 (b). Si lo está (el paso 95 devuelve Sí), el control avanza al paso 96.

El bloque de estructura de trama en un lado del límite es convertido entonces a un bloque de estructura de campo (paso 96). Esta conversión es comparable a convertir un bloque de la columna C5 en la figura 21 (b) a un bloque de la columna C5 en la figura 21(c). El bloque convertido se denomina a continuación un “bloque de conversión”.

Entonces se determina si es necesaria la extracción de distorsión de codificación entre el bloque de conversión y el bloque de estructura de campo en el otro lado del límite (paso 97). Esto es comparable a decidir si el desbloqueo es necesario en el límite entre las columnas C4 y C5 en la figura 21 (c). Si es necesario, el control avanza al paso 98.

Entonces se determina el número de píxeles a filtrar (paso 98), y se quita la distorsión de codificación en el modo de campo (paso 99).

La figura 25 representa un método por el que los bloques de estructura de trama son convertidos a bloques de estructura de campo y se quita la distorsión de codificación de los campos cuando estructura de trama codificada de forma adaptativa y bloques de estructura de campo son adyacentes, pero, a la inversa, es posible convertir bloques de estructura de campo en bloques de estructura de trama, y quitar distorsión de codificación en base de trama.

Una ventaja de quitar la distorsión de codificación en base de campo como se representa en la figura 25 es que la operación es resistente a degradación no natural de la calidad de imagen porque la distorsión de codificación se quita usando solamente píxeles en el mismo instante de tiempo incluso en señales de imagen con rápido movimiento. Por otra parte, dado que la correlación entre píxeles en la dirección vertical es más fuerte en tramas que campos en señales de imagen con poco movimiento, el desbloqueo en base de trama da lugar a menos degradación de componentes de alta frecuencia que el desbloqueo en base de campo. Así, ambos métodos tienen ventajas, y el fabricante de equipos podría seleccionar el método preferible o podría proporcionar medios de modo que el usuario pueda seleccionar el método deseado.

También se podría aplicar extracción de distorsión de codificación por unidad de imagen (trama o campo) en lugar de por unidad de bloque con codificación adaptativa. El filtro de desbloqueo puede ser simplificado proporcionando un filtro de desbloqueo de modo de campo o modo de trama para procesar unidades de imagen. El filtro podría estar fijo en el modo de campo o el modo de trama, o se podría conmutar en base de imagen. Si el filtro se conmuta en base de imagen, el aparato codificador puede determinar el modo apropiado, y se puede añadir una señal de identificación que denote si el filtro de desbloqueo del aparato decodificador deberá operar en el modo de campo o modo de trama a la cabecera de corriente de código y transmitir al decodificador.

Además, cuando la operación en modo de campo o de trama se puede conmutar en base a unidad de bloque y el desbloqueo y la conmutación en base de campo está prohibida (estableciendo un parámetro de imagen para prohibir la conmutación en la imagen, por ejemplo), se puede quitar distorsión de codificación por unidades de trama.

Se deberá indicar que el filtro de desbloqueo de las realizaciones primera a quinta descritas anteriormente puede ser usado como un postfiltro como se representa en la figura 32 o un filtro en bucle como se representa en la figura 33.

Almacenando los datos desde antes de la operación de desbloqueo en la memoria 64, una imagen de la que no se ha quitado distorsión de bloque se referencia como la imagen predictiva cuando se usa como un filtro en bucle, y hay ligeramente más degradación de la calidad de imagen codificada en comparación con usar una imagen desbloqueada como la imagen predictiva.

Por otra parte, dado que el resultado de quitar la distorsión de codificación no se usa como la imagen de referencia cuando se usa como un postfiltro, la imagen decodificada no se degradará en gran medida independientemente del tipo de filtro de desbloqueo 62 usado. Por ejemplo, se podría usar un filtro simple que realice el menor número de operaciones como el filtro de desbloqueo 62 en un teléfono celular, un dispositivo en el que el bajo consumo de potencia es una prioridad, aunque se podría usar un filtro de alta precisión y alta calidad de imagen como el filtro de desbloqueo 62 en un sistema de entretenimiento estacionario para el que la calidad de imagen es la prioridad superior.

Realización 6

Registrando un programa que implementa los pasos del método de extracción de la distorsión de codificación, el método de codificación y el método de decodificación descritos en las realizaciones precedentes en un disco flexible u otro medio de registro de datos legible por ordenador, los procesos descritos en las realizaciones anteriores pueden ser ejecutados fácilmente en un sistema informático independiente.

La figura 26 representa un sistema informático como otra realización de la invención que se logra usando un medio de registro de datos (un disco flexible en este ejemplo) que guarda el método de extracción de la distorsión de codificación, el método de codificación y el método de decodificación descritos en las realizaciones primera a quinta anteriores.

La figura 26 (b) representa un disco flexible según se ve por delante, una vista en sección del mismo, y el medio de disco real, y la figura 26 (a) representa el formato físico de un medio de registro de disco flexible típico. El disco flexible FD se aloja dentro de una caja F. Se ha formado una pluralidad de pistas concéntricas Tr desde la circunferencia exterior a la circunferencia interior en la superficie del disco, y las pistas están divididas en la dirección angular en 16 sectores Se. Un disco flexible FD que guarda el programa anterior según la presente invención contiene así el método de extracción de la distorsión de codificación, el método de codificación y el método de decodificación de la invención registrados como programas ejecutables por ordenador en zonas de asignación específica en el disco flexible FD.

La figura 26 (c) representa un aparato para registrar y leer estos programas usando este disco flexible FD. Para registrar estos programas en el disco flexible FD, el sistema informático Cs escribe el método de extracción de la

distorsión de codificación, el método de codificación y el método de decodificación como los programas por medio de una unidad de disco flexible FDD. Para ejecutar el método de extracción de la distorsión de codificación, el método de codificación y el método de decodificación en el sistema informático de los programas almacenados en el disco flexible FD, los programas son leídos del disco flexible FD por la unidad de disco flexible y transferidos al sistema informático.

Se deberá indicar que aunque un disco flexible se describe anteriormente como el medio de registro de datos, se podría usar un disco óptico u otro tipo de medio legible por ordenador, incluyendo discos CD-ROM, tarjetas de memoria, cassettes ROM, o cualquier otro medio capaz de grabar igualmente los programas.

Un sistema que aplica el método de codificación vídeo y el método de decodificación vídeo según las realizaciones anteriores se describe a continuación.

La figura 27 es un diagrama esquemático que representa la configuración general de un sistema de suministro de contenidos ex100 para proporcionar un servicio de distribución de contenidos. La zona de servicio de este sistema de comunicación se divide en celdas de un tamaño deseado, y una estación base ex107 a ex110 (estación inalámbrica estacionaria) está instalada en cada célula.

Este sistema de suministro de contenidos ex100 tiene numerosos dispositivos individuales tales como el ordenador ex111, la PDA (asistente digital personal) ex112, la cámara ex113, el teléfono celular ex114, y un teléfono celular con una cámara ex115 conectado a Internet ex101, por ejemplo, por medio del proveedor de servicios de Internet ex102, la red telefónica ex104 y las estaciones base ex107 a ex110.

Este sistema de suministro de contenidos ex100 no se limitará a la configuración representada en la figura 27, sin embargo, y los dispositivos deseados podrían conectarse selectivamente. Los dispositivos individuales también podrían conectarse directamente a la red telefónica ex104 sin pasar a través de las estaciones base fijas ex107 a ex110.

La cámara ex113 es una videocámara digital u otro dispositivo capaz de capturar imágenes vídeo. El teléfono celular podría usar alguno de varios protocolos, incluyendo PDC (Comunicaciones Digitales Personales), CDMA (acceso múltiple por división de código), W-CDMA (acceso múltiple por división de código de banda ancha), GSM (sistema global para comunicaciones móviles), y PHS (sistema de telefonía personal).

La cámara ex113 puede conectar mediante una estación base ex109 y red telefónica ex104 a un servidor de streaming ex103, que puede procesar de forma inmediata y directa emisiones en vivo de contenido codificado enviado por un usuario usando la cámara ex113. El contenido recibido de la cámara ex113 puede ser codificado por la cámara ex113 o por el servidor. Los datos vídeo capturados con una cámara ex116 también pueden ser enviados mediante el ordenador ex111 al servidor de streaming ex103. Esta cámara ex116 es una cámara digital u otro dispositivo capaz de capturar imágenes fijas y vídeo. Los datos vídeo recibidos de la cámara ex116 pueden ser codificados por la cámara ex116 o por el ordenador ex111. En cualquier caso, los datos vídeo son procesados por el dispositivo LSI ex117 en el ordenador ex111 o la cámara ex116. El software para codificación y decodificación vídeo puede ser almacenado en cualquier medio de grabación de datos legible por ordenador (tal como un disco CD-ROM, disco flexible, o unidad de disco duro) al que el ordenador ex111 pueda acceder.

Los datos vídeo también podrían ser enviados por un teléfono celular con una cámara ex115. Los datos vídeo en este caso son codificados por un dispositivo LSI en el teléfono celular con una cámara ex115.

Con este sistema de suministro de contenidos ex100, el contenido (tal como una grabación en directo de un concierto) grabado por el usuario usando la cámara ex113, la cámara ex116 u otro dispositivo, es codificado como se ha descrito en las realizaciones anteriores de la invención y enviado al servidor de streaming ex103. El servidor de streaming ex103 procesa entonces los datos contenidos a clientes que piden los datos. Los clientes podrían ser cualquier dispositivo capaz de decodificar el contenido codificado, incluyendo el ordenador ex111, la PDA ex112, la cámara ex113 y el teléfono celular ex114. Este sistema de suministro de contenidos ex100 permite así que los clientes reciban y reproduzcan el contenido de datos codificado, permite que los clientes reciban, decodifiquen y reproduzcan el contenido en tiempo real, y por ello es un sistema que permite la transmisión personal.

El aparato codificador vídeo y el aparato decodificador vídeo de la presente invención descrita en las realizaciones anteriores pueden ser usados para codificación y decodificación por los dispositivos individuales en este sistema de suministro de contenidos ex100.

Un teléfono celular usado en este sistema de suministro de contenidos ex100 se describe a continuación a modo de ejemplo.

La figura 28 representa un teléfono celular ex115 usando el método de codificación vídeo y el método de decodificación vídeo descritos anteriormente según la presente invención. Como se representa en la figura 28, este teléfono celular con una cámara ex115 tiene una antena ex201 para intercambiar señales RF con una estación base

ex110; una cámara ex203 tal como una cámara CCD para capturar vídeo e imágenes fijas; una unidad de visualización ex202 tal como una LCD para presentar imágenes capturadas por la cámara ex203 o imágenes recibidas por la antena ex201 y entonces decodificadas; un panel operativo con un teclado ex204 y otros controles; una unidad de salida audio tal como un altavoz ex208 para enviar audio; un micrófono ex205 u otro tipo de dispositivo de entrada audio; medio de registro ex207 para almacenar datos codificados o decodificados tales como vídeo o datos de imágenes fijas capturadas por la cámara ex203, correo electrónico recibido, u otro vídeo o datos de imagen fija; y una ranura ex206 para cargar el medio de registro ex207 en el teléfono celular ex115. El medio de registro ex207 podría ser una tarjeta SD u otro tipo de dispositivo de memoria flash tal como una EEPROM (memoria programable y borrable eléctricamente de lectura solamente) alojado en una caja de plástico.

Este teléfono celular ex115 se describe mejor con referencia a la figura 29. Al controlador principal ex311 para controlar sistemáticamente cada parte del teléfono celular ex115 incluyendo la unidad de visualización ex202 y teclado ex204 mediante bus de sincronización ex313 están conectados un circuito de suministro de potencia ex310, controlador de entrada operativo ex304, una unidad de codificación de imagen ex312, una interface de cámara ex303, un controlador LCD ex302, una unidad de decodificación de imagen ex309, un multiplexor/demultiplexor ex308, una unidad de lectura/escritura ex307, una unidad moduladora/demoduladora ex306, y una unidad de procesado audio ex305.

Cuando el usuario pone los botones de fin y potencia en la posición encendida, el suministro de circuito de potencia ex310 suministra potencia de un paquete de batería a cada parte del teléfono celular ex115 y así pone el teléfono celular digital ex115 con la cámara en el modo operativo.

Controlado por el controlador principal ex311, que incluye típicamente una CPU, ROM y una RAM, el teléfono celular ex115 convierte las señales audio captadas por el micrófono ex205 cuando está en el modo de conversión a datos digitales audio por medio de una unidad de procesado audio ex305. La unidad moduladora/demoduladora ex306 dispersa entonces el espectro de una salida de la unidad de procesado audio ex305, y el circuito de comunicación ex301 aplica procesado de conversión D/A y conversión de frecuencia, y posteriormente la envía a través de la antena ex201. Cuando está en el modo de conversación, el teléfono celular ex115 amplifica las señales recibidas a través de la antena ex201 y aplica conversión de frecuencia y procesado A/D, la unidad moduladora/demoduladora ex306 desdispersa la señal, la unidad de procesado audio ex305 convierte entonces la señal desdispersada a una señal audio analógica, y envía la señal audio analógica por el altavoz ex208.

Si se envía correo electrónico cuando está en el modo de comunicación de datos, los datos de texto del mensaje de correo electrónico son introducidos usando el teclado ex204, y enviados a través del controlador de entrada operativo ex304 al controlador principal ex311. El controlador principal ex311 dispersa entonces el espectro de los datos de texto usando la unidad moduladora/demoduladora ex306, realiza los procesos de conversión D/A y conversión de frecuencia de la señal usando circuito de comunicación ex301, y posteriormente transmite desde la antena ex201 a la estación base ex110.

Para transmitir datos de imagen cuando está en el modo de comunicación de datos, los datos de imagen capturados con la cámara ex203 son suministrados a través de la interface de cámara ex303 a la unidad de codificación de imagen ex312. Si no se transmiten los datos de imagen, los datos de imagen capturados con la cámara ex203 pueden ser visualizados directamente en la unidad de visualización ex202 por medio de la interface de cámara ex303 y el controlador LCD ex302.

La unidad de codificación de imagen ex312 tiene la configuración de un aparato codificador de imagen según la presente invención. Convierte datos de imagen suministrados desde la cámara ex203 en datos de imagen codificados por codificación por compresión usando el método de codificación usado en el aparato codificador de imagen descrito en las realizaciones precedentes, y envía los datos de imagen codificados al multiplexor/demultiplexor ex308. El audio capturado por el micrófono ex205 del teléfono celular ex115 mientras graba con la cámara ex203 también es enviado al multiplexor/demultiplexor ex308 como datos digitales audio por la unidad de procesado audio ex305.

El multiplexor/demultiplexor ex308 multiplexa los datos de imagen codificados suministrados desde la unidad de codificación de imagen ex312 con los datos audio suministrados desde una unidad de procesado audio ex305. El espectro de los datos multiplexados resultantes es dispersado por la unidad moduladora/demoduladora ex306, se aplican conversión D/A y conversión de frecuencia por el circuito de comunicación ex301, y la señal es transmitida entonces por la antena ex201.

Si se reciben datos de un archivo vídeo al que se accede desde un lugar web en Internet cuando está en el modo de comunicación de datos, la señal recibida de la estación base ex110 mediante la antena ex201 es desdispersada por la unidad moduladora/demoduladora ex306, y los datos multiplexados resultantes son enviados al multiplexor/demultiplexor ex308.

Para decodificar los datos multiplexados recibidos a través de la antena ex201, el multiplexor/demultiplexor ex308 demultiplexa los datos multiplexados para separar la corriente de datos vídeo codificados y la corriente de datos

audio codificados. La corriente de datos vídeo codificados es suministrada entonces a la unidad de decodificación de imagen ex309 y la corriente de datos audio codificados es suministrada a la unidad de procesado audio ex305 por medio del bus de sincronización ex313.

La unidad de decodificación de imagen ex309 tiene la misma configuración que el aparato decodificador de imagen descrito en las realizaciones anteriores. Produce datos vídeo reconstruidos decodificando una corriente de bits de datos vídeo codificados usando un método de decodificación correspondiente al método de codificación descrito anteriormente, y suministra los datos vídeo decodificados a través del controlador LCD ex302 en la unidad de visualización ex202. Así, se pueden visualizar los datos vídeo en un archivo vídeo accedido desde una página web en Internet. La unidad de procesado audio ex305 también convierte los datos audio en una señal audio analógica al mismo tiempo, y suministra el resultado al altavoz ex208. Los datos audio contenidos en un archivo vídeo accedido desde un sitio web en Internet también pueden ser reproducidos así por el altavoz.

El sistema de comunicación de la presente invención no se limitará a la configuración anterior. Este sistema podría ser adaptado, por ejemplo, a un sistema de emisión digital como se representa en la figura 30 usando el aparato codificador de imagen y/o el aparato decodificador de imagen de la presente invención para acceso a emisiones digitales transmitidas mediante satélite o redes terrestres.

Más específicamente, la estación emisora ex409 transmite una corriente de bits de datos vídeo codificados mediante ondas radio a un satélite de comunicación o transmisión ex410. El satélite de transmisión ex410 que recibe esta transmisión transmite la señal emitida, que es recibida por una antena ex406 en una casa, por ejemplo, con un receptor de satélite. La corriente de bits codificada es decodificada y reconstruida posteriormente por el receptor de televisión ex401, receptor-decodificador (STB) ex407, u otro dispositivo.

El aparato decodificador vídeo de la presente invención también puede ser implementado en un dispositivo de reproducción ex403 para leer y decodificar una corriente de bits codificada registrada en un medio de registro tal como un CD, DVD, u otro medio de almacenamiento ex402. En este caso la señal vídeo reconstruida se presenta en un monitor ex404, por ejemplo.

El aparato decodificador de imagen de la invención también se podría construir en a un receptor-decodificador ex407 conectado a una antena de satélite o de transmisión terrestre ex406 o a una antena de cable ex405 para acceso de televisión por cable. La salida de este receptor-decodificador ex407 podría también ser presentada en un monitor de televisión ex408.

El aparato decodificador de imagen se podría incorporar alternativamente en la televisión en lugar del receptordecodificador.

Las señales también podrían ser recibidas del satélite ex410 o estación base ex107 por un automóvil ex412 que tenga una antena apropiada ex411, y el vídeo decodificado podría ser presentado en la pantalla de un sistema de navegación de automóvil ex413 en el automóvil ex412.

Una señal vídeo también podría ser codificada por un aparato codificador vídeo según una realización de la presente invención y registrada en un medio de registro de datos. Más específicamente, una grabadora DVD podría grabar la señal de imagen en un disco DVD ex421, o una grabadora de disco duro ex420 podría registrar la señal de imagen. La señal vídeo también se podría grabar alternativamente en una tarjeta SD ex422. Si la grabadora ex420 tiene un aparato decodificador vídeo según la presente invención, también podría reproducir y presentar en el monitor ex408 señales vídeo grabadas en un disco DVD ex421, tarjeta SD ex422, u otro medio de almacenamiento.

Se deberá indicar que el sistema de navegación de automóvil ex413 puede estar configurado sin la cámara ex203, la interface de cámara ex303, y la unidad de codificación de imagen ex312 representadas en la figura 29. Esto también se aplica al ordenador ex111 y televisión (receptor) ex401, por ejemplo.

El teléfono celular ex114 u otro terminal podría ser un terminal transceptor que tenga el codificador y el decodificador antes descritos, o podría ser un terminal de transmisión que tenga solamente el codificador, o un terminal de recepción que tenga solamente el decodificador.

También será obvio que el aparato codificador y el aparato decodificador de la presente invención no se limitarán a las configuraciones descritas en las realizaciones primera a sexta anteriores, y se pueden variar de muchas formas.

El método de codificación vídeo y el método de decodificación vídeo descritos en las realizaciones anteriores pueden ser usados así en cualquiera de los dispositivos y sistemas descritos anteriormente, logrando por ello los efectos de estas realizaciones.

El método de extracción de la distorsión de codificación de la presente invención proporciona así un método de extracción de la distorsión de codificación con un proceso simple, un método de extracción de la distorsión de codificación con poca probabilidad de reducir la calidad de imagen de la señal de imagen debido a la extracción de la distorsión de codificación, y un método de codificación y método de decodificación que pueden reducir la probabilidad de degradar la calidad de imagen de la señal de imagen como resultado de quitar la distorsión de codificación. Por lo tanto, la presente invención tiene gran valor práctico.

5 Aunque la presente invención se ha descrito en conexión con sus realizaciones preferidas con referencia a los dibujos acompañantes, se ha de indicar que varios cambios y modificaciones serán evidentes a los expertos en la técnica. Se ha de entender que tales cambios y modificaciones quedan incluidos dentro del alcance de la presente invención definida por las reivindicaciones anexas, a no ser que se aparten de ella.

Claims

REIVINDICACIONES

1. Un método de extracción de distorsión de codificación para quitar la distorsión de codificación en pixels de dos bloques de transformación adyacentes que son compensados en movimiento y tienen un error de compensación de

5 movimiento codificado igual a cero y están situados dentro de un mismo macrobloque, siendo el bloque de transformación una unidad para la que se aplica una transformación de frecuencia, incluyendo el método:

determinar si uno de los dos bloques de transformación adyacentes está situado fuera de un bloque de compensación de movimiento en el que está situado el otro de los dos bloques de transformación adyacentes,

10 siendo cada uno de los dos bloques de compensación de movimiento adyacentes una unidad para la que se aplica una compensación de movimiento, y

quitar la distorsión de codificación en pixels en el límite de bloque entre los dos bloques de transformación adyacentes cuando uno de los dos bloques de transformación adyacentes está situado fuera de un bloque de

15 compensación de movimiento en el que está situado el otro de los dos bloques de transformación adyacentes,

donde la extracción de distorsión de codificación no se realiza cuando ambos bloques de transformación adyacentes están situados dentro de un bloque de compensación de movimiento,

20 donde un tamaño de bloque de cada uno de los dos bloques de compensación de movimiento adyacentes es menor que un tamaño de bloque del macrobloque, y un tamaño de bloque de cada uno de los dos bloques de compensación de movimiento adyacentes es más grande que un tamaño de bloque del bloque de transformación.
2. El método de extracción de distorsión de codificación según la reivindicación 1, donde

25 un tamaño de bloque del macrobloque es un tamaño de 16x16 pixels, un tamaño de bloque del bloque de transformación es un tamaño de 4x4 pixels.