ES2715704T3

ES2715704T3 - Dispositivo de decodificación de vídeo, método de decodificación de vídeo y programa de decodificación de vídeo

Info

Publication number: ES2715704T3
Application number: ES15151220T
Authority: ES
Inventors: Hirofumi Aoki; Keiichi Chono; Yuzo Senda; Kenta Senzaki
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-09
Filing date: 2012-03-08
Publication date: 2019-06-05
Anticipated expiration: 2032-03-08
Also published as: US20130322526A1; JP2018164296A; CN107257467B; KR20150028822A; JP2016086440A; AU2012226120B2; KR101814259B1; CA2909259C; CN103444180A; CN107197277A; CN107197277B; RU2628212C1; US11509909B2; KR20160103560A; ES2715703T3; CN107181947A; CN107181951A; CN107277523A; KR20130108457A; EP2863637A3

Abstract

Un dispositivo de decodificación de vídeo para decodificar bloques de imagen en base a la cuantificación inversa de los datos de vídeo de entrada comprimidos para ejecutar un método de generación de datos de imagen como un conjunto de los bloques de imagen, que comprende medios de decodificación de tamaño de paso de cuantificación para decodificar un tamaño de paso de cuantificación que controla una granularidad de la cuantificación inversa, en el que los medios de decodificación de tamaño de paso de cuantificación calculan el tamaño de paso de cuantificación que controla la granularidad de la cuantificación inversa mediante el uso (en base a un parámetro de predicción de imagen), de una manera selectiva, de un valor medio de tamaños de paso de cuantificación asignados a una pluralidad de bloques de imagen adyacentes ya decodificados o un tamaño de paso de cuantificación asignado a un bloque de imagen decodificado inmediatamente antes.

Description

DESCRIPCIÓN

Dispositivo de decodificación de vídeo, método de decodificación de vídeo y programa de decodificación de vídeo

Campo técnico

La presente invención se refiere a una técnica de decodificación de vídeo.

Técnica antecedente

Un dispositivo de codificación de vídeo típico ejecuta un método de codificación que se adapta a un esquema de codificación de vídeo predeterminado para generar datos codificados, es decir, un flujo de bits. En ISO/IEC 14496-10 Codificación Avanzada de Vídeo (Advance Video Coding, AVC) descrito en la literatura distinta a la de las patentes (Non Patent Literature, NPL) 1 como un ejemplo representativo del esquema de codificación de vídeo predeterminado, cada fotograma es dividido en bloques con un tamaño de 16x16 píxeles, denominados MBs (Macro Bloques), y cada MB es dividido adicionalmente en bloques con un tamaño de 4x4 píxeles, estableciendo el MB como la unidad mínima de codificación. La Fig. 23 muestra un ejemplo de la división por bloques en el caso en el que el formato de color de un fotograma es el formato YCbCr 4:2:0 y la resolución espacial es QCIF (formato intermedio común divido en cuatro, Quarter Common Intermediate Format).

Cada uno de los bloques de la imagen divida es introducido secuencialmente al dispositivo de codificación de vídeo y es codificado. La Fig. 24 es un diagrama de bloques que muestra un ejemplo de la estructura del dispositivo de codificación de vídeo típico para generar un flujo de bits que se adapta a AVC. Con referencia a la Fig. 24, se describen a continuación la estructura y el funcionamiento del dispositivo de codificación de vídeo típico.

El dispositivo de codificación de vídeo mostrado en la Fig. 24 incluye un transformador 101 de frecuencia, un cuantificador 102, un codificador 103 de longitud variable, un controlador 104 de cuantificación, un cuantificador 105 inverso, un transformador 106 de frecuencia inverso, una memoria 107 de fotogramas, un predictor 108 intrafotogramas, un predictor 109 inter-fotogramas y un selector 110 de predicción.

Una imagen de entrada al dispositivo de codificación de vídeo es introducida al transformador 101 de frecuencia como una imagen de error de predicción, después de que la imagen de predicción suministrada desde el predictor 108 intrafotogramas o el predictor 109 inter-fotogramas a través del selector 110 de predicción es restada de la imagen de entrada.

El transformador 101 de frecuencia transforma la imagen de error de predicción de entrada desde un dominio espacial a un dominio de la frecuencia, y emite el resultado como una imagen de coeficiente.

El cuantificador 102 cuantifica la imagen de coeficiente suministrada desde el transformador 101 de frecuencia usando un tamaño de paso de cuantificación, suministrado desde el controlador 104 de cuantificación, que controla la granularidad de la cuantificación, y emite el resultado como una imagen de coeficiente cuantificada.

El codificador 103 de longitud variable aplica una codificación entrópica a la imagen de coeficiente cuantificada suministrada desde el cuantificador 102. El codificador 103 de longitud variable codifica también el tamaño de paso de cuantificación suministrado desde el controlador 104 de cuantificación y un parámetro de predicción de imagen suministrado desde el selector 110 de predicción. Estos fragmentos de datos codificados son multiplexados y emitidos desde el dispositivo de codificación de vídeo, como un flujo de bits.

A continuación, se describe un método de codificación para el tamaño de paso de cuantificación en el codificador 103 de longitud variable, con referencia a la Fig. 25. En el codificador 103 de longitud variable, un codificador de tamaño de paso de cuantificación para codificar el tamaño de paso de cuantificación incluye una memoria 10311 intermedia de tamaños de paso de cuantificación y un codificador 10312 entrópico, tal como se muestra en la Fig. 25.

La memoria 10311 intermedia de tamaños de paso de cuantificación almacena un tamaño de paso de cuantificación Q(i-1) asignado al bloque de imagen anterior codificado inmediatamente antes de un bloque de imagen a ser codificado.

Tal como se muestra en la ecuación (1) siguiente, el tamaño de paso de cuantificación Q(i-1) anterior, suministrado desde la memoria 10311 intermedia de tamaños de paso de cuantificación, es restado del tamaño de paso de cuantificación de entrada Q(i), y el resultado es introducido al codificador 10312 entrópico como una diferencia de tamaño de paso de cuantificación dQ(i),

dQ(i) = Q(i) - Q(i-1) ...(1)

El codificador 10312 entrópico aplica la codificación entrópica a la diferencia de tamaño de paso de cuantificación dQ(i) de entrada, y emite el resultado como un código correspondiente al tamaño de paso de cuantificación.

En los párrafos anteriores se ha descrito el método de codificación para el tamaño de paso de cuantificación.

El controlador 104 de cuantificación determina un tamaño de paso de cuantificación para el bloque de imagen de entrada actual. En general, el controlador 104 de cuantificación supervisa la tasa de codificación de salida del codificador 103 de longitud variable para aumentar el tamaño de paso de cuantificación para reducir la tasa de codificación de salida para el bloque de imagen relacionado o, por el contrario, para reducir el tamaño de paso de cuantificación para aumentar la tasa de codificación de salida para el bloque de imagen relacionado. El aumento o la reducción del tamaño de paso de cuantificación permiten que el dispositivo de codificación de vídeo codifique una imagen en movimiento de entrada con una tasa objetivo. El tamaño de paso de cuantificación determinado es suministrado al cuantificador 102 y al codificador 103 de longitud variable.

La imagen de coeficiente cuantificada emitida desde el cuantificador 102 es cuantificada de manera inversa por el cuantificador 105 inverso para obtener una imagen de coeficiente a ser usada para la predicción en la codificación de bloques de imagen subsiguientes. La imagen de coeficiente emitida desde el cuantificador 105 inverso es convertida de nuevo al dominio espacial por el transformador 106 de frecuencia inverso para obtener una imagen de error de predicción. La imagen de predicción es sumada a la imagen de error de predicción, y el resultado es introducido a la memoria 107 de fotogramas y al predictor 108 intra-fotogramas como una imagen reconstruida.

La memoria 107 de fotogramas almacena las imágenes reconstruidas de los fotogramas de imágenes codificados introducidos en el pasado. Los fotogramas de imágenes almacenados en la memoria 107 de fotogramas se denominan fotogramas de referencia.

El predictor 108 intra-fotogramas hace referencia a las imágenes reconstruidas de bloques de imágenes codificados en el pasado dentro del fotograma de imagen que está siendo codificado actualmente, para generar una imagen de predicción.

El predictor 109 inter-fotogramas hace referencia a los fotogramas de referencia suministrados desde la memoria 107 de fotogramas para generar una imagen de predicción.

El selector 110 de predicción compara la imagen de predicción suministrada desde el predictor 108 intra-fotogramas con la imagen de predicción suministrada desde el predictor 109 inter-fotogramas, selecciona y emite una imagen de predicción más cercana a la imagen de entrada. El selector 110 de predicción emite también información (denominada parámetro de predicción de imagen) acerca de un método de predicción usado por el predictor 108 intra-fotogramas o el predictor 109 inter-fotogramas, y suministra la información al codificador 103 de longitud variable.

Según el procesamiento indicado anteriormente, el dispositivo de codificación de vídeo típico codifica y comprime la imagen en movimiento de entrada para generar un flujo de bits.

El flujo de bits de salida es transmitido a un dispositivo de decodificación de vídeo. El dispositivo de decodificación de vídeo ejecuta un método de decodificación de manera que el flujo de bits será descomprimido como una imagen en movimiento. La Fig. 26 muestra un ejemplo de la estructura de un dispositivo de decodificación de vídeo típico que decodifica el flujo de bits emitido desde el dispositivo de codificación de vídeo típico para obtener un vídeo decodificado. Con referencia a la Fig. 26, a continuación, se describen la estructura y el funcionamiento del dispositivo de decodificación de vídeo típico.

El dispositivo de decodificación de vídeo mostrado en la Fig. 26 incluye un decodificador 201 de longitud variable, un cuantificador 202 inverso, un transformador 203 de frecuencia inverso, una memoria 204 de fotogramas, un predictor 205 infra-fotogramas, un predictor 206 inter-fotogramas y un selector 207 de predicción.

El decodificador 201 de longitud variable aplica una decodificación de longitud variable al flujo de bits de entrada para obtener un tamaño de paso de cuantificación que controla la granularidad de la cuantificación inversa, la imagen de coeficiente cuantificada, y el parámetro de predicción de imagen. El tamaño de paso de cuantificación y la imagen de coeficiente cuantificada indicados anteriormente son suministrados al cuantificador 202 inverso. El parámetro de predicción de imagen es suministrado al selector 207 de predicción.

El cuantificador 202 inverso aplica una cuantificación inversa a la imagen de coeficiente cuantificada de entrada en base al tamaño de paso de cuantificación de entrada, y emite el resultado como una imagen de coeficiente.

El transformador 203 de frecuencia inverso transforma la imagen de coeficiente, suministrada desde el cuantificador 202 inverso, desde el dominio de la frecuencia al dominio espacial, y emite el resultado como una imagen de error de predicción. Una imagen de predicción suministrada desde el selector 207 de predicción es sumada a la imagen de error de predicción para obtener una imagen decodificada. La imagen decodificada no solo es emitida desde el dispositivo de decodificación de vídeo como una imagen de salida, sino que es introducida también a la memoria 204 de fotogramas y al predictor 205 intra-fotogramas.

La memoria 204 de fotogramas almacena los fotogramas de imagen decodificados en el pasado. Los fotogramas de imagen almacenados en la memoria 204 de fotogramas se denominan fotogramas de referencia.

En base al parámetro de predicción de imagen suministrado desde el decodificador 201 de longitud variable, el predictor 205 intra-fotogramas hace referencia a las imágenes reconstruidas de los bloques de imagen decodificados en al pasado dentro del fotograma de imagen que está siendo decodificado actualmente para generar una imagen de predicción.

En base al parámetro de predicción de imagen suministrado desde el decodificador 201 de longitud variable, el predictor 206 inter-fotogramas hace referencia a los fotogramas de referencia suministrados desde la memoria 204 de fotogramas para generar una imagen de predicción.

El selector 207 de predicción selecciona cualquiera de entre las imágenes de predicción suministradas desde el predictor 205 intra-fotogramas y el predictor 206 inter-fotogramas en base al parámetro de predicción de imagen suministrado desde el decodificador 201 de longitud variable.

A continuación, se describe un método de decodificación para el tamaño de paso de cuantificación en el decodificador 201 de longitud variable, con referencia a la Fig. 27. En el decodificador 201 de longitud variable, un decodificador de tamaño de paso de cuantificación para decodificar el tamaño de paso de cuantificación incluye un decodificador 20111 entrópico y una memoria 20112 intermedia de tamaños de paso de cuantificación, tal como se muestra en la Fig. 27.

El decodificador 20111 entrópico aplica una decodificación entrópica al código de entrada, y emite una diferencia de tamaño de paso de cuantificación dQ(i).

La memoria 20112 intermedia de tamaños de paso de cuantificación almacena el tamaño de paso de cuantificación anterior Q(i-1).

Tal como se muestra en la ecuación (2) siguiente, Q(i-1) suministrado desde la memoria 20112 intermedia de tamaños de paso de cuantificación es sumado a la diferencia de tamaño de paso de cuantificación dQ(i) generada por el decodificador 20111 entrópico. El valor sumado no solo es emitido como un tamaño de paso de cuantificación Q(i), sino que es introducido también a la memoria 20112 intermedia de tamaños de paso de cuantificación,

Q(i) = Q(i-1) dQ(i) ...(2)

En los párrafos anteriores se ha descrito el método de decodificación para el tamaño de paso de cuantificación.

Según el procesamiento indicado anteriormente, el dispositivo de decodificación típico decodifica el flujo de bits para generar una imagen en movimiento.

Mientras, con el fin de mantener la calidad subjetiva de la imagen en movimiento a ser comprimida por el método de codificación, el controlador 104 de cuantificación en el dispositivo de codificación de vídeo típico analiza en general una cualquiera o ambas de entre la imagen de entrada y la imagen de error de predicción, y analiza también la tasa de codificación de salida, para determinar un tamaño de paso de cuantificación según la sensibilidad visual humana. En otras palabras, el controlador 104 de cuantificación realiza una cuantificación adaptativa basada en la sensibilidad visual. Específicamente, cuándo se determina que la sensibilidad visual humana a la imagen actual a ser codificada es alta, el tamaño de paso de cuantificación se establece pequeño, mientras que cuando se determina que la sensibilidad visual es baja, el tamaño de paso de cuantificación se establece grande. Debido a que dicho control puede asignar una mayor tasa de codificación a una región de sensibilidad visual baja, se mejora la calidad subjetiva.

Como una técnica de cuantificación adaptativa basada en la sensibilidad visual, se conoce por ejemplo una cuantificación adaptativa basada en la complejidad de la textura de la imagen de entrada usada en el modelo de prueba 5 (Test Model 5, TM5) de MPEG-2. La complejidad de la textura se denomina típicamente actividad. La Literatura de Patentes (Patent Literature, PTL) 1 propone un sistema de cuantificación adaptativa que usa la actividad de una imagen de predicción conjuntamente con la actividad de una imagen de entrada. PTL 2 propone un sistema de cuantificación adaptativa basado en una actividad, que tiene en cuenta las partes de borde.

Cuando se usa la técnica de cuantificación adaptativa basada en la sensibilidad visual, esto causará un problema si el tamaño de paso de cuantificación es cambiado frecuentemente dentro de un fotograma de imagen. En el dispositivo de codificación de vídeo típico para generar un flujo de bits que se adapte al esquema AVC, una diferencia del tamaño de paso de cuantificación para un bloque de imagen codificado justo antes que un bloque de imagen a ser codificado, es codificada usando codificación entrópica al codificar el tamaño de paso de cuantificación. Por lo tanto, cuando el cambio en el tamaño de paso de cuantificación en la dirección de la secuencia de codificación se hace grande, la tasa requerida para codificar el tamaño de paso de cuantificación aumenta. Como resultado, la tasa de codificación asignada para la codificación de la imagen de coeficiente se reduce relativamente y, por lo tanto, la calidad de la imagen se degrada.

Debido a que la dirección de la secuencia de codificación depende de la continuidad de la sensibilidad visual en la pantalla, la técnica de cuantificación adaptativa basada en la sensibilidad visual aumenta inevitablemente la tasa de codificación requerida para codificar el tamaño de paso de cuantificación. Por lo tanto, incluso usando la técnica de cuantificación adaptativa basada en la sensibilidad visual en el dispositivo de codificación de vídeo típico, la degradación de la imagen asociada con el aumento en la tasa de codificación para el tamaño de paso de cuantificación puede cancelar la calidad subjetiva mejorada por la técnica de cuantificación adaptativa, es decir, surge un problema en el sentido de que no puede obtenerse una mejora suficiente en la calidad de la imagen.

Para abordar este problema, PTL 3 describe una técnica para establecer de manera adaptativa un rango de cuantificación a cero, es decir, una zona muerta según la sensibilidad visual en el dominio espacial y el dominio de la frecuencia en lugar de establecer de manera adaptativa el tamaño de paso de cuantificación según la sensibilidad visual. En el sistema descrito en PTL 3, una zona muerta para un coeficiente de transformación determinado como bajo en términos de la sensibilidad visual es más amplia que una zona muerta para un coeficiente de transformación determinado como alto en términos de la sensibilidad visual. Dicho control permite una cuantificación adaptativa basada en la sensibilidad visual sin cambiar el tamaño de paso de cuantificación.

PTL 4 describe un dispositivo de codificación de vídeo que incluye medios de decodificación de tamaño de paso de cuantificación, y NPL3, así como PTL5, describen un dispositivo de codificación de vídeo que incluye medios de codificación de tamaño de paso de cuantificación, en el que dichos medios calculan el tamaño de paso de cuantificación que controla la granularidad de la cuantificación en base a un tamaño de paso de cuantificación asignado a un bloque de imagen adyacente ya codificado.

Lista de citas

Literatura de patentes

PTL 1: Patente japonesa N° 2646921

PTL 2: Patente japonesa N° 4529919

PTL 3: Patente japonesa N° 4613909

PTL 4: WO 2009/158113

PTL 5: WO2009/105732

Literatura distinta de patentes

NPL 1: ISO/IEC 14496-10 Advanced Video Coding

NPL 2: "WD1: Working Draft 1 of High-Efficiency Video Coding", Documento JCTVC-C403, Joint Collaborative Team on Video Coding (JCT-VC) de ITU-T SG16 WP3 e ISO/IEC JTC1/SC29/WG11 3rd Meeting at Guangzhou, China, Octubre de 2010.

NPL 3: KARCZEWICZ M ET AL: "27. JVT MEETING; 6-4-2008 - 10-4-2008; GENEVA; (JOINT VIDEO TEAM OFISO/IEC JTC1/SC29/WG11 E ITU-T SG.16)"

Sumario de la Invención

Problema Técnico

Sin embargo, cuando se usa la técnica descrita en PTL 3, no puede realizarse una cuantificación adaptativa a la sensibilidad visual sobre los coeficientes de transformación que no están dentro de una zona muerta. En otras palabras, incluso cuando se determina que la sensibilidad visual es baja, no puede reducirse la tasa del código de coeficiente para los coeficientes de transformación que no estén dentro de la zona muerta. Además, cuando se aumenta el tamaño de paso de cuantificación, los valores de los coeficientes de transformación después de ser sometidos a la cuantificación se concentran cerca del cero, mientras que cuando la zona muerta se aumenta, los coeficientes de transformación que no están dentro de la zona muerta no se concentran cerca del cero después de ser sometidos a la cuantificación. En otras palabras, cuando la zona muerta se amplía, la eficiencia de la codificación entrópica es insuficiente en comparación con el caso en el que se aumenta el tamaño de paso de cuantificación. Por estas razones, puede decirse que existe un problema en la tecnología de codificación típica en el sentido de que la asignación de la tasa de codificación a una región con sensibilidad visual alta no puede ser aumentada suficientemente.

La presente invención ha sido realizada en vista de los problemas indicados anteriormente, y un objeto de la presente invención es proporcionar un dispositivo de decodificación de vídeo y un método de decodificación de vídeo capaces de regenerar una imagen en movimiento de alta calidad.

Solución del problema

El objeto anterior se consigue con las características de las reivindicaciones.

Efectos ventajosos de la Invención

Según la presente invención, debido a que el dispositivo de decodificación de vídeo puede decodificar el tamaño de paso de cuantificación cambiado frecuentemente mediante la recepción de solo una tasa de codificación baja, puede regenerarse una imagen en movimiento de alta calidad mediante la tasa de codificación baja.

Breve descripción de los dibujos

[Fig. 1] Representa un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en un dispositivo de codificación de vídeo en una primera referencia.

[Fig. 2] Representa un diagrama explicativo que muestra un ejemplo de un bloque de imagen a ser codificado y bloques de imagen adyacentes.

[Fig. 3] Representa un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en un dispositivo de decodificación de vídeo en una segunda referencia.

[Fig. 4] Representa un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en un dispositivo de codificación de vídeo en una tercera referencia.

[Fig. 5] Representa un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en un dispositivo de decodificación de vídeo en una cuarta referencia.

[Fig. 6] Representa un diagrama explicativo que muestra las direcciones de predicción de la predicción intrafotogramas.

[Fig. 7] Representa un diagrama explicativo que muestra un ejemplo de predicción inter-fotogramas.

[Fig. 8] Representa un diagrama explicativo que muestra un ejemplo de predicción de un tamaño de paso de cuantificación usando un vector de movimiento de la predicción inter-fotogramas en el dispositivo de codificación de vídeo en la tercera referencia.

[Fig. 9] Representa un diagrama de bloques que muestra la estructura de otro dispositivo de codificación de vídeo según una quinta referencia.

[Fig. 10] Representa un diagrama de bloques que muestra un componente característico en el dispositivo de codificación de vídeo mostrado en la Fig. 9.

[Fig. 11] Representa un diagrama explicativo de una lista que muestra un ejemplo de multiplexación de parámetros de predicción del tamaño de paso de cuantificación.

[Fig. 12] Representa un diagrama de bloques que muestra la estructura de otro dispositivo de decodificación según una sexta referencia.

[Fig. 13] Representa un diagrama de bloques que muestra un componente característico en el dispositivo de decodificación de vídeo mostrado en la Fig. 12.

[Fig. 14] Representa un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en una séptima referencia.

[Fig. 15] Representa un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en un dispositivo de decodificación de vídeo en una realización ejemplar de la presente invención.

[Fig. 16] Representa un diagrama de bloques que muestra un ejemplo de configuración de un sistema de procesamiento de información capaz de implementar las funciones de un dispositivo de codificación de vídeo como una referencia y un dispositivo de decodificación de vídeo según la presente invención.

[Fig. 17] Representa un diagrama de bloques que muestra componentes característicos en un dispositivo de codificación de vídeo como una referencia.

[Fig. 18] Representa un diagrama de bloques que muestra componentes característicos en otro dispositivo de codificación de vídeo como una referencia.

[Fig. 19] Representa un diagrama de bloques que muestra componentes característicos en un dispositivo de decodificación de vídeo como una referencia.

[Fig. 20] Representa un diagrama de bloques que muestra componentes característicos en otro dispositivo de decodificación de vídeo como una referencia.

[Fig. 21] Representa un diagrama de flujo que muestra las etapas características en un método de codificación de vídeo como una referencia.

[Fig. 22] Representa un diagrama de flujo que muestra las etapas características en un método de decodificación de vídeo como una referencia.

[Fig. 23] Representa un diagrama explicativo que muestra un ejemplo de división en bloques.

[Fig. 24] Representa un diagrama de bloques que muestra un ejemplo de la estructura de un dispositivo de codificación de vídeo.

[Fig. 25] Representa un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en un dispositivo de codificación de vídeo típico.

[Fig. 26] Representa un diagrama de bloques que muestra un ejemplo de la estructura de un dispositivo de decodificación de vídeo.

[Fig. 27] Representa un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en un dispositivo de decodificación de vídeo típico.

Descripción de las realizaciones y las referencias

A continuación, se describen realizaciones ejemplares de la presente invención, así como referencias que no forman parte de la invención reivindicada, con referencia a los dibujos adjuntos.

Referencia 1

Al igual que el dispositivo de codificación de vídeo mostrado en la Fig. 24, un dispositivo de codificación de vídeo en una primera referencia incluye el transformador 101 de frecuencia, el cuantificador 102, el codificador 103 de longitud variable, el controlador 104 de cuantificación, el cuantificador 105 inverso, el transformador 106 de frecuencia inverso, la memoria 107 de fotogramas, el predictor 108 intra-fotogramas, el predictor 109 inter-fotogramas y el selector 110 de predicción. Sin embargo, la estructura de un codificador de tamaño de paso de cuantificación incluido en el codificador 103 de longitud variable es diferente de la estructura mostrada en la Fig. 25.

La Fig. 1 es un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la primera referencia. En comparación con el codificador de tamaño de paso de cuantificación mostrado en la Fig. 25, el codificador de tamaño de paso de cuantificación en la referencia es diferente en el sentido de que incluye un generador 10313 de tamaño de paso de cuantificación predicho, tal como se muestra en la Fig. 1.

La memoria 10311 intermedia de tamaños de paso de cuantificación almacena y mantiene los tamaños de paso de cuantificación asignados a los bloques de imagen codificados en el pasado.

El generador 10313 de tamaño de paso de cuantificación predicho recupera los tamaños de paso de cuantificación asignados a los bloques de imagen adyacentes codificados en el pasado desde la memoria intermedia de tamaños de paso de cuantificación para generar un tamaño de paso de cuantificación predicho.

El tamaño de paso de cuantificación predicho suministrado desde el generador 10313 de tamaño de paso de cuantificación predicho se resta del tamaño de paso de cuantificación de entrada, y el resultado es introducido al codificador 10312 entrópico como una diferencia de tamaño de paso de cuantificación.

El codificador 10312 entrópico aplica una codificación entrópica a la diferencia de tamaño de paso de cuantificación de entrada y emite el resultado como un código correspondiente al tamaño de paso de cuantificación.

Dicha estructura puede reducir la tasa de codificación requerida para codificar el tamaño de paso de cuantificación y, por lo tanto, puede conseguirse una codificación de imagen en movimiento de alta calidad. La razón es que puede reducirse la cantidad absoluta para la diferencia de tamaño de paso de cuantificación introducida al codificador 10312 entrópico, ya que el generador 10313 de tamaño de paso de cuantificación predicho genera el tamaño de paso de cuantificación predicho usando los tamaños de paso de cuantificación de los bloques de imagen adyacentes independientemente de la secuencia de codificación. La razón por la que la cantidad absoluta de la diferencia de tamaño de paso de cuantificación introducida al codificador 10312 entrópico puede ser reducida si el tamaño de paso de cuantificación predicho es generado usando los tamaños de paso de cuantificación de los bloques de imagen adyacentes es porque generalmente existe una correlación entre los píxeles adyacentes en una imagen en movimiento y, por lo tanto, el grado de similitud de los tamaños de paso de cuantificación asignados a los bloques de imagen adyacentes que tienen alta correlación entre sí es alto cuando se usa una cuantificación adaptativa basada en la sensibilidad visual.

A continuación, se describe un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la primera referencia, usando un ejemplo específico.

En este ejemplo, se supone que el tamaño de bloque de imagen, como la unidad de codificación, es un tamaño fijo. Se supone también que tres bloques de imagen adyacentes respectivamente adyacentes hacia la izquierda, hacia arriba y diagonalmente hacia arriba y hacia la derecha dentro del mismo fotograma de imagen, se usan como bloques de imagen adyacentes usados para la predicción del tamaño de paso de cuantificación.

Supóngase que el bloque de imagen actual a ser codificado se denota por X, y los tres bloques A, B y C de imagen adyacentes están situados respectivamente adyacentes hacia la izquierda, hacia arriba y diagonalmente hacia arriba y hacia la derecha con relación al bloque X de imagen, tal como se muestra en la Fig.2. En este caso, si el tamaño de paso de cuantificación en cualquier bloque Z se denota por Q(Z) y el tamaño de paso de cuantificación predicho se denota por pQ(Z), el generador 10313 de tamaño de paso de cuantificación predicho determina el tamaño de paso de cuantificación predicho pQ(X) por medio de la ecuación (3) siguiente.

PQ(X) = Mediana (Q(A), Q(B), Q(C)} ...(3)

Obsérvese que Mediana (x, y, z) es una función para determinar un valor intermedio de los tres valores x, y, z.

El codificador 10312 entrópico codifica una diferencia de tamaño de paso de cuantificación dQ(X) obtenida mediante la ecuación (4) siguiente usando un código Exp-Golomb (Exponencial-Golomb) con signo como uno de los códigos entrópicos, y emite el resultado como el código correspondiente al tamaño de paso de cuantificación para el bloque de imagen relacionado.

dQ(X) = Q(X) - pQ(X) ...(4)

En este ejemplo, los tres bloques de imagen adyacentes hacia la izquierda, hacia arriba y en diagonal hacia arriba y hacia la derecha dentro del mismo fotograma de imagen se usan como los bloques de imagen adyacentes para la predicción del tamaño de paso de cuantificación. Sin embargo, los bloques de imagen adyacentes no se limitan a estos. Por ejemplo, los bloques de imagen adyacentes hacia la izquierda, hacia arriba y diagonalmente hacia arriba y hacia la izquierda pueden ser usados para determinar el tamaño de paso de cuantificación predicho por medio de la ecuación (5) siguiente.

pQ(X) = Mediana (Q(A), Q(B), Q(D)) ...(5)

El número de bloques de imagen usados para la predicción puede ser cualquier número en lugar de tres, y puede usarse un valor promedio (que es esencial a la invención reivindicada) o similar en lugar del valor intermedio como el cálculo usado para la predicción. Los bloques de imagen usados para la predicción no son necesariamente adyacentes al bloque de imagen a ser codificado. Los bloques de imagen usados para la predicción pueden estar separados por una distancia predeterminada desde el bloque de imagen a ser codificado. Además, los bloques de imagen usados para la predicción no se limitan a los bloques de imagen situados en la vecindad espacial, es decir, dentro del mismo fotograma de imagen, pueden ser bloques de imagen dentro de cualquier otro fotograma de imagen ya codificado. Además, en este ejemplo, se supone que el bloque de imagen a ser codificado y los bloques de imagen adyacentes tienen el mismo tamaño fijo. Sin embargo, el tamaño del bloque, como la unidad de codificación, puede ser un tamaño variable.

Además, en este ejemplo, la codificación se realiza en base al código Exp-Golomb para codificar la diferencia entre el tamaño de paso de cuantificación del bloque de imagen a ser codificado y el tamaño de paso de cuantificación predicho. Sin embargo, la codificación puede ser realizada en base a cualquier otro código entrópico. Por ejemplo, puede realizarse una codificación en base al código de Huffman o un código aritmético.

Los párrafos anteriores han descrito el dispositivo de codificación de vídeo en la primera referencia.

Referencia 2

Al igual que el dispositivo de decodificación de vídeo mostrado en la Fig. 26, un dispositivo de decodificación de vídeo en una segunda referencia incluye el decodificador 201 de longitud variable, el cuantificador 202 inverso, el transformador 203 de frecuencia inverso, la memoria 204 de fotogramas, el predictor 205 intra-fotogramas, el predictor 206 inter-fotogramas y el selector 207 de predicción. Sin embargo, la estructura del decodificador de tamaño de paso de cuantificación incluido en el decodificador 201 de longitud variable es diferente de la estructura mostrada en la Fig. 27.

La Fig. 3 es un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la segunda referencia. En comparación con el decodificador de tamaño de paso de cuantificación mostrado en la Fig. 27, el decodificador de tamaño de paso de cuantificación en la presente referencia es diferente en el sentido de que incluye un generador 20113 de tamaño de paso de cuantificación predicho, tal como se muestra en la Fig. 3.

El decodificador 20111 entrópico aplica una decodificación entrópica al código de entrada para emitir una diferencia de tamaño de paso de cuantificación.

La memoria 20112 intermedia de tamaños de paso de cuantificación almacena y mantiene los tamaños de paso de cuantificación decodificados en el pasado.

Entre los tamaños de paso de cuantificación decodificados en el pasado, el generador 20113 de tamaño de paso de cuantificación predicho recupera los tamaños de paso de cuantificación correspondientes a los bloques de píxeles adyacentes del bloque de imagen actual a ser decodificado desde la memoria intermedia de tamaños de paso de cuantificación para generar un tamaño de paso de cuantificación predicho. Específicamente, por ejemplo, el generador 20113 de tamaño de paso de cuantificación predicho funciona de la misma manera que el generador 10313 de tamaño de paso de cuantificación predicho en el ejemplo específico del dispositivo de codificación de vídeo en la primera referencia.

El tamaño de paso de cuantificación predicho suministrado desde el generador 20113 de tamaño de paso de cuantificación predicho es sumado a una diferencia de tamaño de paso de cuantificación generada por el decodificador 20111 entrópico, y el resultado no solo es emitido como el tamaño de paso de cuantificación, sino que también es introducido a la memoria 20112 intermedia de tamaños de paso de cuantificación.

Dicha estructura del decodificador de tamaño de paso de cuantificación permite que el dispositivo de decodificación de vídeo decodifique el tamaño de paso de cuantificación mediante la recepción de solo una tasa de codificación más baja. Como resultado, puede decodificarse y regenerarse una imagen en movimiento de alta calidad. La razón es que el decodificador 20111 entrópico solo debe decodificar la diferencia de tamaño de paso de cuantificación cercana a cero, ya que el tamaño de paso de cuantificación predicho se acerca al tamaño de paso de cuantificación asignado realmente cuando el generador 20113 de tamaño de paso de cuantificación predicho genera el tamaño de paso de cuantificación predicho usando los tamaños de paso de cuantificación de los bloques de imagen adyacentes independientes de la secuencia de decodificación. La razón por la que el tamaño de paso de cuantificación predicho cercano al tamaño de paso de cuantificación asignado realmente puede ser obtenido mediante la generación del tamaño de paso de cuantificación predicho usando los tamaños de paso de cuantificación de los bloques de imagen adyacentes es porque generalmente existe una correlación entre los píxeles adyacentes en una imagen en movimiento y, por lo tanto, el grado de similitud de los tamaños de paso de cuantificación asignados a los bloques de imagen adyacentes que tienen alta correlación entre sí es alto cuando se usa una cuantificación adaptativa basada en la sensibilidad visual.

Los párrafos anteriores han descrito el dispositivo de decodificación de vídeo en la segunda referencia.

Referencia 3

Al igual que el dispositivo de codificación de vídeo en la primera referencia, un dispositivo de codificación de vídeo en una tercera referencia incluye el transformador 101 de frecuencia, el cuantificador 102, el codificador 103 de longitud variable, el controlador 104 de cuantificación, el cuantificador 105 inverso, el transformador 106 de frecuencia inverso, la memoria 107 de fotogramas, el predictor 108 intra-fotogramas, el predictor 109 inter-fotogramas y el selector 110 de predicción, tal como se muestra en la Fig. 24. Sin embargo, la estructura de un codificador de tamaño de paso de cuantificación incluido en el codificador 103 de longitud variable es diferente de la estructura mostrada en la Fig. 25.

La Fig. 4 es un diagrama de bloques que muestra un codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia. Tal como se muestra en la Fig. 4, la estructura del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia es la misma que la estructura del codificador de tamaño de paso de cuantificación mostrada en la Fig. 1. Sin embargo, la tercera referencia difiere de la primera referencia en que el parámetro usado para la predicción de imagen es suministrado desde el selector 110 de predicción mostrado en la Fig. 24 al generador 10313 de tamaño de paso de cuantificación predicho en la tercera referencia, y en el funcionamiento del generador 10313 de tamaño de paso de cuantificación predicho.

Debido a que el funcionamiento de la memoria 10311 intermedia de tamaños de paso de cuantificación y el codificador 10312 entrópico es el mismo que el del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la primera referencia, aquí se omite una descripción redundante.

El generador 10313 de tamaño de paso de cuantificación predicho usa el parámetro de predicción de imagen para seleccionar un bloque de imagen a ser usado para la predicción del tamaño de paso de cuantificación de entre los bloques de imagen codificados en el pasado. El generador 10313 de tamaño de paso de cuantificación predicho genera un tamaño de paso de cuantificación predicho a partir de un tamaño de paso de cuantificación correspondiente al bloque de imagen seleccionado.

Dicha estructura permite que el dispositivo de codificación de vídeo reduzca adicionalmente la tasa de codificación requerida para codificar el tamaño de paso de cuantificación en comparación con el dispositivo de codificación de vídeo en la primera referencia. Como resultado, puede conseguirse una codificación de imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser predicho a partir de los bloques de imagen adyacentes que tienen alta correlación con el bloque de imagen relacionado, ya que el generador 10313 de tamaño de paso de cuantificación predicho predice el tamaño de paso de cuantificación usando el parámetro de predicción de imagen.

Referencia 4

Al igual que el dispositivo de decodificación de vídeo en la segunda referencia, un dispositivo de decodificación de vídeo en una cuarta referencia incluye el decodificador 201 de longitud variable, el cuantificador 202 inverso, el transformador 203 de frecuencia inverso, la memoria 204 de fotogramas, el predictor 205 intra-fotogramas, el predictor 206 inter-fotogramas y el selector 207 de predicción, tal como se muestra en la Fig. 26. Sin embargo, la estructura del decodificador de tamaño de paso de cuantificación incluido en el decodificador 201 de longitud variable es diferente de la estructura mostrada en la Fig. 27.

La Fig. 5 es un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la cuarta referencia. Tal como se muestra en la Fig. 5, la estructura del decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la cuarta referencia es la misma que la estructura del decodificador de tamaño de paso de cuantificación mostrado en la Fig. 3. Sin embargo, la cuarta referencia difiere de la segunda referencia en que el parámetro usado para la predicción de imagen es suministrado desde el selector 207 de predicción mostrado en la Fig. 26 al generador 20313 del tamaño de paso de cuantificación predicho, y en el funcionamiento del generador 20113 de tamaño de paso de cuantificación predicho.

Debido a que el funcionamiento del decodificador 20111 entrópico y la memoria 20112 intermedia de tamaños de paso de cuantificación es el mismo que el del decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la segunda referencia, aquí se omite una descripción redundante.

El generador 20113 de tamaño de paso de cuantificación predicho usa el parámetro de predicción de imagen para seleccionar un bloque de imagen a ser usado para la predicción del tamaño de paso de cuantificación de entre los bloques de imagen decodificados en el pasado. El generador 20113 de tamaño de paso de cuantificación predicho genera un tamaño de paso de cuantificación predicho a partir de un tamaño de paso de cuantificación correspondiente al bloque de imagen seleccionado. Una diferencia de tamaño de paso de cuantificación emitida desde el decodificador 20111 entrópico es sumada al tamaño de paso de cuantificación predicho generado, y el resultado no solo es emitido como el tamaño de paso de cuantificación, sino que también es introducido a la memoria 20112 intermedia de tamaños de paso de cuantificación.

Debido a que el método de derivación para el tamaño de paso de cuantificación predicho en el generador 20113 de tamaño de paso de cuantificación predicho es el mismo que el método de generación para el tamaño de paso de cuantificación predicho en el generador 10313 de tamaño de paso de cuantificación predicho en el dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, aquí se omite una descripción redundante.

Dicha estructura permite que el dispositivo de decodificación de vídeo decodifique el tamaño de paso de cuantificación mediante la recepción de solo una tasa de codificación más baja en comparación con el dispositivo de decodificación de vídeo en la segunda referencia. Como resultado, puede decodificarse y regenerarse una imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser predicho a partir de los bloques de imagen adyacentes que tienen una mayor correlación con el bloque de imagen relacionado, ya que el generador 20113 de tamaño de paso de cuantificación predicho predice el tamaño de paso de cuantificación usando el parámetro de predicción de imagen.

[Ejemplo 1]

Usando un ejemplo, a continuación, se describe un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente.

En el ejemplo, la dirección de predicción de la predicción intra-fotogramas es usada como el parámetro de predicción de imagen a ser usado para la predicción del tamaño de paso de cuantificación. Además, como la predicción intrafotogramas, se usan una predicción direccional de ocho direcciones y una predicción promedio (ilustrada en la Fig. 6) usada para los bloques de píxeles de 4x4 y bloques de píxeles de 8x8 en AVC descritos en NPL 1.

Se supone que el tamaño de bloque de imagen, como la unidad de codificación, es un tamaño fijo. Se supone también que el bloque, como la unidad de determinación del tamaño de paso de cuantificación (denominado bloque de transmisión de tamaño de paso de cuantificación), y el bloque, como la unidad de predicción intra-fotogramas (denominado bloque de predicción), tienen el mismo tamaño. Si el bloque de imagen actual a ser codificado se denota por X y cuatro bloques A, B, C y D adyacentes tienen una relación posicional mostrada en la Fig. 2, el generador 10313 de tamaño de paso de cuantificación predicho determina un tamaño de paso de cuantificación predicho pQ(X) mediante la ecuación (6) siguiente.

pQ(X) = pQ(B); si m=0

pQ(X) = pQ(A); si m=1

pQ(X) = (pQ(A)+pQ(B)+1) / 2; si m=2

pQ(X) = pQ(C); si m=3

pQ(X) = pQ(D); si m=4

pQ(X) = (pQ(C)+pQ(D)+1) / 2; si m=5

pQ(X) = (pQ(A)+pQ(D)+1) / 2; si m=6

pQ(X) = (pQ(B)+pQ(D)+1) / 2; si m=7

pQ(X) = pQ(A); si m=8

... (6)

Obsérvese que m es un índice de dirección de intra-predicción en un fotograma mostrado en la Fig. 6.

El codificador 10312 entrópico aplica el tamaño de paso de cuantificación Q(X) y el tamaño de paso de cuantificación predicho pQ(X) a la ecuación (4) para obtener una diferencia de tamaño de paso de cuantificación dQ(X). El codificador 10312 entrópico codifica la diferencia de tamaño de paso de cuantificación dQ(X) obtenida usando el código Exp-Golomb con signo como uno de los códigos entrópicos, y emite el resultado como el código correspondiente a un tamaño de paso de cuantificación para el bloque de imagen relacionado.

En el ejemplo, la predicción direccional de ocho direcciones y la predicción promedio se usan como una predicción intra-fotogramas, pero la esta limitación es solo para propósitos explicativos. Por ejemplo, puede usarse una predicción direccional de 33 direcciones descrita en NPL 2 y una predicción promedio, o puede usarse cualquier otra predicción intra- fotogramas.

Además, el número de bloques de imagen usados para la predicción puede ser cualquier número distinto de cuatro. En el ejemplo, tal como se muestra en la ecuación (6) indicada anteriormente, cualquiera de entre un tamaño de paso de cuantificación en uno cualquiera de los bloques de imagen y un valor promedio de los tamaños de paso de cuantificación en dos bloques de imagen se usa como el tamaño de paso de cuantificación predicho. Sin embargo, esta ecuación (6) indicada anteriormente tiene solo propósitos explicativos, y cualquier otro resultado de cálculo puede ser usado como el tamaño de paso de cuantificación predicho. Por ejemplo, tal como se muestra en la ecuación (7) siguiente, puede usarse un tamaño de paso de cuantificación en uno cualquiera de los bloques de imagen o un valor intermedio de tres tamaños de paso de cuantificación, o el tamaño de paso de cuantificación predicho puede ser determinado usando cualquier otro cálculo. Además, no es necesario que los bloques de imagen usados para la predicción estén adyacentes al bloque de imagen actual a ser codificado. Los bloques de imagen usados para la predicción pueden estar separados por una distancia predeterminada desde el bloque de imagen actual a ser codificado.

pQ(X) = pQ(B); si m=0, 5 o 7

pQ(X) = pQ(A); si m=1,6 u 8

pQ(X) = pQ(C); si m=3

pQ(X) = pQ(D); si m=4

pQ(X) = Mediana (pQ(A), pQ(B), pQ(C)); si m=2... (7)

En el ejemplo, se supone que el bloque de imagen a ser codificado y los bloques de imagen adyacentes tienen el mismo tamaño fijo. Sin embargo, el bloque, como la unidad de codificación, puede tener un tamaño variable.

Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño. Sin embargo, los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción pueden tener diferentes tamaños. Por ejemplo, si dos o más bloques de predicción están incluidos en los bloques de transmisión de tamaño de paso de cuantificación, un bloque de predicción en uno cualquiera de los dos o más bloques de predicción puede ser usado para la predicción del tamaño de paso de cuantificación. De manera alternativa, el resultado de añadir cualquier cálculo, tal como un cálculo de valor intermedio o un cálculo de valor promedio, a las direcciones de predicción de los dos o más bloques de predicción puede ser usado para la predicción del tamaño de paso de cuantificación.

Además, en el ejemplo, la diferencia entre el tamaño de paso de cuantificación del bloque de imagen a ser codificado y el tamaño de paso de cuantificación predicho es codificada en base al código Exp-Golomb. Sin embargo, puede realizarse una codificación basada en cualquier otro código entrópico. Por ejemplo, puede realizarse una codificación basada en un código de Huffman o un código aritmético.

[Ejemplo 2]

Usando otro ejemplo, a continuación, se describe un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente.

En este ejemplo, un vector de movimiento de la predicción inter-fotogramas se usa como el parámetro de predicción de imagen usado para la predicción del tamaño de paso de cuantificación. La predicción definida por la translación de las unidades de bloque tal como se muestra en la Fig. 7 se asume como la predicción inter-fotogramas. Se supone que una imagen de predicción es generada a partir de un bloque de imagen situado en una posición que está fuera de la misma posición espacial que el bloque a ser codificado en el fotograma de referencia por un desplazamiento correspondiente al vector de movimiento. También, tal como se muestra en la Fig. 7, la predicción a partir de un único fotograma de referencia, es decir, la predicción unidireccional se asume como la predicción inter-fotogramas. Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño.

Aquí, el bloque a ser codificado se denota por X, la posición central del bloque X se denota por cent(X), el vector de movimiento en la predicción inter-fotogramas de X se denota por V(X), y el fotograma de referencia al que se hace referencia en la predicción inter-fotogramas se denota por RefPic(X). Entonces, tal como se muestra en la Fig. 8, un bloque al que pertenece la posición cent(X)+V(X) en el fotograma RefPic(X) se expresa como Bloque(RefPic(X),cent(X)+V(X)). El generador 10313 de tamaño de paso de cuantificación predicho determina el tamaño de paso de cuantificación predicho pQ(X) mediante la ecuación (8) siguiente.

pQ(X) = Q(Bloque(RefPic(X), cent(X)+V(X)) ...(8)

La derivación de dQ(X) y el método de codificación por el codificador 10312 entrópico son los mismos que aquellos en el primer ejemplo.

En el ejemplo, se supone una predicción unidireccional, pero el uso de una predicción unidireccional es solo con propósitos explicativos. Por ejemplo, en el caso de una predicción bidireccional, en la que una imagen de predicción es generada por bloques de imagen de referencia de promedio ponderado en dos fotogramas de referencia, si un fotograma de referencia se denota por RefPic0(X), el vector de movimiento a RefPic0(X) se denota por V0(X), el otro fotograma de referencia se denota por RefPic1(X), un vector de movimiento a RefPic1(X) se denota por V1(X), una ponderación dada a RefPic0(X) tras la generación de la imagen de predicción se denota por w0, y una ponderación dada a RefPic1(X) se denota por w1, el generador 10313 de tamaño de paso de cuantificación predicho puede determinar el tamaño de paso de cuantificación pQ(X) predicho por medio de la ecuación (9) siguiente.

pQ(X) = w0 Q(Bloque(RefPic0(X), cent(X)+VO(X))

w1 Q(Bloque(RefPic1 (X), cent(X)+v1(X))

... (9)

Además, en el ejemplo, el tamaño de paso de cuantificación del bloque al cual pertenece la posición central del bloque de imagen de referencia es usado como el tamaño de paso de cuantificación predicho, pero el tamaño de paso de cuantificación predicho no se limita a este. Por ejemplo, un tamaño de paso de cuantificación de un bloque al cual pertenece la posición superior izquierda del bloque de imagen de referencia puede ser usado como el tamaño de paso de cuantificación predicho. De manera alternativa, puede hacerse referencia respectivamente a los tamaños de paso de cuantificación de los bloques a los cuales pertenecen todos los píxeles del bloque de imagen de referencia, para usar un valor promedio de estos tamaños de paso de cuantificación como el tamaño de paso de cuantificación predicho.

Además, en el ejemplo, la predicción representada por la translación entre los bloques se asume como la predicción inter-fotogramas. Sin embargo, el bloque de imagen de referencia no se limita a estos, y puede tener cualquier forma.

Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño. Sin embargo, al igual que en el primer ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción pueden tener tamaños diferentes.

[Ejemplo 3]

Usando todavía otro ejemplo, a continuación, se describe un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente.

En el ejemplo, la predicción de un vector de movimiento de la predicción inter-fotogramas, es decir, un vector de movimiento predicho, es usado como el parámetro de predicción de imagen usado para la predicción del tamaño de paso de cuantificación. Cuando el vector de movimiento predicho es derivado a partir de los bloques de imagen adyacentes del bloque a ser codificado, los tamaños de paso de cuantificación de los bloques de imagen adyacentes usados para la derivación del vector de movimiento predicho se usan para predecir un vector de movimiento del bloque a ser codificado.

En el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño. También, al igual que en el segundo ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, una predicción unidireccional representada por un vector de movimiento es asumida como la predicción inter-fotogramas. En el ejemplo, un vector de movimiento predicho derivado por un método predeterminado es restado del vector de movimiento mostrado en la Fig. 7, y la diferencia es codificada con una codificación entrópica. Como el método de derivación del vector de movimiento predicho predeterminado, se usa el método de derivación de vector de movimiento predicho descrito en "8.4.2.1.4 Derivation process for luma motion vector prediction" de NPL 2.

A continuación, se describe brevemente el método de derivación del vector de movimiento predicho usado en el ejemplo. El bloque a ser codificado se denota por X, y los bloques adyacentes hacia la izquierda, hacia arriba, diagonalmente hacia arriba y hacia la derecha, diagonalmente hacia arriba y hacia la izquierda, y diagonalmente hacia abajo y hacia la izquierda, tal como se muestra en la Fig. 2, se denotan por A, B, C, D y E, respectivamente. Un vector de movimiento del bloque A se denota por mvA y un vector de movimiento del bloque B se denota por mvB. Cuando existe el bloque C en la imagen y ya ha sido codificado, un vector de movimiento del bloque C se establece como mvC. Por otro lado, cuando existe el bloque D en la imagen y ya ha sido codificado, un vector de movimiento del bloque D se establece como mvC. Por otro lado, un vector de movimiento del bloque E se establece como mvC.

Además, un vector de movimiento determinado por la ecuación (10) siguiente se denota por mvMed, y un vector de movimiento de un bloque en la misma posición espacial que el bloque a ser codificado en un fotograma de referencia asignado al fotograma de imagen a ser codificado (ilustrado como un bloque en fase XCol con respecto al bloque X a ser codificado en la Fig. 8) se denota por mvCol. El fotograma de referencia asignado significa, por ejemplo, un fotograma de imagen codificado justo antes del fotograma de imagen a ser codificado.

mvMed = (mvMedx, mvMedy)

mvMedx = Mediana (mvAx, mvBx, mvCx)

mvMedy = Mediana (mvAy, mvBy, mvCy)

..(10)

Tal como se ha descrito anteriormente, cinco vectores de movimiento, es decir, mvMed, mvA, mvB, mvC y mvCol son candidatos para el vector de movimiento predicho en el bloque X a ser codificado. Un vector de movimiento cualquiera es seleccionado según un orden de prioridad predeterminado de entre los candidatos, y se establece como el vector de movimiento predicho pMV(X) del bloque a ser codificado. Un ejemplo del orden de prioridad predeterminado se describe en "8.4.2.1.4 Derivation process for luma motion vector prediction" y "8.4.2.1.8 Removal process for motion vector prediction" de NPL 2.

Cuando el vector de movimiento predicho pMV(X) es determinado tal como se ha indicado anteriormente, el generador 10313 de tamaño de paso de cuantificación predicho determina un tamaño de paso de cuantificación pQ(X) predicho del bloque X a ser codificado por la ecuación (11) siguiente.

pQ(X) = Q(A); si pMV(X) = mvA

pQ(X) = Q(B); en caso contrario si pMV(X) = mvB

pQ(X) = Q(C); en caso contrario si pMV(X) = mvC, y mvC es el vector de movimiento del bloque C pQ(X) = Q(D); en caso contrario si pMV(X) = mvC, y mvC es el vector de movimiento del bloque D pQ(X) = Q(E); en caso contrario si pMV(X) = mvC, y mvC es el vector de movimiento del bloque E pQ(X) = Q(XCol); en caso contrario si pMV(X) = mvCol

pQ(X) = Mediana (Q(A), Q(B), Q(C)); en caso contrario

..(11)

En el ejemplo, se supone una predicción unidireccional. Sin embargo, al igual que en el segundo ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, este ejemplo puede ser aplicado también a una predicción bidireccional.

Además, en el ejemplo, el método de derivación del vector de movimiento predicho descrito en "8.4.2.1.4 Derivation process for luma motion vector prediction" de NPL 2 se usa como el método de derivación del vector de movimiento predicho, pero esta limitación es solo con propósito explicativo. Por ejemplo, tal como se describe en "8.4.2.1.3 Derivation process for luma motion vectors for merge mode" de NPL 2, si el vector de movimiento del bloque X a ser codificado es predicho por un vector de movimiento del bloque A o del bloque B, el generador 10313 de tamaño de paso de cuantificación predicho puede determinar el tamaño de paso de cuantificación pQ(X) predicho del bloque X a ser codificado por medio de la ecuación (12) siguiente, o puede usarse cualquier otro método de derivación del vector de movimiento predicho.

pQ(X) = Q(A); si pMV(X) = mvA

pQ(X) = Q(B); en caso contrario

..(12)

Además, en el ejemplo, los bloques de imagen usados para la predicción del tamaño de paso de cuantificación son referenciados tal como se muestra en la ecuación (11) en el orden de los bloques A, B, C, D, E y XCol. Sin embargo, puede usarse cualquier orden. En lo que se refiere al número y a las posiciones de los bloques de imagen usados para la predicción del tamaño de paso de cuantificación, pueden usarse cualquier número y posiciones de los bloques de imagen. Además, en el ejemplo, se usa un cálculo del valor intermedio como en la ecuación (3) cuando pMV(X) no concuerda con ninguno de entre mvA, mvB, mvC y mvCol, pero el uso del cálculo del valor intermedio se ilustra solo con propósitos explicativos. Puede usarse también cualquier cálculo, tal como el cálculo del valor promedio, como en la primera referencia.

Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño. Sin embargo, los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción pueden tener diferentes tamaños, como en el primer ejemplo y el segundo ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente.

Referencia 5

La Fig. 9 es un diagrama de bloques que muestra la estructura del dispositivo de codificación de vídeo en una quinta referencia. La Fig. 10 es un diagrama de bloques que muestra la estructura de un codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en esta referencia.

En comparación con el dispositivo de codificación de vídeo mostrado en la Fig. 24, el dispositivo de codificación de vídeo en esta referencia es diferente en el sentido de que se incluyen un controlador 111 de predicción de tamaño de paso de cuantificación y un multiplexor 112, tal como se muestra en la Fig. 9. Obsérvese que el dispositivo de codificación de vídeo mostrado en la Fig. 24 es también el dispositivo de codificación de vídeo en la tercera referencia, tal como se ha descrito anteriormente.

Además, tal como se muestra en la Fig. 10, esta referencia difiere de la tercera referencia en que un codificador de tamaño de paso de cuantificación para codificar el tamaño de paso de cuantificación en el codificador 103 de longitud variable del dispositivo de codificación de vídeo está configurado para suministrar el parámetro de predicción del tamaño de paso de cuantificación desde el controlador 111 de predicción de tamaño de paso de cuantificación mostrado en la Fig. 9 al generador 10313 de tamaño de paso de cuantificación predicho, en comparación con el codificador de tamaño de paso de cuantificación mostrado en la Fig. 4, y en el funcionamiento del generador 10313 de tamaño de paso de cuantificación predicho.

El controlador 111 de predicción de tamaño de paso de cuantificación suministra información de control para controlar la operación de predicción del tamaño de paso de cuantificación del generador 10313 de tamaño de paso de cuantificación predicho al codificador 103 de longitud variable y el multiplexor 112. La información de control para controlar la operación de predicción del tamaño de paso de cuantificación se denomina un parámetro de predicción del tamaño de paso de cuantificación.

El multiplexor 112 multiplexa el parámetro de predicción del tamaño de paso de cuantificación en un flujo de bits de vídeo suministrado desde el codificador 103 de longitud variable y emite el resultado como un flujo de bits.

Usando el parámetro de predicción de imagen y el parámetro de predicción de tamaño de paso de cuantificación, el generador 10313 de tamaño de paso de cuantificación predicho selecciona un bloque de imagen usado para la predicción del tamaño de paso de cuantificación de entre los bloques de imagen codificados en el pasado. El tamaño 10313 de paso de cuantificación predicho genera también un tamaño de paso de cuantificación predicho a partir de un tamaño de paso de cuantificación correspondiente al bloque de imagen seleccionado.

Dicha estructura del dispositivo de codificación de vídeo en la presente referencia puede reducir adicionalmente la tasa de codificación requerida para codificar el tamaño de paso de cuantificación en comparación con el dispositivo de codificación de vídeo en la tercera referencia. Como resultado, puede conseguirse una codificación de imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser predicho para el bloque de imagen con una mayor precisión, ya que el generador 10313 de tamaño de paso de cuantificación predicho usa el parámetro de predicción del tamaño de paso de cuantificación además del parámetro de predicción de imagen para conmutar o corregir un valor de predicción del tamaño de paso de cuantificación usando el parámetro de predicción de imagen. La razón por la que el tamaño de paso de cuantificación puede ser predicho con una mayor precisión mediante una conmutación o una corrección usando el parámetro de predicción del tamaño de paso de cuantificación es porque el controlador 104 de cuantificación mostrado en la Fig. 9 supervisa la tasa de codificación de salida del codificador 103 de longitud variable para aumentar o disminuir el tamaño de paso de cuantificación sin depender solamente de la sensibilidad visual humana y, por lo tanto, un tamaño de paso de cuantificación, a ser aplicado también a los bloques de imagen que tienen la misma sensibilidad visual, puede variar.

A continuación, se describe, usando un ejemplo específico, un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la quinta referencia indicada anteriormente.

En este ejemplo, al igual que en el segundo ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, se usa un vector de movimiento de predicción inter-fotogramas como el parámetro de predicción de imagen usado para la predicción del tamaño de paso de cuantificación. La predicción definida por la translación de las unidades de bloque, tal como se muestra en la Fig. 7, se asume como la predicción inter-fotogramas. En este caso, se supone que una imagen de predicción es generada a partir de un bloque de imagen situado en una posición que está fuera de la misma posición espacial que la del bloque a ser codificado en el fotograma de referencia por un desplazamiento correspondiente al vector de movimiento. También, tal como se muestra en la Fig. 7, la predicción a partir de un fotograma de referencia individual, es decir, una predicción unidireccional, se asume como la predicción inter-fotogramas. Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño.

Aquí, el bloque a ser codificado se denota por X, el fotograma a ser codificado se denota por Pic(X), la posición central del bloque X se denota por cent(X), el vector de movimiento en la predicción inter-fotogramas de X se denota por V(X), y el fotograma de referencia al cual se hace referencia en la predicción inter-fotogramas se denota por RefPic(X). Entonces, tal como se muestra en la Fig. 8, un bloque al cual pertenece la posición cent(X)+V(X) en el fotograma RefPic(X) es expresado como Bloque(RefPic(X),cent(X)+V(X)). Además, se supone que tres bloques A, B y C de imagen adyacentes están situados en las posiciones respectivamente adyacentes hacia la izquierda, hacia arriba, y diagonalmente hacia arriba y hacia la derecha con relación al bloque X, tal como se muestra en la Fig. 2. En este caso, el generador 10313 de tamaño de paso de cuantificación predicho determina el tamaño de paso de cuantificación predicho pQ(X) por medio de la ecuación (13) siguiente.

PQ(X) = Q(Bloque(RefPic(X), cent(X)+V(X)); si temporal_qp_pred_flag = 1

pQ(X) = Mediana (pQ(A), pQ(B), Q(C)); en caso contrario

..(13)

Aquí, temporal_qp_pred_flag representa un indicador para la conmutación entre si el vector de movimiento entre los fotogramas puede ser usado o no para la predicción del tamaño de paso de cuantificación. El indicador es suministrado desde el controlador 111 de predicción de tamaño de paso de cuantificación al generador 10313 de tamaño de paso de cuantificación predicho.

El generador 10313 de tamaño de paso de cuantificación predicho puede usar también un valor de desplazamiento para compensar un cambio en el tamaño de paso de cuantificación entre el fotograma Pic(X) a ser codificado y el fotograma de referencia RefPic(X), es decir, un desplazamiento al tamaño de paso de cuantificación Qofs(Pic(X), RefPic(X)) para determinar el tamaño de paso de cuantificación predicho pQ(X) por medio de la ecuación (14) siguiente.

pQ(X) = Q(Bloque(RefPic(X), cent(X)+V(X))

Qofs(Pic(X), RefPic(X)

..(14)

Además, el generador 10313 de tamaño de paso de cuantificación predicho puede usar tanto el indicador temporal_qp_pred_flag indicado anteriormente como el desplazamiento al tamaño de paso de cuantificación para determinar el tamaño de paso de cuantificación predicho pQ(X) por medio de la ecuación (15) siguiente.

pQ(X) = Q(Bloque(RefPic(X), cent(X)+V(X))

Qofs(pic(X), RefPic(X)); si temporal_qp_pred_flag =1

pQ(X) = Mediana (pQ(A), pQ(B), Q(C)); en caso contrario

..(15)

Por ejemplo, si el tamaño de paso de cuantificación inicial de cualquier fotograma Z se denota por Qinit(Z), el desplazamiento al tamaño de paso de cuantificación Qofs(Pic(X), RefPic(X)) en las ecuaciones (14) y (15) indicadas anteriormente puede ser determinado por medio de la ecuación (16) siguiente.

Qofs(Pic(X), RefPic(X)) = Qinit(Pic(X)) -Qinit(RefPic(X)) ...(16)

El tamaño de paso de cuantificación inicial es un valor proporcionado como el valor inicial del tamaño de paso de cuantificación para cada fotograma, y puede usarse por ejemplo SliceQP^ydescrito en "7.4.3 Slice header semantics" de NPL 1.

Por ejemplo, tal como se ilustra en la lista mostrada en la Fig. 11, que corresponde a la descripción en "Specification of syntax functions, categories, and descriptors" de NPL 1, uno cualquiera o ambos de entre el valor de temporal_qp_pred_flag y el valor de Qofs(Pic(X), Refpic(X)) indicados anteriormente, puede ser multiplexado en un flujo de bits como parte de la información de cabecera.

En la lista mostrada en la Fig. 11, qp_pred_offset representa el valor de Qofs en la ecuación (14) indicada anteriormente. Tal como se muestra en la Fig. 11, múltiples fragmentos de qp_pred_offset pueden ser multiplexados como valores Qofs correspondientes a fotogramas de referencia respectivos, o un fragmento de qp_pred_offset puede ser multiplexado como un valor de Qofs común para todos los fotogramas de referencia.

En el ejemplo, el vector de movimiento de la predicción inter-fotogramas se asume como el parámetro de predicción de imagen. Sin embargo, el uso del vector de movimiento de la predicción inter-fotogramas se ilustra solo con propósitos explicativos. Al igual que en el primer ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, la dirección de predicción de la predicción intra-fotogramas puede ser usada de manera que el indicador indicado anteriormente conmute entre si usar la dirección de predicción de la predicción intra-fotogramas o no para la predicción del tamaño de paso de cuantificación. Al igual que en el tercer ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, puede usarse la dirección de predicción del vector de movimiento predicho, o puede usarse cualquier otro parámetro de predicción de imagen.

Además, en el ejemplo, la predicción unidireccional se asume como la predicción inter-fotogramas. Sin embargo, al igual que en el segundo ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente, puede usarse una predicción bidireccional.

Además, en el ejemplo, el tamaño de paso de cuantificación de un bloque al cual pertenece la posición central del bloque de imagen de referencia es usado como el tamaño de paso de cuantificación predicho. Sin embargo, la derivación del tamaño de paso de cuantificación predicho no se limita a esto. Por ejemplo, el tamaño de paso de cuantificación de un bloque al cual pertenece la posición superior izquierda del bloque de imagen de referencia puede ser usado como el tamaño de paso de cuantificación predicho. De manera alternativa, puede hacerse referencia a los tamaños de paso de cuantificación de los bloques a los cuales pertenecen todos los píxeles del bloque de imagen de referencia para usar un valor promedio de estos tamaños de paso de cuantificación como el tamaño de paso de cuantificación predicho.

Además, en el ejemplo, la predicción representada por la translación entre los bloques de la misma forma se asume como la predicción inter-fotogramas. Sin embargo, el bloque de imagen de referencia no se limita a esto, y puede tener cualquier forma.

Además, en el ejemplo, tal como se muestra en la ecuación (13) y la ecuación (15), cuando no se usa la información de predicción inter-fotogramas, el tamaño de paso de cuantificación es predicho a partir de tres bloques de imagen espacialmente adyacentes en base al cálculo del valor intermedio, pero esta limitación tiene solo propósitos explicativos. Al igual que en el ejemplo específico de la primera referencia, el número de bloques de imagen usados para la predicción puede ser cualquier número distinto de tres, y puede usarse un cálculo del valor promedio o similar en lugar del cálculo del valor intermedio. Además, no es necesario que los bloques de imagen usados para la predicción sean adyacentes al bloque de imagen actual a ser codificado, y los bloques de imagen pueden estar separados por una distancia predeterminada desde el bloque de imagen actual a ser codificado.

Además, en el ejemplo, se supone que los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño, pero al igual que en el primer ejemplo del dispositivo de codificación de vídeo en la tercera referencia indicada anteriormente los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción pueden tener tamaños distintos.

Referencia 6

La Fig. 12 es un diagrama de bloques que muestra la estructura de un dispositivo de decodificación de vídeo en una sexta referencia. La Fig. 13 es un diagrama de bloques que muestra la estructura de un decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la presente referencia.

En comparación con el dispositivo de decodificación de vídeo mostrado en la Fig. 26, el dispositivo de decodificación de vídeo en la presente referencia difiere en que incluye un demultiplexor 208 y un controlador 209 de predicción de tamaño de paso de cuantificación tal como se muestra en la Fig. 12. Tal como se ha descrito anteriormente, el dispositivo de decodificación de vídeo mostrado en la Fig. 26 es también el dispositivo de decodificación de vídeo en la cuarta referencia.

Además, en comparación con el decodificador de tamaño de paso de cuantificación mostrado en la Fig. 5, un decodificador de tamaño de paso de cuantificación para decodificar el tamaño de paso de cuantificación en el decodificador 201 de longitud variable del dispositivo de decodificación de vídeo en la presente referencia difiere, tal como se muestra en la Fig. 13, de la cuarta referencia en que el parámetro de predicción del tamaño de paso de cuantificación es suministrado desde el controlador 209 de predicción de tamaño de paso de cuantificación mostrado en la Fig. 12 al generador 20113 de tamaño de paso de cuantificación predicho, y en el funcionamiento del generador 20113 de tamaño de paso de cuantificación predicho.

El demultiplexor 208 demultiplexa un flujo de bits para extraer un flujo de bits de vídeo e información de control para controlar la operación de predicción de tamaño de paso de cuantificación. El demultiplexor 208 suministra además la información de control extraída al controlador 209 de predicción de tamaño de paso de cuantificación, y el flujo de bits de vídeo extraído al decodificador 201 de longitud variable, respectivamente.

El controlador 209 de predicción de tamaño de paso de cuantificación configura la operación del generador 20113 de tamaño de paso de cuantificación predicho en base a la información de control suministrada.

El generador 20113 de tamaño de paso de cuantificación predicho usa el parámetro de predicción de imagen y el parámetro de predicción de tamaño de paso de cuantificación para seleccionar un bloque de imagen usado para la predicción del tamaño de paso de cuantificación de entre los bloques de imagen decodificados en el pasado. El generador 20113 de tamaño de paso de cuantificación predicho genera además un tamaño de paso de cuantificación predicho a partir de un tamaño de paso de cuantificación correspondiente al bloque de imagen seleccionado. Una diferencia de tamaño de paso de cuantificación emitida desde el decodificador 20111 entrópico es añadida al tamaño de paso de cuantificación predicho generado, y el resultado no solo es emitido como el tamaño de paso de cuantificación, sino que también es introducido a la memoria 20112 intermedia de tamaños de paso de cuantificación.

Debido a que el método de derivación para el tamaño de paso de cuantificación predicho en el generador 20113 de tamaño de paso de cuantificación predicho es el mismo que el método para el tamaño de paso de cuantificación predicho en el generador 10313 de tamaño de paso de cuantificación predicho en el dispositivo de codificación de vídeo en la quinta referencia indicada anteriormente, aquí se omite una descripción redundante.

Dicha estructura permite que el dispositivo de decodificación de vídeo decodifique el tamaño de paso de cuantificación mediante la recepción de solo una tasa de codificación todavía más pequeña en comparación con el dispositivo de decodificación de vídeo en la cuarta referencia. Como resultado, puede decodificarse y regenerarse una imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser predicho para el bloque de imagen con una mayor precisión debido a que el generador 20113 de tamaño de paso de cuantificación predicho usa el parámetro de predicción de tamaño de paso de cuantificación además del parámetro de predicción de imagen para conmutar o corregir un valor predicho del tamaño de paso de cuantificación usando el parámetro de predicción de imagen.

Referencia 7

Al igual que el dispositivo de codificación de vídeo en la tercera referencia, un dispositivo de codificación de vídeo en una séptima referencia incluye el transformador 101 de frecuencia, el cuantificador 102, el codificador 103 de longitud variable, el controlador 104 de cuantificación, el cuantificador 105 inverso, el transformador 106 de frecuencia inverso, la memoria 107 de fotogramas, el predictor 108 intra-fotogramas, el predictor 109 inter-fotogramas y el selector 110 de predicción, tal como se muestra en la Fig. 24. Sin embargo, la estructura de un codificador de tamaño de paso de cuantificación en el codificador 103 de longitud variable es diferente de la estructura del dispositivo de codificación de vídeo en la tercera referencia mostrada en la Fig. 4.

La Fig. 14 es un diagrama de bloques que muestra la estructura del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la séptima referencia. En comparación con el codificador de tamaño de paso de cuantificación mostrado en la Fig. 4, la estructura del codificador de tamaño de paso de cuantificación en la presente referencia es diferente en el sentido de que incluye un selector 10314 de tamaño de paso de cuantificación, tal como se muestra en la Fig. 14.

Debido a que el funcionamiento de la memoria 10311 intermedia de tamaños de paso de cuantificación, el codificador 10312 entrópico y el generador 10313 de tamaño de paso de cuantificación predicho es el mismo que el funcionamiento del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la tercera referencia, aquí se omite una descripción redundante.

El selector 10314 de tamaño de paso de cuantificación selecciona un tamaño de paso de cuantificación asignado al bloque de imagen codificado previamente o un tamaño de paso de cuantificación predicho emitido desde el generador 10313 de tamaño de paso de cuantificación predicho, según el parámetro de predicción de imagen, y emite el resultado como un tamaño de paso de cuantificación predicho de manera selectiva. El tamaño de paso de cuantificación asignado al bloque de imagen codificado previamente es salvado en la memoria 10311 intermedia de tamaños de paso de cuantificación. El tamaño de paso de cuantificación predicho de manera selectiva emitido desde el selector 10314 de tamaño de paso de cuantificación es restado del tamaño de paso de cuantificación introducido al codificador de tamaño de paso de cuantificación y a ser codificado actualmente, y el resultado es introducido al codificador 10312 entrópico.

Dicha una estructura permite que el dispositivo de codificación de vídeo en la presente referencia reduzca adicionalmente la tasa de codificación requerida para codificar el tamaño de paso de cuantificación en comparación con el dispositivo de codificación de vídeo en la tercera referencia. Como resultado, puede conseguirse una codificación de imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser codificado mediante la operación del selector 10314 de tamaño de paso de cuantificación para usar selectivamente el tamaño de paso de cuantificación predicho derivado a partir del parámetro de predicción de imagen y el tamaño de paso de cuantificación codificado previamente. La razón por la que la tasa de codificación requerida para codificar el tamaño de paso de cuantificación puede ser reducida adicionalmente mediante el uso de manera selectiva del tamaño de paso de cuantificación predicho derivado a partir del parámetro de predicción de imagen y el tamaño de paso de cuantificación codificado previamente es debido a que el controlador 104 de cuantificación en el dispositivo de codificación no solo realiza una cuantificación adaptativa basada en la sensibilidad visual, sino que supervisa también la tasa de codificación de salida para aumentar o disminuir el tamaño de paso de cuantificación, tal como se ha descrito anteriormente.

A continuación, se describe un funcionamiento específico del codificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la séptima referencia, usando un ejemplo específico.

Aquí, la dirección de predicción de la predicción intra-fotogramas es usada como el parámetro de predicción de imagen usado para la predicción del tamaño de paso de cuantificación. Además, como la predicción intra-fotogramas, se usan una predicción direccional de ocho direcciones y una predicción promedio (véase la Fig. 6) usada para bloques de 4x4 píxeles y bloques de 8x8 píxeles en el esquema AVC descrito en NPL 1.

Se supone que el tamaño de bloque de imagen, como la unidad de codificación, es un tamaño fijo. Se supone también que el bloque, como la unidad de determinación de tamaño de paso de cuantificación (denominado bloque de transmisión de tamaño de paso de cuantificación) y el bloque, como la unidad de predicción intra-fotogramas (denominado bloque de predicción), tienen el mismo tamaño. Si el bloque de imagen actual a ser codificado se denota por X, y cuatro bloques A, B, C y D adyacentes tienen una relación posicional mostrada en la Fig. 2, el generador 10313 de tamaño de paso de cuantificación predicho determina el tamaño de paso de cuantificación predicho pQ(X) por medio de la ecuación (6) indicada anteriormente.

El selector 10314 de tamaño de paso de cuantificación selecciona el tamaño de paso de cuantificación predicho pQ(X) obtenido por medio de la ecuación (6) o el tamaño de paso de cuantificación codificado previamente Q(Xprev) según la ecuación (17) siguiente, para generar un tamaño de paso de cuantificación predicho de manera selectiva sQ(X), es decir, el tamaño de paso de cuantificación predicho determinado por la ecuación (6) es usado como el tamaño de paso de cuantificación predicho de manera selectiva para una predicción direccional y el tamaño de paso de cuantificación previo es usado como el tamaño de paso de cuantificación predicho de manera selectiva para la predicción del valor promedio.

sQ(X) = Q(Xprev); si m=2

sQ(X) = pQ(X); si m=0, 1, 3, 4, 5, 6, 7 u 8

..(17)

Obsérvese que m es un índice de dirección de predicción intra-fotogramas en el fotograma mostrado en la Fig. 6.

El codificador 10312 entrópico codifica una diferencia de tamaño de paso de cuantificación dQ(X) obtenida por medio de la ecuación (18) siguiente usando el código Exp-Golomb (Exponencial-Golomb) con signo como uno de los códigos entrópicos, y emite el resultado como el código correspondiente a un tamaño de paso de cuantificación para el bloque de imagen relacionado.

dQ(X) = Q(X) - sQ(X) ...(18)

En la presente referencia, se usan una predicción de dirección de ocho direcciones y una predicción promedio como una predicción intra-fotogramas, pero esta limitación tiene solo propósitos explicativos. Por ejemplo, puede usarse una predicción direccional de 33 direcciones descrita en NPL 2 y una predicción promedio, o puede usarse cualquier otra predicción intra-fotogramas.

Además, en la presente referencia, la selección entre el tamaño de paso de cuantificación predicho y el tamaño de paso de cuantificación codificado previamente se realiza en base a los parámetros de la predicción intra-fotogramas, pero el uso de la información de predicción intra-fotogramas se ilustra solo con propósitos explicativos. Por ejemplo, pueden hacerse selecciones para usar el tamaño de paso de cuantificación predicho en el bloque de predicción intrafotogramas y el tamaño de paso de cuantificación codificado previamente en el bloque de predicción inter-fotogramas, o viceversa. Cuando los parámetros de predicción inter-fotogramas cumplen una cierta condición específica, puede realizarse una selección para usar el tamaño de paso de cuantificación codificado previamente.

El número de bloques de imagen usados para la predicción puede ser cualquier número distinto de cuatro. Además, en la presente referencia, un tamaño de paso de cuantificación en uno cualquiera de los bloques de imagen o un valor promedio de los tamaños de paso de cuantificación en dos bloques de imagen es usado como el tamaño de paso de cuantificación predicho, tal como se muestra en la ecuación (6). Sin embargo, el tamaño de paso de cuantificación predicho no se limita a los de la ecuación (6). Cualquier otro resultado de cálculo puede ser usado como el tamaño de paso de cuantificación predicho. Por ejemplo, tal como se muestra en la ecuación (7), puede usarse un tamaño de paso de cuantificación en uno cualquiera de los bloques de imagen o un valor intermedio de tres tamaños de paso de cuantificación, o el tamaño de paso de cuantificación predicho puede ser determinado usando cualquier otro cálculo. Además, los bloques de imagen usados para la predicción no son necesariamente adyacentes al bloque de imagen actual a ser codificado. Los bloques de imagen usados para la predicción pueden estar separados por una distancia predeterminada desde el bloque de imagen actual a ser codificado.

Además, en la presente referencia, se supone que el bloque de imagen a ser codificado y los bloques de imagen usados para la predicción tienen el mismo tamaño fijo. Sin embargo, el caso en el que el bloque de imagen, como la unidad de codificación, tiene un tamaño fijo se ilustra solo con propósitos explicativos. El bloque de imagen, como la unidad de codificación, puede tener un tamaño variable, y el bloque de imagen a ser codificado y los bloques de imagen usados para la predicción pueden tener tamaños diferentes.

Además, en la presente referencia, se supone que los bloques de trasmisión de tamaño de paso de cuantificación y el bloque de predicción tienen el mismo tamaño. Sin embargo, los bloques de transmisión de tamaño de paso de cuantificación y el bloque de predicción pueden tener tamaños diferentes. Por ejemplo, cuando dos o más bloques de predicción se incluyen en los bloques de transmisión de tamaño de paso de cuantificación, la dirección de predicción de un bloque de predicción cualquiera de entre los dos o más bloques de predicción puede ser usada para la predicción del tamaño de paso de cuantificación. De manera alternativa, el resultado de agregar cualquier cálculo, tal como el cálculo del valor intermedio o el cálculo del valor promedio, a las direcciones de predicción de los dos o más bloques de predicción puede ser usado para la predicción del tamaño de paso de cuantificación.

Además, en la presente referencia, la diferencia entre el tamaño de paso de cuantificación del bloque de imagen a ser codificado y el tamaño de paso de cuantificación predicho es codificada en base al código Exp-Golomb. Sin embargo, puede realizarse una codificación basada en cualquier otro código entrópico. Por ejemplo, puede realizarse una codificación basada en un código Huffman o un código aritmético.

Realización ejemplar

Al igual que el dispositivo de decodificación de vídeo en la cuarta referencia, un dispositivo de decodificación de vídeo en una realización ejemplar de la presente invención incluye el decodificador 201 de longitud variable, el cuantificador 202 inverso, el transformador 203 de frecuencia inverso, la memoria 204 de fotogramas, el predictor 205 intrafotogramas, el predictor 206 inter-fotogramas y el selector 207 de predicción, tal como se muestra en la Fig. 26. Sin embargo, la estructura de un decodificador de tamaño de paso de cuantificación incluido en el decodificador 201 de longitud variable es diferente de la estructura mostrada en la Fig. 5.

La Fig. 15 es un diagrama de bloques que muestra un decodificador de tamaño de paso de cuantificación en el dispositivo de decodificación de vídeo en la presente realización ejemplar de la presente invención. En comparación con la estructura del decodificador de tamaño de paso de cuantificación mostrado en la Fig. 5, la estructura del decodificador de tamaño de paso de cuantificación en la realización ejemplar es diferente en el sentido de que incluye un selector 20114 de tamaño de paso de cuantificación, tal como se muestra en la Fig. 15.

Debido a que el funcionamiento del decodificador 20111 entrópico, la memoria 20112 intermedia de tamaños de paso de cuantificación y el generador 20113 de tamaño de paso de cuantificación predicho es el mismo que el funcionamiento del decodificador de tamaño de paso de cuantificación en el dispositivo de codificación de vídeo en la cuarta referencia, aquí se omite una descripción redundante.

El selector 20114 de tamaño de paso de cuantificación selecciona un tamaño de paso de cuantificación asignado al bloque de imagen decodificado previamente o un tamaño de paso de cuantificación predicho emitido desde el generador 20113 de tamaño de paso de cuantificación predicho según el parámetro de predicción de imagen, y emite el resultado como un tamaño de paso de cuantificación predicho de manera selectiva. El tamaño de paso de cuantificación asignado al bloque de imagen decodificado previamente es salvado en la memoria 20112 intermedia de tamaños de paso de cuantificación. Una diferencia de tamaño de paso de cuantificación generada por el decodificador 20111 entrópico es sumada al tamaño de paso de cuantificación predicho de manera selectiva emitido, y el resultado no solo es emitido como el tamaño de paso de cuantificación, sino que también es almacenado en la memoria 20112 intermedia de tamaños de paso de cuantificación.

Dicha estructura permite que el dispositivo de decodificación de vídeo decodifique el tamaño de paso de cuantificación mediante la recepción de solo una tasa de codificación todavía más pequeña en comparación con el dispositivo de decodificación de vídeo en la cuarta referencia. Como resultado, puede decodificarse y regenerarse una imagen en movimiento de alta calidad. La razón es que el tamaño de paso de cuantificación puede ser decodificado por la operación del selector 20114 de tamaño de paso de cuantificación para usar de manera selectiva el tamaño de paso de cuantificación predicho derivado a partir del parámetro de predicción de imagen y el tamaño de paso de cuantificación codificado previamente de manera que el tamaño de paso de cuantificación pueda ser decodificado con una tasa de codificación más pequeña para un flujo de bits generado aplicando tanto la cuantificación adaptativa basada en la sensibilidad visual como el aumento o la disminución en el tamaño de paso de cuantificación que resulta de la supervisión de la tasa de codificación de salida y por lo tanto, puede decodificarse y regenerarse un imagen en movimiento mediante la tasa de codificación más baja.

Cada una de las realizaciones ejemplares y las referencias indicadas anteriormente puede ser realizada en hardware o un programa de ordenador.

Un sistema de procesamiento de información mostrado en la Fig. 16 incluye un procesador 1001, una memoria 1002 de programa, un medio 1003 de almacenamiento para almacenar datos de vídeo, y un medio 1004 de almacenamiento para almacenar un flujo de bits. El medio 1003 de almacenamiento y el medio 1004 de almacenamiento pueden ser medios de almacenamiento separados, o áreas de almacenamiento incluidas en el mismo medio de almacenamiento. En lo que respecta al medio de almacenamiento, un medio de almacenamiento magnético, tal como un disco duro, puede ser usado como el medio de almacenamiento.

En el sistema de procesamiento de información mostrado en la Fig. 16, un programa para implementar la función de cada bloque (incluyendo cada uno de los bloques mostrados en la Fig. 1, la Fig. 3, la Fig. 4 y la Fig. 5, excepto el bloque de memoria intermedia) mostrado en cada una de las Figs. 24 y 26, es almacenado en la memoria 1002 de programa. El procesador 1001 realiza un procesamiento según el programa almacenado en la memoria 1002 de programa, para implementar las funciones del dispositivo de codificación de vídeo o el dispositivo de decodificación de vídeo mostrados en cada una de entre la Fig. 24, la Fig. 26 y la Fig. 1, la Fig. 3, la Fig. 4 y la Fig. 5, respectivamente.

La Fig. 17 es un diagrama de bloques que muestra los componentes característicos en un dispositivo de codificación de vídeo como una referencia. Tal como se muestra en la Fig. 17, el dispositivo de codificación de vídeo incluye una unidad 10 de codificación de tamaño de paso de cuantificación para codificar un tamaño de paso de cuantificación que controla la granularidad de la cuantificación, y la unidad 10 de codificación de tamaño de paso de cuantificación incluye una unidad 11 de predicción de tamaño de paso de cuantificación para predecir el tamaño de paso de cuantificación usando los tamaños de paso de cuantificación asignados a los bloques de imagen adyacentes ya decodificados.

La Fig. 18 es un diagrama de bloques que muestra los componentes característicos en otro dispositivo de codificación de vídeo como una referencia. Tal como se muestra en la Fig. 18, el otro dispositivo de codificación de vídeo incluye, además de la estructura mostrada en la Fig. 17, una unidad 20 de generación de imagen de predicción para usar las imágenes codificadas en el pasado y un parámetro predeterminado para generar una imagen de predicción de un bloque de imagen a ser codificado. En esta estructura, la unidad 10 de codificación de tamaño de paso de cuantificación predice el tamaño de paso de cuantificación usando los parámetros usados en la generación de la imagen de predicción. También puede incluirse una unidad 30 de generación de vector de movimiento predicho para predecir un vector de movimiento usado para la predicción inter-fotogramas usando los vectores de movimiento asignados a los bloques de imagen adyacentes ya codificados, de manera que la unidad 10 de codificación de tamaño de paso de cuantificación use una dirección de predicción del vector de movimiento predicho para predecir el tamaño de paso de cuantificación.

La Fig. 19 es un diagrama de bloques que muestra los componentes característicos en un dispositivo de decodificación de vídeo como una referencia. Tal como se muestra en la Fig. 19, el dispositivo de decodificación de vídeo incluye una unidad 50 de decodificación de tamaño de paso de cuantificación para decodificar un tamaño de paso de cuantificación que controla la granularidad de la cuantificación inversa, y la unidad 50 de decodificación de tamaño de paso de cuantificación incluye una unidad 51 de predicción de tamaño de paso para predecir el tamaño de paso de cuantificación usando los tamaños de paso de cuantificación asignados a los bloques de imagen adyacentes ya decodificados.

La Fig. 20 es un diagrama de bloques que muestra los componentes característicos en otro dispositivo de decodificación de vídeo como una referencia. Tal como se muestra en la Fig. 20, el otro dispositivo de decodificación de vídeo según la presente invención incluye, además de la estructura mostrada en la Fig. 19, una unidad 60 de generación de imagen de predicción para usar las imágenes decodificadas en el pasado y parámetros predeterminados, para generar una imagen de predicción de un bloque de imagen a ser decodificado. En esta estructura, la unidad 50 de decodificación de tamaño de paso de cuantificación predice un tamaño de paso de cuantificación usando los parámetros usados en la generación de la imagen de predicción. Una unidad 70 de generación de vector de movimiento predicho para predecir un vector de movimiento usado para la predicción inter fotogramas usando un vector de movimiento asignado a un bloque de imagen adyacente ya codificado puede ser incluido también de manera que la unidad 50 de decodificación de tamaño de paso de cuantificación usará una dirección de predicción del vector de movimiento predicho para predecir el tamaño de paso de cuantificación.

La Fig. 21 es un diagrama de flujo que muestra las etapas características en un método de codificación de vídeo como una referencia. Tal como se muestra en la Fig. 21, el método de codificación de vídeo incluye la etapa S11 para determinar una dirección de predicción de la predicción intra-fotogramas, en el que la etapa S12 para generar una imagen de predicción usa la predicción intra-fotogramas, y la etapa S13 para predecir un tamaño de paso de cuantificación usa la dirección de predicción de la predicción intra-fotogramas.

La Fig. 22 es un diagrama de flujo que muestra las etapas características en un método de decodificación como una referencia. Tal como se muestra en la Fig. 22, el método de decodificación de vídeo incluye la etapa S21 para determinar una dirección de predicción de la predicción intra-fotogramas, la etapa S22 para generar una imagen de predicción usando la predicción intra-fotogramas, y la etapa S23 para predecir un tamaño de paso de cuantificación usando la dirección de predicción de la predicción intra-fotogramas.

Aunque la presente invención ha sido descrita con referencia a las realizaciones ejemplares, la presente invención no se limita a las realizaciones ejemplares indicadas anteriormente. Pueden realizarse varios cambios, entendibles por las personas con conocimientos en la materia, dentro del alcance de la presente invención, a la estructura y los detalles de la presente invención.

La presente solicitud reivindica la prioridad en base a la solicitud de patente japonesa N° 2011-51291, presentada el 9 de Marzo de 2011, y la solicitud de patente japonesa N° 2011-95395, presentada el 21 de Abril de 2011.

Lista de signos de referencia

10 unidad de codificación de tamaño de paso de cuantificación

11 unidad de predicción de tamaño de paso

20 unidad de generación de imagen de predicción

30 unidad de generación de vector de movimiento predicho

50 unidad de decodificación de tamaño de paso de cuantificación

51 unidad de predicción de tamaño de paso

60 unidad de generación de imagen de predicción

70 unidad de generación de vector de movimiento predicho 101 transformador de frecuencia

102 cuantificador

103 codificador de longitud variable

104 controlador de cuantificación

105 cuantificador inverso

106 transformador de frecuencia inverso

107 memoria de fotogramas

108 predictor intra-fotogramas

109 predictor inter-fotogramas

110 selector de predicción

111 controlador de predicción de tamaño de paso de cuantificación 112 multiplexor

201 decodificador de longitud variable

202 cuantificador inverso

203 transformador de frecuencia inverso

204 memoria de fotogramas

205 predictor intra-fotogramas

206 predictor inter-fotogramas

207 selector de predicción

208 demultiplexor

209 controlador de predicción de tamaño de paso de cuantificación 1001 procesador

1002 memoria de programa

1003 medio de almacenamiento

1004 medio de almacenamiento

10311 memoria intermedia de tamaños de paso de cuantificación 10312 codificador entrópico

10313 generador de tamaño de paso de cuantificación predicho 20111 decodificador entrópico

20112 memoria intermedia de tamaños de paso de cuantificación 20113 generador de tamaño de paso de cuantificación predicho

Claims

REIVINDICACIONES

1. Un dispositivo de decodificación de vídeo para decodificar bloques de imagen en base a la cuantificación inversa de los datos de vídeo de entrada comprimidos para ejecutar un método de generación de datos de imagen como un conjunto de los bloques de imagen, que comprende

medios de decodificación de tamaño de paso de cuantificación para decodificar un tamaño de paso de cuantificación que controla una granularidad de la cuantificación inversa,

en el que los medios de decodificación de tamaño de paso de cuantificación calculan el tamaño de paso de cuantificación que controla la granularidad de la cuantificación inversa mediante el uso (en base a un parámetro de predicción de imagen), de una manera selectiva, de un valor medio de tamaños de paso de cuantificación asignados a una pluralidad de bloques de imagen adyacentes ya decodificados o un tamaño de paso de cuantificación asignado a un bloque de imagen decodificado inmediatamente antes.

2. Un método de decodificación de vídeo para decodificar los bloques de imagen usando cuantificación inversa de los datos de vídeo comprimidos de entrada para ejecutar un método de generación de datos de imagen como un conjunto de los bloques de imagen, que comprende

calcular un tamaño de paso de cuantificación que controla una granularidad de la cuantificación inversa mediante el uso (en base a un parámetro de predicción de imagen), de manera selectiva, de un valor medio de tamaños de paso de cuantificación asignados a una pluralidad de bloques de imagen adyacentes ya decodificados o un tamaño de paso de cuantificación asignado a un bloque de imagen decodificado inmediatamente antes.

3. Un programa de decodificación de vídeo para causar que un ordenador en un dispositivo de decodificación de vídeo para decodificar bloques de imagen en base a una cuantificación inversa de los datos de vídeo comprimidos de entrada ejecute un método de generación de datos de imagen como un conjunto de los bloques de imagen, para ejecutar:

un método para calcular un tamaño de paso de cuantificación que controla una granularidad de la cuantificación inversa mediante el uso (en base a un parámetro de predicción de imagen), de manera selectiva, de un valor medio de tamaños de paso de cuantificación asignados a una pluralidad de bloques de imagen adyacentes ya decodificados o un tamaño de paso de cuantificación asignado a un bloque de imagen decodificado inmediatamente antes.