ES2805202T3

ES2805202T3 - Procedimiento y aparato para la predicción temporal en codificación de video escalable

Info

Publication number: ES2805202T3
Application number: ES16190165T
Authority: ES
Inventors: Takahiro Nishi; Youji Shibahara; Hisao Sasai; Toshiyasu Sugio
Original assignee: Sun Patent Trust Inc
Current assignee: Sun Patent Trust Inc
Priority date: 2011-01-14
Filing date: 2012-01-12
Publication date: 2021-02-11
Anticipated expiration: 2032-01-12
Also published as: JP6583702B2; CN103053160A; CN103053160B; MX2013001652A; US20180255314A1; WO2012096186A1; CA2806615A1; US9584818B2; KR101912472B1; KR20130139223A; EP4027644B1; CN107071448B; US11843796B2; CN106454363B; EP4250733A3; BR112013004435A2; US20120183059A1; EP3700212A1; US10021410B2; CN106454363A

Abstract

Un procedimiento de codificación de imágenes para codificar una señal de video mediante el uso de un procesador, comprendiendo dicho procedimiento de codificación de imágenes: clasificar (S101) una pluralidad de imágenes incluidas en la señal de video en capas, cada una de la pluralidad de imágenes perteneciente a una de las capas correspondiente, las capas que incluyen una primera capa y una segunda capa; en el que (i) cuando se codifica una imagen que pertenece a la primera capa, la imagen que pertenece a la primera capa (a) se puede referir a otra imagen que pertenece a la primera capa y (b) no se puede referir a una imagen que pertenece a la segunda capa; y (ii) cuando se codifica una imagen que pertenece a la segunda capa, la imagen que pertenece a la segunda capa se puede (a) referir a una imagen que pertenece a la primera capa y (b) a otra imagen que pertenece a la segunda capa; el procedimiento que comprende, además codificar (S102) (i) una primera imagen (Bf16) que pertenece a la primera capa haciendo referencia a otra imagen que pertenece a la primera capa y (ii) una segunda imagen (Bf8) que pertenece a una de la primera capa y la segunda capa por interpredicción, en el que la segunda imagen (Bf8) precede a la primera imagen (Bf16) en el orden de codificación; y codificar (S102) una tercera imagen (Br12) que pertenece a la segunda capa por interpredicción, en el que la tercera imagen (Br12) sigue a la primera imagen (Bf16) en el orden de codificación; caracterizado porque en caso de que la primera imagen (Bf16) sea una imagen especificada para prohibir que la tercera imagen (Br12) se refiera a la segunda imagen (Bf8), la tercera imagen (Br12) se codifica sin referirse a la segunda imagen (Bf8) que precede a la primera imagen (Bf16) en el orden de codificación; y en caso de que la primera imagen (Bf16) no sea la imagen especificada para prohibir que la tercera imagen (Br12) se refiera a la segunda imagen (Bf8), la tercera imagen (Br12) puede codificarse haciendo referencia a la segunda imagen (Bf8) que precede a la primera imagen (Bf16) en el orden de codificación.

Description

DESCRIPCIÓN

Procedimiento y aparato para la predicción temporal en codificación de video escalable

La presente invención se refiere a un procedimiento de codificación de imágenes y a un aparato de codificación de imágenes para video.

En un procedimiento de codificación de imágenes para codificar video, una cantidad de información generalmente se comprime mediante el uso de redundancia en una dirección espacial y en una dirección temporal mantenida por el video. En general, la conversión en una región de frecuencia se usa como el procedimiento de usar la redundancia en la dirección espacial, y una codificación de predicción entre imágenes (en lo sucesivo denominada interpredicción) se usa como el procedimiento de usar la redundancia en la dirección temporal. Cuando una imagen se codifica en la codificación de interpredicción, se usa como imagen de referencia una imagen codificada que precede o sigue a una imagen real que se va a codificar en orden de visualización. Se obtiene un vector de movimiento realizando una estimación del movimiento en la imagen real con respecto a la imagen de referencia, y se calcula una diferencia entre los datos de imagen de la imagen real y una imagen predictiva obtenida realizando la compensación de movimiento en base al vector de movimiento, eliminando de esta manera la redundancia en la dirección temporal.

Con el estándar de codificación de imágenes llamado H.264 que ya ha sido estandarizado, tres tipos de imágenes, es decir, la imagen I, la imagen B y la imagen P, se usan para comprimir la cantidad de información. La imagen I es una imagen en la que no se realiza la codificación de interpredicción, en otras palabras, una imagen en la que se realiza la intrapredicción de imagen (en lo sucesivo denominada intrapredicción). La imagen P es una imagen en la que se realiza la codificación de interpredicción con referencia a una imagen codificada que precede o sigue a una imagen real que se codificará en el orden de visualización. La imagen B es una imagen en la que se realiza la codificación de interpredicción con referencia a dos imágenes codificadas que preceden o siguen a la imagen real en el orden de visualización. Además, la imagen I y la imagen P incluyen un segmento de conmutación y similares (segmento SI, segmento SP) para conmutar entre secuencias y similares.

Con el procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes que se ajustan al estándar H.264 existente, se requiere que estos procedimientos sean aplicables a todas las relaciones de referencia que pueden concebirse mediante la definición de las imágenes de estos tipos. Al decodificar una imagen P, por ejemplo, se requiere que se haga referencia a una imagen que sigue en el orden de visualización. Además, cuando hay dos vectores de movimiento para la imagen B, las direcciones de estos dos vectores de movimiento pueden ser hacia adelante o hacia atrás. Además, puede hacerse referencia a las imágenes que son diferentes para cada bloque en un segmento. Para corresponder a la flexibilidad de una estructura de referencia de este tipo, se requiere la ejecución de algunos procedimientos para el procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes en H.264 (ver, por ejemplo, la Literatura No Patentada 1).

Aspectos adicionales relacionados con la codificación de video y las imágenes I pueden encontrarse en Literatura No Patentada 2 y Literaturas Patentadas 1 y 2.

[Lista de referencias]

[Literatura no patentada]

[NPL 1]

ITU-TH. 26403/2010

[NPL 2]

MATSUOKA S Y OTROS, "Coding Efficiency Improvement with Adaptive GOP Size Selection for H.264/SVC", INFORMÁTICA Y CONTROL INNOVADORES, 2008. ICICIC '08. 3RA CONFERENCIA INTERNACIONAL ON, IEEE, PISCATAWAY, NJ, Estados Unidos, (20080618), ISBN 978-0-7695-3161-8, página 356

[Literatura patentada]

[PL 1]

WO 2007/042916 A1

[PL 2]

EP 2224745 A1

Sin embargo, con el procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes divulgado por la Literatura No Patentada 1 descrita anteriormente, existe el problema de que la carga de procesamiento es alta.

En vista del problema descrito anteriormente, un objeto de la presente invención es proporcionar un procedimiento de codificación de imágenes y un aparato de codificación de imágenes para permitir la reducción de la carga de procesamiento.

Esto se logra mediante las características de las reivindicaciones independientes.

Los ejemplos adicionales llamados "realizaciones" en la descripción son ejemplos ilustrativos.

[Figura 1] La Figura 1 es un diagrama de bloques que ilustra un aparato de codificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 2] La Figura 2 es un diagrama que ilustra una estructura de referencia construida por una unidad de interpredicción de acuerdo con la Realización 1 de la presente invención;

[Figura 3] La Figura 3 es un ejemplo de un procedimiento de gestión de memoria en el caso donde se elimine una imagen de referencia necesaria;

[Figura 4] La Figura 4 es un diagrama que ilustra un ejemplo del procedimiento de gestión de memoria cuando se impone una restricción en el orden de codificación de las imágenes;

[Figura 5] La Figura 5 es un diagrama que ilustra el procedimiento de gestión de memoria realizado por una unidad de control de memoria de acuerdo con la Realización 1 de la presente invención;

[Figura 6] La Figura 6 es un diagrama de flujo que ilustra los procedimientos realizados por un aparato de codificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 7] La Figura 7 es un diagrama de flujo que ilustra procedimientos mediante el uso de un indicador, realizados por el aparato de codificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 8] La Figura 8 es un diagrama de flujo que ilustra procedimientos específicos realizados por el aparato de codificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 9] La Figura 9 es un diagrama de bloques que ilustra un aparato de decodificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 10] La Figura 10 es un diagrama de flujo que ilustra procedimientos realizados por un aparato de decodificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 11] La Figura 11 es un diagrama de flujo que ilustra procedimientos mediante el uso de un indicador, realizados por el aparato de decodificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 12] La Figura 12 es un diagrama de flujo que ilustra un procedimiento de gestión de memoria de acuerdo con la Realización 1 de la presente invención;

[Figura 13] La Figura 13 es un diagrama de flujo que ilustra procedimientos específicos realizados por el aparato de decodificación de imágenes de acuerdo con la Realización 1 de la presente invención;

[Figura 14] La Figura 14 es un diagrama que ilustra una estructura de referencia de acuerdo con un ejemplo de modificación de la Realización 1 de la presente invención;

[Figura 15] La Figura 15 es un diagrama que ilustra un ejemplo del procedimiento de gestión de memoria de acuerdo con un ejemplo de modificación de la Realización 1 de la presente invención;

[Figura 16] La Figura 16 es un diagrama que ilustra otro ejemplo del procedimiento de gestión de memoria de acuerdo con la Modificación 1 de la realización de la presente invención;

[Figura 17] La Figura 17 ilustra una configuración general de un sistema que proporciona contenido para implementar servicios de distribución de contenido;

[Figura 18] La Figura 18 es una configuración general de un sistema de transmisión digital;

[Figura 19] La Figura 19 es un diagrama de bloques que ilustra un ejemplo de una configuración de un televisor;

[Figura 20] La Figura 20 es un diagrama de bloques que ilustra un ejemplo de una configuración de una unidad de reproducción/grabación de información que lee y escribe información desde o sobre un medio de grabación que es un disco óptico;

[Figura 21] La Figura 21 es un dibujo que muestra un ejemplo de una configuración de un medio de grabación que es un disco óptico;

[Figura 22] La Figura 22A es un ejemplo de un teléfono celular;

[Figura 22B] La Figura 22B es un ejemplo de una configuración del teléfono celular;

[Figura 23] La Figura 23 ilustra una estructura de los datos multiplexados;

[Figura 24] La Figura 24 es un dibujo que ilustra esquemáticamente cómo cada una de las secuencias se multiplexa en datos multiplexados;

[Figura 25] La Figura 25 es un dibujo que ilustra cómo se almacena una secuencia de video en una secuencia de paquetes PES con más detalle;

[Figura 26] La Figura 26 es un dibujo que muestra una estructura de paquetes TS y paquetes fuente en los datos multiplexados;

[Figura 27] La Figura 27 es un dibujo que muestra una estructura de datos de un PMT;

[Figura 28] La Figura 28 ilustra una estructura interna de información de datos multiplexados;

[Figura 29] La Figura 29 es un dibujo que muestra una estructura interna de información de atributos de secuencia;

[Figura 30] La Figura 30 es un dibujo que muestra las etapas para identificar datos de video;

[Figura 31] La Figura 31 es un diagrama de bloques que ilustra un ejemplo de una configuración de un circuito integrado para implementar el procedimiento de codificación de video y el procedimiento de decodificación de video de acuerdo con cada una de las Realizaciones;

[Figura 32] La Figura 32 es un dibujo que muestra una configuración para conmutar entre frecuencias de conducción;

[Figura 33] La Figura 33 es un dibujo que muestra las etapas para identificar datos de video y conmutar entre frecuencias de conducción;

[Figura 34] La Figura 34 es un dibujo que muestra un ejemplo de una tabla de consulta en la que los estándares de datos de video están asociados con las frecuencias de conducción;

[Figura 35A] La Figura 35A es un dibujo que muestra un ejemplo de una configuración para compartir un módulo de una unidad de procesamiento de señal; y

[Figura 35B] La Figura 35B es un dibujo que muestra otro ejemplo de una configuración para compartir un módulo de una unidad de procesamiento de señal.

[Descripción de las realizaciones]

Primero, antes de describir las realizaciones de acuerdo con la presente invención, se describirán algunos procedimientos realizados al codificar o decodificar una imagen.

Por ejemplo, un aparato de codificación de imágenes y un aparato de decodificación de imágenes construyen una lista de referencia (también denominada lista de imágenes de referencia). Más específicamente, estos aparatos, cuando codifican o decodifican un segmento tal como un segmento B con referencia a otra imagen, construyen una lista de referencia en la que se enumeran las imágenes a las que se hará referencia para el segmento (un macrobloque incluido en el segmento). En este procedimiento, es necesario ordenar las imágenes en orden numérico de la imagen en la lista de referencias (procedimiento de clasificación en el momento de la inicialización de la lista de referencias). Por ejemplo, el aparato de codificación de imágenes y el aparato de decodificación de imágenes, al obtener el segmento B, agregan una imagen de referencia a la que se hace referencia para el segmento B (una imagen usada tanto para una referencia de tiempo corto como para una referencia de tiempo largo. En lo sucesivo, se aplica lo mismo) a la lista de referencia (L0, L1). Aquí, el aparato de codificación de imágenes y el aparato de decodificación de imágenes clasifican las imágenes de referencia en la lista de referencia (L0, L1) en orden descendente (un primer orden joven) de acuerdo con los números de imagen (Número de Imagen) de las imágenes de referencia.

Además, el aparato de codificación de imágenes y el aparato de decodificación de imágenes provocan que una sola memoria lógica (DPB: memoria intermedia de imagen decodificada) retenga una imagen como una imagen de referencia a la que se hace referencia durante un largo período de tiempo, por ejemplo. Aquí, para evitar que la memoria se sature, es necesario marcar un atributo en cada una de estas imágenes almacenadas en la memoria para administrar estas imágenes.

Por ejemplo, el aparato de codificación de imágenes y el aparato de decodificación de imágenes marcan un atributo "no usado para referencia" en una imagen que no se usa como imagen de referencia, al determinar que es menos probable que se haga referencia a la imagen o que reciba un comando predeterminado (MMCP: comando de gestión de memoria). Debe señalarse que el comando predeterminado es un comando que especifica que no se hace referencia a una imagen a gestionar. Más específicamente, tal procedimiento o control de marcado incluye un procedimiento de gestión FIFO (Primero en entrar, Primero en salir) y un control de memoria adaptativo mediante el uso de un comando de control de gestión de memoria.

Aquí, la flexibilidad de la estructura de referencia que es posible gracias a la definición de imagen de H.264 no contribuye directamente a facilitar la implementación del aparato de decodificación de imágenes. Aunque la flexibilidad de la estructura de referencia puede contribuir a mejorar la eficiencia de la codificación de compresión, si la flexibilidad puede contribuir a facilitar la implementación del aparato de decodificación de imágenes que reproduce datos codificados (secuencia codificada) es otra historia. En consecuencia, la flexibilidad de la estructura de referencia aumenta la carga de procesamiento del aparato de codificación de imágenes y del aparato de decodificación de imágenes. Por ejemplo, existe el caso donde se facilita la implementación del aparato de decodificación de imágenes cuando es posible determinar que se imponen condiciones de restricción.

Además, existe el caso donde al menos una flexibilidad excesiva pone una limitación a los procedimientos generales. Por ejemplo, cuando el aparato de codificación de imágenes y el aparato de decodificación de imágenes que se refieren a un gran número de imágenes de referencia durante un largo período de tiempo manejan una memoria (realizando el procesamiento de marcado) mediante el uso del procedimiento FIFO mencionado anteriormente, hay un caso donde la imagen necesaria para referencia se elimina de la memoria debido a un tamaño limitado de la memoria. Además, cuando el aparato de codificación de imágenes y el aparato de decodificación de imágenes realizan el control de memoria adaptativo mediante el uso del comando de gestión de memoria mencionado anteriormente, se requiere un comando (comando de gestión de memoria) cada vez que se realiza el control.

En vista de lo anterior, el procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes de acuerdo con una realización de la presente invención se caracterizan por reducir la carga de procesamiento mediante el uso de una estructura de referencia sobre la cual se impone una condición de restricción. Además, el procedimiento de gestión de memoria de acuerdo con una realización de la presente invención se caracteriza por evitar un aumento de la carga de procesamiento, evitando que una imagen necesaria para referencia se elimine de una memoria.

De acuerdo con la presente invención una realización se describirá en más detalle a continuación con referencia a los dibujos acompañantes. Debe señalarse que cada una de las realizaciones explicadas a continuación describe un ejemplo específico preferido de la presente invención. Un valor numérico, forma, material, elementos estructurales, posiciones de disposición y formas de conexión de los elementos estructurales, etapas, el orden de las etapas y similares son ejemplos, y no pretenden limitar la presente invención. La presente invención se limita solamente por el ámbito de las reivindicaciones. En consecuencia, entre los elementos estructurales en las realizaciones a continuación, los elementos estructurales que no se describen en las reivindicaciones independientes que indican el concepto más amplio de la presente invención no son necesariamente necesarios para resolver el problema de la presente invención, sino que se explican como componentes para una realización más preferente.

(Realización 1)

La Figura 1 es un diagrama de bloques que ilustra un aparato de codificación de imágenes de acuerdo con la Realización 1 de la presente invención.

Un aparato de codificación de imágenes 1000 de acuerdo con la presente realización se caracteriza porque se impone una restricción de acuerdo con una estructura de capas de una imagen en referencia de la imagen en la codificación de interpredicción. El aparato de codificación de imágenes 1000 descrito anteriormente incluye: un sustractor 1101; una unidad de transformación ortogonal 1102; una unidad de cuantificación 1103; una unidad de codificación de entropía 1104; una unidad de cuantificación inversa 1105; una unidad de transformación ortogonal inversa 1106; un sumador 1107; un filtro de desbloqueo 1108; una memoria 1109; una unidad de intrapredicción 1110; una unidad de interpredicción 1111; una unidad de estimación de movimiento 1112; un conmutador 1113; y una unidad de control de memoria 1200.

El sustractor 1101 obtiene una señal de video y una imagen de predicción del conmutador 1113. Luego, el sustractor 1101 substrae la imagen de predicción que se codificará de un bloque real incluido en la señal de video, generando de esta manera una imagen diferencial.

La unidad de transformación ortogonal 1102 realiza la transformación ortogonal (transformación de frecuencia) tal como la transformación discreta del coseno en la imagen diferencial generada por el sustractor 1101, transformando de esta manera la imagen diferencial en un bloque de coeficientes que incluye coeficientes de frecuencia plurales. La unidad de cuantificación 1103 cuantifica cada uno de los coeficientes de frecuencia incluidos en el bloque de coeficientes, generando de esta manera un bloque de coeficientes cuantificados.

La unidad de cuantificación inversa 11105 realiza una cuantificación inversa en el bloque de coeficientes cuantificado por la unidad de cuantificación 1103. La unidad de transformación ortogonal inversa 1106 realiza la transformación ortogonal inversa (transformación de frecuencia inversa) tal como la transformación inversa discreta del coseno en cada uno de los coeficientes de frecuencia incluidos en el bloque de coeficientes en el que se ha realizado la cuantificación inversa, generando de esta manera una imagen diferencial decodificada.

El sumador 1107 obtiene una imagen de predicción del conmutador 1113 y agrega la imagen de predicción a la imagen diferencial decodificada generada por la unidad de transformación ortogonal inversa 1106, generando de esta manera una imagen decodificada local (imagen de reconfiguración).

El filtro de desbloqueo 1108 elimina los efectos de bloqueo de la imagen decodificada local generada por el sumador 1107, y almacena la imagen decodificada local en la memoria 1109. La memoria 1109 es una memoria para almacenar la imagen decodificada local como una imagen de referencia para la interpredicción. Debe señalarse que la memoria 1109 se usa como una memoria intermedia de imagen decodificada (DPB).

La unidad de intrapredicción 1110 realiza la intrapredicción en el bloque real a codificar, mediante el uso de la imagen decodificada local generada por el sumador 1107, generando de esta manera una imagen de predicción (imagen de intrapredicción).

La unidad de estimación de movimiento 112 detecta un vector de movimiento para el bloque real incluido en la señal de video, y envía el vector de movimiento detectado a la unidad de interpredicción 1111 y a la unidad de codificación de entropía 1104.

La unidad de interpredicción 1111 se refiere a la imagen almacenada en la memoria 1109 y usa el vector de movimiento detectado por la unidad de estimación de movimiento 1112, realizando de esta manera la compensación de movimiento en el bloque real. La unidad de interpredicción 1111 realiza la predicción compensada de movimiento como se describió anteriormente; es decir, realiza una interpredicción en el bloque real, generando de esta manera una imagen de predicción (imagen de interpredicción) del bloque real.

Además, la unidad de interpredicción 1111 estratifica las imágenes incluidas en la señal de video. Más específicamente, la unidad de interpredicción 1111 clasifica, en capas, las imágenes incluidas en la señal de video, de manera que cada una de las imágenes pertenece a una de las capas correspondientes. Debe señalarse que, la unidad de interpredicción 1111, por ejemplo, estratifica imágenes plurales en la presente realización; sin embargo, cada una de las imágenes a estratificar no se limita a una imagen, y pueden usarse otras unidades de imagen, tal como un segmento.

En tal caso, la unidad de interpredicción 1111 se refiere, como una imagen de referencia para la imagen real a codificar, a una imagen que pertenece a la segunda capa que está presente dentro de un intervalo que está restringido de acuerdo con la primera capa a la que pertenece la imagen real que es una de las imágenes. Más específicamente, la unidad de interpredicción 1111 prohíbe referirse a una imagen que pertenece a una capa superior, o en un nivel superior a la primera capa, y se refiere, como imagen de referencia, a una imagen que pertenece a la segunda capa ubicada en un intervalo restringido para estar en el mismo nivel o más bajo que la primera capa.

Además, la unidad de interpredicción 1111 genera un indicador que indica si se impone o no una restricción en la selección de una imagen de referencia a la que se hace referencia en la codificación de la imagen real a codificar que es una de las imágenes, y envía el indicador a la unidad de codificación de entropía 1104. Por ejemplo, cuando la restricción de referencia en base a la estructura de capas se impone en la imagen real como se describió anteriormente, la unidad de interpredicción 1111 genera un indicador 1 y envía el indicador a la unidad de codificación de entropía 1104. En otras palabras, en el caso donde el indicador que indica la adición de una restricción, la unidad de interpredicción 1111 selecciona, como imagen de referencia para la imagen real, una imagen que cumpla la condición restringida de acuerdo con la primera capa a la que la imagen real pertenece. Además, la unidad de interpredicción 1111 genera, para cada una de las imágenes que están estratificadas, información de capa que indica una capa a la que pertenece la imagen, y envía la información de capa a la unidad de codificación de entropía 1104 y a la unidad de control de memoria 1200.

El conmutador 1113, cuando la codificación intrapredicción se realiza en el bloque real a codificar, emite la imagen de predicción (imagen de intrapredicción) generada por la unidad de intrapredicción 1110 al sustractor 1101 y al sumador 1107. Por el contrario, cuando la codificación de interpredicción se realiza en el bloque real que se va a codificar, el conmutador 1113 emite la imagen de predicción (imagen de interpredicción) generada por la unidad de interpredicción 1111 al sustractor 1101 y al sumador 1107.

La unidad de codificación de entropía 1104 realiza la codificación de entropía (codificación de longitud variable) en: el bloque de coeficientes cuantificados por la unidad de cuantificación 1103; un vector de movimiento detectado por la unidad de estimación de movimiento 1112; y en el indicador y en la información de capa generada por la unidad de interpredicción 1111, generando de esta manera una secuencia codificada. A través de los procedimientos descritos anteriormente, la secuencia codificada incluye el indicador y la información de capa descrita anteriormente.

La unidad de control de memoria 1200 obtiene, de la unidad de interpredicción 1111, la información de capa de cada una de las imágenes, y gestiona la imagen almacenada en la memoria 1109, en base a una capa de la imagen indicada por la información de capa; es decir, en base a una estructura de capas. Más específicamente, la unidad de control de memoria 1200 asigna, como capacidad de capa, una parte de la capacidad de memoria disponible en la memoria 1109, para cada una de las capas. Luego, la unidad de control de memoria 1200 almacena una imagen real para ser almacenada en una región, dentro de la memoria 1109, que está restringida a la capacidad de capa que es una capacidad asignada a la capa a la que pertenece la imagen real. Debe señalarse que, cuando la región no tiene capacidad restante disponible para almacenar la imagen real que se va a almacenar, la unidad de control de memoria 1200 puede eliminar, de la región, una imagen existente almacenada previamente entre una o más imágenes existentes almacenadas ya en la región, de manera que se almacena la imagen real.

Aquí, cuando se asigna una capacidad de capa para cada una de las capas, la unidad de control de memoria 1200 asigna, a una capa de nivel más bajo ubicada en la parte inferior entre las capas, una capacidad de capa mayor que una capacidad de capa asignada a una capa de nivel superior ubicada por encima de la capa de nivel más bajo. Además, la unidad de control de memoria 1200 marca un atributo en una imagen que pertenece a una capa ubicada encima de una capa a la que pertenece la imagen real a codificar, entre las imágenes almacenadas en la memoria 1109. Más específicamente, la unidad de control de memoria 1200 marca un atributo que indica que la imagen no se usa para referencia.

A continuación, se describe en detalle una estructura de capas y una estructura de referencia de una imagen, que está construida por la unidad de interpredicción 1111.

La Figura 2 es un diagrama que ilustra una estructura de capas y una estructura de referencia construida por la unidad de interpredicción 1111. Debe señalarse que, en la Figura 2, un alfabeto y un carácter numérico agregado a una imagen indican un tipo de imagen y un orden de visualización, respectivamente, de la imagen. Por ejemplo, 10 indica un tipo de imagen "I" y el orden de visualización de la imagen "0", y Br2 indica un tipo de imagen "B" y el orden de visualización de la imagen "2".

La unidad de interpredicción 1111 define una estructura de referencia en base a una estructura de capas construida clasificando imágenes plurales incluidas en una señal de video en capas, como se muestra en la Figura 2. Aquí, la unidad de interpredicción 1111 usa una imagen colocada en la parte superior en el orden de visualización entre las imágenes plurales, como una imagen I, y usa imágenes, excepto la imagen I en la parte superior, como una imagen B. Además, cuando la unidad de interpredicción 1111 realiza la interpredicción en una imagen que pertenece a una capa, para cada una de las capas plurales, se refiere a una imagen que pertenece al mismo nivel o nivel inferior a la capa. Más específicamente, con la estructura de referencia construida por la unidad de interpredicción 1111, se impone una restricción que no permite la referencia a una imagen clasificada en una capa superior o superior a una capa a la que pertenece una imagen real a codificar (que permite la referencia a una imagen en una capa que sea igual o inferior a la capa real).

Por ejemplo, la unidad de interpredicción 1111 se refiere a una imagen 10 que pertenece a una capa 0 y a una imagen Br2 que pertenece a una capa 2 cuando se realiza una interpredicción en una imagen B1 que pertenece a una capa 3, como se muestra en la Figura 2. Además, cuando se realiza la interpredicción en una imagen Bf8 que pertenece a la capa 0 en el nivel más bajo, la unidad de interpredicción 1111 se refiere a la imagen 10 que pertenece a la misma capa 0. Aquí, solo puede hacerse referencia a las imágenes anteriores en el orden de visualización para la interpredicción de una imagen que pertenece a la capa 0 en el nivel más bajo.

Como se describió anteriormente, con la estructura de referencia de acuerdo con la presente realización, es posible mejorar la eficiencia de compresión de una señal de video porque las imágenes, aparte de la imagen I, son las imágenes B. En general, una imagen codificada con referencia a más imágenes de referencia puede mejorar la eficiencia de compresión más que una imagen codificada con referencia a menos imágenes de referencia. En consecuencia, con la estructura de referencia de acuerdo con la presente realización, es posible mejorar la eficiencia de compresión de una señal de video porque las imágenes, aparte de la imagen I, son las imágenes B.

Además, con la estructura de referencia de acuerdo con la presente realización, una imagen que pertenece a una capa en un nivel superior entre varias capas se codifica con referencia a una imagen que pertenece a la misma capa o a una imagen que pertenece a una capa en un nivel inferior. Esto facilita la realización de una reproducción especial, tal como la reproducción a doble velocidad en un aparato de reproducción que incluye un aparato de decodificación de imágenes.

Cuando se realiza una reproducción a alta velocidad, por ejemplo, el aparato de reproducción reproduce solo las imágenes que pertenecen a la capa 0. Con la estructura de referencia que se ilustra en la Figura 2, el aparato de reproducción reproduce las imágenes 10, Bf8 y Bf16. Las imágenes que pertenecen a las capas 0 y 1 se reproducen cuando se reduce la velocidad de reproducción, y las imágenes que pertenecen a las capas 0, 1 y 2 se reproducen cuando la velocidad de reproducción se reduce aún más. Como se describió anteriormente, es posible lograr fácilmente una reproducción flexible de alta velocidad definiendo la estructura de referencia de acuerdo con las capas.

Más específicamente, cuando el aparato de codificación de imágenes codifica una imagen real para mostrar que se muestra en una reproducción especial con referencia a una imagen, como una imagen de referencia, que pertenece a una capa en un nivel más alto que una capa a la que pertenece la imagen real, el aparato de reproducción necesita decodificar la imagen de referencia a pesar de que la imagen de referencia no se muestra en la reproducción especial. Sin embargo, con el aparato de codificación de imágenes 1000 de acuerdo con la presente realización, está prohibido, para cada una de las imágenes, hacer referencia a una imagen que pertenece a una capa en un nivel más alto que una capa a la que pertenece cada una de las imágenes. Por lo tanto, es posible aliviar el aparato de reproducción de la molestia de decodificar una imagen de referencia que no se muestra en una reproducción especial. Como resultado, de acuerdo con la presente realización, es posible reducir la carga de procesamiento del aparato de decodificación de imágenes incluido en el aparato de reproducción.

Aquí, la unidad de interpredicción 1111 genera un indicador como se describió anteriormente. Más específicamente, la unidad de interpredicción 1111 emite un indicador que determina, con un bit, si una señal de video (secuencia) está (i) codificada con una condición de restricción jerárquica para un propósito específico (reproducción especial, por ejemplo) o (ii) una secuencia que se codifica sin una condición de restricción. La unidad de codificación de entropía 1104 agrega el indicador (1 bit) a la parte superior de una unidad de acceso (unidad de acceso aleatorio o secuencia, por ejemplo) en una secuencia codificada, por ejemplo. Esto permite que el aparato de reproducción determine, con el menor número de bits, si una secuencia codificada o una imagen codificada es para un propósito específico tal como reproducción de alta velocidad y acceso aleatorio. Como resultado, es posible minimizar el efecto de compatibilidad para una secuencia codificada que es una señal de video codificada por el estándar H.264 convencional y el aparato de decodificación de imagen que decodifica la secuencia codificada. Además, la información que indica la estructura de capas y la estructura de referencia de acuerdo con un propósito; es decir, la información que indica si se impone o no una restricción puede agregarse a una porción adicional tal como SEI (información de mejora suplementaria) por separado del indicador mencionado anteriormente (1 bit).

Además, la unidad de interpredicción 1111 genera información de capas como se describió anteriormente. Más específicamente, la unidad de interpredicción 1111 emite, para cada imagen, información de capas (información de identificación) para identificar a qué capa pertenece la imagen. La unidad de codificación de entropía 1104, en este momento, agrega la información de capas a un encabezado de una imagen correspondiente a la información de capas. Más específicamente, la unidad de interpredicción 1111 asigna la misma información de capas a todos los segmentos en una imagen (par de cuadro o campo). Esto se debe a que no es necesario asignar cada porción (segmento) en la imagen a una capa correspondiente de capas diferentes entre sí en el caso de reproducción especial, tal como reproducción de alta velocidad o acceso aleatorio. A través de los procedimientos descritos anteriormente, la unidad de codificación de entropía 1104 agrega la información de capas a un encabezado de una imagen, tal como un conjunto de parámetros de imagen.

Como resultado, cuando se realiza una reproducción a alta velocidad de la secuencia codificada, el aparato de reproducción obtiene la información de capas del encabezado de la imagen y reproduce solo las imágenes necesarias para la reproducción a alta velocidad.

Además, la unidad de codificación de entropía 1104 puede disponer varios elementos de información de capas colectivamente en la parte superior de una secuencia codificada. Más específicamente, la unidad de codificación de entropía 1104 dispone en la parte superior de una secuencia codificada, como información de gestión, cada una de la información de capas de varias imágenes incluidas en la secuencia codificada, de acuerdo con el orden de codificación o con el orden de visualización de las imágenes. El aparato de reproducción puede determinar qué tipo de reproducción de alta velocidad (reproducción especial) puede realizarse, leyendo la información de gestión en la parte superior antes de decodificar la secuencia codificada.

Además, en el caso de almacenar la secuencia codificada en un disco óptico, la unidad de codificación de entropía 1104 puede almacenar, en el disco óptico, la información de gestión por separado de la secuencia codificada. Al almacenar la información de gestión por separado de la secuencia codificada, es posible que el aparato de reproducción determine qué tipo de reproducción de alta velocidad puede realizarse, antes de reproducir la secuencia codificada.

Debe señalarse que, de acuerdo con la presente realización, una imagen que pertenece a una capa en un nivel alto está codificada con referencia a una imagen que pertenece a una capa en el mismo nivel o en un nivel inferior. Sin embargo, una imagen que pertenece a una capa en un nivel predeterminado puede codificarse excepcionalmente con referencia a una imagen que pertenece a una capa en un nivel más alto que el nivel predeterminado. Como se muestra mediante flechas punteadas en la Figura 2, por ejemplo, una imagen que pertenece a una capa en el nivel más bajo se codifica con referencia a una imagen que pertenece a una capa en un nivel más alto. Para ser específicos, la imagen Bf16 que pertenece a la capa 0 en el nivel más bajo se codifica con referencia a la imagen Br4 que pertenece a la capa 1 en un nivel más alto y la imagen Br6 que pertenece a la capa 2 en un nivel más alto.

Como se describió anteriormente, una imagen que pertenece a una capa en un nivel predeterminado se refiere a una imagen que pertenece a una capa en un nivel superior, lo que permite de esta manera mejorar aún más la eficiencia de compresión de una señal de video. Mientras tanto, dado que se impone una restricción a la reproducción especial, la información que indica qué tipo de reproducción especial puede realizarse puede agregarse nuevamente a la secuencia codificada. Por ejemplo, se agrega información que indica hasta qué capa de imágenes puede hacer referencia una imagen que pertenece a una capa en el nivel más bajo. Como se ilustra en la Figura 2, por ejemplo, la unidad de interpredicción 1111 emite información que indica que puede hacerse referencia a la imagen que pertenece a la capa 2, y la unidad de codificación de entropía 1104 agrega la información a la secuencia codificada. Como resultado, el aparato de reproducción determina, en base a la información, que es posible reproducir imágenes que pertenecen a sus respectivas capas 0, 1 y 2 e imágenes que pertenecen a sus respectivas capas 0, 1, 2 y 3, como reproducción especial. La información que indica hasta qué capa de imágenes puede hacerse referencia puede agregarse al encabezado de la secuencia codificada, o puede almacenarse como información de gestión diferente de la secuencia codificada.

Debe señalarse que la unidad de interpredicción 1111, al realizar la interpredicción de una imagen que sigue a una imagen que pertenece a una capa en el nivel más bajo en el orden de visualización, puede prohibir referirse a una imagen que precede a la imagen que pertenece a una capa en el nivel más bajo en el orden de visualización. En otras palabras, la unidad de interpredicción 1111 considera la imagen que pertenece a la capa en el nivel más bajo como una imagen de criterio para establecer una restricción de referencia. Con tal restricción de referencia, es posible asegurar, cuando el aparato de decodificación de imágenes accede aleatoriamente a una imagen que pertenece a la capa en el nivel más bajo, decodificando imágenes situadas después de la imagen a la que se accede aleatoriamente. Además, la unidad de interpredicción 1111 puede enviar, a una imagen que pertenece a la capa en el nivel más bajo, la información que indica si la imagen es o no la imagen de criterio para la restricción de referencia. En este caso, la unidad de codificación de entropía 1104 agrega, a la imagen, la información que indica si la imagen es o no la imagen de criterio. De acuerdo con los procedimientos descritos anteriormente, dado que la imagen de criterio y las imágenes distintas de la imagen de criterio están presentes juntas en la capa en el nivel más bajo, es posible lograr tanto la mejora de la eficiencia de compresión como el acceso aleatorio de una señal de video.

Aquí, la imagen de criterio puede ser una imagen que no pertenece a la capa en el nivel más bajo sino a una capa en un nivel más bajo que la imagen real a codificar, por ejemplo. Para ser específicos, la imagen de criterio es una imagen que pertenece a la segunda capa posicionada en un intervalo restringido de acuerdo con la primera capa a la que pertenece la imagen real; es decir, un intervalo restringido para ser más bajo que la primera capa. Por ejemplo, la imagen de criterio está presente entre la imagen real y una imagen candidata en el orden de codificación. En este caso, la unidad de interpredicción 1111, al seleccionar una imagen de referencia, prohíbe seleccionar, como imagen de referencia, la imagen candidata que precede a la imagen real en el orden de codificación y selecciona una imagen distinta de la imagen candidata como imagen de referencia. Con esto, es posible seleccionar una imagen apropiada como imagen de referencia y reducir aún más la carga de procesamiento.

Además, la unidad de interpredicción 1111 puede referirse a una imagen en la capa en el nivel más bajo, al realizar la interpredicción en una imagen en una posición de acceso de acceso aleatorio. Más específicamente, al realizar una interpredicción en una imagen que pertenece a la capa 3 que puede ser la posición de acceso de acceso aleatorio, solo una imagen que pertenece a la capa 0 puede denominarse como imagen de referencia. Esto permite que el aparato de decodificación de imágenes se refiera directamente, al decodificar una imagen en una posición de acceso de acceso aleatorio, a la imagen de referencia en la capa 0 y decodifique la imagen en la posición de acceso sin decodificar una imagen en una capa intermedia; es decir, una capa entre una capa a la que pertenece la imagen en la posición de acceso y la capa 0 en el nivel más bajo. Además, no se requieren datos de codificación adicionales, como el segmento de Conmutación P (SP).

A continuación, se describe en detalle un procedimiento de gestión de memoria para gestionar la memoria 1109, realizado por la unidad de control de memoria 1200.

Por ejemplo, cuando un procedimiento de gestión de memoria de acuerdo con el estándar H.264 existente se aplica simplemente a la estructura de referencia que se ilustra en la Figura 2, una imagen de referencia a la que se hace referencia para codificar una imagen real a codificar se elimina de la memoria 1109, provocando un caso donde la imagen de referencia no puede ser referenciada en algunos casos.

La Figura 3 es un ejemplo de un procedimiento de gestión de memoria en el caso donde se elimine una imagen de referencia necesaria.

Primero, la imagen 10 se codifica y se decodifica, y se almacena como una imagen de referencia 10 en la memoria en el procedimiento 0 en el orden de codificación. Luego, las imágenes de referencia se almacenan secuencialmente en la memoria. La imagen 10, la imagen Bf8, la imagen Br4 y la imagen Br2 se almacenan en la memoria en el tercer procedimiento en el orden de codificación. A continuación, en el cuarto procedimiento en el orden de codificación, la imagen Br6 se agrega nuevamente a la memoria 1109 y la imagen 10 almacenada previamente en la memoria se elimina de la memoria.

Sin embargo, dado que se hace referencia a la imagen 10 para la codificación de la imagen B1 en el quinto procedimiento en el orden de codificación, la imagen 10 necesita ser decodificada nuevamente en el quinto procedimiento. En otras palabras, se requiere que la memoria tenga una capacidad lo suficientemente grande como para almacenar la imagen 10 en la memoria para la codificación de la imagen B1.

De la misma manera que anteriormente, la imagen Br8 se elimina de la memoria en el noveno procedimiento en el orden de codificación. Sin embargo, dado que se hace referencia a la imagen Bf8 para la codificación de la imagen Br12 en el décimo procedimiento en el orden de codificación, la imagen Bf8 necesita decodificarse nuevamente en el décimo procedimiento. En otras palabras, para asegurarse de que la imagen Bf8 se almacena en la memoria en el décimo procedimiento en el orden de codificación, se requiere que la memoria tenga una mayor capacidad. Alternativamente, debe aplicarse el comando de gestión de memoria (MMCO).

Como se indicó anteriormente, simplemente aplicando el procedimiento de gestión de memoria de acuerdo con el estándar H.264 existente a la estructura de referencia que se ilustra en la Figura 2, se plantea el problema de que se elimina una imagen de referencia que debe almacenarse en la memoria.

Para resolver este problema, puede imponerse una restricción en el orden de codificación de las imágenes.

La Figura 4 es un diagrama que ilustra un ejemplo del procedimiento de gestión de memoria cuando se impone una restricción en el orden de codificación de las imágenes.

Por ejemplo, se impone una restricción de que una imagen que pertenece a una capa distinta de una capa en el nivel más alto se codifica en el último momento posible en orden de clasificación. Debe señalarse que, incluso bajo tal restricción, no se hace referencia a una imagen que sigue en el orden de codificación para codificar una imagen que precede al orden de codificación. Además, el orden de codificación es el mismo que el orden de decodificación. Para ser específicos, en el orden de codificación que se muestra en la Figura 4, la imagen Br6 en la capa 2 sigue las imágenes B1 y B3 en la capa 3 en el orden de codificación. Cuando se codifica la imagen B1 en la capa 3 de acuerdo con tal orden de codificación, la imagen 10 a la que hace referencia la imagen B1 se almacena en la memoria 1109. En consecuencia, es posible omitir el problema de decodificar nuevamente la imagen 10 y reducir el aumento de la capacidad de la memoria 1109.

Sin embargo, incluso en tal caso, la imagen Br8 se elimina de la memoria a través del noveno procedimiento (codificación y decodificación de la imagen Bf16) en el orden de codificación. Como resultado, dado que se hace referencia a la imagen Bf8 para la codificación de la imagen Br12 en el décimo procedimiento en el orden de codificación, la imagen Bf8 necesita ser decodificada nuevamente. En otras palabras, para asegurarse de que la imagen Bf8 se almacena en el décimo procedimiento en el orden de codificación, se requiere que la memoria tenga una mayor capacidad de memoria. Alternativamente, debe aplicarse el comando de gestión de memoria (MMCO). La Figura 5 es un diagrama que ilustra el procedimiento de gestión de memoria realizado por la unidad de control de memoria 1200 de acuerdo con la presente realización.

La unidad de control de memoria 1200 gestiona la memoria 1109 mediante el uso de la estructura de capas y de la estructura de referencia de una imagen. Por ejemplo, la memoria 1109 tiene una capacidad de memoria para almacenar cuatro imágenes. En este caso, la unidad de control de memoria 1200 asigna, a la capa 0 en el nivel más bajo, la capacidad de memoria para dos imágenes como la capacidad de capa, fuera de la capacidad de memoria para cuatro imágenes, que es la capacidad disponible de la memoria 1109. Además, la unidad de control de memoria 1200 asigna, a cada una de la capa 1 y la capa 2, la capacidad de memoria para una imagen como la capacidad de capa, fuera de la capacidad de memoria mencionada anteriormente para cuatro imágenes de la memoria 1109. Más específicamente, la capacidad de capa para una imagen se asigna a cada una de las capas intermedias distintas de la capa 0 en el nivel más bajo y la capa 3 en el nivel más alto.

A continuación, la unidad de control de memoria 1200 obtiene, a partir de la unidad de interpredicción 1111, la información de capas de una imagen incluida en la señal de video. En el caso donde la información de capas indica la capa 0, la unidad de control de memoria 1200 almacena la imagen en una región de la capacidad de capa de la memoria 1109 que se asigna a la capa 0. Además, en el caso donde la información de capas indica la capa 1 o 2, la unidad de control de memoria 1200 almacena la imagen en una región de la capacidad de la capa de la memoria 1109 que se asigna a la capa 1 o 2.

En la presente realización como se describió anteriormente, la capacidad de la capa se asigna más a la capa en un nivel bajo al que pertenece una imagen con mayor probabilidad de ser referida por otras imágenes, y se asigna menos a la capa en un nivel alto al que una imagen es menos probable que otras imágenes lo referencien. Esto hace posible almacenar, sin falta, en la memoria 1109 la imagen de referencia necesaria para codificar y decodificar sin aumentar la capacidad de la memoria o aplicar MMCO.

Debe señalarse que la forma de asignar la capacidad de la capa no se limita al ejemplo que se muestra en la Figura 5. Solo es necesario que la unidad de control de memoria 1200 asigne más capacidad de la capa a la capa en el nivel bajo. Por ejemplo, la unidad de control de memoria 1200 puede asignar la capacidad de la capa para tres imágenes a la capa 0 y la capacidad de la capa para una imagen a todas las otras capas 1 y 2.

La Figura 6 es un diagrama de flujo que ilustra los procedimientos realizados por el aparato de codificación de imágenes 1000 de acuerdo con la presente realización.

La unidad de interpredicción 1111 del aparato de codificación de imágenes 1000 se refiere, como imagen de referencia para una imagen real a codificar, una imagen que pertenece a la segunda capa en un intervalo restringido de acuerdo con la primera capa a la que pertenece la imagen real (Etapa S10). Entonces, el aparato de codificación de imágenes 1000 codifica la imagen real en base a la imagen de referencia (Etapa S11). Debe señalarse que la unidad de interpredicción 1111 sirve como una unidad de referencia (la primera unidad de referencia) que se refiere a la imagen de referencia de acuerdo con la presente realización. Además, al menos un elemento estructural que se proporciona en el aparato de codificación de imágenes 1000 sirve como la unidad de codificación que codifica la imagen real.

Con esto, la capa a la que pertenece la imagen de referencia a la que se refiere la codificación de la imagen real está presente dentro de un intervalo restringido de acuerdo con la primera capa a la que pertenece la imagen real. En consecuencia, dado que la imagen de referencia a la que se hace referencia para la codificación de la imagen real está restringida de acuerdo con la primera capa, es posible reducir la carga de procesamiento de la codificación. Además, dado que la imagen de referencia está restringida también cuando se decodifica una imagen codificada como se describió anteriormente, es posible reducir la carga de procesamiento de la decodificación.

Aquí, al referirse a la imagen de referencia en la Etapa S10, la unidad de interpredicción 1111 prohíbe referirse a una imagen que pertenece a una capa en un nivel más alto que la primera capa, y se refiere, como imagen de referencia, a una imagen que pertenece a la segunda capa ubicada en un intervalo restringido a la primera capa o a una capa debajo de la primera capa.

Con esto, dado que está prohibido hacer referencia a una imagen que pertenece a una capa situada más arriba que la primera capa a la que pertenece la imagen real, es posible codificar la imagen real con menos carga de procesamiento. Igualmente, dado que no es necesario, al decodificar una imagen codificada, referirse a una imagen que pertenece a una capa ubicada sobre una capa a la que pertenece la imagen codificada, es posible decodificar la imagen codificada con menos carga de procesamiento. Además, en el caso donde cada imagen incluida en una señal de video se trate como una imagen a codificar y la señal de video se codifique, no es necesario hacer referencia, al decodificar cualquier imagen incluida en la señal de video codificada, a la imagen que pertenece a una capa ubicada sobre una capa a la que pertenece la imagen. En consecuencia, solo es necesario que el aparato de decodificación de imágenes decodifique una imagen que pertenece a una capa que es el objetivo de una reproducción especial (reproducción de alta velocidad) y, en consecuencia, es posible omitir el problema de decodificar y hacer referencia a una imagen que pertenece a una capa situada más arriba que la capa que es el objetivo de la reproducción especial. En el caso donde la capa que es el objetivo de una reproducción especial, tal como la reproducción de velocidad N en el tiempo (N > 2) sea la capa 0 del nivel más bajo ubicada en la parte inferior, el aparato de decodificación de imágenes no tiene que tomarse la molestia de decodificar y refiriéndose a una imagen que no es el objetivo de la reproducción especial y en las capas 1, 2 y 3 posicionadas más arriba que la capa de nivel más bajo. Debe señalarse que cada una de las imágenes es una imagen o un segmento.

La Figura 7 es un diagrama de flujo que ilustra procedimientos en los que se usa un indicador y que se realizan mediante el aparato de codificación de imágenes 1000 de acuerdo con la presente realización.

La unidad de interpredicción 1111 del aparato de codificación de imágenes 1000 genera un indicador que indica si se agrega o no una restricción para seleccionar una imagen de referencia a la que se hará referencia para codificar una imagen real a codificar (Etapa S20). A continuación, en el caso donde el indicador indique la adición de una restricción, la unidad de interpredicción 1111 selecciona, como imagen de referencia para la imagen real, una imagen que cumpla la condición restringida de acuerdo con la restricción de acuerdo con la primera capa a la que la imagen real pertenece (Etapa S21). A continuación, el aparato de codificación de imágenes 1000 codifica la imagen real, con referencia a la imagen de referencia seleccionada (Etapa S22). Entonces, la unidad de codificación de entropía 1104 del aparato de codificación de imágenes 1000 incluye el indicador en la secuencia codificada que es la señal de video codificada (Etapa S23). Debe señalarse que la unidad de interpredicción 1111 sirve como una unidad generadora de indicadores que genera un indicador y, al mismo tiempo, como una unidad de selección que selecciona una imagen de referencia, de acuerdo con la presente realización. Además, al menos un elemento estructural proporcionado en el aparato de codificación de imágenes 1000 sirve como la unidad de codificación que codifica la imagen real a codificar. Además, la unidad de codificación de entropía 1104 sirve como una unidad de inserción que incluye el indicador en una secuencia codificada.

Con esto, en el caso donde el indicador indique la adición de una restricción, se selecciona como imagen de referencia una imagen que cumple la condición restringida de acuerdo con la primera capa a la que pertenece la imagen real. Más específicamente, una imagen de referencia a la que se hace referencia para codificar la imagen real está restringida de acuerdo con la primera capa. Como resultado, es posible reducir la carga de procesamiento de la codificación de la imagen real. Además, dado que se genera e incluye un indicador que indica si se debe imponer o no una restricción para la selección de una imagen de referencia en una secuencia codificada, es posible que el aparato de decodificación de imágenes que decodifica la secuencia codificada determine fácilmente si se impone una restricción para la selección de la imagen de referencia. Como resultado, el aparato de decodificación de imágenes puede decodificar adecuadamente la señal de video codificada con menos carga de procesamiento.

La Figura 8 es un diagrama de flujo que ilustra procedimientos específicos realizados por el aparato de codificación de imágenes 1000 de acuerdo con la presente realización.

Primero, el aparato de codificación de imágenes 1000 obtiene una señal de video a codificar (S100).

A continuación, el aparato de codificación de imágenes 1000 clasifica, en capas, las imágenes incluidas en la señal de video obtenida (Etapa S101). Luego, el aparato de codificación de imágenes 1000 codifica las imágenes de acuerdo con la restricción en base a la estructura de capas de las imágenes (Etapa S102). A continuación, el aparato de codificación de imágenes 1000 emite una secuencia codificada que incluye las imágenes codificadas, la información de capas de las imágenes y un indicador (S103).

La Figura 9 es un diagrama de bloques que ilustra el aparato de decodificación de imágenes de acuerdo con una realización de la presente invención.

Un aparato de decodificación de imágenes 2000 de acuerdo con la presente realización es un aparato que decodifica adecuadamente una secuencia codificada generada por el aparato de codificación de imágenes 1000 e incluye: una unidad de decodificación de entropía 2101; una unidad de cuantificación inversa 2102; una unidad de transformación ortogonal inversa 2103; un sumador 2104; un filtro de desbloqueo 2105; una memoria 2106; una unidad de intrapredicción 2107; una unidad de interpredicción 2108; un conmutador 2109; y una unidad de control de memoria 2200.

La unidad de decodificación de entropía 2101 obtiene una secuencia codificada y realiza una decodificación de entropía (decodificación de longitud variable) en la secuencia codificada. Más específicamente, la unidad de decodificación de entropía 2101 genera un bloque de coeficientes cuantificados, un vector de movimiento, un indicador e información de capa, realizando la decodificación de entropía.

La unidad de cuantificación inversa 2102 realiza la cuantificación inversa en el bloque de coeficientes cuantificados resultante de la decodificación de entropía realizada por la unidad de decodificación de entropía 2101. La unidad de transformación ortogonal inversa 2103 realiza la transformación ortogonal inversa (transformación de frecuencia inversa) tal como la transformación inversa discreta del coseno en cada uno de los coeficientes de frecuencia incluidos en el bloque de coeficientes cuantificados inverso, generando de esta manera una imagen diferencial decodificada.

El sumador 2104 obtiene una imagen de predicción del conmutador 2109 y agrega la imagen de predicción a la imagen diferencial decodificada generada por la unidad de transformación ortogonal inversa 2103, generando de esta manera una imagen decodificada (imagen de reconfiguración).

El filtro de desbloqueo 2105 elimina los efectos de bloqueo de la imagen decodificada generada por el sumador 2104, almacena la imagen decodificada en la memoria 2106 y genera la imagen decodificada.

La unidad de intrapredicción 2107 realiza la intrapredicción en un bloque real a decodificar, mediante el uso de la imagen decodificada generada por el sumador 2104, generando de esta manera una imagen de predicción (imagen de intrapredicción).

La unidad de interpredicción 2108 se refiere, como imagen de referencia, a la imagen almacenada en la memoria 2106, y usa el vector de movimiento resultante de la decodificación de entropía realizada por la unidad de decodificación de entropía 2101, realizando de esta manera la compensación de movimiento en el bloque real. La unidad de interpredicción 2108 realiza la compensación de movimiento como se describió anteriormente; es decir, realiza una interpredicción en el bloque real, generando de esta manera una imagen de predicción (imagen de interpredicción) del bloque real.

Aquí, la unidad de interpredicción 2108 impone una restricción en la selección de una imagen de referencia de la misma manera que la unidad de interpredicción 1111 del aparato de codificación de imágenes 1000. Es decir, la unidad de interpredicción 2108 se refiere, como una imagen de referencia para la imagen real a decodificar, a una imagen que pertenece a la segunda capa que está presente dentro de un intervalo que está restringido de acuerdo con la primera capa a la que pertenece la imagen real. Más específicamente, la unidad de interpredicción 2108 prohíbe referirse a una imagen que pertenece a una capa superior, o en un nivel superior a la primera capa, y se refiere, como imagen de referencia, a una imagen que pertenece a la segunda capa que está ubicada en un intervalo restringido a la primera capa o a una capa debajo de la primera capa.

Además, la unidad de interpredicción 2108 genera una lista de referencia que indica una o más imágenes, cada una de las cuales pertenece a la primera capa o a una capa debajo de la primera capa, además de todas las imágenes que pertenecen a sus respectivas capas presentes más arriba que la primera capa, entre las imágenes incluidas en la secuencia codificada. La unidad de interpredicción 2108, cuando se refiere a una imagen de referencia, selecciona una imagen de referencia de una o más imágenes indicadas en la lista de referencia.

Además, la unidad de interpredicción 2108 obtiene el indicador descrito anteriormente. Aquí, en el caso donde el indicador indique la adición de una restricción, la unidad de interpredicción 2108 selecciona, como imagen de referencia para la imagen real, una imagen que cumpla la condición restringida de acuerdo con la primera capa a la que pertenece la imagen real. Por ejemplo, la unidad de interpredicción 2108 selecciona una imagen de referencia mediante el uso de una imagen de criterio de la misma manera que la unidad de interpredicción 1111 del aparato de codificación de imágenes 1000. Entonces, la unidad de interpredicción 2108 decodifica la imagen real con referencia a la imagen de referencia seleccionada.

El conmutador 2109, cuando la codificación intrapredicción se ha realizado en el bloque real, emite la imagen de predicción (imagen de intrapredicción) generada por la unidad de intrapredicción 2107 al sumador 2104. Mientras tanto, el conmutador 2109, cuando la codificación de interpredicción se ha realizado en el bloque real, emite la imagen de predicción (imagen interpredicción) generada por la unidad de interpredicción 2108 al sumador 2104. La unidad de control de memoria 2200 obtiene, de la unidad de decodificación de entropía 2101, la información de capas de cada una de las imágenes, y gestiona cada una de las imágenes almacenadas en la memoria 2106, en base a una capa de la imagen indicada por la información de capas; es decir, en base a una estructura de capas, de la misma manera que la unidad de control de memoria 1200 del aparato de codificación de imágenes 1000.

La Figura 10 es un diagrama de flujo que ilustra los procedimientos realizados por el aparato de decodificación de imágenes 2000 de acuerdo con la presente realización.

La unidad de interpredicción 2108 del aparato de decodificación de imágenes 2000 se refiere, como una imagen de referencia para decodificar una imagen real, a una imagen que pertenece a la segunda capa en un intervalo restringido de acuerdo con la primera capa a la que pertenece la imagen real (Etapa S30). Luego, el aparato de decodificación de imágenes 2000 decodifica la imagen real en base a la imagen de referencia (Etapa S31). Debe señalarse que la unidad de interpredicción 2108 sirve como una unidad de referencia (la segunda unidad de referencia) que se refiere a la imagen de referencia de acuerdo con la presente realización. Además, uno o más elementos estructurales proporcionados en el aparato de decodificación de imágenes 2000 sirven como unidades de decodificación que decodifican la imagen real. Además, la imagen es una imagen, un segmento o similar.

Por ejemplo, la unidad de interpredicción 2108 genera una lista de referencia que indica una o más imágenes, cada una de las cuales pertenece a una capa que está presente en el mismo nivel o en un nivel inferior que la primera capa, además de todas las imágenes que pertenecen a sus respectivas capas se presentan más arriba que la primera capa, entre las imágenes incluidas en la secuencia codificada. Entonces, la unidad de interpredicción 2108, cuando se refiere a la imagen de referencia en la Etapa S30, selecciona una imagen de referencia de una o más imágenes indicadas en la lista de referencia.

Con esto, la capa a la que pertenece la imagen de referencia a la que se hace referencia para decodificar la imagen real está presente en un intervalo restringido de acuerdo con la primera capa a la que pertenece la imagen real. En consecuencia, dado que la imagen de referencia a la que se hace referencia para la decodificación de la imagen real está restringida de acuerdo con la primera capa, es posible reducir la carga de procesamiento de la decodificación. La Figura 11 es un diagrama de flujo que ilustra los procedimientos realizados por el aparato de decodificación de imágenes 2000 de acuerdo con la presente realización.

La unidad de interpredicción 2108 del aparato de decodificación de imágenes 2000 obtiene, a partir de una secuencia codificada, un indicador que indica si se impone o no una restricción en la selección de la imagen de referencia a la que se hará referencia para decodificar la imagen real que es una de las imágenes incluidas en la secuencia codificada (Etapa S40). A continuación, cuando el indicador indica que se impone una restricción, la unidad de interpredicción 2108 selecciona, como imagen de referencia para la imagen real, una imagen que cumple la condición restringida de acuerdo con la primera capa a la que pertenece la imagen real (Etapa S41). Luego, el aparato de decodificación de imágenes 2000 decodifica la imagen real en base a la imagen de referencia seleccionada (Etapa S42). Debe señalarse que la unidad de interpredicción 2108 sirve como una unidad de obtención del indicador que obtiene el indicador y, al mismo tiempo, una unidad de selección que selecciona una imagen de referencia.

Con esto, en el caso donde el indicador indica que se impone una restricción, se selecciona como imagen de referencia una imagen que cumple la condición restringida de acuerdo con la primera capa a la que pertenece la imagen real. Más específicamente, una imagen de referencia a la que se hace referencia para decodificar la imagen real está restringida de acuerdo con la primera capa. Como resultado, es posible reducir la carga de procesamiento de la decodificación de la imagen real.

La Figura 12 es un diagrama de flujo que ilustra un procedimiento de gestión de memoria de acuerdo con la presente realización.

La unidad de control de memoria 2200 del aparato de decodificación de imágenes 2000 almacena una imagen objetivo para ser almacenada entre las imágenes incluidas en la secuencia codificada, en una región de la memoria 2106, que está restringida a una capacidad de la capa que es una capacidad asignada a una capa a la que pertenece la imagen objetivo (Etapa S50). Más específicamente, la unidad de control de memoria 2200 asigna, como capacidad de la capa, parte de la capacidad de memoria disponible en la memoria 2106, para cada una de las capas. Debe señalarse que, de acuerdo con la presente realización, la unidad de control de memoria 2200 sirve como el aparato de gestión de memoria e incluye una unidad de control de almacenamiento para almacenar la imagen objetivo para el almacenamiento descrito anteriormente.

Hay un caso, por ejemplo, donde una imagen de referencia a largo plazo a la que se hace referencia durante un largo período de tiempo pertenece a otra capa, y la imagen de referencia a largo plazo se almacena en otra región. En tal caso, cuando la imagen objetivo se almacena en la otra región, la imagen de referencia a largo plazo podría eliminarse de la memoria 2106 en algunos casos. En consecuencia, es necesario realizar un procesamiento tal como la decodificación de la imagen de referencia a largo plazo nuevamente, para hacer referencia a la imagen de referencia a largo plazo después de que la imagen de referencia a largo plazo se elimine de la memoria 2106. En vista de lo anterior, con el procedimiento de gestión de memoria de acuerdo con la presente realización, dado que una imagen objetivo a almacenar se almacena en una región de una memoria, que está restringida a una capacidad de la capa que se asigna a la capa a la que la imagen objetivo pertenece y está restringida a una capacidad de la capa, es posible evitar que la imagen de referencia a largo plazo se elimine de la memoria 2106. En otras palabras, es posible almacenar una imagen de referencia necesaria en la memoria 2106 sin falla. Como resultado, es posible omitir un procedimiento redundante, tal como decodificar una vez más la imagen de referencia de larga duración. Además, es posible reducir la carga de procesamiento para aplicar sucesivamente un comando de gestión de memoria para ordenar la eliminación de una imagen innecesaria con el fin de almacenar una imagen de referencia necesaria en la memoria 2106 sin falla.

Debe señalarse que, en el caso donde la región descrita anteriormente no tenga capacidad restante para almacenar una imagen objetivo que se almacenará al almacenar la imagen objetivo, la unidad de control de memoria 2200 elimina de la región, de una o más existentes imágenes que ya se han almacenado en la región, la imagen existente que se almacenó previamente, de manera que se almacena la imagen objetivo.

De acuerdo con la presente realización, una capa a la que una imagen de referencia que es una imagen a la que se debe hacer referencia para codificar o decodificar la imagen real a procesar, de entre varias imágenes incluidas en la señal de video (secuencia codificada), está restringida a ser una capa que se encuentre en el mismo nivel o inferior a la capa a la que pertenece la imagen real. En tal caso, al asignar una capacidad de la capa para cada una de las capas, la unidad de control de memoria 2200 asigna, a una capa de nivel más bajo 0 ubicada en la parte inferior entre las capas, una capacidad de la capa mayor que una capacidad de la capa asignada a una capa en el nivel superior posicionada más alta que la capa de nivel más bajo 0.

Con esto, dado que la capa a la que pertenece la imagen de referencia está restringida a la capa en el mismo nivel o inferior que la capa a la que pertenece la imagen real, es muy probable que una imagen que pertenece a la capa de nivel más bajo 0 se hace referencia durante un período de tiempo más largo que una imagen que pertenece a la capa de nivel superior. En vista de lo anterior, una capacidad de la capa mayor que una capacidad de la capa asignada a la capa de nivel superior se asigna a la capa de nivel más bajo 0 con el procedimiento de gestión de memoria de acuerdo con la presente realización, y en consecuencia es posible almacenar en la memoria, la imagen que pertenece a la capa de nivel más bajo 0 durante un largo período de tiempo. Como resultado, cuando se hace referencia a una imagen que pertenece al nivel más bajo de la capa 0, es posible evitar una situación en la que la imagen se elimina de la memoria 2106 y, en consecuencia, no puede hacerse referencia a ella.

Además, la unidad de control de memoria 2200 marca un atributo en la imagen, fuera de las imágenes almacenadas en la memoria 2106, que pertenece a una capa ubicada por encima de una capa a la que pertenece la imagen real a decodificar. Por ejemplo, la unidad de control de memoria 2200 marca un atributo que indica que la imagen no se usa como referencia.

Con esto, dado que el atributo está marcado en la imagen, es posible identificar fácilmente una imagen innecesaria que no se usará como referencia y eliminar la imagen de la memoria 2106 antes de eliminar otras imágenes. Como resultado, es posible usar efectivamente la capacidad de la memoria 2106.

La Figura 13 es un diagrama de flujo que ilustra procedimientos específicos realizados por el aparato de decodificación de imágenes 2000 de acuerdo con la presente realización.

Primero, el aparato de decodificación de imágenes 2000 obtiene un indicador con un bit de una secuencia codificada y determina si el indicador indica o no 1 (Etapa S201).

Cuando el aparato de decodificación de imágenes 2000 determina que el indicador no indica 1 (No en la Etapa S201), el aparato de decodificación de imágenes 2000 obtiene una imagen real para decodificar correspondiente a el indicador (Etapa S202), y decodifica la imagen real a través de un procedimiento general (por ejemplo, interpredicción o intrapredicción de acuerdo con el estándar H.264) (Etapa S203).

Por otro lado, cuando el aparato de decodificación de imágenes 2000 determina que el indicador indica 1 (Sí en la Etapa S201), el aparato de decodificación de imágenes 2000 obtiene una imagen real para decodificar que corresponde al indicador (Etapa S204), y determina si la imagen real es o no, una imagen para decodificar a través de interpredicción (Etapa S205).

Cuando el aparato de decodificación de imágenes 2000 determina que la imagen real no es una imagen que se va a decodificar mediante interpredicción (No en la Etapa S205), el aparato de decodificación de imágenes 2000 decodifica la imagen real mediante intrapredicción (Etapa S206).

Por otro lado, cuando el aparato de decodificación de imágenes 2000 determina que la imagen real es una imagen que se decodificará mediante interpredicción (Sí en la Etapa S205), el aparato de decodificación de imágenes 2000 obtiene la información de capas de la imagen real (Etapa S207). Entonces, la unidad de interpredicción 2108 del aparato de decodificación de imágenes 2000 identifica la imagen que pertenece a una capa en un nivel más alto que una capa indicada en la información de capas (Etapa S208). A continuación, la unidad de interpredicción 2108 construye una lista de referencia (L0, L1) de la imagen real mediante el uso de una imagen distinta de la imagen identificada de las imágenes almacenadas en la memoria 2106 (Etapa S209).

Además, la unidad de control de memoria 2200 del aparato de decodificación de imágenes 2000 marca un atributo que indica "no usado para referencia" en la imagen identificada en la Etapa S208 (Etapa S210). Luego, la unidad de interpredicción 2108 decodifica la imagen real a través de la interpredicción mediante el uso de la imagen de referencia indicada en la lista de referencia construida en la Etapa S209 (Etapa S211).

En la Etapa S210, la unidad de control de memoria 2200 marca el atributo de "no usado para referencia" en todas las imágenes de referencia que pertenecen a una capa en un nivel más alto que una capa indicada por la información de capas, fuera de las imágenes (imágenes de referencia) contenidas en la memoria 2106. Esto permite que el aparato de decodificación de imágenes 2000 sepa de antemano que la condición de restricción de que una imagen que pertenece a una capa en un nivel más alto que una capa de la imagen real no puede referirse porque está acoplada a la secuencia codificada.

Como se describió anteriormente, de acuerdo con la presente realización, es posible marcar el atributo "no usado para referencia" en una imagen de referencia que ciertamente no se usará como referencia, a través del tercer procedimiento (un procedimiento en base a una estructura de capas) diferente de la gestión general FIFO y del control adaptativo de memoria mediante el uso de MMCO. Esto hace posible, cuando se emite (visualiza) la imagen de referencia, eliminar automáticamente la imagen de referencia de la memoria 210.

Además, el aparato de decodificación de imágenes 2000, al construir la lista de referencia en la Etapa S209 (procedimiento de clasificación en el momento de inicialización de la lista de referencia), genera o actualiza la lista de referencia de una imagen real para decodificar (o un segmento actual para ser decodificado), excepto la imagen de referencia en una capa de un nivel más alto que una capa de la imagen real, de la lista de referencia. Esto permite facilitar el procedimiento de construcción de la lista de referencia.

(Modificación)

Debe señalarse que, en la presente realización, la referencia a una imagen y gestión de memoria que se ilustra en la Figura 14, en la Figura 15 y en la Figura 16 pueden realizarse.

La Figura 14 es un diagrama que indica una estructura de referencia de acuerdo con la presente modificación. Debe señalarse que, en la Figura 14, un alfabeto, un carácter numérico y un carácter numérico entre paréntesis, que se agregan a una imagen indican un tipo de imagen, un orden de visualización de la imagen y un orden de codificación de la imagen, respectivamente. 10(0) indica el tipo de imagen "I", un orden de visualización "0" de la imagen y el orden de codificación "0" de la imagen. El Br2(3) indica el tipo de imagen "B", un orden de visualización "2" de la imagen y el orden de codificación "3" de la imagen.

Por ejemplo, con la estructura de referencia de acuerdo con la presente modificación, se hace referencia a una imagen anterior en el orden de visualización al codificar o decodificar cada una de las imágenes Bf8(1) y la imagen Bf16(9), que son las imágenes B que pertenecen a la capa 0 en el nivel más bajo, como se muestra mediante flechas sólidas, cada una de ellas indicadas por f en la Figura 14. Además, al codificar o decodificar una imagen que pertenece a una capa en un nivel más alto que la capa 0 y en un nivel más bajo que la capa 3 del nivel más alto, tal como la imagen Br2(3) que pertenece a la capa 2, se hace referencia a la siguiente imagen en el orden de visualización como se muestra mediante las flechas sólidas, cada una ellas indicadas con r en la Figura 14.

Como se describió anteriormente, el aparato de codificación de imágenes 1000 y el aparato de decodificación de imágenes 2000 de acuerdo con la presente modificación, para codificar o decodificar una imagen B, pueden referirse como una imagen de referencia solo a una imagen presente en una única dirección (hacia atrás o hacia adelante) con respecto a la imagen B en el orden de visualización. En este caso, el aparato de codificación de imágenes 1000 puede incluir, en una secuencia codificada, un indicador unidireccional que indica si la referencia está restringida o no a la única dirección. Aquí, el indicador unidireccional indica: si la referencia está permitida o no, solo a las imágenes anteriores y no a las siguientes imágenes en la capa 0; y si se permite o no la referencia solo a las siguientes imágenes y no a las imágenes anteriores en las capas 1 y 2. Como se describió anteriormente, el indicador unidireccional indica si se impone o no una restricción a la referencia en términos de la estructura de capas. Además, el aparato de codificación de imágenes 1000 incluye un indicador unidireccional de este tipo en la secuencia codificada para cada unidad predeterminada, tal como una secuencia en la secuencia codificada. El aparato de decodificación de imágenes 2000 obtiene el indicador unidireccional incluido en la secuencia codificada, y decodifica una imagen real para decodificar con referencia solo a una imagen presente en una única dirección (hacia atrás o hacia adelante) de acuerdo con la capa de la imagen real en el caso donde el indicador de única dirección indica una restricción de referencia.

Debe señalarse que el aparato de decodificación de imágenes 2000, incluso cuando el indicador unidireccional indica una restricción de referencia, puede referirse a una imagen en una dirección diferente a la única dirección como se muestra mediante flechas punteadas indicadas por la opción de significado de opción en la Figura 14 cuando puede usarse la imagen en una dirección diferente a la única dirección. Además, el aparato de codificación de imágenes 1000 puede indicar una imagen en la única dirección con un tipo de imagen. En este caso, el aparato de codificación de imágenes 1000 incluye el tipo de imagen en la secuencia codificada, y el aparato de decodificación de imágenes 2000 se refiere, como imagen de referencia, a una imagen en la única dirección en base al tipo de imagen incluida en la secuencia codificada. Además, cuando la información de capas se incluye en la secuencia codificada, el aparato de decodificación de imágenes 2000 desasigna la memoria 2106 en base a la información de capas.

La Figura 15 es un diagrama que indica un ejemplo del procedimiento de gestión de memoria de acuerdo con la presente modificación.

El aparato de decodificación de imágenes 2000, cuando realiza una reproducción de velocidad 1 vez (reproducción normal) en una secuencia codificada que tiene la estructura de referencia que se muestra en la Figura 14, decodifica una imagen que pertenece a cada una de las capas 0, 1, 2 y 3. En este caso, después de decodificar las imágenes que pertenecen a sus respectivas capas 0, 1 y 2, el aparato de decodificación de imágenes 2000 almacena estas imágenes en la memoria 2106 como imágenes de referencia. Por otro lado, incluso después de decodificar las imágenes que pertenecen a la capa 3, el aparato de decodificación de imágenes 2000 no almacena estas imágenes en la memoria 2106 como imágenes de referencia. Por el contrario, incluso cuando las imágenes que pertenecen a la capa 3 se almacenan en la memoria 2106, la unidad de control de memoria 2200 marca un atributo "no usado para referencia" en estas imágenes al almacenarlas.

La Figura 16 es un diagrama que indica otro ejemplo del procedimiento de gestión de memoria de acuerdo con la presente modificación.

El aparato de decodificación de imágenes 2000, cuando realiza una reproducción de avance rápido en una secuencia codificada que tiene la estructura de referencia que se muestra en la Figura 14, decodifica una imagen que pertenece a cada una de las capas 0, 1 y 2, excepto la capa 3. Más específicamente, se omiten la decodificación o reproducción de las imágenes Br1(4), Br3(5), Br5(7) y Br7(8). En este caso, después de decodificar las imágenes que pertenecen a sus respectivas capas 0 y 1, el aparato de decodificación de imágenes 2000 almacena estas imágenes en la memoria 2106 como imágenes de referencia. Por otro lado, incluso después de decodificar las imágenes que pertenecen a la capa 2, el aparato de decodificación de imágenes 2000 no almacena estas imágenes en la memoria 2106 como imágenes de referencia. Por el contrario, incluso cuando las imágenes que pertenecen a la capa 2 se almacenan en la memoria 2106, la unidad de control de memoria 2200 marca un atributo "no usado para referencia" en estas imágenes al almacenarlas.

También es posible reducir la carga de procesamiento de codificación o decodificación con el procedimiento de referirse a una imagen y con el procedimiento de gestión de memoria de acuerdo con la presente modificación. (Realización 2)

El procesamiento descrito en la Realización mencionada anteriormente puede implementarse simplemente en un sistema informático independiente, por grabando, en un medio de grabación, de un programa para implementar las configuraciones del procedimiento de codificación de video (procedimiento de codificación de imágenes) y del procedimiento de decodificación de video (procedimiento de decodificación de imágenes ) descritos en la Realización mencionada anteriormente. Los medios de grabación pueden ser cualquier medio de grabación siempre que pueda grabarse un programa, tal como un disco magnético, un disco óptico, un disco óptico magnético, una tarjeta IC y una memoria semiconductora.

En lo sucesivo, se describirán las aplicaciones al procedimiento de codificación de video (procedimiento de codificación de imágenes) y al procedimiento de decodificación de video (procedimiento de decodificación de imagen) descritos en la Realización mencionada anteriormente y los sistemas que usan los mismos. El sistema se caracteriza por incluir un aparato de codificación y decodificación de imágenes que incluye un aparato de codificación de imágenes que usa el procedimiento de codificación de imágenes y un aparato de decodificación de imágenes que usa el procedimiento de decodificación de imágenes. Otras configuraciones en el sistema pueden modificarse adecuadamente en función de los casos.

La Figura 17 ilustra una configuración general de un sistema que proporciona contenido ex100 para implementar servicios de distribución de contenido. El área para proporcionar servicios de comunicación se divide en celdas del tamaño deseado, y las estaciones base ex106, ex107, ex108, ex109 y ex110 que son estaciones inalámbricas fijas se colocan en cada una de las celdas.

El sistema de suministro de contenido ex100 está conectado a dispositivos, tal como un ordenador ex111, un asistente digital personal (PDA) ex112, una cámara ex113, un teléfono celular ex114 y una máquina de juegos ex115, a través de Internet ex101, un proveedor de servicios de Internet ex102, una red telefónica ex104, así como también las estaciones base de ex106 a ex110, respectivamente.

Sin embargo, la configuración del sistema de suministro de contenidos ex100 no se limita a la configuración que se muestra en la Figura 17, y una combinación en la que cualquiera de los elementos están conectados es aceptable. Además, cada dispositivo puede conectarse directamente a la red telefónica ex104, en lugar de a través de las estaciones base ex106 a ex110, que son las estaciones inalámbricas fijas. Además, los dispositivos pueden estar interconectados entre sí a través de una comunicación inalámbrica de corta distancia y otros.

La cámara ex113, tal como una cámara de video digital, es capaz de capturar video. Una cámara ex116, tal como una cámara de video digital, es capaz de capturar imágenes fijas y video. Además, el teléfono celular ex114 puede ser el que cumpla con cualquiera de los estándares tales como Global System for Mobile Communications (GSM®), Code Division Multiple Access (CDMA), Wideband-Code Division Multiple Access (W-CDMA), Long Term Evolution (LTE) y High Speed Packet Access (HSPA). Alternativamente, el teléfono celular ex114 puede ser un Personal Handyphone System (PHS).

En el sistema de suministro de contenidos ex100, un servidor de transmisión ex103 está conectado a la cámara ex113 y otros a través de la red telefónica ex104 y la estación base ex109, que permite la distribución de imágenes de un show en vivo y otros. En tal distribución, un contenido (por ejemplo, video de un espectáculo de música en vivo) capturado por el usuario mediante el uso de la cámara ex113 se codifica como se describió anteriormente en cada una de las Realizaciones (esto significa que la cámara ex113 sirve como el aparato de codificación de imágenes de acuerdo con la presente invención), y el contenido codificado se transmite al servidor de transmisión ex103. Por otro lado, el servidor de transmisión ex103 lleva a cabo la distribución de secuencia de los datos de contenido transmitidos a los clientes cuando lo solicitan. Los clientes incluyen el ordenador ex111, la PDA ex112, la cámara ex113, el teléfono celular ex114 y la máquina de juegos ex115 que son capaces de decodificar los datos codificados mencionados anteriormente. Cada uno de los dispositivos que han recibido los datos distribuidos decodifica y reproduce los datos codificados (esto significa que cada uno de los dispositivos sirve como aparato de decodificación de imágenes de acuerdo con la presente invención).

Los datos capturados pueden ser codificados por la cámara ex113 o el servidor de transmisión ex103 que transmite los datos, o los procedimientos de codificación pueden compartirse entre la cámara ex113 y el servidor de transmisión ex103. De manera similar, los datos distribuidos pueden ser decodificados por los clientes o el servidor de transmisión ex103, o los procedimientos de decodificación pueden compartirse entre los clientes y el servidor de transmisión ex103. Además, los datos de las imágenes fijas y el video capturados no solo por la cámara ex113 sino también por la cámara ex116 pueden transmitirse al servidor de transmisión ex103 a través del ordenador ex111. Los procedimientos de codificación pueden ser realizados por la cámara ex116, el ordenador ex111 o el servidor de transmisión ex103, o compartidos entre ellos.

Además, los procedimientos de codificación y decodificación pueden realizarse mediante un LSI ex500 generalmente incluido en cada uno de los ordenadores ex111 y los dispositivos. El LSI ex500 puede configurarse con un solo chip o una pluralidad de chips. El software para codificar y decodificar video puede integrarse en algún tipo de medio de grabación (tal como un CD-ROM, un disco flexible, un disco duro) que sea legible por el ordenador ex111 y otros, y los procedimientos de codificación y decodificación pueden realizarse mediante el uso del software. Además, cuando el teléfono celular ex114 está equipado con una cámara, los datos de imagen obtenidos por la cámara pueden transmitirse. Los datos de video son datos codificados por el LSI ex500 incluido en el teléfono celular ex114.

Además, el servidor de transmisión ex103 puede estar compuesto por servidores y ordenadores, y puede descentralizar datos y procesar los datos descentralizados, registrar o distribuir datos.

Como se describió anteriormente, los clientes pueden recibir y reproducir los datos codificados en el contenido que proporciona el sistema ex100. En otras palabras, los clientes pueden recibir y decodificar información transmitida por el usuario, y reproducir los datos decodificados en tiempo real en el sistema de suministro de contenidos ex100, de manera que el usuario que no tiene ningún derecho y equipo en particular puede implementar la transmisión personal.

Aparte del ejemplo del sistema de suministro de contenidos ex100, al menos uno de los aparatos de codificación de video (aparato de codificación de imagen) y de los aparatos de decodificación de video (aparato de decodificación de imágenes) descritos en cada una de las Realizaciones pueden implementarse en un sistema de transmisión digital ex200 que se ilustra en la Figura 8. Más específicamente, una estación de transmisión ex201 comunica o transmite, a través de ondas de radio a un satélite de difusión ex202, datos multiplexados obtenidos al multiplexar datos de audio y otros en datos de video. Los datos de video son datos codificados por el procedimiento de codificación de video descrito en la Realización mencionada anteriormente (en otras palabras, datos codificados por el aparato de codificación de imágenes de acuerdo con la presente invención). Al recibir los datos multiplexados, el satélite de difusión ex202 transmite ondas de radio para su difusión. Luego, una antena de uso doméstico ex204 con una función de recepción de transmisión satelital recibe las ondas de radio. A continuación, un dispositivo tal como un televisor (receptor) ex300 y un decodificador (STB) ex217 decodifican los datos multiplexados recibidos y reproduce los datos decodificados (esto significa que el dispositivo sirve como aparato de decodificación de imágenes de acuerdo con la presente invención).

Además, un lector/grabador ex218 que (i) lee y decodifica los datos multiplexados grabados en un medio de grabación ex215, tal como un DVD y un BD, o (i) codifica señales de video en el medio de grabación ex215, y en algunos casos, los datos de escritura obtenidos al multiplexar una señal de audio en los datos codificados pueden incluir el aparato de decodificación de video o el aparato de codificación de video como se muestra en la Realización mencionada anteriormente. En este caso, las señales de video reproducidas se muestran en el monitor ex219, y pueden ser reproducidas por otro dispositivo o sistema mediante el uso del medio de grabación ex215 en el que se graban los datos multiplexados. También es posible implementar el aparato de decodificación de video en el decodificador ex217 conectado al cable ex203 para un televisor por cable o a la antena ex204 para transmisión satelital y/o terrestre, a fin de mostrar las señales de video en el monitor ex219 del televisor ex300. El aparato de decodificación de video puede implementarse no en el decodificador sino en el televisor ex300.

La Figura 19 ilustra el televisor (receptor) ex300 que usa el procedimiento de codificación de video y el procedimiento de decodificación de video descrito en la Realización mencionada anteriormente. El televisor ex300 incluye: un sintonizador ex301 que obtiene o proporciona datos multiplexados obtenidos al multiplexar datos de audio en datos de video, a través de la antena ex204 o el cable ex203, etcétera que recibe una transmisión; una unidad de modulación/demodulación ex302 que demodula los datos multiplexados recibidos o modula los datos en datos multiplexados para ser suministrados fuera; y una unidad de multiplexación/demultiplexación ex303 que demultiplexa los datos multiplexados modulados en datos de video y audio, o multiplexa los datos de video y de audio codificados por una unidad de procesamiento de señal ex306 en datos.

El televisor ex300 incluye además: una unidad de procesamiento de señal ex306 que incluye una unidad de procesamiento de señal de audio ex304 y una unidad de procesamiento de señal de video ex305 (que sirve como aparato de codificación de imágenes o aparato de decodificación de imágenes de acuerdo con la presente invención) que decodifica datos de audio y datos de video y datos de audio de código y datos de video, respectivamente; un altavoz ex307 que proporciona la señal de audio decodificada; y una unidad de salida ex309 que incluye una unidad de pantalla ex308 que muestra la señal de video decodificada, tal como una pantalla. Además, el televisor ex300 incluye una unidad de interfaz ex317 que incluye una unidad de entrada de operación ex312 que recibe una entrada de una operación de usuario. Además, el televisor ex300 incluye una unidad de control ex310 que controla en general cada elemento constituyente del televisor ex300, y una unidad de circuito de suministro de energía ex311 que suministra energía a cada uno de los elementos. Además de la unidad de entrada de operación ex312, la unidad de interfaz ex317 puede incluir: un puente ex313 que está conectado a un dispositivo externo, tal como el lector/grabador ex218; una unidad de ranura ex314 para permitir la conexión del medio de grabación ex216, tal como una tarjeta SD; un controlador ex315 para conectarse a un medio de grabación externo, tal como un disco duro; y un módem ex316 para conectarse a una red telefónica. Aquí, el medio de grabación ex216 puede grabar eléctricamente información mediante el uso de un elemento de memoria semiconductora no volátil/volátil para almacenamiento. Los elementos constitutivos del televisor ex300 están conectados entre sí a través de un bus síncrono.

Primero, se describirá la configuración en la cual el televisor ex300 decodifica datos multiplexados obtenidos desde el exterior a través de la antena ex204 y otros y reproduce los datos decodificados. En el televisor ex300, tras una operación del usuario desde un controlador remoto ex220 y otros, la unidad de multiplexación/demultiplexación ex303 demultiplexa los datos multiplexados demodulados por la unidad de modulación/demodulación ex302, bajo el control de la unidad de control ex310 que incluye una CPU. Además, la unidad de procesamiento de señal de audio ex304 decodifica los datos de audio demultiplexados, y la unidad de procesamiento de señal de video ex305 decodifica los datos de video demultiplexados, mediante el uso del procedimiento de decodificación descrito en la Realización mencionada anteriormente, en el televisor ex300. La unidad de salida ex309 proporciona la señal de video decodificada y la señal de audio externa, respectivamente. Cuando la unidad de salida ex309 proporciona la señal de video y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex318 y ex319, y otras para que las señales se reproduzcan en sincronización entre sí. Además, el televisor ex300 puede leer datos multiplexados no a través de una transmisión y otros, sino de los medios de grabación ex215 y ex216, tal como un disco magnético, un disco óptico y una tarjeta SD. A continuación, se describirá una configuración en la que el televisor ex300 codifica una señal de audio y una señal de video, y transmite los datos al exterior o escribe los datos en un medio de grabación. En el televisor ex300, tras una operación del usuario desde el controlador remoto ex220 y otros, la unidad de procesamiento de señal de audio ex304 codifica una señal de audio, y la unidad de procesamiento de señal de video ex305 codifica una señal de video, bajo el control de la unidad de control ex310 mediante el uso del procedimiento de codificación descrito en la Realización mencionada anteriormente. La unidad de multiplexación/demultiplexación ex303 multiplexa la señal de video codificada y la señal de audio, y proporciona las señales resultantes al exterior. Cuando la unidad de multiplexación/demultiplexación ex303 multiplexa la señal de video y la señal de audio, las señales pueden almacenarse temporalmente en las memorias intermedias ex320 y ex321, y otras para que las señales se reproduzcan en sincronización entre sí. Aquí, las memorias intermedias ex318, ex319, ex320 y ex321 pueden ser plurales como se ilustra, o al menos una memoria intermedia puede compartirse en el televisor ex300. Además, los datos pueden almacenarse en una memoria intermedia para evitar el desbordamiento y el subsecuencia del sistema entre la unidad de modulación/demodulación ex302 y la unidad de multiplexación/demultiplexación ex303, por ejemplo.

Además, el televisor ex300 puede incluir una configuración para recibir una entrada AV de un micrófono o una cámara que no sea la configuración para obtener datos de audio y video de una transmisión o un medio de grabación, y puede codificar los datos obtenidos. Aunque el televisor ex300 puede codificar, multiplexar y proporcionar datos externos en la descripción, puede ser capaz de recibir, decodificar y proporcionar datos externos solamente, pero no la codificación, multiplexación y proporcionar datos externos.

Además, cuando el lector/grabador ex218 lee o escribe datos multiplexados desde o en un medio de grabación, uno del televisor ex300 y el lector/grabador ex218 pueden decodificar o codificar los datos multiplexados, y el televisor ex300 y el lector/grabador ex218 pueden compartir la decodificación o codificación.

Como un ejemplo, la Figura 20 ilustra una configuración de una unidad de reproducción/grabación de información ex400 cuando los datos se leen o se escriben desde o en un disco óptico. La unidad de reproducción/grabación de información ex400 incluye elementos constituyentes ex401, ex402, ex403, ex404, ex405, ex406 y ex407 que se describirán más adelante. El cabezal óptico ex401 irradia un punto láser en una superficie de grabación del medio de grabación ex215 que es un disco óptico para escribir información, y detecta la luz reflejada desde la superficie de grabación del medio de grabación ex215 para leer la información. La unidad de grabación de modulación ex402 acciona eléctricamente un láser semiconductor incluido en el cabezal óptico ex401, y modula la luz láser de acuerdo con los datos grabados. La unidad de demodulación de reproducción ex403 amplifica una señal de reproducción obtenida mediante la detección eléctrica de la luz reflejada desde la superficie de grabación mediante el uso de un detector fotográfico incluido en el cabezal óptico ex401, y demodula la señal de reproducción separando una componente de la señal grabada en el medio de grabación ex215 para reproducir la información necesaria. La memoria intermedia ex404 contiene temporalmente la información a grabar en el medio de grabación ex215 y la información reproducida desde el medio de grabación ex215. El motor de disco ex405 gira el medio de grabación ex215. La unidad de servocontrol ex406 mueve el cabezal óptico ex401 a una pista de información predeterminada mientras controla el accionamiento de rotación del motor de disco ex405 para seguir el punto láser. La unidad de control del sistema ex407 controla en general la unidad de reproducción/grabación de información ex400. La unidad de control del sistema ex407 puede implementar los procedimientos de lectura y escritura mediante el uso de la diversa información almacenada en la memoria intermedia ex404 y generando y agregando nueva información cuando sea necesario, y mediante la unidad de grabación de modulación ex402, la unidad de demodulación de reproducción ex403 y la unidad de servo control ex406 que registra y reproduce información a través del cabezal óptico ex401 mientras se opera de manera coordinada. La unidad de control del sistema ex407 incluye, por ejemplo, un microprocesador, y ejecuta el procesamiento al hacer que un ordenador ejecute un programa de lectura y escritura.

Aunque el cabezal óptico ex401 irradia un punto láser en la descripción, puede realizar grabaciones de alta densidad mediante el uso de la luz de campo cercano.

La Figura 21 ilustra el medio de grabación ex215 que es el disco óptico. En la superficie de grabación del medio de grabación ex215, las ranuras de guía se forman en espiral, y una pista de información ex230 registra, por adelantado, la información de dirección que indica una posición absoluta en el disco de acuerdo con el cambio en la forma de las ranuras de guía. La información de dirección incluye información para determinar las posiciones de los bloques de grabación ex231 que son una unidad para grabar datos. La reproducción de la pista de información ex230 y la lectura de la información de dirección en un aparato que registra y reproduce datos puede conducir a la determinación de las posiciones de los bloques de grabación. Además, el medio de grabación ex215 incluye un área de grabación de datos ex233, un área de circunferencia interior ex232 y un área de circunferencia exterior ex234. El área de grabación de datos ex233 es un área para su uso en la grabación de datos del usuario. El área de circunferencia interior ex232 y el área de circunferencia exterior ex234 que están dentro y fuera del área de grabación de datos ex233, respectivamente, son para uso específico, excepto para registrar los datos del usuario. La unidad de reproducción/grabación de información 400 lee y escribe audio codificado, datos de video codificados o datos multiplexados obtenidos al multiplexar los datos codificados de audio y video, desde y sobre el área de grabación de datos ex233 del medio de grabación ex215.

Aunque un disco óptico que tiene una capa, tal como un DVD y un BD, se describe como un ejemplo en la descripción, el disco óptico no está limitado a eso, y puede ser un disco óptico con una estructura multicapa y capaz de ser grabado en una parte distinta de la superficie. Además, el disco óptico puede tener una estructura para la grabación/reproducción multidimensional, como la grabación de información mediante el uso de luz de colores con diferentes longitudes de onda en la misma porción del disco óptico y para grabar información que tiene diferentes capas desde varios ángulos.

Además, un automóvil ex210 que tiene una antena ex205 puede recibir datos del satélite ex202 y otros, y reproducir video en un dispositivo de visualización como un sistema de navegación para automóvil ex211 configurado en el automóvil ex210, en el sistema de transmisión digital ex200. Aquí, una configuración del sistema de navegación para el automóvil ex211 será una configuración, por ejemplo, que incluye una unidad de recepción GPS de la configuración que se ilustra en la Figura 19. Lo mismo será cierto para la configuración del ordenador ex111, el teléfono celular ex114 y otros.

La Figura 22A ilustra el teléfono celular ex114 que usa el procedimiento de codificación de video y el procedimiento de decodificación de video descrito en la Realización mencionada anteriormente. El teléfono celular ex114 incluye: una antena ex350 para transmitir y recibir ondas de radio a través de la estación base ex110; una unidad de cámara ex365 capaz de capturar imágenes en movimiento y fijas; y una unidad de visualización ex358 tal como una pantalla de cristal líquido para visualizar los datos tales como el video decodificado capturado por la unidad de cámara ex365 o recibido por la antena ex350. El teléfono celular ex114 incluye además: una unidad principal del cuerpo que incluye un conjunto de teclas de operación ex366; una unidad de salida de audio ex357 tal como un altavoz para salida de audio; una unidad de entrada de audio ex356 tal como un micrófono para entrada de audio; una unidad de memoria ex367 para almacenar el video capturado o imágenes fijas, audio grabado, datos codificados o decodificados del video recibido, las imágenes fijas, correos electrónicos u otros; y una unidad de ranura ex364 que es una unidad de interfaz para un medio de grabación que almacena datos de la misma manera que la unidad de memoria ex367.

A continuación, se describirá un ejemplo de una configuración del teléfono celular ex114 con referencia a la Figura 22B. En el teléfono celular ex114, una unidad de control principal ex360 diseñada para controlar en general cada unidad del cuerpo principal, incluida la unidad de pantalla ex358, así como también las teclas de operación ex366, se conectan mutuamente, a través de un bus síncrono ex370, a una unidad de circuito de suministro de energía ex361, una unidad de control de entrada de operación ex362, una unidad de procesamiento de señal de video ex355, una unidad de interfaz de cámara ex363, una unidad de control de pantalla de cristal líquido (LCD) ex359, una unidad de modulación/demodulación ex352, una unidad de multiplexación/demultiplexación ex353, un procesamiento de señal de audio unidad ex354, la unidad de ranura ex364 y la unidad de memoria ex367.

Cuando la operación de un usuario enciende una tecla de fin de llamada o una tecla de encendido, la unidad de circuito de suministro de energía ex361 suministra energía a las unidades respectivas desde un paquete de baterías para activar el teléfono celular ex114.

En el teléfono celular ex114, la unidad de procesamiento de señal de audio ex354 convierte las señales de audio recolectadas por la unidad de entrada de audio ex356 en modo de conversación de voz en señales de audio digital bajo el control de la unidad de control principal ex360 que incluye una CPU, ROM y RAM. Luego, la unidad de modulación/demodulación ex352 realiza un procesamiento de espectro extendido en las señales de audio digital, y la unidad de transmisión y recepción ex351 realiza la conversión de digital a analógico y la conversión de frecuencia en los datos, para transmitir los datos resultantes a través de la antena ex350. Además, en el teléfono celular ex114, la unidad de transmisión y recepción ex351 amplifica los datos recibidos por la antena ex350 en modo de conversación de voz y realiza la conversión de frecuencia y la conversión de analógico a digital de los datos. Luego, la unidad de modulación/demodulación ex352 realiza un procesamiento inverso de espectro ensanchado en los datos, y la unidad de procesamiento de señal de audio ex354 lo convierte en señales de audio analógicas, para emitirlas a través de la unidad de salida de audio ex357.

Además, cuando se transmite un correo electrónico en modo de comunicación de datos, los datos de texto del correo electrónico ingresado al operar las teclas de operación ex366 y otros del cuerpo principal se envían a la unidad de control principal ex360 a través de la unidad de control de entrada de operación ex362. La unidad de control principal ex360 hace que la unidad de modulación/demodulación ex352 realice un procesamiento de espectro ensanchado en los datos de texto, y la unidad de transmisión y recepción ex351 realiza la conversión de digital a analógico y la conversión de frecuencia en los datos resultantes para transmitir los datos a la estación base ex110 a través de la antena ex350. Cuando se recibe un correo electrónico, el procesamiento que es aproximadamente inverso al procesamiento para transmitir un correo electrónico se realiza en los datos recibidos, y los datos resultantes se proporcionan a la unidad de visualización ex358.

Cuando se transmiten o transmiten video, imágenes fijas o video y audio en modo de comunicación de datos, la unidad de procesamiento de señal de video ex355 comprime y codifica las señales de video suministradas desde la unidad de cámara ex365 mediante el uso del procedimiento de codificación de video que se muestra en la Realización mencionada anteriormente (eso significa que la unidad de procesamiento de señal de video ex355 sirve como el aparato de codificación de imágenes de acuerdo con la presente invención), y transmite los datos de video codificados a la unidad de multiplexación/demultiplexación ex353. Por el contrario, cuando la unidad de cámara ex365 captura video, imágenes fijas y otros, la unidad de procesamiento de señal de audio ex354 codifica las señales de audio recolectadas por la unidad de entrada de audio ex356 y transmite los datos de audio codificados a la unidad de multiplexación/demultiplexación ex353.

La unidad de multiplexación/demultiplexación ex353 multiplexa los datos de video codificados suministrados desde la unidad de procesamiento de señal de video ex355 y los datos de audio codificados suministrados desde la unidad de procesamiento de señal de audio ex354, mediante el uso de un procedimiento predeterminado. Luego, la unidad de modulación/demodulación ex352 realiza el procesamiento de espectro ensanchado en los datos multiplexados, y la unidad de transmisión y recepción ex351 realiza la conversión de digital a analógico y la conversión de frecuencia en los datos para transmitir los datos resultantes a través de la antena ex350.

Cuando se reciben datos de un archivo de video que está vinculado a una página Web y otros en modo de comunicación de datos o cuando se recibe un correo electrónico con video y/o audio adjunto, para decodificar los datos multiplexados recibidos a través de la antena ex350, la unidad de multiplexación/demultiplexación ex353 demultiplexa los datos multiplexados en una secuencia de bits de datos de video y una secuencia de bits de datos de audio, y suministra a la unidad de procesamiento de señales de video ex355 los datos de video codificados y la unidad de procesamiento de señales de audio ex354 con los datos de audio codificados, a través del bus de sincronización ex370. La unidad de procesamiento de señal de video ex355 decodifica la señal de video mediante el uso de un procedimiento de decodificación de video correspondiente al procedimiento de codificación que se muestra en cada una de las Realizaciones, y luego la unidad de visualización ex358 muestra, por ejemplo, el video y las imágenes fijas incluidas en el archivo de video vinculado al página Web a través de la unidad de control LCD ex359. Además, la unidad de procesamiento de señal de audio ex354 decodifica la señal de audio, y la unidad de salida de audio ex357 proporciona el audio.

Además, de manera similar al televisor ex300, un terminal tal como el teléfono celular ex114 probablemente tenga 3 tipos de configuraciones de implementación que incluyen no solo (i) un terminal de transmisión y recepción que incluye un aparato de codificación y un aparato de decodificación, sino también (ii) un terminal de transmisión que incluye solo un aparato de codificación y (iii) un terminal de recepción que incluye solo un aparato de decodificación. Aunque el sistema de transmisión digital ex200 recibe y transmite los datos multiplexados obtenidos al multiplexar datos de audio en datos de video en la descripción, los datos multiplexados pueden ser datos obtenidos al multiplexar no datos de audio sino datos de caracteres relacionados con video en datos de video, y puede no ser datos multiplexados, pero datos de video en sí.

Como tal, el procedimiento de codificación de video y el procedimiento de decodificación de video en la Realización mencionada anteriormente pueden usarse en cualquiera de los dispositivos y sistemas descritos. En consecuencia, pueden obtenerse las ventajas descritas en la Realización mencionada anteriormente.

Además, la presente invención no se limita a la Realización mencionada anteriormente, y son posibles diversas modificaciones y revisiones sin apartarse del ámbito de la presente invención.

(Realización 3)

Los datos de video pueden generarse al conmutar, según sea necesario, entre (i) el procedimiento de codificación de video o el aparato de codificación de video que se muestra en cada una de las Realizaciones y (ii) un procedimiento de codificación de video o un aparato de codificación de video de conformidad con un estándar diferente, tal como como MPEG-2, MPEG4-AVC y VC-1.

Aquí, cuando se genera una pluralidad de datos de video que se ajustan a los diferentes estándares y luego se decodifica, los procedimientos de decodificación deben seleccionarse para cumplir con los diferentes estándares. Sin embargo, como a qué estándar no puede detectarse cada una de la pluralidad de datos de video que se descodificarán, existe el problema de que no puede seleccionarse un procedimiento de descodificación apropiado. Para resolver el problema, los datos multiplexados obtenidos multiplexando datos de audio y otros en datos de video tienen una estructura que incluye información de identificación que indica a qué estándar se ajustan los datos de video. A continuación, se describirá la estructura específica de los datos multiplexados que incluyen los datos de video generados en el procedimiento de codificación de video y por el aparato de codificación de video que se muestra en cada una de las Realizaciones. Los datos multiplexados son una secuencia digital en formato MPEG2-Transport Stream.

La Figura 23 ilustra una estructura de los datos multiplexados. Como se ilustra en la Figura 23, los datos multiplexados pueden obtenerse multiplexando al menos uno de una secuencia de video, una secuencia de audio, una secuencia de gráficos de presentación (PG) y una secuencia de gráficos interactivos. La secuencia de video representa el video primario y el video secundario de una película, la secuencia de audio (IG) representa una parte de audio primaria y una parte de audio secundaria que se mezclará con la parte de audio primaria, y la secuencia de gráficos de presentación representa subtítulos de la película. Aquí, el video principal es el video normal que se mostrará en una pantalla, y el video secundario es el video que se mostrará en una ventana más pequeña en el video principal. Además, la secuencia de gráficos interactivos representa una pantalla interactiva que se generará organizando los componentes de la GUI en una pantalla. La secuencia de video se codifica en el procedimiento de codificación de video o por el aparato de codificación de video que se muestra en cada una de las Realizaciones, o en un procedimiento de codificación de video o por un aparato de codificación de video de conformidad con un estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1. La transmisión de audio se codifica de acuerdo con un estándar, tal como Dolby-AC-3, Dolby Digital Plus, MLP, DTS, DTS-HD y PCM lineal.

Cada secuencia incluida en los datos multiplexados se identifica por PID. Por ejemplo, 0x1011 se asigna a la secuencia de video que se usará para el video de una película, 0x1100 a 0x111F se asignan a las secuencias de audio, 0x1200 a 0x121F se asignan a las secuencias de gráficos de presentación, 0x1400 a 0x141F se asignan a las secuencias de gráficos interactivos, 0x1B00 a 0x1B1f se asignan a las secuencias de video que se usarán para el video secundario de la película, y 0x1A00 a 0x1A1F se asignan a las secuencias de audio para que el video secundario se mezcle con el audio primario.

La Figura 24 ilustra esquemáticamente cómo se multiplexan los datos. Primero, una secuencia de video ex235 compuesta por cuadros de video y una secuencia de audio ex238 compuesta de cuadros de audio se transforman en una secuencia de paquetes PES ex236 y una secuencia de paquetes PES ex239, y después en paquetes TS ex237 y paquetes TS ex240, respectivamente. De manera similar, los datos de una secuencia de gráficos de presentación ex241 y los datos de una secuencia de gráficos interactivos ex244 se transforman en una secuencia de paquetes PES ex242 y una secuencia de paquetes PES ex245, y después en paquetes TS ex243 y paquetes TS ex246, respectivamente. Estos paquetes TS se multiplexan en una secuencia para obtener datos multiplexados ex247.

La Figura 25 ilustra cómo se almacena una secuencia de video en una secuencia de paquetes PES con más detalle. La primera barra en la Figura 25 muestra una secuencia de cuadro de video en una secuencia de video. La segunda barra muestra la secuencia de paquetes PES. Como se indica mediante las flechas denotadas como yy2, yy2, yy3 e yy4 en la Figura 25, la secuencia de video se divide en imágenes como imágenes I, imágenes B e imágenes P, cada una de las cuales es una unidad de presentación de video, y las imágenes se almacenan en una carga útil de cada uno de los paquetes PES. Cada uno de los paquetes PES tiene un encabezado PES, y el encabezado PES almacena un Presentation Time-Stamp (PTS) que indica un tiempo de visualización de la imagen, y un Decoding Time-Stamp (DTS) que indica un tiempo de decodificación de la imagen.

La Figura 26 ilustra un formato de paquetes TS que se escribirán finalmente en los datos multiplexados. Cada uno de los paquetes TS es un paquete de longitud fija de 188 bytes que incluye un encabezado TS de 4 bytes que tiene información, tal como un PID para identificar una secuencia y una carga útil TS de 184 bytes para almacenar datos. Los paquetes PES se dividen y almacenan en las cargas útiles de TS, respectivamente. Cuando se usa un BD ROM, cada uno de los paquetes TS recibe un TP_Extra_Header de 4 bytes, lo que da como resultado paquetes fuente de 192 bytes. Los paquetes fuente se escriben en los datos multiplexados. El TP_Extra_Header almacena información como Arrival_Time_Stamp (ATS). El ATS muestra un tiempo de inicio de transferencia en el que cada uno de los paquetes TS debe transferirse a un filtro PID. Los paquetes fuente están dispuestos en los datos multiplexados como se muestra en la parte inferior de la Figura 26. Los números que se incrementan desde el encabezado de los datos multiplexados se denominan números de paquete fuente (SPN).

Cada uno de los paquetes TS incluidos en los datos multiplexados incluyen no solo secuencias de audio, video, subtítulos y otros, sino también una Program Association Table (PAT), una Program Map Table (PMT), y una Program Clock Reference (PCR). El PAT muestra lo que indica un PID en una PMT usado en los datos multiplexados, y un PID de la PAT en sí mismo se registra como cero. La PMT almacena los PIDs de las secuencias de video, audio, subtítulos y otros incluidos en los datos multiplexados, y la información de atributos de las secuencias correspondientes a los PIDs. La PMT también tiene varios descriptores relacionados con los datos multiplexados. Los descriptores tienen información tal como información de control de copia que muestra si la copia de los datos multiplexados está permitida o no. El PCR almacena la información de tiempo STC correspondiente a un ATS que muestra cuándo se transfiere el paquete de PCR a un decodificador, para lograr la sincronización entre un Arrival Time Clock (ATC) que es un eje de tiempo de ATS y un System Time Clock (STC) que es un eje de tiempo de PTSs y DTSs.

La Figura 27 ilustra la estructura de datos de la PMT en detalle. Un encabezado PMT se dispone en la parte superior de la PMT. El encabezado PMT describe la longitud de los datos incluidos en la PMT y otros. Una pluralidad de descriptores relacionados con los datos multiplexados se dispone después del encabezado PMT. Información tal como la información de control de copia se describe en los descriptores. Después de los descriptores, se dispone una pluralidad de piezas de información de secuencia relacionadas con los transmisiones incluidos en los datos multiplexados. Cada pieza de información de secuencia incluye descriptores de secuencia, cada uno de los cuales describe información, tal como un tipo de secuencia para identificar un códec de compresión de una secuencia, un PID de secuencia e información de atributos de secuencia (tal como una velocidad de cuadros o una relación de aspecto). Los descriptores de secuencia son iguales en número al número de transmisiones en los datos multiplexados.

Cuando los datos multiplexados se graban en un medio de grabación y otros, se graban junto con archivos de información de datos multiplexados.

Cada uno de los archivos de información de datos multiplexados es información de gestión de los datos multiplexados como se muestra en la Figura 28. Los archivos de información de datos multiplexados están en correspondencia uno a uno con los datos multiplexados, y cada uno de los archivos incluye información de datos multiplexados, información de atributos de secuencia y un mapa de entrada.

Como se ilustra en la Figura 28, los datos multiplexados incluyen una velocidad del sistema, un tiempo de inicio de reproducción y un tiempo de finalización de reproducción. La velocidad del sistema indica la velocidad de transferencia máxima a la que un decodificador objetivo del sistema que se describirá más adelante transfiere los datos multiplexados a un filtro PID. Los intervalos de los ATS incluidos en los datos multiplexados se establecen en una velocidad no superior a la del sistema. El tiempo de inicio de reproducción indica un PTS en un cuadro de video en la cabecera de los datos multiplexados. Se agrega un intervalo de un cuadro a un PTS en un cuadro de video al final de los datos multiplexados, y el PTS se establece en el tiempo de finalización de la reproducción.

Como se muestra en la Figura 29, una pieza de información de atributo se registra en la información de atributo de secuencia, para cada PID de cada secuencia incluida en los datos multiplexados. Cada pieza de información de atributo tiene información diferente en función de si la secuencia correspondiente es una secuencia de video, una secuencia de audio, una secuencia de gráficos de presentación o una secuencia de gráficos interactivos. Cada pieza de la información del atributo de la secuencia de video contiene información que incluye qué tipo de códec de compresión se usa para comprimir la secuencia de video, y la resolución, la relación de aspecto y la velocidad de cuadros de los datos de imágenes que se incluyen en la secuencia de video. Cada pieza de la información del atributo de la secuencia de audio contiene información que incluye qué tipo de códec de compresión se usa para comprimir la secuencia de audio, cuántos canales se incluyen en la secuencia de audio, qué idioma admite la secuencia de audio y qué tan alta es la frecuencia de muestreo. La información del atributo de la secuencia de video y la información del atributo de la secuencia de audio se usan para inicializar un decodificador antes de que el reproductor reproduzca la información.

En la presente realización, los datos multiplexados a usar son de un tipo de secuencia incluido en el PMT. Además, cuando los datos multiplexados se graban en un medio de grabación, se usa la información del atributo de secuencia de video incluida en la información de datos multiplexados. Más específicamente, el procedimiento de codificación de video o el aparato de codificación de video descrito en cada una de las Realizaciones incluye una etapa o una unidad para asignar información única que indica datos de video generados por el procedimiento de codificación de video o el aparato de codificación de video en cada una de las Realizaciones, el tipo de secuencia incluido en el PMT o la información del atributo de la secuencia de video. Con la configuración, los datos de video generados por el procedimiento de codificación de video o el aparato de codificación de video descrito en cada una de las Realizaciones pueden distinguirse de los datos de video que se ajustan a otro estándar.

Además, la Figura 30 ilustra las etapas del procedimiento de decodificación de video de acuerdo con la Realización 9. En la Etapa exS100, el tipo de secuencia incluido en la PMT o la información del atributo de la secuencia de video se obtiene de los datos multiplexados. A continuación, en la Etapa exS101, se determina si el tipo de secuencia o la información del atributo de la secuencia de video indica que los datos multiplexados son generados por el procedimiento de codificación de video o por el aparato de codificación de video en cada una de las Realizaciones. Cuando se determina que el tipo de secuencia o que la información del atributo de la secuencia de video indica que los datos multiplexados se generan mediante el procedimiento de codificación de video o por el aparato de codificación de video en cada una de las Realizaciones, en la Etapa exS102, el tipo de secuencia o la información del atributo de la secuencia de video es decodificado por el procedimiento de decodificación de video en cada una de las Realizaciones. Además, cuando el tipo de secuencia o la información del atributo de la secuencia de video indica conformidad con los estándares convencionales, tal como MPEG-2, MPEG4-AVC y VC-1, en la Etapa exS103, el tipo de secuencia o la información del atributo de la secuencia de video es decodificada por un procedimiento de decodificación de video de conformidad con los estándares convencionales.

Como tal, asignar un nuevo valor único al tipo de secuencia o a la información del atributo de la secuencia de video permite determinar si el procedimiento de decodificación de video o el aparato de decodificación de video que se describe en cada una de las Realizaciones puede realizar la decodificación. Incluso cuando los datos multiplexados se ajustan a un estándar diferente, puede seleccionarse un procedimiento o un aparato de decodificación apropiado. En consecuencia, se hace posible decodificar información sin ningún error. Además, el procedimiento o el aparato de codificación de video, o el procedimiento o el aparato de decodificación de video en esta Realización pueden usarse en los dispositivos y sistemas descritos anteriormente.

(Realización 4)

Cada uno de los procedimientos de codificación de video, el aparato de codificación de video, el procedimiento de decodificación de video y el aparato de decodificación de video en cada una de las Realizaciones se logran típicamente en forma de un circuito integrado o de un circuito Large Scale Integrated (LSI). Como ejemplo del LSI, la Figura 31 ilustra una configuración del LSI ex500 que se hace en un chip. El LSI ex500 incluye los elementos ex501, ex502, ex503, ex504, ex505, ex506, ex507, ex508 y ex509 que se describen a continuación, y los elementos están conectados entre sí a través de un bus ex510. La unidad de circuito del suministro de energía ex505 se activa al suministrar energía a cada uno de los elementos cuando se enciende la unidad de circuito del suministro de energía ex505.

Por ejemplo, cuando se realiza la codificación, el LSI ex500 recibe una señal AV de un micrófono ex117, una cámara ex113 y otros a través de un AV IO ex509 bajo el control de una unidad de control ex501 que incluye una CPU ex502, un controlador de memoria ex503, un controlador de secuencia ex504 y una unidad de control de frecuencia de conducción ex512. La señal AV recibida se almacena temporalmente en una memoria externa ex511, como una SDRAM. Bajo el control de la unidad de control ex501, los datos almacenados se segmentan en porciones de datos de acuerdo con la cantidad de procesamiento y la velocidad a transmitir a una unidad de procesamiento de señal ex507. Entonces, la unidad de procesamiento de señal ex507 codifica una señal de audio y/o una señal de video.

Aquí, la codificación de la señal de video es la codificación descrita en cada una de las Realizaciones. Además, la unidad de procesamiento de señal ex507 a veces multiplexa los datos de audio codificados y los datos de video codificados, y una secuencia IO ex506 proporciona los datos multiplexados fuera. Los datos multiplexados proporcionados se transmiten a una estación base ex107, o se escriben en el medio de grabación ex215. Cuando los conjuntos de datos se multiplexan, los datos deben almacenarse temporalmente en la memoria intermedia ex508 para que los conjuntos de datos se sincronicen entre sí.

Aunque la memoria ex511 es un elemento externo al LSI ex500, puede incluirse en el LSI ex500. La memoria intermedia ex508 no está limitado a una memoria intermedia, sino que puede estar compuesto de memorias intermedias. Además, el LSI ex500 puede convertirse en un chip o en una pluralidad de chips.

Además, aunque la unidad de control ex501 incluye la CPU ex502, el controlador de memoria ex503, el controlador de secuencia ex504, la unidad de control de frecuencia de conducción ex512, la configuración de la unidad de control ex501 no se limita a tal. Por ejemplo, la unidad de procesamiento de señal ex507 puede incluir además una CPU. La inclusión de otra CPU en la unidad de procesamiento de señal ex507 puede mejorar la velocidad de procesamiento. Además, como otro ejemplo, la CPU ex502 puede servir o ser parte de la unidad de procesamiento de señal ex507 y, por ejemplo, puede incluir una unidad de procesamiento de señal de audio. En tal caso, la unidad de control ex501 incluye la unidad de procesamiento de señal ex507 o la CPU ex502 que incluye una parte de la unidad de procesamiento de señal ex507.

El nombre usado aquí es LSI, pero también puede llamarse IC, sistema LSI, súper LSI o ultra LSI, en función del grado de integración.

Además, las formas de lograr la integración no se limitan al LSI, y a un circuito especial o a un procesador de propósito general, etcétera, también pueden lograr la integración. La Field Programmable Gate Array (FPGA) que puede programarse después de la fabricación del LSI o de un procesador reconfigurable que permite la reconfiguración de la conexión o la configuración de un LSI pueden usarse para el mismo propósito.

En el futuro, con el avance en la tecnología de semiconductores, una tecnología completamente nueva puede reemplazar al LSI. Los bloques funcionales pueden integrarse mediante el uso de tal tecnología. La posibilidad es que la presente invención se aplique a la biotecnología.

(Realización 5)

Cuando los datos de video se decodifican en el procedimiento de codificación de video o por el aparato de codificación de video descrito en cada una de las Realizaciones, en comparación con los datos de video que se ajustan a un estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1, la cantidad de procesamiento probablemente aumenta. En consecuencia, el LSI ex500 debe configurarse a una frecuencia de conducción superior a la de la CPU ex502 para usarse cuando se decodifican datos de video de conformidad con el estándar convencional. Sin embargo, cuando la frecuencia de conducción es más alta, existe el problema de que aumenta el consumo de energía.

Para resolver el problema, el aparato de decodificación de video, tal como el televisor ex300 y el LSI ex500, se configura para determinar a qué estándar se ajustan los datos de video y cambiar entre las frecuencias de conducción de acuerdo con el estándar determinado. La Figura 32 ilustra una configuración ex800 en la presente realización. Una unidad de conmutación de frecuencia de conducción ex803 establece una frecuencia de conducción a una frecuencia de conducción más alta cuando los datos de video son generados por el procedimiento de codificación de video o por el aparato de codificación de video descrito en cada una de las Realizaciones. Entonces, la unidad de conmutación de frecuencia de conducción ex803 ordena a una unidad de procesamiento de decodificación ex801 que ejecute el procedimiento de decodificación de video descrito en cada una de las Realizaciones para decodificar los datos de video. Cuando los datos de video se ajustan al estándar convencional, la unidad de conmutación de frecuencia de conducción ex803 establece una frecuencia de conducción a una frecuencia de conducción más baja que la de los datos de video generados por el procedimiento de codificación de video o por el aparato de codificación de video descrito en cada una de las Realizaciones. Luego, la unidad de conmutación de frecuencia de conducción ex803 instruye a la unidad de procesamiento de decodificación ex802 que se ajusta al estándar convencional para decodificar los datos de video.

Más específicamente, la unidad de conmutación de frecuencia de conducción ex803 incluye la CPU ex502 y la unidad de control de frecuencia de conducción ex512 en la Figura 31. Aquí, cada una de la unidad de procesamiento de decodificación ex801 que ejecuta el procedimiento de decodificación de video descrito en cada una de las Realizaciones y la unidad de procesamiento de decodificación ex802 que se ajusta al estándar convencional corresponde a la unidad de procesamiento de señal ex507 en la Figura 31. La CPU ex502 determina a qué estándar se ajustan los datos de video. Luego, la unidad de control de frecuencia de conducción ex512 determina una frecuencia de conducción en base a una señal de la CPU ex502. Además, la unidad de procesamiento de señal ex507 decodifica los datos de video en base a una señal de la CPU ex502. Por ejemplo, la información de identificación descrita en la Realización 3 probablemente se usa para identificar los datos de video. La información de identificación no se limita a la descrita en la Realización 3, sino que puede ser cualquier información siempre que la información indique a qué estándar se ajustan los datos de video. Por ejemplo, cuando los datos de video estándar pueden determinarse en base a una señal externa para determinar que los datos de video se usan para un televisor o un disco, etcétera, la determinación puede hacerse en base a tal señal externa. Además, la CPU ex502 selecciona una frecuencia de conducción en base a, por ejemplo, una tabla de consulta en la que los estándares de los datos de video están asociados con las frecuencias de conducción como se muestra en la Figura 34. La frecuencia de conducción puede seleccionarse almacenando la tabla de búsqueda en la memoria intermedia ex508 y en una memoria interna de un LSI y con referencia a la tabla de búsqueda de la CPU ex502.

La Figura 33 ilustra las etapas para ejecutar un procedimiento en la Realización 11. Primero, en la Etapa exS200, la unidad de procesamiento de señal ex507 obtiene información de identificación de los datos multiplexados. A continuación, en la Etapa exS201, la CPU ex502 determina si los datos de video se generan o no en base a la información de identificación mediante el procedimiento de codificación y el aparato de codificación descrito en cada una de las Realizaciones. Cuando los datos de video se generan mediante el procedimiento de codificación de video y el aparato de codificación de video descrito en cada una de las Realizaciones, en la Etapa exS202, la CPU ex502 transmite una señal para establecer la frecuencia de conducción a una frecuencia de conducción más alta a la unidad de control de frecuencia de conducción ex512. Entonces, la unidad de control de frecuencia de conducción ex512 establece la frecuencia de conducción a la frecuencia de conducción más alta. Por otro lado, cuando la información de identificación indica que los datos de video se ajustan al estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1, en la Etapa exS203, la CPU ex502 transmite una señal para establecer la frecuencia de conducción a una frecuencia de conducción inferior a la unidad de control de frecuencia de conducción ex512. Entonces, la unidad de control de frecuencia de conducción ex512 establece la frecuencia de conducción a la frecuencia de conducción más baja que en el caso donde los datos de video son generados por el procedimiento de codificación de video y por el aparato de codificación de video descrito en cada una de las Realizaciones.

Además, junto con la conmutación de las frecuencias de conducción, el efecto de conservación de energía puede mejorarse cambiando la tensión que se aplicará al LSI ex500 o a un aparato que incluya el LSI ex500. Por ejemplo, cuando la frecuencia de conducción se establece más baja, la tensión que se aplicará al LSI ex500 o al aparato que incluye el LSI ex500 probablemente se configure a una tensión más baja que en el caso donde la frecuencia de conducción se establezca más alta.

Además, cuando la cantidad de procesamiento para la decodificación es mayor, la frecuencia de conducción puede establecerse más alta, y cuando la cantidad de procesamiento para la decodificación es menor, la frecuencia de conducción puede establecerse más baja como el procedimiento para establecer la frecuencia de conducción. En consecuencia, el procedimiento de configuración no se limita a los descritos anteriormente. Por ejemplo, cuando la cantidad de procesamiento para decodificar datos de video de conformidad con MPEG4-AVC es mayor que la cantidad de procesamiento para decodificar datos de video generados por el procedimiento de codificación de video y el aparato de codificación de video descrito en cada una de las Realizaciones, la frecuencia de conducción probablemente se establece en orden inverso al ajuste descrito anteriormente.

Además, el procedimiento para establecer la frecuencia de conducción no se limita al procedimiento para establecer la frecuencia de conducción más baja. Por ejemplo, cuando la información de identificación indica que los datos de video se generan mediante el procedimiento de codificación de video y el aparato de codificación de video descrito en cada una de las Realizaciones, la tensión que se aplicará al LSI ex500 o al aparato que incluye el LSI ex500 probablemente se establezca más alto. Cuando la información de identificación indica que los datos de video se ajustan al estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1, la tensión que se aplicará al LSI ex500 o al aparato que incluye el LSI ex500 probablemente sea más bajo. Como otro ejemplo, cuando la información de identificación indica que los datos de video son generados por el procedimiento de codificación de video y por el aparato de codificación de video descrito en cada una de las Realizaciones, la activación de la CPU ex502 probablemente no tenga que suspenderse. Cuando la información de identificación indica que los datos de video se ajustan al estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1, la conducción de la CPU ex502 probablemente se suspende en un momento dado porque la CPU ex502 tiene una capacidad de procesamiento adicional. Incluso cuando la información de identificación indica que los datos de video son generados por el procedimiento de codificación de video y por el aparato de codificación de video descrito en cada una de las Realizaciones, en el caso donde la CPU ex502 puede tener un retraso de tiempo, la conducción de la CPU ex502 probablemente esté suspendida en un momento dado. En tal caso, el tiempo de suspensión probablemente se establece más corto que en el caso donde la información de identificación indica que los datos de video se ajustan al estándar convencional, tal como MPEG-2, MPEG4-AVC y VC-1.

En consecuencia, el efecto de conservación de energía puede mejorarse al conmutar entre las frecuencias de conducción de acuerdo con el estándar al que se ajustan los datos de video. Además, cuando el LSI ex500 o el aparato que incluye el LSI ex500 se maneja con una batería, la vida útil de la batería puede extenderse con el efecto de conservación de energía.

(Realización 6)

Hay casos en los que se proporciona una pluralidad de datos de video que se ajusta a un estándar diferente a los dispositivos y sistemas, tal como un televisor y un teléfono móvil. Para permitir la decodificación de la pluralidad de datos de video que se ajustan a los diferentes estándares, la unidad de procesamiento de señal ex507 del LSI ex500 debe cumplir con los diferentes estándares. Sin embargo, los problemas de aumento en la escala del circuito del LSI ex500 y aumento en el costo surgen con el uso individual de las unidades de procesamiento de señal ex507 que cumplen con los estándares respectivos.

Para resolver el problema, lo que se concibe es una configuración en la que la unidad de procesamiento de decodificación para implementar el procedimiento de decodificación de video descrito en cada una de las Realizaciones y la unidad de procesamiento de decodificación que se ajusta al estándar convencional, tal como MPEG-2, MPEG4- AVC y VC-1 se comparten parcialmente. Además, ex900 en la Figura 35A muestra otro ejemplo en que el procesamiento se comparte parcialmente. Por ejemplo, el procedimiento de decodificación de video descrito en cada una de las Realizaciones y el procedimiento de decodificación de video que se ajusta a MPEG4-AVC tienen, en parte en común, los detalles del procesamiento, tal como la codificación de entropía, la cuantificación inversa, el filtrado de desbloqueo y la predicción del movimiento compensado. Los detalles del procesamiento que se compartirán probablemente incluyen el uso de una unidad de procesamiento de decodificación ex902 que se ajusta al MPEG4-AVC. Por el contrario, una unidad de procesamiento de decodificación dedicada ex901 probablemente se usa para otro procesamiento exclusivo de la presente invención. La unidad de procesamiento de decodificación para implementar el procedimiento de decodificación de video descrito en cada una de las Realizaciones puede compartirse para que se comparta el procesamiento, y puede usarse una unidad de procesamiento de decodificación dedicada para el procesamiento exclusivo del MPEG4-AVC.

Además, ex1000 en la Figura 35B muestra otro ejemplo en que el procesamiento se comparte parcialmente. Este ejemplo usa una configuración que incluye una unidad de procesamiento de decodificación dedicada ex1001 que admite el procesamiento exclusivo de la presente invención, una unidad de procesamiento de decodificación dedicada ex1002 que admite el procesamiento exclusivo de otro estándar convencional y una unidad de procesamiento de decodificación ex1003 que admite el procesamiento para compartir entre el procedimiento de decodificación de video en la presente invención y el procedimiento de decodificación de video convencional. Aquí, las unidades de procesamiento de decodificación dedicadas ex1001 y ex1002 no están necesariamente especializadas para el procesamiento de la presente invención y el procesamiento del estándar convencional, respectivamente, y pueden ser las capaces de implementar el procesamiento general. Además, la configuración de la Realización 12 puede implementarse mediante el LSI ex500.

Como tal, es posible reducir la escala del circuito LSI y reducir el costo compartiendo la unidad de procesamiento de decodificación para que el procesamiento se comparta entre el procedimiento de decodificación de video en la presente invención y el procedimiento de decodificación de video de conformidad con el estándar convencional.

[Aplicabilidad industrial]

El procedimiento de codificación de imágenes y el procedimiento de decodificación de imágenes de acuerdo con la presente invención tienen un efecto ventajoso de reducir las cargas de procesamiento y pueden aplicarse, por ejemplo, a una cámara de video, un teléfono celular que tiene las funciones de capturar y reproducir video, un ordenador personal, un aparato de grabación y reproducción, etcétera.

[Lista de signos de referencias]

1000 aparato de codificación de imágenes

1101 sustractor

1102 unidad de transformación ortogonal

1103 unidad de cuantificación

1104 unidad de codificación de entropía

1105 unidad de cuantificación inversa

1106 unidad de transformación ortogonal inversa

1107 sumador

1108 filtro de desbloqueo

1109 memoria

1110 unidad de intrapredicción

1111 unidad de interpredicción

1112 unidad de estimación de movimiento

1113 conmutador

1200 unidad de control de memoria

2000 aparato de decodificación de imágenes 2101 unidad de decodificación de entropía 2102 unidad de cuantificación inversa

2103 unidad de transformación ortogonal inversa 2104 sumador

2105 filtro de desbloqueo

2106 memoria

2107 unidad de intrapredicción

2108 unidad de interpredicción

2109 conmutador

2200 unidad de control de memoria

Claims

REIVINDICACIONES

1. Un procedimiento de codificación de imágenes para codificar una señal de video mediante el uso de un procesador, comprendiendo dicho procedimiento de codificación de imágenes:

clasificar (S101) una pluralidad de imágenes incluidas en la señal de video en capas, cada una de la pluralidad de imágenes perteneciente a una de las capas correspondiente, las capas que incluyen una primera capa y una segunda capa; en el que

(i) cuando se codifica una imagen que pertenece a la primera capa, la imagen que pertenece a la primera capa (a) se puede referir a otra imagen que pertenece a la primera capa y (b) no se puede referir a una imagen que pertenece a la segunda capa; y

(ii) cuando se codifica una imagen que pertenece a la segunda capa, la imagen que pertenece a la segunda capa se puede (a) referir a una imagen que pertenece a la primera capa y (b) a otra imagen que pertenece a la segunda capa;

el procedimiento que comprende, además

codificar (S102) (i) una primera imagen (Bf16) que pertenece a la primera capa haciendo referencia a otra imagen que pertenece a la primera capa y (ii) una segunda imagen (Bf8) que pertenece a una de la primera capa y la segunda capa por interpredicción, en el que la segunda imagen (Bf8) precede a la primera imagen (Bf16) en el orden de codificación; y

codificar (S102) una tercera imagen (Br12) que pertenece a la segunda capa por interpredicción, en el que la tercera imagen (Br12) sigue a la primera imagen (Bf16) en el orden de codificación;

caracterizado porque

en caso de que la primera imagen (Bf16) sea una imagen especificada para prohibir que la tercera imagen (Br12) se refiera a la segunda imagen (Bf8), la tercera imagen (Br12) se codifica sin referirse a la segunda imagen (Bf8) que precede a la primera imagen (Bf16) en el orden de codificación; y

en caso de que la primera imagen (Bf16) no sea la imagen especificada para prohibir que la tercera imagen (Br12) se refiera a la segunda imagen (Bf8), la tercera imagen (Br12) puede codificarse haciendo referencia a la segunda imagen (Bf8) que precede a la primera imagen (Bf16) en el orden de codificación.

2. El procedimiento de codificación de imágenes de acuerdo con la reivindicación 1, en el que

las capas incluyen además una capa cero; en el que

(i) cuando se codifica una imagen que pertenece a la capa cero, la imagen que pertenece a la capa cero no puede referirse a otra imagen que pertenezca a la primera capa y a la segunda capa;

(ii) cuando se codifica una imagen que pertenece a la primera capa, la imagen que pertenece a la primera capa puede referirse a una imagen que pertenece a la capa cero; y

(iii) cuando se codifica una imagen que pertenece a la segunda capa, la imagen que pertenece a la segunda capa puede referirse a una imagen que pertenece a la capa cero.

3. El procedimiento de codificación de imágenes de acuerdo con la reivindicación 1 o 2, en el que la primera imagen (Bf16) es una imagen B.

4. El procedimiento de codificación de imágenes de acuerdo con cualquiera de las reivindicaciones de la 1 a la 3, en el que la segunda imagen (Bf8) y la tercera imagen (Br12) son una imagen B.

5. Un aparato de codificación de imágenes que codifica una señal de video, comprendiendo dicho aparato de codificación de imágenes:

un procesador; y

una memoria no transitoria que tiene almacenadas instrucciones ejecutables que, cuando se ejecutan, hacen que el procesador realice el procedimiento de codificación de imágenes de acuerdo con cualquiera de las reivindicaciones de la 1 a la 4.