ES2772028T3 - Disposiciones y métodos de las mismas para procesamiento de video - Google Patents

Disposiciones y métodos de las mismas para procesamiento de video Download PDF

Info

Publication number
ES2772028T3
ES2772028T3 ES13723267T ES13723267T ES2772028T3 ES 2772028 T3 ES2772028 T3 ES 2772028T3 ES 13723267 T ES13723267 T ES 13723267T ES 13723267 T ES13723267 T ES 13723267T ES 2772028 T3 ES2772028 T3 ES 2772028T3
Authority
ES
Spain
Prior art keywords
image
temporal
tsa
current image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13723267T
Other languages
English (en)
Inventor
Rickard Sjöberg
Jonatan Samuelsson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2772028T3 publication Critical patent/ES2772028T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Un codificador de video (100) para codificar una imagen actual que pertenece a un nivel temporal identificado por un identificador temporal, comprendiendo el codificador (100) una unidad (501) para determinar un conjunto de imágenes de referencia, RPS, para la imagen actual que indica imágenes de referencia que se mantienen en una memoria intermedia de imagen decodificada, DPB, cuando se decodifica la imagen actual, y caracterizado por una unidad de control RPS (502) configurada para garantizar que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual cuando la imagen actual es un punto de conmutación de capa temporal, en el que la imagen actual, que es un punto de conmutación de capa temporal, es una imagen de acceso a subcapa temporal, TSA, en el que la imagen TSA se define de tal manera que la imagen TSA y todas las imágenes codificadas con la identificación temporal mayor o igual a la identificación temporal de la imagen TSA que sigue a la imagen TSA en orden de decodificación no incluirán ninguna imagen en su conjunto de imágenes de referencia que precede la imagen TSA en orden de decodificación y para la cual la identificación temporal es mayor o igual que la identificación temporal de la imagen TSA, y en el que el punto de conmutación de capa temporal indica que en esta imagen es posible para que un decodificador comience a decodificar más capas temporales que la que se decodificó antes del punto de conmutación de capa temporal.

Description

DESCRIPCIÓN
Disposiciones y métodos de las mismas para procesamiento de video
Campo técnico
La invención se refiere a disposiciones, es decir, un codificador, un elemento de análisis y un descodificador, para procesamiento de video. En particular, la invención se refiere a procesamiento de video que soporta capas temporales.
Antecedentes
La codificación de video de alta eficiencia (HEVC) es un nuevo estándar de codificación de vídeo que se está desarrollando actualmente en el Equipo Conjunto de Colaboración - Codificación de Video (JCT-VC). JCT-VC es un proyecto colaborativo entre MPEG y ITU-T. Actualmente, se define un Borrador del Comité (CD) que incluye una serie de nuevas herramientas y es considerablemente más eficiente que H.264/AVC.
Una imagen codificada/decodificada de acuerdo con HEVC se divide en uno o más sectores, donde cada segmento es un segmento independientemente decodificable de la imagen. Esto significa que, si falta un segmento, por ejemplo, que se perdió durante la transmisión, los otros segmentos de esa imagen aún se pueden decodificar correctamente. Para hacer que los segmentos sean independientes, están autocontenidos y no dependen entre sí, lo que implica que no se requiere ningún elemento de corriente de bits de otro segmento para decodificar cualquier elemento de un segmento dado.
Cada segmento contiene un encabezado de segmento que proporciona datos para que el segmento sea decodificable independientemente. Un ejemplo de un elemento de datos presente en el encabezado de segmento es la dirección del segmento, que se utiliza para que el decodificador conozca la ubicación espacial del segmento. Hay muchos más elementos de datos en el encabezado de segmento.
HEVC usa imágenes previamente decodificadas para codificar y decodificar una imagen actual. Estas imágenes previamente decodificadas se denominan imágenes de referencia. El codificador indica al decodificador qué imágenes de referencia se pueden usar para decodificar en un conjunto de imágenes de referencia (RPS). Las imágenes previamente decodificadas se almacenan en una memoria intermedia de imágenes decodificadas (DPB) y el RPS indica qué imágenes en la DPB se deben conservar, es decir, cuáles se pueden usar como imágenes de referencia y qué imágenes en la DPB se deben descartar, es decir, nunca se utilizarán como referencia nuevamente. Cabe señalar que el codificador contiene una copia de la DPB del decodificador.
La figura 1 ilustra un escenario simplificado, donde las imágenes se distinguen por un recuento de orden de imágenes (POC). En este caso, el RPS indica POC 1 y POC 2, lo que implica que las imágenes de referencia identificadas por POC 1 y POC2 deben mantenerse en las DPB y las imágenes identificadas por POC 3 deben descartarse, a menos que se muestren para su visualización.
El conjunto de imágenes de referencia (RPS) para cada imagen se compone de cinco listas diferentes (no mostradas en la figura 1) de imágenes de referencia, también denominadas como los cinco subconjuntos RPS: RefPicSetStCurrBefore consiste en todas las imágenes de referencia a corto plazo que son anteriores a la imagen actual, tanto en el orden de decodificación como en el orden de salida, y que están disponibles para predecir la imagen actual. RefPicSetStCurrAfter consiste en todas las imágenes de referencia a corto plazo que son anteriores a la imagen actual en orden de decodificación, que suceden a la imagen actual en orden de salida y que están disponibles para la predicción de la imagen actual. RefPicSetStFoll consiste en todas las imágenes de referencia a corto plazo que están disponibles para la predicción de una o más de las imágenes que siguen a la imagen actual en orden de decodificación, y que no están disponibles para la predicción de la imagen actual. RefPicSetLtCurr consiste en todas las imágenes de referencia a largo plazo que están disponibles para la predicción de la imagen actual. RefPicSetLtFoll consiste en todas las imágenes de referencia a largo plazo que están disponibles para la predicción de una o más de las imágenes que siguen a la imagen actual en orden de decodificación, y que no están disponibles para la predicción de la imagen actual.
El RPS controla las imágenes que son posibles para poner en la lista de imágenes de referencia. Sin embargo, una imagen que se incluye en la lista de imágenes de referencia puede o no usarse para interpredicción, pero para que una imagen se use para interpredicción (utilizada para referencia) para la imagen actual se requiere que la imagen se incluya en una lista de imágenes de referencia, en una de las listas indicadas Curr. En resumen, RPS controla qué imágenes de referencia se deben mantener en la DPB y qué imágenes de referencia se deben descartar de la DPB. Por lo tanto, las imágenes que se enumeran en el RPS (cualquiera de las 5 listas de RPS) se mantienen y las imágenes que no figuran en la lista se descartan. Luego, RPS también controla qué imágenes son posibles de poner en las listas de imágenes de referencia L0 y L1. Las imágenes en las listas Foil no se pueden poner en L0 y L1. L0 y L1 solo pueden contener algunas de las imágenes de las listas Curr. Finalmente, el codificador elige qué imágenes de referencia de L0 y L1 usar para la interpredicción para cada bloque. Por ejemplo, puede optar por utilizar una imagen de referencia para todos los bloques, incluso si L0 y L1 contienen muchas imágenes.
El proyecto de especificación HEVC especifica que cada imagen pertenecerá a una capa temporal y que un elemento de sintaxis llamado identificación temporal deberá estar presente para cada imagen en la corriente de bits, que corresponde a la capa temporal de la imagen a la que pertenece.
Las capas temporales están clasificadas y tienen la propiedad de que una imagen de una capa temporal inferior no hace referencia a una imagen de una capa temporal superior. Por lo tanto, las capas temporales superiores se pueden eliminar sin afectar las capas temporales inferiores. La eliminación de capas temporales se puede denominar escalamiento temporal. La eliminación de capas se puede hacer en una entidad que no es ni un codificador ni un decodificador, tal como un nodo de red. Dicha entidad puede, pero no se limita a, reenviar paquetes de corriente de bits de video desde un codificador a un decodificador y realizar la eliminación de capas temporales sin realizar una decodificación de video completa en los datos entrantes.
La corriente de bits resultante después de que una o más capas temporales han sido retiradas se llama una subsecuencia. En HEVC es posible señalar que una imagen es un punto de conmutación de capa temporal, lo que indica que en esta imagen es posible que un decodificador comience a decodificar más capas temporales de las que se decodificaron antes del punto de conmutación. La indicación del punto de conmutación garantiza que ninguna imagen que sigue al punto de conmutación hace referencia a una imagen anterior al punto de conmutación que podría no haber sido decodificada porque pertenece a una capa temporal más alta que la decodificada antes del punto de conmutación. Por lo tanto, los puntos de conmutación son muy útiles para una entidad de eliminación de capa para saber cuándo dejar de eliminar una determinada capa temporal y comenzar a reenviarla.
Un ejemplo se muestra en la figura 2, donde el eje vertical representa la capa temporal y el eje horizontal representan el orden de salida. Los números en las imágenes representan el orden de decodificación. Las flechas representan la interpredicción.
La conmutación temporal puede realizarse en cualquier punto excepto en la imagen P6 (a la imagen P7), ya que P7 usa P5 para interpredicción.
HEVC contiene cuatro tipos diferentes de imágenes: actualización instantánea del decodificador (IDR), acceso aleatorio limpio (CRA), acceso a la capa temporal (TLA) e imágenes regulares (sin IDR, sin CRA y sin TLA).
Las imágenes IDR y CRA deben tener identificación temporal igual a 0. Las imágenes TLA deben tener una identificación temporal mayor que 0.
El tipo de imagen TLA se utiliza para definir un punto de conmutación de capa temporal y actualmente se define como: imagen de acceso de capa temporal (TLA): Una imagen codificada para la cual cada segmento tiene tipo de unidad final igual a 3; la imagen TLA y todas las imágenes codificadas con una identificación temporal mayor o igual a identificación temporal de la imagen de TLA que sigue a la imagen TLA en orden de decodificación no utilizarán la interpredicción de ninguna imagen con un identificación temporal mayor o igual al identificación temporal de la imagen de TLA que precede a la imagen TLA en orden de decodificación.
De acuerdo con la especificación actual HEVC, se permite incluir una imagen de referencia de la misma o capa temporal superior en el conjunto de imágenes de referencia de una imagen TLA. También se permite incluir una imagen de referencia de la misma capa temporal en las listas de imágenes de referencia de la imagen TLA siempre que no se utilice para la interpredicción. Sin embargo, si un elemento de red con reconocimiento de medios (MANE) realiza una conmutación de capa temporal en ese punto, la imagen de referencia en el RPS desde la misma capa temporal que la imagen TLA no estaría en la DPB.
Sin embargo, se especifica para el RPS que:
Cuando la primera imagen codificada en la corriente de bits es una imagen IDR o la imagen codificada actual no es una imagen principal de la primera imagen codificada en la corriente de bits, no habrá ninguna entrada en RefPicSetStCurrBefore, RefPicSetStCurrAfter o RefPicSetLtCurr que sea igual a "sin imagen de referencia".
Una entrada es igual a "sin imagen de referencia" significa que la imagen no está presente en la DPB.
Por lo tanto, este requisito en el RPS violaría lo que significa que con la especificación actua1HEVC es posible utilizar el tipo de imagen TLA a pesar de que no es posible realizar la conmutación de capa temporal válida.
Samuelsson J et.al:"AHG15: Temporal layer access pictures" n°. JCTVC-H0566, 21 de enero de 2012, XP030111593 se refiere a una forma de unificar la señalización de imágenes CRA e imágenes TLA.
Sumario
Un problema con la especificación HEVC existente es que un codificador puede utilizar el tipo de imagen TLA para una imagen que tiene una imagen P en su conjunto de imágenes de referencia a pesar de que P precede a la imagen TLA en orden de decodificación y tiene la misma identidad temporal. Siempre y cuando la imagen P no se use para interpredicción, esto está bien. Esto requiere un MANE para realizar un seguimiento del estado RPS para que no realice una conmutación en esa imagen TLA. Sería preferible que el MANE solo tenga que verificar los tipos de imagen y asegurarse de que la conmutación en una imagen TLA no pueda generar una corriente de bits que rompa la conformidad de la corriente de bits.
Por ejemplo (refiriéndose a la figura 2), es posible incluir P1 en el conjunto de imágenes de referencia de P2 y todavía codificar P2 como una imagen TLA (ya que P1 no es usado por P2 o cualquier imagen que sigue P2 en orden de decodificación). Entonces P1 se puede incluir en RefPicSetStCurrBefore de P3 siempre que no se utilice para interpredicción. Sin embargo, si se realizó un cambio temporal en P2, P1 no estaría en la DPB cuando se decodifica P3, lo que violaría el requisito del RPS.
Así, el propósito de la invención es resolver el problema con la definición actual de las imágenes TLA (también denominadas imágenes TSA) que es posible utilizar el tipo de imagen TLA a pesar de que la conmutación en el punto de los resultados de imagen TLA en una corriente de bits que viola un requisito de corriente de bits.
La invención se expone en el juego de reivindicaciones adjunto. Las realizaciones adicionales en la descripción se proporcionan solo como ejemplos ilustrativos.
En los ejemplos presentados en el presente documento, se introduce una restricción que imágenes de referencia de la misma capa temporal o superior no pueden incluirse en el conjunto de imágenes de referencia para una imagen TLA. De esta manera, se garantiza que una subtransmisión después de la conmutación temporal siempre es conforme a la corriente de bits según HEVC.
De acuerdo con un aspecto, se proporciona un codificador de vídeo para codificar una imagen actual que pertenece a un nivel temporal identificado por una identificación temporal. El codificador comprende una unidad para determinar un RPS para la imagen actual. El RPS indica las imágenes de referencia y debe mantenerse en la DPB al decodificar la imagen actual. El codificador comprende además una unidad de control de RPS para garantizar que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual cuando la imagen actual 550 es un punto de conmutación temporal. La imagen actual, que es un punto de conmutación temporal, es una imagen de acceso de subcapa temporal, TSA, la imagen TSA y todas las imágenes codificadas con identificación temporal mayor o igual que la identificación temporal de la imagen TSA que siguen a la imagen TSA en el orden de decodificación no se incluirá ninguna imagen en su conjunto de imágenes de referencia que preceda a la imagen TSA en el orden de decodificación y para la cual la identificación temporal sea mayor o igual que la identificación temporal de la imagen TSA.
De acuerdo con un segundo aspecto, se proporciona un elemento para analizar bits que representan al menos una parte de una imagen actual, en el que la imagen actual pertenece a un nivel temporal identificado por una identificación temporal. La imagen actual es recibida por una unidad de entrada y la imagen actual está asociada con un RPS que indica las imágenes de referencia que se deben mantener en la DPB al decodificar la imagen actual. El elemento comprende una unidad de análisis configurada para afirmar que, para la imagen actual, al tratarse de un punto de conmutación temporal, no hay ninguna imagen incluida en el RPS de la imagen actual que tiene la misma identificación temporal o superior que la imagen actual. El elemento comprende además una unidad de determinación configurada para interpretar eso como un error de bit, pérdida de datos o corriente de bits no conforme cuando tal imagen se incluye en el RPS.
La imagen actual, que es un punto de conmutación temporal, es una imagen de acceso de subcapa temporal, TSA, la imagen TSA y todas las imágenes codificadas con identificación temporal mayor o igual que la identificación temporal de la imagen TSA que siguen a la imagen TSA en el orden de decodificación no se incluirá ninguna imagen en su conjunto de imágenes de referencia que preceda a la imagen TSA en el orden de decodificación y para la cual la identificación temporal sea mayor o igual que la identificación temporal de la imagen TSA.
Según un tercer aspecto, se proporciona un dispositivo. El dispositivo comprende un codificador de video según el primer aspecto.
Una ventaja con las realizaciones es que la restricción proporcionada hace que la capa temporal de acceso imágenes sea más útil. Las realizaciones pueden usarse, por ejemplo, en un nodo de red o MANE para realizar una conmutación de capa temporal sin analizar y realizar un seguimiento de los RPS. El nodo de red o MANE solo necesita inspeccionar el tipo de unidad NAL (capa de abstracción de red) para realizar de manera segura el cambio de capa temporal. Sin las realizaciones, dicha conmutación puede conducir a la salida de una corriente de bits que no cumple con HEVC.
Breve descripción de los dibujos
La figura 1 ilustra esquemáticamente un RPS y cómo el RPS indica qué imágenes de referencia se mantendrán en la DPB según la técnica anterior.
La figura 2 ilustra imágenes en diferentes capas temporales de acuerdo con la técnica anterior.
Las figuras 3 y 4 son diagramas de flujo que ilustran métodos de acuerdo con realizaciones de la presente invención.
La figura 5 ilustra esquemáticamente un codificador y un elemento según realizaciones de la presente invención. La figura 6 ilustra esquemáticamente un transmisor y un receptor de acuerdo con realizaciones de la presente invención.
Las figuras 7 y 8 ilustran esquemáticamente el codificador y el elemento implementado por el respectivo programa informático y el producto de programa informático.
Descripción detallada
Las realizaciones de la presente invención se refieren a procesos de codificación de vídeo donde se utilizan imágenes previamente decodificadas para imágenes de referencia cuando se decodifica una imagen actual y donde cada imagen pertenece a una capa temporal como se explicó anteriormente.
Más específicamente, las realizaciones se refieren a imágenes que son un punto de conmutación de capa temporal ejemplificado por imágenes de acceso de capa temporal (TLA). El punto de conmutación de capa temporal indica que en esta imagen es posible para que un decodificador inicie la decodificación de capas más temporales que fueron decodificadas antes del punto de conmutación. La indicación del punto de conmutación garantiza que ninguna imagen que sigue al punto de conmutación hace referencia a una imagen anterior al punto de conmutación que podría no haber sido decodificada porque pertenece a una capa temporal más alta que la decodificada antes del punto de conmutación. Por lo tanto, los puntos de conmutación son muy útiles para una entidad de eliminación de capa para saber cuándo dejar de eliminar una determinada capa temporal y comenzar a reenviarla.
El problema con la definición actual de imágenes TLA es que es posible utilizar el tipo de imagen TLA a pesar de que el cambio en el punto de la imagen TLA resulta en una corriente de bits que viola el requisito del RPS.
Las imágenes TLA se denominan en lo sucesivo como imágenes TSA (acceso de subcapa temporal).
En una realización que se resuelve mediante un procedimiento para ser realizado por el codificador que aplica la restricción de que:
"Cuando la imagen actual es una imagen TSA, no se incluirá ninguna imagen en el RPS con un identificador temporal mayor o igual que la identificación temporal de la imagen actual".
Se proporciona un método según un aspecto de las realizaciones como se ilustra en la figura 3. En el método, el codificador codifica una imagen actual que pertenece a un nivel temporal y determina 301 un RPS para la imagen actual, en el que el RPS indica las imágenes de referencia que se mantendrán en la DPB al decodificar la imagen actual. Se puede permitir que las imágenes de referencia se usen para imágenes de referencia para la imagen actual y/o imágenes futuras. Típicamente, el RPS se determina antes de que se codifiquen los valores de píxeles de la imagen. Cuando el codificador determina 302 que la imagen actual es un punto de conmutación temporal tal como una imagen ATSA, el codificador asegura 303 que no hay ninguna imagen incluida en el RPS con una identificación temporal mayor o igual que la identificación temporal de la imagen actual. Por lo tanto, las imágenes indicadas en el RPS no deben tener una identificación temporal mayor o igual que la identificación temporal de la imagen actual. De acuerdo con una realización, la imagen, que es un punto de conmutación temporal, es una imagen TSA que se define como:
Imagen de acceso temporal a la subcapa (TSA): Una imagen codificada para la cual cada segmento tiene tipo de unidad final igual a 3; la imagen TSA y todas las imágenes codificadas con identificación temporal mayor o igual que la identificación temporal de la imagen TSA que sigue a la imagen TSA en orden de decodificación no incluirán ninguna imagen en su conjunto de imágenes de referencia que preceda a la imagen TSA en orden de decodificación y para la cual la identificación temporal es mayor o igual que la identificación temporal de la imagen TSA.
De acuerdo con esta realización, el codificador está configurado para realizar lo siguiente:
Al codificar una imagen TSA, el codificador asegura que las imágenes de referencia indicadas para que el RPS permita la referencia de la imagen TSA solo incluyan imágenes con una identificación temporal menor que la imagen TSA.
De acuerdo con esta realización, un elemento que opera en una corriente de bits (tal como una red de nodo o un elemento de red de reconocimiento de medios) está configurado para realizar lo siguiente:
Al usar las realizaciones, el elemento que recibe una corriente de bits decodificada puede realizar una conmutación temporal en un punto de conmutación temporal, ejemplificado por la imagen TSA, sin escanear el RPS del punto de conmutación temporal para imágenes en la misma capa temporal con used_by_curr_pic_flag igual a 1 que indica que la imagen se puede usar como referencia. El elemento puede estar seguro de que es posible realizar el cambio de capa temporal en cualquier imagen TSA.
Por consiguiente, se proporciona un método realizado en un elemento como se ilustra en la figura 4. El elemento analiza bits que representan al menos una parte de una imagen actual (es decir, los bits codificados), en el que la imagen actual pertenece a una capa temporal. El elemento puede analizar los bits de encabezado (por ejemplo, los bits de segmento) de la imagen (es decir, los bits que representan al menos una parte de la imagen actual) o los bits que representan la imagen completa. Si el elemento es un decodificador, el elemento analiza los bits y también decodifica los bits.
En el método, el elemento afirma 401 que para cada imagen TSA (es decir, para cada punto de conmutación temporal) no hay ninguna imagen incluida en el RPS del punto de conmutación temporal que tiene el mismo identificación temporal o superior como la imagen TSA. Si existe tal imagen 402, el elemento está configurado para interpretar 403 como un error de bit, pérdida de datos o corriente de bits no conforme o codificador no conforme y tomar las medidas apropiadas (por ejemplo, informar el error o realizar el ocultamiento). Si no existe dicha imagen, el elemento está configurado para interpretar la corriente de bits como una corriente de bits correcta, reenviar la imagen actual a un decodificador o decodificar la imagen TSA si el elemento comprende un decodificador.
El elemento puede ser un decodificador, o cualquier elemento que opera en una corriente de bits que puede realizar la conmutación temporal tal como una red de nodo o un elemento de red de reconocimiento de medios (MANE). Con referencia de acuerdo con la figura 5, se proporciona un codificador de vídeo 100 para la codificación de una imagen actual que pertenece a un nivel temporal identificado mediante una identificación temporal. El codificador 100 comprende una unidad 501 para determinar un RPS 210 para la imagen actual 550. El RPS 210 indica las imágenes de referencia que se deben mantener en la DPB al decodificar la imagen actual 550. El codificador comprende además una unidad de control RPS 502 para asegurar que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual 550 cuando la imagen actual 550 es un punto de conmutación temporal. Típicamente, el codificador 100 comprende una unidad de salida 503 configurada para enviar la imagen actual 550 y el RPS 210 y también una copia de la DPB 150 del decodificador.
Además, la unidad de control RPS 210 está configurada para asegurar que la imagen TSA y todas las imágenes codificadas con mayor identificación temporal que o igual a la identificación temporal de la imagen TSA que siguen a la imagen TSA en orden de decodificación no incluirá cualquier imagen en su conjunto de imágenes de referencia que precede a la imagen TSA en orden de decodificación y para la cual la identificación temporal es mayor o igual que la identificación temporal de la imagen TSA.
Con referencia adicional a la figura 5, un elemento 200 para analizar una imagen actual 550 que pertenece a un nivel temporal identifica mediante una identificación temporal, la imagen actual es recibida por una unidad de entrada 504 y la imagen actual se asocia con un RPS 210 que indica las imágenes de referencia que se deben mantener en la DPB al decodificar la imagen actual. Por lo tanto, las imágenes de referencia se pueden utilizar como referencia para la imagen actual y/o las imágenes futuras. El elemento 200 comprende una unidad de análisis 505 configurada para afirmar que para la imagen actual 550, al tratarse de un punto de conmutación temporal, no hay ninguna imagen incluida en el RPS de la imagen actual que tiene la misma identificación temporal o superior que la imagen actual. El elemento comprende además una unidad de determinación 506 configurada para interpretar eso como un error de bit, pérdida de datos o corriente de bits no conforme cuando tal imagen se incluye en el RPS. Si el elemento es un decodificador, comprende una DPB 150 que comprende imágenes decodificadas previamente. Las imágenes decodificadas indicadas por el RPS pueden usarse como imágenes de referencia al decodificar la imagen actual y/o las imágenes futuras.
Según una realización, la unidad de determinación 506 está configurada además para informar de los errores de bits o pérdida de datos o corriente de bits no conforme y/o para llevar a cabo el ocultamiento si hay al menos una imagen de referencia incluida en el RPS de la imagen actual que tiene la misma o mayor identificación temporal que la imagen actual:
La imagen actual, que es un punto de conmutación temporal, es, según una realización, un acceso de subcapa temporal (imagen TSA). La imagen TSA se define como: El TSA y todas las imágenes codificadas con mayor identificación temporal que o igual a la identificación temporal de la imagen TSA que siguen a la imagen TSA en orden de decodificación no incluirá cualquier imagen en su conjunto de imágenes de referencia que precede a la imagen TSA en orden de decodificación y para la cual la identificación temporal es mayor o igual que la identificación temporal de la imagen TSA.
La imagen TSA además puede definirse como un punto de conmutación de capa temporal que es una imagen codificada para la cual cada segmento tiene un único tipo de unidad final, por ejemplo, tipo de unidad final igual a 3. Además, la unidad de determinación 506 puede estar configurada para comprobar si hay imágenes que no son imágenes TSA, que su RPS no incluye una imagen antes de una imagen TSA que tiene una identificación temporal igual o mayor que la identificación temporal de dicha imagen TSA.
Volviendo a la figura 6, se proporciona un transmisor 601 que comprende un codificador de vídeo 100 para la codificación de una imagen actual que pertenece a un nivel temporal identificado mediante una identificación temporal. El codificador 100 comprende una unidad 501 para determinar un RPS para la imagen actual que indica imágenes de referencia que se mantendrán en la DPB al decodificar la imagen actual, y una unidad de control RPS 502 para garantizar que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual cuando la imagen actual es un punto de conmutación temporal.
Además, se proporciona un receptor 602 que comprende un elemento 200 para analizar bits que representan al menos una parte de una imagen actual, en el que la imagen actual pertenece a un nivel temporal identificado mediante un ID temporal. La imagen actual está asociada con un RPS que indica imágenes de referencia que se guardarán en la DPB al decodificar la imagen actual. El elemento 200 comprende una unidad de análisis 505 configurada para afirmar que, para la imagen actual, cuando se trata de un punto de conmutación temporal, no hay ninguna imagen incluida en el RPS de la imagen actual que tenga la misma o mayor identificación temporal que la imagen actual, y una unidad de determinación 506 configurada para interpretar eso como un error de bit, pérdida de datos o corriente de bits no conforme cuando tal imagen se incluye en el RPS.
Además, un dispositivo 610 comprende un transmisor 601 como se mencionó anteriormente y/o un receptor 602 como también se mencionó anteriormente. El dispositivo puede ser ejemplificado por una cámara de video, por ejemplo, en un dispositivo móvil o cualquier otro dispositivo para mostrar o emitir una transmisión de video.
Las realizaciones se pueden aplicar para HEVC, lo que implica que el codificador puede ser un codificador HEVC y el decodificador puede ser un decodificador HEVC, pero no se limitan a HEVC. Las realizaciones se pueden aplicar a cualquier extensión de HEVC tal como una extensión escalable o una extensión de vista múltiple u otros códecs de video similares.
Así, de acuerdo con las realizaciones, un codificador y cualquier elemento que opera en una corriente de bits, tal como una red de nodo o un elemento de red de reconocimiento de medios está configurado para asegurarse de que cuando la imagen actual es una imagen de la TSA, que no se incluirá ninguna imagen en el RPS con una identificación temporal mayor o igual que la id temporal de la imagen actual.
Las diferentes realizaciones definen diferentes formas de implementar las condiciones y la forma de indicar el elemento de sintaxis.
Además, las funcionalidades del codificador (y entidad similar) y el descodificador puede implementarse por un procesador y la memoria respectiva, en el que la memoria almacena porciones de código de software que pueden ser ejecutadas por el procesador para llevar a cabo dichas funcionalidades.
Como se ilustra en la figura 7, se proporciona un programa informático 703. El programa informático 703 comprende unidades de código legibles por ordenador que cuando se ejecuta en un procesador (702) hace que el procesador (702):
- determine un RPS para la imagen actual que indica las imágenes de referencia que se guardarán en la DPB al decodificar la imagen actual, y
cuando la imagen actual es un punto de conmutación temporal,
- asegurarse de que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual.
También se proporciona un producto de programa informático 701 que comprende un medio legible por ordenador y un programa informático 703 almacenado en el medio legible por ordenador.
Como se ilustra en la figura 8, se proporciona un programa informático 803 El programa informático 803, comprende unidades de código legibles por ordenador que cuando se ejecuta en un procesador 802 hace que el procesador 802:
- afirme que, para la imagen actual, cuando se trata de un punto de conmutación temporal, no hay ninguna imagen incluida en el RPS de la imagen actual que tenga la misma o mayor identificación temporal que la imagen actual, si hay tal imagen incluida en el RPS,
- interprete eso como un error de bit, pérdida de datos o corriente de bits no compatible.
También se proporciona un producto de programa informático 801 que , comprende un medio legible por ordenador y un programa informático 803 de acuerdo con la reivindicación 28 almacenado en el medio legible por ordenador.

Claims (8)

REIVINDICACIONES
1. Un codificador de video (100) para codificar una imagen actual que pertenece a un nivel temporal identificado por un identificador temporal, comprendiendo el codificador (100) una unidad (501) para determinar un conjunto de imágenes de referencia, RPS, para la imagen actual que indica imágenes de referencia que se mantienen en una memoria intermedia de imagen decodificada, DPB, cuando se decodifica la imagen actual, y caracterizado por una unidad de control RPS (502) configurada para garantizar que el RPS de la imagen actual no incluye ninguna imagen que tenga una identificación temporal mayor o igual que la identificación temporal de la imagen actual cuando la imagen actual es un punto de conmutación de capa temporal, en el que la imagen actual, que es un punto de conmutación de capa temporal, es una imagen de acceso a subcapa temporal, TSA, en el que la imagen TSA se define de tal manera que la imagen TSA y todas las imágenes codificadas con la identificación temporal mayor o igual a la identificación temporal de la imagen TSA que sigue a la imagen TSA en orden de decodificación no incluirán ninguna imagen en su conjunto de imágenes de referencia que precede la imagen TSA en orden de decodificación y para la cual la identificación temporal es mayor o igual que la identificación temporal de la imagen TSA, y en el que el punto de conmutación de capa temporal indica que en esta imagen es posible para que un decodificador comience a decodificar más capas temporales que la que se decodificó antes del punto de conmutación de capa temporal.
2. El codificador de video (100) de acuerdo con la reivindicación 1, en el que el punto de conmutación de capa temporal es una imagen codificada para la cual cada segmento tiene un único tipo de unidad final.
3. El codificador de video (100) de acuerdo con la reivindicación 2, en el que la imagen TSA es una imagen codificada para la cual cada segmento tiene un único tipo de unidad final igual a 3.
4. El codificador de video (100) de acuerdo con cualquiera de las reivindicaciones 1-3, en el que el codificador es un codificador de video de alta eficiencia, HEVC.
5. Un elemento (200) para analizar bits que representan al menos una parte de una imagen actual, en el que la imagen actual pertenece a un nivel temporal identificado por una identificación temporal, en el que la imagen actual está asociada con un conjunto de imágenes de referencia, RPS, que indica imágenes de referencia para mantenerse en una memoria intermedia de imagen decodificada, DPB, cuando se decodifica la imagen actual, caracterizado por que el elemento (200) comprende una unidad de análisis (505) configurada para afirmar que para la imagen actual, cuando se trata de un punto de conmutación de capa temporal, no hay ninguna imagen incluida en el RPS de la imagen actual que tiene la misma identificación temporal o mayor que la imagen actual, y una unidad determinante (506) configurada para interpretar eso como un error de bit, pérdida de datos o corriente de bits no conforme cuando existe tal imagen incluida en el RPS, en el que la imagen actual, que es un punto de conmutación de capa temporal, es una imagen de acceso a subcapa temporal, TSA, en la que la imagen TSA se define de manera que la imagen TSA y todas las imágenes codificadas con una identificación temporal mayor o igual que la identificación temporal de la imagen TSA que sigue a la imagen TSA en orden de decodificación no incluirán ninguna imagen en su conjunto de imágenes de referencia que preceda a la imagen TSA en el orden de decodificación y para la cual la identificación temporal sea mayor o igual a la identificación temporal de la imagen TSA, y en el que el punto de conmutación de la capa temporal indica que en esta imagen es posible que un decodificador comience a decodificar más capas temporales que las que se decodificaron antes del punto de conmutación de la capa temporal.
6. El elemento (200) de acuerdo con la reivindicación 5, en el que el punto de conmutación de capa temporal es una imagen codificada para la cual cada segmento tiene un único tipo de unidad final.
7. El elemento (200) de acuerdo con la reivindicación 6, en el que la imagen TSA es una imagen codificada para la cual cada segmento tiene un único tipo de unidad final igual a 3.
8. El elemento (200) de acuerdo con cualquiera de las reivindicaciones 5-7, en el que el elemento (200) es un elemento de red o un decodificador, en el que el decodificador es un decodificador de codificación de video de alta eficiencia, HEVC.
ES13723267T 2012-04-16 2013-04-15 Disposiciones y métodos de las mismas para procesamiento de video Active ES2772028T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261624496P 2012-04-16 2012-04-16
PCT/SE2013/050409 WO2013158020A1 (en) 2012-04-16 2013-04-15 Arrangements and methods thereof for processing video

Publications (1)

Publication Number Publication Date
ES2772028T3 true ES2772028T3 (es) 2020-07-07

Family

ID=48446581

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13723267T Active ES2772028T3 (es) 2012-04-16 2013-04-15 Disposiciones y métodos de las mismas para procesamiento de video

Country Status (6)

Country Link
US (6) US9749644B2 (es)
EP (2) EP3611923B1 (es)
ES (1) ES2772028T3 (es)
PL (1) PL3611923T3 (es)
PT (1) PT3611923T (es)
WO (1) WO2013158020A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2732626A1 (en) * 2011-07-15 2014-05-21 Telefonaktiebolaget L M Ericsson (PUBL) An encoder and method thereof for assigning a lowest layer identity to clean random access pictures
PL4195667T3 (pl) * 2012-06-25 2024-11-25 Huawei Technologies Co., Ltd. Sygnalizowanie obrazu stopniowego dostępu do warstwy czasowej w kodowaniu wideo
EP4383710B1 (en) * 2022-12-05 2025-08-13 Matthias Auchmann Method and apparatus for verifying video data encoded in an encoder unit

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007080223A1 (en) * 2006-01-10 2007-07-19 Nokia Corporation Buffering of decoded reference pictures
KR20100030648A (ko) 2007-06-26 2010-03-18 노키아 코포레이션 시간 레이어 스위칭 포인트들을 표시하는 시스템 및 방법
US20130170561A1 (en) * 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
US9451284B2 (en) * 2011-10-10 2016-09-20 Qualcomm Incorporated Efficient signaling of reference picture sets
CN104160706B (zh) * 2012-01-20 2018-12-28 诺基亚技术有限公司 对图像进行编码的方法和装置以及对图像比特流进行解码的方法和装置

Also Published As

Publication number Publication date
US10104384B2 (en) 2018-10-16
US9749644B2 (en) 2017-08-29
US20240056586A1 (en) 2024-02-15
US20220201318A1 (en) 2022-06-23
US20170324966A1 (en) 2017-11-09
US11843787B2 (en) 2023-12-12
WO2013158020A1 (en) 2013-10-24
US11297335B2 (en) 2022-04-05
US20190007691A1 (en) 2019-01-03
EP3611923A1 (en) 2020-02-19
EP3611923B1 (en) 2021-06-02
US20150071341A1 (en) 2015-03-12
PL3611923T3 (pl) 2021-12-06
US20200288151A1 (en) 2020-09-10
PT3611923T (pt) 2021-06-18
EP2839658A1 (en) 2015-02-25
EP2839658B1 (en) 2019-11-13
US12363321B2 (en) 2025-07-15
US10708604B2 (en) 2020-07-07

Similar Documents

Publication Publication Date Title
US11528496B2 (en) Encoder and decoder and methods thereof for encoding/decoding a picture of a video sequence
US10893288B2 (en) Decoders and methods thereof for managing pictures in video decoding process
ES2714756T3 (es) Señalización de imágenes de referencia
KR102067231B1 (ko) 네트워크 장치 및 오류 처리
ES2650995T3 (es) Codificación y descodificación de secuencias de video que comprenden conjuntos de imágenes de referencia
US12363321B2 (en) Arrangements and methods of encoding picture belonging to a temporal level
ES2389745T3 (es) Método y aparato para la ocultación de error de vídeo en vídeo codificado de multivistas utilizando sintaxis de nivel alto
US20140233653A1 (en) Decoder and encoder for picture outputting and methods thereof
CN114009032B (zh) 视频编码层上切换指示