ES2968163T3

ES2968163T3 - Derivación de vector de movimiento restringido para imágenes de referencia a largo plazo en codificación de video

Info

Publication number: ES2968163T3
Application number: ES20760226T
Authority: ES
Inventors: Yi-Wen Chen; Xiaoyu Xiu; Xianglin Wang; Tsung-Chuan Ma
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-02-20
Filing date: 2020-02-19
Publication date: 2024-05-08
Anticipated expiration: 2040-02-19
Also published as: EP4262208A2; KR102492738B1; CN116915982B; CN116915982A; EP3912357A1; EP3912357A4; CN114339237B; DK3912357T3; JP7447322B2; CN117119181A; JP7218449B2; KR20210107897A; MX2021010062A; PT3912357T; CN113424539A; JP2022520867A; CN117041556B; CN116915983A; CN117119181B; PL3912357T3

Description

DESCRIPCIÓN

Derivación de vector de movimiento restringido para imágenes de referencia a largo plazo en codificación de videoCampo

La presente descripción se refiere en general a codificación y compresión de vídeo. Más específicamente, esta descripción se refiere a sistemas y métodos para realizar codificación de vídeo utilizando restricciones en la derivación de vector de movimiento para imágenes de referencia a largo plazo.

Antecedentes

Esta sección proporciona información general relacionada con la presente descripción. La información contenida en esta sección no debería interpretarse necesariamente como técnica anterior.

Se puede utilizar cualquiera de las diversas técnicas de codificación de vídeo para comprimir datos de vídeo. La codificación de vídeo se puede realizar según uno o más estándares de codificación de vídeo. Algunos estándares de codificación de video ilustrativos incluyen codificación de video versátil (VVC), codificación de modelo de prueba de exploración conjunta (JEM), codificación de video de alta eficiencia (H.265/HEVC), codificación de video avanzada (H.264/AVC) y codificación de grupo de expertos en imágenes en movimiento (MPEG).

La codificación de vídeo generalmente utiliza métodos predictivos (por ejemplo, inter predicción, intra predicción o similares) que aprovechan la redundancia inherente a las imágenes o secuencias de vídeo. Uno de los objetivos de las técnicas de codificación de vídeo es comprimir los datos de vídeo en un formato que utilice una tasa de bits más baja, evitando o minimizando al mismo tiempo las degradaciones de la calidad del vídeo.

Los métodos predictivos utilizados en la codificación de vídeo normalmente incluyen realizar predicción espacial (intra fotograma) y/o predicción temporal (inter fotograma) para reducir o eliminar la redundancia inherente a los datos de vídeo, y normalmente están asociados con la codificación de vídeo basada en bloques.

En la codificación de vídeo basada en bloques, la señal de vídeo de entrada se procesa bloque por bloque. Para cada bloque (también conocido como unidad de codificación (CU)), se puede realizar predicción espacial y/o predicción temporal.

La predicción espacial (también conocida como "intra predicción") utiliza píxeles de las muestras de bloques contiguos ya codificados (que se denominan muestras de referencia) en la misma imagen/segmento de vídeo para predecir el bloque actual. La predicción espacial reduce la redundancia espacial inherente a la señal de vídeo. La predicción temporal (también conocida como "inter predicción" o "predicción con compensación de movimiento") utiliza píxeles reconstruidos a partir de imágenes de vídeo ya codificadas para predecir el bloque actual. La predicción temporal reduce la redundancia temporal inherente a la señal de vídeo. La señal de predicción temporal para una CU determinada normalmente se señala mediante uno o más vectores de movimiento (MV) que indican la cantidad y la dirección del movimiento entre la CU actual y su referencia temporal. También, cuando se soportan múltiples imágenes de referencia, se envía adicionalmente un índice de imagen de referencia, que se utiliza para identificar de qué imagen de referencia en el almacenamiento de imágenes de referencia proviene la señal de predicción temporal.

Después de la predicción espacial y/o temporal, el bloque de decisión de modo en el codificador elige el mejor modo de predicción, por ejemplo basándose en el método de optimización de distorsión de velocidad. A continuación, el bloque de predicción se resta del bloque actual; y el residuo de predicción se desconecta utilizando transformada y se cuantiza. Los coeficientes residuales cuantizados se cuantizan y transforman inversamente para formar el residuo reconstruido, que, a continuación, se vuelve a añadir al bloque de predicción para formar la señal reconstruida del bloque.

Después de las predicciones espaciales y/o temporales, se puede aplicar un filtrado en bucle adicional, tal como un filtro de desbloqueo, un desplazamiento adaptativo de muestra (SAO) y un filtro en bucle adaptativo (ALF) en la CU reconstruida antes de colocarla en el almacén de imágenes de referencia y se utiliza para codificar futuros bloques de vídeo. Para formar el flujo de bits de vídeo de salida, el modo de codificación (inter o intra), la información del modo de predicción, la información de movimiento y los coeficientes residuales cuantizados se envían todos a la unidad de codificación de entropía para ser comprimidos y empaquetados aún más para formar el flujo de bits. Durante el proceso de decodificación, el flujo de bits de vídeo es la primera entropía decodificada en una unidad de decodificación de entropía. El modo de codificación y la información de predicción se envían, bien a la unidad de predicción espacial (cuando está intracodificada), o bien a la unidad de predicción temporal (cuando está inter codificada) para formar el bloque de predicción. Los coeficientes de transformada residual se envían a la unidad de cuantización inversa y a la unidad de transformada inversa para reconstruir el bloque residual. A continuación, se añaden juntos el bloque de predicción y el bloque residual. El bloque reconstruido puede pasar además a través de un filtrado en bucle antes de almacenarse en el almacén de imágenes de referencia. El vídeo reconstruido en el almacén de imágenes de referencia se envía, a continuación, para controlar un dispositivo de presentación y se utiliza para predecir futuros bloques de vídeo.

En los estándares de codificación de vídeo, tales como HEVC y VVC, el concepto de conjunto de imágenes de referencia (RPS) define cómo se gestionan las imágenes previamente decodificadas en un búfer de imágenes decodificadas (DPB) con el fin de utilizarlas como referencia, es decir, predicción de datos de muestra y predicción de vector de movimiento. En general, el concepto de RPS para la gestión de imágenes de referencia es señalar el estado del DPB en cada segmento (también conocido como "mosaico" en el VVC actual).

Las imágenes en el DPB se pueden marcar como "utilizadas como referencia a corto plazo", "utilizadas como referencia a largo plazo" o "no utilizadas como referencia". Una vez que una imagen se ha marcado como "no utilizada como referencia", ya no se puede utilizar para la predicción y, cuando ya no es necesaria para la salida, se puede eliminar del DPB.

En general, la imagen de referencia a largo plazo suele estar más alejada de la imagen actual en comparación con la imagen de referencia a corto plazo en términos de orden de visualización (es decir, recuento de orden de imágenes o denominado POC). Esta distinción entre imágenes de referencia a largo plazo e imágenes de referencia a corto plazo puede afectar a algunos procesos de decodificación, tal como el escalado del vector de movimiento en la predicción MV temporal y espacial o la predicción ponderada implícita.

En estándares de codificación de vídeo, tales como HEVC y WC, al derivar candidatos de vector de movimiento espacial y/o temporal, se imponen ciertas restricciones al proceso de escalado que forma parte de la derivación de los candidatos de vector de movimiento espacial y/o temporal, basándose en si ciertas imágenes de referencia implicadas en el proceso son imágenes de referencia a largo plazo o no son imágenes de referencia a largo plazo. Sin embargo, de conformidad con las especificaciones de códec de vídeo tales como la estandarización VVC actual, no se han impuesto restricciones similares a las herramientas de codificación de vídeo entre modos más nuevas adoptadas en dichas especificaciones de códec de vídeo para la derivación de candidatos de vector de movimiento para bloques codificados intermodales.

Un documento que no es de patente "Descripción general de la sintaxis de alto nivel de HEVC y la gestión de imágenes de referencia" las imágenes propuestas en el DPB se pueden marcar como "utilizadas como referencia a corto plazo", "utilizadas como referencia a largo plazo" o "no utilizadas como referencia”. Un documento de patente 2018/278949A1 ha propuesto alguna herramienta de codificación, por ejemplo, DMVD, BIO y similares, y la aplicación de una o más restricciones a la información de movimiento, tal como un MV derivado por DMVD, y/o una diferencia de MV entre un MV inicial y un MV derivado por DMVD.

Compendio

Esta sección proporciona un resumen general de la descripción y no es una descripción integral de su alcance completo ni de todas sus características.

Según un primer aspecto de la presente descripción, un método de decodificación de vídeo se realiza en un dispositivo informático que tiene uno o más procesadores y una memoria que almacena una pluralidad de programas para ser ejecutados por uno o más procesadores. El método incluye la determinación de si una o más de las imágenes de referencia asociadas con un bloque codificado intermodal implicado en una operación de una herramienta de codificación intermodal son imágenes de referencia a largo plazo; y la restricción de la operación de una herramienta de codificación intermodal en el bloque codificado intermodal basándose en la determinación, en donde en el caso de que la herramienta de codificación intermodal comprenda flujo óptico bidireccional, BDOF, y el bloque codificado intermodal sea un bloque de predicción bidireccional, que restringe la operación de la herramienta de codificación intermodal en el bloque codificado intermodal basándose en la determinación comprende; la prohibición del desempeño del BDOF al determinar que una imagen de referencia del bloque de predicción bidireccional es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional no es una imagen de referencia a largo plazo.

Según un segundo aspecto de la presente solicitud, un dispositivo informático incluye uno o más procesadores, una memoria y una pluralidad de programas almacenados en la memoria. Los programas, cuando son ejecutados por uno o más procesadores, hacen que el dispositivo informático realice operaciones como se ha descrito anteriormente.

Según un tercer aspecto de la presente solicitud, un medio de almacenamiento no transitorio legible por ordenador almacena una pluralidad de programas para su ejecución por un dispositivo informático que tiene uno o más procesadores. Los programas, cuando son ejecutados por uno o más procesadores, hacen que el dispositivo informático realice operaciones como se ha descrito anteriormente.

Breve descripción de los dibujos

De aquí en adelante, se describirán conjuntos de realizaciones ilustrativas, no limitativas de la presente descripción junto con los dibujos adjuntos. Los expertos en la técnica relevante pueden implementar variaciones de estructura, método o funcionalidad basándose en los ejemplos presentados en la presente memoria, y todas dichas variaciones están contenidas dentro del alcance de la presente descripción. En los casos donde no haya conflicto, las enseñanzas de diferentes realizaciones pueden, aunque no es necesario, combinarse entre sí.

La fig. 1 es un diagrama de bloques que expone un codificador de vídeo híbrido basado en bloques ilustrativo que puede utilizarse junto con muchos estándares de codificación de vídeo.

La fig. 2 es un diagrama de bloques que expone un decodificador de vídeo ilustrativo que puede utilizarse junto con muchos estándares de codificación de vídeo.

La fig. 3 es una ilustración de particiones de bloques en una estructura de árbol de tipos múltiples que puede utilizarse junto con muchos estándares de codificación de vídeo.

La fig. 4 es una ilustración del proceso de flujo óptico bidireccional (BDOF).

La fig. 5 es una ilustración de la correspondencia bilateral utilizada en el refinamiento del vector de movimiento del lado del decodificador (DMVR).

La fig. 6 es una ilustración de puntos de búsqueda utilizados en el modo de fusión con diferencias de vector de movimiento (MMVD).

La fig. 7A es una ilustración de los bloques contiguos espaciales utilizados en el modo de predicción de vector de movimiento temporal basada en subbloques (SbTMVP).

La fig. 7B es una ilustración de la derivación, en modo SbTMVP, de información de movimiento a nivel subCU aplicando el cambio de movimiento identificado a partir de los bloques contiguos espaciales.

Descripción detallada

La invención está definida por las reivindicaciones adjuntas.

Los términos utilizados en la presente descripción están dirigidos a ilustrar ejemplos particulares, en lugar de limitar la presente descripción. Las formas singulares "un/una", "uno" y "el/la" tal como se utilizan en la presente descripción, así como las reivindicaciones adjuntas, también se refieren a formas plurales, a menos que el contexto contenga definitivamente otros significados. Debería apreciarse que el término "y/o", tal como se utiliza en la presente memoria, se refiere a cualquiera o todas las combinaciones posibles de uno o más elementos enumerados asociados.

Se comprenderá que, aunque los términos "primero", "segundo", "tercero", etc. pueden utilizarse en la presente memoria para describir diversa información, la información no debería estar limitada por estos términos. Estos términos sólo se utilizan para distinguir una categoría de información de otra. Por ejemplo, sin desviarse del alcance de la presente descripción, la primera información puede denominarse segunda información; y de manera similar, la segunda información también puede denominarse primera información. Tal como se utiliza en la presente memoria, se puede comprender que el término "si" significa "cuando", "sobre" o "en respuesta a", dependiendo del contexto. La referencia a lo largo de esta memoria descriptiva a "una realización", "otra realización" o similares en singular o plural significa que una o más características, estructuras o distintivos particulares descritos en relación con una realización están incluidas en al menos una realización de la presente descripción. Así, las apariciones de las frases "en una realización", "en otra realización" o similares en singular o plural en varios lugares a lo largo de esta memoria descriptiva no necesariamente se refieren todas a la misma realización. Además, las características, estructuras o distintivos particulares en una o más realizaciones se pueden combinar de cualquier manera adecuada.

Conceptualmente, muchos estándares de codificación de vídeo son similares, incluyendo los mencionados anteriormente en la sección Antecedentes. Por ejemplo, prácticamente todos los estándares de codificación de video utilizan procesamiento basado en bloques y comparten diagramas de bloques de codificación de video similares para lograr la compresión de video.

La fig. 1 muestra un diagrama de bloques de un codificador 100 de vídeo híbrido basado en bloques ilustrativo que puede utilizarse junto con muchos estándares de codificación de vídeo. En el codificador 100, un fotograma de vídeo se divide en una pluralidad de bloques de vídeo para su procesamiento. Para cada bloque de vídeo determinado, se forma una predicción basada, bien en un enfoque de inter predicción, o bien en un enfoque de intra predicción. En la inter predicción, se forman uno o más predictores a través de la estimación y compensación del movimiento, basándose en píxeles de fotogramas reconstruidos previamente. En la intra predicción, los predictores se forman basándose en los píxeles reconstruidos en un fotograma actual. A través de la decisión de modo, se puede elegir el mejor predictor para predecir un bloque actual.

Un residuo de predicción, que representa la diferencia entre un bloque de vídeo actual y su predictor, se envía a un circuito 102 de transformada. A continuación, se envían coeficientes de transformada desde el circuito 102 de transformada a un circuito 104 de cuantización para la reducción de entropía. A continuación, los coeficientes cuantizados se alimentan en un circuito 106 de codificación de entropía para generar un flujo de bits de vídeo comprimido. Como se muestra en la fig. 1, la información 110 relacionada con la predicción procedente de un circuito de inter predicción y/o un circuito de intra predicción 112, tal como información de partición de bloque de vídeo, vectores de movimiento, índice de imagen de referencia y modo de intra predicción, también se alimenta a través del circuito 106 de codificación de entropía y guardado en un flujo de bits 114 de vídeo comprimido.

En el codificador 100, también se necesitan circuitos relacionados con el decodificador con el fin de reconstruir píxeles con fines de predicción. En primer lugar, se reconstruye un residuo de predicción a través de una cuantización 116 inversa y un circuito 118 de transformada inversa. Este residuo de predicción reconstruido se combina con un predictor 120 de bloques para generar píxeles reconstruidos sin filtrar para un bloque de vídeo actual.

Para mejorar la eficiencia de la codificación y la calidad visual, se suele utilizar un filtro en bucle. Por ejemplo, un filtro de desbloqueo está disponible en AVC, HEVC, así como la versión actual de WC. En HEVC, se define un filtro en bucle adicional llamado SAO (desplazamiento adaptativo de muestra) para mejorar aún más la eficiencia de la codificación. En la versión ahora actual del estándar VVC, se está investigando activamente otro filtro en bucle llamado ALF (filtro de bucle adaptativo), y tiene muchas posibilidades de incluirse en el estándar final.

Estas operaciones de filtro en bucle son opcionales. Realizar estas operaciones ayuda a mejorar la eficiencia de codificación y la calidad visual. También pueden desactivarse como una decisión tomada por el codificador 100 para ahorrar complejidad computacional.

Debería observarse que la intra predicción se basa normalmente en píxeles reconstruidos sin filtrar, mientras que la inter predicción se basa en píxeles reconstruidos filtrados si el codificador 100 activa estas opciones de filtro.

La fig. 2 es un diagrama de bloques que expone un decodificador 200 de vídeo ilustrativo que puede utilizarse junto con muchos estándares de codificación de vídeo. Este decodificador 200 es similar a la sección relacionada con la reconstrucción que reside en el codificador 100 de la fig. 1. En el decodificador 200 (fig. 2), primero se decodifica un flujo de bits 201 de vídeo entrante a través de una decodificación 202 de entropía para derivar niveles de coeficientes cuantizados e información relacionada con la predicción. Los niveles de coeficientes cuantizados se procesan, a continuación, a través de una cuantización 204 inversa y una transformada 206 inversa para obtener un residuo de predicción reconstruido. Un mecanismo predictor de bloques, implementado en un selector 212 de modo intra/inter, está configurado para realizar, bien una predicción intra 208, o bien una compensación 210 de movimiento, basándose en información de predicción decodificada. Se obtiene un conjunto de píxeles reconstruidos sin filtrar sumando el residuo de predicción reconstruido de la transformada 206 inversa y una salida predictiva generada por el mecanismo predictor de bloques, utilizando un Summer 214. En situaciones donde se activa un filtro en bucle, se realiza una operación de filtrado en estos píxeles reconstruidos para derivar el vídeo reconstruido final. El vídeo reconstruido en el almacén de imágenes de referencia se envía, a continuación, para accionar un dispositivo de visualización, así como se utiliza para predecir futuros bloques de vídeo.

En estándares de codificación de vídeo, tal como HEVC, los bloques se pueden dividir basándose en árboles cuádruples. En los estándares de codificación de vídeo más nuevos, tales como el VVC ahora actual, se emplean más métodos de partición y una unidad de codificación en árbol (CTU) se puede dividir en CU para adaptarse a las diferentes características locales basadas en árboles cuádruples, árboles binarios o árboles ternarios. La separación de CU, unidad de predicción (PU) y unidad de transformada (TU) no existe en la mayoría de los modos de codificación en el VVC ahora actual, y cada CU siempre se utiliza como unidad básica tanto para la predicción como para la transformada sin más particiones. Sin embargo, en algunos modos de codificación específicos, tales como el modo de codificación intra subpartición, cada CU puede contener todavía múltiples TU. En la estructura en árbol de múltiples tipos, una CTU se divide en primer lugar mediante una estructura cuádruple en árbol. A continuación, cada nodo de hoja de árbol cuádruple se puede dividir aún más mediante una estructura en árbol binario y ternario.

La fig. 3 muestra los cinco tipos de división empleados en el VVC ahora actual, a saber, partición 301 cuaternaria, partición 302 binaria horizontal, partición 303 binaria vertical, partición 304 ternaria horizontal y partición 305 ternaria vertical.

En los estándares de codificación de vídeo, tales como HEVC y el VVC ahora actual, las imágenes previamente decodificadas se gestionan en un búfer de imágenes decodificadas (DPB) con el fin de poder utilizarlas como referencia bajo el concepto de conjunto de imágenes de referencia (RPS). Las imágenes en el DPB se pueden marcar como "utilizadas como referencia a corto plazo", "utilizadas como referencia a largo plazo" o "no utilizadas como referencia".

Cuando la imagen de referencia del bloque contiguo es diferente de la imagen de referencia objetivo dada para el bloque actual, los vectores de movimiento escalados del bloque contiguo espacial pueden utilizarse como predictor del vector de movimiento para el bloque actual. En el proceso de escalado para los candidatos de movimiento espacial, el factor de escalado se calcula basándose en la distancia del recuento de orden de imagen (POC) entre la imagen actual y la imagen de referencia objetivo, y la distancia POC entre la imagen actual y la imagen de referencia para el bloque contiguo.

En los estándares de codificación de vídeo, tales como HEVC y VVC ahora actual, se imponen ciertas restricciones al proceso de escalado de los candidatos de movimiento espacial, basándose en si ciertas imágenes de referencia implicadas en el proceso son imágenes de referencia a largo plazo o no. Cuando una de las dos imágenes de referencia es una imagen de referencia a largo plazo y la otra no es una imagen de referencia a largo plazo, el MV del bloque contiguo se considera inválido. Cuando ambas imágenes de referencia son imágenes de referencia a largo plazo, los MV del bloque contiguo espacial se utilizan directamente como MVP para el bloque actual y se prohíbe el procesamiento de escala porque la distancia POC entre las dos imágenes de referencia a largo plazo suele ser mayor y así, los MV escalados pueden no ser fiables.

De manera similar, en el proceso de escalado para los candidatos de movimiento temporal, el factor de escalado se calcula basándose en la distancia POC entre la imagen actual y la imagen de referencia objetivo, y la distancia POC entre la imagen colocada y la imagen de referencia para el bloque contiguo temporal (también conocido como bloque colocado).

En los estándares de codificación de vídeo, tales como HEVC y el VVC ahora actual, también se imponen ciertas restricciones al proceso de escalado de los candidatos de movimiento temporal, basándose en si ciertas imágenes de referencia implicadas en el proceso son imágenes de referencia a largo plazo o no. Cuando una de las dos imágenes de referencia es una imagen de referencia a largo plazo y la otra no es una imagen de referencia a largo plazo, el MV del bloque contiguo se considera inválido. Cuando ambas imágenes de referencia son imágenes de referencia de largo plazo, los MV del bloque contiguo temporal se utilizan directamente como MVP para el bloque actual y se prohíbe el procesamiento de escalado porque la distancia POC entre las dos imágenes de referencia de largo plazo generalmente es mayor y así, los MV escalados pueden no ser fiables.

En los estándares de codificación de vídeo más nuevos, tal como el VVC ahora actual, se han introducido nuevas herramientas de codificación intermodal y algunos ejemplos de las nuevas herramientas de codificación intermodal son: flujo óptico bidireccional (BDOF), refinamiento de vector de movimiento del lado del decodificador (DMVR), modo de fusión con MVD (MMVD), MVD simétrico (SMVD), predicción dual con promedio ponderado (BWA), derivación de candidatos de fusión promedio por pares y predicción de vector de movimiento temporal basada en subbloques (SbTMVP).

La predicción dual convencional en codificación de vídeo es una combinación simple de dos bloques de predicción temporal obtenidos a partir de imágenes de referencia que ya están reconstruidas. Sin embargo, debido a la limitación de la compensación de movimiento basada en bloques, es posible que queden pequeños movimientos que se puedan observar entre las muestras de dos bloques de predicción, lo que reduce la eficiencia de la predicción con compensación de movimiento. Para resolver este problema, se aplica BDOF en el VVC ahora actual para reducir los impactos de dicho movimiento para cada muestra dentro de un bloque.

La fig. 4 es una ilustración del proceso BDOF. El BDOF es un refinamiento del movimiento por muestra que se realiza además de las predicciones con compensación de movimiento basadas en bloques cuando se utiliza la predicción dual. El refinamiento del movimiento de cada subbloque de 4x4 se calcula minimizando la diferencia entre las muestras de predicción de la lista de imágenes de referencia 0 (L0) y de la lista de imágenes de referencia 1 (L1) después de aplicar el BDOF dentro de una ventana de 6x6 alrededor del subbloque. Basándose en el refinamiento del movimiento así derivado, las muestras de predicción dual finales de la CU se calculan interpolando las muestras de predicción L0/L1 a lo largo de la trayectoria de movimiento basándose en el modelo de flujo óptico.

El DMVR es una técnica de predicción dual para fusionar bloques con dos MV inicialmente señalados que se puede refinar aún más utilizando la predicción de coincidencia bilateral.

La fig. 5 es una ilustración de la coincidencia bilateral utilizada en DMVR. La coincidencia bilateral se utiliza para derivar información de movimiento de la CU actual encontrando la coincidencia más cercana entre dos bloques a lo largo de la trayectoria de movimiento de la CU actual en dos imágenes de referencia diferentes. La función de coste utilizada en el proceso de coincidencia es la suma de diferencia absoluta (SAD) submuestreada por filas. Una vez realizado el proceso de coincidencia, los MV refinados se utilizan para la compensación de movimiento en la etapa de predicción, el cálculo de la intensidad de los límites en el filtro de desbloqueo, la predicción del vector de movimiento temporal para imágenes posteriores y la predicción del vector de movimiento espacial entre CTU para las CU posteriores. Bajo el supuesto de una trayectoria de movimiento continuo, los vectores de movimiento MV0 y MV1 que apuntan a los dos bloques de referencia serán proporcionales a las distancias temporales, es decir, TD0 y TD1, entre la imagen actual y las dos imágenes de referencia. Como caso especial, cuando la imagen actual está temporalmente entre las dos imágenes de referencia y la distancia temporal desde la imagen actual a las dos imágenes de referencia es la misma, la coincidencia bilateral se convierte en MV bidireccional basada en espejo. El VVC ahora actual ha introducido MMVD además del modo de fusión existente. En el modo de fusión existente, la información de movimiento derivada implícitamente se utiliza directamente para la generación de muestras de predicción de la CU actual. En el modo MMVD, después de seleccionar un candidato de fusión, la información de los MVD señalados lo refina aún más.

Un indicador MMVD se señala justo después de enviar un indicador de omisión y un indicador de fusión para especificar si se utiliza el modo MMVD para una CU. La información del modo MMVD incluye un indicador de candidato de fusión, un índice de distancia para especificar la magnitud del movimiento y un índice de dirección para indicar la dirección del movimiento.

En el modo MMVD, sólo se permite seleccionar uno de los dos primeros candidatos en la lista de fusión como MV inicial, y se señala el indicador de candidato de fusión para especificar cuál de los dos primeros candidatos se utiliza. La fig. 6 es una ilustración de los puntos de búsqueda utilizados en MMVD. Se añade un desplazamiento, bien al componente horizontal, o bien al componente vertical del MV inicial para derivar los puntos de búsqueda. El índice de distancia especifica información sobre la magnitud del movimiento e indica un desplazamiento predefinido desde el punto inicial, y el índice de dirección representa la dirección del desplazamiento relativo al punto inicial a través de una asignación predefinida desde índices de dirección hasta señales de desplazamiento.

El significado del signo de desplazamiento asignado podría variar según la información de los MV iniciales. Cuando el MV inicial es un MV de predicción única o un MV de predicción dual con su o sus imágenes de referencia apuntando al mismo lado de la imagen actual (es decir, los POC de hasta dos imágenes de referencia son más grandes que el POC de imagen actual, o ambos son más pequeños que el POC de imagen actual), el signo de desplazamiento asignado especifica el signo del desplazamiento de MV añadido al MV inicial. Cuando el MV inicial es un MV de predicción dual con sus dos vectores de movimiento apuntando a diferentes lados de la imagen actual (es decir, el POC de una imagen de referencia es mayor que el POC de imagen actual y el POC de otra imagen de referencia es más pequeño que el POC de imagen actual), el signo de desplazamiento asignado especifica el signo del desplazamiento de MV añadido al vector de movimiento L0 del MV inicial y el signo opuesto del desplazamiento de MV añadido al vector de movimiento L1 del MV inicial.

A continuación, ambos componentes de desplazamiento de MV se derivan de las distancias y señales de MMVD señalizadas, y los MVD finales se derivan además de los componentes de desplazamiento de MV.

El VVC ahora actual también ha introducido el modo SMVD. Con el modo SMVD, la información de movimiento que incluye índices de imágenes de referencia tanto de L0 como de L1 y MVD de L1 no se señala sino que se deriva. En el codificador, la estimación del movimiento SMVD comienza con la evaluación de MV inicial. El conjunto de candidatos de MV iniciales se compone del MV obtenido de la búsqueda de predicción única, el MV obtenido de la búsqueda de predicción dual y los MV de la lista AMVP. El candidato MV inicial con el menor coste de distorsión de velocidad se elige como MV inicial para la búsqueda de movimiento SMVD.

El VVC ahora actual también ha introducido BWA. En HEVC, la señal de predicción dual se genera promediando dos señales de predicción obtenidas a partir de dos imágenes de referencia y/o utilizando dos vectores de movimiento. En el VVC ahora actual, con BWA, el modo de predicción dual se extiende más allá del simple promedio para permitir el promedio ponderado de las dos señales de predicción.

En el VVC ahora actual, se permiten cinco pesos en el BWA. Para cada CU predicha dual, el peso se determina de dos maneras. Para una CU que no es de fusión, el índice de peso se señala después de la diferencia del vector de movimiento, mientras que para una CU de fusión, el índice de peso se infiere de los bloques contiguos basándose en el índice candidato de fusión. La predicción dual de promedio ponderado solamente se aplica a las CU con 256 o más muestras de luma (es decir, el ancho de la CU multiplicado por la altura de la CU es mayor o igual a 256). Para imágenes sin utilizar predicción hacia atrás, se utilizan los cinco pesos. Para imágenes que utilizan predicción hacia atrás, sólo se utiliza un subconjunto predefinido de tres pesos de los cinco.

El VVC ahora actual también ha introducido la derivación de candidatos de fusión promedio por pares. En la derivación de candidatos de fusión promedio por pares, los candidatos promedio por pares se generan promediando pares predefinidos de candidatos en la lista de candidatos de fusión existente. Los vectores de movimiento promediados se calculan por separado para cada lista de referencia. Cuando ambos vectores de movimiento están disponibles en una lista, estos dos vectores de movimiento se promedian incluso cuando apuntan a imágenes de referencia diferentes; cuando sólo hay un vector de movimiento disponible, este vector de movimiento se utiliza directamente; y cuando no hay ningún vector de movimiento disponible, la lista se mantiene inválida. Cuando la lista de fusión no está completa después de añadir los candidatos de fusión promedio por pares, se insertan cero MVP al final hasta que se encuentre el número máximo de candidatos de fusión.

La base de código de software de referencia actual para el VVC ahora actual, conocido como modelo de prueba VVC (VTM), también ha introducido el modo SbTMVP. De manera similar a la predicción del vector de movimiento temporal (TMVP) en HEVC, SbTMVP utiliza el campo de movimiento en la imagen colocada para mejorar la predicción del vector de movimiento y el modo de fusión para las CU en la imagen actual. La misma imagen colocada utilizada por TMVP se utiliza para SbTMVP. El SbTMVP se diferencia de TMVP en los dos aspectos principales siguientes: primero, el TMVP predice el movimiento a nivel de CU, pero el SbTMVP predice el movimiento a nivel sub-CU, y segundo, mientras que el TMVP recupera los vectores de movimiento temporal del bloque colocado en la imagen colocada (el bloque colocado es el bloque inferior derecho o central en relación con la CU actual), el SbTMVP aplica un cambio de movimiento antes de recuperar la información de movimiento temporal de la imagen colocada, donde el cambio de movimiento se obtiene del vector de movimiento de uno de los bloques espaciales contiguos de la CU actual.

La fig. 7A y la fig. 7B ilustran la operación del modo SbTMVP. El SbTMVP predice los vectores de movimiento de las subCU dentro de la CU actual en dos etapas. La fig. 7A ilustra la primera etapa, donde los contiguos espaciales se examinan en el orden de A1, B1, B0 y A0. Tan pronto como se identifica el primer bloque contiguo espacial que tiene un vector de movimiento que utiliza la imagen colocada como imagen de referencia, se selecciona este vector de movimiento para que sea el cambio de movimiento que se ha de aplicar. Cuando no se identifica dicho movimiento entre los contiguos espaciales, a continuación, el cambio de movimiento se establece a (0, 0). La fig. 7B ilustra la segunda etapa, donde se aplica el cambio de movimiento identificado en la primera etapa (es decir, se añade a las coordenadas del bloque actual) para obtener información de movimiento de nivel sub-CU (vectores de movimiento e índices de referencia) de la imagen colocada. La ilustración empleada en la fig. 7B muestra un ejemplo donde el cambio de movimiento se establece para bloquear el movimiento de A1. A continuación, para cada subCU, la información de movimiento de su bloque correspondiente (la cuadrícula de movimiento más pequeña que cubre la muestra central) en la imagen colocada se utiliza para derivar la información de movimiento para la subCU. Una vez identificada la información de movimiento de la sub-CU colocada, se convierte a los vectores de movimiento e índices de referencia de la sub-CU actual de manera similar al proceso TMVP de HEVC, donde se aplica la escala de movimiento temporal para alinear las imágenes de referencia de los vectores de movimiento temporal a las de la CU actual.

En la tercera versión de VTM (VTM3), se utiliza una lista de fusión basada en subbloques combinados que contiene tanto candidatos de SbTMVP como candidatos de fusión afines para la señalización del modo de fusión basado en subbloques. El modo SbTMVP se habilita o deshabilita mediante un indicador de conjunto de parámetros de secuencia (SPS). Cuando el modo SbTMVP está habilitado, el predictor SbTMVP se añade como la primera entrada de la lista de candidatos de fusión basados en subbloques, y seguido de los candidatos de fusión afines. El tamaño de la lista de fusión basada en subbloques se señala en SPS y el tamaño máximo permitido de la lista de fusión basada en subbloques se fija en 5 en VTM3. El tamaño de la subCU utilizado en SbTMVP se fija en 8x8 y, al igual que en el modo de fusión afín, el modo SbTMVP sólo se aplica a las CU cuyo ancho y alto sean mayores o iguales a 8. La lógica de codificación del candidato de fusión de SbTMVP adicional es el mismo que para los otros candidatos de fusión, es decir, para cada CU en el segmento P o B, se realiza una verificación de RD adicional para decidir si se utiliza el candidato SbTMVP.

El VVC ahora actual ha introducido las nuevas herramientas de codificación intermodal, sin embargo, las restricciones relacionadas con la imagen de referencia a largo plazo, que están presentes en HEVC y el VVC ahora actual para el proceso de escalado para la derivación de candidatos de movimiento espacial y temporal, no están bien definidos en algunas de las nuevas herramientas. En esta descripción, proponemos varias restricciones relacionadas con las imágenes de referencia a largo plazo en las nuevas herramientas de codificación intermodal. Según la presente descripción, durante la operación de una herramienta de codificación intermodal en un bloque codificado intermodal, se realizará una determinación con respecto a si una o más de las imágenes de referencia asociadas con un bloque codificado intermodal están implicadas en la operación de la herramienta de codificación intermodal son imágenes de referencia a largo plazo, y, a continuación, basándose en la determinación, se impondrán restricciones a la operación de la herramienta de codificación intermodal en el bloque codificado intermodal.

Según una realización de la presente descripción, la herramienta de codificación intermodal comprende una generación de candidatos de fusión promedio por pares.

En un ejemplo, cuando un candidato de fusión promediado implicado en la generación de candidatos de fusión promedio por pares se genera a partir de un par predefinido de candidatos que comprende una imagen de referencia que es una imagen de referencia a largo plazo y otra imagen de referencia que no es una imagen de referencia a largo plazo, el candidato de fusión promediado se considera inválido.

En el mismo ejemplo, durante la generación de un candidato de fusión promediado a partir de un par predefinido de candidatos que comprenden dos imágenes de referencia que son ambas imágenes de referencia a largo plazo, se prohíbe el proceso de escalado.

Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende BDOF y el bloque codificado intermodal es un bloque de predicción bidireccional.

En un ejemplo, cuando se determina que una imagen de referencia del bloque de predicción bidireccional implicado en la operación de BDOF es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional implicada en la operación de BDOF no es una imagen de referencia a largo plazo, se prohíbe la realización de BDOF.

Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende DMVR y el bloque codificado intermodal es un bloque de predicción bidireccional.

En un ejemplo, cuando se determina que una imagen de referencia del bloque de predicción bidireccional implicado en la operación de DMVR es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional implicado en la operación de DMVR no es una imagen de referencia a largo plazo, se prohíbe la realización de DMVR.

En otro ejemplo, cuando se determina que una imagen de referencia del bloque de predicción bidireccional implicado en la operación de DMVR es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional implicado en la operación de DMVR no es una imagen de referencia a largo plazo, el alcance del rendimiento de DMVR se limita al rendimiento de DMVR de píxeles enteros.

Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende la derivación de candidatos MMVD.

En un ejemplo, cuando se determina que un candidato a vector de movimiento implicado en la derivación de candidatos MMVD tiene su vector de movimiento apuntando a una imagen de referencia que es una imagen de referencia a largo plazo, se prohíbe el uso del candidato a vector de movimiento como un vector de movimiento base (también conocido como vector de movimiento inicial).

En un segundo ejemplo, cuando una imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos MMVD es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos MMVD no es una imagen de referencia a largo plazo, y además, cuando el vector de movimiento base es un vector de movimiento bidireccional, a continuación, para el vector de movimiento que está apuntando a la imagen de referencia a largo plazo y que también está contenido en el vector de movimiento base bidireccional, se prohíbe la modificación de un vector de movimiento mediante la diferencia de vector de movimiento señalizada (MVD).

En el mismo segundo ejemplo, el proceso de modificación de MVD propuesto será el que se muestra en el bloque inmediatamente posterior a este párrafo, donde las partes resaltadas del texto muestran la modificación propuesta del proceso de modificación de MVD existente en el VVC ahora actual.

En un tercer ejemplo, cuando al menos una imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos MMVD es una imagen de referencia a largo plazo, y además cuando el vector de movimiento base es un vector de movimiento bidireccional, a continuación, se prohíbe el proceso de escalado en la derivación del candidato MMVD final.

Según una o más realizaciones de la presente descripción, la herramienta de codificación intermodal comprende la derivación de candidatos SMVD.

En un ejemplo, cuando se determina que un candidato a vector de movimiento tiene su vector de movimiento apuntando a una imagen de referencia que es una imagen de referencia a largo plazo, se prohíbe el uso del candidato a vector de movimiento como vector de movimiento base.

En algunos ejemplos, cuando al menos una imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos SMVD es una imagen de referencia a largo plazo, y además cuando el vector de movimiento base es un vector de movimiento bidireccional, a continuación, para un vector de movimiento que está apuntando a la imagen de referencia a largo plazo y que también está contenido en el vector de movimiento base bidireccional, se prohíbe la modificación de dicho vector de movimiento mediante MVD señalizado. En otros ejemplos, cuando una imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos SMVD es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque codificado intermodal implicado en la derivación de candidatos SMVD no es una imagen de referencia a largo plazo, y además, cuando el vector de movimiento base es un vector de movimiento bidireccional, a continuación, para el vector de movimiento que está apuntando a la imagen de referencia a largo plazo y que también está contenido en el vector de movimiento base bidireccional, se prohíbe la modificación del vector de movimiento mediante el MVD señalizado. Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende una predicción dual con promedio ponderado y el bloque codificado intermodal es un bloque de predicción bidireccional. En un ejemplo, cuando se determina que al menos una imagen de referencia del bloque de predicción bidireccional implicado en la predicción bidireccional con promedio ponderado es una imagen de referencia a largo plazo, se prohíbe el uso de ponderación inigualable.

Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende la derivación de candidatos a vectores de movimiento y el bloque codificado intermodal es un bloque codificado SbTMVP.

En un ejemplo, la misma restricción para la derivación de candidatos a vector de movimiento en un bloque codificado con TMVP convencional se utiliza en la derivación de candidatos a vector de movimiento en un bloque codificado con SbTMVP.

En un refinamiento del ejemplo anterior, la restricción para la derivación de candidatos a vector de movimiento a utilizar tanto en bloques codificados TMVP convencionales como en bloques codificados SbTMVP comprende, por un lado, la consideración de un vector de movimiento del bloque contiguo temporal como inválido si, dentro de las dos imágenes de referencia que comprenden la imagen de referencia objetivo y la imagen de referencia para el bloque contiguo, una imagen de referencia es una imagen de referencia a largo plazo y la otra imagen de referencia no es una imagen de referencia a largo plazo, y por otro lado, cuando tanto la imagen de referencia objetivo como la imagen de referencia para el bloque contiguo son imágenes de referencia a largo plazo, la prohibición de la operación del proceso de escalado en el vector de movimiento del bloque contiguo temporal y utiliza el vector de movimiento del bloque contiguo temporal directamente como predicción del vector de movimiento para el bloque actual.

Según otra realización de la presente descripción, la herramienta de codificación intermodal comprende el uso de un modelo de movimiento afín en la derivación de candidatos a vectores de movimiento.

En un ejemplo, cuando se determina que la imagen de referencia implicada en el uso del modelo de movimiento afín es una imagen de referencia a largo plazo, se prohíbe el uso del modelo de movimiento afín en la derivación de candidatos a vectores de movimiento.

En uno o más ejemplos, las funciones descritas pueden implementarse en hardware, software, firmware o cualquier combinación de los mismos. Si se implementan en software, las funciones pueden almacenarse o transmitirse, como una o más instrucciones o código, en un medio legible por ordenador y ejecutarse mediante una unidad de procesamiento basada en hardware. Los medios legibles por ordenador pueden incluir medios de almacenamiento legibles por ordenador, que corresponden a un medio tangible tal como medios de almacenamiento de datos, o medios de comunicación que incluyen cualquier medio que facilite la transferencia de un programa informático de un lugar a otro, por ejemplo, según un protocolo de comunicación. De esta manera, los medios legibles por ordenador generalmente pueden corresponder a (1) medios de almacenamiento tangibles legibles por ordenador que no son transitorios o (2) un medio de comunicación tal como una señal u onda portadora. Los medios de almacenamiento de datos pueden ser cualquier medio disponible al que puedan acceder uno o más ordenadores o uno o más procesadores para recuperar instrucciones, códigos y/o estructuras de datos para la implementación de las implementaciones descritas en la presente solicitud. Un producto de programa informático puede incluir un medio legible por ordenador.

Además, los métodos anteriores se pueden implementar utilizando un aparato que incluye uno o más circuitos, que incluyen circuitos integrados de aplicación específica (ASIC), procesadores de señales digitales (DSP), dispositivos de procesamiento de señales digitales (DSPD), dispositivos lógicos programables (PLD), matrices de puertas programables en campo (FPGA), controladores, microcontroladores, microprocesadores u otros componentes electrónicos. El aparato puede utilizar los circuitos en combinación con otros componentes de hardware o software para realizar los métodos descritos anteriormente. Cada módulo, submódulo, unidad o subunidad dado a conocer anteriormente puede implementarse al menos parcialmente utilizando los uno o más circuitos.

Se apreciará que la presente invención no se limita a los ejemplos exactos descritos anteriormente e ilustrados en los dibujos adjuntos, y que se pueden realizar diversas modificaciones y cambios sin desviarse del alcance de la misma. Se pretende que el alcance de la invención sólo esté limitado por las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1 Un método para decodificación de vídeo, que comprende:

la determinación de si una o más de las imágenes de referencia asociadas con un bloque codificado intermodal implicado en una operación de una herramienta de codificación intermodal son imágenes de referencia a largo plazo; y

la restricción de la operación de una herramienta de codificación intermodal en el bloque codificado intermodal basándose en la determinación,

en donde en el caso de que la herramienta de codificación intermodal comprenda flujo óptico bidireccional, BDOF, y el bloque codificado intermodal sea un bloque de predicción bidireccional, la restricción de la operación de la herramienta de codificación intermodal en el bloque codificado intermodal basado en la determinación comprende: la prohibición del desempeño del BDOF al determinar que una imagen de referencia del bloque de predicción bidireccional es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional no es una imagen de referencia a largo plazo.
2. - El método de la reivindicación 1, en donde en el caso de que la herramienta de codificación intermodal comprenda el refinamiento del vector de movimiento del lado del decodificador, DMVR, y el bloque codificado intermodal sea un bloque de predicción bidireccional, lo que restringe la operación de la herramienta de codificación intermodal en el bloque codificado intermodal basado en la determinación comprende:

la prohibición del desempeño del DMVR al determinar que una imagen de referencia del bloque de predicción bidireccional es una imagen de referencia a largo plazo y la otra imagen de referencia del bloque de predicción bidireccional no es una imagen de referencia a largo plazo.
3. - El método de la reivindicación 1, en donde en el caso de que la herramienta de codificación intermodal comprenda el proceso de derivación para un modo de fusión con candidatos a diferentes vectores de movimiento, MMVD, y el bloque codificado intermodal sea un bloque de predicción bidireccional, la restricción de la operación de la herramienta de codificación intermodal en el bloque codificado intermodal basado en la determinación comprende: cuando al menos una imagen de referencia del bloque codificado intermodal es una imagen de referencia a largo plazo, y además cuando el vector de movimiento base es un vector de movimiento bidireccional, la prohibición del proceso de escalado en la derivación de un candidato MMVD final.
4. - El método de la reivindicación 1, en donde en el caso de que la herramienta de codificación intermodal comprenda una predicción de vector de movimiento temporal basada en subbloques, SbTMVP, y el bloque codificado intermodal sea un bloque codificado SbTMVP,

La restricción de la operación de la herramienta de codificación intermodal en el bloque codificado intermodal basándose en la determinación comprende:

el uso de la misma restricción para el proceso de derivación para candidatos a vector de movimiento en un bloque codificado de predicción de vector de movimiento temporal convencional, TMVP, en el proceso de derivación para candidatos a vector de movimiento en un bloque codificado SbTMVP,

en donde la misma restricción para el proceso de derivación de candidatos a vector de movimiento a utilizar tanto en los bloques codificados de TMVP convencionales como en los bloques codificados de SbTMVP comprende:

la consideración de un vector de movimiento de un bloque contiguo temporal como inválido si, dentro de las dos imágenes de referencia que comprenden una imagen de referencia objetivo y una imagen de referencia para el bloque contiguo temporal, una imagen de referencia es una imagen de referencia a largo plazo y la otra imagen de referencia no es una imagen de referencia a largo plazo; o

cuando tanto una imagen de referencia objetivo como una imagen de referencia para un bloque contiguo temporal son imágenes de referencia a largo plazo, la prohibición de la operación del proceso de escalado en el vector de movimiento del bloque contiguo temporal y el uso del vector de movimiento del bloque contiguo temporal directamente como la predicción del vector de movimiento para el bloque actual.
5. - Un dispositivo informático que comprende:

uno o más procesadores;

un almacenamiento no transitorio acoplado al uno o más procesadores; y

una pluralidad de programas almacenados en el almacenamiento no transitorio que, cuando son ejecutados por el uno o más procesadores, hacen que el dispositivo informático realice el método para decodificación de vídeo de cualquiera de las reivindicaciones 1-4.
6. - Un medio de almacenamiento no transitorio legible por ordenador que almacena una pluralidad de programas para su ejecución por un dispositivo informático que tiene uno o más procesadores, en donde la pluralidad de programas, cuando son ejecutados por uno o más procesadores, hacen que el dispositivo informático realice el método para decodificación de vídeo de cualquiera de las reivindicaciones 1 -4.
7. - Un producto de programa informático, que comprende un medio legible por ordenador que almacena instrucciones, en donde, cuando las instrucciones son ejecutadas por un procesador, las instrucciones hacen que el procesador realice el método para decodificación de vídeo de cualquiera de las reivindicaciones 1-4.