ES2681526T3

ES2681526T3 - Técnica para estimación de calidad del vídeo

Info

Publication number: ES2681526T3
Application number: ES10707813.1T
Authority: ES
Inventors: Martin Pettersson; Andreas Rossholm
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2010-01-11
Filing date: 2010-02-01
Publication date: 2018-09-13
Anticipated expiration: 2030-02-01
Also published as: RU2540846C2; US10728538B2; US20120281142A1; CN105847788B; EP2524515B1; SG181131A1; CN105847788A; CN102714752B; RU2012134425A; JP2015144473A; JP2013516870A; AR079869A1; JP5758405B2; WO2011082719A1; JP6104301B2; EP2524515A1; CN102714752A

Abstract

Un procedimiento de estimación de la calidad del vídeo (10), que comprende las etapas de: - recibir (12) una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen; - determinar (14) una ocurrencia de error en un macrobloque de un fotograma de la imagen; - mantener el seguimiento (16) de al menos uno de una propagación temporal y una propagación espacial del error utilizando al menos uno de información de vector de movimiento e intrapredicción que se relaciona con el macrobloque afectado por el error; - estimar (18) una calidad de la corriente de bits del vídeo basado en la propagación del error; y - determinar una degradación visual causada por el error, en la que se calcula un valor de penalización para cada macrobloque afectado por el error y es indicativo de la cantidad de degradación visual causada por el error, - en la que el valor de penalización se calcula según una o más de las siguientes reglas: -- asignando un valor de penalización más alto al error si el error se produce en un cambio de escena; -- asignando un valor de penalización más alto al error si la corriente de bits del vídeo comprende datos de movimiento directamente después de un fotograma de la imagen afectado por error y, particularmente, si una magnitud relativa del movimiento es grande; -- no asignando valor de penalización al error para el macrobloque si el macrobloque es un salto o es un salto estimado, opcionalmente a menos que haya un cambio de escena o un cambio de escena estimado; -- disminuyendo el valor de penalización asignado al error para al menos un fotograma de la imagen subsiguiente en una cantidad o factor predeterminado, y -- reestableciendo el valor de penalización al recibir un fotograma de la imagen intracodificado o un fotograma de la imagen intracodificada.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Técnica para estimación de calidad del vídeo Descripción del campo técnico

La presente descripción se refiere en general a una técnica para estimar la calidad del vídeo y particularmente a una técnica de estimación de calidad de vídeo con una base de corriente de bits.

Antecedentes técnicos

El vídeo es un servicio de medios común hoy en día y está ganando rápidamente popularidad entre los usuarios finales. El vídeo suministrado a través de una red de comunicación, como una corriente de bits, puede experimentar restricciones de comunicación o problemas que pueden conducir a, tales como la pérdida de datos o el retraso de los datos. Dichos errores pueden causar una degradación en la calidad visual experimentada por los usuarios finales. A menudo, dicha degradación visual se revela como imágenes congeladas o distorsionadas.

La monitorización de calidad es un esquema operacional importante para que los proveedores de servicios mantengan una Calidad de experiencia (QoE) satisfactoria de los servicios de vídeo. Con este fin, se requieren buenas técnicas para evaluar de manera precisa y oportuna la calidad del vídeo, lo que de ninguna manera es una tarea trivial.

Tal vez la técnica de evaluación de la calidad del vídeo más precisa es la prueba subjetiva, donde se recopilan las opiniones de numerosos televidentes y se basa en una visión común de la calidad. Sin embargo, las pruebas subjetivas son caras, manuales, lentas y, en muchos casos, simplemente no son factibles; por ejemplo, no es posible realizar pruebas subjetivas para la supervisión de la calidad del vídeo en redes de comunicación o descodificadores. Por lo tanto, se deben proporcionar los medios para estimar la calidad subjetiva del vídeo con base en la medición objetiva. Esta demanda ha impulsado el desarrollo de técnicas objetivas de evaluación de la calidad del vídeo. La estimación objetiva de la calidad del vídeo no solo puede reemplazar las pruebas subjetivas al evaluar la calidad del vídeo, sino que también puede permitir la evaluación automática y en tiempo real de la calidad subjetiva.

En el contexto de la presente descripción, palabras como «estimar», «evaluar», «medir» se usan indistintamente.

En los últimos años, se han propuesto y desarrollado diferentes modelos de técnicas objetivas de la calidad del vídeo. Con base en los parámetros de entrada utilizados, pueden categorizarse como modelos perceptuales y modelos paramétricos. Los modelos paramétricos también se conocen como modelos de capa de red.

Los modelos perceptuales toman el vídeo descodificado y, algunas veces, también un vídeo de referencia como entrada para el modelo. Por ejemplo, para un modelo llamado de referencia completa (FR), los parámetros de entrada son los datos del píxel del vídeo fuente, así como los del vídeo descodificado. Los modelos perceptuales suelen tener una alta precisión en la estimación de la calidad del vídeo, pero son muy complejos, consumen tiempo y consumen energía computacional, lo que los hace inadecuados para muchas situaciones, como la monitorización en tiempo real. Además, cuando se utiliza un vídeo de referencia en un modelo perceptual, el modelo debe esforzarse por resolver el problema crucial de sincronizar el vídeo de referencia con el vídeo descodificado.

El interés en los modelos ligeros de calidad de vídeo ha llevado al desarrollo reciente de modelos paramétricos. Un modelo paramétrico toma la información del encabezado del paquete como entrada y calcula un puntaje de calidad basado en eso. La información del encabezado del protocolo de red generalmente se toma de una o más de las capas del protocolo de internet (IP), protocolo de datagrama de usuario (UDP), protocolo de transporte en tiempo real (RTP) y secuencia de transporte del grupo 2 de imágenes en movimiento (MPEG2TS). Los modelos paramétricos son relativamente sencillos en comparación con los modelos perceptivos, pero la precisión de estimación que pueden ofrecer es bastante baja debido a la información limitada que se puede recuperar de los encabezados del protocolo de red. Por ejemplo, es muy difícil hacer una estimación útil de cómo visible será la pérdida de datos en el vídeo descodificado.

El documento US 2007/237227 A1 se puede interpretar como la descripción de técnicas para evaluar la calidad temporal del vídeo codificado. En lugar de estimar los impulsos basados únicamente en la velocidad de los fotogramas o la actividad de movimiento, el número de fotogramas caídos consecutivos forma una unidad de estimación básica. Se han tenido en cuenta varios factores del sistema visual humano, como la sensibilidad a la fluctuación de la calidad temporal y la actividad del movimiento, para hacer que el impulso previsto sea más coherente con la respuesta visual humana real. La medida de la calidad temporal se puede usar para estimar la incomodidad percibida por el ser humano que se introduce por la discontinuidad temporal bajo varias combinaciones de tomas de vídeo, actividad de movimiento y fluctuaciones locales de calidad. Las técnicas se pueden aplicar de dos modos: (1) modo corriente de bits o (2) píxel. La métrica de calidad se puede usar para evaluar la calidad temporal o para controlar las características de codificación o descodificación para mejorar la calidad temporal.

5

10

15

20

25

30

35

40

45

50

55

60

65

El documento US 2009/153668 A1 puede interpretarse como la descripción de un sistema y procedimiento para la evaluación de la calidad del vídeo, que incluye la utilización de información auxiliar del códec relacionada con el proceso de codificación y descodificación para mejorar el rendimiento de la evaluación de la calidad de la imagen. En un sistema de transmisión de vídeo, la evaluación de la calidad del vídeo se puede realizar con precisión en tiempo real con una carga computacional reducida para el cliente. En particular, el servidor realiza la primera evaluación de calidad de la imagen y envía el resultado de evaluación al cliente, y el cliente realiza una segunda evaluación de calidad de la imagen solo cuando se produce un error de transmisión para reducir la carga computacional en el cliente.

El documento "Video Quality Estimation in Wireless IP Networks: Algorithms and Applications", Fulvio Babich y col., ACM Transactions on Multimedia Computing, Communications and Applications, Vol. 4, n.° 1, se pueden interpretar para describir una técnica perteneciente a tres procedimientos para estimar la distorsión derivada de las pérdidas de paquetes en comunicación de vídeo inalámbrica. Los procedimientos tienen en cuenta las propiedades a corto plazo de las secuencias de vídeo codificadas. Se adopta un conjunto adecuado de funciones para modelar la envolvente de distorsión resultante de pérdidas múltiples. El rendimiento estimado se compara con la distorsión real, evaluada descodificando la secuencia recibida con un descodificador diseñado adecuadamente. Los resultados numéricos confirman la precisión de los modelos propuestos al aproximar el error cuadrático medio real (MSE) para un amplio rango de tasas de pérdida.

Resumen

En consecuencia, existe la necesidad de una técnica mejorada para estimar o evaluar objetivamente la calidad del vídeo. Como se verá a continuación, la técnica presentada en este documento logra, entre otros, una precisión satisfactoria en la estimación de la calidad del vídeo y, al mismo tiempo, es menos compleja y consume pocos recursos computacionales.

Según la descripción, se proporciona un procedimiento, un producto de programa de computadora y un dispositivo, un nodo de servidor, un terminal de cliente y un nodo de red según las reivindicaciones independientes. En las reivindicaciones dependientes se establecen los desarrollos.

Según un primer aspecto, se proporciona un procedimiento de estimación de la calidad del vídeo. El procedimiento comprende las etapas de recibir una corriente de bits de vídeo que comprende una serie de fotogramas; determinar una ocurrencia de error en un fotograma de la imagen (p. ej., determinar que se ha producido un error en el fotograma de la imagen, así como también la posición del error en el marco de la imagen); determinar una propagación de error teniendo en cuenta al menos uno de una propagación temporal y una propagación espacial del error (p. ej., determinar al menos uno entre una propagación temporal y una propagación espacial del error); y basado en el resultado de la determinación anterior (p. ej., la propagación de error determinada), estimando la calidad de la corriente de bits de vídeo. El error se puede producir debido a un retraso o pérdida de información (p. ej., debido a un retraso o pérdida de un paquete, un fotograma de la imagen, una partición del fotograma de la imagen, etc.). Además, la etapa de estimación de calidad puede basarse en un esquema de puntuación.

El procedimiento puede comprender además una etapa de determinar (p. ej., estimar o medir) una degradación visual causada por el error. En otras palabras, esta etapa sirve para determinar la visibilidad del error o el impacto en la calidad del vídeo causado por el error. La degradación visual es una medida específica y cuantificable para la visibilidad del error. En una realización, determinar la degradación visual comprende determinar un valor de penalización indicativo de la degradación visual causada por el error.

El fotograma de la imagen puede comprender una pluralidad de particiones (por ejemplo, pero sin limitarse a, píxeles, macrobloques, o similares). El error se puede producir en o afectar a una o más particiones del fotograma de la imagen. Además, teniendo en cuenta un efecto de dispersión, el error que se produce en un fotograma de la imagen puede afectar a una o más particiones en uno o más fotogramas de la imagen. En consecuencia, la determinación de la degradación visual causada por el error puede comprender una etapa de cálculo de un valor de penalización por separado para cada partición o fotograma de la imagen afectado por error. El valor de penalización es un valor indicativo de la cantidad, o la extensión, de la degradación visual causada por el error en el vídeo.

El valor de penalización se puede calcular o asignar según un conjunto de reglas. Las reglas pueden estar predefinidas y son adaptables. A continuación, hay una lista no exhaustiva de reglas para calcular el valor de la penalización:

• Se asigna un valor de penalización más alto al error si el error se produce en un cambio de escena (que en el caso donde el error es un error no relacionado con un cambio de escena);

• El movimiento de o en un fotograma de la imagen se puede usar para determinar la degradación visual causada por el error. Si la corriente de bits de vídeo comprende datos de movimiento directamente después del fotograma de la imagen afectado por error, se asigna un valor de penalización mayor, y particularmente si hay mucho movimiento directamente después del error y más particularmente si la magnitud relativa del

5

10

15

20

25

30

35

40

45

50

55

60

65

movimiento es grande. Por ejemplo, un pequeño error de movimiento en una escena que de otro modo sería inmóvil probablemente sea más aparente, es decir, visible, que un error de movimiento medio en una escena de alto movimiento;

• No se asigna ningún valor de penalización a una partición afectada por error si la partición es una omisión o una omisión estimada. Se puede producir una excepción opcional a esta regla si hay un cambio de escena o un cambio de escena estimado;

• Disminuir el valor de penalización asignado al error para al menos uno de los fotogramas de la imagen subsiguientes en una cantidad o factor predeterminado. Por ejemplo, el valor de penalización puede reducirse en una cantidad o factor específico para cada fotograma de la imagen siguiente; y

• El valor de penalización se restablece al recibir un fotograma de la imagen intracodificado o una partición intracodificada (p. ej., un macrobloque intracodificado).

Cada una de las reglas anteriores, así como cualquier otra regla, puede implementarse selectivamente en el procedimiento de estimación de la calidad del vídeo. En otras palabras, se puede aplicar cualquier combinación de las reglas para determinar la degradación visual causada por el error.

La serie de fotogramas de la imagen pueden comprender al menos una imagen de referencia y al menos una imagen de predicción, en donde la imagen de predicción comprende al menos un vector de movimiento que apunta a una posición en una imagen de referencia. La propagación temporal y/o la propagación espacial del error se puede determinar con base en el(los) vector(es) de movimiento incluidos en la imagen de predicción. En un ejemplo, la propagación del error puede determinarse siguiendo el(los) vector(es) de movimiento y la imagen de referencia que señala el(los) vector(es) de movimiento.

El resultado de la determinación, que incluye la información de partición y la degradación visual determinada, puede organizarse, p. ej., almacenarse en un mapa de penalización de pérdida. El mapa de penalización de pérdida puede tomar la forma de una estructura de datos bidimensional, tal como una tabla.

El mapa de penalizaciones de pérdida puede tener la misma resolución que el fotograma de la imagen asociado (es decir, como el mapa de píxeles del vídeo codificado). Esto proporciona la ventaja de presentar la degradación visual con total fidelidad. Sin embargo, si se pretende reducir la complejidad de la técnica, el mapa de penalización de pérdida tiene una resolución menor que la del fotograma de la imagen asociado o el mapa de píxeles. Para este fin, el valor de penalización se puede calcular a una resolución más baja. Por ejemplo, el fotograma de la imagen puede comprender una pluralidad de particiones comprendiendo cada una de ellas una pluralidad de píxeles. Las particiones se pueden organizar en forma de una estructura de datos bidimensional (p. ej., como un mapa de partición). En este caso, la resolución del mapa de penalización de pérdida puede organizarse de la misma manera que el mapa de particiones.

Para reducir aún más la complejidad de la técnica, la determinación de la propagación del error, es decir, la determinación de al menos uno de la propagación temporal y la propagación especial del error, puede comprender además la ponderación de uno o más valores de degradación visual (p. ej., valores de penalización) por un error anterior.

Además de la determinación de la propagación del error y la degradación visual causada por el error, el procedimiento de estimación de la calidad del vídeo presentado en este documento puede agregar la degradación visual y calcular una puntuación (de calidad) en función del resultado de la agregación. La degradación visual causada por el error puede agregarse al menos una vez en el tiempo y el espacio. La puntuación calculada, por lo tanto, sirve para indicar la calidad general de la corriente de bits del vídeo.

Al agregar la degradación visual, se puede usar un algoritmo de ponderación. En una realización, las particiones o fotogramas de la imagen afectados se agregan de una manera uniforme. En otra realización, una degradación visual de un valor pequeño puede ponderarse a un factor mayor que un valor de degradación visual grande.

La agregación se puede realizar gradualmente en el tiempo. Por ejemplo, los valores de degradación visual se pueden sumar para cada segundo (lo que corresponde, por ejemplo, a 25 fotogramas de la imagen) uniformemente y, a continuación, se usa otra función para tener en cuenta estos elementos más pequeños.

El puntaje de calidad puede calcularse periódicamente o utilizando una estrategia de ventana deslizante. En una realización del enfoque de ventana deslizante, se calcula una nueva puntuación para un cierto lado de la ventana, es decir, una duración de tiempo predefinida a una velocidad predefinida.

El procedimiento de estimación de la calidad del vídeo descrito anteriormente puede basarse en un modelo de estimación de la calidad de la corriente de bits del vídeo. La corriente de bits del vídeo puede comprender al menos

5

10

15

20

25

30

35

40

45

50

55

60

65

una parte de una capa de codificación de vídeo (VCL) que comprende uno o más parámetros, y al menos uno de determinar la ocurrencia de error, determinar la propagación de error y estimar la calidad de vídeo puede basarse en al menos uno o más de los parámetros sin descodificar la corriente de bits del vídeo. Los parámetros de VCL pueden incluir parámetros de partición (p. ej., macrobloque), parámetros de intracodificación, parámetros relacionados con el movimiento, etc.

Según un segundo aspecto, se proporciona un programa informático para estimar la calidad de una corriente de bits del vídeo que comprende una pluralidad de fotogramas de la imagen. El programa de computadora comprende partes de código de programa que, cuando se ejecutan en una computadora, hacen que la computadora realice los pasos del procedimiento explicado en este documento. El programa de computadora puede almacenarse en un medio de grabación que es legible por computadora y está comprendido en un producto de programa de computadora, tal como una memoria en forma de un disco duro, una ROM, una RAM, una EEPROM o una memoria flash.

Según un tercer aspecto, se proporciona un dispositivo para estimar la calidad del vídeo. El dispositivo comprende un receptor adaptado para recibir una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen, un primer determinador adaptado para determinar una ocurrencia de error en un fotograma de la imagen, un segundo determinador adaptado para determinar una propagación de error teniendo en cuenta al menos uno de propagación y propagación espacial del error, y un estimador adaptado para estimar la calidad de la corriente de bits de vídeo en función del resultado de la determinación, p. ej., la propagación del error determinada.

El dispositivo puede comprender además un tercer determinador adaptado para determinar la visibilidad de error, o la degradación visual causada por el error. Específicamente, el tercer determinador puede adaptarse para determinar la degradación visual determinando un valor de penalización indicativo de la degradación visual causada por el error.

El error puede afectar una o más particiones de uno o más fotogramas de la imagen. En consecuencia, el tercer determinador puede adaptarse adicionalmente para determinar la degradación visual calculando un valor de penalización para cada partición afectada por error en el vídeo como una indicación de la cantidad, o extensión, de la degradación visual causada por el error.

Además, el tercer determinador puede adaptarse para calcular el valor de penalización según una o más reglas, cada una de las cuales puede ser, pero no está limitada, la siguiente:

• Asigne un valor de penalización más alto al error si el error se produce en un cambio de escena;

• El movimiento de un fotograma de la imagen se puede usar para determinar (p. ej., estimar o medir) la degradación visual causada por el error. Por lo tanto, asigne un valor de penalización más alto al error si la corriente de bits del vídeo comprende datos de movimiento directamente después del fotograma de la imagen afectado por error y, particularmente, si una magnitud relativa del movimiento es grande;

• No asigne ningún valor de penalización a una partición afectada por error si la partición es una omisión o una omisión estimada. Se puede producir una excepción opcional a esta regla si hay un cambio de escena o un cambio de escena estimado;

• Disminuya el valor de penalización asignado al error para al menos uno de los fotogramas de la imagen subsiguientes en una cantidad o factor predeterminado, y

• Restablezca el valor de penalización al recibir un fotograma de la imagen intracodificado o una partición intracodificada.

El tercer determinador puede aplicar cualquier combinación de las reglas.

La serie de fotogramas de la imagen puede comprender al menos una imagen de referencia y al menos una imagen de predicción, en la que la imagen de predicción comprende al menos un vector de movimiento que apunta a una posición en una imagen de referencia. El tercer determinador del dispositivo puede adaptarse para determinar al menos uno de la propagación temporal y la propagación espacial de la degradación visual manteniendo un seguimiento sobre el vector de movimiento y la imagen de referencia a la que apunta el vector de movimiento.

El movimiento del fotograma de la imagen afectado por error se puede usar para determinar la degradación visual causada por el error. Por lo tanto, el segundo determinador se puede adaptar adicionalmente para determinar la degradación visual basada en el(los) vector(es) de movimiento.

El dispositivo puede comprender además un colector adaptado para recoger la degradación visual en una estructura de datos bidimensional derivada del fotograma de la imagen (p. ej., en un mapa de penalizaciones de pérdidas).

5

10

15

20

25

30

35

40

45

50

55

60

65

Además, el dispositivo puede comprender un agregador adaptado para agregar la degradación visual causada por el error sobre al menos uno de tiempo y espacio. El dispositivo puede comprender además una calculadora adaptada para calcular una puntuación indicativa de la calidad de la corriente de bits del vídeo en función del resultado de la agregación.

Los componentes anteriores del dispositivo, así como cualquier componente adicional, pueden implementarse en unidades físicas separadas. Alternativamente, algunos o todos los componentes se pueden combinar en una sola unidad física. Todas las unidades físicas pueden organizarse dentro de una sola carcasa; pero también es posible distribuir algunos o todos ellos en diferentes nodos o terminales que participan en todo el servicio de vídeo. Cada uno de los receptores, el primer determinador, el segundo determinador, el tercer determinador, el agregador, la calculadora y el estimador pueden implementarse como circuitos de hardware específicos como los ASIC (Application Specific Integrated Circuits) y/o DSP (Digital Signal Processors) o como una combinación de al menos un procesador, como un microprocesador, y el programa informático mencionado anteriormente cuando se ejecuta en el procesador. El programa informático puede comprender un módulo receptor, un primer módulo de determinación, un segundo módulo de determinación, un tercer módulo de determinación, un módulo de agregación, un módulo de cálculo y un módulo de estimación que cuando se ejecuta en el procesador hace que el dispositivo genere los correspondientes pasos mencionados anteriormente.

Según un cuarto aspecto, se proporciona un nodo de servidor adaptado para proporcionar una corriente de bits de vídeo. El nodo de servidor comprende el dispositivo objetivo de estimación de calidad de vídeo mencionado anteriormente.

Según un quinto aspecto, se proporciona un terminal de cliente adaptado para descodificar una corriente de bits de vídeo en la que el terminal de cliente comprende el dispositivo de estimación de calidad del vídeo objetivo mencionado anteriormente.

Según un sexto aspecto, se proporciona un nodo de red para la comunicación entre un nodo de servidor del vídeo y el terminal del vídeo cliente. El nodo de red comprende el dispositivo de estimación de calidad de vídeo mencionado anteriormente.

La técnica de estimación de la calidad del vídeo en este documento es adecuada para estimar la calidad de los vídeos codificados en todo tipo de técnicas, como los estándares de codificación de vídeo más utilizados en la actualidad, que incluyen H.264, H.263, MPEG-2, MPEG4, etc. La técnica de estimación objetiva de la calidad del vídeo presentada en este documento también puede ser adecuada para cualquier norma o técnica futura de codificación de vídeo.

La técnica de estimación de la calidad del vídeo presentada en este documento no está limitada a ningún servicio específico. Por ejemplo, puede implementarse para una amplia gama de servicios, como transmisión de vídeo, televisión móvil, vídeo llamada, multimedia de Internet como IPTV, videoconferencia y televisión lineal.

Breve descripción de los dibujos

A continuación, la presente descripción se describirá con referencia a las realizaciones ilustradas en los dibujos, en los que

La fig. 1 es un diagrama de bloques que ilustra una realización del sistema de la técnica de estimación de la calidad del vídeo;

La fig. 2 muestra la estructura de una capa de codificación de vídeo ejemplar;

La fig. 3 muestra la estructura de otra capa de codificación de vídeo ejemplar;

La fig. 4 muestra la estructura de un fotograma de la imagen intercodificado ejemplar;

La fig. 5 muestra un ejemplo de predicción de vectores de movimiento para una partición de 16 x 16;

La fig. 6 muestra una realización del procedimiento de la técnica de estimación de la calidad del vídeo;

La fig. 7 es un diagrama de bloques que representa una realización del dispositivo de la técnica de estimación de

la calidad del vídeo;

La fig. 8 es un diagrama de bloques que ilustra una realización de programa informático de la técnica de estimación de la calidad del vídeo;

La fig. 9 es un diagrama de flujo que ilustra otra realización del procedimiento de la técnica de estimación de la calidad del vídeo;

La fig. 10 es una captura de pantalla del vídeo que muestra un ejemplo de una pérdida de paquete en el vídeo;

La fig. 11 es una captura de pantalla del vídeo que muestra el mismo ejemplo de la fig. 8 con un mapa de

penalización de pérdida como recubrimiento; y

La fig. 12 es un diagrama de bloques que representa otra realización del dispositivo de la técnica de estimación de la calidad del vídeo;

La fig. 13 es un diagrama de bloques que ilustra otra realización de programa informático de la técnica de estimación de la calidad del vídeo;

5

10

15

20

25

30

35

40

45

50

55

60

65

La fig. 14 es un diagrama de bloques que representa una realización más del dispositivo de la técnica de estimación de la calidad del vídeo;

La fig. 15 es un diagrama de bloques que ilustra una realización más de programa informático de la técnica de estimación de la calidad del vídeo;

y

La fig. 16 muestra una función de registro delimitada con diversos valores para d, en la que la función se usa

para modelar la agregación de valores de penalización según una realización de la técnica de estimación de la calidad del vídeo.

Descripción detallada

A continuación, para fines de explicación y no de limitación, se exponen detalles específicos para proporcionar una comprensión exhaustiva de la técnica de estimación objetiva de la calidad del vídeo presentada en este documento. Resultará evidente para los expertos en la técnica que la técnica puede ponerse en práctica en realizaciones que se apartan de estos detalles específicos. Por ejemplo, aunque las realizaciones ejemplares se describen en conexión con el diseño de red específico de la fig. 1, los expertos en la técnica pueden apreciar fácilmente que la técnica es igualmente aplicable a disposiciones de red de otros tipos. Para otro ejemplo, aunque las realizaciones ejemplares se explican con referencia a un vídeo conforme al estándar H.264, MPEG-2, MPEG-4 o H.263, la técnica de estimación de la calidad del vídeo objetiva presentada en este documento se puede usar para estimar la calidad de vídeo codificado con todos los tipos de técnicas o estándares de códec, incluyendo H.264, MPEG-2, MPEG-4, H.263, así como cualquier otra técnica de códec de vídeo o estándares actuales e incluso futuras técnicas de códec de vídeo. Además, la técnica presentada en este documento no está limitada a ningún servicio específico; por el contrario, se puede implementar para una amplia gama de servicios como transmisión de vídeo, TV móvil, vídeo telefonía, IPTV, videoconferencia, TV lineal y más.

Los expertos en la materia apreciarán además que la técnica explicada en la presente memoria se puede implementar con circuitos de hardware, medios de software o una combinación de los dos. Los medios de software pueden usarse junto con un microprocesador programado o una computadora de propósito general, utilizando al menos uno de un circuito integrado de aplicación específica (ASIC) y un procesador de señal digital (DSP). También se apreciará que cuando la técnica se describe como un procedimiento, también puede incorporarse en un procesador de computadora y una memoria acoplada al procesador, en el que la memoria está codificada con uno o más programas que realizan el procedimiento cuando se ejecuta por el procesador.

Para lograr los objetivos mencionados anteriormente, es decir, garantizar una precisión de estimación satisfactoria y de baja complejidad, se presenta una técnica de estimación de la calidad del vídeo para realizar la estimación de calidad basada no solo en la información del encabezado del protocolo de red (como los utilizados en modelos paramétricos) sino también ciertos parámetros de la capa de codificación del vídeo de la corriente de bits del vídeo. En consecuencia, se puede decir que la técnica se basa en el modelo de corriente de bits. Esta técnica tiene el potencial de estimar la calidad del vídeo con mayor precisión que los modelos paramétricos convencionales y, al mismo tiempo, es sencilla, por lo que es adecuada para monitorizar todo tipo de vídeo de calidad, particularmente la monitorización en tiempo real.

La fig. 1 es un diagrama de bloques que ilustra una realización del sistema de la técnica de estimación de la calidad del vídeo presentada en este documento. Como se muestra en la fig. 1, una corriente de bits de vídeo se transmite desde un servidor de vídeo 2 a un terminal del cliente vídeo 4 a través de una red de comunicación 6. Al menos un nodo de red 8, o nodo «intermedio», reside en la red de comunicación y participa en la transmisión de vídeo. Al llegar al terminal de cliente 4, el vídeo se descodifica para mostrarlo al usuario final.

La técnica de estimación de la calidad del vídeo puede implementarse en varios nodos o terminales. Por ejemplo, puede implementarse en un nodo de servidor que proporciona una corriente de bits de vídeo. El nodo del servidor puede ser un nodo, tal como el servidor del vídeo 2 en la fig. 1, para transmitir la corriente de bits de vídeo a uno o más terminales de cliente 4 o nodos intermedios 8 en una red de comunicación 6. Como una realización específica, el nodo de servidor puede ser un terminal móvil, un servidor de teledifusión, un servidor de vídeo por demanda o un ordenador de propósito general, capaz de transmitir corrientes de vídeo. La técnica de estimación de calidad de vídeo también puede implementarse en un terminal de cliente, tal como el terminal de cliente 4 en la fig. 1, que puede descodificar una corriente de vídeo. El terminal de cliente puede ser un terminal móvil, una computadora, un descodificador, un dispositivo de juego, un televisor o similar. Además, la técnica puede implementarse en un nodo de red, tal como el nodo de red 8 en la fig. 1, para comunicarse entre un nodo de servidor de vídeo 2 y un terminal de cliente vídeo 4. Aún más, las funciones constitutivas de la técnica se pueden distribuir a través de varios nodos o terminales, como cualquier combinación de uno o más nodos de servidor, uno o más nodos de red y uno o más terminales de cliente. Como una realización particular, la técnica puede implementarse de modo que los parámetros de la corriente de bits se extraigan de al menos uno de un servidor, un nodo de red y un terminal de cliente, mientras que el procesamiento de los parámetros se lleva a cabo en otro nodo o terminal. Por último, pero no menos importante, la técnica también se puede usar en realizaciones menos limitadas en el tiempo, como la producción de contenido.

5

10

15

20

25

30

35

40

45

50

55

60

65

Como se mencionó anteriormente, la entrada al modelo de corriente de bits incluye parámetros extraídos de la capa de codificación de vídeo. Para comprender mejor estos parámetros, se presenta primero una breve explicación de la construcción de las capas de codificación de vídeo con referencia a las Fig. 2 a 5, que ilustran capas de codificación de vídeo ejemplares estructuradas según ciertos estándares de códec de vídeo de la actualidad, tales como H.264, MPEG-2 y H.263.

Los estándares de codificación de vídeo más utilizados actualmente, como H.264, MPEG-2 y H.263, usan todos una estrategia basada en particiones. En un códec de vídeo basado en partición, cada imagen de vídeo (también puede denominarse «fotograma del vídeo», «fotograma de la imagen» o simplemente «imagen») se divide en particiones más pequeñas, denominadas por algunos como bloques, como macrobloques (MB). Para los estándares de códec mencionados anteriormente, el tamaño de un macrobloque generalmente se define como 16 x 16 píxeles. Por supuesto, una partición puede ser de cualquier otro tamaño adecuado.

Las imágenes en los estándares de códec de vídeo mencionados anteriormente pueden ser de tres tipos diferentes: intracodificado (I-picture), predictivo codificado (P-picture) o bi-predictivo codificado (B-picture). Las I-pictures solo pueden usar información de la imagen actual para la compresión de datos, lo que permite utilizarlas como puntos de acceso aleatorio en el vídeo, asegurando que un error potencial que precede a la I-picture se actualice (para garantizar una actualización total en H.264 solo una imagen de referencia utilizada para predecir las P- y B-pictures debe mantenerse en la memoria intermedia, o alternativamente, se podría utilizar una imagen IDR en lugar de la I- picture). Las P-pictures pueden predecir a partir de una imagen de referencia para cada predicción. Las B-pictures pueden usar dos imágenes de referencia diferentes para cada predicción. Las imágenes se ordenan en grupos de imágenes (GOP), donde GOP generalmente comienza con una I-picture y termina en la imagen que precede a la siguiente I-picture.

La fig. 2 ilustra un ejemplo de una estructura GOP que incluye I-, P- y B-pictures.

La fig. 3 ilustra un ejemplo de una estructura GOP que contiene solo I- y P-pictures.

La fig. 4 ilustra un ejemplo de una P-picture para un vídeo QCIF (176 x 144 píxeles) con macrobloques 11 x 9. Como se puede ver en la fig. 4, una P-picture puede incluir bloques intramacro (I MB) solo para tomar información de la

imagen actual y macrobloques predictivos (P MB) que pueden tomar información de otras imágenes por predicción.

Los macrobloques se pueden dividir en particiones incluso más pequeñas. La ilustración de la fig. 4 muestra particiones P MB de tamaño 16 x 16 píxeles, 16 x 8 píxeles, 8 x 16 píxeles y 8 x 8 píxeles. El estándar H.264 permite tales particiones, a veces llamadas subbloques, hasta el tamaño 4 x 4 píxeles. Cada partición P MB utiliza un vector de movimiento (MV) apuntando a una posición en una imagen de referencia previamente descodificada para hacer la predicción. Véase la fig. 5 para ver un ejemplo de predicción de MV para una partición de 16 x 16. El codificador de vídeo también puede elegir guardar bits omitiendo un macrobloque haciendo que el descodificador simplemente copie esa parte de una imagen previamente descodificada.

Desde la capa de codificación de vídeo, se pueden extraer varios parámetros (o derivarlos de parámetros extraídos) y usarlos en el modelo de calidad de corriente de bits para estimar la calidad del vídeo. Ejemplos de dichos parámetros son, entre otros, el tipo de fotograma, tipo GOP, longitud GOP, el número de paquetes de I-, P- y B- frame recibidos/perdidos/descartados, y el número de I/I bueno/deteriorado, I-, P- y B-frames, movimiento, información de macrobloques. Los parámetros pueden extraerse mediante un analizador de corriente de bits.

Además de los parámetros anteriores, también se puede usar otra información de la corriente de bits de vídeo para estimar la calidad del vídeo. Un aspecto importante de la técnica de estimación de la calidad del vídeo presentada en esta descripción es estimar la propagación de error y la visibilidad de error de un error en el vídeo a partir de las características encontradas en la capa de codificación del vídeo de una corriente de bits. Al hacerlo, se puede calcular una puntuación de estimación de la calidad de vídeo más precisa.

En el contexto de la presente descripción, el error incluye o resulta de la pérdida o el retraso de los datos de vídeo, tal como una pérdida o retraso de un paquete de la corriente de bits de vídeo. Sin embargo, no toda la pérdida de datos o la demora de datos dentro de una corriente de bits de vídeo tendrá un impacto perceptible por el ser humano sobre la calidad del vídeo. En otras palabras, no todos los errores tendrán un efecto visual subjetivo en los espectadores finales y se percibirán como una degradación visual. Por ejemplo, la pérdida de un único B-frame tendrá poco impacto porque ningún otro fotograma depende de ese fotograma y, por lo tanto, la imagen solo se distorsionará durante la fracción de segundo correspondiente al único B-frame. Sin embargo, la pérdida de un fotograma de referencia (un I-frame o P-frame) afectará a cualquier P-frame o B-frame que haga referencia al fotograma de referencia. Una serie de pérdidas de paquetes, especialmente aquellas que involucran fotogramas de referencia, comenzarán a causar degradaciones perceptibles por el ser humano en la calidad de la imagen del vídeo. Además, las pérdidas de fotogramas de referencia al comienzo de un cambio de escena o durante secuencias de vídeo de alto movimiento tienen más probabilidades de causar distorsiones perceptibles por el ser humano que las pérdidas de fotogramas de referencia en secuencias de vídeo relativamente estáticas. Por el contrario, es menos probable que las pérdidas de fotogramas que no son de referencia durante los cambios de escena o las secuencias de vídeo de alto movimiento produzcan distorsiones notables porque el artefacto visual queda oscurecido por los

5

10

15

20

25

30

35

40

45

50

55

60

65

rápidos cambios en las imágenes presentadas al espectador.

Por lo tanto, no es suficiente simplemente detectar la ocurrencia de un error en la corriente de bits de vídeo, lo que también se necesita es evaluar o estimar cómo de «visible» será el error para el espectador humano. La visibilidad de error (o visibilidad, en resumen) es un término usado para medir este impacto o efecto visual. La magnitud de la visibilidad de un error indica la cantidad o gravedad en la que el error afectará a la calidad perceptible para el usuario del vídeo. Una forma específica de cuantificar la visibilidad del error es la cantidad de degradación visual del vídeo causada por el error.

Una característica clave de la técnica de estimación de la calidad del vídeo propuesta en esta descripción es la de realizar un seguimiento de al menos uno de una propagación temporal y una propagación espacial de un error. Con este fin, la técnica realiza un seguimiento de dónde se producen los errores en el vídeo, temporal y/o espacialmente, estima cuánto tiempo persistirán los errores y/o cuánto se extenderán en el espacio (es decir, estimará la propagación del error en al menos uno de tiempo y espacio) y su visibilidad. Por ejemplo, un error tiende a extenderse espacialmente cuando hay mucho movimiento y desaparecerá cuando aparezca una intraimagen.

En la fig. 6 se muestra la realización de un procedimiento que incorpora el aspecto esencial de la técnica de estimación de la calidad del vídeo mencionada anteriormente. Específicamente, la fig. 6 representa un procedimiento 10 de estimación de la calidad de un vídeo objetivo que comprende las siguientes etapas: en la etapa inicial 12, se recibe una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen; después en la etapa 14, la técnica determina una ocurrencia de error en un fotograma de la imagen de la corriente de bits de vídeo; después, en la etapa 16, se determina al menos una de una propagación temporal y una propagación espacial del error; finalmente, en la etapa 18, la calidad de la corriente de bits de vídeo se estima con base en el resultado de la determinación.

La fig. 7 representa una realización de dispositivo para practicar la técnica de estimación de calidad de vídeo presentada en esta descripción. El dispositivo, indicado como 20, está adaptado para estimar objetivamente la calidad del vídeo. El dispositivo 20 comprende los siguientes componentes: un receptor 22 adaptado para recibir una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen; un primer determinador 24 adaptado para determinar una aparición de error en un fotograma de la imagen de la corriente de bits de vídeo; un segundo determinador 26 adaptado para determinar al menos uno entre una propagación temporal y una propagación espacial de la degradación visual; y un estimador 28 adaptado para estimar la calidad de la corriente de bits de vídeo con base en resultado de la determinación.

Aunque los componentes 22, 24, 26 y 28 se representan como bloques separados dentro de una carcasa 20, pueden aparecer de forma diferente en la implementación real del dispositivo. Por ejemplo, las funciones de algunos o todos los componentes se pueden combinar en una sola unidad física. Para otro ejemplo, algunos o todos ellos pueden distribuirse en diferentes nodos que participan en todo el servicio del vídeo.

La fig. 8 es un diagrama de bloques que ilustra una realización de programa informático de la técnica de estimación de la calidad del vídeo. El programa informático, indicado como 20' en la fig. 8, comprende partes de código de programa que, cuando se ejecutan en una computadora, hacen que la computadora realice una serie de funciones para estimar la calidad del vídeo. Las funciones corresponden a las etapas 12, 14, 16 y 18, comprendidas en la realización del procedimiento 10 mostrada en la fig. 6 así como a los componentes 22, 24, 26 y 28 de la realización del dispositivo como se muestra en la fig. 7. Como se muestra específicamente en la fig. 8, la realización del programa informático 20' comprende un módulo receptor 22', un primer módulo de determinación 24', un segundo módulo de determinación 26' y un módulo de estimación 28'.

La fig. 9 es un diagrama de flujo que muestra otra realización del procedimiento de la técnica de estimación de la calidad del vídeo. Las etapas ilustradas en el diagrama de flujo son sencillas. Las funciones asociadas con las etapas se pueden dividir en cuatro partes:

• Realizando seguimiento de la propagación del error de un error, es decir, seguimiento de al menos uno de una propagación temporal y una propagación espacial del error;

• Estimando la visibilidad del error de un error para cada posición afectada por error, p. ej., para cada píxel o partición afectada por error (como un macrobloque) en el vídeo;

• Agregando la penalización calculada para todas las partes erróneas del vídeo; y

• Combinando el valor agregado de penalización con tal vez la consideración de otros parámetros para formar una puntuación de calidad para la corriente de bits de vídeo.

Las cuatro partes se describen en detalle a continuación.

5

10

15

20

25

30

35

40

45

50

55

60

65

Realizar seguimiento de la propagación del error

Una forma simple de contabilizar un error, como una pérdida de datos en una corriente de bits de vídeo, es calcular la proporción de las pérdidas. Por ejemplo, la relación de pérdida se puede calcular como la cantidad de macro perdida sobre el número total de bloques. Sin embargo, esta métrica puede no representar correctamente la visibilidad del error.

Para estimar de forma más adecuada la propagación o diseminación del error en al menos uno de tiempo y espacio, la técnica presentada en este documento utiliza la información sobre vectores de movimiento. Por ejemplo, una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen puede comprender al menos una imagen de referencia y al menos una imagen de predicción, donde la imagen de predicción puede comprender al menos un vector de movimiento que apunta a una posición en una imagen de referencia; en consecuencia, la técnica realiza un seguimiento de los vectores de movimiento. La técnica también puede realizar un seguimiento de los vectores de movimiento y de las imágenes de referencia a los que apuntan los vectores de movimiento.

Un error también se propagará en el tiempo siempre que haya una partición omitida o un fotograma omitido después de un error, ya que el error de la partición o fotograma anterior se copiará a la partición o fotograma actual. Además, un error puede propagarse en el espacio para ciertos casos de intrapredicción (p. ej., predicción intratrama o intrapartición). La intrapredicción no usa vectores de movimiento, sino que predice a partir de los píxeles circundantes en las particiones adyacentes (p. ej., macrobloques circundantes). Un códec generalmente contiene varias formas diferentes de cómo realizar la intrapredicción a partir de los píxeles circundantes. En H.264, los bloques intramacro (es decir, macrobloques intracodificados) pueden predecir a partir de bloques no intramacro dentro del cuadro actual. Si un error se ha propagado a un bloque no intramacro y el bloque intramacro predice desde este bloque no intramacro, el error puede propagarse al bloque intramacro. Para impedir la intrapredicción de bloques no intramacro en H.264, constrained_intra_pred_flag se puede establecer a costa de la eficiencia de codificación.

La propagación del error se puede presentar en un mapa de penalización de pérdida. En una realización, la propagación del error puede almacenarse en un mapa de penalización de pérdida.

Estimar la visibilidad del error

Teniendo en cuenta un efecto de dispersión, el error que se produce en un fotograma de la imagen puede afectar a una o más particiones en uno o más fotogramas de la imagen. Por lo tanto, la técnica necesita considerar todos los fotogramas de la imagen o particiones afectados al determinar la visibilidad del error o la degradación visual causada por el error. Una realización de la técnica determina la degradación visual calculando un valor de penalización para cada partición afectada por error en el vídeo. El valor de penalización es un valor indicativo de la cantidad de degradación visual causada por el error.

Para determinar la visibilidad de un error, se pueden implementar diferentes reglas:

• Un error, como una pérdida de datos, que se produce durante un cambio de escena, generalmente se ve peor que un error común y, por lo tanto, debe asignarse con un valor de penalización más alto. Puede que no sea suficiente para detectar solo intrafotogramas, ya que pueden insertarse en cualquier lugar como puntos de acceso aleatorio. Una pérdida en un intrafotograma pero no en un cambio de escena probablemente no se verá tan mal como una pérdida en un cambio de escena.

• Un error, como una pérdida de datos, tiende a verse mal si hay mucho movimiento directamente después del error. Más específicamente, es la magnitud relativa del movimiento lo que es interesante. Por ejemplo, una pequeña pérdida de movimiento en una escena, por lo demás inmóvil, probablemente será más aparente que una pérdida de movimiento media en una escena de alto movimiento.

• Si la partición, p. ej., un macrobloque, en la imagen después de una partición perdida, p. ej., un macrobloque, es una omisión, la probabilidad de que el macrobloque perdido también sea una omisión es alta. Por lo tanto, estos tipos de macrobloques no reciben una penalización por pérdida. Sin embargo, esto puede no aplicarse cuando hay un cambio de escena, ya que entonces, el macrobloque perdido probablemente no sea una omisión.

• Un error tiende a desaparecer con el tiempo. Por lo tanto, el valor de penalización se reduce en una cantidad o factor específico para al menos uno de los fotogramas de la imagen posteriores al cuadro donde se produce el error. Como una implementación específica, el valor de penalización se reduce en una cantidad o factor específico para cada fotograma subsiguiente.

• El valor de penalización se restablece cuando hay fotogramas de imagen o particiones intracodificados. Sin embargo, si una partición intracodificada que sigue a una partición intracodificada tiene un vector de

5

10

15

20

25

30

35

40

45

50

55

60

65

movimiento apuntando a una imagen de referencia que precede a la partición intracodificada, el error puede reaparecer.

Cada una de las reglas anteriores, así como cualquier otra regla, se pueden usar selectivamente en la técnica de estimación de calidad de vídeo presentada en esta descripción.

El movimiento de un fotograma de la imagen se puede usar para determinar el valor de penalización para el error. Al hacerlo, es importante que los vectores de movimiento utilizados sean los que representan el movimiento real y que no solo estén apuntando «aleatoriamente» a la mejor predicción. Los vectores de movimiento que apuntan aleatoriamente no deben considerarse al determinar la magnitud del valor de penalización. Para determinar si un vector de movimiento en una partición, p. ej., un macrobloque, es «aleatorio», se verifican todos los vectores de movimiento de las particiones circundantes. El vector de movimiento en cuestión se considera aleatorio si no es igual o sustancialmente igual (es decir, más/menos una constante) a al menos un vector de movimiento circundante.

Tanto la ubicación (p. ej., la posición xy del error en el fotograma de la imagen) como la visibilidad de un error se pueden presentar en el mapa de penalización de pérdida. Para una fidelidad total de la propagación de errores, el mapa de penalización de pérdidas debe tener la misma resolución que el mapa de píxeles descodificado, p. ej., 176 x 144 valores. En la fig. 10 se muestra un ejemplo de una pérdida de paquete en vídeo. En la figura 11 se ilustra el mismo ejemplo con el mapa de penalización de pérdida como superposición. Generalmente, el mapa de penalización de pérdidas puede tomar la forma de una estructura de datos bidimensional que define campos de datos individuales, donde cada campo de datos está configurado para permitir el almacenamiento de un valor de penalización. Un ejemplo, la estructura de datos se puede organizar en forma de una tabla.

La fig. 12 muestra una realización de dispositivo 30 de la técnica de estimación de calidad de vídeo presentada en este documento. En comparación con la realización de dispositivo 20 mostrada en la fig. 7, el dispositivo 30 comprende un componente adicional, concretamente un colector 32. El colector 32 está adaptado para recoger la degradación visual en un mapa de penalización de pérdida.

De forma correspondiente, se proporciona una realización de programa informático 30' de la técnica de estimación de la calidad del vídeo como se muestra en la fig. 13. En comparación con la realización del programa informático 20' que se muestra en la fig. 8, el programa informático 30' comprende un módulo adicional, concretamente un módulo colector 32' para recoger la degradación visual en un mapa de penalización de pérdida.

Para mantener baja la complejidad de la técnica, el valor de penalización puede calcularse en ciertas realizaciones con una resolución inferior a la del mapa de píxeles descodificado. Por ejemplo, la resolución del mapa de penalización de pérdida podría ser la misma que la resolución de los macrobloques, como 11 x 9 para QCIF. Una forma de estimar la dispersión del valor de penalización para el caso de resolución más baja es ponderar los valores del valor de penalización anterior en consecuencia. Para el ejemplo en la fig. 5 con el vector de movimiento (x, y) = (5,7), el valor de penalización para el bloque inferior derecho de los cuatro bloques en la imagen actual puede calcularse como:

penalización = (5 x 7) / (16 x 16) x valor de penalización del bloque superior izquierdo anterior

+ (11 x 7) / (16 x 16) x valor de penalización del bloque superior derecho anterior

+ (5 x 9) / (16 x 16) x valor de penalización del bloque inferior izquierdo anterior

+ (11 x 9) / (16 x 16) x valor de penalización del bloque inferior derecho anterior

Cierto conocimiento del tipo de ocultación que se utilizará en el descodificador hará que la estimación de la visibilidad del error sea más precisa. Los posibles procedimientos de ocultamiento para imágenes predictivas incluyen:

• Copia de piezas perdidas de la imagen descodificada anterior;

• Copia de piezas perdidas de la imagen descodificada anterior en función del movimiento;

• Congelación de todo el vídeo hasta un próximo punto de acceso aleatorio (intrafotograma).

La técnica de estimación de la calidad del vídeo presentada en este documento puede diseñarse para aplicarse a al menos los dos procedimientos superiores de ocultamiento y similares.

En el caso de usar el procedimiento de congelación, el impacto de visibilidad de error se puede calcular a partir del tiempo que transcurre entre cada error y el siguiente punto de acceso aleatorio. La cantidad de movimiento de la escena también es un parámetro que puede afectar la visibilidad de la congelación.

Los posibles procedimientos de ocultación para I-pictures incluyen los tres procedimientos de ocultación anteriores,

5

10

15

20

25

30

35

40

45

50

55

60

así como la interpolación/extrapolación de macrobloques perdidos a partir de macrobloques recibidos correctamente en la misma I-picture. Si la I-picture se encuentra en un cambio de escena, el procedimiento de interpolación/extrapolación puede producir un resultado mejor que los dos procedimientos de ocultación superiores, ya que impide que el descodificador copie píxeles de la escena anterior. Sin embargo, cuando este procedimiento de ocultación se usa para I-pictures que no están en un cambio de escena, puede que no sea tan bueno como los dos procedimientos de ocultación superiores.

En algunos escenarios, es posible que la información sobre el procedimiento de ocultación en el descodificador ya sea conocida o que pueda ser señalada al modelo de estimación de calidad de vídeo desde el terminal del cliente.

Agregar valor de penalización

No es suficiente estimar solo dónde se producen los errores y su gravedad. Para proporcionar una puntuación de calidad general (es decir, estimación de calidad) para toda la corriente de bits de vídeo, el valor de penalización debe agregarse al menos en uno de tiempo y espacio.

La fig. 14 representa una tercera realización de dispositivo 40 de la técnica de estimación de calidad de vídeo presentada en este documento. En comparación con la realización de dispositivo 20 mostrada en la fig. 7, el dispositivo 40 comprende dos componentes adicionales, a saber, un agregador 42 y una calculadora 44. El agregador 42 está adaptado para agregar la degradación visual provocada por el error sobre al menos uno de tiempo y espacio. La calculadora 44 está adaptada para calcular una puntuación indicativa de la calidad de la corriente de bits de vídeo en función del resultado de la agregación.

En correspondencia con la realización del tercer dispositivo 40, se proporciona una realización de programa de ordenador 40' de la técnica de estimación de la calidad del vídeo como se muestra en la fig. 15. En comparación con la realización del programa informático 20' que se muestra en la fig. 8, el programa informático 40' comprende dos módulos adicionales, a saber, un módulo de agregación 42' y un módulo de cálculo 44'. El módulo de agregación 42' sirve para agregar la degradación visual causada por el error sobre al menos uno de tiempo y espacio, y el módulo de cálculo 44' funciona para calcular una puntuación indicativa de la calidad de la corriente de bits de vídeo en función del resultado de la agregación.

Ponderar las particiones e imágenes afectadas de una manera uniforme es una estrategia de agregación, pero puede no ser óptimo en ciertos casos, particularmente, en aquellos donde incluso un pequeño error puede arruinar significativamente la calidad. En tales casos, puede ser más apropiado ponderar el valor de penalización, o la degradación visual, en un factor más alto para un valor de penalización pequeño que para un valor de penalización grande. Una realización específica de este enfoque es aumentar el valor de penalización por área/duración más alta para valores de penalización pequeños que valores de penalización grandes.

Se pueden usar varias funciones para modelar el último enfoque de agregación. Un ejemplo de una función de ajuste fácil utilizada para este propósito es la función de registro delimitada de la siguiente forma:

imagen1

La función con varios valores para d está representada en la fig. 16.

Alternativamente, las funciones polinomiales (p. ej., polinomios de tercer grado) o las funciones de umbral discretas ajustadas a un conjunto de datos muestreados, se pueden usar para modelar la agregación.

Todas las funciones ejemplares enumeradas anteriormente pueden producir resultados satisfactorios. Un punto importante es, probablemente, utilizar una función con derivada decreciente como para d>0 en la función de registro delimitada anterior.

La agregación se puede realizar gradualmente en el tiempo. Por ejemplo, el valor de penalización puede agregarse para cada segundo (correspondiente, p. ej., a 25 marcos de cuadros) uniformemente para dar un “subresultado”, y a continuación se utiliza otra función para tener en cuenta estos subresultados.

Formar puntuaciones de calidad

La penalización agregada puede ser uno de varios parámetros que contribuyen a una puntuación de modelo de calidad de corriente de bits que estima la calidad subjetiva percibida de una corriente de bits de vídeo. Algunos de los otros parámetros de interés pueden incluir parámetros de red de radio como la tasa de error de bloqueo de radio (BLER), tasa de bits erróneos (BER) y portador de radio utilizados, parámetros de red de transporte como pérdida de paquetes, datos en todo, datos de fluctuación de paquetes, estrategia de búfer de fluctuación de paquetes, tamaño del paquete IP y tasa de error CRC de señalización RTP/RTCP (del demultiplexor H.223), número de errores CRC,

5

10

15

20

25

30

35

velocidad de bits de vídeo, número de bits por fotogramas de vídeo; y parámetros extraídos o derivados de la capa de vídeo como velocidad de fotogramas del vídeo objetivo, resolución de vídeo, códec de vídeo, perfil del códec de vídeo, nivel de códec de vídeo, parámetro de cuantificador, velocidad del fotograma del vídeo real, número de segmentos de vídeo (GOB, partes, paquetes de vídeo) por fotograma, tipo de imagen (intra o interimagen), número de macrobloques intra por imagen, estrategia de intractualización (por predicción informada), cuantificador promedio/mínimo/máximo por imagen, número de macrobloques por segmento, vectores de movimiento absoluto promedio/máximo/min, existencia y distribución de intraparticiones, existencia y distribución de interparticiones, existencia y distribución de macrobloques omitidos, existencia y distribución de resoluciones de vectores de movimiento, información sobre el número de imágenes de referencia utilizadas.

El modelo de corriente de bits podría ser, por ejemplo, un modelo lineal de la forma

MOSest = C0 + CiPo + C2P1 + ... + Cn+iPn

o un modelo geométrico de la forma

imagen2

o una combinación de los dos. El modelo también podría ser de alguna otra forma no lineal.

La puntuación de calidad puede calcularse periódicamente con un período de tiempo dado, p. ej., 10 segundos. La puntuación también se puede calcular utilizando una estrategia de ventana deslizante, donde se calcula una nueva puntuación para una duración de tiempo predefinida a una velocidad predefinida. Por ejemplo, una nueva puntuación para un determinado tamaño de ventana, por ejemplo, correspondiente a 10 segundos, se calcula a una velocidad determinada, por ejemplo, una por imagen o una por dos segundos. Para el valor de penalización, esto puede requerir que se mantenga una penalización agregada para cada imagen.

La técnica de estimación de calidad de vídeo presentada anteriormente puede modelar el impacto visual de un error en el vídeo de manera más adecuada que los modelos paramétricos. Esto a su vez mejora la precisión de la estimación de la calidad del vídeo. Además, la técnica presentada en la descripción actual es menos compleja y requiere menos tiempo y recursos que los modelos perceptivos que tienen que, entre otros, descodificar el vídeo y buscar errores visibles en los datos de píxeles del vídeo descodificado.

Aunque la técnica se ha descrito con referencia a las realizaciones anteriores, debe entenderse que la descripción es solo con fines explicativos. En consecuencia, se pretende que la invención esté limitada únicamente por el alcance de las reivindicaciones adjuntas a la misma.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un procedimiento de estimación de la calidad del vídeo (10), que comprende las etapas de:

- recibir (12) una corriente de bits de vídeo que comprende una serie de fotogramas de la imagen;

- determinar (14) una ocurrencia de error en un macrobloque de un fotograma de la imagen;

- mantener el seguimiento (16) de al menos uno de una propagación temporal y una propagación espacial del error utilizando al menos uno de información de vector de movimiento e intrapredicción que se relaciona con el macrobloque afectado por el error;

- estimar (18) una calidad de la corriente de bits del vídeo basado en la propagación del error; y

- determinar una degradación visual causada por el error, en la que se calcula un valor de penalización para cada macrobloque afectado por el error y es indicativo de la cantidad de degradación visual causada por el error,

- en la que el valor de penalización se calcula según una o más de las siguientes reglas:

-- asignando un valor de penalización más alto al error si el error se produce en un cambio de escena;

-- asignando un valor de penalización más alto al error si la corriente de bits del vídeo comprende datos de movimiento directamente después de un fotograma de la imagen afectado por error y, particularmente, si una magnitud relativa del movimiento es grande;

-- no asignando valor de penalización al error para el macrobloque si el macrobloque es un salto o es un salto estimado, opcionalmente a menos que haya un cambio de escena o un cambio de escena estimado;

-- disminuyendo el valor de penalización asignado al error para al menos un fotograma de la imagen subsiguiente en una cantidad o factor predeterminado, y

-- reestableciendo el valor de penalización al recibir un fotograma de la imagen intracodificado o un fotograma de la imagen intracodificada.
2. El procedimiento, según la reivindicación 1, que comprende además las etapas de:

- recogida de la degradación visual en un mapa de penalización de pérdida, en la que el mapa de penalización de pérdida tiene opcionalmente la misma resolución que la imagen asociada o una resolución menor que la imagen.
3. El procedimiento, según la reivindicación 1 o 2, en el que la determinación de al menos uno de la propagación temporal y la propagación espacial del error comprende ponderar la degradación visual por un error anterior.
4. El procedimiento de cualquiera de las reivindicaciones 1 a 3 que comprende además las etapas de:

- agregar la degradación visual causada por el error sobre al menos uno de tiempo y espacio; y

- basada en el resultado de la agregación, calcular una puntuación indicativa de la calidad de la corriente de bits del vídeo.
5. El procedimiento según la reivindicación 4, en el que la agregación de la degradación visual comprende ponderar la degradación visual en un factor más alto para una degradación visual pequeña que para una degradación visual grande.
6. El procedimiento según la reivindicación 4 o 5, en el que la puntuación se calcula periódicamente o usando una estrategia de ventana deslizante donde se calcula una nueva puntuación para una duración de tiempo predefinida a una velocidad predefinida.
7. El procedimiento según una cualquiera de las reivindicaciones anteriores, en el que la corriente de bits del vídeo comprende al menos una parte de una capa de codificación de vídeo,

en el que la capa de codificación de vídeo comprende uno o más parámetros, y

en el que al menos una de las etapas para determinar la ocurrencia del error, determinar la propagación del error y estimar la calidad del vídeo se basa en al menos uno o más de los parámetros.
8. Un producto de programa de computadora (20') para la estimación de la calidad del vídeo, que comprende partes de código de programa que cuando se ejecutan en una computadora hacen que la computadora realice las etapas de cualquiera de las reivindicaciones anteriores.
9. Un dispositivo (20) para estimar la calidad del vídeo, comprendiendo el dispositivo:

- un receptor (22) adaptado para recibir una corriente de bits del vídeo que comprende una serie de fotogramas de la imagen;

5

10

15

20

25

30

35

40

45

- un primer determinador (24) adaptado para determinar una aparición de error en un macrobloque de un fotograma de la imagen;

- un segundo determinador (26) adaptado para realizar un seguimiento de al menos uno de una propagación temporal y una propagación espacial del error utilizando al menos uno de información de vector de movimiento e intrapredicción que se relaciona con el macrobloque afectado por error;

- un estimador (28) adaptado para estimar una calidad de la corriente de bits del vídeo basado en la propagación del error; y

- un tercer determinador adaptado para determinar una degradación visual causada por el error, en el que se calcula un valor de penalización para cada macrobloque afectado por el error y es indicativo de la cantidad de degradación visual causada por el error,

- en el que el tercer determinador está además adaptado para calcular el valor de penalización según una o más de las siguientes reglas:

-- asignar un valor de penalización más alto al error si el error se produce en un cambio de escena;

-- asignar un valor de penalización más alto al error si la corriente de bits del vídeo comprende datos de movimiento directamente después del fotograma de la imagen afectado por error y, particularmente, si una magnitud relativa del movimiento es grande;

-- no asignar valor de penalización al error para el macrobloque si el macrobloque es un salto o es un salto estimado, opcionalmente, a menos que haya un cambio de escena o un cambio de escena estimado;

-- disminuir el valor de penalización asignado al error para al menos uno de los fotogramas de la imagen subsiguientes en una cantidad o factor predeterminado, y

-- restablecer el valor de penalización al recibir un fotograma de la imagen intracodificado o un macrobloque intracodificado.
10. El dispositivo según la reivindicación 9, que comprende además:

- un colector adaptado para recoger la degradación visual en un mapa de penalización de pérdida.
11. El dispositivo según la reivindicación 9 o 10, que comprende además:

- un agregador adaptado para agregar la degradación visual provocada por el error sobre al menos uno de tiempo y espacio; y

- una calculadora adaptada para calcular una puntuación indicativa de la calidad de la corriente de bits de vídeo en función del resultado de la agregación.
12. Un nodo servidor (2) para proporcionar una corriente de bits de vídeo, comprendiendo el nodo servidor el dispositivo según una cualquiera de las reivindicaciones 9 a 11.
13. Un terminal de cliente (4) para descodificar una corriente de bits de vídeo, comprendiendo el terminal de cliente el dispositivo según una cualquiera de las reivindicaciones 9 a 11.
14. Un nodo de red (8) para la comunicación entre un nodo de servidor de vídeo y un terminal de cliente de vídeo, comprendiendo el nodo de red el dispositivo según una cualquiera de las reivindicaciones 9 a 11.