ES2675806T3

ES2675806T3 - Método y aparato para evaluar la calidad de una señal de video durante la codificación y transmisión de la señal de video

Info

Publication number: ES2675806T3
Application number: ES11763618.3T
Authority: ES
Inventors: Alexander Raake; Marie-Neige Garcia; Peter List; Savvas Argyropoulos; Bernhard Feiten
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2010-12-10
Filing date: 2011-09-02
Publication date: 2018-07-12
Anticipated expiration: 2031-09-02
Also published as: PL2649807T3; EP2649807B1; DK2649807T3; BR112013014366B1; KR101834031B1; CN103270765A; WO2012076202A1; EP2649807A1; JP2014500677A; CN103270765B; US20130265445A1; JP5964852B2; HUE039252T2; US9232216B2; HRP20181099T1; KR20140027080A; BR112013014366A2

Abstract

Método para evaluar en el lado del receptor la calidad de una secuencia de señal de video transmitida, comprendiendo el Método las etapas de: a) capturar antes de la descodificación el flujo de bits de video de entrada recibido, y suministrarlo a un analizador de flujo de bits de video; b) extraer mediante el analizador de flujo de bits, durante una ventana de tiempo de medición, una o varias características a partir de las cabeceras de paquete capturadas, sin analizar o descodificar la carga útil del paquete; c) calcular, a partir de dichas una o varias características, un único parámetro, xwpSEQ, que representa una estimación de la extensión espacio-temporal de la degradación de la señal debida a una pérdida de paquetes, en el que dicho único parámetro, xwpSEQ, está basado en el número, N, de grupos de imágenes, GOP, en la ventana de medición y en la extensión espacio-temporal, xl_k, de las pérdidas que se producen en los grupos de imágenes afectados, k, utilizando la relación xwpSEQ >= Σ xl_k/N, en el que la extensión espacio-temporal, xl_k, de las pérdidas que se producen en un grupo de imágenes, k, se calcula en base a la proporción de píxeles deteriorados en el cuadro afectado debido a un evento de pérdida, xl_i, a la posición de las pérdidas con respecto al inicio del GOP, t_i y a la longitud del GOP, T_k, utilizando la relación xl_k >= Σ xl_i - Σ xl_i*t_i/T_k, en el que el cálculo tiene en cuenta adicionalmente un factor de corrección, α1,k, que representa la complejidad espacio-temporal de la secuencia de video, mediante lo que se corrige la contribución xl_k de las pérdidas en el GOP k al parámetro global xwpSEQ, utilizando la relación xwpSEQ >= Σ α1,k ∗ xl_k/N o xwpSEQ >= Σ α1,k ∗ xl_k*T_k/Σ T_k, donde N es el número de GOP en la ventana de medición y T_k es la longitud del GOP k; d) suministrar el parámetro determinado a un módulo de estimación de la calidad; y e) calcular, mediante el módulo de estimación de la calidad, una medida de la calidad debida a la pérdida de paquetes, Qtrans, en base solamente al parámetro único que representa la estimación de la extensión espaciotemporal de la degradación de la señal, xwpSEQ, debida a pérdida de paquetes y en base a información de la resolución de video y al códec de video utilizado.

Description

5

10

15

20

25

30

35

40

45

50

55

60

DESCRIPCION

Método y aparato para evaluar la calidad de una señal de video durante la codificación y transmisión de la señal de video

Campo de la Invención

La invención se refiere a un Método y un aparato para evaluar la calidad de una señal de video tal como queda después de la codificación, la transmisión y la descodificación de la señal de video. La invención se centra, en particular, en la evaluación y modelización de la calidad percibida de la señal de video, en caso de que la señal de video esté deteriorada por pérdida de paquetes durante la transmisión.

Antecedentes de la Invención

Entre los numerosos servicios de distribución de video, el video basado en IP, tal como se utiliza, por ejemplo, para IPTV (Internet protocol TV, TV por protocolo de internet) está adquiriendo cada vez más importancia, y está cada vez más sustituyendo los Métodos de transmisión analógicos o no basados en paquetes. Es una gran responsabilidad del proveedor de difusión, tanto hacia el proveedor de contenidos como hacia el cliente, mantener un elevado nivel de calidad de su servicio. En las redes de distribución de video a gran escala cuando están involucradas, por ejemplo, en servicios IPTV, solamente las sondas de monitorización de calidad totalmente automatizadas pueden cumplir este requisito.

Para conseguir un alto grado de satisfacción del usuario de servicios de video tales como video en flujo continuo no interactivo (IPTV, VoD) o video estático (DVD), además de indicadores del rendimiento técnico, dichas sondas de monitorización tienen asimismo que proporcionar estimaciones de la calidad del video que los usuarios de los servicios perciben durante un intervalo de monitorización determinado.

A tal efecto, se han desarrollado modelos técnicos de la calidad del video que proporcionan estimaciones instrumentales de la calidad del video percibida por el usuario, y son por lo tanto modelos técnicos del usuario. Por ejemplo, estos modelos pueden entregar el grado de similitud entre el video recibido en el lado del usuario y el video original, no degradado. Además, representando una solución más sofisticada, se puede modelizar el sistema visual humano (HVS, Human Visual System) utilizando un sistema técnico. Finalmente, dicho modelo proporcionará estimaciones de calidad que corresponden a calificaciones proporcionadas por los usuarios, lo que se consigue entrenando los modelos técnicos sobre los resultados de pruebas extensivas de calidad subjetiva.

Los modelos de calidad del video y por lo tanto los sistemas de medición se clasifican en general como sigue:

Tipos de modelo de calidad

• Referencia completa (FR, Full Reference): se requiere una señal de referencia.

• Referencia reducida (RR, Reduced-Reference): se requiere información parcial extraída de la señal de origen.

• Sin referencia (NR, No-Reference): no se requiere señal de referencia.

Tipos de parámetros de entrada

• basados en señales/medios: se requiere la imagen descodificada (información de píxeles).

• basados en parámetros: se requiere información a nivel de flujo de bits. La información puede variar desde información de cabecera de paquete, que requiere analizar sintácticamente solamente las cabeceras de paquete, pasando por la descodificación parcial hasta la descodificación total del flujo de bits.

Tipo de aplicación

• Planificación de redes: el modelo o sistema de medición se utiliza antes de la implementación del servicio en la fase de planificación, para identificar la mejor implementación posible.

• Monitorización del servicio: el modelo se utiliza durante el funcionamiento del servicio.

La información relacionada sobre los tipos de modelos de calidad del video se puede encontrar en las referencias [1], [2] o [3].

En el contexto de IPTV, las distorsiones principales están provocadas por compresión de video y pérdida de paquetes de video. Los elementos que influyen sobre la calidad del video percibida, en el caso de pérdida de paquetes de video, son:

a) La cantidad de paquetes perdidos

b) La distribución de pérdida de paquetes que se puede describir, por ejemplo, en términos del número promedio de paquetes perdidos en una determinada ráfaga con pérdidas, y la distribución de dichas ráfagas.

c) La estructura GOP, que incluye

5

10

15

20

25

30

35

40

45

50

55

60

65

i) La longitud GOP, es decir, la distancia entre cuadros de video que no requieren cuadros anteriores o posteriores para ser descodificados, los denominados 'cuadros clave' o "cuadros I". Un grupo de imágenes cubre un cuadro I y todos los cuadros hasta el siguiente cuadro I de la secuencia de video.

ii) El número y la distribución de cuadros B y P en cada GOP, que son cuadros predichos (P) y bidireccionales (B).

iii) El "tipo" de GOP: GOP abierto o GOP cerrado; cuando el GOP es abierto, los cuadros que pertenecen a un GOP se pueden codificar utilizando cuadros de referencia del GOP siguiente o anterior; cuando el GOP es cerrado, solamente se pueden utilizar cuadros de referencia del GOP actual, como referencia para codificar cuadros del GOP actual.

d) El tipo de cuadro, del cuadro deteriorado por pérdida de paquetes. Si la pérdida se produce en un cuadro I o un cuadro P, la pérdida se propaga a todos los cuadros que hacen referencia al cuadro deteriorado, habitualmente hasta el siguiente cuadro I (referencia), mientras que si la pérdida se produce en un cuadro B, la pérdida no se propaga, excepto en el caso de codificación jerárquica de cuadros B. En el caso de codificación jerárquica, algunos de los cuadros B se utilizan asimismo como cuadros de referencia para otros cuadros B. Por lo tanto, una pérdida en cuadros B de referencia se propaga a los cuadros B dependientes.

e) El número de paquetes por cuadro. Este número depende de la tasa de bits y de la complejidad espacio- temporal del video. Cuanto mayor es la tasa de bits, más paquetes se requieren para transmitir el cuadro. La complejidad espacio-temporal del video influye sobre la distribución de paquetes entre cuadros: básicamente, cuanto mayor es la complejidad espacial del video, más paquetes se requieren para los cuadros I o los cuadros P y B (si se requieren macrobloques intra-predichos/predichos espacialmente para capturar la información), y cuanto mayor es la complejidad temporal del video, más paquetes se requieren para transmitir cuadros P y B. A su vez, cuanto mayor es el número de paquetes por cuadro, menor es la cantidad correspondiente de píxeles contenidos en el paquete. Considerando una determinada probabilidad de pérdida, cuanto más paquetes contiene un cuadro, mayor será la probabilidad de tener pérdida de paquetes en este cuadro, y mayor será la probabilidad de que la pérdida se propague si este cuadro es un cuadro de referencia.

f) El ocultamiento de la pérdida de paquetes, es decir, la estrategia implementada en el descodificador para ocultar la pérdida. El ocultamiento de la pérdida de paquetes se puede categorizar de manera general en términos de segmentación o de congelación. Un segmento se define como un área del cuadro de video que puede ser descodificada independientemente. Por lo tanto, si está afectada por una pérdida de paquetes - el descodificador rellena este área con datos de áreas (espacial o temporalmente) contiguas recibidas correctamente. La segmentación tiene que ser implementada por el codificador, que introduce las cabeceras de segmentación que utilizará el descodificador como puntos de sincronización. En el caso de pérdida de paquetes y ocultamiento de pérdidas de tipo congelación, el último cuadro de video recibido correctamente se repite habitualmente hasta que llega el siguiente cuadro I intacto, u otro cuadro de referencia intacto a partir del cual se predice el cuadro afectado. En servicios de difusión, la congelación incluye saltarse los cuadros erróneos. En servicios no de difusión, los paquetes perdidos pueden ser reenviados y reproducidos incluso después de una recepción retardada. Esto se puede considerar como un realmacenamiento en memoria tampón, y no se salta la información faltante. Se debe observar que el último caso no es considerado por esta invención.

g) Si se utiliza segmentación como ocultamiento de la pérdida de paquetes, el número de segmentos por cuadro (ver la figura 2). El número de segmentos por cuadro es seleccionado en la etapa del codificador. En el caso de pérdida de paquetes y si se utiliza segmentación como ocultamiento de la pérdida de paquetes, este número influye sobre la extensión espacial de la pérdida. Por supuesto, si se produce una pérdida de paquetes en un segmento, la pérdida se propaga hasta el siguiente segmento, es decir, hasta que el descodificador se puede resincronizar en base a la siguiente cabecera de segmento disponible. Como consecuencia, aumentar el número de segmentos por cuadro reduce la extensión espacial de la pérdida. Sin embargo, esto aumenta asimismo el número de cabeceras de segmento, y por lo tanto disminuye la eficiencia de la codificación a una determinada tasa de bits global. Esto refleja que existe un compromiso entre la eficiencia de la codificación y la robustez frente a la pérdida de paquetes.

h) El tipo de control de tasa utilizado por el codificador, es decir, codificación a tasa de bits constante frente a variable. Específicamente, el tipo de control de tasa (codificación a tasa de bits constante o variable) utilizada por el codificador junto con la complejidad espacio-temporal del contenido, afecta fuertemente al mapeo de la información espacio-temporal en octetos o, en otros términos, al número de paquetes requeridos para una determinada área espacio-temporal. Se debe observar que la presente invención se dirige al caso de codificación a tasa de bits tanto constante como variable, pero debido a la validez reducida de la estimación de la extensión espacio-temporal de los eventos de pérdida en base a la información de cabecera en casos de codificación a tasa de bits fuertemente variable, las predicciones de calidad proporcionadas por el modelo técnico del usuario, descrito en esta invención, serán menos próximas a la percepción real.

Los Métodos de estimación de la calidad soportan normalmente una estimación independiente de la calidad relacionada con la codificación (compresión, Qcod) de la señal de video, y de la calidad debida a la pérdida de paquetes durante la transmisión (Qtrans). Los Métodos de estimación de la calidad utilizan normalmente uno de dos enfoques para combinar una estimación relativa a la calidad de la compresión y a la calidad de la transmisión. Las

5

10

15

20

25

30

35

40

45

50

55

60

65

ecuaciones (1) y (2) muestran los dos diferentes enfoques, donde los respectivos intervalos de valores representan implementaciones a modo de ejemplo:

Q-Q0- Qcod - Qtrans , QO, Qx e [0 ... 100] (1)

Q = Q0 * Qcod * Qtrans , Q0, Qx e [0 ... 1] (2),

En este caso, Q0 representa la calidad de base o una función de la calidad de base. En este caso, calidad de base se refiere a la calidad percibida del video antes de la codificación, la transmisión y la descodificación.

En la bibliografía, la calidad debida a la pérdida de paquetes (Qtrans) se estima normalmente a partir de la tasa de bits y de la tasa de pérdida de paquetes, tal como en [4]. Para tener en cuenta la distribución de la pérdida de paquetes, se consideran asimismo parámetros que describen la distribución de pérdidas dentro de la secuencia de video, tal como la densidad de ráfagas y la duración de las ráfagas, tal como en [5], o el número de paquetes perdidos en una fila, tal como en [6]. Alternativamente, se han propuesto parámetros que describen la frecuencia de pérdida de paquetes (es decir, el número de eventos de pérdida de paquetes dentro de un periodo de tiempo determinado), tal como en [7]. Dichos parámetros son útiles en un caso de planificación de redes pero pueden ser insuficientes en un caso de monitorización del servicio. Por ejemplo, no capturan qué proporción del cuadro afectado está deteriorada, dado que no consideran el número total de paquetes y el número de paquetes perdidos en el cuadro afectado por pérdida. Por lo tanto, ignoran la extensión espacial real de la pérdida. Además, no consideran el tipo de cuadro del cuadro afectado por pérdida, y por lo tanto ignoran la propagación temporal y por ello la duración de la pérdida.

Se ha propuesto en [8] un parámetro que describe la duración temporal de la pérdida, pero este parámetro cubre solamente la congelación como ocultamiento de la pérdida de paquetes. Se realiza una propuesta interesante en

[10] para estimar el área del cuadro que está afectada por una pérdida, en el caso en que se aplica segmentación. En este caso, el enfoque propuesto no se aplica a la predicción de la calidad tal como se propone en la presente invención, y cubre solamente uno de los diversos casos secundarios que trata la presente invención. En [9], se propone un Método que utiliza un enfoque similar a [10] pero en un contexto algo diferente. Éste utiliza parámetros que describen la extensión espacial de la pérdida por cuadro y tipo de cuadro, y calcula la calidad del cuadro en base a estos parámetros. Sin embargo, la temporización de los cuadros y la propagación de las pérdidas no se consideran explícitamente en términos de un solo parámetro para describir la distorsión inducida por pérdidas. En

[11] se propone asimismo un Método y un sistema para estimar la calidad de señales de audio-video. Sin embargo, un modelo de usuario perceptualmente adecuado tiene que utilizar un mapeo cuantitativo entre la descripción de la pérdida y el impacto sobre la calidad, en términos de la magnitud de la degradación perceptual. En el modelo de la invención, se supone que la combinación de la extensión espacial y la duración de la pérdida incide sobre la calidad percibida. Como consecuencia, la invención define un parámetro que describe de manera precisa y explícita la extensión espacial y la duración de la pérdida, y un modelo que mapea este parámetro a la calidad de la secuencia de video considerando la ventana de medición determinada.

Sumario de la Invención

El Método de la invención se centra en la estimación de la calidad del término que caracteriza la eficiencia de la transmisión Qtrans en caso de que se aplique segmentación o congelación como ocultamiento de la pérdida de paquetes. El Método de la invención se puede combinar con diferentes Métodos para estimación de la calidad en relación con compresión en flujos de video Qcod. Las etapas involucradas cuando se aplica el Método para determinar Qtrans en el caso de segmentación se ilustran utilizando el diagrama de flujo mostrado en la figura 8.

El Método de la invención es un modelo de calidad del video basado en parámetros, con parámetros ligeros, y proporciona por lo tanto una solución técnica adecuada para la monitorización del servicio que puede ser implementada, por ejemplo, en dispositivos de usuario final, tales como descodificadores o pasarelas domésticas. Tal como se muestra en la figura 1, el modelo toma como entrada parámetros extraídos del flujo de bits. En principio, el sistema de medición en el que está incorporado el Método de la invención puede estar situado en diferentes posiciones en la red. Sin embargo, cuanto más próxima al usuario esté situada la sonda, más representativa de la calidad real en el lado del usuario es la calidad predicha. Los parámetros no requieren acceso a la carga útil, y por lo tanto no requieren una descodificación parcial ni total del flujo de bits. Como consecuencia, el Método puede ser utilizado para predicción de la calidad para flujos cifrados, donde no es posible el acceso a la carga útil en la posición de medición en la red. Un análisis sintáctico ligero de las cabeceras de paquete es suficiente para acceder a los parámetros a enviar al modelo. Se debe observar que si se permite un análisis sintáctico más profundo, tal como con datos no cifrados, los parámetros pueden ser asimismo utilizados en aislamiento o conjuntamente con parámetros adicionales extraídos del flujo de bits en base a una descodificación parcial o total. El Método de la invención considera en detalle los parámetros del proceso de transmisión. En la sección "Antecedentes de la invención" se enumera una lista de elementos, influyendo dichos elementos sobre la calidad del video percibida, en caso de pérdida de paquetes. Dichos elementos son adecuados asimismo para describir el impacto en la calidad debido a la pérdida de paquetes, y por lo tanto pueden ser utilizados en términos de parámetros de entrada de un modelo de calidad del video basado en parámetros. Sin embargo, la lista correspondiente de parámetros es larga,

5

10

15

20

25

30

35

40

45

50

55

60

65

reduciendo la flexibilidad de dicho modelo, dado que los parámetros tienen que ser ajustados cada vez que se modifican los ajustes del codificador, la distribución de la pérdida de paquetes o la estructura GOP, lo que aumenta el riesgo de generar predicciones de calidad incorrectas.

Con la presente invención, se introduce un parámetro alternativo, que reduce significativamente el número de parámetros de entrada a utilizar en un modelo de calidad. Este único parámetro implementa una descripción más genérica de la extensión espacial y la duración de la pérdida, de la que es posible basándose en los respectivos parámetros utilizados normalmente.

El objetivo de la invención es dar a conocer un Método y un aparato para evaluar en el lado del receptor la calidad de una secuencia de señal de video transmitida sobre un enlace que introduce pérdidas de paquetes, y en el caso en que se aplica segmentación o congelación como ocultamiento de la pérdida de paquetes (Qtrans en las ecuaciones (1) o (2)). La invención utiliza un solo parámetro que captura la magnitud de la degradación, que se mapea a la calidad. El objetivo de la invención se consigue con las características de las reivindicaciones. La invención da a conocer un Método para evaluar la calidad de una secuencia de señal de video transmitida en el lado del receptor, de acuerdo con la reivindicación 1. El parámetro único, xwpSEQ, determinado en la etapa c) representa la extensión espacial y la duración de la pérdida. Preferentemente, el parámetro único, xwpSEQ, está basado en el número, N, de grupos de imágenes, GOP, en la ventana de medición y en la extensión espacio-temporal, xl_k, de las pérdidas que se producen en los grupos de imágenes afectados, k.

La extensión espacio-temporal, xl_k, de las pérdidas que se producen en un grupo de imágenes, k, se puede calcular en base a la proporción de píxeles deteriorados en el cuadro afectado debido a un evento de pérdida, xl_i, a la posición de la pérdida con respecto al inicio del GOP, t_i, y a la longitud del GOP, T_k.

La proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula preferentemente en base al número de paquetes de video perdidos para un evento de pérdida de paquetes i en el cuadro afectado actual, dividido por el número de paquetes perdidos y correctamente recibidos en el cuadro afectado actual.

La proporción de píxeles deteriorados en el cuadro afectado, xl_i, se puede calcular asimismo en base al número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual, dividido por el número de octetos perdidos y correctamente recibidos en el cuadro afectado actual.

De acuerdo con otra realización, la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes que contiene el cuadro actual, al número de paquetes de video perdidos en el cuadro afectado actual que se pierden en el evento de pérdida i, al número de segmentos por cuadro y al número estimado de paquetes por segmento.

Es preferible asimismo que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcule en base al tamaño total en octetos de los paquetes que contiene el cuadro actual, al número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual y al número estimado de paquetes u octetos por segmento.

Alternativamente, la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes que contiene el cuadro actual, al número de paquetes de video que pertenecen a un evento de pérdida combinado ij, en caso de que se produzcan dos o más eventos de pérdida en dicho cuadro, al número de paquetes de video en el cuadro afectado actual que se encuentran durante el evento de pérdida ij, al número de segmentos por cuadro y al número estimado de paquetes por segmento.

El Método comprende asimismo una alternativa en la que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes de flujo de transporte de video perdidos consecutivamente, al número de segmentos por cuadro y a un término de corrección que refleja la propagación de la pérdida en el cuadro afectado por pérdida.

En otra realización más, la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de octetos de video en los paquetes del flujo de transporte perdidos consecutivamente y al número total de octetos de video contenidos en el cuadro afectado actual.

Alternativamente, la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes del flujo de transporte de video que pertenecen al evento de pérdida combinado ij, al número de paquetes de flujo de transporte de video encontrados entre la parte de pérdidas de un evento de pérdida combinado ij, al número de segmentos por cuadro y a un término de corrección que refleja la propagación de la pérdida en el cuadro afectado por la pérdida.

Una realización alternativa trata el caso en que se utiliza un segmento por cuadro. En este caso, la contribución xl_i de un evento de pérdida i se calcula preferentemente como el área espacial entre el primer paquete perdido y el final del cuadro.

5

10

15

20

25

30

35

40

45

50

55

60

En la etapa c) el Método puede adicionalmente tener en cuenta un factor de corrección que representa la complejidad espacio-temporal de la secuencia de video, mediante el cual se corrige la contribución xl_i del respectivo evento de pérdida i al parámetro global. El factor de corrección depende preferentemente de la complejidad temporal del video calculada por grupo de imágenes. Alternativamente, el factor de corrección depende de la posición temporal del cuadro en el grupo de imágenes afectado por el evento de pérdida i. Además, el factor de corrección puede depender de la posición temporal del cuadro en el grupo de imágenes afectado por el evento de pérdida i y de la complejidad temporal del video calculada por grupo de imágenes.

En la invención, la etapa c) puede tener en cuenta adicionalmente el número de grupos de imágenes con eventos de pérdida.

Además, es preferible que se almacene una variable por evento de pérdida que capture una posición estimada del área afectada en el cuadro respectivo, y se utilice para corregir la contribución xl_i de un evento de pérdida i, o para corregir las contribuciones de una parte temporal determinada de la secuencia al parámetro global de acuerdo con la etapa c).

De acuerdo con una realización preferida, en caso de que se utilice congelación como tipo de ocultamiento de pérdida de paquetes, el parámetro según la etapa c) se refiere a la duración temporal ponderada total de las congelaciones en la secuencia, calculada según cualquiera de los Métodos acordes con la invención.

La invención da a conocer un aparato para evaluar la calidad de una secuencia de señal de video transmitida en el receptor según la reivindicación 20.

Las realizaciones preferidas del Método de la invención mencionadas anteriormente son asimismo realizaciones preferidas del aparato la de invención.

Descripción detallada de la Invención

1. Segmentación

1.1 Extensión espacio-temporal xl k de la degradación por pérdidas por GOP k y por secuencia (xwpSEQ)

La invención se describe primero para segmentación. El Método para congelación se presenta posteriormente como un caso secundario del Método para segmentación.

La extensión espacial y la duración de la pérdida se calculan a partir del número de paquetes perdidos consecutivamente en los cuadros afectados, del número de paquetes en los cuadros afectados, del número de segmentos por cuadro y del tipo de cuadro de los cuadros afectados.

Por lo tanto, Qtrans se puede escribir como en la ecuación (3).

Se debe observar que en lo que sigue, todos los cálculos se llevan a cabo sobre el flujo de bits en el nivel de entrada del descodificador, de manera que los cuadros siguen el orden codificado, no el orden de visualización (ver la figura 3).

Qtrans =f(xwpSEQ) (3)

donde

f es, por ejemplo, una función logarítmica

xwpSEQ = Ixl_k/N (4)

y

(ver asimismo la figura 4 para una ilustración del cálculo de xwpSEQ) donde

N es el número de GOP en la ventana de medición

xl_k es la extensión espacio-temporal de las pérdidas que se producen en el GOP k

y

xl_k = Zxl_J - IxlJ *t_i/T_k (5)

donde

i ... es el índice de un nuevo evento de pérdida (es decir, no resultante de propagación de las pérdidas); si el evento de pérdida se produce en un cuadro B (cuadro B no de referencia, en el caso de codificación jerárquica), la pérdida no se propaga, por lo que el evento de pérdida se ignora en el cálculo de xl_k.

t_i ... es el índice del cuadro (con respecto al inicio del GOP) en el que se produce el nuevo evento de pérdida.

T_k ... es la duración o longitud del GOP k, habitualmente expresada en términos de número de cuadros. xl_i ... es la proporción de píxeles deteriorados en el cuadro afectado debida al evento de pérdida i

5

10

15

20

25

30

35

40

45

50

55

Sea xlj, la contribución individual a partir del evento de pérdida i, y xljw la contribución a partir de cualquier evento

¡-i

xl _i¡ + £x/_j

de pérdida anterior w<¡. Dado que en principio W=1 para varios eventos de pérdida en un GOP k se

puede hacer mayor que 1, la suma en la ecuación (5) se puede calcular por etapas, con

í'-l

xl _ k¡ = min(l, xl _ i¡ +'YJxl _ iw) (5a)

W=1

donde xl_ki es el área espacial relativa acumulada hasta el evento de pérdida actual i en el GOP k.

En una realización alternativa, y para el caso de longitudes GOP muy diferentes, la duración de cada GOP se puede considerar explícitamente en la ecuación (4), produciendo (5a):

xwpSEQ = Zxl_k*T_k/ ET_k (5a2)

En este caso, Tk es la duración global de la secuencia que se puede expresar, por ejemplo, mediante el número de cuadros.

Otra realización de la invención es válida para el caso en que se utilizan cuadros B jerárquicos. En este caso, se puede asumir que un evento de pérdida en un cuadro B de referencia se propaga hasta que llega el siguiente cuadro P intacto, afectando la pérdida a los cuadros B tanto siguientes como anteriores al cuadro B respectivo. Como consecuencia, las contribuciones individuales xl_i a partir de cada evento de pérdida i se reúnen en un vector xl_k, donde cada entrada caracteriza la extensión espacial de cada evento de pérdida, y las duraciones perspectivas se reúnen en un vector t k.

xl_k- (xlj,xl_2, xl_n)\ (5b)

y

T k-t i para pérdida en cuadro P

t_m) = \- (5b2)

\íp_i — t_i para pérdida en cuadro B de referencia

donde Tp_l es la posición del cuadro en el GOP k del cuadro P siguiente al cuadro B de referencia afectado por la pérdida. En este caso, se supone indexación por cuadros en el orden de transmisión.

A continuación, el cálculo de xl_k según las ecuaciones (5) o (5a) involucra el producto escalar de los vectores xl_k y t_k.

xl_k = 1 /Tk-(xl_k ■ t_k) (5c)

o siguiendo la misma argumentación que se ha proporcionado anteriormente, limitando el error de innovación espacial debido a un nuevo evento de pérdida i en un cuadro ya afectado por una pérdida o su propagación de tal modo que como máximo se ve afectado el cuadro completo, ver, por ejemplo, la ecuación (5a).

1.1.1 Determinación de la contribución xl_i a la extensión espacio-temporal de un evento de pérdida i

1.1.1.1 Un segmento por paquete

Existen diferentes modos de determinar una proporción estimada de píxeles deteriorados xl_i, dependiendo del esquema de paquetización utilizado.

Por ejemplo, el parámetro xl_i se puede calcular como:

xlj = nlpj/np (6)

donde

nlp_i ... es el número de paquetes de video perdidos por un evento de pérdida de paquetes i en el cuadro afectado actual.

np ... es el número de paquetes (perdidos + correctamente recibidos) en el cuadro afectado actual

xl_i ... es la proporción estimada de píxeles deteriorados en el cuadro afectado actual, correspondiente a los

paquetes perdidos en el evento de pérdida i.

5

10

15

20

25

30

35

40

45

50

55

60

Está realización representa el caso en que la paquetización se realiza de tal modo que un paquete IP contiene exactamente un segmento (es decir, una unidad de capa de abstracción de red, NALU (Network Abstraction Layer Unit), en el caso del códec de video H.264). En este caso, los segmentos se eligen habitualmente para corresponder al tamaño MTU de la red en octetos. Por consiguiente, una pérdida de paquetes corresponde a una pérdida de segmentos, y una pérdida de nlp paquetes corresponde a la pérdida de nlp segmentos. En este caso, el área afectada por una pérdida se calcula como el número de paquetes perdidos, dividido por el número de paquetes de que se compone el cuadro. Es obvio que el número de paquetes de que se compone el cuadro corresponde al número de paquetes perdidos más el número de paquetes recibidos.

De acuerdo con una realización alternativa, el área perdida en un cuadro de referencia se puede estimar como el número estimado de octetos perdidos dividido por el número estimado de octetos requeridos para el cuadro determinado, tal como se describe en [10]:

xl_i = blpj/bp (6a)

donde

blp_i ... es el número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual.

bp ... es el número de octetos (perdidos + correctamente recibidos) en el cuadro afectado actual.

xl_i ... es la proporción estimada de píxeles deteriorados en el cuadro afectado actual correspondiente a los octetos

perdidos con el evento de pérdida i.

1.1.1.2 Número fijo de segmentos por cuadro, flujos no de transporte

A continuación, se considerará el caso en que la paquetización se realiza de tal modo que los segmentos contienen un número fijo de píxeles. Éste es el caso, por ejemplo, para transmisión basada en IP/UDP/RTP con segmentos que no están forzados a mapearse al tamaño MTU. Se supone que se pierden nlp_i paquetes en una fila en un determinado evento de pérdida i que afecta al cuadro actual. Se pueden distinguir dos casos: a) el tamaño de paquete es mayor que el tamaño de un segmento, b) el tamaño de paquete es igual o menor que el tamaño del segmento, dado que por lo demás se espera que la paquetización produzca paquetes de tamaño(paquete) = min(MTU, segmento). En el caso a), se puede suponer que se contiene un número entero de segmentos en cada paquete, y no se llevará a cabo fragmentación de segmentos. Este caso a) es conceptualmente muy similar a las descripciones anteriores, donde existía un segmento por paquete. Análogamente, en el presente caso a) de un número entero de segmentos contenidos en un paquete, la cantidad relativa de píxeles perdidos con un evento de pérdida i corresponde al número relativo de paquetes nlpi perdidos dividido por el número de paquetes de que se compone todo el cuadro, ver las ecuaciones (6) y (6a).

En el caso b), con fragmentación de segmentos, la ecuación (6) se tiene que reescribir como xlj = \lnp * [(nlp_i - 1) + (np/nsc + l)/2] (6b)

donde

np ... es el número de paquetes que contiene el cuadro actual.

nlp_i ... es el número de paquetes de video perdidos en el cuadro afectado actual que se han perdido en el evento

de pérdida i, como antes.

nsc ... es el número de segmentos por cuadro.

np/nsc ... es el número estimado de paquetes por segmento

Este caso se muestra en la figura 6. El diagrama esquemático muestra la proporción del área espacial que está afectada por un evento de pérdida con nlp_i paquetes perdidos en una fila, en función de la posición de la pérdida con respecto a una estructura de segmentos de ejemplo. La ecuación (6b), y análogamente otras ecuaciones en esta solicitud, se puede obtener calculando un comportamiento promedio.

En una realización alternativa de este caso, en lugar de tomar el número de paquetes, se pueden utilizar los respectivos números de octetos contenidos en estos paquetes, tal como en el caso anterior, ver las ecuaciones (6) y (6a). Entonces:

xlj = l/bp * [(blp - 1) + (inp/nsc + l)/2]

(6c)

donde

bp es el tamaño total en octetos de los paquetes que contiene el cuadro actual

blp_i es el número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual.

np/nsc el número estimado de paquetes por segmento

5

10

15

20

25

30

35

40

45

50

55

60

Si se utiliza solamente un segmento por cuadro, la posición exacta de un evento de pérdida en dicho cuadro puede ser conocida. En este caso, xl_i corresponde al área espacial entre el primer paquete perdido y el final del cuadro:

xl_i - sap_i/sf (6d)

donde sap_i es la superficie afectada por la pérdida y sf es la superficie de todo el cuadro.

Para un experto en la materia es obvio calcular sap_i y sf en base a los tamaños de paquete y/o a los tamaños de carga útil, tal como se ha explicado anteriormente en esta solicitud. Se debe observar que solamente cuando los primeros paquetes perdidos p_i y p_j de dos subsiguientes eventos de pérdida i y j están separados por gap_l_ij >np/nsc, que es un número de paquetes mayor o igual que el número estimado de paquetes necesario para un segmento, se consideran como subsiguientes los dos eventos de pérdida. De lo contrario, los dos eventos de pérdida se tratan como parte de un solo evento de pérdida combinado ij, que está caracterizado por un número de nfp_ij paquetes encontrados entre ambos. En este caso, (6b) queda como:

xl_i = l/np * {[(nlp_ij - 1) + (np/nsc + l)/2] — [nfp_ij * (njp_ij+l)/2]} (6e)

donde

np ... es el número de paquetes que contiene el cuadro actual.

nlp_ij ... es el número de paquetes de video que pertenecen al evento de pérdida combinado ij, es decir todos los paquetes perdidos así como los paquetes encontrados en el intervalo comprendido entre los dos eventos de pérdida de paquetes i y j (en el cuadro afectado actual).

nfp_ij ... es el número de paquetes de video en el cuadro afectado actual que se encuentran durante el evento de

pérdida ij. En este caso, el evento de pérdida combinado es de la forma 1...0.0..1, correspondiendo 1 a un paquete

perdido y correspondiendo 0 a un paquete encontrado. Por lo tanto, el evento de pérdida comienza y finaliza con una

pérdida, con nfp_ij paquetes encontrados en el ínterin.

nsc ... es el número de segmentos por cuadro.

np/nsc ... es el número estimado de paquetes por segmento

Es obvio que (6e) se puede expresar asimismo en términos del tamaño en octetos de las partes del cuadro de video perdidas y encontradas respectivamente.

1.1.1.3 Número fijo de segmentos por cuadro con flujos de transporte

En caso de que la paquetización involucre paquetes de flujo de transporte (TS, Transport-Stream), los paquetes de video corresponden a paquetes TS con carga útil de video. En este caso, cada segmento corresponde habitualmente a un área espacial fijada en el cuadro de video respectivo, tal como en el caso anterior. También en este caso, pueden ser necesarios uno o varios paquetes para transmitir el segmento respectivo, dependiendo de la complejidad espacial o temporal del video para un cuadro determinado.

Tal como se ha mencionado en el punto g) de la sección "Antecedentes de la invención", si existe un evento de pérdida en un segmento, toda el área de píxeles está deteriorada, a partir del área de píxeles correspondiente a los paquetes perdidos hasta el siguiente segmento.

En este caso, cuando existe un evento de pérdida i de nlp_i paquetes perdidos en una fila, en promedio se pierde medio segmento además de la proporción de píxeles deteriorados correspondiente al número de paquetes perdidos en el evento i en el cuadro afectado. Esto se puede reflejar modificando la ecuación (6) como ecuación (7):

xl_i— nlp_i!np + 1/(2 * nsc) (7)

donde

nlp_i es el número de paquetes TS de video perdidos consecutivamente nsc es el número de segmentos por cuadro

1/(2 * nsc) es, por lo tanto, el término de corrección que refleja la propagación de las pérdidas en el segmento

afectado por la pérdida.

La situación se muestra en la figura 7, donde todo el área espacial afectada por un determinado evento de pérdida de nlp_i paquetes perdidos se muestra en función de cómo está posicionado el evento de pérdida en el cuadro y en relación con un conjunto de segmentos de ejemplo. En este caso, las proporciones espaciales se expresan con respecto al número global de paquetes de que se compone el cuadro, de tal modo que todo el cuadro corresponde una proporción de 1. Sigue la ecuación (7) cuando se calcula el área que está afectada en promedio, integrando la curva mostrada sobre la posición inicial del evento de pérdida con respecto al inicio del cuadro. El ejemplo proporcionado se ha elegido para el caso en que el área espacial contenida en los paquetes perdidos es menor que

5

10

15

20

25

30

35

40

45

50

55

60

65

un segmento, pero se puede demostrar fácilmente que las mismas relaciones aplican también cuando ésta es mayor que un segmento.

En una realización alternativa, se pueden utilizar los tamaños de paquete en octetos en lugar de los números de paquetes:

xl_i blpj/bp + 1/(2 * nsc)

(7a)

donde

blp_i es el número de octetos de video en los paquetes TS perdidos consecutivamente

bp es el número total de octetos de video contenidos en el cuadro afectado actual

Como en otros casos de paquetización, los puntos iniciales de dos eventos de pérdida i y j pueden ser menores que un segmento en octetos o que el número de paquetes TS separados entre sí. En este caso, la invención propone considerar los dos eventos de pérdida como un único evento de pérdida con un número nfp o tamaño bfp de paquetes encontrados entre las dos series de paquetes perdidos nlp_i y nlp_j (o blp_i y blp_j, respectivamente). En este caso, igual que en una realización comparable descrita anteriormente, los nfp_i paquetes encontrados entre los dos lapsos de pérdidas deducirán la proporción de píxeles deteriorados en el respectivo cuadro, tal como se puede describir mediante (7b):

xl_i = nlp_ij/np+ 1/(2 * nsc) — nfp_ij/(2*np) (7b) donde además de las definiciones anteriores, se tiene que

nlp_ij ... es el número de paquetes TS de video que pertenecen al evento de pérdida combinado ij, incluyendo los paquetes que se han encontrado en el ínterin (asumiendo en este caso solamente un intervalo entre dos eventos de pérdida ij).

nfp_ij ... es el número de paquetes TS de video encontrados entre la parte de pérdidas de un evento de pérdida combinado i,j.

nsc ... es el número de segmentos por cuadro.

1/(2 * nsc) ... es, por lo tanto, el término de corrección que refleja la propagación de las pérdidas en el segmento afectado por la pérdida.

En el caso particular en que solamente unos pocos, es decir, por ejemplo, uno, dos o tres segmentos se utilizan por cuadro, el cálculo de xl_i puede ser más exacto cuando se considera la posición de un evento de pérdida i en la secuencia de paquetes que pertenecen al cuadro. Esto es particularmente significativo para el caso de un segmento por cuadro, donde toda la información de píxeles que sigue al paquete perdido en el cuadro se puede considerar degradada. En este caso, la ecuación (7) se convierte en la ecuación (7c):

xl_i - ndp_i/np (7 c)

donde

ndp_i ... es el número de paquetes desde el primer paquete perdido en el cuadro hasta el final del cuadro.

En general, para el caso de flujos de transporte, si el número de paquetes de video perdidos con el evento de pérdida i excede un número asumido de paquetes pertenecientes al cuadro, o el área afectada (asumida, por ejemplo, a partir del número estimado de octetos perdidos) excede el área del cuadro, y por lo tanto el evento de pérdida se extiende hasta el cuadro siguiente, es necesario realizar una consideración respectiva del área de pérdidas afectada para el cuadro siguiente. Dicho cálculo se puede realizar utilizando, por ejemplo, la ecuación (7), (7a), (7b) o (7c) sobre el cuadro (siguiente) afectado.

En la Sección 1.3.2 se describen otros aspectos de considerar explícitamente la posición de la pérdida en el cuadro.

1.2 Modelo de calidad

A continuación, para todos los casos anteriores, siguiendo la invención, se tiene por ejemplo:

Qtrans = a.*\og(b*xwpSEQ +1) (8)

En la ecuación (8), los valores de los coeficientes a y b dependen de la resolución del video y del códec de video utilizado. Para una resolución y un códec de video determinados, con solamente un conjunto de coeficientes el modelo cubre varias tasas de bits, tipos de contenido de video (en términos de complejidad espacio-temporal), elecciones de estructura GOP, tasa de pérdida de paquetes y distribución y número de segmentos por cuadro.

5

10

15

20

25

30

35

40

45

50

55

60

65

Se debe observar que los coeficientes se obtienen preferentemente en un Método de ajuste de curvas por errores mínimos cuadráticos utilizando las calificaciones de ensayos de percepción como valores objetivo. Se tiene, por ejemplo, a = 7,79 y b = 0,002 para resolución HD (1920x1080 píxeles) con el códec de video H.264 correspondiente a una implementación de codificador x264.

1.3 Refinamientos del modelo

1.3.1 Comportamiento del área afectada por pérdidas durante propagación de errores

Si se produce una pérdida de paquetes en un cuadro I o P de referencia en un tiempo t_i en el GOP k, el error se propaga hasta el siguiente cuadro I. El número de píxeles deteriorados en el cuadro afectado originalmente en el tiempo t_i y en los cuadros independientes hasta el siguiente cuadro I se ha considerado hasta ahora constante. En otros términos, la extensión espacial de la pérdida se ha considerado constante durante la propagación (ver la figura 5(a)). En la mayor parte de los casos, esta hipótesis no es precisa. Por supuesto, dado que existe movimiento en el video, y debido a la naturaleza del proceso de codificación, la extensión espacial de la pérdida cambia entre un cuadro dependiente y otro (ver las figuras 5(b) y (c)). La expansión (figura 5(c)) o disminución (figura 5(b)) de esta extensión espacial depende de la magnitud y la complejidad temporal del movimiento. Si el movimiento es caótico, por ejemplo, si diferentes partes de la imagen se mueven en direcciones diferentes, la pérdida se puede propagar a través de todo el cuadro (figura 5(c)), pero si el movimiento del objeto deteriorado es uniforme y rápido, el objeto deteriorado puede desaparecer de la imagen antes del siguiente cuadro I (figura 5(b)). Este aspecto se puede ajustar introduciendo un factor de corrección a1k en xl_k en la ecuación (4) y en todas las ecuaciones relacionadas, y/o un factor de corrección a2i en xl_i en la ecuación (5) y en todas las ecuaciones relacionadas, tal como se muestra en las ecuaciones (9a), (9a2) y (9b).

xwpSEQ = E a¡'k * xl_k/N (9a)

o, en relación con la ecuación (5a)

xwpSEQ =Za¡'k* xl_k*T_k/E T_k (9a2)

donde

xljc -1 a.21¡* xl_i - Ea2¡¡ * xl_i*t_i/T (9b)

El factor de corrección a1k depende de la complejidad temporal del video tcomp. La complejidad temporal se calcula por GOP k.

El factor de corrección a2i se aplica por cada evento de pérdida xl_i y depende de la posición temporal del cuadro afectado por el evento de pérdida i, es decir, del t_i y de la complejidad temporal del video tcomp. Por lo tanto, los factores de corrección se pueden escribir como en las ecuaciones (10a) y (10b).

a¡ = g ¡(tcomp) o.2 = g2{t_i, tcomp)

(10a)

(10b)

donde

tcomp ... es la complejidad temporal del GOP, por ejemplo, una función de los tamaños de cuadro para los cuadros I, P y B, y donde

t_i ... es la posición del cuadro en el GOP en que se produce el nuevo evento de pérdida.

Por lo tanto

ai ... es una función de tcomp

a2 ... es una función de la posición del cuadro entre t_iy T, y de tcomp

Los factores de corrección ai,k y a2,i se pueden obtener estadísticamente en una etapa anterior (fuera de línea) comparando para cada evento de pérdida y para una amplia gama de contenidos de video los valores xl_i calculados utilizando la ecuación (6) -o cualquier otra de las ecuaciones dadas a conocer anteriormente que permiten calcular xl_i- y el número real de píxeles deteriorados. El número real de píxeles deteriorados se calcula, por ejemplo, comparando cuadro a cuadro del video codificado con pérdida de paquetes y el video codificado sin pérdida de paquetes. El número se almacena para cada evento de pérdida junto con los valores t_i, tcomp y xl_i. Así, se tiene un mapeo entre el número real de píxeles deteriorados y xl_i para diversos valores de tcomp y t_i que se tienen que obtener utilizando enfoques heurísticos conocidos por un experto en la materia. Por lo tanto, se conoce cuánto se deberá atenuar o expandir xl_i para cada valor t_i y tcomp.

5

10

15

20

25

30

35

40

45

50

55

60

65

Se debe observar que la visibilidad del error depende de la complejidad espacio-temporal del contenido. Por ejemplo, para contenidos con baja complejidad temporal, y en caso de que se utilice segmentación como parte del ocultamiento de la pérdida de paquetes, este ocultamiento de las pérdidas puede funcionar muy bien, y el error inducido por las pérdidas puede no ser visible. El error puede asimismo no ser visible cuando se producen áreas espaciales con gran cantidad de detalles. Como consecuencia, en una realización alternativa, los factores a1k y a2¡ podrían representar asimismo la visibilidad del error a calcular en base a las complejidades temporales y espaciales de la secuencia de video. En este caso, se pueden utilizar las ecuaciones (9a) y (9a2), y el factor de corrección ai,k depende de la complejidad espacio-temporal del video stcomp. La complejidad espacio-temporal se calcula por GOP k, y la ecuación (10a) se convierte en

a¡ = g/(s tcomp)

(10a2)

donde

stcomp ... es la complejidad espacio-temporal del GOP, por ejemplo, una función de los tamaños de los cuadros, para los cuadros I, P y B.

Un experto en la materia será capaz de combinar las características expresadas por las ecuaciones (9a) - (10a2) con la algo diferente integración temporal de las pérdidas, cuando se utiliza codificación de cuadro B jerárquica, ver, por ejemplo, las ecuaciones (5b2) y (5c).

1.3.2 Área espacial afectada por un evento de pérdida

Utilizando los mismos factores de ponderación que se han introducido anteriormente, se puede tener en cuenta explícitamente la posición de la degradación de un cuadro provocada por el evento de pérdida i. Esto puede ser valioso por diferentes razones:

I) Se espera que la atención del espectador se enfoque principalmente en el centro del cuadro. Este efecto disminuye por la aparición de errores visibles, que probablemente atraigan la atención del espectador. Sin embargo, los errores visibles que se producen en determinados errores del cuadro pueden producir un impacto más fuerte sobre la calidad que los errores en otras áreas del cuadro. Este aspecto es bien conocido; la invención realizada en esta solicitud consiste en cómo este efecto puede ser incluido en el cálculo de xl_k y de xwpSEQ, utilizando los factores a1 o a2 introducidos anteriormente de manera apropiada, utilizando una representación de la posición espacial tal como se indica a continuación.

II) Cuando se producen varios eventos de pérdida en posiciones espaciales similares en un GOP, es probable que el área espacial afectada no corresponda a la acumulación de contribuciones individuales de estos eventos de pérdida. En cambio, es probable que el impacto se combine, y por consiguiente la xl_k resultante para el GOP k es menor que cuando todos los eventos de pérdida afectan a áreas espaciales diferentes. Dado que este efecto interactúa con la complejidad temporal en la escena, es decir se expresará menos cuando la posición de la degradación se desplace con los movimientos en la escena, existe una dependencia adicional con el contenido. Todos estos aspectos se pueden manejar escogiendo adecuadamente el factor de ponderación a2 introducido anteriormente.

III) Cuando varios GOP muestran degradaciones en posiciones espaciales similares, tal como es el caso, por ejemplo, para transmisión de video con un segmento por cuadro (por razones estadísticas, la parte inferior estará siempre más afectada), se puede suponer que la degradación resultante será diferente del caso en que diferentes GOP se degradan en diferentes áreas espaciales. Por ejemplo, la atención visual se centrará en áreas que se reproducen con pérdidas, y por lo tanto muy probablemente el impacto sobre la calidad será más notable en este caso. Este efecto se puede modelizar, por ejemplo, con una elección adecuada del factor de ponderación a1.

Para todos los casos (I) a (III), es necesario rastrear la posición espacial de la degradación provocada por un evento de pérdida i en el cuadro j y la posición espacial acumulada para diferentes GOP k. En base a las mismas consideraciones explicadas en partes anteriores de la solicitud, es evidente que la posición se puede rastrear utilizando la distancia de un evento de pérdida i desde el inicio del cuadro j en términos de la posición vertical en el cuadro, el tamaño global del área de la pérdida con respecto al tamaño total (o la extensión espacial) del cuadro, y por lo tanto el tamaño del área al final del cuadro que no está afectada por la pérdida.

En una realización de la invención, se adopta el siguiente enfoque para rastrear la posición de la degradación debida a pérdidas en el cuadro y el GOP:

Sea xl_i la extensión espacial del área afectada por el evento de pérdida i, tal como antes. Se introducen a continuación las siguientes proporciones que se extraen de información del tamaño de los paquetes o del número de paquetes, igual que antes:

xfoundB_¡ es el área espacial relativa al inicio del cuadro j, que no está afectada por el evento de pérdida i. Se debe observar que xfoundB_¡ puede ser igual a 0.

5

10

15

20

25

30

35

40

45

50

xfoundE_i es el área espacial relativa al final del cuadro j, que no está afectada por el evento de pérdida i. Se debe observar que xfoundE_i puede ser igual a 0.

sll_i es un vector columna que contiene, en cada línea, información sobre sí, y si se desea, en qué medida, la parte respectiva del cuadro contiene partes de evento de pérdida i. A tal efecto, el cuadro j se divide en M líneas horizontales de la misma longitud, correspondiendo M a la dimensionalidad del vector sll_i.

A continuación, en una realización de la invención, se pueden calcular las entradas del vector sll_i, como sigue:

sB_i es la proporción al inicio del cuadro no afectada por pérdidas, en términos de muestreo por línea en M líneas, y expresada con respecto al tamaño total del cuadro.

sE_i es la proporción al final del cuadro no afectada por pérdidas, en términos de muestreo por línea en M líneas, y expresada con respecto al tamaño total del cuadro.

Además:

sB_i = (ñoor(xfoundB_i* M))/M (10c)

sE_i = (floor{xfoundEJ * M))/M (1 Od)

Entonces, para sll_i:

0,

1 /M -(xfoundB_i-sB_i),

sll_i(m) - -

1,

sE_i +11M - xfoundE _ i,

imagen1

0 < m < sB_i • M sB_i-M <m<sB_i-M +1

sB_i■ M + 1 < m <M - (sE_i-M +1) M — (sE_i ■ M + 1) < m < M - sE _i ■ M M—sE i-M <m

(lOe)

Una expresión más simple para (10e) es:

sll_i(m)

0,

el,

<1,

el,

A

0 <m<sB _i-M sB_i-M <m <sB_i-M +1

sB _i-M +1 < m<M-(sE _i-M +1) M- (sE_i■ M + \)< m <M-sE_i-M M -sE i-M <m

(10Í)

siendo c1 una constante escogida apropiadamente.

A continuación, se pueden calcular los coeficientes ai y a2 como funciones de estos vectores sll_i:

ai =Ag(sUJk)) (10g)

a.2 = h(sll_i) (lOh)

En este caso, la ecuación (10h) puede involucrar, por ejemplo, un sumatorio de todos los sll_i para un determinado GOP k. Entonces, la distribución de los valores en los M compartimentos descritos por sll_i puede ser una medida de si diferentes eventos de pérdida i que afectan a un determinado GOP, afectan a áreas similares o diferentes. Entonces, cuanto menor es la dispersión de los valores, más se concentran las pérdidas en un área determinada, produciendo una menor ponderación de los eventos individuales.

Para la ecuación (10f), los sll_ik sumados para un determinado GOP k se pueden acumular sobre los GOP, proporcionando una medida de si se ven afectadas áreas diferentes o similares para los diferentes GOP afectados. Por consiguiente, se puede ponderar más o menos la contribución de los GOP.

Un experto en la materia podrá combinar fácilmente estos Métodos con contribuciones de ponderación adicionales en términos del movimiento contenido en la escena, o cualquier otro de los que pueda ser manejado mediante una ponderación apropiada, tal como se ha descrito anteriormente.

1.3.3 Impacto debido al número de GOP afectados

Una manera adicional de mejorar la predicción del modelo es introducir como parámetro de entrada el número de GOP con eventos de pérdida. Por supuesto, tal como se puede ver en la ecuación (4), el modelo no distingue hasta ahora el impacto sobre la calidad de un solo evento de pérdida largo con una extensión espacial larga respecto de

5

10

15

20

25

30

35

40

45

50

55

60

65

varios eventos de pérdida más cortos y menores (en términos de extensión espacial). Se supone que varios eventos de pérdida pequeños degradan más la calidad que un solo evento de pérdida mayor, pero esta diferencia depende de la extensión espacial de los propios eventos de pérdida. Como consecuencia, se introduce un factor de corrección f3 en la ecuación (4), tal como se muestra en la ecuación (11):

xwpSEQ = Ep_k*xl_k/N (11)

con

P_k = MNgl,xl_k)

donde

Ngl ... es el número de GOP con evento de pérdida en la ventana de medición.

xl_k ... es la extensión espacio-temporal de las pérdidas que se producen en el GOP k (ver las ecuaciones (5) y (9) y todas las ecuaciones relacionadas)

Esto se puede combinar asimismo con la forma de (4) que incluye GOP de diferente longitud tal como se tiene en (5a), dando lugar a (11a):

xwpSEQ = Zfi_k*xl_k*TJ/ ZT_k (lia)

De forma análoga a a, f3_k se puede obtener estadísticamente en una etapa anterior comparando los valores de xwpSEQ de un conjunto de secuencias de video que han obtenido la misma calidad percibida, y almacenando para cada valor de xwpSEQ y de calidad percibida los parámetros Ngl y xl_k. Se debe observar que la calidad percibida se ha obtenido previamente llevando a cabo ensayos subjetivos, dado que la invención se puede considerar como un modelo técnico del proceso de percepción de los humanos. El valor f3 se ajusta para obtener el mejor mapeo entre xwpSEQ calculado utilizando la ecuación (11) y la calidad percibida.

2. Congelación

El Método descrito hasta ahora supone que se ha utilizado segmentación como tipo de ocultamiento de la pérdida de paquetes. Sin embargo, el parámetro xwpSEQ es válido asimismo en caso de que se utilice congelación como tipo de ocultamiento de la pérdida de paquetes, si los GOP de la ventana de medición tienen la misma longitud. Por supuesto, y tal como se ha mencionado en el punto f) de la sección de "Antecedentes de la invención", en el caso de congelación, si un cuadro está afectado por pérdida de paquetes, el último cuadro no deteriorado se congela hasta el siguiente cuadro I. La extensión espacial de la pérdida descrita en el xwpSEQ no se mantiene, frente al aspecto temporal de la pérdida cubierta por este parámetro.

Esto se puede reflejar en la ecuación (5) forzando X(xl_iJ a 1, (y se refleja en la ecuación 5a), dando lugar a la ecuación (12):

xl_k = 1 - t_i/T_k = (T_k-tJ)/T_k (12)

En la ecuación (12), la xl_k representa la duración de la pérdida en el GOP con respecto a la duración del GOP k.

Cuando se utiliza (12) junto con (4) o (5a) o cualquier otra de las ecuaciones relacionadas, se puede considerar tanto el caso de GOP de igual longitud como el de GOP con diferente longitud. Asimismo, se pueden implementar correcciones del parámetro relacionado con la congelación en términos de la complejidad espacio-temporal del contenido, tal como en el caso de degradación con segmentación, según se ha indicado en las secciones anteriores.

Breve descripción de los dibujos

La figura 1 muestra un diagrama de bloques del marco general de la estimación de calidad en relación con distorsiones por compresión y transmisión; en particular, muestra el marco general para estimar la calidad del video percibida en el caso de degradaciones por compresión (Qcod) y transmisión (Qtrans) en un caso de monitorización de servicio. Se extraen del flujo de bits parámetros tales como el número de paquetes perdidos y el tipo de cuadro, etc., y se utilizan para calcular el parámetro xwpSEQ, y predecir el impacto en la calidad debido a la pérdida de paquetes Qtrans.

La figura 2 muestra el impacto del número de segmentos por cuadro en el caso de pérdida de paquetes y segmentación como ocultamiento de pérdida de paquetes; en particular, muestra cómo la pérdida se propaga hasta el siguiente segmento en un cuadro determinado, en el caso de 3 segmentos por cuadro (imagen central) y en el caso de 1 segmento por fila de macrobloque (derecha). Un macrobloque es un bloque de 16 x 16 píxeles. Se ven afectadas diferentes áreas en función de cuántos paquetes componen un cuadro, y de cuánto segmentos se utilizan para un cuadro.

La figura 3 compara el orden codificado del flujo de video frente al orden de visualización.

5

10

15

20

25

30

35

40

La figura 4 muestra el cálculo del parámetro xwpSEQ. Muestra los cuadros de video dentro de una ventana de medición y la pérdida en un GOP k.

La figura 5 muestra diferentes variantes de propagación de las pérdidas en función del tipo de movimiento en un determinado GOP afectado por pérdida de paquetes. Muestra un ejemplo de propagación de errores (a) sin considerar atenuación o expansión de las pérdidas, (b) considerando atenuación de las pérdidas y (c) considerando expansión de las pérdidas.

La figura 6 muestra cómo se puede calcular xl_i, la extensión espacio-temporal del evento de pérdida i, para el caso de fragmentación de segmentos para el ejemplo de nlp_i = 2 paquetes perdidos en una fila, y cuatro paquetes necesarios para transmitir un segmento. Se debe observar que para la imagen superior, todos los segmentos para el cuadro se representan uno al lado de otro en términos de los paquetes de que se componen. Además, cabe señalar que con propósitos de ilustración se supone una situación idealizada con igual número de paquetes por segmento para todo el cuadro.

La figura 7 detalla el cálculo de xl_i, la extensión espacio-temporal del evento de pérdida i, para el caso TS. Un área pérdida puede estar situada en una posición arbitraria sobre el cuadro. En este caso, el área pérdida se expresa como la proporción con respecto al tamaño de todo el cuadro. La posición de las pérdidas se expresa en términos de la posición del inicio de las pérdidas.

La figura 8 resume las etapas principales de la invención por medio de un diagrama de flujo. El diagrama de flujo muestra el Método para el ejemplo de determinar Qtrans en caso de que se utilice segmentación como ocultamiento de la pérdida de paquetes. Se debe observar que los bloques con fondo gris forman conjuntamente el modelo básico de la solicitud. Los bloques blancos reflejan etapas opcionales.

Lista de referencias

[1] A. Takahashi, D. Hands, and V. Barriac, "Standardizaron Activities in the ITU for a QoE Assessment of IPTV," en IEEE Communication Magazine, 2008.

[2] S. Winkler and P. Mohandas, "The Evolution of Video Quality Measurement: From PSNR to Hybrid Metrics," en IEEE Trans. Broadcasting, 2008.

[3] A. Raake, M.N. Garcia, S. Moeller, J. Berger, F. Kling, P. List, J. Johann, and C. Heidemann, "T-V-MODEL: Parameter-based prediction of IPTV quality," en Proc. of ICASSP, 2008.

[4] O. Verscheure, P. Frossard, and M. Hamdi "User-Oriented QoS Analysis in MPEG-2 Video Delivery", en Real-Time Imaging 5, 305-314 (1999)

[5] F. You, W. Zhang, J. Xiao, "Packet Loss Pattern and Parametric Video Quality Model for IPTV", en Proc. of Eigth IEEE/ACIS International Conference on Computer and Information Science, pp. 824-828, 2009.

[6] M.-N. Garcia and A. Raake, "Parametric Packet-Layer Video Quality Model For IPTV", en Proc of Tenth International Conference on Information Science, Signal Processing and their Applications (ISSPA) 2010

[7] K. Yamagishi and T. Hayashi, "Parametric Packet-Layer Model for Monitoring Video Quality of IPTV Services," IEEE ICC 2008, CQ04-3, pp. 110-114, Beijing, China, 2008.

[8] Q. Huynh-Thu, Quan, and B. Pernot, "Method and apparatus for generation of a video quality parameter", Patente EP 2 112 835 A1

[9] A. Clark, "Method and system for viewer quality estimation of packet video streams", US 2009/0041114 A1, WO 2009/012302

[10] P. Frossard, O. Verscheure, "Joint Sourc/FEC Rate Selection for Quality-optimal MPEG-2 Video Delivery. IEEE Trans. Image Proc., Vol. 10, No. 12, Dic. 2001.

[11] Raake A., Garcia M. N., Moller S., "Audio-visual quality estimation", Patente EP 2 106 153 A1

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Método para evaluar en el lado del receptor la calidad de una secuencia de señal de video transmitida, comprendiendo el Método las etapas de:

a) capturar antes de la descodificación el flujo de bits de video de entrada recibido, y suministrarlo a un analizador de flujo de bits de video;

b) extraer mediante el analizador de flujo de bits, durante una ventana de tiempo de medición, una o varias características a partir de las cabeceras de paquete capturadas, sin analizar o descodificar la carga útil del paquete;

c) calcular, a partir de dichas una o varias características, un único parámetro, xwpSEQ, que representa una estimación de la extensión espacio-temporal de la degradación de la señal debida a una pérdida de paquetes, en el que dicho único parámetro, xwpSEQ, está basado en el número, N, de grupos de imágenes, GOP, en la ventana de medición y en la extensión espacio-temporal, xl_k, de las pérdidas que se producen en los grupos de imágenes afectados, k, utilizando la relación xwpSEQ = £xl_k/N, en el que la extensión espacio-temporal, xl_k, de las pérdidas que se producen en un grupo de imágenes, k, se calcula en base a la proporción de píxeles deteriorados en el cuadro afectado debido a un evento de pérdida, xl_i, a la posición de las pérdidas con respecto al inicio del GOP, t_i y a la longitud del GOP, T_k, utilizando la relación xl_k = £xl_i - £xl_i*t_i/T_k, en el que el cálculo tiene en cuenta adicionalmente un factor de corrección, ai,k, que representa la complejidad espacio-temporal de la secuencia de video, mediante lo que se corrige la contribución xl_k de las pérdidas en el GOP k al parámetro global xwpSEQ, utilizando la relación xwpSEQ = £a1k * xl_k/N o xwpSEQ = £ai,k * xl_k*T_k/£T_k, donde N es el número de GOP en la ventana de medición y T_k es la longitud del GOP k;

d) suministrar el parámetro determinado a un módulo de estimación de la calidad; y

e) calcular, mediante el módulo de estimación de la calidad, una medida de la calidad debida a la pérdida de paquetes, Qtrans, en base solamente al parámetro único que representa la estimación de la extensión espacio- temporal de la degradación de la señal, xwpSEQ, debida a pérdida de paquetes y en base a información de la resolución de video y al códec de video utilizado.
2. El Método según la reivindicación 1, en el que el parámetro único, xwpSEQ, determinado en la etapa c) se calcula asimismo a partir de meta-información sobre el flujo de medios, tal como la configuración de segmentación y el ocultamiento de la pérdida de paquetes.
3. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes de video perdidos por evento de pérdida de paquetes i en el cuadro afectado actual, nlp_i, dividido por el número de paquetes perdidos y correctamente recibidos en el cuadro afectado actual, np, utilizando la relación xl_i = nlp_i/np.
4. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual, blp_i, dividido por el número de octetos perdidos y correctamente recibidos en el cuadro afectado actual, bp, utilizando la relación xl_i = blp_i/bp.
5. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes que contiene el cuadro actual, np, al número de paquetes de video perdidos en el cuadro afectado actual que se pierden en el evento de pérdida i, nlp_i, al número de segmentos por cuadro, nsc, y al número estimado de paquetes por segmento, np/nsc, utilizando la relación xl_i = 1/np * [(nlp_i - 1) + (np/nsc + 1 )/2].
6. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al tamaño total en octetos de los paquetes que contiene el cuadro actual, bp, al número de octetos de video perdidos debido al evento de pérdida i en el cuadro afectado actual, blp_i, y al número estimado de paquetes u octetos por segmento, np/nsc, utilizando la relación xl_i = 1/bp * [(blp_i - 1) + (np/nsc + 1)/2].
7. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes que contiene el cuadro actual, np, al número de paquetes de video que pertenecen al evento de pérdida combinado ij, nlp_j, al número de paquetes de video en el cuadro afectado actual que se encuentran durante el evento de pérdida ij, nfp_j, al número de segmentos por cuadro, nsc, y al número estimado de paquetes por segmento, np/nsc, utilizando la relación xl_i = 1/np * {[(nlp_ij - 1) + (np/nsc + 1)/2]

- [nfp_ij * (nfp_ j+1)/2]}.
8. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes de flujo de transporte de video perdidos consecutivamente, nlp_i, al número de segmentos por cuadro, nsc, y a un término de corrección que refleja la propagación de la pérdida en el cuadro afectado por pérdida, 1/(2 * nsc), utilizando la relación xl_i = nlp_i/np + 1/(2 * nsc).

5

10

15

20

25

30

35

40

45

50

55

60

65
9. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de octetos de video en los paquetes del flujo de transporte perdidos consecutivamente, blp_i, al número total de octetos de video contenidos en el cuadro afectado actual, bp, al número de segmentos por cuadro, nsc, y a un término de corrección que refleja la propagación de la pérdida en el cuadro afectado por pérdida, 1/(2 * nsc), utilizando la relación xl_i = blp_i/bp + 1/(2 * nsc).
10. El Método según la reivindicación 1 o 2, en el que la proporción de píxeles deteriorados en el cuadro afectado, xl_i, se calcula en base al número de paquetes de flujo de transporte de video que pertenecen al evento de pérdida combinado ij, nlp_i/', al número de paquetes de flujo de transporte de video encontrados entre la parte de pérdida de un evento de pérdida combinado ij, nfp_j, al número de segmentos por cuadro, nsc y a un término de corrección que refleja la propagación de la pérdida en el cuadro afectado por pérdida, 1/(2 * nsc), utilizando la relación xl_i = nlp_ij/np + 1/(2 * nsc) - nfp_ij/(2*np).
11. El Método según la reivindicación 1 o 2, donde, en el caso en que se utiliza un segmento por cuadro, la contribución xl_i de un evento de pérdida i se calcula como el área espacial entre el primer paquete perdido y el final del cuadro.
12. El Método según cualquiera de las reivindicaciones anteriores, en el que la etapa (c) tiene en cuenta adicionalmente un factor de corrección, a2,i, que representa la complejidad espacio-temporal de la secuencia de video, con lo que se corrige la contribución xl_i del respectivo evento de pérdida i situado en el cuadro t_i en el GOP k al parámetro xl_k, utilizando la relación xl_k = Y.a2j *xl_i - Y.a2j * xl_i*t_i/T_k, donde T_k es la longitud del GOP k.
13. El Método según cualquiera de las reivindicaciones anteriores, en el que el factor de corrección depende de la complejidad temporal del video calculada por grupo de imágenes.
14. El Método según cualquiera de las reivindicaciones 1 a 12, en el que el factor de corrección depende de la posición temporal del cuadro en el grupo de imágenes afectado por el evento de pérdida i.
15. El Método según cualquiera de las reivindicaciones 1 a 12, en el que el factor de corrección depende de la posición temporal del cuadro en el grupo de imágenes afectado por el evento de pérdida i y de la complejidad temporal del video calculada por grupo de imágenes.
16. El Método según cualquiera de las reivindicaciones 1 a 12, en el que el factor de corrección depende de la complejidad espacio-temporal del video calculada por grupo de imágenes.
17. El Método según cualquiera de las reivindicaciones anteriores, en el que la etapa e) tiene en cuenta adicionalmente el número de grupos de imágenes con eventos de pérdida, Ngl, utilizando las relaciones xwpSEQ = IP_k*xl_k/N, con p_k = h(Ngl,xl_k).
18. El Método según cualquiera de las reivindicaciones anteriores, en el que se almacena una variable por evento de pérdida, que captura una posición estimada del área afectada en el cuadro respectivo, y se utiliza para corregir la contribución xl_i de un evento de pérdida i, o para corregir las contribuciones de una parte temporal determinada de la secuencia al parámetro global de acuerdo con c).
19. El Método según cualquiera de las reivindicaciones 1 a 18, en el que se utiliza congelación como el tipo de ocultamiento de pérdida de paquetes, y el parámetro c) se refiere a la duración temporal total ponderada de los eventos de congelación en la secuencia, calculada según cualquiera de los Métodos acordes con las reivindicaciones 1 a 16, y utilizando la relación xl_k = (T_k-t_i)/T_k, donde t_i es la posición de la pérdida con respecto al inicio del GOP, T_k es la longitud del GOP k.
20. Aparato para evaluar en el receptor la calidad de una secuencia de señal de video transmitida, que comprende:

un analizador de flujos de bits de video que captura antes de la descodificación el flujo de bits de video de entrada recibido, y está configurado para extraer, durante una ventana de tiempo de medición, una o varias características a partir de las cabeceras de paquete capturadas del flujo de bits de video de entrada capturado, sin analizar o descodificar la carga útil de paquete;

medios para calcular, a partir de dichas una o varias características, un único parámetro, xwpSEQ, que representa una estimación de la extensión espacio-temporal de la degradación de la señal debida a una pérdida de paquetes, en el que dicho único parámetro, xwpSEQ, está basado en el número, N, de grupos de imágenes, GOP, en la ventana de medición y en la extensión espacio-temporal, xl_k, de las pérdidas que se producen en los grupos de imágenes afectados, k, utilizando la relación xwpSEQ = Jxl_k/N, en el que la extensión espacio-temporal, xl_k, de las pérdidas que se producen en un grupo de imágenes, k, se calcula en base a la proporción de píxeles deteriorados en el cuadro afectado debido a un evento de pérdida, xl_i, a la posición de las pérdidas con respecto al inicio del GOP, t_i y a la longitud del GOP, T_k, utilizando la relación xl_k = Ixl_i - J_xl_i*t_i/T_k, en el que el cálculo tiene en cuenta adicionalmente un factor de corrección, ai,k, que representa la complejidad espacio-temporal de la secuencia de video, mediante lo que se corrige la

contribución xl_k de las pérdidas en el GOP k al parámetro global xwpSEQ, utilizando la relación xwpSEQ = Y.ai,k *xl_k/N o xwpSEQ = Y.ai,k *xl_k*T_k/JT_k, donde N es el número de GOP en la ventana de medición y T_k es la longitud del GOP k;

un módulo de estimación de la calidad configurado para recibir el parámetro determinado, estando 5 configurado el módulo de estimación de la calidad para calcular una medida de la calidad debida a pérdida de

paquetes, Qtrans, en base solamente al parámetro único que representa la estimación de la extensión espacio- temporal de la degradación de la señal, xwpSEQ, debida a pérdida de paquetes y en base a información de la resolución de video y al códec de video utilizado.