ES2526080T3

ES2526080T3 - Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo

Info

Publication number: ES2526080T3
Application number: ES12181015.4T
Authority: ES
Inventors: Marie-Neige Garcia; Alexander Raake; Savvas Argyropoulos; Bernhard Feiten; Peter List
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2012-08-20
Filing date: 2012-08-20
Publication date: 2015-01-05
Anticipated expiration: 2032-08-20
Also published as: KR20150045958A; PT2701397E; US20150138373A1; US9319672B2; WO2014029561A1; EP2701397A1; HRP20141060T1; JP2015533269A; PL2701397T3; EP2701397B1; KR102059222B1; CN104488265A; JP6328637B2

Abstract

Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de: (1a) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación; (1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo; (1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b); en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas. en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena SI sc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora; en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SI sc sobre las escenas sc multiplicado por un coeficiente, y en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SI sc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc >= 16, y para el resto de las escenas: wsc se establece a un valor igual a 1

Description

E12181015

12-12-2014

DESCRIPCIÓN

Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo

La invención se refiere a un procedimiento y un aparato para estimar la calidad percibida de una señal de vídeo digital, preferiblemente en el contexto de los servicios de transmisión de vídeo, tales como televisión bajo protocolo 5 de Internet (Internet Protocol Television, IPTV) o vídeo bajo demanda (Vídeo on Demand, VoD) y, en particular, para estimaciones dependientes del contenido de la calidad percibida de una señal de vídeo digital proporcionando parámetros relacionados con la complejidad del contenido, y controlando los procedimientos de estimación de calidad de vídeo basados en parámetros, existentes o futuros, mediante los parámetros proporcionados relacionados con la complejidad del contenido. La invención está diseñada para secuencias de vídeo codificadas,

10 pero funciona también sobre secuencias de vídeo no codificadas.

Con el propósito de garantizar un alto grado de satisfacción para el usuario de los servicios de vídeo, tal como transmisión de vídeo no interactiva (IPTV, VoD), la calidad de vídeo percibida de esos servicios debe ser estimada. El mantenimiento de la calidad de su servicio representa una importante responsabilidad del proveedor de difusión tanto con respecto al proveedor de contenidos como con respecto al cliente. En las grandes redes IPTV, solo las

15 sondas de supervisión de la calidad, completamente automatizadas, pueden cumplir este requisito.

Con este propósito, se han desarrollado modelos de calidad de vídeo que proporcionan estimaciones de la calidad de vídeo tal como es percibida por el usuario. Esos modelos pueden proporcionar, por ejemplo, el grado de similitud entre el vídeo recibido en el lado del usuario y el vídeo no degradado original. Además, y de una manera más sofisticada, puede modelarse el sistema visual humano (Human Visual System, HVS). Por último, la salida del

20 modelo puede ser asignada a los resultados de extensos ensayos subjetivos de la calidad, para proporcionar finalmente una estimación de la calidad percibida.

Los modelos de calidad de vídeo y, de esta manera, los sistemas de medición se clasifican generalmente de la manera siguiente:

Tipos de modelos de calidad

25 − Referencia completa (Full Reference, FR): se requiere una señal de referencia.

− Referencia reducida (Reduced Reference, RR): se requiere información parcial extraída de la señal de origen.

− Sin referencia (No Reference, NR): no se requiere señal de referencia.

Tipos de parámetros de entrada

30 − Basados en señal/medio: se requiere la imagen decodificada (información de píxel).

− Basados en parámetros: se requiere información a nivel de secuencias de bits. La información puede ser información de cabecera de un paquete, que requiere un análisis sintáctico de las cabeceras de los paquetes, análisis de la secuencia de bits incluyendo la carga útil, es decir, la información de codificación, y la decodificación parcial o total de la secuencia de bits.

35 Tipo de aplicación

− Planificación de la red: el modelo o el sistema de medición se usa antes de la implementación de la red con el propósito de planificar la mejor implementación posible.

− Supervisión de servicio: el modelo se usa durante la operación del servicio.

La información relacionada de los tipos de modelos de calidad de vídeo puede encontrarse en la bibliografía [1-3].

40 Se han descrito varios modelos paramétricos de calidad de vídeo, basados en paquetes, en la bibliografía [4 -6]. Sin embargo, una desventaja importante de estos modelos es que no tienen en cuenta el impacto sobre la calidad del contenido. En otros términos, y tal como se ha informado en estudios anteriores [7-12], la calidad de vídeo percibida depende de las características espacio-temporales del vídeo. Por ejemplo, es bien sabido que la pérdida de paquetes es ocultada generalmente mejor cuando no hay movimientos complejos en el vídeo, tal como en la

45 transmisión de noticias. Cuando no hay pérdida de paquetes y para tasas de bit bajas y medias, el contenido con una baja complejidad espacio-temporal consigue una mejor calidad que el contenido espacio-temporalmente complejo.

Además, la técnica anterior tiene por objeto también incluir el impacto sobre la calidad del contenido en unos

10

15

20

25

30

35

40

45

50

55 E12181015

12-12-2014

modelos paramétricos de calidad de vídeo basados en parámetros, tanto para los casos con pérdida de paquetes como para los casos sin pérdida de paquetes, véanse las referencias [13a, 13b, 14, 15, 16].

Por ejemplo, en las referencias [13a, 13b, 14], la complejidad de los contenidos se determina para cada fotograma de vídeo comparando el tamaño del fotograma actual con un umbral adaptativo. Dependiendo de si el tamaño del fotograma actual es mayor, igual o menor que este umbral se producirá un aumento o una disminución de la calidad estimada asociada con el fotograma actual. Sin embargo, debido al uso de un valor de umbral y a si es mayor, igual

o menor que este valor, el procedimiento descrito en estas referencias sólo proporciona una consideración relativamente aproximada del contenido de vídeo. En otras palabras, no hay una medida suave o continua de la complejidad de los fotogramas dentro de una ventana de medición determinada. Además, debido a que el umbral adaptativo se calcula sobre la totalidad o una parte de la ventana de medición, la complejidad de cada fotograma se determina en relación a la complejidad de otros fotogramas en la misma secuencia de vídeo, pero no en relación a la complejidad de otros contenidos.

En la referencia [15], se propone una solución para la inserción de parámetros relacionados con el contenido, es decir, parámetros que reflejan la complejidad espacio-temporal del contenido, tal como un parámetro de cuantificación y vectores de movimiento, en un modelo de calidad de vídeo basado en parámetros. Sin embargo, estos parámetros relacionados con el contenido no pueden ser extraídos de una secuencia de bits codificada, de manera que la referencia [15] no puede ser usada de la misma manera que la presente invención.

La referencia [16] presenta una solución para la estimación de la calidad de vídeo percibida en caso de pérdida de paquetes con un único parámetro, que representa la magnitud de la degradación de la señal debida a la pérdida de paquetes. Esta solución prevé la inclusión de un factor de corrección para ajustar la magnitud estimada de la degradación de la señal basada en la complejidad temporal o espacio-temporal del contenido. Sin embargo, no se propone ninguna solución para calcular este factor de corrección, por ejemplo en caso de vídeo codificado.

Por consiguiente, todavía hay una necesidad de un procedimiento para estimar la calidad percibida de una señal de vídeo digital. Por un lado, dicho procedimiento debería permitir una consideración bastante precisa del impacto sobre la calidad del contenido de la señal de vídeo y, por otro lado, debería ser aplicable también a un vídeo codificado, incluyendo tanto el caso de la degradación de codificación con y sin pérdida de paquetes. Asimismo, existe una necesidad de un aparato configurado para realizar un procedimiento con estas características.

Estos objetivos se consiguen mediante el procedimiento y el aparato con las características descritas en las reivindicaciones presentadas en la presente memoria.

La invención está dirigida a su uso con modelos de calidad de vídeo basados en parámetros en el caso de vídeo codificado, es decir, cuando sólo está disponible la información de cabecera de los paquetes. La invención funciona también en el caso de vídeo no codificado, pero puede ser, por diseño, menos precisa que un modelo de calidad de vídeo basado en una decodificación completa o una extracción de información más profunda a partir de la secuencia de bits no codificada. El uso solo de la información basada en paquetes ofrece la ventaja de mantener la complejidad computacional de la invención baja y, por supuesto, extiende el campo de aplicación a las secuencias no codificadas, así como a las secuencias codificadas.

La invención puede resumirse de la manera siguiente:

El objetivo de la presente invención es proporcionar un procedimiento para estimar la calidad percibida de una señal de vídeo digital proporcionando parámetros de complejidad de contenido y usando estos parámetros de complejidad de contenido para controlar los procedimientos arbitrarios de estimación de calidad de vídeo basados en parámetros (y, de esta manera, existentes o futuros). Por un lado, el procedimiento según la invención permite una consideración bastante precisa del impacto sobre la calidad del contenido de la señal de vídeo pero, por otro lado, es aplicable también al vídeo codificado y para ambos, en caso de pérdida de paquetes así como en caso sin pérdida de paquetes. Un objetivo adicional de la presente invención es proporcionar un aparato configurado para calcular los parámetros de complejidad de contenido e insertarlos en modelos arbitrarios de calidad de vídeo basados en parámetros, con todas las ventajas con las que están asociados dichos enfoques basados en el encabezado de los paquetes.

Cabe señalar también que la presente invención difiere sustancialmente de los enfoques de las referencias citadas anteriormente [13a, 13b, 14] tanto por los parámetros relacionados con el contenido que se calculan como por la manera en la que estos parámetros son incluidos en los modelos. En la presente invención, los parámetros relacionados con el contenido se proporcionan como valores absolutos, que no dependen del historial de fotogramas, tal como se describe en las referencias [13a, 13b, 14]. Por lo tanto, en principio, podrían ser usados para comparar la complejidad de dos contenidos diferentes, o de escenas o pasajes diferentes de un contenido. Además, los valores de los parámetros relacionados con el contenido, usados en la presente invención, son continuos (y no categóricos en términos de clases indistintas como en [13a, 13b, 14]) y, de esta manera, permiten

10

15

20

25

30

35

40

45 E12181015

12-12-2014

una estimación muy precisa del impacto sobre la calidad del contenido. Además, en la presente invención, todos los parámetros se calculan a lo largo de toda la ventana de medición o por cada grupo de imagen (Group Of Picture, GOP) o por cada escena de vídeo, mientras que en la técnica anterior (véanse las referencias [13a, 13b, 14]), se calculan por cada fotograma.

Cabe señalar que en el caso de vídeo codificado, la estructura GOP puede ser estimada usando [20]. Además, cabe señalar que una escena (vídeo) comienza con un fotograma I y, generalmente, contiene varios GOPs. Los cortes de escena pueden ser detectados en caso de vídeo codificado usando la referencia [21] (no publicada con anterioridad a la fecha de presentación de la presente solicitud). Normalmente, dos escenas de vídeo difieren en sus contenidos semánticos. Además, la variación entre escenas de la complejidad espacio-temporal (ST) de la señal de contenido es generalmente más baja que su variación entre escenas.

Dos formas comunes de expresar la calidad de vídeo Qv estimada, en base a las contribuciones debidas de diferentes tipos de degradaciones, se muestran en las ecuaciones siguientes,

imagen1

en las que Icod e Itra son ejemplos de "factores de deterioro" (Impairment Factors, IF). Un factor de deterioro cuantifica el impacto sobre la calidad de un tipo específico de degradación, y cada factor de deterioro puede ser calculado a partir de una descripción paramétrica de las señales y la ruta de transmisión. En las ecuaciones (1) y (2), Icod representa el impacto sobre la calidad de los artefactos de compresión, e Itra representa el impacto sobre la calidad de los errores de transmisión (pérdida de paquetes). Cabe señalar que en la ecuación (2) ya lo largo de toda la solicitud, el símbolo "x" denotará la multiplicación normal entre dos números reales, que a veces se representa también con el símbolo ".".

Todos los términos en las ecuaciones (1) y (2) se expresan, por ejemplo, en una escala de 0 a 100, o de 1 a 5.

Qvo es la calidad base y, típicamente, corresponde al valor más alto de la escala usada para expresar la calidad percibida, por ejemplo Qvo = 100 o Ovo = 5.

Según la invención, Icod e Itra y, de esta manera, Qv pueden ser calculados para cada ventana de medición, en el que una ventana de medición tiene típicamente una duración de 10 a 20 segundos.

Otro enfoque, seguido por ejemplo por las referencias [13] y [14], consiste en calcular las contribuciones a la calidad relacionada con la imagen debidas a la codificación y la pérdida de paquetes por cada fotograma de vídeo. A continuación, el conjunto obtenido de valores de calidad de fotogramas de vídeo se agrega a lo largo de la ventana de medición. Una manera sencilla de agregar los valores de calidad de vídeo por cada fotograma es calculando la media. En las referencias [17-19] se describen maneras más sofisticadas.

A continuación, se calculan Icod, Itra y Qv por cada ventana de medición. Además, tanto lcod como Itra se calculan usando una función de la manera siguiente, a la cual se hará referencia en adelante como "función de impacto":

imagen2

en la que Imp � {Icod, Itra}, m, n y u son números enteros positivos, fIF es una función de impacto que depende del índice (superior) IF que denota el factor de deterioro respectivo, y en el que

imagen3

denota un primer conjunto de parámetros que se refiere a las características técnicas de codificación o de la red, tales como la tasa de bits, el número de fotogramas por segundo o el porcentaje de pérdida de paquetes, y

imagen4

denota un segundo conjunto de parámetros, al cual sea referencia también en adelante como" parámetros dependientes del contenido", que se derivan de los parámetros GOP/complejidad de escena definidos más

4 10

15

20

25

30

35

40

45 E12181015

12-12-2014

adelante, y

imagen5

denota un conjunto de coeficientes asociados a fIF. En adelante, el superíndice IF se suprimirá a veces en la notación de las cantidades, proporcionadas por las ecuaciones (4) a (6) en aras de la simplicidad.

Aquí, pIF y qIF se calculan preferiblemente para cada ventana de medición, en el que una ventana de medición tiene típicamente una duración de 10 a 20 segundos. En adelante, el superíndice IF será denominado según el nombre respectivo de la variable usada para la cuantificación o medición de un factor de deterioro específico, es decir, por ejemplo, Icod o ltra. Además, la aplicación de la ecuación (3) no se limita a los casos de los factores de deterioro Icod e ltra; más bien, la ecuación (3) puede ser aplicada también a otros tipos de degradaciones de calidad, es decir, a otros factores de deterioro.

Cabe señalar que una función de impacto según la ecuación (3) constituye un concepto general para la estimación de la contribución relacionada con el contenido a los factores de deterioro. En otras palabras, la ecuación (3) no sólo es aplicable a diferentes factores de deterioro, tales como Icod o ltra, sino que también se aplica a diversos modelos (basados en parámetros) para estimar la degradación de la calidad debida a un factor de deterioro específico, por ejemplo, Icod. Usando los parámetros dependientes de contenido, descritos por un conjunto q IF en una realización específica de la ecuación (3) adaptada para un procedimiento de estimación elegido para un factor de deterioro, la estimación de este factor de deterioro es controlada mediante los parámetros dependientes del contenido. Cuando se realiza la última etapa de cálculo de una estimación de la calidad "global" Qv percibida de la señal de vídeo, por ejemplo, empleando las ecuaciones (1) o (2) o cualquier otro procedimiento basado en estimaciones de uno o más factores de deterioro, la estimación de Qv es controlada también por los parámetros dependientes del contenido. De esta manera, el procedimiento según la invención permite la consideración precisa, indicada anteriormente, del impacto sobre la calidad debido al contenido de la señal de vídeo.

Los parámetros GOP/complejidad de la escena usados para calcular los parámetros q IF dependientes de contenido son, todos ellos, parámetros que requieren el conocimiento del tipo y del tamaño (por ejemplo en bytes) de los fotogramas de vídeo. Normalmente, estos parámetros son calculados, aunque no necesariamente, por cada grupo de imagen (GOP) o escena de vídeo (SC), y los parámetros o la estimación de calidad resultante se agregan a continuación, sobre la ventana de medición.

Según la invención, pueden considerarse al menos los siguientes parámetros de GOP/complejidad de la escena:

• SIsc: tamaño medio de fotograma I para una escena sc determinada; en la realización preferida, preferiblemente, se ignora el primer fotograma I de la primera escena,

Sp

•: gop: tamaño medio de fotograma P para un gop GOP determinado,

•: SBgop: tamaño medio de referencia B (usado en caso de la codificación jerárquica) por cada GOP

•: Sbgop: Tamaño medio de los tamaños de fotograma b no de referencia por cada GOP,

Snol

•: gop: Tamaños medios de fotogramas P, B y b por cada GOP,

•: Blsc: tasa de bits de los fotogramas I calculados por cada escena,

•: BPsc: tasa de bits de los fotogramas P calculados por cada escena,

•: BBsc: tasa de bits de los fotogramas B calculados por cada escena,

•: Bbsc: tasa de bits de los fotogramas b calculados por cada escena,

Bnol

• sc: tasa de bits conjunta de los fotogramas P, B y b calculados por cada escena.

En los símbolos anteriores, el tipo de secuencia de fotogramas, es decir, I, P, B, b o noI, se indicada mediante un superíndice, que no debe ser confundido con un exponente.

La tasa de bits por escena de los fotogramas con el tipo de fotograma T (BTsc, donde T � {I, P, B, b, Nol}) se calcula como sigue:

10

15

20

25

30

35

40 E12181015

12-12-2014

imagen6

donde

•: ByTsc: es la cantidad total de bytes para un fotograma T para cada escena,

•: frT es el número de fotogramas por segundo para los fotogramas T, es decir, el número de fotogramas T por segundo,

•: nfrT es el número de fotogramas T por segundo en la escena,

•: br es la tasa de bits global, en Mbit/s.

Como una alternativa, frT podría ser sustituido por el número de fotogramas por segundo fr global y frT por el número nfr general de fotogramas en la escena.

Además, las siguientes relaciones pueden ser consideradas como parámetros GOP/complejidad de la escena. Cada relación se calcula por cada GOP a partir de los parámetros GOP/complejidad de la escena, tal como se ha definido anteriormente:

SP/l

•: = SPgop / Slsc Sb/I

•: = Sbgop / SIsc Sb/P

•: = Sbgop / SPgop SnoI/I = Snol

•: gop / SIsc BP/I

•: = BPsc / BIsc Bb/I

•: = Bbsc / BIsc Bb/P

•: = Bbsc / BPsc BnoI/I = BnoI

•: sc / BIsc

También aquí, el superíndice de los símbolos de la parte izquierda y derecha de las ecuaciones debe entenderse como un índice superior.

Un aspecto de la invención se refiere a un procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:

(1a) extraer información a partir de la secuencia de bits de vídeo, que es capturada antes de su decodificación;

(1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, usando, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;

(1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);

en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.

Según el procedimiento de la invención, los parámetros GOP/complejidad de la escena pueden ser calculados por cada grupo de Imagen (GOP) o escena de vídeo.

Según una realización del procedimiento, cada una de las funciones de impacto usadas en la etapa (1b) depende además de:

las características técnicas de codificación o de red, por ejemplo la tasa de bits, el número de fotogramas por

10

15

20

25

30

35 E12181015

12-12-2014

segundo, el porcentaje de pérdida de paquetes o la proporción de pérdida en un GOP o escena; y /o los coeficientes asociados con la función de impacto. En una realización preferida de la invención, el conjunto de parámetros q dependientes del contenido se deriva a partir de al menos uno de los siguientes parámetros GOP/complejidad de la escena:

SIsc, que denota el tamaño medio de fotograma I por escena, en el que preferiblemente el primer fotograma I de la primera escena se ignora; SPgop, que denota el tamaño medio de fotograma P por cada GOP; SBgop, que denota los tamaños medios (de referencia) de fotograma B por cada GOP; Sbgop, que denota los tamaños medios de fotograma b no de referencia por cada GOP;

SnoI

gop, que denota los tamaños medios conjuntos de los fotogramas P, B y b por cada GOP; BIsc, que denota la tasa de bits de los fotogramas I calculada por cada escena; BPsc, que denota la tasa de bits de los fotogramas P calculada por cada escena; BBsc, que denota la tasa de bits de los fotogramas B calculada por cada escena; Bbsc, que denota la tasa de bits de los fotogramas b calculada por cada escena;

BnoI

sc, que denota la tasa de bits de los fotogramas P, B y b calculada por cada escena.

En una realización de la invención, el conjunto de parámetros q se deriva a partir de al menos uno de los parámetros GOP/complejidad de la escena

SP/l

= SPgop / Slsc Sb/I

= Sbgop / SIsc Sb/P

= Sbgop / SPgop SnoI/I = Snol

gop / SIsc BP/I

= BPsc / BIsc Bb/I

= Bbsc / BIsc Bb/P

= Bbsc / BPsc BnoI/I = BnoI

sc / BIsc

En una realización, se usa una función fIF de impacto.

Preferiblemente, la fa función fIF de impacto se usa para estimar el impacto sobre la calidad debido a los artefactos de compresión, que depende de un parámetro ql dependiente del contenido que es calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc de las escenas sc multiplicado por un coeficiente. El coeficiente puede ser proporcional al número nx de píxeles por fotograma de vídeo y el número fr de fotogramas de vídeo por segundo.

En una realización preferida del procedimiento de la invención, cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1.

En una realización, el parámetro ql dependiente del contenido viene determinado por

imagen7

E12181015

12-12-2014

En el caso de un conjunto de parámetros unidimensional (vector de parámetros), en adelante, el símbolo del único elemento del conjunto será identificado con el símbolo del conjunto en aras de la simplicidad. Por ejemplo, si el conjunto de parámetros dependientes del contenido tiene sólo un parámetro, es decir, q =(ql), se escribirá simplemente q = ql. De manera análoga, se establece p =(pl)= pl en el caso de un conjunto de parámetros unidimensional asociado con las características técnicas de codificación o de red.

En una realización del procedimiento de la invención, la función fIF de impacto que depende del parámetro q = ql dependiente del contenido viene determinada por

imagen8

en la que p = pl es preferiblemente un parámetro que describe el número de bits por píxel y viene determinado, más preferiblemente, por

imagen9

15

donde α =(α1, α2, α3, α4) es el conjunto de coeficientes asociados a la función de impacto.

En una realización del procedimiento de la invención, se usa una función fIF de impacto, preferiblemente para estimar el impacto sobre la calidad debido a los artefactos de transmisión, que depende de un conjunto de parámetros q =(q1, q2) dependientes del contenido, en el que cada componente qj con j � {1, 2} del conjunto se

20 obtiene mediante una suma ponderada de los parámetros βk,i dependiente de los parámetros GOP/complejidad de la escena, en el que, preferiblemente, la suma ponderada para cada j � {1, 2} se calcula según

imagen10

con pesos Rk,j. Los pesos pueden venir determinados por

imagen11

en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación del GOP de un evento de pérdida y ri denota la extensión espacial del evento de pérdida i. Según una realización preferida, se usa: en caso de un sector por fotograma,

imagen12

y en el caso de más de un sector por fotograma,

imagen13

10

15

20

25

30

35

40 E12181015

12-12-2014

afectados (TS) en el fotograma afectado, nip es el número de paquetes perdidos en el fotograma, nle es el número de eventos de pérdida en el fotograma y nsl es el número de sectores en el fotograma. El parámetro βk,1 puede depender del parámetro GOP/complejidad de la escena SnoI/I .

El parámetro βk,2 puede depender del parámetro GOP/complejidad de la escena Sb/P. Según una realización del procedimiento, los parámetros βk,1 cada k � {1, ..., v} se obtienen mediante las etapas siguientes:

= SnoI/I

(12a) establecer βk,1 ; (12b) en el caso βk,1 ≤ 0,5, establecer βk,1 a un valor 2x βk,1; (12c) en el caso βk,1 > 0.5, establecer βk,1 a un valor 1. Preferiblemente, los parámetros βk,2 para cada k � {1, ..., v} se obtienen como βk,2 = max(0, -Sb/P + 1). En una realización, la función fIF de impacto que depende del conjunto de parámetros q =(q1, q2) dependientes del

contenido es proporcionada por

imagen14

Preferiblemente, p1 es un parámetro que describe el impacto sobre la calidad debido a los artefactos de compresión.

Preferiblemente, p2 es el número de GOPs en la ventana de medición o la duración de la ventana de medición.

En una realización del procedimiento de la invención, la señal de vídeo es al menos parte de una secuencia de datos no interactiva, preferiblemente un vídeo no interactivo o secuencia audiovisual, o al menos parte de una secuencia de datos interactiva, preferiblemente un vídeo interactivo o secuencia audiovisual.

En una realización, el procedimiento se combina con uno o más procedimientos para estimar el impacto sobre la percepción de la calidad de una señal de vídeo digital por otros deterioros diferentes a la compresión y/o transmisión, en el que la combinación se realiza preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.

En una realización, el procedimiento es combinado con uno o más de otros procedimientos para estimar la calidad de la percepción de un vídeo digital debido a la compresión y/o la transmisión, en el que la combinación es realizada preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.

Un aspecto de la invención se refiere a un procedimiento para supervisar la calidad de una señal de vídeo digital transmitida con las etapas de:

(18a) transmitir la señal de vídeo desde un servidor al cliente;

(18b) en el lado del cliente, ejecutar el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital según el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital tal como se ha descrito anteriormente;

(18c) transferir el resultado de la estimación de la etapa (18b) al servidor;

(18d) en el lado del servidor, supervisar la estimación de la calidad de la señal de vídeo transmitida; y

en el que el procedimiento comprende preferiblemente las etapas adicionales de:

(18e) analizar la calidad supervisada de la señal de vídeo transmitida, preferiblemente en función de los parámetros de transmisión; y opcionalmente

(18f) cambiar los parámetros de transmisión en base a la etapa de análisis (18e) con el propósito de aumentar

10

15

20

25

30

35

40

45 E12181015

12-12-2014

la calidad de la señal de vídeo transmitida.

Un aspecto de la invención se refiere a un aparato para estimar la calidad de percepción de una señal de vídeo digital, en el que el aparato comprende:

unos medios configurados para extraer información a partir de una secuencia de bits de vídeo capturada antes de la decodificación;

al menos un estimador de impacto;

un estimador de calidad configurado para estimar la calidad de percepción Qv de la señal de vídeo:

en el que el aparato está caracterizado por que cada uno de los estimadores de impacto está configurado para estimar el impacto sobre la calidad debido a un factor de deterioro por medio de una función de deterioro que acepta como entrada un conjunto de parámetros dependientes del contenido calculados a partir de un conjunto parámetros GOP/complejidad de la escena, en el que los parámetros de GOP/complejidad de la escena pueden derivarse a partir de la información de la cabecera del paquete y, de esta manera, están disponibles en el caso de secuencias de bits de vídeo codificado.

Preferiblemente, el aparato está configurado además para estimar la calidad de percepción de una señal de vídeo digital usando un procedimiento según una cualquiera de las realizaciones del procedimiento para estimar la calidad de percepción de una señal de vídeo digital, tal como se ha descrito anteriormente.

Un aspecto de la invención se refiere a un decodificador que se puede conectar a un receptor para recibir una señal de vídeo digital, en el que el decodificador comprende el aparato según la invención.

Un aspecto de la invención se refiere a un sistema para supervisar la calidad de una señal de vídeo digital transmitida, en el que el sistema comprende un servidor y un cliente, y el sistema está configurado para ejecutar el procedimiento para supervisar la calidad de una señal de vídeo digital transmitida según la invención, tal como se ha descrito anteriormente.

En una realización del sistema, el cliente está configurado como el aparato según la invención.

En una realización del sistema, el cliente comprende un aparato según la invención.

En una realización alternativa del sistema de la invención, el sistema comprende además el decodificador según la invención, en el que el decodificador está conectado al cliente.

Lista de figuras:

Fig. 1: Ilustración del cálculo de la ecuación (10) usada como un ejemplo para explicar el impacto sobre la calidad del contenido en el caso sin pérdidas. Véase el texto anterior para más detalles.

Fig. 2: Ilustración de las ecuaciones (17a) a (17c) usadas como un ejemplo para explicar el impacto sobre la calidad del contenido en caso de pérdida de paquetes. Véase el texto anterior para más detalles.

Fig. 3: Ilustración de la ecuación (18) usada como un ejemplo para explicar el impacto sobre la calidad del contenido en caso de pérdida de paquetes. Véase la descripción para más detalles.

Otros aspectos, características y ventajas serán evidentes a partir del resumen anterior, así como a partir de la descripción siguiente, incluyendo las figuras y las reivindicaciones.

Según la invención, el impacto sobre la complejidad del contenido tanto en el deterioro Icod de la calidad relacionado con la compresión como en el deterioro Itra de la calidad relacionado con la transmisión pueden estimarse usando el esquema descrito a continuación:

Caso sin pérdidas -Icod

Una realización de la invención se refiere a la inclusión de los parámetros de GOP /complejidad de la escena en la ecuación (3), en la que Imp = Icod, m = 1, n = 1, u = 4, y en el que Imp se obtiene haciendo que fIcod sea una función exponencial:

imagen15

E12181015

12-12-2014

imagen16

y, preferiblemente, pIcod 1 es el número medio de bits por píxel que viene determinado más preferiblemente por

imagen17

en la que nx y fr son el número de píxeles por fotograma de vídeo y el número de fotogramas de vídeo por segundo, respectivamente, Además, br es la tasa de bits de vídeo en Mbit/s.

En una realización preferida, qIcod 1 es una función del parámetro GOP/complejidad de la escena SIsc y se expresa como sigue:

imagen18

en la que nx y fr son el número de píxeles por fotograma de vídeo y el número de fotogramas de vídeo por segundo, 20 respectivamente, y Nsc el número de GOPs por escena. Para la escena que tiene el valor SIsc más bajo, wsc > 1, en el que preferiblemente wsc = 16, si no wsc = 1.

La Fig. 1 ilustra, como un ejemplo, el cálculo de la ecuación (10) con una secuencia de vídeo compuesta de dos escenas (se supone que la ventana de medición corresponde a la duración de esta secuencia de vídeo). El formato de la secuencia de vídeo es 1080p25. Como consecuencia, nx = 1920 x 1080 = 2.073.600 y fr = 25.

25 La primera escena (sc = 1) contiene dos GOPs (gop1 y gop2), es decir, N1 = 2, y su tamaño medio de fotograma I es SI1 = 0,1 (por ejemplo, en Megabytes).

La segunda escena (sc = 2) contiene tres GOPs (gop3 a gop5), es decir, N2 = 3, y su tamaño medio de fotograma I es SI2 = 0,3 (por ejemplo, en Megabytes).

El SIsc mínimo en la secuencia de vídeo es SI1. Como consecuencia,

imagen19

y

imagen20

Caso con pérdidas – Itra

Una realización de la invención se refiere a la inclusión de parámetros GOP/complejidad de la escena en la ecuación (3), en la que Imp = Itra, m = 2, n = 2, u = 3, y en la que Imp se obtiene haciendo que fItra sea una función logarítmica:

E12181015

12-12-2014

imagen21

Como un ejemplo del conjunto de coeficientes αItra en la ecuación (11), se tiene: 5

imagen22

Preferiblemente,

10 en la que v es el número de GOPs en la ventana de medición. De manera alternativa, v es la duración de la ventana de medición.

imagen23

Itra Itra

En la realización preferida, q1 y q2 se derivan a partir de los parámetros GOP/complejidad de la escena y se 15 obtienen por cada ventana de medición usando las relaciones siguientes:

imagen24

en la que v es el número de GOPs en la ventana de medición, y Rk,1 y Rk,2 son descriptores espacio-temporales de la pérdida calculada para cada GOP k, que se calculan como sigue:

imagen25

en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación en el GOP de un evento de pérdida i y ri denota la extensión espacial del evento de pérdida i, y en la que preferiblemente:

en caso de un sector por fotograma,

imagen26

y, en caso de más de un sector por fotograma,

imagen27

en la que np es el número de paquetes en el fotograma, nap es el número de paquetes en la secuencia de transporte (TS) afectada en el fotograma afectado (derivado usando cualquier procedimiento que implica la información del encabezado del paquete, tal como números de secuencia, marcas de tiempo, etc.), nlp es el número de paquetes perdidos en el fotograma, nle es el número de eventos de pérdida en el fotograma, y nsl es el número de sectores en el fotograma.

Cabe señalar que rk es xl_k/T_k de la ecuación (5) en la referencia [16]. De manera similar, ri de la ecuación (15) corresponde a xl_i de la ecuación (7c) en la referencia [16], y ri en la ecuación (16) corresponde a xl_i en la

10

15

20

25

30

35

40

45 E12181015

12-12-2014

ecuación (7) de la referencia [16]. Finalmente, la suma de βk,1 y βk,2 de las ecuaciones (12) y (13) corresponde al factor de corrección α1,k en la ecuación (9a) de la referencia [16]. Sin embargo, tal como se ha indicado anteriormente, no se propone ninguna solución para calcular este factor de corrección en caso de un vídeo codificado.

Además, los parámetros βk,1 y βk,2 se derivan a partir de los parámetros GOP/complejidad de la escena y se calculan para cada GOP k.

En una realización preferida, βk,1 se obtiene usando las etapas siguientes (véase la Fig. 2.):

= SnoI/I

(a): establecer βk,1 ;

(b): en el caso de βk,1 ≤ 0,5, establecer βk,1 a2x βk,1;

(c) en caso de βk,1 > 0,5, establecer βk,1 a 1. En una realización preferida, βk,2 se obtiene usando (véase la Fig. 3):

imagen28

Aunque la invención ha sido ilustrada y descrita en detalle en los dibujos y la descripción precedentes, dicha ilustración y dicha descripción deben ser consideradas como ilustrativas o ejemplares y no restrictivas. Se entenderá que las personas con conocimientos en la materia pueden realizar cambios y modificaciones dentro del alcance de las reivindicaciones siguientes. En particular, la presente invención abarca realizaciones adicionales con cualquier combinación de características procedentes de diferentes realizaciones descritas anteriormente y a continuación.

Además, en las reivindicaciones la palabra "comprende" no excluye otros elementos o etapas, y los artículos indefinidos "un" o "una" no excluyen una pluralidad. Una única unidad puede cumplir las funciones de varias características expuestas en las reivindicaciones. De manera particular, los términos "esencialmente", "sobre", "aproximadamente" y similares, en conexión con un atributo o un valor definen también exactamente el atributo o exactamente el valor, respectivamente. Cualquier signo de referencia en las reivindicaciones no debería interpretarse como limitativo del alcance.

Referencias:

[1] A. Takahashi, D. Hands y V. Barriac, "Standardization Activities in the ITU for a QoE Assessment of IPTV," en IEEE Communication Magazine, 2008.

[2] S. Winkler y P. Mohandas, "The Evolution of Vídeo Quality Measurement: From PSNR to Hybrid Metrics," in IEEE Trans. Broadcasting, 2008.

[3] A. Raake, M.N. Garcia, S. Moeller, J. Berger, F. Kling, P. List, J. Johann, y C. Heidemann, "T-V-MODEL: Parameter-based prediction of IPTV quality," en Proc. of ICASSP, 2008.

[4] O. Verscheure, P. Frossard y M. Hamdi, "User-oriented QoS analysis in MPEG-2 vídeo delivery," en Real-Time Imaging, 1999.

[5] K. Yamagishi y T. Hayashi, "Parametric Packet-Layer Model forMonitoring Vídeo Quality of IPTV Services," en Proc. of ICC, 2008.

[6] M-N. Garcia y A. Raake, "Parametric Packet-Layer Vídeo Quality Model for IPTV," en Proc. of ISSPA, 2010.

[7] S. Pechard, D. Barba y P. Le Callet, "Vídeo quality model based on a spatio-temporal features extraction for H.264-coded HDTV sequences," en Proc. of PCS, 2007.

[8] Y. Liu, R. Kurceren y U. Budhia, "Vídeo classification for vídeo quality prediction," en Journal of Zhejiang University Science A, 2006.

[9] M. Ries, C. Crespi, O. Nemethova y M. Rupp, "Content-based Vídeo Quality Estimation for H.264/AVC Vídeo Streaming," en Proc, of Wireless Communications and Networking Conference, 2007.

[10] A. Khan, L. Sun. y E. Ifeachor, "Content clustering based vídeo quality prediction model for MPEG4 vídeo streaming over wireless networks," en Proc. of ICC, 2009.

E12181015

12-12-2014

[11] Garcia, M.-N., Schleicher, R. y Raake, A. "Towards A Content-Based Parametric Vídeo Quality Model For IPTV", in Proc. Of VPQM, 2010.

[12] Guangtao Zhai et al, Cross-dimensional Quality Assessment for Low Bitrate Vídeo, en IEEE Transactions on Multimedia, 2008.

5 [13a] Clark, A. (Telchemy), WO 2009012297 (Al), Method and system for content estimation of packet vídeo streams.

[13b] Clark, A. (Telchemy), US 2009/004114 (Al), Method and system for viewer quality estimation of packet vídeo streams.

[14] Liao, Ning et al, "A packet-layer vídeo quality assessment model with spatiotemporal complexity estimation", 10 EURASIP Journal on Image and Vídeo Processing 2011, 2011:5 (22 de Agosto 2011)

[15] Garcia, M.-N., Schleicher, R. y Raake, A. (2010). Towards A Content-Based Parametric Vídeo Quality Model For IPTV. Fifth International Workshop on Vídeo Processing and Quality Metrics for Consumer Electronics (VPQM 2010). Intel, 20-25.

[16] WO 2012/076202 ("Method and apparatus for assessing the quality of a vídeo signal during encoding and 15 transmission of the vídeo signal")

[17] Rosenbluth, J. H. (AT&T) "ITU-T Delayed Contribution D.064: Testing the quality of connections having time varying impairments", 1998

[18] Gros, L., Chateau, N. "Instantaneous and Overall Judgements for Time-Varying Speech Quality: Assessments and Relationships, Acta Acustica, Volumen 87, Número 3, Mayo/Junio 2001, pp. 367-377(11)

20 [19] Weiss, B., Moller, S., Raake, A., Berger, J., Ullmann, R. (2009). Modeling Conversational Quality for Timevarying Transmission Characteristics, Acta Acustica united with Acustica 95, 1140-1151.

[20] WO/2012/013655 ("Method for estimation of the type of the group of picture structure of a plurality of vídeo frames in a vídeo stream")

[21] PCT/EP2011/067741 (Argyropoulos, S. et al, "Scene change detection for perceptual quality evaluation in vídeo

25 sequences"). PCT/EP201 1/067741 es un documento cuya fecha de presentación es anterior a la fecha de presentación de la presente solicitud, pero que no se publicó antes de la fecha de presentación de la presente solicitud.

Claims

5

10

15

20

25

30

35

40 E12181015

12-12-2014

REIVINDICACIONES

1. Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:

(1a) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación;

(1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;

(1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);

en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.

en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena SIsc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;

en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc sobre las escenas sc multiplicado por un coeficiente, y

en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1
2.

Procedimiento según la reivindicación 1, en el que:

el coeficiente es proporcional al número de píxeles por fotograma de vídeo nx y el número fr de fotogramas de vídeo por segundo.
3.

Procedimiento según la reivindicación 2, en el que el parámetro q1 dependiente del contenido viene determinado por
4.

Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que los parámetros GOP/complejidad de la escena se calculan por cada grupo de imagen (GOP) o por cada escena de vídeo.
5.

Procedimiento según una cualquiera de las reivindicaciones 1 a 4, en el que cada una de las funciones de impacto usadas en la etapa (1b) depende además de:

imagen1

características técnicas de codificación o de red, por ejemplo, la tasa de bits, el número de fotogramas por segundo, el porcentaje de pérdida de paquetes o la proporción de pérdida en un GOP o una escena, y/o

coeficientes asociados con la función de impacto.
6. Procedimiento según una cualquiera de las reivindicaciones 1 a 5, en el que el conjunto de parámetros q dependientes del contenido es derivado además desde al menos uno de los parámetros GOP/complejidad de la escena siguientes:

SPgop, que denota el tamaño medio de fotograma P por cada GOP;

5

10

15

20

25

30

35 E12181015

12-12-2014

SBgop, que denota los tamaños medios (de referencia) de fotograma B por cada GOP; Sbgop, que denota los tamaños medios de fotograma b no de referencia por cada GOP; SnoI

gop, que denota los tamaños medios conjuntos de los fotogramas P, B y b por cada GOP;

BIsc, que denota la tasa de bits de los fotogramas I calculada por cada escena;

BPsc, que denota la tasa de bits de los fotogramas P calculada por cada escena;

BBsc, que denota la tasa de bits de los fotogramas B calculada por cada escena;

Bbsc, que denota la tasa de bits de los fotogramas b calculada por cada escena;

BnoI

sc, que denota la tasa de bits de los fotogramas P, B y b calculada por cada escena.
7. Procedimiento según la reivindicación 6, en el que el conjunto q de parámetros es derivado a partir de al menos uno de los parámetros GOP/complejidad de la escena siguientes:

SP/l

= SPgop / Slsc Sb/I

= Sbgop / SIsc Sb/P

= Sbgop / SPgop SnoI/I = Snol

gop / SIsc BP/I= BP

sc / BIsc Bb/I

= Bbsc / BIsc Bb/P

= Bbsc / BPsc BnoI/I = BnoI

sc / BIsc
8. Procedimiento según una cualquiera de las reivindicaciones 1 a 7, en el que la función fIF de impacto que depende del parámetro q = q1 dependiente del contenido viene determinada por

imagen2

en la que, preferiblemente, p = p1 es un parámetro que describe el número de bits por píxel y viene determinado, más preferiblemente, por

imagen3

donde α =(α1, α2, α3, α4) os es el conjunto de coeficientes asociados a la función de impacto.
9. Procedimiento según una cualquiera de las reivindicaciones 1 a 8, en el que se usa una función fIF de impacto, preferiblemente para estimar el impacto sobre la calidad debido a los artefactos de transmisión, que depende de un conjunto de parámetros dependientes del contenido q =(q1, q2), en el que cada componente qj con j � {1, 2} del conjunto que se obtiene mediante una suma ponderada de los parámetros βk,i dependientes de los parámetros GOP/complejidad de la escena, en el que la suma ponderada para cada j � {1, 2} es calcula preferiblemente según

imagen4

con pesos Rk,j.
10. Procedimiento según la reivindicación 9, en el que las ponderaciones vienen determinadas por

E12181015

12-12-2014

imagen5

en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación en el GOP de un evento de pérdida i y ri denota la extensión espacial del evento de pérdida i, y en el que preferiblemente:

en caso de un sector por fotograma,

imagen6

en el caso de más de un sector por fotograma,

imagen7

donde np es el número de paquetes en el fotograma, nap es el número de paquetes de secuencias de transporte afectados (TS) en el fotograma afectado, nip es el número de paquetes perdidos en el fotograma, nle es el número 15 de eventos de pérdida en el fotograma y nsl es el número de sectores en el fotograma
11.

Procedimiento según las reivindicaciones 9 o 10, en el que: el parámetro βk,1 depende del parámetro GOP/complejidad de la escena SnoI/I; y/o el parámetro βk,2 depende del parámetro GOP/complejidad de la escena Sb/P.
12.

Procedimiento según una cualquiera de las reivindicaciones 9 a 11, en el que los parámetros βk,1 para cada k �

20 {1, ..., v} se obtienen mediante las etapas siguientes: = SnoI/I

(12a) establecer βk,1 ; (12b) en el caso βk,1 ≤ 0,5, establecer βk,1 a un valor 2x βk,1; (12c) en el caso βk,1 > 0.5, establecer βk,1 a un valor 1.
13. Procedimiento según una cualquiera de las reivindicaciones 9 a 12, en el que los parámetros βk,2 para cada k � 25 {1, ..., v} se obtienen como βk,2 = max(0, -Sb/P + 1).
14. Procedimiento según una cualquiera de las reivindicaciones 9 a 13, en el que la función fIF de impacto dependiente del conjunto de parámetros q =(q1, q2) dependientes del contenido viene determinada por

imagen8

30

en el que, preferiblemente, p1 es un parámetro que describe el impacto sobre la calidad debido a los artefactos de compresión, preferiblemente, p2 es el número de GOPs en la ventana de medición o la duración de la ventana de medición, y α =(α1, α2, α3) es el conjunto de coeficientes asociados con la función de impacto.
15. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que la señal de vídeo es al menos

35 parte de una secuencia de datos no interactiva, preferiblemente una secuencia de vídeo o audiovisual no interactiva, o al menos parte de una secuencia de datos interactiva, preferiblemente una secuencia de vídeo o audiovisual interactiva.
16. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos para estimar el impacto sobre la calidad de percepción de una señal de vídeo digital

40 por otros deterioros diferentes a la compresión y/o la transmisión, en el que la combinación es realizada preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimiento a

5

10

15

20

25

30

35

40

45 E12181015

12-12-2014

combinar.
17.

Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos diferentes para estimar la calidad de la percepción de un vídeo digital debida a la compresión y/o la transmisión, en el que la combinación se realiza, preferiblemente, usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.
18.

Procedimiento para supervisar la calidad de una señal de vídeo digital transmitida con las etapas de:

(18a) transmitir la señal de vídeo desde un servidor al cliente;

(18b) en el lado del cliente, ejecutar el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital según una cualquiera de las reivindicaciones 1 a 17;

(18c) transferir el resultado de la estimación de la etapa (18b) al servidor;

(18d) en el lado del servidor, supervisar la estimación de la calidad de la señal de vídeo transmitida; y

en el que el procedimiento comprende preferiblemente las etapas adicionales de:

(18e) analizar la calidad supervisada de la señal de vídeo transmitida, preferiblemente dependiendo de los parámetros de transmisión; y opcionalmente

(18f) cambiar los parámetros de transmisión en base al análisis de la etapa (18e) con el propósito de aumentar la calidad de la señal de vídeo transmitida.
19. Aparato para estimar la calidad de la percepción de una señal de vídeo digital, en el que el aparato comprende:

unos medios configurados para extraer información desde una secuencia de bits de vídeo capturada antes de la decodificación;

al menos un estimador de impacto;

un estimador de calidad configurado para estimar la calidad de percepción Qv de la señal de vídeo:

en el que el aparato está caracterizado por que cada uno de los estimadores de impacto está configurado para estimar el impacto sobre la calidad debido a un factor de deterioro por medio de una función de deterioro que acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden derivarse a partir de la información de la cabecera del paquete y, de esta manera, están disponibles en el caso de secuencias de bits de vídeo codificado;

en el que el conjunto de parámetros q dependientes del contenido es derivado al menos a partir de un parámetro GOP/ complejidad de la escena SIsc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;

en el que para estimar al menos uno de los factores de deterioro, preferiblemente el impacto sobre la calidad debido a los artefactos de compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido que se calcula a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc a través de las escenas sc multiplicado por un coeficiente; y

en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por escena y wsc es un factor de ponderación, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1.
20.

Aparato según la reivindicación 19, que además está configurado para estimar la calidad de percepción de una señal de vídeo digital usando un procedimiento según una cualquiera de las reivindicaciones 2 a 17.
21.

Decodificador conectable a un receptor para recibir una señal de vídeo digital, en el que el decodificador comprende el aparato según las reivindicaciones 19 o 20.
22.

Sistema para supervisar la calidad de una señal de vídeo digital transmitida, en el que el sistema comprende un servidor y un cliente, y el sistema está configurado para ejecutar el procedimiento según la reivindicación 18.
23.

Sistema según la reivindicación 22, en el que:

el cliente está configurado como el aparato según la reivindicación 19 o 20; y /o 18

E12181015

12-12-2014

el cliente comprende un aparato según la reivindicación 19 o 20.
24. Sistema según la reivindicación 22, que comprende además el decodificador según la reivindicación 21, en el que el decodificador está conectado al cliente.