ES2526080T3 - Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo - Google Patents

Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo Download PDF

Info

Publication number
ES2526080T3
ES2526080T3 ES12181015.4T ES12181015T ES2526080T3 ES 2526080 T3 ES2526080 T3 ES 2526080T3 ES 12181015 T ES12181015 T ES 12181015T ES 2526080 T3 ES2526080 T3 ES 2526080T3
Authority
ES
Spain
Prior art keywords
scene
gop
parameters
quality
impact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12181015.4T
Other languages
English (en)
Inventor
Marie-Neige Garcia
Alexander Raake
Savvas Argyropoulos
Bernhard Feiten
Peter List
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Application granted granted Critical
Publication of ES2526080T3 publication Critical patent/ES2526080T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Silicates, Zeolites, And Molecular Sieves (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de: (1a) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación; (1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo; (1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b); en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas. en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena SI sc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora; en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SI sc sobre las escenas sc multiplicado por un coeficiente, y en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SI sc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc >= 16, y para el resto de las escenas: wsc se establece a un valor igual a 1

Description

E12181015
12-12-2014
DESCRIPCIÓN
Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo
La invención se refiere a un procedimiento y un aparato para estimar la calidad percibida de una señal de vídeo digital, preferiblemente en el contexto de los servicios de transmisión de vídeo, tales como televisión bajo protocolo 5 de Internet (Internet Protocol Television, IPTV) o vídeo bajo demanda (Vídeo on Demand, VoD) y, en particular, para estimaciones dependientes del contenido de la calidad percibida de una señal de vídeo digital proporcionando parámetros relacionados con la complejidad del contenido, y controlando los procedimientos de estimación de calidad de vídeo basados en parámetros, existentes o futuros, mediante los parámetros proporcionados relacionados con la complejidad del contenido. La invención está diseñada para secuencias de vídeo codificadas,
10 pero funciona también sobre secuencias de vídeo no codificadas.
Con el propósito de garantizar un alto grado de satisfacción para el usuario de los servicios de vídeo, tal como transmisión de vídeo no interactiva (IPTV, VoD), la calidad de vídeo percibida de esos servicios debe ser estimada. El mantenimiento de la calidad de su servicio representa una importante responsabilidad del proveedor de difusión tanto con respecto al proveedor de contenidos como con respecto al cliente. En las grandes redes IPTV, solo las
15 sondas de supervisión de la calidad, completamente automatizadas, pueden cumplir este requisito.
Con este propósito, se han desarrollado modelos de calidad de vídeo que proporcionan estimaciones de la calidad de vídeo tal como es percibida por el usuario. Esos modelos pueden proporcionar, por ejemplo, el grado de similitud entre el vídeo recibido en el lado del usuario y el vídeo no degradado original. Además, y de una manera más sofisticada, puede modelarse el sistema visual humano (Human Visual System, HVS). Por último, la salida del
20 modelo puede ser asignada a los resultados de extensos ensayos subjetivos de la calidad, para proporcionar finalmente una estimación de la calidad percibida.
Los modelos de calidad de vídeo y, de esta manera, los sistemas de medición se clasifican generalmente de la manera siguiente:
Tipos de modelos de calidad
25 − Referencia completa (Full Reference, FR): se requiere una señal de referencia.
− Referencia reducida (Reduced Reference, RR): se requiere información parcial extraída de la señal de origen.
− Sin referencia (No Reference, NR): no se requiere señal de referencia.
Tipos de parámetros de entrada
30 − Basados en señal/medio: se requiere la imagen decodificada (información de píxel).
− Basados en parámetros: se requiere información a nivel de secuencias de bits. La información puede ser información de cabecera de un paquete, que requiere un análisis sintáctico de las cabeceras de los paquetes, análisis de la secuencia de bits incluyendo la carga útil, es decir, la información de codificación, y la decodificación parcial o total de la secuencia de bits.
35 Tipo de aplicación
− Planificación de la red: el modelo o el sistema de medición se usa antes de la implementación de la red con el propósito de planificar la mejor implementación posible.
− Supervisión de servicio: el modelo se usa durante la operación del servicio.
La información relacionada de los tipos de modelos de calidad de vídeo puede encontrarse en la bibliografía [1-3].
40 Se han descrito varios modelos paramétricos de calidad de vídeo, basados en paquetes, en la bibliografía [4 -6]. Sin embargo, una desventaja importante de estos modelos es que no tienen en cuenta el impacto sobre la calidad del contenido. En otros términos, y tal como se ha informado en estudios anteriores [7-12], la calidad de vídeo percibida depende de las características espacio-temporales del vídeo. Por ejemplo, es bien sabido que la pérdida de paquetes es ocultada generalmente mejor cuando no hay movimientos complejos en el vídeo, tal como en la
45 transmisión de noticias. Cuando no hay pérdida de paquetes y para tasas de bit bajas y medias, el contenido con una baja complejidad espacio-temporal consigue una mejor calidad que el contenido espacio-temporalmente complejo.
Además, la técnica anterior tiene por objeto también incluir el impacto sobre la calidad del contenido en unos
10
15
20
25
30
35
40
45
50
55 E12181015
12-12-2014
modelos paramétricos de calidad de vídeo basados en parámetros, tanto para los casos con pérdida de paquetes como para los casos sin pérdida de paquetes, véanse las referencias [13a, 13b, 14, 15, 16].
Por ejemplo, en las referencias [13a, 13b, 14], la complejidad de los contenidos se determina para cada fotograma de vídeo comparando el tamaño del fotograma actual con un umbral adaptativo. Dependiendo de si el tamaño del fotograma actual es mayor, igual o menor que este umbral se producirá un aumento o una disminución de la calidad estimada asociada con el fotograma actual. Sin embargo, debido al uso de un valor de umbral y a si es mayor, igual
o menor que este valor, el procedimiento descrito en estas referencias sólo proporciona una consideración relativamente aproximada del contenido de vídeo. En otras palabras, no hay una medida suave o continua de la complejidad de los fotogramas dentro de una ventana de medición determinada. Además, debido a que el umbral adaptativo se calcula sobre la totalidad o una parte de la ventana de medición, la complejidad de cada fotograma se determina en relación a la complejidad de otros fotogramas en la misma secuencia de vídeo, pero no en relación a la complejidad de otros contenidos.
En la referencia [15], se propone una solución para la inserción de parámetros relacionados con el contenido, es decir, parámetros que reflejan la complejidad espacio-temporal del contenido, tal como un parámetro de cuantificación y vectores de movimiento, en un modelo de calidad de vídeo basado en parámetros. Sin embargo, estos parámetros relacionados con el contenido no pueden ser extraídos de una secuencia de bits codificada, de manera que la referencia [15] no puede ser usada de la misma manera que la presente invención.
La referencia [16] presenta una solución para la estimación de la calidad de vídeo percibida en caso de pérdida de paquetes con un único parámetro, que representa la magnitud de la degradación de la señal debida a la pérdida de paquetes. Esta solución prevé la inclusión de un factor de corrección para ajustar la magnitud estimada de la degradación de la señal basada en la complejidad temporal o espacio-temporal del contenido. Sin embargo, no se propone ninguna solución para calcular este factor de corrección, por ejemplo en caso de vídeo codificado.
Por consiguiente, todavía hay una necesidad de un procedimiento para estimar la calidad percibida de una señal de vídeo digital. Por un lado, dicho procedimiento debería permitir una consideración bastante precisa del impacto sobre la calidad del contenido de la señal de vídeo y, por otro lado, debería ser aplicable también a un vídeo codificado, incluyendo tanto el caso de la degradación de codificación con y sin pérdida de paquetes. Asimismo, existe una necesidad de un aparato configurado para realizar un procedimiento con estas características.
Estos objetivos se consiguen mediante el procedimiento y el aparato con las características descritas en las reivindicaciones presentadas en la presente memoria.
La invención está dirigida a su uso con modelos de calidad de vídeo basados en parámetros en el caso de vídeo codificado, es decir, cuando sólo está disponible la información de cabecera de los paquetes. La invención funciona también en el caso de vídeo no codificado, pero puede ser, por diseño, menos precisa que un modelo de calidad de vídeo basado en una decodificación completa o una extracción de información más profunda a partir de la secuencia de bits no codificada. El uso solo de la información basada en paquetes ofrece la ventaja de mantener la complejidad computacional de la invención baja y, por supuesto, extiende el campo de aplicación a las secuencias no codificadas, así como a las secuencias codificadas.
La invención puede resumirse de la manera siguiente:
El objetivo de la presente invención es proporcionar un procedimiento para estimar la calidad percibida de una señal de vídeo digital proporcionando parámetros de complejidad de contenido y usando estos parámetros de complejidad de contenido para controlar los procedimientos arbitrarios de estimación de calidad de vídeo basados en parámetros (y, de esta manera, existentes o futuros). Por un lado, el procedimiento según la invención permite una consideración bastante precisa del impacto sobre la calidad del contenido de la señal de vídeo pero, por otro lado, es aplicable también al vídeo codificado y para ambos, en caso de pérdida de paquetes así como en caso sin pérdida de paquetes. Un objetivo adicional de la presente invención es proporcionar un aparato configurado para calcular los parámetros de complejidad de contenido e insertarlos en modelos arbitrarios de calidad de vídeo basados en parámetros, con todas las ventajas con las que están asociados dichos enfoques basados en el encabezado de los paquetes.
Cabe señalar también que la presente invención difiere sustancialmente de los enfoques de las referencias citadas anteriormente [13a, 13b, 14] tanto por los parámetros relacionados con el contenido que se calculan como por la manera en la que estos parámetros son incluidos en los modelos. En la presente invención, los parámetros relacionados con el contenido se proporcionan como valores absolutos, que no dependen del historial de fotogramas, tal como se describe en las referencias [13a, 13b, 14]. Por lo tanto, en principio, podrían ser usados para comparar la complejidad de dos contenidos diferentes, o de escenas o pasajes diferentes de un contenido. Además, los valores de los parámetros relacionados con el contenido, usados en la presente invención, son continuos (y no categóricos en términos de clases indistintas como en [13a, 13b, 14]) y, de esta manera, permiten
10
15
20
25
30
35
40
45 E12181015
12-12-2014
una estimación muy precisa del impacto sobre la calidad del contenido. Además, en la presente invención, todos los parámetros se calculan a lo largo de toda la ventana de medición o por cada grupo de imagen (Group Of Picture, GOP) o por cada escena de vídeo, mientras que en la técnica anterior (véanse las referencias [13a, 13b, 14]), se calculan por cada fotograma.
Cabe señalar que en el caso de vídeo codificado, la estructura GOP puede ser estimada usando [20]. Además, cabe señalar que una escena (vídeo) comienza con un fotograma I y, generalmente, contiene varios GOPs. Los cortes de escena pueden ser detectados en caso de vídeo codificado usando la referencia [21] (no publicada con anterioridad a la fecha de presentación de la presente solicitud). Normalmente, dos escenas de vídeo difieren en sus contenidos semánticos. Además, la variación entre escenas de la complejidad espacio-temporal (ST) de la señal de contenido es generalmente más baja que su variación entre escenas.
Dos formas comunes de expresar la calidad de vídeo Qv estimada, en base a las contribuciones debidas de diferentes tipos de degradaciones, se muestran en las ecuaciones siguientes,
imagen1
en las que Icod e Itra son ejemplos de "factores de deterioro" (Impairment Factors, IF). Un factor de deterioro cuantifica el impacto sobre la calidad de un tipo específico de degradación, y cada factor de deterioro puede ser calculado a partir de una descripción paramétrica de las señales y la ruta de transmisión. En las ecuaciones (1) y (2), Icod representa el impacto sobre la calidad de los artefactos de compresión, e Itra representa el impacto sobre la calidad de los errores de transmisión (pérdida de paquetes). Cabe señalar que en la ecuación (2) ya lo largo de toda la solicitud, el símbolo "x" denotará la multiplicación normal entre dos números reales, que a veces se representa también con el símbolo ".".
Todos los términos en las ecuaciones (1) y (2) se expresan, por ejemplo, en una escala de 0 a 100, o de 1 a 5.
Qvo es la calidad base y, típicamente, corresponde al valor más alto de la escala usada para expresar la calidad percibida, por ejemplo Qvo = 100 o Ovo = 5.
Según la invención, Icod e Itra y, de esta manera, Qv pueden ser calculados para cada ventana de medición, en el que una ventana de medición tiene típicamente una duración de 10 a 20 segundos.
Otro enfoque, seguido por ejemplo por las referencias [13] y [14], consiste en calcular las contribuciones a la calidad relacionada con la imagen debidas a la codificación y la pérdida de paquetes por cada fotograma de vídeo. A continuación, el conjunto obtenido de valores de calidad de fotogramas de vídeo se agrega a lo largo de la ventana de medición. Una manera sencilla de agregar los valores de calidad de vídeo por cada fotograma es calculando la media. En las referencias [17-19] se describen maneras más sofisticadas.
A continuación, se calculan Icod, Itra y Qv por cada ventana de medición. Además, tanto lcod como Itra se calculan usando una función de la manera siguiente, a la cual se hará referencia en adelante como "función de impacto":
imagen2
en la que Imp � {Icod, Itra}, m, n y u son números enteros positivos, fIF es una función de impacto que depende del índice (superior) IF que denota el factor de deterioro respectivo, y en el que
imagen3
denota un primer conjunto de parámetros que se refiere a las características técnicas de codificación o de la red, tales como la tasa de bits, el número de fotogramas por segundo o el porcentaje de pérdida de paquetes, y
imagen4
denota un segundo conjunto de parámetros, al cual sea referencia también en adelante como" parámetros dependientes del contenido", que se derivan de los parámetros GOP/complejidad de escena definidos más
4 10
15
20
25
30
35
40
45 E12181015
12-12-2014
adelante, y
imagen5
denota un conjunto de coeficientes asociados a fIF. En adelante, el superíndice IF se suprimirá a veces en la notación de las cantidades, proporcionadas por las ecuaciones (4) a (6) en aras de la simplicidad.
Aquí, pIF y qIF se calculan preferiblemente para cada ventana de medición, en el que una ventana de medición tiene típicamente una duración de 10 a 20 segundos. En adelante, el superíndice IF será denominado según el nombre respectivo de la variable usada para la cuantificación o medición de un factor de deterioro específico, es decir, por ejemplo, Icod o ltra. Además, la aplicación de la ecuación (3) no se limita a los casos de los factores de deterioro Icod e ltra; más bien, la ecuación (3) puede ser aplicada también a otros tipos de degradaciones de calidad, es decir, a otros factores de deterioro.
Cabe señalar que una función de impacto según la ecuación (3) constituye un concepto general para la estimación de la contribución relacionada con el contenido a los factores de deterioro. En otras palabras, la ecuación (3) no sólo es aplicable a diferentes factores de deterioro, tales como Icod o ltra, sino que también se aplica a diversos modelos (basados en parámetros) para estimar la degradación de la calidad debida a un factor de deterioro específico, por ejemplo, Icod. Usando los parámetros dependientes de contenido, descritos por un conjunto q IF en una realización específica de la ecuación (3) adaptada para un procedimiento de estimación elegido para un factor de deterioro, la estimación de este factor de deterioro es controlada mediante los parámetros dependientes del contenido. Cuando se realiza la última etapa de cálculo de una estimación de la calidad "global" Qv percibida de la señal de vídeo, por ejemplo, empleando las ecuaciones (1) o (2) o cualquier otro procedimiento basado en estimaciones de uno o más factores de deterioro, la estimación de Qv es controlada también por los parámetros dependientes del contenido. De esta manera, el procedimiento según la invención permite la consideración precisa, indicada anteriormente, del impacto sobre la calidad debido al contenido de la señal de vídeo.
Los parámetros GOP/complejidad de la escena usados para calcular los parámetros q IF dependientes de contenido son, todos ellos, parámetros que requieren el conocimiento del tipo y del tamaño (por ejemplo en bytes) de los fotogramas de vídeo. Normalmente, estos parámetros son calculados, aunque no necesariamente, por cada grupo de imagen (GOP) o escena de vídeo (SC), y los parámetros o la estimación de calidad resultante se agregan a continuación, sobre la ventana de medición.
Según la invención, pueden considerarse al menos los siguientes parámetros de GOP/complejidad de la escena:
• SIsc: tamaño medio de fotograma I para una escena sc determinada; en la realización preferida, preferiblemente, se ignora el primer fotograma I de la primera escena,
Sp
gop: tamaño medio de fotograma P para un gop GOP determinado,
SBgop: tamaño medio de referencia B (usado en caso de la codificación jerárquica) por cada GOP
Sbgop: Tamaño medio de los tamaños de fotograma b no de referencia por cada GOP,
Snol
gop: Tamaños medios de fotogramas P, B y b por cada GOP,
Blsc: tasa de bits de los fotogramas I calculados por cada escena,
BPsc: tasa de bits de los fotogramas P calculados por cada escena,
BBsc: tasa de bits de los fotogramas B calculados por cada escena,
Bbsc: tasa de bits de los fotogramas b calculados por cada escena,
Bnol
• sc: tasa de bits conjunta de los fotogramas P, B y b calculados por cada escena.
En los símbolos anteriores, el tipo de secuencia de fotogramas, es decir, I, P, B, b o noI, se indicada mediante un superíndice, que no debe ser confundido con un exponente.
La tasa de bits por escena de los fotogramas con el tipo de fotograma T (BTsc, donde T � {I, P, B, b, Nol}) se calcula como sigue:
10
15
20
25
30
35
40 E12181015
12-12-2014
imagen6
donde
ByTsc: es la cantidad total de bytes para un fotograma T para cada escena,
frT es el número de fotogramas por segundo para los fotogramas T, es decir, el número de fotogramas T por segundo,
nfrT es el número de fotogramas T por segundo en la escena,
br es la tasa de bits global, en Mbit/s.
Como una alternativa, frT podría ser sustituido por el número de fotogramas por segundo fr global y frT por el número nfr general de fotogramas en la escena.
Además, las siguientes relaciones pueden ser consideradas como parámetros GOP/complejidad de la escena. Cada relación se calcula por cada GOP a partir de los parámetros GOP/complejidad de la escena, tal como se ha definido anteriormente:
SP/l
= SPgop / Slsc Sb/I
= Sbgop / SIsc Sb/P
= Sbgop / SPgop SnoI/I = Snol
gop / SIsc BP/I
= BPsc / BIsc Bb/I
= Bbsc / BIsc Bb/P
= Bbsc / BPsc BnoI/I = BnoI
sc / BIsc
También aquí, el superíndice de los símbolos de la parte izquierda y derecha de las ecuaciones debe entenderse como un índice superior.
Un aspecto de la invención se refiere a un procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:
(1a) extraer información a partir de la secuencia de bits de vídeo, que es capturada antes de su decodificación;
(1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, usando, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;
(1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);
en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.
Según el procedimiento de la invención, los parámetros GOP/complejidad de la escena pueden ser calculados por cada grupo de Imagen (GOP) o escena de vídeo.
Según una realización del procedimiento, cada una de las funciones de impacto usadas en la etapa (1b) depende además de:
las características técnicas de codificación o de red, por ejemplo la tasa de bits, el número de fotogramas por
10
15
20
25
30
35 E12181015
12-12-2014
segundo, el porcentaje de pérdida de paquetes o la proporción de pérdida en un GOP o escena; y /o los coeficientes asociados con la función de impacto. En una realización preferida de la invención, el conjunto de parámetros q dependientes del contenido se deriva a partir de al menos uno de los siguientes parámetros GOP/complejidad de la escena:
SIsc, que denota el tamaño medio de fotograma I por escena, en el que preferiblemente el primer fotograma I de la primera escena se ignora; SPgop, que denota el tamaño medio de fotograma P por cada GOP; SBgop, que denota los tamaños medios (de referencia) de fotograma B por cada GOP; Sbgop, que denota los tamaños medios de fotograma b no de referencia por cada GOP;
SnoI
gop, que denota los tamaños medios conjuntos de los fotogramas P, B y b por cada GOP; BIsc, que denota la tasa de bits de los fotogramas I calculada por cada escena; BPsc, que denota la tasa de bits de los fotogramas P calculada por cada escena; BBsc, que denota la tasa de bits de los fotogramas B calculada por cada escena; Bbsc, que denota la tasa de bits de los fotogramas b calculada por cada escena;
BnoI
sc, que denota la tasa de bits de los fotogramas P, B y b calculada por cada escena.
En una realización de la invención, el conjunto de parámetros q se deriva a partir de al menos uno de los parámetros GOP/complejidad de la escena
SP/l
= SPgop / Slsc Sb/I
= Sbgop / SIsc Sb/P
= Sbgop / SPgop SnoI/I = Snol
gop / SIsc BP/I
= BPsc / BIsc Bb/I
= Bbsc / BIsc Bb/P
= Bbsc / BPsc BnoI/I = BnoI
sc / BIsc
En una realización, se usa una función fIF de impacto.
Preferiblemente, la fa función fIF de impacto se usa para estimar el impacto sobre la calidad debido a los artefactos de compresión, que depende de un parámetro ql dependiente del contenido que es calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc de las escenas sc multiplicado por un coeficiente. El coeficiente puede ser proporcional al número nx de píxeles por fotograma de vídeo y el número fr de fotogramas de vídeo por segundo.
En una realización preferida del procedimiento de la invención, cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1.
En una realización, el parámetro ql dependiente del contenido viene determinado por
imagen7
E12181015
12-12-2014
En el caso de un conjunto de parámetros unidimensional (vector de parámetros), en adelante, el símbolo del único elemento del conjunto será identificado con el símbolo del conjunto en aras de la simplicidad. Por ejemplo, si el conjunto de parámetros dependientes del contenido tiene sólo un parámetro, es decir, q =(ql), se escribirá simplemente q = ql. De manera análoga, se establece p =(pl)= pl en el caso de un conjunto de parámetros unidimensional asociado con las características técnicas de codificación o de red.
En una realización del procedimiento de la invención, la función fIF de impacto que depende del parámetro q = ql dependiente del contenido viene determinada por
imagen8
en la que p = pl es preferiblemente un parámetro que describe el número de bits por píxel y viene determinado, más preferiblemente, por
imagen9
15
donde α =(α1, α2, α3, α4) es el conjunto de coeficientes asociados a la función de impacto.
En una realización del procedimiento de la invención, se usa una función fIF de impacto, preferiblemente para estimar el impacto sobre la calidad debido a los artefactos de transmisión, que depende de un conjunto de parámetros q =(q1, q2) dependientes del contenido, en el que cada componente qj con j � {1, 2} del conjunto se
20 obtiene mediante una suma ponderada de los parámetros βk,i dependiente de los parámetros GOP/complejidad de la escena, en el que, preferiblemente, la suma ponderada para cada j � {1, 2} se calcula según
imagen10
con pesos Rk,j. Los pesos pueden venir determinados por
imagen11
en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación del GOP de un evento de pérdida y ri denota la extensión espacial del evento de pérdida i. Según una realización preferida, se usa: en caso de un sector por fotograma,
imagen12
y en el caso de más de un sector por fotograma,
imagen13
10
15
20
25
30
35
40 E12181015
12-12-2014
afectados (TS) en el fotograma afectado, nip es el número de paquetes perdidos en el fotograma, nle es el número de eventos de pérdida en el fotograma y nsl es el número de sectores en el fotograma. El parámetro βk,1 puede depender del parámetro GOP/complejidad de la escena SnoI/I .
El parámetro βk,2 puede depender del parámetro GOP/complejidad de la escena Sb/P. Según una realización del procedimiento, los parámetros βk,1 cada k � {1, ..., v} se obtienen mediante las etapas siguientes:
= SnoI/I
(12a) establecer βk,1 ; (12b) en el caso βk,1 ≤ 0,5, establecer βk,1 a un valor 2x βk,1; (12c) en el caso βk,1 > 0.5, establecer βk,1 a un valor 1. Preferiblemente, los parámetros βk,2 para cada k � {1, ..., v} se obtienen como βk,2 = max(0, -Sb/P + 1). En una realización, la función fIF de impacto que depende del conjunto de parámetros q =(q1, q2) dependientes del
contenido es proporcionada por
imagen14
donde α =(α1, α2, α3, α4) es el conjunto de coeficientes asociados a la función de impacto.
Preferiblemente, p1 es un parámetro que describe el impacto sobre la calidad debido a los artefactos de compresión.
Preferiblemente, p2 es el número de GOPs en la ventana de medición o la duración de la ventana de medición.
En una realización del procedimiento de la invención, la señal de vídeo es al menos parte de una secuencia de datos no interactiva, preferiblemente un vídeo no interactivo o secuencia audiovisual, o al menos parte de una secuencia de datos interactiva, preferiblemente un vídeo interactivo o secuencia audiovisual.
En una realización, el procedimiento se combina con uno o más procedimientos para estimar el impacto sobre la percepción de la calidad de una señal de vídeo digital por otros deterioros diferentes a la compresión y/o transmisión, en el que la combinación se realiza preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.
En una realización, el procedimiento es combinado con uno o más de otros procedimientos para estimar la calidad de la percepción de un vídeo digital debido a la compresión y/o la transmisión, en el que la combinación es realizada preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.
Un aspecto de la invención se refiere a un procedimiento para supervisar la calidad de una señal de vídeo digital transmitida con las etapas de:
(18a) transmitir la señal de vídeo desde un servidor al cliente;
(18b) en el lado del cliente, ejecutar el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital según el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital tal como se ha descrito anteriormente;
(18c) transferir el resultado de la estimación de la etapa (18b) al servidor;
(18d) en el lado del servidor, supervisar la estimación de la calidad de la señal de vídeo transmitida; y
en el que el procedimiento comprende preferiblemente las etapas adicionales de:
(18e) analizar la calidad supervisada de la señal de vídeo transmitida, preferiblemente en función de los parámetros de transmisión; y opcionalmente
(18f) cambiar los parámetros de transmisión en base a la etapa de análisis (18e) con el propósito de aumentar
10
15
20
25
30
35
40
45 E12181015
12-12-2014
la calidad de la señal de vídeo transmitida.
Un aspecto de la invención se refiere a un aparato para estimar la calidad de percepción de una señal de vídeo digital, en el que el aparato comprende:
unos medios configurados para extraer información a partir de una secuencia de bits de vídeo capturada antes de la decodificación;
al menos un estimador de impacto;
un estimador de calidad configurado para estimar la calidad de percepción Qv de la señal de vídeo:
en el que el aparato está caracterizado por que cada uno de los estimadores de impacto está configurado para estimar el impacto sobre la calidad debido a un factor de deterioro por medio de una función de deterioro que acepta como entrada un conjunto de parámetros dependientes del contenido calculados a partir de un conjunto parámetros GOP/complejidad de la escena, en el que los parámetros de GOP/complejidad de la escena pueden derivarse a partir de la información de la cabecera del paquete y, de esta manera, están disponibles en el caso de secuencias de bits de vídeo codificado.
Preferiblemente, el aparato está configurado además para estimar la calidad de percepción de una señal de vídeo digital usando un procedimiento según una cualquiera de las realizaciones del procedimiento para estimar la calidad de percepción de una señal de vídeo digital, tal como se ha descrito anteriormente.
Un aspecto de la invención se refiere a un decodificador que se puede conectar a un receptor para recibir una señal de vídeo digital, en el que el decodificador comprende el aparato según la invención.
Un aspecto de la invención se refiere a un sistema para supervisar la calidad de una señal de vídeo digital transmitida, en el que el sistema comprende un servidor y un cliente, y el sistema está configurado para ejecutar el procedimiento para supervisar la calidad de una señal de vídeo digital transmitida según la invención, tal como se ha descrito anteriormente.
En una realización del sistema, el cliente está configurado como el aparato según la invención.
En una realización del sistema, el cliente comprende un aparato según la invención.
En una realización alternativa del sistema de la invención, el sistema comprende además el decodificador según la invención, en el que el decodificador está conectado al cliente.
Lista de figuras:
Fig. 1: Ilustración del cálculo de la ecuación (10) usada como un ejemplo para explicar el impacto sobre la calidad del contenido en el caso sin pérdidas. Véase el texto anterior para más detalles.
Fig. 2: Ilustración de las ecuaciones (17a) a (17c) usadas como un ejemplo para explicar el impacto sobre la calidad del contenido en caso de pérdida de paquetes. Véase el texto anterior para más detalles.
Fig. 3: Ilustración de la ecuación (18) usada como un ejemplo para explicar el impacto sobre la calidad del contenido en caso de pérdida de paquetes. Véase la descripción para más detalles.
Otros aspectos, características y ventajas serán evidentes a partir del resumen anterior, así como a partir de la descripción siguiente, incluyendo las figuras y las reivindicaciones.
Según la invención, el impacto sobre la complejidad del contenido tanto en el deterioro Icod de la calidad relacionado con la compresión como en el deterioro Itra de la calidad relacionado con la transmisión pueden estimarse usando el esquema descrito a continuación:
Caso sin pérdidas -Icod
Una realización de la invención se refiere a la inclusión de los parámetros de GOP /complejidad de la escena en la ecuación (3), en la que Imp = Icod, m = 1, n = 1, u = 4, y en el que Imp se obtiene haciendo que fIcod sea una función exponencial:
imagen15
E12181015
12-12-2014
imagen16
y, preferiblemente, pIcod 1 es el número medio de bits por píxel que viene determinado más preferiblemente por
imagen17
en la que nx y fr son el número de píxeles por fotograma de vídeo y el número de fotogramas de vídeo por segundo, respectivamente, Además, br es la tasa de bits de vídeo en Mbit/s.
En una realización preferida, qIcod 1 es una función del parámetro GOP/complejidad de la escena SIsc y se expresa como sigue:
imagen18
en la que nx y fr son el número de píxeles por fotograma de vídeo y el número de fotogramas de vídeo por segundo, 20 respectivamente, y Nsc el número de GOPs por escena. Para la escena que tiene el valor SIsc más bajo, wsc > 1, en el que preferiblemente wsc = 16, si no wsc = 1.
La Fig. 1 ilustra, como un ejemplo, el cálculo de la ecuación (10) con una secuencia de vídeo compuesta de dos escenas (se supone que la ventana de medición corresponde a la duración de esta secuencia de vídeo). El formato de la secuencia de vídeo es 1080p25. Como consecuencia, nx = 1920 x 1080 = 2.073.600 y fr = 25.
25 La primera escena (sc = 1) contiene dos GOPs (gop1 y gop2), es decir, N1 = 2, y su tamaño medio de fotograma I es SI1 = 0,1 (por ejemplo, en Megabytes).
La segunda escena (sc = 2) contiene tres GOPs (gop3 a gop5), es decir, N2 = 3, y su tamaño medio de fotograma I es SI2 = 0,3 (por ejemplo, en Megabytes).
El SIsc mínimo en la secuencia de vídeo es SI1. Como consecuencia,
imagen19
y
imagen20
Caso con pérdidas – Itra
Una realización de la invención se refiere a la inclusión de parámetros GOP/complejidad de la escena en la ecuación (3), en la que Imp = Itra, m = 2, n = 2, u = 3, y en la que Imp se obtiene haciendo que fItra sea una función logarítmica:
E12181015
12-12-2014
imagen21
Como un ejemplo del conjunto de coeficientes αItra en la ecuación (11), se tiene: 5
imagen22
Preferiblemente,
10 en la que v es el número de GOPs en la ventana de medición. De manera alternativa, v es la duración de la ventana de medición.
imagen23
Itra Itra
En la realización preferida, q1 y q2 se derivan a partir de los parámetros GOP/complejidad de la escena y se 15 obtienen por cada ventana de medición usando las relaciones siguientes:
imagen24
en la que v es el número de GOPs en la ventana de medición, y Rk,1 y Rk,2 son descriptores espacio-temporales de la pérdida calculada para cada GOP k, que se calculan como sigue:
imagen25
en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación en el GOP de un evento de pérdida i y ri denota la extensión espacial del evento de pérdida i, y en la que preferiblemente:
en caso de un sector por fotograma,
imagen26
y, en caso de más de un sector por fotograma,
imagen27
en la que np es el número de paquetes en el fotograma, nap es el número de paquetes en la secuencia de transporte (TS) afectada en el fotograma afectado (derivado usando cualquier procedimiento que implica la información del encabezado del paquete, tal como números de secuencia, marcas de tiempo, etc.), nlp es el número de paquetes perdidos en el fotograma, nle es el número de eventos de pérdida en el fotograma, y nsl es el número de sectores en el fotograma.
Cabe señalar que rk es xl_k/T_k de la ecuación (5) en la referencia [16]. De manera similar, ri de la ecuación (15) corresponde a xl_i de la ecuación (7c) en la referencia [16], y ri en la ecuación (16) corresponde a xl_i en la
10
15
20
25
30
35
40
45 E12181015
12-12-2014
ecuación (7) de la referencia [16]. Finalmente, la suma de βk,1 y βk,2 de las ecuaciones (12) y (13) corresponde al factor de corrección α1,k en la ecuación (9a) de la referencia [16]. Sin embargo, tal como se ha indicado anteriormente, no se propone ninguna solución para calcular este factor de corrección en caso de un vídeo codificado.
Además, los parámetros βk,1 y βk,2 se derivan a partir de los parámetros GOP/complejidad de la escena y se calculan para cada GOP k.
En una realización preferida, βk,1 se obtiene usando las etapas siguientes (véase la Fig. 2.):
= SnoI/I
(a)
establecer βk,1 ;
(b)
en el caso de βk,1 ≤ 0,5, establecer βk,1 a2x βk,1;
(c) en caso de βk,1 > 0,5, establecer βk,1 a 1. En una realización preferida, βk,2 se obtiene usando (véase la Fig. 3):
imagen28
Aunque la invención ha sido ilustrada y descrita en detalle en los dibujos y la descripción precedentes, dicha ilustración y dicha descripción deben ser consideradas como ilustrativas o ejemplares y no restrictivas. Se entenderá que las personas con conocimientos en la materia pueden realizar cambios y modificaciones dentro del alcance de las reivindicaciones siguientes. En particular, la presente invención abarca realizaciones adicionales con cualquier combinación de características procedentes de diferentes realizaciones descritas anteriormente y a continuación.
Además, en las reivindicaciones la palabra "comprende" no excluye otros elementos o etapas, y los artículos indefinidos "un" o "una" no excluyen una pluralidad. Una única unidad puede cumplir las funciones de varias características expuestas en las reivindicaciones. De manera particular, los términos "esencialmente", "sobre", "aproximadamente" y similares, en conexión con un atributo o un valor definen también exactamente el atributo o exactamente el valor, respectivamente. Cualquier signo de referencia en las reivindicaciones no debería interpretarse como limitativo del alcance.
Referencias:
[1] A. Takahashi, D. Hands y V. Barriac, "Standardization Activities in the ITU for a QoE Assessment of IPTV," en IEEE Communication Magazine, 2008.
[2] S. Winkler y P. Mohandas, "The Evolution of Vídeo Quality Measurement: From PSNR to Hybrid Metrics," in IEEE Trans. Broadcasting, 2008.
[3] A. Raake, M.N. Garcia, S. Moeller, J. Berger, F. Kling, P. List, J. Johann, y C. Heidemann, "T-V-MODEL: Parameter-based prediction of IPTV quality," en Proc. of ICASSP, 2008.
[4] O. Verscheure, P. Frossard y M. Hamdi, "User-oriented QoS analysis in MPEG-2 vídeo delivery," en Real-Time Imaging, 1999.
[5] K. Yamagishi y T. Hayashi, "Parametric Packet-Layer Model forMonitoring Vídeo Quality of IPTV Services," en Proc. of ICC, 2008.
[6] M-N. Garcia y A. Raake, "Parametric Packet-Layer Vídeo Quality Model for IPTV," en Proc. of ISSPA, 2010.
[7] S. Pechard, D. Barba y P. Le Callet, "Vídeo quality model based on a spatio-temporal features extraction for H.264-coded HDTV sequences," en Proc. of PCS, 2007.
[8] Y. Liu, R. Kurceren y U. Budhia, "Vídeo classification for vídeo quality prediction," en Journal of Zhejiang University Science A, 2006.
[9] M. Ries, C. Crespi, O. Nemethova y M. Rupp, "Content-based Vídeo Quality Estimation for H.264/AVC Vídeo Streaming," en Proc, of Wireless Communications and Networking Conference, 2007.
[10] A. Khan, L. Sun. y E. Ifeachor, "Content clustering based vídeo quality prediction model for MPEG4 vídeo streaming over wireless networks," en Proc. of ICC, 2009.
E12181015
12-12-2014
[11] Garcia, M.-N., Schleicher, R. y Raake, A. "Towards A Content-Based Parametric Vídeo Quality Model For IPTV", in Proc. Of VPQM, 2010.
[12] Guangtao Zhai et al, Cross-dimensional Quality Assessment for Low Bitrate Vídeo, en IEEE Transactions on Multimedia, 2008.
5 [13a] Clark, A. (Telchemy), WO 2009012297 (Al), Method and system for content estimation of packet vídeo streams.
[13b] Clark, A. (Telchemy), US 2009/004114 (Al), Method and system for viewer quality estimation of packet vídeo streams.
[14] Liao, Ning et al, "A packet-layer vídeo quality assessment model with spatiotemporal complexity estimation", 10 EURASIP Journal on Image and Vídeo Processing 2011, 2011:5 (22 de Agosto 2011)
[15] Garcia, M.-N., Schleicher, R. y Raake, A. (2010). Towards A Content-Based Parametric Vídeo Quality Model For IPTV. Fifth International Workshop on Vídeo Processing and Quality Metrics for Consumer Electronics (VPQM 2010). Intel, 20-25.
[16] WO 2012/076202 ("Method and apparatus for assessing the quality of a vídeo signal during encoding and 15 transmission of the vídeo signal")
[17] Rosenbluth, J. H. (AT&T) "ITU-T Delayed Contribution D.064: Testing the quality of connections having time varying impairments", 1998
[18] Gros, L., Chateau, N. "Instantaneous and Overall Judgements for Time-Varying Speech Quality: Assessments and Relationships, Acta Acustica, Volumen 87, Número 3, Mayo/Junio 2001, pp. 367-377(11)
20 [19] Weiss, B., Moller, S., Raake, A., Berger, J., Ullmann, R. (2009). Modeling Conversational Quality for Timevarying Transmission Characteristics, Acta Acustica united with Acustica 95, 1140-1151.
[20] WO/2012/013655 ("Method for estimation of the type of the group of picture structure of a plurality of vídeo frames in a vídeo stream")
[21] PCT/EP2011/067741 (Argyropoulos, S. et al, "Scene change detection for perceptual quality evaluation in vídeo
25 sequences"). PCT/EP201 1/067741 es un documento cuya fecha de presentación es anterior a la fecha de presentación de la presente solicitud, pero que no se publicó antes de la fecha de presentación de la presente solicitud.

Claims (24)

  1. 5
    10
    15
    20
    25
    30
    35
    40 E12181015
    12-12-2014
    REIVINDICACIONES
    1. Procedimiento para estimar la calidad de percepción de una señal de vídeo digital, en el que el procedimiento comprende las etapas de:
    (1a) extraer información de la secuencia de bits de vídeo, que es capturada antes de su decodificación;
    (1b) obtener una estimación o estimaciones de uno o más factores de deterioro IF, para cada una de las estimaciones, una función de impacto adaptada para el factor de deterioro respectivo;
    (1c) estimar la calidad percibida de la señal de vídeo digital usando la estimación o las estimaciones obtenidas en la etapa (1b);
    en el que el procedimiento está caracterizado por que cada una de las funciones de impacto usadas en la etapa (1b) acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto de parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden ser derivados a partir de la información de la cabecera del paquete y están disponibles en caso de secuencias de bits de vídeo codificadas.
    en el que el conjunto de parámetros q dependientes del contenido se deriva al menos a partir de un parámetro GOP/complejidad de la escena SIsc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;
    en el que para estimar al menos uno de los factores de deterioro, preferiblemente, el impacto sobre la calidad debido a los artefactos de la compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido calculado a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc sobre las escenas sc multiplicado por un coeficiente, y
    en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por cada escena y wsc es un factor de ponderación adicional, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1
  2. 2.
    Procedimiento según la reivindicación 1, en el que:
    el coeficiente es proporcional al número de píxeles por fotograma de vídeo nx y el número fr de fotogramas de vídeo por segundo.
  3. 3.
    Procedimiento según la reivindicación 2, en el que el parámetro q1 dependiente del contenido viene determinado por
  4. 4.
    Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que los parámetros GOP/complejidad de la escena se calculan por cada grupo de imagen (GOP) o por cada escena de vídeo.
  5. 5.
    Procedimiento según una cualquiera de las reivindicaciones 1 a 4, en el que cada una de las funciones de impacto usadas en la etapa (1b) depende además de:
    imagen1
    características técnicas de codificación o de red, por ejemplo, la tasa de bits, el número de fotogramas por segundo, el porcentaje de pérdida de paquetes o la proporción de pérdida en un GOP o una escena, y/o
    coeficientes asociados con la función de impacto.
  6. 6. Procedimiento según una cualquiera de las reivindicaciones 1 a 5, en el que el conjunto de parámetros q dependientes del contenido es derivado además desde al menos uno de los parámetros GOP/complejidad de la escena siguientes:
    SPgop, que denota el tamaño medio de fotograma P por cada GOP;
    5
    10
    15
    20
    25
    30
    35 E12181015
    12-12-2014
    SBgop, que denota los tamaños medios (de referencia) de fotograma B por cada GOP; Sbgop, que denota los tamaños medios de fotograma b no de referencia por cada GOP; SnoI
    gop, que denota los tamaños medios conjuntos de los fotogramas P, B y b por cada GOP;
    BIsc, que denota la tasa de bits de los fotogramas I calculada por cada escena;
    BPsc, que denota la tasa de bits de los fotogramas P calculada por cada escena;
    BBsc, que denota la tasa de bits de los fotogramas B calculada por cada escena;
    Bbsc, que denota la tasa de bits de los fotogramas b calculada por cada escena;
    BnoI
    sc, que denota la tasa de bits de los fotogramas P, B y b calculada por cada escena.
  7. 7. Procedimiento según la reivindicación 6, en el que el conjunto q de parámetros es derivado a partir de al menos uno de los parámetros GOP/complejidad de la escena siguientes:
    SP/l
    = SPgop / Slsc Sb/I
    = Sbgop / SIsc Sb/P
    = Sbgop / SPgop SnoI/I = Snol
    gop / SIsc BP/I= BP
    sc / BIsc Bb/I
    = Bbsc / BIsc Bb/P
    = Bbsc / BPsc BnoI/I = BnoI
    sc / BIsc
  8. 8. Procedimiento según una cualquiera de las reivindicaciones 1 a 7, en el que la función fIF de impacto que depende del parámetro q = q1 dependiente del contenido viene determinada por
    imagen2
    en la que, preferiblemente, p = p1 es un parámetro que describe el número de bits por píxel y viene determinado, más preferiblemente, por
    imagen3
    donde α =(α1, α2, α3, α4) os es el conjunto de coeficientes asociados a la función de impacto.
  9. 9. Procedimiento según una cualquiera de las reivindicaciones 1 a 8, en el que se usa una función fIF de impacto, preferiblemente para estimar el impacto sobre la calidad debido a los artefactos de transmisión, que depende de un conjunto de parámetros dependientes del contenido q =(q1, q2), en el que cada componente qj con j � {1, 2} del conjunto que se obtiene mediante una suma ponderada de los parámetros βk,i dependientes de los parámetros GOP/complejidad de la escena, en el que la suma ponderada para cada j � {1, 2} es calcula preferiblemente según
    imagen4
    con pesos Rk,j.
  10. 10. Procedimiento según la reivindicación 9, en el que las ponderaciones vienen determinadas por
    E12181015
    12-12-2014
    imagen5
    en la que Tk es la duración de la pérdida de GOP k, ti es la ubicación en el GOP de un evento de pérdida i y ri denota la extensión espacial del evento de pérdida i, y en el que preferiblemente:
    en caso de un sector por fotograma,
    imagen6
    en el caso de más de un sector por fotograma,
    imagen7
    donde np es el número de paquetes en el fotograma, nap es el número de paquetes de secuencias de transporte afectados (TS) en el fotograma afectado, nip es el número de paquetes perdidos en el fotograma, nle es el número 15 de eventos de pérdida en el fotograma y nsl es el número de sectores en el fotograma
  11. 11.
    Procedimiento según las reivindicaciones 9 o 10, en el que: el parámetro βk,1 depende del parámetro GOP/complejidad de la escena SnoI/I; y/o el parámetro βk,2 depende del parámetro GOP/complejidad de la escena Sb/P.
  12. 12.
    Procedimiento según una cualquiera de las reivindicaciones 9 a 11, en el que los parámetros βk,1 para cada k �
    20 {1, ..., v} se obtienen mediante las etapas siguientes: = SnoI/I
    (12a) establecer βk,1 ; (12b) en el caso βk,1 ≤ 0,5, establecer βk,1 a un valor 2x βk,1; (12c) en el caso βk,1 > 0.5, establecer βk,1 a un valor 1.
  13. 13. Procedimiento según una cualquiera de las reivindicaciones 9 a 12, en el que los parámetros βk,2 para cada k � 25 {1, ..., v} se obtienen como βk,2 = max(0, -Sb/P + 1).
  14. 14. Procedimiento según una cualquiera de las reivindicaciones 9 a 13, en el que la función fIF de impacto dependiente del conjunto de parámetros q =(q1, q2) dependientes del contenido viene determinada por
    imagen8
    30
    en el que, preferiblemente, p1 es un parámetro que describe el impacto sobre la calidad debido a los artefactos de compresión, preferiblemente, p2 es el número de GOPs en la ventana de medición o la duración de la ventana de medición, y α =(α1, α2, α3) es el conjunto de coeficientes asociados con la función de impacto.
  15. 15. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que la señal de vídeo es al menos
    35 parte de una secuencia de datos no interactiva, preferiblemente una secuencia de vídeo o audiovisual no interactiva, o al menos parte de una secuencia de datos interactiva, preferiblemente una secuencia de vídeo o audiovisual interactiva.
  16. 16. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos para estimar el impacto sobre la calidad de percepción de una señal de vídeo digital
    40 por otros deterioros diferentes a la compresión y/o la transmisión, en el que la combinación es realizada preferiblemente usando al menos una función lineal y/o al menos una función multiplicativa de los procedimiento a
    5
    10
    15
    20
    25
    30
    35
    40
    45 E12181015
    12-12-2014
    combinar.
  17. 17.
    Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento se combina con uno o más procedimientos diferentes para estimar la calidad de la percepción de un vídeo digital debida a la compresión y/o la transmisión, en el que la combinación se realiza, preferiblemente, usando al menos una función lineal y/o al menos una función multiplicativa de los procedimientos a combinar.
  18. 18.
    Procedimiento para supervisar la calidad de una señal de vídeo digital transmitida con las etapas de:
    (18a) transmitir la señal de vídeo desde un servidor al cliente;
    (18b) en el lado del cliente, ejecutar el procedimiento para estimar la calidad de la percepción de una señal de vídeo digital según una cualquiera de las reivindicaciones 1 a 17;
    (18c) transferir el resultado de la estimación de la etapa (18b) al servidor;
    (18d) en el lado del servidor, supervisar la estimación de la calidad de la señal de vídeo transmitida; y
    en el que el procedimiento comprende preferiblemente las etapas adicionales de:
    (18e) analizar la calidad supervisada de la señal de vídeo transmitida, preferiblemente dependiendo de los parámetros de transmisión; y opcionalmente
    (18f) cambiar los parámetros de transmisión en base al análisis de la etapa (18e) con el propósito de aumentar la calidad de la señal de vídeo transmitida.
  19. 19. Aparato para estimar la calidad de la percepción de una señal de vídeo digital, en el que el aparato comprende:
    unos medios configurados para extraer información desde una secuencia de bits de vídeo capturada antes de la decodificación;
    al menos un estimador de impacto;
    un estimador de calidad configurado para estimar la calidad de percepción Qv de la señal de vídeo:
    en el que el aparato está caracterizado por que cada uno de los estimadores de impacto está configurado para estimar el impacto sobre la calidad debido a un factor de deterioro por medio de una función de deterioro que acepta como entrada un conjunto de parámetros q dependientes del contenido calculados a partir de un conjunto parámetros GOP/complejidad de la escena, en el que los parámetros GOP/complejidad de la escena pueden derivarse a partir de la información de la cabecera del paquete y, de esta manera, están disponibles en el caso de secuencias de bits de vídeo codificado;
    en el que el conjunto de parámetros q dependientes del contenido es derivado al menos a partir de un parámetro GOP/ complejidad de la escena SIsc, que denota el tamaño medio de fotograma I por cada escena, en el que, preferiblemente, el primer fotograma I de la primera escena se ignora;
    en el que para estimar al menos uno de los factores de deterioro, preferiblemente el impacto sobre la calidad debido a los artefactos de compresión, se usa una función fIF de impacto que depende de un parámetro q1 dependiente del contenido que se calcula a partir de la inversa de la media ponderada del parámetro GOP/complejidad de la escena SIsc a través de las escenas sc multiplicado por un coeficiente; y
    en el que cada escena sc tiene un peso de wsc x Nsc, donde Nsc es el número de GOPs por escena y wsc es un factor de ponderación, en el que para las escenas que tienen el valor SIsc más bajo: wsc se establece a un valor mayor que 1, por ejemplo wsc = 16, y para el resto de las escenas: wsc se establece a un valor igual a 1.
  20. 20.
    Aparato según la reivindicación 19, que además está configurado para estimar la calidad de percepción de una señal de vídeo digital usando un procedimiento según una cualquiera de las reivindicaciones 2 a 17.
  21. 21.
    Decodificador conectable a un receptor para recibir una señal de vídeo digital, en el que el decodificador comprende el aparato según las reivindicaciones 19 o 20.
  22. 22.
    Sistema para supervisar la calidad de una señal de vídeo digital transmitida, en el que el sistema comprende un servidor y un cliente, y el sistema está configurado para ejecutar el procedimiento según la reivindicación 18.
  23. 23.
    Sistema según la reivindicación 22, en el que:
    el cliente está configurado como el aparato según la reivindicación 19 o 20; y /o 18
    E12181015
    12-12-2014
    el cliente comprende un aparato según la reivindicación 19 o 20.
  24. 24. Sistema según la reivindicación 22, que comprende además el decodificador según la reivindicación 21, en el que el decodificador está conectado al cliente.
ES12181015.4T 2012-08-20 2012-08-20 Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo Active ES2526080T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP12181015.4A EP2701397B1 (en) 2012-08-20 2012-08-20 Content-dependent video quality model for video streaming services

Publications (1)

Publication Number Publication Date
ES2526080T3 true ES2526080T3 (es) 2015-01-05

Family

ID=48986090

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12181015.4T Active ES2526080T3 (es) 2012-08-20 2012-08-20 Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo

Country Status (9)

Country Link
US (1) US9319672B2 (es)
EP (1) EP2701397B1 (es)
JP (1) JP6328637B2 (es)
KR (1) KR102059222B1 (es)
ES (1) ES2526080T3 (es)
HR (1) HRP20141060T1 (es)
PL (1) PL2701397T3 (es)
PT (1) PT2701397E (es)
WO (1) WO2014029561A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150163273A1 (en) * 2011-09-29 2015-06-11 Avvasi Inc. Media bit rate estimation based on segment playback duration and segment data length
US20150163271A1 (en) * 2011-12-22 2015-06-11 Telefonaktiebolaget L M Ericsson (Publ) Apparatus and method for monitoring performance in a communications network
CN103634594B (zh) 2012-08-21 2015-04-29 华为技术有限公司 一种获得视频编码压缩质量的方法及装置
US10021402B2 (en) * 2015-12-16 2018-07-10 Dialogic Corporation Estimation of video quality of experience on media servers
EP3291556A1 (en) * 2016-08-30 2018-03-07 Deutsche Telekom AG Method and apparatus for determining the perceptual video quality of a chunk of multimedia content
EP3439308A1 (en) * 2017-07-31 2019-02-06 Zhilabs S.L. Determination of qoe in encrypted video streams using supervised learning
US11245741B2 (en) 2020-04-09 2022-02-08 Qualcomm Incorporated Video aware multiplexing for wireless communication
US11831933B2 (en) 2020-04-09 2023-11-28 Qualcomm Incorporated Video aware transmission and processing
US11575910B2 (en) * 2020-04-09 2023-02-07 Qualcomm Incorporated Video aware transmission and multiple input multiple output layer processing
CN113542849B (zh) * 2021-07-06 2023-06-30 腾讯科技(深圳)有限公司 视频数据处理方法及装置、电子设备、存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4514155B2 (ja) * 2005-03-04 2010-07-28 日本電信電話株式会社 映像品質評価装置、方法およびプログラム
US20090004114A1 (en) 2005-12-08 2009-01-01 Koninklijke Philips Electronics N. V. System and Method for Monitoring in Vivo Drug Release Using Overhauser-Enhanced Nmr
EP2206303B1 (en) * 2007-07-16 2013-03-06 Telchemy, Incorporated Method and system for viewer quality estimation of packet video streams
JP4796019B2 (ja) * 2007-08-08 2011-10-19 日本電信電話株式会社 映像品質推定装置、方法、およびプログラム
JP5107971B2 (ja) * 2009-06-29 2012-12-26 日本電信電話株式会社 ユーザ体感品質推定システムおよび方法
JP5390369B2 (ja) * 2009-12-17 2014-01-15 日本電信電話株式会社 映像品質推定装置および方法、符号化ビットレート推定装置および方法、並びにプログラム
US9288071B2 (en) * 2010-04-30 2016-03-15 Thomson Licensing Method and apparatus for assessing quality of video stream
PT2413535E (pt) 2010-07-30 2013-01-25 Deutsche Telekom Ag Método para estimar o tipo da estrutura do grupo de imagens de uma pluralidade de fotogramas de vídeo numa sequência de vídeo
US9232216B2 (en) 2010-12-10 2016-01-05 Deutsche Telekom Ag Method and apparatus for assessing the quality of a video signal during encoding and transmission of the video signal
JP5957532B2 (ja) 2011-10-11 2016-07-27 テレフオンアクチーボラゲット エルエム エリクソン(パブル) ビデオシーケンスにおける知覚品質評価のためのシーン変化検出

Also Published As

Publication number Publication date
KR20150045958A (ko) 2015-04-29
PT2701397E (pt) 2014-12-12
US20150138373A1 (en) 2015-05-21
US9319672B2 (en) 2016-04-19
WO2014029561A1 (en) 2014-02-27
EP2701397A1 (en) 2014-02-26
HRP20141060T1 (hr) 2014-12-19
JP2015533269A (ja) 2015-11-19
PL2701397T3 (pl) 2015-03-31
EP2701397B1 (en) 2014-10-08
KR102059222B1 (ko) 2019-12-24
CN104488265A (zh) 2015-04-01
JP6328637B2 (ja) 2018-05-23

Similar Documents

Publication Publication Date Title
ES2526080T3 (es) Modelo de calidad de vídeo dependiente del contenido para servicios de transmisión de vídeo
JP5670551B2 (ja) ビデオストリームの品質を評価する方法と装置
EP2649801B1 (en) Method and apparatus for objective video quality assessment based on continuous estimates of packet loss visibility
US20070280129A1 (en) System and method for calculating packet loss metric for no-reference video quality assessment
JP5882320B2 (ja) 映像信号の符号化または圧縮の間の、映像信号の品質を評価するための方法および装置
Nur Yilmaz A no reference depth perception assessment metric for 3D video
Usman et al. A no reference method for detection of dropped video frames in live video streaming
EP2954677B1 (en) Method and apparatus for context-based video quality assessment
WO2018041892A1 (en) Method and apparatus for determining the perceptual video quality of a chunk of multimedia content
Shi et al. A user-perceived video quality assessment metric using inter-frame redundancy
Cheon et al. Quality assessment of mobile videos
Wang et al. Video quality assessment for IPTV services: A survey
CN104488265B (zh) 用于视频流服务的内容相关的视频质量模型
US9894351B2 (en) Assessing packet loss visibility in video
Pace et al. Fast and accurate video PQoS estimation over wireless networks
Lukic et al. Content Based Video Quality Assessment Platform