ES2903550T3

ES2903550T3 - Estimación de la calidad de una transmisión continua multimedia adaptativa

Info

Publication number: ES2903550T3
Application number: ES17742379T
Authority: ES
Inventors: Tomas Lundberg; Junaid Shaikh; Jing Fu; Gunnar Heikkilä; David Lindero
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2016-06-29
Filing date: 2017-06-29
Publication date: 2022-04-04
Anticipated expiration: 2037-06-29
Also published as: EP3479579A1; US10708636B2; US11463742B2; KR20200123273A; US20200322654A1; KR102170046B1; WO2018002234A1; KR20190010659A; US20190124375A1; EP3479579B1; KR102417732B1; JP6952061B2; JP2019526190A

Abstract

Un método, realizado por un estimador de Puntuación Media de Opinión, MOS, (100), para predecir una MOS de sesión multimedia, en el que la sesión multimedia comprende una sesión de video y una sesión de audio, en el que la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y en el que la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en el que la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el método: - generar características de calidad audiovisual (S1) a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual: - un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio; - una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia; - un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como: donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y - un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual; - generar (S2) características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón; - estimar (S3) una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.

Description

DESCRIPCIÓN

Estimación de la calidad de una transmisión continua multimedia adaptativa

Campo técnico

Esta invención se refiere a un método, un estimador MOS, un programa informático y un producto de programa informático para predecir la MOS (Puntuación Media de Opinión) de una sesión multimedia.

Antecedentes

La transmisión continua de medios es más popular que nunca, ya que tanto los consumidores como los usuarios empresariales aumentan el consumo de contenidos. _Esta se utiliza en redes sociales tales como YouTube, Twitter y Facebook y, por supuesto, también por los proveedores de servicios de vídeo a la carta, tal como Netflix. Según algunos informes, Netflix y YouTube juntos representan la mitad del tráfico pico de Internet en América del Norte. Además, se prevé que el número de hogares con suscripción de vídeo a la carta alcance los 306 millones en 200 países en 2020.

Cuando la capacidad de transmisión en una red fluctúa, por ejemplo para una conexión inalámbrica, el reproductor de medios a menudo puede seleccionar adaptar la tasa de bits, de modo que el video se pueda seguir suministrando, aunque a veces con peor calidad (menor tasa de bits, menor resolución, etc.). En la figura 1A se muestra un ejemplo para un video de 60 segundos, donde la altura del segmento representa la tasa de bits y cada segmento tiene una duración de 5 segundos. En casi todos los casos, la calidad variará de forma correspondiente, es decir, una tasa de bits más alta dará una calidad más alta y una tasa de bits más baja dará una calidad más baja. Por tanto, es de vital importancia para los proveedores estimar la Calidad de Experiencia (QoE) de los usuarios, que es fundamentalmente la opinión subjetiva de la calidad de un servicio. Para este propósito, se puede utilizar la prueba subjetiva, en la que se pide a un panel de espectadores que evalúe la calidad percibida de la transmisión continua de medios. Normalmente, la calidad se da en una escala de 1 ("mala") a 5 ("excelente"), y a continuación se promedia entre todos los espectadores, formando una puntuación media de opinión (MOS). Sin embargo, estas pruebas subjetivas son costosas, tanto en tiempo como en dinero y, para evitarlo, se han desarrollado métodos objetivos de estimación de QoE ("modelos de calidad objetivos").

La puntuación media de opinión (MOS) es una medida de la opinión subjetiva de los usuarios sobre el rendimiento de un servicio o aplicación. Se ha utilizado ampliamente para evaluar la calidad de las aplicaciones multimedia. La Recomendación ITU-T P. 800 ha estandarizado el uso de MOS en una escala de Clasificación de Categoría Absoluta (ACR) de 5 puntos para la evaluación de las secuencias de prueba audiovisuales. La escala ACR varía de 5 (Excelente) a 1 (Malo). Este método es particularmente relevante en escenarios donde a un usuario se le presenta una secuencia de prueba a la vez y a continuación se le pide que la califique.

Normalmente se utilizan diferentes modelos de calidad objetivos para audio y video. Los modelos estiman la degradación de la calidad debido a la propia codificación, teniendo en cuenta parámetros como la tasa de bits (audio y video), frecuencia de muestreo (audio), número de canales (audio), resolución (video), velocidad de tramas (video), GOP tamaño (video, un parámetro relacionado con la codificación de video), etc. La salida del modelo de calidad de audio o de video para una sesión completa (como en la imagen de arriba) es típicamente una lista de puntuaciones MOS objetivas, donde cada puntuación representa la calidad de un segmento de medios individual (es decir, cada puntuación representa la calidad durante 5 segundos en la figura anterior). En la recomendación ITU-T P.1201 se pueden encontrar ejemplos de modelos de calidad de codificación de audio y de video. La Recomendación ITU-T G.1071 proporciona modelos algorítmicos para la planificación de redes de servicios de vídeo basados en IP. Liu et al. proponen un modelo de obtención y validación de la experiencia de usuario , para la transmisión continua de video DASH, en [1].

Cuando se crean, los modelos de calidad de audio y de video se entrenan en un conjunto de pruebas subjetivas. Esto se consigue de la siguiente manera: se varía un número específico de parámetros y se producen clips multimedia utilizando estos parámetros. A continuación, estos clips son calificados por espectadores durante una prueba subjetiva, y a continuación los modelos de calidad se hacen para que coincidan lo más posible (en cierto sentido) con los resultados de las pruebas subjetivas.

Por lo general, los modelos se entrenan en segmentos de señal más cortos, generalmente alrededor de 5 a 10 segundos, donde la calidad de los medios es más o menos constante durante el clip. Esto significa que, en principio, los modelos solo proporcionan resultados precisos cuando reciben segmentos de duraciones correspondientes y cuando no hay variaciones importantes de calidad. Para obtener una puntuación objetiva para un clip multimedia que sea mucho más largo que esto, es necesario un modelo de agregación. Debido al procesamiento de la percepción humana no lineal, sencillamente no es posible, por ejemplo, promediar las puntuaciones de los segmentos individuales.

Un modelo de agregación también combina las puntuaciones de calidad del modelo de audio y video en puntuaciones de medios combinadas, que representan la percepción total de los medios. Otra tarea del modelo de agregación es tener en cuenta degradaciones debidas al almacenamiento en memoria tampón. El almacenamiento en memoria tampón se produce cuando la velocidad de transmisión en la red no es lo suficientemente alta como para que se consuman más datos en el reproductor de medios que los que entrega la red. Esto provocará "huecos" en la reproducción de medios, durante los que el reproductor de medios llena su memoria tampón de datos, tal como se ejemplifica en la figura 1B. Por consiguiente, el modelo de agregación al final tiene que tener en cuenta ambos efectos, tanto una calidad de audio y de video intrínseca variable, como las degradaciones debidas a almacenamientos en memoria tampón, tal como en el ejemplo más complejo que se muestra en la figura 1C.

El almacenamiento en memoria tampón puede ser un almacenamiento inicial en memoria tampón (antes de que se presente cualquier medio al usuario) o posibles realmacenamientos en memoria tampón durante la reproducción. Compendio

Los modelos de agregación de memoria tampón existentes, por ejemplo como en ITU-T P.1201, hasta ahora se han limitado a duraciones de sesión de hasta un minuto, lo que es demasiado corto para una sesión de video típica, por ejemplo YouTube. Con secuencias más largas, los efectos de la memoria humana también comienzan a notarse, lo que significa que las personas recuerdan menos de lo que vieron más atrás en el tiempo y, por lo tanto, califican principalmente la calidad de video después de las últimas partes. Esto no se contempla en los modelos existentes. Para imitar con precisión el efecto total de las adaptaciones de calidad, diferentes resoluciones, almacenamiento en memoria tampón y tiempos de sesión más largos, se necesita un modelo más complejo.

Es un objetivo mejorar la predicción de las puntuaciones medias de opinión.

Un primer aspecto de las realizaciones define un método, realizado por un estimador de Puntuación Media de Opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas. Un segundo aspecto de las realizaciones define un estimador de Puntuación Media de Opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas.

Un tercer aspecto de las realizaciones define un programa informático para un estimador de puntuación media de opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas. Un cuarto aspecto de las realizaciones define un producto de programa informático que comprende medios legibles por ordenador y un programa informático según el tercer aspecto, almacenado en los medios legibles por ordenador. Ventajosamente, al menos algunas de las realizaciones proporcionan un estimador MOS que maneja sesiones de video tanto cortas como largas, y proporciona una puntuación MOS más precisa. El estimador MOS según por lo menos algunas de las realizaciones es relativamente poco complejo en términos de potencia computacional y se puede implementar fácilmente en todos los entornos.

Cabe señalar que cualquier característica del primer, segundo, tercer y cuarto aspectos puede aplicarse a cualquier otro aspecto, cuando sea apropiado. Asimismo, cualquier ventaja del primer aspecto puede aplicarse igualmente al segundo, tercer y cuarto aspecto respectivamente, y viceversa. Otros objetivos, características y ventajas de las realizaciones adjuntas resultarán evidentes a partir de la siguiente descripción detallada, de las reivindicaciones dependientes adjuntas y de los dibujos.

En general, todos los términos usados en las reivindicaciones deben interpretarse de acuerdo con su significado ordinario en el campo técnico, a menos que se defina explícitamente lo contrario en el presente documento. Todas las referencias a "un/una/el/la elemento, aparato, componente, medio, etapa, etc." deben interpretarse abiertamente como una referencia a al menos una instancia del elemento, aparato, componente, medio, etapa, etc., a menos que se indique explícitamente lo contrario. Las etapas de cualquier método divulgado en este documento no tienen que realizarse en el orden exacto divulgado, a menos que se indique explícitamente.

Breve descripción de los dibujos

La invención se describe a continuación, a modo de ejemplo, haciendo referencia a los dibujos adjuntos, en los que: Las figuras 1A-C son gráficos esquemáticos que ilustran el almacenamiento en memoria tampón y la tasa de bits a lo largo del tiempo.

La figura 2 ilustra las etapas realizadas por un estimador MOS según las realizaciones de la presente invención. La figura 3 ilustra el factor de ponderación en función de una edad de la muestra según las realizaciones de la presente invención.

La figura 4 muestra un impacto del almacenamiento inicial en memoria tampón en función de la duración del almacenamiento inicial en memoria tampón según las realizaciones de la presente invención.

La figura 5 muestra un impacto del factor de olvido en función del tiempo, desde el tiempo de inicio de la sesión multimedia, según las realizaciones de la presente invención.

La figura 6 ilustra un impacto de la duración del realmacenamiento en memoria tampón en función de la duración del realmacenamiento en memoria tampón, según las realizaciones de la presente invención.

La figura 7 ilustra un impacto de repeticiones del realmacenamiento en memoria tampón en función del número de repeticiones de realmacenamiento en memoria tampón, de acuerdo con las realizaciones de la presente invención. La figura 8 ilustra un impacto del factor de olvido en función del tiempo desde el último realmacenamiento en memoria tampón, según las realizaciones de la presente invención.

La figura 9 es un módulo de agregación según las realizaciones de la presente invención.

La figura 10 representa un diagrama de bloques esquemático que ilustra unidades funcionales de un estimador MOS para predecir una MOS de sesión multimedia según las realizaciones de la presente invención.

La figura 11 ilustra un diagrama de bloques esquemático que ilustra un ordenador que comprende un producto de programa informático con un programa informático para predecir una MOS de sesión multimedia, según realizaciones de la presente invención.

Descripción detallada de la solución propuesta

La invención se describirá a continuación con más detalle a continuación haciendo referencia a los dibujos adjuntos, en los que se muestran ciertas realizaciones de la invención. Sin embargo, esta invención puede realizarse de muchas formas diferentes y no debe interpretarse como limitada a las realizaciones expuestas en el presente documento; más bien, estas realizaciones se proporcionan a modo de ejemplo de modo que esta descripción sea minuciosa y completa, y transmita completamente el alcance de la invención a los expertos en la técnica. Los números similares se refieren a elementos similares a lo largo de la descripción.

La MOS subjetiva es cómo los humanos califican la calidad de una secuencia multimedia. La estimación de MOS objetiva utiliza modelos para predecir/estimar cómo lo calificarán los humanos. En general, los métodos basados en parámetros se utilizan generalmente para predecir la MOS multimedia. Este tipo de métodos basados en parámetros suele tener como resultado un error de predicción bastante grande.

La idea básica de las realizaciones presentadas en este documento es predecir la MOS de sesión multimedia. La sesión multimedia comprende una sesión de vídeo y una sesión de audio, donde la calidad de vídeo está representada por un vector de puntuaciones por unidad de tiempo de calidad de vídeo, y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio. La sesión multimedia está representada además por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia.

Una unidad de tiempo puede ser un segundo. Por tanto, las listas de puntuaciones por unidad de tiempo de la calidad de vídeo y de audio pueden obtenerse por segundo. Por ejemplo, un clip de 300 segundos tiene vectores de audio y de video con 300 elementos cada uno.

La duración del almacenamiento inicial en memoria tampón también se puede expresar en segundos. Por ejemplo, un almacenamiento inicial en memoria tampón de 8 segundos (que tiene un tiempo de inicio en 0 segundos) tiene una duración de 8 segundos. La duración y la ubicación del realmacenamiento en memoria tampón también se pueden expresar en segundos. Los tiempos de inicio están en tiempo de los medios, por lo que no depende de la duración de ningún almacenamiento en memoria tampón anterior.

Según un aspecto, se proporciona un método, realizado por un estimador MOS, puntuación media de opinión, para predecir una MOS de sesión multimedia, tal como se describe en la figura 2. El método comprende una etapa S1 de generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de video y el vector de puntuaciones por unidad de tiempo de calidad de audio.

Las características de calidad audiovisual comprenden un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio. Es decir, la calidad de video y la calidad de audio se "fusionan" en una medida de calidad combinada, mosBoth. Esta fusión se conoce por ITU-T P.1201. Por ejemplo, tal como se indica en un código fuente a continuación, una puntuación de calidad audiovisual por unidad de tiempo se puede calcular como:

(mosV[i] - l ) c[l7] ■ (mosA[i] - l ) c[18] ■ (mosV[i] - 1) ■ ------- ^ -------) mosBothfi] 1

1 c[l7] c [18]

donde mosV y mosA, respectivamente, son vectores de puntuaciones por unidad de tiempo de calidad de video y de audio, y c[17] y c[18] son ponderaciones de fusión de audio y video. Por ejemplo, c[17] puede establecerse en 0,16233 y c[18] en -0,013804, pero la presente invención no se limita en modo alguno a estos valores específicos.

Las características de calidad audiovisual comprenden además una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales del tiempo desde el tiempo de inicio de la sesión multimedia y de la duración de la sesión multimedia. Es decir, debido a los efectos de la memoria, los medios reproducidos más atrás en el tiempo y, por lo tanto, más atrás en la memoria se olvidan ligeramente y, por lo tanto, se ponderan a la baja. La combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual se denomina "mosBasic". En la figura 3 se muestra un ejemplo de las ponderaciones como funciones de una diferencia entre la duración de la sesión multimedia y el tiempo desde el tiempo de inicio (representada en este caso como una edad de muestra) de la sesión multimedia. El siguiente código fuente muestra cómo se puede calcular mosBasic:

donde mosLength corresponde a la duración de la sesión multimedia, mosTime corresponde a la diferencia entre la duración de la sesión multimedia y el tiempo desde el tiempo de inicio de la sesión multimedia, y c[1] y c[2] son ponderaciones de adaptación de memoria. Por ejemplo, c[1] puede establecerse en 0,2855 y c[2] en 10,256, pero la presente invención no se limita en modo alguno a estos valores específicos.

Las características de calidad audiovisual comprenden además un sesgo negativo. El sesgo negativo representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia. Cuando la calidad de los medios varía, uno se ve más afectado por una caída repentina de la calidad, en comparación con una mejora repentina similar. Este efecto es capturado por el sesgo negativo. El sesgo negativo se puede modelizar calculando los desplazamientos para cada puntuación de calidad por unidad de tiempo (por ejemplo, un segundo) hacia mosBasic. Estos desplazamientos también se pueden escalar por la ponderación del factor de olvido, de modo que los medios que estén más atrás en la memoria tengan menos impacto.

A partir de este vector de desplazamientos por unidad de tiempo (es decir, un segundo) ponderadas, se puede calcular un cierto percentil. Por ejemplo, este puede ser un percentil 10, pero también podría ser un percentil diferente. Este suele ser un número negativo, ya que las puntuaciones de calidad más bajas en los vectores normalmente deberían ser menores que mosBasic, por lo que el resultado se invalida en un valor positivo, lo que significa que un valor más alto ahora indica un mayor impacto del sesgo negativo. A continuación, esto se escala linealmente al rango correcto. Un ejemplo de un código fuente para calcular el sesgo negativo es como:

mosOffset = list(mosBoth)

for i in range(mosLength):

mosTime = mosLength-1-1

mosWeight = exponential([1, c[l], 0, c [2]], mosTime)

mosOffset[i] = (mosOffset[i] - mosBasic)*mosWeight

mosPerc = np.percentile(mosOffset, c[22], interpolation='linear')

negBias = np.máximum(0, -mosPerc)

negBias = negBias*c[23]

De manera equivalente, el sesgo negativo se calcula de la siguiente manera:

donde t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia. En este caso, c[22] y c[23] representan coeficientes de sesgo negativo. Por ejemplo, c[22] puede establecerse en 9,1647 y c[23] en 0,74811, pero la presente invención no se limita en modo alguno a estos valores específicos. Las características de calidad audiovisual comprenden un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual. Es decir, cuando la calidad de los medios fluctúa esto es molesto, y el efecto de la fluctuación de la calidad se detecta contando el número de topes y fondos en los que las puntuaciones de calidad de los medios de un segundo no ponderadas (mosBoth) van por encima o por debajo de mosBasic. En otras palabras, el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual puede calcularse como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia. El valor umbral puede usarse para descartar pequeñas variaciones que pueden no ser perceptibles. Un ejemplo del valor umbral es 0,1, es decir, se utiliza una histéresis de 0,1.

El término que representa una degradación debida a oscilaciones, oscDeg, en las puntuaciones por unidad de tiempo de calidad audiovisual también puede truncarse de modo que el valor máximo sea 0,2 oscilaciones por segundo. Esto puede multiplicarse a continuación por una desviación estándar de los valores de calidad audiovisual por unidad de tiempo (es decir, por segundo), de modo que un mayor nivel de oscilaciones tenga un mayor impacto. El siguiente código fuente ilustra cómo se puede calcular el término que representa una degradación debida a oscilaciones:

ose =0

offset = 0.1

state = 0

for i in range(mosLength):

if state != 1:

if mosBoth[i] > mosBasic offset:

ose = 1

state = 1

elif state != -1:

if mosBoth[i] < mosBasic - offset:

ose = 1

state =-l

oscRel = ose / mosLength

oscRel = np.minimum(oscRel, 0.2) # Limit to one change per 5 sec

oscDeg = np.power(oscRel * np.std(mosBoth, ddof=l), c [19]) * c[20]

A continuación, el resultado se puede escalar de forma no lineal (aproximadamente cuadrática) y, finalmente, escalar linealmente al rango correcto.

El método comprende una etapa S2 de generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón.

Las características de almacenamiento en memoria tampón generadas pueden comprender un término que representa una degradación debida al almacenamiento inicial en memoria tampón, initDeg, y un término que representa una degradación debida al realmacenamiento en memoria tampón, bufDeg.

El término que representa la degradación debida al almacenamiento inicial en memoria tampón puede modelizarse como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido.

El impacto del almacenamiento inicial en memoria tampón puede ser una función sigmoide de la duración del almacenamiento inicial en memoria tampón. Por ejemplo, la función sigmoide básicamente puede dar un impacto cero por debajo de 5 segundos y un impacto de 4 si la duración del almacenamiento inicial en memoria tampón es mayor que eso, tal como se muestra en la figura 4. El código fuente para calcular initDeg puede ser el siguiente: lengthDeg = sigmoid([0, 4, c[10] , c[10] 4- c[ll]], buflnit) memoryDeg = exponential ( [1, c [ 4] , 0, c [ 5] ] , mosLengt.h) initDeg = lengthDeg*memoryDeg

En este caso, c[10] y c[11] son constantes relacionadas con el almacenamiento inicial en memoria tampón y c[4] y c[5] son ponderaciones de memoria relacionadas con el almacenamiento inicial en memoria tampón. Por ejemplo, c[10] = 4,5327, c[11] = 1,0054, c[4] = 0,054304 y c[5] = 10,286, pero la presente invención no se limita de ninguna manera a estos valores específicos.

Sin embargo, el impacto del almacenamiento inicial en memoria tampón solo es molesto durante el propio almacenamiento inicial en memoria tampón o poco después. Si los medios continúan transmitiéndose continuamente, este problema se olvida muy pronto. Por lo tanto, el segundo modelo consiste en ponderar el impacto del almacenamiento inicial en memoria tampón con un factor de olvido. El factor de olvido puede ser una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia, tal como se muestra en la figura 5. El término que representa la degradación debida al realmacenamiento en memoria tampón, bufDeg, puede modelizarse como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de los productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones del realmacenamiento en memoria tampón y un impacto de tiempo desde el último realmacenamiento en memoria tampón. Para cada instancia de realmacenamiento en memoria tampón, primero se calcula el impacto del realmacenamiento en memoria tampón. El impacto de la duración del realmacenamiento en memoria tampón puede ser una función sigmoide de la duración del realmacenamiento en memoria tampón, tal como se muestra en la figura 6.

Sin embargo, el impacto de la duración del realmacenamiento en memoria tampón solo modeliza un solo realmacenamiento en memoria tampón, evaluado cerca del momento en que ocurrió el realmacenamiento en memoria tampón. Si hay más realmacenamientos en memoria tampón, cada uno adicional resulta más molesto. Esto se modeliza mediante el impacto de las repeticiones del realmacenamiento en memoria tampón. El impacto de las repeticiones de realmacenamiento en memoria tampón puede ser una función sigmoide de un número de repeticiones de realmacenamiento en memoria tampón, tal como se muestra en la figura 7. Por ejemplo, se asigna una ponderación de hasta 5 cuando el número de realmacenamientos en memoria tampón se convierte en 4 o más. Finalmente, a medida que pasa el tiempo desde el último realmacenamiento en memoria tampón, este tiende a ser olvidado. El impacto del tiempo desde el último realmacenamiento en memoria tampón, o el llamado factor de olvido, puede modelizarse como una función exponencial del tiempo desde el último realmacenamiento en memoria tampón, tal como se muestra en la figura 8.

Para obtener el efecto final de una sola repetición de realmacenamiento en memoria tampón, se multiplica el impacto de la duración del realmacenamiento en memoria tampón, el impacto de la repetición del realmacenamiento en memoria tampón y el impacto del tiempo desde el último realmacenamiento en memoria tampón. Este resultado se suma a continuación al resultado de impacto total para todos los realmacenamiento en memoria tampón, tal como se muestra en el siguiente código fuente:

bufDeg = 0;

for j in range(len(bufLength)):

lengthDeg = sigmoid([0, 4, c[12], c [12]+c[13]], bufLength[j]) repeatDeg = sigmoid([l, c[14], c[15], c[15]+c [16]], j)

memoryDeg = exponential([1, c[7], 0, c [8]], mosLength - bufStart[j]) bufDeg = bufDeg lengthDeg * repeatDeg * memoryDeg

bufDeg = bufDeg/4 * (mosBasic-1)

En este caso, lengthDeg, repeatDeg y memoryDeg denotan impactos debidos a la duración del realmacenamiento en memoria tampón, la repetición del realmacenamiento en memoria tampón y el impacto del tiempo desde el último realmacenamiento en memoria tampón respectivamente, y bufStart [j] denota el tiempo desde el último realmacenamiento en memoria tampón. Además, c[12] y c[13] son constantes de impacto del realmacenamiento en memoria tampón, c[14] -c[16] son constantes relacionadas con la repetición del realmacenamiento en memoria tampón, y c[7] y c[8] son tiempo desde el último impacto de realmacenamiento en memoria tampón (también denominados ponderaciones de memoria de realmacenamiento en memoria tampón). Por ejemplo, se puede establecer c[12] = -67,632, c[13] = 158,18, c[14] = 4,9894, c[15] = 2,1274, c[16] = 2,0001, c[7] = 0,17267 y c[8] = 10, pero la presente invención no se limita en modo alguno a estos valores específicos.

Por último, el término resultante que representa la degradación debida al realmacenamiento en memoria tampón se puede reescalar en relación con mosBasic. Esto se puede hacer ya que las personas se molestan más por un nuevo realmacenamiento en memoria tampón si por lo demás tienen buena calidad, mientras que si la calidad es mala, un realmacenamiento en memoria tampón no degrada tanto la percepción de las personas.

El método comprende una etapa S3 de estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas, tal como se ilustra en la figura 9. La MOS de sesión multimedia se puede estimar como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón. La puntuación también se trunca para que esté entre 1 y 5. En otras palabras, la MOS de sesión multimedia se puede estimar de acuerdo con el siguiente código fuente:

mos = mosBasic - initDeg - bufDeg - oscDeg - negBias

if mos < 1:

mos = 1

if mos > 5:

mos = 5

return (mos)

La figura 10 es un diagrama de bloques esquemático de un estimador MOS 100, para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de vídeo y una sesión de audio. La calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio. La sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia.

El estimador MOS 100 comprende, según este aspecto, una unidad de generación 160, configurada para generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio. Las características de calidad audiovisual comprenden:

- un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio;

- una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia;

- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia; y

un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual.

La unidad de generación 160 está configurada además para generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón. El estimador MOS 100 comprende, según este aspecto, una unidad de estimación 170, configurada para estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.

Las unidades de generación 160 y de estimación 170 pueden estar basadas en hardware, basadas en software (en este caso se denominan módulos de generación y de estimación respectivamente) o pueden ser una combinación de hardware y software.

La unidad de generación 160 puede calcular el sesgo negativo como:

donde t es el tiempo desde el tiempo de inicio de la sesión multimedia, T es la duración de la sesión multimedia y c[1], c[2] y c[23] son constantes.

La unidad de generación 160 puede calcular la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia. El valor umbral puede ser por ejemplo 0,1. La degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual también se puede truncar de modo que el valor máximo sea de 0,2 oscilaciones por segundo.

Las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida a un realmacenamiento en memoria tampón. Por tanto, la unidad de generación 160 puede modelizar el término que representa la degradación debida al almacenamiento inicial en memoria tampón como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido. El impacto del almacenamiento inicial en memoria tampón puede ser una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido puede ser una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.

La unidad de generación 160 puede modelizar el término que representa la degradación debida al realmacenamiento en memoria tampón como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones de realmacenamiento en memoria tampón y un impacto de tiempo desde que finalizó el último realmacenamiento en memoria tampón. El impacto de la duración del realmacenamiento en memoria tampón puede ser una función sigmoide de la duración del realmacenamiento en memoria tampón. El impacto de repeticiones del realmacenamiento en memoria tampón puede ser una función sigmoide de un número de repeticiones del realmacenamiento en memoria tampón. El impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón puede ser una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.

El estimador MOS 100 puede estimar la MOS de sesión multimedia como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma del sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.

El estimador MOS 100 se puede implementar en hardware, software o una combinación de hardware y software. El estimador MOS 100 se puede implementar en un equipo de usuario, tal como un teléfono móvil, tableta, ordenador de sobremesa, miniordenador portátil, reproductor multimedia, servidor de transmisión continua de video, decodificador u ordenador. El estimador MOS 100 también puede implementarse en un dispositivo de red en forma de, o conectado a un nodo de red, tal como una estación base de radio, en una red o sistema de comunicaciones. Aunque las unidades respectivas dadas a conocer junto con la figura 10 se han dado a conocer como unidades físicamente independientes en el dispositivo, donde todas pueden ser circuitos de propósito especial, tales como ASIC (Circuitos Integrados de Aplicación Específica), son posibles realizaciones alternativas del dispositivo donde algunas de las unidades o todas ellas se implementan como módulos de programa informático que se ejecutan en un procesador de propósito general. Una realización de este tipo se describe en la figura 11.

La figura 11 ilustra esquemáticamente una realización de un ordenador 150 que tiene una unidad de procesamiento 110 tal como un DSP (procesador de señal digital) o una CPU (unidad central de procesamiento). La unidad de procesamiento 110 puede ser una sola unidad o una pluralidad de unidades para realizar diferentes etapas del método descrito en la presente memoria. El ordenador también comprende una unidad de entrada/salida (E/S) 120 para recibir un vector de puntuaciones por unidad de tiempo de calidad de vídeo, un vector de puntuaciones por unidad de tiempo de calidad de audio, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y una duración del almacenamiento inicial en memoria tampón. La unidad de E/S 120 se ha ilustrado como una sola unidad en la figura 11 pero también puede tener la forma de una unidad de entrada independiente y una unidad de salida independiente.

Además, el ordenador 150 comprende al menos un producto 130 de programa informático en forma de una memoria no volátil, por ejemplo, una EEPROM (memoria de sólo lectura programable y borrable eléctricamente), una memoria flash o una unidad de disco. El producto 130 de programa informático comprende un programa informático 140, que comprende un medio de código que, cuando se ejecuta en el ordenador 150, tal como mediante la unidad de procesamiento 110, hace que el ordenador 150 realice las etapas del método descrito anteriormente en relación con la figura 2.

Las realizaciones descritas anteriormente deben entenderse como unos pocos ejemplos ilustrativos de la presente invención. Los expertos en la técnica entenderán que se pueden realizar diversas modificaciones, combinaciones y cambios en las realizaciones sin apartarse del alcance de la presente invención. En particular, las diferentes soluciones de piezas en las diferentes realizaciones se pueden combinar en otras configuraciones, cuando sea técnicamente posible.

Código de agregación

El siguiente código de Python resume el algoritmo para estimar MOS, de acuerdo con las realizaciones de la presente invención:

def aggregationl1(mosV, mosA, buflnit, bufLength, bufStart):

# mosv y mosA son vectores de puntuaciones ¹ -sec, índice ⁰ es el comienzo del video o del audio

# b u f i n i t son los segundos de almacenamiento inicial en memoria tampón

# bufLength es un vector de duraciones de almacenamiento en memoria tampón

# b u f s t a r t es un vector de tiempos de inicio de almacenamiento en memoria tampón

# co - Relleno

# ci-c3 - Ponderaciones de adaptación de memoria

# c 4 - c 6 - Ponderaciones de memoria Initbut

# c7-c9 - Ponderaciones de memoria de almacenamiento en memoria tampón

# c i o - c i i - Impacto de Initbut

# ci2-ci3 - Impacto de Rebuf

# c i ⁴ - c i 6 - Perjuicio de repetición

# c 1 ⁷ - c 1 ⁸ - Ponderaciones de fusión de audio/video

# ci9-c2o - Ponderaciones de oscilación

# c2i - Sesgo de la última parte (no utilizado)

# c22-23 - Coefs. de sesgo negativo

c = [0, 0.2855, 10.256, 17.85, 0.054304, 10.286, 9.8766, 0.17267, 10, 17.762, 4.5327, 1.0054, -67.632, 158.18, 4.9894, 2.1274, 2.0001, 0.16233, -0.013804, 2.1944, 43.565, 0.13025, 9.1647, 0.74811]

mosLength = np.minimum(len(mosV), len(mosA))

sumí = 0

sum2 = 0

mosBoth = list(mosV)

for i in range (mosLength) :

mosBoth[i] = (1 * (mosV[i] - 1) c[17] * (mosA[i] - 1) c[18] * (mosV[i] - 1) * (mosA[i] - 1) / 4) / (1 c[17] c[18] ) 1

mosTime = mosLength - i - 1

mosWeight = exponential([1, c[l], 0, c[2]], mosTime)

sumí = mosBoth[i] * mosWeight

sum2 = mosWeight

mosBasic sumí / sum2

^{O S C}0

offset = 0.1

State 0

for i in range(mosLength):

if state != 1: # State = unknown or dip

if mosBoth[i] > mosBasic offset:

ose = 1

s ta te = 1

elif state != -1: # State = unknown or top

if mosBoth[i] < mosBasic - offset:

ose = 1

state =-l

oscRel = ose / mosLength

oscRel = np.minimum(oscRel, 0.2) # Limit to one change per 5 sec oscDeg = np.power(oscRel * np.std(mosBoth, ddof=l), c[19]) * c[20]

mosOffset. = list (mosBoth)

for i in range(mosLength):

mosTime = mosLength-1-1

mosWeight = exponential([1 , c[1], 0, c[2] ], mosTime)

mosOffset[i] = (mosOffset[i] - mosBasic)*mosWeight

mosPerc = np.percentile(mosOffset, c[22], interpolation='linear' ^ # Should normally be negative

negBias = np.máximum(0, -mosPerc)

negBias — negBias*c[23]

lengthDeg = sigmoid ([0, 4, c.[10], c.[10] c.[11]], bufInit)

memoryDeg = exponential ([1, c[4], 0, c.[5] ], mosLength)

initDeg — lengthDeg^memoryDeg

bufDeg = 0;

for j in range(len(bufLength)):

lengthDeg - sigmoid([0, 4, c[12], c[12]+c[13]], bufLength[j]) repeatDeg = sigmoid([1, c[14], c[15], c[15]+c[16]], j)

memoryDeg = exponential([1 , c[7], 0, c[8]], mosLength - bufStartfj] bufDeg = bufDeg lengthDeg * repeatDeg * memoryDeg

bufDeg = bufDeg/4 * (mosBasic-1) # Convert to relativo change

¡nos = mosBasic - initDeg - bufDeg - oscDeg - negBias

if mos < 1:

mos = 1

if mos > 5:

mos = 5

return (mos)

def sigmoid(par, x)

scalex= 10/ (par[3] - par[2])

midx = (par[2]+ par[3]) / 2

y = par[0] (par[l] - par[0]) / (1+ np.exp(-scalex* (x - midx)))

return y

def exponential(c,x):

z = np.log(0.5) / (—(c[3]- c[2]))

y = c[l] (c[0] —c[1])* np.exp(-(x- c [2]) * z)

return y

Referencias

[1] Liu Yao et al: "Deriving and Validating User Experience Model for DASH Video Straming", Transacciones de IEEE sobre transmisión, Centro de servicio de IEEE, Piscataway, Nueva Jersey, EE. UU., Vol. 61, núm. 4, págs. 651-665, diciembre de 2015.

Claims

REIVINDICACIONES

1. Un método, realizado por un estimador de Puntuación Media de Opinión, MOS, (100), para predecir una MOS de sesión multimedia, en el que la sesión multimedia comprende una sesión de video y una sesión de audio, en el que la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y en el que la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en el que la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el método:

- generar características de calidad audiovisual (S1) a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:

- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como:

donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y

- un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual;

- generar (S2) características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;

- estimar (S3) una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.

2. El método según la reivindicación 1, en el que el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual se calcula como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia.

3. El método según cualquiera de las reivindicaciones anteriores, en el que las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida al realmacenamiento en memoria tampón.

4. El método según la reivindicación 3, en el que el término que representa la degradación debida al almacenamiento inicial en memoria tampón se modeliza como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido, en el que el impacto del almacenamiento inicial en memoria tampón es una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido es una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.

5. El método según la reivindicación 3, en el que el término que representa la degradación debida al realmacenamiento en memoria tampón se modeliza como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones de realmacenamiento en memoria tampón y un impacto de tiempo desde que finalizó el último realmacenamiento en memoria tampón, en el que el impacto de la duración del realmacenamiento en memoria tampón es una función sigmoide de una duración del realmacenamiento en memoria tampón, el impacto de las repeticiones del realmacenamiento en memoria tampón es una función sigmoide de un número de repeticiones del realmacenamiento en memoria tampón, y el impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón es una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.

6. El método según cualquiera de las reivindicaciones anteriores, en el que la MOS de sesión multimedia se estima como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.

7. Un estimador de la puntuación media de opinión, MOS, (100), para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de vídeo y una sesión de audio, donde la calidad de vídeo está representada por un vector de puntuaciones por unidad de tiempo de calidad de vídeo, y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de la calidad de audio, y donde la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el estimador MOS medios de procesamiento operativos para:

- generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y del vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:

- generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;

- estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.

8. El estimador MOS (100) según la reivindicación 7, en el que el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual se calcula como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia.

9. El estimador MOS (100) según cualquiera de las reivindicaciones 7 a 8, en el que las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida a un realmacenamiento en memoria tampón.

10. El estimador MOS (100) según la reivindicación 9, en el que el término que representa la degradación debida al almacenamiento inicial en memoria tampón se modeliza como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido, donde el impacto del almacenamiento inicial en memoria tampón es una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido es una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.

11. El estimador MOS (100) según la reivindicación 9, en el que el término que representa la degradación debida al realmacenamiento en memoria tampón se modeliza como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones del realmacenamiento en memoria tampón y un impacto de tiempo desde que el último realmacenamiento en memoria tampón finalizó, donde el impacto de la duración del realmacenamiento en memoria tampón es una función sigmoide de la duración del realmacenamiento en memoria tampón, el impacto de repeticiones de realmacenamiento en memoria tampón es una función sigmoide de un número de repeticiones de realmacenamiento en memoria tampón, y el impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón es una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.

12. El estimador MOS (100) según cualquiera de las reivindicaciones anteriores, en el que la MOS de sesión multimedia se estima como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.

13. Un programa informático (140) para un estimador de Puntuación Media de Opinión, MOS, para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de video y una sesión de audio, donde la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en donde la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el programa informático (140) un código de programa informático que, cuando se ejecuta en un ordenador (150), hace que el ordenador (150):

- genere características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y del vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:

- genere características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;

- estime una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.

14. Un producto de programa informático para un estimador MOS que comprende un programa informático para un estimador MOS según la reivindicación 13, y un medio legible por ordenador en el que está almacenado el programa informático para un estimador MOS.