ES2903550T3 - Estimación de la calidad de una transmisión continua multimedia adaptativa - Google Patents
Estimación de la calidad de una transmisión continua multimedia adaptativa Download PDFInfo
- Publication number
- ES2903550T3 ES2903550T3 ES17742379T ES17742379T ES2903550T3 ES 2903550 T3 ES2903550 T3 ES 2903550T3 ES 17742379 T ES17742379 T ES 17742379T ES 17742379 T ES17742379 T ES 17742379T ES 2903550 T3 ES2903550 T3 ES 2903550T3
- Authority
- ES
- Spain
- Prior art keywords
- time
- quality
- per unit
- vector
- rebuffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title description 2
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000003139 buffering effect Effects 0.000 claims abstract description 75
- 230000015556 catabolic process Effects 0.000 claims abstract description 43
- 238000006731 degradation reaction Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000010355 oscillation Effects 0.000 claims abstract description 19
- 239000000872 buffer Substances 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims 2
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- FBOUIAKEJMZPQG-AWNIVKPZSA-N (1E)-1-(2,4-dichlorophenyl)-4,4-dimethyl-2-(1,2,4-triazol-1-yl)pent-1-en-3-ol Chemical compound C1=NC=NN1/C(C(O)C(C)(C)C)=C/C1=CC=C(Cl)C=C1Cl FBOUIAKEJMZPQG-AWNIVKPZSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23406—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving management of server-side video buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/23805—Controlling the feeding rate to the network, e.g. by controlling the video pump
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2402—Monitoring of the downstream path of the transmission network, e.g. bandwidth available
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Un método, realizado por un estimador de Puntuación Media de Opinión, MOS, (100), para predecir una MOS de sesión multimedia, en el que la sesión multimedia comprende una sesión de video y una sesión de audio, en el que la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y en el que la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en el que la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el método: - generar características de calidad audiovisual (S1) a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual: - un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio; - una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia; - un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como: donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y - un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual; - generar (S2) características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón; - estimar (S3) una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.
Description
DESCRIPCIÓN
Estimación de la calidad de una transmisión continua multimedia adaptativa
Campo técnico
Esta invención se refiere a un método, un estimador MOS, un programa informático y un producto de programa informático para predecir la MOS (Puntuación Media de Opinión) de una sesión multimedia.
Antecedentes
La transmisión continua de medios es más popular que nunca, ya que tanto los consumidores como los usuarios empresariales aumentan el consumo de contenidos. _Esta se utiliza en redes sociales tales como YouTube, Twitter y Facebook y, por supuesto, también por los proveedores de servicios de vídeo a la carta, tal como Netflix. Según algunos informes, Netflix y YouTube juntos representan la mitad del tráfico pico de Internet en América del Norte. Además, se prevé que el número de hogares con suscripción de vídeo a la carta alcance los 306 millones en 200 países en 2020.
Cuando la capacidad de transmisión en una red fluctúa, por ejemplo para una conexión inalámbrica, el reproductor de medios a menudo puede seleccionar adaptar la tasa de bits, de modo que el video se pueda seguir suministrando, aunque a veces con peor calidad (menor tasa de bits, menor resolución, etc.). En la figura 1A se muestra un ejemplo para un video de 60 segundos, donde la altura del segmento representa la tasa de bits y cada segmento tiene una duración de 5 segundos. En casi todos los casos, la calidad variará de forma correspondiente, es decir, una tasa de bits más alta dará una calidad más alta y una tasa de bits más baja dará una calidad más baja. Por tanto, es de vital importancia para los proveedores estimar la Calidad de Experiencia (QoE) de los usuarios, que es fundamentalmente la opinión subjetiva de la calidad de un servicio. Para este propósito, se puede utilizar la prueba subjetiva, en la que se pide a un panel de espectadores que evalúe la calidad percibida de la transmisión continua de medios. Normalmente, la calidad se da en una escala de 1 ("mala") a 5 ("excelente"), y a continuación se promedia entre todos los espectadores, formando una puntuación media de opinión (MOS). Sin embargo, estas pruebas subjetivas son costosas, tanto en tiempo como en dinero y, para evitarlo, se han desarrollado métodos objetivos de estimación de QoE ("modelos de calidad objetivos").
La puntuación media de opinión (MOS) es una medida de la opinión subjetiva de los usuarios sobre el rendimiento de un servicio o aplicación. Se ha utilizado ampliamente para evaluar la calidad de las aplicaciones multimedia. La Recomendación ITU-T P. 800 ha estandarizado el uso de MOS en una escala de Clasificación de Categoría Absoluta (ACR) de 5 puntos para la evaluación de las secuencias de prueba audiovisuales. La escala ACR varía de 5 (Excelente) a 1 (Malo). Este método es particularmente relevante en escenarios donde a un usuario se le presenta una secuencia de prueba a la vez y a continuación se le pide que la califique.
Normalmente se utilizan diferentes modelos de calidad objetivos para audio y video. Los modelos estiman la degradación de la calidad debido a la propia codificación, teniendo en cuenta parámetros como la tasa de bits (audio y video), frecuencia de muestreo (audio), número de canales (audio), resolución (video), velocidad de tramas (video), GOP tamaño (video, un parámetro relacionado con la codificación de video), etc. La salida del modelo de calidad de audio o de video para una sesión completa (como en la imagen de arriba) es típicamente una lista de puntuaciones MOS objetivas, donde cada puntuación representa la calidad de un segmento de medios individual (es decir, cada puntuación representa la calidad durante 5 segundos en la figura anterior). En la recomendación ITU-T P.1201 se pueden encontrar ejemplos de modelos de calidad de codificación de audio y de video. La Recomendación ITU-T G.1071 proporciona modelos algorítmicos para la planificación de redes de servicios de vídeo basados en IP. Liu et al. proponen un modelo de obtención y validación de la experiencia de usuario , para la transmisión continua de video DASH, en [1].
Cuando se crean, los modelos de calidad de audio y de video se entrenan en un conjunto de pruebas subjetivas. Esto se consigue de la siguiente manera: se varía un número específico de parámetros y se producen clips multimedia utilizando estos parámetros. A continuación, estos clips son calificados por espectadores durante una prueba subjetiva, y a continuación los modelos de calidad se hacen para que coincidan lo más posible (en cierto sentido) con los resultados de las pruebas subjetivas.
Por lo general, los modelos se entrenan en segmentos de señal más cortos, generalmente alrededor de 5 a 10 segundos, donde la calidad de los medios es más o menos constante durante el clip. Esto significa que, en principio, los modelos solo proporcionan resultados precisos cuando reciben segmentos de duraciones correspondientes y cuando no hay variaciones importantes de calidad. Para obtener una puntuación objetiva para un clip multimedia que sea mucho más largo que esto, es necesario un modelo de agregación. Debido al procesamiento de la percepción humana no lineal, sencillamente no es posible, por ejemplo, promediar las puntuaciones de los segmentos individuales.
Un modelo de agregación también combina las puntuaciones de calidad del modelo de audio y video en puntuaciones de medios combinadas, que representan la percepción total de los medios. Otra tarea del modelo de
agregación es tener en cuenta degradaciones debidas al almacenamiento en memoria tampón. El almacenamiento en memoria tampón se produce cuando la velocidad de transmisión en la red no es lo suficientemente alta como para que se consuman más datos en el reproductor de medios que los que entrega la red. Esto provocará "huecos" en la reproducción de medios, durante los que el reproductor de medios llena su memoria tampón de datos, tal como se ejemplifica en la figura 1B. Por consiguiente, el modelo de agregación al final tiene que tener en cuenta ambos efectos, tanto una calidad de audio y de video intrínseca variable, como las degradaciones debidas a almacenamientos en memoria tampón, tal como en el ejemplo más complejo que se muestra en la figura 1C.
El almacenamiento en memoria tampón puede ser un almacenamiento inicial en memoria tampón (antes de que se presente cualquier medio al usuario) o posibles realmacenamientos en memoria tampón durante la reproducción. Compendio
Los modelos de agregación de memoria tampón existentes, por ejemplo como en ITU-T P.1201, hasta ahora se han limitado a duraciones de sesión de hasta un minuto, lo que es demasiado corto para una sesión de video típica, por ejemplo YouTube. Con secuencias más largas, los efectos de la memoria humana también comienzan a notarse, lo que significa que las personas recuerdan menos de lo que vieron más atrás en el tiempo y, por lo tanto, califican principalmente la calidad de video después de las últimas partes. Esto no se contempla en los modelos existentes. Para imitar con precisión el efecto total de las adaptaciones de calidad, diferentes resoluciones, almacenamiento en memoria tampón y tiempos de sesión más largos, se necesita un modelo más complejo.
Es un objetivo mejorar la predicción de las puntuaciones medias de opinión.
Un primer aspecto de las realizaciones define un método, realizado por un estimador de Puntuación Media de Opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas. Un segundo aspecto de las realizaciones define un estimador de Puntuación Media de Opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas.
Un tercer aspecto de las realizaciones define un programa informático para un estimador de puntuación media de opinión, MOS, para predecir un MOS de sesión multimedia, tal como se define en las reivindicaciones adjuntas. Un cuarto aspecto de las realizaciones define un producto de programa informático que comprende medios legibles por ordenador y un programa informático según el tercer aspecto, almacenado en los medios legibles por ordenador. Ventajosamente, al menos algunas de las realizaciones proporcionan un estimador MOS que maneja sesiones de video tanto cortas como largas, y proporciona una puntuación MOS más precisa. El estimador MOS según por lo menos algunas de las realizaciones es relativamente poco complejo en términos de potencia computacional y se puede implementar fácilmente en todos los entornos.
Cabe señalar que cualquier característica del primer, segundo, tercer y cuarto aspectos puede aplicarse a cualquier otro aspecto, cuando sea apropiado. Asimismo, cualquier ventaja del primer aspecto puede aplicarse igualmente al segundo, tercer y cuarto aspecto respectivamente, y viceversa. Otros objetivos, características y ventajas de las realizaciones adjuntas resultarán evidentes a partir de la siguiente descripción detallada, de las reivindicaciones dependientes adjuntas y de los dibujos.
En general, todos los términos usados en las reivindicaciones deben interpretarse de acuerdo con su significado ordinario en el campo técnico, a menos que se defina explícitamente lo contrario en el presente documento. Todas las referencias a "un/una/el/la elemento, aparato, componente, medio, etapa, etc." deben interpretarse abiertamente como una referencia a al menos una instancia del elemento, aparato, componente, medio, etapa, etc., a menos que se indique explícitamente lo contrario. Las etapas de cualquier método divulgado en este documento no tienen que realizarse en el orden exacto divulgado, a menos que se indique explícitamente.
Breve descripción de los dibujos
La invención se describe a continuación, a modo de ejemplo, haciendo referencia a los dibujos adjuntos, en los que: Las figuras 1A-C son gráficos esquemáticos que ilustran el almacenamiento en memoria tampón y la tasa de bits a lo largo del tiempo.
La figura 2 ilustra las etapas realizadas por un estimador MOS según las realizaciones de la presente invención. La figura 3 ilustra el factor de ponderación en función de una edad de la muestra según las realizaciones de la presente invención.
La figura 4 muestra un impacto del almacenamiento inicial en memoria tampón en función de la duración del almacenamiento inicial en memoria tampón según las realizaciones de la presente invención.
La figura 5 muestra un impacto del factor de olvido en función del tiempo, desde el tiempo de inicio de la sesión multimedia, según las realizaciones de la presente invención.
La figura 6 ilustra un impacto de la duración del realmacenamiento en memoria tampón en función de la duración del realmacenamiento en memoria tampón, según las realizaciones de la presente invención.
La figura 7 ilustra un impacto de repeticiones del realmacenamiento en memoria tampón en función del número de repeticiones de realmacenamiento en memoria tampón, de acuerdo con las realizaciones de la presente invención. La figura 8 ilustra un impacto del factor de olvido en función del tiempo desde el último realmacenamiento en memoria tampón, según las realizaciones de la presente invención.
La figura 9 es un módulo de agregación según las realizaciones de la presente invención.
La figura 10 representa un diagrama de bloques esquemático que ilustra unidades funcionales de un estimador MOS para predecir una MOS de sesión multimedia según las realizaciones de la presente invención.
La figura 11 ilustra un diagrama de bloques esquemático que ilustra un ordenador que comprende un producto de programa informático con un programa informático para predecir una MOS de sesión multimedia, según realizaciones de la presente invención.
Descripción detallada de la solución propuesta
La invención se describirá a continuación con más detalle a continuación haciendo referencia a los dibujos adjuntos, en los que se muestran ciertas realizaciones de la invención. Sin embargo, esta invención puede realizarse de muchas formas diferentes y no debe interpretarse como limitada a las realizaciones expuestas en el presente documento; más bien, estas realizaciones se proporcionan a modo de ejemplo de modo que esta descripción sea minuciosa y completa, y transmita completamente el alcance de la invención a los expertos en la técnica. Los números similares se refieren a elementos similares a lo largo de la descripción.
La MOS subjetiva es cómo los humanos califican la calidad de una secuencia multimedia. La estimación de MOS objetiva utiliza modelos para predecir/estimar cómo lo calificarán los humanos. En general, los métodos basados en parámetros se utilizan generalmente para predecir la MOS multimedia. Este tipo de métodos basados en parámetros suele tener como resultado un error de predicción bastante grande.
La idea básica de las realizaciones presentadas en este documento es predecir la MOS de sesión multimedia. La sesión multimedia comprende una sesión de vídeo y una sesión de audio, donde la calidad de vídeo está representada por un vector de puntuaciones por unidad de tiempo de calidad de vídeo, y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio. La sesión multimedia está representada además por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia.
Una unidad de tiempo puede ser un segundo. Por tanto, las listas de puntuaciones por unidad de tiempo de la calidad de vídeo y de audio pueden obtenerse por segundo. Por ejemplo, un clip de 300 segundos tiene vectores de audio y de video con 300 elementos cada uno.
La duración del almacenamiento inicial en memoria tampón también se puede expresar en segundos. Por ejemplo, un almacenamiento inicial en memoria tampón de 8 segundos (que tiene un tiempo de inicio en 0 segundos) tiene una duración de 8 segundos. La duración y la ubicación del realmacenamiento en memoria tampón también se pueden expresar en segundos. Los tiempos de inicio están en tiempo de los medios, por lo que no depende de la duración de ningún almacenamiento en memoria tampón anterior.
Según un aspecto, se proporciona un método, realizado por un estimador MOS, puntuación media de opinión, para predecir una MOS de sesión multimedia, tal como se describe en la figura 2. El método comprende una etapa S1 de generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de video y el vector de puntuaciones por unidad de tiempo de calidad de audio.
Las características de calidad audiovisual comprenden un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio. Es decir, la calidad de video y la calidad de audio se "fusionan" en una medida de calidad combinada, mosBoth. Esta fusión se conoce por ITU-T P.1201. Por ejemplo, tal como se indica en un código fuente a continuación, una puntuación de calidad audiovisual por unidad de tiempo se puede calcular como:
(mosV[i] - l ) c[l7] ■ (mosA[i] - l ) c[18] ■ (mosV[i] - 1) ■ ------- ^ -------) mosBothfi] 1
1 c[l7] c [18]
donde mosV y mosA, respectivamente, son vectores de puntuaciones por unidad de tiempo de calidad de video y de audio, y c[17] y c[18] son ponderaciones de fusión de audio y video. Por ejemplo, c[17] puede establecerse en 0,16233 y c[18] en -0,013804, pero la presente invención no se limita en modo alguno a estos valores específicos.
Las características de calidad audiovisual comprenden además una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales del tiempo desde el tiempo de inicio de la sesión multimedia y de la duración de la sesión multimedia. Es decir, debido a los efectos de la memoria, los medios reproducidos más atrás en el tiempo y, por lo tanto, más atrás en la memoria se olvidan ligeramente y, por lo tanto, se ponderan a la baja. La combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual se denomina "mosBasic". En la figura 3 se muestra un ejemplo de las ponderaciones como funciones de una diferencia entre la duración de la sesión multimedia y el tiempo desde el tiempo de inicio (representada en este caso como una edad de muestra) de la sesión multimedia. El siguiente código fuente muestra cómo se puede calcular mosBasic:
donde mosLength corresponde a la duración de la sesión multimedia, mosTime corresponde a la diferencia entre la duración de la sesión multimedia y el tiempo desde el tiempo de inicio de la sesión multimedia, y c[1] y c[2] son ponderaciones de adaptación de memoria. Por ejemplo, c[1] puede establecerse en 0,2855 y c[2] en 10,256, pero la presente invención no se limita en modo alguno a estos valores específicos.
Las características de calidad audiovisual comprenden además un sesgo negativo. El sesgo negativo representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia. Cuando la calidad de los medios varía, uno se ve más afectado por una caída repentina de la calidad, en comparación con una mejora repentina similar. Este efecto es capturado por el sesgo negativo. El sesgo negativo se puede modelizar calculando los desplazamientos para cada puntuación de calidad por unidad de tiempo (por ejemplo, un segundo) hacia mosBasic. Estos desplazamientos también se pueden escalar por la ponderación del factor de olvido, de modo que los medios que estén más atrás en la memoria tengan menos impacto.
A partir de este vector de desplazamientos por unidad de tiempo (es decir, un segundo) ponderadas, se puede calcular un cierto percentil. Por ejemplo, este puede ser un percentil 10, pero también podría ser un percentil diferente. Este suele ser un número negativo, ya que las puntuaciones de calidad más bajas en los vectores normalmente deberían ser menores que mosBasic, por lo que el resultado se invalida en un valor positivo, lo que significa que un valor más alto ahora indica un mayor impacto del sesgo negativo. A continuación, esto se escala linealmente al rango correcto. Un ejemplo de un código fuente para calcular el sesgo negativo es como:
mosOffset = list(mosBoth)
for i in range(mosLength):
mosTime = mosLength-1-1
mosWeight = exponential([1, c[l], 0, c [2]], mosTime)
mosOffset[i] = (mosOffset[i] - mosBasic)*mosWeight
mosPerc = np.percentile(mosOffset, c[22], interpolation='linear')
negBias = np.máximum(0, -mosPerc)
negBias = negBias*c[23]
De manera equivalente, el sesgo negativo se calcula de la siguiente manera:
donde t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia. En este caso, c[22] y c[23] representan coeficientes de sesgo negativo. Por ejemplo, c[22] puede establecerse en 9,1647 y c[23] en 0,74811, pero la presente invención no se limita en modo alguno a estos valores específicos. Las características de calidad audiovisual comprenden un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual. Es decir, cuando la calidad de los medios fluctúa esto es molesto, y el efecto de la fluctuación de la calidad se detecta contando el número de topes y fondos en los que las puntuaciones de calidad de los medios de un segundo no ponderadas (mosBoth) van por encima o por debajo de mosBasic. En otras palabras, el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual puede calcularse como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia. El valor umbral puede usarse para descartar pequeñas variaciones que pueden no ser perceptibles. Un ejemplo del valor umbral es 0,1, es decir, se utiliza una histéresis de 0,1.
El término que representa una degradación debida a oscilaciones, oscDeg, en las puntuaciones por unidad de tiempo de calidad audiovisual también puede truncarse de modo que el valor máximo sea 0,2 oscilaciones por segundo. Esto puede multiplicarse a continuación por una desviación estándar de los valores de calidad audiovisual por unidad de tiempo (es decir, por segundo), de modo que un mayor nivel de oscilaciones tenga un mayor impacto. El siguiente código fuente ilustra cómo se puede calcular el término que representa una degradación debida a oscilaciones:
ose =0
offset = 0.1
state = 0
for i in range(mosLength):
if state != 1:
if mosBoth[i] > mosBasic offset:
ose = 1
state = 1
elif state != -1:
if mosBoth[i] < mosBasic - offset:
ose = 1
state =-l
oscRel = ose / mosLength
oscRel = np.minimum(oscRel, 0.2) # Limit to one change per 5 sec
oscDeg = np.power(oscRel * np.std(mosBoth, ddof=l), c [19]) * c[20]
A continuación, el resultado se puede escalar de forma no lineal (aproximadamente cuadrática) y, finalmente, escalar linealmente al rango correcto.
El método comprende una etapa S2 de generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón.
Las características de almacenamiento en memoria tampón generadas pueden comprender un término que representa una degradación debida al almacenamiento inicial en memoria tampón, initDeg, y un término que representa una degradación debida al realmacenamiento en memoria tampón, bufDeg.
El término que representa la degradación debida al almacenamiento inicial en memoria tampón puede modelizarse como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido.
El impacto del almacenamiento inicial en memoria tampón puede ser una función sigmoide de la duración del almacenamiento inicial en memoria tampón. Por ejemplo, la función sigmoide básicamente puede dar un impacto cero por debajo de 5 segundos y un impacto de 4 si la duración del almacenamiento inicial en memoria tampón es mayor que eso, tal como se muestra en la figura 4. El código fuente para calcular initDeg puede ser el siguiente: lengthDeg = sigmoid([0, 4, c[10] , c[10] 4- c[ll]], buflnit) memoryDeg = exponential ( [1, c [ 4] , 0, c [ 5] ] , mosLengt.h) initDeg = lengthDeg*memoryDeg
En este caso, c[10] y c[11] son constantes relacionadas con el almacenamiento inicial en memoria tampón y c[4] y c[5] son ponderaciones de memoria relacionadas con el almacenamiento inicial en memoria tampón. Por ejemplo, c[10] = 4,5327, c[11] = 1,0054, c[4] = 0,054304 y c[5] = 10,286, pero la presente invención no se limita de ninguna manera a estos valores específicos.
Sin embargo, el impacto del almacenamiento inicial en memoria tampón solo es molesto durante el propio almacenamiento inicial en memoria tampón o poco después. Si los medios continúan transmitiéndose continuamente, este problema se olvida muy pronto. Por lo tanto, el segundo modelo consiste en ponderar el impacto del almacenamiento inicial en memoria tampón con un factor de olvido. El factor de olvido puede ser una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia, tal como se muestra en la figura 5. El término que representa la degradación debida al realmacenamiento en memoria tampón, bufDeg, puede modelizarse como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de los productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones del realmacenamiento en memoria tampón y un impacto de tiempo desde el último realmacenamiento en memoria tampón. Para cada instancia de realmacenamiento en memoria tampón, primero se calcula el impacto del realmacenamiento en memoria tampón. El impacto de la duración del realmacenamiento en memoria tampón puede ser una función sigmoide de la duración del realmacenamiento en memoria tampón, tal como se muestra en la figura 6.
Sin embargo, el impacto de la duración del realmacenamiento en memoria tampón solo modeliza un solo realmacenamiento en memoria tampón, evaluado cerca del momento en que ocurrió el realmacenamiento en memoria tampón. Si hay más realmacenamientos en memoria tampón, cada uno adicional resulta más molesto. Esto se modeliza mediante el impacto de las repeticiones del realmacenamiento en memoria tampón. El impacto de las repeticiones de realmacenamiento en memoria tampón puede ser una función sigmoide de un número de repeticiones de realmacenamiento en memoria tampón, tal como se muestra en la figura 7. Por ejemplo, se asigna una ponderación de hasta 5 cuando el número de realmacenamientos en memoria tampón se convierte en 4 o más. Finalmente, a medida que pasa el tiempo desde el último realmacenamiento en memoria tampón, este tiende a ser olvidado. El impacto del tiempo desde el último realmacenamiento en memoria tampón, o el llamado factor de olvido, puede modelizarse como una función exponencial del tiempo desde el último realmacenamiento en memoria tampón, tal como se muestra en la figura 8.
Para obtener el efecto final de una sola repetición de realmacenamiento en memoria tampón, se multiplica el impacto de la duración del realmacenamiento en memoria tampón, el impacto de la repetición del realmacenamiento en memoria tampón y el impacto del tiempo desde el último realmacenamiento en memoria tampón. Este resultado se suma a continuación al resultado de impacto total para todos los realmacenamiento en memoria tampón, tal como se muestra en el siguiente código fuente:
bufDeg = 0;
for j in range(len(bufLength)):
lengthDeg = sigmoid([0, 4, c[12], c [12]+c[13]], bufLength[j]) repeatDeg = sigmoid([l, c[14], c[15], c[15]+c [16]], j)
memoryDeg = exponential([1, c[7], 0, c [8]], mosLength - bufStart[j]) bufDeg = bufDeg lengthDeg * repeatDeg * memoryDeg
bufDeg = bufDeg/4 * (mosBasic-1)
En este caso, lengthDeg, repeatDeg y memoryDeg denotan impactos debidos a la duración del realmacenamiento en memoria tampón, la repetición del realmacenamiento en memoria tampón y el impacto del tiempo desde el último
realmacenamiento en memoria tampón respectivamente, y bufStart [j] denota el tiempo desde el último realmacenamiento en memoria tampón. Además, c[12] y c[13] son constantes de impacto del realmacenamiento en memoria tampón, c[14] -c[16] son constantes relacionadas con la repetición del realmacenamiento en memoria tampón, y c[7] y c[8] son tiempo desde el último impacto de realmacenamiento en memoria tampón (también denominados ponderaciones de memoria de realmacenamiento en memoria tampón). Por ejemplo, se puede establecer c[12] = -67,632, c[13] = 158,18, c[14] = 4,9894, c[15] = 2,1274, c[16] = 2,0001, c[7] = 0,17267 y c[8] = 10, pero la presente invención no se limita en modo alguno a estos valores específicos.
Por último, el término resultante que representa la degradación debida al realmacenamiento en memoria tampón se puede reescalar en relación con mosBasic. Esto se puede hacer ya que las personas se molestan más por un nuevo realmacenamiento en memoria tampón si por lo demás tienen buena calidad, mientras que si la calidad es mala, un realmacenamiento en memoria tampón no degrada tanto la percepción de las personas.
El método comprende una etapa S3 de estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas, tal como se ilustra en la figura 9. La MOS de sesión multimedia se puede estimar como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón. La puntuación también se trunca para que esté entre 1 y 5. En otras palabras, la MOS de sesión multimedia se puede estimar de acuerdo con el siguiente código fuente:
mos = mosBasic - initDeg - bufDeg - oscDeg - negBias
if mos < 1:
mos = 1
if mos > 5:
mos = 5
return (mos)
La figura 10 es un diagrama de bloques esquemático de un estimador MOS 100, para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de vídeo y una sesión de audio. La calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio. La sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia.
El estimador MOS 100 comprende, según este aspecto, una unidad de generación 160, configurada para generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio. Las características de calidad audiovisual comprenden:
- un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio;
- una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia;
- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia; y
un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual.
La unidad de generación 160 está configurada además para generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón. El estimador MOS 100 comprende, según este aspecto, una unidad de estimación 170, configurada para estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.
Las unidades de generación 160 y de estimación 170 pueden estar basadas en hardware, basadas en software (en este caso se denominan módulos de generación y de estimación respectivamente) o pueden ser una combinación de hardware y software.
La unidad de generación 160 puede calcular el sesgo negativo como:
donde t es el tiempo desde el tiempo de inicio de la sesión multimedia, T es la duración de la sesión multimedia y c[1], c[2] y c[23] son constantes.
La unidad de generación 160 puede calcular la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia. El valor umbral puede ser por ejemplo 0,1. La degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual también se puede truncar de modo que el valor máximo sea de 0,2 oscilaciones por segundo.
Las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida a un realmacenamiento en memoria tampón. Por tanto, la unidad de generación 160 puede modelizar el término que representa la degradación debida al almacenamiento inicial en memoria tampón como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido. El impacto del almacenamiento inicial en memoria tampón puede ser una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido puede ser una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.
La unidad de generación 160 puede modelizar el término que representa la degradación debida al realmacenamiento en memoria tampón como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones de realmacenamiento en memoria tampón y un impacto de tiempo desde que finalizó el último realmacenamiento en memoria tampón. El impacto de la duración del realmacenamiento en memoria tampón puede ser una función sigmoide de la duración del realmacenamiento en memoria tampón. El impacto de repeticiones del realmacenamiento en memoria tampón puede ser una función sigmoide de un número de repeticiones del realmacenamiento en memoria tampón. El impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón puede ser una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.
El estimador MOS 100 puede estimar la MOS de sesión multimedia como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma del sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.
El estimador MOS 100 se puede implementar en hardware, software o una combinación de hardware y software. El estimador MOS 100 se puede implementar en un equipo de usuario, tal como un teléfono móvil, tableta, ordenador de sobremesa, miniordenador portátil, reproductor multimedia, servidor de transmisión continua de video, decodificador u ordenador. El estimador MOS 100 también puede implementarse en un dispositivo de red en forma de, o conectado a un nodo de red, tal como una estación base de radio, en una red o sistema de comunicaciones. Aunque las unidades respectivas dadas a conocer junto con la figura 10 se han dado a conocer como unidades físicamente independientes en el dispositivo, donde todas pueden ser circuitos de propósito especial, tales como ASIC (Circuitos Integrados de Aplicación Específica), son posibles realizaciones alternativas del dispositivo donde algunas de las unidades o todas ellas se implementan como módulos de programa informático que se ejecutan en un procesador de propósito general. Una realización de este tipo se describe en la figura 11.
La figura 11 ilustra esquemáticamente una realización de un ordenador 150 que tiene una unidad de procesamiento 110 tal como un DSP (procesador de señal digital) o una CPU (unidad central de procesamiento). La unidad de procesamiento 110 puede ser una sola unidad o una pluralidad de unidades para realizar diferentes etapas del método descrito en la presente memoria. El ordenador también comprende una unidad de entrada/salida (E/S) 120 para recibir un vector de puntuaciones por unidad de tiempo de calidad de vídeo, un vector de puntuaciones por unidad de tiempo de calidad de audio, un vector de duraciones de realmacenamiento en memoria tampón de cada
evento de realmacenamiento en memoria tampón, y una duración del almacenamiento inicial en memoria tampón. La unidad de E/S 120 se ha ilustrado como una sola unidad en la figura 11 pero también puede tener la forma de una unidad de entrada independiente y una unidad de salida independiente.
Además, el ordenador 150 comprende al menos un producto 130 de programa informático en forma de una memoria no volátil, por ejemplo, una EEPROM (memoria de sólo lectura programable y borrable eléctricamente), una memoria flash o una unidad de disco. El producto 130 de programa informático comprende un programa informático 140, que comprende un medio de código que, cuando se ejecuta en el ordenador 150, tal como mediante la unidad de procesamiento 110, hace que el ordenador 150 realice las etapas del método descrito anteriormente en relación con la figura 2.
Las realizaciones descritas anteriormente deben entenderse como unos pocos ejemplos ilustrativos de la presente invención. Los expertos en la técnica entenderán que se pueden realizar diversas modificaciones, combinaciones y cambios en las realizaciones sin apartarse del alcance de la presente invención. En particular, las diferentes soluciones de piezas en las diferentes realizaciones se pueden combinar en otras configuraciones, cuando sea técnicamente posible.
Código de agregación
El siguiente código de Python resume el algoritmo para estimar MOS, de acuerdo con las realizaciones de la presente invención:
def aggregationl1(mosV, mosA, buflnit, bufLength, bufStart):
# mosv y mosA son vectores de puntuaciones 1 -sec, índice 0 es el comienzo del video o del audio
# b u f i n i t son los segundos de almacenamiento inicial en memoria tampón
# bufLength es un vector de duraciones de almacenamiento en memoria tampón
# b u f s t a r t es un vector de tiempos de inicio de almacenamiento en memoria tampón
# co - Relleno
# ci-c3 - Ponderaciones de adaptación de memoria
# c 4 - c 6 - Ponderaciones de memoria Initbut
# c7-c9 - Ponderaciones de memoria de almacenamiento en memoria tampón
# c i o - c i i - Impacto de Initbut
# ci2-ci3 - Impacto de Rebuf
# c i 4 - c i 6 - Perjuicio de repetición
# c 1 7 - c 1 8 - Ponderaciones de fusión de audio/video
# ci9-c2o - Ponderaciones de oscilación
# c2i - Sesgo de la última parte (no utilizado)
# c22-23 - Coefs. de sesgo negativo
c = [0, 0.2855, 10.256, 17.85, 0.054304, 10.286, 9.8766, 0.17267, 10, 17.762, 4.5327, 1.0054, -67.632, 158.18, 4.9894, 2.1274, 2.0001, 0.16233, -0.013804, 2.1944, 43.565, 0.13025, 9.1647, 0.74811]
mosLength = np.minimum(len(mosV), len(mosA))
sumí = 0
sum2 = 0
mosBoth = list(mosV)
for i in range (mosLength) :
mosBoth[i] = (1 * (mosV[i] - 1) c[17] * (mosA[i] - 1) c[18] * (mosV[i] - 1) * (mosA[i] - 1) / 4) / (1 c[17] c[18] ) 1
mosTime = mosLength - i - 1
mosWeight = exponential([1, c[l], 0, c[2]], mosTime)
sumí = mosBoth[i] * mosWeight
sum2 = mosWeight
mosBasic sumí / sum2
O S C 0
offset = 0.1
State 0
for i in range(mosLength):
if state != 1: # State = unknown or dip
if mosBoth[i] > mosBasic offset:
ose = 1
s ta te = 1
elif state != -1: # State = unknown or top
if mosBoth[i] < mosBasic - offset:
ose = 1
state =-l
oscRel = ose / mosLength
oscRel = np.minimum(oscRel, 0.2) # Limit to one change per 5 sec oscDeg = np.power(oscRel * np.std(mosBoth, ddof=l), c[19]) * c[20]
mosOffset. = list (mosBoth)
for i in range(mosLength):
mosTime = mosLength-1-1
mosWeight = exponential([1 , c[1], 0, c[2] ], mosTime)
mosOffset[i] = (mosOffset[i] - mosBasic)*mosWeight
mosPerc = np.percentile(mosOffset, c[22], interpolation='linear' ^ # Should normally be negative
negBias = np.máximum(0, -mosPerc)
negBias — negBias*c[23]
lengthDeg = sigmoid ([0, 4, c.[10], c.[10] c.[11]], bufInit)
memoryDeg = exponential ([1, c[4], 0, c.[5] ], mosLength)
initDeg — lengthDeg^memoryDeg
bufDeg = 0;
for j in range(len(bufLength)):
lengthDeg - sigmoid([0, 4, c[12], c[12]+c[13]], bufLength[j]) repeatDeg = sigmoid([1, c[14], c[15], c[15]+c[16]], j)
memoryDeg = exponential([1 , c[7], 0, c[8]], mosLength - bufStartfj] bufDeg = bufDeg lengthDeg * repeatDeg * memoryDeg
bufDeg = bufDeg/4 * (mosBasic-1) # Convert to relativo change
¡nos = mosBasic - initDeg - bufDeg - oscDeg - negBias
if mos < 1:
mos = 1
if mos > 5:
mos = 5
return (mos)
def sigmoid(par, x)
scalex= 10/ (par[3] - par[2])
midx = (par[2]+ par[3]) / 2
y = par[0] (par[l] - par[0]) / (1+ np.exp(-scalex* (x - midx)))
return y
def exponential(c,x):
z = np.log(0.5) / (—(c[3]- c[2]))
y = c[l] (c[0] —c[1])* np.exp(-(x- c [2]) * z)
return y
Referencias
[1] Liu Yao et al: "Deriving and Validating User Experience Model for DASH Video Straming", Transacciones de IEEE sobre transmisión, Centro de servicio de IEEE, Piscataway, Nueva Jersey, EE. UU., Vol. 61, núm. 4, págs. 651-665, diciembre de 2015.
Claims (14)
1. Un método, realizado por un estimador de Puntuación Media de Opinión, MOS, (100), para predecir una MOS de sesión multimedia, en el que la sesión multimedia comprende una sesión de video y una sesión de audio, en el que la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y en el que la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en el que la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo una duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el método:
- generar características de calidad audiovisual (S1) a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:
- un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio;
- una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia;
- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como:
donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y
- un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual;
- generar (S2) características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;
- estimar (S3) una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.
2. El método según la reivindicación 1, en el que el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual se calcula como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia.
3. El método según cualquiera de las reivindicaciones anteriores, en el que las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida al realmacenamiento en memoria tampón.
4. El método según la reivindicación 3, en el que el término que representa la degradación debida al almacenamiento inicial en memoria tampón se modeliza como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido, en el que el impacto del almacenamiento inicial en memoria tampón es una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido es una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.
5. El método según la reivindicación 3, en el que el término que representa la degradación debida al realmacenamiento en memoria tampón se modeliza como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un
impacto de repeticiones de realmacenamiento en memoria tampón y un impacto de tiempo desde que finalizó el último realmacenamiento en memoria tampón, en el que el impacto de la duración del realmacenamiento en memoria tampón es una función sigmoide de una duración del realmacenamiento en memoria tampón, el impacto de las repeticiones del realmacenamiento en memoria tampón es una función sigmoide de un número de repeticiones del realmacenamiento en memoria tampón, y el impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón es una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.
6. El método según cualquiera de las reivindicaciones anteriores, en el que la MOS de sesión multimedia se estima como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.
7. Un estimador de la puntuación media de opinión, MOS, (100), para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de vídeo y una sesión de audio, donde la calidad de vídeo está representada por un vector de puntuaciones por unidad de tiempo de calidad de vídeo, y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de la calidad de audio, y donde la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el estimador MOS medios de procesamiento operativos para:
- generar características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y del vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:
- un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio;
- una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia;
- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como:
donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y
- un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual;
- generar características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;
- estimar una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.
8. El estimador MOS (100) según la reivindicación 7, en el que el término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de calidad audiovisual se calcula como el número de ocurrencias cuando la diferencia absoluta entre las puntuaciones por unidad de tiempo de la calidad audiovisual y la combinación ponderada de las puntuaciones por unidad de tiempo de calidad audiovisual supera un valor umbral determinado, dividido por la duración de la sesión multimedia.
9. El estimador MOS (100) según cualquiera de las reivindicaciones 7 a 8, en el que las características de almacenamiento en memoria tampón generadas comprenden un término que representa una degradación debida al almacenamiento inicial en memoria tampón y un término que representa una degradación debida a un realmacenamiento en memoria tampón.
10. El estimador MOS (100) según la reivindicación 9, en el que el término que representa la degradación debida al almacenamiento inicial en memoria tampón se modeliza como un producto de un término que representa un impacto del almacenamiento inicial en memoria tampón y un término que representa un impacto del factor de olvido, donde el impacto del almacenamiento inicial en memoria tampón es una función sigmoide de la duración del almacenamiento inicial en memoria tampón, y el factor de olvido es una función exponencial del tiempo desde el tiempo de inicio de la sesión multimedia.
11. El estimador MOS (100) según la reivindicación 9, en el que el término que representa la degradación debida al realmacenamiento en memoria tampón se modeliza como una suma, sobre todos los eventos de realmacenamiento en memoria tampón, de productos de un impacto de la duración del realmacenamiento en memoria tampón, un impacto de repeticiones del realmacenamiento en memoria tampón y un impacto de tiempo desde que el último realmacenamiento en memoria tampón finalizó, donde el impacto de la duración del realmacenamiento en memoria tampón es una función sigmoide de la duración del realmacenamiento en memoria tampón, el impacto de repeticiones de realmacenamiento en memoria tampón es una función sigmoide de un número de repeticiones de realmacenamiento en memoria tampón, y el impacto del tiempo desde que finalizó el último realmacenamiento en memoria tampón es una función exponencial del tiempo desde que finalizó el último realmacenamiento en memoria tampón.
12. El estimador MOS (100) según cualquiera de las reivindicaciones anteriores, en el que la MOS de sesión multimedia se estima como la diferencia entre la combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual y la suma de: el sesgo negativo, el término que representa la degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual, el término que representa la degradación debida al almacenamiento inicial en memoria tampón y el término que representa la degradación debida al realmacenamiento en memoria tampón.
13. Un programa informático (140) para un estimador de Puntuación Media de Opinión, MOS, para predecir una MOS de sesión multimedia, donde la sesión multimedia comprende una sesión de video y una sesión de audio, donde la calidad de video está representada por un vector de puntuaciones por unidad de tiempo de calidad de video y donde la calidad de audio está representada por un vector de puntuaciones por unidad de tiempo de calidad de audio, y en donde la sesión multimedia está representada por un vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, un vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, y siendo la duración del almacenamiento inicial en memoria tampón el tiempo entre la iniciación de la sesión multimedia y el tiempo de inicio de la sesión multimedia, comprendiendo el programa informático (140) un código de programa informático que, cuando se ejecuta en un ordenador (150), hace que el ordenador (150):
- genere características de calidad audiovisual a partir del vector de puntuaciones por unidad de tiempo de calidad de vídeo y del vector de puntuaciones por unidad de tiempo de calidad de audio, comprendiendo las características de calidad audiovisual:
- un vector de puntuaciones por unidad de tiempo de calidad audiovisual, calculado como una función polinómica del vector de puntuaciones por unidad de tiempo de calidad de vídeo y el vector de puntuaciones por unidad de tiempo de calidad de audio;
- una combinación ponderada de las puntuaciones por unidad de tiempo de la calidad audiovisual, donde las ponderaciones son funciones exponenciales de un tiempo desde el tiempo de inicio de la sesión multimedia y una duración de sesión multimedia;
- un sesgo negativo que representa cómo una caída repentina en las puntuaciones por unidad de tiempo de la calidad audiovisual afecta a la MOS de sesión multimedia, calculándose el sesgo negativo como:
donde c[1], c[2] y c[23] son coeficientes dados, t es el tiempo desde el tiempo de inicio de la sesión multimedia y T es la duración de la sesión multimedia; y
- un término que representa una degradación debida a oscilaciones en las puntuaciones por unidad de tiempo de la calidad audiovisual;
- genere características de almacenamiento en memoria tampón a partir del vector de tiempos de inicio de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón, calculadas a partir del tiempo de inicio de la sesión multimedia, y el vector de duraciones de realmacenamiento en memoria tampón de cada evento de realmacenamiento en memoria tampón;
- estime una MOS de sesión multimedia a partir de las características de calidad audiovisual generadas y las características de almacenamiento en memoria tampón generadas.
14. Un producto de programa informático para un estimador MOS que comprende un programa informático para un estimador MOS según la reivindicación 13, y un medio legible por ordenador en el que está almacenado el programa informático para un estimador MOS.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662356112P | 2016-06-29 | 2016-06-29 | |
PCT/EP2017/066153 WO2018002234A1 (en) | 2016-06-29 | 2017-06-29 | Quality estimation of adaptive multimedia streaming |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2903550T3 true ES2903550T3 (es) | 2022-04-04 |
Family
ID=59383535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES17742379T Active ES2903550T3 (es) | 2016-06-29 | 2017-06-29 | Estimación de la calidad de una transmisión continua multimedia adaptativa |
Country Status (6)
Country | Link |
---|---|
US (2) | US10708636B2 (es) |
EP (1) | EP3479579B1 (es) |
JP (1) | JP6952061B2 (es) |
KR (2) | KR102417732B1 (es) |
ES (1) | ES2903550T3 (es) |
WO (1) | WO2018002234A1 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018034141A1 (ja) * | 2016-08-17 | 2018-02-22 | 日本電気株式会社 | ビットレート指示装置、ビットレート指示方法、及び、ビットレート指示プログラムが記録された記録媒体 |
EP3520422B1 (en) * | 2016-09-30 | 2022-11-02 | British Telecommunications public limited company | Viewer importance adaptive bit rate delivery |
US11317171B2 (en) | 2016-09-30 | 2022-04-26 | British Telecommunications Public Limited Company | Viewer importance adaptive bit rate delivery |
CN110545483B (zh) * | 2018-05-29 | 2021-08-10 | 北京字节跳动网络技术有限公司 | 网页中切换分辨率播放媒体文件的方法、装置及存储介质 |
ES2767475A1 (es) | 2020-02-07 | 2020-06-17 | Univ Madrid Politecnica | Metodo y sistema para la estimacion de calidad percibida en senal audiovisual |
KR20220117057A (ko) * | 2021-02-16 | 2022-08-23 | 삼성전자주식회사 | 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7197557B1 (en) * | 2001-05-29 | 2007-03-27 | Keynote Systems, Inc. | Method and system for evaluating quality of service for streaming audio and video |
JP2004172753A (ja) * | 2002-11-18 | 2004-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 映像・音声品質客観評価方法及び装置 |
FR2884087A1 (fr) | 2005-03-29 | 2006-10-06 | France Telecom | Procede et dispositif d'evaluation d'une degradation de qualite causee par une invariance d'un stimulus, telle que percue par un destinataire dudit stimulus |
JP4490374B2 (ja) * | 2006-01-19 | 2010-06-23 | 日本電信電話株式会社 | 映像品質評価装置および方法 |
US7953069B2 (en) * | 2006-04-18 | 2011-05-31 | Cisco Technology, Inc. | Device and method for estimating audiovisual quality impairment in packet networks |
JP4965659B2 (ja) * | 2006-10-19 | 2012-07-04 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | ビデオ画質の決定方法 |
KR101753195B1 (ko) * | 2010-07-27 | 2017-07-19 | 아주대학교산학협력단 | 통신 시스템에서 세션 연결 제어 장치 및 방법 |
US9191284B2 (en) * | 2010-10-28 | 2015-11-17 | Avvasi Inc. | Methods and apparatus for providing a media stream quality signal |
US9037743B2 (en) * | 2010-10-28 | 2015-05-19 | Avvasi Inc. | Methods and apparatus for providing a presentation quality signal |
US9398347B2 (en) | 2011-05-30 | 2016-07-19 | Sandvine Incorporated Ulc | Systems and methods for measuring quality of experience for media streaming |
GB201110254D0 (en) * | 2011-06-17 | 2011-08-03 | Irdeto Corporate Bv | Dynamic fingerprinting |
US9210419B2 (en) * | 2011-09-30 | 2015-12-08 | Netscout Systems, Inc. | System and method for diagnostic modeling of audio and video quality of service |
JP6011403B2 (ja) * | 2013-03-19 | 2016-10-19 | 富士通株式会社 | 移動通信システム、ユーザ体感品質予測方法、及び監視制御装置 |
JP6162596B2 (ja) * | 2013-12-24 | 2017-07-12 | 日本電信電話株式会社 | 品質推定装置、方法及びプログラム |
US10530826B2 (en) * | 2015-08-27 | 2020-01-07 | Cavium, Llc | Method and apparatus for providing a low latency transmission system using adjustable buffers |
CN108476317B (zh) | 2015-12-16 | 2021-07-09 | 日本电信电话株式会社 | 音频视频质量推测装置、音频视频质量推测方法以及程序 |
-
2017
- 2017-06-29 US US16/309,790 patent/US10708636B2/en active Active
- 2017-06-29 ES ES17742379T patent/ES2903550T3/es active Active
- 2017-06-29 EP EP17742379.5A patent/EP3479579B1/en active Active
- 2017-06-29 KR KR1020207030093A patent/KR102417732B1/ko active IP Right Grant
- 2017-06-29 KR KR1020187037600A patent/KR102170046B1/ko active IP Right Grant
- 2017-06-29 WO PCT/EP2017/066153 patent/WO2018002234A1/en unknown
- 2017-06-29 JP JP2018566839A patent/JP6952061B2/ja active Active
-
2020
- 2020-06-22 US US16/907,391 patent/US11463742B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3479579A1 (en) | 2019-05-08 |
US10708636B2 (en) | 2020-07-07 |
US11463742B2 (en) | 2022-10-04 |
KR20200123273A (ko) | 2020-10-28 |
US20200322654A1 (en) | 2020-10-08 |
KR102170046B1 (ko) | 2020-10-27 |
WO2018002234A1 (en) | 2018-01-04 |
KR20190010659A (ko) | 2019-01-30 |
US20190124375A1 (en) | 2019-04-25 |
EP3479579B1 (en) | 2021-11-10 |
KR102417732B1 (ko) | 2022-07-07 |
JP6952061B2 (ja) | 2021-10-20 |
JP2019526190A (ja) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2903550T3 (es) | Estimación de la calidad de una transmisión continua multimedia adaptativa | |
Hoßfeld et al. | Assessing effect sizes of influence factors towards a QoE model for HTTP adaptive streaming | |
US11770569B2 (en) | Providing risk based subscriber enhancements | |
Eswara et al. | A continuous QoE evaluation framework for video streaming over HTTP | |
Duanmu et al. | Assessing the quality-of-experience of adaptive bitrate video streaming | |
US12069122B2 (en) | System and method for managing video streaming quality of experience | |
Gustafsson et al. | Measuring multimedia quality in mobile networks with an objective parametric model | |
JP4490374B2 (ja) | 映像品質評価装置および方法 | |
Mäki et al. | A reduced-reference parametric model for audiovisual quality of IPTV services | |
Pal et al. | A No‐Reference Modular Video Quality Prediction Model for H. 265/HEVC and VP9 Codecs on a Mobile Device | |
Robitza et al. | Measuring YouTube QoE with ITU-T P. 1203 under constrained bandwidth conditions | |
Lebreton et al. | Predicting user quitting ratio in adaptive bitrate video streaming | |
Rao et al. | A large-scale evaluation of the bitstream-based video-quality model ITU-T P. 1204.3 on gaming content | |
Tran et al. | Cumulative quality modeling for HTTP adaptive streaming | |
JP6162596B2 (ja) | 品質推定装置、方法及びプログラム | |
De Pessemier et al. | Modeling subjective quality evaluations for mobile video watching in a living lab context | |
Yetgin et al. | Quality of experience prediction model for progressive downloading over mobile broadcast networks | |
Hegde et al. | QoE aware video adaptation for video streaming in 5G networks | |
Yu et al. | Modeling for short-form HTTP adaptive streaming considering memory effect | |
Li | QoE‐Based Performance Evaluation for Adaptive Media Playout Systems | |
Elmnsi et al. | Mobile devices pixel density and video quality | |
JP2011009919A (ja) | ユーザ体感品質推定システムおよび方法 | |
Shen et al. | QoE-optimal rate adaptation for HTTP adaptive streaming | |
JP5149248B2 (ja) | 網品質管理閾値算出装置および方法 | |
OA18973A (en) | Quality estimation of adaptive multimedia streaming |